CN108846033A - 特定领域词汇的发现及分类器训练方法和装置 - Google Patents
特定领域词汇的发现及分类器训练方法和装置 Download PDFInfo
- Publication number
- CN108846033A CN108846033A CN201810524813.9A CN201810524813A CN108846033A CN 108846033 A CN108846033 A CN 108846033A CN 201810524813 A CN201810524813 A CN 201810524813A CN 108846033 A CN108846033 A CN 108846033A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- specific area
- word
- character
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 125
- 239000012634 fragment Substances 0.000 claims abstract description 40
- 238000005520 cutting process Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000005457 optimization Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种特定领域词汇的发现及分类器训练方法和装置,所述方法包括:对文本进行切分得到若干字符串片段后,从中选取出成词字符串片段;运用预先训练得到的特定领域词汇的分类器,从所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇;其中,所述分类器是根据通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量,使用逻辑回归模型训练得到的。应用本发明可以构建一个完整简单高效的特定领域词汇的发现及分类器训练的方案。
Description
技术领域
本发明涉及新词发现技术领域,特别是指一种特定领域词汇的发现及分类器训练方法和装置。
背景技术
随着信息技术的发展,各个领域的电子文献变得日益丰富,在各个专业领域,文献数据库中的文献数量呈现出指数增长的趋势,对这些文献信息的处理难度也变得越来越大。中文有着特殊的组织结构,其信息处理对分词技术有着较高的要求,因而中文文献相对于英文文献有着较高的处理难度。如何针对某一特定的领域的中文的语法特征,找出其中存在的新的专业词汇,在信息检索中扮演着极为重要的角色。该特定领域可以是金融领域,也可以为IT领域,或者电力领域等。
现有的中文新词发现方案,主要分为两类,一类无监督新词发现方案,主要以互信息等信息论方法为主;第二类是有监督新词发现方案。
完全基于互信息PMI的无监督构词方案,虽然算法简单,效率高,但是存在两个严重的问题,一个是阈值选择困难,另外一个是基础的统计无法捕捉语义信息。
有监督的新词发现方案,主要依赖于CRF和HMM两个模型,该方案效果严重依赖于训练数据,而且CRF和HMM模型较为复杂。
发明内容
有鉴于此,本发明的目的在于提出一种特定领域词汇的发现及分类器训练方法和装置,构建一个完整简单高效的特定领域词汇的发现及分类器训练的方案。
基于上述目的本发明提供一种特定领域词汇的发现方法,包括:
对文本进行切分得到若干字符串片段后,从中选取出成词字符串片段;
运用预先训练得到的特定领域词汇的分类器,从所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇;
其中,所述分类器是根据通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量,使用逻辑回归模型训练得到的。
进一步,在所述从所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇后,还包括:
对分类出的特定领域的词汇和通用领域的词汇进行人工标注;
根据词汇的人工标注结果,对所述特定领域词汇的分类器做进一步优化。
其中,所述特定领域词汇的分类器具体根据如下方法训练得到:
确定所述通用词表和特定领域词表中每个词汇的成词特征向量和特定领域特征向量;
利用所述通用词表和特定领域词表中每个词汇的成词特征向量、特定领域特征向量及标注值构建训练数据矩阵;
基于所述训练数据矩阵使用逻辑回归模型训练得到所述特定领域词汇的分类器;
其中,所述通用词表中词汇的标注值为0,特定领域词表中词汇的标注值为1。
其中,所述词汇的成词特征向量,具体根据如下方法确定:
统计m1个字符组成的字符序列中每个字符在所述词汇中出现的频率;
根据所述每个字符在所述词汇中出现的频率,组成维度为m1的所述词汇的成词特征向量;
其中,所述m1个字符组成的字符序列是由所述特定领域词表中出现频率大于设定频率阈值的前m1个字符组成的;m1为自然数。
其中,所述词汇的特定领域特征向量,具体根据如下方法确定:
根据字符向量字典,确定所述词汇中每个字符对应的字符向量;
计算所述词汇中所有字符的字符向量的平均值;
根据所述词汇的第一个和最后一个字符的字符向量,以及计算的平均值,构建所述词汇的特定领域特征向量;
其中,所述字符向量字典是通过使用词向量映射工具针对所述通用词表和通用词表进行训练得到的。
本发明还提供一种特定领域词汇的分类器训练方法,包括:
确定通用词表和特定领域词表中每个词汇的成词特征向量和特定领域特征向量;
利用所述通用词表和特定领域词表中每个词汇的成词特征向量、特定领域特征向量及标注值组成训练数据矩阵;
基于所述训练数据矩阵,使用逻辑回归模型训练得到所述特定领域词汇的分类器;
其中,所述通用词表中词汇的标注值为0,特定领域词表中词汇的标注值为1。
本发明还提供一种发现特定领域词汇的装置,包括:
字符串切分模块,用于对文本进行切分得到若干字符串片段后,从中选取出成词字符串片段;
字符串分类模块,用于运用预先训练得到的特定领域词汇的分类器,从所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇;其中,所述分类器是根据通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量训练得到的。
本发明还提供一种训练特定领域词汇的分类器的装置,包括:
特征向量确定模块,用于确定通用词表和特定领域词表中每个词汇的成词特征向量和特定领域特征向量;
训练数据矩阵构建模块,用于利用所述通用词表和特定领域词表中每个词汇的成词特征向量、特定领域特征向量及标注值组成训练数据矩阵;其中,所述通用词表中词汇的标注值为0,特定领域词表中词汇的标注值为1;
模型训练模块,用于基于所述训练数据矩阵,使用逻辑回归模型训练得到所述特定领域词汇的分类器。
本发明实施例的技术方案中,运用预先通过通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量使用逻辑回归模型训练得到的特定领域词汇的分类器,从成词字符串片段中分类出特定领域的词汇和通用领域的词汇;一方面结合了逻辑回归模型训练方案的简单高效,另一方面充分考虑了专业特定领域词法特征,构建了一个完整简单高效的特定领域词汇的发现及分类器训练的方案。
附图说明
图1为本发明实施例提供的一种特定领域词汇的发现方法流程图;
图2为本发明实施例提供的一种特定领域词汇的分类器训练方法流程图;
图3为本发明实施例提供的词汇的成词特征向量确定方法流程图;
图4为本发明实施例提供的词汇的特定领域特征向量的确定方法流程图;
图5为本发明实施例提供的一种发现特定领域词汇的装置内部结构框图;
图6为本发明实施例提供的一种训练特定领域词汇的分类器的装置内部结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
下面结合附图详细说明本发明实施例的技术方案。
本发明实施例提供的一种特定领域词汇的发现方法,流程如图1所示,包括如下步骤:
S101:对文本进行切分得到若干字符串片段。
具体地,对长度为L的文本,分别按照长度N=1,2,3,4,5,(N<L)进行切分得到所述文本的若干字符串片段,作为候选成词字符串片段。
S102:从切分得到的若干字符串片段中,选取出成词字符串片段。
具体地,计算每一个候选成词字符串片段的内部凝固度和外部自由度;根据计算的内部凝固度和外部自由度与相应阈值的比较,根据比较结果选取出候选成词字符串片段中的成词字符串片段。
候选字符串片段的内部凝固度描述了给定候选字符串片段凝合的程度,数学定义为,假定给定的候选字符串片段s是由n个汉字C组成的字符串,即s=(C1,C2,...,Cn),那么s的内部凝固度就是:
P(C1,C2,...,Cn)/[P(C1)*P(C2,...,Cn)]与
P(C1,C2,...,Cn)/[P(C1,C2,...,Cn-1)*P(Cn)]中的较小值;
其中,P为统计字符串在语料中出现的概率。
候选字符串片段的外部自由度描述了候选字符串片段的自由运用程度,本质上描述了该候选字符串片段在给定语料中候选上下文的丰富程度。如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。邻接字熵的计算公式如下,这里以左邻字为例:
假设给定一个候选字符串片段s的左邻字集合为{C1,C2,C1,C2},那么根据信息熵公式,该候选字符串片段的左邻接字熵为:
E(s)=–(1/2)*ln(1/2)–(1/2)*ln(1/2)≈0.693。
如何根据字符串片段的内部凝固度和外部自由度判断该字符串片段是否为成词字符串片段的方法,为本领域技术人员所熟知,此处不赘述。
进一步,还可对字符串片段进行词法分析,从中滤除不可能成词的片段。
词法分析是从构词法的角度来衡量候选字符串片段是否构成一个词。包括两个方面,一方面候选字符串片段是否是停用词、另一方面是候选字符串片段是否包含不能构成词的中文字符。停用词包括常规标点,非法字符和互联网大部分停用词。在中文词法中,通常连词(例如及、或等)、指示代词(例如你、我等)和助词(例如者、曰等)不能构成词汇。
S103:运用预先训练得到的特定领域词汇的分类器,从所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇。
本步骤中所运用的特定领域词汇的分类器是一个二分类模型,用于判断给定的成词字符串片段是否是特定领域(比如电力领域)的词汇。本发明实施例中,该二分类模型选择简单的逻辑回归模型。本步骤中所运用的特定领域词汇的分类器可以是根据通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量,使用逻辑回归模型预先训练得到。
本步骤中,将上述步骤S102中选取出的成词字符串片段输入到预先训练得到的特定领域词汇的分类器,该分类器将针对每个输入的成词字符串片段计算出其为特定领域(比如电力领域)的词汇的概率值,概率值高于设定概率阈值的则确认为特定领域(比如电力领域)的词汇,否则确认为通用领域的词汇。
S104:根据对分类出的词汇的人工标注结果,对所述特定领域词汇的分类器做进一步优化。
本步骤中,根据对上述步骤S103分类出的特定领域的词汇和通用领域的词汇进行人工标注的结果,对所述特定领域词汇的分类器做进一步优化:若结果准确率较低,比如结果准确率低于设定的下限值,召回率较高,说明通用词和特定领域的专业词都很多,则上调分类器的概率阈值;若结果准确率较高,比如结果准确率高于设定的上限值,召回率较低,说明通用词很少,同时特定领域的词汇也有很多遗漏,则下调分类器的概率阈值;其中,概率阈值的取值范围在区间[0,1]中。
之后,将人工标注为特定领域的词汇添加到特定领域词表中,将人工标注为通用领域的词汇添加到通用领域词表中。
在对所述特定领域词汇的分类器做进一步优化后可以跳转到步骤S103,用优化后的特定领域词汇的分类器再次对成词字符串片段进行分类,检测优化效果。
具体地,本发明实施例提供的一种特定领域词汇的分类器训练方法,流程如图2所示,包括如下步骤:
S201:确定所述通用词表和特定领域词表中每个词汇的成词特征向量和特定领域特征向量。
具体地,用于训练特定领域词汇的分类器的数据可以由两个部分构成,一部分是专家标注的特定领域词汇的词表S(即特定领域词表),另外一部分是从搜狗30g新闻语料中抽取的词汇。首先过滤掉搜狗词汇中明显包含电、压等字符以及已经存在于词表S中的词汇,以此构建一个非常准确的通用词汇的词表G(即通用词表)。
其中,特定领域词表S中的每一个词汇的都是特定领域(比如电力领域)的词汇,标注值为1;通用词表G都是非特定领域(比如非电力领域)的词汇,标注值为0。
由于训练的目的是得到一个判断候选成词字符串片段是否是特定领域(比如电力领域)词汇的二分类模型,因此需要考虑候选成词字符串片段是否属于电力领域和是否成为词汇两个部分的特征。而词汇的成词特征向量和特定领域特征向量的确定方法将分别在后续详细介绍。
S202:利用所述通用词表和特定领域词表中每个词汇的成词特征向量、特定领域特征向量及标注值构建训练数据矩阵。
具体地,通用词表或特定领域词表中的每个词汇的m1维度的成词特征向量和m2维度的特定领域特征向量,可以组合成该词汇的m1+m2维度的特征向量;其中,m1和m2为自然数。
也就是说,通用词表或特定领域词表中的每个词汇的最终特征向量F_VECTOR由两部分构成,分别是表示成词特征的维度为m1的向量前半部分F_VECTOR_1和表示特定领域的维度为m2的向量后半部分F_VECTOR_2构成,最终对于每个词汇的特征是一个维度为m1+m2的向量F_VECTOR。
假设,特定领域词表S集合大小为size(S),通用词表G集合大小为size(G),则可以构成一个(size(S)+size(G))*(m1+m2+1)的矩阵,该矩阵的每行代表一个数据样本,其中一行对应于通用词表或特定领域词表中的一个词汇的m1+m2维度的特征向量和标注值;该矩阵的最后一列是通用词表和特定领域词表中各词汇的标注值,这样就构建了一个完整的训练数据矩阵。
S203:基于所述训练数据矩阵scikit-learn(科学机器学习库)中的逻辑回归模型训练得到所述特定领域词汇的分类器。
本发明的目的是训练一个判断候选字符串片段是否是特定领域词汇的二分类模型,最终选择逻辑回归分类器。逻辑回归是一个线性的二分类模型,实现简单,分类计算量小,速度快,容易并行处理大规模数据。在处理分类问题的同时还能给出一个概率值,有多种优化算法可以选择包括SGD(随机梯度下降法)、BFGS(拟牛顿算法)等。如何使用scikit-learn的逻辑回归模型进行分类器的训练为本领域技术人员所熟知的,此处不再赘述。
上述词汇的成词特征向量,是用以表征候选片段是否构成词汇,或者说从专家标注的特定领域词表中找出构成词汇的共同特性的特征,其具体确定方法,流程如图3所示,包括如下步骤:
S301:统计m1个字符组成的字符序列中每个字符在所述词汇中出现的频率;
其中,所述m1个字符组成的字符序列FC是由所述特定领域词表中出现频率大于设定频率阈值(比如60%)的前m1个字符组成的。
例如,从特定领域词表中统计出的出现频率大于60%前6个字符组成的字符序列FC=[c1,f3,f4,f5,f6,f7],所述词汇s=c1c2f4c3,则分别计算字符序列FC中的每个字符在所述词汇中出现的概率:
FC[0]=c1:f1在s中出现1次,则概率为1/4=0.25;
FC[1]=f3:f2在s中出现0次,则概率为0/4=0.0;
FC[2]=f4:f3在s中出现1次,则概率为1/4=0.25;
FC[3]=f5:f4在s中出现0次,则概率为0/4=0.0;
FC[4]=f6:f6在s中出现0次,则概率为0/4=0.0;
FC[5]=f7:f7在s中出现0次,则概率为0/4=0.0。
S302:根据所述每个字符在所述词汇中出现的频率,组成维度为m1的所述词汇的成词特征向量;
例如,根据上述计算得到的FC[0]~FC[5],构建的所述词汇的成词特征向量F_VECTOR_1=[0.25,0.0,0.25,0.0,0.0,0.0]。
上述词汇的特定领域特征向量的具体确定方法,流程如图4所示,包括如下步骤:
S401:根据字符向量字典,确定所述词汇中每个字符对应的字符向量。
本步骤中,针对所述词汇中每个字符,在字符向量字典中查找该字符所对应的字符向量;对于字符向量字典不存在的字符,则将默认字符向量作为该字符的字符向量。
其中,所述字符向量字典是通过word2vec(词向量映射)工具针对通用词表和特定领域词表进行训练得到的。Word2vec是一种训练词向量模型的工具。对于新词发现任务,需要关注的是构成词语的字,训练模型的单位则应该是词。因此,本方案对训练语料做了处理,以词为单位作为训练样本,以字为单位切分词语,然后利用word2vec构建字符向量模型。
Word2vec是一个用于处理文本的双层神经网络。它的输入是文本语料,输出则是一组向量:该语料中词语的特征向量。虽然Word2vec并不是深度神经网络,但它可以将文本转换为深度神经网络能够理解的数值形式。Word2vec的应用不止于解析自然语句。它还可以用于基因组、代码、点赞、播放列表、社交媒体图像等其他语言或符号序列,同样能够有效识别其中存在的模式。Word2vec的目的和功用是在向量空间内将词的向量按相似性进行分组。它能够识别出数学上的相似性。Word2vec能生成向量,以分布式的数值形式来表示词的上下文等特征。而这一过程无需人工干预。
S402:计算所述词汇中所有字符的字符向量的平均值。
S403:根据所述词汇的第一个和最后一个字符的字符向量,以及计算的平均值,构建所述词汇的特定领域特征向量。
比如,对于给定的长度为n的词汇s,分别取s的第一个字符c1对应的字符向量CHAR_VECTOR_DICT[c1],所有字符向量的平均值(CHAR_VECOTOR_DICT[c1]+..+CHAR_VECTOR_DICT[cn])/n,s的最后一个字符cn对应的字符向量CHAR_VECTOR_DICT[c2].这样就构成了一个维度为3×m的特征向量:
F_VECTOR_2=[CHAR_VECOTOR_DICT[c1],
(CHAR_VECOTOR_DICT[c1]+..+CHAR_VECTOR_DICT[cn])/n,
CHAR_VECTOR_DICT[c2]]
其中,m为字符向量字典中每个字符对应的字符向量的维度。
此外,对于不在向量字典中的字符,使用均匀分布在区间[-1.0,1.0]的默认向量DEFAULT_VECTOR代替。
例如,设定m为5,默认字符向量为DEFAULT_VECTOR=[0.48235567,-0.81228872,-0.05523273,-0.05216705,0.916538];训练出来的长度为5的字符向量词典VEC_DICT为如下:
[
c1,[0.0 0.4 0.5 0.6 0.1]
c2,[-0.2 0.0 0.3 0.2 0.1]
c3,[0.1 0.2 0.1 0.1 0.5]
c4,[-0.4 0.1 0.2 0.5 0.1]
c5,[-0.2 0.2 0.2 0.5 0.8]
]
假设所述词汇s=c1c2f4c3,则:
词汇的第一字符s[0]=c1的向量为:VEC_DICT[c1]=[0.0 0.4 0.5 0.6 0.1]
词汇的最后一个字符s[n-1]=c5的向量为:VEC_DICT[c5]=[-0.2 0.2 0.20.50.8]
其中由于字符向量字典中不存在字符f4,则使用默认向量DEFAULT_VECTOR代替,所有词汇的向量的平均值计算如下:
(VEC_DICT[c1]+VEC_DICT[c2]+DEFAULT_VECTOR+VEC_DICT[c3])/4=[0.09558892,-0.05307218,0.21119182,0.21195824,0.4041345]
通过实验验证,使用scikit-learn的逻辑回归模型训练分类器,默认参数取得较好效果。
上述的特定领域可以是电力领域、通信领域、天文领域等各种专业领域。
基于上述的方法,本发明实施例提供的一种发现特定领域词汇的装置,内部结构如图5所示,包括:字符串切分模块501、字符串分类模块502。
字符串切分模块501用于对文本进行切分得到若干字符串片段后,从中选取出成词字符串片段;
字符串分类模块502用于运用预先训练得到的特定领域词汇的分类器,从字符串切分模块501选取的所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇;其中,所述分类器是根据通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量训练得到的。
进一步,本发明实施例提供的发现特定领域词汇的装置还可包括:分类器优化模块503。
分类器优化模块503用于根据分类出的特定领域的词汇和通用领域的词汇的人工标注结果,对所述特定领域词汇的分类器做进一步优化。
本发明实施例提供的一种训练特定领域词汇的分类器的装置,内部结构如图6所示,包括:特征向量确定模块601、训练数据矩阵构建模块602、模型训练模块603。
特征向量确定模块601用于确定通用词表和特定领域词表中每个词汇的成词特征向量和特定领域特征向量;
训练数据矩阵构建模块602用于利用所述通用词表和特定领域词表中每个词汇的成词特征向量、特定领域特征向量及标注值组成训练数据矩阵;其中,所述通用词表中词汇的标注值为0,特定领域词表中词汇的标注值为1;
模型训练模块603用于基于所述训练数据矩阵,使用scikit-learn的逻辑回归模型训练得到所述特定领域词汇的分类器。
上述装置中各模块的功能的具体实现方法可参考上述如图1、2、3、4所示的流程中相应步骤中的方法,此处不再赘述。
本发明实施例的技术方案中,运用预先通过通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量使用逻辑回归模型训练得到的特定领域词汇的分类器,从成词字符串片段中分类出特定领域的词汇和通用领域的词汇;一方面结合了逻辑回归模型训练方案的简单高效,另一方面充分考虑了专业特定领域词法特征,构建了一个完整简单高效的特定领域词汇的发现及分类器训练的方案。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种特定领域词汇的发现方法,其特征在于,包括:
对文本进行切分得到若干字符串片段后,从中选取出成词字符串片段;
运用预先训练得到的特定领域词汇的分类器,从所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇;
其中,所述分类器是根据通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量,使用逻辑回归模型训练得到的。
2.根据权利要求1所述的方法,其特征在于,在所述从所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇后,还包括:
对分类出的特定领域的词汇和通用领域的词汇进行人工标注;
根据词汇的人工标注结果,对所述特定领域词汇的分类器做进一步优化。
3.根据权利要求2所述的方法,其特征在于,所述根据词汇的人工标注结果,对所述特定领域词汇的分类器做进一步优化,具体包括:
若结果准确率低于设定的下限值,则上调所述分类器的概率阈值;若结果准确率高于设定的上限值,则下调所述分类器的概率阈值。
4.根据权利要求1-3任一所述的方法,其特征在于,所述特定领域词汇的分类器具体根据如下方法训练得到:
确定所述通用词表和特定领域词表中每个词汇的成词特征向量和特定领域特征向量;
利用所述通用词表和特定领域词表中每个词汇的成词特征向量、特定领域特征向量及标注值构建训练数据矩阵;
基于所述训练数据矩阵使用逻辑回归模型训练得到所述特定领域词汇的分类器;
其中,所述通用词表中词汇的标注值为0,特定领域词表中词汇的标注值为1。
5.根据权利要求4所述的方法,其特征在于,所述词汇的成词特征向量,具体根据如下方法确定:
统计m1个字符组成的字符序列中每个字符在所述词汇中出现的频率;
根据所述每个字符在所述词汇中出现的频率,组成维度为m1的所述词汇的成词特征向量;
其中,所述m1个字符组成的字符序列是由所述特定领域词表中出现频率大于设定频率阈值的前m1个字符组成的;m1为自然数。
6.根据权利要求4所述的方法,其特征在于,所述词汇的特定领域特征向量,具体根据如下方法确定:
根据字符向量字典,确定所述词汇中每个字符对应的字符向量;
计算所述词汇中所有字符的字符向量的平均值;
根据所述词汇的第一个和最后一个字符的字符向量,以及计算的平均值,构建所述词汇的特定领域特征向量;
其中,所述字符向量字典是通过使用词向量映射工具针对所述通用词表和通用词表进行训练得到的。
7.一种特定领域词汇的分类器训练方法,其特征在于,包括:
确定通用词表和特定领域词表中每个词汇的成词特征向量和特定领域特征向量;
利用所述通用词表和特定领域词表中每个词汇的成词特征向量、特定领域特征向量及标注值组成训练数据矩阵;
基于所述训练数据矩阵,使用逻辑回归模型训练得到所述特定领域词汇的分类器;
其中,所述通用词表中词汇的标注值为0,特定领域词表中词汇的标注值为1。
8.一种发现特定领域词汇的装置,其特征在于,包括:
字符串切分模块,用于对文本进行切分得到若干字符串片段后,从中选取出成词字符串片段;
字符串分类模块,用于运用预先训练得到的特定领域词汇的分类器,从所述成词字符串片段中分类出特定领域的词汇和通用领域的词汇;其中,所述分类器是根据通用词表和特定领域词表中词汇的成词特征向量和特定领域特征向量训练得到的。
9.根据权利要求8所述的装置,其特征在于,还包括:
分类器优化模块,用于根据分类出的特定领域的词汇和通用领域的词汇的人工标注结果,对所述特定领域词汇的分类器做进一步优化。
10.一种训练特定领域词汇的分类器的装置,其特征在于,包括:
特征向量确定模块,用于确定通用词表和特定领域词表中每个词汇的成词特征向量和特定领域特征向量;
训练数据矩阵构建模块,用于利用所述通用词表和特定领域词表中每个词汇的成词特征向量、特定领域特征向量及标注值组成训练数据矩阵;其中,所述通用词表中词汇的标注值为0,特定领域词表中词汇的标注值为1;
模型训练模块,用于基于所述训练数据矩阵,使用逻辑回归模型训练得到所述特定领域词汇的分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810524813.9A CN108846033B (zh) | 2018-05-28 | 2018-05-28 | 特定领域词汇的发现及分类器训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810524813.9A CN108846033B (zh) | 2018-05-28 | 2018-05-28 | 特定领域词汇的发现及分类器训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108846033A true CN108846033A (zh) | 2018-11-20 |
CN108846033B CN108846033B (zh) | 2022-04-08 |
Family
ID=64207929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810524813.9A Expired - Fee Related CN108846033B (zh) | 2018-05-28 | 2018-05-28 | 特定领域词汇的发现及分类器训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846033B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858010A (zh) * | 2018-11-26 | 2019-06-07 | 平安科技(深圳)有限公司 | 领域新词识别方法、装置、计算机设备和存储介质 |
CN110399878A (zh) * | 2019-06-14 | 2019-11-01 | 南京火眼锐视信息科技有限公司 | 表格版式恢复方法,计算机可读介质以及计算机 |
CN111552806A (zh) * | 2020-04-16 | 2020-08-18 | 重庆大学 | 一种无监督构建建筑领域实体集合的方法 |
CN113468332A (zh) * | 2021-07-14 | 2021-10-01 | 广州华多网络科技有限公司 | 分类模型更新方法及其相应的装置、设备、介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092966A (zh) * | 2013-01-23 | 2013-05-08 | 盘古文化传播有限公司 | 一种挖掘词汇的方法及装置 |
WO2015079591A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Crosslingual text classification method using expected frequencies |
CN106095736A (zh) * | 2016-06-07 | 2016-11-09 | 华东师范大学 | 一种领域新词抽取的方法 |
CN106649666A (zh) * | 2016-11-30 | 2017-05-10 | 浪潮电子信息产业股份有限公司 | 一种左右递归新词发现方法 |
CN106970904A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词发现的方法及装置 |
-
2018
- 2018-05-28 CN CN201810524813.9A patent/CN108846033B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092966A (zh) * | 2013-01-23 | 2013-05-08 | 盘古文化传播有限公司 | 一种挖掘词汇的方法及装置 |
WO2015079591A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Crosslingual text classification method using expected frequencies |
CN106970904A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词发现的方法及装置 |
CN106095736A (zh) * | 2016-06-07 | 2016-11-09 | 华东师范大学 | 一种领域新词抽取的方法 |
CN106649666A (zh) * | 2016-11-30 | 2017-05-10 | 浪潮电子信息产业股份有限公司 | 一种左右递归新词发现方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858010A (zh) * | 2018-11-26 | 2019-06-07 | 平安科技(深圳)有限公司 | 领域新词识别方法、装置、计算机设备和存储介质 |
CN109858010B (zh) * | 2018-11-26 | 2023-01-24 | 平安科技(深圳)有限公司 | 领域新词识别方法、装置、计算机设备和存储介质 |
CN110399878A (zh) * | 2019-06-14 | 2019-11-01 | 南京火眼锐视信息科技有限公司 | 表格版式恢复方法,计算机可读介质以及计算机 |
CN110399878B (zh) * | 2019-06-14 | 2023-05-26 | 南京火眼锐视信息科技有限公司 | 表格版式恢复方法,计算机可读介质以及计算机 |
CN111552806A (zh) * | 2020-04-16 | 2020-08-18 | 重庆大学 | 一种无监督构建建筑领域实体集合的方法 |
CN111552806B (zh) * | 2020-04-16 | 2021-11-02 | 重庆大学 | 一种无监督构建建筑领域实体集合的方法 |
CN113468332A (zh) * | 2021-07-14 | 2021-10-01 | 广州华多网络科技有限公司 | 分类模型更新方法及其相应的装置、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108846033B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
Tang et al. | Document modeling with gated recurrent neural network for sentiment classification | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN109960804B (zh) | 一种题目文本句子向量生成方法及装置 | |
CN108846033A (zh) | 特定领域词汇的发现及分类器训练方法和装置 | |
CN107229610A (zh) | 一种情感数据的分析方法及装置 | |
CN105893410A (zh) | 一种关键词提取方法和装置 | |
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN110188193A (zh) | 一种基于最短依存子树的电子病历实体关系抽取方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN109740164B (zh) | 基于深度语义匹配的电力缺陷等级识别方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN111476036A (zh) | 一种基于中文单词特征子串的词嵌入学习方法 | |
CN109657064A (zh) | 一种文本分类方法及装置 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN112287240A (zh) | 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置 | |
Ding et al. | A knowledge-enriched and span-based network for joint entity and relation extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220408 |