CN101075228B - 识别自然语言中的命名实体的方法和装置 - Google Patents
识别自然语言中的命名实体的方法和装置 Download PDFInfo
- Publication number
- CN101075228B CN101075228B CN2006100798905A CN200610079890A CN101075228B CN 101075228 B CN101075228 B CN 101075228B CN 2006100798905 A CN2006100798905 A CN 2006100798905A CN 200610079890 A CN200610079890 A CN 200610079890A CN 101075228 B CN101075228 B CN 101075228B
- Authority
- CN
- China
- Prior art keywords
- named entity
- candidate
- know
- training
- svm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 163
- 238000012549 training Methods 0.000 claims abstract description 150
- 238000013145 classification model Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 88
- 239000013598 vector Substances 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 17
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
- G06V30/1423—Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种识别自然语言中的命名实体的方法,包括步骤:对自然语言执行逐步式解析模型训练,以获得分类模型;基于得到的所述分类模型对自然语言执行逐步式解析识别,以得到侯选命名实体的位置和类型信息;利用拒识器对侯选命名实体进行拒识处理;和对经过拒识处理的侯选命名实体生成侯选命名实体网络,并执行最优路径搜索。本发明使用候选命名实体的全局特征,在得到仅使用局部特征的前向解析识别结果和后向解析识别结果的基础上,使用一个单类分类器对这些结果进行打分或评判,来得到最为可靠的命名实体起始和终止边界。
Description
技术领域
本发明涉及语言处理方法和系统,特别是涉及识别自然语言中的命名实体的方法和系统,从而能够提取语言信息,进行相应的处理。
背景技术
命名实体是指包括人名、地名、机构名、时间、数量等特定种类词的集合。命名实体识别在信息提取、信息检索方面有着广泛的应用。
近年来,逐步式的命名实体(named entity,NE)识别或语块(chunk)识别方法表现了比较高的性能。Taku Kudo,Yuji Matsumoto在2001年的NAACL上发表的题为Chunking with Support Vector Machines的文章对此做了说明。这些方法的主要特征是将识别分成若干前后相继的步骤,每一步扫描输入句子中的一个词,通过观察当前词的上下文(context)特征(feature),使用预定或者统计(stochastic)的方法预测当前词的标记(token)。不同的方法使用不同的标记集合,但基本上包括B、I、E和O四种,分别表示命名实体的起始(B)、中间(I)、结束(E)位置和不属于命名实体(O)。在输入句子中所有词的标记确定之后,所有B、I、E标记串就直接组成了命名实体。在识别中的每一步,识别器使用的特征是包含在以当前词为中心的一个特征窗口内的局部特征。
表1是一个从句子的开始位置解析(parsing)到句子结束位置的方法示例,下文称为前向解析。
表1
所谓特征是指所有一切在上下文中可以观察得到的信息。例如,这个词是什么,词的长度,词性是什么,前面决定的该词对应的标记是什么,等等,如下面的表2所示。具体使用什么样的特征,由系统设计人员根据应用的特点来进行选定,目标是使系统达到最高识别性能。在表2所示的前向解析中,当系统观察到所有这些特征时,它就可能对当前词“邓”作出“B-PER”的标记预测。
表2
其中B-PER标记表示当前词是一个人名的开始。
在表2给出的示例中,以“继承”为例,在第三行中给出了该词的特征为:词的内容是“继承”,词的长度是2,词性为动词,标记为O(说明其不是命名实体)。
从上面的说明可以看到,逐步式的识别方法有一个缺点,就是只能使用一个固定大小的特征窗口内的局部特征。由于长程(long distance)特征没有得到使用,会造成起始边界B标记的误警(false alarm),即不是命名实体起始边界的地方有可能被识别器认为是一个起始边界。ManabuSassano,Takehito Utsuro在COLING2000:705-711中发表的题为“NamedEntity Chunking Techniques in Supervised Learning for Japanese NamedEntity Recognition”的文章提出一个可变长度模型(Variable Length Model)的方法。其中特征窗口的大小可以在一个预先确定的范围内变化,可以看出,该方法仍然不能处理任意长度范围内的特征。
一些基于概率(probabilistic)模型的方法可以使用全局特征。例如,2000年2月17日提交的题为“System for Chinese tokenization and namedentity recognition”的美国专利申请No.09/403,069。然而,概率模型方法受数据稀疏(data sparseness)问题的影响比较大,而且需要使用复杂的解码(decoding)方法在庞大的候选(candidate)网格(lattice)空间中进行搜索。当训练(training)数据不够,或者计算资源不够的情况下(比如嵌入式设备),概率模型不具备可行性。
另外,当前的命名实体识别方法受切分词(word segmentation)错误的影响很大。在基于分词结果之上进行的命名实体识别,没有办法恢复分词过程中被错分的边界,从而影响命名实体识别的正确性。如表3给出的例子所示,由于“北京市│公安│局长│江│金福”被错误地切分成“北京市│公安局│长江│金│福”,这直接导致“北京市│公安局”片断被错误地识别成了一个类型为ORG(机构名)的命名实体。而实际上,这个句子的“……北京市公安局……”这个部分中并没有命名实体,而是在句子后部存在一个真正的PER(人名)类型的命名实体,即“江金福”。此时,使用基于字(character)的模型会避免分词错误引起的这种后果。
表3
上面提到的Kudo等人使用投票(voting)方法对正向和反向识别结果作出选择以决定最终标记,但投票结果是针对每个步骤的标记识别结果而言的,所以使用的仍是局部特征。此外其它文献中也披露了很多其它分类器(classifier)结合的方法,然而,这些方法都没有使用全局特征。
发明内容
鉴于上述问题,本发明的目的是提供一种识别自然语言中的命名实体的方法和系统,使用候选命名实体的全局特征,在得到仅使用局部特征的前向解析识别结果和后向解析识别结果(即候选命名实体)的基础上,使用一个单类分类器对这些结果进行打分或评判,来得到最为可靠的命名实体起始和终止边界。
根据本发明的一个方面,提供一种识别自然语言中的命名实体的方法,包括步骤:利用逐步式识别器识别出候选命名实体;利用拒识器抽取识别出的侯选命名实体基于字的全局特征;使用所述全局特征来测试所述侯选命名实体;和如果测试得分超过一个事先给定的阈值,则接受所述候选命名实体,否则被拒识。
根据本发明的另一个方面,提供一种识别自然语言中的命名实体的方法,包括步骤:使用一个特征窗口,对窗口中心包含的词或字进行局部特征抽取;基于对自然语言执行逐步式解析模型训练后所得到的分类模型,对自然语言执行逐步式解析识别,以得到侯选命名实体的位置和类型信息;使用一个特征窗口,对窗口中心包含的候选命名实体进行全局特征抽取;利用拒识器对侯选命名实体进行拒识处理;和对经过拒识处理的侯选命名实体生成侯选命名实体网络,并执行最优路径搜索。
根据本发明的再一个方面,提供一种识别自然语言中的命名实体的离线训练方法,包括步骤:对自然语句进行前向逐步式解析模型训练,以得到前向逐步式分类模型;对所述自然语句进行后向逐步式解析模型训练,以得到后向逐步式分类模型;和根据得到的前向逐步式分类模型和后向逐步式分类模型对侯选命名实体进行拒识模型训练,以得到拒识分类模型。
根据本发明的再一个方面,提供一种识别自然语言中的命名实体的在线识别方法,包括步骤:使用前向逐步式分类模型对自然语言进行识别,得到前向识别结果;使用后向逐步式分类模型对自然语言进行识别,得到后向识别结果;根据所述前识别结果和所述后向识别结果生成侯选网格;和使用生成的所述侯选网格来计算最优路径,并输出命名实体。
根据本发明的再一个方面,提供一种识别自然语言中的命名实体的离线训练系统,包括:局部特征抽取装置,用于使提供的训练文本生成一个以特征向量和样本标记表示的命名实体训练样本;多类支撑向量机训练装置,用于对训练文本进行训练,生成逐步式分类模型;全局特征抽取装置,用于使命名实体训练样本生成一个基于字的以特征向量和样本标记表示的拒识训练样本;单类支撑向量机训练装置,用于对得到的拒识训练样本进行拒识训练,以生成拒识分类模型;训练样本存储器,用于存储训练过程中使用的训练文本。
根据本发明的再一个方面,提供一种识别自然语言中的命名实体的在线识别系统,包括:局部特征抽取装置,用于使提供的测试样本生成局部特征向量;多类支撑向量机识别装置,用于根据样本的局部特征向量对输入的样本进行识别,以得到侯选命名实体;全局特征抽取装置,用于对候选命名实体及其上下文抽取全局特征向量;和单类支撑向量机识别装置,用于根据样本的全局特征向量对输入的候选命名实体进行识别;其中所述多类支撑向量机识别装置,利用多类分类模型,对输入的局部特征向量进行测试以得到其类别标记,并根据属于同一种类型的命名实体的一串起始和继续标记,形成一个候选命名实体,所述单类支撑向量机识别装置,利用单类分类模型,对输入的全局特征向量进行测试以得到其测试得分,从得到的测试得分减去不同的阈值得到拒识得分,根据拒识得分进行最优路径搜索,和接受最优路径上的候选命名实体。
根据本发明,使用全局特征的命名实体识别方法。可以拒识逐步式命名实体识别方法产生的不可靠候选命名实体(具有不可靠起始边界或不可能结束边界)。另外,基于字的特征抽取避免了分词错误带来的影响。通过结合前向和后向两遍解析结果,使命名实体的识别性能得到提高。
附图说明
通过阅读和理解下面参考附图对本发明优选实施例所做的详细描述,将使本发明的这些和其它目的、特征、和优点变得显而易见。其中:
图1是表示在命名实体识别中采用两类分类器进行分类的示意图;
图2是表示在命名实体识别中采用单类分类器进行分类的示意图;
图3示出了调整阈值时精确度、召回率以及F-measure之间的关系示意图;
图4示出了调整阈值时精确度、召回率以及F-measure之间的关系示意图;
图5示出了调整阈值时精确度、召回率以及F-measure之间的关系示意图;
图6示出了调整阈值时精确度、召回率以及F-measure之间的关系示意图;
图7是表示根据本发明实施例的命名实体识别过程中的逐步式解析模型的训练流程图;
图8是表示根据本发明实施例的命名实体识别过程中的逐步式解析识别的流程图;
图9是表示根据本发明实施例的命名实体识别过程中的拒识模型训练的流程图;
图10是表示根据本发明实施例的命名实体识别过程中的拒识打分的流程图;
图11是表示根据本发明实施例的命名实体识别过程中的侯选网格生成的流程图;
图12是表示根据本发明实施例的命名实体识别过程中的最优路径搜索示意图;
图13是表示根据本发明实施例的命名实体识别过程中的离线训练的总流程图;
图14是表示根据本发明实施例的命名实体识别过程中的在线训练的总流程图;
图15是表示根据本发明实施例的命名实体识别装置的离线训练系统的方框图;和
图16是表示根据本发明实施例的命名实体识别装置的在线训练系统的方框图。
具体实施方式
下面参照附图对本发明的实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
下面首先对命名实体全局建模的方式进行描述,以便更好地理解本发明。
表4
与表1所示示例的(词的)局部特征选取方法相比,表1所示示例所关注的是当前单个词的上下文特征,而表4所示方法关注的是一个命名实体整体的特征。这样,无论命名实体的长度有多大,总能观察到该命名实体的右上下文特征。因此,本发明把这种特征选取方法称为命名实体的全局特征。
表5给出了一个具体的全局特征示例。除了前文所述基于词的特征之外(例如,这个词是什么,词有多长,词性是什么,等等),还可以包括命名实体的长度、类型等等。
表5
训练集中的命名实体样本(sample)用于训练命名实体的全局模型。可以采用两种建模方法,一是两类分类器的建模方法,另一类是单类分类器的建模方法。
现有技术中已经揭示了上述有关的分类器的详细内容。鉴于分类器本身并不是本发明的内容所在,在此省略对分类器的具体描述。
下面简单说明这两种建模的实现方法。使用两类分类器时,需要收集足够的正样本(在本发明中是指命名实体)和负样本(在本发明中是指“非”命名实体)。将正、负样本的特征表示成高维空间中的向量(或点),训练过程就是选用一个两类分类器学习以得到这两类样本的分类面。训练完成后,当需要测试一个新样本时,只需检测该样本相对于分类面的位置,即可作出该样本是正样本还是负样本的预测。而测试样本与分类面的距离也代表着分类器对该样本所作预测可靠性,距离分类面越远,则可靠性越高,反之,可靠性越低。
如图1所示,以圆圈表示正样本,以交叉表示负样本,虚线表示的是分类面,分类面内侧的测试样本将被预测为正样本。反之,将被预测为负样本。对图中以方框表示的新样本,本分类器将认为该样本是一个正样本。
无论使用什么分类器,总会有错误分类的情况。例如,图1中的分类面就使得一些原来正样本可以出现的区域(本例中为分类面外侧),被认为只能出现负样本,反之亦然。这种分类器错误在所难免,而且当正样本和负样本数目不太平衡时,分类面的确定将会更加困难,导致分类错误加大。而命名实体识别正是这样一种应用,因为命名实体所占文本的百分比只有不到10%,又考虑到由于使用的是全局特征,不同的起始、结束边界组合形成的负样本,其数量将远远大于正样本的数量,因此最后的分类面将会严重倾向于负样本,导致正样本被识别成负样本的错误机会大大增加。
使用单类分类器时,只需要收集足够的正样本,训练过程就是选用一个单类分类器学习得到单类的“分类面”,至于该分类面的形式和定义,依赖于选用的不同分类器而定。此时由于避免了负样本的选择,简化了系统的设计,并能减少系统识别误差。图2示出了使用单类分类器的分类示意图。在图2中,只收集正样本,并由此减小了识别误差。
基于上述原因,本发明使用单类模型。作为一种实现,本发明提出以单类支撑向量机(One-Class SVM:单类SVM)作为拒识模型。这是基于单类SVM的高推广能力、有效处理高维和非线性空间的能力、以及少量训练数据即可达到较高性能的能力。简单地说,单类SVM算法试图去寻找能够分离训练数据和坐标原点的最佳超平面。B.Sch¨olkopf,J.C.Platt,J.Shawe-Taylor,A.J.Smola,and R.C.Williamson在题为“Estimating thesupport of a high-dimensional distribution”的文章(见Neural Computation,13(7):1443-1471,2001),和Chih-Chung Chang and Chih-Jen Lin在题为“LIBSVM:a library for support vector machines”的文章(见2001.Softwareavailable at http://www.csie.ntu.edu.tw/~cjlin/libsvm)中对单类SVM进行了详细描述,在此省略对其的说明。
通过这种方式,候选命名实体的全局上下文都可以被系统所利用,无论命名实体的长度有多大。
作为本发明的一个实施例,采用了基于字的建模。下面对基于字的建模进行描述。如前文所述,一些命名实体识别错误是由分词错误所导致的。因此,用基于字的模型来替代基于词的模型在性能上会对这类识别错误有一定的修正。表6给出了一个基于字的全局特征建模示例,其中每个特征都是关于左上下文、右上下文和命名实体内部的字。
表6
同样,表7给出一个具体的基于字的建模示例。作为实例,字的特征可以包括,是否可单独成词,作出词首字、中字、末字出现的概率,等等。
表7
例如,以表7中的“承”字为例,其特征行中给出了“承”字,即字为“承”,单独成词为1,作为词首的概率是0.3,处在词中的概率是0.2,位于词末的概率是0.4。作为另一个实例,作为侯选命名实体的“邓小平”的特征行中给出了字的内容,和长度,以及命名实体的类型。
当候选命名实体被第一阶段的逐步式识别器识别出来之后,第二阶段的拒识器抽取(extract)该侯选命名实体基于字的全局特征。然后,将全局特征作为输入,使用单类SVM来测试该侯选命名实体。如果测试得分超过一个事先给定的阈值,则接受该候选命名实体,否则拒识该候选命名实体。测试得分越高说明该候选越可靠。
这样,拥有不可靠起始边界(通常来源于前向解析结果)或不可靠结束边界(通常来源于后向解析结果)的命名实体的候选命名实体就可以被拒识。
仅仅使用拒识方法并不一定能提高以F-measure为指标的系统性能(F-measure是精确率precision和召回率recall的折衷),但是精确率会得到提高。然而,根据本发明,在结合了前向和后向两遍解析结果和拒识方法之后,系统性能会得到明显的提高。拒识处理过程可以描述如下:
1.如果前向和后向解析得到了同一个候选命名实体,则使用单类SVM和阈值thident对该候选进行评价。
2.如果一个单遍解析得到一个候选命名实体,而另一个单遍解析没有得到与这个候选在位置上相交的其他命名实体,则使用单类SVM和阈值thfree对该候选进行评价。
3.如果前向解析得到一个位置为(Bfwd,Efwd)的候选命名实体,后向解析得到另一个位置为(Bbwd,Ebwd)的候选命名实体,这两个候选在位置上相交,而且它们的类型相同(例如,都是PER),则根据位置重叠情况至多生成两个同类型的新候选,位置分别是(Bfwd,Ebwd)和(Bbwd,Efwd),然后使用单类SVM和重叠侯选阈值thdifbndry对这至多4个候选进行评价。
4.如果两遍解析得到2个在位置上相交的候选命名实体,而且它们的类型不相同,则使用单类SVM和前后向冲突侯选阈值thcnflct对这2个候选进行评价。
5.对于每个输入句子,所有在第一阶段得到的候选命名实体组成一个网格,网格上的每一个候选命名实体附带一个得分信息,即(拒识得分=单类SVM测试得分—阈值)。在此网格上采用动态规划(dynamicprogramming)的方法去搜索得分之和最大的路径,这条最佳路径上的候选命名实体即予以接受并作为最终结果输出。
图3-6示出了调整上面所述的各种阈值时,精确度、召回率以及F-measure的关系示意图。调整上述各种阈值会有不同的效果。
图3中的曲线示出了调整相同侯选阈值thident的情况。当阈值thident增大时,精确率会有少量提升。但当thident变得足够大时,召回率和F-measure会急剧下降。
图4中的曲线示出了调整自由阈值thfree的情况。当阈值thfree增大时,精确率会稳步上升,而召回率会稳步下降。但当thfree超过一定值时,精确率和召回率趋于稳定。F-measure会有少量上升,然后再少量下降,但基本保持在一个较小的范围内。
图5中的曲线示出了调整阈值thdifbndry的情况。当阈值thdifbndry增大时,精确率会稳步上升,而召回率会稳步下降。但当thdifbndr超过一定值,或小于一定值时,精确率和召回率趋于稳定。F-measure会保持少量上升趋势,但基本保持在一个较小的范围内。
图6中的曲线示出了调整阈值thcnflct的情况。当阈值thcnflct增大时,精确率会稳步上升,而召回率会先上升,后下降。F-measure的表现和召回率类似,即先上升,后下降。
如果使用一个集中的阈值来代替上述分立的各个阈值,以方便调整系统性能,则总的趋势是:随着阈值的增大,精确率会上升,召回率会下降,而F-measure会先上升,后下降。
通过实验表明,调整上述分立的各个阈值所获得了精确度、召回率以及F-measure的关系变化是基于本发明的命名实体识别方法所特有的,并且可由此判断对本发明的使用。
在一个实际系统上的实验数据显示,相对于单遍解析结果,本发明的方法可以达到12.14%的错误下降率(error reduction rate)。
表7给出的实验中所用的是一个中文数据集,训练集包括25,616个命名实体,测试集包括27,615个命名实体,分别包含人名、地名和机构名3种类型的命名实体。
这里给出召回率(recall)、精确率(precision)和F-measure的定义:
表7实验结果
召回率(%) | 精确率(%) | F-measure | |
前向解析 | 91.03 | 90.88 | 90.96 |
后向解析 | 91.61 | 91.09 | 91.35 |
本发明方法 | 91.92 | 92.89 | 92.40 |
利用上面给出的数据可以计算出根据本发明的方法获得的错误下降率为((92.40-91.35)/(100-91.35)=12.14%)。
以上对本发明的命名实体的总体方法进行了描述,下面参考附图对该方法中各个过程进行详细的描述。
首先描述逐步式解析模型的训练过程。逐步式解析模型使用基于词的局部特征,使用多类分类器进行模型学习,其流程如图7所示。在开始时输入训练文本。在步骤S701,解析模型的训练过程读取输入文本中的下一个句子。然后,在步骤S702使用特征窗口,对特征窗口中包含的所读取的语句进行切分词,以找出可能的命名实体。特征窗口的大小可以固定,也可以是可变的。对当前的词切分完成后,在步骤S703读取下一个词。此后,流程进行步骤S704,对特征窗口中包含的读取的词或字进行局部特征抽取以提取出该词或字的特征,例如,词或字的内容,词或字的长度,词性等。接下来,在步骤S705,把样本与其类标记一起加入到训练集中。在步骤S706,判断读取的语句中是否还有未识别的词,如果还有未识别的词,流程返回步骤S704,对仍未被识别的词重复执行步骤S703至S706,直到识别完该语句中的所有词。如果在步骤S706的判断结果是该语句中的词已经识别完成,流程则进行到步骤S707,判断文本中是否还有下一个语句。如果判断结果为肯定,即还有下一个语句,流程返回步骤S701,读取下一个语句,然后重复步骤S701至S707,识别下一个语句中的命名实体。如果步骤S707的判断结果为否定,流程进行到步骤S708,对自然语言执行逐步式解析模型训练,利用形成的训练集,使用学习器根据训练样本进行分类器学习。最后输出分类模型。
局部特征抽取可以包括词性标注模块,以得到每个词对应的词性。对于每个词样本,特征抽取模块得到的是表示了该词所有特征的一个高维向量(或点)。
样本特征的向量化表示是非常通用和普遍的技术,而且每种应用可以有各种各样的表示方法,没有一个统一的定义或者方法,在此仅以一种表示方法为例简单说明样本特征的向量化。参见前述的表2,此时需要表示的是以“邓”为中心,特征窗口大小为5的样本。可以假设系统词表大小为50000(即含有50,000个词),词性表大小为40(即含有40种词性),类标记集大小为10(即含有10种类标记),词长为1维,则对于特征窗口中的每个位置,预留有50,000+50+1=50,041维,对于总共5个位置,则特征总空间有50,051*5=250,255维。可以假设“决心”、“继承”、“邓”、“小平”和“同志”的词号(即在词表中的序号,从0到49,999)分别为99、199、299、399和499,副词、动词、人名词、动词的词性号(即在词性表中的序号,从0到39)分别为0、1、2和3,类标记“O”的标记号(即在类标记表中的序号,从0到9)为0,则该样本的特征向量如下:
第100维的值为1(代表第1个位置的词为“决心”);
第50,001维的值为1(代表第1个位置的词性为副词);
第50,041维的值为1(代表第1个位置的类标记为“O”);
第50,051维的值为2(代表第1个位置的词长为2);
第50,051+200=50,251维的值为1(代表第2个位置的词为“继承”);
第50,051+50,002=100,043维的值为1(代表第2个位置的词性为动词);
第50,051+50,041=100,092维的值为1(代表第2个位置的类标记为“O”);
第50,051+50,051=100,102维的值为2(代表第2个位置的词长为2);
第100,102+300=100,402维的值为1(代表第3个位置的词为“邓”);
第100,102+50,003=150,105维的值为1(代表第3个位置的词性为人名词);
第100,102+50,051=150,153维的值为1(代表第3个位置的词长为1);
第150,153+400=150,553维的值为1(代表第4个位置的词为“小平”);
第150,153+50,003=200,156维的值为1(代表第4个位置的词性为人名词);
第150,153+50,051=200,204维的值为2(代表第4个位置的词长为2);
第200,204+500=200,704维的值为1(代表第5个位置的词为“同志”);
第200,204+50,004=250,208维的值为1(代表第5个位置的词性为动词);
第200,204+50,051=250,255维的值为2(代表第5个位置的词长为2);
其他维的值都为0。
应该指出的是,在流程中,对于前向解析所需要的分类模型训练,“下一个词”指的是当前词的右边一个词,而对于后向解析,“下一个词”指的是当前词的左边一个词。
不限定使用何种多类分类器,但作为一种实现,可以采取SVM来实现。两类SVM问题的训练和识别公式如下:
y=Sgn{<w,x>-b} (1)
其中w由求解下列二次规划得到:
s.t. yi[(w·xi)+b]-1+ξi≥0,i=1,…,n。
如果该分类问题不是线性可分的(linear inseparable),则SVM使用一个隐含的映射x→Φ(x)将问题映射到另外一个更高维的空间,期待在该空间下问题的可分性会更好。实际上映射函数Φ并不单独出现,而是体现在优化过程中的内积计算中,即用下式表示。
k(x1,x2)=<Φ(x1),Φ(x2)>
此时的k(x1,x2)称为核函数(kernel function),以替代所有公式中出现的内积。
由于SVM是处理两类分类问题的,则在处理多类(如k)问题时,需要构建k(k-1)个两类SVM分类器,测试时使用投票方法来决定新样本的类标记。一个简单的投票策略就是多数决策,即得到最多投票的类标记被赋以新样本。
图8示出了根据本发明实施例的逐步式解析识别过程的流程图。下面结合图8描述逐步式解析识别过程。在开始时输入测试语句。在步骤S801,使用特征窗口,对窗口中包含的输入的测试语句进行切分词,以找出可能的命名实体。特征窗口的大小可以固定,也可以是可变的。对当前的词切分完成后,在步骤S802读取下一个词。此后,流程进行到步骤S803,对特征窗口中包含的读取的词进行局部特征抽取,并基于这些局部特征解析该词的特征,例如,词的内容,词的长度,词性等。接下来,在步骤S804,根据参考图7的过程得到的分类模型,对当前的词进行类标记预测。此后,在步骤S805,判断读取的语句中是否还有未识别的词,如果还有未识别的词,流程返回到步骤S802,对读取仍未被识别的词重复执行步骤S802至S805,直到识别完该测试语句中的所有词。如果在步骤S805的判断结果是该测试语句中的词已经识别完成,流程则进行到步骤S806,将对命名实体给出的B、I、和E标记组成命名实体串。此后,输出命名实体的位置和类型。
应该指出的是,在逐步式解析识别过程中的特征抽取模块与逐步式解析模型训练过程中的特征抽取模块是一致的。另外,还要指出的是,对于前向解析流程,“下一个词”指的是当前词的右边一个词,而对于后向解析流程,“下一个词”指的是当前词的左边一个词。
有关类标记的预测公式,可以参见前面针对逐步式解析模型训练过程的描述。
在得到B、I、E及O标记后,连续的B、I、I、……、I、E标记串则被组装成命名实体。
得到侯选命名实体后,根据本发明,需要利用拒识器对侯选命名实体进行拒识处理。下面参考图9描述拒识模型训练流程。
在开始时输入训练文本。在步骤S901,拒识模型的训练过程读取输入文本中的下一个句子。然后,在步骤S902读取当前语句中的侯选命名实体。此后,在步骤S903,使用特征窗口,对特征窗口中包含的读取的侯选命名实体进行全局特征抽取,例如,词的内容,词的长度,词性等。接下来,流程进行到步骤S904,把处理后的样本加到拒识训练集中。特征窗口的大小可以固定,也可以是可变的。在拒识训练集中,针对得到的全局特征在单类分类器上使用学习得到的模型进行拒识处理。在拒识处理中,由拒识器抽取侯选命名实体,计算出表示这些侯选命名实体的准确性得分,根据计算的得分,对侯选命名实体进行接受或拒绝处理。此后,在步骤S905,判断读取的语句中是否还有未经过拒识处理的侯选命名实体,如果还有未处理的侯选命名实体,流程返回到步骤S902,读取下一个侯选命名实体,并对所读取的侯选命名实体重复执行步骤S902至S905,直到对该语句中的所有侯选命名实体进行了拒识处理。如果在步骤S905的判断结果是该语句中的侯选命名实体已经被处理完毕,流程则进行到步骤S906,判断输入训练文本中是否还有下一个语句。如果判断结果为肯定,即还有下一个语句,流程返回步骤S901,读取下一个语句,然后重复步骤S901至S906,对下一个语句中的侯选命名实体进行拒识处理。如果步骤S906的判断结果为否定,流程进行到步骤S907,利用形成的拒识训练集,使用学习器根据训练样本进行分类器学习。最后输出分类模型。
拒识模型使用基于字的命名实体的全局特征,使用单类分类器进行模型学习。对于每个命名实体的样本,特征抽取模块得到的是表示了该命名实体所有特征的一个高维向量(或点)。使用逐步式分类模型对得到的多维向量进行分类。此处使用的特征向量化表示方法与前面的描述中使用的特征向量化表示方法类似,在此省略对其的说明。
由于单类分类器是描述单一种类样本的可靠性的,所以对于不同类别的命名实体(如人名、地名、机构名),要使用不同的训练集,并且训练得到不同的拒识模型。
在本发明中,不限定使用何种单类分类器,但作为一种实现,可以采取单类SVM来实现。Chih-Chung Chang and Chih-Jen Lin发表的题为“LIBSVM:a library for support vector machines”的文章(参见2001.Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm)描述了单类SVM问题的训练和识别公式如下:
对于给定的训练集xi∈Rn,SVM对新样本x作出的可靠性打分公式为
其中各αi值由求解下列二次规划得到:
s.t. 0≤αi≤1/(vl),i=1,...,l,,
eTα=1,
其中Qij=k(xi,xj)三<Φ(xi),Φ(xj)〉。
得到拒识训练集后,需要根据拒识训练集对侯选命名实体进行打分。图10示出了对侯选命名实体进行打分的流程图。下面参考图10描述对侯选命名实体的打分过程。
首先,输入侯选命名实体,侯选命名实体的位置以及有关的阈值。接下来,在步骤S1001,对侯选命名实体进行全局特征抽取。此后,在步骤S1002,根据前面结合图9描述的过程得到的拒识分类模型,对该侯选命名实体进行可靠性打分。如前所述,拒识得分=可靠性得分-阈值。此后,在步骤S1003,判断拒识得分是否大于0。如果判断拒识得分大于0,流程则进行到步骤S1004,将该侯选命名实体、其位置以及其拒识得分信息加入到侯选命名实体网格,并输出更新的侯选网格。如果在步骤S1003判断拒识得分不大于0,则直接输出更新的侯选网格。
打分过程中的特征抽取模块与“拒识模型训练过程”中的特征抽取模块是一致的。
可靠性打分的预测公式可以参见前面的描述。
接下来,参考图11描述侯选网格的生成过程。首先,输入经过前向解析和后向解析得到的所有侯选命名实体。在步骤S1101,判断经过前、后向解析得到的侯选是否是前后向相同侯选。如果是前后向相同侯选,则在步骤S1102使用前后向相同侯选阈值thident调用拒识打分流程,并向拒识打分流程提供侯选命名实体、位置及相同侯选阈值thident信息,以便执行拒识打分流程。此后,流程进行到步骤S1103。需要说明的是,如果在步骤S1101的判断结果为否定,处理流程也转到步骤S1103,判断经过前、后向解析得到的侯选是否是自由侯选。如果是自由侯选,则在步骤S1104使用自由阈值thfree调用拒识打分流程,并向拒识打分流程提供侯选命名实体、位置及自由阈值thfree信息,以便执行拒识打分流程。此后,流程进行到步骤S1105。需要说明的是,如果在步骤S1103的判断结果为否定,处理流程也转到步骤S1105,判断经过前、后向解析得到的侯选是否是前后向重叠侯选。如果在步骤S1105判断是前后向重叠侯选,则在步骤S1106计入新边界侯选,并使用前后向重叠侯选阈值thdifbndry调用拒识打分流程,并向拒识打分流程提供侯选命名实体、位置及前后向重叠侯选阈值thdifbndry信息,以便执行拒识打分流程。此后,流程进行到步骤S1107。需要说明的是,如果在步骤S1105的判断结果为否定,处理流程也转到步骤S1107,判断经过前、后向解析得到的侯选是否是前后向冲突侯选。如果在步骤S1107判断是前后向冲突侯选,则在步骤S1108使用前后向冲突侯选阈值thcnflct调用拒识打分流程,并向拒识打分流程提供侯选命名实体、位置及前后向冲突侯选阈值thcnflct信息,以便执行拒识打分流程。此后,流程进行到步骤S1109。需要说明的是,如果在步骤S1107的判断结果为否定,处理流程也转到步骤S1109。在步骤S1109,判断是否还有未处理的侯选命名实体,如果判断结果表明还有未处理的侯选命名实体,流程则返回步骤S1101,重复步骤S1101至S1109。如果在步骤S1109判断已经处理了所有侯选命名实体,则输出侯选网格。
得到侯选网格后,需要执行最优路径搜索过程。图12示出了最优路径搜索的示意图。最优路径搜索的核心算法是使用动态规划的方法在候选网格中搜索出一条累计得分最高的路径,其中每条路径上的节点在位置上不能重叠。输出是将该最优路径上的所有命名实体。
下面描述有关的动态规划算法所执行的处理。
1.操作对象是由节点组成的网格,每个节点附带有得分信息,以及每个节点所处的开始和结束位置信息。如果节点A的结束位置小于节点B的开始位置,则称A是B的前驱节点,而B是A的后续节点。网格中有一个特殊的开始节点和一个特殊的终止节点,起始节点是所有其它节点的前驱节点,终止节点是所有其他节点的后续节点。起始和终止节点的分数都是0。
2.初始状态为:当前节点是开始节点,当前节点的累计分数设为0,将该节点的来源指针设置为空。
3.在网格中寻找下一个开始位置最小,并且是当前节点后续节点的节点,并将其设置为当前节点。
4.针对当前节点,在网格中循环查找该当前节点的所有前驱节点。其处理过程还执行下列处理子过程。
4.1.对当前节点的任一前驱节点,创建一条临时路径,该临时路径的得分为该前驱节点的累计分数与当前节点的分数之和。
4.2.对所有这些临时路径的得分求其最大值,将最大临时路径的得分设置为当前节点的累计得分,当前节点的来源指针设置为该最大得分临时路径所对应的前驱节点。
4.3.删除所有临时路径。
5.如果网格中还有未处理的节点,则转到处理3,否则转到处理6。
6.从结束节点开始,使用每个节点的来源指针进行回溯,将该路径上的所有节点输出。
根据本发明,识别系统需要逐步式分类模型和拒识分类模型两种模型,训练过程是可以是离线处理。图13示出了它们的离线训练的总流程。在训练开始后,首先,在步骤S1301,以正向方式调用“逐步式解析模型训练流程”,通过前面所述的相应处理得到前向逐步式分类模型。此后,在步骤S1302,以后向方式调用“逐步式解析模型训练流程”,通过前面所述的相应处理得到后向逐步式分类模型。接下来,在步骤S1303,调用“拒识模型训练流程”,通过前面所述的相应处理得到拒识分类模型。得到相应的分类模型后结束训练。在调用各训练流程的过程中,系统向各个流程提供训练文本。
得到逐步式分类模式和拒识分类模型这两种模型后,在线系统使用这两种模型对输入的语句进行命名实体识别。图14示出了在线系统进行命名实体识别的总流程图。下面对该过程进行描述。
在识别开始后,首先输入待测试的语句。然后,在步骤S1401,以前向方式调用“逐步式解析识别流程”进行前向识别。在该过程中,根据前向逐步式分类模型对测试句进行识别,得到前向识别结果。此后,在步骤S1402,以后向方式调用“逐步式解析识别流程”进行后向识别。在该过程中,根据后向逐步式分类模型对测试句进行识别,得到后向识别结果。在步骤S1403,系统调用“侯选网格生成流程”以生成侯选网格。在该过程中,根据前、后向识别结果生成侯选网格。接下来,在步骤S1404,系统调用“最优路径搜索流程”,根据生成的侯选网格来计算最优路径。最后,输出命名实体,该处理过程结束。
接下来,描述根据本发明实施例的命名实体识别系统。根据本发明,进行命名实体识别可以包括进行离线训练的离线训练系统,以及进行在线测试及识别的在线识别系统。
图15示出了根据本发明一个实施例的命名实体离线训练系统。如图15所示,本发明的命名实体离线训练系统包括:前向逐步式模型存储器1501,后向逐步式模型存储器1502,多类SVM训练器1503,逐步式训练样本存储器1504,逐步式训练引擎1505,局部特征抽取器1506,训练文本存储器1507,拒识训练引擎1508,全局特征抽取器1509,拒识模型存储器1510,单类SVM训练器,和拒识训练样本存储器1512。
下面描述命名实体离线训练系统的操作。逐步式训练样本存储器1504保存系统所使用的训练文本。逐步式训练引擎1505在需要下一句训练文本时,向训练文本存储器1507请求训练文本。逐步式训练引擎1505对每一个训练语句均触发局部特征抽取器1506的操作,并将该语句的训练文本传递给局部特征抽取器1506。每当局部特征抽取器1506生成一个以特征向量和样本标记表示的训练样本时,将其传递给逐步式训练样本存储器1504存储。无论是前向解析还是后向解析,均使用同一个逐步式训练样本存储器1504,这是因为前向训练和后向训练是顺序发生的。在训练文本的特征抽取操作的处理全部结束后,逐步式训练引擎1505触发多类SVM训练器1503操作。多类SVM训练器1503向逐步式训练样本存储器1504请求得到所有训练样本,进行训练。当多类SVM训练器1503生成前向逐步式分类模型时,将其传递给前向逐步式模型存储器1501并存储在其中。同样,当多类SVM训练器1503生成后向逐步式分类模型时,将其传递给后向逐步式模型存储器存储1502,并存储在其中。
拒识训练引擎1508在需要下一句训练文本时,向训练文本存储器1507请求得到该训练语句。拒识训练引擎1508对每一个语句的训练文本均触发全局特征抽取器1509的操作,并将该语句的训练文本传递给全局特征抽取器1509。每当全局特征抽取器1509生成一个以特征向量和样本标记表示的训练样本时,将其提供给拒识训练样本存储器1512并存储在其中。在训练文本的特征抽取工作全部技术之后,拒识训练引擎1508触发单类SVM训练器1511的操作。单类SVM训练器1511向拒识训练样本存储器1512请求得到所有训练样本,并进行训练。当单类SVM训练器1511生成拒识分类模型时,将其传递给拒识模型存储器1510,并存储在其中。
经过离线训练后,可以利用在线系统对输入的语句进行测试和识别。
图16示出了根据本发明一个实施例的命名实体在线识别系统。如图16所示,本发明的命名实体在线识别系统包括:前向逐步式模型存储器1601,后向逐步式模型存储器1602,多类SVM识别器1603,逐步式识别引擎1604,局部特征抽取器1605,最优路径搜索器1606,拒识打分引擎1607,全局特征抽取器1608,拒识模型存储器1609,和单类SVM识别器。
下面描述命名实体在线识别系统的操作。逐步式识别引擎1604在对测试输入语句的一个样本进行识别后,触发局部特征抽取器1605的操作,并将该语句的测试文本提供给触发局部特征抽取器1605。触发局部特征抽取器1605将逐步(分前向后向两种工作模式)抽取到的下一个样本的局部特征向量传回给逐步式识别引擎1604。逐步式识别引擎1604在得到测试语句的下一个样本时,触发多类SVM识别器1603的操作,将该样本的特征向量递给多类SVM识别器1603。在前向工作模式下,多类SVM识别器1603向前向逐步式模型存储器1601请求得到前向逐步式分类模型,对输入的样本进行识别,然后将识别结果传回给逐步式识别引擎1604。多类支撑向量机识别装置,利用多类分类模型,对输入的局部特征向量进行测试得到其类别标记,属于同一种类别的命名实体的一串起始和继续标记形成一个候选命名实体。
在得到一个样本的识别结果后,逐步式识别引擎1604再次触发局部特征抽取器1605的操作。此后,局部特征抽取器1605执行如前所述的操作。后向工作模式的操作过程与此相同。
在得到所有通过前向解析和后向解析识别得到的命名实体后,逐步式识别引擎1604将这些结果传递给拒识打分引擎1607。对于前向解析和后向解析结果的每一个候选命名实体,拒识打分引擎1607触发全局特征抽取器1608的操作,并将候选的上下文传递给全局特征抽取器1608。全局特征抽取器1608将抽取到的全局特征向量传回给拒识打分引擎1607。在得到候选命名实体的特征向量时,拒识打分引擎1607触发对单类SVM识别器1610的操作,将该候选的特征向量传递给单类SVM识别器1610。单类SVM识别器1610向拒识模型存储器1609请求得到拒识分类模型,并对输入的候选命名实体进行识别,将识别结果(可靠性得分)传回给拒识打分引擎1607。单类支撑向量机识别装置,利用单类分类模型,对输入的全局特征向量进行测试得到其测试得分,减去不同的阈值得到拒识得分,根据拒识得分进行最优路径搜索,接受最优路径上的候选命名实体。
在得到候选的识别结果(可靠性得分)后,拒识打分引擎1607根据前后和后向解析结果之间的位置关系,确定不同的阈值,从可靠性得分中减去该阈值,得到拒识得分,并触发对最优路径搜索器1606的调用。此后,拒识打分引擎1607将该候选及其位置和拒识得分传递给最优路径搜索器1606。在得到一个候选及其位置和拒识得分时,如果得分大于0,最优路径搜索器1606将该候选及其位置和拒识得分加入到候选网格中。根据计算出的拒识得分来接受或拒绝侯选命名实体。
在一个输入句的所有候选均得到拒识得分的计算后,最优路径搜索器1606开始进行最优路径的搜索工作,搜索拒识得分之和最大的最优路径,根据并将最优路径上的命名实体作为系统的最后输出进行保存。
本发明的命名实体离线训练系统和在线识别系统可以用计算机实现。如果用计算机实现,那么实现前向逐步式模型存储器1501,后向逐步式模型存储器1502,多类SVM训练器1503,逐步式训练样本存储器1504,逐步式训练引擎1505,局部特征抽取器1506,训练文本存储器1507,拒识训练引擎1508,全局特征抽取器1509,拒识模型存储器1510,单类SVM训练器,和拒识训练样本存储器1512,以及前向逐步式模型存储器1601,后向逐步式模型存储器1602,多类SVM识别器1603,逐步式识别引擎1604,局部特征抽取器1605,最优路径搜索器1606,拒识打分引擎1607,全局特征抽取器1608,拒识模型存储器1609,和单类SVM识别器的程序保存在盘、半导体存储器、或其它记录介质上。计算机读取该程序,并且通过控制计算机的操作,在计算机上实现上述装置。
根据本发明的识别自然语言中的命名实体的方法和系统,使用全局特征的命名实体识别方法。可以拒识逐步式命名实体识别方法产生的不可靠候选命名实体(具有不可靠起始边界或不可能结束边界)。另外,基于字的特征抽取避免了分词错误带来的影响。通过结合前向和后向两遍解析结果,使命名实体的识别性能得到提高。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。
Claims (22)
1.一种识别自然语言中的命名实体的方法,包括步骤:
利用逐步式识别器识别出候选命名实体;
利用拒识器抽取识别出的侯选命名实体基于字的全局特征;
使用所述全局特征来测试所述侯选命名实体;
如果测试得分超过一个事先给定的阈值,则接受所述候选命名实体,否则被拒识;和
将拒识器识别出的候选命名实体组成网格,在此网格上搜索拒识得分最大的路径。
2.根据权利要求1所述的方法,其中使用全局特征测试候选命名实体的步骤包括将全局特征作为输入,使用单类支撑向量机对候选命名实体进行测试的步骤。
3.根据权利要求1所述的方法,其中所述逐步式识别步骤包括前向逐步式解析训练步骤和后向逐步式解析训练步骤,以分别生成前向逐步式分类模型和后向逐步式分类模型。
4.根据权利要求1所述的方法,其中所述拒识得分等于单类支撑向量机的测试得分减去所述阈值。
5.一种识别自然语言中的命名实体的方法,包括步骤:
使用一个特征窗口,对窗口中心包含的词或字进行局部特征抽取;
基于对自然语言执行逐步式解析模型训练后所得到的分类模型,对自然语言执行逐步式解析识别,以得到侯选命名实体的位置和类型信息;
使用一个特征窗口,对窗口中心包含的候选命名实体进行全局特征抽取;
利用拒识器对侯选命名实体进行拒识处理;和
对经过拒识处理的侯选命名实体生成侯选命名实体网络,并执行最优路径搜索。
6.根据权利要求5所述的方法,其中所述逐步式解析模型训练步骤包括使用执行前向逐步式解析模型训练得到的前向逐步式分类模型,和执行后向逐步式解析模型训练得到的后向逐步式分类模型。
7.根据权利要求5所述的方法,其中所述逐步式解析识别步骤包括对读取的词进行局部特征抽取,并基于这些局部特征进行解析的步骤。
8.根据权利要求7所述的方法,进一步包括特征抽取模块得到表示所述侯选命名实体的所有特征的多维向量,使用逐步式分类模型对得到的多维向量进行分类的步骤。
9.根据权利要求5所述的方法,进行拒识处理的步骤包括对候选命名实体中的字进行全局特征抽取,针对得到的全局特征在单类分类器上使用学习得到的模型进行拒识处理的步骤。
10.根据权利要求5所述的方法,进行拒识处理的步骤包括,由拒识器抽出候选命名实体,计算出表示这些候选命名实体的准确性得分,根据算出的得分,对候选命名实体进行接受或拒绝的处理。
11.根据权利要求5所述的方法,进行拒识处理的步骤使用的是对于不同类别的命名实体使用不同的训练集而得到的拒识器。
12.根据权利要求5所述的方法,其中所述拒识处理步骤使用单类支撑向量机测试该侯选命名实体,如果测试得分超过预定的阈值,则接受所述候选命名实体,否则拒识所述候选命名实体。
13.根据权利要求5所述的方法,其中在所述拒识处理步骤中,如果前向和后向解析得到了同一个候选命名实体,则使用单类支撑向量机和相同侯选阈值对该候选命名实体进行评价。
14.根据权利要求5所述的方法,其中在所述拒识处理步骤中,如果一个单遍解析得到一个候选命名实体,而另一个单遍解析未得到与所述候选在位置上相交的其它候选命名实体,则使用单类支撑向量机和自由阈值对候选命名实体进行评价。
15.根据权利要求5所述的方法,其中在所述拒识处理步骤中,如果前向解析得到一个候选命名实体,后向解析得到另一个候选命名实体,且两个候选在位置上相交,而且具有相同类型,则根据位置重叠情况至多生成两个同类型的新候选,使用单类支撑向量机和重叠侯选阈值对至多4个候选进行评价。
16.根据权利要求5所述的方法,其中在所述拒识处理步骤中,如果两遍解析得到2个在位置上相交的、且类型不同的候选命名实体,则使用单类支撑向量机和前后向冲突侯选阈值对这2个候选进行评价。
17.一种识别自然语言中的命名实体的离线训练方法,包括步骤:
对自然语句进行前向逐步式解析模型训练,以得到前向逐步式分类模型;
对所述自然语句进行后向逐步式解析模型训练,以得到后向逐步式分类模型;和
根据得到的前向逐步式分类模型和后向逐步式分类模型对侯选命名实体进行拒识模型训练,以得到拒识分类模型。
18.一种识别自然语言中的命名实体的在线识别方法,包括步骤:
使用前向逐步式分类模型对自然语言进行识别,得到前向识别结果;
使用后向逐步式分类模型对自然语言进行识别,得到后向识别结果;
根据所述前向识别结果和所述后向识别结果生成侯选网格;和
使用生成的所述侯选网格来计算最优路径,并输出命名实体。
19.一种识别自然语言中的命名实体的离线训练系统,包括:
局部特征抽取装置,用于使提供的训练文本生成一个以特征向量和样本标记表示的命名实体训练样本;
多类支撑向量机训练装置,用于对训练文本进行训练,生成逐步式分类模型;
全局特征抽取装置,用于使命名实体训练样本生成一个基于字的以特征向量和样本标记表示的拒识训练样本;
单类支撑向量机训练装置,用于对得到的拒识训练样本进行拒识训练,以生成拒识分类模型;
训练样本存储器,用于存储训练过程中使用的训练文本。
20.一种识别自然语言中的命名实体的在线识别系统,包括:
局部特征抽取装置,用于使提供的测试样本生成局部特征向量;
多类支撑向量机识别装置,用于根据样本的局部特征向量对输入的样本进行识别,以得到侯选命名实体;
全局特征抽取装置,用于对候选命名实体及其上下文抽取全局特征向量;和
单类支撑向量机识别装置,用于根据样本的全局特征向量对输入的候选命名实体进行识别;
其中所述多类支撑向量机识别装置,利用多类分类模型,对输入的局部特征向量进行测试以得到其类别标记,并根据属于同一种类型的命名实体的一串起始和继续标记,形成一个候选命名实体,所述单类支撑向量机识别装置,利用单类分类模型,对输入的全局特征向量进行测试以得到其测试得分,从得到的测试得分减去不同的阈值得到拒识得分,根据拒识得分进行最优路径搜索,和接受最优路径上的候选命名实体。
21.根据权利要求20所述的系统,还包括:
拒识打分装置,用于根据所述单类支撑向量机识别装置得到的候选命名实体识别结果,以及候选命名实体的位置关系,确定不同的阈值,以计算拒识得分,并根据计算出的拒识得分,来接受或拒绝候选命名实体。
22.根据权利要求20所述的系统,还包括:
最优路径搜索装置,用于根据候选命名实体的位置和拒识得分,搜索拒识得分之和最大的最优路径。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006100798905A CN101075228B (zh) | 2006-05-15 | 2006-05-15 | 识别自然语言中的命名实体的方法和装置 |
US12/300,684 US8938385B2 (en) | 2006-05-15 | 2007-05-15 | Method and apparatus for named entity recognition in chinese character strings utilizing an optimal path in a named entity candidate lattice |
PCT/CN2007/001560 WO2007137487A1 (en) | 2006-05-15 | 2007-05-15 | Method and apparatus for named entity recognition in natural language |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006100798905A CN101075228B (zh) | 2006-05-15 | 2006-05-15 | 识别自然语言中的命名实体的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101075228A CN101075228A (zh) | 2007-11-21 |
CN101075228B true CN101075228B (zh) | 2012-05-23 |
Family
ID=38778104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006100798905A Expired - Fee Related CN101075228B (zh) | 2006-05-15 | 2006-05-15 | 识别自然语言中的命名实体的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8938385B2 (zh) |
CN (1) | CN101075228B (zh) |
WO (1) | WO2007137487A1 (zh) |
Families Citing this family (189)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
JP5447862B2 (ja) * | 2008-04-03 | 2014-03-19 | 日本電気株式会社 | 単語分類システム、方法およびプログラム |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR101154011B1 (ko) * | 2010-06-07 | 2012-06-08 | 주식회사 서비전자 | 다중 모델 적응화와 음성인식장치 및 방법 |
CN102122506B (zh) * | 2011-03-08 | 2013-07-31 | 天脉聚源(北京)传媒科技有限公司 | 一种语音识别的方法 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
CN102955773B (zh) * | 2011-08-31 | 2015-12-02 | 国际商业机器公司 | 用于在中文文档中识别化学名称的方法及系统 |
CN103164426B (zh) * | 2011-12-13 | 2015-10-28 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
US9652452B2 (en) * | 2012-01-06 | 2017-05-16 | Yactraq Online Inc. | Method and system for constructing a language model |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN102955775A (zh) * | 2012-06-14 | 2013-03-06 | 华东师范大学 | 基于上下文语义的外国人名自动识别控制方法 |
TW201403354A (zh) * | 2012-07-03 | 2014-01-16 | Univ Nat Taiwan Normal | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 |
CN103678336B (zh) * | 2012-09-05 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 实体词识别方法及装置 |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9116918B1 (en) * | 2012-11-14 | 2015-08-25 | Google Inc. | Methods, systems, and media for interpreting queries |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
CN103150381B (zh) * | 2013-03-14 | 2016-03-02 | 北京理工大学 | 一种高精度汉语谓词识别方法 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US20150088589A1 (en) * | 2013-09-26 | 2015-03-26 | International Business Machines Corporation | Converting a text operational manual into a business process model or workflow diagram |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) * | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9619457B1 (en) * | 2014-06-06 | 2017-04-11 | Google Inc. | Techniques for automatically identifying salient entities in documents |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
CN104899304B (zh) * | 2015-06-12 | 2018-02-16 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN105045847B (zh) * | 2015-07-01 | 2018-05-25 | 广州市万隆证券咨询顾问有限公司 | 一种从文本信息中提取中文机构单位名称的方法 |
US10372763B2 (en) | 2015-07-13 | 2019-08-06 | International Business Machines Corporation | Generating probabilistic annotations for entities and relations using reasoning and corpus-level evidence |
CN104978587B (zh) * | 2015-07-13 | 2018-06-01 | 北京工业大学 | 一种基于文档类型的实体识别合作学习算法 |
CN106355628B (zh) * | 2015-07-16 | 2019-07-05 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10701152B2 (en) * | 2015-09-24 | 2020-06-30 | Hewlett Packard Enterprise Development Lp | Memory system management |
CN105279520B (zh) * | 2015-09-25 | 2018-07-24 | 天津师范大学 | 基于分类能力结构向量互补的最优特征子集选取方法 |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105824802B (zh) * | 2016-03-31 | 2018-10-30 | 清华大学 | 一种获取知识图谱向量化表示的方法以及装置 |
US10282411B2 (en) * | 2016-03-31 | 2019-05-07 | International Business Machines Corporation | System, method, and recording medium for natural language learning |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
US10372743B2 (en) * | 2016-07-20 | 2019-08-06 | Baidu Usa Llc | Systems and methods for homogeneous entity grouping |
CN106202054B (zh) * | 2016-07-25 | 2018-12-14 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
CN106448660B (zh) * | 2016-10-31 | 2019-09-17 | 闽江学院 | 一种引入大数据分析的自然语言模糊边界确定方法 |
CN108062302B (zh) * | 2016-11-08 | 2019-03-26 | 北京国双科技有限公司 | 一种文本信息的识别方法及装置 |
CN108090039A (zh) * | 2016-11-21 | 2018-05-29 | 中移(苏州)软件技术有限公司 | 一种人名识别方法和装置 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN106980815A (zh) * | 2017-02-07 | 2017-07-25 | 王俊 | 基于h‑b分级评分监督下的面瘫客观评估方法 |
CN107168949A (zh) * | 2017-04-24 | 2017-09-15 | 成都准星云学科技有限公司 | 基于实体组合的数学自然语言处理实现方法、系统 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
CN108280064B (zh) * | 2018-02-28 | 2020-09-11 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN108959474B (zh) * | 2018-06-20 | 2021-12-28 | 上海交通大学 | 实体关系提取方法 |
CN109190110B (zh) * | 2018-08-02 | 2023-08-22 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
CN109241524B (zh) * | 2018-08-13 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR20200054360A (ko) * | 2018-11-05 | 2020-05-20 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN109284400B (zh) * | 2018-11-28 | 2020-10-23 | 电子科技大学 | 一种基于Lattice LSTM和语言模型的命名实体识别方法 |
CN109614614B (zh) * | 2018-12-03 | 2021-04-02 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN111382569B (zh) * | 2018-12-27 | 2024-05-03 | 深圳市优必选科技有限公司 | 对话语料中实体的识别方法、装置和计算机设备 |
CN109753657B (zh) * | 2018-12-29 | 2022-02-25 | 北京泰迪熊移动科技有限公司 | 用于人名识别的数据处理方法以及装置、客户端、服务器 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109933801B (zh) * | 2019-03-25 | 2022-03-29 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110502740B (zh) * | 2019-07-03 | 2022-05-17 | 平安科技(深圳)有限公司 | 问句实体识别与链接方法、装置、计算机设备及存储介质 |
CN110472062B (zh) * | 2019-07-11 | 2020-11-10 | 新华三大数据技术有限公司 | 识别命名实体的方法及装置 |
CN110569506A (zh) * | 2019-09-05 | 2019-12-13 | 清华大学 | 一种基于医疗词典的医疗命名实体识别方法 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110738052A (zh) * | 2019-09-29 | 2020-01-31 | 中国中医科学院 | 一种基于特征字的半监督中医命名实体获取方法 |
CN110688841A (zh) * | 2019-09-30 | 2020-01-14 | 广州准星信息科技有限公司 | 一种机构名称识别方法、装置、设备以及存储介质 |
CN111222334A (zh) * | 2019-11-15 | 2020-06-02 | 广州洪荒智能科技有限公司 | 命名实体识别方法、装置、设备及介质 |
CN111160032B (zh) * | 2019-12-17 | 2023-03-17 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备及存储介质 |
CN111062786B (zh) * | 2019-12-25 | 2023-05-23 | 创新奇智(青岛)科技有限公司 | 一种基于建立商品外观特征映射表的模型更新方法 |
CN113051905A (zh) * | 2019-12-28 | 2021-06-29 | 中移(成都)信息通信科技有限公司 | 训练医疗命名实体识别模型及医疗命名实体识别的方法 |
CN113111656B (zh) * | 2020-01-13 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
CN111241832B (zh) * | 2020-01-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
US10817665B1 (en) * | 2020-05-08 | 2020-10-27 | Coupang Corp. | Systems and methods for word segmentation based on a competing neural character language model |
CN111709248B (zh) * | 2020-05-28 | 2023-07-11 | 北京百度网讯科技有限公司 | 文本生成模型的训练方法、装置及电子设备 |
CN111523314B (zh) * | 2020-07-03 | 2020-09-25 | 支付宝(杭州)信息技术有限公司 | 模型对抗训练、命名实体识别方法及装置 |
CN111881692B (zh) * | 2020-07-28 | 2023-01-13 | 平安科技(深圳)有限公司 | 基于多训练目标的机构实体抽取方法、系统及装置 |
US11829720B2 (en) | 2020-09-01 | 2023-11-28 | Apple Inc. | Analysis and validation of language models |
CN113761923A (zh) * | 2020-10-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN112380860B (zh) * | 2020-11-13 | 2023-12-29 | 平安科技(深圳)有限公司 | 句子向量处理方法、句子匹配方法、装置、设备和介质 |
CN112699682B (zh) * | 2020-12-11 | 2022-05-17 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN112487816B (zh) * | 2020-12-14 | 2024-02-13 | 安徽大学 | 一种基于网络分类的命名实体识别方法 |
CN113191149B (zh) * | 2021-05-12 | 2023-04-07 | 北京交通大学 | 一种自动化提取物联网设备信息的方法 |
CN113610193A (zh) * | 2021-09-08 | 2021-11-05 | 北京科技大学 | 一种再生资源识别模型建立方法及再生资源识别方法 |
CN114239575B (zh) * | 2021-12-20 | 2023-04-18 | 北京聆心智能科技有限公司 | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352774A (zh) * | 1999-04-08 | 2002-06-05 | 肯特里奇数字实验公司 | 用于中文的标记和命名实体识别的系统 |
US20030208354A1 (en) * | 2002-05-03 | 2003-11-06 | Industrial Technology Research Institute | Method for named-entity recognition and verification |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7212963B2 (en) * | 2002-06-11 | 2007-05-01 | Fuji Xerox Co., Ltd. | System for distinguishing names in Asian writing systems |
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
WO2005116866A1 (en) * | 2004-05-28 | 2005-12-08 | Agency For Science, Technology And Research | Method and system for word sequence processing |
WO2006134682A1 (ja) * | 2005-06-15 | 2006-12-21 | Matsushita Electric Industrial Co., Ltd. | 固有表現抽出装置、方法、及びプログラム |
-
2006
- 2006-05-15 CN CN2006100798905A patent/CN101075228B/zh not_active Expired - Fee Related
-
2007
- 2007-05-15 US US12/300,684 patent/US8938385B2/en active Active
- 2007-05-15 WO PCT/CN2007/001560 patent/WO2007137487A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352774A (zh) * | 1999-04-08 | 2002-06-05 | 肯特里奇数字实验公司 | 用于中文的标记和命名实体识别的系统 |
US20030208354A1 (en) * | 2002-05-03 | 2003-11-06 | Industrial Technology Research Institute | Method for named-entity recognition and verification |
Also Published As
Publication number | Publication date |
---|---|
US8938385B2 (en) | 2015-01-20 |
US20090326923A1 (en) | 2009-12-31 |
WO2007137487A1 (en) | 2007-12-06 |
CN101075228A (zh) | 2007-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101075228B (zh) | 识别自然语言中的命名实体的方法和装置 | |
CN111967387B (zh) | 表单识别方法、装置、设备及计算机可读存储介质 | |
EP3637295B1 (en) | Risky address identification method and apparatus, and electronic device | |
Schmid | Deep learning-based morphological taggers and lemmatizers for annotating historical texts | |
CN102402584B (zh) | 多语言文本中的语言识别 | |
JP7370033B2 (ja) | セマンティック認識方法 | |
Morio et al. | End-to-end argument mining for discussion threads based on parallel constrained pointer architecture | |
CN113705313A (zh) | 文本识别方法、装置、设备及介质 | |
CN112200664A (zh) | 基于ernie模型和dcnn模型的还款预测方法 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
Tamboli et al. | Authorship analysis and identification techniques: A review | |
CN116432655A (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN111680684A (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
Retsinas et al. | An alternative deep feature approach to line level keyword spotting | |
CN115186675A (zh) | 语言模型训练及自然语言任务处理方法、装置及相关设备 | |
Ekbal et al. | Voted NER system using appropriate unlabeled data | |
CN116136955B (zh) | 文本转写方法、装置、电子设备及存储介质 | |
Yang et al. | EcForest: extractive document summarization through enhanced sentence embedding and cascade forest | |
CN113449528B (zh) | 一种地址要素提取方法、装置、计算机设备和存储介质 | |
Parizi et al. | UNBNLP at SemEval-2019 task 5 and 6: Using language models to detect hate speech and offensive language | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN115048515A (zh) | 文档分类方法、装置、设备和存储介质 | |
Rahman et al. | An investigative design based statistical approach for determining Bangla sentence validity | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120523 |