CN104572625A - 命名实体的识别方法 - Google Patents

命名实体的识别方法 Download PDF

Info

Publication number
CN104572625A
CN104572625A CN201510030187.4A CN201510030187A CN104572625A CN 104572625 A CN104572625 A CN 104572625A CN 201510030187 A CN201510030187 A CN 201510030187A CN 104572625 A CN104572625 A CN 104572625A
Authority
CN
China
Prior art keywords
identified
word
dictionary
word unit
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510030187.4A
Other languages
English (en)
Inventor
孙孝雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunzhisheng Information Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201510030187.4A priority Critical patent/CN104572625A/zh
Publication of CN104572625A publication Critical patent/CN104572625A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了命名实体的识别方法,涉及语言识别领域。本发明实施例提供的命名实体的识别方法,采用复合识别的方式,其通过先对每个语句进行分词处理,再在分词的结果基础上(得出待识别词语单位),确认每个待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况,并且进一步根据参考命名词典中不同待识别词语单元的出现情况(主要是待识别词语单元在哪种参考命名词典中出现了)和词性、语言结构来精确的确认命名实体识别结果,由于为每个待识别词语单位匹配了相对应的参考命名词典,由此,可以根据参考命名词典对待识别词语单位进行更为精确的命名实体识别。

Description

命名实体的识别方法
技术领域
本发明涉及语言识别领域,具体而言,涉及命名实体的识别方法。
背景技术
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web(语义网,其是一个由全球信息网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,它的核心是:通过给全球信息网上的文档(如:标准通用标记语言下的一个应用HTML)添加能够被计算器所理解的语义“元数据(Meta data)”,从而使整个互联网成为一个通用的信息交换媒介)的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
在实际应用中我们往往需要更多的命名实体类别,比如音乐、视频、产品名称等等,但现有技术中,使用一个模型,或者是少量模型进行识别的方法通常是无法给出识别结果,或者是识别结果的精度较低。
发明内容
有鉴于此,本发明实施例的目的在于提供命名实体的识别方法,以提高命名实体识别的精度。
第一方面,本发明实施例提供了命名实体的识别方法,包括:
对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位;
确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典;
根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位还包括:
根据预先获取的通用分词模型对预先获取的语句进行分词,以确定粗略分词结果;
使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语单位,所述专有分词词典包括与所述待分词语句相对应的标准领域分词词典和词频分词词典。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语单位包括:
按照词频分词词典中不同词语的出现概率,对所述粗略分词结果进行纠正;
根据所述标准领域分词词典,选择多种所述待确认分词方式中的一种方式作为所述待识别词语单位。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典包括:
根据863词性标注集,确定所述待识别词语单位的词性;
和/或
使用6标签的方式标识指定字在当前所述待识别词语单位中的位置,以确定待识别词语单位的语言结构。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典还包括:
获取不同领域的参考命名词典;
分别在每个所述参考命名词典中查找所述待识别词语单位,以确定记载有待识别词语单位的参考命名词典。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,还包括:
分别为每个所述参考命名词典赋予不同的数值,且第一组中全部参考命名词典的数值总和不等于第二组中全部参考命名词典的数值总和,其中,所述第一组和第二组中均分别包括有至少一个参考命名词典,且第一组中至少存在一个未在第二组中出现的参考命名词典;
分别确定每个待识别词语单位的词典数值,所述词典数值是出现有同一指定待识别词语单位的参考命名词典的数值总和;
根据待识别词语单位的词典数值确认待识别词语单元在不同种类参考命名词典中的出现情况。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,还包括:
使用不同位数的数字,分别为每个所述参考命名词典赋予不同的数值。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果包括:
根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况,在预设的对应列表中查询每个待识别词语单元所对应的命名实体识别结果。
结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,还包括:若所述对应列表中不存在与识别困难的待识别词语单元相对应命名实体识别结果,则在记载有待识别词语单位的参考命名词典中,查找与识别困难的待识别词语单元的词性和语言结构相同的参考词语;
若查找到与识别困难的待识别词语单元的词性和语言结构相同的参考词语,则根据所述对应列表中查找所述参考词语的命名实体识别结果;
将所述参考词语的命名实体识别结果作为识别困难的待识别词语单元的命名实体识别结果。
结合第一方面,本发明实施例提供了第一方面的第九种可能的实施方式,其中,还包括:将识别困难的待识别词语单元与对应的命名实体识别结果添加入预设的对应列表中。
本发明实施例提供的命名实体的识别方法,采用复合识别的方式,与现有技术中的识别结果精度较低相比,其通过先对每个语句进行分词处理,再在分词的结果基础上(得出待识别词语单位),确认每个待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况,并且进一步根据参考命名词典中不同待识别词语单元的出现情况(主要是待识别词语单元在哪种参考命名词典中出现了)和词性、语言结构来精确的确认命名实体识别结果,由于为每个待识别词语单位匹配了相对应的参考命名词典,由此,可以根据参考命名词典对待识别词语单位进行更为精确的命名实体识别。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的命名实体的识别方法的基本流程图;
图2示出了本发明实施例所提供的命名实体的识别方法的细节流程图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了命名实体的识别方法,如图1所示,包括如下步骤:
S101,对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位;
S102,确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典;
S103,根据待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果。
对语句,或者文章进行命名实体识别的目的是:通过预先对语句或者其他语言单位中的词语进行标签设置的基础上,在需要快速确定有效信息的时候,能够根据标签进行搜索,以高效的提取出对自身有用的信息。具体使用时,由于使用者在不同的情况下,或者是不同领域的使用者所关注的词语不同,因此可以通过设置标签的方式来快速的帮助使用者(即使是不同领域的使用者)快速抓取出某句话中的主要信息,或者需要关注的信息。
在进行命名实体识别之前,需要先进行分词,以确定命名基础。分词的作用是将一句话中的多个字有效的划分为一个或多个词,具体分词的方式较多,可以使用现有技术中的分词方式对句子进行相应的分词处理。也就是执行步骤S101,对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位。待识别词语单位也就是已经分好的词。
步骤S102中,需要确定每个待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典。其中,需要进行词性、语言结构和参考命名词典确认的词是使用者需要进行命名实体识别的词,并不一定是整句话中的每个词。语言结构指的是一个词中每个字的顺序位置,如可以使用B表示词的开始,E表示词的结尾,M表示词的中间,B1、B2为当词大于三个字的时候表计在首个字之后的两个字。具体的标注形式有很多,再此不一一列举,此部分的目的是将词语的中的结构进行明确和细分,以便于在最终进行命名实体识别的时候能够起到更为精确的辅助作用。步骤S102中的重要部分是确定记载有待识别词语单位的参考命名词典,参考命名词典可以理解为命名实体识别词典,通常,参考命名词典可以是预先准备多个,且这些参考命名词典均是不同领域的,或者是同一领域中收集了不同方面的词语。通过使用不同类别的参考命名词典,能够使一个句子(预先获取的待分词语句)得到充分的分析,从而使得确定的命名实体识别结果更为精确。并且可以通过对不同领域的命名实体识别词典进行多级的划分,实现更为精确的识别。如可以将命名实体识别词典分为自然科学和社会科学,还可以将命名实体识别词典的自然科学种类分为生物、电学、化学等。通过多级别的分类能够在可以使用更小分类的时候,对待识别词语单位进行精确的命名实体识别,但某些情况下,细小的分类反而对精确识别带来副作用,如某些领域的文章就是跨领域的,因此在确认记载有待识别词语单位的参考命名词典的时候,可以根据待识别词语单位在某个词典中的出现概率来确定是否使用这个领域的词典(或者说是某个具体的词典)作为“记载有待识别词语单位的参考命名词典”。具体如出现“待识别词语单位”超过2次的词典,才能够作为“记载有待识别词语单位的参考命名词典”。除了根据出现次数来确定某个词典是否作为“记载有待识别词语单位的参考命名词典”,还可以根据出现的次数比作为依据。如某个“待识别词语单位”在预先获取的待分词语句,或者是预先获取的带分词文章中出现了10词,但其他需要识别的待分词语句则出现了上千次,那么由于二者的比例悬殊,因此可以主要以出现次数较多的参考命名词典作为“记载有待识别词语单位的参考命名词典”。
步骤S103中,根据待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果,也就是通过词性、语言结构,在预设的对应表(可以理解为参考命名词典中的对应表)中查找与词性、语言结构相符合的命名实体,进而,基于能够准确的确定待识别词语单位所对应的参考命名词典(记载有待识别词语单位的参考命名词典)能够确定出来准确的命名实体识别结果。
具体的,步骤S101,所述对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位还包括:
根据预先获取的通用分词模型对预先获取的语句进行分词,以确定粗略分词结果;
使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语单位,所述专有分词词典包括与所述待分词语句相对应的标准领域分词词典和词频分词词典。
其中,通用分词模型是指相关技术中通常使用的分词模型,但使用通常的分词模型没有针对性,因此,会造成一定程度上的不准确,例如某些语句中存在的词语,可以是使用不同的划分方式进行划分的,如“放风筝”,本身作为动词+名词使用,但某些情况下(某电影名也是“放风筝”)则需要作为一个名词来使用,此时则会造成分词的结果产生不准确的情况。由此可以通过使用词频分词词典来进一步纠正使用通用分词模型分词得到的结果。
词频词典,是根据大规模的语料(句子分词结果)统计出来的词语的频次比如:
1234风筝;
233放风;
表示在我们的语料中出现风筝的次数是1234次,出现放风是233次,当分词结果是“放-风-筝”时,我们发现“放风”和“风筝”都是一个正确的词,这时候我们利用“风筝”的词频大于放风的,确定最后的分词结果“放-风筝”,而最后“放风筝”是一个电影名称,是命名实体识别的结果。
具体的,使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语单位包括:
按照词频分词词典中不同词语的出现概率,对所述粗略分词结果进行纠正;
根据所述标准领域分词词典,选择多种所述待确认分词方式中的一种方式作为所述待识别词语单位。
也就是可以根据词频分词磁电中不同词语的出现情况,选择出现频率较高的分词方式来对语句进行划分。并且可以通过第三方提供的标准领域分词词典来进一步进行更为精准的矫正。需要说明的是,标准领域分词词典通常是使用者提供的,当使用者所处的领域较为独特的时候,该领域的专有名词是无法以词频分词词典和通用分词词典进行分词,使用普通的词典要么无法分解出足够的待识别词语单位,要么分出来的待识别词语单位是错误的。如“在油检测”,使用通常的词典是无法识别在油这两个字的,只能将“在”和“油”分开来区分,但实际上,在仪器测试领域,“在油检测”是一个常用词汇,其表达了在某种具体的工作环境下进行的检测,因此此时,如果使用者不提供这种专有名词的解析和分词方式,使用普通的方式进行分词,是难以得到精准的分词结果的。
需要说明的是,通常,标准领域分词词典的容量较小,由于专有名词的数量是较少的,因此可以在分词的最后进行校验即可,如果首先使用标准领域分词词典进行分词的话,很多语句是无法进行正常的分词的。使用标准领域分词词典的时候可以是针对使用普通分词词典(词频分词词典和通用分词模型)无法分解的长短语进行的,或者是联系上下文无法解释同的词语进行的,如两个名词连续出现,如只有形容词出现,也就是可以在语句缺少必要组成部分的时候考虑使用标准领域分词词典,以进一步提高准确性。
下面列举分别一种常用的分词方式和词性标注方式。也就是所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典包括:
863词性标注集,是北京大学的一种词性标注的规范,一种对词性的具体分类以及对应的表示,如下表:
Tag Description Example Tag Description Example
‐‐‐ ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ ‐‐‐‐‐‐‐‐‐‐ ‐‐‐ ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ ‐‐‐‐‐‐‐‐‐‐
a adjective 美丽 ni organizationname 保险公司
b other noun‐modifier 大型,西式 nl locationnoun 城郊
c conjunction 和,虽然 ns geographicalname 北京
d adverb nt temporalnoun 近日,明代
e exclamation nz otherpropernoun 诺贝尔奖
g morpheme 茨,甥 o onomatopoeia 哗啦
h prefix 阿,伪 p preposition 在,把
i idiom 百花齐放 q quantity
j abbreviation 公检法 r pronoun 我们
k suffix 界,率 u auxiliary 的,地
m number 一,第一 v verb 跑,学习
n general noun 苹果 wp punctuation ,。!
nd direction noun 右侧 ws foreignwords CPU
nh person name 杜甫,汤姆 x non‐lexeme 萄,翱
m number 一,第一 v verb 跑,学习
n general noun 苹果 wp punctuation ,。!
nd direction noun 右侧 ws foreignwords CPU
nh person name 杜甫,汤姆 x non‐lexeme 萄,翱
根据863词性标注集,确定所述待识别词语单位的词性;
和/或
使用6标签的方式标识指定字在当前所述待识别词语单位中的位置,以确定待识别词语单位的语言结构。
863词性标注集是较为常用的词性标注方式,其标注的词性足够细致,词性标注结果能够直接被最终的命名实体识别词典所使用。
6标签模型是一种词的表示方式,B词的开始,B1在B之后,B2在B1之后,M词中,E词的结尾,S单独成词,具体如下
我/B 们/E
的/S
毛/B 泽/M 东/E
十/B 面/B1 埋/M 伏/E
上/B 海/B1 交/B2 通/M 大/M 学/E
即当词字数大于三的情况下,即词中的数目大于等于2,这时候,在B之后的用B1、B2表示,其他的均用M表示,但是保证至少有一个M
6标签(6tag模型)也是较为常用的一种分词模型。
具体的,步骤S102,所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典还包括:
获取不同领域的参考命名词典;
分别在每个所述参考命名词典中查找所述待识别词语单位,以确定记载有待识别词语单位的参考命名词典。
在分词的基础之上,可以通过获得的不同领域的参考命名词典来精确的对语句中的待识别词语单位进行命名实体识别。如可以分为动画类、纪实类、动作类等等分类的参考命名词典,在确认记载有待识别词语单位的参考命名词典的时候,可以根据词典中的词语在原句,或者是原文章中出现的次数或者频率来选择是否将该词典作为“记载有待识别词语单位的参考命名词典”。依次,来降低系统参考词典的数量,从而简化命名实体识别的步骤,并且可以,由于某些词汇在其他词典(准确词典)中出现的概率较高,因此待分词语句,或者待分词文章可以更多的以准确词典中的识别方式为准。
进一步,本发明所提供的命名实体的识别方法,如图2所示,还包括如下步骤:
分别为每个所述参考命名词典赋予不同的数值,且第一组中全部参考命名词典的数值总和不等于第二组中全部参考命名词典的数值总和,其中,所述第一组和第二组中均分别包括有至少一个参考命名词典,且第一组中至少存在一个未在第二组中出现的参考命名词典;
分别确定每个待识别词语单位的词典数值,所述词典数值是出现有同一指定待识别词语单位的参考命名词典的数值总和;
根据待识别词语单位的词典数值确认待识别词语单元在不同种类参考命名词典中的出现情况。
在系统进行识别的时候,如果同时记录,或者说标识每个词/词出现在哪些词典中是比较繁琐的,而且不容易被使用者所识别到。因此,可以通过只记录数字的方式来说明某个字/词出现在哪些参考命名词典中。但是考虑到使用任意的数字来表示词典会造成混乱的现象,如ABCD四个词典分别赋值1234,那么在某个字/词标注为3的时候,不清楚是出现在了C词典中,还是同时出现在了A和B词典中,因此需要在赋予不同词典数值的时候,保证:第一组中全部参考命名词典的数值总和不等于第二组中全部参考命名词典的数值总和,其中,所述第一组和第二组中均分别包括有至少一个参考命名词典,且第一组中至少存在一个未在第二组中出现的参考命名词典,也就是:分两次从整体中,选择多个词典,这两次选择的词典至少有一个不相同,则需要保证一次选择的多个词典的数值总和要与另一次选择的词典的数值总和不同。如下例:可以采用2为首项,2为通项公式的等比数列来设置数值,也就是2,4,8,16等等数值。那么分别赋予A-D四个词典以2,4,8,16这些数值,不论如何从A-D中选择词典,其词典所对应的数值的总和必然是不相等的(每次选择时,至少比其他次选择的时候有一个词典是不同的)。其原理是,两次选择的词典中忽略掉相同的词典(这些相同的词典的数值是相同的,能够抵消),必然会有某一次选择的时候存在一个数值较大的词典,这个词典的数值大于已选的所有词典数值的总和(通过等比数列求和能够简单得出:前X项的总和必然小于X+1项);因此可以断定:两次选择中,只要有一个词典的差别,两次选择的总数值就必然不同。由此,可以使用此种方式(只用一个数字)来表示某个字/词出现在了哪些词典中(并且不会发生逻辑冲突,即,某个数字可以解释为两种含义)。
还可以是,使用不同位数的数字,分别为每个所述参考命名词典赋予不同的数值且识别数字只有首位为非零数字。不同位数的数字相加就是使用了每个位置上数字的特点,使用一个数位来表示一个词典。
其中,步骤所述根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果包括:
根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况,在预设的对应列表中查询每个待识别词语单元所对应的命名实体识别结果。
也就是可以通过预先设置的对应表来确定待识别词语单元所对应的命名实体识别结果,这个对应表可以提前录入到电脑中,以便于电脑自动是被。
进一步,如图2所示,本发明所提供的命名实体的识别方法还包括:S201,若对应列表中不存在与识别困难的待识别词语单元相对应命名实体识别结果,则在记载有待识别词语单位的参考命名词典中,查找与识别困难的待识别词语单元的词性和语言结构相同的参考词语;
S202,若查找到与识别困难的待识别词语单元的词性和语言结构相同的参考词语,则根据对应列表中查找参考词语的命名实体识别结果;
S203,将参考词语的命名实体识别结果作为识别困难的待识别词语单元的命名实体识别结果。
也就是,当存在难以识别的待识别词语单元的时候,可以使用类比的方式来确定该待识别词语单元的命名实体识别结果。即,根据识别困难的待识别词语单元的词性和语言结构在已有的资料中查找相同的参考词语,通过识别参考词语的命名实体识别结果进而能够得出识别困难的待识别词语单元的命名实体识别结果。进一步,还可以是:将识别困难的待识别词语单元与对应的命名实体识别结果添加入预设的对应列表中。以保证下次遇到识别困难的待识别词语单元能够直接识别。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.命名实体的识别方法,其特征在于,包括:
对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位;
确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典;
根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果。
2.根据权利要求1所述的命名实体的识别方法,其特征在于,所述对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位还包括:
根据预先获取的通用分词模型对预先获取的语句进行分词,以确定粗略分词结果;
使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语单位,所述专有分词词典包括与所述待分词语句相对应的标准领域分词词典和词频分词词典。
3.根据权利要求2所述的命名实体的识别方法,其特征在于,
所述使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语单位包括:
按照词频分词词典中不同词语的出现概率,对所述粗略分词结果进行纠正;
根据所述标准领域分词词典,选择多种所述待确认分词方式中的一种方式作为所述待识别词语单位。
4.根据权利要求1所述的命名实体的识别方法,其特征在于,所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典包括:
根据863词性标注集,确定所述待识别词语单位的词性;
和/或
使用6标签的方式标识指定字在当前所述待识别词语单位中的位置,以确定待识别词语单位的语言结构。
5.根据权利要求1所述的命名实体的识别方法,其特征在于,所述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典还包括:
获取不同领域的参考命名词典;
分别在每个所述参考命名词典中查找所述待识别词语单位,以确定记载有待识别词语单位的参考命名词典。
6.根据权利要求5所述的命名实体的识别方法,其特征在于,还包括:
分别为每个所述参考命名词典赋予不同的数值,且第一组中全部参考命名词典的数值总和不等于第二组中全部参考命名词典的数值总和,其中,所述第一组和第二组中均分别包括有至少一个参考命名词典,且第一组中至少存在一个未在第二组中出现的参考命名词典;
分别确定每个待识别词语单位的词典数值,所述词典数值是出现有同一指定待识别词语单位的参考命名词典的数值总和;
根据待识别词语单位的词典数值确认待识别词语单元在不同种类参考命名词典中的出现情况。
7.根据权利要求6所述的命名实体的识别方法,其特征在于,还包括:
使用不同位数的识别数字,分别为每个所述参考命名词典赋予不同的数值,且识别数字只有首位为非零数字。
8.根据权利要求1所述的命名实体的识别方法,其特征在于,
所述根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果包括:
根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名词典中的出现情况,在预设的对应列表中查询每个待识别词语单元所对应的命名实体识别结果。
9.根据权利要求8所述的命名实体的识别方法,其特征在于,还包括:若所述对应列表中不存在与识别困难的待识别词语单元相对应命名实体识别结果,则在记载有待识别词语单位的参考命名词典中,查找与识别困难的待识别词语单元的词性和语言结构相同的参考词语;
若查找到与识别困难的待识别词语单元的词性和语言结构相同的参考词语,则根据所述对应列表中查找所述参考词语的命名实体识别结果;
将所述参考词语的命名实体识别结果作为识别困难的待识别词语单元的命名实体识别结果。
10.根据权利要求9所述的命名实体的识别方法,其特征在于,还包括:将识别困难的待识别词语单元与对应的命名实体识别结果添加入预设的对应列表中。
CN201510030187.4A 2015-01-21 2015-01-21 命名实体的识别方法 Pending CN104572625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510030187.4A CN104572625A (zh) 2015-01-21 2015-01-21 命名实体的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510030187.4A CN104572625A (zh) 2015-01-21 2015-01-21 命名实体的识别方法

Publications (1)

Publication Number Publication Date
CN104572625A true CN104572625A (zh) 2015-04-29

Family

ID=53088729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510030187.4A Pending CN104572625A (zh) 2015-01-21 2015-01-21 命名实体的识别方法

Country Status (1)

Country Link
CN (1) CN104572625A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202255A (zh) * 2016-06-30 2016-12-07 昆明理工大学 融合实体特性的越南语命名实体识别方法
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN106547733A (zh) * 2016-10-19 2017-03-29 中国国防科技信息中心 一种面向特定文本的命名实体识别方法
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN106570180A (zh) * 2016-11-10 2017-04-19 北京百度网讯科技有限公司 基于人工智能的语音搜索方法及装置
WO2017097166A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 识别领域命名实体的方法及装置
CN106991085A (zh) * 2017-04-01 2017-07-28 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN107464566A (zh) * 2017-09-21 2017-12-12 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107870905A (zh) * 2017-12-04 2018-04-03 语联网(武汉)信息技术有限公司 一种特定词汇的识别方法
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN109033070A (zh) * 2018-06-19 2018-12-18 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109284491A (zh) * 2018-10-23 2019-01-29 北京惠每云科技有限公司 医学文本识别方法、语句识别模型训练方法
CN109299467A (zh) * 2018-10-23 2019-02-01 北京惠每云科技有限公司 医学文本识别方法及装置、语句识别模型训练方法及装置
CN109388795A (zh) * 2017-08-07 2019-02-26 芋头科技(杭州)有限公司 一种命名实体识别方法、语言识别方法及系统
WO2019064137A1 (en) * 2017-09-27 2019-04-04 International Business Machines Corporation EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE
CN109710924A (zh) * 2018-12-07 2019-05-03 平安科技(深圳)有限公司 文本模型训练方法、文本识别方法、装置、设备及介质
CN109902286A (zh) * 2019-01-09 2019-06-18 北京小乘网络科技有限公司 一种实体识别的方法、装置及电子设备
CN110516654A (zh) * 2019-09-03 2019-11-29 北京百度网讯科技有限公司 视频场景的实体识别方法、装置、电子设备和介质
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质
CN111368541A (zh) * 2018-12-06 2020-07-03 北京搜狗科技发展有限公司 命名实体识别方法及装置
CN111523314A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置
CN111666768A (zh) * 2020-06-10 2020-09-15 京东方科技集团股份有限公司 一种中文命名实体的识别方法、识别装置及电子设备
CN111368541B (zh) * 2018-12-06 2024-06-11 北京搜狗科技发展有限公司 命名实体识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN103631948A (zh) * 2013-12-11 2014-03-12 北京京东尚科信息技术有限公司 命名实体的识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN103631948A (zh) * 2013-12-11 2014-03-12 北京京东尚科信息技术有限公司 命名实体的识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙镇,王惠临: "命名实体识别研究进展综述", 《现代图书情报技术》 *
江会星: "汉语命名实体识别研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
WO2017097166A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 识别领域命名实体的方法及装置
CN106202255A (zh) * 2016-06-30 2016-12-07 昆明理工大学 融合实体特性的越南语命名实体识别方法
CN106547733A (zh) * 2016-10-19 2017-03-29 中国国防科技信息中心 一种面向特定文本的命名实体识别方法
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN106503192B (zh) * 2016-10-31 2019-10-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN106570180A (zh) * 2016-11-10 2017-04-19 北京百度网讯科技有限公司 基于人工智能的语音搜索方法及装置
CN106570180B (zh) * 2016-11-10 2020-05-22 北京百度网讯科技有限公司 基于人工智能的语音搜索方法及装置
CN106570179B (zh) * 2016-11-10 2019-11-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN106991085A (zh) * 2017-04-01 2017-07-28 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN106991085B (zh) * 2017-04-01 2020-08-04 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN109388795B (zh) * 2017-08-07 2022-11-08 芋头科技(杭州)有限公司 一种命名实体识别方法、语言识别方法及系统
CN109388795A (zh) * 2017-08-07 2019-02-26 芋头科技(杭州)有限公司 一种命名实体识别方法、语言识别方法及系统
CN107464566A (zh) * 2017-09-21 2017-12-12 百度在线网络技术(北京)有限公司 语音识别方法和装置
WO2019064137A1 (en) * 2017-09-27 2019-04-04 International Business Machines Corporation EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE
CN107870905A (zh) * 2017-12-04 2018-04-03 语联网(武汉)信息技术有限公司 一种特定词汇的识别方法
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN109033070A (zh) * 2018-06-19 2018-12-18 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109033070B (zh) * 2018-06-19 2022-04-15 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109284491B (zh) * 2018-10-23 2023-08-22 北京惠每云科技有限公司 医学文本识别方法、语句识别模型训练方法
CN109299467B (zh) * 2018-10-23 2023-08-08 北京惠每云科技有限公司 医学文本识别方法及装置、语句识别模型训练方法及装置
CN109299467A (zh) * 2018-10-23 2019-02-01 北京惠每云科技有限公司 医学文本识别方法及装置、语句识别模型训练方法及装置
CN109284491A (zh) * 2018-10-23 2019-01-29 北京惠每云科技有限公司 医学文本识别方法、语句识别模型训练方法
CN111368541A (zh) * 2018-12-06 2020-07-03 北京搜狗科技发展有限公司 命名实体识别方法及装置
CN111368541B (zh) * 2018-12-06 2024-06-11 北京搜狗科技发展有限公司 命名实体识别方法及装置
CN109710924B (zh) * 2018-12-07 2022-04-12 平安科技(深圳)有限公司 文本模型训练方法、文本识别方法、装置、设备及介质
CN109710924A (zh) * 2018-12-07 2019-05-03 平安科技(深圳)有限公司 文本模型训练方法、文本识别方法、装置、设备及介质
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质
CN109902286A (zh) * 2019-01-09 2019-06-18 北京小乘网络科技有限公司 一种实体识别的方法、装置及电子设备
CN109902286B (zh) * 2019-01-09 2023-12-12 千城数智(北京)网络科技有限公司 一种实体识别的方法、装置及电子设备
CN110516654A (zh) * 2019-09-03 2019-11-29 北京百度网讯科技有限公司 视频场景的实体识别方法、装置、电子设备和介质
CN111666768A (zh) * 2020-06-10 2020-09-15 京东方科技集团股份有限公司 一种中文命名实体的识别方法、识别装置及电子设备
CN111523314A (zh) * 2020-07-03 2020-08-11 支付宝(杭州)信息技术有限公司 模型对抗训练、命名实体识别方法及装置

Similar Documents

Publication Publication Date Title
CN104572625A (zh) 命名实体的识别方法
Jung Semantic vector learning for natural language understanding
Zaidan et al. Arabic dialect identification
US20170132529A1 (en) Method and Apparatus for Extracting Entity Names and Their Relations
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
Bjarnadóttir The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls)
CN101702944A (zh) 用于识别自然语言文件中的整体-部分关系的语义处理器
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN103294664A (zh) 开放领域新词发现的方法及系统
Gupta et al. Text summarization of Hindi documents using rule based approach
Hahm et al. Named Entity Corpus Construction using Wikipedia and DBpedia Ontology.
CN102117283A (zh) 一种基于语义索引的数据检索方法
CN109408806A (zh) 一种基于英文语法规则的事件提取方法
Şeker et al. Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content 1
CN103886092A (zh) 一种提供终端故障问题解决方案的方法及装置
US20120078950A1 (en) Techniques for Extracting Unstructured Data
Erdmann et al. A little linguistics goes a long way: Unsupervised segmentation with limited language specific guidance
Laboreiro et al. Determining language variant in microblog messages
Abdurakhmonova Formal-Functional Models of The Uzbek Electron Corpus
Singha et al. Part of speech tagging in Manipuri with hidden markov model
Onyenwe et al. Toward an effective igbo part-of-speech tagger
Rajan et al. Survey of nlp resources in low-resource languages nepali, sindhi and konkani
CN109511000A (zh) 弹幕类别确定方法、装置、设备及存储介质
Pathak et al. Reduplication in Assamese: Identification and modeling
Boos et al. Identification of Multiword Expressions in the brWaC.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429

RJ01 Rejection of invention patent application after publication