CN111651990A - 一种实体识别方法、计算设备及可读存储介质 - Google Patents
一种实体识别方法、计算设备及可读存储介质 Download PDFInfo
- Publication number
- CN111651990A CN111651990A CN202010291684.0A CN202010291684A CN111651990A CN 111651990 A CN111651990 A CN 111651990A CN 202010291684 A CN202010291684 A CN 202010291684A CN 111651990 A CN111651990 A CN 111651990A
- Authority
- CN
- China
- Prior art keywords
- entity
- similarity
- pinyin
- recognition
- dictionary tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007723 transport mechanism Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种实体识别方法,适于在计算设备中执行,其中,该方法包括步骤:基于字典树匹配对待识别语句进行实体识别,获得第一实体集合,第一实体集合包括至少一个实体元素,每个实体元素包括实体、实体类型和识别概率;通过实体识别模型对待识别语句进行实体识别,获得第二实体集合,第二实体集合包括至少一个实体元素,每个实体元素包括实体、实体类型和识别概率;通过预设的融合策略根据第一实体集合和第二实体集合中的实体类型和识别概率进行融合,获得最终实体识别结果。本发明一并公开了相应的计算设备和可读存储介质。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种实体识别方法、计算设备及可读存储介质。
背景技术
随着互联网技术的飞速发展以及相关领域研究的不断深入,可用信息资源得到了极大丰富,人们迫切需要从海量的非结构化文本中获取有用的信息,在这一背景下,信息抽取技术应运而生,命名实体识别则是信息抽取、自然语言处理等领域中重要的研究任务。当前命名实体识别的主要技术方法包括基于规则和词典的方法、基于模型的方法、二者混合的方法等。
例如,基于模型的实体识别方法采用的一种处理方式为:对命名实体识别请求进行解析,得到待识别中文文本,将所述待识别中文文本以句子为分析单位,分别提取各句子中的字符特征、词语特征及整个句子特征,分别将待识别中文文本中各词语分别对应的字符特征、词语特征及所在句子的句子特征进行拼接,得到各词语分别对应的特征序列,提取各特征序列的上下文特征,得到上下文特征提取结果,根据所述上下文特征提取结果,利用马尔科夫转移矩阵法从各所述词语中标注出所述待识别中文文本的各命名实体。
这种实体命名方法虽然能更多的提取字符词语和句子特征,但是难以消除实体歧义,同时由于现代汉语发展的日新月异,标注语料库的更新不及时,导致覆盖不全,准确率和召回率偏低。
发明内容
为此,本发明提供了一种实体识别方法、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种实体识别方法,适于在计算设备中执行,其中,方法包括步骤:基于字典树匹配对待识别语句进行实体识别,获得第一实体集合,第一实体集合包括至少一个实体元素,每个实体元素包括实体、实体类型和识别概率;通过实体识别模型对待识别语句进行实体识别,获得第二实体集合,第二实体集合包括至少一个实体元素,每个实体元素包括实体、实体类型和识别概率;通过预设的融合策略根据第一实体集合和第二实体集合中的实体类型和识别概率进行融合,获得最终实体识别结果。
可选的,在根据本发明的实体识别方法中,基于字典树匹配对待识别语句进行实体识别,获得第一实体集合包括:根据数据库中的实体信息构建字典树;将待识别语句根据字典树进行匹配,获取字典树识别结果,字典树识别结果包括待识别语句中的待识别实体、标准实体、实体类型;获取每个待识别实体的拼音和该待识别实体对应的标准实体的拼音,计算两者的相似度,并作为拼音相似度;获取每个待识别实体的拼音首字母和该待识别实体对应的标准实体的拼音首字母,计算两者的相似度,并作为拼音首字母相似度;计算每个待识别实体和该待识别实体对应的标准实体的文本相似度;根据拼音相似度、拼音首字母相似度和文本相似度计算待识别实体和标准实体的混合相似度;选取混合相似度大于第一阈值的字典树识别结果构成第一实体集合,字典树识别结果中的标准实体、实体类型、混合相似度分别构成第一实体集合中实体元素的实体、实体类型、识别概率。
可选的,在根据本发明的实体识别方法中,根据数据库中的实体信息构建字典树包括:获取数据库中的实体和相应的实体类型;对实体进行去特殊字符处理;将实体转化为实体拼音,实体拼音包含一个或多个字母;实体拼音中的字母构成字典树的中间节点,相应的实体信息存放于字典树的叶子结点,实体信息包括待识别实体、标准实体和实体类型。
可选的,在根据本发明的实体识别方法中,将待识别语句根据字典树进行匹配,获取字典树识别结果包括:将待识别语句根据字典树进行匹配,获得待识别实体能够到达的叶子节点;获取待识别实体能够到达的叶子节点中的实体信息;叶子节点中的实体信息即为字典树识别结果。
可选的,在根据本发明的实体识别方法中,拼音相似度、拼音首字母相似度、文本相似度均采用编辑距离算法计算得到。
可选的,在根据本发明的实体识别方法中,混合相似度的计算公式为:M=Ts×δ+(1-δ)×max(Ps,0.9×Cs),其中,Ts为文本相似度,Ps为拼音相似度,Cs为拼音首字母相似度,δ为由待识别文本长度生成的参数,其中,δ=1/L+2,L为待识别文本长度。
可选的,在根据本发明的实体识别方法中,通过实体识别模型对待识别语句进行实体识别,获得第二实体集合包括:通过实体识别模型获取待识别语句的模型识别结果,模型识别结果包括标准实体、实体类型、实体得分;选择得分大于第二阈值的模型识别结果构成第二实体集合,模型识别结果中的标准实体、实体类型和实体得分分别构成第二实体集合中实体元素的实体、实体类型、识别概率。
可选的,在根据本发明的实体识别方法中,融合策略包括:判断第一实体集合和第二实体集合是否有相似的实体;若没有相似的实体,则将第一实体集合与第二实体集合进行融合,获得初始实体识别结果;若有相似的实体,按照预定的融合规则获得初始实体识别结果;对初始实体识别结果进行实体冲突处理和纠错处理,获得最终实体识别结果。
可选的,在根据本发明的实体识别方法中,若有相似的实体,按照预定的融合规则获得初始实体识别结果包括:获取第一实体集合和第二实体集合中每一个相似的实体;判断该实体在第二实体集合实体信息中的识别概率是否超过第一阈值;若是,根据该实体在第一实体集合和第二实体集合中的实体类型进行处理;若否,选取该实体在第一实体集合中对应的实体信息。
可选的,在根据本发明的实体识别方法中,根据该实体在第一实体集合和第二实体集合中的实体类型进行处理包括:判断该实体在第一实体集合中的实体类型与在第二实体集合中的实体类型是否一致;若一致,选取该实体在第一实体集合中对应的实体信息;若不一致,选取该实体在第二实体集合中对应的实体信息。
可选的,在根据本发明的实体识别方法中,若不一致,选取该实体在第一实体集合中对应的实体信息还包括:若第一实体集合中混合相似度最大的实体包含多个实体,选择实体长度最长的实体。
根据本发明的另一个方面,提供一种计算设备,包括:至少一个处理器;以及存储器,存储有程序指令,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行上述方法的指令。
根据本发明的又一方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行上述方法。
根据本发明的技术方案,提供了一种实体识别方法,该方法结合了字典树匹配和实体识别模型两种实体识别方式,根据两种识别结果中的实体类型和识别概率对两个识别结果进行融合,大大提高了实体识别的准确率和召回率,同时也很好的解决了实体边界问题和实体歧义问题。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的框图;
图2示出了根据本发明一个实施例的构建的字典树的示意图;
图3示出了根据跟发明一个实施例的实体识别方法300的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的计算设备100的示意图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。应用122实际上是多条程序指令,其用于指示处理器104执行相应的操作。在一些实施方式中,应用122可以布置为在操作系统上使得处理器104利用程序数据124进行操作。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行本发明一实施例的实体识别方法。
本发明实施例的实体识别方法结合了字典树匹配和实体识别模型两种实体识别方式,其中,字典树是一种树形结构,是一种哈希树的变种,典型应用是用于统计,排序和保存大量的字符串,可以被用来实现字符串查找,优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。以下介绍本发明实施例中用于实体识别的字典树的构建过程。
图2示出了根据本发明一个实施例的构建的字典树的示意图。其中,字典树的构建过程包含以下几个步骤:
A、获取数据库中的实体信息,包括相关实体的标准词和实体类型,例如,以汽车信息实体为例,“宝马”、“奔驰”、“宝马3系”都属于实体,其中,“宝马”、“奔驰”的实体类型为品牌,“宝马3系”的实体类型为车系。
B、将实体转化为实体拼音,实体拼音中至少包含一个字母。例如,将“宝马”转化成拼音为“baoma”。
C、用实体拼音中的字母构成字典树的中间节点,相应的待识别实体、标准实体和实体类型等实体信息存放在字典树的叶子节点。
如图2所示,从字母b开始,沿着左侧分支走到3,即走完拼音“baoma3”,所走过的节点构成的实体“宝马3”为待识别实体,所对应的标准实体为“宝马3系”,实体类型为“车系”,这些实体信息存放在3所连接的的叶子节点中,图2中叶子节点中的“str”对应待识别实体,“entity”对应标准实体,“type”对应实体类型。
根据数据库中的数据信息创建的字典树应用于图3所示的实体识别方法300中,方法300运行于计算设备中。
如图3所示,方法300在取得待识别语句后,分别通过字典树匹配和实体识别模型两种方式进行识别,步骤S310、S320、S330完成基于字典树匹配的实体识别,获得第一实体集合,步骤S340、S350完成通过实体识别模型的实体识别,获得第二实体集合。
基于字典树匹配的实体识别始于步骤S310,将待识别语句放入字典树进行匹配,获取待识别语句能够到达的叶子节点中的实体信息,即为字典树匹配结果。
根据本发明的一个实施例,待识别语句为“宝马3怎么样”,根据图2所示的字典树,“宝马3怎么样”能够到达的叶子节点包括左侧分支第二个“a”所连接的叶子节点,其中的实体为“宝马”,实体类型为“品牌”,还包括节点“3”所连接的叶子节点,其中的实体为“宝马3系”,实体类型为“车系”,这两个叶子节点中的实体信息即为字典树匹配结果。
随后进入步骤S320,计算待识别实体和标准实体中的混合相似度。
混合相似度是由拼音相似度、拼音首字母相似度和文本相似度根据混合相似度的计算公式得到的,因此,在计算混合相似度前首先需要获得拼音相似度、拼音首字母相似度和文本相似度。获取每个待识别实体的拼音和该待识别实体对应的标准实体的拼音,计算两者的相似度,并作为拼音相似度,获取每个待识别实体的拼音首字母和该待识别实体对应的标准实体的拼音首字母,计算两者的相似度,并作为拼音首字母相似度,计算每个待识别实体和该待识别实体对应的标准实体的文本相似度,拼音相似度、拼音首字母相似度、文本相似度均采用编辑距离算法计算得到。
混合相似度的计算公式为:M=Ts×δ+(1-δ)×max(Ps,0.9×Cs),其中,Ts为文本相似度,Ps为拼音相似度,Cs为拼音首字母相似度,δ为由待识别文本长度生成的参数,其中,δ=1/L+2,L为待识别文本长度。
随后进入步骤S330,选取混合相似度大于第一阈值的字典树匹配结果构成第一实体集合,所述字典树识别结果中的标准实体、实体类型、混合相似度分别构成第一实体集合中实体元素的实体、实体类型、识别概率。
根据本发明的一个实施例,若实体识别结果包含“宝马”、“宝马3系”,“宝马”的混合相似度为0.8,“宝马3系”的混合相似度为0.95,设定第一阈值为0.9,则“宝马”被舍弃,“宝马3系”加入第一实体集合。
通过实体识别模型的识别始于步骤S340,获取待识别语句的模型识别结果,模型识别结果包括标准实体、实体类型、实体得分。实体识别模型可以是CRF,Bi-LSTM,Bi-LSTM+CRF等,本发明对实体识别模型不做限制。
随后进入步骤S350,模型识别结果中得分大于第二阈值的模型识别结果构成第二实体集合,所述模型识别结果中的标准实体、实体类型和实体得分分别构成第二实体集合中实体元素的实体、实体类型、识别概率。
根据本发明的一个实施例,若实体识别结果包含“宝马”、“宝马3系”,其中“宝马3系”在识别结果中的得分为0.8,“宝马”的得分为0.9,设定第二阈值为0.85,则“宝马3系”被舍弃,“宝马”加入第二实体集合。
在步骤S330和步骤S350都完成后,进入步骤S355,判断第一实体集合和第二实体集合是否有相似的实体。
相似的实体为具有相同下标的实体,根据本发明的一个实施例,用户输入的识别语句为“宝马3系好不好”,实体识别结果中包括“宝马”、“宝马3”、“宝马3系”,“宝马”的下标为“0,1”,“宝马3”的下标为“0,1,2”,“宝马3系”的下标为“0,1,2,3”,三个实体中的下标有交集即为有相同的下标,则这三个实体为相似的实体。
根据本发明的一个实施例,用户输入的待识别语句为“宝马好还是奔驰好”,第一实体集合中只有“宝马”,第二实体集合中只有“奔驰”,没有相似的实体,则直接进入步骤S385,将两个集合进行融合获得初始的实体识别结果。
若步骤S355的判断结果为有相似的实体,根据本发明的一个实施例,第一实体集合的信息为表1的内容;第二实体集合中的信息为表2的内容,其第一实体集合中的“宝马”与第二实体集合中的“宝马3”为相似实体,则按照预定的融合规则获得初始实体识别结果,进入步骤S360,获取所述第一实体集合和第二实体集合中相似的实体。
表1
实体 | 实体类型 | 识别概率 |
宝马 | 品牌 | 0.92 |
表2
实体 | 实体类型 | 识别概率 |
宝马3系 | 车系 | 0.89 |
随后进入步骤S365,判断步骤S360获取到的相似实体在第二实体集合中的识别概率是否超过第一阈值。
继续以表1和表2中的内容为例,如果第一阈值为0.9,第二实体集合中的“宝马3系”的识别概率小于第一阈值,进入步骤S380,选取该实体在第一实体集合中对应的实体信息。
步骤S380还包括:若第一实体集合中混合相似度最大的实体包含多个实体,选择实体长度最长的实体,根据本发明的一个实施例,第一实体集合中“宝马”、“宝马3”、“宝马3系”的识别概率相等,则选择“宝马3系”。
根据本发明的又一个实施例,若步骤S365的判断结果为真,根据该实体在第一实体集合和第二实体集合中的实体类型进行处理,进入步骤S370,判断所述该实体在否一致。
当步骤S370的判断结果为真,即若第一实体集合中的实体类型与在第二实体集合中的实体类型一致,进入步骤S380,选取该实体在第一实体集合中对应的实体信息。
若第一实体集合中的实体类型与在第二实体集合中的实体类型不一致,进入步骤S375,选取该实体在第二实体集合中对应的实体信息。
将所有相似实体处理完后,进入步骤S385,将识别结果实体进行融合获得初始的实体识别结果。
随后进入步骤S390,对初始实体识别结果进行实体冲突处理和纠错处理,获得所述最终实体识别结果,本步骤主要根据上下文信息和识别出的实体,进行纠错和冲突处理,解决索引重叠的问题,主要是采用规则的badcase泛化进行完成,可在线配置实时调整。比如,宝马2018款,“宝马2”为车系,而2018款为年代,在“宝马2018款”中应当被识别为年代,又比如,对“3.0提”进行纠错处理,处理结果为3.0T,还可以处理“舒适性”和“舒适性好”这种真包含问题。
根据本发明的技术方案,提供了一种实体识别方法,该方法通过字典树匹配实体识别和实体识别模型实体识别,并根据两种识别结果中的实体类型和识别概率对两个识别结果进行融合,大大提高了实体识别的准确率和召回率,同时也很好的解决了实体边界问题和实体歧义问题。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的实体识别方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
A9、如A8所述的方法,其中,所述若有相似的实体,按照预定的融合规则获得初始实体识别结果包括:
获取所述第一实体集合和第二实体集合中每一个相似的实体;
判断该实体在第二实体集合实体信息中的识别概率是否超过第一阈值;
若是,根据该实体在第一实体集合和第二实体集合中的实体类型进行处理;
若否,选取该实体在第一实体集合中对应的实体信息。
A10、如A9所述的方法,其中,所述根据该实体在第一实体集合和第二实体集合中的实体类型进行处理包括:
判断所述该实体在第一实体集合中的实体类型与在第二实体集合中的实体类型是否一致;
若一致,选取该实体在第一实体集合中对应的实体信息;
若不一致,选取该实体在第二实体集合中对应的实体信息。
A11、如A10所述的方法,其中,所述若不一致,选取该实体在第一实体集合中对应的实体信息还包括:
若第一实体集合中混合相似度最大的实体包含多个实体,选择实体长度最长的实体。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种实体识别方法,适于在计算设备中执行,其中,所述方法包括步骤:
基于字典树匹配对待识别语句进行实体识别,获得第一实体集合,所述第一实体集合包括至少一个实体元素,每个实体元素包括实体、实体类型和识别概率;
通过实体识别模型对所述待识别语句进行实体识别,获得第二实体集合,所述第二实体集合包括至少一个实体元素,每个实体元素包括实体、实体类型和识别概率;
通过预设的融合策略根据所述第一实体集合和所述第二实体集合中的实体类型和识别概率进行融合,获得最终实体识别结果。
2.如权利要求1所述的方法,其中,所述基于字典树匹配对待识别语句进行实体识别,获得第一实体集合包括:
根据数据库中的实体信息构建字典树;
将所述待识别语句根据字典树进行匹配,获取字典树识别结果,所述字典树识别结果包括待识别语句中的待识别实体、标准实体、实体类型;
获取每个待识别实体的拼音和该待识别实体对应的标准实体的拼音,计算两者的相似度,并作为拼音相似度;
获取每个待识别实体的拼音首字母和该待识别实体对应的标准实体的拼音首字母,计算两者的相似度,并作为拼音首字母相似度;
计算每个待识别实体和该待识别实体对应的标准实体的文本相似度;
根据所述拼音相似度、拼音首字母相似度和文本相似度计算所述待识别实体和标准实体的混合相似度;
选取混合相似度大于第一阈值的字典树识别结果构成第一实体集合,所述字典树识别结果中的标准实体、实体类型、混合相似度分别构成第一实体集合中实体元素的实体、实体类型、识别概率。
3.如权利要求2所述的方法,其中,所述根据数据库中的实体信息构建字典树包括:
获取数据库中的实体和相应的实体类型;
对实体进行去特殊字符处理;
将实体转化为实体拼音,所述实体拼音包含一个或多个字母;
所述实体拼音中的字母构成字典树的中间节点,相应的实体信息存放于字典树的叶子结点,所述实体信息包括待识别实体、标准实体和实体类型。
4.如权利要求2或3所述的权利要求,其中,所述将所述待识别语句根据字典树进行匹配,获取字典树识别结果包括:
将所述待识别语句根据字典树进行匹配,获得所述待识别实体能够到达的叶子节点;
获取所述待识别实体能够到达的叶子节点中的实体信息;
所述叶子节点中的实体信息即为字典树识别结果。
5.如权利要求2-4中任意一项所述的方法,其中,所述拼音相似度、拼音首字母相似度、文本相似度均采用编辑距离算法计算得到。
6.如权利要求2-5中任意一项所述的方法,其中,所述混合相似度的计算公式为:
M=Ts×δ+(1-δ)×max(Ps,0.9×Cs),
其中,Ts为文本相似度,Ps为拼音相似度,Cs为拼音首字母相似度,δ为由待识别文本长度生成的参数,其中,δ=1/L+2,L为待识别文本长度。
7.如权利要求1-6中任意一项所述的方法,其中,所述通过实体识别模型对所述待识别语句进行实体识别,获得第二实体集合包括:
通过实体识别模型获取待识别语句的模型识别结果,所述模型识别结果包括标准实体、实体类型、实体得分;
选择得分大于第二阈值的模型识别结果构成第二实体集合,所述模型识别结果中的标准实体、实体类型和实体得分分别构成第二实体集合中实体元素的实体、实体类型、识别概率。
8.如权利要求1-7中任意一项所述的方法,其中,所述融合策略包括:
判断第一实体集合和第二实体集合是否有相似的实体;
若没有相似的实体,则将第一实体集合与第二实体集合进行融合,获得初始实体识别结果;
若有相似的实体,按照预定的融合规则获得初始实体识别结果;
对初始实体识别结果进行实体冲突处理和纠错处理,获得所述最终实体识别结果。
9.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-8中任一项所述方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-8中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291684.0A CN111651990B (zh) | 2020-04-14 | 2020-04-14 | 一种实体识别方法、计算设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291684.0A CN111651990B (zh) | 2020-04-14 | 2020-04-14 | 一种实体识别方法、计算设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651990A true CN111651990A (zh) | 2020-09-11 |
CN111651990B CN111651990B (zh) | 2024-03-15 |
Family
ID=72342911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010291684.0A Active CN111651990B (zh) | 2020-04-14 | 2020-04-14 | 一种实体识别方法、计算设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651990B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528659A (zh) * | 2020-11-30 | 2021-03-19 | 京东方科技集团股份有限公司 | 实体识别方法、实体识别装置、电子设备和存储介质 |
CN113051921A (zh) * | 2021-03-17 | 2021-06-29 | 北京智慧星光信息技术有限公司 | 互联网文本实体识别方法、系统、电子设备及存储介质 |
CN113435194A (zh) * | 2021-06-22 | 2021-09-24 | 中国平安人寿保险股份有限公司 | 词汇切分方法、装置、终端设备及存储介质 |
CN113722464A (zh) * | 2021-09-14 | 2021-11-30 | 国泰君安证券股份有限公司 | 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质 |
CN113761923A (zh) * | 2020-10-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN114943222A (zh) * | 2022-05-13 | 2022-08-26 | 医渡云(北京)技术有限公司 | 时间实体识别方法和装置、计算机存储介质、电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514236A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 检索应用中基于拼音的检索条件纠错提示处理方法 |
CN105045888A (zh) * | 2015-07-28 | 2015-11-11 | 浪潮集团有限公司 | 一种用于hmm的分词训练语料标注方法 |
WO2016156995A1 (en) * | 2015-03-30 | 2016-10-06 | Yokogawa Electric Corporation | Methods, systems and computer program products for machine based processing of natural language input |
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN109446521A (zh) * | 2018-10-18 | 2019-03-08 | 京东方科技集团股份有限公司 | 命名实体识别方法、装置、电子设备、机器可读存储介质 |
CN109522550A (zh) * | 2018-11-08 | 2019-03-26 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN109992766A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 提取目标词的方法和装置 |
CN110738055A (zh) * | 2019-10-23 | 2020-01-31 | 北京字节跳动网络技术有限公司 | 文本的实体识别方法、设备及存储介质 |
CN110750991A (zh) * | 2019-09-18 | 2020-02-04 | 平安科技(深圳)有限公司 | 实体识别方法、装置、设备及计算机可读存储介质 |
CN110909535A (zh) * | 2019-12-06 | 2020-03-24 | 北京百分点信息科技有限公司 | 命名实体校对方法、装置、可读存储介质及电子设备 |
-
2020
- 2020-04-14 CN CN202010291684.0A patent/CN111651990B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514236A (zh) * | 2012-06-30 | 2014-01-15 | 重庆新媒农信科技有限公司 | 检索应用中基于拼音的检索条件纠错提示处理方法 |
WO2016156995A1 (en) * | 2015-03-30 | 2016-10-06 | Yokogawa Electric Corporation | Methods, systems and computer program products for machine based processing of natural language input |
CN105045888A (zh) * | 2015-07-28 | 2015-11-11 | 浪潮集团有限公司 | 一种用于hmm的分词训练语料标注方法 |
CN108304375A (zh) * | 2017-11-13 | 2018-07-20 | 广州腾讯科技有限公司 | 一种信息识别方法及其设备、存储介质、终端 |
CN109992766A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 提取目标词的方法和装置 |
CN109446521A (zh) * | 2018-10-18 | 2019-03-08 | 京东方科技集团股份有限公司 | 命名实体识别方法、装置、电子设备、机器可读存储介质 |
CN109522550A (zh) * | 2018-11-08 | 2019-03-26 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN110750991A (zh) * | 2019-09-18 | 2020-02-04 | 平安科技(深圳)有限公司 | 实体识别方法、装置、设备及计算机可读存储介质 |
CN110738055A (zh) * | 2019-10-23 | 2020-01-31 | 北京字节跳动网络技术有限公司 | 文本的实体识别方法、设备及存储介质 |
CN110909535A (zh) * | 2019-12-06 | 2020-03-24 | 北京百分点信息科技有限公司 | 命名实体校对方法、装置、可读存储介质及电子设备 |
Non-Patent Citations (5)
Title |
---|
DONG DENG 等: ""An Efficient Trie-based Method for Approximate Entity Extraction with Edit-Distance Constraints"", 《2012 IEEE 28TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING》, 12 July 2012 (2012-07-12), pages 762 - 773 * |
孙芳媛: ""基于倒排索引和字典树的站内搜索引擎的设计与实现"", 《信息科技辑》, 15 February 2017 (2017-02-15), pages 138 - 2049 * |
王一成 等: "融合多策略的中文分词算法研究", 《西北民族大学学报(自然科学版)》, vol. 39, no. 02, 15 June 2018 (2018-06-15), pages 18 - 22 * |
王晓丽 等: ""基于领域本体的油气勘探开发知识获取模式及实现"", 《东北石油大学学报》, vol. 40, no. 04, 21 September 2016 (2016-09-21), pages 74 - 79 * |
长空飞鹰: ""基于词典的实体识别"", pages 1 - 5, Retrieved from the Internet <URL:《https://blog.csdn.net/oanqoanq/article/details/80255272?spm=1001.2014.3001.5502》> * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761923A (zh) * | 2020-10-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN112528659A (zh) * | 2020-11-30 | 2021-03-19 | 京东方科技集团股份有限公司 | 实体识别方法、实体识别装置、电子设备和存储介质 |
WO2022111083A1 (zh) * | 2020-11-30 | 2022-06-02 | 京东方科技集团股份有限公司 | 实体识别方法、实体识别装置、电子设备和存储介质 |
CN112528659B (zh) * | 2020-11-30 | 2024-06-18 | 京东方科技集团股份有限公司 | 实体识别方法、实体识别装置、电子设备和存储介质 |
CN113051921A (zh) * | 2021-03-17 | 2021-06-29 | 北京智慧星光信息技术有限公司 | 互联网文本实体识别方法、系统、电子设备及存储介质 |
CN113051921B (zh) * | 2021-03-17 | 2024-02-20 | 北京智慧星光信息技术有限公司 | 互联网文本实体识别方法、系统、电子设备及存储介质 |
CN113435194A (zh) * | 2021-06-22 | 2021-09-24 | 中国平安人寿保险股份有限公司 | 词汇切分方法、装置、终端设备及存储介质 |
CN113435194B (zh) * | 2021-06-22 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 词汇切分方法、装置、终端设备及存储介质 |
CN113722464A (zh) * | 2021-09-14 | 2021-11-30 | 国泰君安证券股份有限公司 | 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质 |
CN114943222A (zh) * | 2022-05-13 | 2022-08-26 | 医渡云(北京)技术有限公司 | 时间实体识别方法和装置、计算机存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111651990B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651990B (zh) | 一种实体识别方法、计算设备及可读存储介质 | |
CN109359175B (zh) | 电子装置、诉讼数据处理的方法及存储介质 | |
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
WO2021068329A1 (zh) | 中文命名实体识别方法、装置及计算机可读存储介质 | |
CN110929025B (zh) | 垃圾文本的识别方法、装置、计算设备及可读存储介质 | |
CN110795628B (zh) | 一种基于相关性的搜索词处理方法、装置及计算设备 | |
WO2020186627A1 (zh) | 舆情极性预测方法、装置、计算机设备及存储介质 | |
CN107977347B (zh) | 一种题目去重方法和计算设备 | |
CN112100326B (zh) | 一种抗干扰的融合检索和机器阅读理解的问答方法及系统 | |
CN107515904B (zh) | 一种职位搜索方法和计算设备 | |
CN107967256B (zh) | 词语权重预测模型生成方法、职位推荐方法及计算设备 | |
CN111460170B (zh) | 一种词语识别方法、装置、终端设备及存储介质 | |
CN103365849B (zh) | 关键词检索方法和设备 | |
CN111930929A (zh) | 一种文章标题生成方法、装置及计算设备 | |
CN111159770A (zh) | 文本数据脱敏方法、装置、介质及电子设备 | |
WO2022160454A1 (zh) | 医疗文献的检索方法、装置、电子设备及存储介质 | |
CN111444719A (zh) | 一种实体识别方法、装置和计算设备 | |
CN110929026B (zh) | 一种异常文本识别方法、装置、计算设备及介质 | |
CN111353311A (zh) | 一种命名实体识别方法、装置、计算机设备及存储介质 | |
CN111582267A (zh) | 一种文本检测方法、计算设备及可读存储介质 | |
CN111813903A (zh) | 一种问句匹配方法和计算设备 | |
CN113449089B (zh) | 一种查询语句的意图识别方法、问答方法及计算设备 | |
WO2022121152A1 (zh) | 智能对话方法、装置、电子设备及存储介质 | |
CN110851560B (zh) | 信息检索方法、装置及设备 | |
WO2021042517A1 (zh) | 基于人工智能的文章主旨提取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |