CN111241839A - 实体识别方法、装置、计算机可读存储介质和计算机设备 - Google Patents
实体识别方法、装置、计算机可读存储介质和计算机设备 Download PDFInfo
- Publication number
- CN111241839A CN111241839A CN202010047291.5A CN202010047291A CN111241839A CN 111241839 A CN111241839 A CN 111241839A CN 202010047291 A CN202010047291 A CN 202010047291A CN 111241839 A CN111241839 A CN 111241839A
- Authority
- CN
- China
- Prior art keywords
- phrase
- entity
- entity type
- type
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000011218 segmentation Effects 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 235000008446 instant noodles Nutrition 0.000 description 30
- 238000010586 diagram Methods 0.000 description 15
- 230000007547 defect Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000002372 labelling Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 235000013361 beverage Nutrition 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 239000010687 lubricating oil Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及人工智能中的自然语言处理技术,特别涉及一种实体识别方法、装置、计算机可读存储介质和计算机设备,所述方法包括:提取待识别文本中的第一词组和第二词组;第一词组标记有实体类型,第二词组标记有非实体类型;分别获取第一词组和第二词组在至少两个语义维度下的特征;根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络;根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码;根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果。本申请提供的方案提高了实体识别准确率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种实体识别方法、装置、计算机可读存储介质和计算机设备。
背景技术
实体识别是自然语言处理中的一个重要的基础模块,在搜索、推荐等任务中有具有重要的作用。
然而,目前的实体识别方法,是将文本中的词组与领域知识库中的已知实体进行匹配,并将与已知实体匹配的词组标记为实体。但是,将每个词组仅仅当作一个独立数据与已知实体进行匹配,容易造成识别出的实体存在错误,导致实体识别准确率低。
发明内容
基于此,有必要针对实体识别准确率低下的技术问题,提供一种实体识别方法、装置、计算机可读存储介质和计算机设备。
一种实体识别方法,包括:
提取待识别文本中的至少两个词语;
提取待识别文本中的第一词组和第二词组;所述第一词组标记有实体类型,所述第二词组标记有非实体类型;
分别获取所述第一词组和所述第二词组在至少两个语义维度下的特征;
根据所述第一词组和所述第二词组、所述第一词组和所述第二词组在至少两个语义维度下的特征、所述第一词组所标记的所述实体类型以及所述第二词组所标记的所述非实体类型,构建所述第一词组的图网络;
根据所述第一词组的图网络,确定所述第一词组的词组编码以及所述实体类型的类型编码;
根据所述第一词组的词组编码以及所述实体类型的类型编码,确定对所述第一词组的目标实体识别结果。
一种实体识别装置,所述装置包括:
词组提取模块,用于提取待识别文本中的第一词组和第二词组;所述第一词组标记有实体类型,所述第二词组标记有非实体类型;
特征获取模块,用于分别获取所述第一词组和所述第二词组在至少两个语义维度下的特征;
图网络构建模块,用于根据所述第一词组和所述第二词组、所述第一词组和所述第二词组在至少两个语义维度下的特征、所述第一词组所标记的所述实体类型以及所述第二词组所标记的所述非实体类型,构建所述第一词组的图网络;
编码确定模块,用于根据所述第一词组的图网络,确定所述第一词组的词组编码以及所述实体类型的类型编码;
结果确定模块,用于根据所述第一词组的词组编码以及所述实体类型的类型编码,确定对所述第一词组的目标实体识别结果。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
提取待识别文本中的第一词组和第二词组;所述第一词组标记有实体类型,所述第二词组标记有非实体类型;
分别获取所述第一词组和所述第二词组在至少两个语义维度下的特征;
根据所述第一词组和所述第二词组、所述第一词组和所述第二词组在至少两个语义维度下的特征、所述第一词组所标记的所述实体类型以及所述第二词组所标记的所述非实体类型,构建所述第一词组的图网络;
根据所述第一词组的图网络,确定所述第一词组的词组编码以及所述实体类型的类型编码;
根据所述第一词组的词组编码以及所述实体类型的类型编码,确定对所述第一词组的目标实体识别结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
提取待识别文本中的第一词组和第二词组;所述第一词组标记有实体类型,所述第二词组标记有非实体类型;
分别获取所述第一词组和所述第二词组在至少两个语义维度下的特征;
根据所述第一词组和所述第二词组、所述第一词组和所述第二词组在至少两个语义维度下的特征、所述第一词组所标记的所述实体类型以及所述第二词组所标记的所述非实体类型,构建所述第一词组的图网络;
根据所述第一词组的图网络,确定所述第一词组的词组编码以及所述实体类型的类型编码;
根据所述第一词组的词组编码以及所述实体类型的类型编码,确定对所述第一词组的目标实体识别结果。
上述实体识别方法、装置、计算机可读存储介质和计算机设备,通过获取从待识别文本中提取出的标记有实体类型的第一词组和标记有非实体类型的第二词组在至少两个语义维度下的特征,并根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络;然后根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码,进而根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果;实现了基于图网络学习得到的第一词组的词组编码以及实体类型的类型编码,对第一词组进行再次识别的目的,保证了得到的目标实体识别结果更加准确,从而提高了实体识别准确率;同时,综合考虑第一词组和第二词组在多个语义维度下的特征,有利于从多个语义维度对第一词组进行实体识别,进一步提高了实体识别准确率,避免了忽略词组的语义特征,只将词组单作一个独立的数据,导致识别出的实体存在错误,造成实体识别准确率低的缺陷。
附图说明
图1为一个实施例中实体识别方法的应用环境图;
图2为一个实施例中计算机设备的结构框图;
图3为一个实施例中实体识别方法的流程示意图;
图4为一个实施例中提取待识别文本中的第一词组和第二词组的步骤的流程示意图;
图5为一个实施例中分别获取第一词组和第二词组在至少两个语义维度下的特征的步骤的流程示意图;
图6为一个实施例中分别获取第一词组和第二词组的基本语义特征的步骤的流程示意图;
图7为一个实施例中构建第一词组的图网络的步骤的流程示意图;
图8为一个实施例中第一图网络的结构示意图;
图9为一个实施例中第二图网络的结构示意图;
图10为另一个实施例中构建第一词组的图网络的步骤的流程示意图;
图11为一个实施例中第一词组的图网络的结构示意图;
图12为一个实施例中根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码的步骤的流程示意图;
图13为一个实施例中根据第一词组、实体类型以及非实体类型的初始编码,确定第一损失值的步骤的流程示意图;
图14为一个实施例中根据第一词组以及第一词组在至少两个语义维度下的特征的初始编码,确定第二损失值的步骤的流程示意图;
图15为一个实施例中根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果的步骤的流程示意图;
图16为一个实施例中对第一词组进行过滤的步骤的流程示意图;
图17为另一个实施例中对第一词组进行过滤的步骤的流程示意图;
图18为一个实施例中存储待识别文本中第一词组的目标实体识别结果的步骤的流程示意图;
图19为另一个实施例中实体识别方法的应用环境图;
图20为另一个实施例中实体识别方法的流程示意图;
图21为一个实施例中实体标注的界面示意图;
图22为又一个实施例中实体识别方法的流程示意图;
图23为一个实施例中菜品实体识别方法的流程示意图;
图24为一个实施例中实体识别装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱、实体识别等技术。
其中,实体识别是自然语言处理中一个重要的基础模块,在搜索、推荐等任务中有具有重要的作用。实体识别是指命名实体识别,具体是指识别文本中的人名、机构名、地名以及其他所有以名称为标识的实体,或者垂类领域中的实体,比如餐饮领域中的菜品识别,医疗领域中的疾病、症状识别,电商领域中的品牌名识别等。
图1为一个实施例中实体识别方法的应用环境图。参照图1,该应用环境图包括服务器110。服务器110提取待识别文本中的第一词组和第二词组,比如待识别文本中的第一词组1、待识别文本中的第一词组2、待识别文本中的第二词组3、待识别文本中的第二词组4等;第一词组标记有实体类型,第二词组标记有非实体类型;分别获取第一词组和第二词组在至少两个语义维度下的特征;根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络;根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码;根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果。
图2示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器110。如图2所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现实体识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行实体识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提供了一种实体识别方法。本实施例主要以该方法应用于上述图1中的服务器110来举例说明。参照图3,该实体识别方法具体包括如下步骤:
S302,提取待识别文本中的第一词组和第二词组;第一词组标记有实体类型,第二词组标记有非实体类型。
其中,待识别文本是指需要识别出实体的文本,可以是一个完整的句子,也可以是多个句子的组合,还可以是一个篇章,具体本申请不做限定。待识别文本一般由多个词组组成;比如,待识别文本为“康师傅和统一在方便面行业排名前两位”,那么待识别文本中的词组分别为康师傅、统一、方便面、行业、排名、前两位。
其中,实体类型是指用于标记实体对应的类型,比如品牌、菜品、地名等;实体是指命名实体,一般是指待识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等;当然,实体还可以是指餐饮领域中的菜品,医疗领域中疾病、症状,电商领域中的品牌名等垂类领域中的实体。
其中,非实体类型是指用于标记非实体对应的类型,与实体类型是相对的,比如非品牌、非菜品、非地名等;非实体一般是指待识别文本中不具有特定意义的词组。
其中,第一词组是指标记有实体类型的词组,第二词组是指标记有非实体类型的词组,比如“康师傅和统一在方便面行业排名前两位”,第一词组为康师傅、统一;第二词组为方便面、行业等。
具体地,服务器采集网络上需要识别的文本,作为待识别文本;获取待识别文本对应的领域实体;将待识别文本与领域实体进行匹配,从待识别文本中提取出与领域实体匹配的词组,作为第一词组,并为第一词组标记上实体类型;从待识别文本中提取出与领域实体不匹配的词组,作为第二词组候选集;从第二词组候选集中随机选取一个或者多个词组,作为第二词组,并为第二词组标记上非实体类型。这样,预先从待识别文本中确定出标记有实体类型的第一词组,有利于初步确定出待识别文本的实体识别结果,避免多余词组干扰,从而提高了后续对第一词组的实体识别准确率。
需要说明的是,领域实体是指对应领域中一些已经公开的实体,比如康师傅、统一等品牌名称。
举例说明,假设待识别文本为“康师傅和统一在方便面行业排名前两位”,待识别文本对应的领域实体为康师傅、统一等品牌名称;则将待识别文本与康师傅、统一等品牌名称进行匹配,从待识别文本中提取出与康师傅、统一等品牌名称匹配的词组,比如康师傅、统一,并将其作为第一词组,同时为第一词组标记上实体类型;从待识别文本中提取出与康师傅、统一等品牌名称不匹配的词组,比如方便面、行业、排名等,并从与康师傅、统一等品牌名称不匹配的词组中随机选取出1-2个词组,作为第二词组,同时为第二词组标记上实体类型。
S304,分别获取第一词组和第二词组在至少两个语义维度下的特征。
其中,语义维度是指用于表征词组的语义信息,比如词组所包含的分词的词性、词组的上下文信息、词组所包含的分词的个数等。
需要说明的是,至少两个语义维度是指两个或者两个以上的语义维度,具体本申请不做限定。
具体地,服务器对第一词组和第二词组进行分词处理,得到第一词组的分词以及第一词组的分词的词性、第二词组的分词以及第二词组的分词的词性;统计第一词组的分词个数以及第二词组的分词个数;获取第一词组在待识别文本中的上下文以及第二词组在待识别文本中的上下文;将第一词组的分词、第一词组的分词的词性、第一词组的分词个数以及第一词组在待识别文本中的上下文,识别为第一词组在至少两个语义维度下的特征;将第二词组的分词、第二词组的分词的词性、第二词组的分词个数以及第二词组在待识别文本中的上下文,识别为第二词组在至少两个语义维度下的特征,从而得到第一词组和第二词组在至少两个语义维度下的特征。
举例说明,在“康师傅和统一在方便面行业排名前两位”中,第一词组“康师傅”的分词为康、师傅,两者均为名词;第一词组“康师傅”的分词个数为2,第一词组“康师傅”的上下文为统一、方便面等信息;将以上这些信息,作为第一词组“康师傅”在至少两个语义维度下的特征。
S306,根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络。
其中,图网络是指用于囊括第一词组与实体类型之间的关系、第二词组与非实体类型之间的关系、第一词组与第一词组在至少两个语义维度下的特征之间的关系、第二词组与第二词组在至少两个语义维度下的特征之间的关系的数据结构。
具体地,服务器根据第一词组以及第一词组所标记的实体类型,确定第一词组与实体类型之间的关系;根据第二词组以及第二词组所标记的非实体类型,确定第二词组与非实体类型之间的关系;根据第一词组以及第一词组在至少两个语义维度下的特征,确定第一词组与第一词组在至少两个语义维度下的特征之间的关系;根据第二词组以及第二词组在至少两个语义维度下的特征,确定第二词组与第二词组在至少两个语义维度下的特征之间的关系;根据第一词组与实体类型之间的关系、第二词组与非实体类型之间的关系、第一词组与第一词组在至少两个语义维度下的特征之间的关系、第二词组与第二词组在至少两个语义维度下的特征之间的关系,构建图网络,作为第一词组的图网络;这样,有利于后续根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码。
S308,根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码。
其中,第一词组的词组编码是指用于表征第一词组的特征信息的特征向量,实体类型的类型编码是指用于表征实体类型的特征信息的特征向量。
具体地,服务器将第一词组的图网络输入预先训练的编码学习模型中,通过预先训练的编码学习模型根据第一词组的图网络,学习得到第一词组对应的编码以及实体类型对应的编码,分别作为第一词组的词组编码以及实体类型的类型编码。这样,有利于后续根据第一词组的词组编码以及实体类型的类型编码,对第一词组进行再次识别,从而得到更加准确的实体识别结果,进一步提高了实体识别准确率。
S310,根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果。
其中,对第一词组的目标实体识别结果是指针对第一词组的最终识别结果。
具体地,服务器根据第一词组的词组编码以及实体类型的类型编码,计算第一词组与实体类型之间的特征相似度,若该特征相似度满足预设条件,则将第一词组识别为目标实体,若该特征相似度不满足预设条件,则将第一词组识别为非实体,从而得到对第一词组的目标实体识别结果。这样,通过对得到的第一词组进行再次的实体识别,有利于避免错标而导致得到的实体的准确率较低的缺陷,进而提高了实体识别准确率。
举例说明,若第一词组与实体类型之间的特征相似度大于或者等于预设相似度,则将该第一词组识别为目标实体,否则将该第一词组识别为非实体。
在一个实施例中,在确定对第一词组的目标实体识别结果之后,服务器还可以接收终端发送的实体识别请求,实体识别请求中携带有文本标识;对实体识别请求进行解析,得到实体标识;从预先存储的多个待识别文本的目标实体识别结果中,确定与该文本标识对应的待识别文本的目标实体识别结果,并将该目标实体识别结果推送至对应的终端,有利于终端对应的用户对目标实体识别结果进行查看,避免通过人工标注实体导致过程比较繁琐的缺陷,从而节约了大量人力成本,从而提高了实体识别效率。
上述实体识别方法,通过获取从待识别文本中提取出的标记有实体类型的第一词组和标记有非实体类型的第二词组在至少两个语义维度下的特征,并根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络;然后根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码,进而根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果;实现了基于图网络学习得到的第一词组的词组编码以及实体类型的类型编码,对第一词组进行再次识别的目的,保证了得到的目标实体识别结果更加准确,从而提高了实体识别准确率;同时,综合考虑第一词组和第二词组在多个语义维度下的特征,有利于从多个语义维度对第一词组进行实体识别,进一步提高了实体识别准确率,避免了忽略词组的语义特征,只将词组单作一个独立的数据,导致识别出的实体存在错误,造成实体识别准确率低的缺陷。
如图4所示,在一个实施例中,步骤S302中,提取待识别文本中的第一词组和第二词组,包括:
S402,识别待识别文本的文本标识。
其中,文本标识是指用于标识待识别文本对应的文本领域,比如菜品领域、品牌领域等;具体可以是文本编号、文本名称等。
具体地,服务器通过语义识别技术,确定识别待识别文本所属的文本领域,获取与该文本领域对应的文本标识,作为待识别文本的文本标识。
S404,确定与文本标识对应的实体库;实体库中存储有预设实体以及预设实体的实体类型。
其中,实体库是指特定领域的知识库,比如菜品领域对应的知识库、品牌领域对应的知识库等;每个实体库均存储有多个预设实体以及每个预设实体的实体类型。
具体地,服务器根据文本标识查询存储有多个文本标识对应的实体库的本地数据库,从本地数据库中获取与该文本标识对应的实体库。
S406,从待识别文本中提取出与预设实体匹配的词组,作为第一词组,并对第一词组标记上预设实体的实体类型。
S408,从待识别文本中提取出与预设实体不匹配的词组,作为第二词组,并对第二词组标记上非实体类型。
具体地,服务器从实体库中提取出多个预设实体,将多个预设实体与待识别文本的全文进行匹配,得到匹配结果;从匹配结果中筛选出与预设实体匹配的词组,作为第一词组,并对第一词组标记上预设实体的实体类型;从匹配结果中筛选出与预设实体不匹配的词组,作为第二词组,并对第二词组标记上非实体类型。
本实施例中,通过从待识别文本中确定出标记有实体类型的第一词组,有利于初步确定出待识别文本的实体识别结果,避免多余词组干扰,从而提高了后续对第一词组的实体识别准确率。
如图5所示,在一个实施例中,步骤S304中分别获取第一词组和第二词组在至少两个语义维度下的特征,具体包括以下步骤:
S502,分别获取第一词组和第二词组的基本语义特征,以及待识别文本中第一词组和第二词组的上下文本中的词语。
其中,基本语义特征是指用于表征词组的基本属性信息,比如词组所包含的分词、词组所包含的分词的词性、词组所包含的分词的个数等。
具体地,服务器获取第一特征提取文件以及第二特征提取文件;根据第一特征提取文件分别对第一词组和和第二词组进行特征提取,得到第一词组和第二词组的基本语义特征;根据第二特征提取文件,分别对待识别文本中第一词组和第二词组的上下文本进行特征提取,得到待识别文本中第一词组和第二词组的上下文本中的词语。其中,第一特征提取文件是指用于提取第一词组和第二词组的基本语义特征的语义识别文件,第二特征提取文件是指用于提取待识别文本中第一词组和第二词组的上下文本中的词语的语义识别文件。
S504,将第一词组的基本语义特征以及待识别文本中第一词组的上下文本中的词语,识别为第一词组在至少两个语义维度下的特征。
S506,将第二词组的基本语义特征以及待识别文本中第二词组的上下文本中的词语,识别为第二词组在至少两个语义维度下的特征。
在本实施例中,通过获取第一词组和第二词组在多个语义维度下的特征,有利于后续综合考虑第一词组和第二词组在多个语义维度下的特征,对第一词组和第二词组进行识别,从而使得得到的目标实体识别结果更加准确。
如图6所示,在一个实施例中,步骤S502中分别获取第一词组和第二词组的基本语义特征,具体包括以下步骤:
S602,分别将第一词组和第二词组进行分词处理,得到第一词组的分词以及第一词组的分词的词性、第二词组的分词以及第二词组的分词的词性。
具体地,服务器获取预设的分词处理文件,根据预设的分词处理文件对第一词组和第二词组进行分词处理;比如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等,对第一词组和第二词组进行分词处理,可以得到第一词组的分词以及第一词组的分词的词性、第二词组的分词以及第二词组的分词的词性。其中,分词处理文件是一种能够自动对第一词组和第二词组进行分词处理的算法文件。
当然,服务器还可以基于其他分词处理方法对第一词组和第二词组进行分词处理,具体本申请不做限定。
进一步地,服务器还可以将第一词组的分词中的第一个分词,作为第一词组的开头词,将除开头词之外的分词,作为第一词组的其他分词;比如,第一词组“康师傅”的开头词为“康”,其他分词为“师傅”。此外,针对第二词组的开头词和其他分词的确定方式同上述一样,在此不再赘述。
S604,统计第一词组的分词的个数,作为第一词组的长度;以及统计第二词组的分词的个数,作为第二词组的长度。
举例说明,假设第一词组“康师傅”的分词为“康”、“师傅”,分词个数为2,则第一词组“康师傅”的长度为2。
S606,将第一词组的分词、第一词组的分词的词性以及第一词组的长度,识别为第一词组的基本语义特征。
S608,将第二词组的分词、第二词组的分词的词性以及第二词组的长度,识别为第二词组的基本语义特征。
在本实施例中,通过获取词组的分词、词组的分词的词性以及词组的长度,有利于从多个语义维度表征词组的语义特征;便于后续根据词组在多个语义维度下的语义特征,对词组进行再次识别,从而提高了得到的目标实体识别结果的准确性。
如图7所示,在一个实施例中,步骤S306中根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络,包括:
S702,根据第一词组以及实体类型,确定第一词组与实体类型之间的关系。
其中,第一词组与实体类型之间的关系,用于表示第一词组对应的类型为实体类型。
S704,根据第二词组以及非实体类型,确定第二词组与非实体类型之间的关系。
其中,第二词组与非实体类型之间的关系,用于表示第二词组对应的类型为非实体类型。
举例说明,参考图8,比如待识别文本“康师傅和统一在方便面行业排名前两位”中“康师傅”为品牌实体,而“方便面”为非品牌实体;那么“康师傅”与品牌实体之间的关系为“康师傅”指向品牌实体,“方便面”与非品牌实体之间的关系为“方便面”指向非品牌实体。
S706,根据第一词组以及第一词组在至少两个语义维度下的特征,确定第一词组与第一词组在至少两个语义维度下的特征之间的关系。
其中,第一词组与第一词组在至少两个语义维度下的特征之间的关系用于表示第一词组所对应的特征为第一词组在至少两个语义维度下的特征。
举例说明,参考图9,“康师傅”在“康师傅和统一在方便面行业排名前两位”的特征分别是“HEAD_康”、“CTX_方便面”、“CTX_统一”、“Len 2”、“Token_师傅”,那么在图9中,“康师傅”与“HEAD_康”“CTX_方便面”、“CTX_统一”、“Len 2”、“Token_师傅”之间的关系为“康师傅”指向“HEAD_康”、“CTX_方便面”、“CTX_统一”、“Len 2”、“Token_师傅”。其中,“HEAD_康”是指“康师傅”的开头词,“CTX_方便面”、“CTX_统一”是指“康师傅”的上下文,“Len 2”是指“康师傅”对应的长度,“Token_师傅”是指“康师傅”的分词。
S708,根据第二词组以及第二词组在至少两个语义维度下的特征,确定第二词组与第二词组在至少两个语义维度下的特征之间的关系。
其中,第二词组与第二词组在至少两个语义维度下的特征之间的关系用于表示第二词组所对应的特征为第二词组在至少两个语义维度下的特征。
S710,根据第一词组与实体类型之间的关系、第二词组与非实体类型之间的关系、第一词组与第一词组在至少两个语义维度下的特征之间的关系以及第二词组与第二词组在至少两个语义维度下的特征之间的关系,构建第一词组的图网络。
在本实施例中,通过根据第一词组与实体类型之间的关系、第二词组与非实体类型之间的关系、第一词组与第一词组在至少两个语义维度下的特征之间的关系以及第二词组与第二词组在至少两个语义维度下的特征之间的关系,构建第一词组的图网络,有利于后续根据第一词组的图网络,综合学习得到第一词组的词组编码以及实体类型的类型编码,进而根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果,进一步提高了实体识别准确率。
如图10所示,在一个实施例中,S710中根据第一词组与实体类型之间的关系、第二词组与非实体类型之间的关系、第一词组与第一词组在至少两个语义维度下的特征之间的关系以及第二词组与第二词组在至少两个语义维度下的特征之间的关系,构建第一词组的图网络,具体包括如下步骤:
S1002,根据第一词组与实体类型之间的关系、第二词组与非实体类型之间的关系,构建第一词组的第一图网络。
举例说明,参考图8,待识别文本“康师傅和统一在方便面行业排名前两位”中“康师傅”、“统一”为品牌实体,而“方便面”为非品牌实体,则“康师傅”、“统一”对应的实体-类型二部图为“康师傅”、“统一”指向品牌实体,“方便面”对应的实体-类型二部图为“方便面”指向非品牌实体;将“康师傅”、“统一”、“方便面”对应的实体-类型二部图,作为“康师傅”、“统一”的第一图网络。
S1004,根据第一词组与第一词组在至少两个语义维度下的特征之间的关系以及第二词组与第二词组在至少两个语义维度下的特征之间的关系,构建第一词组的第二图网络。
举例说明,参考图9,“康师傅”在“康师傅和统一在方便面行业排名前两位”的特征分别是“HEAD_康”、“CTX_方便面”、“CTX_统一”、“Len 2”、“Token_师傅”,那么“康师傅”对应的实体-特征二部图为“康师傅”指向“HEAD_康”、“CTX_方便面”、“CTX_统一”、“Len 2”、“Token_师傅”;将“康师傅”对应的实体-特征二部图,作为“康师傅”对应第二图网络。
S1006,将第一词组的第一图网络以及第二图网络进行拼接处理,得到第一词组的图网络。
具体地,服务器将第一词组的第一图网络以及第二图网络拼接到一起,即可得到第一词组的图网络。
举例说明,参考图11,将“S1_康师傅”、“S1_方便面”、“S2_统一”、“S2_汽车论坛”、“S3_统一”对应的实体-类型二部图,与“S1_康师傅”、“S1_方便面”、“S2_统一”、“S2_汽车论坛”、“S3_统一”对应的实体-特征二部图拼接到一起,即可得到实体-特征-类型的异构图,作为第一词组的图网络。
在本实施例中,通过构建第一词组的图网络,有利于后续根据第一词组的图网络,综合学习得到第一词组的词组编码以及实体类型的类型编码。
如图12所示,在一个实施例中,上述步骤S308中根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码,包括:
S1202,从第一词组的图网络中,分别提取出第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征。
S1204,分别获取第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征的初始编码。
其中,第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征的初始编码是随机产生的特征向量。
当然,服务器还可以将第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征输入预先训练的词编码模型,比如word embedding模型,通过预先训练的词编码模型对第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征进行编码转换,得到第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征的初始编码。
S1206,根据第一词组、实体类型以及非实体类型的初始编码,确定第一损失值。
其中,第一损失值用于衡量第一词组与实体类型之间的相似度、第一词组与非实体类型之间的相似度的差值。
S1208,根据第一词组以及第一词组在至少两个语义维度下的特征的初始编码,确定第二损失值。
其中,第二损失值用于衡量待识别文本中第一词组与特征对的概率。
S1210,根据第一损失值和第二损失值,得到目标损失值。
具体地,服务器将第一损失值和第二损失值进行相加,得到目标损失值。
S1212,若目标损失值不满足预设条件,则根据目标损失值调整第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征的初始编码,直到得到的目标损失值满足预设条件。
S1214,若得到的目标损失值满足预设条件,则将第一词组的当前初始编码,识别为第一词组的词组编码,以及将实体类型的当前初始编码,识别为实体类型的类型编码。
具体地,当目标损失值不满足预设条件时,服务器不断更新调整第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征的初始编码,直到根据调整后的第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征的初始编码得到目标损失值满足预设条件,将第一词组的当前初始编码,识别为第一词组的词组编码,以及将实体类型的当前初始编码,识别为实体类型的类型编码。
在本实施例中,根据目标损失值对第一词组的词组编码以及实体类型的类型编码进行不断调整,可以使得得到的第一词组的词组编码以及实体类型的类型编码更加准确。
如图13所示,在一个实施例中,S1206中根据第一词组、实体类型以及非实体类型的初始编码,确定第一损失值,具体包括如下步骤:
S1302,根据第一词组的初始编码以及实体类型的初始编码,确定第一词组与实体类型之间的特征相似度。
具体地,服务器统计第一词组的初始编码以及实体类型的初始编码之间的余弦相似度,作为第一词组与实体类型之间的特征相似度。
S1304,根据第一词组的初始编码以及非实体类型的初始编码,确定第一词组与非实体类型之间的特征相似度。
具体地,服务器统计第一词组的初始编码以及非实体类型的初始编码之间的余弦相似度,作为第一词组与非实体类型之间的特征相似度。
S1306,根据第一词组与实体类型之间的特征相似度、第一词组与非实体类型之间的特征相似度,确定第一损失值。
具体地,服务器可以通过下述公式统计得到第一损失值:
其中,N表示标记上实体类型的词组的个数,mi表示第i个标记上实体类型的词组对应的词组编码,y表示实体类型对应的类型编码,y′表示非实体类型对应的类型编码,s(mi,y)表示标记上实体类型的词组与实体类型之间的相似度,s(mi,y′)表示标记上实体类型的词组与非实体类型之间的相似度。
这样,通过上述公式,可以使得标记上实体类型的词组与实体类型之间的相似度和标记上实体类型的词组与非实体类型之间的相似度差别尽量大;比如,标记上实体类型的词组为真正实体,则s(mi,y)要远大于s(mi,y′)。
在本实施例中,通过第一损失值的确定方式,可以使得标记上实体类型的词组与实体类型之间的相似度和标记上实体类型的词组与非实体类型之间的相似度差别尽量大,便于后续确定出目标实体识别结果。
如图14所示,在一个实施例中,S1208中根据第一词组以及第一词组在至少两个语义维度下的特征的初始编码,确定第二损失值,具体包括如下步骤:
S1402,根据第一词组以及第一词组在至少两个语义维度下的特征的初始编码,确定第一词组中出现特征的概率。
S1404,根据第一词组中出现特征的概率,确定第二损失值。
具体地,服务器可以通过下述公式统计得到第二损失值:
其中,mi表示第i个标记上实体类型的词组对应的词组编码,fj表示标记上实体类型的词组的第j个特征的编码,wij表示fj是不是mi的特征,若是,则wij=1;若不是,则wij=0,p(fj|mi)表示mi中出现fj的概率。
这样,通过上述第二损失值的确定方式,可以衡量第一词组中出现特征的概率;如果两个词组的上下文特征比较类似,学习到的实体编码比较相关;如果两个特征周围的实体编码比较类似,学习到的特征编码比较相关。
进一步地,目标损失值可以通过下述公式确定:
如图15所示,在一个实施例中,S310中根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果,具体包括以下步骤:
S1502,根据第一词组的词组编码以及实体类型的类型编码,确定第一词组与实体类型之间的特征相似度。
具体地,服务器计算第一词组的词组编码以及实体类型的类型编码之间的余弦相似度,作为第一词组与实体类型之间的特征相似度。
S1504,若特征相似度大于或等于预设阈值,将第一词组标记为目标实体。
S1506,若特征相似度小于预设阈值,将第一词组标记为非目标实体。
在本实施例中,通过对得到的第一词组进行再次的实体识别,有利于避免错标而导致得到的实体的准确率较低的缺陷,进而提高了实体识别准确率。
进一步地,步骤S310中,在确定对第一词组的目标实体识别结果之后,还包括:根据对第一词组的目标实体识别结果,对第一词组的图网络进行更新,得到更新后的第一词组的图网络;那么,上述步骤S308中,根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码,包括:根据更新后的第一词组的图网络,重新确定第一词组的词组编码以及实体类型的类型编码。
具体地,在得到对第一词组的目标实体识别结果之后,服务器还可以根据对第一词组的目标实体识别结果,重新调整第一词组的图网络,比如根据上述得到的标记为目标实体的第一词组,重新调整第一词组的图网络中的第一词组;并按照上述确定第一词组的词组编码以及实体类型的类型编码的方法,重新根据调整后的第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码;根据第一词组的词组编码以及实体类型的类型编码,再次确定对第一词组的目标实体识别结果;重复执行上述过程,使得每一次得到的对第一词组的目标实体识别结果比上一次得到的对第一词组的目标实体识别结果更加准确,进而使得最终得到的对第一词组的目标实体识别结果更加准确,进一步提高了实体识别准确率。
如图16所示,在一个实施例中,步骤S302中,在提取待识别文本中的第一词组和第二词组之后,还包括如下步骤:
S1602,从第一词组中识别出实际类型为非实体类型的词组。
其中,实际类型为非实体类型的词组是指明显标错的词组。
具体地,服务器获取已知实体,从第一词组中识别出明显与已知实体不匹配的词组,作为实际类型为非实体类型的词组。
S1604,对实际类型为非实体类型的词组进行过滤处理,得到过滤处理后的第一词组。
具体地,服务器从第一词组中过滤掉实际类型为非实体类型的词组,得到过滤处理后的第一词组。
在本实施例中,通过对得到的第一词组进行过滤处理,有利于去除一些标错的词组,从而提高了得到的第一词组的准确性,避免多余词组干扰,从而提高了后续对第一词组的实体识别准确率。
如图17所示,在另一个实施例中,步骤S302中,在提取待识别文本中的第一词组和第二词组之后,还包括如下步骤:
S1702,获取第一词组的特征编码以及第一词组的实体特征词的特征编码。
其中,实体特征词是指特定识别场景下的实体的领域特征词,比如实体“统一”对应的实体特征词为:方便面、饮料、润滑油等;大众对应的实体特征词为:汽车、试驾、二手车等。
具体地,服务器获取待识别文本中第一词组的上下文的词语,并获取待识别文本中第一词组的上下文的词语对应的词语编码;将待识别文本中第一词组的上下文的词语对应的词语编码进行相加,得到第一词组的特征编码;从本地数据库中获取第一词组的实体特征词,并获取第一词组的实体特征词的特征编码。
S1704,分别计算第一词组的特征编码与各个实体特征词的特征编码之间的特征相似度。
具体地,服务器计算第一词组的特征编码与各个实体特征词的特征编码之间的余弦相似度,作为第一词组的特征编码与各个实体特征词的特征编码之间的特征相似度。
S1706,若第一词组的特征编码与各个实体特征词的特征编码之间的特征相似度均小于预设相似度,将第一词组标记为非实体类型。
具体地,若第一词组的特征编码与各个实体特征词的特征编码之间的特征相似度均小于预设相似度,说明第一词组是实体特征词对应的实体的可能性较低,即第一词组与标记上的实体类型的语义一致性较低,则将第一词组标记为非实体类型;若第一词组的特征编码与各个实体特征词的特征编码之间的特征相似度均大于预设相似度,说明第一词组是实体特征词对应的实体的可能性较大,即第一词组与标记上的实体类型的语义一致性较高,则不对该第一词组进行过滤处理。
以“统一”品牌为例进行说明,当它作为品牌时,会有很多种情况,对应的特征词为方便面、饮料、润滑油等;分别计算“统一”与方便面、饮料、润滑油之间的相似度,如果相似度都较低,说明“统一”作为名牌实体的可能性较低。
进一步地,服务器还可以从第一词组的特征编码与各个实体特征词的特征编码之间的特征相似度中,筛选出最大的特征相似度,作为第一词组与标记上的实体类型的特征相似度;若该特征相似度小于预设相似度,说明第一词组是实体特征词对应的实体的可能性较低,即第一词组与标记上的实体类型的语义一致性较低,则将第一词组标记为非实体类型。
S1708,对标记为非实体类型的第一词组进行过滤处理,得到过滤处理后的第一词组。
具体地,服务器从第一词组中过滤掉标记为非实体类型的第一词组,得到过滤处理后的第一词组。
进一步地,针对低语义一致性的第一词组,服务器还可以获取第一词组在待识别文本中的上下文的特征对应的特征编码,将第一词组在待识别文本中的上下文的特征对应的特征编码的平均值,作为第一词组的特征编码;获取实体类型的特征编码,计算第一词组的特征编码与实体类型的特征编码之间的相似度,若该相似度大于预设相似度,则将低语义一致性的第一词组标记为实体类型。
在本实施例中,通过对得到的第一词组进行过滤处理,有利于去除一些标错的词组,从而提高了得到的第一词组的准确性,避免多余词组干扰,从而提高了后续对第一词组的实体识别准确率。
如图18所示,在一个实施例中,本申请的实体识别方法还包括存储待识别文本中第一词组的目标实体识别结果的步骤,具体包括如下步骤:
S1802,获取待识别文本的文本标识。
其中,文本标识是指用于标识待识别文本的标识信息,比如文本编号、文本名称等。
具体地,服务器为待识别文本分配对应的文本编号,比如1、2、3等,并将文本编号作为待识别文本的文本标识。
S1804,将待识别文本中第一词组的目标实体识别结果,按照对应的文本标识存储至预设数据库中。
具体地,服务器将待识别文本中第一词组的目标实体识别结果,按照待识别文本对应的文本标识,分类存储至Redis数据库中,以通过Redis数据库存储多个文本标识对应的第一词组的目标实体识别结果。
进一步地,在将待识别文本中第一词组的目标实体识别结果,按照对应的文本标识存储至预设数据库中之后,在用户发起实体识别请求时,服务器还可以对实体识别请求进行解析,得到文本标识;从预设数据库中获取该文本标识对应的第一词组的目标实体识别结果,并将第一词组的目标实体识别结果推送至对应的用户。
本实施例中,实现了将待识别文本的第一词组的目标实体识别结果,按照对应的文本标识存储至预设数据库中的目的,便于后续根据用户发起的实体识别请求,准确地将对应的第一词组的目标实体识别结果推送至对应的用户,无需通过人工标注实体,大大降低了人力成本,从而提高了实体识别效率。
在一个实施例中,本申请还提供了另一种实体识别方法,该实体识别方法可以应用于如图19所示的应用环境图中。参照图19,该实体识别方法应用于实体审核系统。该实体审核系统包括终端1910和服务器1920;终端1910与服务器1920通过网络连接。终端具体可以是台式终端或者移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,具体可以是公有云服务器、私有云服务器。
如图20所示,在一个实施例中,提供了另一种实体识别方法。本实施例主要以该方法应用于上述图19中的服务器1920来举例说明。参照图20,该实体识别方法具体包括如下步骤:
S2002,接收终端发送的实体识别请求;实体识别请求中携带有文本标识。
举例说明,如图21所示,用户在终端的实体标注界面上选择需要标注的文本,并点击标注按钮,触发终端基于用户已选择的文本,生成实体识别请求,并将该实体识别请求发送至对应的服务器。
S2004,从预设数据库中获取与文本标识对应的第一词组的目标实体识别结果。
其中,预设数据库中存储了多个文本标识对应的第一词组的目标实体识别结果。
具体地,服务器根据文本标识查询预设数据库,从预设数据库中获取与文本标识对应的第一词组的目标实体识别结果。
进一步地,服务器除了从预设数据库中获取与文本标识对应的第一词组的目标实体识别结果之外,还可以实时确定文本标识对应的文本的第一词组的目标实体识别结果;具体参照上述步骤S302至310,在此不再赘述。
S2006,将与文本标识对应的第一词组的目标实体识别结果推送至终端。
具体地,服务器将与文本标识对应的第一词组的目标实体识别结果推送至对应的终端,以通过终端的实体标注界面展示第一词组的目标实体识别结果,方便用户进行查看。
请参照图21,以实体标注应用程序为例进行说明。用户终端安装有实体标注应用程序,假设用户在实体标注应用程序上的实体标注界面上选择文本A,并点击标注按钮,即可触发实体识别请求,并通过终端将该实体识别请求发送至对应的服务器。服务器根据实体识别请求,从预设数据库中获取文本A的第一词组的目标实体识别结果,或者实时确定文本A的第一词组的目标实体识别结果(具体参见本申请上述实体识别方法的实施例),并将文本A的第一词组的目标实体识别结果推送至实体标注应用程序,以通过该实体标注应用程序的实体标注界面展示文本A的第一词组的目标实体识别结果。
需要说明的是,本申请的实体识别方法除了应用于上述实体标注场景外,还可以应用于其他场景中,具体本申请不做限定。
在本实施例中,实现了根据实体识别请求,将相应的文本的第一词组的目标实体识别结果推送至对应的用户的目的,无需通过人工标注实体,从而提高了实体识别效率,大大降低了人工标注成本。
如图22所示,在一个实施例中,提供了又一种实体识别方法。本实施例主要以该方法应用于上述图19中的服务器1920来举例说明。参照图22,该实体识别方法具体包括如下步骤:
S2202,接收终端发送的实体识别请求;实体识别请求中携带有待识别文本。
S2204,提取待识别文本中的第一词组和第二词组;第一词组标记有实体类型,第二词组标记有非实体类型。
S2206,从第一词组中识别出实际类型为非实体类型的词组;对实际类型为非实体类型的词组进行过滤处理,得到过滤处理后的第一词组。
S2208,分别获取过滤处理后的第一词组和第二词组在至少两个语义维度下的特征。
S2210,根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络。
S2212,根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码。
S2214,根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果。
S2216,将对第一词组的目标实体识别结果推送至对应的终端。
在本实施例中,实现了基于图网络学习得到的第一词组的词组编码以及实体类型的类型编码,对第一词组进行再次识别的目的,保证了得到的目标实体识别结果更加准确,从而提高了实体识别准确率;同时,综合考虑第一词组和第二词组在多个语义维度下的特征,有利于从多个语义维度对第一词组进行实体识别,进一步提高了实体识别准确率,避免了忽略词组的语义特征,只将词组单作一个独立的数据,导致识别出的实体存在错误,造成实体识别准确率低的缺陷。
在一个实施例中,如图23所示,提供一种菜品实体识别方法。本实施例主要以该方法应用于上述图1中的服务器110来举例说明,该菜品实体识别方法具体包括以下步骤:
S2302,提取待识别菜品文本中的第一词组和第二词组;第一词组标记有菜品类型,第二词组标记有非菜品类型。
其中,待识别菜品文本是指包含有菜品名字的文本,具体可以是美食笔记、美食文章、美食报导等,可以通过在网络上获取得到,也可以是从本地数据库中获取得到,还可以是通过用户上传获取得到。
其中,菜品类型用于标记菜品实体,非菜品类型用于标记非菜品实体;第一词组是指标记有菜品类型的词组,第二词组是指标记有非菜品类型的词组。
具体地,服务器采集网络上需要识别的菜品文本,作为待识别菜品文本;获取待识别菜品文本对应的菜品领域实体;将待识别菜品文本与菜品领域实体进行匹配,从待识别菜品文本中提取出与菜品领域实体匹配的词组,作为第一词组,并为第一词组标记上菜品类型;从待识别菜品文本中提取出与菜品领域实体不匹配的词组,作为第二词组候选集;从第二词组候选集中随机选取一个或者多个词组,作为第二词组,并为第二词组标记上非菜品类型。这样,预先从待识别菜品文本中确定出标记有菜品类型的第一词组,有利于初步确定出待识别菜品文本的菜品实体识别结果,避免多余词组干扰,从而提高了后续对第一词组的菜品实体识别准确率。
S2304,分别获取第一词组和第二词组在至少两个语义维度下的特征。
具体地,服务器对第一词组和第二词组进行分词处理,得到第一词组的分词以及第一词组的分词的词性、第二词组的分词以及第二词组的分词的词性;统计第一词组的分词个数以及第二词组的分词个数;获取第一词组在待识别菜品文本中的上下文以及第二词组在待识别菜品文本中的上下文;将第一词组的分词、第一词组的分词的词性、第一词组的分词个数以及第一词组在待识别菜品文本中的上下文,识别为第一词组在至少两个语义维度下的特征;将第二词组的分词、第二词组的分词的词性、第二词组的分词个数以及第二词组在待识别菜品文本中的上下文,识别为第二词组在至少两个语义维度下的特征,从而得到第一词组和第二词组在至少两个语义维度下的特征。
S2306,根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的菜品类型以及第二词组所标记的非菜品类型,构建第一词组的图网络。
具体地,服务器根据第一词组以及第一词组所标记的菜品类型,确定第一词组与菜品类型之间的关系;根据第二词组以及第二词组所标记的非菜品类型,确定第二词组与非菜品类型之间的关系;根据第一词组以及第一词组在至少两个语义维度下的特征,确定第一词组与第一词组在至少两个语义维度下的特征之间的关系;根据第二词组以及第二词组在至少两个语义维度下的特征,确定第二词组与第二词组在至少两个语义维度下的特征之间的关系;根据第一词组与菜品类型之间的关系、第二词组与非菜品类型之间的关系、第一词组与第一词组在至少两个语义维度下的特征之间的关系、第二词组与第二词组在至少两个语义维度下的特征之间的关系,构建图网络,作为第一词组的图网络;这样,有利于后续根据第一词组的图网络,确定第一词组的词组编码以及菜品类型的类型编码。
S2308,根据第一词组的图网络,确定第一词组的词组编码以及菜品类型的类型编码。
其中,第一词组的词组编码是指用于表征第一词组的特征信息的特征向量,菜品类型的类型编码是指用于表征菜品类型的特征信息的特征向量。
具体地,服务器将第一词组的图网络输入预先训练的编码学习模型中,通过预先训练的编码学习模型根据第一词组的图网络,学习得到第一词组对应的编码以及菜品类型对应的编码,分别作为第一词组的词组编码以及菜品类型的类型编码。这样,有利于后续根据第一词组的词组编码以及菜品类型的类型编码,对第一词组进行再次识别,从而得到更加准确的菜品实体识别结果,进一步提高了菜品实体识别准确率。
S2310,根据第一词组的词组编码以及菜品类型的类型编码,确定对第一词组的目标菜品实体识别结果。
其中,对第一词组的目标菜品实体识别结果是指针对第一词组的最终菜品识别结果。
具体地,服务器根据第一词组的词组编码以及菜品类型的类型编码,计算第一词组与菜品类型之间的特征相似度,若该特征相似度满足预设条件,则将第一词组识别为目标菜品实体,若该特征相似度不满足预设条件,则将第一词组识别为非菜品实体,从而得到对第一词组的目标菜品实体识别结果。这样,通过对得到的第一词组进行再次的菜品实体识别,有利于避免错标而导致得到的菜品实体的准确率较低的缺陷,进而提高了菜品实体识别准确率。
上述菜品实体识别方法,通过获取从待识别菜品文本中提取出的标记有菜品类型的第一词组和标记有非菜品类型的第二词组在至少两个语义维度下的特征,并根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的菜品类型以及第二词组所标记的非菜品类型,构建第一词组的图网络;然后根据第一词组的图网络,确定第一词组的词组编码以及菜品类型的类型编码,进而根据第一词组的词组编码以及菜品类型的类型编码,确定对第一词组的目标菜品实体识别结果;实现了基于图网络学习得到的第一词组的词组编码以及菜品类型的类型编码,对第一词组进行再次识别的目的,保证了得到的目标菜品实体识别结果更加准确,从而提高了菜品实体识别准确率;同时,综合考虑第一词组和第二词组在多个语义维度下的特征,有利于从多个语义维度对第一词组进行菜品实体识别,进一步提高了菜品实体识别准确率,避免了忽略词组的语义特征,只将词组单作一个独立的数据,导致识别出的菜品实体存在错误,造成菜品实体识别准确率低的缺陷。
应该理解的是,虽然图3-7、10、12-18、20、22、23的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3-7、10、12-18、20、22、23中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图24所示,在一个实施例中,提供了一种实体识别装置2400,该装置2400包括:词组提取模块2402,特征获取模块2404,图网络构建模块2406,编码确定模块2408以及结果确定模块2410,其中:
词组提取模块2402,用于提取待识别文本中的第一词组和第二词组;第一词组标记有实体类型,第二词组标记有非实体类型;
特征获取模块2404,用于分别获取第一词组和第二词组在至少两个语义维度下的特征;
图网络构建模块2406,用于根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络;
编码确定模块2408,用于根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码;
结果确定模块2410,用于根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果。
在一个实施例中,词组提取模块2402还用于识别待识别文本的文本标识;确定与文本标识对应的实体库;实体库中存储有预设实体以及预设实体的实体类型;从待识别文本中提取出与预设实体匹配的词组,作为第一词组,并对第一词组标记上预设实体的实体类型;从待识别文本中提取出与预设实体不匹配的词组,作为第二词组,并对第二词组标记上非实体类型。
在一个实施例中,特征获取模块2404还用于分别获取第一词组和第二词组的基本语义特征,以及待识别文本中第一词组和第二词组的上下文本中的词语;将第一词组的基本语义特征以及待识别文本中第一词组的上下文本中的词语,识别为第一词组在至少两个语义维度下的特征;将第二词组的基本语义特征以及待识别文本中所述第二词组的上下文本中的词语,识别为第二词组在至少两个语义维度下的特征。
在一个实施例中,特征获取模块2404还用于分别将第一词组和第二词组进行分词处理,得到第一词组的分词以及第一词组的分词的词性、第二词组的分词以及第二词组的分词的词性;统计第一词组的分词的个数,作为第一词组的长度;以及统计第二词组的分词的个数,作为第二词组的长度;将第一词组的分词、第一词组的分词的词性以及第一词组的长度,识别为第一词组的基本语义特征;将第二词组的分词、第二词组的分词的词性以及第二词组的长度,识别为第二词组的基本语义特征。
在一个实施例中,图网络构建模块2406还用于根据第一词组以及实体类型,确定第一词组与实体类型之间的关系;根据第二词组以及非实体类型,确定第二词组与非实体类型之间的关系;根据第一词组以及第一词组在至少两个语义维度下的特征,确定第一词组与第一词组在至少两个语义维度下的特征之间的关系;根据第二词组以及第二词组在至少两个语义维度下的特征,确定第二词组与第二词组在至少两个语义维度下的特征之间的关系;根据第一词组与实体类型之间的关系、第二词组与非实体类型之间的关系、第一词组与第一词组在至少两个语义维度下的特征之间的关系以及第二词组与第二词组在至少两个语义维度下的特征之间的关系,构建第一词组的图网络。
在一个实施例中,图网络构建模块2406还用于根据第一词组与实体类型之间的关系、第二词组与非实体类型之间的关系,构建第一词组的第一图网络;根据第一词组与第一词组在至少两个语义维度下的特征之间的关系以及第二词组与第二词组在至少两个语义维度下的特征之间的关系,构建第一词组的第二图网络;将第一词组的第一图网络以及第二图网络进行拼接处理,得到第一词组的图网络。
在一个实施例中,编码确定模块2408还用于从第一词组的图网络中,分别提取出第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征;分别获取第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征的初始编码;根据第一词组、实体类型以及非实体类型的初始编码,确定第一损失值;根据第一词组以及第一词组在至少两个语义维度下的特征的初始编码,确定第二损失值;根据第一损失值和第二损失值,得到目标损失值;若目标损失值不满足预设条件,则根据目标损失值调整第一词组、实体类型、非实体类型以及第一词组在至少两个语义维度下的特征的初始编码,直到得到的目标损失值满足预设条件;若得到的目标损失值满足预设条件,则将第一词组的当前初始编码,识别为第一词组的词组编码,以及将实体类型的当前初始编码,识别为实体类型的类型编码。
在一个实施例中,编码确定模块2408还用于根据第一词组的初始编码以及实体类型的初始编码,确定第一词组与实体类型之间的特征相似度;根据第一词组的初始编码以及非实体类型的初始编码,确定第一词组与非实体类型之间的特征相似度;根据第一词组与实体类型之间的特征相似度、第一词组与非实体类型之间的特征相似度,确定第一损失值。
在一个实施例中,编码确定模块2408还用于根据第一词组以及第一词组在至少两个语义维度下的特征的初始编码,确定第一词组中出现特征的概率;根据第一词组中出现特征的概率,确定第二损失值。
在一个实施例中,结果确定模块2410还用于根据第一词组的词组编码以及实体类型的类型编码,确定第一词组与实体类型之间的特征相似度;若特征相似度大于或等于预设阈值,将第一词组标记为目标实体;若特征相似度小于预设阈值,将第一词组标记为非目标实体。
在一个实施例中,实体识别装置2400具体还包括:词组过滤模块。
词组过滤模块,用于获取第一词组的特征编码以及第一词组的实体特征词的特征编码;分别计算第一词组的特征编码与各个实体特征词的特征编码之间的特征相似度;若第一词组的特征编码与各个实体特征词的特征编码之间的特征相似度均小于预设相似度,将第一词组标记为非实体类型;对标记为非实体类型的第一词组进行过滤处理,得到过滤处理后的第一词组。
在一个实施例中,实体识别装置2400具体还包括:图网络更新模块。
图网络更新模块,用于根据对第一词组的目标实体识别结果,对第一词组的图网络进行更新,得到更新后的第一词组的图网络。
在一个实施例中,编码确定模块2408还用于根据更新后的第一词组的图网络,重新确定第一词组的词组编码以及实体类型的类型编码。
在本实施例中,通过获取从待识别文本中提取出的标记有实体类型的第一词组和标记有非实体类型的第二词组在至少两个语义维度下的特征,并根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络;然后根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码,进而根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果;实现了基于图网络学习得到的第一词组的词组编码以及实体类型的类型编码,对第一词组进行再次识别的目的,保证了得到的目标实体识别结果更加准确,从而提高了实体识别准确率;同时,综合考虑第一词组和第二词组在多个语义维度下的特征,有利于从多个语义维度对第一词组进行实体识别,进一步提高了实体识别准确率,避免了忽略词组的语义特征,只将词组单作一个独立的数据,导致识别出的实体存在错误,造成实体识别准确率低的缺陷。
在一个实施例中,本申请提供的实体识别装置可以实现为一种计算机程序的形式,计算机程序可在如图2所示的计算机设备上运行。计算机设备的存储器中可存储组成该实体识别装置的各个程序模块,比如,图24所示的词组提取模块2402、特征获取模块2404、图网络构建模块2406、编码确定模块2408和结果确定模块2410。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的实体识别方法中的步骤。
例如,图2所示的计算机设备可以通过如图24所示的实体识别装置中的词组提取模块2402提取待识别文本中的第一词组和第二词组;第一词组标记有实体类型,第二词组标记有非实体类型;计算机设备可通过特征获取模块2404分别获取第一词组和第二词组在至少两个语义维度下的特征。计算机设备可通过图网络构建模块2406根据第一词组和第二词组、第一词组和第二词组在至少两个语义维度下的特征、第一词组所标记的实体类型以及第二词组所标记的非实体类型,构建第一词组的图网络。计算机设备可通过编码确定模块2408根据第一词组的图网络,确定第一词组的词组编码以及实体类型的类型编码,并通过结果确定模块2410根据第一词组的词组编码以及实体类型的类型编码,确定对第一词组的目标实体识别结果。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述实体识别方法的步骤。此处实体识别方法的步骤可以是上述各个实施例的实体识别方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述实体识别方法的步骤。此处实体识别方法的步骤可以是上述各个实施例的实体识别方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种实体识别方法,包括:
提取待识别文本中的第一词组和第二词组;所述第一词组标记有实体类型,所述第二词组标记有非实体类型;
分别获取所述第一词组和所述第二词组在至少两个语义维度下的特征;
根据所述第一词组和所述第二词组、所述第一词组和所述第二词组在至少两个语义维度下的特征、所述第一词组所标记的所述实体类型以及所述第二词组所标记的所述非实体类型,构建所述第一词组的图网络;
根据所述第一词组的图网络,确定所述第一词组的词组编码以及所述实体类型的类型编码;
根据所述第一词组的词组编码以及所述实体类型的类型编码,确定对所述第一词组的目标实体识别结果。
2.根据权利要求1所述的方法,其特征在于,所述提取待识别文本中的第一词组和第二词组,包括:
识别所述待识别文本的文本标识;
确定与所述文本标识对应的实体库;所述实体库中存储有预设实体以及所述预设实体的实体类型;
从所述待识别文本中提取出与所述预设实体匹配的词组,作为第一词组,并对所述第一词组标记上所述预设实体的实体类型;
从所述待识别文本中提取出与所述预设实体不匹配的词组,作为第二词组,并对所述第二词组标记上所述非实体类型。
3.根据权利要求1所述的方法,其特征在于,所述分别获取所述第一词组和所述第二词组在至少两个语义维度下的特征,包括:
分别获取所述第一词组和所述第二词组的基本语义特征,以及所述待识别文本中所述第一词组和所述第二词组的上下文本中的词语;
将所述第一词组的基本语义特征以及所述待识别文本中所述第一词组的上下文本中的词语,识别为所述第一词组在至少两个语义维度下的特征;
将所述第二词组的基本语义特征以及所述待识别文本中所述第二词组的上下文本中的词语,识别为所述第二词组在至少两个语义维度下的特征。
4.根据权利要求3所述的方法,其特征在于,所述分别获取所述第一词组和所述第二词组的基本语义特征,包括:
分别将所述第一词组和第二词组进行分词处理,得到所述第一词组的分词以及所述第一词组的分词的词性、所述第二词组的分词以及所述第二词组的分词的词性;
统计所述第一词组的分词的个数,作为所述第一词组的长度;以及统计所述第二词组的分词的个数,作为所述第二词组的长度;
将所述第一词组的分词、所述第一词组的分词的词性以及所述第一词组的长度,识别为所述第一词组的基本语义特征;
将所述第二词组的分词、所述第二词组的分词的词性以及所述第二词组的长度,识别为所述第二词组的基本语义特征。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一词组和所述第二词组、所述第一词组和所述第二词组在至少两个语义维度下的特征、所述第一词组所标记的所述实体类型以及所述第二词组所标记的所述非实体类型,构建所述第一词组的图网络,包括:
根据所述第一词组以及所述实体类型,确定所述第一词组与所述实体类型之间的关系;
根据所述第二词组以及所述非实体类型,确定所述第二词组与所述非实体类型之间的关系;
根据所述第一词组以及所述第一词组在至少两个语义维度下的特征,确定所述第一词组与所述第一词组在至少两个语义维度下的特征之间的关系;
根据所述第二词组以及所述第二词组在至少两个语义维度下的特征,确定所述第二词组与所述第二词组在至少两个语义维度下的特征之间的关系;
根据所述第一词组与所述实体类型之间的关系、所述第二词组与所述非实体类型之间的关系、所述第一词组与所述第一词组在至少两个语义维度下的特征之间的关系以及所述第二词组与所述第二词组在至少两个语义维度下的特征之间的关系,构建所述第一词组的图网络。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一词组与所述实体类型之间的关系、所述第二词组与所述非实体类型之间的关系、所述第一词组与所述第一词组在至少两个语义维度下的特征之间的关系以及所述第二词组与所述第二词组在至少两个语义维度下的特征之间的关系,构建所述第一词组的图网络,包括:
根据所述第一词组与所述实体类型之间的关系、所述第二词组与所述非实体类型之间的关系,构建所述第一词组的第一图网络;
根据所述第一词组与所述第一词组在至少两个语义维度下的特征之间的关系以及所述第二词组与所述第二词组在至少两个语义维度下的特征之间的关系,构建所述第一词组的第二图网络;
将所述第一词组的所述第一图网络以及所述第二图网络进行拼接处理,得到所述第一词组的图网络。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一词组的图网络,确定所述第一词组的词组编码以及所述实体类型的类型编码,包括:
从所述第一词组的图网络中,分别提取出所述第一词组、所述实体类型、所述非实体类型以及所述第一词组在至少两个语义维度下的特征;
分别获取所述第一词组、所述实体类型、所述非实体类型以及所述第一词组在至少两个语义维度下的特征的初始编码;
根据所述第一词组、所述实体类型以及所述非实体类型的初始编码,确定第一损失值;
根据所述第一词组以及所述第一词组在至少两个语义维度下的特征的初始编码,确定第二损失值;
根据所述第一损失值和所述第二损失值,得到目标损失值;
若所述目标损失值不满足预设条件,则根据所述目标损失值调整所述第一词组、所述实体类型、所述非实体类型以及所述第一词组在至少两个语义维度下的特征的初始编码,直到得到的所述目标损失值满足所述预设条件;
若得到的所述目标损失值满足所述预设条件,则将所述第一词组的当前初始编码,识别为所述第一词组的词组编码,以及将所述实体类型的当前初始编码,识别为所述实体类型的类型编码。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一词组、所述实体类型以及所述非实体类型的初始编码,确定第一损失值,包括:
根据所述第一词组的初始编码以及所述实体类型的初始编码,确定所述第一词组与所述实体类型之间的特征相似度;
根据所述第一词组的初始编码以及所述非实体类型的初始编码,确定所述第一词组与所述非实体类型之间的特征相似度;
根据所述第一词组与所述实体类型之间的特征相似度、所述第一词组与所述非实体类型之间的特征相似度,确定所述第一损失值。
9.根据权利要求7所述的方法,其特征在于,所述根据所述第一词组以及所述第一词组在至少两个语义维度下的特征的初始编码,确定第二损失值,包括:
根据所述第一词组以及所述第一词组在至少两个语义维度下的特征的初始编码,确定所述第一词组中出现所述特征的概率;
根据所述第一词组中出现所述特征的概率,确定所述第二损失值。
10.根据权利要求1所述的方法,其特征在于,所述根据所述第一词组的词组编码以及所述实体类型的类型编码,确定对所述第一词组的目标实体识别结果,包括:
根据所述第一词组的词组编码以及所述实体类型的类型编码,确定所述第一词组与所述实体类型之间的特征相似度;
若所述特征相似度大于或等于预设阈值,将所述第一词组标记为目标实体;
若所述特征相似度小于所述预设阈值,将所述第一词组标记为非目标实体。
11.根据权利要求1至10任一项所述的方法,其特征在于,在提取待识别文本中的第一词组和第二词组之后,还包括:
获取所述第一词组的特征编码以及所述第一词组的实体特征词的特征编码;
分别计算所述第一词组的特征编码与各个所述实体特征词的特征编码之间的特征相似度;
若所述第一词组的特征编码与各个所述实体特征词的特征编码之间的特征相似度均小于预设相似度,将所述第一词组标记为非实体类型;
对标记为非实体类型的所述第一词组进行过滤处理,得到过滤处理后的第一词组。
12.根据权利要求1至10任一项所述的方法,其特征在于,在确定对所述第一词组的目标实体识别结果之后,还包括:
根据对所述第一词组的目标实体识别结果,对所述第一词组的图网络进行更新,得到更新后的第一词组的图网络;
所述根据所述第一词组的图网络,确定所述第一词组的词组编码以及所述实体类型的类型编码,包括:
根据所述更新后的第一词组的图网络,重新确定所述第一词组的词组编码以及所述实体类型的类型编码。
13.一种实体识别装置,其特征在于,所述装置包括:
词组提取模块,用于提取待识别文本中的第一词组和第二词组;所述第一词组标记有实体类型,所述第二词组标记有非实体类型;
特征获取模块,用于分别获取所述第一词组和所述第二词组在至少两个语义维度下的特征;
图网络构建模块,用于根据所述第一词组和所述第二词组、所述第一词组和所述第二词组在至少两个语义维度下的特征、所述第一词组所标记的所述实体类型以及所述第二词组所标记的所述非实体类型,构建所述第一词组的图网络;
编码确定模块,用于根据所述第一词组的图网络,确定所述第一词组的词组编码以及所述实体类型的类型编码;
结果确定模块,用于根据所述第一词组的词组编码以及所述实体类型的类型编码,确定对所述第一词组的目标实体识别结果。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010047291.5A CN111241839B (zh) | 2020-01-16 | 2020-01-16 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010047291.5A CN111241839B (zh) | 2020-01-16 | 2020-01-16 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241839A true CN111241839A (zh) | 2020-06-05 |
CN111241839B CN111241839B (zh) | 2022-04-05 |
Family
ID=70872632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010047291.5A Active CN111241839B (zh) | 2020-01-16 | 2020-01-16 | 实体识别方法、装置、计算机可读存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241839B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065352A (zh) * | 2020-06-29 | 2021-07-02 | 国网浙江省电力有限公司杭州供电公司 | 一种电网调度工作文本的操作内容识别方法 |
CN114004234A (zh) * | 2020-07-28 | 2022-02-01 | 深圳Tcl数字技术有限公司 | 一种语义识别方法、存储介质及终端设备 |
CN114139541A (zh) * | 2021-11-22 | 2022-03-04 | 北京中科闻歌科技股份有限公司 | 命名实体识别方法、装置、设备及介质 |
CN115146627A (zh) * | 2022-07-26 | 2022-10-04 | 平安科技(深圳)有限公司 | 实体识别方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答系统 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109918669A (zh) * | 2019-03-08 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 实体确定方法、装置及存储介质 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110555206A (zh) * | 2018-06-01 | 2019-12-10 | 中兴通讯股份有限公司 | 一种命名实体识别方法、装置、设备及存储介质 |
CN110688857A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN112256835A (zh) * | 2020-10-29 | 2021-01-22 | 东南大学 | 一种精准描述知识图谱中元素语义的子图抽取方法 |
CN112463973A (zh) * | 2019-09-06 | 2021-03-09 | 医渡云(北京)技术有限公司 | 医学知识图谱的构建方法、装置、介质及电子设备 |
-
2020
- 2020-01-16 CN CN202010047291.5A patent/CN111241839B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答系统 |
CN110555206A (zh) * | 2018-06-01 | 2019-12-10 | 中兴通讯股份有限公司 | 一种命名实体识别方法、装置、设备及存储介质 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109918669A (zh) * | 2019-03-08 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 实体确定方法、装置及存储介质 |
CN112463973A (zh) * | 2019-09-06 | 2021-03-09 | 医渡云(北京)技术有限公司 | 医学知识图谱的构建方法、装置、介质及电子设备 |
CN110688857A (zh) * | 2019-10-08 | 2020-01-14 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
CN112256835A (zh) * | 2020-10-29 | 2021-01-22 | 东南大学 | 一种精准描述知识图谱中元素语义的子图抽取方法 |
Non-Patent Citations (4)
Title |
---|
CHRISTOPHER MARSHALL: "What is named entity recognition(NER) and how can I use it?", 《HTTPS://MEDIUM.COM/MYSUPERAI/WHAT-IS-NAMED-ENTITY-RECOGNITION-NER-AND-HOW-CAN-I-USE-IT-2B68CF6F545D》 * |
孟迎: "基于统计的机器学习的中文命名实体识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
山阴少年: "NLP入门(四)命名实体识别(NER)", 《HTTPS://WWW.JIANSHU.COM/P/16E1F6A7AAEF》 * |
廖先桃 等: "HMM与自动规则提取相结合的中文命名实体识别", 《第二届全国学生计算语言学研讨会论文集》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065352A (zh) * | 2020-06-29 | 2021-07-02 | 国网浙江省电力有限公司杭州供电公司 | 一种电网调度工作文本的操作内容识别方法 |
CN113065352B (zh) * | 2020-06-29 | 2022-07-19 | 国网浙江省电力有限公司杭州供电公司 | 一种电网调度工作文本的操作内容识别方法 |
CN114004234A (zh) * | 2020-07-28 | 2022-02-01 | 深圳Tcl数字技术有限公司 | 一种语义识别方法、存储介质及终端设备 |
CN114139541A (zh) * | 2021-11-22 | 2022-03-04 | 北京中科闻歌科技股份有限公司 | 命名实体识别方法、装置、设备及介质 |
CN115146627A (zh) * | 2022-07-26 | 2022-10-04 | 平安科技(深圳)有限公司 | 实体识别方法、装置、电子设备及存储介质 |
CN115146627B (zh) * | 2022-07-26 | 2023-05-02 | 平安科技(深圳)有限公司 | 实体识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111241839B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241839B (zh) | 实体识别方法、装置、计算机可读存储介质和计算机设备 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN101814067B (zh) | 对自然语言内容中的信息含量进行定量估算的系统和方法 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CA3142615A1 (en) | System and method for automated file reporting | |
CN113505204B (zh) | 召回模型训练方法、搜索召回方法、装置和计算机设备 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN112035620B (zh) | 医疗查询系统的问答管理方法、装置、设备及存储介质 | |
CN111400493A (zh) | 基于槽位相似度的文本匹配方法、装置、设备及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN109492081B (zh) | 文本信息搜索和信息交互方法、装置、设备及存储介质 | |
US11507746B2 (en) | Method and apparatus for generating context information | |
CN114240552A (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
CN111524593A (zh) | 基于上下文语言模型和知识嵌入的医疗问答方法及系统 | |
CN114372532B (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN113157867A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN113704428A (zh) | 智能问诊方法、装置、电子设备及存储介质 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN118069812B (zh) | 一种基于大模型的导览方法 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN113342944B (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN111104492B (zh) | 一种基于层次化Attention机制的民航领域自动问答方法 | |
CN110287270B (zh) | 实体关系挖掘方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024104 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |