CN114580420A - 一种中文实体识别方法、装置、设备及介质 - Google Patents

一种中文实体识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN114580420A
CN114580420A CN202210209799.XA CN202210209799A CN114580420A CN 114580420 A CN114580420 A CN 114580420A CN 202210209799 A CN202210209799 A CN 202210209799A CN 114580420 A CN114580420 A CN 114580420A
Authority
CN
China
Prior art keywords
text
entity
recognition
recognized
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210209799.XA
Other languages
English (en)
Inventor
卢凌云
李昱
王全礼
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210209799.XA priority Critical patent/CN114580420A/zh
Publication of CN114580420A publication Critical patent/CN114580420A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及文本标注技术领域,尤其涉及一种中文实体识别方法、装置、设备及介质,针对待识别文本进行字符标注,获得第一识别实体集合,标注文本类别标签,获得第一文本类别集合,按照预设的对应关系,获得第二文本类别集合,构造问题集合,获得第二识别实体集合和第三识别实体集合,最后对第一识别实体集合、第二识别实体集合和第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果。这样,当待识别文本中实体类型相近时,可以识别出待识别文本所对应的所有实体类型,不会被相近实体类型所干扰,提高了中文识别结果的准确率,也解决同一实体对应多个实体类别的实体嵌套问题,提高中文实体识别结果的准确性和全面性。

Description

一种中文实体识别方法、装置、设备及介质
技术领域
本申请涉及文本标注技术领域,尤其涉及一种中文实体识别方法、装置、设备及介质。
背景技术
中文命名实体识别,作为自然语言处理领域的基础技术,广泛应用于社会生产生活的各个方面,同时为知识图谱、事件抽取等技术的发展提供技术支撑。目前,中文命名实体识别,主要采用端到端的基于预训练技术的序列标注方法,其中,将实体识别任务转换为标注问题,对文本中每个字符进行标注处理,进而获得识别实体。而随着机器阅读理解技术的发展,中文命名实体识别,也可以转化为阅读理解来进行处理,通过构造每个实体类别对应的问题,根据问题获取对应类别的识别实体。
上述方法尚且存在以下缺陷:
1、实体类别相近的情况无法较好的处理。
由于单一序列标注模型需要同时识别所有实体,因而在识别过程中时存在不同类别实体相互干扰,从而影响识别结果准确率。
2、无法解决识别嵌套实体问题。
存在多个实体类别对应着多个序列标注模型的情况,单实体识别的序列标注模型无法解决同一实体对应多个实体类别的实体嵌套问题。
发明内容
本申请实施例提供一种中文实体识别方法、装置、设备及介质,用于提高中文实体识别结果的准确性和全面性。
第一方面,本申请实施例提供一种中文实体识别方法,包括:
针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,其中,每个第一识别实体表征,待识别文本包含的具有实体属性的字符;
针对待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,其中,每个第一文本类别表征,文本类别标签包含的第一文本类别和对应的第二实体类型;
按照预设的对应关系,将获得的各个第一实体类型分别转化为相应的第二文本类别,获得第二文本类别集合;
针对第一文本类别集合和第二文本类别集合,构造问题集合,针对问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合;
对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果。
第二方面,本申请实施例提供一种中文实体识别装置,装置包括:
第一获取模块,用于针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,其中,每个第一识别实体表征,待识别文本包含的具有实体属性的字符;
第二获取模块,用于针对待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,其中,每个第一文本类别表征,文本类别标签包含的第一文本类别和对应的第二实体类型;
转化模块,用于按照预设的对应关系,将获得的各个第一实体类型分别转化为相应的第二文本类别,获得第二文本类别集合;
问答模块,用于针对第一文本类别集合和第二文本类别集合,构造问题集合,针对问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合;
融合模块,用于对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果。
在一种可选的实施例中,针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,第一获取模块具体用于:
对待识别文本中的各个候选字符进行标注,分别获得各个候选字符的各个标注标签,每个标注标签用于表征相应的候选字符的实体属性和实体类型;
基于各个标注标签,从各个候选字符中,筛选出具有实体属性的目标字符,生成第一识别实体集合,其中,实体属性包括:位于实体的任意位置;
将各个目标字符对应的标注标签表征的相应实体类型,作为各个目标字符对应的第一实体类型。
在一种可选的实施例中,针对待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,第二获取模块具体用于:
按照预设的映射关系,对待识别文本中的整体文本进行文本类别标签的标注,获得整体文本对应的至少一个文本类别标签;
基于至少一个文本类别标签各自对应的第一文本类别,生成第一文本类别集合,每个第一文本类别用于表征整体文本对应的一种第二实体类型。
在一种可选的实施例中,获取预设的映射关系,第一获取模块还用于:
基于历史文本集合,分别获取各个历史文本对应的历史文本类别标签;
基于语义相似度,对各个历史文本进行聚类,获得多个历史文本集合,其中,归属于同一历史文本集合的各个历史文本之间的语义相似度达到设定阈值;
针对每个历史文本集合,执行以下操作:
基于一个历史文本集合包含的各个历史文本各自对应的历史文本类别标签,生成相应的历史文本类别标签集合;
分别在获得的一个历史文本集合包含的各个历史文本,与历史文本类别标签集合之间,建立映射关系。
在一种可选的实施例中,针对第一文本类别集合和第二文本类别集合,构造问题集合,问答模块具体用于:
分别将第一文本类别集合中的各个第一文本类别,基于语句结构与待识别文本进行组合,获得相应的第一子问题,生成第一子问题集合;
分别将第二文本类别集合中的各个第二文本类别,基于语句结构与待识别文本进行组合,获得相应的第二子问题,生成第二子问题集合;
将第一子问题集合和第二子问题集合,进行组合,生成问题集合。
在一种可选的实施例中,针对问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合,问答模块还用于:
根据历史问答记录,分别确定待识别文本中各个文本,各自与第一子问题集合中各个第一子问题的第一语义匹配度,并从待识别文本中筛选出,第一语义匹配度达到设定问答阈值的第一目标文本,作为第一答案实体,获得第二识别实体集合;
根据历史问答记录,分别确定待识别文本中各个文本,各自与第二子问题集合中各个第二子问题的第二语义匹配度,并从待识别文本中筛选出,第二语义匹配度达到设定问答阈值的第二目标文本,作为第二答案实体,获得第三识别实体集合。
在一种可选的实施例中,在对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果时,融合模块具体用于:
基于第一识别实体集合、第二识别实体集合和第三识别实体集合出现的实体类型,获得候选实体类型集合;
分别针对每个候选实体类型,执行以下操作:
分别从第一识别实体集合、第二识别实体集合和第三识别实体集合中,选取出与一个候选实体类型关联的识别实体;
若确定选取的三个识别实体为同一识别实体,则将一个候选实体类型作为一个目标实体类型,并将同一识别实体作为实体识别结果;
若确定选取的三个识别实体中,存在至少一个不相同的识别实体,则将一个候选实体类型作为一个非目标实体类型,并且确定三个识别实体不属于实体识别结果。
在一种可选的实施例中,获得待识别结果之后,融合模块还用于:
若识别结果不包含任一识别实体,则将第二识别实体集合作为实体识别结果。
第三方面,本申请实施例还提供了一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行上述任一方面的任一种中文实体识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如第一方面所述的方法。
第五方面,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如第一方面所述的方法。
本申请实施例提供一种中文实体识别方法、装置、设备及介质,针对待识别文本进行字符标注,获得第一识别实体集合,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,按照预设的对应关系,获得第二文本类别集合,针对第一文本类别集合和第二文本类别集合,构造问题集合,分别获得包含答案实体的第二识别实体集合和第三识别实体集合,最后对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果。这样,当待识别文本中实体类型相近时,可以识别出待识别文本所对应的所有实体类型,不会被相近实体类型所干扰,提高了中文识别结果的准确率,也解决同一实体对应多个实体类别的实体嵌套问题,提高中文实体识别结果的准确性和全面性。
附图说明
图1为本申请实施例提供的中文实体识别方法的一种应用场景;
图2为本申请实施例提供的中文实体识别方法的一种流程示意图一;
图3为本申请实施例提供的中文实体识别方法的一种流程示意图二;
图4为本申请实施例提供的中文实体识别方法的一种流程示意图三;
图5为本申请实施例提供的中文实体识别方法的一种原理示意图一;
图6为本申请实施例提供的中文实体识别方法的一种原理示意图二;
图7为本申请实施例提供的中文实体识别方法的一种流程示意图四;
图8为本申请实施例提供的中文实体识别方法的一种流程示意图五;
图9为本申请实施例提供的中文实体识别方法的一种流程示意图六;
图10为本申请实施例提供的中文实体识别方法的一种流程示意图七;
图11为本申请实施例提供的中文实体识别方法的一种流程示意图八;
图12为本申请实施例提供的中文实体识别方法的一种原理示意图三;
图13为本申请实施例提供的中文实体识别方法的一种原理示意图四;
图14为本申请实施例提供的中文实体识别方法的一种原理示意图五;
图15为本申请实施例提供的中文实体识别方法的一种原理示意图六;
图16为本申请实施例提供的中文实体识别方法的一种原理示意图七;
图17为本申请实施例提供的中文实体识别方法的一种原理示意图八;
图18为本申请实施例提供的中文实体识别方法的一种原理示意图九;
图19为本申请实施例提供的中文实体识别方法的一种原理示意图十;
图20为本申请实施例中的一种中文实体识别装置的组成结构示意图;
图21为本申请实施例中的一种中文实体识别的电子设备的组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为提升中文实体识别结果的准确性和全面性,本申请实施例提供了一种中文实体识别方法、装置、设备及介质,针对待识别文本进行字符标注,获得第一识别实体集合,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,按照预设的对应关系,获得第二文本类别集合,针对第一文本类别集合和第二文本类别集合,构造问题集合,分别获得包含答案实体的第二识别实体集合和第三识别实体集合,最后对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果。这样,当待识别文本中实体类型相近时,可以识别出待识别文本所对应的所有实体类型,不会被相近实体类型所干扰,提高了中文识别结果的准确率,也解决同一实体对应多个实体类别的实体嵌套问题,提高中文实体识别结果的准确性和全面性。
为了更好地理解本申请实施例,下面首先对本申请实施例中涉及的技术术语进行说明。
实体:是指一切具有特定属性集合的物体,一般包括实体类、时间类、数字类三个大类,人名、机构名、地名、时间、日期、货币和百分比七个小类。
需要说明的是,上述技术术语命名方式仅为一种示例,本申请实施例对上述技术术语的命名方式不做限制。
在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
参阅图1所示,为本申请实施例中可能的应用场景示意图。该应用场景示意图中,包括多个终端设备110(包括终端设备1101、终端设备1102…终端设备110n),服务器120,以及处理设备130。
本申请实施例中,终端设备110,包括但不限于是桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personaldigital assistant,PDA)等电子设备。
服务器120,可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
处理设备130,是本申请实施例中实现中文实体识别的设备,处理设备130可以是某一指定的服务器,或者,可以是独立于服务器的一个单独的服务器,或者,可以是独立于服务器的一个单独的电子设备,处理设备130能够实现对待识别文本的实体与实体类型进行识别。处理设备130具体可以是桌面计算机、移动电话、移动电脑、平板电脑等电子设备,或者,可以是独立的物理服务器、云服务器等服务器设备。
本申请实施例中,终端设备110,与服务器120之间,采用有线连接或者无线连接的连接方式,通过通信网络建立通信连接,处理设备130与服务器120之间,采用有线连接或者无线连接的连接方式,通过通信网络建立通信连接。
本申请提出的技术方案,可以在各样的应用场景中,基于待识别文本,获得第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别,实现对待识别文本的中文实体识别。
本申请以下的说明中,将以处理设备130针对待识别文本进行中文实体识别为例,对本申请中的中文实体识别过程进行说明。
下面首先结合附图,对本申请实施例提供的技术方案进行说明。
参阅图2所示,在一种可能的实施例中,在预处理阶段,处理设备获取预设的映射关系,具体执行以下步骤:
步骤21:处理设备基于历史文本集合,分别获取各个历史文本对应的历史文本类别标签。
具体的,处理设备将处理的所有历史文本,生成历史文本集合,根据历史文本集合对应的历史文本类别标签的历史标注,获得每个历史文本对应的历史文本类别标签,其中,每个历史文本类别标签对包含对应的历史文本类别。
步骤22:处理设备基于语义相似度,对各个历史文本进行聚类,获得多个历史文本集合,其中,归属于同一历史文本集合的各个历史文本之间的语义相似度达到设定阈值。
具体的,处理设备获取所有历史文本之间的语义相似度,当多个历史文本之间的语义相似度达到80%时,将这多个历史文本划分为一个历史文本集合。
例如,假设所有历史文本的个数为7个,具体为历史文本1,历史文本2,历史文本3,历史文本4,历史文本5,历史文本6,历史文本7,处理设备获取每两个历史文本之间的语义相似度,得到历史文本1与历史文本2的语义相似度为,历史文本1与历史文本3的语义相似度,历史文本2与历史文本3的语义相似度,如表1所示:
表1
历史文本编号 语义相似度
历史文本1与历史文本2 92%
历史文本1与历史文本3 85%
历史文本2与历史文本3 96%
由上述表格可知,历史文本1、历史文本2以及历史文本3,每两个历史文本之间的语义匹配度都大于80%,因此,处理设备将历史文本1、历史文本2以及历史文本3划分为一个历史文本集合。
步骤23:处理设备针对每个历史文本集合,执行以下操作:
基于一个历史文本集合包含的各个历史文本各自对应的历史文本类别标签,生成相应的历史文本类别标签集合;分别在获得的一个历史文本集合包含的各个历史文本,与历史文本类别标签集合之间,建立映射关系。
具体的,处理设备针对一个历史文本集合,根据各个历史文本对应的历史文本类别标签的历史标注,可以获取一个历史文本集合中包含的所有的历史文本各自对应的历史文本类别标签,作为一个历史文本类别标签集合,并且一个历史文本集合中包含的各个历史文本,都与获得的一个历史文本类别标签集合对应。
例如,假设处理设备针对一个历史文本集合{历史文本1,历史文本2,历史文本3},根据这三个历史文本各自对应的历史文本类别标签的历史标注,获得历史文本1对应历史文本类别标签1,历史文本2对应历史文本类别标签2,历史文本3对应历史文本类别标签3,获得一个历史文本类别标签集合为{历史文本类别标签1,历史文本类别标签2,历史文本类别标签3},则一个历史文本集合中包含的3个历史文本,都与获得的一个历史文本类别标签集合对应,如表2所示:
表2
Figure BDA0003532730520000101
参阅图3所示,本申请实施例提供一种中文实体识别方法,包括以下步骤:
步骤31:针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,其中,每个第一识别实体表征,待识别文本包含的具有实体属性的字符。
具体的,处理设备采用序列标注模型,开始内部外部(Begin-Inside-Outside,BIO)标注方法对待识别文本中的每个字符进行标注,将标注的所有标签作为标注序列,根据标注序列,筛选出所有具有实体属性的字符,作为第一识别实体集合,同时根据标注序列,可以获得所有具有实体属性的字符所对应的第一实体类型,其中,在BIO标注方法中,B代表实体开始部分,I代表实体其他部分,O代表不属于实体的部分。
例如,假设n个实体类型为
{ENT1,ENT2,ENT3,…,ENTi,…,ENTn};
待识别文本为:
S={C1,C2,C3,C4,C5,…,Cn};
通过BIO标注方法,获得的标注序列是:
Figure BDA0003532730520000111
待识别文本中的各个字符与获得的标注序列的各个标注标签一一对应,如表3所示:
表3
Figure BDA0003532730520000112
最终,根据获得的标注序列,可以获得属于第一实体类型ENT2的第一识别实体为C2和C3,第一识别实体集合为{C2,C3}。
其中,ENTi(i=1,2,…,n)表示实体类型i,S表示待识别文本,Ci(i=1,2,…,n)表示待识别文本S中的第i个字符,O表示所标注的字符为不属于实体的部分,
Figure BDA0003532730520000113
表示所标注的字符作为实体开始部分,并且对应的实体类型为ENTi
Figure BDA0003532730520000114
表示所标注的字符作为实体其他部分,并且对应的实体类型为ENTi。参阅图4所示,在执行步骤31时,具体执行以下步骤:
步骤311:处理设备对待识别文本中的各个候选字符进行标注,分别获得各个候选字符的各个标注标签,每个标注标签用于表征相应的候选字符的实体属性和实体类型。
具体的,处理设备采用BIO标注方法对待识别文本中的所有候选字符进行标注,根据标注结果,获得每个候选字符对应的标注标签,并将所有获得的标注标签作为一个标注序列,其中,标注标签分为三类:所标注的字符为不属于实体的部分,所标注的字符作为实体开始部分,所标注的字符作为实体其他部分。
例如,假设待识别文本S1={C1,C2,C3,C4}中的候选字符有4个,处理设备采用BIO标注方法对4个候选字符进行标注获得4个标注标签,每个候选字符与对应的标注标签一一对应,如表4所示:
表4
Figure BDA0003532730520000121
将获得的4个标注标签作为1个标注序列
Figure BDA0003532730520000122
表示所标注的字符C2作为实体开始部分,并且对应的实体类型为ENT2
Figure BDA0003532730520000123
表示所标注的字符C3作为实体其他部分,并且对应的实体类型为ENT2
步骤312:处理设备基于各个标注标签,从各个候选字符中,筛选出具有实体属性的目标字符,生成第一识别实体集合,其中,实体属性包括:位于实体的任意位置。
具体的,参阅图5所示,处理设备根据获得的标注序列中的各个标注标签,将标注标签中“所标注的字符为不属于实体的部分”所对应的字符进行剔除,筛选出具有实体属性的字符,包括“所标注的字符作为实体开始部分”所对应的字符和“所标注的字符作为实体其他部分”所对应的字符,将筛选出的所有具有实体属性的字符作为目标字符,将获得的所有目标字符构成第一识别实体集合,其中,实体属性包括位于实体的任意位置,位于实体的任意位置包括实体开始部分和实体其他部分。
例如,假设处理设备根据标注序列
Figure BDA0003532730520000124
中的4个标注标签,将标注标签O对应的两个字符C1,C4进行剔除,筛选出
Figure BDA0003532730520000125
所对应的字符C2
Figure BDA0003532730520000126
所对应的字符C3,并将C2和C3作为目标字符,则{C2,C3}作为第一识别实体集合。
步骤313:处理设备将各个目标字符对应的标注标签表征的相应实体类型,作为各个目标字符对应的第一实体类型。
具体的,处理设备根据各个目标字符对应的各个标注标签,提取出各个标注表征的相应实体类型,作为各个目标字符对应的第一实体类型。
例如,假设处理设备根据目标字符C2和C3分别对应的标注标签
Figure BDA0003532730520000131
Figure BDA0003532730520000132
提取出
Figure BDA0003532730520000133
表征的实体类型为ENT2
Figure BDA0003532730520000134
对应的实体类型为ENT2,则目标字符C2对应的第一实体类型为ENT2,目标字符C3对应的第一实体类型为ENT2
步骤32:针对待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,其中,每个第一文本类别表征,文本类别标签包含的第一文本类别和对应的第二实体类型。
具体的,参阅图6所示,若确定待识别文本与一个历史文本集合的某个历史文本,语义匹配度达到100%时,则处理设备将待识别文本归属于相应的历史文本集合,获得相应的历史文本类别标签集合,作为待识别文本对应的文本类别标签集合。
参阅图7所示,在执行步骤32时,具体执行以下步骤:
步骤321:处理设备对待识别文本中的整体文本进行文本类别标签的标注,获得整体文本对应的至少一个文本类别标签。
具体的,处理设备对待识别文本采用多标签文本分类模型,将待识别文本归属于相应的历史文本集合,获得相应的历史文本类别标签集合,从而获得待识别文本对应的文本类别标签集合,其中文本类别标签集合中,至少包含一个文本类别标签,因此,待识别文本对应至少一个文本类别标签。
例如,假设针对待识别文本S1采用多标签文本分类模型,获得一个文本类别标签集合为{S1
Figure BDA0003532730520000135
S1
Figure BDA0003532730520000136
},则文本类别标签1“S1
Figure BDA0003532730520000137
”表示待识别文本S1对应的文本类别为
Figure BDA0003532730520000138
文本类别标签2“S1
Figure BDA0003532730520000139
”表示待识别文本S1对应的文本类别为
Figure BDA00035327305200001310
其中文本类别
Figure BDA00035327305200001311
表示为包含实体类型ENTi(i=1,2,…,n)的文本。
步骤322:处理设备基于至少一个文本类别标签各自对应的第一文本类别,生成第一文本类别集合,每个第一文本类别用于表征整体文本对应的一种第二实体类型。
具体的,处理设备从文本类别标签集合中,提取出每个文本类别标签所对应的第一文本类别,将提取出的各个第一文本类别作为一个第一文本类别集合,并且根据文本类别所表示的实体类型,获得第一文本类别集合中每个第一文本类别所对应的第二实体类型。
例如,假设处理设备从一个文本类别标签集合{S1
Figure BDA0003532730520000141
S1
Figure BDA0003532730520000142
}中,提取出文本类别标签1“S1
Figure BDA0003532730520000143
”对应的第一文本类别
Figure BDA0003532730520000144
文本类别标签2“S1
Figure BDA0003532730520000145
”对应的第一文本类别
Figure BDA0003532730520000146
获得第一文本类别集合
Figure BDA0003532730520000147
从而得到第一文本类别
Figure BDA0003532730520000148
对应的第二实体类型为ENT2,第一文本类别
Figure BDA0003532730520000149
对应的第二实体类型为ENT3
步骤33:按照预设的对应关系,将获得的各个第一实体类型分别转化为相应的第二文本类别,获得第二文本类别集合。
具体的,实体类型与文本类别一一对应,如实体类型ENTi(i=1,2,…,n)转换为文本类别为
Figure BDA00035327305200001410
则将每个第一识别实体对应的第一实体类型转化为对应的第二文本类别,将转化的各个第二实体类别作为第二文本类别集合。
例如,假设第一识别实体集合{C2,C3}中第一识别实体C2对应的第一实体类型为ENT2,转化为对应的第二文本类别为
Figure BDA00035327305200001411
第一识别实体C3对应的第一实体类型为ENT2,转化为对应的第二文本类别为
Figure BDA00035327305200001412
获得第二文本类别集合为ENT2
步骤34:针对第一文本类别集合和第二文本类别集合,构造问题集合,针对问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合。
具体的,处理设备针对第一文本类别集合和第二文本类别集合,根据语句结构,生成第一子问题集合和第二子问题集合,将第一子问题集合和第二子问题集合进行组合,构造问题集合,再根据历史问答记录,获得问题集合中的第一子问题集合和第二子问题集合的答案实体。
参阅图8所示,在执行步骤34时,处理设备构造问题集合,具体执行以下步骤:
步骤81:处理设备分别将第一文本类别集合中的各个第一文本类别,基于语句结构与待识别文本进行组合,获得相应的第一子问题,生成第一子问题集合。
例如,假设处理设备分别对第一文本类别集合
Figure BDA0003532730520000151
中的两个第一文本类别
Figure BDA0003532730520000152
Figure BDA0003532730520000153
根据语句结构与待识别文本进行组合,得到两个第一子问题,分别为“在待识别文本中找出包含实体类型ENT2的文本?”、“在待识别文本中找出包含实体类型ENT3的文本?”,则第一子问题集合为{“在待识别文本中找出包含实体类型ENT2的文本?”,“在待识别文本中找出包含实体类型ENT3的文本?”}。
步骤82:处理设备分别将第二文本类别集合中的各个第二文本类别,基于语句结构与待识别文本进行组合,获得相应的第二子问题,生成第二子问题集合。
例如,假设处理设备分别对第二文本类别集合
Figure BDA0003532730520000154
中的第二文本类别
Figure BDA0003532730520000155
根据语句结构与待识别文本进行组合,得到一个第二子问题,为“在待识别文本中找出包含实体类型ENT2的文本?”,则第二子问题集合为{“在待识别文本中找出包含实体类型ENT2的文本?”}。
步骤83:处理设备将第一子问题集合和第二子问题集合,进行组合,生成问题集合。
例如,假设,处理设备将第一子问题集合{“在待识别文本中找出包含实体类型ENT2的文本?”,“在待识别文本中找出包含实体类型ENT3的文本?”}与第二子问题集合{“在待识别文本中找出包含实体类型ENT2的文本?”}进行组合,获得问题集合{{“在待识别文本中找出包含实体类型ENT2的文本?”,“在待识别文本中找出包含实体类型ENT3的文本?”},{“在待识别文本中找出包含实体类型EN2的文本?”}}。
参阅图9所示,在执行步骤34时,分别获得包含答案实体的第二识别实体集合和第三识别实体集合,具体执行以下步骤:
步骤91:处理设备根据历史问答记录,分别确定待识别文本中各个文本,各自与第一子问题集合中各个第一子问题的第一语义匹配度,并从待识别文本中筛选出,第一语义匹配度达到设定问答阈值的第一目标文本,作为第一答案实体,获得第二识别实体集合。
具体的,处理设备应用阅读理解模型,分别确定待识别文本中各个文本,各自与第一子问题集合中各个第一子问题的第一语义匹配度,并从待识别文本中筛选出,第一语义匹配度达到100%的第一目标文本,作为第一答案实体。
例如,假设处理设备应用阅读理解模型,以及根据历史问答记录,分别确定待识别文本S1={C1,C2,C3,C4}中4个文本,各自与第一子问题“在待识别文本中找出包含实体类型ENT2的文本?”的第一语义匹配度为0,100%,0,0,则得到的第一目标文本为C2;分别确定待识别文本S1={C1,C2,C3,C4}中4个文本,各自与第一子问题“在待识别文本中找出包含实体类型ENT3的文本?”的第一语义匹配度为0,0,100%,0,则得到的第一目标文本为C3;问答结果的表示形式为:
{在待识别文本中找出包含实体类型ENT2的文本?,S1,C2}
{在待识别文本中找出包含实体类型ENT3的文本?,S1,C3};
其中,{在待识别文本中找出包含实体类型ENT2的文本?,S1,C2}表示:
在待识别文本S1中找出包含实体类型ENT2的文本为C2
{在待识别文本中找出包含实体类型ENT3的文本?,S1,C3}表示:
在待识别文本S1中找出包含实体类型ENT3的文本为C3,则得到的第二识别实体集合为{C2,C3}。
步骤92:处理设备根据历史问答记录,分别确定待识别文本中各个文本,各自与第二子问题集合中各个第二子问题的第二语义匹配度,并从待识别文本中筛选出,第二语义匹配度达到设定问答阈值的第二目标文本,作为第二答案实体,获得第三识别实体集合。
具体的,处理设备应用阅读理解模型,分别确定待识别文本中各个文本,各自与第二子问题集合中各个第二子问题的第二语义匹配度,并从待识别文本中筛选出,第二语义匹配度达到100%的第二目标文本,作为第二答案实体。
例如,假设处理设备应用阅读理解模型,以及根据历史问答记录,分别确定待识别文本S1={C1,C2,C3,C4}中4个文本,各自与第二子问题“在待识别文本中找出包含实体类型ENT2的文本?”的第二语义匹配度为0,100%,0,0,则得到的第二目标文本为C2;问答结果的表示形式为:
{在待识别文本中找出包含实体类型ENT2的文本?,S1,C2};
其中,{在待识别文本中找出包含实体类型ENT2的文本?,S1,C2}表示:
在待识别文本S1中找出包含实体类型ENT2的文本为C2,则得到的第三识别实体集合为{C2}。
步骤35:对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果。
具体的,处理设备针对第一识别实体集合,第二识别实体集合,以及第三识别实体集合中的实体类型,获得出现的实体类型,以及根据出现的实体类型所关联的识别实体,作为待识别文本的实体识别结果。
参阅图10所示,在执行步骤35时,具体执行以下步骤:
步骤351:处理设备基于第一识别实体集合、第二识别实体集合和第三识别实体集合出现的实体类型,获得候选实体类型集合。
具体的,处理设备提取出第一识别实体集合、第二识别实体集合和第三识别实体集合出现的实体类型,作为候选实体类型,生成候选实体类型集合。
例如,假设识别实体集合为:
Figure BDA0003532730520000171
其中p∈[1,2,3]分别表示第一、第二及第三识别实体集,q∈[1,2,3,…,n]表示待识别的实体类别,p_n表示第p识别实体集识别出num个实体。
分别对三个实体集中的类别ENTi进行得分计算:
Figure BDA0003532730520000181
Figure BDA0003532730520000182
Figure BDA0003532730520000184
值大于等于预设阈值0.5时,表明待识别文本中一定包含ENTi实体类型的实体,否则无法确认在待识别文本是否存在该实体类型。
假设处理设备针对ENT2,获取
Figure BDA0003532730520000183
的值为1,大于预设阈值0.5,获得第一识别实体集合{C2,C3}、第二识别实体集合{C2,C3}和第三识别实体集合{C2}出现的实体类型为ENT2,ENT3,则候选实体类型为ENT2,ENT3,得到的候选实体类型集合为{ENT2,ENT3}。
步骤352:处理设备分别针对每个候选实体类型,进行判别处理。
具体的,处理设备分别针对每个候选实体类型,对实体类型以及识别实体进行判别处理,获得实体识别结果。
参阅图11所示,在执行步骤352时,具体执行以下步骤:
步骤352-a:处理设备分别从第一识别实体集合、第二识别实体集合和第三识别实体集合中,选取出与一个候选实体类型关联的识别实体。
例如,假设处理设备分别从第一识别实体集合{C2,C3}、第二识别实体集合{C2,C3}和第三识别实体集合{C2}中,选取出与一个候选实体类型ENT2关联的识别实体为C2、C2、C2
步骤352-b:若处理设备确定选取的三个识别实体为同一识别实体,则将所述一个候选实体类型作为一个目标实体类型,并将同一识别实体作为实体识别结果。
例如,假设处理设备确定选取的三个识别实体C2、C2、C2为同一识别实体C2,则候选实体类型ENT2可以作为目标实体类型,将C2作为实体识别的结果。
步骤352-c:若处理设备确定选取的三个识别实体中,存在至少一个不相同的识别实体,则将一个候选实体类型作为一个非目标实体类型,并且确定三个识别实体不属于实体识别结果。
例如,假设处理设备针对ENT3获取
Figure BDA0003532730520000191
的值为0.2,小于预设阈值0.5,将候选实体类型ENT3作为一个非目标实体类型,并且非目标实体类型ENT3对应的实体C3不作为实体识别结果。
处理设备获得所述待识别结果之后,还包括:
若所述识别结果不包含任一识别实体,则处理设备将第二识别实体集合作为实体识别结果。
假设,例如,若所述待识别结果不包含任一识别实体,则处理设备将第二识别实体集合{C2,C3}作为实体识别结果,则待识别文本的实体识别结果具体为实体类型为ENT2的实体为C2,实体类型为ENT3的实体为C3
下文通过一种具体的实施例对本申请实施例提供的中文实体识别方法进行详细说明。
假设待识别文本为“《小二家旁的树》是一本书”,处理设备针对待识别文本“《小二家旁的树》是一本书”进行中文实体识别,具体的中文实体识别过程如下:
首先,处理设备需要对待识别文本“《小二家旁的树》是一本书”中的每个字符进行标注,获得标注标签。
例如,参阅图12所示,处理设备获得待识别文本的所有标注标签为:实体开始部分且实体类型为人名,实体其他部分且实体类型为人名,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,并将获得的所有标注标签作为一个标注序列{实体开始部分且实体类型为人名,实体其他部分且实体类型为人名,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分,不属于实体的部分}。
进一步地,处理设备根据标注序列,筛选出待识别文本“《小二家旁的树》是一本书”所有具有实体属性的字符,作为第一识别实体集合。
例如,参阅图13所示,处理设备根据标注序列,得到待识别文本“《小二家旁的树》是一本书”中的字符“小”为实体开始部分且实体类型为人名,字符“二”为实体其他部分且实体类型为人名,其余字符都对应不属于实体的部分,筛选出位于实体任意位置的字符“小”、“二”,则生成的第一识别实体集合为{小,二},并且第一识别实体“小”对应的第一实体类型为“人名”,第一识别实体“二”对应的第一实体类型为“人名”。
其次,处理设备针对待识别文本“《小二家旁的树》是一本书”,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合。
例如,参阅图14所示,处理设备确定待识别文本“《小二家旁的树》是一本书”属于历史文本集合{小二,小二家,小二家旁的树,《小二家旁的树》是一本书},并且根据历史文本集合,可以获得对应的历史文本标签集合{《小二家旁的树》是一本书对应的文本类别为“包含实体类型人名的文本”,《小二家旁的树》是一本书对应的文本类别为“包含实体类型书名的文本”},提取文本类别标签1“《小二家旁的树》是一本书对应的文本类别为“包含实体类型人名的文本””对应的第一文本类别为“包含实体类型人名的文本”,获得对应的第二实体类型为“人名”,提取文本类别标签2“《小二家旁的树》是一本书对应的文本类别为“包含实体类型书名的文本””对应的第一文本类别为“包含实体类型书名的文本”,获得对应的第二实体类型为“书名”,得到第一文本类别集合为{包含实体类型人名的文本,包含实体类型书名的文本}。
再次,处理设备按照预设的对应关系,将获得的各个第一实体类型“人名”分别转化为相应的第二文本类别,获得第二文本类别集合。
例如,参阅图15所示,处理设备将获得的第一实体类型“人名”转化为相应的第二文本类别为“包含实体类型人名的文本”,获得第二文本类别集合为{包含实体类型人名的文本}。
之后,处理设备分别对第一文本类别集合{包含实体类型人名的文本,包含实体类型书名的文本}中的两个第一文本类别,根据语句结构与待识别文本进行组合,得到两个第一子问题;处理设备对第二文本类别集合{包含实体类型人名的文本}中的第二文本类别,根据语句结构与待识别文本进行组合,得到一个第二子问题。
例如,参阅图16所示,处理设备分别对第一文本类别集合{包含实体类型人名的文本,包含实体类型书名的文本}中的两个第一文本类别包含实体类型人名的文本,包含实体类型书名的文本,根据语句结构与待识别文本进行组合,得到两个第一子问题,分别为“在《小二家旁的树》是一本书中找出包含实体类型人名的文本?”、“在《小二家旁的树》是一本书中找出包含实体类型书名的文本?”,获得第一子问题集合{在《小二家旁的树》是一本书中找出包含实体类型人名的文本?,在《小二家旁的树》是一本书中找出包含实体类型书名的文本?}。
参阅图17所示,处理设备对第二文本类别集合{包含实体类型人名的文本}中的第二文本类别包含实体类型人名的文本,根据语句结构与待识别文本进行组合,得到一个第二子问题,为“在《小二家旁的树》是一本书中找出包含实体类型人名的文本?”,获得第二子问题集合{在《小二家旁的树》是一本书中找出包含实体类型人名的文本?}。
进一步地,处理设备应用阅读理解模型,根据历史问答记录,分别确定待识别文本“《小二家旁的树》是一本书”中各个文本,各自与第一子问题集合中2个第一子问题的第一语义匹配度,并从待识别文本中筛选出,第一语义匹配度达到100%的第一目标文本,作为第一答案实体,获得第二识别实体集合;处理设备应用阅读理解模型,根据历史问答记录,分别确定待识别文本中各个文本,各自与第二子问题集合中1个第二子问题的第二语义匹配度,并从待识别文本中筛选出,第二语义匹配度达到100%的第二目标文本,作为第二答案实体,获得第三识别实体集合。
例如,参阅图18所示,处理设备应用阅读理解模型,分别确定待识别文本中的各个文本各自与第一子问题集合中两个子问题的第一语义匹配度,从待识别文本中筛选出与“在《小二家旁的树》是一本书中找出包含实体类型人名的文本?”的第一语义匹配度为100%的文本为小二,将“小二”作为第一答案实体,从待识别文本中筛选出与“在《小二家旁的树》是一本书中找出包含实体类型书名的文本?”的第一语义匹配度为100%的文本为小二家旁的树,将“小二家旁的树”作为第一答案实体,则得到的第二识别实体集合为{小二,小二家旁的树}。
参阅图19所示,处理设备应用阅读理解模型,确定待识别文本中的各个文本各自与第二子问题集合中第二子问题的第二语义匹配度,从待识别文本中筛选出与“在《小二家旁的树》是一本书中找出包含实体类型人名的文本?”的第一语义匹配度为100%的文本为小二,将“小二”作为第二答案实体,则得到的第三识别实体集合为{小二}。
最后,处理设备对第一识别实体集合{小,二},第二识别实体集合{小二,小二家旁的树},以及第三识别实体集合{小二},进行融合判别处理,获得待识别文本的实体识别结果。
例如,处理设备对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,选择实体类型为人名,则将实体类型人名在三个集合中对应的共同实体“小二”作为实体识别结果。
处理设备对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,选择实体类型为书名,而实体类型书名所对应的实体小二家旁的书仅出现在第二识别实体集合中,未在第一识别实体集合、第三识别实体集合中,则不能将小二家旁的树作为实体识别结果。
综上所述,待识别文本“《小二家旁的树》是一本书”的中文实体识别结果对应的实体为{小二},并且“小二”对应的实体类型为人名。
另一种情况下,当待识别结果为空时,将第二识别实体集合作为待识别文本的实体识别结果,则待识别文本“《小二家旁的树》是一本书”的中文实体识别结果对应的实体为{小二,小二家旁的树},并且“小二”对应的实体类型为人名,“小二家旁的树”对应的实体类型为书名。
参阅图20所示,本申请实施例提供一种中文实体识别装置,装置包括:第一获取模块2001,第二获取模块2002,转化模块2003,问答模块2004,融合模块2005。
第一获取模块2001,用于针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,其中,每个第一识别实体表征,待识别文本包含的具有实体属性的字符。
第二获取模块2002,用于针对待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,其中,每个第一文本类别表征,文本类别标签包含的第一文本类别和对应的第二实体类型。
转化模块2003,用于按照预设的对应关系,将获得的各个第一实体类型分别转化为相应的第二文本类别,获得第二文本类别集合。
问答模块2004,用于针对第一文本类别集合和第二文本类别集合,构造问题集合,针对问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合。
融合模块2005,用于对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果。
在一种可选的实施例中,针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,第一获取模块2001具体用于:
对待识别文本中的各个候选字符进行标注,分别获得各个候选字符的各个标注标签,每个标注标签用于表征相应的候选字符的实体属性和实体类型;
基于各个标注标签,从各个候选字符中,筛选出具有实体属性的目标字符,生成第一识别实体集合,其中,实体属性包括:位于实体的任意位置;
将各个目标字符对应的标注标签表征的相应实体类型,作为各个目标字符对应的第一实体类型。
在一种可选的实施例中,针对待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,第二获取模块2002具体用于:
按照预设的映射关系,对待识别文本中的整体文本进行文本类别标签的标注,获得整体文本对应的至少一个文本类别标签;
基于至少一个文本类别标签各自对应的第一文本类别,生成第一文本类别集合,每个第一文本类别用于表征整体文本对应的一种第二实体类型。
在一种可选的实施例中,获取预设的映射关系,第一获取模块2001还用于:
基于历史文本集合,分别获取各个历史文本对应的历史文本类别标签;
基于语义相似度,对各个历史文本进行聚类,获得多个历史文本集合,其中,归属于同一历史文本集合的各个历史文本之间的语义相似度达到设定阈值;
针对每个历史文本集合,执行以下操作:
基于一个历史文本集合包含的各个历史文本各自对应的历史文本类别标签,生成相应的历史文本类别标签集合;
分别在获得的一个历史文本集合包含的各个历史文本,与历史文本类别标签集合之间,建立映射关系。
在一种可选的实施例中,针对第一文本类别集合和第二文本类别集合,构造问题集合,问答模块2004具体用于:
分别将第一文本类别集合中的各个第一文本类别,基于语句结构与待识别文本进行组合,获得相应的第一子问题,生成第一子问题集合;
分别将第二文本类别集合中的各个第二文本类别,基于语句结构与待识别文本进行组合,获得相应的第二子问题,生成第二子问题集合;
将第一子问题集合和第二子问题集合,进行组合,生成问题集合。
在一种可选的实施例中,针对问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合,问答模块2004还用于:
根据历史问答记录,分别确定待识别文本中各个文本,各自与第一子问题集合中各个第一子问题的第一语义匹配度,并从待识别文本中筛选出,第一语义匹配度达到设定问答阈值的第一目标文本,作为第一答案实体,获得第二识别实体集合;
根据历史问答记录,分别确定待识别文本中各个文本,各自与第二子问题集合中各个第二子问题的第二语义匹配度,并从待识别文本中筛选出,第二语义匹配度达到设定问答阈值的第二目标文本,作为第二答案实体,获得第三识别实体集合。
在一种可选的实施例中,在对第一识别实体集合,第二识别实体集合,以及第三识别实体集合,进行融合判别处理,获得待识别文本的实体识别结果时,融合模块2005具体用于:
基于第一识别实体集合、第二识别实体集合和第三识别实体集合出现的实体类型,获得候选实体类型集合;
分别针对每个候选实体类型,执行以下操作:
分别从第一识别实体集合、第二识别实体集合和第三识别实体集合中,选取出与一个候选实体类型关联的识别实体;
若确定选取的三个识别实体为同一识别实体,则将一个候选实体类型作为一个目标实体类型,并将同一识别实体作为实体识别结果;
若确定选取的三个识别实体中,存在至少一个不相同的识别实体,则将一个候选实体类型作为一个非目标实体类型,并且确定三个识别实体不属于实体识别结果。
在一种可选的实施例中,获得待识别结果之后,融合模块2005还用于:
若识别结果不包含任一识别实体,则将第二识别实体集合作为实体识别结果。
与上述申请实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,该电子设备可以用于中文实体识别。在一种实施例中,该电子设备可以是服务器,也可以是终端设备或其他电子设备。在该实施例中,电子设备的结构可以如图21所示,包括存储器2101,通讯接口2103以及一个或多个处理器2102。
存储器2101,用于存储处理器2102执行的计算机程序。存储器2101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器2101可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器2101也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器2101是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器2101可以是上述存储器的组合。
处理器2102,可以包括一个或多个中央处理单元(Central Processing Unit,CPU)或者为数字处理单元等。处理器2102,用于调用存储器2101中存储的计算机程序时实现上述中文实体识别方法。
通讯接口2103用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器2101、通讯接口2103和处理器2102之间的具体连接介质。本申请实施例在图21中以存储器2101和处理器2102之间通过总线2104连接,总线2104在图21中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线2104可以分为地址总线、数据总线、控制总线等。为便于表示,图21中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
基于同一发明构思,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的任一种中文实体识别方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
基于同一发明构思,本申请实施例提供还提供了一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行如第一方面所述的方法。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列用户操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (19)

1.一种中文实体识别方法,其特征在于,包括:
针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,其中,每个第一识别实体表征,所述待识别文本包含的具有实体属性的字符;
针对所述待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,其中,每个第一文本类别表征,所述文本类别标签包含的第一文本类别和对应的第二实体类型;
按照预设的对应关系,将获得的各个第一实体类型分别转化为相应的第二文本类别,获得第二文本类别集合;
针对所述第一文本类别集合和所述第二文本类别集合,构造问题集合,针对所述问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合;
对所述第一识别实体集合,所述第二识别实体集合,以及所述第三识别实体集合,进行融合判别处理,获得所述待识别文本的实体识别结果。
2.如权利要求1所述的方法,其特征在于,所述针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,包括:
对所述待识别文本中的各个候选字符进行标注,分别获得所述各个候选字符的各个标注标签,每个标注标签用于表征相应的候选字符的实体属性和实体类型;
基于所述各个标注标签,从所述各个候选字符中,筛选出具有实体属性的目标字符,生成所述第一识别实体集合,其中,所述实体属性包括:位于实体的任意位置;
将所述各个目标字符对应的标注标签表征的相应实体类型,作为所述各个目标字符对应的第一实体类型。
3.如权利要求1所述的方法,其特征在于,所述针对所述待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,包括:
按照预设的映射关系,对所述待识别文本中的整体文本进行文本类别标签的标注,获得所述整体文本对应的至少一个文本类别标签;
基于所述至少一个文本类别标签各自对应的第一文本类别,生成所述第一文本类别集合,每个第一文本类别用于表征所述整体文本对应的一种第二实体类型。
4.如权利要求1、2或3所述的方法,其特征在于,获取所述预设的映射关系,包括:
基于历史文本集合,分别获取各个历史文本对应的历史文本类别标签;
基于语义相似度,对所述各个历史文本进行聚类,获得多个历史文本集合,其中,归属于同一历史文本集合的各个历史文本之间的语义相似度达到设定阈值;
针对每个历史文本集合,执行以下操作:
基于一个历史文本集合包含的各个历史文本各自对应的历史文本类别标签,生成相应的历史文本类别标签集合;
分别在获得的所述一个历史文本集合包含的各个历史文本,与所述历史文本类别标签集合之间,建立映射关系。
5.如权利要求1、2或3所述的方法,其特征在于,所述针对所述第一文本类别集合和所述第二文本类别集合,构造问题集合,包括:
分别将所述第一文本类别集合中的各个第一文本类别,基于语句结构与所述待识别文本进行组合,获得相应的第一子问题,生成第一子问题集合;
分别将所述第二文本类别集合中的各个第二文本类别,基于所述语句结构与所述待识别文本进行组合,获得相应的第二子问题,生成第二子问题集合;
将所述第一子问题集合和所述第二子问题集合,进行组合,生成所述问题集合。
6.如权利要求5所述的方法,其特征在于,所述针对所述问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合,包括:
根据历史问答记录,分别确定所述待识别文本中各个文本,各自与所述第一子问题集合中各个第一子问题的第一语义匹配度,并从所述待识别文本中筛选出,所述第一语义匹配度达到设定问答阈值的第一目标文本,作为第一答案实体,获得第二识别实体集合;
根据所述历史问答记录,分别确定所述待识别文本中各个文本,各自与所述第二子问题集合中各个第二子问题的第二语义匹配度,并从所述待识别文本中筛选出,所述第二语义匹配度达到所述设定问答阈值的第二目标文本,作为第二答案实体,获得第三识别实体集合。
7.如权利要求1、2或3所述的方法,其特征在于,在所述对所述第一识别实体集合,所述第二识别实体集合,以及所述第三识别实体集合,进行融合判别处理,获得所述待识别文本的实体识别结果时,包括:
基于所述第一识别实体集合、所述第二识别实体集合和所述第三识别实体集合出现的实体类型,获得候选实体类型集合;
分别针对每个候选实体类型,执行以下操作:
分别从所述第一识别实体集合、所述第二识别实体集合和所述第三识别实体集合中,选取出与一个候选实体类型关联的识别实体;
若确定选取的三个识别实体为同一识别实体,则将所述一个候选实体类型作为一个目标实体类型,并将所述同一识别实体作为所述实体识别结果;
若确定选取的三个识别实体中,存在至少一个不相同的识别实体,则将所述一个候选实体类型作为一个非目标实体类型,并且确定所述三个识别实体不属于所述实体识别结果。
8.如权利要求7所述的方法,其特征在于,获得所述待识别结果之后,还包括:
若所述识别结果不包含任一识别实体,则将所述第二识别实体集合作为所述实体识别结果。
9.一种中文实体识别装置,其特征在于,包括:
第一获取模块,用于针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,其中,每个第一识别实体表征,所述待识别文本包含的具有实体属性的字符;
第二获取模块,用于针对所述待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,其中,每个第一文本类别表征,所述文本类别标签包含的第一文本类别和对应的第二实体类型;
转化模块,用于按照预设的对应关系,将获得的各个第一实体类型分别转化为相应的第二文本类别,获得第二文本类别集合;
问答模块,用于针对所述第一文本类别集合和所述第二文本类别集合,构造问题集合,针对所述问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合;
融合模块,用于对所述第一识别实体集合,所述第二识别实体集合,以及所述第三识别实体集合,进行融合判别处理,获得所述待识别文本的实体识别结果。
10.如权利要求9所述的装置,其特征在于,所述针对待识别文本进行字符标注,获得第一识别实体集合以及每个第一识别实体对应的第一实体类型,包括:
对所述待识别文本中的各个候选字符进行标注,分别获得所述各个候选字符的各个标注标签,每个标注标签用于表征相应的候选字符的实体属性和实体类型;
基于所述各个标注标签,从所述各个候选字符中,筛选出具有实体属性的目标字符,生成所述第一识别实体集合,其中,所述实体属性包括:位于实体的任意位置;
将所述各个目标字符对应的标注标签表征的相应实体类型,作为所述各个目标字符对应的第一实体类型。
11.如权利要求9所述的装置,其特征在于,所述针对所述待识别文本,按照预设的映射关系,标注文本类别标签,获得第一文本类别集合,包括:
按照预设的映射关系,对所述待识别文本中的整体文本进行文本类别标签的标注,获得所述整体文本对应的至少一个文本类别标签;
基于所述至少一个文本类别标签各自对应的第一文本类别,生成所述第一文本类别集合,每个第一文本类别用于表征所述整体文本对应的一种第二实体类型。
12.如权利要求9、10或11所述的装置,其特征在于,获取所述预设的映射关系,包括:
基于历史文本集合,分别获取各个历史文本对应的历史文本类别标签;
基于语义相似度,对所述各个历史文本进行聚类,获得多个历史文本集合,其中,归属于同一历史文本集合的各个历史文本之间的语义相似度达到设定阈值;
针对每个历史文本集合,执行以下操作:
基于一个历史文本集合包含的各个历史文本各自对应的历史文本类别标签,生成相应的历史文本类别标签集合;
分别在获得的所述一个历史文本集合包含的各个历史文本,与所述历史文本类别标签集合之间,建立映射关系。
13.如权利要求9、10或11所述的装置,其特征在于,所述针对所述第一文本类别集合和所述第二文本类别集合,构造问题集合,包括:
分别将所述第一文本类别集合中的各个第一文本类别,基于语句结构与所述待识别文本进行组合,获得相应的第一子问题,生成第一子问题集合;
分别将所述第二文本类别集合中的各个第二文本类别,基于所述语句结构与所述待识别文本进行组合,获得相应的第二子问题,生成第二子问题集合;
将所述第一子问题集合和所述第二子问题集合,进行组合,生成所述问题集合。
14.如权利要求13所述的装置,其特征在于,所述针对所述问题集合,进行信息匹配的问答处理,分别获得包含答案实体的第二识别实体集合和第三识别实体集合,包括:
根据历史问答记录,分别确定所述待识别文本中各个文本,各自与所述第一子问题集合中各个第一子问题的第一语义匹配度,并从所述待识别文本中筛选出,所述第一语义匹配度达到设定问答阈值的第一目标文本,作为第一答案实体,获得第二识别实体集合;
根据所述历史问答记录,分别确定所述待识别文本中各个文本,各自与所述第二子问题集合中各个第二子问题的第二语义匹配度,并从所述待识别文本中筛选出,所述第二语义匹配度达到所述设定问答阈值的第二目标文本,作为第二答案实体,获得第三识别实体集合。
15.如权利要求9、10或11所述的装置,其特征在于,在所述对所述第一识别实体集合,所述第二识别实体集合,以及所述第三识别实体集合,进行融合判别处理,获得所述待识别文本的实体识别结果时,包括:
基于所述第一识别实体集合、所述第二识别实体集合和所述第三识别实体集合出现的实体类型,获得候选实体类型集合;
分别针对每个候选实体类型,执行以下操作:
分别从所述第一识别实体集合、所述第二识别实体集合和所述第三识别实体集合中,选取出与一个候选实体类型关联的识别实体;
若确定选取的三个识别实体为同一识别实体,则将所述一个候选实体类型作为一个目标实体类型,并将所述同一识别实体作为所述实体识别结果;
若确定选取的三个识别实体中,存在至少一个不相同的识别实体,则将所述一个候选实体类型作为一个非目标实体类型,并且确定所述三个识别实体不属于所述实体识别结果。
16.如权利要求15所述的装置,其特征在于,获得所述待识别结果之后,还包括:
若所述识别结果不包含任一识别实体,则将所述第二识别实体集合作为所述实体识别结果。
17.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-8中任一项所述的方法包括的步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求1-8中任一项所述的方法。
CN202210209799.XA 2022-03-04 2022-03-04 一种中文实体识别方法、装置、设备及介质 Pending CN114580420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210209799.XA CN114580420A (zh) 2022-03-04 2022-03-04 一种中文实体识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210209799.XA CN114580420A (zh) 2022-03-04 2022-03-04 一种中文实体识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114580420A true CN114580420A (zh) 2022-06-03

Family

ID=81773759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210209799.XA Pending CN114580420A (zh) 2022-03-04 2022-03-04 一种中文实体识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114580420A (zh)

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
WO2018032937A1 (zh) 一种文本信息分类方法及其装置
CN111125354A (zh) 文本分类方法及装置
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN114330475A (zh) 内容匹配方法、装置、设备、存储介质及计算机程序产品
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN110610180A (zh) 错别字词识别集的生成方法、装置、设备及存储介质
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
CN114240672A (zh) 绿色资产的占比的识别方法及相关产品
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN112613367A (zh) 票据信息文本框获取方法、系统、设备及存储介质
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN116701637A (zh) 一种基于clip的零样本文本分类方法、系统及介质
CN110852103A (zh) 一种命名实体识别方法及装置
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
CN115525761A (zh) 一种文章关键词筛选类别的方法、装置、设备及存储介质
CN114580420A (zh) 一种中文实体识别方法、装置、设备及介质
CN115496830A (zh) 产品需求流程图的生成方法及装置
CN115294594A (zh) 文档分析方法、装置、设备及存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113902404A (zh) 基于人工智能的员工晋升分析方法、装置、设备及介质
CN113869068A (zh) 场景服务推荐方法、装置、设备及存储介质
CN110909737A (zh) 图片文字识别方法及系统
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination