CN111898382A - 一种命名实体识别方法、装置和用于命名实体识别的装置 - Google Patents

一种命名实体识别方法、装置和用于命名实体识别的装置 Download PDF

Info

Publication number
CN111898382A
CN111898382A CN202010614432.7A CN202010614432A CN111898382A CN 111898382 A CN111898382 A CN 111898382A CN 202010614432 A CN202010614432 A CN 202010614432A CN 111898382 A CN111898382 A CN 111898382A
Authority
CN
China
Prior art keywords
entity
template
text
words
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010614432.7A
Other languages
English (en)
Inventor
赵海舟
李程远
李昌杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010614432.7A priority Critical patent/CN111898382A/zh
Publication of CN111898382A publication Critical patent/CN111898382A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种命名实体识别方法、装置和用于命名实体识别的装置。其中的方法包括:识别目标文本中的主体词和表现词;对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。本申请实施例可以提高实体识别的全面性和准确性,进而可以提高搜索结果的准确性和召回率。

Description

一种命名实体识别方法、装置和用于命名实体识别的装置
技术领域
本申请涉及网络技术领域,尤其涉及一种命名实体识别方法、装置和用于命名实体识别的装置。
背景技术
命名实体识别是指识别文本中具有特定意义的实体,命名实体识别是自然语言处理和信息检索中一项基础任务。
传统的命名实体识别方法主要分为基于规则词典的方法和基于统计模型的方法。基于规则词典的方法主要通过构建线下大规模的实体词典以字符串匹配的方式来进行识别。基于统计模型的方法主要是通过构建统计模型,利用人工标注的训练语料来训练模型从而进行识别。
然而,对于医疗类实体,传统的命名实体识别方法的识别结果不够准确。例如,用户在检索系统中输入查询信息(query)为如下文本:“我昨天腹部瘙痒有点疼是怎么回事?”,检索系统通过命名实体识别任务可以从该文本中识别出实体“腹部瘙痒”和实体“疼痛”。但是,该文本实际包含的实体应该是“腹部瘙痒”和“腹部疼痛”,进而影响后续搜索结果的准确性。
发明内容
本申请实施例提供一种命名实体识别方法、装置和用于命名实体识别的装置,可以提高识别医疗类实体的准确性。
为了解决上述问题,本申请实施例公开了一种命名实体识别方法,所述方法包括:
识别目标文本中的主体词和表现词;
对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
另一方面,本申请实施例公开了一种命名实体识别装置,所述装置包括:
识别模块,用于识别目标文本中的主体词和表现词;
拼接模块,用于对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
匹配模块,用于对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
确定模块,用于根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
再一方面,本申请实施例公开了一种用于命名实体识别的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
识别目标文本中的主体词和表现词;
对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
又一方面,本申请实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的命名实体识别方法。
本申请实施例包括以下优点:
本申请实施例定义了主体词和表现词的概念,并且识别目标文本中的主体词和表现词,基于目标文本中的主体词和表现词可能的组合,与预定义的实体模板集合进行匹配,能够有效地对包含至少一个主体词以及至少一个表现词的文本片段进行实体识别。例如,在医疗类实体的识别场景中,对于目标文本“腹部瘙痒有点疼”,本申请实施例识别得到的命名实体识别结果包括标准实体“腹部瘙痒”和标准实体“腹部疼痛”,可以提高实体识别的全面性和准确性,进而可以提高搜索结果的准确性和召回率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一种命名实体识别方法实施例的步骤流程图;
图2是本申请的一种命名实体识别装置实施例的结构框图;
图3是本申请的一种用于命名实体识别的装置800的框图;
图4是本申请的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例
参照图1,示出了本申请的一种命名实体识别方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、识别目标文本中的主体词和表现词;
步骤102、对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
步骤103、对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
步骤104、根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
本申请实施例提供的命名实体识别方法可应用于电子设备,所述电子设备包括但不限于:服务器、智能手机、录音笔、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
本申请的命名实体识别方法可用于信息检索场景,电子设备可以接收用户在检索系统中输入的查询信息,检索系统根据一定的检索策略,返回与该查询信息相关的搜索结果。具体地,首先对用户输入的查询信息进行实体片段识别,得到目标文本,所述目标文本指包含实体的文本片段,本申请实施例称为实体文本片段。一个示例中,查询信息为“我昨天腹部瘙痒有点疼是怎么回事?”,对该查询信息进行实体片段识别,可以得到目标文本为“腹部瘙痒有点疼”。然后再通过本申请的命名实体识别方法识别该目标文本中的实体。例如,最终识别得到该目标文本的实体包括:“腹部瘙痒”和“腹部疼痛”。最后,依据识别得到的实体“腹部瘙痒”和实体“腹部疼痛”进行检索,可以得到更精准的网页搜索结果和/或知识库搜索结果。
需要说明的是,本申请实施例对所述查询信息的具体类型不加以限制。所述查询信息可以为文本信息或者语音信息等。当所述查询信息为文本信息时,可以对该文本信息进行语义分析,识别该文本信息中的目标文本(实体文本片段);当所述查询信息为语音信息时,可对该语音信息进行语音识别以得到对应的文本信息,再对该文本信息进行语义分析,识别该文本信息中的目标文本。
为解决传统的命名实体识别方法对医疗类实体的识别不够准确的问题,本申请实施例依据医疗类实体的特点,对医疗类实体进行拆分并定义主体词和表现词的概念。主体词指用于描述实体对象的词。表现词指用于描述实体对象的相关状态的词,所述相关状态可以包括:感受、症状、特性等。可选地,所述主体词可以包括如下任意一种或多种:身体部位、分泌生长物、排泄物等,所述表现词可以包括如下任意一种或多种:生长、发胀、发痒、疼痛、味道、颜色、形状等。
其中,医疗类实体可以包括:症状类实体、疾病类实体、手术类实体、药品类实体等。本申请实施例主要以症状类实体为例进行说明。例如,“腹部瘙痒”、“左臂疼痛”均为症状类实体。其中,“腹部”和“左臂”为主体词,“瘙痒”和“疼痛”为表现词。
可以理解,本申请提供的命名实体识别方法并不限于识别医疗类实体,本申请实施例可用于识别同时包含主体词和表现词的任意类型的实体,如商品类实体。一个示例中,对于商品类实体“短袖连衣裙”,该实体中的主体词为“连衣裙”,表现词为“短袖”。
基于定义的主体词和表现词的概念,本申请实施例在对目标文本进行实体识别的过程中,考虑到目标文本中主体词和表现词可能的组合情况,使得识别结果更加全面、准确,进而可以提升搜索结果的准确性和召回率。
在本申请的一种可选实施例中,步骤101所述识别目标文本中的主体词和表现词之前,所述方法还可以包括:
构建特征词典,所述特征词典中包括预置的特征词,所述预置的特征词包括第一数量类别的主体词和第二数量类别的表现词;
步骤101所述识别目标文本中的主体词和表现词,可以包括:
基于所述特征词典,识别目标文本中的主体词和表现词。
在执行命名实体识别任务之前,本申请实施例首先构建特征词典,特征词典用于识别目标文本中的主体词和表现词。所述特征词典中包括预置的特征词,所述预置的特征词包括第一数量类别的主体词和第二数量类别的表现词。对所述目标文本中的分词与所述特征词典中的特征词进行匹配,即可识别目标文本中的主体词和表现词。
在本申请的一种可选实施例中,所述构建特征词典,可以包括:
步骤S11、收集语料数据;
步骤S12、在所述语料数据中,提取第一数量类别的主体词以及第二数量类别的表现词;
步骤S13、根据所述第一数量类别的主体词以及第二数量类别的表现词,构建特征词典。
本申请实施例基于收集的语料数据,构建特征词典。收集的语料数据可以包括医疗相关的网页(如用户咨询、专家文章、百科等)以及结构化的知识库(如知识图谱)等。对收集的语料数据进行语义分析,提取第一数量(如N个)类别的主体词以及第二数量(如M个)类别的表现词。其中,主体词的类别可以包括:身体部位、分泌生长物、排泄物等。表现词的类别可以包括:生长、发胀、发痒、疼痛、味道、颜色、形状等。
一个示例中,身体部位类别的主体词可以包括:腹部、头部、皮肤等。分泌生长物类别的主体词可以包括:白带、脓包、粘液等。排泄物类别的主体词可以包括:小便、大便等。颜色类别的表现词可以包括:发红、变紫等。性状类别的表现词可以包括:浠水、粘稠等。
根据挖掘的第一数量类别的主体词以及第二数量类别的表现词,构建特征词典。基于构建的特征词典,可以识别目标文本中的主体词和表现词。
在本申请的一种可选实施例中,所述特征词典中还包括每个特征词对应的同义词;所述基于所述特征词典,识别目标文本中的主体词和表现词,可以包括:
步骤S21、对所述目标文本与所述特征词典进行匹配,得到命中的特征词和/或命中的同义词;
步骤S22、根据所述命中的特征词和/或所述命中的同义词对应的特征词,确定所述目标文本中的主体词和表现词。
在具体实施中,基于构建的特征词典,可以匹配目标文本中的主体词和表现词。然而,在实际应用中,用户输入的查询信息并不规范。例如,目标文本为“脑袋有炸裂的感觉还有点晕”,对于该目标文本则难以匹配其中的主体词和表现词。
为解决上述问题,本申请实施例在特征词典中设置有每个特征词对应的同义词。具体地,特征词典中的每个主体词可以对应有多个同义词,每个表现词也可以对应有多个同义词。根据主体词与其同义词的对应关系,以及表现词与其同义词的对应关系,可以将目标文本中不规范的主体词和表现词的描述转换为统一的规范化描述。
一个示例中,特征词典中包含主体词“头部”以及主体词“头部”对应的如下同义词:“头”、“脑袋”、“脑壳”等。特征词典中还包含表现词“疼痛”以及表现词“疼痛”对应的如下同义词:“炸裂的感觉”、“刀割似的”等。对于上述目标文本“脑袋有炸裂的感觉还有点晕”,首先进行分词得到分词集合,对分词集合与特征词典进行匹配,可以得到命中的特征词包括“晕”,以及命中的同义词包括“脑袋”和“炸裂的感觉”。
其中,命中的特征词“晕”为表现词;命中的同义词“脑袋”对应的特征词为“头部”,为主体词;命中的同义词“炸裂的感觉”对应的特征词为“疼痛”,为表现词。因此,基于特征词典,识别得到目标文本“脑袋有炸裂的感觉还有点晕”中的主体词包括“头部”,表现词包括“疼痛”和“晕”。
对于医疗类实体,通常存在某一个主体词与多个表现词相关的情况。例如,在上述示例中,主体词“头部”与表现词“疼痛”和表现词“晕”均相关,也即,用户的真实症状表现应该是“头痛”并且“头晕”。因此,为了使得实体识别结果更加全面、准确,本申请实施例在识别目标文本中的主体词和表现词之后,对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合,所述候选文本集合中的每个候选文本均包含主体词和表现词。在该示例中,对主体词“头部”分别和表现词“疼痛”、表现词“晕”进行拼接组合,可以得到如下两个候选文本:“头部疼痛”和“头部晕”,这两个候选文本可以构成目标文本“脑袋有炸裂的感觉还有点晕”的候选文本集合。
在本申请的一种可选实施例中,步骤102所述对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合,可以包括:
步骤S31、按照所述目标文本中的主体词和表现词在所述目标文本中出现的顺序,将所述目标文本中的主体词和表现词划分为至少一个候选组,每个候选组中包含一个主体词和至少一个表现词,且每个候选组的第一个词为主体词,最后一个词为表现词;
步骤S32、对于待拼接的当前候选组,将所述当前候选组中的主体词分别与所述当前候选组中的各表现词进行拼接,得到所述当前候选组对应的候选文本;
步骤S33、根据所述每个候选组对应的候选文本,得到候选文本集合。
对于目标文本中识别出的n个主体词A1,A2,…,An以及m个表现词B1,B2,…,Bm,按照该n个主体词和m个表现词在该目标文本中出现的顺序,划分为至少一个候选组。其中,每个候选组中包含一个主体词和至少一个表现词,且每个候选组的第一个词为主体词,最后一个词为表现词。也即,每个候选组可以表示为如下形式:[主体词][表现词]…[表现词]。
一个示例中,目标文本为“腹部左边有点瘙痒还长了白色疹子”。基于特征词典,识别出该目标文本中的主体词包括“腹部”,主体词的数量n=1,表现词包括“瘙痒”、“长了”、“白色”、“疹子”,表现词的数量m=4。由于主体词的数量为1,因此,可以划分为1个候选组,该候选组可以表示为:{[腹部][瘙痒][长了][白色][疹子]}。对于该候选组,将该候选组中的主体词分别与该候选组中的各表现词进行拼接,可以得到如下候选文本:“腹部瘙痒”、“腹部疹子”、“腹部长了”、“腹部白色”、“腹部长了疹子”、“腹部白色疹子”、“腹部长了白色疹子”、“腹部长了白色”、“腹部瘙痒白色”等。这些候选文本即构成目标文本“腹部左边有点瘙痒还长了白色疹子”对应的候选文本集合。
可选地,在得到目标文本对应的候选文本集合之后,还可以对候选文本集合中的各候选文本进行语义分析,过滤掉其中不合理的候选文本。例如,在上述示例中,对目标文本“腹部左边有点瘙痒还长了白色疹子”对应的候选文本集合中的各候选文本进行语义分析,可以过滤掉“腹部长了”、“腹部白色”、“腹部长了白色”、“腹部瘙痒白色”等不合理的候选文本。过滤后得到的候选文本集合包括如下候选文本:“腹部瘙痒”、“腹部疹子”、“腹部长了疹子”、“腹部长了白色疹子”。
进一步的,考虑到表现词数目太多时,会对匹配和归一化带来困难,可以考虑对拼接组合时每个候选文本中包括的表现词的数目进行限定。例如,设定每个候选文本中包括的表现词的数目为2个,则结合上述示例,可以过滤去候选文本“腹部长了白色疹子”。当然,在实际应用中,对每个候选文本中包括的表现词的数目的取值并不做具体限定。
另一个示例中,目标文本为“肚子有点痛,腰又酸又痛”,基于特征词典以及同义词替换,识别出该目标文本中的主体词包括“腹部”和“腰”,主体词的数量n=2,表现词包括“痛”、“酸”、“痛”,表现词的数量m=3。由于主体词的数量为2。因此,可以划分为2个候选组,第1个候选组可以表示为:{[腹部][痛]}。第2个候选组可以表示为:{[腰][酸][痛]}。对于第1个候选组,可以拼接组合得到如下1个候选文本:“腹部痛”。对于第2个候选组,可以拼接组合得到如下2个候选文本:“腰酸”和“腰痛”。这3个候选文本即构成目标文本“肚子有点痛,腰又酸又痛”对应的候选文本集合。
在实际应用中,不同用户可能会采用不同的文本来描述含义相同的某个实体。例如,“腹部左侧瘙痒”和“腹部皮肤瘙痒”表示了相同的含义,即“腹部瘙痒”。本申请实施例在拼接组合得到候选文本集合之后,对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,以对候选文本进行归一化处理,得到最终统一的、规范化的识别结果。
所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体。所述标准实体用于将异名同义的实体表述归一到统一标准的实体表述。对于医疗类实体的识别场景,标准实体可以为预定义的标准的症状实体,标准实体可以来源于权威的医疗文本数据(如电子病历、医学文献等)。此外,对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,还可以过滤掉候选文本集合中无意义的候选文本,例如,在上述示例中,可以过滤掉“腹部长了”、“腹部白色”、“腹部长了白色”、“腹部瘙痒白色”等无意义的候选文本。
在本申请的一种可选实施例中,所述实体模板集合中的每个实体模板可以包括如下模板元素:主体词、表现词、以及通配符,所述模板元素是基于标准实体与实体文本段的映射关系语料提取得到的。
在本申请实施例中,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,所述实体模板可以表示为由至少一个模板元素构成的有序序列,每个模板组对应一个标准实体。
一个示例中,标准实体A为“腹部瘙痒”,在所述实体模板集合中包括标准实体A对应的实体模板组,该实体模板组中可以包括如下4个实体模板:({腹部皮肤})*({瘙痒})、({腹部})*({会})*({瘙痒})、({腹部})*({瘙痒})、({腹部皮肤})*({上侧})*({瘙痒})。另一个示例中,标准实体B为“腹部皮疹”,在所述实体模板集合中包括标准实体B对应的实体模板组,该实体模板组中可以包括如下2个实体模板:({腹部})*({长})*({疹子})、({腹部})*({疹子})。其中,*表示通配符,通配符可以与任何词汇相匹配。在具体实施中,可以设置通配符需匹配的最少词汇数量和最多词汇数量。例如,通配符可以表示为“{0,5}”,表示该通配符最少匹配0个词汇,最多匹配5个词汇。通配符的最少词汇数量和最多词汇数量可以根据实际情况来设定。
在本申请实施例中,所述模板元素是基于标准实体与实体文本段的映射关系语料提取得到的。本申请实施例可以预先定义标准实体,并且收集每个标准实体对应的一组实体文本段。这一组实体文本段具有不同的文本描述方式,但是具有相同的实体含义,也即均对应同一个标准实体。
依据特征词典,识别每个标准实体中的主体词和表现词,以及识别每个标准实体对应的每个实体文本段中的主体词、表现词、以及同义词,进而可以挖掘每个标准实体对应的实体模板组。一个示例中,标准实体A为“腹部瘙痒”,其中包括主体词“腹部”和表现词“瘙痒”。标准实体A对应的其中一个实体文本段为“肚皮瘙痒”,基于特征词典,识别出“肚皮”为主体词“腹部皮肤”的同义词。因此,该实体文本段可以转换为“腹部皮肤瘙痒”,由此,可以挖掘出标准实体A对应的一个实体模板为({腹部皮肤})*({瘙痒})。
在本申请的一种可选实施例中,步骤103所述对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,可以包括:
步骤S41、对所述候选文本集合中的每个候选文本与预定义的实体模板集合中的各实体模板分别进行模糊匹配,得到所述每个候选文本与所述各实体模板的匹配置信度;
步骤S42、确定所述匹配置信度大于预设阈值的实体模板为目标实体模板。
具体地,假设候选文本集合中包含q个候选文本,则将q个候选文本分别与预定义的实体模板集合中的各实体模板进行模糊匹配。例如,对每个候选文本中的分词与各实体模板中的模板元素进行逐个匹配,计算每个候选文本与各实体模板的匹配置信度。其中,匹配置信度可以由实体模板中的模板元素与候选文本中的分词的重合度表示。
符合匹配条件指匹配置信度大于预设阈值,本申请实施例选择匹配置信度大于预设阈值的实体模板为目标实体模板。对于候选文本集合中的q段候选文本,可以得到p个目标实体模板,p<=q。
在具体实施中,如果将候选文本集合中的每个候选文本分别与预定义的实体模板集合中的所有实体模板逐一进行匹配,可以得到最准确的匹配结果。然而,候选文本集合中通常包含大量的实体模板,全量匹配将导致大量的无效匹配,不仅计算成本较高,并且影响匹配的效率。
在本申请的一种可选实施例中,步骤103中所述对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,可以包括:
步骤S51、对于所述候选文本集合中待匹配的当前候选文本,在所述预定义的实体模板集合中确定待匹配的实体模板,所述待匹配的实体模板中包含与所述当前候选文本中相同的主体词和/或表现词;
步骤S52、对所述候选文本集合中的每个候选文本分别与其对应的待匹配的实体模板进行匹配。
为了均衡匹配的效率和匹配的准确性,本申请实施例对所述候选文本集合中待匹配的当前候选文本,在预定义的实体模板集合中确定待匹配的实体模板,所述待匹配的实体模板中包含与所述当前候选文本中相同的主体词和/或表现词。
一个示例中,待匹配的当前候选文本为“腹部皮肤瘙痒”,该当前候选文本中包括主体词“腹部皮肤”和表现词“瘙痒”。首先可以在预定义的实体模板集合中确定如下待匹配的实体模板:包含主体词“腹部皮肤”的所有实体模板、包含表现词“瘙痒”的所有实体模板、以及同时包含主体词“腹部皮肤”和表现词“瘙痒”的所有实体模板。然后对该当前候选文本“腹部皮肤瘙痒”与上述待匹配的实体模板逐个进行匹配,计算该当前候选文本与每个待匹配的实体模板的匹配置信度,将匹配置信度大于预设阈值的待匹配的实体模板作为该当前候选文本对应的符合匹配条件的目标实体模板。例如,当前候选文本“腹部皮肤瘙痒”与实体模板“({腹部皮肤})*({瘙痒})”的匹配置信度大于预设阈值,则“({腹部皮肤})*({瘙痒})”为候选文本“腹部皮肤瘙痒”对应的符合匹配条件的目标实体模板。
在得到符合匹配条件的目标实体模板之后,可以确定该目标实体模板所属的模板组,进而可以根据标准实体与模板组之间的对应关系,确定该目标实体模板所属模板组对应的标准实体,根据该目标实体模板所属模板组对应的标准实体,可以确定该目标文本对应的命名实体识别结果。例如,候选文本“腹部皮肤瘙痒”对应的目标实体模板为“({腹部皮肤})*({瘙痒})”,而目标实体模板“({腹部皮肤})*({瘙痒})”为标准实体“腹部瘙痒”对应模板组中的实体模板,则可以确定候选文本“腹部皮肤瘙痒”对应的目标文本的命名实体识别结果可以包括标准实体“腹部瘙痒”。
在本申请实施例中,所述命名实体识别结果可以包含至少一个标准实体。一个示例中,对于目标文本“腹部左边有点瘙痒还长了白色疹子”,该目标文本对应的候选文本集合可以包括如下候选文本:“腹部瘙痒”、“腹部疹子”、“腹部长了疹子”、“腹部长了白色疹子”。其中,候选文本“腹部瘙痒”对应的目标实体模板为“({腹部})*({瘙痒})”,目标实体模板“({腹部})*({瘙痒})”对应的标准实体为“腹部瘙痒”,则可以得到该目标文本“腹部左边有点瘙痒还长了白色疹子”的命名实体识别结果中可以包括标准实体“腹部瘙痒”。另外,候选文本“腹部疹子”对应的目标实体模板为“({腹部})*({疹子})”,候选文本“腹部长了疹子”和候选文本“腹部长了白色疹子”对应的目标实体模板均为“({腹部})*({长})*({疹子})”,而目标实体模板“({腹部})*({疹子})”和目标实体模板“({腹部})*({长})*({疹子})”对应的标准实体均为“腹部皮疹”,因此,还可以得到该目标文本“腹部左边有点瘙痒还长了白色疹子”的命名实体识别结果还可以包括标准实体“腹部皮疹”。也即,通过本申请实施例,可以识别得到目标文本“腹部左边有点瘙痒还长了白色疹子”的命名实体识别结果包括“腹部瘙痒”和“腹部皮疹”两个标准实体。
在本申请的一种可选实施例中,符合匹配条件的实体模板的数量大于1,则对符合匹配条件的实体模板按照匹配置信度进行排序,选择匹配置信度最高的为目标实体模板。一个示例中,对于上述候选文本“腹部皮肤瘙痒”,假设符合匹配条件的实体模板包括({腹部皮肤})*({瘙痒})和({皮肤})*({瘙痒}),其中,({腹部皮肤})*({瘙痒})的匹配置信度为1,({皮肤})*({瘙痒})的匹配置信度为0.667,则选择({腹部皮肤})*({瘙痒})作为目标实体模板。
综上,本申请实施例定义了主体词和表现词的概念,并且识别目标文本中的主体词和表现词,基于目标文本中的主体词和表现词可能的组合,与预定义的实体模板集合进行匹配,能够有效地对包含至少一个主体词以及至少一个表现词的文本片段进行实体识别。例如,在医疗类实体的识别场景中,对于目标文本“腹部瘙痒有点疼”,本申请实施例识别得到的命名实体识别结果包括标准实体“腹部瘙痒”和标准实体“腹部疼痛”,可以提高实体识别的全面性和准确性,进而可以提高搜索结果的准确性和召回率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
装置实施例
参照图2,示出了本申请的一种命名实体识别装置实施例的结构框图,所述装置可以包括:
识别模块201,用于识别目标文本中的主体词和表现词;
拼接模块202,用于对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
匹配模块203,用于对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
确定模块204,用于根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
可选地,所述装置还包括:
词典构建模块,用于构建特征词典,所述特征词典中包括预置的特征词,所述预置的特征词包括第一数量类别的主体词和第二数量类别的表现词;
所述识别模块,具体用于基于所述特征词典,识别目标文本中的主体词和表现词。
可选地,所述特征词典中还包括每个特征词对应的同义词;所述识别模块201,包括:
第一匹配子模块,用于对所述目标文本与所述特征词典进行匹配,得到命中的特征词和/或命中的同义词;
第一确定子模块,用于根据所述命中的特征词和/或所述命中的同义词对应的特征词,确定所述目标文本中的主体词和表现词。
可选地,所述拼接模块202,包括:
分组子模块,用于按照所述目标文本中的主体词和表现词在所述目标文本中出现的顺序,将所述目标文本中的主体词和表现词划分为至少一个候选组,每个候选组中包含一个主体词和至少一个表现词,且每个候选组的第一个词为主体词,最后一个词为表现词;
拼接子模块,用于对于待拼接的当前候选组,将所述当前候选组中的主体词分别与所述当前候选组中的各表现词进行拼接,得到所述当前候选组对应的候选文本;
获取子模块,用于根据所述每个候选组对应的候选文本,得到候选文本集合。
可选地,所述实体模板集合中的每个实体模板包括如下模板元素:主体词、表现词、以及通配符,所述模板元素是基于标准实体与实体文本段的映射关系语料提取得到的。
可选地,所述匹配模块203,包括:
第二匹配子模块,用于对所述候选文本集合中的每个候选文本与预定义的实体模板集合中的各实体模板分别进行模糊匹配,得到所述每个候选文本与所述各实体模板的匹配置信度;
第二确定子模块,用于确定所述匹配置信度大于预设阈值的实体模板为目标实体模板。
可选地,所述匹配模块203,包括:
筛选子模块,用于对于所述候选文本集合中待匹配的当前候选文本,在所述预定义的实体模板集合中确定待匹配的实体模板,所述待匹配的实体模板中包含与所述当前候选文本中相同的主体词和/或表现词;
第三匹配子模块,用于对所述候选文本集合中的每个候选文本分别与其对应的待匹配的实体模板进行匹配。
本申请实施例定义了主体词和表现词的概念,并且识别目标文本中的主体词和表现词,基于目标文本中的主体词和表现词可能的组合,与预定义的实体模板集合进行匹配,能够有效地对包含至少一个主体词以及至少一个表现词的文本片段进行实体识别。例如,在医疗类实体的识别场景中,对于目标文本“腹部瘙痒有点疼”,本申请实施例识别得到的命名实体识别结果包括标准实体“腹部瘙痒”和标准实体“腹部疼痛”,可以提高实体识别的全面性和准确性,进而可以提高搜索结果的准确性和召回率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例提供了一种用于命名实体识别的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:识别目标文本中的主体词和表现词;对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
图3是根据一示例性实施例示出的一种用于命名实体识别的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以命名实体识别装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本申请的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1所示的命名实体识别方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种命名实体识别方法,所述方法包括:识别目标文本中的主体词和表现词;对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
本申请实施例公开了A1、一种命名实体识别方法,包括:
识别目标文本中的主体词和表现词;
对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
A2、根据A1所述的方法,所述识别目标文本中的主体词和表现词之前,所述方法还包括:
构建特征词典,所述特征词典中包括预置的特征词,所述预置的特征词包括第一数量类别的主体词和第二数量类别的表现词;
所述识别目标文本中的主体词和表现词,包括:
基于所述特征词典,识别目标文本中的主体词和表现词。
A3、根据A2所述的方法,所述特征词典中还包括每个特征词对应的同义词;所述基于所述特征词典,识别目标文本中的主体词和表现词,包括:
对所述目标文本与所述特征词典进行匹配,得到命中的特征词和/或命中的同义词;
根据所述命中的特征词和/或所述命中的同义词对应的特征词,确定所述目标文本中的主体词和表现词。
A4、根据A1所述的方法,所述对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合,包括:
按照所述目标文本中的主体词和表现词在所述目标文本中出现的顺序,将所述目标文本中的主体词和表现词划分为至少一个候选组,每个候选组中包含一个主体词和至少一个表现词,且每个候选组的第一个词为主体词,最后一个词为表现词;
对于待拼接的当前候选组,将所述当前候选组中的主体词分别与所述当前候选组中的各表现词进行拼接,得到所述当前候选组对应的候选文本;
根据所述每个候选组对应的候选文本,得到候选文本集合。
A5、根据A1所述的方法,所述实体模板集合中的每个实体模板包括如下模板元素:主体词、表现词、以及通配符,所述模板元素是基于标准实体与实体文本段的映射关系语料提取得到的。
A6、根据A1所述的方法,所述对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到目标实体模板,包括:
对所述候选文本集合中的每个候选文本与预定义的实体模板集合中的各实体模板分别进行模糊匹配,得到所述每个候选文本与所述各实体模板的匹配置信度;
确定所述匹配置信度大于预设阈值的实体模板为目标实体模板。
A7、根据A1所述的方法,所述对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,包括:
对于所述候选文本集合中待匹配的当前候选文本,在所述预定义的实体模板集合中确定待匹配的实体模板,所述待匹配的实体模板中包含与所述当前候选文本中相同的主体词和/或表现词;
对所述候选文本集合中的每个候选文本分别与其对应的待匹配的实体模板进行匹配。
本申请实施例公开了B8、一种命名实体识别装置,包括:
识别模块,用于识别目标文本中的主体词和表现词;
拼接模块,用于对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
匹配模块,用于对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
确定模块,用于根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
B9、根据B8所述的装置,所述装置还包括:
词典构建模块,用于构建特征词典,所述特征词典中包括预置的特征词,所述预置的特征词包括第一数量类别的主体词和第二数量类别的表现词;
所述识别模块,具体用于基于所述特征词典,识别目标文本中的主体词和表现词。
B10、根据B9所述的装置,所述特征词典中还包括每个特征词对应的同义词;所述识别模块,包括:
第一匹配子模块,用于对所述目标文本与所述特征词典进行匹配,得到命中的特征词和/或命中的同义词;
第一确定子模块,用于根据所述命中的特征词和/或所述命中的同义词对应的特征词,确定所述目标文本中的主体词和表现词。
B11、根据B8所述的装置,所述拼接模块,包括:
分组子模块,用于按照所述目标文本中的主体词和表现词在所述目标文本中出现的顺序,将所述目标文本中的主体词和表现词划分为至少一个候选组,每个候选组中包含一个主体词和至少一个表现词,且每个候选组的第一个词为主体词,最后一个词为表现词;
拼接子模块,用于对于待拼接的当前候选组,将所述当前候选组中的主体词分别与所述当前候选组中的各表现词进行拼接,得到所述当前候选组对应的候选文本;
获取子模块,用于根据所述每个候选组对应的候选文本,得到候选文本集合。
B12、根据B8所述的装置,所述实体模板集合中的每个实体模板包括如下模板元素:主体词、表现词、以及通配符,所述模板元素是基于标准实体与实体文本段的映射关系语料提取得到的。
B13、根据B8所述的装置,所述匹配模块,包括:
第二匹配子模块,用于对所述候选文本集合中的每个候选文本与预定义的实体模板集合中的各实体模板分别进行模糊匹配,得到所述每个候选文本与所述各实体模板的匹配置信度;
第二确定子模块,用于确定所述匹配置信度大于预设阈值的实体模板为目标实体模板。
B14、根据B8所述的装置,所述匹配模块,包括:
筛选子模块,用于对于所述候选文本集合中待匹配的当前候选文本,在所述预定义的实体模板集合中确定待匹配的实体模板,所述待匹配的实体模板中包含与所述当前候选文本中相同的主体词和/或表现词;
第三匹配子模块,用于对所述候选文本集合中的每个候选文本分别与其对应的待匹配的实体模板进行匹配。
本申请实施例公开了C15、一种用于命名实体识别的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
识别目标文本中的主体词和表现词;
对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
C16、根据C15所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
构建特征词典,所述特征词典中包括预置的特征词,所述预置的特征词包括第一数量类别的主体词和第二数量类别的表现词;
所述识别目标文本中的主体词和表现词,包括:
基于所述特征词典,识别目标文本中的主体词和表现词。
C17、根据C16所述的装置,所述特征词典中还包括每个特征词对应的同义词;所述基于所述特征词典,识别目标文本中的主体词和表现词,包括:
对所述目标文本与所述特征词典进行匹配,得到命中的特征词和/或命中的同义词;
根据所述命中的特征词和/或所述命中的同义词对应的特征词,确定所述目标文本中的主体词和表现词。
C18、根据C15所述的装置,所述对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合,包括:
按照所述目标文本中的主体词和表现词在所述目标文本中出现的顺序,将所述目标文本中的主体词和表现词划分为至少一个候选组,每个候选组中包含一个主体词和至少一个表现词,且每个候选组的第一个词为主体词,最后一个词为表现词;
对于待拼接的当前候选组,将所述当前候选组中的主体词分别与所述当前候选组中的各表现词进行拼接,得到所述当前候选组对应的候选文本;
根据所述每个候选组对应的候选文本,得到候选文本集合。
C19、根据C15所述的装置,所述实体模板集合中的每个实体模板包括如下模板元素:主体词、表现词、以及通配符,所述模板元素是基于标准实体与实体文本段的映射关系语料提取得到的。
C20、根据C15所述的装置,所述对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到目标实体模板,包括:
对所述候选文本集合中的每个候选文本与预定义的实体模板集合中的各实体模板分别进行模糊匹配,得到所述每个候选文本与所述各实体模板的匹配置信度;
确定所述匹配置信度大于预设阈值的实体模板为目标实体模板。
C21、根据C15所述的装置,所述对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,包括:
对于所述候选文本集合中待匹配的当前候选文本,在所述预定义的实体模板集合中确定待匹配的实体模板,所述待匹配的实体模板中包含与所述当前候选文本中相同的主体词和/或表现词;
对所述候选文本集合中的每个候选文本分别与其对应的待匹配的实体模板进行匹配。
本申请实施例公开了D22、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A7中一个或多个所述的命名实体识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
以上对本申请所提供的一种命名实体识别方法、一种命名实体识别装置和一种用于命名实体识别的装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种命名实体识别方法,其特征在于,所述方法包括:
识别目标文本中的主体词和表现词;
对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
2.根据权利要求1所述的方法,其特征在于,所述识别目标文本中的主体词和表现词之前,所述方法还包括:
构建特征词典,所述特征词典中包括预置的特征词,所述预置的特征词包括第一数量类别的主体词和第二数量类别的表现词;
所述识别目标文本中的主体词和表现词,包括:
基于所述特征词典,识别目标文本中的主体词和表现词。
3.根据权利要求2所述的方法,其特征在于,所述特征词典中还包括每个特征词对应的同义词;所述基于所述特征词典,识别目标文本中的主体词和表现词,包括:
对所述目标文本与所述特征词典进行匹配,得到命中的特征词和/或命中的同义词;
根据所述命中的特征词和/或所述命中的同义词对应的特征词,确定所述目标文本中的主体词和表现词。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合,包括:
按照所述目标文本中的主体词和表现词在所述目标文本中出现的顺序,将所述目标文本中的主体词和表现词划分为至少一个候选组,每个候选组中包含一个主体词和至少一个表现词,且每个候选组的第一个词为主体词,最后一个词为表现词;
对于待拼接的当前候选组,将所述当前候选组中的主体词分别与所述当前候选组中的各表现词进行拼接,得到所述当前候选组对应的候选文本;
根据所述每个候选组对应的候选文本,得到候选文本集合。
5.根据权利要求1所述的方法,其特征在于,所述实体模板集合中的每个实体模板包括如下模板元素:主体词、表现词、以及通配符,所述模板元素是基于标准实体与实体文本段的映射关系语料提取得到的。
6.根据权利要求1所述的方法,其特征在于,所述对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到目标实体模板,包括:
对所述候选文本集合中的每个候选文本与预定义的实体模板集合中的各实体模板分别进行模糊匹配,得到所述每个候选文本与所述各实体模板的匹配置信度;
确定所述匹配置信度大于预设阈值的实体模板为目标实体模板。
7.根据权利要求1所述的方法,其特征在于,所述对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,包括:
对于所述候选文本集合中待匹配的当前候选文本,在所述预定义的实体模板集合中确定待匹配的实体模板,所述待匹配的实体模板中包含与所述当前候选文本中相同的主体词和/或表现词;
对所述候选文本集合中的每个候选文本分别与其对应的待匹配的实体模板进行匹配。
8.一种命名实体识别装置,其特征在于,所述装置包括:
识别模块,用于识别目标文本中的主体词和表现词;
拼接模块,用于对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
匹配模块,用于对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
确定模块,用于根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
9.一种用于命名实体识别的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
识别目标文本中的主体词和表现词;
对所述目标文本中的主体词和表现词进行拼接组合,得到候选文本集合;
对所述候选文本集合中的每个候选文本与预定义的实体模板集合进行匹配,得到符合匹配条件的目标实体模板,所述实体模板集合中包括至少一个模板组,每个模板组中包括至少一个实体模板,每个模板组对应一个标准实体;
根据所述目标实体模板所属模板组对应的标准实体,确定所述目标文本对应的命名实体识别结果。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的命名实体识别方法。
CN202010614432.7A 2020-06-30 2020-06-30 一种命名实体识别方法、装置和用于命名实体识别的装置 Pending CN111898382A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010614432.7A CN111898382A (zh) 2020-06-30 2020-06-30 一种命名实体识别方法、装置和用于命名实体识别的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010614432.7A CN111898382A (zh) 2020-06-30 2020-06-30 一种命名实体识别方法、装置和用于命名实体识别的装置

Publications (1)

Publication Number Publication Date
CN111898382A true CN111898382A (zh) 2020-11-06

Family

ID=73206515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010614432.7A Pending CN111898382A (zh) 2020-06-30 2020-06-30 一种命名实体识别方法、装置和用于命名实体识别的装置

Country Status (1)

Country Link
CN (1) CN111898382A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380865A (zh) * 2020-11-10 2021-02-19 北京小米松果电子有限公司 识别文本中的实体方法、装置及存储介质
CN112800769A (zh) * 2021-02-20 2021-05-14 深圳追一科技有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112926326A (zh) * 2021-02-20 2021-06-08 深圳追一科技有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN113553840A (zh) * 2021-08-12 2021-10-26 卫宁健康科技集团股份有限公司 一种文本信息处理方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380865A (zh) * 2020-11-10 2021-02-19 北京小米松果电子有限公司 识别文本中的实体方法、装置及存储介质
CN112800769A (zh) * 2021-02-20 2021-05-14 深圳追一科技有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112926326A (zh) * 2021-02-20 2021-06-08 深圳追一科技有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112926326B (zh) * 2021-02-20 2024-01-19 深圳追一科技有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN113553840A (zh) * 2021-08-12 2021-10-26 卫宁健康科技集团股份有限公司 一种文本信息处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105701254B (zh) 一种信息处理方法和装置、一种用于信息处理的装置
CN111898382A (zh) 一种命名实体识别方法、装置和用于命名实体识别的装置
CN111145756B (zh) 一种语音识别方法、装置和用于语音识别的装置
CN109522419B (zh) 会话信息补全方法及装置
CN111708943B (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN109815396B (zh) 搜索词权重确定方法及装置
RU2733816C1 (ru) Способ обработки речевой информации, устройство и запоминающий носитель информации
CN106257452B (zh) 基于上下文特征修改搜索结果
CN111128183A (zh) 语音识别方法、装置和介质
CN114880480A (zh) 一种基于知识图谱的问答方法及装置
CN111538830B (zh) 法条检索方法、装置、计算机设备及存储介质
CN111444321B (zh) 问答方法、装置、电子设备和存储介质
WO2024149183A1 (zh) 文档显示方法、装置及电子设备
CN112133295B (zh) 语音识别方法、装置及存储介质
CN110781689B (zh) 信息处理方法、装置及存储介质
CN109446406B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110399468B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN112948662A (zh) 一种推荐方法、装置和用于推荐的装置
CN112463827B (zh) 查询方法、装置、电子设备及存储介质
CN110580313A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN114510942A (zh) 获取实体词的方法、模型的训练方法、装置及设备
CN112052395A (zh) 一种数据处理方法及装置
CN108614831A (zh) 语义单元显示方法及装置、用于语义单元显示的装置
CN109726612B (zh) 一种识别方法、装置和用于识别的装置
CN110362686B (zh) 一种词库的生成方法、装置、终端设备和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination