CN111382570A - 文本实体识别方法、装置、计算机设备及存储介质 - Google Patents
文本实体识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111382570A CN111382570A CN201811627235.8A CN201811627235A CN111382570A CN 111382570 A CN111382570 A CN 111382570A CN 201811627235 A CN201811627235 A CN 201811627235A CN 111382570 A CN111382570 A CN 111382570A
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- target
- text
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 104
- 230000007246 mechanism Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请涉及一种文本实体识别方法,该方法包括:获取待识别实体的文本;将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。通过采用分词机制作为补充识别,提高了实体识别的准确率。此外,还提出了一种文本实体识别装置、计算机设备及存储介质。
Description
技术领域
本发明涉及计算机处理领域,尤其是涉及一种文本实体识别方法、装置、计算机设备及存储介质。
背景技术
随着深度学习技术的成熟以及计算机性能的提升,深度学习技术广泛运用于文本实体识别任务中,尤其是机器人对话语料,需要获取实体才能进行相关的会话编排。然而,深度学习实体识别模型预测的准确率具有一定的瓶颈(只能达到80%到90%之间),所以传统的语料中的实体识别的准确率偏低。
发明内容
基于此,有必要针对上述问题,提供了一种实体识别准确率高的文本实体识别方法、装置、计算机设备及存储介质。
第一方面,本发明实施例提供一种文本实体识别方法,所述方法包括:
获取待识别实体的文本;
将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;
采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;
根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
在其中一个实施例中,所述采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集,包括:通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。
在其中一个实施例中,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,包括:获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。
在其中一个实施例中,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体,还包括:将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。
在其中一个实施例中,在所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集之后,还包括:将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体;当所述目标实体不在所述预设实体库中时,则判定所述目标实体为第二类实体。
在其中一个实施例中,所述方法还包括:当所述目标实体集中包含有英文实体时,获取所述英文实体对应的多个变形英文实体;将所述多个变形英文实体与所述预设实体库中的实体进行匹配;当所述多个变形英文实体中的至少一个变形英文实体在所述预设实体库中时,则判定对应的所述英文实体为第一类实体,否则,判定对应的所述英文实体为第二类实体。
在其中一个实施例中,所述方法还包括:当所述第一预测实体集为空时,获取所述第二预测实体集中的实体和相应的实体类型;获取所述文本的意图,根据所述文本的意图确定目标实体类型;根据所述目标实体类型从所述第二预测实体集中筛选出符合所述目标实体类型的目标实体。
第二方面,本发明实施例提供一种文本实体识别装置,所述装置包括:
文本获取模块,用于获取待识别实体的文本;
输入输出模块,用于将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;
分词提取模块,用于采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;
确定模块,用于根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
在其中一个实施例中,所述分词提取模块还用于通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。
在其中一个实施例中,所述确定模块还用于获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。
在其中一个实施例中,所述确定模块还用于将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。
在其中一个实施例中,所述装置还包括:匹配模块,用于将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体;当所述目标实体不在所述预设实体库中时,则判定所述目标实体为第二类实体。
在其中一个实施例中,所述匹配模块还用于当所述目标实体集中包含有英文实体时,获取所述英文实体对应的多个变形英文实体;将所述多个变形英文实体与所述预设实体库中的实体进行匹配;当所述多个变形英文实体中的至少一个变形英文实体在所述预设实体库中时,则判定对应的所述英文实体为第一类实体,否则,判定对应的所述英文实体为第二类实体。
在其中一个实施例中,所述装置还包括:类型获取模块,用于当所述第一预测实体集为空时,获取所述第二预测实体集中的实体和相应的实体类型;实体类型确定模块,用于获取所述文本的意图,根据所述文本的意图确定目标实体类型;筛选模块,用于根据所述目标实体类型从所述第二预测实体集中筛选出符合所述目标实体类型的目标实体。
第三方面,本发明实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取待识别实体的文本;
将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;
采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;
根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
第四方面,本发明实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取待识别实体的文本;
将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;
采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;
根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
上述文本实体识别方法,通过获取待识别实体的文本,将文本作为实体识别模型的输入,获取实体识别模型输出的第一预测实体集,同时采用分词机制对文本进行分词处理,根据分词处理结果提取出第二预测实体集,然后根据第一预测实体集和第二预测实体集确定识别得到的目标实体集。上述文本实体识别方法在得到第一预测实体集后,通过分词机制提取出第二预测实体集,然后采用第二预测实体集对第一预测实体集进行补充识别,即采用实体识别模型和分词机制共同来确定目标实体集,能够得到更多、更可信、更准确的实体,从而提高了实体识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为一个实施例中文本实体识别方法的应用环境图;
图2为一个实施例中文本实体识别方法的流程图;
图3为一个实施例中提取第二预测实体集的方法流程图;
图4为另一个实施例中文本实体识别方法的流程图;
图5为一个实施例中文本实体识别方法的流程示意图;
图6为一个实施例中文本实体识别装置的结构框图;
图7为另一个实施例中文本实体识别装置的结构框图;
图8为又一个实施例中文本实体识别装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中文本实体识别方法的应用环境图。参照图1,该文本实体识别应用于文本实体识别系统。该文本实体识别系统包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于获取到的待识别实体的文本上传到服务器120,服务器120用于接收待识别实体的文本,将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,然后将得到的目标实体集发送给终端110。
在另一个实施例中,上述文本实体识别方法可以直接应用于终端110,终端110用于获取待识别实体的文本,将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集,采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集,根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集。
如图2所示,提出了一种文本实体识别方法,该文本实体识别方法可以应用于终端,也可以应用于服务器,本实施例中以应用于终端为例说明,该文本实体识别方法具体包括以下步骤:
步骤202,获取待识别实体的文本。
其中,实体是指文本中的关键字。实体识别是指识别文本中的各种实体,如人名、地名、机构名或其他特有标识的关键字。文本实体识别是自然语言处理中非常重要的一项基础性技术。在一个音乐应用的场景中,通过识别文本中的实体来为用户查询想要听的音乐。比如,输入“我想听刘德华的歌”,通过识别实体“刘德华”就可以在相应的音乐曲库中查找到刘德华相应的歌曲列表。在一个实施例中,待识别实体的文本的获取方式可以是直接获取用户输入的文本,也可以是通过获取用户语音,然后通过语音转文字的方式得到相应的文本,当然也可以是其他方式。
步骤204,将文本作为实体识别模型的输入,获取实体识别模型输出的第一预测实体集。
其中,实体识别模型是指训练得到的用于对文本中的实体进行识别的模型。在一个实施例中,实体识别模型是基于深度学习方法训练得到的,比如,深度卷积神经网络。通过将文本作为实体识别模型的输入,然后得到输出的第一预测实体集,第一预测实体集是指预测得到的实体的集合。
步骤206,采用分词机制对文本进行分词处理,根据分词处理结果提取出第二预测实体集。
其中,分词机制是指用于对文本进行分词处理的机制,比如,分词器。在一个实施例中,分词机制采用jieba(结巴)分词器,当然也可以采用其他分词器。分词是指将文本切分为一个个的词语。比如,假设文本为“今天温度高吗”,相应地分词处理结果为“今天温度高吗”。在使用分词处理得到分词处理结果后,提取分词处理结果中的实体。在一个实施例中,根据词性来提取出实体,假设将名词作为实体,那么提取一句话中的名词作为实体,比如,“今天温度高吗”中的“温度”为名词,那么将“温度”作为提取到的名词。在另一个实施例中,自定义设置实体类型,然后根据实体类型来提取出想要的实体,比如,假设“今天”是实体库中的实体,可以将今天的实体类型设置为time,并存储到实体库中,在提取实体时,根据实体库中自定义的实体类型来提取得到相应的实体。将根据分词处理结果提取出的实体加入第二预测实体集。第二预测实体集是指提取到的实体的集合。由于实体识别模型不一定在所有情况下都能准确地识别到实体,通过采用分词机制提取到文本的关键词,作为补充机制在弥补实体识别模型的不足。
步骤208,根据第一预测实体集和第二预测实体集确定识别得到的目标实体集,目标实体集为目标实体的集合。
其中,在确定了第一预测实体集和第二预测实体集后,就可以确定识别得到的目标实体集。目标实体集是指识别得到的目标实体的集合。在一个实施例中,将第一预测实体集和第二预测实体集的交集作为目标实体集,即将第一预测实体集和第二预测实际集中的重合的实体作为目标实体。在另一个实施例中,将第一预测实体集和第二预测实体集的并集作为目标实体集。通过将采用分词机制提取出的第二预测实体集作为后处理机制来对实体识别模型得到的第一预测实体集进行补充和确认,有利于得到更多、更可信、更准确的实体,从而提高了实体识别的准确度。
上述文本实体识别方法,通过获取待识别实体的文本,将文本作为实体识别模型的输入,获取实体识别模型输出的第一预测实体集,同时采用分词机制对文本进行分词处理,根据分词处理结果提取出第二预测实体集,然后根据第一预测实体集和第二预测实体集确定识别得到的目标实体集。上述文本实体识别方法在得到第一预测实体集后,通过分词机制提取出第二预测实体集,然后采用第二预测实体集对第一预测实体集进行补充识别,即采用实体识别模型和分词机制共同来确定目标实体集,能够得到更多、更可信、更准确的实体,从而有利于提高文本实体识别的准确率。
如图3所示,在一个实施例中,采用分词机制对文本进行分词处理,根据分词处理结果提取出第二预测实体集,包括:
步骤206A,通过分词机制对文本进行分词处理,得到多个词语和相应的词语类型;
其中,分词机制对应的词典是基于实体库建立的,将实体库中的实体作为词典加入到分词机制中。实体库中包括实体和相应的实体类型。实体类型可以根据业务需求自定义设置,这样也便于后续根据实体类型进行实体的提取。
对文本进行分词处理得到多个词语,每个词语都对应有相应的词语类型。在一个实施例中,将词性作为词语类型。对于实体库中的实体可以自定义相应的实体类型,并将实体类型作为该词的词语类型。比如,自定义“今天”这个词语的实体类型为“time”,将“time”作为今天的词语类型,对“今天温度高吗”进行分词后,得到“今天(time)温度(n)高(adj)吗(y)”,其中,括号里面的time、n、adj、y分别表示相应的词语类型。time为自定义的词语类型,n为名词,adj为形容词,y为语气助词。由于time为实体类型,所以后续根据词语类型就可以确定哪个词语是实体。
步骤206B,根据词语类型从多个词语中提取出符合实体类型的词语,得到第二预测实体集。
其中,通过预先对每个实体的类型进行自定义,获取到多个词语后,根据每个词语的词语类型来确定该词语是否为实体库中的实体,若是,则将该词语作为第二预测实体集中的实体。上述根据分词机制提取出实体,作为实体识别模型的补充机制,有利于提高实体识别的准确度。
在一个实施例中,根据第一预测实体集和第二预测实体集确定识别得到的目标实体集,目标实体集是目标实体的集合,包括:获取第一预测实体集和第二预测实体集的交集,将交集中的实体作为目标实体。
其中,为了提高实体识别的准确率,通过对实体识别模型识别得到的实体与分词机制提取到的实体取交集,交集中的实体为目标实体,该目标实体为确信实体。交集部分的实体比较具有代表性,可以确定一个到多个目标实体。如:“深圳市委办公室”与“深圳市委办公室”的交集为“深圳”,可以确认“深圳”为确信的实体。
在一个实施例中,根据第一预测实体集和第二预测实体集确定识别得到的目标实体,还包括:将第一预测实体集中的第一实体与第二预测实体集中的第二实体进行匹配;当第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;当第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。
其中,为了区分,将第一预测实体集中的实体称为“第一实体”,将第二预测实体集中的实体称为“第二实体”。为了更多更好地保留实体信息,在得到第一预测实体集和第二预测实体集后,采用最长匹配原则将第一实体与第二实体进行匹配,然后保留较长的实体。具体地,当第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体。比如,如果第一实体为“深圳大学城”,第二实体为“深圳”,由于第一实体中包含有“深圳”,所以保留“深圳大学城”为目标实体。同样地,当第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。
如图4所示,在一个实施例中,上述文本实体识别方法还包括:
步骤210,将目标实体集中的目标实体与预设实体库中的实体进行匹配,当目标实体在预设实体库中时,进入步骤212,当目标实体不在预设实体库中时,进入步骤214。
其中,实体库是指存储实体的数据库,里面包含有很多个实体。实体库一般是根据业务需求自定义建立的。在预测得到目标实体后,在预设实体库中查找预测得到的目标实体是否在实体库中,如果实体库中有该实体,则说明该目标实体为确认实体。如果实体库中没有查找到该实体,那么该实体具有一定的不确定性,返回时需要明确告知该实体为预测到的实体,并不在实体库中。
步骤212,判定目标实体为第一类实体。
步骤214,判定目标实体为第二类实体。
其中,为了将确认的实体和不确定的实体进行区分,将在实体库中存在的实体称为“第一类实体”,将不在实体库中存在的实体称为“第二类实体”。在一个实施例中,如果是第一类实体,返回“确认”,如果是第二类实体,返回“预测”。
在一个实施例中,上述文本实体识别方法还包括:当目标实体集中包含有英文实体时,获取英文实体对应的多个变形英文实体;将多个变形英文实体与预设实体库中的实体进行匹配;当多个变形英文实体中的至少一个变形英文实体在预设实体库中时,则判定对应的英文实体为第一类实体,否则,判定对应的英文实体为第二类实体。
其中,英文实体是指以英文形式存在的实体。当目标实体为英文实体时,由于英文分为大小写,为了能够匹配的完整,将英文实体改写为多个变形英文实体。比如,将英文实体中的每个首字母大写,将第一首字符大写,将所有字母全小写,单个英文词全大写等。在得到多个变形英文实体后,将多个变形英文实体与预设实体库中的实体进行匹配,然后当多个变形英文实体中的至少一个变形英文实体在预设实体库中时,则认为该英文实体是在预设实体库中,从而判定该英文实体为第一类实体,否则,判定为第二类实体。举个例子,假设识别得到的英文实体为computer,由于实体库中存储的可能为Computer或COMPUTER,如果直接进行查询很可能查询不到,所以通过将computer进行大小写变形,然后再查询,就可以在实体库中查询到。
在一个实施例中,上述文本实体识别方法还包括:当第一预测实体集为空时,获取第二预测实体集中的实体和相应的实体类型;获取文本的意图,根据文本的意图确定目标实体类型;根据目标实体类型从第二预测实体集中筛选出符合目标实体类型的目标实体。
其中,当通过实体识别模型没有预测到实体时,即第一预测实体集为空时,则需要依赖分词机制提取到的第二预测实体集。但是第二预测实体集中的实体很可能包含有非目标实体,所以为了准确地得到目标实体,还需要进行进一步筛选。文本意图是指文本识别的意图,比如,是为了搜索音乐,还是为了搜索电影等。比如,刘德华这个实体具有两个实体类型,一个是歌手,一个是演员。如果文本意图为音乐场景,那么刘德华相应的目标实体类型应该歌手。如果第二预测实体集中的目标实体为刘德华,相应的实体类型为歌手,那么刘德华就是符合目标实体类型的目标实体。如果相应的实体类型为演员,那么刘德华就不符合目标实体类型,所以为非目标实体。
如图5所示为一个实施例中,文本实体识别方法的流程示意图。首先,获取待识别实体的文本(比如,接收用户输入的文本),然后将该文本作为实体识别模型的输入,得到输出的第一预测实体集,同时采用分词机制提取第二预测实体集,接下来,判断第一预测实体集是否为空,若否,则获取第一预测实体集与第二预测实体集的交集,保留交集中的实体,接下来,采用最长匹配原则检查第一预测实体集中和第二预测实体集中存在包含关系的实体,留下最长的。然后,检查保留下来实体(即目标实体)中是否有英文实体,如果有,则使用英文改写机制得到多个变形英文实体,然后判断提取到的实体是否在实体库中,若没有英文实体,则直接进入判断提取到的实体是否在实体库中,若在实体库中,则返回确认,若不在实体库中,则返回预测。若第一预测实体集为空,则直接将第二预测实体集中实体作为目标实体,进入检查留下来的实体是否有英文实体的步骤。
如图6所示,在一个实施例中,提出了一种文本实体识别装置,该装置包括:
文本获取模块602,用于获取待识别实体的文本;
输入输出模块604,用于将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;
分词提取模块606,用于采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;
确定模块608,用于根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
在一个实施例中,所述分词提取模块还用于通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。
在一个实施例中,所述确定模块还用于获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。
在一个实施例中,所述确定模块还用于将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。
如图7所示,在一个实施例中,所述装置还包括:
匹配模块610,用于将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体,当所述目标实体不在所述预设实体库中时,则判定所述目标实体为第二类实体。
在一个实施例中,所述匹配模块还用于当所述目标实体集中包含有英文实体时,获取所述英文实体对应的多个变形英文实体,将所述多个变形英文实体与所述预设实体库中的实体进行匹配,当所述多个变形英文实体中的至少一个变形英文实体在所述预设实体库中时,则判定对应的所述英文实体为第一类实体,否则,判定对应的所述英文实体为第二类实体。
如图8所示,在一个实施例中,所述装置还包括:
类型获取模块612,用于当所述第一预测实体集为空时,获取所述第二预测实体集中的实体和相应的实体类型;
实体类型确定模块614,用于获取所述文本的意图,根据所述文本的意图确定目标实体类型;
筛选模块616,用于根据所述目标实体类型从所述第二预测实体集中筛选出符合所述目标实体类型的目标实体。
图9示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是终端,也可以是服务器。如图9所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本实体识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本实体识别方法。网络接口用于与外界进行通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本实体识别方法可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本实体识别装置的各个程序模板。比如,文本获取模块602、输入输出模块604、分词提取模块606和确定模块608。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:获取待识别实体的文本;将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
在一个实施例中,所述采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集,包括:通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。
在一个实施例中,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,包括:获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。
在一个实施例中,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体,还包括:将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。
在一个实施例中,在所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集之后,所述计算机程序被所述处理器执行时,还用于执行以下步骤:将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体;当所述目标实体不在所述预设实体库中时,则判定所述目标实体为第二类实体。
在一个实施例中,所述计算机程序被所述处理器执行时,还用于执行以下步骤:当所述目标实体集中包含有英文实体时,获取所述英文实体对应的多个变形英文实体;将所述多个变形英文实体与所述预设实体库中的实体进行匹配;当所述多个变形英文实体中的至少一个变形英文实体在所述预设实体库中时,则判定对应的所述英文实体为第一类实体,否则,判定对应的所述英文实体为第二类实体。
在一个实施例中,所述计算机程序被所述处理器执行时,还用于执行以下步骤:当所述第一预测实体集为空时,获取所述第二预测实体集中的实体和相应的实体类型;获取所述文本的意图,根据所述文本的意图确定目标实体类型;根据所述目标实体类型从所述第二预测实体集中筛选出符合所述目标实体类型的目标实体。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取待识别实体的文本;将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
在一个实施例中,所述采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集,包括:通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。
在一个实施例中,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,包括:获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。
在一个实施例中,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体,还包括:将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。
在一个实施例中,在所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集之后,所述计算机程序被所述处理器执行时,还用于执行以下步骤:将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体;当所述目标实体不在所述预设实体库中时,则判定所述目标实体为第二类实体。
在一个实施例中,所述计算机程序被所述处理器执行时,还用于执行以下步骤:当所述目标实体集中包含有英文实体时,获取所述英文实体对应的多个变形英文实体;将所述多个变形英文实体与所述预设实体库中的实体进行匹配;当所述多个变形英文实体中的至少一个变形英文实体在所述预设实体库中时,则判定对应的所述英文实体为第一类实体,否则,判定对应的所述英文实体为第二类实体。
在一个实施例中,所述计算机程序被所述处理器执行时,还用于执行以下步骤:当所述第一预测实体集为空时,获取所述第二预测实体集中的实体和相应的实体类型;获取所述文本的意图,根据所述文本的意图确定目标实体类型;根据所述目标实体类型从所述第二预测实体集中筛选出符合所述目标实体类型的目标实体。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本实体识别方法,其特征在于,所述方法包括:
获取待识别实体的文本;
将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;
采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;
根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
2.根据权利要求1所述的方法,其特征在于,所述采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集,包括:
通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;
根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,包括:
获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体,还包括:
将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;
当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;
当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集之后,还包括:
将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体;
当所述目标实体不在所述预设实体库中时,则判定所述目标实体为第二类实体。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当所述目标实体集中包含有英文实体时,获取所述英文实体对应的多个变形英文实体;
将所述多个变形英文实体与所述预设实体库中的实体进行匹配;
当所述多个变形英文实体中的至少一个变形英文实体在所述预设实体库中时,则判定对应的所述英文实体为第一类实体,否则,判定对应的所述英文实体为第二类实体。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一预测实体集为空时,获取所述第二预测实体集中的实体和相应的实体类型;
获取所述文本的意图,根据所述文本的意图确定目标实体类型;
根据所述目标实体类型从所述第二预测实体集中筛选出符合所述目标实体类型的目标实体。
8.一种文本实体识别装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别实体的文本;
输入输出模块,用于将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;
分词提取模块,用于采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;
确定模块,用于根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811627235.8A CN111382570B (zh) | 2018-12-28 | 2018-12-28 | 文本实体识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811627235.8A CN111382570B (zh) | 2018-12-28 | 2018-12-28 | 文本实体识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382570A true CN111382570A (zh) | 2020-07-07 |
CN111382570B CN111382570B (zh) | 2024-05-03 |
Family
ID=71219271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811627235.8A Active CN111382570B (zh) | 2018-12-28 | 2018-12-28 | 文本实体识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382570B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859972A (zh) * | 2020-07-28 | 2020-10-30 | 平安科技(深圳)有限公司 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
CN113204967A (zh) * | 2021-05-25 | 2021-08-03 | 山东师范大学 | 简历命名实体识别方法及系统 |
CN115248837A (zh) * | 2022-09-21 | 2022-10-28 | 中科雨辰科技有限公司 | 一种获取文本的地理实体的数据处理系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130198123A1 (en) * | 2012-01-27 | 2013-08-01 | Jan Stadermann | Hierarchical information extraction using document segmentation and optical character recognition correction |
CN106503192A (zh) * | 2016-10-31 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的命名实体识别方法及装置 |
CN106776555A (zh) * | 2016-12-09 | 2017-05-31 | 中国科学院信息工程研究所 | 一种基于字模型的评论文本实体识别方法及装置 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN107844474A (zh) * | 2017-09-29 | 2018-03-27 | 华南师范大学 | 基于层叠条件随机场的疾病数据命名实体识别方法及系统 |
CN107908642A (zh) * | 2017-09-29 | 2018-04-13 | 江苏华通晟云科技有限公司 | 基于分布式平台的行业文本实体提取方法 |
CN107943786A (zh) * | 2017-11-16 | 2018-04-20 | 广州市万隆证券咨询顾问有限公司 | 一种中文命名实体识别方法及系统 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108491373A (zh) * | 2018-02-01 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种实体识别方法及系统 |
-
2018
- 2018-12-28 CN CN201811627235.8A patent/CN111382570B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130198123A1 (en) * | 2012-01-27 | 2013-08-01 | Jan Stadermann | Hierarchical information extraction using document segmentation and optical character recognition correction |
CN106503192A (zh) * | 2016-10-31 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的命名实体识别方法及装置 |
CN106776555A (zh) * | 2016-12-09 | 2017-05-31 | 中国科学院信息工程研究所 | 一种基于字模型的评论文本实体识别方法及装置 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN107844474A (zh) * | 2017-09-29 | 2018-03-27 | 华南师范大学 | 基于层叠条件随机场的疾病数据命名实体识别方法及系统 |
CN107908642A (zh) * | 2017-09-29 | 2018-04-13 | 江苏华通晟云科技有限公司 | 基于分布式平台的行业文本实体提取方法 |
CN107943786A (zh) * | 2017-11-16 | 2018-04-20 | 广州市万隆证券咨询顾问有限公司 | 一种中文命名实体识别方法及系统 |
CN108491373A (zh) * | 2018-02-01 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种实体识别方法及系统 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
潘华山 等: "基于层叠条件随机场的高棉语分词及词性标注方法", 中文信息学报, vol. 30, no. 04, 15 July 2016 (2016-07-15), pages 110 - 116 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859972A (zh) * | 2020-07-28 | 2020-10-30 | 平安科技(深圳)有限公司 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
WO2021139329A1 (zh) * | 2020-07-28 | 2021-07-15 | 平安科技(深圳)有限公司 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
CN111859972B (zh) * | 2020-07-28 | 2024-03-15 | 平安科技(深圳)有限公司 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
CN113204967A (zh) * | 2021-05-25 | 2021-08-03 | 山东师范大学 | 简历命名实体识别方法及系统 |
CN113204967B (zh) * | 2021-05-25 | 2022-06-21 | 山东师范大学 | 简历命名实体识别方法及系统 |
CN115248837A (zh) * | 2022-09-21 | 2022-10-28 | 中科雨辰科技有限公司 | 一种获取文本的地理实体的数据处理系统 |
CN115248837B (zh) * | 2022-09-21 | 2022-12-23 | 中科雨辰科技有限公司 | 一种获取文本的地理实体的数据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111382570B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160017B (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
EP3855324A1 (en) | Associative recommendation method and apparatus, computer device, and storage medium | |
CN110705302B (zh) | 命名实体的识别方法、电子设备及计算机存储介质 | |
CN110674319A (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN111176996A (zh) | 测试用例生成方法、装置、计算机设备及存储介质 | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN111382570A (zh) | 文本实体识别方法、装置、计算机设备及存储介质 | |
CN113536735B (zh) | 一种基于关键词的文本标记方法、系统和存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN109800346A (zh) | 文本匹配方法、装置、计算机设备和存储介质 | |
CN112287071A (zh) | 一种文本关系提取方法、装置及电子设备 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN112990290A (zh) | 样本数据的生成方法、装置、设备和存储介质 | |
CN114003685B (zh) | 分词位置索引构建方法及其装置、文档检索方法及其装置 | |
CN111368061A (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
CN111382569A (zh) | 对话语料中实体的识别方法、装置和计算机设备 | |
CN114169331A (zh) | 地址解析方法、装置、计算机设备和存储介质 | |
CN116303923A (zh) | 一种知识图谱问答方法、装置、计算机设备和存储介质 | |
CN112016297B (zh) | 意图识别模型测试方法、装置、计算机设备和存储介质 | |
WO2020133291A1 (zh) | 文本实体识别方法、装置、计算机设备及存储介质 | |
CN110489528B (zh) | 基于电子书内容的电子词典重构方法及计算设备 | |
CN111159526A (zh) | 查询语句处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |