CN111144118A - 口语化文本中命名实体的识别方法、系统、设备和介质 - Google Patents
口语化文本中命名实体的识别方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN111144118A CN111144118A CN201911368222.8A CN201911368222A CN111144118A CN 111144118 A CN111144118 A CN 111144118A CN 201911368222 A CN201911368222 A CN 201911368222A CN 111144118 A CN111144118 A CN 111144118A
- Authority
- CN
- China
- Prior art keywords
- entity
- target
- recognition
- text
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种口语化文本中命名实体的识别方法、系统、设备和介质,所述识别方法包括:获取待识别的目标口语化文本;对目标口语化文本进行分词处理,获取第一识别实体;对目标口语化文本进行模式匹配处理,获取第二识别实体;对目标口语化文本进行序列标注处理,获取第三识别实体;获取同一文本位置的第一识别实体、第二识别实体和第三识别实体的第一类别、第二类别和第三类别;判断每种类别是否属于同一类别,若否,则选取优先级最高的类别对应的识别实体作为文本位置处的目标命名实体继而获取目标口语化文本对应的目标命名实体集。本发明有效地提高了命名实体识别的准确性,减少了人工进行实体的提取,降低了人工成本,提高了识别效率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种口语化文本中命名实体的识别方法、系统、设备和存储介质。
背景技术
随着人工智能技术的快速发展,目前的OTA(在线旅游)行业中很多业务都可以由机器人进行操作(如酒店的客服机器人),通过识别说话人的说话信息,并作出相应的处理。
对于对话场景下的口语化音频,通过ASR(Automatic Speech Recognition,语音识别)自动识别出对应的口语化文本,该文本没有任何标点符号,全部由文字构成。目前,主要通过人工的方式对每条文本中的命名实体进行识别,但是面对互联网如此庞大的数据量,通过人工进行识别显然是无法胜任的,存在效率低、错误率高等缺陷,即目前难以对没有标点符号的口语化文本提取有效的实体内容,进而对后续的断句的准确率、意图识别的准确率、知识图谱的构建等都会造成较大的影响。
发明内容
本发明要解决的技术问题是为了克服现有技术中无法对口语化文本中的命名实体进行有效识别等缺陷,目的在于提供一种口语化文本中命名实体的识别方法、系统、电子设备和存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种口语化文本中命名实体的识别方法,所述识别方法包括:
获取待识别的目标口语化文本;
对所述目标口语化文本进行分词处理,获取至少一个第一识别实体;
对所述目标口语化文本进行模式匹配处理,获取至少一个第二识别实体;
对所述目标口语化文本进行序列标注处理,获取至少一个第三识别实体;
预先设置命名实体对应的不同类别的优先级;
获取同一文本位置的所述第一识别实体、所述第二识别实体和所述第三识别实体对应的第一类别、第二类别和第三类别;
对所述第一类别、所述第二类别和所述第三类别中的至少两种类别进行比较,判断每种类别是否属于同一类别,若否,则选取优先级最高的类别对应的识别实体作为所述文本位置处的目标命名实体;
根据每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集。
较佳地,所述根据每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集的步骤包括:
采用模式匹配算法对每个所述目标命名实体进行异常检测,获取检测结果;
当所述检测结果表征异常时,对所述目标命名实体进行修正并获取修正后的所述目标命名实体;
根据修正后的每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集;和/或,
所述获取待识别的目标口语化文本的步骤之后、所述对所述目标口语化文本进行分词处理的步骤之前还包括:
对所述目标口语化文本进行预处理。
较佳地,当两种类别或者三种类别不属于同一类别时,所述识别方法还包括:
当对同一文本位置对应的所述第一识别实体、所述第二识别实体和所述第三识别实体中的任意两个识别实体进行比较时,判断两个识别实体是否具有交集,若是,则选取优先级较高的类别对应的识别实体作为所述文本位置处的所述目标命名实体;或,将两个识别实体进行合并处理获取第一合并结果,并将所述第一合并结果作为所述文本位置处的所述目标命名实体;
当对同一文本位置对应的所述第一识别实体、所述第二识别实体和所述第三识别实体中的三个识别实体进行比较时,判断三个识别实体是否具有交集,若是,则选取优先级最高的类别对应的识别实体作为所述文本位置处的所述目标命名实体;或,将三个识别实体进行合并处理获取第二合并结果,并将所述第二合并结果作为所述文本位置处的所述目标命名实体。
较佳地,所述识别方法还包括:
当同一文本位置处只有所述第一识别实体、每个所述第二识别实体和每个所述第三识别实体中的一个识别实体时,将所述识别实体作为所述文本位置处的目标命名实体;
当同一文本位置处只有所述第一识别实体、每个所述第二识别实体和每个所述第三识别实体中的两个识别实体时,则选取优先级较高的类别对应的识别实体作为所述文本位置处的目标命名实体。
较佳地,所述对所述目标口语化文本进行分词处理,获取至少一个第一识别实体的步骤包括:
采用分词工具对所述目标口语化文本进行分词处理获取目标分词;
获取所述目标分词的词性信息;
根据所述词性信息提取得到出所述第一识别实体;
其中,所述分词工具包括jieba分词工具或HanLP分词工具;和/或,
所述对所述目标口语化文本进行模式匹配处理,获取至少一个第二识别实体步骤包括:
采用模式匹配算法对所述目标口语化文本进行模式匹配处理,获取所述第二识别实体;和/或,
所述对所述目标口语化文本进行序列标注处理,获取至少一个第三识别实体的步骤包括:
获取多个经过预先实体标注的历史口语化文本;
将每个所述历史口语化文本作为输入,所述历史口语化文本的预先实体标注的内容作为输出,建立序列标注模型;
将所述目标口语化文本输入至所述序列标注模型,输出所述第三识别实体;
其中,所述序列标注模型包括BILSTM+CRF或BERT+BILSTM+CRF。
本发明还提供一种口语化文本中命名实体的识别系统,所述识别系统包括目标文本获取模块、第一识别实体获取模块、第二识别实体获取模块、第三识别实体获取模块、优先级预设模块、类别获取模块、判断模块、目标命名实体获取模块和命名实体集获取模块;
所述目标文本获取模块用于获取待识别的目标口语化文本;
所述第一识别实体获取模块用于对所述目标口语化文本进行分词处理,获取至少一个第一识别实体;
所述第二识别实体获取模块用于对所述目标口语化文本进行模式匹配处理,获取至少一个第二识别实体;
所述第三识别实体获取模块用于对所述目标口语化文本进行序列标注处理,获取至少一个第三识别实体;
所述优先级预设模块用于预先设置命名实体对应的不同类别的优先级;
所述类别获取模块用于获取同一文本位置的所述第一识别实体、所述第二识别实体和所述第三识别实体对应的第一类别、第二类别和第三类别;
所述判断模块用于对所述第一类别、所述第二类别和所述第三类别中的至少两种类别进行比较,判断每种类别是否属于同一类别,若否,则选取优先级最高的类别对应的识别实体作为所述文本位置处的目标命名实体;
所述命名实体集获取模块用于根据每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集。
较佳地,所述识别系统还包括异常检测模块和修正模块;
所述异常检测模块用于采用模式匹配算法对每个所述目标命名实体进行异常检测,获取检测结果;
所述修正模块用于当所述检测结果表征异常时,对所述目标命名实体进行修正并获取修正后的所述目标命名实体;
所述命名实体集获取模块用于根据修正后的每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集;和/或,
所述识别系统还包括预处理模块;
所述预处理模块用于对所述目标口语化文本进行预处理。
较佳地,当两种类别或者三种类别不属于同一类别时,所述判断模块还用于当对同一文本位置对应的所述第一识别实体、所述第二识别实体和所述第三识别实体中的任意两个识别实体进行比较时,判断两个识别实体是否具有交集,若是,则调用所述目标命名实体获取模块选取优先级较高的类别对应的识别实体作为所述文本位置处的所述目标命名实体;或,将两个识别实体进行合并处理获取第一合并结果,并将所述第一合并结果作为所述文本位置处的所述目标命名实体;
当对同一文本位置对应的所述第一识别实体、所述第二识别实体和所述第三识别实体中的三个识别实体进行比较时,判断三个识别实体是否具有交集,若是,则调用所述目标命名实体获取模块选取优先级最高的类别对应的识别实体作为所述文本位置处的所述目标命名实体;或,将三个识别实体进行合并处理获取第二合并结果,并将所述第二合并结果作为所述文本位置处的所述目标命名实体。
较佳地,所述目标命名实体获取模块还用于当同一文本位置处只有所述第一识别实体、每个所述第二识别实体和每个所述第三识别实体中的一个识别实体时,将所述识别实体作为所述文本位置处的目标命名实体;
当同一文本位置处只有所述第一识别实体、每个所述第二识别实体和每个所述第三识别实体中的两个识别实体时,则选取优先级较高的类别对应的识别实体作为所述文本位置处的目标命名实体。
较佳地,所述第一识别实体获取模块包括分词处理单元、词性信息获取单元和第一识别实体获取单元;
所述分词处理单元用于采用分词工具对所述目标口语化文本进行分词处理获取目标分词;
所述词性信息获取单元用于获取所述目标分词的词性信息;
所述第一识别实体获取单元用于根据所述词性信息提取得到出所述第一识别实体;
其中,所述分词工具包括jieba分词工具或HanLP分词工具(jieba分词工具和HanLP分词工具为不同的分词工具);和/或,
所述第二识别实体获取模块用于采用模式匹配算法对所述目标口语化文本进行模式匹配处理,获取所述第二识别实体;和/或,
所述第三识别实体获取模块包括历史文本获取单元、模型建立单元和第三识别实体获取单元;
所述历史文本获取单元用于获取多个经过预先实体标注的历史口语化文本;
所述模型建立单元用于将每个所述历史口语化文本作为输入,所述历史口语化文本的预先实体标注的内容作为输出,建立序列标注模型;
所述第三识别实体获取单元用于将所述目标口语化文本输入至所述序列标注模型,输出所述第三识别实体;
其中,所述序列标注模型包括BILSTM+CRF或BERT+BILSTM+CRF(BILSTM+CRF和BERT+BILSTM+CRF均为序列标注方法)。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现上述的口语化文本中命名实体的识别方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的口语化文本中命名实体的识别方法的步骤。
本发明的积极进步效果在于:
本发明中,针对OTA平台中的口语化文本,分别采用分词工具、模式匹配算法和深度学习算法进行实体识别并获取识别结果,然后将同一文本位置处对应的识别结果两两或者三个进行比较,在识别结果的类型不一致或者有交集时,基于预设的优先级或采用合并的方式确定该文本位置处的目标命名实体,从而对不同识别方法的识别结果进行冲突检测并调整,另外对目标命名实体进行异常检测并予以纠错,有效地提高了命名实体识别的准确性,减少了人工进行实体的提取,降低了人工成本,提高了识别效率;同时,便于对酒店知识图谱的构建,大大地提升了下游文本的断句、意图识别等任务的准确性。
附图说明
图1为本发明实施例1的口语化文本中命名实体的识别方法的流程图。
图2为本发明实施例2的口语化文本中命名实体的识别方法的流程图。
图3为本发明实施例3的口语化文本中命名实体的识别系统的模块示意图。
图4为本发明实施例4的口语化文本中命名实体的识别系统的模块示意图。
图5为本发明实施例5中实现口语化文本中命名实体的识别方法的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例的应用场景为OTA平台(如OTA酒店)。其中,命名实体包含人名、地名、机构名、时间、专有名词、酒店房型实体、订单号、手机号、价格等。每天OTA平台都会有大量的对话音频,经过ASR自动识别会后得到大量的口语化文本,这样的口语化文本全部由文字构成,没有任何标点符号。
如图1所示,本实施例的口语化文本中命名实体的识别方法包括:
S101、获取待识别的目标口语化文本;
具体地,获取待处理的对话语音,采用ASR将其转换为目标口语化文本。
S102、对目标口语化文本进行分词处理,获取至少一个第一识别实体;
S103、对目标口语化文本进行模式匹配处理,获取至少一个第二识别实体;
S104、对目标口语化文本进行序列标注处理,获取至少一个第三识别实体;
S105、预先设置命名实体对应的不同类别的优先级;
S106、获取同一文本位置的第一识别实体、第二识别实体和第三识别实体对应的第一类别、第二类别和第三类别;
S107、对第一类别、第二类别和第三类别中的至少两种类别进行比较,判断每种类别是否属于同一类别,若否,则选取优先级最高的类别对应的识别实体作为文本位置处的目标命名实体;
S108、根据每个文本位置的目标命名实体获取目标口语化文本对应的目标命名实体集。
本实施例为后续的酒店知识图谱的构建、文本断句、意图识别等工作提供基础支持。
另外,还可以采用其他的识别方法对口语化文本中的命名实体识别以进一步提高本实施例的识别准确度。其中,将这些识别方法得到的识别实体与上述的识别实体进行比较最终得到文本位置处的目标命名实体的步骤与上述过程类似,因此此处就不再赘述。
本实施例中,针对OTA平台中的口语化文本,分别采用分词工具、模式匹配算法和深度学习算法进行实体识别并获取识别结果,然后将同一文本位置处对应的识别结果两两或者三个进行比较,在识别结果的类型不一致时,基于预设的优先级确定该文本位置处的目标命名实体,从而对不同识别方法的识别结果进行冲突检测并调整,有效地提高了命名实体识别的准确性,减少了人工进行实体的提取,降低了人工成本,提高了识别效率;同时,便于对酒店知识图谱的构建,大大地提升了下游文本的断句、意图识别等任务的准确性。
实施例2
如图2所示,本实施例的口语化文本中命名实体的识别方法是对实施例1的进一步改进,具体地:
步骤S101之后、步骤S102之前还包括:
S1020、具体地,将目标口语化文本进行繁体转简体、大小写处理、数字转中文等处理。
步骤S102包括:
S1021、采用分词工具对目标口语化文本进行分词处理获取目标分词;
S1022、获取目标分词的词性信息;
S1023、根据词性信息提取得到出第一识别实体;
其中,分词工具包括但不限于jieba分词工具或HanLP分词工具。
步骤S103包括:
S1031、采用模式匹配算法对目标口语化文本进行模式匹配处理,获取第二识别实体。
步骤S104包括:
S1041、获取多个经过预先实体标注的历史口语化文本;
S1042、将每个历史口语化文本作为输入,历史口语化文本的预先实体标注的内容作为输出,建立序列标注模型;
S1043、将目标口语化文本输入至序列标注模型,输出第三识别实体;
其中,序列标注模型包括BILSTM+CRF或BERT+BILSTM+CRF等。
当两种类别或者三种类别不属于同一类别时,步骤S106之后还包括:
当对同一文本位置对应的第一识别实体、第二识别实体和第三识别实体中的任意两个识别实体进行比较时,判断两个识别实体是否具有交集,若是,则选取优先级较高的类别对应的识别实体作为文本位置处的目标命名实体;或,将两个识别实体进行合并处理获取第一合并结果,并将第一合并结果作为文本位置处的目标命名实体;
当对同一文本位置对应的第一识别实体、第二识别实体和第三识别实体中的三个识别实体进行比较时,判断三个识别实体是否具有交集,若是,则选取优先级最高的类别对应的识别实体作为文本位置处的目标命名实体;或,将三个识别实体进行合并处理获取第二合并结果,并将第二合并结果作为文本位置处的目标命名实体。
步骤S106之后还包括:
当同一文本位置处只有第一识别实体、每个第二识别实体和每个第三识别实体中的一个识别实体时,将识别实体作为文本位置处的目标命名实体;
当同一文本位置处只有第一识别实体、每个第二识别实体和每个第三识别实体中的两个识别实体时,则选取优先级较高的类别对应的识别实体作为文本位置处的目标命名实体。
当同一文本位置采用三种识别方法均未得到识别实体时,则确定该文本位置没有命名实体;继续对下一个文本位置采用三种识别方法进行识别,若当前口语化文本中每个文本位置都没有对应的命名实体,则确定当前口语化文本中没有命名实体。
步骤S108之后包括:
S109、采用模式匹配算法对每个目标命名实体进行异常检测,获取检测结果;
S1010、当检测结果表征异常时,对目标命名实体进行修正并获取修正后的目标命名实体;
S1011、根据修正后的每个文本位置的目标命名实体获取目标口语化文本对应的目标命名实体集。
下面结合实例具体说明:
1)获取OTA酒店中某一时间段的对话语音,并采用ASR将其转换为口语化文本;
2)将该口语化文本中的小写转大写、繁体转简体、数字转中文等处理;
3)采用HanLP分词工具对该口语化文本进行分词处理并获取词语的词性信息,进而根据词性信息提取出第一识别实体;例如:词性信息为“nr”的词语为人名的命名实体。
4)采用模式匹配算法对目标口语化文本进行模式匹配处理,获取第二识别实体;例如,当目标口语化文本为“免贵姓王”时,根据模式匹配可以匹配得到“王”这个姓氏实体。
5)获取多个经过预先实体标注的历史口语化文本;
具体地,采用BIOS格式(一种标注格式)对历史口语化文本进行标注,实体的第一个字标注为B-实体类型,实体中间的内容都标注为I-实体类型,非实体内容标注为O,一个字的实体标注为S-实体类型。例如,当目标口语化文本为:你好我是携程旅行网的,其中携程旅行网为机构实体,则标注为:你/O好/O/我/O是/O携/B-ORG程/I-ORG旅/I-ORG行/I-ORG网/I-ORG的/O。对标注好的文本进行训练集和测试集的划分。
使用训练集进行模型的构建,将每个历史口语化文本作为输入,历史口语化文本的预先实体标注的内容作为输出,建立序列标注模型M;
其中,用序列标注模型M在测试集上进行预测,计算预测结果的F1值,其中F1值越大表示模型效果越好,公式如下:
其中,P表示模型预测的准确率,R表示模型预测的召回率。
判断F1值是否大于设定阈值,若是,输出序列标注模型M,否则继续调整训练模型。
当模型达到一定精度时,使用模型对文本进行预测,获取第三识别实体。
6)对第一识别实体、第二识别实体和第三识别实体进行实体冲突调整,具体地:
对第一类别、第二类别和第三类别中的至少两种类别进行比较,判断每种类别是否属于同一类别,若否,则选取优先级最高的类别对应的识别实体作为文本位置处的目标命名实体;
当对同一文本位置对应的第一识别实体、第二识别实体和第三识别实体中的任意两个识别实体进行比较时,判断两个识别实体是否具有交集,若是,则选取优先级较高的类别对应的识别实体作为文本位置处的目标命名实体;或,将两个识别实体进行合并处理获取第一合并结果,并将第一合并结果作为文本位置处的目标命名实体;例如,两个识别实体分别为“长江”和“江大桥”,则将两个识别实体合并处理得到“长江大桥”。
当对同一文本位置对应的第一识别实体、第二识别实体和第三识别实体中的三个识别实体进行比较时,判断三个识别实体是否具有交集,若是,则选取优先级最高的类别对应的识别实体作为文本位置处的目标命名实体;或,将三个识别实体进行合并处理获取第二合并结果,并将第二合并结果作为文本位置处的目标命名实体。
例如,三个识别实体分别为“长江”、“大桥”和“江大桥”,则将三个识别实体合并处理得到“长江大桥”。或,
三个识别实体分别为“长江”、“长江大桥”和“江大桥”,事先设定“长江”、“江大桥”和“长江大桥”对应的类别优先级由高到低依次为:“长江大桥”、“长江”、“江大桥”;此时,选取优先级最高的类别“长江大桥”作为该文本位置的目标命名实体。
对于两个或大于三个识别实体进行识别命名实体的过程与上述类似,因此此处就不再赘述。
另外,当同一文本位置处只有第一识别实体、每个第二识别实体和每个第三识别实体中的一个识别实体时,将识别实体作为文本位置处的目标命名实体;
当同一文本位置处只有第一识别实体、每个第二识别实体和每个第三识别实体中的两个识别实体时,则选取优先级较高的类别对应的识别实体作为文本位置处的目标命名实体。
7)采用模式匹配算法对每个目标命名实体进行异常检测,获取检测结果;
当检测结果表征异常时,对目标命名实体进行修正并获取修正后的目标命名实体;
根据修正后的每个文本位置的目标命名实体获取目标口语化文本对应的目标命名实体集。
由于对口语化的音频识别得到的口语化文本不可避免地会存在识别字错误的情况,特别是同音字的文本错误。例如,价格是“幺三零”,识别结果的价格实体为幺三零,此时需要对齐进行纠错修改为“一三零”。对于姓氏实体,获取中国百家姓的姓氏,判断识别的姓氏实体是否为百家姓里的姓氏,如果是谐音导致的错误,则需要进行实体纠正。例如,我姓锅,识别锅为姓氏实体,通过百家姓可以知道其为郭姓,将“锅”修正为“郭”。
通过异常检测,对某一文本位置已经识别出的目标命名实体的有效性进行验证,若异常则进行修正,从而进一步地提高了识别的准确性。
本实施例中,针对OTA平台中的口语化文本,分别采用分词工具、模式匹配算法和深度学习算法进行实体识别并获取识别结果,然后将同一文本位置处对应的识别结果两两或者三个进行比较,在识别结果的类型不一致或者有交集时,基于预设的优先级或采用合并的方式确定该文本位置处的目标命名实体,从而对不同识别方法的识别结果进行冲突检测并调整,另外对目标命名实体进行异常检测并予以纠错,有效地提高了命名实体识别的准确性,减少了人工进行实体的提取,提高了识别效率;同时,便于对酒店知识图谱的构建,大大地提升了下游文本的断句、意图识别等任务的准确性。
实施例3
本实施例的应用场景为OTA平台(如OTA酒店)。其中,命名实体包含人名、地名、机构名、时间、专有名词、酒店房型实体、订单号、手机号、价格等。每天OTA平台都会有大量的对话音频,经过ASR自动识别会后得到大量的口语化文本,这样的口语化文本全部由文字构成,没有任何标点符号。
如图3所示,本实施例的口语化文本中命名实体的识别系统包括目标文本获取模块1、第一识别实体获取模块2、第二识别实体获取模块3、第三识别实体获取模块4、优先级预设模块5、类别获取模块6、判断模块7、目标命名实体获取模块8和命名实体集获取模块9。
目标文本获取模块1用于获取待识别的目标口语化文本;
具体地,获取待处理的对话语音,采用ASR将其转换为目标口语化文本。
第一识别实体获取模块2用于对目标口语化文本进行分词处理,获取至少一个第一识别实体;
第二识别实体获取模块3用于对目标口语化文本进行模式匹配处理,获取至少一个第二识别实体;
第三识别实体获取模块4用于对目标口语化文本进行序列标注处理,获取至少一个第三识别实体;
优先级预设模块5用于预先设置命名实体对应的不同类别的优先级;
类别获取模块6用于获取同一文本位置的第一识别实体、第二识别实体和第三识别实体对应的第一类别、第二类别和第三类别;
判断模块7用于对第一类别、第二类别和第三类别中的至少两种类别进行比较,判断每种类别是否属于同一类别,若否,则选取优先级最高的类别对应的识别实体作为文本位置处的目标命名实体;
命名实体集获取模块9用于根据每个文本位置的目标命名实体获取目标口语化文本对应的目标命名实体集。
本实施例为后续的酒店知识图谱的构建、文本断句、意图识别等工作提供基础支持。
另外,还可以采用其他的识别方法对口语化文本中的命名实体识别以进一步提高本实施例的识别准确度。其中,将这些识别方法得到的识别实体与上述的识别实体进行比较最终得到文本位置处的目标命名实体的步骤与上述过程类似,因此此处就不再赘述。
本实施例中,针对OTA平台中的口语化文本,分别采用分词工具、模式匹配算法和深度学习算法进行实体识别并获取识别结果,然后将同一文本位置处对应的识别结果两两或者三个进行比较,在识别结果的类型不一致时,基于预设的优先级确定该文本位置处的目标命名实体,从而对不同识别方法的识别结果进行冲突检测并调整,有效地提高了命名实体识别的准确性,减少了人工进行实体的提取,降低了人工成本,提高了识别效率;同时,便于对酒店知识图谱的构建,大大地提升了下游文本的断句、意图识别等任务的准确性。
实施例4
如图4所示,本实施例的口语化文本中命名实体的识别系统是对实施例3的进一步改进,具体地:
识别系统还包括预处理模块10,预处理模块10用于对目标口语化文本进行预处理。
具体地,将目标口语化文本进行繁体转简体、大小写处理、数字转中文等处理。
第一识别实体获取模块2包括分词处理单元11、词性信息获取单元12和第一识别实体获取单元13。
分词处理单元11用于采用分词工具对目标口语化文本进行分词处理获取目标分词;
词性信息获取单元12用于获取目标分词的词性信息;
第一识别实体获取单元13用于根据词性信息提取得到出第一识别实体;
其中,分词工具包括但不限于jieba分词工具或HanLP分词工具。
第二识别实体获取模块3用于采用模式匹配算法对目标口语化文本进行模式匹配处理,获取第二识别实体。
第三识别实体获取模块4包括历史文本获取单元14、模型建立单元15和第三识别实体获取单元16。
历史文本获取单元14用于获取多个经过预先实体标注的历史口语化文本;
模型建立单元15用于将每个历史口语化文本作为输入,历史口语化文本的预先实体标注的内容作为输出,建立序列标注模型;
第三识别实体获取单元16用于将目标口语化文本输入至序列标注模型,输出第三识别实体;
其中,序列标注模型包括BILSTM+CRF或BERT+BILSTM+CRF等。
当两种类别或者三种类别不属于同一类别时,判断模块7还用于当对同一文本位置对应的第一识别实体、第二识别实体和第三识别实体中的任意两个识别实体进行比较时,判断两个识别实体是否具有交集,若是,则调用目标命名实体获取模块8选取优先级较高的类别对应的识别实体作为文本位置处的目标命名实体;或,将两个识别实体进行合并处理获取第一合并结果,并将第一合并结果作为文本位置处的目标命名实体;
当对同一文本位置对应的第一识别实体、第二识别实体和第三识别实体中的三个识别实体进行比较时,判断三个识别实体是否具有交集,若是,则调用目标命名实体获取模块8选取优先级最高的类别对应的识别实体作为文本位置处的目标命名实体;或,将三个识别实体进行合并处理获取第二合并结果,并将第二合并结果作为文本位置处的目标命名实体。
目标命名实体获取模块8还用于当同一文本位置处只有第一识别实体、每个第二识别实体和每个第三识别实体中的一个识别实体时,将识别实体作为文本位置处的目标命名实体;
当同一文本位置处只有第一识别实体、每个第二识别实体和每个第三识别实体中的两个识别实体时,则选取优先级较高的类别对应的识别实体作为文本位置处的目标命名实体。
当同一文本位置采用三种识别方法均未得到识别实体时,则确定该文本位置没有命名实体;继续对下一个文本位置采用三种识别方法进行识别,若当前口语化文本中每个文本位置都没有对应的命名实体,则确定当前口语化文本中没有命名实体。
识别系统还包括异常检测模块17和修正模块18。
异常检测模块17用于采用模式匹配算法对每个目标命名实体进行异常检测,获取检测结果;
修正模块18用于当检测结果表征异常时,对目标命名实体进行修正并获取修正后的目标命名实体;
命名实体集获取模块9用于根据修正后的每个文本位置的目标命名实体获取目标口语化文本对应的目标命名实体集。
通过异常检测,对某一文本位置已经识别出的目标命名实体的有效性进行验证,若异常则进行修正,从而进一步地提高了识别的准确性。
本实施例的工作原理可以结合实施例2中的实例部分予以理解,因此此处就不再赘述。
本实施例中,针对OTA平台中的口语化文本,分别采用分词工具、模式匹配算法和深度学习算法进行实体识别并获取识别结果,然后将同一文本位置处对应的识别结果两两或者三个进行比较,在识别结果的类型不一致或者有交集时,基于预设的优先级或采用合并的方式确定该文本位置处的目标命名实体,从而对不同识别方法的识别结果进行冲突检测并调整,另外对目标命名实体进行异常检测并予以纠错,有效地提高了命名实体识别的准确性,减少了人工进行实体的提取,提高了识别效率;同时,便于对酒店知识图谱的构建,大大地提升了下游文本的断句、意图识别等任务的准确性。
实施例5
图5为本发明实施例5提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例1或2中任意一实施例中的口语化文本中命名实体的识别方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1或2中任意一实施例中的口语化文本中命名实体的识别方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1或2中任意一实施例中的口语化文本中命名实体的识别方法中的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1或2中任意一实施例中的口语化文本中命名实体的识别方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种口语化文本中命名实体的识别方法,其特征在于,所述识别方法包括:
获取待识别的目标口语化文本;
对所述目标口语化文本进行分词处理,获取至少一个第一识别实体;
对所述目标口语化文本进行模式匹配处理,获取至少一个第二识别实体;
对所述目标口语化文本进行序列标注处理,获取至少一个第三识别实体;
预先设置命名实体对应的不同类别的优先级;
获取同一文本位置的所述第一识别实体、所述第二识别实体和所述第三识别实体对应的第一类别、第二类别和第三类别;
对所述第一类别、所述第二类别和所述第三类别中的至少两种类别进行比较,判断每种类别是否属于同一类别,若否,则选取优先级最高的类别对应的识别实体作为所述文本位置处的目标命名实体;
根据每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集。
2.如权利要求1所述的口语化文本中命名实体的识别方法,其特征在于,所述根据每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集的步骤包括:
采用模式匹配算法对每个所述目标命名实体进行异常检测,获取检测结果;
当所述检测结果表征异常时,对所述目标命名实体进行修正并获取修正后的所述目标命名实体;
根据修正后的每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集;和/或,
所述获取待识别的目标口语化文本的步骤之后、所述对所述目标口语化文本进行分词处理的步骤之前还包括:
对所述目标口语化文本进行预处理。
3.如权利要求1所述的口语化文本中命名实体的识别方法,其特征在于,当两种类别或者三种类别不属于同一类别时,所述识别方法还包括:
当对同一文本位置对应的所述第一识别实体、所述第二识别实体和所述第三识别实体中的任意两个识别实体进行比较时,判断两个识别实体是否具有交集,若是,则选取优先级较高的类别对应的识别实体作为所述文本位置处的所述目标命名实体;或,将两个识别实体进行合并处理获取第一合并结果,并将所述第一合并结果作为所述文本位置处的所述目标命名实体;
当对同一文本位置对应的所述第一识别实体、所述第二识别实体和所述第三识别实体中的三个识别实体进行比较时,判断三个识别实体是否具有交集,若是,则选取优先级最高的类别对应的识别实体作为所述文本位置处的所述目标命名实体;或,将三个识别实体进行合并处理获取第二合并结果,并将所述第二合并结果作为所述文本位置处的所述目标命名实体。
4.如权利要求1所述的口语化文本中命名实体的识别方法,其特征在于,所述识别方法还包括:
当同一文本位置处只有所述第一识别实体、每个所述第二识别实体和每个所述第三识别实体中的一个识别实体时,将所述识别实体作为所述文本位置处的目标命名实体;
当同一文本位置处只有所述第一识别实体、每个所述第二识别实体和每个所述第三识别实体中的两个识别实体时,则选取优先级较高的类别对应的识别实体作为所述文本位置处的目标命名实体。
5.如权利要求1所述的口语化文本中命名实体的识别方法,其特征在于,所述对所述目标口语化文本进行分词处理,获取至少一个第一识别实体的步骤包括:
采用分词工具对所述目标口语化文本进行分词处理获取目标分词;
获取所述目标分词的词性信息;
根据所述词性信息提取得到出所述第一识别实体;和/或,
所述对所述目标口语化文本进行模式匹配处理,获取至少一个第二识别实体步骤包括:
采用模式匹配算法对所述目标口语化文本进行模式匹配处理,获取所述第二识别实体;和/或,
所述对所述目标口语化文本进行序列标注处理,获取至少一个第三识别实体的步骤包括:
获取多个经过预先实体标注的历史口语化文本;
将每个所述历史口语化文本作为输入,所述历史口语化文本的预先实体标注的内容作为输出,建立序列标注模型;
将所述目标口语化文本输入至所述序列标注模型,输出所述第三识别实体。
6.一种口语化文本中命名实体的识别系统,其特征在于,所述识别系统包括目标文本获取模块、第一识别实体获取模块、第二识别实体获取模块、第三识别实体获取模块、优先级预设模块、类别获取模块、判断模块、目标命名实体获取模块和命名实体集获取模块;
所述目标文本获取模块用于获取待识别的目标口语化文本;
所述第一识别实体获取模块用于对所述目标口语化文本进行分词处理,获取至少一个第一识别实体;
所述第二识别实体获取模块用于对所述目标口语化文本进行模式匹配处理,获取至少一个第二识别实体;
所述第三识别实体获取模块用于对所述目标口语化文本进行序列标注处理,获取至少一个第三识别实体;
所述优先级预设模块用于预先设置命名实体对应的不同类别的优先级;
所述类别获取模块用于获取同一文本位置的所述第一识别实体、所述第二识别实体和所述第三识别实体对应的第一类别、第二类别和第三类别;
所述判断模块用于对所述第一类别、所述第二类别和所述第三类别中的至少两种类别进行比较,判断每种类别是否属于同一类别,若否,则选取优先级最高的类别对应的识别实体作为所述文本位置处的目标命名实体;
所述命名实体集获取模块用于根据每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集。
7.如权利要求6所述的口语化文本中命名实体的识别系统,其特征在于,所述识别系统还包括异常检测模块和修正模块;
所述异常检测模块用于采用模式匹配算法对每个所述目标命名实体进行异常检测,获取检测结果;
所述修正模块用于当所述检测结果表征异常时,对所述目标命名实体进行修正并获取修正后的所述目标命名实体;
所述命名实体集获取模块用于根据修正后的每个所述文本位置的所述目标命名实体获取所述目标口语化文本对应的目标命名实体集;和/或,
所述识别系统还包括预处理模块;
所述预处理模块用于对所述目标口语化文本进行预处理。
8.如权利要求6所述的口语化文本中命名实体的识别系统,其特征在于,当两种类别或者三种类别不属于同一类别时,所述判断模块还用于当对同一文本位置对应的所述第一识别实体、所述第二识别实体和所述第三识别实体中的任意两个识别实体进行比较时,判断两个识别实体是否具有交集,若是,则调用所述目标命名实体获取模块选取优先级较高的类别对应的识别实体作为所述文本位置处的所述目标命名实体;或,将两个识别实体进行合并处理获取第一合并结果,并将所述第一合并结果作为所述文本位置处的所述目标命名实体;
当对同一文本位置对应的所述第一识别实体、所述第二识别实体和所述第三识别实体中的三个识别实体进行比较时,判断三个识别实体是否具有交集,若是,则调用所述目标命名实体获取模块选取优先级最高的类别对应的识别实体作为所述文本位置处的所述目标命名实体;或,将三个识别实体进行合并处理获取第二合并结果,并将所述第二合并结果作为所述文本位置处的所述目标命名实体。
9.如权利要求6所述的口语化文本中命名实体的识别系统,其特征在于,所述目标命名实体获取模块还用于当同一文本位置处只有所述第一识别实体、每个所述第二识别实体和每个所述第三识别实体中的一个识别实体时,将所述识别实体作为所述文本位置处的目标命名实体;
当同一文本位置处只有所述第一识别实体、每个所述第二识别实体和每个所述第三识别实体中的两个识别实体时,则选取优先级较高的类别对应的识别实体作为所述文本位置处的目标命名实体。
10.如权利要求6所述的口语化文本中命名实体的识别系统,其特征在于,所述第一识别实体获取模块包括分词处理单元、词性信息获取单元和第一识别实体获取单元;
所述分词处理单元用于采用分词工具对所述目标口语化文本进行分词处理获取目标分词;
所述词性信息获取单元用于获取所述目标分词的词性信息;
所述第一识别实体获取单元用于根据所述词性信息提取得到出所述第一识别实体;和/或,
所述第二识别实体获取模块用于采用模式匹配算法对所述目标口语化文本进行模式匹配处理,获取所述第二识别实体;和/或,
所述第三识别实体获取模块包括历史文本获取单元、模型建立单元和第三识别实体获取单元;
所述历史文本获取单元用于获取多个经过预先实体标注的历史口语化文本;
所述模型建立单元用于将每个所述历史口语化文本作为输入,所述历史口语化文本的预先实体标注的内容作为输出,建立序列标注模型;
所述第三识别实体获取单元用于将所述目标口语化文本输入至所述序列标注模型,输出所述第三识别实体。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-5中任一项所述的口语化文本中命名实体的识别方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的口语化文本中命名实体的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368222.8A CN111144118B (zh) | 2019-12-26 | 2019-12-26 | 口语化文本中命名实体的识别方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368222.8A CN111144118B (zh) | 2019-12-26 | 2019-12-26 | 口语化文本中命名实体的识别方法、系统、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144118A true CN111144118A (zh) | 2020-05-12 |
CN111144118B CN111144118B (zh) | 2023-05-12 |
Family
ID=70520512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911368222.8A Active CN111144118B (zh) | 2019-12-26 | 2019-12-26 | 口语化文本中命名实体的识别方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144118B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948536A (zh) * | 2020-11-09 | 2021-06-11 | 袭明科技(广东)有限公司 | 网页简历页面的信息抽取方法和装置 |
CN112966068A (zh) * | 2020-11-09 | 2021-06-15 | 袭明科技(广东)有限公司 | 基于网页信息的简历识别方法和装置 |
CN113204643A (zh) * | 2021-06-23 | 2021-08-03 | 北京明略软件系统有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN113553852A (zh) * | 2021-08-31 | 2021-10-26 | 浪潮通用软件有限公司 | 一种基于神经网络的合同信息提取方法、系统和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN109800407A (zh) * | 2017-11-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
-
2019
- 2019-12-26 CN CN201911368222.8A patent/CN111144118B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN109800407A (zh) * | 2017-11-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
郑秋生;刘守喜;: "基于CRF的互联网文本命名实体识别研究" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948536A (zh) * | 2020-11-09 | 2021-06-11 | 袭明科技(广东)有限公司 | 网页简历页面的信息抽取方法和装置 |
CN112966068A (zh) * | 2020-11-09 | 2021-06-15 | 袭明科技(广东)有限公司 | 基于网页信息的简历识别方法和装置 |
CN113204643A (zh) * | 2021-06-23 | 2021-08-03 | 北京明略软件系统有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN113204643B (zh) * | 2021-06-23 | 2021-11-02 | 北京明略软件系统有限公司 | 一种实体对齐方法、装置、设备及介质 |
CN113553852A (zh) * | 2021-08-31 | 2021-10-26 | 浪潮通用软件有限公司 | 一种基于神经网络的合同信息提取方法、系统和存储介质 |
CN113553852B (zh) * | 2021-08-31 | 2023-06-20 | 浪潮通用软件有限公司 | 一种基于神经网络的合同信息提取方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111144118B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN111144118B (zh) | 口语化文本中命名实体的识别方法、系统、设备和介质 | |
US10522136B2 (en) | Method and device for training acoustic model, computer device and storage medium | |
CN111613212B (zh) | 语音识别方法、系统、电子设备和存储介质 | |
CN111212190B (zh) | 一种基于话术策略管理的对话管理方法、装置和系统 | |
CN110415679B (zh) | 语音纠错方法、装置、设备和存储介质 | |
CN110413788B (zh) | 会话文本的场景类别的预测方法、系统、设备和存储介质 | |
CN105931644A (zh) | 一种语音识别方法及移动终端 | |
CN111177186B (zh) | 基于问题检索的单句意图识别方法、装置和系统 | |
CN111125317A (zh) | 对话型文本分类的模型训练、分类、系统、设备和介质 | |
CN111753524B (zh) | 文本断句位置的识别方法及系统、电子设备及存储介质 | |
CN109785829B (zh) | 一种基于语音控制的客服辅助方法和系统 | |
CN111753530B (zh) | 一种语句处理方法、装置、设备及介质 | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN109947924B (zh) | 对话系统训练数据构建方法、装置、电子设备及存储介质 | |
CN111695338A (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN112671985A (zh) | 基于深度学习的坐席质检方法、装置、设备及存储介质 | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
CN112084752A (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN112487186A (zh) | 一种人人对话日志分析方法、系统、设备及存储介质 | |
KR102017229B1 (ko) | 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 | |
CN114385694A (zh) | 一种数据加工处理方法、装置、计算机设备及存储介质 | |
CN110910905B (zh) | 静音点检测方法及装置、存储介质、电子设备 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |