CN113887232A - 一种对话信息的命名实体识别方法、装置和电子设备 - Google Patents

一种对话信息的命名实体识别方法、装置和电子设备 Download PDF

Info

Publication number
CN113887232A
CN113887232A CN202111479645.4A CN202111479645A CN113887232A CN 113887232 A CN113887232 A CN 113887232A CN 202111479645 A CN202111479645 A CN 202111479645A CN 113887232 A CN113887232 A CN 113887232A
Authority
CN
China
Prior art keywords
entity
user question
question text
text
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111479645.4A
Other languages
English (en)
Other versions
CN113887232B (zh
Inventor
张献涛
林小俊
支涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunji Technology Co Ltd
Original Assignee
Beijing Yunji Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunji Technology Co Ltd filed Critical Beijing Yunji Technology Co Ltd
Priority to CN202111479645.4A priority Critical patent/CN113887232B/zh
Publication of CN113887232A publication Critical patent/CN113887232A/zh
Application granted granted Critical
Publication of CN113887232B publication Critical patent/CN113887232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种对话信息的命名实体识别方法、装置和电子设备,其中,该方法包括:获取用户与机器人之间的多轮对话文本,多轮对话文本,包括:用户问题文本和机器人回答文本;从多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对用户问题文本进行处理,得到用户问题文本中待识别的命名实体;确定待识别的所述命名实体的命名实体类型。通过本发明实施例提供的对话信息的命名实体识别方法、装置和电子设备,可以将实体词典无法识别的命名实体查找出来,提高了命名实体的识别效率。

Description

一种对话信息的命名实体识别方法、装置和电子设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种对话信息的命名实体识别方法、装置和电子设备。
背景技术
目前,随着机器人的应用越来越多,酒店、商超、医院、写字楼等场所中都会涉及到用户与机器人交互的情形,在不同场所下都会有对应的命名实体,命名实体的发现与识别是用户与机器人交互过程中很重要的环节。
为了对不同场所下的命名实体进行发现与识别,可以使用实体词典,对待识别的命名实体进行识别,但对于未记录到实体词典中的命名实体无法进行识别。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种对话信息的命名实体识别方法、装置和电子设备。
第一方面,本发明实施例提供了一种对话信息的命名实体识别方法,包括:
获取用户与机器人之间的多轮对话文本,所述多轮对话文本,包括:用户问题文本和机器人回答文本;
从所述多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体;
确定待识别的所述命名实体的命名实体类型。
第二方面,本发明实施例还提供了一种对话信息的命名实体识别装置,包括:
获取模块,用于获取用户与机器人之间的多轮对话文本,所述多轮对话文本,包括:用户问题文本和机器人回答文本;
处理模块,用于从所述多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体;
确定模块,用于确定待识别的所述命名实体的命名实体类型。
第三方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供了一种电子设备,所述电子设备包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行上述第一方面所述的方法的步骤。
本发明实施例上述第一方面至第四方面提供的方案中,通过获取用户与机器人之间的多轮对话文本,从多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对用户问题文本进行处理,得到用户问题文本中待识别的命名实体,与相关技术中使用实体词典对命名实体进行识别的方式相比,可以利用依存句法分析的方式,从多轮对话文本中找出待识别的命名实体,将实体词典无法识别的命名实体查找出来,提高了命名实体的识别效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例1所提供的一种对话信息的命名实体识别方法的流程图;
图2示出了本发明实施例2所提供的一种对话信息的命名实体识别装置的结构示意图;
图3示出了本发明实施例3所提供的一种电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
目前,随着机器人的应用越来越多,酒店、商超、医院、写字楼等场所中都会涉及到用户与机器人交互的情形,在上述场所下都会有对应的命名实体,命名实体的发现与识别是用户与机器人交互过程中很重要的环节。
为了对不同场所下的命名实体进行发现与识别,机器人可以使用机器人自身中存储的实体词典,对用户与机器人对话中存在的待识别的命名实体进行识别,但对于未记录到实体词典中的命名实体无法进行识别,导致机器人对命名实体的识别效率较低。
为了解决机器人对命名实体的识别效率较低的问题,本申请提出的对话信息的命名实体识别方法,采用依存句法分析的方式对用户与机器人对话中的用户问题文本进行分析,从而根据用户问题文本的上下文的依存关系,确定出用户问题文本中所有的待识别的命名实体,并对这些待识别的命名实体进行识别,大大提高了命名实体的识别效率。
基于此,本申请各实施例提出一种对话信息的命名实体识别方法、装置和电子设备,通过获取用户与机器人之间的多轮对话文本,从多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对用户问题文本进行处理,得到用户问题文本中待识别的命名实体,与相关技术中使用实体词典对命名实体进行识别的方式相比,可以利用依存句法分析的方式,从多轮对话文本中找出待识别的命名实体,将实体词典无法识别的命名实体查找出来,提高了命名实体的识别效率。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
实施例1
本实施例提出的对话信息的命名实体识别方法的执行主体是设置在酒店、商超、医院、写字楼等场所中的机器人。机器人通过在机器人自身设置的计算设备对进入上述场所中的客人所咨询的问题进行回答。
参见图1所示的一种对话信息的命名实体识别方法的流程图,本实施例提出一种对话信息的命名实体识别方法,包括以下具体步骤:
步骤100、获取用户与机器人之间的多轮对话文本,所述多轮对话文本,包括:用户问题文本和机器人回答文本。
在上述步骤100中,所述多轮对话文本,就是包括至少两个用户问题文本以及至少两个机器人回答文本的对话文本。
在一个实施方式中,所述多轮对话文本可以如下示例所示:
“用户:附近好吃的西式快餐都有什么
Figure 100002_DEST_PATH_IMAGE001
机器人:附近的西式快餐有肯德基、麦当劳和汉堡王。
用户:好的,附近的麦当劳怎么走
Figure 756359DEST_PATH_IMAGE001
机器人:请您从这里直走100米后右转再走50米就看到了”。
通过以上的内容可以确定,上述多轮对话文本,包括:两轮对话,所以上述多轮对话文本包括:两个用户问题文本以及两个机器人回答文本。
其中,两个用户问题文本,是“附近好吃的西式快餐都有什么
Figure 735817DEST_PATH_IMAGE001
”和“好的,附近的麦当劳怎么走”。
两个机器人回答文本,是“请您从这里直走100米后右转再走50米就看到了”和“附近的西式快餐有肯德基、麦当劳和汉堡王”。
步骤102、从所述多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体。
在上述步骤102中,为了利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体,可以执行以下步骤(1)至步骤(4):
(1)对所述用户问题文本进行分词操作,得到分词操作后的所述用户问题文本;
(2)利用命名实体分析器对分词操作后的所述用户问题文本进行处理,得到所述用户问题文本的实体词;
(3)利用所述依存句法分析器对所述用户问题文本的实体词进行处理,得到所述用户问题文本的实体词的依赖次数;
(4)基于所述用户问题文本的实体词的依赖次数,得到所述用户问题文本中待识别的命名实体。
在上述步骤(2)中,所述命名实体分析器,预先设置并运行在所述机器人中,可以是但不限于:斯坦福大学的自然语言处理(StanfordNLP)工具和层叠马尔科夫模型。
分词操作后的所述用户问题文本,就是组成所述用户问题文本中记载的用户问题的词语。
利用命名实体分析器对分词操作后的所述用户问题文本进行处理,得到所述用户问题文本的实体词的具体实现过程是现有技术,这里不再赘述。
在上述步骤(3)中,所述依存句法分析器,预先设置并运行在所述机器人中, 可以是但不限于:百度中文依存句法分析工具(Baidu Dependency Parser,DDParser)和张岳句法分析器(Zhangyue parser,Zpar工具)。
利用所述依存句法分析器对所述用户问题文本的实体词进行处理,得到所述用户问题文本的实体词的依赖次数的具体过程是现有技术,这里不再赘述。
在上述步骤(4)中,为了基于所述用户问题文本的实体词的依赖次数,得到所述用户问题文本中待识别的命名实体,可以执行以下步骤(41)至步骤(42):
(41)对所述用户问题文本中的所述实体词进行去除重复实体词处理,并对进行完去除重复实体词处理后的实体词进行停用词删除操作,得到删除停用词后的实体词;
(42)将删除停用词后的实体词中的已知命名实体去掉,得到所述用户问题文本的候选实体词,并基于所述候选实体词的依赖次数,得到所述用户问题文本中待识别的命名实体。
在上述步骤(41)中,在对所述用户问题文本中的所述实体词进行去除重复实体词处理的同时,需要对进行去重处理的实体词的依赖次数进行累计,得到去重操作的实体词准确的依赖次数。
示例地:如:实体词“你”在用户问题文本中出现了两次,依赖次数分别是1和2;那么对所述用户问题文本中的所述实体词“你”进行去除重复实体词处理后,对进行去重处理的实体词的依赖次数进行累加计算1+2后,得到实体词“你”的依赖次数是:3。
在上述步骤(42)中,可以利用在机器人内部运行的命名实体集合(NERset)检测工具,对删除停用词后的实体词是否为已知的命名实体进行判断,并在判断所述删除停用词后的实体词为已知的命名实体,将删除停用词后的实体词中的已知命名实体去掉,得到所述用户问题文本的候选实体词。
所述NERset工具对删除停用词后的实体词是否为已知的命名实体进行判断的具体过程是现有技术,这里不再赘述。
而且,在上述步骤(42)中,为了基于所述候选实体词的依赖次数,得到所述用户问题文本中待识别的命名实体,可以执行以下步骤(421)至步骤(424):
(421)从所述候选实体词的依赖次数中,确定出所述依赖次数的最大值;
(422)统计获取到的所述用户问题文本的数量,得到统计结果,并将所述统计结果确定为用户与机器人的对话次数;
(423)通过以下公式对所述候选实体词进行评分:
Figure 100002_DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE003
表示所述候选实体词的评分;
Figure 100002_DEST_PATH_IMAGE004
表示候选实体词的依赖次数;
Figure 100002_DEST_PATH_IMAGE005
表示依赖次数的最大值;
Figure 100002_DEST_PATH_IMAGE006
表示用户与机器人的对话次数;
Figure 100002_DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
表示设定值;
(424)将所述评分大于所述用户与机器人的对话次数的候选实体词确定为所述用户问题文本中待识别的命名实体。
在上述步骤(422)中,通过上述多轮对话文本示例:
“用户:附近好吃的西式快餐都有什么
Figure 764821DEST_PATH_IMAGE001
机器人:附近的西式快餐有肯德基、麦当劳和汉堡王。
用户:好的,附近的麦当劳怎么走
Figure 973080DEST_PATH_IMAGE001
机器人:请您从这里直走100米后右转再走50米就看到了”。
可以确定所述用户问题文本的数量为2;那么机器人可以确定用户与机器人的对话次数为2。
在上述步骤(423)中,在一个实施方式中,
Figure 787452DEST_PATH_IMAGE007
可以设置为2;
Figure 609915DEST_PATH_IMAGE008
可以设置为1。
当然,
Figure 939265DEST_PATH_IMAGE007
Figure 138165DEST_PATH_IMAGE008
还可以根据实际情况,设置为其他数值,这里不再一一赘述。
在上述步骤(424)中,所述评分大于所述用户与机器人的对话次数,说明有高频的未识别的命名实体经常出现在用户和机器人的对话中,需要进行命名实体识别的操作。
在通过以上步骤102得到所述用户问题文本中待识别的命名实体后,可以继续执行以下步骤104,确定出待识别的所述命名实体的命名实体类型。
步骤104、确定待识别的所述命名实体的命名实体类型。
在上述步骤104中,为了确定待识别的所述命名实体的命名实体类型,可以执行以下步骤(1)至步骤(7):
(1)获取实体类型集合,所述实体类型集合中存储有至少两个实体类型;
(2)将所述需要确定实体类型的命名实体与至少两个实体类型中的不同实体类型分别进行组合,得到分别包含所述需要确定实体类型的命名实体与不同所述实体类型的多个第一搜索指令;
(3)将所述多个第一搜索指令中的各第一搜索指令分别输入到搜索引擎中,得到与各第一搜索指令分别对应的第一搜索结果,其中,各所述第一搜索结果中携带有不同的第一搜索结果数量;
(4)将所述需要确定实体类型的命名实体与预设短语进行组合,得到包含所述需要确定实体类型的命名实体与预设短语的第二搜索指令;
(5)将所述第二搜索指令中输入到搜索引擎中,得到与第二搜索指令对应的第二搜索结果,其中,所述第二搜索结果中携带有第二搜索结果数量;
(6)从各所述第一搜索结果中携带的不同第一搜索结果数量中确定出最大的第一搜索结果数量,计算所述最大的第一搜索结果数量与所述第二搜索结果数量的比值;
(7)当所述比值大于比值阈值时,将得到包括所述最大的第一搜索结果数量的第一搜索结果的第一搜索指令中包含的实体类型确定为所述命名实体的命名实体类型。
在上述步骤(1)中,所述实体类型集合,包括但不限于:人物名称、地点名称和组织名称。
在上述步骤(2)中,若需要确定实体类型的命名实体是A,那么将需要确定实体类型的命名实体与上述不同实体类型分别进行组合后。得到的多个第一搜索指令可以分别是:“A是人物名称”;“A是地点名称”和“A是组织名称”。
在上述步骤(3)中,所述搜索引擎,可以运行在机器人内部,用于在互联网上对第一搜索指令进行搜索,并得到各第一搜索指令分别对应的第一搜索结果。
在一个实施方式中,第一搜索指令是“A是人物名称”的第一搜索结果中携带的第一搜索结果数量是n;第一搜索指令是“A是地点名称”的第一搜索结果中携带的第一搜索结果数量是m;第一搜索指令是“A是组织名称”的第一搜索结果中携带的第一搜索结果数量是k;其中,n和m都比k小。
在上述步骤(4)中,所述预设短语,预先缓存在所述机器人中。
所述预设短语,可以是但不限于:“什么”和“啥”表达不确定含义的虚词。
那么,在一个实施方式中,得到的第二搜索指令可以是:“A是什么”。
在上述步骤(5)中,第二搜索指令是“A是什么”的第二搜索结果中携带的第二搜索结果数量是p;p是远远大于n、m和k的数量。
在上述步骤(6)中,各所述第一搜索结果中携带的不同第一搜索结果数量中最大的第一搜索结果数量是k。
通过以下公式1计算所述最大的第一搜索结果数量与所述第二搜索结果数量的比值:
q=k/p (1)
其中,q表示所述最大的第一搜索结果数量与所述第二搜索结果数量的比值。
在上述步骤(7)中,所述比值阈值,缓存在所述机器人中。
所述比值阈值可以设置为0.01至0.02之间的任意数值,这里不再一一赘述。
在一个实施方式中,若q大于比值阈值,那么可以确定A的命名实体是组织名称。
以上,是对机器人可以理解并回答用户提出的问题语句时,进行命名实体识别的过程,但在有些情况下,机器人不能理解用户的意思,那么机器人就会向用户反馈未理解用户意思的语句(如:我不太明白您的意思),导致用户询问失败,那么在这种情况下,为了进行命名实体识别的过程,本实施例提出的对话信息的命名实体识别方法,还可以执行以下具体步骤(10)至步骤(11):
(10)当所述多轮对话文本携带有问题不理解标识时,从所述多轮对话文本中获取用户问题文本,并对所述用户问题文本进行处理,得到所述用户问题文本的各实体词;
(11)将所述用户问题文本的各实体词确定为所述用户问题文本中待识别的命名实体,并继续执行所述获取实体类型集合,所述实体类型集合中存储有至少两个实体类型步骤。
在上述步骤(10)中,若机器人回答客人提出的问题时出现“我不太明白您的意思”这样的回答时,机器人确定机器人自身不能理解用户的意思;那么,机器人就会在客人停止询问后生成的多轮对话文本中设置问题不理解标识。
所述问题不理解标识,预先缓存在所述机器人中,用于标识出不能理解用户意思的多轮对话文本。
上述对所述用户问题文本进行处理,得到所述用户问题文本的各实体词的具体过程,与上述步骤102中为了利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体,执行的具体步骤(1)至步骤(2)的过程类似,这里不再赘述。
在上述步骤(11)中,继续执行所述获取实体类型集合,所述实体类型集合中存储有至少两个实体类型步骤的意思,就是继续执行上述确定待识别的所述命名实体的命名实体类型时执行的步骤(1)至步骤(7)的过程,确定出待识别的所述命名实体的命名实体类型。
综上所述,本实施例提出一种命名实体识别方法,通过获取用户与机器人之间的多轮对话文本,从多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对用户问题文本进行处理,得到用户问题文本中待识别的命名实体,与相关技术中使用实体词典对命名实体进行识别的方式相比,可以利用依存句法分析的方式,从多轮对话文本中找出待识别的命名实体,将实体词典无法识别的命名实体查找出来,提高了命名实体的识别效率。
实施例2
本实施例提出一种对话信息的命名实体识别装置,用于执行上述实施例1提出的对话信息的命名实体识别方法。
参见图2所示的一种对话信息的命名实体识别装置的结构示意图,本实施例提出一种对话信息的命名实体识别装置,包括:
获取模块200,用于获取用户与机器人之间的多轮对话文本,所述多轮对话文本,包括:用户问题文本和机器人回答文本;
处理模块202,用于从所述多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体;
确定模块204,用于确定待识别的所述命名实体的命名实体类型。
具体地,所述处理模块202,用于利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体,包括:
对所述用户问题文本进行分词操作,得到分词操作后的所述用户问题文本;
利用命名实体分析器对分词操作后的所述用户问题文本进行处理,得到所述用户问题文本的实体词;
利用所述依存句法分析器对所述用户问题文本的实体词进行处理,得到所述用户问题文本的实体词的依赖次数;
基于所述用户问题文本的实体词的依赖次数,得到所述用户问题文本中待识别的命名实体。
综上所述,本实施例提出一种命名实体识别装置,通过获取用户与机器人之间的多轮对话文本,从多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对用户问题文本进行处理,得到用户问题文本中待识别的命名实体,与相关技术中使用实体词典对命名实体进行识别的方式相比,可以利用依存句法分析的方式,从多轮对话文本中找出待识别的命名实体,将实体词典无法识别的命名实体查找出来,提高了命名实体的识别效率。
实施例3
本实施例提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例1描述的命名实体识别方法的步骤。具体实现可参见方法实施例1,在此不再赘述。
此外,参见图3所示的一种电子设备的结构示意图,本实施例还提出一种电子设备,上述电子设备包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述电子设备包括有存储器55。
本实施例中,上述电子设备还包括:存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序,经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤(1)至步骤(3):
(1)获取用户与机器人之间的多轮对话文本,所述多轮对话文本,包括:用户问题文本和机器人回答文本;
(2)从所述多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体;
(3)确定待识别的所述命名实体的命名实体类型。
收发机53,用于在处理器52的控制下接收和发送数据。
其中,总线架构(用总线51来代表),总线51可以包括任意数量的互联的总线和桥,总线51将包括由处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质,还可以提供用户接口56,例如小键盘、显示器、扬声器、麦克风、操纵杆。
处理器52负责管理总线51和通常的处理,如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。
可选的,处理器52可以是但不限于:中央处理器、单片机、微处理器或者可编程逻辑器件。
可以理解,本发明实施例中的存储器55可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器 (Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器 (Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器55存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:操作系统551和应用程序552。
其中,操作系统551,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序552,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。
综上所述,本实施例提出的一种计算机可读存储介质和电子设备,通过获取用户与机器人之间的多轮对话文本,从多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对用户问题文本进行处理,得到用户问题文本中待识别的命名实体,与相关技术中使用实体词典对命名实体进行识别的方式相比,可以利用依存句法分析的方式,从多轮对话文本中找出待识别的命名实体,将实体词典无法识别的命名实体查找出来,提高了命名实体的识别效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种对话信息的命名实体识别方法,其特征在于,包括:
获取用户与机器人之间的多轮对话文本,所述多轮对话文本,包括:用户问题文本和机器人回答文本;
从所述多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体;
确定待识别的所述命名实体的命名实体类型。
2.根据权利要求1所述的方法,其特征在于,利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体,包括:
对所述用户问题文本进行分词操作,得到分词操作后的所述用户问题文本;
利用命名实体分析器对分词操作后的所述用户问题文本进行处理,得到所述用户问题文本的实体词;
利用所述依存句法分析器对所述用户问题文本的实体词进行处理,得到所述用户问题文本的实体词的依赖次数;
基于所述用户问题文本的实体词的依赖次数,得到所述用户问题文本中待识别的命名实体。
3.根据权利要求2所述的方法,其特征在于,基于所述用户问题文本的实体词的依赖次数,得到所述用户问题文本中待识别的命名实体,包括:
对所述用户问题文本中的所述实体词进行去除重复实体词处理,并对进行完去除重复实体词处理后的实体词进行停用词删除操作,得到删除停用词后的实体词;
将删除停用词后的实体词中的已知命名实体去掉,得到所述用户问题文本的候选实体词,并基于所述候选实体词的依赖次数,得到所述用户问题文本中待识别的命名实体。
4.根据权利要求3所述的方法,其特征在于,基于所述候选实体词的依赖次数,得到所述用户问题文本中待识别的命名实体,包括:
从所述候选实体词的依赖次数中,确定出所述依赖次数的最大值;
统计获取到的所述用户问题文本的数量,得到统计结果,并将所述统计结果确定为用户与机器人的对话次数;
通过以下公式对所述候选实体词进行评分:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示所述候选实体词的评分;
Figure DEST_PATH_IMAGE003
表示候选实体词的依赖次数;
Figure DEST_PATH_IMAGE004
表示依赖次数的最大值;
Figure DEST_PATH_IMAGE005
表示用户与机器人的对话次数;
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
表示设定值;
将所述评分大于所述用户与机器人的对话次数的候选实体词确定为所述用户问题文本中待识别的命名实体。
5.根据权利要求4所述的方法,其特征在于,确定待识别的所述命名实体的命名实体类型,包括:
获取实体类型集合,所述实体类型集合中存储有至少两个实体类型;
将需要确定实体类型的命名实体与至少两个实体类型中的不同实体类型分别进行组合,得到分别包含所述需要确定实体类型的命名实体与不同所述实体类型的多个第一搜索指令;
将所述多个第一搜索指令中的各第一搜索指令分别输入到搜索引擎中,得到与各第一搜索指令分别对应的第一搜索结果,其中,各所述第一搜索结果中携带有不同的第一搜索结果数量;
将所述需要确定实体类型的命名实体与预设短语进行组合,得到包含所述需要确定实体类型的命名实体与预设短语的第二搜索指令;
将所述第二搜索指令中输入到搜索引擎中,得到与第二搜索指令对应的第二搜索结果,其中,所述第二搜索结果中携带有第二搜索结果数量;
从各所述第一搜索结果中携带的不同第一搜索结果数量中确定出最大的第一搜索结果数量,计算所述最大的第一搜索结果数量与所述第二搜索结果数量的比值;
当所述比值大于比值阈值时,将得到包括所述最大的第一搜索结果数量的第一搜索结果的第一搜索指令中包含的实体类型确定为所述命名实体的命名实体类型。
6.根据权利要求5所述的方法,其特征在于,还包括:
当所述多轮对话文本携带有问题不理解标识时,从所述多轮对话文本中获取用户问题文本,并对所述用户问题文本进行处理,得到所述用户问题文本的各实体词;
将所述用户问题文本的各实体词确定为所述用户问题文本中待识别的命名实体,并继续执行所述获取实体类型集合,所述实体类型集合中存储有至少两个实体类型步骤。
7.一种对话信息的命名实体识别装置,其特征在于,包括:
获取模块,用于获取用户与机器人之间的多轮对话文本,所述多轮对话文本,包括:用户问题文本和机器人回答文本;
处理模块,用于从所述多轮对话文本中获取用户问题文本,并利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体;
确定模块,用于确定待识别的所述命名实体的命名实体类型。
8.根据权利要求7所述的装置,其特征在于,所述处理模块,用于利用依存句法分析的方式对所述用户问题文本进行处理,得到所述用户问题文本中待识别的命名实体,包括:
对所述用户问题文本进行分词操作,得到分词操作后的所述用户问题文本;
利用命名实体分析器对分词操作后的所述用户问题文本进行处理,得到所述用户问题文本的实体词;
利用所述依存句法分析器对所述用户问题文本的实体词进行处理,得到所述用户问题文本的实体词的依赖次数;
基于所述用户问题文本的实体词的依赖次数,得到所述用户问题文本中待识别的命名实体。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-6任一项所述的方法的步骤。
10.一种电子设备,其特征在于,所述电子设备包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行权利要求1-6任一项所述的方法的步骤。
CN202111479645.4A 2021-12-07 2021-12-07 一种对话信息的命名实体识别方法、装置和电子设备 Active CN113887232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111479645.4A CN113887232B (zh) 2021-12-07 2021-12-07 一种对话信息的命名实体识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111479645.4A CN113887232B (zh) 2021-12-07 2021-12-07 一种对话信息的命名实体识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113887232A true CN113887232A (zh) 2022-01-04
CN113887232B CN113887232B (zh) 2022-02-22

Family

ID=79015668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111479645.4A Active CN113887232B (zh) 2021-12-07 2021-12-07 一种对话信息的命名实体识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113887232B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110123967A1 (en) * 2009-11-24 2011-05-26 Xerox Corporation Dialog system for comprehension evaluation
CN107562911A (zh) * 2017-09-12 2018-01-09 北京首科长昊医疗科技有限公司 多轮交互概率模型训练方法及自动应答方法
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN110929520A (zh) * 2019-11-25 2020-03-27 北京明略软件系统有限公司 非命名实体对象抽取方法、装置、电子设备及存储介质
CN111353310A (zh) * 2020-02-28 2020-06-30 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN113704460A (zh) * 2021-03-25 2021-11-26 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110123967A1 (en) * 2009-11-24 2011-05-26 Xerox Corporation Dialog system for comprehension evaluation
CN107562911A (zh) * 2017-09-12 2018-01-09 北京首科长昊医疗科技有限公司 多轮交互概率模型训练方法及自动应答方法
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN110929520A (zh) * 2019-11-25 2020-03-27 北京明略软件系统有限公司 非命名实体对象抽取方法、装置、电子设备及存储介质
CN111353310A (zh) * 2020-02-28 2020-06-30 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN113704460A (zh) * 2021-03-25 2021-11-26 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏勇等: "一种基于复合特征的中文地名识别方法", 《武汉大学学报(信息科学版)》 *

Also Published As

Publication number Publication date
CN113887232B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
US10115056B2 (en) Method and apparatus for responding to an inquiry
US10061766B2 (en) Systems and methods for domain-specific machine-interpretation of input data
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
JP7213943B2 (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
CN110268472B (zh) 用于自动化对话系统的检测机构
US11790175B2 (en) System and method for phonetic hashing and named entity linking from output of speech recognition
WO2020233381A1 (zh) 基于语音识别的服务请求方法、装置及计算机设备
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
US9449277B2 (en) Implication determining device, implication determining method and implication determining program determining if hypothesis is a new fact
CN113887232B (zh) 一种对话信息的命名实体识别方法、装置和电子设备
US20230070966A1 (en) Method for processing question, electronic device and storage medium
CN111639160A (zh) 领域识别的方法、交互的方法、电子设备及存储介质
EP4075424B1 (en) Speech recognition method and apparatus
US10296585B2 (en) Assisted free form decision definition using rules vocabulary
US9311291B2 (en) Correcting N-gram probabilities by page view information
WO2021056740A1 (zh) 语言模型构建方法、系统、计算机设备及可读存储介质
CN113886557B (zh) 一种问题回答方法、装置和电子设备
CN116467455A (zh) 情绪识别方法、情绪识别装置、电子设备及存储介质
CN117373698A (zh) 基于会话交互的导医信息获取方法、装置和设备
CN117743518A (zh) 一种基于多阶段归因的情绪原因对抽取方法及系统
CN116775823A (zh) 语义检索方法、装置、设备及存储介质
CN117093601A (zh) 结构化数据的召回方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 702, 7th floor, NO.67, Beisihuan West Road, Haidian District, Beijing 100080

Patentee after: Beijing Yunji Technology Co.,Ltd.

Address before: Room 702, 7th floor, NO.67, Beisihuan West Road, Haidian District, Beijing 100080

Patentee before: BEIJING YUNJI TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder