CN108427707A - 人机问答方法、装置、计算机设备和存储介质 - Google Patents

人机问答方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108427707A
CN108427707A CN201810065420.6A CN201810065420A CN108427707A CN 108427707 A CN108427707 A CN 108427707A CN 201810065420 A CN201810065420 A CN 201810065420A CN 108427707 A CN108427707 A CN 108427707A
Authority
CN
China
Prior art keywords
question sentence
entity
mapping
cosine similarity
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810065420.6A
Other languages
English (en)
Other versions
CN108427707B (zh
Inventor
康平陆
杨新宇
纪超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Asimov Technology Co Ltd
Original Assignee
Shenzhen Asimov Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Asimov Technology Co Ltd filed Critical Shenzhen Asimov Technology Co Ltd
Priority to CN201810065420.6A priority Critical patent/CN108427707B/zh
Publication of CN108427707A publication Critical patent/CN108427707A/zh
Application granted granted Critical
Publication of CN108427707B publication Critical patent/CN108427707B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种人机问答方法、系统、计算机设备和存储介质。该方法包括:获取输入问句;将输入问句作为问句模型的输入,得到问句模型输出的问句向量;利用知识图谱对输入问句进行知识推理,得到多个推理路径;将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;根据问句向量和多个推理路径向量生成余弦相似度集合;从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;根据目标推理路径得到输入问句对应的答案。采用本方法能够提高人机问答的准确性。

Description

人机问答方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种人机问答方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,出现了人机问答技术,可以通过人机问答技术代替或者替换通过人工来回复用户的咨询等。
然而,目前的基于知识图谱的人机问答传统方法,都是先确定问句中的关键词,根据关键词以图搜索的方式确定候选答案。由于传统技术的人机问答方法比较依赖于对关键词的定位,因此只能对一些结构和语义比较单一的问句作出问答。而对于复杂的问句,则无法仅通过提取关键词的技术对复杂的问句作出相应的问答。不仅造成人机问答的准确率低,而且效果不佳。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高人机问答准确性的人机问答方法、装置、计算机设备和存储介质。
一种人机问答方法,该方法包括:
获取输入问句;
将输入问句作为问句模型的输入,得到问句模型输出的问句向量;
利用知识图谱对输入问句进行知识推理,得到多个推理路径;
将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;
根据问句向量和多个推理路径向量生成余弦相似度集合;
从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;
根据目标推理路径得到输入问句对应的答案。
在其中一个实施例中,获取输入问句的步骤之前,包括:获取样本输入语句;对样本输入语句进行正则化处理,得到处理后的样本输入语句;当未检测到处理后的样本输入语句中的实体存在对应的匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系;将样本输入语句中的关系与知识图谱中匹配关系建立映射关系。
在其中一个实施例中,当未检测到处理后的样本输入语句中的实体存在对应匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系的步骤,包括:对处理后的样本输入语句进行分词,得到三元组形式的样本输入语句;检测三元组形式的样本输入语句中实体是否在知识图谱中存在对应的匹配实体,若是,则进入将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤;若否,则将三元组形式的样本输入语句中的实体与知识图谱中对应的匹配实体建立映射关系。
在其中一个实施例中,将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤,包括:对处理后的样本输入语句进行分词;对通过分词所得到的词语进行实体抽取;在知识图谱中查找连接实体与实体之间的匹配关系,将处理后的样本输入语句中连接实体与实体之间的关系与查找到的匹配关系建立映射关系。
在其中一个实施例中,根据问句向量和多个推理路径向量生成余弦相似度集合的步骤,包括:将问句向量作为余弦相似度模型的输入,得到余弦相似度模型输出的问句向量余弦相似度;将多个推理路径向量作为余弦相似度模型的输入,得到余弦相似度模型输出的多个推理路径向量余弦相似度;根据问句向量余弦相似度和多个推理路径向量余弦相似度计算得到多个余弦相似度,得到由多个余弦相似度组成的余弦相似度集合。
在其中一个实施例中,利用知识图谱对输入问句进行知识推理,得到多个推理路径的步骤,包括:对输入问句进行分词;对通过分词所得到的词语进行实体抽取,得到多个实体;在知识图谱中查找与多个实体对应的映射实体,得到多个映射实体;将多个映射实体与对应的映射关系组合得到多个新的映射组合;在知识图谱中查找对应于多个新的映射组合的多个知识点,将多个知识点对应的路径确定为推理路径。
在其中一个实施例中,根据目标推理路径得到输入问句对应的答案步骤之后,包括:检测目标推理路径是否有对应的答案,若否,则返回从余弦相似度集合中选取目标余弦相似度对应的推理路径的步骤。
一种人机问答装置,该装置包括:
输入问句获取模块,用于获取输入问句;
问句向量获取模块,用于将输入问句作为问句模型的输入,得到问句模型输出的问句向量;
知识推理模块,用于利用知识图谱对输入问句进行知识推理,得到多个推理路径;
推理路径向量获取模块,用于将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;
余弦相似度集合生成模块,用于根据问句向量和多个推理路径向量生成余弦相似度集合;
目标余弦相似度选取模块,用于从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;
答案输出模块,用于根据目标推理路径得到输入问句对应的答案。
一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取输入问句;
将输入问句作为问句模型的输入,得到问句模型输出的问句向量;
利用知识图谱对输入问句进行知识推理,得到多个推理路径;
将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;
根据问句向量和多个推理路径向量生成余弦相似度集合;
从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;
根据目标推理路径得到输入问句对应的答案。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取输入问句;
将输入问句作为问句模型的输入,得到问句模型输出的问句向量;
利用知识图谱对输入问句进行知识推理,得到多个推理路径;
将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;
根据问句向量和多个推理路径向量生成余弦相似度集合;
从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;
根据目标推理路径得到输入问句对应的答案。
上述人机问答方法、装置、计算机设备和存储介质,服务器获取终端发送的输入问句,将输入问句作为问句模型的输入,得到问句模型输出的问句向量,利用知识图谱对输入问句进行知识推理,得到多个推理路径;将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;根据问句向量和多个推理路径向量生成余弦相似度集合;从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;根据目标推理路径得到输入问句对应的答案。通过两个模型不仅可以处理简单的问句,而且针对复杂的问句也能够准确的进行人机问答,提高复杂问句对应的答案的准确性。
附图说明
图1为一个实施例中人机问答方法的应用环境图;
图2为一个实施例中人机问答方法的流程示意图;
图3为一个实施例中获取输入问句的步骤之后的流程示意图;
图4为一个实施例中当未检测到处理后的输入问句中的实体存在对应匹配实体时,将输入问句中的实体与知识图谱中匹配实体建立映射关系的步骤的流程示意图;
图5为一个实施例中将输入问句中的关系与知识图谱中匹配关系建立映射关系的步骤的流程示意图;
图6为一个实施例中根据问句向量和多个推理路径向量生成余弦相似度集合的步骤的流程示意图;
图7为一个实施例中利用知识图谱对输入问句进行知识推理,得到多个推理路径的步骤的流程示意图;
图8为另一个实施例中人机问答方法的流程示意图;
图9为一个实施例中推理路径的原理示意图;
图10为一个实施例中人机问答方法的原理示意图;
图11为一个实施例中人机问答装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的人机问答方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器获取终端发送的输入问句后,将输入问句模型的输入,得到问句模型输出的问句向量;利用知识图谱对输入问句进行知识推理,得到多个推理路径;将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;根据问句向量和多个推理路径向量生成余弦相似度集合;从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;根据目标推理路径得到输入问句对应的答案。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种人机问答方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取输入问句。
其中,这里的问句是按照句子的语气分出来的一类,问句表达的内容是用来寻问一些事情的句子,包括但不限于:一般疑问句、选择疑问句、特殊疑问句和反意疑问句。具体地,可以通过终端相关的应用程序输入问句,这里的应用程序可以是但不限于各种能够输入问句的新闻应用、视频应用、社交网络应用、论坛应用等。
步骤204,将输入问句作为问句模型的输入,得到问句模型输出的问句向量。
其中,问句模型是用于对输入的问句进行语义向量表示的模型,所谓语义向量是问句进行语义计算的向量,即用词向量表示输入的问句。具体地,在终端将获取到的输入问句发送至服务器后,服务器将接收到的输入问句输入已训练好的问句模型,已训练好的问句模型对输入的输入问句进行语义向量计算,输出与输入问句对应的问句向量。
步骤206,利用知识图谱对输入问句进行知识推理,得到多个推理路径。
其中,知识图谱一个根据关键词语和与关键词语之间存在关系的多个文本相互连接而成的语义网络,根据知识图谱可较为直观的获知关键词语与文本之间的关系。也可以将关键词语与文本看作是两个节点,两个节点之间根据存在的实体关系或者非实体关系进行连接,从而组成了关键词语对应的知识图谱。
一般情况下,可根据知识图谱可对输入问句进行知识推理,所谓知识推理是通过对输入问句的解析,再从知识图谱中寻找答案的过程。具体地,在获取到输入问句后,知识图谱可对输入问句进行解析,从知识图谱中寻找与输入问句对应的答案。由于根据知识图谱对输入问句进行知识推理时,知识图谱中包含的仅仅是实体间的二元关系,因此知识图谱中的规则与关系路径会存在对应的关系。也就是说,在对输入问句寻找答案的推理路径会有多个,此时根据有些推理路径寻找的答案是错误答案,或者根据有些推理路径由于知识图谱的规则问题寻找不出答案等。所谓推理路径就是知识图谱寻找各种答案的路径,此时答案包括但不限于正确答案、错误答案以及空答案。
步骤208,将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量。
其中,推理路径模型是用于对输入的推理路径进行向量表示的模型,即用词向量表示推理路径再作为特征输入推理路径模型中进行计算。具体地,在得到多个推理路径后,将多个推理路径依次输入已训练好的推理路径模型,已训练好的推理路径模型对输入的推理路径进行向量计算,输出多个与推理路径对应的推理路径向量。
步骤210,根据问句向量和多个推理路径向量生成余弦相似度集合。
其中,余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度,又可称为余弦相似性。一般情况下,余弦相似度应用于计算文本相似度,将两个文本分别建立两个向量,进一步计算这两个向量的余弦值,最终得出这两个文本在统计学方法中相似度情况。具体地,在得到问句向量和多个推理路径向量后,进一步计算问句向量得到问句向量对应的余弦值以及计算得到多个推理路径向量对应余弦值,根据问句向量对应的余弦值和多个推理路径向量对应的路径得到多个余弦相似度,将最终得到的多个余弦相似度组成余弦相似度集合。
步骤212,从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径。
其中,目标余弦相似度是根据预设规则从余弦相似度集合中选取符合要求的余弦相似度,预设规则包括但不限于先选取余弦相似度最高,然后依次选取直到目标推理路径有对应的答案等规则。由于沿着有些推理路径是寻找不出对应的答案,因此可根据预设规则从预先相似度集合中选取符合要求的余弦相似度。具体地,从余弦相似度集合中选取符合预设规则的目标余弦相似度,由于各个余弦相似度有对应的推理路径向量,推理路径向量有对应的推理路径,因此从余弦相似度集合中选取目标余弦相似度后,将与目标余弦相似度对应的推理路径确定为目标推理路径。
步骤214,根据目标推理路径得到输入问句对应的答案。
具体地,由于推理路径是知识图谱中寻找与输入问句对应答案的路径,因此在获取到目标推理路径后,可进一步根据获取到的目标推理路径查找到与输入问句对应的答案。
上述人机问答方法中,服务器获取终端发送的输入问句,将输入问句作为问句模型的输入,得到问句模型输出的问句向量,利用知识图谱对输入问句进行知识推理,得到多个推理路径;将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;根据问句向量和多个推理路径向量生成余弦相似度集合;从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;根据目标推理路径得到输入问句对应的答案。通过两个模型不仅可以处理简单的问句,而且针对复杂的问句也能够准确的进行人机问答,提高复杂问句对应的答案的准确性。
在一个实施例中,如图3所示,获取输入问句的步骤之前,还包括:
步骤302,获取样本输入语句。
步骤304,对样本输入语句进行正则化处理,得到处理后的样本输入语句。
其中,样本输入语句包括但不限于陈述句、肯定句等。在真实情况下,样本输入语句中含有大量非标准词,所谓非标准词是指包含非汉字字符或者地方方言的词语,将非标准词转换成对应的标准词语的过程可称为正则化处理。具体地,在获取到样本输入语句后,将样本输入语句中的非标准词转换成对应的标准词语,得到处理后的样本输入语句。例如:东北话的输入问句“哪嘎达”,对输入问句进行正则化处理,得到处理后的样本输入语句为“哪里”。
步骤306,当未检测到处理后的样本输入语句中的实体存在对应的匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系。
具体地,由于知识图谱是实体和关系所构成的有向图,是表征实体之间语义关联的网络,其中实体是现实世界中可区分、可识别的事物或概念。例如包括但不限于:客观对象:人物、地点、机构等,抽象事件:电影、奖项、赛事等。因此,在对样本输入语句进行正则化处理得到处理后的样本输入语句后,检测处理后的样本输入语句中的实体在知识图谱中是否有对应的匹配实体。若未检测到样本输入语句中的实体在知识图谱中存在对应的匹配实体,则说明在知识图谱中未存在该样本输入语句中实体对应的匹配实体,因此将样本输入语句中的实体与知识图谱中匹配实体建立映射关系。其中匹配实体可为包含样本输入语句中实体的实体,如输入问句中的实体为:迈克尔乔丹,而在知识图谱中表示“迈克尔乔丹”的时候使用的并不是全称,而使用“乔丹”这个简称来表示一个实体,此时将“迈克尔乔丹”和“乔丹”建立映射关系,即“迈克尔乔丹”与“乔丹”进行关联。
进一步地,由于样本输入语句可能存在疑问词等,疑问词在知识图谱中不存在对应的实体,因此需对样本输入语句中的疑问词单独创建一个实体。如:疑问词为:“哪里”和“哪儿”,则在知识图谱中为这些疑问词单独创建一个实体为:“哪里”。
步骤308,将样本输入语句中的关系与知识图谱中匹配关系建立映射关系。
其中,知识图谱中的关系是实体与实体之间的语义关联。如:“尿酸高会引起痛风”,实体为:“尿酸高”和“痛风”,那么关系为关联实体与实体之间语义的词语,即“引起”为关系。具体地,在获取到样本输入语句后,根据样本输入语句中的多个实体在知识图谱中查找对应的匹配实体之间是否有连接,若有,则将连接匹配实体之间的匹配关系与连接样本输入语句中实体之间的关系建立映射关系,即建立关联。如:样本输入语句:“迈克尔乔丹退出NBA”,输入问句的实体为:“迈克尔乔丹”和“NBA”,根据样本输入语句中的实体在知识图谱中查找“迈克尔乔丹”和“NBA”这两个实体对应的匹配实体之间是否存在连接,若有连接,则统计出现频率最高的连接匹配实体之间的匹配关系为:“离开”,则将匹配关系为:“离开”与样本输入语句中连接实体与实体之间的关系“退出”建立映射关系,即将“离开”和“退出”进行关联。
在一个实施例中,如图4所示,当未检测到处理后的样本输入语句中的实体存在对应匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系的步骤,包括:
步骤402,对处理后的样本输入语句进行分词,得到三元组形式的输入问句。
其中,三元组是知识图谱中最基本的知识存储方式,主要表现为(实体,关系,实体)形式。具体地,在获得处理后的样本输入语句后,对样本输入语句进行分词,得到样本输入语句中的实体和关系,将分词后的词语以知识图谱中最基本的知识存储方式三元组的形式存储,即以(实体,关系,实体)进行存储。如:输入问句为:“迈克尔乔丹出生美国?”,对迈克尔乔丹进行分词得到实体为:“迈克尔乔丹”和“美国”,关系为:“出生”,则得到三元组形式的输入问句为:(迈克尔乔丹,出生,美国)。
步骤404,检测三元组形式的样本输入语句中实体是否在知识图谱中存在对应的匹配实体,若是,则进入将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤。
步骤406,若否,则将三元组形式的样本输入语句中的实体与知识图谱中对应的匹配实体建立映射关系。
具体地,在得到三元组形式的输入问句后,需对以三元组形式的样本输入语句中实体检测是否在知识图谱中存在对应的匹配实体,若是,则说明该输入问句中的实体在知识图谱中有对应的匹配实体,则进入对样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤。反之,则说明该样本输入语句中的实体在知识图谱中未有对应的匹配实体,需对三元组中的实体与知识图谱中对应的匹配实体进行关系,即建立映射关系。如:三元组形式的样本输入语句为:(迈克尔乔丹,出生,美国),由于“迈克尔乔丹”在知识图谱中表示迈克尔乔丹并不是使用全称,而是简称为:“乔丹”,则认定“乔丹”为“迈克尔乔丹”对应的匹配实体,将两者进行关联,即建立映射关系。
在一个实施例中,如图5所示,将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤,包括:
步骤502,对处理后的样本输入语句进行分词。
步骤504,对通过分词所得到的词语进行实体抽取。
步骤506,在知识图谱中查找连接实体与实体之间的匹配关系,将处理后的样本输入语句中连接实体与实体之间的关系与查找到的匹配关系建立映射关系。
具体地,由于知识图谱是实体和关系所构成的异质、有向图,是表征实体间语义关联的语义网络,因此需对进行正则化处理后的输入问句进行分词,从通过分词所得到的词语中抽取实体。由于知识图谱中对样本输入语句中的实体使用的是简称,因此需要在知识图谱中查找到与样本输入语句中实体对应的匹配实体,根据匹配实体查找连接匹配实体之间的匹配关系。进一步地,将样本输入语句中连接实体与实体之间的关系与查找到的匹配关系进行关系,即建立映射关系。如:样本输入语句:“迈克尔乔丹退出NBA”,输入问句的实体为:“迈克尔乔丹”和“NBA”,根据样本输入语句中的实体在知识图谱中查找“迈克尔乔丹”和“NBA”对应的匹配实体为“乔丹”和“美国男子职业篮球联赛”之间是否存在连接,若有连接,则统计出现频率最高的连接匹配实体之间的匹配关系为:“离开”,则将匹配关系为:“离开”与样本输入语句中连接实体与实体之间的关系:“退出”建立映射关系,即将“离开”和“退出”进行关联。
在一个实施例中,如图6所示,根据问句向量和多个推理路径向量生成余弦相似度集合的步骤,包括:
步骤602,将问句向量作为余弦相似度模型的输入,得到余弦相似度模型输出的问句向量余弦相似度。
步骤604,将多个推理路径向量作为余弦相似度模型的输入,得到余弦相似度模型输出的多个推理路径向量余弦相似度。
步骤606,根据问句向量余弦相似度和多个推理路径向量余弦相似度计算得到多个余弦相似度,得到由多个余弦相似度组成的余弦相似度集合。
其中,余弦相似度模型是用来计算向量的余弦相似度的模型。具体地,由于余弦相似度是计算两个向量的夹角余弦值来评估他们的相似度,因此需先将得到的问句向量输入余弦相似度模型中,得到余弦相似度模型输出与问句向量对应的问句向量余弦相似度。同样地,将得到的多个推理路径向量输入余弦相似度模型中,得到余弦相似度模型输出与多个推理路径对应的多个推理路径向量预先相似度。进一步地,根据目标函数将问句向量余弦相似度和多个推理路径向量余弦相似度计算得到多个余弦相似度,将多个余弦相似度组成预先相似度集合。其中,余弦相似度越大代表对应的推理路径对应的答案的准确性越高。
应当说明的是,步骤602和步骤604并没有先后执行顺序,也可以同时执行,或者先执行步骤602再执行步骤604。
在一个实施例中,如图7所示,利用知识图谱对输入问句进行知识推理,得到多个推理路径的步骤,包括:
步骤702,对输入问句进行分词。
步骤704,对通过分词所得到的词语进行实体抽取,得到多个实体。
步骤706,在知识图谱中查找与多个实体对应的映射实体,得到多个映射实体。
具体地,由于知识图谱是表征实体之间的语义关联的语义网络,因此需对输入问句进行分词,从通过分词所得到的词语中提取输入语句中的实体,从而得到多个实体。由于知识图谱中存在实体对应的映射实体,因此需根据提取到的多个实体在知识图谱中查找对应的映射实体,其中映射实体可为包含实体或者概括实体的映射实体等。如:输入问句为:“迈克尔乔丹哪一年退役的?”,对输入问句进行分词后得到实体为:“迈克尔乔丹”和“哪年”,根据分词得到的实体在知识图谱中查找对应的映射实体为:“乔丹”和“时间”。
步骤708,将多个映射实体与对应的映射关系组合得到多个新的映射组合。
步骤710,在知识图谱中查找对应于多个新的映射组合的多个知识点,将多个知识点对应的路径确定为推理路径。
由于推理路径是从知识图谱中寻找与输入问句对应的答案的路径,因此需将得到映射实体之间的路径作为特征,来判断映射实体之间可能存在的关系。具体地,将得到多个映射实体与映射实体对应的映射关系组合得到多个新的映射组合,由于知识图谱中实体有对应的知识点,因此根据新的映射组合在知识图谱中查找对应的知识点,得到多个知识点。进一步地,将获取知识点的路径确定为一条推理路径。例如:输入问句为:“迈克尔乔丹哪一年退役的?”,对输入问句进行分词后得到实体为:“迈克尔乔丹”和“哪年”,根据分词得到的实体在知识图谱中查找对应的映射实体为:“乔丹”和“时间”、连接映射实体之间的映射关系为:“离开”。将映射实体为“乔丹”和映射关系为“离开”进行组合,得到知识图谱对应的两个知识点分别为:“美国USA”和“2003年”,而另一个映射实体为“时间”在知识图谱对应的两个知识点分别为:“1990年”和“2003年”。则可将知识点为“美国USA”和“1990年”对应的路径确定为一条推理路径。同样地,将两个知识点为“2003年”对应的路径确定为一条推理路径,以此组合方法可得到多个推理路径。其中,这里的多个推理路径包括正确答案的推理路径、错误答案的推理路径以及空答案的推理路径等。其中空答案的推理路径是寻找答案的路径出现问题等。
在一个实施例中,根据目标推理路径得到输入问句对应的答案步骤之后,包括:检测目标推理路径是否有对应的答案,若否,则返回从余弦相似度集合中选取目标余弦相似度对应的推理路径的步骤。
图8示出了一个实施例中人机问答方法的流程示意图,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤802,获取样本输入语句。
其中,这里的样本输入语句是按照句子的语气分出来的一类,表达的内容是用来陈述一些事情的句子,包括但不限于:陈述句、肯定句。具体地,可以通过终端相关的应用程序样本输入语句,这里的应用程序可以是但不限于各种能够输入问句的新闻应用、视频应用、社交网络应用、论坛应用等。
步骤804,对样本输入语句进行正则化处理,得到处理后的样本输入语句。
其中,样本输入语句包括但不限于陈述句、肯定句等。在真实情况下,样本输入语句中含有大量非标准词,所谓非标准词是指包含非汉字字符或者地方方言的词语,将非标准词转换成对应的标准词语的过程可称为正则化处理。具体地,在获取到样本输入语句后,将样本输入语句中的非标准词转换成对应的标准词语,得到处理后的样本输入语句。例如:东北话的输入问句“哪嘎达”,对输入问句进行正则化处理,得到处理后的样本输入语句为“哪里”。
步骤806,对处理后的样本输入语句进行分词,得到三元组形式的样本输入语句。
具体地,在获得正则化处理后的样本输入语句后,对样本输入语句进行分词,通过对分词所得到的词语中提取实体和关系,将分词后的词语以知识图谱中最基本的知识存储方式-三元组形式存储,即以(实体,关系,实体)进行存储。如:样本输入语句为:“科比·布莱恩特美国上学”,对样本输入语句进行分词得到实体为:“科比·布莱恩特”和“美国”,关系为:“上学”,则得到三元组形式的样本输入语句为:(科比·布莱恩特,上学,美国)。
步骤808,检测三元组形式的样本输入语句中实体是否在知识图谱中存在对应的匹配实体,若否,则直接进入步骤812,反之,则先进入步骤810再进入步骤812。
具体地,在得到三元组形式的样本输入语句后,由于三元组形式中的实体可能在知识图谱中未存在对应的匹配实体,则需对三元组形式的样本输入语句中实体进行检测,当检测到样本输入语句中实体在知识图谱中存在对应的匹配实体时,则说明该实体在知识图谱中有对应的匹配实体,则直接进入步骤812。反之,当未检测到样本输入语句中实体在知识图谱中存在对应的匹配实体时,说明该样本输入语句中的实体在知识图谱中未有对应的匹配实体,因此先进入步骤810再进入步骤812。
步骤810,将三元组形式的样本输入语句中的实体与知识图谱中对应的匹配实体建立映射关系。
具体地,当未检测到三元组形式的样本输入语句中的实体在知识图谱中存在对应的匹配实体时,说明该样本输入语句中的实体在知识图谱中未有对应的匹配实体,则需将样本输入语句中的实体与知识图谱中对应的匹配实体建立关联,即建立映射关系。如:三元组形式的样本输入语句为:(科比·布莱恩特,上学,美国),当检测到实体为:“科比·布莱恩特”在知识图谱中未存在对应的匹配实体,而在知识图谱中对科比·布莱恩特的使用是科比,因此需将样本输入语句中的“科比·布莱恩特”与知识图谱中的“科比”建立关联,将“科比”作为“科比·布莱恩特”的匹配实体。
步骤812,在知识图谱中查找连接实体与实体之间的匹配关系,将处理后的样本输入语句中连接实体与实体之间的关系与查找到的匹配关系建立映射关系。
具体地,当检测到三元组形式的样本输入语句中的实体在知识图谱中存在对应的匹配实体时或者将三元组形式的样本输入语句中的实体与知识图谱中对应的匹配实体建立映射关系后,对处理后的样本输入语句进行分词,通过对分词所得到的词语提取实体和关系,根据提取出的实体在知识图谱中查找对应的匹配实体,根据匹配实体查找在知识图谱中连接匹配实体之间的匹配关系。进一步地,将从样本输入语句中提取的连接实体与实体之间的关系与查找的匹配关系进行关联,即建立映射关系。如:样本输入语句为:“科比·布莱恩特在美国上学”,对样本输入语句进行分词,得到分词后的实体为:“科比·布莱恩特”和“美国”以及关系“上学”,根据“科比·布莱恩特”和“美国”查找知识图谱中对应的匹配实体为“科比”和“美国”,由于知识图谱中连接“科比”和“美国”的匹配关系是“读书”的出现频率最高,因此将匹配关系“读书”与输入问句中连接实体之间的“上学”建立映射关系。
应当说明,步骤812和步骤814之间按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。
步骤814,获取输入问句。
其中,这里的问句是按照句子的语气分出来的一类,问句表达的内容是用来寻问一些事情的句子,包括但不限于:一般疑问句、选择疑问句、特殊疑问句和反意疑问句。具体地,可以通过终端相关的应用程序输入问句,这里的应用程序可以是但不限于各种能够输入问句的新闻应用、视频应用、社交网络应用、论坛应用等。
步骤816,对输入问句进行正则化处理,得到处理后的输入问句。
具体地,由于输入问句在真实情况下可能会包含有地方方言的词语,因此需先对输入问句中含有地方方言的词语转成成对应的标准词语,得到处理后的输入语句。例如:输入问句为:“迈克尔乔丹出生哪嘎达?”,则对输入问句中东北方言为“哪嘎达”进行处理,得到处理后的输入问句为:“迈克尔乔丹出生哪里?”。
步骤818,将输入问句作为问句模型的输入,得到问句模型输出的问句向量。
具体地,在对输入问句进行一些预处理过程后,将输入问句输入至已训练好的问句模型,已训练好的问句模型对输入的输入问句进行语义向量计算,输出与输入问句对应的问句向量。其中,这里的预处理过程包括但不限于:对输入问句进行正则化处理、输入问句中的实体与知识图谱中的匹配实体的建立以及输入问句中的关系与知识图谱中的匹配关系的建立等等。
步骤820,在知识图谱中查找与多个实体对应的映射实体,得到多个映射实体。
步骤822,将多个映射实体与对应的映射关系组合得到多个新的映射组合,在知识图谱中查找对应于多个新的映射组合的多个知识点,将多个知识点对应的路径确定为推理路径。
具体地,由于知识图谱是表征实体之间的语义关联的语义网络,因此需对输入问句进行分词,再从通过分词所得到的词语中提取输入语句中的实体。由于输入语句中的实体在知识图谱中存在对应的映射实体,因此根据输入语句中的实体在知识图谱中查找与多个实体对应的映射实体。将查找到的多个映射实体与连接映射实体之间的映射关系组合得到多个新的映射组合,根据新的映射组合在知识图谱中查找对应的多个知识点。进一步地,将获取到的知识点对应的路径确定为一条推理路径,也就是说一个知识点对应的路径就是一条推理路径。如图9所示,图9示出一个实施例中推理路径的原理图。例如:输入问句为:“Where was Obama born?”,对输入问句进行分词后得到实体为:“Obama”和“Where”,根据分词得到的实体在知识图谱中查找对应的映射实体为:“Barack Obama”和“Type.location”、连接映射实体之间的映射关系为:“People Born Here”,将映射实体为“Barack Obama”和映射关系为“People Born Here”进行组合,得到知识图谱对应的两个知识点分别为:“Honolulu”和“USA”,而另一个映射实体为“Type.location”得到知识图谱对应的两个知识点分别为:“location”和“Country”。则可将知识点为“Honolulu”和“location”对应的路径确定为一条推理路径。同样地,将两个知识点为“USA”和“Country”对应的路径确定为一条推理路径,以此组合方法可得到多个推理路径。
步骤824,将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量。
步骤826,将问句向量作为余弦相似度模型的输入,得到余弦相似度模型输出的问句向量余弦相似度。
步骤828,将多个推理路径向量作为余弦相似度模型的输入,得到余弦相似度模型输出的多个推理路径向量余弦相似度。
步骤830,根据问句向量余弦相似度和多个推理路径向量余弦相似度计算得到多个余弦相似度,得到由多个余弦相似度组成的余弦相似度集合。
具体地,由于余弦相似度模型是用来计算向量的余弦相似度的模型,因此需先将得到的问句向量输入余弦相似度模型中,得到余弦相似度模型输出与问句向量对应的问句向量余弦相似度。同样地,将得到的多个推理路径向量输入余弦相似度模型中,得到余弦相似度模型输出与多个推理路径向量对应的多个推理路径向量余弦相似度。进一步地,根据余弦相似度模型输出的问句向量余弦相似度和多个推理路径向量余弦相似度计算得到多个余弦相似度,再由多个余弦相似度组成余弦相似度集合。
应当说明的是,步骤824和步骤826并没有先后执行顺序,也可以同时执行,或者先执行步骤824再执行步骤826。
步骤832,从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径。
步骤834,根据目标推理路径得到输入问句对应的答案。
步骤836,检测目标推理路径是否有对应的答案,若否,则返回从余弦相似度集合中选取目标余弦相似度对应的推理路径的步骤834。
具体地,从余弦相似度集合中选取符合预设规则的目标余弦相似度,由于各个余弦相似度有对应的推理路径向量,推理路径向量有对应的推理路径,因此从余弦相似度集合中选取目标余弦相似度后,将与目标余弦相似度对应的推理路径确定为目标推理路径。进一步地,可根据目标推理路径得到输入问句正确的答案。如图10所示,图10为一个实施例中人工问答方法的原理示意图,例如:输入问句为:“Where was Obama born?”,对输入问句进行分词后得到实体为:“Obama”和“Where”,根据分词得到的实体在知识图谱中查找对应的映射实体为:“Barack Obama”和“Type.Location”、连接映射实体之间的映射关系为:“People Born Here”。将映射实体为“Barack Obama”和映射实体为“People Born Here”进行组合,得到知识图谱对应的两个知识点分别为:“Honolulu”和“USA”,而另一个映射关系为“Type.location”在知识图谱对应的两个知识点分别为:“location”和“Country”。则可将知识点为“Honolulu”和“location”对应的路径确定为一条推理路径。同样地,将两个知识点为“USA”和“Country”对应的路径确定为一条推理路径,以此组合方法可得到多个推理路径。由于知识点为“Honolulu”和“location”这条推理路径的余弦相似度符合要求,作为目标推理路径,因此沿着目标推理路径得到输入问句“Where was Obama born?”的答案为:“Honolulu”。
本实施例中,通过问句模型、余弦相似度模型以及推理路径模型对复杂的问句进行语义分析、余弦相似度计算以及推理路径分析,得到与复杂的语句对应的答案。不仅可以解决简单问句,而且对复杂问句也能够处理,提高人机问答的准确性以及多样性。
应该理解的是,虽然图1-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种人机问答装置1100,包括:输入问句获取模块1102、问句向量获取模块1104、知识推理模块1106、推理路径向量获取模块1108、余弦相似度集合生成模块1110、目标余弦相似度选取模块1112和答案输出模块1114,其中:
输入问句获取模块1102,用于获取输入问句。
问句向量获取模块1104,用于将输入问句作为问句模型的输入,得到问句模型输出的问句向量。
知识推理模块1106,用于利用知识图谱对输入问句进行知识推理,得到多个推理路径。
推理路径向量获取模块1108,用于将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量。
余弦相似度集合生成模块1110,用于根据问句向量和多个推理路径向量生成余弦相似度集合。
目标余弦相似度选取模块1112,用于从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径。
答案输出模块1114,用于根据目标推理路径得到输入问句对应的答案。
在一个实施例中,该人机问答装置1100还包括:正则化处理模块(图中未示出)、检测模块(图中未示出)、关系建立模块(图中未示出),其中:
正则化处理模块,用于获取样本输入语句,对样本输入语句进行正则化处理,得到处理后的样本输入语句;
检测模块,用于当未检测到处理后的样本输入语句中的实体存在对应的匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系;
关系建立模块,用于将样本输入语句中的关系与知识图谱中匹配关系建立映射关系。
在一个实施例中,检测模块还用于对处理后的样本输入语句进行分词,得到三元组形式的样本输入语句;检测三元组形式的样本输入语句中实体是否在知识图谱中存在对应的匹配实体,若是,则进入将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤;若否,则将三元组形式的样本输入语句中的实体与知识图谱中对应的匹配实体建立映射关系。
在一个实施例中,关系建立模块还用于对处理后的样本输入语句进行分词;对通过分词所得到的词语进行实体抽取;在知识图谱中查找连接实体与实体之间的匹配关系,将处理后的样本输入语句中连接实体与实体之间的关系与查找到的匹配关系建立映射关系。
在一个实施例中,余弦相似度集合生成模块1110还用于将问句向量作为余弦相似度模型的输入,得到余弦相似度模型输出的问句向量余弦相似度;将多个推理路径向量作为余弦相似度模型的输入,得到余弦相似度模型输出的多个推理路径向量余弦相似度;根据问句向量余弦相似度和多个推理路径向量余弦相似度计算得到多个余弦相似度,得到由多个余弦相似度组成的余弦相似度集合。
在一个实施例中,知识推理模块1106还用于对输入问句进行分词;对通过分词所得到的词语进行实体抽取,得到多个实体;在知识图谱中查找与多个实体对应的映射实体,得到多个映射实体;将多个映射实体两两组合得到多个新的映射实体;在知识图谱中查找对应于多个新的映射实体的多个知识点,将多个知识点对应的路径确定为推理路径。
在一个实施例中,人机问答装置1100还用于检测目标推理路径是否有对应的答案,若否,则返回从余弦相似度集合中选取目标余弦相似度对应的推理路径的步骤。
关于人机问答装置的具体限定可以参见上文中对于人机问答方法的限定,在此不再赘述。上述人机问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储人机问答数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人机问答方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取输入问句;将输入问句作为问句模型的输入,得到问句模型输出的问句向量;利用知识图谱对输入问句进行知识推理,得到多个推理路径;将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;根据问句向量和多个推理路径向量生成余弦相似度集合;从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;根据目标推理路径得到输入问句对应的答案。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取输入问句的步骤之前,还包括:获取样本输入语句,对样本输入语句进行正则化处理,得到处理后的样本输入语句;当未检测到处理后的样本输入语句中的实体存在对应的匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系;将样本输入语句中的关系与知识图谱中匹配关系建立映射关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当未检测到处理后的样本输入语句中的实体存在对应匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系的步骤,包括:对处理后的样本输入语句进行分词,得到三元组形式的样本输入语句;检测三元组形式的样本输入语句中实体是否在知识图谱中存在对应的匹配实体,若是,则进入将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤;若否,则将三元组形式的样本输入语句中的实体与知识图谱中对应的匹配实体建立映射关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤,包括:对处理后的样本输入语句进行分词;对通过分词所得到的词语进行实体抽取;在知识图谱中查找连接实体与实体之间的匹配关系,将处理后的样本输入语句中连接实体与实体之间的关系与查找到的匹配关系建立映射关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据问句向量和多个推理路径向量生成余弦相似度集合的步骤,包括:将问句向量作为余弦相似度模型的输入,得到余弦相似度模型输出的问句向量余弦相似度;将多个推理路径向量作为余弦相似度模型的输入,得到余弦相似度模型输出的多个推理路径向量余弦相似度;根据问句向量余弦相似度和多个推理路径向量余弦相似度计算得到多个余弦相似度,得到由多个余弦相似度组成的余弦相似度集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:利用知识图谱对输入问句进行知识推理,得到多个推理路径的步骤,包括:对输入问句进行分词;对通过分词所得到的词语进行实体抽取,得到多个实体;在知识图谱中查找与多个实体对应的映射实体,得到多个映射实体;将多个映射实体两两组合得到多个新的映射实体;在知识图谱中查找对应于多个新的映射实体的多个知识点,将多个知识点对应的路径确定为推理路径。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据目标推理路径得到输入问句对应的答案步骤之后,包括:检测目标推理路径是否有对应的答案,若否,则返回从余弦相似度集合中选取目标余弦相似度对应的推理路径的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取输入问句;将输入问句作为问句模型的输入,得到问句模型输出的问句向量;利用知识图谱对输入问句进行知识推理,得到多个推理路径;将多个推理路径作为推理路径模型的输入,得到推理路径模型输出的多个推理路径向量;根据问句向量和多个推理路径向量生成余弦相似度集合;从余弦相似度集合中选取目标余弦相似度,获取与目标余弦相似度对应的目标推理路径;根据目标推理路径得到输入问句对应的答案。
在一个实施例中,获取输入问句的步骤之前,还包括:获取样本输入语句,对样本输入语句进行正则化处理,得到处理后的样本输入语句;当未检测到处理后的样本输入语句中的实体存在对应的匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系;将样本输入语句中的关系与知识图谱中匹配关系建立映射关系。
在一个实施例中,当未检测到处理后的样本输入语句中的实体存在对应匹配实体时,将样本输入语句中的实体与知识图谱中匹配实体建立映射关系的步骤,包括:对处理后的样本输入语句进行分词,得到三元组形式的样本输入语句;检测三元组形式的样本输入语句中实体是否在知识图谱中存在对应的匹配实体,若是,则进入将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤;若否,则将三元组形式的样本输入语句中的实体与知识图谱中对应的匹配实体建立映射关系。
在一个实施例中,将样本输入语句中的关系与知识图谱中匹配关系建立映射关系的步骤,包括:对处理后的样本输入语句进行分词;对通过分词所得到的词语进行实体抽取;在知识图谱中查找连接实体与实体之间的匹配关系,将处理后的样本输入语句中连接实体与实体之间的关系与查找到的匹配关系建立映射关系。
在一个实施例中,根据问句向量和多个推理路径向量生成余弦相似度集合的步骤,包括:将问句向量作为余弦相似度模型的输入,得到余弦相似度模型输出的问句向量余弦相似度;将多个推理路径向量作为余弦相似度模型的输入,得到余弦相似度模型输出的多个推理路径向量余弦相似度;根据问句向量余弦相似度和多个推理路径向量余弦相似度计算得到多个余弦相似度,得到由多个余弦相似度组成的余弦相似度集合。
在一个实施例中,利用知识图谱对输入问句进行知识推理,得到多个推理路径的步骤,包括:对输入问句进行分词;对通过分词所得到的词语进行实体抽取,得到多个实体;在知识图谱中查找与多个实体对应的映射实体,得到多个映射实体;将多个映射实体两两组合得到多个新的映射实体;在知识图谱中查找对应于多个新的映射实体的多个知识点,将多个知识点对应的路径确定为推理路径。
在一个实施例中,根据目标推理路径得到输入问句对应的答案步骤之后,包括:检测目标推理路径是否有对应的答案,若否,则返回从余弦相似度集合中选取目标余弦相似度对应的推理路径的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种人机问答方法,所述方法包括:
获取输入问句;
将所述输入问句作为问句模型的输入,得到所述问句模型输出的问句向量;
利用知识图谱对所述输入问句进行知识推理,得到多个推理路径;
将多个所述推理路径作为推理路径模型的输入,得到所述推理路径模型输出的多个推理路径向量;
根据所述问句向量和多个所述推理路径向量生成余弦相似度集合;
从所述余弦相似度集合中选取目标余弦相似度,获取与所述目标余弦相似度对应的目标推理路径;
根据所述目标推理路径得到所述输入问句对应的答案。
2.根据权利要求1所述的方法,其特征在于,所述获取输入问句的步骤之前,包括:
获取样本输入语句;
对所述样本输入语句进行正则化处理,得到处理后的样本输入语句;
当未检测到所述处理后的样本输入语句中的实体存在对应的匹配实体时,将所述样本输入语句中的实体与知识图谱中所述匹配实体建立映射关系;
将所述输入问句中的关系与所述知识图谱中匹配关系建立映射关系。
3.根据权利要求2所述的方法,其特征在于,所述当未检测到所述处理后的样本输入语句中的实体存在对应匹配实体时,将所述样本输入语句中的实体与知识图谱中所述匹配实体建立映射关系的步骤,包括:
对所述处理后的样本输入语句进行分词,得到三元组形式的样本输入语句;
检测所述三元组形式的样本输入语句中实体是否在知识图谱中存在对应的匹配实体,若是,则进入将所述样本输入语句中的关系与所述知识图谱中匹配关系建立映射关系的步骤;
若否,则将所述三元组形式的样本输入语句中的实体与知识图谱中对应的匹配实体建立映射关系。
4.根据权利要求2所述的方法,其特征在于,所述将所述样本输入语句中的关系与所述知识图谱中匹配关系建立映射关系的步骤,包括:
对所述处理后的样本输入语句进行分词;
对通过所述分词所得到的词语进行实体抽取;
在所述知识图谱中查找连接所述实体与实体之间的匹配关系,将所述处理后的样本输入语句中连接所述实体与实体之间的关系与查找到的所述匹配关系建立映射关系。
5.根据权利要求1所述的方法,其特征在于,所述根据所述问句向量和多个所述推理路径向量生成余弦相似度集合的步骤,包括:
将所述问句向量作为余弦相似度模型的输入,得到所述余弦相似度模型输出的问句向量余弦相似度;
将多个所述推理路径向量作为所述余弦相似度模型的输入,得到所述余弦相似度模型输出的多个所述推理路径向量余弦相似度;
根据所述问句向量余弦相似度和多个所述推理路径向量余弦相似度计算得到多个余弦相似度,得到由多个余弦相似度组成的所述余弦相似度集合。
6.根据权利要求1所述的方法,其特征在于,所述利用知识图谱对所述输入问句进行知识推理,得到多个推理路径的步骤,包括:
对所述输入问句进行分词;
对通过所述分词所得到的词语进行实体抽取,得到多个实体;
在所述知识图谱中查找与多个所述实体对应的映射实体,得到多个映射实体;
将多个所述映射实体与对应的映射关系组合得到多个新的映射组合;
在所述知识图谱中查找对应于所述多个新的映射组合的多个知识点,将所述多个知识点对应的路径确定为推理路径。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标推理路径得到所述输入问句对应的答案步骤之后,包括:
检测所述目标推理路径是否有对应的答案,若否,则返回从所述余弦相似度集合中选取目标余弦相似度对应的所述推理路径的步骤。
8.一种人机问答装置,其特征在于,所述装置包括:
输入问句获取模块,用于获取输入问句;
问句向量获取模块,用于将所述输入问句作为问句模型的输入,得到所述问句模型输出的问句向量;
知识推理模块,用于利用知识图谱对所述输入问句进行知识推理,得到多个推理路径;
推理路径向量获取模块,用于将多个所述推理路径作为推理路径模型的输入,得到所述推理路径模型输出的多个推理路径向量;
余弦相似度集合生成模块,用于根据所述问句向量和多个所述推理路径向量生成余弦相似度集合;
目标余弦相似度选取模块,用于从所述余弦相似度集合中选取目标余弦相似度,获取与所述目标余弦相似度对应的目标推理路径;
答案输出模块,用于根据所述目标推理路径得到所述输入问句对应的答案。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810065420.6A 2018-01-23 2018-01-23 人机问答方法、装置、计算机设备和存储介质 Expired - Fee Related CN108427707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810065420.6A CN108427707B (zh) 2018-01-23 2018-01-23 人机问答方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810065420.6A CN108427707B (zh) 2018-01-23 2018-01-23 人机问答方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108427707A true CN108427707A (zh) 2018-08-21
CN108427707B CN108427707B (zh) 2021-05-04

Family

ID=63156039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810065420.6A Expired - Fee Related CN108427707B (zh) 2018-01-23 2018-01-23 人机问答方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108427707B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558584A (zh) * 2018-10-26 2019-04-02 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN109783626A (zh) * 2018-12-29 2019-05-21 联想(北京)有限公司 问题生成方法、智能问答系统、介质以及计算机系统
CN109815320A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 问答系统的答案生成方法、装置、设备及存储介质
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN110413760A (zh) * 2019-07-31 2019-11-05 北京百度网讯科技有限公司 人机对话方法、装置、存储介质及计算机程序产品
CN110532368A (zh) * 2019-09-04 2019-12-03 深圳前海达闼云端智能科技有限公司 问答方法、电子设备及计算机可读存储介质
CN110837550A (zh) * 2019-11-11 2020-02-25 中山大学 基于知识图谱的问答方法、装置、电子设备及存储介质
CN111125328A (zh) * 2019-12-12 2020-05-08 深圳数联天下智能科技有限公司 文本处理方法及相关设备
CN111339266A (zh) * 2020-02-13 2020-06-26 深圳市人马互动科技有限公司 聊天机器人的开发系统和聊天机器人模块
WO2020143186A1 (zh) * 2019-01-10 2020-07-16 平安科技(深圳)有限公司 推荐系统训练方法、装置、计算机设备及存储介质
CN111651348A (zh) * 2020-05-06 2020-09-11 深圳市人马互动科技有限公司 一种聊天机器人的调试系统
CN111931507A (zh) * 2020-08-21 2020-11-13 贝壳技术有限公司 获取用于实现会话的多元组集合方法、装置、介质及设备
WO2021000676A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
CN112287095A (zh) * 2020-12-30 2021-01-29 中航信移动科技有限公司 确定问题答案的方法、装置、计算机设备及存储介质
CN113468294A (zh) * 2021-07-20 2021-10-01 上海明略人工智能(集团)有限公司 用于古诗词问答的方法、装置、电子设备及存储介质
CN117312516A (zh) * 2023-09-27 2023-12-29 星环信息科技(上海)股份有限公司 一种知识问答方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
EP3156949A2 (en) * 2015-10-16 2017-04-19 Baidu USA LLC Systems and methods for human inspired simple question answering (hisqa)
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN106919655A (zh) * 2017-01-24 2017-07-04 网易(杭州)网络有限公司 一种答案提供方法和装置
CN107491555A (zh) * 2017-09-01 2017-12-19 北京纽伦智能科技有限公司 知识图谱构建方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
EP3156949A2 (en) * 2015-10-16 2017-04-19 Baidu USA LLC Systems and methods for human inspired simple question answering (hisqa)
CN106844368A (zh) * 2015-12-03 2017-06-13 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN106919655A (zh) * 2017-01-24 2017-07-04 网易(杭州)网络有限公司 一种答案提供方法和装置
CN107491555A (zh) * 2017-09-01 2017-12-19 北京纽伦智能科技有限公司 知识图谱构建方法和系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558584A (zh) * 2018-10-26 2019-04-02 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN109815320A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 问答系统的答案生成方法、装置、设备及存储介质
CN109783626A (zh) * 2018-12-29 2019-05-21 联想(北京)有限公司 问题生成方法、智能问答系统、介质以及计算机系统
WO2020143186A1 (zh) * 2019-01-10 2020-07-16 平安科技(深圳)有限公司 推荐系统训练方法、装置、计算机设备及存储介质
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN109977428B (zh) * 2019-03-29 2024-04-02 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
WO2021000676A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
CN110413760A (zh) * 2019-07-31 2019-11-05 北京百度网讯科技有限公司 人机对话方法、装置、存储介质及计算机程序产品
CN110413760B (zh) * 2019-07-31 2022-06-21 北京百度网讯科技有限公司 人机对话方法、装置、存储介质及计算机程序产品
CN110532368A (zh) * 2019-09-04 2019-12-03 深圳前海达闼云端智能科技有限公司 问答方法、电子设备及计算机可读存储介质
CN110837550A (zh) * 2019-11-11 2020-02-25 中山大学 基于知识图谱的问答方法、装置、电子设备及存储介质
CN111125328A (zh) * 2019-12-12 2020-05-08 深圳数联天下智能科技有限公司 文本处理方法及相关设备
CN111125328B (zh) * 2019-12-12 2023-11-07 深圳数联天下智能科技有限公司 文本处理方法及相关设备
CN111339266A (zh) * 2020-02-13 2020-06-26 深圳市人马互动科技有限公司 聊天机器人的开发系统和聊天机器人模块
CN111651348A (zh) * 2020-05-06 2020-09-11 深圳市人马互动科技有限公司 一种聊天机器人的调试系统
CN111651348B (zh) * 2020-05-06 2023-09-29 深圳市人马互动科技有限公司 一种聊天机器人的调试系统
CN111931507A (zh) * 2020-08-21 2020-11-13 贝壳技术有限公司 获取用于实现会话的多元组集合方法、装置、介质及设备
CN112287095A (zh) * 2020-12-30 2021-01-29 中航信移动科技有限公司 确定问题答案的方法、装置、计算机设备及存储介质
CN113468294A (zh) * 2021-07-20 2021-10-01 上海明略人工智能(集团)有限公司 用于古诗词问答的方法、装置、电子设备及存储介质
CN117312516A (zh) * 2023-09-27 2023-12-29 星环信息科技(上海)股份有限公司 一种知识问答方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108427707B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN108427707A (zh) 人机问答方法、装置、计算机设备和存储介质
US11341170B2 (en) Automated extraction, inference and normalization of structured attributes for product data
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN112328762A (zh) 基于文本生成模型的问答语料生成方法和装置
Zhong et al. A comprehensive survey on automatic knowledge graph construction
CN113806482B (zh) 视频文本跨模态检索方法、装置、存储介质和设备
Zhou et al. Automatic source code summarization with graph attention networks
Qiu et al. Spatially oriented convolutional neural network for spatial relation extraction from natural language texts
Yen et al. Unanswerable question correction in question answering over personal knowledge base
Xing et al. Mining semantic information in rumor detection via a deep visual perception based recurrent neural networks
Nguyen et al. Software entity recognition with noise-robust learning
Li et al. A novel threat intelligence information extraction system combining multiple models
CN110287487A (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
CN110263123A (zh) 机构名简称的预测方法、装置和计算机设备
CN109325119A (zh) 新闻情感分析的方法、装置、计算机设备和存储介质
Huang et al. Towards linking camouflaged descriptions to implicit products in e-commerce
Li et al. Rethinking negative pairs in code search
Yu et al. Information Security Field Event Detection Technology Based on SAtt‐LSTM
Fan et al. An integrated interactive framework for natural language to sql translation
WO2021160822A1 (en) A method for linking a cve with at least one synthetic cpe
Hattami et al. Workflow discovery from dialogues in the low data regime
Liu et al. A Graph Convolutional Network‐Based Sensitive Information Detection Algorithm
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备
Laradji et al. Workflow discovery from dialogues in the low data regime
CN114896980B (zh) 军事实体链接方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210504

Termination date: 20220123

CF01 Termination of patent right due to non-payment of annual fee