CN112966084B - 基于知识图谱的答案查询方法、装置、设备及存储介质 - Google Patents

基于知识图谱的答案查询方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112966084B
CN112966084B CN202110265839.8A CN202110265839A CN112966084B CN 112966084 B CN112966084 B CN 112966084B CN 202110265839 A CN202110265839 A CN 202110265839A CN 112966084 B CN112966084 B CN 112966084B
Authority
CN
China
Prior art keywords
viewpoint
evidence
entity
target
subjective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110265839.8A
Other languages
English (en)
Other versions
CN112966084A (zh
Inventor
王思睿
李明洋
朱桐
张鸿志
张富峥
王仲远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110265839.8A priority Critical patent/CN112966084B/zh
Publication of CN112966084A publication Critical patent/CN112966084A/zh
Application granted granted Critical
Publication of CN112966084B publication Critical patent/CN112966084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于知识图谱的答案查询方法、装置、设备及存储介质,属于信息搜索技术领域。该方法包括:获取终端上输入的主观问题,主观问题是指被人的意识所支配的问题;调用意图识别模型从主观问题中识别出问题意图,问题意图用于反映用户想要获知的观点;基于问题意图从知识图谱中查询主观问题的答案和支持答案的证据集合,证据集合用于支持答案所阐述的观点。该方法以观点作为实体构建知识图谱,并在知识图谱中添加了证据实体,在查询主观问题的答案的同时,还会给出与观点型答案对应的证据集合,增加了答案的可信度。

Description

基于知识图谱的答案查询方法、装置、设备及存储介质
技术领域
本申请涉及信息搜索技术领域,特别涉及一种基于知识图谱的答案查询方法、装置、设备及存储介质。
背景技术
问答系统(Question Answering system,QA)是信息检索系统的一种高级形式,它能够用准确、简洁的自然语言回答用户用自然语言提出的问题,它可以应用于教学、智能客服、机器人等场景。
常见的问答系统包括基于结构化数据的问答系统,如知识库问答(KnowledgeBase Question Answering,KBQA),基于文本的问答系统,如阅读理解问答,以及基于问答对的问答系统,如检索式问答(Frequently Asked Questions,FAQ)。其中,FAQ是事先组织常见问题的问答对,在应用中为用户输入内容匹配问题,即可得到问题对应的答案;阅读理解问答是由机器阅读理解文章语义,并回答相关问题;KBQA是给定自然语言问题,通过对问题进行语义理解和解析,利用知识库进行查询、推理得出答案。
上述问答系统中可以查询问题的唯一答案,针对客观问题能够给出正确答案,但是,针对主观问题给出的答案无法保证其可信度。
发明内容
本申请实施例提供了一种基于知识图谱的答案查询方法、装置、设备及存储介质,该方法以观点作为实体构建知识图谱,并在知识图谱中添加了证据实体,在查询主观问题的答案的同时,还会给出与观点型答案对应的证据集合,增加了答案的可信度。所述技术方案如下:
根据本申请的一个方面,提供了一种基于知识图谱的答案查询方法,该方法包括:
获取终端上输入的主观问题,主观问题是指被人的意识所支配的问题;
调用意图识别模型从主观问题中识别出问题意图,问题意图用于反映用户想要获知的观点;
基于问题意图从知识图谱中查询主观问题的答案和支持答案的证据集合,证据集合用于支持答案所阐述的观点。
根据本申请的另一个方面,提供了一种基于知识图谱的答案查询装置,该装置包括:
获取模块,用于获取终端上输入的主观问题,主观问题是指被人的意识所支配的问题;
识别模块,用于调用意图识别模型从主观问题中识别出问题意图,问题意图用于反映用户想要获知的观点;
查询模块,用于基于问题意图从知识图谱中查询主观问题的答案和支持答案的证据集合,证据集合用于支持答案所阐述的观点。
根据本申请的另一方面,提供了一种计算机设备,上述计算机设备包括:处理器和存储器,上述存储器存储有计算机程序,上述计算机程序由上述处理器加载并执行以实现如上所述的基于知识图谱的答案查询方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序由处理器加载并执行以实现如上所述的基于知识图谱的答案查询方法。
根据本申请的另一个方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上所述的基于知识图谱的答案查询方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
该方法以观点作为实体构建知识图谱,且在知识图谱中为观点实体关联了证据集合,在进行主观问题的答案查询时,计算机设备首先从主观问题中识别出用户的问题意图,以确定用户想要获知的观点,然后在知识图谱中查询主观问题的答案以及支持答案的证据集合,精确地的查询出用户想要的答案,并给出强有力的证据,提高给出的答案的可信度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的计算机系统的结构框图;
图2示出了本申请一个示例性实施例提供的基于知识图谱的答案查询方法的流程图;
图3示出了本申请一个示例性实施例提供的知识图谱的离线更新方法的流程图;
图4示出了本申请一个示例性实施例提供的观点挖掘方法的流程图;
图5示出了本申请一个示例性实施例提供的观点挖掘的过程示意图;
图6示出了本申请一个示例性实施例提供的基于知识图谱的答案查询装置的框图;
图7示出了本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍:
主观问题,是指被人的意识所支持的问题;与客观问题存在正确答案不同,这一类问题可以存在多个不同的观点,不同的观点对应不同的答案。主观问题的答案是依赖于人的意识存在的;比如,达芬奇的画作“蒙娜丽莎”中人物原型是男性还是女性,部分学者认为是蒙娜丽莎的原型是男性,部分学者认为蒙娜丽莎的原型是女性,每种观点都有支持其的证据,也就是说,对于蒙娜丽莎的原型的性别,不同的人有不同的认知,各持观点,这就是一个主观问题。
知识图谱(Knowledge Graph),是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”;示例性的,知识以事实为单位进行存储,可以用(实体1,关系,实体2)、(实体,属性,属性值)这样的三元组来表达事实。本质上,知识图谱是一种揭示实体之间关系的语义网络,以结构化的形式描述客观世界中的概念、实体及其关系。“实体”可以是指现实世界中的事物,比如人、地名、公司、电话、动物等;“关系”用来表达不同实体之间的某种联系。在本申请中,知识图谱可以观点作为实体构建而成;在一些实施例中,还可以证据集合作为实体。
实体链接,就是将一段文本中的某些字符串映射到知识库中对应的实体上,比如,对于文本“小明成为**大学&&学院的新生”,就应当将字符串“小明”、“**大学”、“**大学&&学院”分别映射到对应的实体上。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能的一个子领域。本申请中可以采用NLP技术从结构化数据和非结构化数据中进行知识抽取,示例性的,知识抽取可以包括实体抽取、关系抽取、以及属性抽取。比如,从非结构化数据中抽取出三元组信息,“魔都是C国的金融中心、科技创新中心和国家物流枢纽”这句话中可以抽取的三元组信息如下:[C国-金融中心-魔都,C国-科技创新中心-魔都,C国-国家物流枢纽-魔都]。
本申请中还可以采用NLP技术从主观问题中识别出用户的问题意图,比如,针对“成为丁克就是自私吗”这一主观问题,计算机设备在可以采用双向转换编码(Bidirectional Encoder Representations from Transformers,BERT)模型,或者深度语义模型(Deep Structured Semantic Model,DSSM)来识别,最终可以识别户问题意图“丁克”。
图1示出了本申请一个示例性实施例提供的计算机系统,该计算机系统包括终端120和服务器140,终端120与服务器140之间通过有线或者无线网络相互连接。
示例性的,终端120可以包括笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人中的至少一种。
终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现基于知识图谱的答案查询方法中终端侧步骤。第一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。
第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网络处理器(NetworkProcessor,NP)。可选地,第一处理器用于向服务器140发送查询请求,以请求查询主观问题的答案以及支持答案的证据集合;或者,第一处理器用于执行本申请提供的基于知识图谱的答案查询方法,以查询出主观问题的答案以及支持答案的证据集合。
可选地,终端120中包括显示器;显示器用于显示问题或者答案。
可选地,终端120中包括麦克风;麦克风用于采集语音形式的问题。
可选地,终端120中包括扬声器;扬声器用于播放语音形式的答案;示例性的,扬声器还用于播放语音形式的支持答案的证据内容。
服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本申请提供的基于知识图谱的答案查询方法中服务器侧步骤。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、PROM、EPROM、EEPROM。可选地,第二处理器可以是通用处理器,比如,CPU或者NP。
示例性的,服务器140中设置有图数据库,图数据库中存储有知识图谱,服务器在接收到终端发送的主观问题之后,从主观问题中识别出用户的问题意图,基于问题意图从知识图谱中查询主观问题的答案和支持答案的证据集合,将答案和支持答案的证据集合反馈给终端120。
需要说明的是,本申请中的知识图谱可以给出主观问题的答案和支持答案的证据集合,还可以给出客观问题的答案;该知识图谱的应用可以包括智能搜索、深度问答、社交网络、以及垂直行业。
示例性的,该知识图谱应用于各大搜索引擎中以提供智能搜索,比如,搜索引擎在接收到用户输入的问题之后,从知识图谱中查询出问题的答案,甚至于支持答案的证据集合,将查询结果反馈给用户。
示例性的,该知识图谱应用于问答系统中以提供深度问答服务,比如,智能语音助手能够基于知识图谱为用户提供回答、介绍等服务,用户向智能语音助手提出问题,智能语音助手从知识图谱中查询出答案,甚至支持答案的证据集合,将其播放给用户听,实现机器与人的交互。
示例性的,该知识图谱应用于社交网络中以提供查询服务,比如,输入查询式:“我朋友喜欢的餐厅”,知识图谱会帮助用户在庞大的社交网络中找到与自己最具相关性的人推荐或者常去的餐厅,并给出证据集合,为用户提供选择参考。
示例性的,该知识图谱还可以硬要将高于金融、医疗、电商、教育科研、以及图书馆等需要大数据分析的行业,仅用于某一个行业能够为该行业提供更加精确规范的行业数据,帮助用户更加便捷地获取行业知识,比如,该知识图谱应用于医疗行业,医疗人员基于该知识图谱查询医疗问题的解决方案,即可以得到多种方案以及每一种方案可实施的证据集合,不会掺杂与医疗问题相关的非解决方案的问题。
图2示出了本申请一个示例性实施例提供的基于知识图谱的答案查询方法的流程图,以该方法应用于图1所示计算机系统的服务器中为例,该方法包括:
步骤201,获取终端上输入的主观问题。
示例性的,服务器接收终端发送的查询请求,该查询请求携带主观问题,该主观问题是用户在终端中输入的;从查询请求中获取上述主观问题,该主观问题是指被人的意识所支配的问题。相应地,主观问题的答案也存在人的主观意识,因此,主观问题的答案不唯一。
可选地,上述主观问题是指包含用户的主观意识的问题。也就是说,主观问题可以包含提出问题的人的主观意识,比如“成为丁克真的就是自私吗”这个问题,可以明显地看出提问者对成为丁克是否是自私这一问题存有疑问,而疑问句中“真的”、“就是”这两个词则表达出提问者在主观上是认为成为丁克不是真的就是自私的,因此,主观问题中也可以包含用户的主观意识。
示例性的,用户可以是通过终端的显示界面上的输入框来输入主观问题的,或者,是通过终端上的麦克风采用语音输入的方式来输入主观问题的。
步骤202,调用意图识别模型从主观问题中识别出问题意图。
其中,上述问题意图用于反映用户想要获知的观点。示例性的,服务器对主观问题进行分词处理,得到主观问题的至少两个分词;结合上下文信息对至少两个分词中的每一个分词进行分析识别,从至少两个分词中确定出问题意图。
可选地,问题意图包括主观点和观点约束。其中,主观点是主观问题所询问的主要观点,观点约束是对主观点的约束,比如,“迪士尼有烟花表演吗”这个问题中“表演”是主观点,“烟花”是观点约束。
可选地,服务器从主观问题中识别出用户的至少两项待定问题意图;基于主观问题的上下文信息对至少两项待定问题意图进行依存分析,确定出待定问题意图中的主观点和观点约束,得到问题意图。示例性的,每一个主观问题中存在一个主观点;服务器从主观问题中识别出用户的至少两项待定问题意图之后,基于主观问题中的上下文信息从至少两项待定问题意图中确定出一个主观点和至少一个观点约束。
可选地,上述意图识别模型是由BERT模型训练得到的,服务器调用BERT模型识别出主观问题中的问题意图。示例性的,服务器通过BERT模型从主观问题中识别出一个主观点和至少一个观点约束。
可选地,上述意图识别模型是由DSSM训练得到的,服务器调用DSSM识别出主观问题中的问题意图。示例性的,服务器通过DSSM从主观问题中识别出一个主观点和至少一个观点约束。
步骤203,基于问题意图从知识图谱中查询主观问题的答案和支持答案的证据集合。
上述证据集合用于支持答案所阐述的观点;示例性的,上述证据集合可以是支持答案所阐述的观点的文本集合,或者,上述证据集合可以是支持答案所阐述观点的视频集合。示例性的,上述支持答案的证据集合可以是以证据实体的形式关联于知识图谱的观点实体,以证据集合支撑观点的关系进行关联;或者,上述支持答案的证据集合可以是以观点的证据属性的属性值的形式关联于知识图谱的观点实体。
可选地,问题意图包括主观点和观点约束。在一些实施例中,服务器通过实体链接从知识图谱中查询与主观点对应的观点实体;确定出观点实体所在的候选子图,候选子图中还包括与观点实体关联的候选观点实体、以及与候选观点实体关联的候选证据实体;基于观点约束从候选观点实体中匹配出答案,以及从答案对应的候选证据实体中匹配出证据集合。
可选地,观点约束包括主观问题的情感方向;则服务器在为答案匹配证据集合时,响应于情感方向为正向情感,将候选证据实体中正向论述的证据集合确定为证据集合,正向论述是指以正向思维对观点进行论述;响应于情感方向为负向情感,将候选证据实体中反向论述的证据集合确定为证据集合,反向论述是指以反向思维对观点进行论述。
示例性的,每一个观点实体与L个其它观点实体之间存在关系连接,L为正整数。示例性的,每一个观点实体与H个证据实体之间存在关系连接,每一个证据实体对应一个证据集合;和/或,每一个观点实体与一个证据实体之间存在关系连接,一个证据实体中存在H个证据集合,H为大于1的正整数。
在一些实施例中,服务器通过实体链接从知识图谱中查询与主观点匹配的观点实体;确定出观点实体所在的候选子图,该候选子图还包括与观点实体关联的候选观点实体、以及与候选观点实体关联的候选证据集合;基于观点约束从候选观点实体中匹配出答案,以及从答案对应的候选证据集合中匹配出证据集合。
可选地,观点约束包括主观问题的情感方向;则服务器在为答案匹配证据集合时,响应于情感方向为正向情感,将答案对应的候选证据集合中正向论述的证据集合最终确定为支持答案的证据集合;响应于情感方向为负向情感,将答案对应的候选证据集合中反向论述的证据集合最终确定为支持答案的证据集合。
示例性的,上述证据集合之间的观点方向不同,则证据集合之间的论述方向相同或者不同;证据集合之间的观点方向相同,则证据集合之间的论述方向不同。举例说明,证据实体之间观点方向不同的情况,即是一个观点实体关联有两个证据实体,一个证据实体是承认该观点的证据集合,另一个证据实体是否认该观点的证据集合;证据实体之间观点方向相同的情况,即是一个观点实体关联有两个证据实体,两个证据实体均是承认或者否认同一个观点的证据集合;
证据实体之间论述方向不同的情况,即是一个观点实体关联有两个证据实体,两个证据实体均是承认该观点的证据集合,一个证据实体是对观点正向论述的证据集合,另一个证据实体是对观点反向论述的证据集合;证据实体之间论述方向相同的情况,即是一个观点实体关联有两个证据实体,两个证据实体均是对观点正向或者反向论述的证据集合。
示例性的,服务器以步长为G在知识图谱中确定出观点实体所在的候选子图,G为正整数。以G取值为2为例,服务器将与主观点对应的观点实体直接连接的其它观点实体、以及间隔一个观点实体连接的其它观点实体确定为候选观点实体,将主观点对应的观点实体、候选观点实体、以及候选观点实体对应的候选证据集合组成的子图确定为候选子图。
服务器在得到主观问题的答案与支持答案的证据集合之后,将其反馈给终端。
综上所述,本实施例提供的基于知识图谱的答案查询方法,以观点作为实体构建知识图谱,且在知识图谱中为观点实体关联了证据集合,在进行主观问题的答案查询时,计算机设备首先从主观问题中识别出用户的问题意图,以确定用户想要获知的观点,然后在知识图谱中查询主观问题的答案以及支持答案的证据集合,精确地的查询出用户想要的答案,并给出强有力的证据,提高给出的答案的可信度。
随着知识的发展,知识图谱中观点与证据集合需要不断地更新、完善,以为用户提供更准确的答案以及支持答案的证据集合,因此,服务器可以周期性对知识图谱进行更新、完善,如图3,示出了一个示例性实施例提供的知识图谱的离线更新方法的流程图,以该方法应用于图1中计算机系统的服务器中为例说明,该方法包括:
步骤301,获取新增问答数据。
上述新增问答数据是指未参与知识图谱构建的问答数据。比如,在问答平台上,每天都会有很多用户发表问题,相应地,也会有很多用户对问题发表观点,服务器采集上述发表的问题与其对应的观点,即得到问答数据。服务器获取自上次离线更新至本次离线更新这段时间内采集的问答数据,这一问答数据即是新增问答数据。示例性的,上述新增问答数据包括用户生成内容(User Generated Content,UGC),也即用户原创内容。
步骤302,通过模式模板对新增问答数据进行观点词抽取,得到目标句子以及目标句子的目标观点词。
服务器中设置有模式(pattern)模板,模式模板是指抽取指定类型观点词的通用句式;示例性的,服务器通过模式模板对新增问答数据进行观点词抽取,得到符合模式模板的目标句子,以及目标句子的目标观点词,其中,上述目标句子中包括模式模板所指定类型的目标观点词。
步骤303,从新增问答数据中匹配支持目标观点词的句子集合。
示例性的,一个目标观点词对应一个观点实体,服务器从UGC中匹配支持目标观点词的句子集合。示例性的,服务器对目标观点词进行聚类,得到粗粒度观点与细粒度观点,每一个观点对应一个观点实体;从UGC中匹配出每一个观点对应的句子集合,即得到支撑每一个观点的证据集合。示例性的,一个粗粒度观点对应一个句子集合,一个细粒度观点对应一个句子集合。
步骤304,响应于知识图谱中不存在目标观点词的观点实体,在知识图谱中添加目标观点词的观点实体,且将句子集合作为目标观点词的证据集合,以证据实体的形式关联至目标观点词的观点实体。
服务器首先确定是否存在目标观点词的观点实体,响应于知识图谱中不存在目标观点词的观点实体,则在知识图谱中添加目标观点词的观点实体,且将句子集合作为目标观点词的证据集合,以证据实体的形式关联至目标观点词的观点实体。在一些实施例中,服务器还可以将句子集合作为目标观点词的证据集合,以证据属性的属性值的形式关联至目标观点词的观点实体。
示例性的,服务器响应于知识图谱中不存在观点的观点实体,在知识图谱中添加观点的观点实体,且将句子集合作为观点的证据集合,以证据实体的形式关联至观点的观点实体,其中,上述观点是由目标观点词聚类得到的。在一些实施例中,服务器还可以将句子集合作为观点的证据集合,以证据属性的属性值的形式关联至观点的观点实体。
步骤305,响应于知识图谱中存在目标观点词的观点实体,将句子集合作为目标观点词的证据集合,以证据实体的形式关联至目标观点词的观点实体。
服务器响应于知识图谱中存在目标观点词(或观点)的观点实体,直接将句子集合作为目标观点词(或观点)的证据集合,以证据实体的形式关联至目标观点词(或观点)的观点实体。示例性的,若一个观点实体对应一个证据实体,服务器在确定目标观点词(或观点)的观点实体存在对应的证据实体之后,将句子集合作为目标观点词(或观点)的一个证据集合添加至证据实体。
示例性的,服务器响应于知识图谱中存在目标观点词(或观点)的观点实体,且观点实体对应有证据实体,将句子集合作为目标观点词(或观点)的证据集合,替换证据实体中原有证据集合,从而可以替换掉超过时效的证据,这是基于证据的时效性来讲的。
可选地,在步骤304和步骤305中,服务器添加证据实体的过程,首先,是对句子集合中的句子进行情感分类,得到正向情感句子的集合和负向情感句子的集合;然后,将正向情感句子的集合确定为目标观点词的正向论述的证据集合,将负向情感句子的集合确定为目标观点词的反向论述的证据集合;再将正向论述的证据集合和反向论述的证据集合分别以证据实体的形式关联至目标观点词的观点实体。在一些实施例中,服务器还可以基于正向论述的证据集合和反向论述的证据集合组成一个证据实体。
综上所述,本实施例提供的知识图谱的离线更新方法,从新增问答数据中抽取新增观点、以及匹配证据集合来添加到知识图谱,丰富知识图谱中的观点实体,使得知识图谱能够解决更多的主观问题,针对主观问题给出更准确的答案;且对于知识图谱的离线更新还能够解决观点以及证据具有的时效性问题,使得知识图谱给出的答案以及证据能够符合当下环境,具有更高的可信度。
基于图3所示实施例,在对知识图谱离线更新的过程中,服务器还在确定出新增的观点词类型之后,还对模式模板进行更新,示例性的,在步骤302之后可以增加步骤306至步骤307,如图4,步骤如下:
步骤306,对目标观点词进行聚类,得到至少两个观点词集合,每一个观点词集合对应一个观点词类型。
可选地,在通过模式模板对新增问答数据进行观点抽取,得到目标句子以及目标句子的目标观点词之后,服务器计算目标句子与其它句子之间的语义相似度,其它句子是指新增问答数据中除目标句子之外的句子;之后,服务器响应于语义相似度大于相似度阈值,将其它句子确定为扩充句子;从扩充句子中提取目标观点词;对目标句子的目标观点词和扩充句子的目标观点词进行聚类,得到至少两个观点词集合。
也就是说,在得到目标句子以及目标句子的目标观点词之后,服务器从新增问答数据中为目标句子匹配语义相似度高的其它句子,再从其它句子中抽取目标观点词,对得到的目标观点词进行聚类,得到上述至少两个观点集合。示例性的,服务器可以采用语义匹配模型为目标句子匹配语义相似度高的其它句子,比如,采用BERT模型为目标句子匹配语义相似度高的其它句子。
可选地,服务器在匹配出目标句子的扩充句子之后,还采用模式模板对扩充句子进行观点词抽取,得到扩充句子的目标观点词。
步骤307,响应于模式模板对观点词的指定类型中不存在该观点词类型,将该观点词类型添加为模式模板的指定类型。
服务器中存在一个模式池,模式(pattern)池中包括抽取观点词的指定类型,模式模板基于模式池中的指定类型对问答数据进行观点词抽取;当模式池中不存在聚类得到的上述观点词类型时,服务器将该观点词类型作为抽取观点词的指定类型添加至模式池,也即将该观点词类型添加为模式模板的指定类型。
示例性的,如图5,服务器从新增问答数据401中匹配出符合模式模板402的目标句子,之后采用语义匹配模型403匹配与目标句子语义相似度高于相似度阈值的扩充句子,从扩充句子中匹配出符合模式模板402的扩充句子;匹配模式模板402的过程中,还从目标句子和扩充句子中抽取得到目标观点词,对目标观点词进行观点聚类,得到至少两个观点词集合,从而得到粗粒度观点、细粒度观点。
综上所述,本实施例提供的模式模板的更新方法,可以更全面的挖掘观点,从而完善知识图谱,以使知识图谱能够针对观点问题提供更准确、更可信的答案以及支持答案的证据。
图6示出了本申请一个示例性实施例提供的基于知识图谱的答案查询装置的框图,该装置可以通过软件、硬件、或者二者结合实现成为服务器或者终端的部分或者全部。该装置包括:
获取模块501,用于获取终端上输入的主观问题,主观问题是指被人的意识所支配的问题;
识别模块502,用于调用意图识别模型从主观问题中识别出问题意图,问题意图用于反映用户想要获知的观点;
查询模块503,用于基于问题意图从知识图谱中查询主观问题的答案和支持答案的证据集合,证据集合用于支持答案所阐述的观点。
在一些实施例中,问题意图包括主观问题的主观点和观点约束;查询模块503,用于:
通过实体链接从知识图谱中查询与主观点对应的观点实体;
确定出观点实体所在的候选子图,候选子图中还包括与观点实体关联的候选观点实体、以及与候选观点实体关联的候选证据实体;
基于观点约束从候选观点实体中匹配出答案,以及从答案对应的候选证据实体中匹配出证据集合。
在一些实施例中,观点约束包括主观问题的情感方向;查询模块503,用于:
响应于情感方向为正向情感,将候选证据实体中正向论述的证据集合确定为证据集合,正向论述是指以正向思维对观点进行论述;
响应于情感方向为负向情感,将候选证据实体中反向论述的证据集合确定为证据集合,反向论述是指以反向思维对观点进行论述。
在一些实施例中,该装置还包括抽取模块504和添加模块505;
获取模块501,还用于获取新增问答数据,新增问答数据是指未参与知识图谱构建的问答数据;
抽取模块504,用于通过模式模板对新增问答数据进行观点词抽取,得到目标句子以及目标句子的目标观点词,目标句子中包括模式模板所指定类型的目标观点词;
查询模块503,还用于从新增问答数据中匹配支持目标观点词的句子集合;
添加模块505,用于响应于知识图谱中不存在目标观点词的观点实体,在知识图谱中添加目标观点词的观点实体,且将句子集合作为目标观点词的证据集合,以证据实体的形式关联至目标观点词的观点实体。
在一些实施例中,该装置还包括聚类模块506;
聚类模块506,用于对目标观点词进行聚类,得到至少两个观点词集合,每一个观点词集合对应一个观点词类型;
添加模块505,还用于响应于模式模板对观点词的指定类型中不存在观点词类型,将观点词类型添加为模式模板的指定类型。
在一些实施例中,聚类模块506,用于:
计算目标句子与其它句子之间的语义相似度,其它句子是指新增问答数据中除目标句子之外的句子;
响应于语义相似度大于相似度阈值,将其它句子确定为扩充句子;
从扩充句子中提取目标观点词;
对目标句子的目标观点词和扩充句子的目标观点词进行聚类,得到至少两个观点词集合。
在一些实施例中,添加模块505,用于:
对句子集合中的句子进行情感分类,得到正向情感句子的集合和负向情感句子的集合;
将正向情感句子的集合确定为目标观点词的正向论述的证据集合,将负向情感句子的集合确定为目标观点词的反向论述的证据集合;
将正向论述的证据集合和反向论述的证据集合分别以证据实体的形式关联至目标观点词的观点实体。
综上所述,本实施例提供的基于知识图谱的答案查询装置,以观点作为实体构建知识图谱,且在知识图谱中为观点实体关联了证据集合,在进行主观问题的答案查询时,首先从主观问题中识别出用户的问题意图,以确定用户想要获知的观点,然后在知识图谱中查询主观问题的答案以及支持答案的证据集合,精确地的查询出用户想要的答案,并给出强有力的证据,提高给出的答案的可信度。
图7示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是执行如本申请提供的基于知识图谱的答案查询方法的设备,该计算机设备可以是终端或者服务器。具体来讲:
计算机设备600包括中央处理单元(CPU,Central Processing Unit)601、包括随机存取存储器(RAM,Random Access Memory)602和只读存储器(ROM,Read Only Memory)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input Output System)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说,大容量存储设备607可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。
计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(DVD,Digital Versatile Disc)或固态硬盘(SSD,Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本申请的各种实施例,计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
在一个可选的实施例中,提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的基于知识图谱的答案查询方法。
在一个可选的实施例中,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的基于知识图谱的答案查询方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的基于知识图谱的答案查询方法。
本申请还提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上所述的基于知识图谱的答案查询方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种基于知识图谱的答案查询方法,其特征在于,所述方法包括:
获取终端上输入的主观问题,所述主观问题是指被人的意识所支配的问题;
调用意图识别模型从所述主观问题中识别出问题意图,所述问题意图用于反映用户想要获知的观点;所述问题意图包括所述主观问题的主观点和观点约束,所述观点约束是指对所述主观点的约束条件,所述观点约束包括所述主观问题的情感方向;
通过实体链接从知识图谱中查询与所述主观点对应的观点实体;
确定出所述观点实体所在的候选子图,所述候选子图中包括与所述观点实体关联的候选观点实体、以及与所述候选观点实体关联的候选证据实体;
基于所述观点约束从所述候选观点实体中匹配出答案;以及
响应于所述情感方向为正向情感,将所述答案对应的所述候选证据实体中正向论述的证据集合确定为证据集合,所述正向论述是指以正向思维对观点进行论述;响应于所述情感方向为负向情感,将所述答案对应的所述候选证据实体中反向论述的证据集合确定为所述证据集合,所述反向论述是指以反向思维对观点进行论述,所述证据集合用于支持所述答案所阐述的观点。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取新增问答数据,所述新增问答数据是指未参与所述知识图谱构建的问答数据;
通过模式模板对所述新增问答数据进行观点词抽取,得到目标句子以及目标句子的目标观点词,所述目标句子中包括所述模式模板所指定类型的目标观点词;
从所述新增问答数据中匹配支持所述目标观点词的句子集合;
响应于所述知识图谱中不存在所述目标观点词的观点实体,在所述知识图谱中添加所述目标观点词的观点实体,且将所述句子集合作为所述目标观点词的证据集合,以证据实体的形式关联至所述目标观点词的观点实体。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述目标观点词进行聚类,得到至少两个观点词集合,每一个观点词集合对应一个观点词类型,所述观点词类型用于按照语义对观点词进行类型划分;
响应于所述模式模板对观点词的指定类型中不存在所述观点词类型,将所述观点词类型添加为所述模式模板的指定类型。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标观点词进行聚类,得到至少两个观点词集合,包括:
计算所述目标句子与其它句子之间的语义相似度,所述其它句子是指所述新增问答数据中除所述目标句子之外的句子;
响应于所述语义相似度大于相似度阈值,将所述其它句子确定为扩充句子;
从所述扩充句子中提取目标观点词;
对所述目标句子的目标观点词和所述扩充句子的目标观点词进行聚类,得到所述至少两个观点词集合。
5.根据权利要求2所述的方法,其特征在于,所述将所述句子集合作为所述目标观点词的证据集合,以证据实体的形式关联至所述目标观点词的观点实体,包括:
对所述句子集合中的句子进行情感分类,得到正向情感句子的集合和负向情感句子的集合;
将所述正向情感句子的集合确定为所述目标观点词的正向论述的证据集合,将所述负向情感句子的集合确定为所述目标观点词的反向论述的证据集合;
将所述正向论述的证据集合和所述反向论述的证据集合分别以所述证据实体的形式关联至所述目标观点词的观点实体。
6.一种基于知识图谱的答案查询装置,其特征在于,所述装置包括:
获取模块,用于获取终端上输入的主观问题,所述主观问题是指被人的意识所支配的问题;
识别模块,用于调用意图识别模型从所述主观问题中识别出问题意图,所述问题意图用于反映所述用户想要获知的观点;
所述问题意图包括所述主观问题的主观点和观点约束,所述观点约束是指对所述主观点的约束条件,所述观点约束包括所述主观问题的情感方向;查询模块,用于通过实体链接从知识图谱中查询与所述主观点对应的观点实体;确定出所述观点实体所在的候选子图,所述候选子图中包括与所述观点实体关联的候选观点实体、以及与所述候选观点实体关联的候选证据实体;基于所述观点约束从所述候选观点实体中匹配出答案;以及响应于所述情感方向为正向情感,将所述答案对应的所述候选证据实体中正向论述的证据集合确定为证据集合,所述正向论述是指以正向思维对观点进行论述;响应于所述情感方向为负向情感,将所述答案对应的所述候选证据实体中反向论述的证据集合确定为所述证据集合,所述反向论述是指以反向思维对观点进行论述,所述证据集合用于支持所述答案所阐述的观点。
7.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至5任一所述的基于知识图谱的答案查询方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至5任一所述的基于知识图谱的答案查询方法。
CN202110265839.8A 2021-03-11 2021-03-11 基于知识图谱的答案查询方法、装置、设备及存储介质 Active CN112966084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110265839.8A CN112966084B (zh) 2021-03-11 2021-03-11 基于知识图谱的答案查询方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110265839.8A CN112966084B (zh) 2021-03-11 2021-03-11 基于知识图谱的答案查询方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112966084A CN112966084A (zh) 2021-06-15
CN112966084B true CN112966084B (zh) 2022-04-05

Family

ID=76277298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110265839.8A Active CN112966084B (zh) 2021-03-11 2021-03-11 基于知识图谱的答案查询方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112966084B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117909486B (zh) * 2024-03-20 2024-05-31 中外运创新科技有限公司 一种基于情感识别和大语言模型的多模式问答方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767376B (zh) * 2020-06-03 2023-04-07 北京理工大学 基于动态知识图谱的问答系统及方法
KR102194837B1 (ko) * 2020-06-30 2020-12-23 건국대학교 산학협력단 지식기반 질문 응답 방법 및 장치
CN111949787B (zh) * 2020-08-21 2023-04-28 平安国际智慧城市科技股份有限公司 基于知识图谱的自动问答方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112966084A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
US10489701B2 (en) Generating responses using memory networks
CN109739939A (zh) 知识图谱的数据融合方法和装置
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN112084789B (zh) 文本处理方法、装置、设备及存储介质
CN110297893B (zh) 自然语言问答方法、装置、计算机装置及存储介质
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN110309377B (zh) 语义归一化、提问模式的生成、应答确定方法及装置
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
KR102204491B1 (ko) 온톨로지 대화 관계망을 이용한 연속 대화 방법 및 시스템
CN110795544A (zh) 内容搜索方法、装置、设备和存储介质
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN113849653A (zh) 一种文本分类方法及装置
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
CN112966084B (zh) 基于知识图谱的答案查询方法、装置、设备及存储介质
CN117932022A (zh) 一种智能问答方法、装置、电子设备及存储介质
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN111931034A (zh) 数据搜索方法、装置、设备及存储介质
CN116702743A (zh) 文本相似度检测方法和装置、电子设备及存储介质
CN116956934A (zh) 任务处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant