CN111666399A - 基于知识图谱的智能问答方法、装置和计算机设备 - Google Patents
基于知识图谱的智能问答方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111666399A CN111666399A CN202010582584.3A CN202010582584A CN111666399A CN 111666399 A CN111666399 A CN 111666399A CN 202010582584 A CN202010582584 A CN 202010582584A CN 111666399 A CN111666399 A CN 111666399A
- Authority
- CN
- China
- Prior art keywords
- entity
- intention
- answer
- question
- question text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000005065 mining Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 14
- 238000000605 extraction Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能,提供一种基于知识图谱的智能问答方法、装置和计算机设备,其中方法包括:在线接收问题文本;提取所述问题文本中的第一实体;以及,在预设的知识图谱中查找与所述第一实体对应的的第一节点;利用预设的意图识别规则引擎识别所述问题文本的第一意图,其中,所述意图识别规则引擎是依据Trie树建立的引擎;根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案;根据预设方式反馈所述第一答案。在实现智能问答时,通过基于Trie树建立的意图识别规则引擎可以快速地进行意图识别,提高问答系统反馈速度。将自然语言映射到知识图谱上进行结构化查询,查询的速度更快,结果更准确。
Description
技术领域
本申请涉及到人工智能领域,特别是涉及到一种基于知识图谱的智能问答方法、装置和计算机设备。
背景技术
基于文本的问答系统,是利用检索的方式从语料库中搜寻相关的信息,这种方式存在多种缺陷。首先,语料在语料库中是以原始文本的形式保存,每条语料是相对独立存在的,因此语料之间不存在关联。其次,语料包含的信息和知识是零散且没有层次的,因此无法在问答中利用知识本身的相关性、上下位关系等信息进行推理和泛化,意图识别的速度较慢。
发明内容
本申请的主要目的为提供一种基于知识图谱的问答方法、装置、计算机设备和存储介质,旨在解决现有技术中问答系统对问题的意图识别较慢的问题。
为了实现上述发明目的,本申请提出一种基于知识图谱的智能问答方法,包括:
在线接收问题文本;
提取所述问题文本中的第一实体;以及,
在预设的知识图谱中查找与所述第一实体对应的的第一节点;
利用预设的意图识别规则引擎识别所述问题文本的第一意图,其中,所述意图识别规则引擎是依据Trie树建立的引擎;
根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案;
根据预设方式反馈所述第一答案。
进一步地,所述提取所述问题文本中的第一实体的步骤之前,包括:
获取待实体挖掘数据;
对所述待实体挖掘数据进行离线实体挖掘,得到实体语料库;
所述提取所述问题文本中的第一实体的步骤,包括:
将所述问题文本输入到预设的在线实体挖掘模块,提取所述第一实体,其中,所述在线实体挖掘模块的语料库中的语料来自于所述实体语料库。
进一步地,所述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤之前,还包括:
判断所述意图识别规则引擎是否识别到所述第一意图;
若否,则将所述问题文本输入到预设的基于深度神经网络模型训练得到的意图识别模型中进行意图识别,得到所述第一意图。
进一步地,所述意图识别模型是基于BERT模型训练而得到的模型;所述将所述问题文本输入到预设的基于深度神经网络模型训练得到的意图识别模型中进行意图识别,得到所述第一意图的步骤,包括:
将所述问题文本向量化,并直接输入到所述意图识别模型的第三层进行计算,得到所述第一意图。
进一步地,所述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤,包括:
根据所述第一实体和第一意图,以所述第一节点为起点,经过一跳或多跳处理得到与所述第一实体关联的其他实体或对应的属性,得到所述第一答案。
进一步地,所述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤,包括:
以所述第一节点为起点,依据所述第一意图查找与所述第一实体相关的实体、潜在的路径、相关答案,以及对应的知识图谱中关联的子图,以嵌入的形式表达,得到多个候选答案;
分别计算所述问题文本与多个所述候选答案的相似度;
选择与所述问题文本相似度最高的候选答案作为所述第一答案。
进一步地,所述在线接收问题文本的步骤之后,包括:
将所述问题文本转移到预设的离线实体挖掘模块中进行实体挖掘,得到所述问题文本中的第二实体;
所述根据预设方式反馈所述第一答案的步骤之后,包括:
比较第一实体和第二实体是否相同;
如果不同,则依据第二实体获取对应所述问题文本的第二答案。
本申请还提供一种基于知识图谱的智能问答方法,包括:
接收单元,用于在线接收问题文本;
提取单元,用于提取所述问题文本中的第一实体;以及,
查找关联单元,用于在预设的知识图谱中查找与所述第一实体对应的的第一节点;
意图识别单元,用于利用预设的意图识别规则引擎识别所述问题文本的第一意图,其中,所述意图识别规则引擎是依据Trie树建立的引擎;
查找答案单元,用于根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案;
反馈单元,用于根据预设方式反馈所述第一答案。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于知识图谱的智能问答方法、装置和计算机设备,在实现智能问答时,通过基于Trie树建立的所述意图识别规则引擎可以快速地进行意图识别,提高问答系统反馈速度。将自然语言映射到知识图谱上进行结构化查询,查询的速度更快,结果更准确。
附图说明
图1为本申请一实施例的基于知识图谱的智能问答方法的流程示意图;
图2为本申请一实施例的基于知识图谱的智能问答装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于知识图谱的智能问答方法,包括步骤:
S1、在线接收问题文本;
S2、提取所述问题文本中的第一实体;以及,
S3、在预设的知识图谱中查找与所述第一实体对应的的第一节点;
S4、利用预设的意图识别规则引擎识别所述问题文本的第一意图,其中,所述意图识别规则引擎是依据Trie树建立的引擎;
S5、根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案;
S6、根据预设方式反馈所述第一答案。
如上述步骤S1所述,上述问题文本可以是用户输入的文字文本,也可以是用户输入的图片等转换而得到的文字文本,还可以是用户语音输入的语音转化得到的文字文本等。文字文本是指使用文字描述的文本。上述在线是指处于联网状态,通过网页接口或应用程序的应用端显示页面实时接收用户输入的问题文本。
如上述步骤S2所述,上述提取第一实体的过程,即为实体链接的过程。
如上述步骤S3所述,当提取出问题文本中的第一实体之后,根据第一实体到知识图谱中查找与所述第一实体对应的节点,并建立关联。
如上述步骤S4所述,即为意图识别的过程,需要深度理解用户输入的问题文本的意图,在本实施例中,使用意图识别规则的意图识别规则引擎进行识别。具体地,意图识别规则是基于Trie树。Trie树又称单词查找树,其为树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。在现有技术中,意图识别多使用正则表达式实现,识别速度慢,而使用Trie树则可以大大地提高识别速度。举个例子,对于1条输入句子,假设总共10000条规则,如果使用正则表达式,则需要遍历每条表达式进行匹配,时间、性能开销极大,而将这10000条规则建立Trie树,直接对输入句子进行模板匹配,性能提升1000倍以上。
如上述步骤S5和S6所述,即为结合第一实体和第一意图到知识图谱中查找问题文本的第一答案的过程。上述反馈方式包括多种,如文字显示的方式反馈、音频反馈的方式、图片反馈的方式等。在一个具体实施例中,先得到文字答案,和对应的图片,然后文字答案转换成语音,最后将文字答案、语音和图片整合到一个页面中,然后进行反馈,使正常用户、盲人用户或聋哑用户均可以了解到第一答案的内容。
在一个实施例中,上述提取所述问题文本中的第一实体的步骤S2之前,包括:
获取待实体挖掘数据;
对所述待实体挖掘数据进行离线实体挖掘,得到实体语料库;
所述提取所述问题文本中的第一实体的步骤S2,包括:
将所述问题文本输入到预设的在线实体挖掘模块,提取所述第一实体,其中,所述在线实体挖掘模块的语料库中的语料来自于所述实体语料库。
在本实施例中,上述离线实体挖掘系统是指离线状态下的实体挖掘统,因为是离线状态,所以可以设置大规模的语料库,又因为技术运行速度的要求较低,因此能够使用更复杂的模型和技术,从而更准确地和更大覆盖地挖掘出实体的别名,因此可以更加准确地从问题文本中提取出第一实体。上述待挖掘数据可以是各种口语化的数据,而且数量巨大,在一个实施例中,具体实体挖掘是医疗领域的各种病的挖掘,其待挖掘数据可以通过读取各医院的门诊系统的日志,或者各种相关APP的服务器日志等(需要得到授权),从而得到大量的待挖掘数据。问答系统的一个要求就是快速反应,所以得到问题文本后,越快反馈答案,用户的体验越好。上述在线实体挖掘模块的特点就是快速,因此无法使用大规模存储的的语料、复杂的模型和技术,但是还需要得到准确的提取结果,现有技术无法两全其美的解决,而本申请,则是将上述离线挖掘得到的实体语料库给线上的在线实体挖掘模块使用,从而提高了在线实体挖掘模块的实体提取准确性,提高用户的体验。上述在线实体挖掘模块的语料库中的语料来自于所述实体语料库,是指在线实体挖掘模块的语料库中的语料与所述实体语料库中存储的语料是相同的,且来自于上述实体语料库。在另一个实施例中,上述在线实体挖掘模块的语料库可以与离线实体挖掘共用同一个所述实体语料库。
在一个实施例中,上述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤S5之前,还包括:
判断所述意图识别规则引擎是否识别到所述第一意图;
若否,则将所述问题文本输入到预设的基于深度神经网络模型训练得到的意图识别模型中进行意图识别,得到所述第一意图。
在本实施例中,因为意图识别规则引擎中的规则是固定的,所以不能满足所有的意图识别,如果意图识别规则引擎没有识别出问题文本的意图,本申请中马上切成意图识别模型进行意图识别,本申请中的上述深度神经网络模型是BERT模型,BERT的全称是基于Transformer的双向编码器表征,BERT的训练方法决定了他能真正做到contextualrepresentations(上下文表征),比起其它的词向量表示方法,也是目前唯一一个可以真正做到deep bidirectional(深度双向)的pre-trained(预训练)语言模型。本申请实施例之所以优先使用意图识别规则引擎,主要原因是意图识别规则具有高精度、低召回的特点。意图识别规则和意图识别模型同时使用,可以实现互补,比如,意图识别规则具有高精度、低召回的特点,而意图识别模型具有稍低精度、高召回的特点。在本实施例中,优先使用意图识别规则识别到的意图,如果意图识别规则没有识别到任何意图,则使用意图识别模型识别到的意图。
在一个实施例中,上述意图识别模型是基于BERT模型训练而得到的模型;上述将所述问题文本输入到预设的基于深度神经网络模型训练得到的意图识别模型中进行意图识别,得到所述第一意图的步骤,包括:
将所述问题文本向量化,并直接输入到所述意图识别模型的第三层进行计算,得到所述第一意图。
在本实施例中,因为问答系统是速度要求极高的场景,又因为是在规则引擎无法识别到意图而浪费部分时间的情况下,更需要意图识别模型提高识别速度,因此针对性地提取基于BERT模型训练而得到意图识别模型的第3层进行建模,计算最后得分,从而得到最后的意图。在损失极小精确度的前提下,大幅度提高速度,相比于逐层建模计算,速度提高4倍左右。
在一个实施例中,上述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤S5,包括:
根据所述实体和第一意图,以所述第一节点为起点,经过一跳或多跳处理得到与所述实体关联的其他实体或对应的属性,得到所述第一答案。
在本实施例中,是一种显式图网络查询的过程。比如,用户输入的问题文本是:平安福最大的优势是什么?首先实体链接在知识图谱中,找到平安福这个节点(第一节点);然后经过意图识别的步骤,了解用户的意图是要得到平安福的完整信息,以及和其他产品的对比;那么,接下来的过程如下:
1.一跳搜索,得到平安福的各种属性和信息;
2.多跳搜索,从平安福到相关产品、竞品等,得到这些产品的各种属性和信息;
3.对平安福和竞品的属性和信息进行对比,生成回复(第一答案),回答用户的问题。
在一个实施例中,上述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤,包括:
以所述第一节点为起点,依据所述第一意图查找与所述第一实体相关的实体、潜在的路径、相关答案,以及对应的知识图谱中关联的子图,以嵌入的形式表达,得到多个候选答案;
分别计算所述问题文本与多个候选答案的相似度;
选择与所述问题文本相似度最高的候选答案作为所述第一答案。
在本实施例中,是一种隐式嵌入信息的过程,隐式嵌入信息,是将知识图谱视为heterogeneous information network(HIN),其中所有信息都以嵌入(embedding)的形式在同一个空间中表达,因而可以进行各种数学计算。如以下场景:知识图谱中的路径:从产品节点A,经过关系R,连接至相关节点B。其中节点A,B分别表示为节点嵌入(nodeembedding),而关系R则表示为关系嵌入(relation embedding)。本申请中,计算所述问题文本与候选答案的相似度的方法可以是:计算问题文本的向量化表示和候选答案的向量化表示的余弦相似度(cosine similarity)。
在一个实施例中,上述在线接收问题文本的步骤S1之后,包括:
将所述问题文本转移到预设的离线实体挖掘模块中进行实体挖掘,得到所述问题文本中的第二实体;
所述根据预设方式反馈所述第一答案的步骤之后,包括:
比较第一实体和第二实体是否相同;
如果不同,则依据第二实体获取对应所述问题文本的第二答案。
在本实施例中,即为二次计算的过程,利用离线实体挖掘模块直接对问题文本进行实体挖掘,可能得到一个更加准确的第二实体。如果第二实体与第一实体不同,那么之前输出的第一答案可能有误,所以利用上述步骤S3-S5的过程重新计算得到一个第二答案。这个第二答案可以直接反馈给用户,也可以反馈给后台的工作人员等。
在一个实施例中,依据第二实体获取对应所述问题文本的第二答案的步骤之后,包括:
判断所述第一答案与所述第二答案是否相同;
若不同,则发出是否查看第二答案的问询信息;
在预设时间内,若接收到查看的命令,则将所述第二答案发送至所述第一答案的呈现处。
在本实施例中,如果第一答案和第二答案相同,则可以将第二答案删除,或者发送给工作人员进行调整模型等。如果不同,则需要问询输入问题文本的用户是否还需要查看,因为第一答案的结果用户可能已经接受了。如果用户需要查看,则发送查看命令,进而将第二答案发送给用户。第二答案会发送到第一答案处,便于用户比较两个答案的区别。
上述各实施例中的第一、第二等仅为用于却别名词的代指,没有实质意义。
本申请的基于知识图谱的智能问答方法,通过基于Trie树建立的所述意图识别规则引擎可以快速地进行意图识别,提高问答系统反馈速度。进一步地,本申请通过一系列实体链接、意图理解、图网络建设等技术,将复杂的知识以结构化、体系化、层次化的形式存储。将自然语言映射到知识图谱上进行结构化查询;或者利用知识图谱的信息,显式或隐式地用于用户问题的理解和推理,能够提供准确、简洁、结构化的结果。并且系统具有更好的推理能力和泛化能力,能够提供更加完善的答案。通过离线实体别名挖掘和在线实体链接,提高实体链接的准确率和覆盖率。并且,在意图识别环节,可以精确识别用户意图,从而指导后续的图推理环节。此外,图网络推理,通过显式的查询语句和/或隐式嵌入信息,将相关的实体、潜在的推理路径和候选答案,以及对应的知识图谱中的子图,通过向量化表达,计算相关性,从而精准地得到用户期望的信息和知识。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
参照图2,本申请还提供一种基于知识图谱的智能问答装置,包括:
接收单元10,用于在线接收问题文本;
提取单元20,用于提取所述问题文本中的第一实体;以及,
查找关联单元30,用于在预设的知识图谱中查找与所述第一实体对应的的第一节点;
意图识别单元40,用于利用预设的意图识别规则引擎识别所述问题文本的第一意图,其中,所述意图识别规则引擎是依据Trie树建立的引擎;
查找答案单元50,用于根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案;
反馈单元60,用于根据预设方式反馈所述第一答案。
在一个实施例中,上述基于知识图谱的智能问答装置还包括:
获取单元,用于获取待实体挖掘数据;
离线挖掘单元,用于对所述待实体挖掘数据进行离线实体挖掘,得到实体语料库;
所述提取单元,包括:
提取模块,永固将所述问题文本输入到预设的在线实体挖掘模块,提取所述第一实体,其中,所述在线实体挖掘模块的语料库中的语料来自于所述实体语料库。
在一个实施例中,上述基于知识图谱的智能问答装置还包括:
判断单元,用于判断所述意图识别规则引擎是否识别到所述第一意图;
识别意图单元,用于若否,则将所述问题文本输入到预设的基于深度神经网络模型训练得到的意图识别模型中进行意图识别,得到所述第一意图。
在一个实施例中,上述意图识别模型是基于BERT模型训练而得到的模型;所述将意图识别单元,包括:
输入计算模块,用于将所述问题文本向量化,并直接输入到所述意图识别模型的第三层进行计算,得到所述第一意图。
在一个实施例中,所述查找答案单元50,包括:
显式图网络查询模块,用于根据所述第一实体和第一意图,以所述第一节点为起点,经过一跳或多跳处理得到与所述第一实体关联的其他实体或对应的属性,得到所述第一答案。
在一个实施例中,所述查找答案单元50,包括:
隐式嵌入信息查询模块,用于以所述第一节点为起点,依据所述第一意图查找与所述第一实体相关的实体、潜在的路径、相关答案,以及对应的知识图谱中关联的子图,以嵌入的形式表达,得到多个候选答案;
相似度计算模块,用于分别计算所述问题文本与多个所述候选答案的相似度;
选择模块,用于选择与所述问题文本相似度最高的候选答案作为所述第一答案。
在一个实施例中,上述基于知识图谱的智能问答装置还包括:
线下提取实体单元,用于将所述问题文本转移到预设的离线实体挖掘模块中进行实体挖掘,得到所述问题文本中的第二实体;
比较单元,用于比较第一实体和第二实体是否相同;
答案获取单元,用于如果不同,则依据第二实体获取对应所述问题文本的第二答案。
在一个实施例中,上述基于知识图谱的智能问答装置还包括:
判断单元,用于判断所述第一答案与所述第二答案是否相同;
问询单元,用于若不同,则发出是否查看第二答案的问询信息;
查看呈现单元,用于在预设时间内,若接收到查看的命令,则将所述第二答案发送至所述第一答案的呈现处。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语料等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例的基于知识图谱的智能问答方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例的基于知识图谱的智能问答方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于知识图谱的智能问答方法,其特征在于,包括:
在线接收问题文本;
提取所述问题文本中的第一实体;以及,
在预设的知识图谱中查找与所述第一实体对应的的第一节点;
利用预设的意图识别规则引擎识别所述问题文本的第一意图,其中,所述意图识别规则引擎是依据Trie树建立的引擎;
根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案;
根据预设方式反馈所述第一答案。
2.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述提取所述问题文本中的第一实体的步骤之前,包括:
获取待实体挖掘数据;
对所述待实体挖掘数据进行离线实体挖掘,得到实体语料库;
所述提取所述问题文本中的第一实体的步骤,包括:
将所述问题文本输入到预设的在线实体挖掘模块,提取所述第一实体,其中,所述在线实体挖掘模块的语料库中的语料来自于所述实体语料库。
3.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤之前,还包括:
判断所述意图识别规则引擎是否识别到所述第一意图;
若否,则将所述问题文本输入到预设的基于深度神经网络模型训练得到的意图识别模型中进行意图识别,得到所述第一意图。
4.根据权利要求3所述的基于知识图谱的智能问答方法,其特征在于,所述意图识别模型是基于BERT模型训练而得到的模型;所述将所述问题文本输入到预设的基于深度神经网络模型训练得到的意图识别模型中进行意图识别,得到所述第一意图的步骤,包括:
将所述问题文本向量化,并直接输入到所述意图识别模型的第三层进行计算,得到所述第一意图。
5.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤,包括:
根据所述第一实体和第一意图,以所述第一节点为起点,经过一跳或多跳处理得到与所述第一实体关联的其他实体或对应的属性,得到所述第一答案。
6.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案的步骤,包括:
以所述第一节点为起点,依据所述第一意图查找与所述第一实体相关的实体、潜在的路径、相关答案,以及对应的知识图谱中关联的子图,以嵌入的形式表达,得到多个候选答案;
分别计算所述问题文本与多个所述候选答案的相似度;
选择与所述问题文本相似度最高的候选答案作为所述第一答案。
7.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述在线接收问题文本的步骤之后,包括:
将所述问题文本转移到预设的离线实体挖掘模块中进行实体挖掘,得到所述问题文本中的第二实体;
所述根据预设方式反馈所述第一答案的步骤之后,包括:
比较第一实体和第二实体是否相同;
如果不同,则依据第二实体获取对应所述问题文本的第二答案。
8.一种基于知识图谱的智能问答装置,其特征在于,包括:
接收单元,用于在线接收问题文本;
提取单元,用于提取所述问题文本中的第一实体;以及,
查找关联单元,用于在预设的知识图谱中查找与所述第一实体对应的的第一节点;
意图识别单元,用于利用预设的意图识别规则引擎识别所述问题文本的第一意图,其中,所述意图识别规则引擎是依据Trie树建立的引擎;
查找答案单元,用于根据所述第一意图,以所述第一节点为起点,在所述知识图谱中查找对应所述问题文本的第一答案;
反馈单元,用于根据预设方式反馈所述第一答案。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010582584.3A CN111666399B (zh) | 2020-06-23 | 2020-06-23 | 基于知识图谱的智能问答方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010582584.3A CN111666399B (zh) | 2020-06-23 | 2020-06-23 | 基于知识图谱的智能问答方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666399A true CN111666399A (zh) | 2020-09-15 |
CN111666399B CN111666399B (zh) | 2024-07-30 |
Family
ID=72389711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010582584.3A Active CN111666399B (zh) | 2020-06-23 | 2020-06-23 | 基于知识图谱的智能问答方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666399B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115276A (zh) * | 2020-09-18 | 2020-12-22 | 平安科技(深圳)有限公司 | 基于知识图谱的智能客服方法、装置、设备及存储介质 |
CN112182252A (zh) * | 2020-11-09 | 2021-01-05 | 浙江大学 | 基于药品知识图谱的智能用药问答方法及其设备 |
CN112506967A (zh) * | 2020-12-07 | 2021-03-16 | 中国平安人寿保险股份有限公司 | Ai面试的数据流量分析方法、装置和计算机设备 |
CN112528046A (zh) * | 2020-12-25 | 2021-03-19 | 网易(杭州)网络有限公司 | 新的知识图谱的构建方法、装置和信息检索方法、装置 |
CN112558913A (zh) * | 2020-12-15 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 基于聚合卡片的对话方法、装置、计算机设备及存储介质 |
CN112667799A (zh) * | 2021-03-15 | 2021-04-16 | 四川大学 | 一种基于语言模型和实体匹配的医疗问答系统构建方法 |
CN112966087A (zh) * | 2021-03-15 | 2021-06-15 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN113342952A (zh) * | 2021-06-16 | 2021-09-03 | 上海电气集团股份有限公司 | 一种基于问题图迭代检索的知识图谱问答方法 |
CN114189740A (zh) * | 2021-10-27 | 2022-03-15 | 杭州摸象大数据科技有限公司 | 视频合成对话构建方法、装置、计算机设备及存储介质 |
CN114595696A (zh) * | 2022-03-03 | 2022-06-07 | Oppo广东移动通信有限公司 | 实体消歧方法、实体消歧装置、存储介质与电子设备 |
CN118227804A (zh) * | 2024-05-27 | 2024-06-21 | 江西微博科技有限公司 | 一种基于知识图谱实现事项办理的智能导航方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902302A (zh) * | 2019-03-01 | 2019-06-18 | 郑敏杰 | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN109933653A (zh) * | 2019-01-24 | 2019-06-25 | 平安科技(深圳)有限公司 | 问答系统的问答查询方法、系统及计算机设备 |
CN110019687A (zh) * | 2019-04-11 | 2019-07-16 | 宁波深擎信息科技有限公司 | 一种基于知识图谱的多意图识别系统、方法、设备及介质 |
CN110209793A (zh) * | 2019-06-18 | 2019-09-06 | 佰聆数据股份有限公司 | 一种用于智能识别文本语义的方法 |
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN111309863A (zh) * | 2020-02-10 | 2020-06-19 | 北京声智科技有限公司 | 基于知识图谱的自然语言问答方法及装置 |
-
2020
- 2020-06-23 CN CN202010582584.3A patent/CN111666399B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933653A (zh) * | 2019-01-24 | 2019-06-25 | 平安科技(深圳)有限公司 | 问答系统的问答查询方法、系统及计算机设备 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN109902302A (zh) * | 2019-03-01 | 2019-06-18 | 郑敏杰 | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 |
CN110019687A (zh) * | 2019-04-11 | 2019-07-16 | 宁波深擎信息科技有限公司 | 一种基于知识图谱的多意图识别系统、方法、设备及介质 |
CN110209793A (zh) * | 2019-06-18 | 2019-09-06 | 佰聆数据股份有限公司 | 一种用于智能识别文本语义的方法 |
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN111309863A (zh) * | 2020-02-10 | 2020-06-19 | 北京声智科技有限公司 | 基于知识图谱的自然语言问答方法及装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021189956A1 (zh) * | 2020-09-18 | 2021-09-30 | 平安科技(深圳)有限公司 | 基于知识图谱的智能客服方法、装置、设备及存储介质 |
CN112115276B (zh) * | 2020-09-18 | 2024-05-24 | 平安科技(深圳)有限公司 | 基于知识图谱的智能客服方法、装置、设备及存储介质 |
CN112115276A (zh) * | 2020-09-18 | 2020-12-22 | 平安科技(深圳)有限公司 | 基于知识图谱的智能客服方法、装置、设备及存储介质 |
CN112182252A (zh) * | 2020-11-09 | 2021-01-05 | 浙江大学 | 基于药品知识图谱的智能用药问答方法及其设备 |
CN112506967A (zh) * | 2020-12-07 | 2021-03-16 | 中国平安人寿保险股份有限公司 | Ai面试的数据流量分析方法、装置和计算机设备 |
CN112506967B (zh) * | 2020-12-07 | 2024-05-03 | 中国平安人寿保险股份有限公司 | Ai面试的数据流量分析方法、装置和计算机设备 |
CN112558913A (zh) * | 2020-12-15 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 基于聚合卡片的对话方法、装置、计算机设备及存储介质 |
CN112528046B (zh) * | 2020-12-25 | 2023-09-15 | 网易(杭州)网络有限公司 | 新的知识图谱的构建方法、装置和信息检索方法、装置 |
CN112528046A (zh) * | 2020-12-25 | 2021-03-19 | 网易(杭州)网络有限公司 | 新的知识图谱的构建方法、装置和信息检索方法、装置 |
CN112966087A (zh) * | 2021-03-15 | 2021-06-15 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN112966087B (zh) * | 2021-03-15 | 2023-10-13 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN112667799A (zh) * | 2021-03-15 | 2021-04-16 | 四川大学 | 一种基于语言模型和实体匹配的医疗问答系统构建方法 |
CN113342952A (zh) * | 2021-06-16 | 2021-09-03 | 上海电气集团股份有限公司 | 一种基于问题图迭代检索的知识图谱问答方法 |
CN114189740A (zh) * | 2021-10-27 | 2022-03-15 | 杭州摸象大数据科技有限公司 | 视频合成对话构建方法、装置、计算机设备及存储介质 |
CN114595696A (zh) * | 2022-03-03 | 2022-06-07 | Oppo广东移动通信有限公司 | 实体消歧方法、实体消歧装置、存储介质与电子设备 |
CN118227804A (zh) * | 2024-05-27 | 2024-06-21 | 江西微博科技有限公司 | 一种基于知识图谱实现事项办理的智能导航方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111666399B (zh) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666399B (zh) | 基于知识图谱的智能问答方法、装置和计算机设备 | |
US11151177B2 (en) | Search method and apparatus based on artificial intelligence | |
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN111259113B (zh) | 文本匹配方法、装置、计算机可读存储介质和计算机设备 | |
CN105787134B (zh) | 智能问答方法、装置及系统 | |
CN113157863A (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN109508458A (zh) | 法律实体的识别方法及装置 | |
CN111309881A (zh) | 智能问答中未知问题处理方法、装置、计算机设备和介质 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN112836061A (zh) | 智能推荐的方法、装置以及计算机设备 | |
CN113486140A (zh) | 知识问答的匹配方法、装置、设备及存储介质 | |
CN117668181A (zh) | 信息处理方法、装置、终端设备以及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN113886531A (zh) | 智能问答话术确定方法、装置、计算机设备和存储介质 | |
CN116821285A (zh) | 基于人工智能的文本处理方法、装置、设备及介质 | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN117932022A (zh) | 一种智能问答方法、装置、电子设备及存储介质 | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114663194A (zh) | 产品信息推荐方法、装置、计算机设备及存储介质 | |
CN113946668A (zh) | 基于边缘节点的语义处理方法、系统、装置及存储介质 | |
CN116992111B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN117235234B (zh) | 对象信息获取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |