CN109684448B - 一种智能问答方法 - Google Patents

一种智能问答方法 Download PDF

Info

Publication number
CN109684448B
CN109684448B CN201811542429.8A CN201811542429A CN109684448B CN 109684448 B CN109684448 B CN 109684448B CN 201811542429 A CN201811542429 A CN 201811542429A CN 109684448 B CN109684448 B CN 109684448B
Authority
CN
China
Prior art keywords
natural language
graph
query
question
semantics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811542429.8A
Other languages
English (en)
Other versions
CN109684448A (zh
Inventor
高留杰
张君福
段俊峰
赵文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Peking University Software Engineering Co ltd
Original Assignee
Beijing Peking University Software Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Peking University Software Engineering Co ltd filed Critical Beijing Peking University Software Engineering Co ltd
Priority to CN201811542429.8A priority Critical patent/CN109684448B/zh
Publication of CN109684448A publication Critical patent/CN109684448A/zh
Application granted granted Critical
Publication of CN109684448B publication Critical patent/CN109684448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种智能问答方法,属于自然语言处理技术领域。本申请在获取用户输入的自然语言问句后,通过预设的组合模板判断该问句是否存在复杂语义,如果判断出存在复杂语义,利用组合模板解析复杂语义部分内容得到第一解析信息,以及利用自然语言模型解析简单语义部分内容得到第二解析信息,然后综合第一解析信息和第二解析信息得到能够表达自然语言问句完整语义的图查询语言,进而进行查询得到答案。本申请使用组合模板对问句复杂语义内容进行处理,并基于知识图谱作问答,利用知识图谱对数据非常好的描述能力,实现本申请在具体应用中无需使用大量的质量高的问答语料,进而有助于提升对包含复杂语义的自然语言问句回答的准确性。

Description

一种智能问答方法
技术领域
本申请属于自然语言处理技术领域,具体涉及一种智能问答方法。
背景技术
随着互联网的发展,知识的表示不再是网页链接,而是真实世界中的一个个事物或概念,这些事物相互连接,彼此传达语义关系,构成了知识图谱。基于知识图谱的一个重要应用就是用来做搜索,不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。
知识图谱加上搜索的一个典型应用场景就是自动问答。问答按领域可划分为开放领域和限定领域,开放领域的问答还处于一个初级阶段,需要的知识库庞大而复杂,一般是大型的搜索引擎在使用。所以现在更多成功的用例是在特定领域里面,特定领域里面我们一般是基于行业做领域问答。
在领域问答上,现有的领域问答方法大多存在以下问题:
1、基于文档检索的,缺乏语义信息;
2、领域定制程度太高,算法可移植性差;
3、回答问题类型限于事实性、简单问句,对于稍复杂的问句无法回答。
4、基于端到端的深度学习模型的,对问答数据的数量和质量要求很高,严重依赖于问答语料。
因而,在领域问答方面,还存在进一步改进的需求。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种智能问答方法,有助于提升对包含复杂语义的自然语言问句回答的准确性。
为实现以上目的,本申请采用如下技术方案:
一种智能问答方法,包括:
获取用户输入的自然语言问句;
根据预设的索引库中的组合模板,判断所述自然语言问句是否存在复杂语义;
如果判断出存在复杂语义,对所述自然语言问句进行分解,提取出所述自然语言问句中的复杂语义部分内容和简单语义部分内容;
对所述复杂语义部分内容进行解析,得到第一解析信息,所述第一解析信息为利用所述组合模板将所述复杂语义部分内容映射成具有属性约束的逻辑表达式;
对所述简单语义部分内容进行解析,得到第二解析信息,所述第二解析信息为利用预设的自然语言模型解析所述简单语义部分内容得到的语义信息;
根据所述第一解析信息和所述第二解析信息,得到能够表达所述自然语言问句完整语义的图查询语言;
通过预设的知识图谱对所述图查询语言进行查询,得到答案;
其中,所述组合模板用于对所述自然语言问句中是否存在复杂语义进行判断,以及在存在复杂语义时,将所述复杂语义部分内容映射成具有属性约束的逻辑表达式。
进一步地,所述根据所述第一解析信息和所述第二解析信息,得到能够表达所述自然语言问句完整语义的图查询语言,包括:
S11、对所述第二解析信息进行实体抽取,得到候选约束集合和候选标签集合,然后执行S12;
S12、将所述第一解析信息中的标签对应内容添加到所述候选标签集合中,将所述第一解析信息中其余内容添加到所述候选约束集合中,然后执行S13;
S13、根据所述候选约束集合和所述候选标签集合进行关系推导,得到能够表达所述自然语言问句完整语义的查询逻辑表达式,然后执行S14;
S14、将所述查询逻辑表达式转换为所述图查询语言。
进一步地,所述对所述第二解析信息进行实体抽取,包括:
使用所述自然语言模型对所述简单语义部分内容进行分词和词性标注,得到查询词;
对查询词进行实体对齐;
通过所述知识图谱进行实体链接和属性链接。
进一步地,所述根据所述候选约束集合和所述候选标签集合进行关系推导,得到能够表达所述自然语言问句完整语义的查询逻辑表达式,包括:
根据所述候选约束集合,得到最优约束集合;
根据所述候选标签集合,得到最优关系链;
将所述最优关系链和所述最优约束集合进行组合,得到能够表达所述自然语言问句完整语义的查询逻辑表达式。
进一步地,所述根据所述候选约束集合,得到最优约束集合,包括:
通过所述知识图谱,找到每个查询词模糊匹配到的所有实体或者属性;
根据预设的相似性算法公式,计算每个查询词与对应的所有实体或者属性的相似性,选取相似性得分最高的实体或者属性,将每个查询词对应的相似性得分最高的实体或者属性形成最优约束集合。
进一步地,所述相似性算法公式为:
Figure BDA0001908496080000031
Figure BDA0001908496080000032
其中,qi为词的第i个字;tfii为词频,即qi出现的频率;k1和b均调节因子,k1用于对文档中的词频行缩放控制,b决定文档长度的缩放程度;dl为文档字符个数;avgdl为所有文档平均字符数;q为输入的查询词;Score(q,d)为所匹配到的文档d的得分;N为总文档数;n为查询词q中包含的字的数量;n(qi)表示包含qi的文档数;IDF(qi)为qi的逆文档频率。
进一步地,所述根据所述候选标签集合,得到最优关系链,包括:
通过所述知识图谱,得到所述候选标签集合中每个候选标签的知识图谱子图路径,形成知识图谱子图路径集合;
根据所述知识图谱子图路径集合,通过预设的关系排序算法公式,计算得到所述最优关系链。
进一步地,所述关系排序算法公式为:
score=match(raw_label,sub-graph)
其中,score为分值,raw_label为候选标签集合,sub_graph为知识图谱子图路径集合。
进一步地,所述方法还包括:
如果判断出所述自然语言问句中不存在复杂语义,则利用所述自然语言模型解析所述自然语言问句,得到的第三语义信息;
根据所述第三语义信息得到能够表达所述自然语言问句完整语义的图查询语言;
通过预设的知识图谱对所述图查询语言进行查询,得到答案。
进一步地,所述知识图谱和所述索引库的构建方法为:
通过至少一个数据源获取领域数据;
根据所述领域数据构建本体模型;
根据所述本体模型构建所述知识图谱,以及
根据所述本体模型构建所述组合模板、本体库词典、实体词典、属性词典和同义词词林,以形成所述索引库。
本申请采用以上技术方案,至少具备以下有益效果:
本申请提供一种智能问答方法,在获取用户输入的自然语言问句后,通过预设的组合模板判断该问句是否存在复杂语义,如果判断出存在复杂语义,利用组合模板解析复杂语义部分内容得到第一解析信息,以及利用自然语言模型解析简单语义部分内容得到第二解析信息,然后综合第一解析信息和第二解析信息得到能够表达自然语言问句完整语义的图查询语言,进而进行查询得到答案。本申请使用组合模板对问句复杂语义内容进行处理,并基于知识图谱作问答,利用知识图谱对数据非常好的描述能力,实现本申请在具体应用中无需使用大量的质量高的问答语料,进而有助于提升对包含复杂语义的自然语言问句回答的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个实施例提供的智能问答方法的流程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
图1为本申请一个实施例提供的智能问答方法的流程示意图,如图1所示,该智能问答方法包括如下步骤:
S1、获取用户输入的自然语言问句;
S2、根据预设的索引库中的组合模板,判断所述自然语言问句是否存在复杂语义;
S3、如果判断出存在复杂语义,对所述自然语言问句进行分解,提取出所述自然语言问句中的复杂语义部分内容和简单语义部分内容;
S4、对所述复杂语义部分内容进行解析,得到第一解析信息,所述第一解析信息为利用所述组合模板将所述复杂语义部分内容映射成具有属性约束的逻辑表达式;
对所述简单语义部分内容进行解析,得到第二解析信息,所述第二解析信息为利用预设的自然语言模型解析所述简单语义部分内容得到的语义信息;
S5、根据所述第一解析信息和所述第二解析信息,得到能够表达所述自然语言问句完整语义的图查询语言;
S6、通过预设的知识图谱对所述图查询语言进行查询,得到答案;
其中,所述组合模板用于对所述自然语言问句中是否存在复杂语义进行判断,以及在存在复杂语义时,将所述复杂语义部分内容映射成具有属性约束的逻辑表达式。
对于复杂的语义,复杂语义解释比较难,在自然语言的相关技术中,自然语言模型对于复杂语义的处理存在难以胜任的问题,语义提取困难,得出的答案的准确性不佳。各种机器学习算法虽然在预测能力上很不错,但是在描述能力上非常弱,因而需要大量的质量高的语料进行弥补,导致机器学习算法严重依赖于问答语料。
本申请上述实施例方案在具体应用中,用户可以通过手动打字的方式输入自然语言问句,也可以通过语音输入的方式输入自然语言问句。在获取用户输入的自然语言问句后,通过预设的组合模板判断该问句是否存在复杂语义,如果判断出存在复杂语义,利用组合模板解析复杂语义部分内容得到第一解析信息,以及利用自然语言模型解析简单语义部分内容得到第二解析信息,然后综合第一解析信息和第二解析信息得到能够表达自然语言问句完整语义的图查询语言,进而进行查询得到答案。
在实际应用中,对于预设的知识图谱和索引库,需要事先构建好。
在一个实施例中,本申请给出一种所述知识图谱和所述索引库的构建方法为:
通过至少一个数据源获取领域数据;
根据所述领域数据构建本体模型;
根据所述本体模型构建所述知识图谱,以及
根据所述本体模型构建所述组合模板、本体库词典、实体词典、属性词典和同义词词林,以形成所述索引库。
上述方案在具体构建中,可以通过各个数据源获取领域数据,分析领域数据的特征,总结领域内的实体、属性和它们之间的关系,绘制本体模型。
通过本体模型,将结构化、半结构化或非结构化的数据抽取成携带属性的实体和关联关系,通过数据融合工具导入图数据库,将知识以图的方式存储和表示,以构建出知识图谱。
对于索引库的构建,通过上述的本体模型,抽取本体、实体名称、属性,分别构建本体库词典、实体词典、属性词典。本体词典中存储了所有实体的类型信息;实体名称词典中存储了实体的类型、对应的实体名称字段和值;属性词典中存储了属性所在实体的类型、属性的字段和值。
构建实体名称的同义词词林;同义词词林中记录了实体名称的简称和全称的一个映射,目的是将搜索输入的实体名称对应到知识图谱中的实体上。
对于预设的组合模板,其是一种规则,能将符合规则的自然语言语句直接映射成逻辑表达式。本申请中,在下述给了出组合模板的一种实施例。
在一个实施例中,组合模板包括三个部分,分别是Group,Template和Expression,进一步说明如下:
Figure BDA0001908496080000071
在实际应用中,通过设计各类组合模板,可实现对同类数据套用一个组合模板进行处理,并基于知识图谱作问答,利用知识图谱对数据非常好的描述能力,实现本申请在具体应用中无需使用大量的质量高的问答语料,进而有助于提升对包含复杂语义的自然语言问句回答的准确性。
对于预设的自然语言模型,在实际应用中,比如,可采用哈工大的语言技术平台。
在一个实施例中,所述根据所述第一解析信息和所述第二解析信息,得到能够表达所述自然语言问句完整语义的图查询语言,包括:
S11、对所述第二解析信息进行实体抽取,得到候选约束集合和候选标签集合,然后执行S2。
进一步地,所述对所述第二解析信息进行实体抽取,包括:
使用所述自然语言模型对所述简单语义部分内容进行分词和词性标注,得到查询词;
对查询词进行实体对齐:
通过所述知识图谱进行实体链接和属性链接。
在具体应用中,可以采用基于CRF算法的自然语言模型。
对于上述的分词,可以使用上述索引库中的词典辅助分词,使分词更准确,进而使领域实体的识别更可靠。
对于上述的对查询词进行实体对齐,可包括如下过程:在索引库的同义词词林中查找每个词在知识图谱中的同义词,若匹配到就将原词替换为知识图谱中的词。
经过实体抽取后,得到的候选约束集合中,包含有实体和属性;候选标签集合中包含有实体标签。
S12、将所述第一解析信息中的标签对应内容添加到所述候选标签集合中,将所述第一解析信息中其余内容添加到所述候选约束集合中,然后执行S13。
对于上述S12步骤,第一解析信息为利用所述组合模板将所述复杂语义部分内容映射成具有属性约束的逻辑表达式。请参见,上述的组合模板的具体实施例,上述模板的Expression部分,给出一种逻辑表达式的举例:
{label=Cadre,field=birthday,op=>=,regex=[0-9]+,constraint=%s}
其中,该表达式为属性约束的一种逻辑表达式,label为标签。
S13、根据所述候选约束集合和所述候选标签集合进行关系推导,得到能够表达所述自然语言问句完整语义的查询逻辑表达式,然后执行S14。
以下通过进一步的实施例方案对S13步骤进行说明。
进一步地,所述根据所述候选约束集合和所述候选标签集合进行关系推导,得到能够表达所述自然语言问句完整语义的查询逻辑表达式,包括:
根据所述候选约束集合,得到最优约束集合;
根据所述候选标签集合,得到最优关系链;
将所述最优关系链和所述最优约束集合进行组合,得到能够表达所述自然语言问句完整语义的查询逻辑表达式。
进一步地,所述根据所述候选约束集合,得到最优约束集合,包括:
通过所述知识图谱,找到每个查询词模糊匹配到的所有实体或者属性;
根据预设的相似性算法公式,计算每个查询词与对应的所有实体或者属性的相似性,选取相似性得分最高的实体或者属性,将每个查询词对应的相似性得分最高的实体或者属性形成最优约束集合。
进一步地,所述相似性算法公式为:
Figure BDA0001908496080000091
Figure BDA0001908496080000092
其中,qi为词的第i个字;tfi为词频,即qi出现的频率;k1和b均调节因子,k1用于对文档中的词频行缩放控制,b决定文档长度的缩放程度;dl为文档字符个数;avgdl为所有文档平均字符数;q为输入的查询词;Score(q,d)为所匹配到的文档d的得分;N为总文档数;n为查询词q中包含的字的数量;n(qi)表示包含qi的文档数;IDF(qi)为qi的逆文档频率。
上述相似性算法是基于字的算法,对于中文词汇的语义计算更为准确。
进一步地,所述根据所述候选标签集合,得到最优关系链,包括:
通过所述知识图谱,得到所述候选标签集合中每个候选标签的知识图谱子图路径,形成知识图谱子图路径集合;
根据所述知识图谱子图路径集合,通过预设的关系排序算法公式,计算得到所述最优关系链。
对于上述实施例方案,通过检索知识图谱,获取每一个候选标签相关的所有路径,这些路径可以是N元组,比如三元组或者更多的元组,每一个N元组至少包含了一个候选类型标签,N元组代表了候选实体类型有可能的关系链,要想找到最优的关系链,需要对这些候选关系链打分并排序。排序的依据是关系链对标签集合的贡献有多大,包含标签集合中元素越多的关系链越接近答案,分值就越高。
使用关系排序算法,依据子图查询返回的关系链集合中,每个关系链所包含的标签数量,给出相应的分值,然后选取得分最高的N元组,最为作为最优关系链。
进一步地,所述关系排序算法公式为:
score=match(raw_label,sub_graph)
其中,score为分值,raw_label为候选标签集合,sub_graph为知识图谱子图路径集合。match(raw_label,sub_graph)函数是计算子图的路径中包含候选实体标签的数量与关系链中标签数量的比值。
以下通过具体的应用实施例对上述S13及其相关方案进行说明。
以“少数民族女干部”为例,解析结果为:
Figure BDA0001908496080000101
Figure BDA0001908496080000111
S14、将所述查询逻辑表达式转换为所述图查询语言。
以下以Neo4j数据库为例,将上述的“少数民族女干部”的解析结果转换为Cypher语句的图查询语言。
Match(cadre:Cadre)-[r:Cadre_Nation]-(nation:Nation)
Where cadre.gender=’女’and nation.category=’少数民族’
Return cadre,r,nation
上述实施例方案针对的是包含有复杂语义的自然语言问句进行的说明。对于完全时简单语义的处理方法。本申请以下还给出一种实施例,所述方法还包括:
如果判断出所述自然语言问句中不存在复杂语义,则利用所述自然语言模型解析所述自然语言问句,得到的第三语义信息;
根据所述第三语义信息得到能够表达所述自然语言问句完整语义的图查询语言;
通过预设的知识图谱对所述图查询语言进行查询,得到答案。
可以理解的是,上述方案的实施,可以参考包含有复杂语义的自然语言问句的处理过程,只需将包含有复杂语义的自然语言问句的处理过程中的复杂语义处理内容排除出去即可,具体方式已经在上述相关的方法实施例中进行了详细描述,此处将不做详细阐述说明。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为:表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种智能问答方法,其特征在于,包括:
获取用户输入的自然语言问句;
根据预设的索引库中的组合模板,判断所述自然语言问句是否存在复杂语义;
如果判断出存在复杂语义,对所述自然语言问句进行分解,提取出所述自然语言问句中的复杂语义部分内容和简单语义部分内容;
对所述复杂语义部分内容进行解析,得到第一解析信息,所述第一解析信息为利用所述组合模板将所述复杂语义部分内容映射成具有属性约束的逻辑表达式;
对所述简单语义部分内容进行解析,得到第二解析信息,所述第二解析信息为利用预设的自然语言模型解析所述简单语义部分内容得到的语义信息;
根据所述第一解析信息和所述第二解析信息,得到能够表达所述自然语言问句完整语义的图查询语言;
通过预设的知识图谱对所述图查询语言进行查询,得到答案;
其中,所述组合模板用于对所述自然语言问句中是否存在复杂语义进行判断,以及在存在复杂语义时,将所述复杂语义部分内容映射成具有属性约束的逻辑表达式。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一解析信息和所述第二解析信息,得到能够表达所述自然语言问句完整语义的图查询语言,包括:
S11、对所述第二解析信息进行实体抽取,得到候选约束集合和候选标签集合,然后执行S12;
S12、将所述第一解析信息中的标签对应内容添加到所述候选标签集合中,将所述第一解析信息中其余内容添加到所述候选约束集合中,然后执行S13;
S13、根据所述候选约束集合和所述候选标签集合进行关系推导,得到能够表达所述自然语言问句完整语义的查询逻辑表达式,然后执行S14;
S14、将所述查询逻辑表达式转换为所述图查询语言。
3.根据权利要求2所述的方法,其特征在于,所述对所述第二解析信息进行实体抽取,包括:
使用所述自然语言模型对所述简单语义部分内容进行分词和词性标注,得到查询词;
对查询词进行实体对齐;
通过所述知识图谱进行实体链接和属性链接。
4.根据权利要求2所述的方法,其特征在于,所述根据所述候选约束集合和所述候选标签集合进行关系推导,得到能够表达所述自然语言问句完整语义的查询逻辑表达式,包括:
根据所述候选约束集合,得到最优约束集合;
根据所述候选标签集合,得到最优关系链;
将所述最优关系链和所述最优约束集合进行组合,得到能够表达所述自然语言问句完整语义的查询逻辑表达式。
5.根据权利要求4所述的方法,其特征在于,所述根据所述候选约束集合,得到最优约束集合,包括:
通过所述知识图谱,找到每个查询词模糊匹配到的所有实体或者属性;
根据预设的相似性算法公式,计算每个查询词与对应的所有实体或者属性的相似性,选取相似性得分最高的实体或者属性,将每个查询词对应的相似性得分最高的实体或者属性形成最优约束集合。
6.根据权利要求5所述的方法,其特征在于,所述相似性算法公式为:
Figure FDA0001908496070000021
Figure FDA0001908496070000022
其中,qi为词的第i个字;tfi为词频,即qi出现的频率;k1和b均调节因子,k1用于对文档中的词频行缩放控制,b决定文档长度的缩放程度;dl为文档字符个数;avgdl为所有文档平均字符数;q为输入的查询词;Score(q,d)为所匹配到的文档d的得分;N为总文档数;n为查询词q中包含的字的数量;n(qi)表示包含qi的文档数;IDF(qi)为qi的逆文档频率。
7.根据权利要求4所述的方法,其特征在于,所述根据所述候选标签集合,得到最优关系链,包括:
通过所述知识图谱,得到所述候选标签集合中每个候选标签的知识图谱子图路径,形成知识图谱子图路径集合;
根据所述知识图谱子图路径集合,通过预设的关系排序算法公式,计算得到所述最优关系链。
8.根据权利要求7所述的方法,其特征在于,所述关系排序算法公式为:
score=match(raw_label,sub_graph)
其中,score为分值,raw_label为候选标签集合,sub_graph为知识图谱子图路径集合。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果判断出所述自然语言问句中不存在复杂语义,则利用所述自然语言模型解析所述自然语言问句,得到的第三语义信息;
根据所述第三语义信息得到能够表达所述自然语言问句完整语义的图查询语言;
通过预设的知识图谱对所述图查询语言进行查询,得到答案。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述知识图谱和所述索引库的构建方法为:
通过至少一个数据源获取领域数据;
根据所述领域数据构建本体模型;
根据所述本体模型构建所述知识图谱,以及
根据所述本体模型构建所述组合模板、本体库词典、实体词典、属性词典和同义词词林,以形成所述索引库。
CN201811542429.8A 2018-12-17 2018-12-17 一种智能问答方法 Active CN109684448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811542429.8A CN109684448B (zh) 2018-12-17 2018-12-17 一种智能问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811542429.8A CN109684448B (zh) 2018-12-17 2018-12-17 一种智能问答方法

Publications (2)

Publication Number Publication Date
CN109684448A CN109684448A (zh) 2019-04-26
CN109684448B true CN109684448B (zh) 2021-01-12

Family

ID=66186160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811542429.8A Active CN109684448B (zh) 2018-12-17 2018-12-17 一种智能问答方法

Country Status (1)

Country Link
CN (1) CN109684448B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096584B (zh) * 2019-05-14 2021-10-15 京东数字科技控股有限公司 一种应答方法和装置
CN111949758A (zh) * 2019-05-16 2020-11-17 北大医疗信息技术有限公司 医疗问答推荐方法、推荐系统和计算机可读存储介质
CN110287209A (zh) * 2019-06-10 2019-09-27 北京百度网讯科技有限公司 问答处理方法、装置、设备和存储介质
CN110457484B (zh) * 2019-06-26 2022-02-22 重庆兆光科技股份有限公司 一种基于图的逻辑表达方法、系统、介质和设备
CN111026842B (zh) * 2019-11-29 2023-09-12 微民保险代理有限公司 自然语言处理方法、自然语言处理装置及智能问答系统
CN112988986B (zh) * 2019-12-02 2024-05-31 阿里巴巴集团控股有限公司 人机交互方法、装置与设备
CN111339246B (zh) * 2020-02-10 2023-03-21 腾讯云计算(北京)有限责任公司 查询语句模板的生成方法、装置、设备及介质
CN111475623B (zh) * 2020-04-09 2023-08-22 北京北大软件工程股份有限公司 基于知识图谱的案件信息语义检索方法及装置
CN111522963A (zh) * 2020-04-14 2020-08-11 南京烽火星空通信发展有限公司 一种基于公安知识图谱引擎的智能助理应用交互方法
CN111611806B (zh) * 2020-05-06 2023-08-11 北京智通云联科技有限公司 一种用于知识图谱问答的语义解析方法、系统及设备
US11537660B2 (en) * 2020-06-18 2022-12-27 International Business Machines Corporation Targeted partial re-enrichment of a corpus based on NLP model enhancements
CN111986759A (zh) * 2020-08-31 2020-11-24 平安医疗健康管理股份有限公司 电子病历的解析方法、系统、计算机设备与可读存储介质
CN112199478A (zh) * 2020-09-11 2021-01-08 北京三快在线科技有限公司 自动问答方法、装置、电子设备及计算机可读存储介质
CN112328766B (zh) * 2020-11-10 2022-05-03 四川长虹电器股份有限公司 一种基于路径搜索的知识图谱问答方法和装置
CN112463926A (zh) * 2020-12-07 2021-03-09 广东电网有限责任公司佛山供电局 一种数据检索/智能问答方法、装置、存储介质
CN112559689B (zh) * 2020-12-21 2024-07-19 广州橙行智动汽车科技有限公司 一种基于车载问答的数据处理方法和装置
CN115376504A (zh) * 2021-05-19 2022-11-22 北京小米移动软件有限公司 智能产品的语音交互方法、装置及可读存储介质
CN113326697A (zh) * 2021-05-31 2021-08-31 云南电网有限责任公司电力科学研究院 一种基于知识图谱的电力文本实体语义理解方法
CN113255374B (zh) * 2021-06-02 2024-06-07 竹间智能科技(上海)有限公司 问答管理方法及系统
CN113449117B (zh) * 2021-06-24 2023-09-26 武汉工程大学 一种基于Bi-LSTM和中文知识图谱的复合问答方法
CN113420125B (zh) * 2021-06-25 2023-09-19 深圳索信达数据技术有限公司 基于行业类型的问答对确定方法、系统、存储介质及设备
CN113468311B (zh) * 2021-07-20 2023-09-19 四川启睿克科技有限公司 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN114428788B (zh) * 2022-01-28 2024-08-13 腾讯科技(深圳)有限公司 自然语言处理方法、装置、设备及存储介质
CN118551027B (zh) * 2024-07-30 2024-10-15 广东华南水电高新技术开发有限公司 一种基于水利知识图谱的智能问答系统的构建方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226846A1 (en) * 2012-02-24 2013-08-29 Ming Li System and Method for Universal Translating From Natural Language Questions to Structured Queries
CN103514289A (zh) * 2013-10-08 2014-01-15 北京百度网讯科技有限公司 一种兴趣本体库构建方法及装置
CN103577397A (zh) * 2012-08-10 2014-02-12 阿里巴巴集团控股有限公司 计算机翻译数据处理方法及装置
CN104850554A (zh) * 2014-02-14 2015-08-19 北京搜狗科技发展有限公司 一种搜索方法和系统
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN108984661A (zh) * 2018-06-28 2018-12-11 上海海乂知信息科技有限公司 一种知识图谱中实体对齐方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226846A1 (en) * 2012-02-24 2013-08-29 Ming Li System and Method for Universal Translating From Natural Language Questions to Structured Queries
CN103577397A (zh) * 2012-08-10 2014-02-12 阿里巴巴集团控股有限公司 计算机翻译数据处理方法及装置
CN103514289A (zh) * 2013-10-08 2014-01-15 北京百度网讯科技有限公司 一种兴趣本体库构建方法及装置
CN104850554A (zh) * 2014-02-14 2015-08-19 北京搜狗科技发展有限公司 一种搜索方法和系统
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108984661A (zh) * 2018-06-28 2018-12-11 上海海乂知信息科技有限公司 一种知识图谱中实体对齐方法和装置
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BM25算法浅析;gglawo123;《https://wenku.baidu.com/view/9107bd78a26925c52cc5bfbb.html》;20120229;第1-3页 *

Also Published As

Publication number Publication date
CN109684448A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109684448B (zh) 一种智能问答方法
CN110399457B (zh) 一种智能问答方法和系统
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
US8005815B2 (en) Search engine
US8751218B2 (en) Indexing content at semantic level
US20170235841A1 (en) Enterprise search method and system
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
CN113505243A (zh) 基于医疗知识图谱的智能问答方法和装置
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
US20030101182A1 (en) Method and system for smart search engine and other applications
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及系统
WO2014160379A1 (en) Dimensional articulation and cognium organization for information retrieval systems
CN105760462B (zh) 基于关联数据查询的人机交互方法及装置
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
EP3864564A1 (en) System for searching natural language documents
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN116244344B (zh) 基于用户需求的检索方法、装置以及电子设备
CN114153994A (zh) 医保信息问答方法及装置
Bhatia et al. Semantic web mining: Using ontology learning and grammatical rule inference technique
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
Al-Zoghby et al. Semantic relations extraction and ontology learning from Arabic texts—a survey
CN112989808A (zh) 实体链接方法及装置
CN118245564B (zh) 一种支持语义查重查新的特征比对库构建方法及装置
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An intelligent question answering method

Effective date of registration: 20211105

Granted publication date: 20210112

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: BEIJING PEKING UNIVERSITY SOFTWARE ENGINEERING CO.,LTD.

Registration number: Y2021990001072

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20210112

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: BEIJING PEKING UNIVERSITY SOFTWARE ENGINEERING CO.,LTD.

Registration number: Y2021990001072

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An intelligent question answering method

Granted publication date: 20210112

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: BEIJING PEKING UNIVERSITY SOFTWARE ENGINEERING CO.,LTD.

Registration number: Y2024990000293