CN112632237A - 一种基于知识图谱的问答模板自动生成方法及装置 - Google Patents
一种基于知识图谱的问答模板自动生成方法及装置 Download PDFInfo
- Publication number
- CN112632237A CN112632237A CN202011430799.XA CN202011430799A CN112632237A CN 112632237 A CN112632237 A CN 112632237A CN 202011430799 A CN202011430799 A CN 202011430799A CN 112632237 A CN112632237 A CN 112632237A
- Authority
- CN
- China
- Prior art keywords
- question
- template
- answer
- user
- query graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识图谱的问答模板的自动生成方法、装置、可读存储介质及计算设备,通过自动生成问答模板,能够将自然语言拆分若干子句,分别寻找其答案,最后合并答案,简化了检索过程,降低了检索难度,大大提升了效率,方法包括:获取多个用于生成问答模板的用户问题和答案对;根据多个所述用户问题和答案对,生成多个问答模板;所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息;当接收到用户输入的问题时,如果确定所述用户输入的问题和所述话语模板的解析树匹配,则根据所述对齐信息和字典实例化所述查询图模板,得到候选答案;对多个所述候选答案进行排名,将排名前一位或多位的候选答案返回给用户。
Description
技术领域
本发明涉及人工智能和自动机器学习技术领域,尤其涉及一种基于知识图谱的问答模板自动生成方法、装置、可读存储介质及计算设备。
背景技术
随着互联网上信息的爆炸式增长,人们对信息检索的需求越来越大,如何快速,精确,可靠地从大量的、模态多样化的信息中搜索到用户需要的信息,成为一个迫切且需要解决的问题。
目前技术上已经实现了基于模板的知识图谱问答系统,这种系统的优点:查询响应速度快,准确率高,可以回答复杂查询,同时缺点也相当明显:要满足用户的各种问法,需要建立庞大的模板库,这个过程是很耗精力的,这个时候设计一个问答模板的自动生成系统是必然的。
如何克服传统的基于模板的问答系统由人工构建模板带来的时间成本巨大,以及耗费人力的问题,现有技术尚未提出相应的解决方案。
发明内容
为此,本发明提供了一种基于知识图谱的问答模板自动生成方法、装置、可读存储介质及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明实施例的一个方面,提供了基于知识图谱的问答模板自动生成方法,包括:
获取多个用于生成问答模板的用户问题和答案对;
根据多个所述用户问题和答案对,生成多个问答模板;所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息;
当接收到用户输入的问题时,如果确定所述用户输入的问题和所述话语模板的解析树匹配,则根据所述对齐信息和字典实例化所述查询图模板,得到候选答案;
对多个所述候选答案进行排名,将排名前一位或多位的候选答案返回给用户。
可选地,根据多个所述用户问题和答案对,生成多个问答模板,包括:
为每个所述答案的子集确定出连接所述用户问题中的实体和所述答案的子集的最小子图,根据所述最小子图构造与所述用户问题对应的主干查询图;
将所述用户问题与所述主干查询图作对齐处理,得到与所述用户问题对应的查询图;
将所述用户问题与所述查询图作对齐处理;
对所述用户问题、所述查询图、以及所述用户问题和所述查询图的对齐信息作泛化处理,生成问答模板,所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息。
可选地,根据所述最小子图构造与所述用户问题对应的主干查询图,包括:
对于所述最小子图,采用变量替换与所述答案的子集或不同实体和问题文本的n元关系对应的节点,形成主干查询图;
将连接到所述答案的类型约束添加到所述变量,扩展所述主干查询图,所述类型约束指问题的意图和实体的组合信息的约束。
可选地,对所述用户问题、所述查询图、以及所述用户问题和所述查询图的对齐信息作泛化处理,生成问答模板,包括:
删除所述用户问题和所述查询图的对齐信息关联的节点中的具体文本;
删除所述查询图中语义项的类似文本;
保留注释的第一信息、第二信息和第三信息,从而将对齐信息关联的节点转换为占位符,形成由话语模板,查询模板,以及话语模板和查询图模板的对齐信息组成的问答模板;
其中,所述第一信息和所述第二信息指话语模板中的短语与对应话语模板中的知识图谱(Knowledge Graph,KG)语义项之间的对齐信息中的两类参数,所述第三信息指用户问题对应话语模板的类别参数。
可选地,方法还包括:
预先构建用于对齐操作和实例化处理的字典,所述字典包括谓词字典和类型字典;
其中,构建谓词字典包括:
在问题和答案对中提取“e1,r,e2”模式;所述“e1,r,e2”模式为“实体”—“谓词短语”—“实体”结构;
当“e1,r,e2”模式与知识图谱中的三元组“e1,p,e2”相同时,则在谓词字典中加入格式r→p;所述“e1,p,e2”为“实体”—“关系”—“实体”结构;
当提取到与“e1,p,e2”不同的模式时,设置第一权重对p进行选择;所述第一权重与数据源中r→p被观察到的次数成正比;
构建类型字典包括:
在问题和答案对中提取“np”模式,所述“np”指实体类型;
当“np”和知识图谱中的三元组“c”相同时,向类型字典中加入格式np→c;
当提取到与“c”不同的模式时,设置第二权重对c进行选择,所述第二权重与数据源中np→c被观察到的次数成正比。
可选地,所述解析树为依赖性解析树;所述依赖性解析树是有向根树,所述依赖性解析树的节点对应于问题话语令牌,所述依赖性解析树的边缘表示节点之间的语法关系。
可选地,将排名前一位或多位的候选答案返回给用户的同时,还包括:
将候选答案对应的问答模板信息和所述查询图模板的实例化信息返回给所述用户。
根据本发明的又一方面,提供一种基于知识图谱的问答模板的自动生成装置,包括:
问题答案对输入单元,用于获取多个用于生成问答模板的用户问题和答案对;
问答模板生成单元,用于根据多个所述用户问题和答案对,生成多个问答模板;所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息;
问答模板匹配单元,用于当接收到用户输入的问题时,如果确定所述用户输入的问题和所述话语模板的解析树匹配,则根据所述对齐信息和字典实例化所述查询图模板,得到候选答案;
答案筛选单元,用于对多个所述候选答案进行排名,将排名前一位或多位的候选答案返回给用户。
根据本发明的又一方面,提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行上述的基于知识图谱的问答模板自动生成方法。
根据本发明的又一方面,提供一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行上述的基于知识图谱的问答模板自动生成方法。
本发明实施例中,获取多个用于生成问答模板的用户问题和答案对;根据多个所述用户问题和答案对,生成多个问答模板;所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息;当接收到用户输入的问题时,如果确定所述用户输入的问题和所述话语模板的解析树匹配,则根据所述对齐信息和字典实例化所述查询图模板,得到候选答案;对多个所述候选答案进行排名,将排名前一位或多位的候选答案返回给用户。通过自动生成问答模板,能够将自然语言拆分若干子句,分别寻找其答案,最后合并答案,简化了检索过程,降低了检索难度,大大提升了效率。
附图说明
附图示出了本发明的示例性实施方式,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是示例性的计算设备的结构框图;
图2是根据本发明实施例的基于知识图谱的问答模板自动生成方法的流程示意图;
图3是根据本发明实施例的模板泛化过程的示意图;
图4是根据本发明实施例的基于知识图谱的问答模板自动生成装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是布置为实现根据本发明的基于知识图谱的问答模板自动生成方法的示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以被配置为在操作系统上由一个或者多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外围接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示终端或者扬声器之类的各种外部设备进行通信。示例外围接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机、服务器、由多台计算机组成的集群中的虚拟计算设备。
其中,计算设备100的一个或多个程序122包括用于执行根据本发明的一种基于知识图谱的问答模板自动生成方法的指令。
图2示例性示出根据本发明的一种基于知识图谱的问答模板自动生成方法的流程图,方法始于步骤S210。
在S210中,预先构建用于对齐操作和实例化处理的字典,所述字典包括谓词字典和类型字典。
其中,构建谓词字典包括:在问题和答案对中提取“e1,r,e2”模式;所述“e1,r,e2”模式为“实体”—“谓词短语”—“实体”结构;当“e1,r,e2”模式与知识图谱中的三元组“e1,p,e2”相同时,则在谓词字典中加入格式r→p;所述“e1,p,e2”为“实体”—“关系”—“实体”结构;当提取到与“e1,p,e2”不同的模式时,设置第一权重对p进行选择;所述第一权重与数据源中r→p被观察到的次数成正比。例如,当r→p不成立,出现“e1,r1,e2”模式、“e1,r2,e2”模式时,设置权重w对p进行选择,w与数据源中r→p被观察到的次数成正比。
构建类型字典包括:在问题和答案对中提取“np”模式,所述“np”指实体类型;当“np”和知识图谱中的三元组“c”相同时,向类型字典中加入格式np→c;当提取到与“c”不同的模式时,设置第二权重对c进行选择,所述第二权重与数据源中np→c被观察到的次数成正比。例如,当出现“c1”、“c2”模式时,设置权重w进行调整,w与数据源中np→c被观察到的次数成正比。
随后,在步骤S220中,获取多个用于生成问答模板的用户问题和答案对,以及,选取依赖性解析树作为解析树。所述依赖性解析树是有向根树,所述依赖性解析树的节点对应于问题话语令牌,所述依赖性解析树的边缘表示节点之间的语法关系。
随后,在步骤S230中,为每个所述答案的子集确定出连接所述用户问题中的实体和所述答案的子集的最小子图,根据所述最小子图构造与所述用户问题对应的主干查询图。
具体地,根据所述最小子图构造与所述用户问题对应的主干查询图,包括:对于所述最小子图,采用变量替换与所述答案的子集或不同实体和问题文本的n元关系对应的节点,形成主干查询图;将连接到所述答案的类型约束添加到所述变量,扩展所述主干查询图,所述类型约束指问题的意图和实体的组合信息的约束。其中,将连接到所述答案的类型约束添加到相应变量,扩展所述主干查询图,可用于说明问题类型,从而提高问题的精准性。
随后,在步骤S240中,对所述用户问题、所述查询图、以及所述用户问题和所述查询图的对齐信息作泛化处理,生成问答模板。
具体地,本步骤包括如下内容:删除所述用户问题和所述查询图的对齐信息关联的节点中的具体文本;删除所述查询图中语义项的类似文本;类似文本即在语义上或字符相似度上相似的文本;保留注释的第一信息、第二信息和第三信息,从而将对齐信息关联的节点转换为占位符,形成由话语模板,查询模板,以及话语模板和查询图模板的对齐信息组成的问答模板;其中,所述第一信息和所述第二信息指话语模板中的短语与对应话语模板中的KG语义项之间的对齐信息中的两类参数,所述第三信息指用户问题对应话语模板的类别参数。例如,第一信息、第二信息、第三信息分别指pred、ent和type。
随后,在步骤S250中,当接收到用户输入的新问题时,则实例化所述查询图模板,得到候选答案,将排名前一位或多位的候选答案返回给用户。
在本步骤中,排名的依据可以是相似度、置信度等。
下面给出本发明的具体实施例。
本发明具体实施例提供了一种基于知识图谱的问答模板的自动生成系统,包括模板生成模块、模板匹配模块。模板生成模块,使用预先准备好的用户问题u和答案A_u对作为输入,最后生成u和查询图模板q对齐之后的模板m;模板匹配模块,使用了模板生成模块得到的模板库,和用户输入的新问题做匹配得到查询模板和实例化的查询q进行排名,这里采用了基于深度学习的方法进行排名,最后选出排名靠前的答案返回给用户,通过显示使用了哪个模板以及如何实例化模板,系统可以满足向用户解释答案。
具体实现步骤如下:
步骤(1):首先通过q构建两个字典,Lp和Lc,分别指谓词词典和类型词典,为之后的u和KG原语以及查询图q对齐工作以及实例化模板做准备。该算法具体步骤如下:
步骤1-1.谓词字典Lp的提取,首先在知识图谱中提取“e1,r,e2”模式,之后如果模式和KG中三元组“e1,q,e2”相同,则在Lp中加入以下格式:r→q。
步骤1-2.但是不一定每次r→q都会成立,如可能出现偶然出现“e1,r1,e2”、“e1,r2,e2”,为避免这种情况造成的误差,本系统设置了权重w来调整(w和数据源中r→q被观察到的次数成正比)。
步骤1-3.对任意实体的类型我们向类型字典Lc中添加如下格式np(nonephrase)→c,同样用w进行约束。
步骤(2):对于模板的命名体识别对齐过程中,本系统使用现成的命名实体消歧系统S-MART,对候选实体进行歧义消除。
步骤(3):训练阶段的输入是问题话语u和来自KG的答案集A_u,对于用户的不同问题,我们使用字母u来交替引用话语及其依赖性解析树(dependency parse tree)。dependency parse tree是有向根树,其节点对应于话语词汇,而边缘表示节点之间的语法关系。系统的话语模板基于话语的依赖性解析的动机是:可以捕获话语标记之间的长程依赖关系,这有助于回答组合问题;提供了很大的灵活性,允许系统在实例化查询模板时跳过不相关的标记。
步骤4-1.首先通过u中的实体和a得到的最小子图,系统用变量替换与a或CVT对应的节点,从该子图中形成q'用变量替换与a或CVT对应的节点,从该子图中形成q',CVT指不同实体和问题文本的n元关系。
步骤4-2.为了说明类型,系统通过将连接到a的类型约束添加到相应变量来扩展q'。
步骤(5):将q'与u对齐,这使我们得到它最能捕获u的语义以及u和q的成分之间的对齐。之后由u和q创建的模板,我们将对齐问题公式化为约束优化,并使用整数线性规划(Integer Linear Programming,ILP)找到最佳对齐m。
步骤(6):从步骤(5)中得到的具体对齐(u,q,m),系统进行泛化得到(ut,qt,mt),以从对齐的话语依存关系解析树和查询图的具体对生成模板。该算法具体步骤为:泛化过程删除参与m的节点中的具体文本,并删除q中语义项的类似文本,保留注释的ent,pred和type,从而将这些节点转换为占位符。结果是模板t=(ut,qt,mt),由话语模板ut,查询模板qt和两者之间的对齐mt组成。
步骤(7):当用户发出新问题u0时,系统会将其依赖关系解析树与训练过程中创建的模板库进行匹配。u0的dependency parse tree的边和节点与ut匹配。对于每个匹配,使用比对mt和词典实例化相应的查询模板qt。
步骤(8):最后,系统使用深度学习方法对这些候选查询进行排名。排名靠前的查询的答案将返回给用户。通过显示使用了哪个模板以及如何实例化模板,本系统可以向用户解释答案。
本发明具体实施例提供的系统具有如下优点:
1、基于知识图谱的问答模板生成系统支持更友好的互动问答模式。
系统一方面可以使得用户的搜索更加快速、准确、方便,另一方面符合用户的查询习惯。自然语言语句,尤其是中文的自然语言,本身具有语义结构复杂,语境复杂多变,隐喻,修辞等等,传统的谷歌,雅虎,百度等搜索引擎主要是基于关键词匹配的一种信息检索技术,它从互联网以一定策略搜集、爬取信息,对信息进行解析、索引,为用户提供检索服务。传统搜索引擎存在搜索接口不友好,搜索过程复杂等问题。比如用户查询“美国最繁华的城市是哪?”,传统搜索引起往往无法帮你找到你想要的答案,或者无法显式的提供问题的精确答案,而基于知识图谱的问答模板生成系统却可以帮助拟解决该问题。
2、基于知识图谱的问答模板生成系统支持更精准、简洁的结果返回。
本发明的生成式模板首先通过将自然语言拆分若干子句,分别寻找其答案,最后合并答案。简化了检索过程,降低了检索难度,大大提升了效率,比如用户查询“怎么去世界上最高的山?”问题首先被分解为“世界上最高的山”和“怎么去最高的山”两个问题。检索过程更加人性化。
3、基于知识图谱的问答模板生成系统支持模板库的累积。
模板库是一个不断“扩充”新内容,并更新旧内容模板的过程,因此,模板库通过不断累积新的模板,使用户的查询范围越来越广泛,增加用户的满意度是一个势在必行的举措。
4、基于知识图谱的问答模板生成系统支持隐式信息显式表达。互联网上的信息包罗万象,各种信息之间可能存在复杂的、隐秘的联系,依靠传统的存储技术,无法从形态万千的信息中找到可能包含的联系,如何在信息数据中进行数据挖掘,是一个难点。本系统通过KG的结构化表示,存储方式,可以通过系统创建的模板进行一系列的知识推理、挖掘等工作。可以将信息隐含的内容通过模板检索的方式显式的呈现给用户。
参见图4,本发明实施例还提供了一种基于知识图谱的问答模板的自动生成装置,包括:
问题答案对输入单元410,用于获取多个用于生成问答模板的用户问题和答案对;
问答模板生成单元420,用于根据多个所述用户问题和答案对,生成多个问答模板;所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息;
问答模板匹配单元430,用于当接收到用户输入的问题时,如果确定所述用户输入的问题和所述话语模板的解析树匹配,则根据所述对齐信息和字典实例化所述查询图模板,得到候选答案;
答案筛选单元440,用于对多个所述候选答案进行排名,将排名前一位或多位的候选答案返回给用户。
可选地,问答模板生成单元420具体用于:
为每个所述答案的子集确定出连接所述用户问题中的实体和所述答案的子集的最小子图,根据所述最小子图构造与所述用户问题对应的主干查询图;
将所述用户问题与所述主干查询图作对齐处理,得到与所述用户问题对应的查询图;
将所述用户问题与所述查询图作对齐处理;
对所述用户问题、所述查询图、以及所述用户问题和所述查询图的对齐信息作泛化处理,生成问答模板,所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息。
可选地,问答模板生成单元420用于根据所述最小子图构造与所述用户问题对应的主干查询图时,具体用于:
对于所述最小子图,采用变量替换与所述答案的子集或不同实体和问题文本的n元关系对应的节点,形成主干查询图;
将连接到所述答案的类型约束添加到所述变量,扩展所述主干查询图,所述类型约束指问题的意图和实体的组合信息的约束。
可选地,问答模板生成单元420用于对所述用户问题、所述查询图、以及所述用户问题和所述查询图的对齐信息作泛化处理,生成问答模板时,具体用于:
删除所述用户问题和所述查询图的对齐信息关联的节点中的具体文本;
删除所述查询图中语义项的类似文本;
保留注释的第一信息、第二信息和第三信息,从而将对齐信息关联的节点转换为占位符,形成由话语模板,查询模板,以及话语模板和查询图模板的对齐信息组成的问答模板;
其中,所述第一信息和所述第二信息指话语模板中的短语与对应话语模板中的KG语义项之间的对齐信息中的两类参数,所述第三信息指用户问题对应话语模板的类别参数。
可选地,装置还包括字典构建单元,用于预先构建用于对齐操作和实例化处理的字典,所述字典包括谓词字典和类型字典;
其中,构建谓词字典包括:
在问题和答案对中提取“e1,r,e2”模式;所述“e1,r,e2”模式为“实体”—“谓词短语”—“实体”结构;
当“e1,r,e2”模式与知识图谱中的三元组“e1,p,e2”相同时,则在谓词字典中加入格式r→p;所述“e1,p,e2”为“实体”—“关系”—“实体”结构;
当提取到与“e1,p,e2”不同的模式时,设置第一权重对p进行选择;所述第一权重与数据源中r→p被观察到的次数成正比;
构建类型字典包括:
在问题和答案对中提取“np”模式,所述“np”指实体类型;
当“np”和知识图谱中的三元组“c”相同时,向类型字典中加入格式np→c;
当提取到与“c”不同的模式时,设置第二权重对c进行选择,所述第二权重与数据源中np→c被观察到的次数成正比。
应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本发明的各种方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面发明的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所发明的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的发明是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种基于知识图谱的问答模板的自动生成方法,其特征在于,包括:
获取多个用于生成问答模板的用户问题和答案对;
根据多个所述用户问题和答案对,生成多个问答模板;所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息;
当接收到用户输入的问题时,如果确定所述用户输入的问题和所述话语模板的解析树匹配,则根据所述对齐信息和字典实例化所述查询图模板,得到候选答案;
对多个所述候选答案进行排名,将排名前一位或多位的候选答案返回给用户。
2.如权利要求1所述的方法,其特征在于,根据多个所述用户问题和答案对,生成多个问答模板,包括:
为每个所述答案的子集确定出连接所述用户问题中的实体和所述答案的子集的最小子图,根据所述最小子图构造与所述用户问题对应的主干查询图;
将所述用户问题与所述主干查询图作对齐处理,得到与所述用户问题对应的查询图;
将所述用户问题与所述查询图作对齐处理;
对所述用户问题、所述查询图、以及所述用户问题和所述查询图的对齐信息作泛化处理,生成问答模板,所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息。
3.如权利要求2所述的方法,其特征在于,根据所述最小子图构造与所述用户问题对应的主干查询图,包括:
对于所述最小子图,采用变量替换与所述答案的子集或不同实体和问题文本的n元关系对应的节点,形成主干查询图;
将连接到所述答案的类型约束添加到所述变量,扩展所述主干查询图,所述类型约束指问题的意图和实体的组合信息的约束。
4.如权利要求2所述的方法,其特征在于,对所述用户问题、所述查询图、以及所述用户问题和所述查询图的对齐信息作泛化处理,生成问答模板,包括:
删除所述用户问题和所述查询图的对齐信息关联的节点中的具体文本;
删除所述查询图中语义项的类似文本;
保留注释的第一信息、第二信息和第三信息,从而将对齐信息关联的节点转换为占位符,形成由话语模板,查询模板,以及话语模板和查询图模板的对齐信息组成的问答模板;
其中,所述第一信息和所述第二信息指话语模板中的短语与对应话语模板中的知识图谱语义项之间的对齐信息中的参数,所述第三信息指用户问题对应话语模板的类别参数。
5.如权利要求1所述的方法,其特征在于,还包括:
预先构建用于对齐操作和实例化处理的字典,所述字典包括谓词字典和类型字典;
其中,构建谓词字典包括:
在问题和答案对中提取“e1,r,e2”模式;所述“e1,r,e2”模式为“实体”—“谓词短语”—“实体”结构;
当“e1,r,e2”模式与知识图谱中的三元组“e1,p,e2”相同时,则在谓词字典中加入格式r→p;所述“e1,p,e2”为“实体”—“关系”—“实体”结构;
当提取到与“e1,p,e2”不同的模式时,设置第一权重对p进行选择;所述第一权重与数据源中r→p被观察到的次数成正比;
构建类型字典包括:
在问题和答案对中提取“np”模式,所述“np”指实体类型;
当“np”和知识图谱中的三元组“c”相同时,向类型字典中加入格式np→c;
当提取到与“c”不同的模式时,设置第二权重对c进行选择,所述第二权重与数据源中np→c被观察到的次数成正比。
6.如权利要求1所述的方法,其特征在于,所述解析树为依赖性解析树;所述依赖性解析树是有向根树,所述依赖性解析树的节点对应于问题话语令牌,所述依赖性解析树的边缘表示节点之间的语法关系。
7.如权利要求1所述的方法,其特征在于,将排名前一位或多位的候选答案返回给用户的同时,还包括:
将候选答案对应的问答模板信息和所述查询图模板的实例化信息返回给所述用户。
8.一种基于知识图谱的问答模板的自动生成装置,其特征在于,包括:
问题答案对输入单元,用于获取多个用于生成问答模板的用户问题和答案对;
问答模板生成单元,用于根据多个所述用户问题和答案对,生成多个问答模板;所述问答模板包括话语模板、查询图模板、以及话语模板和查询图模板的对齐信息;
问答模板匹配单元,用于当接收到用户输入的问题时,如果确定所述用户输入的问题和所述话语模板的解析树匹配,则根据所述对齐信息和字典实例化所述查询图模板,得到候选答案;
答案筛选单元,用于对多个所述候选答案进行排名,将排名前一位或多位的候选答案返回给用户。
9.一种可读存储介质,其特征在于,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如权利要求1-7中的任一项所述的方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行如权利要求1-7中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011430799.XA CN112632237A (zh) | 2020-12-07 | 2020-12-07 | 一种基于知识图谱的问答模板自动生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011430799.XA CN112632237A (zh) | 2020-12-07 | 2020-12-07 | 一种基于知识图谱的问答模板自动生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632237A true CN112632237A (zh) | 2021-04-09 |
Family
ID=75309016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011430799.XA Pending CN112632237A (zh) | 2020-12-07 | 2020-12-07 | 一种基于知识图谱的问答模板自动生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632237A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955577A (zh) * | 2023-09-21 | 2023-10-27 | 四川中电启明星信息技术有限公司 | 一种基于内容检索的智能问答系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040167875A1 (en) * | 2003-02-20 | 2004-08-26 | Eriks Sneiders | Information processing method and system |
CN110532358A (zh) * | 2019-07-05 | 2019-12-03 | 东南大学 | 一种面向知识库问答的模板自动生成方法 |
CN111339269A (zh) * | 2020-02-20 | 2020-06-26 | 来康科技有限责任公司 | 模板自动生成的知识图谱问答训练及应用服务系统 |
-
2020
- 2020-12-07 CN CN202011430799.XA patent/CN112632237A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040167875A1 (en) * | 2003-02-20 | 2004-08-26 | Eriks Sneiders | Information processing method and system |
CN110532358A (zh) * | 2019-07-05 | 2019-12-03 | 东南大学 | 一种面向知识库问答的模板自动生成方法 |
CN111339269A (zh) * | 2020-02-20 | 2020-06-26 | 来康科技有限责任公司 | 模板自动生成的知识图谱问答训练及应用服务系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955577A (zh) * | 2023-09-21 | 2023-10-27 | 四川中电启明星信息技术有限公司 | 一种基于内容检索的智能问答系统 |
CN116955577B (zh) * | 2023-09-21 | 2023-12-15 | 四川中电启明星信息技术有限公司 | 一种基于内容检索的智能问答系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10282419B2 (en) | Multi-domain natural language processing architecture | |
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
US9183511B2 (en) | System and method for universal translating from natural language questions to structured queries | |
US10210245B2 (en) | Natural language question answering method and apparatus | |
WO2020237856A1 (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
US10073840B2 (en) | Unsupervised relation detection model training | |
US20200320093A1 (en) | Extensible Data Transformations | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
US20150058329A1 (en) | Clarification of Submitted Questions in a Question and Answer System | |
US20210011926A1 (en) | Efficient transformation program generation | |
US20240028607A1 (en) | Facilitating data transformations | |
US20220129448A1 (en) | Intelligent dialogue method and apparatus, and storage medium | |
US11170020B2 (en) | Collecting and annotating transformation tools for use in generating transformation programs | |
Xiong et al. | Knowledge graph question answering with semantic oriented fusion model | |
US11163788B2 (en) | Generating and ranking transformation programs | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN112100326A (zh) | 一种抗干扰的融合检索和机器阅读理解的知识库问答方法及系统 | |
CN111898024A (zh) | 一种智能问答方法、装置、可读存储介质及计算设备 | |
US20210034621A1 (en) | System and method for creating database query from user search query | |
US11120338B2 (en) | Genetic generation of tools for convolutional neural network | |
CN112632237A (zh) | 一种基于知识图谱的问答模板自动生成方法及装置 | |
CN116401350A (zh) | 基于勘探开发知识图谱的智能检索方法、系统及存储介质 | |
CN115982322A (zh) | 一种水利行业设计领域知识图谱的检索方法及检索系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |