一种基于概率推理的询问优化方法、系统和介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于概率推理的询问优化方法、系统和介质。
背景技术
对话模型往往是一问一答,上下文相关,句子长度不一样,即由一个文本序列转化成另一文本序列的模型,目前普遍应用seq2seq模型来实现,对话模型的智能不仅得益于其丰富且较为正规的语料,还有其中的损失评价函数问题。而领域知识中的咨询机器人往往基于知识库或者知识图谱的回答,对话流程的控制等同于实体节点的跳转。但是人在咨询领域知识时的表达更为多样,不同人的回答往往相差很大,语料质量往往比较差,且损失函数也没有很好地选择。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种基于概率推理的询问优化方法、系统和介质,主要解决如何缩短咨询交流过程的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种基于概率推理的询问优化方法,包括:
创建问答语料库,分别提取所述问答语料库中的询问文本和答复文本的特征信息,根据所述询问文本和所述答复文本的特征信息构建问答结构图;
预设初始节点跳转概率,根据所述初始节点跳转概率创建概率推理网络,将所述问答结构图输入所述概率推理网络,通过所述概率推理网络的历史统计估计对应网络节点的跳转概率;
根据所述跳转概率,计算跳转到各问答结构图节点下,最终得到答案的概率,依据此概率选取最高概率推理网络节点对应的问答结构图节点,获取与所述问答结构图节点对应的询问文本特征信息。
可选地,所述特征信息包括文本实体、文本实体间的关系和文本实体的属性。
可选地,所述构建问答结构图,包括:
根据所述询问文本的特征信息构建询问结构图;
根据所述答复文本的特征信息构建答复结构图;
以所述询问结构图节点为父节点,以所述答复结构图的节点为子节点,创建问答结构图,所述父节点向所述子节点单向跳转。
可选地,所述通过所述概率推理网络的历史统计估计对应网络节点的跳转概率,包括:
所述概率推理网络每次跳转后生成跳转记录;
根据所述跳转记录统计经过多次问答结构图输入后,所述概率推理网络中对应节点经历的跳转次数;
根据所述跳转次数计算所述概率推理网络对应节点的跳转概率。
可选地,所述通过所述概率推理网络的历史统计估计对应网络节点的跳转概率之后,还包括:
将对应网络节点的跳转概率进行比较,获取比较结果;
根据所述比较结果,对所述问答结构图对应节点进行打分。
可选地,所述通过所述概率推理网络统计对应网络节点的跳转概率之后,还包括:
将邻近两次问答结构图输入后,将所述网络节点的跳转概率计算结果进行比较,以相比较大的概率值作为对应节点的跳转概率。
可选地,所述跳转概率表示为:
其中,C(i)表示i节点的子节点,P<i,j>为节点i跳转到节点j的统计概率;S<i,j>表示节点i向节点j跳转的统计计数;SC(i)表示经过节点i的所有跳转的统计计数。
可选地,所述通过所述概率推理网络统计对应网络节点的跳转概率,还包括:
所述询问结构图存在多个父节点时,通过所述子节点跳转概率计算对应父节点的跳转概率;
父节点跳转概率为:
其中ai为第i个子节点。
一种基于概率推理的询问优化系统,包括:
问答语料库;
结构图创建模块,用于分别提取所述问答语料库中的询问文本和答复文本的特征信息,根据所述询问文本和所述答复文本的特征信息构建问答结构图;
概率计算模块,用于创建概率推理网络,将所述问答结构图输入所述概率推理网络,通过所述概率推理网络统计对应网络节点的跳转概率;
询问信息选择模块,用于根据所述跳转概率,计算跳转到各问答结构图节点下,最终得到答案的概率,依据此概率选取最高概率推理网络节点对应的问答结构图节点,获取与所述问答结构图节点对应的询问文本特征信息。
一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序被处理器加载执行时,实现所述基于概率推理的询问优化方法。
如上所述,本发明一种基于概率推理的询问优化方法、系统和介质,具有以下有益效果。
通过跳转概率计算,在存在多个问题节点时,通过倒推每个答案节点与问题之间的概率关系,选择最有可能得到答案的那个节点进行询问,由此得到询问问题的最优选取。
附图说明
图1为本发明一实施例中的基于概率推理的询问优化方法的流程图。
图2为本发明一实施例中的基于概率推理的询问优化系统的模块图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种基于概率推理的查询优化方法,包括步骤S01-S03。
在步骤S01中,创建问答语料库,分别提取问答语料库中的询问文本和答复文本的特征信息,根据询问文本和答复文本的特征信息构建问答结构图:
在一实施例中,问答语料库可以根据不同的领域进行人工整理或软件采集。以法律领域为例,可以通过对网上调查问卷、法律案例、期刊或论文等途径,针对常见问题进行答案的整理,并将整理的结果输入语料库中构成问答语料库。
针对问答语料库中的文本进行分词处理,分别提取问答语料库中的询问文本的特征信息和答复文本的特征信息。在一实施例中,可以采用Hanlp分词算法对文本进行分词处理,这里不限制具体分词方法。询问文本的特征信息和答复文本的特征信息均包括文本实体、文本实体间关系和文本实体属性。例如“小王出生于上海”,则小王和上海分别为两个实体,出生地则为两实体间关系;而“小王今年30岁”,则小王是实体,30岁则是小王的属性。
根据提取的询问文本的特征信息,可以建立基于询问文本实体的知识拓扑结构,得到询问结构图。根据提取的答复文本的特征信息,可以建立基于答复文本实体的知识拓扑结构,得到答复结构图,每一个实体或者属性均构成结构图的一个节点。
再以询问结构图的节点作为父节点,答复结构图的节点作为子节点;以父节点指向子节点的单向结构创建问答结构图,将关联的父节点与子节点连接。
在步骤S02中,预设初始节点跳转概率,根据初始节点跳转概率创建概率推理网络,将问答结构图输入所述概率推理网络,通过概率推理网络的历史统计估计对应网络节点的跳转概率;
建立概率推理网络是基于概率推理网络与问答结构图具有相似的结构,选取一组问答结构图,将所述问答结构图映射到推理神经网络中,得到初始推理神经网络。在一实施例中,推理神经网络可采用贝叶斯神经网络,利用贝叶斯网络有向无环型,与问答结构图建立映射关系。得到初始贝叶斯网络。
将多组问答结构图输入初始贝叶斯网络中,通过初始贝叶斯网络统计各节点的跳转次数,并在每次跳转后生成节点跳转记录。根据跳转记录统计经过多次问答结构图输入后,概率推理网络中对应节点经历的跳转次数;根据跳转次数计算所述概率推理网络对应节点的跳转概率。
统计节点跳转的算法原理为:根据历史记录,假设存在上一级到下一级贝叶斯网络节点的跳转记录Rk即Rk=<i,j>表示由i节点跳转到j节点。若C(i)表示i节点的子节点。则由节点i跳转到节点j的统计概率P<i,j>估计可表示为:
其中S<i,j>表示对跳转记录<i,j>的统计计数。SC(i)表示由节点i跳转的统计计数。
在一实施例中,询问结构图存在多个父节点时,通过子节点跳转概率计算对应父节点的跳转概率;
父节点跳转概率为:
其中ai为第i个子节点。
在完成对应概率推理网络节点的跳转概率计算后,将对应节点的下一级所有节点的跳转概率进行比较,判断下一级节点与上一级节点关系的紧密程度。以某一节点下一级所有节点中跳转概率值大小,对节点进行打分,跳转概率越高,则分值越高,而分值越高说明两节点的依赖程度越高。通过概率推理网络节点间的依赖程度,可以反向推理获取问答语料中相应特征的依赖程度。
在一实施例中,完成概率推理网络节点的跳转概率计算后,可以根据邻近两次问答结构图输入概率推理网络后的得到的不同跳转概率,相互比较,对对应节点的跳转概率进行更新。通过查询跳转历史记录,将前后两次跳转概率进行比较,以相比较大的概率值作为对应节点的跳转概率。
在步骤S03中,根据所述跳转概率,计算跳转到各问答结构图节点下,最终得到答案的概率,依据此概率选取最高概率推理网络节点对应的问答结构图节点,获取与问答结构图节点对应的询问文本特征信息。
根据计算得到概率推理网络的跳转概率,获取跳转概率最高的节点对应的子节点和父节点。再根据概率推理网络与问答结构图的映射关系,得到跳转概率最高的节点对应的询问文本的特征信息。根据最终获取的询问文本的特征信息,可以是用户以最短的询问特征获取想要的知识和答复。
根据本发明的实施例,还提供一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如:软盘、硬盘、磁带)、光介质(如:DVD)、或者半导体介质(如:固态硬盘Solid State Disk(SSD))等。
请参阅图2,本实施例还提供了一种基于概率推理的询问优化系统,
包括问答语料库10、结构图创建模块11、概率计算模块12和询问信息选择模块13。由于本系统实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做重复性赘述。问答语料库10和结构图创建模块11用于执行前述方法实施例介绍的步骤S01,概率计算模块12用于执行前述方法实施例介绍的步骤S02,询问信息选择模块13用于执行前述方法实施例介绍的步骤S03。
综上所述,本发明一种基于概率推理的询问优化方法、系统和介质,将图形理论的表达和计算能力与概率论有机的结合,使得其在处理不确定性问题上具有灵活的依赖性拓扑结构,易于理解和解释、有明显的语义以及能有效的进行多元信息融合等优势;使用概率推理中的先验概率与后验概率的方法对不确定问题进行定量的推理预测;通过倒推每个答案节点与问题之间的概率关系,选择最有可能得到答案的那个节点进行询问,由此得到询问问题的最优选取;通过每次询问记录,更新跳转概率,达到学习的目的;在存在多个询问节点可询问时,通过这种方法可以选取最优的询问节点进行询问,使得用户以最短的咨询交流得到有用的答案,提高咨询效率。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。