CN111221942A

CN111221942A - 智能化文本对话生成方法、装置及计算机可读存储介质

Info

Publication number: CN111221942A
Application number: CN202010025823.5A
Authority: CN
Inventors: 邓悦; 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-06-02
Anticipated expiration: 2040-01-09
Also published as: WO2021139076A1

Abstract

本发明涉及一种人工智能技术，揭露了一种智能化文本对话生成方法，包括：获取原始对话文本集，对所述原始对话文本集进行分词处理后得到更新对话文本集，对所述更新对话文本集构造无向图，根据所述无向图构计算得到关键字集，对所述关键字集利用独热编码算法处理得到词向量集，将所述词向量集输入至预先训练完成的文本语义理解模型，经过卷积操作和记忆更新得到文本预测集，接收用户输入的当前问题，基于相似度计算方法计算所述当前问题与所述文本预测集中相似度最高的文本并输出所述文本，完成与所述当前问题的智能化文本对话。本发明还提出一种智能化文本对话生成装置以及一种计算机可读存储介质。本发明可以实现精准高效的文本对话生成功能。

Description

智能化文本对话生成方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能化文本对话生成的方法、装置及计算机可读存储介质。

背景技术

目前多数基于人工智能的文本对话方法都是通过撷取输入的关键字，再从数据库中寻找与所述关键字最合适的应答句。此外，在实现多轮对话时，现有方法多采用将历史对话信息输入一个模型中，以让该模型选择倾向于和历史对话信息更有关联的回答。

由于传统的关键字抽取过程，仅仅通过匹配原则，无法达到精确的关键字定位，此外在模型设计中只使用了传统的机器学习算法，并仅通过相似度找寻最优的对话，因此综合来说对话的语义信息不够丰富，准确率不高。

发明内容

本发明提供一种智能化文本对话生成方法、装置及计算机可读存储介质，其主要目的在于提供一种准确度高的文本智能对话方案。

为实现上述目的，本发明提供的一种智能化文本对话生成方法，包括：

获取原始对话文本集，并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集；

对所述更新对话文本集内每个词语构造无向图，根据所述无向图构建依存关系图，根据所述依存关系图计算得到所述更新对话文本集中的关键字集，并对所述关键字集利用独热编码算法处理得到词向量集；

将所述词向量集输入至预先训练完成的文本语义理解模型，对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集；

接收用户输入的当前问题，基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本，完成与所述当前问题的智能化文本对话。

可选地，所述分词包括：

根据所述原始对话文本集构建词出现概率；

基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率；

最大化所述条件概率得到所述原始对话文本集的分词结果。

可选地，所述根据所述依存关系图计算得到所述更新对话文本集中的关键字集，包括：

根据所述依存关系图计算所述对话文本集内词语的重要度得分集；

基于预设阈值遍历所述重要度得分集得到所述关键字集。

可选地，所述根据所述无向图构建依存关系图，包括：

利用词语之间的引力值计算所述无向图中的权重；

将所述权重和所述无向图组合得到所述依存关系图。

可选地，对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集，包括：

调取与所述词向量集对应的激活函数对所述词向量集进行激活处理；

将所述激活处理后的词向量集进行卷积操作得到卷积数据集，并将所述卷积数据集伸展为一维数据集；

将所述一维数据集进行记忆更新得到候选数据集；

根据调取的所述激活函数对所述候选数据集执行计算，得到所述文本预测集。

此外，为实现上述目的，本发明还提供一种智能化文本对话生成装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的智能化文本对话生成程序，所述智能化文本对话生成程序被所述处理器执行时实现如下步骤：

可选地，所述分词包括：

根据所述原始对话文本集构建词出现概率；

最大化所述条件概率得到所述原始对话文本集的分词结果。

基于预设阈值遍历所述重要度得分集得到所述关键字集。

可选地，所述根据所述无向图构建依存关系图，包括：

利用词语之间的引力值计算所述无向图中的权重；

将所述权重和所述无向图组合得到所述依存关系图。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化文本对话生成程序，所述智能化文本对话生成程序可被一个或者多个处理器执行，以实现如上所述的智能化文本对话生成方法的步骤。

本发明通过对原始对话文本集进行清洗及分词等处理，可提高数据的纯洁度，为进一步相似度计算提高了数据基础，通过关键词抽取算法和独热编码算法提取出核心数据，因为独热编码算法不仅加快了文本对话的生成效率并减轻了计算压力，同时结合了关键词抽取算法也可提高对关键字的精确定位，同时基于文本语义理解模型和相似度计算方法预测出最佳的对话文本，由于文本语义理解模型是基于深度学习方法，非传统机器学习，不仅提高智能化程度，同时进一步提高智能对话的准确率。因此本发明提出的智能化文本对话生成方法、装置及计算机可读存储介质，可以实现精准高效的智能文本对话功能。

附图说明

图1为本发明一实施例提供的智能化文本对话生成方法的流程示意图；

图2为本发明一实施例提供的智能化文本对话生成装置的内部结构示意图；

图3为本发明一实施例提供的智能化文本对话生成装置中智能化文本对话生成程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种智能化文本对话生成方法。参照图1所示，为本发明一实施例提供的智能化文本对话生成方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，智能化文本对话生成方法包括：

S1、获取原始对话文本集，并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集。

本发明较佳实施例中，所述原始对话文本集包括基于不同场景下的用户提出的问题和基于所述问题应该输出的多种回答信息，其中所述回答信息一般存储在回答库里。

由于所述原始对话文本集可能包含大量噪声，例如超链接、网页标签等，这些噪声会对后续数据处理产生影响，因此需要对所述原始对话文本集进行清洗处理。本发明所述清洗处理主要包括：去噪和去停用词等。

所述去噪处理是将所述原始对话文本集中包含的噪声，如数字、表情符号以及特殊符号如URL、“@”、“#”等无用信息过滤掉。本发明较佳实施例可使用正则表达式将噪声信息过滤掉。

所述停用词是文本数据功能词中没有什么实际意义的词，对文本的分类没有什么影响，但是出现频率高，包括常用的代词、介词等。研究表明，没有实际意义的停用词，会降低文本分析效果。

在本发明实施例中，所述去停用词的方法为停用词表过滤，通过已构建好的停用词表和所述原始对话文本集中的词语进行一一匹配，若匹配成功，该词语就是停用词并将该词删除。

进一步地，为了提高智能对话的准确度，本发明进一步对所述原始对话文本集进行分词操作。

本发明实施例所述分词包括：根据所述原始对话文本集构建词出现概率，基于所述词出现概率求解所述原始对话文本集在所述词出现概率下的条件概率，最大化所述条件概率得到所述原始对话文本集的分词结果。

详细地，本发明所述分词包括：在一个由词序列{W₁，W₂...W_m}组成的句子S中，在前i-1个词语出现的情况下，计算第i词语出现的词出现概率P：

P(W_i|W₁，...W_i-1)＝P(W_i|W_i-n+1，...W_i-1)

得到所述句子S按照此词序排列的概率为：

P(S)＝P(W₁W₂...W_m)＝P(W₁)P(W₂|W₁)...P(W_m|W_m-n+1，...W_m-1)

进一步所述条件概率P(W_m|W_m-n+1，...W_m-1)表示：在字符串W_m-n+1，...W_m-1出现的情况下W_m出现的概率。在大规模语料库训练的基础上，使用二元语法模型，所述句子S的概率模型为：

本发明对句子S使用全切分法进行切分，获得所有可能的中文分词方式，然后计算每一种分词方式的概率，选择其中概率最大的一种分词方式，作为最终文本分词结果。其中，所述选择概率最大的一种分词方式过程即求P(S)的极大值：

S2、对所述更新对话文本集内每个词语构造无向图，根据所述无向图构建依存关系图，根据所述依存关系图计算得到所述更新对话文本集中的关键字集，并对所述关键字集利用独热编码算法处理得到词向量集。

优选地，所述根据所述依存关系图计算得到关键字集，包括：根据所述依存关系图计算所述对话文本集内词语的重要度得分集，基于预设阈值遍历所述重要度得分集得到所述关键字集。

详细地，所述根据所述无向图构建依存关系图，包括：利用词语之间的引力值计算所述无向图中的权重，将所述权重和所述无向图组合得到所述依存关系图。

较佳地，任意两词W_i和W_j的所述权重为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

其中，tfidf(W)是词W的TF-IDF值，d是词W_i和W_j之间的欧式距离，f_grav(W_i，W_j)是词W_i和W_j之间的引力值，具体地为：

所述无向图G＝(V，E)，其中V是顶点的集合，E是边的集合。

W_i的重要度得分WS(W_i)如下所示：

其中

是与顶点W_i有关的集合，η为阻尼系数。

优选地，所述独热编码算法是词向量表示的一种基本方法，和词袋模型思想类似，先通过提取语料库中所有的词构建一个词典，其中的每个词都用一个词向量表示，该向量的维度和词典规模相等，并且向量中只有当前词对应的维度的值是1，其余维度的值全部为0，基于已提取出的所述语料库遍历所述关键字集得到词向量集。

S3、将所述词向量集输入至预先训练完成的文本语义理解模型，对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集。

详细地，对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集，包括：调取与所述词向量集对应的激活函数对所述词向量集进行激活处理，将所述激活处理后的词向量集进行卷积操作得到卷积数据集，并将所述卷积数据集伸展为一维数据集，将所述一维数据集进行记忆更新得到候选数据集，根据调取的所述激活函数计算所述候选数据集得到文本预测集。

较佳地.所述激活函数为：

其中：pw(1i)为第i个样本中，所述文本语义理解模型选对文本的概率；pu(li)为第i个样本中，所述文本语义理解模型中选对所述文本的答案的概率；

为第i个样本中，所述文本语义理解模型中基于所述pw(li)下，选错答案的条件概率；pw(li)为第i个样本中，所述文本语义理解模型中基于所述pu(li)下选对答案的条件概率概率，

为第i个样本中，所述文本语义理解模型中基于所述

下进一步选错答案的条件概率。

所述卷积操作的操作方法是预先构建卷积模板和卷积幅度提取词向量特征，如所述词向量为：

预先构建卷积模板为

先将所述

与

进行计算，计算方式为：1*0、0*3、1*1等对应维度相乘，最终得到的所述卷积数据集。

所述全连接窗口主要进行一维化，如上述词向量为：

经过所述一维化后变为：[0 3 1 ...... 2 3]。

S4、接收用户输入的当前问题，基于相似度计算方法所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本，完成与所述当前问题的智能化文本对话。

较佳地，所述相似度计算方法为：

其中，A_i，B_i分别为用户输入的所述当前问题及所述文本预测集的词向量，n为所述词向量的长度。

发明还提供一种智能化文本对话生成装置。参照图2所示，为本发明一实施例提供的智能化文本对话生成装置的内部结构示意图。

在本实施例中，所述智能化文本对话生成装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该智能化文本对话生成装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是智能化文本对话生成装置1的内部存储单元，例如该智能化文本对话生成装置1的硬盘。存储器11在另一些实施例中也可以是智能化文本对话生成装置1的外部存储设备，例如智能化文本对话生成装置1上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括智能化文本对话生成装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于智能化文本对话生成装置1的应用软件及各类数据，例如智能化文本对话生成程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行智能化文本对话生成程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在智能化文本对话生成装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及智能化文本对话生成程序01的智能化文本对话生成装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对智能化文本对话生成装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有智能化文本对话生成程序01；处理器12执行存储器11中存储的智能化文本对话生成程序01时实现如下步骤：

步骤一、获取原始对话文本集，并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集。

本发明较佳实施例中，其中，所述原始对话文本集包括基于不同场景下的用户提出的问题和基于所述问题应该输出的多种回答信息，其中所述回答信息一般存储在回答库里。

由于所述历史对话信息可能包含大量噪声，例如超链接、网页标签等，这些噪声会对后续数据处理产生影响，因此需要对所述原始对话文本集进行清洗处理。本发明所述清洗处理主要包括：去噪和去停用词等。

P(W_i|W₁，...W_i-1)＝P(W_i|W_i-n+1，...W_i-1)

得到所述句子S按照此词序排列的概率为：

P(S)＝P(W₁W₂...W_m)＝P(W₁)P(W₂|W₁)...P(W_m|W_m-n+1，...W_m-1)

步骤二、对所述更新对话文本集内每个词语构造无向图，根据所述无向图构建依存关系图，根据所述依存关系图计算得到所述更新对话文本集中的关键字集，并对所述关键字集利用独热编码算法处理得到词向量集。

较佳地，任意两词W_i和W_j的所述权重为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

所述无向图G＝(V，E)，其中V是顶点的集合，E是边的集合。

W_i的重要度得分WS(W_i)如下所示：

其中

是与顶点W_i有关的集合，η为阻尼系数。

步骤三、将所述词向量集输入至预先训练完成的文本语义理解模型，对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集。

较佳地，所述激活函数为：

其中：pw(li)为第i个样本中，所述文本语义理解模型选对文本的概率；pu(li)为第i个样本中，所述文本语义理解模型中选对所述文本的答案的概率；

为第i个样本中，所述文本语义理解模型中基于所述

下进一步选错答案的条件概率。

预先构建卷积模板为

先将所述

与

所述全连接窗口主要进行一维化，如上述词向量为：

经过所述一维化后变为：[0 3 1 ...... 2 3]。

步骤四、接收用户输入的当前问题，基于相似度计算方法所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本，完成与所述当前问题的智能化文本对话。

较佳地，所述相似度计算方法为：

可选地，在其他实施例中，智能化文本对话生成程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述智能化文本对话生成程序在智能化文本对话生成装置中的执行过程。

例如，参照图3所示，为本发明智能化文本对话生成装置一实施例中的智能化文本对话生成程序的程序模块示意图，该实施例中，所述智能化文本对话生成程序可以被分割为数据接收及处理模块10、词性编码模块20、文本语义模型训练模块30、文本对话输出模块40示例性地：

所述数据接收及处理模块10用于：获取原始对话文本集，并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集。

所述词性编码模块20用于：对所述更新对话文本集内每个词语构造无向图，根据所述无向图构建依存关系图，根据所述依存关系图计算得到所述更新对话文本集中的关键字集，并对所述关键字集利用独热编码算法处理得到词向量集。

所述文本语义模型训练模块30用于：将所述词向量集输入至预先训练完成的文本语义理解模型，对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集。

所述文本对话输出模块40用于：接收用户输入的当前问题，基于相似度计算方法从所述文本预测集中计算与所述当前问题相似度最高的文本并输出所述文本，完成与所述当前问题的智能化文本对话。

上述数据接收及处理模块10、词性编码模块20、文本语义模型训练模块30、文本对话输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有智能化文本对话生成程序，所述智能化文本对话生成程序可被一个或多个处理器执行，以实现如下操作：

获取原始对话文本集，并对所述原始对话文本集进行清洗和分词处理后得到更新对话文本集。

对所述更新对话文本集内每个词语构造无向图，根据所述无向图构建依存关系图，根据所述依存关系图计算得到所述更新对话文本集中的关键字集，并对所述关键字集利用独热编码算法处理得到词向量集。

将所述词向量集输入至预先训练完成的文本语义理解模型，对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能化文本对话生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的智能化文本对话生成方法，其特征在于，所述分词包括：

根据所述原始对话文本集构建词出现概率；

最大化所述条件概率得到所述原始对话文本集的分词结果。

3.如权利要求1所述的智能化文本对话生成方法，其特征在于，所述根据所述依存关系图计算得到所述更新对话文本集中的关键字集，包括：

基于预设阈值遍历所述重要度得分集得到所述关键字集。

4.如权利要求1所述的智能化文本对话生成方法，其特征在于，所述根据所述无向图构建依存关系图，包括：

利用词语之间的引力值计算所述无向图中的权重；

将所述权重和所述无向图组合得到所述依存关系图。

5.如权利要求1至4中任意一项所述的智能化文本对话生成方法，其特征在于，对所述词向量集经过激活处理、卷积操作和记忆更新得到文本预测集，包括：

将所述一维数据集进行记忆更新得到候选数据集；

6.一种智能化文本对话生成装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的智能化文本对话生成程序，所述智能化文本对话生成程序被所述处理器执行时实现如下步骤：

7.如权利要求6所述的智能化文本对话生成装置，其特征在于，所述分词包括：

根据所述原始对话文本集构建词出现概率；

最大化所述条件概率得到所述原始对话文本集的分词结果。

8.如权利要求6所述的智能化文本对话生成装置，其特征在于，所述根据所述依存关系图计算得到所述更新对话文本集中的关键字集，包括：

基于预设阈值遍历所述重要度得分集得到所述关键字集。

9.如权利要求6中所述的智能化文本对话生成装置，其特征在于，所述根据所述无向图构建依存关系图，包括：

利用词语之间的引力值计算所述无向图中的权重；

将所述权重和所述无向图组合得到所述依存关系图。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有智能化文本对话生成程序，所述智能化文本对话生成程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的智能化文本对话生成方法的步骤。