CN104376074B

CN104376074B - 一种复述资源获取方法及系统

Info

Publication number: CN104376074B
Application number: CN201410648040.7A
Authority: CN
Inventors: 赵凯; 崇伟峰
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2018-05-01
Anticipated expiration: 2034-11-14
Also published as: CN104376074A

Abstract

本发明涉及一种复述资源获取方法及系统，包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块，对话语料存储模块存储人工客服与顾客的对话语料；FAQ预处理模块从对话语料存储模块中提取出FAQ合法问答对，并对所述FAQ合法问答对进行降噪处理；复述提取模块接收降噪处理结果，根据预设程序生成问题复述集和答案复述集；问题复述存储模块存储问题复述集；答案复述存储模块存储答案复述集。本发明的方案排除了语言随意性和主观性对于复述对提取准确率的影响，提取复述资源不受问答对领域的限制，适用范围广，可移植性强。

Description

一种复述资源获取方法及系统

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种复述资源获取方法及系统。

背景技术

在电子商务领域，客服承载着客户投诉、订单业务受理(新增、补单、调换货、撤单等)的重大责任，拥有一个及时的客服系统有助于电商公司树立良好形象。然而，现有的电商客服系统多为人工应答，在业务繁忙时，人工客服应答效率低，不能满足顾客的服务需求。一些现有的自动应答系统也仅仅是针对客户上门时，客服系统端自动抛出与顾客问题无关的店铺介绍情况，不能做到根据顾客的具体问题进行自动应答，因此电商领域需要一个良好的自动应答系统，可以实现根据顾客的具体问题进行自动应答。而一个良好的自动应答系统需要高准确率的复述资源库。如何获取高准确率的复述资源成为本领域亟待解决的技术问题。

目前自动获取复述资源主要是基于编辑距离的句子相似度方法和基于机器翻译的方法。基于编辑距离的方法过程如下：从对话语料分别提取买家的问题集和客服的答案集，将问题集和答案集中的句子分词后，利用编辑距离法计算句子之间的距离，若某些句子之间的编辑距离小于一定的阈值则认为这些句子相似度很高，从而认为这些句子互为复述资源。基于机器翻译的方法的基本思想如下：预先获得第一语言A和第二语言B之间的平行语料。利用机器翻译系统得到两种语言之间的互译结果，经过几次迭代，将翻译结果与原句子最为相近的句子作为原句子的复述。

电商领域，由于人工客服问答语料具有语言随意性和个体主观性的特点，上述两种方法针对此特点的问答语料处理效果较差。例如，在买家表述电商如何送货时既可以说“发哪家物流？”，也可以说“什么快递送货？”，这两个句子表达的意思相同，是互为复述的，但由于两种表述的相似度极低，已有的两种方案是无法识别出来这种复述的。同时，电商领域的问答语料还存在句子较短，标点符号使用不规范以及存在大量噪声信息的特点，已有的复述资源获取方法不能有效过滤噪声。另外，基于机器翻译的方法更适合应用于复述的自动生成而非提取，此方法在获得平行语料时也存在很大困难，使得这种方法很难在电商自动客服系统中得到应用。

综上所述，现有自动获取复述资源的方法均存在很大的缺陷，并不能解决在电商自动应答系统中自动获取复述资源的问题。

发明内容

本发明所要解决的技术问题是提供一种复述资源获取方法和系统，根据客服对话语料提取高准确率的复述资源。

本发明解决上述技术问题的技术方案如下：一种复述资源获取系统，包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块，

所述对话语料存储模块，其用于存储人工客服与顾客的对话语料；

所述FAQ预处理模块，其用于从对话语料存储模块中提取出FAQ合法问答对，并对所述FAQ合法问答对进行降噪处理，将降噪处理结果发送给复述提取模块；

所述复述提取模块，其用于接收降噪处理结果，根据预设程序生成问题复述集和答案复述集；

所述问题复述存储模块，其用于存储所述问题复述集；

所述答案复述存储模块，其用于存储所述答案复述集。

本发明的有益效果是：本发明技术方案获取了高质量、高准确率的问答对，去除了不必要的噪音，有利于复述资源提取。本发明的方案排除了语言随意性和主观性对于复述对提取准确率的影响，提取复述资源不受问答对领域的限制，适用范围广，可移植性强。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述FAQ预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元；

所述计算匹配程度单元，其用于从对话语料存储模块中提取出合法问答对，并计算所述合法问答对问题和答案的匹配程度值；

所述阀值比较单元，其用于将所述匹配程度值与预设阈值Sim_Temp1相比较，根据比较结果生成FAQ合法问答对和候选问答对；

所述FAQ合法问答对存储单元，其用于存储FAQ合法问答对；

所述候选问答对存储单元，其用于存储候选问答对；

所述问答复述重现检测单元，其用于获取所述候选问答对中问题的复述和答案的复述，判断其是否组成过FAQ合法问答对，如果是，则认为此候选问答对为FAQ合法问答对，将其输入到FAQ合法问答对存储单元；否则，将其输入到有效性检测单元；

所述有效性检测单元，其用于获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对，并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测，如果有效，则判断此候选问答对为FAQ合法问答对，并将其输入到FAQ合法问答对存储单元,否则，将此候选问答对从候选问答对存储单元中删除；

所述降噪单元，其用于对FAQ合法问答对进行降噪处理。

进一步，所述FAQ预处理模块包括合法回答存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元；

所述合法回答存储单元，其用于从对话语料存储模块中提取出合法回答，然后将出现在此合法回答之前，上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元；

所述候选问题存储单元，其用于存储候选问题；

所述匹配单元，其用于从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题，二者构成FAQ合法问答对，并将所述FAQ合法问答对发送至FAQ合法问答对存储单元；

所述FAQ合法问答对存储单元，其用于存储FAQ合法问答对。

进一步，所述复述提取模块包括矩阵转换单元、相似度计算单元和复述生成单元；

所述矩阵转换单元，其用于获取降噪处理结果，并将其映射成为问题答案矩阵，并对所述问题答案矩阵进行降维处理，将降维处理结果发送给相似度计算单元；

所述相似度计算单元，根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(A_i,A_j)，将所述余弦相似度值Sim(A_i,A_j)发送给复述生成单元；

所述复述生成单元，将余弦相似度值Sim(A_i,A_j)与预设阀值Sim_Temp2进行比较，根据比较结果生成问题复述集和答案复述集，并将所述问题复述集和答案复述集分别发送给问题复述存储模块和答案复述存储模块。

进一步，所述降噪单元的降噪过程为：如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次，则认为此FAQ合法问答对无效，并将其从FAQ合法问答对存储单元中删除。

进一步，所述矩阵转换单元中，生成的问题答案矩阵的维度为m*n，其中m是去重之后问题的总数，n是去重之后答案的总数，矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数，未出现的记为0次。

为了解决上述技术问题，本发明还提供一种复述资源获取方法，包括以下步骤，

S101：获取人工客服与顾客的对话语料，建立对话语料存储模块；

S102：从对话语料存储模块中提取出FAQ合法问答对，并对所述FAQ合法问答对进行降噪处理；

S103：获取降噪处理结果，根据预设程序生成问题复述集和答案复述集。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，步骤S102具体为，

S102a：从对话语料存储模块中提取出合法问答对，并计算所述合法问答对问题和答案的匹配程度值；

S102b:将所述匹配程度值与预设阈值Sim_Temp1相比较，根据比较结果生成FAQ合法问答对和候选问答对；

S102c：获取所述候选问答对中问题的复述和答案的复述，判断其是否组成过FAQ合法问答对，如果是，则认为此候选问答对为FAQ合法问答对，将其输入到FAQ合法问答对存储单元；否则，将其输入到有效性检测单元；

S102d：获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对，并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测，如果有效，则判断此候选问答对为FAQ合法问答对，并将其输入到FAQ合法问答对存储单元,否则，将此候选问答对从候选问答对存储单元中删除；

S102e：对FAQ合法问答对进行降噪处理。

进一步，步骤S102具体还可以为，

S1021：从对话语料存储模块中提取出合法回答，然后将出现在此合法回答之前，上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元；

S1022:匹配单元从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题，二者构成FAQ合法问答对；

S1023：重复以上过程，将重复得到的至少一个FAQ合法问答对储存至FAQ合法问答对存储单元。

进一步，步骤S103具体为，

S103a：获取降噪处理结果，并将其映射成为问题答案矩阵，并对所述问题答案矩阵进行降维处理；

S103b：根据降维处理结果计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(A_i,A_j)；

S103c：将余弦相似度值Sim(A_i,A_j)与预设阀值Sim_Temp2进行比较，根据比较结果生成问题复述集和答案复述集。

附图说明

图1为一种复述资源获取系统内各模块关系示意图；

图2为FAQ预处理模块实施例1各单元关系示意图；

图3为FAQ预处理模块实施例2各单元关系示意图；

图4为复述提取模块内各单元关系示意图；

图5为一种复述资源获取方法步骤流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种复述资源获取系统，包括对话语料存储模块、FAQ(FrequentlyAsked Questions)预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块，所述对话语料存储模块，其用于存储人工客服与顾客的对话语料；所述FAQ预处理模块，其用于从对话语料存储模块中提取出FAQ合法问答对，并对所述FAQ合法问答对进行降噪处理，将降噪处理结果发送给复述提取模块；所述复述提取模块，其用于接收降噪处理结果，根据预设程序生成问题复述集和答案复述集，并将所述问题复述集和答案复述集分别存储于问题复述存储模块和答案复述存储模块；所述问题复述存储模块，其用于存储所述问题复述集；所述答案复述存储模块，其用于存储所述答案复述集。

如图2所示，FAQ预处理模块实施例1各单元关系示意图，FAQ预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元；所述计算匹配程度单元，其用于从对话语料存储模块中提取出合法问答对，并计算所述合法问答对问题和答案的匹配程度值；所述阀值比较单元，其用于将所述匹配程度值与预设阈值Sim_Temp1相比较，根据比较结果生成FAQ合法问答对和候选问答对；其比较过程为：如果匹配程度值大于预设阈值Sim_Temp1则认为所述问题和答案是FAQ合法问答对，将所述FAQ合法问答对输入到FAQ合法问答对存储单元，否则，则认为所述问题和答案是候选问答对，将所述候选问答对输入到候选问答对存储单元；所述FAQ合法问答对存储单元，其用于存储阀值比较单元所输入的FAQ合法问答对；所述候选问答对存储单元，其用于存储阀值比较单元所输入的候选问答对；所述问答复述重现检测单元，其用于从候选问答对存储单元中分别找出所述候选问答对中问题的复述和答案的复述，判断其是否曾经组成过FAQ合法问答对，如果判断结果为是，则认为此候选问答对为FAQ合法问答对，将其输入到FAQ合法问答对存储单元；否则，则将其输入到有效性检测单元；所述有效性检测单元，其用于获取问题的复述和答案的复述曾经没有组成过FAQ合法问答对的候选问答对，并根据问题的复述和答案的复述出现的频率和相对概率对其进行有效性检测，如果有效，则判断此候选问答对为FAQ合法问答对，并将其输入到FAQ合法问答对存储单元,否则，将此候选问答对从候选问答对存储单元中删除；所述降噪单元，其用于对FAQ合法问答对存储单元内的FAQ合法问答对进行降噪处理，并将降噪处理结果发送给复述提取模块。降噪单元的降噪过程为：如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次，则认为此FAQ合法问答对无效，并将其从FAQ合法问答对存储单元中删除。

如图3所示，FAQ预处理模块实施例2各单元关系示意图；FAQ预处理模块包括合法回答存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元；所述合法回答存储单元，其用于从对话语料存储模块中提取出合法回答，将出现在此合法回答之前，上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元；所述候选问题存储单元，其用于存储候选问题；所述匹配单元，其用于从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题，二者构成FAQ合法问答对，并将所述FAQ合法问答对发送至FAQ合法问答对存储单元；所述FAQ合法问答对存储单元，其用于存储FAQ合法问答对。

如图4所示，复述提取模块内各单元关系示意图，复述提取模块包括矩阵转换单元、相似度计算单元和复述生成单元；所述矩阵转换单元，其用于接收所述降噪处理结果，并将降噪处理后的合法问答对的集合映射成为问题答案矩阵，并对所述问题答案矩阵采用SVD奇异值分解方法进行降维处理，，将降维处理结果发送给相似度计算单元；矩阵转换单元中，生成的问题答案矩阵的维度为m*n，其中m是去重之后问题的总数，n是去重之后答案的总数，矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数，未出现的记为0次。所述相似度计算单元，其用于接收所述降维处理结果，利用降维处理后的问题答案矩阵及其转置矩阵，计算问题答案矩阵内每一个问题或答案与其他所有问题或答案的余弦距离，得出所有问题的余弦相似度值Sim(A_i,A_j)，将所述余弦相似度值Sim(A_i,A_j)发送给复述生成单元；余弦相似度值Sim(A_i,A_j)的计算方法为：假设降维后的问题答案矩阵每一个行向量包含k维特征，第i个问题向量A_i＝(a₁,a₂,......a_k-1,a_k),其中a_i的值代表着该位置的问题和答案在FAQ合法问答对存储单元中出现的次数；第j个问题向量A_j表示为A_j＝(b₁,b₂,......b_k-1,b_k)；在空间向量模型中，问题A_i和A_j的相似度Sim(A_i,A_j)＝cosα,其中α即为向量A_i,A_j的夹角；所述复述生成单元，在此模块中，根据不同电商对于自动问答系统性能的要求，设定不同的复述资源生成阈值，记为Sim_Temp2。对于某一问题(或答案)，在相似度计算模块中已经得到的此问题(或答案)与其他问题(或答案)之间的相似度Sim(A_i,A_j)，将相似度值在阈值之上的所有问题(或答案)记为此问题(或答案)的复述。例如：对于问题A_i,如果它与另一个问题A_j的相似度Sim(A_i,A_j)>＝Sim_Temp2,那么就将问题A_j记为A_i的复述。以此类推，从而得到问题复述集和答案复述集，将所述问题复述集和答案复述集分别发送给问题复述存储模块和答案复述存储模块。

如图5所示，一种复述资源获取方法步骤流程图。一种复述资源获取方法，包括以下步骤，S101：根据人工客服与顾客的对话语料，建立对话语料存储模块；S102：FAQ预处理模块从对话语料存储模块中提取出FAQ合法问答对，并对所述FAQ合法问答对进行降噪处理，将降噪处理结果发送给复述提取模块；S103：复述提取模块接受所述降噪处理结果，生成问题复述集和答案复述集，并将所述问题复述集和答案复述集分别存储于问题复述存储模块和答案复述存储模块。

其中，步骤S102具体为，S102a：从对话语料存储模块中提取出合法问答对，并计算所述合法问答对问题和答案的匹配程度值；S102b:将所述匹配程度值与预设阈值Sim_Temp1相比较，如果匹配程度值大于预设阈值Sim_Temp1则认为所述问题和答案是FAQ合法问答对，将所述FAQ合法问答对输入到FAQ合法问答对存储单元，否则，则认为所述问题和答案是候选问答对，将所述候选问答对输入到候选问答对存储单元；S102c：问答复述重现检测单元从候选问答对存储单元中分别找出所述候选问答对中问题和答案的复述，如果所述候选问答对中，问题的复述和答案的复述曾经组成过FAQ合法问答对，则判断此候选问答对为FAQ合法问答对，并将其输入到FAQ合法问答对存储单元；否则，将其输入到有效性检测单元；S102d：有效性检测单元接收从问答复述重现检测单元发送的问题的复述和答案的复述没有组成过FAQ合法问答对的候选问答对，根据问题和答案的复述出现的频率以及问题复述和答案复述的相对概率来计算其有效性，如果有效，则判断此候选问答对为FAQ合法问答对，并将其输入到FAQ合法问答对存储单元,否则，将此候选问答对从候选问答对存储单元中删除；S102e：对FAQ合法问答对存储单元中的FAQ合法问答对进行降噪处理，降噪过程为：如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次，那么可以认为此FAQ合法问答对无效，并将其从FAQ合法问答对存储单元中删除。

其中，步骤S102具体还可以为，S1021：从对话语料存储模块中提取出合法回答，然后将出现在此合法回答之前，上一合法回答之后的全部问题作为候选问题存储于候选问题存储单元；S1022:匹配单元从所述候选问题存储单元的候选问题中找出与所述合法回答最匹配的一个问题，二者构成FAQ合法问答对；S1023：重复以上过程，将重复得到的至少一个FAQ合法问答对储存至FAQ合法问答对存储单元。

其中，步骤S103具体为，

S103a：复述提取模块的矩阵转换单元接受所述降噪处理结果，并将降噪处理后的FAQ合法问答对的集合映射成为问题答案矩阵，其中，问题答案矩阵的维度为m*n，其中m是去重之后问题的总数，n是去重之后答案的总数，矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数，未出现的记为0次；之后对问题答案矩阵采用SVD奇异值分解方法进行降维处理，将降维处理结果发送给相似度计算单元；

S103b：相似度计算单元接受所述降维处理结果，利用降维处理后的问题答案矩阵，计算出所述问题答案矩阵内每一个问题或答案与其他问题或答案的余弦相似度值Sim(A_i,A_j)，将所述余弦相似度值Sim(A_i,A_j)发送给复述生成单元；余弦相似度值Sim(A_i,A_j)的计算方法为：假设降维后的问题答案矩阵每一个行向量包含k维特征，第i个问题向量A_i＝(a₁,a₂,......a_k-1,a_k),其中a_i的值代表着该位置的问题和答案在FAQ合法问答对存储单元中出现的次数；第j个问题向量A_j表示为A_j＝(b₁,b₂,......b_k-1,b_k)；在空间向量模型中，问题A_i和A_j的相似度Sim(A_i,A_j)＝cosα,其中α即为向量A_i,A_j的夹角；

S103c：复述生成单元接收所述余弦相似度值Sim(A_i,A_j)，根据不同电商对于自动问答系统性能的要求设定复述获取阈值Sim_Temp2，将余弦相似度值Sim(A_i,A_j)与所述阀值Sim_Temp2进行比较，根据比较结果生成问题复述集和答案复述集，并将所述问题复述集和答案复述集分别存储于问题复述存储模块和答案复述存储模块。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种复述资源获取系统，其特征在于，包括对话语料存储模块、FAQ预处理模块、复述提取模块、问题复述存储模块和答案复述存储模块，

所述问题复述存储模块，其用于存储所述问题复述集；

所述答案复述存储模块，其用于存储所述答案复述集；

其中，所述FAQ预处理模块包括计算匹配程度单元、阀值比较单元、FAQ合法问答对存储单元、候选问答对存储单元、问答复述重现检测单元、有效性检测单元和降噪单元；

所述FAQ合法问答对存储单元，其用于存储FAQ合法问答对；

所述候选问答对存储单元，其用于存储候选问答对；

所述降噪单元，其用于对FAQ合法问答对进行降噪处理；

或者所述FAQ预处理模块包括合法回答存储单元、候选问题存储单元、匹配单元、FAQ合法问答对存储单元；

所述候选问题存储单元，其用于存储候选问题；

所述FAQ合法问答对存储单元，其用于存储FAQ合法问答对。

2.根据权利要求1所述一种复述资源获取系统，其特征在于，所述复述提取模块包括矩阵转换单元、相似度计算单元和复述生成单元；

3.根据权利要求1所述一种复述资源获取系统，其特征在于，所述降噪单元的降噪过程为：如果某FAQ合法问答对的问题或答案的出现次数在FAQ合法问答对存储单元中只有一次，则认为此FAQ合法问答对无效，并将其从FAQ合法问答对存储单元中删除。

4.根据权利要求2所述一种复述资源获取系统，其特征在于，所述矩阵转换单元中，生成的问题答案矩阵的维度为m*n，其中m是去重之后问题的总数，n是去重之后答案的总数，矩阵中的每个元素的值记录着对应的问题和答案在问答对库中出现的次数，未出现的记为0次。

5.一种复述资源获取方法，其特征在于，包括以下步骤，

S103：获取降噪处理结果，根据预设程序生成问题复述集和答案复述集；

其中，步骤S102具体为，

S102e：对FAQ合法问答对进行降噪处理；

或者步骤S102具体为，

6.根据权利要求5所述一种复述资源获取方法，其特征在于，步骤S103具体为，