CN108415980A

CN108415980A - 问答数据处理方法、电子装置及存储介质

Info

Publication number: CN108415980A
Application number: CN201810135748.0A
Authority: CN
Inventors: 于凤英; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-17
Also published as: WO2019153612A1

Abstract

本发明提供了一种问答数据处理方法，包括：从数据库获取坐席文本数据，将所述坐席文本数据分为若干组问答记录，按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，得到若干个候选问答对，然后统计每个候选问答对的多个指定特征，针对每个候选问答对使用特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度，再根据所述匹配度从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对补充到问答知识库中。本发明还提供一种电子装置及存储介质。利用本发明可以从坐席文本数据中选择出合适的目标问答对，对问答知识库进行维护和更新，从而节约人力和提高效率。

Description

问答数据处理方法、电子装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种问答数据处理方法、电子装置及存储介质。

背景技术

随着科技的发展，人工智能(Artificial Intelligence，AI)正逐步改变着我们的生活方式，例如智能问答就是其中一种。当客户通过文字或语音在线咨询时，可以由线上的智能客服机器人或线上智能客服应答系统为客户进行智能答复。智能问答可以有效缓解客户服务的等待状况，提升服务质量，因而有着非常广阔的前景。

目前，面向特定领域的智能问答的实现都需要有一个庞大的问答知识库，所述问答知识库中包含大量设定的问题答案对，例如问题是“保修期多久”，则相应的答案为“保修期一年”，智能问答中客服即是基于所述问答知识库进行智能答复的。然而，为了保证答复的准确性，需要及时补充完善问答知识库，而目前问答知识库的维护耗费着大量的人力资源，并且效率低下。

发明内容

鉴于以上原因，有必要提供一种问答数据处理方法、电子装置及存储介质，可以自动从坐席文本数据中选择出合适的目标问答对，对问答知识库进行维护和更新，从而节约人力和提高效率。

为实现上述目的，本发明提供一种问答数据处理方法，该方法包括：获取步骤：从数据库获取坐席文本数据，所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据；分组步骤：将所述坐席文本数据分为若干组问答记录，同一组问答记录属于同一客户和相应的客服，每组问答记录包括客户的若干个问题语句和客服的若干个答案语句；排序步骤：按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，去除无相应答案语句的问题语句和无相应问题语句的答案语句，将每组问答记录中的问题语句和答案语句排列为一问一答的形式，从而得到若干个候选问答对，每个候选问答对包括一个问题语句和一个相应的答案语句；提取步骤：对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条，统计各词条在所述坐席文本数据中出现的词频，根据所统计的各词条的词频为相应词条计算词条权重，将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词；计算步骤：统计每个候选问答对的多个指定特征，对每个所述指定特征分别赋予相应的预设特征权重，针对每个候选问答对，使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度；筛选步骤：从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对，将所述目标问答对补充到问答知识库中，所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。

可选地，所述从数据库获取坐席文本数据之后，还包括对所述坐席文本数据进行数据清洗操作，所述数据清洗操作包括：统计坐席文本数据中各语句的出现频率，获取出现频率高于第三预设阈值的语句作为高频语句；对每个所述高频语句进行分词处理，统计分词处理后得到的各词条在所有高频语句中的出现频率，将出现频率高于第四预设阈值的词条作为寒暄词；计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比，将所计算出的占比高于第五预设阈值的语句作为寒暄类语句；确定坐席文本数据中的短文本语句，所述短文本语句包括字符数小于第六预设阈值的语句，以及只包含数字和/或符号的语句；从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句，从而完成所述数据清洗操作。

可选地，所述根据所统计的各词条的词频为相应词条计算词条权重包括：采用以下公式计算所述词条权重w：w＝log(n/df)；其中n为相应词条在所述坐席文本数据中的词频，df为在预设的大规模语料库中包含相应词条的文档数。

可选地，所述多个指定特征包括：问题语句和答案语句的共同关键词数目a1；问题语句和答案语句的共同关键词长度a2；问题语句和答案语句的共同词条的数目a3；问题语句和答案语句的共同词条的长度a4；问题语句的长度a5；答案语句的长度a6；问题语句和答案语句的主题相似度a7；问题语句和答案语句的句法相似度a8；所述使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度包括：对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算，得到每个候选问答对的匹配度g(z)，公式如下：g(z)＝1/(1+e^z)，e为自然常数；其中，z＝a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8，x1、x2...x8分别为所述a1、a2...a8的特征权重。

可选地，所述将所述目标问答对补充到问答知识库之前，还包括：将所述各个目标问答对中，对应相同问题语句的答案语句进行合并处理，使每个目标问答对之间包含的问题语句互不相同，每个目标问答对中包括一个或多个答案语句。

可选地，所述将所述目标问答对补充到问答知识库之前，还包括：对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句，以及相应的答案语句是否为陈述句；将包含问题语句不为询问句的目标问答对过滤掉，以及将包含答案语句不为陈述句的目标问答对过滤掉，得到待补充到问答知识库的目标问答对。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中包括问答数据处理程序，该问答数据处理程序被所述处理器执行时实现如下步骤：从数据库获取坐席文本数据，所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据；分组步骤：将所述坐席文本数据分为若干组问答记录，同一组问答记录属于同一客户和相应的客服，每组问答记录包括客户的若干个问题语句和客服的若干个答案语句；排序步骤：按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，去除无相应答案语句的问题语句和无相应问题语句的答案语句，将每组问答记录中的问题语句和答案语句排列为一问一答的形式，从而得到若干个候选问答对，每个候选问答对包括一个问题语句和一个相应的答案语句；提取步骤：对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条，统计各词条在所述坐席文本数据中出现的词频，根据所统计的各词条的词频为相应词条计算词条权重，将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词；计算步骤：统计每个候选问答对的多个指定特征，对每个所述指定特征分别赋予相应的预设特征权重，针对每个候选问答对，使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度；筛选步骤：从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对，将所述目标问答对补充到问答知识库中，所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括问答数据处理程序，该问答数据处理程序被处理器执行时，实现如上所述的问答数据处理方法的任意步骤。

本发明提出的问答数据处理方法、电子装置及计算机可读存储介质，通过首先从数据库获取坐席文本数据，将所述坐席文本数据分为若干组问答记录，其次按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，得到若干个候选问答对，然后统计每个候选问答对的多个指定特征，对每个所述指定特征分别赋予相应的预设特征权重，针对每个候选问答对，使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度，再根据所述匹配度从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对补充到问答知识库中，可以自动从坐席文本数据中选择出合适的目标问答对，对问答知识库进行维护和更新，从而节约人力和提高效率。

附图说明

图1为本发明电子装置较佳实施例的运行环境示意图；

图2为本发明电子装置与客户端较佳实施例的交互示意图；

图3为本发明问答数据处理方法较佳实施例的流程图；

图4为图3中数据清洗方法较佳实施例的流程图；

图5为图1中问答数据处理程序的程序模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考若干具体实施例来描述本发明的原理和精神。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本领域的技术人员知道，本发明的实施方式可以实现为一种方法、装置、设备、系统或计算机程序产品。因此，本发明可以具体实现为完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施例，提出了一种问答数据处理方法、电子装置及存储介质。

参照图1所示，为本发明电子装置较佳实施例的运行环境示意图。

该电子装置1可以是服务器、便携式计算机、桌上型计算机等具有存储和运算功能的终端设备。

该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。所述网络接口13可选地可以包括标准的有线接口和无线接口(如WI-FI接口)。通信总线14用于实现上述组件之间的连接通信。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的问答数据处理程序10、数据库2及问答知识库3等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行问答数据处理程序10等。

图1仅示出了具有组件11-14以及问答数据处理程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等。可选地，用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)显示器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动问答数据处理程序10。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

参阅图2所示，为本发明电子装置1较佳实施例的交互示意图。所述问答数据处理程序10运行于电子装置1中，所述电子装置1可以为运行智能问答程序相关的服务器。因此，该电子装置1可以通过网络与客户端通信连接，从而接收客户通过客户端提出的问题，在问答知识库3中查找相应的答案，并将所述答案通过客户端反馈给客户，以实现智能答复。此外，电子装置1还可以记录日常客户与客服的坐席文本数据，并将所述坐席文本数据保存在数据库2中。所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据，例如每一个问题及其输入时间，每一个答案及其输出时间，客户身份标识，客服身份标识等。所述问答数据处理程序10用于通过对数据库2中的坐席文本数据进行处理，从而提取出符合问答知识库3要求的目标问答对，以对问答知识库3的更新和维护。

参阅图3所示，为本发明问答数据处理方法较佳实施例的流程图。电子装置1的处理器12执行存储器11中存储的问答数据处理程序10时实现问答数据处理方法的如下步骤：

步骤S1，从数据库2获取坐席文本数据，所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据，例如每一个问题及其输入时间，每一个答案及其输出时间，客户身份标识，客服身份标识等。所述坐席文本数据记录的是原始的问答数据，即所述坐席文本数据中的问答数据未经过任何处理，而是原样记录。

通常客户与客服的问答过程中，除了特定领域咨询相关的问题语句与答案语句外，还会存在一些其它的纯交流语句，这些纯交流语句相较于问答知识库3而言，没有太大意义。为了去除坐席文本数据中此类无意义的数据，例如仅仅是相互寒暄的语句，包括“您好”、“再见”、“很高兴为您服务”等，以及过于短而很难表达出实际意义的语句，例如“为什么呢”，或者只包含数字和/或符号的语句等，步骤S1在从数据库2获取所述坐席文本数据之后，还可以先对所述坐席文本数据进行数据清洗操作，参阅图4所示，所述数据清洗操作例如可以包括以下步骤：

步骤S11，统计坐席文本数据中各语句的出现频率，获取出现频率高于第三预设阈值的语句作为高频语句；

步骤S12，对每个所述高频语句进行分词处理，统计分词处理后得到的各词条在所有高频语句中的出现频率，将出现频率高于第四预设阈值的词条作为寒暄词；

步骤S13，计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比，将所计算出的占比高于第五预设阈值的语句作为寒暄类语句；

步骤S14，确定坐席文本数据中的短文本语句，所述短文本语句包括字符数小于第六预设阈值的语句，以及只包含数字和/或符号的语句；

步骤S15，从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句，从而完成所述数据清洗操作。

步骤S2，将所述坐席文本数据分为若干组问答记录，同一组问答记录属于同一客户和相应的客服，每组问答记录包括客户的若干个问题语句和客服的若干个答案语句。

具体地，步骤S2可以将不同客户对应的问答数据映射到相应的客户ID下，从而根据映射关系将所述坐席文本数据分为若干组问答记录，同一组问答记录属于同一客户和相应的客服。在每组问答记录中，根据客户与客服的问答过程，可以包括客户的若干个问题语句和客服的若干个答案语句，但在该组问答记录中，客户的问题语句和客服的答案语句可以是无特定顺序的状态，例如可以是按照分配的ID号排列相应的问题语句和答案语句，或者可以是将客户的所有问题语句排列在一起，而将客服的所有答案语句排列在一起，等等。为了方便地从坐席文本数据中整理出每个客户的问题语句和客服对应的答案语句，执行下述步骤S3。

步骤S3，按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，去除无相应答案语句的问题语句和无相应问题语句的答案语句，将每组问答记录中的问题语句和答案语句排列为一问一答的形式，从而得到若干个候选问答对，每个候选问答对包括一个问题语句和一个相应的答案语句。

由于客户与客服的问答过程是按照时间顺序一问一答进行的，因此步骤S3按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，可以方便地按顺序提取客户的每个问题语句和相应的答案语句。考虑到客户与客服的问答过程中可能会存在客户提问而客服没有回答，或者客户发了无意义的符号例如表情或问号等而引起客服主动发问的情况，从而存在一些无相应答案语句的问题语句和无相应问题语句的答案语句，步骤S3可以在按照记录的时间顺序排列每组问答记录中的问题语句和答案语句后，先去除所述无相应答案语句的问题语句和无相应问题语句的答案语句。由此，步骤S3可以将每组问答记录中的问题语句和答案语句排列为一问一答的形式，从而得到若干个候选问答对，每个候选问答对包括一个问题语句和一个相应的答案语句。

步骤S4，对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条，统计各词条在所述坐席文本数据中出现的词频，根据所统计的各词条的词频为相应词条计算词条权重，将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词。

具体地，步骤S4根据所统计的各词条的词频为相应词条计算词条权重，可以采用以下公式：

w＝log(n/df)；

其中n为相应词条在所述坐席文本数据中的词频，df为在预设的大规模语料库中包含相应词条的文档数。所述预设的大规模语料库可以是公共的文档语料库，其包括大规模数量的各类文档，通过所述大规模语料库可以实现对文档中的语句、词条进行句法、语义等内容的样本训练和深度学习。

步骤S5，统计每个候选问答对的多个指定特征，对每个所述指定特征分别赋予相应的预设特征权重，针对每个候选问答对，使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度。

所述多个指定特征例如可以包括：

问题语句和答案语句的共同关键词数目a1；

问题语句和答案语句的共同关键词长度a2；

问题语句和答案语句的共同词条的数目a3；

问题语句和答案语句的共同词条的长度a4；

问题语句的长度a5；

答案语句的长度a6；

问题语句和答案语句的主题相似度a7；

问题语句和答案语句的句法相似度a8。

采用以上指定特征的考虑主要包括：若候选问答对中答案语句是对问题语句的回答，则答案语句中通常会包含问题语句中的关键词；问题语句与答案语句之间共同关键词的数目越多越长，共同出现词的数目越多越长，则候选问答对中答案语句是对问题语句的回答的可能性就越大；由于希望获取的目标问答对具有的是完整意义的问答，因此越长的问题语句能更好地描述一个完整的问题，而越长的答案语句能更好地描述一个完整的回答；若候选问答对中答案语句是对问题语句的回答，则答案语句与问题语句之间主题通常是一致的；若候选问答对中答案语句是对问题语句的回答，则答案语句与问题语句之间在句法上通常也有一定的联系。

所述使用所述特征权重对所述多个指定特征进行加权计算的方法例如可以为对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算，从而得到每个候选问答对的匹配度g(z)，公式如下：

g(z)＝1/(1+e^z)，e为自然常数；

其中，z＝a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+a6*x6+a7*x7+a8*x8，x1、x2...x8分别为所述a1、a2...a8的特征权重。

步骤S6，从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对，将所述目标问答对补充到问答知识库3中，所述问答知识库3用于为客户基于问答知识库3中的问答对进行智能应答。匹配度高于第二预设阈值的所述候选问答对可以包括一个或多个。

此外，为了使所述目标问答对更加精炼，步骤S6在将所述目标问答对补充到问答知识库3之前，还可以先将所述各个目标问答对中，对应相同问题语句的答案语句进行合并处理，使每个目标问答对之间包含的问题语句互不相同，每个目标问答对中包括一个或多个答案语句。

由于针对特定的领域，通常问题语句的句子构成上应当是询问句，而答案语句则应当是陈述句。为了进一步提高补充到问答知识库3中的目标问答对的准确性，步骤S6还可以在将所述目标问答对补充到问答知识库3之前，先对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句，以及相应的答案语句是否为陈述句，然后步骤S6将包含问题语句不为询问句的目标问答对过滤掉，以及将包含答案语句不为陈述句的目标问答对过滤掉，得到待补充到问答知识库3的目标问答对。

根据本实施例提供的问答数据处理方法，通过首先从数据库获取坐席文本数据，将所述坐席文本数据分为若干组问答记录，同一组问答记录属于同一客户和相应的客服，其次按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，得到若干个候选问答对，然后对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条，统计各词条在所述坐席文本数据中出现的词频，根据所统计的各词条的词频为相应词条计算词条权重，将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词，统计每个候选问答对的多个指定特征，对每个所述指定特征分别赋予相应的预设特征权重，针对每个候选问答对，使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度，再根据所述匹配度从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对补充到问答知识库3中，可以自动从坐席文本数据中选择出合适的目标问答对，对问答知识库3进行维护和更新，从而节约人力和提高效率。

参阅图5所示，为图1中问答数据处理程序10的程序模块图。在本实施例中，问答数据处理程序10被分割为多个模块，该多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

所述问答数据处理程序10可以被分割为：获取模块110、分组模块120、排序步骤130、提取模块140、计算模块150和筛选模块160。

获取模块110，用于从数据库获取坐席文本数据，所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据。

所述获取模块110从数据库获取坐席文本数据之后，还可以先对所述坐席文本数据进行数据清洗操作，所述数据清洗操作包括：

统计坐席文本数据中各语句的出现频率，获取出现频率高于第三预设阈值的语句作为高频语句；

对每个所述高频语句进行分词处理，统计分词处理后得到的各词条在所有高频语句中的出现频率，将出现频率高于第四预设阈值的词条作为寒暄词；

计算坐席文本数据各语句中所有寒暄词在所属语句所有词条中的占比，将所计算出的占比高于第五预设阈值的语句作为寒暄类语句；

确定坐席文本数据中的短文本语句，所述短文本语句包括字符数小于第六预设阈值的语句，以及只包含数字和/或符号的语句；

从所述坐席文本数据中过滤掉所述寒暄类语句和所述短文本语句，从而完成所述数据清洗操作。

分组模块120，用于将所述坐席文本数据分为若干组问答记录，同一组问答记录属于同一客户和相应的客服，每组问答记录包括客户的若干个问题语句和客服的若干个答案语句。

排序步骤130，用于按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，去除无相应答案语句的问题语句和无相应问题语句的答案语句，将每组问答记录中的问题语句和答案语句排列为一问一答的形式，从而得到若干个候选问答对，每个候选问答对包括一个问题语句和一个相应的答案语句。

提取模块140，用于对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条，统计各词条在所述坐席文本数据中出现的词频，根据所统计的各词条的词频为相应词条计算词条权重，将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词。

具体地，提取模块140可以采用以下公式根据所统计的各词条的词频为相应词条计算词条权重：

w＝log(n/df)；

其中n为相应词条在所述坐席文本数据中的词频，df为在预设的大规模语料库中包含相应词条的文档数。

计算模块150，用于统计每个候选问答对的多个指定特征，对每个所述指定特征分别赋予相应的预设特征权重，针对每个候选问答对，使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度。

所述多个指定特征例如可以包括：

问题语句和答案语句的共同关键词数目a1；

问题语句和答案语句的共同关键词长度a2；

问题语句和答案语句的共同词条的数目a3；

问题语句和答案语句的共同词条的长度a4；

问题语句的长度a5；

答案语句的长度a6；

问题语句和答案语句的主题相似度a7；

问题语句和答案语句的句法相似度a8。

所述使用所述特征权重对所述多个指定特征进行加权计算的方法例如可以为计算模块150对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算，从而得到每个候选问答对的匹配度g(z)，公式如下：

g(z)＝1/(1+e^z)，e为自然常数；

筛选模块160，用于从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对，将所述目标问答对补充到问答知识库中，所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。

为了使所述目标问答对更加精炼，筛选模块160在将所述目标问答对补充到问答知识库3之前，还可以先将所述各个目标问答对中，对应相同问题语句的答案语句进行合并处理，使每个目标问答对之间包含的问题语句互不相同，每个目标问答对中包括一个或多个答案语句。

此外，为了进一步提高补充到问答知识库3中的目标问答对的准确性，筛选模块160还可以在将所述目标问答对补充到问答知识库3之前，先对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句，以及相应的答案语句是否为陈述句，然后筛选模块160将包含问题语句不为询问句的目标问答对过滤掉，以及将包含答案语句不为陈述句的目标问答对过滤掉，得到待补充到问答知识库3的目标问答对。

在图1所示的电子装置1较佳实施例的运行环境示意图中，包含可读存储介质的存储器11中可以包括问答数据处理程序10、数据库2及问答知识库3。处理器12执行存储器11中存储的问答数据处理程序10时实现如下步骤：

获取步骤：从数据库获取坐席文本数据，所述坐席文本数据包括所有客户与客服在问答过程中记录的问答数据；

分组步骤：将所述坐席文本数据分为若干组问答记录，同一组问答记录属于同一客户和相应的客服，每组问答记录包括客户的若干个问题语句和客服的若干个答案语句；

排序步骤：按照记录的时间顺序排列每组问答记录中的问题语句和答案语句，去除无相应答案语句的问题语句和无相应问题语句的答案语句，将每组问答记录中的问题语句和答案语句排列为一问一答的形式，从而得到若干个候选问答对，每个候选问答对包括一个问题语句和一个相应的答案语句；

提取步骤：对每个候选问答对中的问题语句和答案语句进行分词处理得到各个词条，统计各词条在所述坐席文本数据中出现的词频，根据所统计的各词条的词频为相应词条计算词条权重，将词条权重大于第一预设阈值的词条作为相应问题语句或答案语句的关键词；

计算步骤：统计每个候选问答对的多个指定特征，对每个所述指定特征分别赋予相应的预设特征权重，针对每个候选问答对，使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度；

筛选步骤：从所有候选问答对中筛选出匹配度高于第二预设阈值的候选问答对作为目标问答对，将所述目标问答对补充到问答知识库中，所述问答知识库用于为客户基于问答知识库中的问答对进行智能应答。

所述从数据库获取坐席文本数据之后，还包括对所述坐席文本数据进行数据清洗操作，所述数据清洗操作包括：

所述根据所统计的各词条的词频为相应词条计算词条权重包括：

采用以下公式计算所述词条权重w：

w＝log(n/df)；

所述多个指定特征包括：

问题语句和答案语句的共同关键词数目a1；

问题语句和答案语句的共同关键词长度a2；

问题语句和答案语句的共同词条的数目a3；

问题语句和答案语句的共同词条的长度a4；

问题语句的长度a5；

答案语句的长度a6；

问题语句和答案语句的主题相似度a7；

问题语句和答案语句的句法相似度a8；

所述使用所述特征权重对所述多个指定特征进行加权计算，得到每个候选问答对的匹配度包括：

对所述多个指定特征采用多元逻辑回归模型进行加权回归拟合计算，得到每个候选问答对的匹配度g(z)，公式如下：

g(z)＝1/(1+e^z)，e为自然常数；

所述将所述目标问答对补充到问答知识库之前，还包括：

将所述各个目标问答对中，对应相同问题语句的答案语句进行合并处理，使每个目标问答对之间包含的问题语句互不相同，每个目标问答对中包括一个或多个答案语句。

所述将所述目标问答对补充到问答知识库之前，还包括：

对每个目标问答对中的问题语句和答案语句分别采用朴素贝叶斯分类器判断相应的问题语句是否为询问句，以及相应的答案语句是否为陈述句；

将包含问题语句不为询问句的目标问答对过滤掉，以及将包含答案语句不为陈述句的目标问答对过滤掉，得到待补充到问答知识库的目标问答对。

具体原理请参照上述图5关于问答数据处理程序10的程序模块图及图3关于问答数据处理方法较佳实施例的流程图的介绍。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储有数据库2、问答知识库3及问答数据处理程序10等，所述问答数据处理程序10被所述处理器12执行时实现如下操作：

采用以下公式计算所述词条权重w：

w＝log(n/df)；

所述多个指定特征包括：

问题语句和答案语句的共同关键词数目a1；

问题语句和答案语句的共同关键词长度a2；

问题语句和答案语句的共同词条的数目a3；

问题语句和答案语句的共同词条的长度a4；

问题语句的长度a5；

答案语句的长度a6；

问题语句和答案语句的主题相似度a7；

问题语句和答案语句的句法相似度a8；

g(z)＝1/(1+e^z)，e为自然常数；

所述将所述目标问答对补充到问答知识库之前，还包括：

本发明之计算机可读存储介质的具体实施方式与上述问答数据处理方法以及电子装置1的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种问答数据处理方法，其特征在于，该方法包括：

2.如权利要求1所述的问答数据处理方法，其特征在于，所述从数据库获取坐席文本数据之后，还包括对所述坐席文本数据进行数据清洗操作，所述数据清洗操作包括：

3.如权利要求1所述的问答数据处理方法，其特征在于，所述根据所统计的各词条的词频为相应词条计算词条权重包括：

采用以下公式计算所述词条权重w：

w＝log(n/df)；

4.如权利要求1所述的问答数据处理方法，其特征在于，所述多个指定特征包括：

问题语句和答案语句的共同关键词数目a1；

问题语句和答案语句的共同关键词长度a2；

问题语句和答案语句的共同词条的数目a3；

问题语句和答案语句的共同词条的长度a4；

问题语句的长度a5；

答案语句的长度a6；

问题语句和答案语句的主题相似度a7；

问题语句和答案语句的句法相似度a8；

g(z)＝1/(1+e^z)，e为自然常数；

5.如权利要求1所述的问答数据处理方法，其特征在于，所述将所述目标问答对补充到问答知识库之前，还包括：

6.如权利要求1所述的问答数据处理方法，其特征在于，所述将所述目标问答对补充到问答知识库之前，还包括：

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中包括问答数据处理程序，该问答数据处理程序被所述处理器执行时实现如下步骤：

8.如权利要求7所述的电子装置，其特征在于，所述从数据库获取坐席文本数据之后，还包括对所述坐席文本数据进行数据清洗操作，所述数据清洗操作包括：

9.如权利要求8所述的电子装置，其特征在于，所述将所述目标问答对补充到问答知识库之前，还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括问答数据处理程序，所述问答数据处理程序被处理器执行时，实现如权利要求1至6中任一项所述的问答数据处理方法的步骤。