CN104866631A

CN104866631A - 咨询问题聚合的方法和装置

Info

Publication number: CN104866631A
Application number: CN201510341110.9A
Authority: CN
Inventors: 邵佳帅; 陈海勇; 牟川; 邢志峰
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2015-08-26

Abstract

本发明提供一种咨询问题聚合的方法和装置，能够实现对文本数据句子主干的提取，从而能在尽可能的保留某一问题的原意的情况下，完成对相似问题的聚合，提高问题聚合的精度。该方法包括：获取文本数据并对所述文本数据进行预处理，所述文本数据是问答系统数据库中存储的之前咨询过的问题的文本数据；提取预处理后的文本数据的句子主干；将所提取的句子主干进行聚合并输出所聚合的数据集合。

Description

咨询问题聚合的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种咨询问题聚合的方法和装置。

背景技术

随着电子商务行业的高速发展，越来越多的用户选择在购买前进行线上咨询。用户在线上提出问题后，需要等待解答，这种情形比较浪费时间。基于此，电子商务网站将问答系统数据库中用户之前问过的相似问题进行聚合，这样，在提问前，用户可先行进行搜索，如之前已有类似问题并且存在答案的话，就会大大缩短用户得到答案的时间，提高用户体验。

目前对相似文本聚合主要通过以下方法：

(1)采用余弦相似度的方法进行聚合。该方法主要是根据一个文章中出现词的词频构成一个向量，然后计算两篇文章对应向量的向量夹角，根据向量夹角的余弦值对文本进行聚合。

(2)采用simhash算法对文本进行聚合。该方法的主要思想是降维，将高维的特征向量映射成一个f-bit的指纹(fingerprint)，通过比较两个问题的f-bit指纹的海明距离来确定文章是否重复或者高度近似。

但是目前这两种方法都存在一些问题：

对于方法(1)，由于有可能一个文章的特征向量词特别多，导致整个向量维度很高，使得计算的代价太大，不适合大数据量的计算；此外，以词为单位来计算文本的相似度，这样计算的粒度过粗，导致计算结果的准确率底。

对于方法(2)，simhash算法相对余弦相似度的方法而言，速度快适合大数据计算。但现有技术中运用simhash算法计算相似度仍多采用以词为单位计算文本的相似度，仍不能保障解决计算结果的准确率。

发明内容

有鉴于此，本发明提供一种咨询问题聚合的方法和装置，能够实现对文本数据句子主干的提取，在尽可能的保留某一问题的原意的情况下，完成相似问题的聚合，提高问题聚合的精度。

为实现上述目的，根据本发明的一个方面，提供了一种咨询问题聚合的方法。

本发明的咨询问题聚合的方法包括：获取文本数据并对所述文本数据进行预处理，所述文本数据是问答系统数据库中存储的之前咨询过的问题的文本数据；提取预处理后的文本数据的句子主干；将所提取的句子主干进行聚合并输出所聚合的数据集合。

可选地，对所述文本数据进行预处理包括：对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的处理。

可选地，提取预处理后的文本数据的句子主干包括：基于问句模式提取预处理后的文本数据的句子主干。

可选地，将所提取的句子主干进行聚合包括：采用simhash算法，计算所提取的句子主干之间的海明距离，按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合。

可选地，将所提取的句子主干进行聚合还包括：在将所提取的句子主干进行聚合前，生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系；在将所提取的句子主干进行聚合后，将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据。

根据本发明的另一方面，提供了一种咨询问题聚合的装置。

本发明的咨询问题聚合的装置包括：预处理模块，用于获取文本数据并对所述文本数据进行预处理，所述文本数据是问答系统数据库中存储的之前咨询过的问题的文本数据；提取模块，用于提取预处理后的文本数据的句子主干；聚合模块，用于将所提取的句子主干进行聚合并输出所聚合的数据集合。

可选地，所述预处理模块还包括：用于对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的模块。

可选地，所述提取模块还包括：用于基于问句模式提取预处理后的文本数据的句子主干的模块。

可选地，所述聚合模块还包括：用于采用simhash算法，计算所提取的句子主干之间的海明距离，按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合的模块。

可选地，所述聚合模块还包括：用于在将所提取的句子主干进行聚合前，生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系的模块；以及用于在将所提取的句子主干进行聚合后，将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据的模块。

根据本发明的技术方案，通过对咨询问题文本数据的预处理，能将文本数据中的无用字符和无用信息剔除，方便对数据的进一步处理；通过对文本数据句子主干的提取，从而能实现对数据进行精简处理，提高计算效率，同时能够保证在尽可能保留原文意思的前提下对问题文本数据进行聚合，有利于提高文本聚合的准确性；通过对原始问题和句子主干的哈希对应，从而建立原始数据和句子主干数据的对应关系；通过对句子主干的聚合，从而使同一主题的问题数据进入同一问题集合；通过将聚合好的问题进行哈希映射，从而能使聚合后的句子主干对应回原始问题，有利于用户的查询结果的输出。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种咨询问题聚合的方法的主要步骤的示意图；

图2是根据本发明实施例的一种咨询问题聚合的装置的主要模块的示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本发明实施例的一种咨询问题聚合的方法主要包括如下步骤：

步骤S11：获取文本数据并对所述文本数据进行预处理，所述文本数据是问答系统数据库中存储的之前咨询过的问题的文本数据。用户提问过的问题及问题的答案一般都会存储在问答系统数据库中。鉴于用户填写问题时，可能存在一些诸如大小写混乱、全角半角混乱、文本首尾存在无用字符等不规范现象，因此，在对从数据库中获取的文本数据进行处理前，需要先进行归一化的预处理。

在一个实施例中，对文本数据的预处理包括进行字符归一化、去除无用字符、去除无用信息的操作。字符归一化包括小写转大写、阿拉伯数字转中文、全角转半角、繁体转成简体等；去除无用字符包括去除首尾无用字符、空格或者\t字符的解决、移除标点符号以及特殊符号等；去除无用信息包括移除电话号码、移除邮箱地址等。

对文本数据的上述预处理操作可以利用正则表达式。例如，在对数据进行去除无用信息的操作时，若字符中出现电话号码或者邮箱地址等，则写出可以匹配这些信息的正则表达式进行匹配，然后将匹配得到的内容替换为空白字符。此外，去除无用字符时，对特殊标点符号移除也可以通过正则表达式的方式进行。在一个示例中，使用python语言和正则表达式编写代码，如果字符串中出现满足代码中特殊标点符号的情况，则将该标点符号替换成空白字符。

此外，还可以用脚本语言进行预处理。例如，去除数据中的无用字符，使用脚本语言编写如下：

if‘[’in question:

index＝question.index(‘[’)

question＝question[:index]+question[(index+1):]

就表示如果文本中存在‘[’符号，则将其去除。

通过对咨询问题文本数据的预处理，可以使数据字符归一化，将文本数据中的无用字符和无用信息剔除，方便对数据的进一步处理。

本步骤对数据的预处理之后，完成了对文本数据的整理，开始进行步骤S12。

步骤S12：提取所述预处理后的文本数据的句子主干。鉴于问答系统数据库中的一些问题拖沓冗长，为了提高下述对问题文本聚合的精度和计算效率，需要对数据进行精简处理，即提取文本数据的句子主干。同时，对句子主干的提取，能够保证在尽可能保留原文意思的前提下对问题文本数据进行聚合，有利于提高文本聚合的准确性。

鉴于问答系统数据库中的句子多以问句为主，因此，在一个实施例中，基于问句模式对文本数据进行句子主干提取。

在具体操作中，首先应明确问题文本的问句类型。通过对数据库内的问题进行筛选和归纳，整理得出数据库中存在但不限于如下问句模式：“xx与xx有什么不同”、“xx对xx有什么作用”、“xx什么牌子好”、“为什么xx”。

此外，还可以利用脚本语言规则提取句子主干。方法同上述步骤S11中利用脚本语言进行预处理的操作类似，此处不再赘述。

通过上述对问题文本句子主干的提取，可以对问题文本进行精简处理，减少句子不必要的冗杂，并且对句子主干的提取能够保证尽可能保留问题原意，有利于提高文本聚合的准确性。

步骤S13：将所提取的句子主干进行聚合并输出所聚合的数据集合。对句子主干进行提取后，可以对提取的句子主干进行聚合，将符合预设规则的相似句子保存在同一数据集合中。

由于在前述步骤S12中对预处理后的原始问题进行了主干提取，因此，在完成对主干问题聚合后，需要清楚知道其对应的原始问题是哪一个。基于此，要在对句子的主干聚合前形成句子主干与预处理后原始问题的对应关系。

在一个示例中，基于节省存储空间以及对用户问题保密的考虑，采用信息-摘要算法5进行对应。信息-摘要算法5用于确保信息传输完整一致，是计算机广泛使用的杂凑算法之一(又称为摘要算法、哈希算法)，主流编程语言普遍已有信息-摘要算法5实现。将数据(如汉字)运算为另一固定长度值，是杂凑算法的基础原理。它的作用是让大容量信息在用数字签名软件签署私人密钥前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的十六进制数字串)。

使用该方法对原始问题和句子主干问题进行映射对应时，分别采用信息-摘要算法5的方式对原始问题和主干问题进行哈希计算，分别得到一个32位的编码字符串，然后把二者的对应关系存储在文件中。

通过信息-摘要算法5，可以建立预处理后的原始问题和句子主干的对应关系，有利于实现聚合后的数据集合内的句子重新映射回原始问题。

在对原始问题与句子主干问题完成对应后，进行文本问题句子主干的聚合。在一个实施例中，对问题的聚合过程，采用simhash算法。simhash算法的主要思想是降维，将高维的特征向量映射成一个f-bit的指纹(fingerprint)，通过比较两个问题文本的f-bit指纹的海明距离来确定文章是否重复或者高度近似。具体的simhash过程如下：

1.首先基于传统的IR方法，将文章转换为一组加权的特征值构成的向量；

2.初始化一个f维的向量V，其中每一个元素初始值为0；

3.对于文章的特征向量集中的每一个特征，做如下计算：

利用传统的哈希算法映射到一个f-bit的签名。对于这个f-bit的签名，如果签名的第i位上为1，则对向量V中第i维加上这个特征的权值，否则对向量的第i维减去该特征的权值；

4.对整个特征向量集合迭代上述运算后，根据V中每一维向量的符号来确定生成的f-bit指纹的值，如果V的第i维为正数，则生成f-bit指纹的第i维为1，否则为0。

在对所有句子进行simhash后，得到其对应的一个simhash值，比较每两个句子主干的simhash值的海明距离，根据实际情况的需要，将海明距离小于一定阈值的句子聚合到一起，最终得到每一个聚合结果为同一主题的问题的集合。

在对文本聚合完成后，将聚合好的问题，进行信息-摘要算法5哈希，将同一主体的问题集合中的句子主干映射回原始问题。最后输出聚合结果，并可对该结果中每一个主题集合中的问题，建立对应整个问题集合的倒排索引供用户查询使用。

通过上述步骤S13，实现了原始问题文本与提取的句子主干之间的对应；对提取的句子主干进行聚合，从而使同一主题的问题进入同一问题集合中；将聚合好的问题，进行信息-摘要5算法的哈希对应，从而能使提取的句子主干对应回原始问题，以供用户查询使用。

根据上述咨询问题聚合的方法的主要步骤可以得出，通过对咨询问题文本数据的预处理，可以将文本数据中的无用字符和无用信息剔除，方便对数据的进一步处理；通过对文本数据句子主干的提取，从而能实现对数据进行精简处理，提高计算效率，同时能够保证在尽可能保留原文意思的前提下对问题文本数据进行聚合，有利于提高文本聚合的准确性；通过对原始问题和句子主干的哈希对应，从而建立原始数据和句子主干数据的对应关系；通过对句子主干的聚合，从而使同一主题的问题数据进入同一问题集合；通过将聚合好的问题进行哈希映射，从而能使聚合后的句子主干对应回原始问题，有利于用户的查询结果的输出。

如图2所示，本发明实施例的一种咨询问题聚合的装置主要包括如下模块：预处理模块201、提取模块202、聚合模块203。

预处理模块201用于获取文本数据并对所述文本数据进行预处理，所述文本数据是问答系统数据库中存储的之前咨询过的问题的文本数据；

提取模块202用于提取预处理后的文本数据的句子主干；

聚合模块203用于将所提取的句子主干进行聚合并输出所聚合的数据集合。

预处理模块201还包括：用于对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的模块。

提取模块202还包括：用于基于问句模式提取预处理后的文本数据的句子主干的模块。

聚合模块203还包括：用于采用simhash算法，计算所提取的句子主干之间的海明距离，按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合的模块。

聚合模块203还包括：用于在将所提取的句子主干进行聚合前，生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系；以及用于在将所提取的句子主干进行聚合后，将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据。

根据本发明实施例的技术方案可以得出，通过对咨询问题文本数据的预处理，所以能将文本数据中的无用字符和无用信息剔除，方便对数据的进一步处理；通过对文本数据句子主干的提取，从而能实现对数据进行精简处理，提高计算效率，同时能够保证在尽可能保留原文意思的前提下对问题文本数据进行聚合，有利于提高文本聚合的准确性；通过对原始问题和句子主干的哈希对应，从而建立原始数据和句子主干数据的对应关系；通过对句子主干的聚合，从而使同一主题的问题数据进入同一问题集合；通过将聚合好的问题进行哈希映射，从而能使聚合后的句子主干对应回原始问题，有利于用户的查询结果的输出。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行，例如，对原始视觉内容进行色彩校正的步骤和对拍摄到的图像进行几何校正的步骤可以顺序地、并行地或者以任何顺序独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种咨询问题聚合的方法，其特征在于，包括：

获取文本数据并对所述文本数据进行预处理，所述文本数据是问答系统数据库中存储的之前咨询过的问题的文本数据；

提取预处理后的文本数据的句子主干；

将所提取的句子主干进行聚合并输出所聚合的数据集合。

2.根据权利要求1所述的方法，其特征在于，对所述文本数据进行预处理包括：

对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的处理。

3.根据权利要求1所述的方法，其特征在于，提取预处理后的文本数据的句子主干包括：

基于问句模式提取预处理后的文本数据的句子主干。

4.根据权利要求1所述的方法，其特征在于，将所提取的句子主干进行聚合包括：

采用simhash算法，计算所提取的句子主干之间的海明距离，按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合。

5.根据权利要求1至4任一所述的方法，其特征在于，将所提取的句子主干进行聚合还包括：

在将所提取的句子主干进行聚合前，生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系；

在将所提取的句子主干进行聚合后，将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据。

6.一种咨询问题聚合的装置，其特征在于，包括：

预处理模块，用于获取文本数据并对所述文本数据进行预处理，所述文本数据是问答系统数据库中存储的之前咨询过的问题的文本数据；

提取模块，用于提取预处理后的文本数据的句子主干；

聚合模块，用于将所提取的句子主干进行聚合并输出所聚合的数据集合。

7.根据权利要求6所述的装置，其特征在于，所述预处理模块还包括：

用于对获取的文本数据进行字符归一化、去除无用字符以及去除无用信息的模块。

8.根据权利要求6所述的装置，其特征在于，所述提取模块还包括：

用于基于问句模式提取预处理后的文本数据的句子主干的模块。

9.根据权利要求6所述的装置，其特征在于，所述聚合模块还包括：

用于采用simhash算法，计算所提取的句子主干之间的海明距离，按照预设规则将海明距离小于预设阈值的句子聚合到同一数据集合的模块。

10.根据权利要求6至9任一所述的装置，其特征在于，所述聚合模块还包括：

用于在将所提取的句子主干进行聚合前，生成预处理后的文本数据与所提取的句子主干数据的哈希对应关系的模块；以及

用于在将所提取的句子主干进行聚合后，将所聚合的数据集合内的各句子主干根据所述哈希对应关系的哈希值映射回预处理后的文本数据的模块。