CN110188180A

CN110188180A - 相似问题的确定方法、装置、电子设备及可读存储介质

Info

Publication number: CN110188180A
Application number: CN201910470095.6A
Authority: CN
Inventors: 王卓然; 亓超; 马宇驰; 郭伟; 陈华荣
Original assignee: Triangle Animal (beijing) Technology Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-08-30
Anticipated expiration: 2039-05-31
Also published as: CN110188180B

Abstract

本申请提供了一种相似问题的确定方法、装置、电子设备及计算机可读存储介质，涉及自然语言处理领域。该方法包括：当获取到用户提交的问题的文本时，按照预设规则将文本划分为多个子句，然后从预设的通用表达片段库中，确定出与各个子句相似度最高的多个通用表达片段，再基于多个通用表达片段，从预设的问题数据库中确定出与问题相似度最高的目标问题。本申请避免了散词对计算相似度的影响，提高了相似度计算的准确率，进而提高了相似问题的识别率。同时，预设的通用表达片段可以自动生成，不需要人工维护词表，大大降低了系统运营的工作量，且成本低。

Description

相似问题的确定方法、装置、电子设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，具体而言，本申请涉及一种相似问题的确定方法、装置、电子设备及计算机可读存储介质。

背景技术

问答系统(Question Answering System，QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。

问答系统通常包括FAQ(Frequently Asked Questions，常见问题解答)，FAQ是当前网络上提供在线帮助的主要手段，通过事先组织好一些可能的常见问答对，发布在网页上为用户提供咨询服务。但是这种FAQ存在一定的问题：FAQ中存在用户需要的某个问答对，但是用户没有找到，于是自己重新提了一个新问题，这样就导致问题处理效率较低。

针对上述问题，现有的问答系统中可以进行FAQ相似度的计算，来判断已有的问题与用户提出的问题是否相近或相似，甚至相同，如果是，则将对应的问题的答案回复给用户。

但是，这种方法也存在以下两种问题：

第一，相似度计算是建立在分词基础上，现有的分词方式是做词与词的对齐计算，而散词(比如“的”、“应该”、“可能”)对相似度的计算影响较大，比如，FAQ中的问题为“我想打新股怎么操作”，而用户的问题为“怎么打新”，二者只是基于“怎么”、“打”来计算相似度(其它都是散词)，导致相似度较低；第二，现在相似度的计算严重依赖于词表，所以需要维护很多同义词、扩展词、必有词，因此，维护词表对于系统运营的工作量特别大，且成本高。

发明内容

本申请提供了一种相似问题的确定方法、装置、电子设备及计算机可读存储介质，可以解决问答系统中，现有技术对用户提交的问题识别率较低，且词表维护工作量大、成本高的问题。所述技术方案如下：

第一方面，提供了一种相似问题的确定方法，该方法包括：

当获取到用户提交的问题的文本时，按照预设规则将所述文本划分为多个子句；

从预设的通用表达片段库中，确定出与各个子句分别对应的相似度最高的通用表达片段；

从预置的问题数据库中，确定出与所述多个通用表达片段匹配度最高的问题，作为用户提交的问题的相似问题。

优选地，所述按照预设规则将所述文本划分为多个子句的步骤，包括：

基于符号、字符、连词中的至少一种，将所述文本划分为多个子句。

优选地，所述预设的通用表达片段库通过如下方式生成：

从预置的问答系统中获取多个问题信息；

对多个问题信息进行过滤，得到过滤后的多个问题文本；

按照预设规则将过滤后的任一问题文本划分成多个子句；

统计所有子句在多个问题文本中出现的频率，将频率大于等于预设阈值的子句作为通用表达片段。

优选地，所述问题信息至少包括以下一种形式：文本、图片，以及URL；

所述对多个问题信息进行过滤，得到过滤后的多个问题文本的步骤，包括：

将包括了图片，和/或URL形式的问题信息进行丢弃，并将仅包括文本形式的问题信息进行保存。

优选地，所述方法还包括：

识别所述通用表达片段是否为实体；

若是，则将所述通用表达片段丢弃；若否，则将所述通用表达片段存储至所述通用表达片段库。

第二方面，提供了一种相似问题的确定装置，该装置包括：

划分模块，用于当获取到用户提交的问题的文本时，按照预设规则将所述文本划分为多个子句；

第一匹配模块，用于从预设的通用表达片段库中，确定出与各个子句分别对应的相似度最高的通用表达片段；

第二匹配模块，用于从预置的问题数据库中，确定出与所述多个通用表达片段匹配度最高的问题，作为用户提交的问题的相似问题。

优选地，所述划分模块具体用于：

优选地，所述装置还包括生成模块，用于生成所述预设的通用表达片段库；

所述生成模块包括：

获取子模块，用于从预置的问答系统中获取多个问题信息；

过滤子模块，用于对多个问题信息进行过滤，得到过滤后的多个问题文本；

划分子模块，用于按照预设规则将过滤后的任一问题文本划分成多个子句；

统计子模块，用于统计所有子句在多个问题文本中出现的频率；

确定子模块，用于将频率大于等于预设阈值的子句作为通用表达片段。

所述过滤子模块具体用于：

优选地，所述装置还包括：

识别模块，用于识别所述通用表达片段是否为实体；

处理模块，用于将所述通用表达片段丢弃，或，将所述通用表达片段存储至所述通用表达片段库。

第三方面，提供了一种计算设备，包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请的第一方面所示的相似问题的确定方法对应的操作。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的相似问题的确定方法。

本申请提供的技术方案带来的有益效果是：

当获取到用户提交的问题的文本时，按照预设规则将文本划分为多个子句，然后从预设的通用表达片段库中，确定出与各个子句相似度最高的多个通用表达片段，再基于多个通用表达片段，从预设的问题数据库中确定出与问题相似度最高的目标问题。这样，划分的多个子句中包含了散词，而将子句直接与通用表达片段进行相似度计算，就不需要单独针对散词进行相似度的计算，从而避免了散词对计算相似度的影响，提高了相似度计算的准确率，进而提高了相似问题的识别率。同时，预设的通用表达片段可以自动生成，不需要人工维护词表，大大降低了系统运营的工作量，且成本低。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请一个实施例提供的一种相似问题的确定方法的流程示意图；

图2为本申请又一实施例提供的一种相似问题的确定装置的结构示意图；

图3为本申请又一实施例提供的一种相似问题的确定的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的相似问题的确定方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

在一个实施例中提供了一种相似问题的确定方法，如图1所示，该方法包括：

步骤S101，当获取到用户提交的问题的文本时，按照预设规则将文本划分为多个子句；

本发明实施例可以应用于设置有FAQ的系统中，比如问答系统。在实际应用中，系统中已经包括了多个常见的问题和对应的答案，用户可以在该系统中搜索自己需要的问题、答案，也可以在该系统中提出新的问题，其它用户可以对该新的问题进行解答，系统也可以从已有的问题中匹配出与该新的问题相似的问题，如果系统匹配出的问题，与用户提出的新的问题的相似度大于等于相似度阈值，就可以将匹配出的问题对应的答案回复给用户。

通常来说，用户提交的问题是一整段话，包括很多句话，因此，在本发明实施例中，当系统接收到用户提交的新的问题，并获取到新的问题的文本后，需要按照预设规则将文本划分为多个子句。

在本发明一种优选实施例中，按照预设规则将文本划分为多个子句的步骤，包括：

基于符号、字符、连词中的至少一种，将文本划分为多个子句。

其中，符号可以包括标点符号和特殊符号，字符可以包括普通字符和特殊字符，连词则可以包括中文连词和/或英文连词。具体地，在对文本进行划分的时候，可以将两个符号之间的一句话确定为一个子句，比如，用户的提问为“如何在系统中查看自己的提问？如何查看别人对我的问题的答复？”，那么，拆分后的子句为“如何在系统中查看自己的提问”和“如何查看别人对我的问题的答复”。或者，也可以将一个符号左边的文本和右边的文本作为子句，再或者基于符号、字符、连词的组合确定出子句也是可以的，本领域技术人员可以根据实际需求来调整确定子句的方法，本发明实施例对此不作限制。当然，除了基于符号、字符、连词中的至少一种来确定子句外，还可以基于其它类型的词语，甚至其它的方法来确定子句，本发明实施例对此也不作限制。

步骤S102，从预设的通用表达片段库中，确定出与各个子句分别对应的相似度最高的通用表达片段；

在实际应用中，会预先在系统中设置一个通用表达片段库，在得到多个子句后，可以从该通用表达片段库中匹配出与各个子句分别对应的相似度最高的通用表达片段。比如，通用表达片段库中包括一条通用表达片段为“如何查看自己的提问”，与用户的提问“如何在系统中查看自己的问题”的相似度最高，因此，将“如何查看自己的提问”作为与“如何在系统中查看自己的问题”对应的通用表达片段。

在本发明一种优选实施例中，预设的通用表达片段库通过如下方式生成：

从预置的问答系统中获取多个问题信息；

对多个问题信息进行过滤，得到过滤后的多个问题文本；

按照预设规则将过滤后的任一问题文本划分成多个子句；

比如，预置的问答系统可以是百度知道、百度问答等，本系统可以直接从这些问答系统中抓取问题信息，问题信息可以包括问题以及对应的答案，其中，一个问题可以对应一个或多个答案(在实际应用中，多个用户可能会对同一个问题进行回答)。

进一步，问题信息至少包括以下一种形式：文本、图片，以及URL。比如，某个用户在提问的时候首先用文本描述了问题的内容，然后附带了图片，和/或URL，甚至有的问题仅仅只是图片和/或URL，这种形式的提问通常是需要将文字和图片、URL结合起来才能清楚地确定用户的问题，而机器识别针对这种形式的问题的识别率是比较低的，所以，在本发明实施例中，在抓取到多个问题以及对应的答案后，需要对多个问题信息进行过滤，得到过滤后的问题文本，然后于按照步骤S101中的预设规则将任一文本划分了多个子句，然后统计出各个子句在所有问题文本中出现的频率，如果任一子句出现的频率大于等于预设阈值，那么就可以将该子句作为通用表达片段。

其中，对多个问题信息进行过滤，得到过滤后的多个问题文本的步骤，包括：将包括了图片，和/或URL形式的问题信息进行丢弃，并将仅包括文本形式的问题信息进行保存。

也就是说，在获取任一问题信息的时候，如果该问题信息中除了包括文本之外，还包括图片或URL中的任意一种，那么就将该问题信息丢弃，这样就可以从抓取到的所有问题信息中得到仅包括文本形式的问题信息。

需要说明的是，问题信息除了可以包括文本、图片、URL中的至少一种，还可以包括其它的内容，本发明实施例对此不作限制。

方法还包括：

识别通用表达片段是否为实体；

若是，则将通用表达片段丢弃；若否，则将通用表达片段存储至通用表达片段库。

具体而言，确定出的通用表达片段后，还需要识别该通用表达片段是否为实体。

其中，命名实体识别(Named Entity Recognition，NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

举个简单的例子，在句子“小明早上8点去学校上课。”中，对其进行命名实体识别，应该能提取信息“人名：小明，时间：早上8点，地点：学校”。

应用于本发明实施例，如果确定出来的通用表达片段为实体，那么就将该通用表达片段丢弃，如果不是，则将该通用表达片段存储至通用表达片段库。

进一步，在实际应用中，也可以将确定出来的通用表达片段直接存储至通用表达片段库，然后每隔一定的时间间隔(比如1天、3天等)对整个通用表达片段库进行实体识别，将其中的实体进行删除。当然，还可以通过其它方式来过滤掉通用表达片段中的实体，本发明实施例对此不作限制。

需要说明的是，通用表达片段并不只是一个关键词，也可以是一个短句或句子，比如，“我想打新股怎么操作”可以是一个通用表达片段，“怎么打新”也可以是一个通用表达片段。也就是说，在本发明实施例中，不管一个子句是长句还是短句，都可以作为一个通用表达片段。

步骤S103，从预置的问题数据库中，确定出与多个通用表达片段匹配度最高的问题，作为用户提交的问题的相似问题。

具体地，可以将预置的问题数据库中，包含多个通用表达片段中数量最多的问题，作为用户提交的问题的相似问题。比如，用户提交的问题确定出了4个通用表达片段A、B、C、D，而预置的问题数据库中，某个问题也包括4个通用表达片段A'、B'、C'、D'，而且各个通用表达片段分别与用户提交的问题的4个通用表达片段都具有较高的相似度，且超过了相似度阈值，其中，A与A'的相似度为93.4％，B与B'的相似度为95％，C与C'的相似度为89.2％，D与D'的相似度为97.8％，相似度阈值为90％，那么就可以将该问题作为用户提交的问题的相似问题。

或者，用户提交的问题确定出了4个通用表达片段A、B、C、D，而预置的问题数据库中，某个问题也包括4个通用表达片段A'、B'、C'、E，其中，A与A'的相似度为93.4％，B与B'的相似度为95％，C与C'的相似度为94.6％，这样，也可以将包括通用表达片段A'、B'、C'、E的问题作为用户提交的问题的相似问题。

当然，其它从预置的问题数据库中，确定出与多个通用表达片段匹配度最高的问题，作为用户提交的问题的相似问题的方式也适用于本发明实施例，在实际应用中可以根据实际需求进行调整，本发明实施例对此不作限制。

图2为本申请又一实施例提供的一种相似问题的确定装置的结构示意图，如图2所示，本实施例的装置可以包括：

划分模块201，用于当获取到用户提交的问题的文本时，按照预设规则将文本划分为多个子句；

第一匹配模块202，用于从预设的通用表达片段库中，确定出与各个子句分别对应的相似度最高的通用表达片段；

第二匹配模块203，用于从预置的问题数据库中，确定出与多个通用表达片段匹配度最高的问题，作为用户提交的问题的相似问题。

在本发明一种优选实施例中，划分模块具体用于：

在本发明一种优选实施例中，装置还包括生成模块，用于生成预设的通用表达片段库；

生成模块包括：

获取子模块，用于从预置的问答系统中获取多个问题信息；

在本发明一种优选实施例中，问题信息至少包括以下一种形式：文本、图片，以及URL；

过滤子模块具体用于：

在本发明一种优选实施例中，装置还包括：

识别模块，用于识别通用表达片段是否为实体；

处理模块，用于将通用表达片段丢弃，或，将通用表达片段存储至通用表达片段库。

本实施例的相似问题的确定装置可执行本申请第一个实施例所示的相似问题的确定方法，其实现原理相类似，此处不再赘述。

本申请的又一实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：当获取到用户提交的问题的文本时，按照预设规则将文本划分为多个子句，然后从预设的通用表达片段库中，确定出与各个子句相似度最高的多个通用表达片段，再基于多个通用表达片段，从预设的问题数据库中确定出与问题相似度最高的目标问题。这样，划分的多个子句中包含了散词，而将子句直接与通用表达片段进行相似度计算，就不需要单独针对散词进行相似度的计算，从而避免了散词对计算相似度的影响，提高了相似度计算的准确率，进而提高了相似问题的识别率。同时，预设的通用表达片段可以自动生成，不需要人工维护词表，大大降低了系统运营的工作量，且成本低。

在一个可选实施例中提供了一种电子设备，如图3所示，图3所示的电子设备3000包括：处理器3001和存储器3003。其中，处理器3001和存储器3003相连，如通过总线3002相连。可选地，电子设备3000还可以包括收发器3004。需要说明的是，实际应用中收发器3004不限于一个，该电子设备3000的结构并不构成对本申请实施例的限定。

处理器3001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器3001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线3002可包括一通路，在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器3003用于存储执行本申请方案的应用程序代码，并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，当获取到用户提交的问题的文本时，按照预设规则将文本划分为多个子句，然后从预设的通用表达片段库中，确定出与各个子句相似度最高的多个通用表达片段，再基于多个通用表达片段，从预设的问题数据库中确定出与问题相似度最高的目标问题。这样，划分的多个子句中包含了散词，而将子句直接与通用表达片段进行相似度计算，就不需要单独针对散词进行相似度的计算，从而避免了散词对计算相似度的影响，提高了相似度计算的准确率，进而提高了相似问题的识别率。同时，预设的通用表达片段可以自动生成，不需要人工维护词表，大大降低了系统运营的工作量，且成本低。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种相似问题的确定方法，其特征在于，包括：

2.根据权利要求1所述的相似问题的确定方法，其特征在于，所述按照预设规则将所述文本划分为多个子句的步骤，包括：

3.根据权利要求1或2所述的相似问题的确定方法，其特征在于，所述预设的通用表达片段库通过如下方式生成：

从预置的问答系统中获取多个问题信息；

对多个问题信息进行过滤，得到过滤后的多个问题文本；

按照预设规则将过滤后的任一问题文本划分成多个子句；

4.根据权利要求3所述的相似问题的确定方法，其特征在于，所述问题信息至少包括以下一种形式：文本、图片，以及URL；

5.根据权利要求3所述的相似问题的确定方法，其特征在于，所述方法还包括：

识别所述通用表达片段是否为实体；

6.一种相似问题的确定装置，其特征在于，包括：

7.根据权利要求6所述的相似问题的确定装置，其特征在于，所述划分模块具体用于：

8.根据权利要求6或7所述的相似问题的确定装置，其特征在于，所述装置还包括生成模块，用于生成所述预设的通用表达片段库；

所述生成模块包括：

获取子模块，用于从预置的问答系统中获取多个问题信息；

9.根据权利要求8所述的相似问题的确定装置，其特征在于，所述问题信息至少包括以下一种形式：文本、图片，以及URL；

所述过滤子模块具体用于：

10.根据权利要求8所述的相似问题的确定装置，其特征在于，所述装置还包括：

识别模块，用于识别所述通用表达片段是否为实体；

11.一种电子设备，其特征在于，其包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述权利要求1-5中任一项所述的相似问题的确定方法。

12.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1-5中任一项所述的相似问题的确定方法。