CN113127611A

CN113127611A - 对问句语料进行处理的方法、装置以及存储介质

Info

Publication number: CN113127611A
Application number: CN201911420583.2A
Authority: CN
Inventors: 黄磊; 杨春勇; 靳丁南; 权圣
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-16
Anticipated expiration: 2039-12-31
Also published as: CN113127611B

Abstract

本申请公开了一种对问句语料进行处理的方法、装置以及存储介质。其中，该方法包括，通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中所述问句类别包含各自的根据问句语料的信息量确定的中心问句；根据第二问句语料集合中的问句语料与各个所述中心问句之间的相似度，确定所述第二问句语料集合中的问句语料的类别，并根据所述第二问句语料集合中的问句语料在所述多个问句类别的分布，确定各个所述中心问句的频次；以及从多个问句类别中确定中心问句的频次大于预设阈值的问句类别。

Description

对问句语料进行处理的方法、装置以及存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种对问句语料进行处理的方法、装置以及存储介质。

背景技术

随着互联网的飞速发展，网络信息量也不断增长，现有的问答系统已经包含了海量的问句。对于系统无法识别的用户问句，系统会将这些问句发送给运营人员进行归类。但是由于用户提问的信息量非常大，比较琐碎，并且很多琐碎的问句是一些无价值的问句，例如怎么办呢、电信网怎么不好等无价值的问句。因此对运营人员来说将这些问句进行归类的工作量很大，浪费运营人员时间，增加人工成本。

针对上述的现有技术中存在的由于用户提问的信息量非常大，比较琐碎，并且很多琐碎的问句是一些无价值的问句，因此对运营人员来说将这些问句进行归类的工作量很大，浪费运营人员时间，增加人工成本的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种对问句语料进行处理的方法、装置以及存储介质，以至少解决现有技术中存在的由于用户提问的信息量非常大，比较琐碎，并且很多琐碎的问句是一些无价值的问句，因此对运营人员来说将这些问句进行归类的工作量很大，浪费运营人员时间，增加人工成本的技术问题。

根据本公开实施例的一个方面，提供了一种对问句语料进行处理的方法，包括：通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中问句类别包含各自的根据问句语料的信息量确定的中心问句；根据第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次；以及从多个问句类别中确定中心问句的频次大于预设阈值的问句类别。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种对问句语料进行处理的装置，包括：第一确定模块，用于通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中问句类别包含各自的根据问句语料的信息量确定的中心问句；第二确定模块，用于根据第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次；以及第三确定模块，用于从多个问句类别中确定中心问句的频次大于预设阈值的问句类别。

根据本公开实施例的另一个方面，还提供了一种对问句语料进行处理的装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中问句类别包含各自的根据问句语料的信息量确定的中心问句；根据第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次；以及从多个问句类别中确定中心问句的频次大于预设阈值的问句类别。

在本公开实施例中，首先通过对第一问句语料集合进行聚类，确定基于问句语料的多个问句类别，然后通过计算第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并且根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次，最后确定中心问句的频次大于预设阈值的问句类别。从而可以快速准确的确定高频中心问句的问句类别，用以确定用户喜欢提问哪些问题，不再需要运营人员的进行归类，提高了工作效率，节约人力成本，并且可以有针对性的去回复用户的问题，从而提高用户的体验感。进而解决了现有技术中存在的由于用户提问的信息量非常大，比较琐碎，并且很多琐碎的问句是一些无价值的问句，因此对运营人员来说将这些问句进行归类的工作量很大，浪费运营人员时间，增加人工成本的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算机终端的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的对问句语料进行处理的方法的流程示意图；

图3是根据本公开实施例1的第一个方面所述的对问句语料进行处理的方法的示例性流程示意图；

图4是根据本公开实施例2所述的对问句语料进行处理的装置的示意图；以及

图5是根据本公开实施例3所述的对问句语料进行处理的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，还提供了一种对问句语料进行处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现对问句语料进行处理的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的对问句语料进行处理的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的对问句语料进行处理的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

根据本实施例的第一个方面，提供了一种对问句语料进行处理的方法。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中问句类别包含各自的根据问句语料的信息量确定的中心问句；

S204：根据第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次；

S206：从多个问句类别中确定中心问句的频次大于预设阈值的问句类别。

具体地，本实施例通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中问句类别包含各自的根据问句语料的信息量确定的中心问句(对应于步骤S202)。例如：对第一问句语料集合进行聚类是对第一问句语料集合中的问句语料的句向量进行聚类。其中句向量为问句的字向量与词向量拼接组成。

示例性的，问句“你喜欢北京吗”包含“你”、“喜”、“欢”、“北”、“京”、“吗”六个字以及“你”、“喜欢”、“北京”“吗”四个词。其中，字向量为：“你”字的字向量为(a1，b1)；“喜”字的字向量为(a2，b2)；“欢”字的字向量为(a3，b3)；“北”字的字向量为(a4，b4)；“京”字的字向量为(a5，b5)；“吗”字的字向量为(a6，b6)。并且，“你”这个词的词向量为(c1，d1，e1)；“喜欢”这个词的词向量为(c2，d2，e2)；“北京”这个词的词向量为(c3，d3，e3)；“吗”这个词的词向量为(c4，d4，e4)。

进一步地，将该问句的字向量和词向量进行拼接，得到句向量为(a1，b1，a2，b2，a3，b3，a4，b4，a5，b5，a6，b6，c1，d1，e1，c2，d2，e2，c3，d3，e3，c4，d4，e4)。然后对第一问句语料集合进行聚类，例如，第一问句语料集合有a条问句，第一问句语料集合的类别为a÷10+1，如果a÷10+1的计算结果小于3时取3。其中，a÷10+1中是根据大量的实验数量表明得出的最优值，同时根据具体的场景，也可以选取其他值。以a取值为100为例，那么第一问句语料集合的问句类别一共有11个类别。其中，问句类别包含各自的根据问句语料的信息量确定的中心问句。例如，11类问句类别包含11条中心问句，每一类都有自己的中心问句，第一类问句类别包含第一类中心问句，第二类问句类别包含第二类中心问句，以此类推，第十一类问句类别包含第十一类中心问句。

进一步地，根据第二语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别(对应于步骤S204)。其中，第二语料集合中的问句语料可以为第一语料集合中的问句语料，也可以为对第一语料集合中的问句语料进行筛选后得到的问句语料。例如：第二语料集合中有50条问句语料，根据上述步骤确定问句语料的多个问句类别，可以推算出6个类别，这6个类别分别对应有6个中心问句。然后计算出第二问句语料集合中的问句语料与各个中心问句的相似度值。例如，根据TF-IDF算法计算出第二问句语料集合中的问句语料与各个中心问句的相似度值，当然也可以通过AP算法或者其他合理的算法计算出第二问句语料集合中的问句语料与各个中心问句的相似度值。然后，利用相似度值确定第二问句语料集合中的问句语料的类别，并且根据根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次。

最后，从多个问句类别中确定中心问句的频次大于预设阈值的问句类别(对应于步骤S206)。例如，预设阈值为10，所确定的第一问句类别对应的中心问句的频次为13，第二问句类别对应的中心问句的频次为7，第三问句类别对应的中心问句的频次为4，第四问句类别对应的中心问句的频次为6，第五问句类别对应的中心问句的频次为12，第六问句类别对应的中心问句的频次为8。由于只有第一问句类别和第五问句类别对应的中心问句的频次大于预设阈值，因此从这6个问句类别中确定的中心问句的频次大于预设阈值的问句类别为第一问句类别和第五问句类别。

从而，首先通过对第一问句语料集合进行聚类，确定基于问句语料的多个问句类别，然后通过计算第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并且根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次，最后确定中心问句的频次大于预设阈值的问句类别。从而可以快速准确的确定高频中心问句的问句类别，用以确定用户喜欢提问哪些问题，不再需要运营人员的进行归类，提高了工作效率，节约人力成本，并且可以有针对性的去回复用户的问题，从而提高用户的体验感。进而解决了现有技术中存在的由于用户提问的信息量非常大，比较琐碎，并且很多琐碎的问句是一些无价值的问句，因此对运营人员来说将这些问句进行归类的工作量很大，浪费运营人员时间，增加人工成本的技术问题。

可选地，通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别的操作，包括：将第一问句语料集合中的问句语料按照信息量由大到小的顺序，选取预定比例的待聚类问句语料；以及对待聚类问句语料进行聚类操作，确定多个问句类别。

具体地，通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别的操作，需要对第一问句语料集合中的问句语料按照信息量由大到小进行排序，选取预定比例的待聚类问句语料。例如，第一问句语料集合中有10条问句语料，信息量值依次为9、8、4、2、10、1、3、5、7以及6。选取预定比例的待聚类问句语料，例如根据黄金分割比，选取信息量值在前61.8％的待聚类问句语料，即选取信息量值为10、9、8、7、6以及5的问句语料作为待聚类的问句语料，当然也可以选取其他合适的比例的待聚类问句语料。然后对待聚类问句语料进行聚类操作，得到多个问句类别。

从而，根据信息量值的大小，选取一定比例的待聚类问句语料，过滤掉信息量值低于预定比例的问句语料。从而可以将第一问句语料集合中一些无价值的问句语料过滤掉，只对有价值的待聚类问句语料进行聚类，节约时间成本，提高聚类效率。

可选地，还包括按照以下操作，确定第一问句语料集合中的问句语料的信息量：确定第一问句语料集合中的问句语料的各个词语的词频；以及根据所确定的各个词语的词频，确定第一问句语料集合中的问句语料的信息量。

具体地，将第一问句语料集合中的问句语料按照信息量由大到小的顺序，需要确定第一问句语料集合中的问句语料的信息量。首先确定第一问句语料集合中的问句语料的中各个词语的词频，然后根据所确定的各个词语的词频，确定第一问句语料集合中的问句语料的的信息量。例如，这里有一个句子“我爱北京天安门，天安门上太阳升”分词后和对应的词频数为分别为‘我’：1，‘爱’：1，‘北京’：1，‘天安门’：2，‘上’：1，‘太阳’：1，‘升’：1。然后计算句子信息量的公式为例如一个句子有n个词，则它的词频为b1，b2，b3...bn。则句子的信息量为b1×e^-0.2*1+b2×e^-0.2*2+b3×e^-0.2*3...+bn×e-0.2*n。通过这个公式会得到“我爱北京天安门，天安门上太阳升”这个句子的信息量为1×e^-0.2*1+1×e^-0.2*2+1×e^-0.2*3+2×e^-0.2*4+1×e^-0.2*5+1×e^-0.2*6+1×e^-0.2*7＝16.146254627672。

从而通过获取第一问句语料中各个词语的词频，并根据该词频计算出信息量值，以便通过将第一问句语料集合中的问句语料按照信息量大小信息排序，过滤掉信息量低于预定比例的无价值的问句语料。

可选地，根据第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别的操作，还包括：确定第二问句语料集合中的问句语料与各个问句类别的中心问句的相似度；以及将相似度最大的中心问句的问句类别确定为第二问句语料集合中的问句语料的问句类别。

具体地，根据第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别的操作，首先需要确定第二问句语料集合中的问句语料与各个问句类别的中心问句的相似度值，例如第二问句语料的相似度值为1.2，各个问句类别的中心问句的相似度值为2，1，7，8等。然后将相似度最大的中心问句的问句类别确定为第二问句语料的问句类别，所以第二问句语料的类别为中心问句的相似度值为1的问句类别。从而，可以快速准确地将相似度值近似的问句归为一类。

可选地，输出中心问句的频次大于预设阈值的问句类别以及问句类别中所包含的问句语料。

具体地，第二问句语料集合有50条问句语料，进行聚合后有6个类别，根据6个类别的中心问句确定50条问句语料在6个问句类别的分布，确定6个类别的中心问句的频次。例如预设阈值为10，所确定的第一问句类别对应的中心问句的频次为13，第二问句类别对应的中心问句的频次为7，第三问句类别对应的中心问句的频次为4，第四问句类别对应的中心问句的频次为6，第五问句类别对应的中心问句的频次为12，第六问句类别对应的中心问句的频次为8。由于只有第一问句类别和第五问句类别对应的中心问句的频次大于预设阈值，因此从这6个问句类别中确定的中心问句的频次大于预设阈值的问句类别为第一问句类别和第五问句类别。从而可以有针对性的去回复用户的问题，提高用户的体验感。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质104。所述存储介质104包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

从而根据本实施例，首先通过对第一问句语料集合进行聚类，确定基于问句语料的多个问句类别，然后通过计算第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并且根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次，最后确定中心问句的频次大于预设阈值的问句类别。从而可以快速准确的确定高频中心问句的问句类别，用以确定用户喜欢提问哪些问题，不再需要运营人员的进行归类，提高了工作效率，节约人力成本，并且可以有针对性的去回复用户的问题，从而提高用户的体验感。进而解决了现有技术中存在的由于用户提问的信息量非常大，比较琐碎，并且很多琐碎的问句是一些无价值的问句，因此对运营人员来说将这些问句进行归类的工作量很大，浪费运营人员时间，增加人工成本的技术问题。

此外，本实施例参考图3所示，按照顺序进行描述。其中包括5个步骤，下面是对每个步骤进行具体阐述：

(1)过滤信息量少的干扰问句，这里过滤方法为首先统计所有句子里面每个词对应的词频，假设这里有2个句子‘我爱北京天安门’，‘天安门上太阳升’，分词后和对应的词频数为分别为‘我’：1，‘爱’：1，‘北京’：1，‘天安门’：2，‘上’：1，‘太阳’：1，‘升’：1，此时有一种计算信息量句子信息量的公式为假设一个句子有3个词，则它的词频为b1,b2,b3,则句子的信息量为b1×e^-0.2*1+b2×e^-0.2*2+b3×e^-0.2*3，通过这个公式会得到每个句子的信息量额值，然后对句子进行排序，通过黄金分割点，取排名靠前61.8％位置的句子，此时过滤掉了38.2％的句子。

(2)对句子进行聚类，此时假设句子总数为a，则聚类的数量为a÷10+1，当聚类的数量的计算结果小于3时取3，此时句子的句向量为句子的词向量与字向量拼接，通过对句向量进行聚类。

(3)每个类聚好类的句子进行信息量分数计算，类似步骤1，选取出每个类中分数最大的句子作为中心句，这里是通过一个假设得到假设得到的，即认为聚类中的每个问句都是对聚类所代表的主要语义的投票，而聚类的中心问句能够代表这个聚类的主要语义，从而“大的聚类中心问句约等于高频标准问题”，并且我们还认为每个聚类的主要语义一般是不重复的，这就保证了多样性，这种方法通过实际项目得到了验证。

(4)此时将原始数据中的每一条问句与聚类的中心句逐一进行相似度计算，目的是为了去掉边缘数据，采用通用的业界通用的相似度算法进行比较可采用TFIDF方法进行计算算出一个相似值，然后对每个句子进行比较，选取最相似的句子，当与某个中心句最相似时，则该中心句的频次加1，同时将该相似问句归为此中心问句的同类问句。

(5)对每个中心句的频次值进行排序，这里设置一个阈值，按照从大到小输出大于此阈值的中心句以及同类问句。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图4示出了根据本实施例所述的对问句语料进行处理的装置400，该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示，该装置400包括：第一确定模块410，用于通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中问句类别包含各自的根据问句语料的信息量确定的中心问句；第二确定模块420，用于根据第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次；以及第三确定模块430，从多个问句类别中用于确定中心问句的频次大于预设阈值的问句类别。

可选地，第一确定模块410，包括：选取子模块，用于将第一问句语料集合中的问句语料按照信息量由大到小的顺序，选取预定比例的待聚类问句语料；以及聚类子模块，用于对待聚类问句语料进行聚类操作，确定多个问句类别。

可选地，该装置400还包括按照以下模块，确定第一问句语料集合中的问句语料的信息量：第一确定子模块，用于确定第一问句语料集合中的问句语料中各个词语的词频；以及第二确定子模块，用于根据根据所确定的各个词语的词频，确定第一问句语料集合中的问句语料的信息量。

可选地，第二确定模块420，还包括：确定相似度子模块，用于确定第二问句语料集合中的第二问句语料与各个问句类别的中心问句的相似度；以及确定问句类别子模块，用于将相似度最大的中心问句的问句类别确定为第二问句语料的问句类别。

可选地，该装置400还包括：输出模块，用于输出所确定的中心问句的频次大于预设阈值的问句类别以及问句类别中所包含的问句语料。

从而根据本实施例，通过对问句语料进行处理的装置400，首先对第一问句语料集合进行聚类，确定基于问句语料的多个问句类别，然后通过计算第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并且根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次，最后确定中心问句的频次大于预设阈值的问句类别。从而可以快速准确的确定高频中心问句的问句类别，用以确定用户喜欢提问哪些问题，不再需要运营人员的进行归类，提高了工作效率，节约人力成本，并且可以有针对性的去回复用户的问题，从而提高用户的体验感。进而解决了现有技术中存在的由于用户提问的信息量非常大，比较琐碎，并且很多琐碎的问句是一些无价值的问句，因此对运营人员来说将这些问句进行归类的工作量很大，浪费运营人员时间，增加人工成本的技术问题。

实施例3

图5示出了根据本实施例所述的对问句语料进行处理的装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：处理器510；以及存储器520，与处理器510连接，用于为处理器510提供处理以下处理步骤的指令：通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中问句类别包含各自的根据问句语料的信息量确定的中心问句；根据第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次；以及从多个问句类别中确定中心问句的频次大于预设阈值的问句类别。

可选地，存储器520还用于为处理器510提供处理以下处理步骤的指令：按照以下操作，确定第一问句语料集合中的第一问句语料的信息量：确定第一问句语料集合中的问句语料中各个词语的词频；以及根据所确定的各个词语的词频，确定第一问句语料集合中的问句语料的信息量。

可选地，存储器520还用于为处理器510提供处理以下处理步骤的指令：输出所确定的中心问句的频次大于预设阈值的问句类别以及问句类别中所包含的问句语料。

从而根据本实施例，通过对问句语料进行处理的装置500，首先对第一问句语料集合进行聚类，确定基于问句语料的多个问句类别，然后通过计算第二问句语料集合中的问句语料与各个中心问句之间的相似度，确定第二问句语料集合中的问句语料的类别，并且根据第二问句语料集合中的问句语料在多个问句类别的分布，确定各个中心问句的频次，最后确定中心问句的频次大于预设阈值的问句类别。从而可以快速准确的确定高频中心问句的问句类别，用以确定用户喜欢提问哪些问题，不再需要运营人员的进行归类，提高了工作效率，节约人力成本，并且可以有针对性的去回复用户的问题，从而提高用户的体验感。进而解决了现有技术中存在的由于用户提问的信息量非常大，比较琐碎，并且很多琐碎的问句是一些无价值的问句，因此对运营人员来说将这些问句进行归类的工作量很大，浪费运营人员时间，增加人工成本的技术问题。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对问句语料进行处理的方法，其特征在于，包括：

通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中所述问句类别包含各自的根据问句语料的信息量确定的中心问句；

根据第二问句语料集合中的问句语料与各个所述中心问句之间的相似度，确定所述第二问句语料集合中的问句语料的类别，并根据所述第二问句语料集合中的问句语料在所述多个问句类别的分布，确定各个所述中心问句的频次；以及

从所述多个问句类别中确定中心问句的频次大于预设阈值的问句类别。

2.根据权利要求1所述的方法，其特征在于，通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别的操作，包括：

将所述第一问句语料集合中的问句语料按照信息量由大到小的顺序，选取预定比例的待聚类问句语料；以及

对所述待聚类问句语料进行聚类操作，确定所述多个问句类别。

3.根据权利要求2所述的方法，其特征在于，还包括按照以下操作，确定所述第一问句语料集合中的问句语料的信息量：

确定所述第一问句语料集合中的问句语料中各个词语的词频；以及

根据所确定的各个词语的词频，确定所述第一问句语料集合中的问句语料的信息量。

4.根据权利要求1所述的方法，其特征在于，根据第二问句语料集合中的问句语料与各个所述中心问句之间的相似度，确定所述第二问句语料集合中的问句语料的类别的操作，还包括：

确定所述第二问句语料集合中的问句语料与各个问句类别的中心问句的相似度；以及

将相似度最大的中心问句的问句类别确定为所述第二问句语料集合中的问句语料的问句类别。

5.根据权利要求1所述的方法，其特征在于，还包括：输出所确定的中心问句的频次大于所述预设阈值的所述问句类别以及所述问句类别中所包含的问句语料。

6.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至5中任意一项所述的方法。

7.一种对问句语料进行处理的装置，其特征在于，包括：

第一确定模块，用于通过对第一问句语料集合进行聚类操作，确定基于问句语料的多个问句类别，其中所述问句类别包含各自的根据问句语料的信息量确定的中心问句；

第二确定模块，用于根据第二问句语料集合中的问句语料与各个所述中心问句之间的相似度，确定所述第二问句语料集合中的问句语料的类别，并根据所述第二问句语料集合中的问句语料在所述多个问句类别的分布，确定各个所述中心问句的频次；以及

第三确定模块，用于从所述多个问句类别中确定中心问句的频次大于预设阈值的问句类别。

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，包括：

选取子模块，用于将所述第一问句语料集合中的问句语料按照信息量由大到小的顺序，选取预定比例的待聚类问句语料；以及

聚类子模块，用于对所述待聚类问句语料进行聚类操作，确定所述多个问句类别。

9.根据权利要求8所述的装置，其特征在于，还包括按照以下模块，确定所述第一问句语料集合中的问句语料的信息量：

第四确定模块，用于确定所述第一问句语料集合中的问句语料中各个词语的词频；以及

第五确定模块，用于根据所确定的各个词语的词频，确定所述第一问句语料集合中的问句语料的信息量。

10.一种对问句语料进行处理的装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：