CN106782516A

CN106782516A - 语料分类方法及装置

Info

Publication number: CN106782516A
Application number: CN201611027175.7A
Authority: CN
Inventors: 张勇
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2016-11-17
Filing date: 2016-11-17
Publication date: 2017-05-31
Anticipated expiration: 2036-11-17
Also published as: CN106782516B

Abstract

本发明是关于一种语料分类方法及装置，其中，方法包括：从语料数据库中提取出包含性别特证词的第一语料；将所述第一语料进行性别分类；根据接收到的分类标记命令，对所述语料数据库中的第二语料进行性别分类标记，其中，所述第二语料不同于所述第一语料；利用标记后的所述第二语料和libshortext)算法进行训练，得到性别分类模型；使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类，以得到所述语料数据库对应的性别分类结果。通过该技术方案，可以在保证语料分类的准确率的基础上，提高语料分类的效率，减少用户操作，从而提升用户的使用体验。

Description

语料分类方法及装置

技术领域

本发明涉及语音分类技术领域，尤其涉及一种语料分类方法及装置。

背景技术

目前，如果需要对语料库中的语料进行分类，需要人工进行标注，这样，在语料库中的语料较多时，用户操作时间则会很久，用户体验不佳。

发明内容

本发明实施例提供一种语料分类方法及装置，用以实现在保证语料分类的准确率的基础上，提高语料分类的效率，减少用户操作，从而提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语料分类方法，包括：

从语料数据库中提取出包含性别特证词的第一语料；

将所述第一语料进行性别分类；

根据接收到的分类标记命令，对所述语料数据库中的第二语料进行性别分类标记，其中，所述第二语料不同于所述第一语料；

利用标记后的所述第二语料和libshortext(支持向量机短分类)算法进行训练，得到性别分类模型；

使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类，以得到所述语料数据库对应的性别分类结果。

在该实施例中，通过上述训练方法得到的性别分类模型，其特征词和分类算法的选择都与性别有关，具有性别的一致性，并且，通过这种方法对语料数据库进行性别分类，在保证语料分类的准确率的基础上，提高语料分类的效率，减少用户操作，从而提升用户的使用体验。

在一个实施例中，所述利用标记后的所述第二语料和libshortext算法进行训练，得到性别分类模型，包括：

根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化，得到第一向量数据；

根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化，得到第二向量数据；

根据PLDA(并行隐含狄利克雷分布)算法将所述第二语料中的每个语料数据进行向量转化，得到第三向量数据；

将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接，得到第四向量数据；

将所述第四向量数据作为所述libshortext算法的输入向量，使用所述libshortext算法进行训练，得到所述性别分类模型。

在该实施例中，将第二语料分别采用文本向量化算法、按照预设性别特征词和采用PLDA算法模型进行向量转化，并将三个转化后得到的向量数据进行拼接，将拼接后得到的向量数据作为libshortext算法的输入向量，进而得到性别分类模型，这样，可以使得得到的性别分类模型在进行语料分类时，分类准确性较高。

在一个实施例中，所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接，得到第四向量数据，包括：

分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接，得到所述第四向量数据。

在该实施例中，每一个语料数据对应一个第一向量数据、一个第二向量数据和一个第三向量数据，将这三个向量数据进行拼接即得到第四向量数据。

在一个实施例中，所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类，以得到所述语料数据库对应的性别分类结果，包括：

根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化，得到第五向量数据；

根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化，得到第六向量数据；

根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化，得到第七向量数据；

将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接，得到第八向量数据；

利用所述性别分类模型对所述第八向量数据进行分类，以得到所述语料数据库对应的性别分类结果。

在该实施例中，在训练得到性别分类模型后，即可通过性别分类模型对语料数据库中未进行分类的剩余语料进行分类。这样，通过性别分类模型对语料进行性别分类，可以在保证语料分类的准确率的基础上，提高语料分类的效率，减少用户操作，从而提升用户的使用体验。

在一个实施例中，所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接，得到第八向量数据，包括：

分别将所述第五向量数据、所述第六向量数据和所述第七向量数据中同一语料数据对应的向量数据进行拼接，得到所述第八向量数据。

根据本发明实施例的第二方面，提供一种语料分类装置，包括：

提取模块，用于从语料数据库中提取出包含性别特证词的第一语料；

第一分类模块，用于将所述第一语料进行性别分类；

标记模块，用于根据接收到的分类标记命令，对所述语料数据库中的第二语料进行性别分类标记，其中，所述第二语料不同于所述第一语料；

训练模块，用于利用标记后的所述第二语料和libshortext算法进行训练，得到性别分类模型；

第二分类模块，用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类，以得到所述语料数据库对应的性别分类结果。

在一个实施例中，所述训练模块包括：

第一转化子模块，用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化，得到第一向量数据；

第二转化子模块，用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化，得到第二向量数据；

第三转化子模块，用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化，得到第三向量数据；

第一拼接子模块，用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接，得到第四向量数据；

第一训练子模块，用于将所述第四向量数据作为所述libshortext算法的输入向量，使用所述libshortext算法进行训练，得到所述性别分类模型。

在一个实施例中，所述第一拼接子模块用于：

在一个实施例中，所述第二分类模块包括：

第四转化子模块，用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化，得到第五向量数据；

第五转化子模块，用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化，得到第六向量数据；

第六转化子模块，用于根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化，得到第七向量数据；

第二拼接子模块，用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接，得到第八向量数据；

第二分类子模块，用于利用所述性别分类模型对所述第八向量数据进行分类，以得到所述语料数据库对应的性别分类结果。

在一个实施例中，所述第二拼接子模块用于：

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语料分类方法的流程图。

图2是根据一示例性实施例示出的另一种语料分类方法的流程图。

图3是根据一示例性实施例示出的又一种语料分类方法的流程图。

图4是根据一示例性实施例示出的一种语料分类方法中步骤S105的流程图。

图5是根据一示例性实施例示出的又一种语料分类方法中步骤S105的流程图。

图6是根据一示例性实施例示出的一种语料分类装置的框图。

图7是根据一示例性实施例示出的一种语料分类装置中训练模块的框图。

图8是根据一示例性实施例示出的一种语料分类装置中第二分类模块的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语料分类方法的流程图。该语料分类方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音识别功能的设备。如图1所示，该方法包括步骤S101-S105：

在步骤S101中，从语料数据库中提取出包含性别特证词的第一语料；

在步骤S102中，将第一语料进行性别分类；

首先，基于特征词抽取，或者说基于规则抽取，如老公、老婆、男朋友等这类词可以明确表示回答者的性别。筛选出包含上述词的语料，并按照性别对语料分类。

在步骤S103中，根据接收到的分类标记命令，对语料数据库中的第二语料进行性别分类标记，其中，第二语料不同于第一语料；

在对第一语料进行分类后，可以人为的对语料数据库中剩余语料中的部分语料，即第二语料进行标记。

在步骤S104中，利用标记后的第二语料和libshortext算法进行训练，得到性别分类模型；

在步骤S105中，使用性别分类模型对语料数据库中除第一语料和第二语料之外的第三预料进行性别分类，以得到语料数据库对应的性别分类结果。

使用训练得到的性别分类模型对语料数据库中的剩余语料进行分类，这样，就可以完成对整个语料数据库中的语料进行分类。

在一个实施例中，上述步骤S104包括步骤S201-S205：

在步骤S201中，根据文本向量化算法将第二语料中的每个语料数据进行向量转化，得到第一向量数据；

文本向量化算法可以采用二元统计模型算法和词频-逆文档频率算法。

在步骤S202中，根据预设性别特征词将第二语料中的每个语料数据进行向量转化，得到第二向量数据；

在该实施例中，可以建立性别特征词词典，词典里面设置多个预设性别特征词。

在步骤S203中，根据PLDA算法模型将第二语料中的每个语料数据进行向量转化，得到第三向量数据；

通过PLDA算法，将第二语料表示为第三向量数据，并保存该算法的模型。

在步骤S204中，将第一向量数据、第二向量数据和第三向量数据进行拼接，得到第四向量数据；

在步骤S205中，将第四向量数据作为libshortext算法的输入向量，使用libshortext算法进行训练，得到性别分类模型。

如图3所示，在一个实施例中，上述步骤S204包括步骤S301：

在步骤S301中，分别将第一向量数据、第二向量数据和第三向量数据中同一语料数据对应的向量数据进行拼接，得到第四向量数据。

如图4所示，在一个实施例中，上述步骤S105包括步骤S401-S405：

在步骤S401中，根据文本向量化算法将第三语料中的每个语料数据进行向量转化，得到第五向量数据；

在步骤S402中，根据预设性别特征词将第三语料中的每个语料数据进行向量转化，得到第六向量数据；

在步骤S403中，根据PLDA算法模型将第三语料中的每个语料数据进行向量转化，得到第七向量数据；

在步骤S404中，将第五向量数据、第六向量数据和第七向量数据进行拼接，得到第八向量数据；

在步骤S405中，利用性别分类模型对第八向量数据进行分类，以得到语料数据库对应的性别分类结果。

如图5所示，在一个实施例中，上述步骤S404包括步骤S501：

在步骤S501中，分别将第五向量数据、第六向量数据和第七向量数据中同一语料数据对应的向量数据进行拼接，得到第八向量数据。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图6是根据一示例性实施例示出的一种语料分类装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示，该语料分类装置包括：

提取模块61，用于从语料数据库中提取出包含性别特证词的第一语料；

第一分类模块62，用于将所述第一语料进行性别分类；

标记模块63，用于根据接收到的分类标记命令，对所述语料数据库中的第二语料进行性别分类标记，其中，所述第二语料不同于所述第一语料；

训练模块64，用于利用标记后的所述第二语料和libshortext算法进行训练，得到性别分类模型；

第二分类模块65，用于使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类，以得到所述语料数据库对应的性别分类结果。

如图7所示，在一个实施例中，上述语料分类装置中训练模块64包括：

第一转化子模块71，用于根据文本向量化算法将所述第二语料中的每个语料数据进行向量转化，得到第一向量数据；

第二转化子模块72，用于根据预设性别特征词将所述第二语料中的每个语料数据进行向量转化，得到第二向量数据；

第三转化子模块73，用于根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化，得到第三向量数据；

第一拼接子模块74，用于将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接，得到第四向量数据；

第一训练子模块75，用于将所述第四向量数据作为所述libshortext算法的输入向量，使用所述libshortext算法进行训练，得到所述性别分类模型。

在一个实施例中，所述第一拼接子模块74用于：

如图8所示，在一个实施例中，所述第二分类模块65包括：

第四转化子模块81，用于根据文本向量化算法将所述第三语料中的每个语料数据进行向量转化，得到第五向量数据；

第五转化子模块82，用于根据预设性别特征词将所述第三语料中的每个语料数据进行向量转化，得到第六向量数据；

第六转化子模块83，用于根据PLDA算法模型将所述第三语料中的每个语料数据进行向量转化，得到第七向量数据；

第二拼接子模块84，用于将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接，得到第八向量数据；

第二分类子模块85，用于利用所述性别分类模型对所述第八向量数据进行分类，以得到所述语料数据库对应的性别分类结果。

在一个实施例中，所述第二拼接子模块84用于：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语料分类方法，其特征在于，包括：

从语料数据库中提取出包含性别特证词的第一语料；

将所述第一语料进行性别分类；

利用标记后的所述第二语料和libshortext算法进行训练，得到性别分类模型；

2.根据权利要求1所述的方法，其特征在于，所述利用标记后的所述第二语料和libshortext算法进行训练，得到性别分类模型，包括：

根据PLDA算法模型将所述第二语料中的每个语料数据进行向量转化，得到第三向量数据；

3.根据权利要求2所述的方法，其特征在于，所述将所述第一向量数据、所述第二向量数据和所述第三向量数据进行拼接，得到第四向量数据，包括：分别将所述第一向量数据、所述第二向量数据和所述第三向量数据中同一语料数据对应的向量数据进行拼接，得到所述第四向量数据。

4.根据权利要求2所述的方法，其特征在于，所述使用所述性别分类模型对所述语料数据库中除所述第一语料和所述第二语料之外的第三预料进行性别分类，以得到所述语料数据库对应的性别分类结果，包括：

根据所述PLDA算法模型将所述第三语料中的每个语料数据进行向量转化，得到第七向量数据；

5.根据权利要求4所述的方法，其特征在于，所述将所述第五向量数据、所述第六向量数据和所述第七向量数据进行拼接，得到第八向量数据，包括：

6.一种语料分类装置，其特征在于，包括：

第一分类模块，用于将所述第一语料进行性别分类；

7.根据权利要求6所述的装置，其特征在于，所述训练模块包括：

8.根据权利要求7所述的装置，其特征在于，所述第一拼接子模块用于：

9.根据权利要求7所述的装置，其特征在于，所述第二分类模块包括：

第六转化子模块，用于根据所述PLDA算法模型将所述第三语料中的每个语料数据进行向量转化，得到第七向量数据；

10.根据权利要求9所述的装置，其特征在于，所述第二拼接子模块用于：