CN108228869A

CN108228869A - 一种文本分类模型的建立方法及装置

Info

Publication number: CN108228869A
Application number: CN201810038485.1A
Authority: CN
Inventors: 雷丰丰
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-06-29
Anticipated expiration: 2038-01-15
Also published as: CN108228869B

Abstract

本发明实施例提供了一种文本分类模型的建立方法及装置，涉及数据处理技术领域，其中，该方法包括：从原始样本语料中，确定各个预设类别的种子特征词；对于每个预设类别的种子特征词，确定种子特征词的至少一阶相关词集合；对于每阶相关词集合中的每个相关词，确定相关词与种子特征词之间的近似度；将近似度大于预设近似度阈值的相关词和种子特征词，确定为该预设类别的类别特征词集合；根据各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型。本发明利用原始样本语料，通过与种子特征词之间相关度高、近似度大的相关词，建立不同维度的文本分类模型，无需对原始样本语料反复标注，能够缩短模型的建立时间。

Description

一种文本分类模型的建立方法及装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种文本分类模型的建立方法及装置。

背景技术

随着信息化时代的到来，数据量与日俱增，人们对于数据的处理效率也提出了更高的要求。其中，对数据进行快速有效地分类，是一种提升数据的处理和应用效率的有效手段。

目前，针对文本数据建立特定维度的文本分类模型时，首先需要收集原始样本语料，然后需要对原始样本语料进行指示特定维度的标注，进而通过标注后的样本语料进行模型训练，从而建立特定维度的文本分类模型。当需要建立另一维度的文本分类模型时，则需要对原始样本语料进行新维度的标注，从而建立新维度的文本分类模型。

然而，在实际应用中，为了保证不同维度的文本分类模型的准确度，需要收集大量的原始样本语料，而对数量庞大的原始样本语料进行多次标注，会耗费大量的时间，从而将大大延长不同维度的文本分类模型的建立时间。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种文本分类模型的建立方法及装置，以解决对大量原始样本语料进行标注，将延长不同维度文本分类模型的建立时间的问题。

根据本发明的第一方面，提供了一种文本分类模型的建立方法，所述方法包括：

从原始样本语料中，确定属于各个预设类别的种子特征词；所述各个预设类别属于至少两个维度；

对于每个预设类别的种子特征词，确定所述种子特征词的至少一阶相关词集合；

对于每阶相关词集合中的每个相关词，确定所述相关词与所述种子特征词之间的近似度；

将近似度大于预设近似度阈值的相关词和所述种子特征词，确定为所述预设类别对应的类别特征词集合；

根据所述各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型。

可选的，所述对于每阶相关词集合中的每个相关词，确定所述相关词与所述种子特征词之间的近似度，包括：

对于每阶相关词集合中的每个相关词，确定所述相关词的一阶相关词集合；

确定所述相关词的一阶相关词集合与所述种子特征词的一阶相关词集合的相关词交集；

确定所述相关词的一阶相关词集合与所述种子特征词的一阶相关词集合的相关词并集；

将所述相关词交集的词语数量除以所述相关词并集的词语数量，得到所述相关词与所述种子特征词之间的近似度。

将所述相关词交集的词语数量确定为所述相关词与所述种子特征词之间的近似度。

可选的，所述从原始样本语料中，确定属于各个预设类别的种子特征词，包括：

对原始样本语料进行分词处理，得到多个样本词汇；

确定每个样本词汇的词频-逆向文档频率TF-IDF；

从所述多个样本词汇中，选择TF-IDF大于预设TF-IDF阈值的样本特征词；

对于任一样本特征词，当接收到针对所述样本特征词的类别选择指令时，将所述样本特征词确定为所选择的预设类别的种子特征词。

可选的，所述根据所述各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型之后，还包括：

将各个测试文本分别输入至所述针对不同维度的文本分类模型；

对于针对每个维度的文本分类模型，确定所述文本分类模型的准确度；

当所述准确度大于预设准确度阈值时，输出针对所述维度的最终文本分类模型。

可选的，所述当所述准确度大于预设准确度阈值时，输出针对所述维度的最终文本分类模型之后，还包括：

当获取到目标文本时，将所述目标文本分别输入至针对不同维度的最终文本分类模型，以在不同维度中对所述目标文本进行分类。

根据本发明的第二方面，提供了一种文本分类模型的建立装置，所述装置包括：

第一确定模块，用于从原始样本语料中，确定属于各个预设类别的种子特征词；所述各个预设类别属于至少两个维度；

第二确定模块，用于对于每个预设类别的种子特征词，确定所述种子特征词的至少一阶相关词集合；

第三确定模块，用于对于每阶相关词集合中的每个相关词，确定所述相关词与所述种子特征词之间的近似度；

第四确定模块，用于将近似度大于预设近似度阈值的相关词和所述种子特征词，确定为所述预设类别对应的类别特征词集合；

建立模块，用于根据所述各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型。

可选的，所述第三确定模块包括：

第一确定子模块，用于对于每阶相关词集合中的每个相关词，确定所述相关词的一阶相关词集合；

第二确定子模块，用于确定所述相关词的一阶相关词集合与所述种子特征词的一阶相关词集合的相关词交集；

第三确定子模块，用于确定所述相关词的一阶相关词集合与所述种子特征词的一阶相关词集合的相关词并集；

第四确定子模块，用于将所述相关词交集的词语数量除以所述相关词并集的词语数量，得到所述相关词与所述种子特征词之间的近似度。

可选的，所述第三确定模块包括：

第五确定子模块，用于对于每阶相关词集合中的每个相关词，确定所述相关词的一阶相关词集合；

第六确定子模块，用于确定所述相关词的一阶相关词集合与所述种子特征词的一阶相关词集合的相关词交集；

第七确定子模块，用于将所述相关词交集的词语数量确定为所述相关词与所述种子特征词之间的近似度。

可选的，所述第一确定模块包括：

分词子模块，用于对原始样本语料进行分词处理，得到多个样本词汇；

第八确定子模块，用于确定每个样本词汇的词频-逆向文档频率TF-IDF；

选择子模块，用于从所述多个样本词汇中，选择TF-IDF大于预设TF-IDF阈值的样本特征词；

第九确定子模块，用于对于任一样本特征词，当接收到针对所述样本特征词的类别选择指令时，将所述样本特征词确定为所选择的预设类别的种子特征词。

可选的，所述装置还包括：

输入模块，用于将各个测试文本分别输入至所述针对不同维度的文本分类模型；

第五确定模块，用于对于针对每个维度的文本分类模型，确定所述文本分类模型的准确度；

输出模块，用于当所述准确度大于预设准确度阈值时，输出针对所述维度的最终文本分类模型。

可选的，所述装置还包括：

分类模块，用于当获取到目标文本时，将所述目标文本分别输入至针对不同维度的最终文本分类模型，以在不同维度中对所述目标文本进行分类。

本发明实施例包括以下优点：从原始样本语料中，可以确定属于各个预设类别的种子特征词，对于每个预设类别的种子特征词，可以确定该种子特征词的至少一阶相关词集合，对于每阶相关词集合中的每个相关词，可以确定该相关词与种子特征词之间的近似度，然后可以将近似度大于预设近似度阈值的相关词和种子特征词，确定为该预设类别对应的类别特征词集合，根据各个预设类别所对应的类别特征词集合，可以建立针对不同维度的文本分类模型。本发明实施例中，可以从原始样本语料中，确定不同维度下任一类别的种子特征词，然后可以确定与种子特征词之间相关度高、且近似度大的相关词，得到该类别的类别特征词集合，从而利用各个类别的类别特征词集合，可以建立不同维度的文本分类模型。也即是本发明可以直接利用原始样本语料，建立不同维度的文本分类模型，而无需对原始样本语料进行反复标注，从而能够缩短模型的建立时间。

附图说明

图1是本发明实施例提供的一种文本分类模型的建立方法的流程图；

图2是本发明实施例提供的另一种文本分类模型的建立方法的流程图；

图3是本发明实施例提供的一种文本分类模型的建立装置的框图；

图4是本发明实施例提供的另一种文本分类模型的建立装置的框图；

图5是本发明实施例提供的一种第三确定模块的框图；

图6是本发明实施例提供的另一种第三确定模块的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

参照图1，示出了一种文本分类模型的建立方法的流程图，该方法具体可以包括如下步骤：

步骤101：从原始样本语料中，确定属于各个预设类别的种子特征词；各个预设类别属于至少两个维度。

对于建立文本分类模型的设备，该设备可以首先获取大量的原始样本语料，该原始样本语料可以通过人工收集，进而输入至该设备中，或者可以将已有的语料库中的原始样本语料输入至该设备中。设备中可以事先设置多个预设类别，该多个预设类别属于至少两个分类维度，设备可以从原始样本语料中，确定属于各个预设类别的种子特征词。

步骤102：对于每个预设类别的种子特征词，确定该种子特征词的至少一阶相关词集合。

对于每个预设类别的种子特征词，设备可以将该种子特征词输入至预设的相关词模型中，从而可以输出该种子特征词的一阶相关词集合，将一阶相关词集合中的每个相关词分别输入至该相关词模型中，可以输出该种子特征词的二阶相关词集合，同样的，通过该相关词模型，可以确定种子特征词的三阶相关词集合、四阶相关词集合等等。从而对于每个预设类别的每个种子特征词，设备均可以确定出一个包含至少一阶相关词的相关词集合。

另外，该相关词模型可以通过word2vec等算法训练得到，本发明实施例对此不作具体限定。

步骤103：对于每阶相关词集合中的每个相关词，确定该相关词与该种子特征词之间的近似度。

对于一个词汇，若已知该词汇属于哪个分类，则与该词汇相关的近似词汇通常也属于该分类。而对于每阶相关词集合，随着相关词集合的阶数增加，得到的相关词与最先种子特征词之间的近似程度将越来越小，因此，设备可以确定每个相关词与种子特征词之间的近似度，进而可以从与种子特征词相关联的词汇中，找到与种子特征词相近似的词汇。

步骤104：将近似度大于预设近似度阈值的相关词和该种子特征词，确定为该预设类别对应的类别特征词集合。

设备可以从每阶相关词集合中选择出与种子特征词之间的近似度大于预设近似度阈值的相关词，然后可以将其确定为种子特征词所属预设类别对应的类别特征词。另外，由于种子特征词与选择出的相关词之间的近似程度较大，因此可以将种子特征词也确定为自身所属预设类别对应的类别特征词，从而可以得到该预设类别对应的类别特征词集合。

步骤105：根据各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型。

对于属于同一维度的所有预设类别，设备可以将每个预设类别的类别特征词集合中的每个类别特征词，作为任意文本中关键词的近似度对比词，从而可以建立针对不同维度的文本分类模型，进而向针对不同维度的文本分类模型输入同一个新文本时，各个维度的文本分类模型可以分别输出该新文本在各自维度中所属的分类。

实施例二

参照图2，示出了另一种文本分类模型的建立方法的流程图，该方法具体可以包括如下步骤：

步骤201：从原始样本语料中，确定属于各个预设类别的种子特征词；各个预设类别属于至少两个维度。

本步骤的实现方式可以包括：对原始样本语料进行分词处理，得到多个样本词汇；确定每个样本词汇的TF-IDF(term frequency-inverse document frequency，词频-逆向文档频率)；从多个样本词汇中，选择TF-IDF大于预设TF-IDF阈值的样本特征词；对于任一样本特征词，当接收到针对该样本特征词的类别选择指令时，将该样本特征词确定为所选择的预设类别的种子特征词。

原始样本语料中包含大量内容丰富的短文本，例如各种新闻标题，或者各种视频标题等等，建立文本分类模型的设备可以将每个短文本保存为文件中的一行，从而得到原始样本语料文件。设备首先可以对文件中的原始样本语料进行分词处理，从而得到多个样本词汇。然后设备可以统计每个样本词汇的出现次数，其中，每行重复出现只算一次。之后设备可以根据每个样本词汇的出现次数，以及文件的总行数，确定每个样本词汇的TF-IDF。设备可以从多个样本词汇中，选择TF-IDF大于预设TF-IDF阈值的样本特征词，也即是选择出在文本中重要性较高的样本特征词，该样本特征词可以认为是所在文本中的关键词。对于任一样本特征词，建模人员可以在设备中，对该样本特征词对应的预设分类进行选择，进而设备可以接收到针对该样本特征词的类别选择指令，从而可以将该样本特征词，确定为所选择的预设类别的种子特征词。

例如，设备中可以预先设置各个预设类别，其中，资讯维度可以包括体育、科技和娱乐三个类别，群体维度可以包括上班族、学生党和球迷三个类别。当设备开始建立文本分类模型时，可以对原始样本语料进行分词处理，得到多个样本词汇。然后设备可以确定每个样本词汇的TF-IDF，之后可以从多个样本词汇中，选择TF-IDF大于预设TF-IDF阈值的样本特征词为足球、篮球、手机、电脑、明星和演唱会。

对于任一样本特征词，在资讯维度中，当设备接收到针对“足球”的体育类别选择指令时，将“足球”确定为体育类别的种子特征词。同理，设备可以将“篮球”确定为体育类别的种子特征词，将“手机”和“电脑”确定为科技类别的种子特征词，将“明星”和“演唱会”确定为娱乐类别的种子特征词，如下表1所示。

表1

体育资讯	足球	篮球
			科技资讯	手机	电脑
娱乐资讯	明星	演唱会
			……	……	……

对于任一样本特征词，在群体维度中，当设备接收到针对“足球”的球迷类别选择指令时，将“足球”确定为球迷类别的种子特征词。同理，设备可以将“篮球”确定为球迷类别的种子特征词，将“手机”、“明星”和“演唱会”确定为学生党类别的种子特征词，将“电脑”确定为上班族类别的种子特征词，如下表2所示。

表2

上班族	电脑	/	/
				学生党	手机	明星	演唱会
球迷	足球	篮球	/
				……	……	……	……

需要说明的是，本发明实施例仅以如上表1和表2所示的类别和种子特征词为例进行说明，上述表1和表2并不对本发明构成限定。

步骤202：对于每个预设类别的种子特征词，确定该种子特征词的至少一阶相关词集合。

建模人员可以预先设置相关词模型的相关度阈值，或者相关词数量阈值，从而向相关词模型输入一个词汇时，可以输出与该词汇之间的相关度大于预设相关度阈值的相关词集合，或者输出词语数量等于相关词数量阈值的相关词集合。当然，在实际应用中，相关词模型中的相关度阈值可以设置的小一些，或者相关词数量阈值可以设置的大一些，以便于筛选出更多的相关词，在输出一次相关词集合之后，可以再次设定一个相关度阈值或者相关词数量阈值，从而可以在通过相关词模型输出相关词集合之后，再对相关词集合中的词汇进行第二次筛选。本发明实施例对于设备采用相关词模型筛选一次的方式，还是采用相关词模型和后续筛选步骤筛选两次的方式不作具体限定。

例如，以体育类别的种子特征词“足球”为例，设备可以事先通过word2vec算法训练得到相关词模型，然后对于体育类别的种子特征词“足球”，设备可以将种子特征词“足球”输入该相关词模型，从而该相关词模型可以输出种子特征词“足球”的一阶相关词集合，如下表3所示。

表3

需要说明的是，本发明实施例仅以如上表3所示的一阶相关词集合为例进行说明，如上表3所示的一阶相关词集合并不对本发明构成限定。

同理，设备可以通过相关词模型确定“篮球”的一阶相关词集合、“手机”的一阶相关词集合、“电脑”的一阶相关词集合、“明星”的一阶相关词集合、“演唱会”的一阶相关词集合。

步骤203：对于每阶相关词集合中的每个相关词，确定该相关词与该种子特征词之间的近似度。

本步骤可以通过下述两种方式中的任一种实现，包括：

第一种实现方式：对于每阶相关词集合中的每个相关词，确定该相关词的一阶相关词集合；确定该相关词的一阶相关词集合与种子特征词的一阶相关词集合的相关词交集；确定该相关词的一阶相关词集合与种子特征词的一阶相关词集合的相关词并集；将相关词交集的词语数量除以相关词并集的词语数量，得到该相关词与种子特征词之间的近似度。

在第一种实现方式中，对于每阶相关词集合中的每个相关词，设备可以确定该相关词的一阶相关词集合与种子特征词的一阶相关词集合的相关词交集，也即是确定该相关词与种子特征词之间有多少共同的相关词，也即共同邻居词。然后设备可以确定该相关词的一阶相关词集合与种子特征词的一阶相关词集合的相关词并集，从而可以根据该相关词与种子特征词之间的共同邻居词数量，确定二者之间的近似度。其中，相关词与种子特征词之间的近似度越高，二者在同一维度中属于同一分类的可能性就越大。

第二种实现方式：对于每阶相关词集合中的每个相关词，确定该相关词的一阶相关词集合；确定该相关词的一阶相关词集合与种子特征词的一阶相关词集合的相关词交集；将相关词交集的词语数量确定为该相关词与种子特征词之间的近似度。

第二种实现方式可以对应步骤202中设定相关词数量的方式，由于在设定相关词数量的方式下，每个相关词集合的数量是固定的，因此在第二种实现方式中，设备可以直接将相关词交集的词语数量，也即是该相关词与种子特征词之间的共同邻居词数量，确定为该相关词与种子特征词之间的近似度。

在本步骤的任一种实现方式中，对于中间阶的相关词，由于设备在步骤202中已经确定出该相关词的一阶相关词集合，因此设备可以直接调用步骤202中得到的相关词数据，而对于最后阶的相关词，设备则需要进一步确定该相关词的一阶相关词集合。

例如，对于“足球”的一阶相关词集合中的每个相关词，设备可以确定该相关词与种子特征词“足球”之间的近似度。对于“篮球”的一阶相关词集合中的每个相关词，设备可以确定该相关词与种子特征词“篮球”之间的近似度。对于“手机”的一阶相关词集合中的每个相关词，设备可以确定该相关词与种子特征词“手机”之间的近似度。对于“电脑”的一阶相关词集合中的每个相关词，设备可以确定该相关词与种子特征词“电脑”之间的近似度。对于“明星”的一阶相关词集合中的每个相关词，设备可以确定该相关词与种子特征词“明星”之间的近似度。对于“演唱会”的一阶相关词集合中的每个相关词，设备可以确定该相关词与种子特征词“演唱会”之间的近似度。

步骤204：将近似度大于预设近似度阈值的相关词和该种子特征词，确定为该预设类别对应的类别特征词集合。

在实际应用中，对于步骤202至步骤204，可以通过循环的方式实现，也即是对于每个预设类别的种子特征词，可以首先确定该种子特征词的一阶相关词集合，然后对于一阶相关词集合中的每个相关词，确定该相关词与该种子特征词之间的近似度，之后将一阶相关词集合中近似度大于预设近似度阈值的相关词，确定为该预设类别对应的类别特征词；然后对于每个预设类别的种子特征词，可以继续确定该种子特征词的二阶相关词集合，也即是确定种子特征词的每个一阶相关词的一阶相关词集合，然后对于二阶相关词集合中的每个相关词，确定该相关词与该种子特征词之间的近似度，之后将二阶相关词集合中近似度大于预设近似度阈值的相关词，确定为该预设类别对应的类别特征词；以此类推，在确定每阶相关词集合之后，可以得到一部分类别特征词，从而在循环多次之后，加上原本的种子特征词，可以得到类别特征词集合。

其中，由于相关词的阶数越高，该相关词与种子相关词之间的近似度会越来越小，因此，上述循环可以在类别特征词的数量不再增加时停止，也即是再无法输出与种子特征词之间近似度较高的相关词时，可以停止循环，从而可以得到类别特征词集合。

另外，在实际应用中，相关词模型的相关度阈值或相关词数量阈值，以及预设近似度阈值，可以根据每次循环时输出的类别特征词数量，以及考虑循环次数不能过多的情况，进行动态调整，从而既可以保证建立的文本分类模型有足够多的类别特征词，又可以保证循环次数不至于过多，从而能够缩短模型的建立时间，以及避免设备的系统资源浪费。

例如，设备可以将近似度大于预设近似度阈值的相关词“世界杯”、“NBA”等等，以及种子特征词“足球”和“篮球”，确定为体育类别对应的类别特征词集合。同理，设备可以将“IOS”、“Android”等相关词，以及种子特征词“手机”和“电脑”，确定为科技类别对应的类别特征词集合，将“巡演”、“明星周边”等相关词，以及种子特征词“明星”和“演唱会”，确定为娱乐类别对应的类别特征词集合，如下表4所示。同样的，对于群体维度，设备也可以通过上述方式确定每个群体类别对应的类别特征词集合，如下表5所示。

表4

表5

需要说明的是，本发明实施例仅以如上表4和表5所示的类别特征词集合为例进行说明，如上表4和表5所示的类别特征词集合并不对本发明构成限定。

步骤205：根据各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型。

此步骤与上述步骤105的实现过程类似，在此不再详述。

例如，设备可以根据属于资讯维度的各个预设类别所对应的类别特征词集合，建立针对资讯维度的文本分类模型。设备还可以根据属于群体维度的各个预设类别所对应的类别特征词集合，建立针对群体维度的文本分类模型。

步骤206：将各个测试文本分别输入至针对不同维度的文本分类模型。

本发明实施例中，设备在建立针对不同维度的文本分类模型之后，还可以对各个文本分类模型进行测试。设备可以将各个测试文本分别输入至针对不同维度的文本分类模型，其中，各个测试文本的真实分类结果已知，各个文本分类模型可以分别输出每个测试文本在各个维度中所属的测试分类结果。

例如，设备可以将各个测试文本分别输入至针对资讯维度的文本分类模型，以对资讯维度的文本分类模型进行测试。设备还可以将各个测试文本分别输入至针对群体维度的文本分类模型，以对群体维度的文本分类模型进行测试。

步骤207：对于针对每个维度的文本分类模型，确定该文本分类模型的准确度。

对于针对每个维度的文本分类模型，设备可以确定该文本分类模型的准确度，也即是确定各个测试文本中，测试分类结果与真实分类结果相同的文本数量，占测试分类结果与真实分类结果不同的文本数量的比例。

例如，设备可以确定针对资讯维度的文本分类模型的准确度，以及确定针对群体维度的文本分类模型的准确度。

步骤208：当准确度大于预设准确度阈值时，输出针对该维度的最终文本分类模型。

当文本分类模型的准确度大于预设准确度阈值时，可以认为该文本分类模型可以对文本进行精准的分类，从而设备可以输出针对该维度的最终文本分类模型。

当文本分类模型的准确度小于或等于预设准确度阈值时，可以认为该文本分类模型无法对文本进行精准的分类，从而建模人员可以对该文本分类模型中的各项参数进行调整，直至得到准确度大于预设准确度阈值的最终文本分类模型。

对于要求高准确度且不要求一定给出类别的场景，设备可以通过步骤206至步骤208对文本分类模型进行测试。另外，在实际应用中，对于必须给出类别，但不要求准确度的场景，设备可以仅通过各个测试文本，测试文本分类模型是否能够输出一个分类结果即可。

例如，资讯维度的文本分类模型的准确度大于预设准确度阈值，设备可以输出针对资讯维度的最终文本分类模型，群体维度的文本分类模型的准确度大于预设准确度阈值，设备可以输出针对群体维度的最终文本分类模型。

步骤209：当获取到目标文本时，将目标文本分别输入至针对不同维度的最终文本分类模型，以在不同维度中对目标文本进行分类。

在得到针对不同维度的最终文本分类模型之后，当在设备中输入一个新的目标文本时，设备可以通过针对任一维度的最终文本分类模型，首先对目标文本进行分词，然后确定目标文本中的TF-IDF最高的预设个数的关键词，进而可以确定目标文本中的关键词，分别与该维度中每个类别的每个类别特征词之间的近似度，近似度最高的类别特征词所属的类别，即为目标文本在该维度中所属的类别，从而设备可以通过针对不同维度的最终文本分类模型，确定目标文本在不同维度中所属的分类。

例如，当设备获取到新的目标文本“XX足球队预选赛意外遭淘汰，无缘世界杯”时，可以将目标文本“XX足球队预选赛意外遭淘汰，无缘世界杯”输入至针对资讯维度的最终文本分类模型，以及输入至针对群体维度的最终文本分类模型，以在资讯和群体这两个维度中，对目标文本“XX足球队预选赛意外遭淘汰，无缘世界杯”进行分类，针对资讯维度的最终文本分类模型可以输出目标文本“XX足球队预选赛意外遭淘汰，无缘世界杯”在资讯维度所属的分类为体育资讯，针对群体维度的最终文本分类模型可以输出目标文本“XX足球队预选赛意外遭淘汰，无缘世界杯”在群体维度所属的分类为球迷类别。

本发明实施例包括以下优点：从原始样本语料中，可以确定属于各个预设类别的种子特征词，对于每个预设类别的种子特征词，可以确定该种子特征词的至少一阶相关词集合，对于每阶相关词集合中的每个相关词，可以确定该相关词与种子特征词之间的近似度，然后可以将近似度大于预设近似度阈值的相关词和种子特征词，确定为该预设类别对应的类别特征词集合，根据各个预设类别所对应的类别特征词集合，可以建立针对不同维度的文本分类模型。本发明实施例中，可以从原始样本语料中，确定不同维度下任一类别的种子特征词，然后可以确定与种子特征词之间相关度高、且近似度大的相关词，得到该类别的类别特征词集合，从而利用各个类别的类别特征词集合，可以建立不同维度的文本分类模型。也即是本发明可以直接利用原始样本语料，建立不同维度的文本分类模型，而无需对原始样本语料进行反复标注，从而能够缩短模型的建立时间。建立针对不同维度的文本分类模型之后，还可以对模型进行测试，以保证利用该模型进行分类的准确度。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

参照图3，示出了一种文本分类模型的建立装置300的框图，该装置具体可以包括：

第一确定模块301，用于从原始样本语料中，确定属于各个预设类别的种子特征词；所述各个预设类别至少两个维度；

第二确定模块302，用于对于每个预设类别的种子特征词，确定所述种子特征词的至少一阶相关词集合；

第三确定模块303，用于对于每阶相关词集合中的每个相关词，确定所述相关词与所述种子特征词之间的近似度；

第四确定模块304，用于将近似度大于预设近似度阈值的相关词和所述种子特征词，确定为所述预设类别对应的类别特征词集合；

建立模块305，用于根据所述各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型。

本发明实施例包括以下优点：可以通过第一确定模块，从原始样本语料中，确定属于各个预设类别的种子特征词，对于每个预设类别的种子特征词，可以通过第二确定模块，确定该种子特征词的至少一阶相关词集合，对于每阶相关词集合中的每个相关词，可以通过第三确定模块，确定该相关词与种子特征词之间的近似度，然后可以通过第四确定模块，将近似度大于预设近似度阈值的相关词和种子特征词，确定为该预设类别对应的类别特征词集合，根据各个预设类别所对应的类别特征词集合，可以通过建立模块建立针对不同维度的文本分类模型。本发明实施例中，可以从原始样本语料中，确定不同维度下任一类别的种子特征词，然后可以确定与种子特征词之间相关度高、且近似度大的相关词，得到该类别的类别特征词集合，从而利用各个类别的类别特征词集合，可以建立不同维度的文本分类模型。也即是本发明可以直接利用原始样本语料，建立不同维度的文本分类模型，而无需对原始样本语料进行反复标注，从而能够缩短模型的建立时间。

实施例四

参照图4，示出了另一种文本分类模型的建立装置400的框图，该装置具体可以包括：

第一确定模块401，用于从原始样本语料中，确定属于各个预设类别的种子特征词；所述各个预设类别属于至少两个维度；

第二确定模块402，用于对于每个预设类别的种子特征词，确定所述种子特征词的至少一阶相关词集合；

第三确定模块403，用于对于每阶相关词集合中的每个相关词，确定所述相关词与所述种子特征词之间的近似度；

第四确定模块404，用于将近似度大于预设近似度阈值的相关词和所述种子特征词，确定为所述预设类别对应的类别特征词集合；

建立模块405，用于根据所述各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型。

可选的，参照图5，所述第三确定模块403包括：

第一确定子模块4031，用于对于每阶相关词集合中的每个相关词，确定所述相关词的一阶相关词集合；

第二确定子模块4032，用于确定所述相关词的一阶相关词集合与所述种子特征词的一阶相关词集合的相关词交集；

第三确定子模块4033，用于确定所述相关词的一阶相关词集合与所述种子特征词的一阶相关词集合的相关词并集；

第四确定子模块4034，用于将所述相关词交集的词语数量除以所述相关词并集的词语数量，得到所述相关词与所述种子特征词之间的近似度。

可选的，参照图6，所述第三确定模块403包括：

第五确定子模块4035，用于对于每阶相关词集合中的每个相关词，确定所述相关词的一阶相关词集合；

第六确定子模块4036，用于确定所述相关词的一阶相关词集合与所述种子特征词的一阶相关词集合的相关词交集；

第七确定子模块4037，用于将所述相关词交集的词语数量确定为所述相关词与所述种子特征词之间的近似度。

可选的，参照图4，所述第一确定模块401包括：

分词子模块4011，用于对原始样本语料进行分词处理，得到多个样本词汇；

第八确定子模块4012，用于确定每个样本词汇的词频-逆向文档频率TF-IDF；

选择子模块4013，用于从所述多个样本词汇中，选择TF-IDF大于预设TF-IDF阈值的样本特征词；

第九确定子模块4014，用于对于任一样本特征词，当接收到针对所述样本特征词的类别选择指令时，将所述样本特征词确定为所选择的预设类别的种子特征词。

可选的，参照图4，所述装置400还包括：

输入模块406，用于将各个测试文本分别输入至所述针对不同维度的文本分类模型；

第五确定模块407，用于对于针对每个维度的文本分类模型，确定所述文本分类模型的准确度；

输出模块408，用于当所述准确度大于预设准确度阈值时，输出针对所述维度的最终文本分类模型。

可选的，参照图4，所述装置400还包括：

分类模块409，用于当获取到目标文本时，将所述目标文本分别输入至针对不同维度的最终文本分类模型，以在不同维度中对所述目标文本进行分类。

本发明实施例包括以下优点：可以通过第一确定模块，从原始样本语料中，确定属于各个预设类别的种子特征词，对于每个预设类别的种子特征词，可以通过第二确定模块，确定该种子特征词的至少一阶相关词集合，对于每阶相关词集合中的每个相关词，可以通过第三确定模块，确定该相关词与种子特征词之间的近似度，然后可以通过第四确定模块，将近似度大于预设近似度阈值的相关词和种子特征词，确定为该预设类别对应的类别特征词集合，根据各个预设类别所对应的类别特征词集合，可以通过建立模块建立针对不同维度的文本分类模型。本发明实施例中，可以从原始样本语料中，确定不同维度下任一类别的种子特征词，然后可以确定与种子特征词之间相关度高、且近似度大的相关词，得到该类别的类别特征词集合，从而利用各个类别的类别特征词集合，可以建立不同维度的文本分类模型。也即是本发明可以直接利用原始样本语料，建立不同维度的文本分类模型，而无需对原始样本语料进行反复标注，从而能够缩短模型的建立时间。建立针对不同维度的文本分类模型之后，还可以通过输入模块、第五确定模块和输出模块，对模型进行测试，以保证利用该模型进行分类的准确度。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种文本分类模型的建立方法和一种文本分类模型的建立装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本分类模型的建立方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对于每阶相关词集合中的每个相关词，确定所述相关词与所述种子特征词之间的近似度，包括：

3.根据权利要求1所述的方法，其特征在于，所述对于每阶相关词集合中的每个相关词，确定所述相关词与所述种子特征词之间的近似度，包括：

4.根据权利要求1所述的方法，其特征在于，所述从原始样本语料中，确定属于各个预设类别的种子特征词，包括：

对原始样本语料进行分词处理，得到多个样本词汇；

确定每个样本词汇的词频-逆向文档频率TF-IDF；

5.根据权利要求1所述的方法，其特征在于，所述根据所述各个预设类别所对应的类别特征词集合，建立针对不同维度的文本分类模型之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述当所述准确度大于预设准确度阈值时，输出针对所述维度的最终文本分类模型之后，还包括：

7.一种文本分类模型的建立装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第三确定模块包括：

9.根据权利要求7所述的装置，其特征在于，所述第三确定模块包括：

10.根据权利要求7所述的装置，其特征在于，所述第一确定模块包括：

11.根据权利要求7所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：