CN111753525B

CN111753525B - 文本分类方法、装置及设备

Info

Publication number: CN111753525B
Application number: CN202010434980.1A
Authority: CN
Inventors: 方思维
Original assignee: Zhejiang Koubei Network Technology Co Ltd
Current assignee: Zhejiang Koubei Network Technology Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2023-11-10
Anticipated expiration: 2040-05-21
Also published as: CN111753525A

Abstract

本申请公开了一种文本分类方法、装置及设备，涉及文本处理技术领域，能够从复杂的对象特征中准确计算出文本信息的权重值，提升文本分类效果，减少从文本信息中提取有用信息所存在的误差。其中方法包括：获取对文本语料库中文本信息进行分词处理后的文本分词；确定文本分词对应的属性特征；基于所述本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值；将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类，得到文本信息所映射的分类结果。

Description

文本分类方法、装置及设备

技术领域

本申请涉及文本处理技术领域，尤其是涉及到一种文本分类方法、装置及设备。

背景技术

随着电商平台的迅速崛起，通过网络平台进行对象交易的方式已经逐渐渗入至人们的日常生活，用户可以从网络平中获取以及产生大量的文本信息，例如，通过浏览页面获取对象信息、通过搜索栏查询对象信息、通过评价栏发送评价信息等。由于网络平台中文本信息的数据量巨大，如果不及时进行分类处理，很难对文本信息中有用信息进行提取。

现有技术中，网络平台中文本信息融合了大量对象信息，对文本信息进行分类处理的过程可以使用类似于TF-IDF算法统计文本信息中词频等参数，进一步通过计算文本信息中词频等参数形成的权重值来确定文本信息之间的相似度，将相似度较高的文本信息作为一个分类内的文本信息。然而，由于文本信息中涉及到复杂的对象特征，使用类似于TF-IDF算法无法从包含复杂对象特征的文本信息中准确计算出文本信息所形成的权重值，使得文本分类效果不理想，导致从文本信息中提取的有用信息存在误差。

发明内容

有鉴于此，本申请提供了一种文本分类方法、装置及设备，主要目的在于解决现有技术中的文本分类效果不理想，导致从文本信息中提取的有用信息存在误差的问题。

根据本申请的第一个方面，提供了一种文本分类方法，该方法包括：

获取对文本语料库中文本信息进行分词处理后的文本分词；

确定文本分词对应的属性特征；

基于所述文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值；

将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类，得到文本信息所映射的分类结果。

在本发明另一实施例中，所述确定文本分词对应的属性特征，具体包括：

利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征；

所述利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征，具体包括：

将文本语料库中的文本分词与预先训练的特征语料库中所记录的分词进行特征匹配；

若匹配成功，则提取预先训练的语料库中特征匹配成功的分词所映射的属性特征，作为文本语料信息中文本分词的属性特征。

在本发明另一实施例中，所述基于所述文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值，具体包括：

基于所述文本分词对应的属性特征，判断所述文本分词的属性特征是否涉及对象特征；

如果是，则利用融入有对象特征的统计模型对文本信息中涉及对象特征的文本分词进行频率统计，得到涉及对象特征的文本分词在文本信息中的权重值；

如果否，则利用未融入有对象特征的统计模型对文本语料信息中未涉及对象特征的文本分词进行频率统计，得到未涉及对象特征的文本分词在文本信息中的权重值。

在本发明另一实施例中，所述利用融入有对象特征的统计模型对文本信息中涉及对象特征的文本分词进行频率统计，得到涉及对象特征的文本分词在文本信息中的权重值，具体包括：

利用融入有对象特征的统计模型，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；

根据所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数，计算包含对象信息的分词在文本信息中的权重值。

在本发明另一实施例中，所述利用融入有对象特征的统计模型，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数，具体包括：

利用融入有对象特征的统计模型，分别查询所述涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数；

根据所述涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数。

在本发明另一实施例中，所述根据所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数，计算包含对象信息的分词在文本信息中的权重值，具体包括：

对所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数进行运算，形成涉及对象特征的文本分词对应的统计中间量；

通过汇总所述涉及对象特征的文本分词对应的统计中间量，计算包含对象信息的分词在文本信息中的权重值。

在本发明另一实施例中，所述利用未融入有对象特征的统计模型对文本语料信息中未涉及对象特征的文本分词进行频率统计，得到未涉及对象特征的文本分词在文本语料信息中的权重值，具体包括：

利用未融入有对象特征的统计模型，确定未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；

根据所述未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数，计算未包含对象信息的分词在文本语料信息中的权重值。

在本发明另一实施例中，所述预先训练的分类器中赋予有针对不同分类结果进行学习所形成的区间参数，所述将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类，得到文本信息所映射的分类结果，具体包括：

根据所述预先训练的分类器中针对不同分类结果进行学习所形成的区间参数，对所述文本分词在文本信息中的权重值进行加权处理；

汇总加权处理后文本分词在文本信息中的权重值，得到文本信息所映射的分类结果。

根据本申请的第二个方面，一种文本分类装置，该装置包括：

获取单元，用于获取对文本语料库中文本信息进行分词处理后的文本分词；

确定单元，用于确定文本分词对应的属性特征；

统计单元，用于基于所述文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值；

分类单元，用于将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类，得到文本信息所映射的分类结果。

在本发明另一实施例中，所述确定单元，具体用于利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征；

所述确定单元包括：

匹配模块，用于将文本语料库中的文本分词与预先训练的语料库中所记录的分词进行特征匹配；

提取模块，用于若匹配成功，则提取预先训练的特征语料库中特征匹配成功的分词所映射的属性特征，作为文本语料信息中文本分词的属性特征。

在本发明另一实施例中，所述统计单元包括：

判断模块，用于基于所述文本分词对应的属性特征，判断所述文本分词的属性特征是否涉及对象特征；

统计模块，用于如果是，则利用融入有对象特征的统计模型对文本信息中涉及对象特征的文本分词进行频率统计，得到涉及对象特征的文本分词在文本信息中的权重值；

所述统计模块，还用于如果否，则利用未融入有对象特征的统计模型对文本语料信息中未涉及对象特征的文本分词进行频率统计，得到未涉及对象特征的文本分词在文本信息中的权重值。

在本发明另一实施例中，所述统计模块包括：

确定子模块，用于利用融入有对象特征的统计模型，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；

计算子模块，用于根据所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数，计算包含对象信息的分词在文本信息中的权重值。

在本发明另一实施例中，所述确定子模块，具体用于利用融入有对象特征的统计模型，分别查询所述涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数；

所述确定子模块，具体还用于根据所述涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数

在本发明另一实施例中，所述计算子模块，具体用于对所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数进行运算，形成涉及对象特征的文本分词对应的统计中间量；

所述计算子模块，具体还用于通过汇总所述涉及对象特征的文本分词对应的统计中间量，计算包含对象信息的分词在文本信息中的权重值。

在本发明另一实施例中，所述确定子模块，还用于利用未融入有对象特征的统计模型，确定未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；

所述计算子模块，还用于根据所述未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数，计算未包含对象信息的分词在文本语料信息中的权重值。

在本发明另一实施例中，所述预先训练的分类器中赋予有针对不同分类结果进行学习所形成的区间参数，所述分类单元包括：

处理模块，用于根据所述预先训练的分类器中针对不同分类结果进行学习所形成的区间参数，对所述文本分词在文本信息中的权重值进行加权处理；

汇总模块，用于汇总加权处理后文本分词在文本信息中的权重值，得到文本信息所映射的分类结果。

根据本申请的第三个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述文本分类方法。

根据本申请的第四个方面，提供了一种文本分类设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述文本分类方法。

借由上述技术方案，本申请提供的一种文本分类方法、装置及设备，与目前现有方式中使用类似于TF-IDF算法计算文本信息相似度，进而对文本进行分类的方式相比，本申请通过获取对文本语料库中文本信息进行分词处理后的文本分词，确定文本分词对应的属性特征，进而基于文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值，该权重值能够结合文本分词的属性特征，能够从复杂的对象特征中准确计算出文本信息的权重值，使得后续通过预先训练的分类器所得到的分类结果融入文本分词的属性特征，从而提升文本分类效果，减少从文本信息中提取有用信息所存在的误差。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种文本分类方法的流程示意图；

图2示出了本申请实施例提供的另一种文本分类方法的流程示意图；

图3示出了本申请实施例提供的另一种文本分类方法的流程框架图；

图4示出了本申请实施例提供的一种文本分类装置的结构示意图；

图5示出了本申请实施例提供的另一种文本分类装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

通常情况下，网络平台中文本信息融合了大量对象信息，对文本信息通过分类处理的方式进行组织和管理，作为信息过滤、信息检索、搜索引擎、需求定位所需新资源的技术基础，有着广泛的应用前景。目前文本分类的过程可以使用类似于TF-IDF算法统计文本信息中的词频等参数，进一步根据文本信息中的词频等参数来计算文本信息的相似度，将相似度较高的文本信息作为一个分类内的文本信息。然而，由于文本信息中涉及到复杂的对象特征，使用类似于TF-IDF算法只是针对每一个文本分词进行参数计算，并未考虑到文本信息中的对象特征，无法从复杂的对象特征中准确计算出文本信息所形成的权重值，使得文本分类效果不理想，导致从文本信息中提取的有用信息存在误差。

为了解决该问题，本实施例提供了一种文本分类方法，如图1所示，包括如下步骤：

101、获取对文本语料库中文本信息进行分词处理后的文本分词。

其中，文本语料库可以为从网络平中页面所提取的文本信息，例如，对象描述文本、广告文本、用户评论文本等等，这里文本语料库中的文本信息可以覆盖不同应用场景的页面，例如，新闻场景的页面、社交场景的页面、交易场景的页面等。通常情况下，文本语料库中每个文本信息覆盖一个应用场景的页面内容，该页面内容可以包含有多个文本部分，例如，页面中的标题文本、页面中的广告文本，页面中的正文信息等，为了避免页面中文本信息的遗漏，这里可以针对每个文本部分进行文本信息的获取。

应说明的是，本发明实施例中对文本信息进行分词处理的方式不进行限定，可以使用分词工具如结巴分词、LTP、HanLP等分词模型。

可以理解的是，在实际对文本语料库中文本信息进行分词处理之前，由于原始文本信息中经常会存在许多影响分类效果的文本部分，为了保证文本信息的分类效果，可以预先对文本语料库中的文本信息进行清洗，具体可以包含对文本信息进行缺省值处理、去重处理和噪声处理等，对于非文本数据，例如，HTML标签、URL地址等，需要清除该部分文本，对于长串数字或者字母，例如，手机号码、车牌号、用户ID等文本，在非特定的文本类情境下可以去除，或者将其转换为归一化的特征，例如，转换为是否出现长串数字的布尔值特征。

对于本实施例的执行主体可以为文本分类装置或设备，可以配置在服务端，通过服务端触发文本信息的收集指令，从各个网站平台收集页面中的文本信息，形成文本语料库，进一步为了更好的挖掘文本特征，对文本语料库中的文本信息进行分词处理，得到文本分词，将文本分词作为文本信息所属类别的划分依据，提高文本分类的准确性。

102、利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征。

可以理解的是，这里的属性特征可以为针对应用领域所设置的属性特征，例如，金融领域特征、互联网领域特征、移动终端领域特征，还可以为针对网络平台中页面的场景所设置的特征，例如，支付场景特征、登录场景特征、社交场景特征，还可以为针对文本中是否包含特定属性所设置的特征，例如，文本中是否涉及对象特征、文本中是否包含评价特征等，而针对特定属性也可以从划分的多个维度特征来确定，例如，针对评价特征，可以划分为质量、服务、物流等多个维度特征，针对对象特征，可以划分为服饰、食品、日用品、电器等多个维度特征。

在本发明实施例中，由于文本信息中的分词能够反映用户在页面中关注的内容，具体可以通过利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征，可以更有针对性的了解文本分词特征，将包含有相同属性特征的文本分词进行划分，以提高后续文本分类的准确性。

其中，预先训练的特征语料库中包含汇总有不同属性特征的分词语料，由于每个分词在特征语料库中映射有的属性特征，通过将文本分词与特征语料库中的分词进行匹配，如果匹配成功，则将匹配成功的分词在特征语料库中的属性特征作为文本分词对应的属性特征。

103、基于所述文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值。

这里适用于相应属性特征的统计模型可以为针对不包含属性特征的文本分词设置的TF-IDF，还可以为针对包含有特定属性特征的文本分词所设置的IMP-TF-IDF，其中，IMP-TF-IDF相比于TF-IDF在计算文本分词在文本中的权重值过程中融合有文本分词所包含的特定属性特征，以使得文本分词在文本信息中的权重值考虑到文本分词的特定属性特征，更新网络平台的属性特点，同时计算得到的文本分词在文本信息中的权重值更加准确。

应说明的是，为了使得计算得到文本分词在文本信息中的权重值更适用于后续文本分类，对于特定属性，适用于相应属性特征的统计模型可以为针对包含特定属性特征所形成的统计模型，例如，针对评价特征所形成的统计模型，对特定属性所划分的多个维度特征，适用于相应属性特征的统计模型可以为针对包含特定属性特征上的一个维度特征所形成的统计模型，例如，针对评价特征中质量维度所形成的统计模型，这里对统计模型的设置不进行限定，对于不包含任何属性特征的文本分词，无需考虑文本分词对文本信息分类的影响，可以使用普通的统计模型。

104、将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类，得到文本信息所映射的分类结果。

其中，预先的训练分类器相当于训练拟合器，为了得到更准确的分类结果，在进行实际文本分类之前需要训练拟合器中的权重参数，以使得在后续在使用分类器进行文本分类过程中，输出的分类结果更趋近于真实的文本分类结果。

具体在训练拟合器的过程中，输入作为样本数据的文本分词在文本信息中的权重值，会预先人工分类好的结果，将文本分词在文本信息中的权重值分别添加一个权重比例，通过分类结果与预先人工分类好的结果对权重比例进行不断调整，以使得输出的分类结果趋近于预先人工分类好的结果，符合预期分类结果，选择符合预期分类结果对应的权重比例作为分类器的权重参数，局在使用分类器进行文本分类的过程中，输入作为测试数据的文本分词在文本信息中的权重值，输出文本信息所映射的分类结果。

本申请实施例提供的文本分类方法，与目前现有方式中使用类似于TF-IDF算法计算文本信息相似度，进而对文本进行分类的方式相比，本申请通过获取对文本语料库中文本信息进行分词处理后的文本分词，利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征，进而基于本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值，该权重值能够结合文本分词的属性特征，能够从复杂的对象特征中准确计算出文本信息的权重值，使得后续通过预先训练的分类器所得到的分类结果融入文本分词的属性特征，从而提升文本分类效果，减少从文本信息中提取有用信息所存在的误差。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，本实施例提供了另一种文本分类方法，如图2所示，该方法包括：

201、获取对文本语料库中文本信息进行分词处理后的文本分词。

由于文本语料库中的文本信息覆盖有不同的页面内容，在提取页面中文本信息的过程中，网页格式千差万别，很难针对所有页面设置一种方式去进行文本信息提取，为了提高页面中文本信息的提取效率，这里可以可以通过解析类属于不同网络平台的页面，由于所属相同网络平台的页面类型变动不大，通常会采用统一的标记来对包含页面固定的显示内容，使得页面中文本信息的提取具有一定程度的稳定性和相似性，所以针对不同网络平台的页面抽取相应的页面结构，进一步针对页面结构在覆盖不同应用场景的页面中部署脚本文件来抓取页面中的文本信息。

例如，在正文开始和正文结束部分设置特定标记，用于提取所有文本信息，正文中间用固定的标记对来显示正文中的成段落的文本信息，用于提取成段落的文本信息，而在正文开始和正文结束之间使用特定标记，用于提取文本信息的标题，还可以设置其他标记来提取广告等冗余信息，这里不进行限定。

可以理解的是，在利用分词模型对文本信息进行分词的过程中，分词模型除了可以输出文本信息中语句的文本分词之外，还可以标注文本分词的位置以及词性等分词信息，例如，针对语句“这款手机质量好”，分词处理后的结果为：“这/r、手机/n、质量/n、好/a”，针对每个文本分词都标注有词性。

202、将文本语料库中的文本分词与预先训练的特征语料库中所记录的分词进行特征匹配。

可以理解的是，由于文本语料库中的文本信息包含有大量不同词性的文本分词，有些词性对于后续文本分类的意义不大，可以在分词处理后进行过滤，例如，代词“这个”、“那个”等，量词“一个”、“多个”等，从而保留有用的文本分词中，提升后续文本分类效率。

在本发明实施例中，文本语料库中的文本分词可能具有相似的语义表达，为了强化文本分词的表达特征，预先训练的语料库中将不同属性特征的分词进行汇总，使得每个特征属性的分词结合融合了相似的文本语义表达，通过将文本语料库中的文本分词与预先训练的语料库中所记录的分词进行特征匹配，这里的特征匹配可以单纯的文本分词进行匹配，还可以利用模型分别提取出文本语料库中文本分词的文本特征，进而将文本特征与预先训练的语料库中分词的属性特征进行匹配。

203、若匹配成功，则提取预先训练的语料库中特征匹配成功的分词所映射的属性特征，作为文本语料信息中文本分词的属性特征。

对于匹配成功的文本分词，则说明文本分词与匹配成功的分词所映射的属性特征相同，进而将文本分词归类为该属性特征，例如，床单、枕头、被罩等文本分词归类为床品属性特征，床、茶几、餐桌、衣柜等文本分词归类为家具属性特征。

204、基于所述文本分词对应的属性特征，判断所述文本分词的属性特征是否涉及对象特征。

在本发明实施例中，对象特征相当于多个属性特征的汇总，可以为产品特征，可以为交互特征，可以为情感特征，具体可以针对不同的对象特征预先设置多个属性特征，进而确定文本分词对应的属性特征与对象特征预先设置的多个属性特征相同，如果是，则说明文本分词的属性特征涉及对象特征，否则，说明文本分词的属性特征未涉及对象特征。

205a、如果是，则利用融入有对象特征的统计模型对文本信息中涉及对象特征的文本分词进行频率统计，得到涉及对象特征的文本分词在文本信息中的权重值。

具体地，可以利用融入有对象特征的统计模型，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；根据涉及对象特征的文本分词在文本语料中文本信息对应的统计参数，计算包含对象信息的分词在文本信息中的权重值。

具体在根据涉及对象特征的文本分词在文本语料中文本信息对应的统计参数，计算包含对象信息的分词在文本信息中的权重值的过程中，可以利用融入有对象特征的统计模型，分别查询涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数；根据涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数。

在本发明实施例中，这里为融入有对象特征的统计模型可以IMP-TF-IDF统计模型，IMP-TF-IDF值即为涉及对象特征的文本分词在文本信息中的权重值，作为TF-IDF统计模型进行改进后形成的IMP-TF-IDF统计模型的公式如下所示：

其中，m_d,t为文本信息d中出现涉及对象特征的文本分词t的次数，M_d为文本信息d中文本分词的数量，m_{,no_t}为文本信息d中不涉及对象特征的文本分词数量，D为文本语料库中文本信息的数量，D_t为文本语料库中存在涉及对象特征的文本分词t的文本信息的数量，K为文本信息d中存在涉及对象特征的所有文本分词数量。

相应的，与步骤205a对应的有步骤205b、如果否，则利用未融入有对象特征的统计模型对文本语料信息中未涉及对象特征的文本分词进行频率统计，得到未涉及对象特征的文本分词在文本信息中的权重值。

具体地，可以利用未融入有对象特征的统计模型，确定未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；根据未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数，计算未包含对象信息的分词在文本语料信息中的权重值。

在本发明实施例中，这里为融入有对象特征的统计模型可以为TF-IDF统计模型，该模型包含有两部分TF和IDF的计算，最终形成TF-IDF统计模型统计模型的公式为TF-IDF＝TF*IDF，该TF-IDF值即为未涉及对象特征的文本分词在文本信息中的权重值。这里TF表示文本分词在文本语料库中的词频，即文本分词在文本信息中的出现次数，具体公式为：，这里IDF表示文本分词在文本语料库中的逆向文本频率，即包含文本分词的文本信息越少，IDF越大，说明文本分词具有很好的类别区分能力。例如，在英文文本中几乎所有文本中都会出现的文本分词“to”，该文本分词的词频虽然高，但其重要程度却应该比词频低的“travle”和“bed”要低，这里IDF即能够反映低频文本分词的词性特征，如果一个文本分词在很多文本信息中都出现，那么它的IDF值应该低，反之，文本分词在比较少的文本中出现，那么它的IDF值应该高，特殊情况下，文本分词在所有文本信息中都初选，那么它的IDF值应该为0.

上述TF的公式具体为：其中，n_di为文本信息d中出现文本分词i的次数，D为文本语料库中文本信息的数量，∑_Dn_D,i为文本语料库中所有文本分词的数量。

上述IDF的公式具体为：其中，|D|为文本语料库中文本信息的数量，D_i为文本语料库中包含有文本分词i的文本信息数量。

综上所述，TF-IDF统计模型统计模型的公式为

206、根据所述预先训练的分类器中针对不同分类结果进行学习所形成的区间参数，对所述文本分词在文本信息中的权重值进行加权处理。

在本发明实施例中，预先训练的分类器中赋予有针对不同分类结果进行学习所形成的区间参数，该区间参数相当于类别权重参数，是通过设置初始区间参数不断进行迭代训练，使得分类结果趋近于标准分类结果所形成的区间参数，从而保证文本分类结果的准确性。

207、汇总加权处理后文本分词在文本信息中的权重值，得到文本信息所映射的分类结果。

在本发明实施例中，这里分类依据可以是根据不同场景所划分的分类区间，通过判断汇总后加权处理文本分词在文本信息中的权重值所处的分类区间，进一步确定文本信息所映射的分类结果，例如，针对场景划分为三个分类区间包括：[0，0.3]、[0.3，0.6]、[0.6，1]，如果通过汇总加权处理文文本分词在文本信息中的权重值所得到的数值为0.75，那么文本信息所映射的分类区间为[0.6，1]。

在实际的应用场景中，如图3所示，当接收到文本分类指令后，可以将从网络平台采集到的文本信息加入文本语料库，对文本语料库中文本信息进行分词处理形成文本分词，然后对文本分词进行机器筛选，通过具有对象特征的可扩展语料库作为判别标注，判断文本分词是否涉及对象特征，如果涉及对象特征，则执行下一步，如果不涉及对象特征，则启动二次人工判别机制，若二次判别出具备对象特征，则将该文本分词加入可扩展语料库中，适时完善对象特征语料库，否则执行下一步，对于涉及对象特征的文本分词，使用IMP-TF-IDF算法来计算文本分词在文本信息中的权重值，对于不涉及对象特征的文本分词，使用TF-IDF算法来计算文本分词在文本信息中的权重值，并计算得到文本分词在文本信息中的权重值输入至预先训练的分类训练器中，输出文本分类结果。

进一步的，作为图1和图2方法的具体实现，本申请实施例提供了一种文本分类装置，如图4所示，该装置包括：获取单元31、确定单元32、统计单元33、分类单元34。

获取单元31，可以用于获取对文本语料库中文本信息进行分词处理后的文本分词；

确定单元32，可以用于确定文本分词对应的属性特征；

统计单元33，可以用于基于所述文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值；

分类单元34，可以用于将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类，得到文本信息所映射的分类结果。

本发明实施例提供的文本分类装置，与目前现有方式中使用类似于TF-IDF算法计算文本信息相似度，进而对文本进行分类的方式相比，本申请通过获取对文本语料库中文本信息进行分词处理后的文本分词，利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征，进而基于本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值，该权重值能够结合文本分词的属性特征，能够从复杂的对象特征中准确计算出文本信息的权重值，使得后续通过预先训练的分类器所得到的分类结果融入文本分词的属性特征，从而提升文本分类效果，减少从文本信息中提取有用信息所存在的误差。

在具体的应用场景中，如图5所示，所述确定单元32，具体可以用于利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征；

所述确定单元32包括：

匹配模块321，可以用于将文本语料库中的文本分词与预先训练的特征语料库中所记录的分词进行特征匹配；

提取模块322，可以用于若匹配成功，则提取预先训练的语料库中特征匹配成功的分词所映射的属性特征，作为文本语料信息中文本分词的属性特征。

在具体的应用场景中，如图5所示，所述统计单元33包括：

判断模块331，可以用于基于所述文本分词对应的属性特征，判断所述文本分词的属性特征是否涉及对象特征；

统计模块332，可以用于如果是，则利用融入有对象特征的统计模型对文本信息中涉及对象特征的文本分词进行频率统计，得到涉及对象特征的文本分词在文本信息中的权重值；

所述统计模块332，还可以用于如果否，则利用未融入有对象特征的统计模型对文本语料信息中未涉及对象特征的文本分词进行频率统计，得到未涉及对象特征的文本分词在文本信息中的权重值。

在具体的应用场景中，如图5所示，所述统计模块332包括：

确定子模块3321，可以用于利用融入有对象特征的统计模型，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；

计算子模块3322，可以用于根据所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数，计算包含对象信息的分词在文本信息中的权重值。

在具体的应用场景中，所述确定子模块3321，具体可以用于利用融入有对象特征的统计模型，分别查询所述涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数；

所述确定子模块3321，具体还可以用于根据所述涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数。

在具体的应用场景中，所述计算子模块3322，具体可以用于对所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数进行运算，形成涉及对象特征的文本分词对应的统计中间量

所述计算子模块3322，具体还可以用于通过汇总所述涉及对象特征的文本分词对应的统计中间量，计算包含对象信息的分词在文本信息中的权重值。

在具体的应用场景中，所述确定子模块3321，还可以用于利用未融入有对象特征的统计模型，确定未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；

所述计算子模块3322，还可以用于根据所述未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数，计算未包含对象信息的分词在文本语料信息中的权重值。

在具体的应用场景中，如图5所示，所述预先训练的分类器中赋予有针对不同分类结果进行学习所形成的区间参数，所述分类单元34包括：

处理模块341，可以用于根据所述预先训练的分类器中针对不同分类结果进行学习所形成的区间参数，对所述文本分词在文本信息中的权重值进行加权处理；

汇总模块342，可以用于汇总加权处理后文本分词在文本信息中的权重值，得到文本信息所映射的分类结果。

需要说明的是，本实施例提供的一种文本分类装置所涉及各功能单元的其它相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

基于上述如图1-图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1-图2所示的文本分类方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1-图2所示的方法，以及图4-图5所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种文本分类设备，具体可以为计算机，服务器，或者其他网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上如图1-图2所示的文本分类方法。

可选的，上述两种实体设备都还可以包括用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种文本分类的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述店铺搜索信息处理的实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有方式相比，本申请能够基于本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值，该权重值能够结合文本分词的属性特征，能够从复杂的对象特征中准确计算出文本信息的权重值，使得后续通过预先训练的分类器所得到的分类结果融入文本分词的属性特征，从而提升文本分类效果，减少从文本信息中提取有用信息所存在的误差。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种文本分类方法，其特征在于，包括：

获取对文本语料库中文本信息进行分词处理后的文本分词；

确定文本分词对应的属性特征；

基于所述文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值，所述适用于相应属性特征的统计模型包括针对不包含属性特征的文本分词设置的TF-IDF以及针对包含有特定属性特征的文本分词所设置的IMP-TF-IDF，其中，所述IMP-TF-IDF相比于所述TF-IDF在计算文本分词在文本中的权重值过程中融合有文本分词所包含的特定属性特征，以使得文本分词在文本信息中的权重值考虑到文本分词的特定属性特征；

2.根据权利要求1所述的方法，其特征在于，所述确定文本分词对应的属性特征，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述利用融入有对象特征的统计模型对文本信息中涉及对象特征的文本分词进行频率统计，得到涉及对象特征的文本分词在文本信息中的权重值，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述利用融入有对象特征的统计模型，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数，具体包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数，计算包含对象信息的分词在文本信息中的权重值，具体包括：

7.根据权利要求3所述的方法，其特征在于，所述利用未融入有对象特征的统计模型对文本语料信息中未涉及对象特征的文本分词进行频率统计，得到未涉及对象特征的文本分词在文本语料信息中的权重值，具体包括：

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述预先训练的分类器中赋予有针对不同分类结果进行学习所形成的区间参数，所述将所述文本分词在文本信息中的权重值输入至预先训练的分类器中进行分类，得到文本信息所映射的分类结果，具体包括：

9.一种文本分类装置，其特征在于，包括：

确定单元，用于确定文本分词对应的属性特征；

统计单元，用于基于所述文本分词对应的属性特征，选取适用于相应属性特征的统计模型对文本语料信息中文本分词进行频率统计，得到文本分词在文本信息中的权重值，所述适用于相应属性特征的统计模型包括针对不包含属性特征的文本分词设置的TF-IDF以及针对包含有特定属性特征的文本分词所设置的IMP-TF-IDF，其中，所述IMP-TF-IDF相比于所述TF-IDF在计算文本分词在文本中的权重值过程中融合有文本分词所包含的特定属性特征，以使得文本分词在文本信息中的权重值考虑到文本分词的特定属性特征；

10.根据权利要求9所述的装置，其特征在于，

所述确定单元，具体用于利用预先训练的特征语料库中所记录的分词与属性特征之间的映射关系，确定文本分词对应的属性特征；

所述确定单元包括：

11.根据权利要求9所述的装置，其特征在于，所述统计单元包括：

12.根据权利要求11所述的装置，其特征在于，所述统计模块包括：

13.根据权利要求12所述的装置，其特征在于，

所述确定子模块，具体用于利用融入有对象特征的统计模型，分别查询所述涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数；

所述确定子模块，具体还用于根据所述涉及对象特征的文本分词和未涉及对象特征的文本分词在文本信息出现的频率参数、文本语料库中文本信息所形成文本分词的数量参数，确定涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数。

14.根据权利要求12所述的装置，其特征在于，

所述计算子模块，具体用于对所述涉及对象特征的文本分词在文本语料中文本信息对应的统计参数进行运算，形成涉及对象特征的文本分词对应的统计中间量；

15.根据权利要求12所述的装置，其特征在于，

所述确定子模块，还用于利用未融入有对象特征的统计模型，确定未涉及对象特征的文本分词在文本语料库中文本信息所涉及的统计参数；

16.根据权利要求9-15中任一项所述的装置，其特征在于，所述预先训练的分类器中赋予有针对不同分类结果进行学习所形成的区间参数，所述分类单元包括：

17.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8中任一项所述的文本分类方法。

18.一种文本分类设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的文本分类方法。