CN111680158A

CN111680158A - 开放领域的短文本分类方法、装置、设备及存储介质

Info

Publication number: CN111680158A
Application number: CN202010521294.8A
Authority: CN
Inventors: 张发恩; 王一川
Original assignee: Innovation Qizhi Qingdao Technology Co ltd
Current assignee: Innovation Qizhi Qingdao Technology Co ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-18

Abstract

本申请涉及文本数据处理领域，具体而言，本申请公开一种开放领域的短文本分类方法、装置、设备及存储介质，其中，开放领域的短文本分类方法包括步骤：获取待分类短文本、根据开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本、对所述反馈文本进行特征提取并得到所述待分类短文本的扩展词集合、根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。本申请具有待分类关键词不受词典限制、能够不经过训练步骤即对短文本进行分类的优点。同时，本申请具有计算简洁的优点。

Description

开放领域的短文本分类方法、装置、设备及存储介质

技术领域

本申请涉及文本数据处理领域，尤其涉及一种开放领域的短文本分类方法、装置、设备及存储介质。

背景技术

随着技术的发展，短文本在搜索引擎、自动问答和话题跟踪等领域发挥着重要的作用。目前，在短文本的分类过程中，现有的短文本的分类方法对待分类关键词有词典限制，而使得短文本的分类不够灵活。

发明内容

本申请目的在于公开一种开放领域的短文本分类方法、装置、设备及存储介质。

本申请第一方面公开一种开放领域的短文本分类方法，所述方法包括步骤：

获取待分类短文本；

根据开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本；

对所述反馈文本进行特征提取并得到所述待分类短文本的扩展词集合；

根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。

在本申请第一方面中，通过开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本，进而能够根据反馈文本得到扩展词集合，最终能够根据扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。与现有技术相比，本申请能够避免词典对待分类关键词的限制。

作为一种可选的实施方式，所述根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别之前，所述方法还包括：

检索文本数据并生成语料；

根据所述语料构建所述若干类语料库；

匹配所述若干类语料库的搜索索引。

在本可选的实施方式中，能够根据检索的文本数据构建若干类语料库，并能够为每个语料库关联搜索索引。

作为一种可选的实施方式，所述文本数据为百科类数据。

在本可选的实施方式中，文本数据为从维基百科网站获取的百科类数据。

作为一种可选的实施方式，所述根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别，包括：

根据所述待分类短文本的扩展词集合在所述若干类语料库中搜索并得到若干类语料库的检索结果；

根据所述若干类语料库的检索结果确定所述待分类短文本的分类类别。

在本可选的实施方式中，能够所述若干类语料库的检索得分确定所述待分类短文本的分类类别。

作为一种可选的实施方式，所述根据所述若干类语料库的检索结果确定所述待分类短文本的分类类别，包括：

根据所述若干类语料库的检索结果确定检索得分；

比较每个所述语料库的检索得分，并根据比较结果确定所述待分类短文本的分类类别。

在本可选的实施方式中，能够通过比较每个所述语料库的检索得分确定所述待分类短文本的分类类别。

作为一种可选的实施方式，每个类别的所述语料库的语料的数目相同，每个类别的所述语料库的语料的篇幅长短相同。

在本可选的实施方式中，由于每个类别语料库中的语料数目相同，篇幅长短相同，因此与现有技术相比，能够不经过训练步骤即对短文本进行分类。

作为一种可选的实施方式，所述根据所述若干类语料库的检索结果确定检索得分，包括：

基于所述若干类语料库的检索结果，根据最邻近分类算法确定检索得分。

在本可选的实施方式中，基于最邻近分类算法能够对所述待分类短文本进行分类。

本申请第二方面公开一种开放领域的短文本分类装置，该装置包括：

获取模块，用于获取待分类短文本；

计算模块，用于根据开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本；

提取模块，用于对所述反馈文本进行特征提取并得到所述待分类短文本的扩展词集合；

分类模块，用于根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。

在本申请第二方面中，开放领域的短文本分类装置通过执行开放领域的短文本分类方法，能够通过开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本，进而能够根据反馈文本得到扩展词集合，最终能够根据扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。与现有技术相比，本申请能够避免词典对待分类关键词的限制。

本申请第三方面公开一种开放领域的短文本分类设备，所述设备包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时执行本申请的开放领域的短文本分类方法。

在本申请第三方面中，开放领域的短文本分类设备通过执行开放领域的短文本分类方法，能够通过开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本，进而能够根据反馈文本得到扩展词集合，最终能够根据扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。与现有技术相比，本申请能够避免词典对待分类关键词的限制。

本申请第四方面公开一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，执行本申请的开放领域的短文本分类方法。

在本申请第四方面中，存储介质通过执行开放领域的短文本分类方法，能够通过开放领域搜索引擎对所述待分类短文本进行相关反馈计算并得到所述待分类短文本的反馈文本，进而能够根据反馈文本得到扩展词集合，最终能够根据扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别。与现有技术相比，本申请能够避免词典对待分类关键词的限制。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一公开的一种开放领域的短文本分类方法的流程示意图；

图2为本申请实施例二公开的一种开放领域的短文本分类方法的流程示意图；

图3为本申请实施例三公开的一种开放领域的短文本分类装置的结构示意图；

图4为本申请实施例四公开的一种开放领域的短文本分类装置的结构示意图；

图5为本申请实施例五公开的一种开放领域的短文本分类设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，本申请的一种开放领域的短文本分类方法、装置设备及存储介质可以应用于自动问答问题分类、网页页面广告投放、搜索分类等场景中，与现有技术相比，具有适用范围更广的特点。

实施例一

请参阅图1，图1是本申请实施例公开的一种开放领域的短文本分类方法的流程示意图。如图1所示，本申请实施例的开放领域的短文本分类方法包括步骤：

101、获取待分类短文本；

102、根据开放领域搜索引擎对待分类短文本进行相关反馈计算并得到待分类短文本的反馈文本；

103、对反馈文本进行特征提取并得到待分类短文本的扩展词集合；

104、根据若干类语料库和待分类短文本的扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别。

在本申请实施例中，通过开放领域搜索引擎对待分类短文本进行相关反馈计算并得到待分类短文本的反馈文本，进而能够根据反馈文本得到扩展词集合，最终能够根据扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别。与现有技术相比，本申请能够避免词典对待分类关键词的限制。

示例性地，假设待分类短文本有3个单词，那么开放领域搜索引擎根据这3个单词进行搜索并得到反馈文本。

在本申请实施例中，相关性计算模型是布尔模型，其中，布尔模型是通过布尔代数运算计算待分类短文本中的单词与初步搜索文档之前的相关性。需要说明的是，相关性计算模型也可以是其他类型的模型，例如，相关性计算模型可以向量空间模型，因此，本申请实施例对相关性计算模型的具体类型不作限定。

在本申请实施例中，当得到反馈文本后，需对反馈文本进行特征提取。例如，针对一个反馈文本，提取该反馈文本中每个单词的词频，即每个单词在该反馈文本出现的次数，进而在反馈文本中选取词频最高的单词或选取词频大于预设阈值的若干单词，进而根据选取结果得到扩展词集合。

示例性地，假设待分类文本为“这里是中国”，通过开放领域搜索引擎搜索后，待分类文本的反馈文本包含“这里、地方、哪里、国家、中国”，进而“这里”、“地方”、“哪里”、“国家”、“中国”出现的次数分别为1、2、3、4、5，进而扩展词集集合为“国家”、“中国”，从而将待分类文本分类在亚洲类语料库或国家类语料库中。

作为一种可选的实施方式，步骤104：根据若干类语料库和待分类短文本的扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别，包括子步骤：

根据待分类短文本的扩展词集合在若干类语料库中搜索并得到若干类语料库的检索结果；

根据若干类语料库的检索结果确定待分类短文本的分类类别。

在本可选的实施方式中，能够根据若干类语料库的检索结果确定待分类短文本的分类类别。

在本申请实施例中，语料库可以是体育类语料库，也可以是娱乐类语料库等其他类语料库。需要说明的是，每个语料库均绑定预设的分类标签。

作为一种可选的实施方式，步骤：根据若干类语料库的检索结果确定待分类短文本的分类类别，包括子步骤：

根据若干类语料库的检索结果确定检索得分；

比较每个语料库的检索得分，并根据比较结果确定待分类短文本的分类类别。

在本可选的实施方式中，能够通过比较每个语料库的检索得分确定待分类短文本的分类类别。

示例性地，假设待分类文本的扩展词集集合为“中国、地方、国家、亚洲”，有亚洲类语料库、国家类语料库，该扩展词集集合的各个词语在这两类语料库出现的次数分别为{2；3；4；5}、{2；4；6；8},进而，该扩展词集集合在该语料库中的检索得分为14分和20分，从而通过比较扩展词集集合在该语料库中的检索得分，可以将待分类文本分类至

“国家类语料库”中。

作为一种可选的实施方式，每个类别的语料库的语料的数目相同，

每个类别的语料库的语料的篇幅长短相同。

在本可选的实施方式中，由于每个类别语料库中的语料数目相同，

篇幅长短相同，因此与现有技术相比，能够不经过训练步骤即对短文本进行分类。

作为一种可选的实施方式，步骤：根据若干类语料库的检索结果确定检索得分，包括子步骤：

基于若干类语料库的检索结果，根据最邻近分类算法确定检索得分。

在本可选的实施方式中，基于最邻近分类算法能够对待分类短文本进行分类。

实施例二

请参阅图2，图2是本申请实施例公开的一种开放领域的短文本分类方法的流程示意图。如图2所示，本申请实施例开放领域的短文本分类方法包括步骤：包括步骤：

201、检索文本数据并生成语料；

202、根据语料构建若干类语料库；

203、匹配若干类语料库的搜索索引；

204、获取待分类短文本；

205、根据开放领域搜索引擎对待分类短文本进行相关反馈计算并得到待分类短文本的反馈文本；

206、对反馈文本进行特征提取并得到待分类短文本的扩展词集合；

207、根据若干类语料库和待分类短文本的扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别。

本申请实施例能够根据检索的文本数据构建若干类语料库，并能够为每个语料库关联搜索索引，其中，搜索索引用于对语料库进行检索。

具体地，文本数据为从维基百科网站获取的百科类数据。更为具体地，根据检索到百科类数据生成语料的具体方式为：对百科类数据进行预处理以生成语料。

示例性地，针对获取的百科类数据，根据抽样范围对百科类数据进行抽样，进而得到多个语料库。

需要说明的是，关于步骤204、步骤205、步骤206、步骤207的详细描述可参考本申请实施例一中的步骤101、步骤102、步骤103、步骤104的详细描述，在此不作赘述。

实施例三

请参阅图3，图3是本申请实施例公开的一种开放领域的短文本分类装置的结构示意图。如图3所示，该开放领域的短文本分类装置包括获取模块301、计算模块302、提取模块303、分类模块304，其中：

获取模块301，用于获取待分类短文本；

计算模块302，用于根据开放领域搜索引擎对待分类短文本进行相关反馈计算并得到待分类短文本的反馈文本；

提取模块303，用于对反馈文本进行特征提取并得到待分类短文本的扩展词集合；

分类模块304，用于根据若干类语料库和待分类短文本的扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别。

在本申请实施例中，开放领域的短文本分类装置通过执行开放领域的短文本分类方法，能够通过开放领域搜索引擎对待分类短文本进行相关反馈计算并得到待分类短文本的反馈文本，进而能够根据反馈文本得到扩展词集合，最终能够根据扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别。与现有技术相比，本申请能够避免词典对待分类关键词的限制。

作为一种可选的实施方式，分类模块304执行根据若干类语料库和待分类短文本的扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别的具体方式为：

在本可选的实施方式中，能够若干类语料库的检索得分确定待分类短文本的分类类别。

作为一种可选的实施方式，进一步地，分类模块304执行根据若干类语料库的检索结果确定待分类短文本的分类类别，包括子步骤：

根据若干类语料库的检索结果确定检索得分；

“国家类语料库”中。

每个类别的语料库的语料的篇幅长短相同。

作为一种可选的实施方式，分类模块304执行根据若干类语料库的检索结果确定检索得分的具体方式为

实施例四

请参阅图4，图4是本申请实施例公开的一种开放领域的短文本分类装置的结构示意图。如图4所示，本申请实施例的开放领域的短文本分类装置除了包括获取模块301、计算模块302、提取模块303、分类模块304之外，还包括检索模块305、构建模块306、匹配模块307，其中：

检索模块305，用于检索文本数据并生成语料；

构建模块306，用于根据语料构建若干类语料库；

匹配模块307，匹配若干类语料库的搜索索引。

本申请实施例能够根据检索的文本数据构建若干类语料库，并能够为每个语料库关联搜索索引。

需要说明的是，当匹配模块307执行匹配若干类语料库的搜索索引这一步骤完毕后，可以触发步骤获取模块301启动。

实施例五

请参阅图5，图5是本申请实施例公开的一种开放领域的短文本分类设备的结构示意图。如图5所示，该设备包括：

处理器502；以及

存储器501，配置用于存储机器可读指令，该指令在由处理器502执行时执行本申请实施例一、实施例二公开的开放领域的短文本分类方法。

在本申请实施例中，开放领域的短文本分类设备通过执行开放领域的短文本分类方法，能够通过开放领域搜索引擎对待分类短文本进行相关反馈计算并得到待分类短文本的反馈文本，进而能够根据反馈文本得到扩展词集合，最终能够根据扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别。与现有技术相比，本申请能够避免词典对待分类关键词的限制。

实施例六

本申请实施例公开一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，执行本申请实施例一、实施例二公开的开放领域的短文本分类方法。

在本申请实施例中，存储介质通过执行开放领域的短文本分类方法，能够通过开放领域搜索引擎对待分类短文本进行相关反馈计算并得到待分类短文本的反馈文本，进而能够根据反馈文本得到扩展词集合，最终能够根据扩展词集合对待分类短文本进行分类并得到待分类短文本的分类类别。与现有技术相比，本申请能够避免词典对待分类关键词的限制。

在本申请所公开的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，定位基站，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种开放领域的短文本分类方法，其特征在于，所述方法包括：

获取待分类短文本；

2.如权利要求1所述的方法，其特征在于，在所述根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别之前，所述方法还包括：

检索文本数据并生成语料；

根据所述语料构建所述若干类语料库；

匹配若干类语料库的搜索索引。

3.如权利要求2所述的方法，其特征在于，所述文本数据为百科类数据。

4.如权利要求2所述的方法，其特征在于，所述根据若干类语料库和所述待分类短文本的扩展词集合对所述待分类短文本进行分类并得到所述待分类短文本的分类类别，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述若干类语料库的检索结果确定所述待分类短文本的分类类别，包括：

根据所述若干类语料库的检索结果确定检索得分；

6.如权利要求5所述的方法，其特征在于，所述根据所述若干类语料库的检索结果确定检索得分，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，每个类别的所述语料库的语料的数目相同，每个类别的所述语料库的语料的篇幅长短相同。

8.一种开放领域的短文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取待分类短文本；

9.一种开放领域的短文本分类设备，其特征在于，所述设备包括：

处理器；以及

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时执行如权利要求1-7任一项所述的开放领域的短文本分类方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如权利要求1-7任一项所述的开放领域的短文本分类方法。