CN108804622A

CN108804622A - 一种考虑语义背景的短文本分类器构造方法

Info

Publication number: CN108804622A
Application number: CN201810547970.1A
Authority: CN
Inventors: 王俊芳
Original assignee: Tianjin Exploration And Technology Co Ltd
Current assignee: Beijing Jiu'an Tianxia Technology Co ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2018-11-13
Anticipated expiration: 2038-08-20
Also published as: CN108804622B

Abstract

本发明公开一种考虑语义背景的短文本分类器构造方法。包括：收集短文本样本集，记录每个样本集所来自的社区主题，人工对样本集中的每个短文本样本给定标签，短文本样本集与对应的标签集构成了训练集。利用短文本集对一个两层的长短时记忆(Long‑short term memory，LSTM)编解码重构网络进行训练，训练好的网络可以对输入的任一一个短文本进行编码，得到输入短文本的特征向量。求取来自相同或者类似社区主题的短文本的特征向量均值，每个特征向量均值看作是对应的社区主题的短文本的语义背景向量。每个短文本减去所对应的语义背景向量，得到新的短文本样本集。利用新的短文本集与其标签来训练一个短文本分类器，本发明可以应用在短文本分类的相关业务中。

Description

一种考虑语义背景的短文本分类器构造方法

技术领域

本发明涉及计算机应用技术领域，特别涉及一种考虑语义背景的短文本分类器构造方法。

背景技术

随着互联网(包括移动互联网)技术的飞速发展，社交媒体已经成文人们日常工作与生活中发布与获取信息必不可少的主要途径之一。除了较为传统的网络社区如BBS，目前逐渐涌现出如微博和推特这种类似于个人信息门户的信息发布与获取平台，还有像微信等这样基于社会关系链接的信息平台。这些社区与平台的一个主要特点就是每天用户会发布大量的短文本信息，以表达自己的观点、评论、体验或者经历等。用户也可以通过这些社区和平台了解其朋友乃至社会的方方面面。

如何管理海量的短文本信息已经逐渐成为一个非常突出的问题。因为用户发布的海量短文本信息里面可能包括一些与社区主旨不符的、或广告性质的、甚至违规违法的内容。如何自动识别这些不良内容已经成为十分紧迫的问题。

对于短文本的分类(也即自动识别)，一般都是先提取能够体现其语义的特征，然后根据这些特征来构造短文本分类器。特征可以选取传统的词袋特征，也可以选取基于词向量的特征；分类器可以选取传统的支持向量机等，也可以选取深度神经网络。

但是目前的短文本分类方法均忽略了短文本的背景语义。一个股票涨跌相关的短文本发在旅游论坛上通常视为广告，但是如何发在股票论坛上，很可能为一个论坛用户的个人观点，也即不是广告。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种考虑语义背景的短文本分类器构造方法，该方法可根据短文本所在的论坛的主题，求取主题相同或者相似的短文本对应的语义背景向量，利用短文本的特征向量与其语义背景向量的差分来作为短文本最终的向量，以此来训练分类器。

本发明的目的是通过以下技术方案实现的：

一种考虑语义背景的短文本分类器构造方法，包括以下步骤：

步骤1：收集用于训练的短文本样本，记录每个样本所在社区的主题，人工给定每个短文本样本标签，构成短文本训练集；

步骤2：利用短文本训练集对一个两层的长短时记忆(Long-short term memory，LSTM)编解码重构网络进行训练；

步骤3：将训练好的编解码重构网络的编码子网络提取出来，将短文本训练集中的每个短文本输入到编码子网络，得到每个短文本的特征向量；

步骤4：求取相同或者相似社区主题对应的文本的特征向量均值，作为文本的语义背景向量；

步骤5：对于短文本训练集中的每个短文本，将其特征向量减去其对应的语义背景向量，得到新的特征向量；

步骤6：根据步骤5得到的特征向量与原始短文本样本标签组成的短文本训练集，利用深度神经网络或者支持向量机训练分类器。

与现有技术相比，本发明的技术方案所带来的有益效果是：

本发明方法能够将短文本所在的社区背景信息考虑进来，避免将一些在其社区属于正常类别的文本错分到不良类别中去。

附图说明

图1为本发明方法的流程图；

图2为本发明使用的两层的长短时记忆(LSTM)编解码重构网络。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明的执行环境采用一台具有3.0G赫兹中央处理器和2G字节内存的奔腾4计算机并用C++语言编制了短文本分类器构造程序，实现了本发明一种考虑语义背景的短文本分类器构造方法，还可以采用其他的执行环境，在此不再赘述。

图1为本发明提供的一种考虑语义背景的短文本分类器构造方法的流程图，其步骤如下：

步骤201：首先计算机收集最初始用于训练短文本分类器的短文本样本(每个短文本的长度限定在50个汉字以内)，记录每个短文本样本所在的社区主题，并人工对每个样本进行类别标注，构成训练集TSet1。TSet1集合的一个元素可以表示为(st_i,l_i,sub_i)，其中st_i表示短文本样本，l_i为其标签，sub_i为其对应的社区主题；

步骤202：利用TSet1包含的短文本对一个两层的长短时记忆(LSTM)编解码重构网络进行训练。这个网络示意图如图2所示。网络由编码部分(编码子网络)和解码部分(解码子网络)构成，编码子网络的输出fv即为输入短文本的特征向量。输入是一篇短文本，输出的是解码的短文本。如果输出的短文本与输入的短文本一模一样，则认为网络完美的重构除了输入文本；

步骤203：将训练好的编解码重构网络的编码部分(也即编码子网络)提取出来，将训练集中的每个短文本输入到编码子网络，得到每个短文本的特征向量v_i；

步骤204：求取社区主题相同(也即sub_i取值相同)的短文本的特征向量的均值mean(sub_i)。这个均值即为这些文本的语义背景向量；

步骤205：对于短文本集中的每个短文本，将其特征向量减去其对应的社区主题sub_i的语义背景向量mean(sub_i),得到新的特征向量v’_i＝v_i-mean(sub_i)；

步骤206：根据新的特征向量与原始标签组成的训练集，利用深度神经网络或者支持向量机训练分类器。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种考虑语义背景的短文本分类器构造方法，其特征在于，包括以下步骤：

步骤2：利用短文本训练集对一个两层的长短时记忆编解码重构网络进行训练；