CN109558588B

CN109558588B - 信息流素材创意文本的特征提取方法

Info

Publication number: CN109558588B
Application number: CN201811330027.1A
Authority: CN
Inventors: 林正春; 赵慧民; 詹瑾
Original assignee: Guangdong Yuansheng Information Technology Co ltd; Guangdong Polytechnic Normal University
Current assignee: Guangdong Yuansheng Information Technology Co ltd; Guangdong Polytechnic Normal University
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2023-03-31
Anticipated expiration: 2038-11-09
Also published as: CN109558588A

Abstract

本发明公开了一种信息流素材创意文本的特征提取方法，包括复杂网络的文本表示、特征词相关度的计算和特征词的权重计算，本发明弥补了特征项的共现频次局限于单个文本的不足，考虑特征项在类内的词频、共现频次等方面的不同，从词频的角度对特征项之间的关系进行计算，特征提取方法结果更准确。

Description

信息流素材创意文本的特征提取方法

技术领域

本发明涉及文本特征提取领域，具体涉及一种信息流素材创意文本的特征提取方法。

背景技术

现有网络中节点相关度计算只考虑了词语在文本共现的频率，忽略了词语在类内分布信息的问题进行了研究，而利用类内特征分布信息的特征提取方法，采用复杂网络表示文本，词语映射成网络的节点，词语之间的关系映射成网络节点的有向边。

发明内容

本发明的目的是为解决上述不足，提供一种信息流素材创意文本的特征提取方法。

本发明的目的是通过以下技术方案实现的：

一种信息流素材创意文本的特征提取方法，方法如下：

步骤一：复杂网络的文本表示

复杂网络就是由大量节点和连接这些节点的边所组成的集合，其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素，复杂网络中的节点之间连接的边代表节点之间的相互关系，边的权值代表了节点之间的联系强度，边的有向性体现了特征词在同一单位出现的位置关系，不同的位置关系词语之间的关联强度不一样；构建复杂网络的主要步骤如下：(1)对文本d进行分词、去停用词等预处理，把文本的特征项集合映射成网络图G的节点，得到G的初始化节点集为N＝{n₁,n₂,n₃,…n_m}；(2)从G中任意获得两个节点n_i和n_j(i＜j)，定义一个句子为一个窗口共现单位，若节点对应的特征项t_i和t_j同时出现在一个窗口中，则定义e_ij为节点n_i指向n_j的有向边，加入连接边集合E中；(3)计算网络图G边e_ij的权重w_ij；(4)计算网络图G节点n_ij自身的权重；

步骤二：特征词相关度的计算

共现频率是基于语料库的词语相关度计算的主要方法，共现频率的方法的原理是：在统计语料时统计在一定长度窗口单位的两个词，词语的相关关系随着在同一单位共现频率的增高而增强，共现频率的计算公式如下所示：

其中ω_ij表示特征词t_i与t_j在文本中的相关关系，fre(t_i)和fre(t_j)是特征词t_i和t_j在文本中出现的频次，fre(t_i,t_j)表示特征词t_i出现在特征词t_i之前的共现频次，共现频次越高，特征相关关系越大；考虑特征项之间类内分布信息共现计算特征项的相关度。记C＝{c₁,c₂,…,c_r}为训练样本类别的集合，其中c_i表示第i类，r表示训练样本类别的数目；

为第i类文本集，其中d_ij表示第i类的第j个文本，/>

为第i类的文本数目。考虑不同类别的文本出现概率不同，因此，加入文本出现的概率参数，根据类内特征词分布情况，计算特征词t_p和t_q之间的相关关系的权重为：

其中p(c_i)是i类文本出现的概率,

是特征词t_p和t_q在文本d_ij的共现频率；

步骤三、特征词的权重计算

计算特征主要从词语在文本中出现的频率(Term Frequency，TF)和包含该词语的文本频率(Inverse Document Frequency，IDF)两个方面考虑，TF是指特征词在文本中出现的频率，TF的值越大，则表明特征词对文本越重要。而IDF主要反映的是特征词在文档中的分布情况。TF-IDF权重计算公式为：

其中w(t_k,d)表示特征词t_k在文本d的权重，tf(t_k,d)表示特征词t_k在文本d的词频，N_d代表文档总数，df代表训练文档集中出现t_k文档的总数；

在c_j类中，特征词t_k的词频f计算公式为：

其中，

表示c_j内包含特征词t_k的文本数量。/>

表示t_k在文本d_i里出现的频数，/>

表示文本d_i中出现最多次数的特征词t_l的频数；

在

表达式中，引入了权重因子/>

主要反映的是从类别角度，将c_j类内出现特征词t_k的文本数同特征词出现最多的文本数相比，体现了从文本频数这一角度衡量特征词t_k对该类文本的表现能力。考虑不同类别的文本出现概率不一样，因此，加入文本出现的概率参数，即特征词t_k的词频为：

其中p(c_j)是i类文本出现的概率，r表示文本类别的数量；

则最终的权重公式为：

m表示训练集特征项数。

一种信息流素材创意文本的特征提取系统，包括：

复杂网络的文本表示模块，复杂网络中的节点之间连接的边代表节点之间的相互关系，边的权值代表了节点之间的联系强度，边的有向性体现了特征词在同一单位出现的位置关系，不同的位置关系词语之间的关联强度不一样；

特征词相关度的计算模块；以及

特征词的权重计算模块。

复杂网络的文本表示模块中：

复杂网络是由大量节点和连接这些节点的边所组成的集合，其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。

复杂网络的文本表示模块中，构建复杂网络的步骤为：

(1)对文本d进行分词、去停用词等预处理，把文本的特征项集合映射成网络图G的节点，得到G的初始化节点集为N＝{n₁,n₂,n₃,…n_m}；

(2)从G中任意获得两个节点n_i和n_j(i＜j)，定义一个句子为一个窗口共现单位，若节点对应的特征项t_i和t_j同时出现在一个窗口中，则定义e_ij为节点n_i指向n_j的有向边，加入连接边集合E中；

(3)计算网络图G边e_ij的权重w_ij；以及

(4)计算网络图G节点n_ij自身的权重.

特征词相关度的计算模块中：

其中ω_ij表示特征词t_i与t_j在文本中的相关关系，fre(t_i)和fre(t_j)是特征词t_i和t_j在文本中出现的频次，fre(t_i,t_j)表示特征词t_i出现在特征词t_i之前的共现频次，共现频次越高，特征相关关系越大；考虑特征项之间类内分布信息共现计算特征项的相关度，记C＝{c₁,c₂,…,c_r}为训练样本类别的集合，其中c_i表示第i类，r表示训练样本类别的数目；

为第i类文本集，其中d_ij表示第i类的第j个文本，/>

为第i类的文本数目，考虑不同类别的文本出现概率不同，因此，加入文本出现的概率参数，根据类内特征词分布情况，计算特征词t_p和t_q之间的相关关系的权重为：

其中p(c_i)是i类文本出现的概率,

是特征词t_p和t_q在文本d_ij的共现频率。

特征词的权重计算模块中：

计算特征主要从词语在文本中出现的频率(Term Frequency，TF)和包含该词语的文本频率(Inverse Document Frequency，IDF)两个方面考虑，TF是指特征词在文本中出现的频率，TF的值越大，则表明特征词对文本越重要，而IDF主要反映的是特征词在文档中的分布情况，TF-IDF权重计算公式为：

在c_j类中，特征词t_k的词频f计算公式为：

其中，

表示c_j内包含特征词t_k的文本数量，/>

表示t_k在文本d_i里出现的频数，

表示文本d_i中出现最多次数的特征词t_l的频数；

在

表达式中，引入了权重因子/>

主要反映的是从类别角度，将c_j类内出现特征词t_k的文本数同特征词出现最多的文本数相比，体现了从文本频数这一角度衡量特征词t_k对该类文本的表现能力，考虑不同类别的文本出现概率不一样，因此，加入文本出现的概率参数，即特征词t_k的词频为：

其中p(c_j)是i类文本出现的概率，r表示文本类别的数量；

则最终的权重公式为：

m表示训练集特征项数。

本发明具有如下有益的效果：

本发明弥补了特征项的共现频次局限于单个文本的不足，考虑特征项在类内的词频、共现频次等方面的不同，从词频的角度对特征项之间的关系进行计算，特征提取方法结果更准确。

具体实施方式

下面对本发明作进一步的说明：

一种信息流素材创意文本的特征提取方法，方法如下：

步骤一：复杂网络的文本表示

步骤二：特征词相关度的计算

为第i类文本集，其中d_ij表示第i类的第j个文本，/>

其中p(c_i)是i类文本出现的概率,

是特征词t_p和t_q在文本d_ij的共现频率；

步骤三、特征词的权重计算

在c_j类中，特征词t_k的词频f计算公式为：

其中，

表示c_j内包含特征词t_k的文本数量。/>

表示t_k在文本d_i里出现的频数，/>

表示文本d_i中出现最多次数的特征词t_l的频数；

在

表达式中，引入了权重因子/>

其中p(c_j)是i类文本出现的概率，r表示文本类别的数量；

则最终的权重公式为：

m表示训练集特征项数。

一种信息流素材创意文本的特征提取系统，包括：

特征词相关度的计算模块；以及

特征词的权重计算模块。

复杂网络的文本表示模块中：

复杂网络的文本表示模块中，构建复杂网络的步骤为：

(3)计算网络图G边e_ij的权重w_ij；以及

(4)计算网络图G节点n_ij自身的权重.

特征词相关度的计算模块中：

为第i类文本集，其中d_ij表示第i类的第j个文本，/>

其中p(c_i)是i类文本出现的概率,

是特征词t_p和t_q在文本d_ij的共现频率。

特征词的权重计算模块中：

在c_j类中，特征词t_k的词频f计算公式为：

其中，

表示c_j内包含特征词_tk的文本数量，/>

表示t_k在文本d_i里出现的频数，/>

表示文本d_i中出现最多次数的特征词t_l的频数；

在

表达式中，引入了权重因子/>

其中p(c_j)是i类文本出现的概率，r表示文本类别的数量；

则最终的权重公式为：

m表示训练集特征项数。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种信息流素材创意文本的特征提取方法，其特征在于：包括：

步骤一：复杂网络的文本表示，复杂网络中的节点之间连接的边代表节点之间的相互关系，边的权值代表了节点之间的联系强度，边的有向性体现了特征词在同一单位出现的位置关系，不同的位置关系词语之间的关联强度不一样；

步骤二：特征词相关度的计算：

共现频率是基于语料库的词语相关度计算的方法，共现频率的方法的原理是：在统计语料时统计在一定长度窗口单位的两个词，词语的相关关系随着在同一单位共现频率的增高而增强，共现频率的计算公式如下所示：

其中ω_ij表示特征词t_i与t_j在文本中的相关关系，fre(t_i)和fre(t_j)是特征词t_i和t_j在文本中出现的频次，fre(t_i,t_j)表示特征词t_i出现在特征词t_j之前的共现频次，共现频次越高，特征相关关系越大；考虑特征项之间类内分布信息共现计算特征项的相关度，记C＝{c₁,c₂,…,c_r}为训练样本类别的集合，其中c_i表示第i类，r表示训练样本类别的数目；

为第i类文本集，其中d_ij表示第i类的第j个文本，/>

为第i类的文本数目；考虑不同类别的文本出现概率不同，因此，加入文本出现的概率参数，根据类内特征词分布情况，计算特征词t_p和t_q之间的相关关系的权重为：

其中p(c_i)是i类文本出现的概率,

是特征词t_p和t_q在文本d_ij的共现频率；以及

步骤三：特征词的权重计算。

2.如权利要求1所述的方法，其特征在于，所述步骤一包括：

3.如权利要求2所述的方法，其特征在于，所述步骤一中，构建复杂网络的步骤为：

(1)对文本d进行分词、去停用词预处理，把文本的特征项集合映射成网络图G的节点，得到G的初始化节点集为N＝{n₁,n₂,n₃,…n_m}；

(2)从G中任意获得两个节点n_i和n_j(i＜j)，，定义一个句子为一个窗口共现单位，若节点对应的特征项t_i和t_j同时出现在一个窗口中，则定义e_ij为节点n_i指向n_j的有向边，加入连接边集合E中；

(3)计算网络图G边e_ij的权重w_ij；以及

(4)计算网络图G节点n_ij自身的权重。

4.如权利要求1所述的方法，其特征在于，所述步骤三包括：

计算特征从词语在文本中出现的频率(Term Frequency，TF)和包含该词语的文本频率(Inverse Document Frequency，IDF)两个方面考虑，TF是指特征词在文本中出现的频率，TF的值越大，则表明特征词对文本越重要，而IDF反映的是特征词在文档中的分布情况，TF-IDF权重计算公式为：