CN109558588B - 信息流素材创意文本的特征提取方法 - Google Patents

信息流素材创意文本的特征提取方法 Download PDF

Info

Publication number
CN109558588B
CN109558588B CN201811330027.1A CN201811330027A CN109558588B CN 109558588 B CN109558588 B CN 109558588B CN 201811330027 A CN201811330027 A CN 201811330027A CN 109558588 B CN109558588 B CN 109558588B
Authority
CN
China
Prior art keywords
text
word
occurrence
frequency
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811330027.1A
Other languages
English (en)
Other versions
CN109558588A (zh
Inventor
林正春
赵慧民
詹瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Yuansheng Information Technology Co ltd
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Yuansheng Information Technology Co ltd
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Yuansheng Information Technology Co ltd, Guangdong Polytechnic Normal University filed Critical Guangdong Yuansheng Information Technology Co ltd
Priority to CN201811330027.1A priority Critical patent/CN109558588B/zh
Publication of CN109558588A publication Critical patent/CN109558588A/zh
Application granted granted Critical
Publication of CN109558588B publication Critical patent/CN109558588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种信息流素材创意文本的特征提取方法,包括复杂网络的文本表示、特征词相关度的计算和特征词的权重计算,本发明弥补了特征项的共现频次局限于单个文本的不足,考虑特征项在类内的词频、共现频次等方面的不同,从词频的角度对特征项之间的关系进行计算,特征提取方法结果更准确。

Description

信息流素材创意文本的特征提取方法
技术领域
本发明涉及文本特征提取领域,具体涉及一种信息流素材创意文本的特征提取方法。
背景技术
现有网络中节点相关度计算只考虑了词语在文本共现的频率,忽略了词语在类内分布信息的问题进行了研究,而利用类内特征分布信息的特征提取方法,采用复杂网络表示文本,词语映射成网络的节点,词语之间的关系映射成网络节点的有向边。
发明内容
本发明的目的是为解决上述不足,提供一种信息流素材创意文本的特征提取方法。
本发明的目的是通过以下技术方案实现的:
一种信息流素材创意文本的特征提取方法,方法如下:
步骤一:复杂网络的文本表示
复杂网络就是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;构建复杂网络的主要步骤如下:(1)对文本d进行分词、去停用词等预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};(2)从G中任意获得两个节点ni和nj(i<j),定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;(3)计算网络图G边eij的权重wij;(4)计算网络图G节点nij自身的权重;
步骤二:特征词相关度的计算
共现频率是基于语料库的词语相关度计算的主要方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
Figure BDA0001859714040000021
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词ti之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度。记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;
Figure BDA0001859714040000022
为第i类文本集,其中dij表示第i类的第j个文本,/>
Figure BDA0001859714040000023
为第i类的文本数目。考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
Figure BDA0001859714040000024
其中p(ci)是i类文本出现的概率,
Figure BDA0001859714040000031
是特征词tp和tq在文本dij的共现频率;
步骤三、特征词的权重计算
计算特征主要从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要。而IDF主要反映的是特征词在文档中的分布情况。TF-IDF权重计算公式为:
Figure BDA0001859714040000032
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
Figure BDA0001859714040000033
其中,
Figure BDA0001859714040000034
表示cj内包含特征词tk的文本数量。/>
Figure BDA0001859714040000035
表示tk在文本di里出现的频数,/>
Figure BDA0001859714040000036
表示文本di中出现最多次数的特征词tl的频数;
Figure BDA0001859714040000037
表达式中,引入了权重因子/>
Figure BDA0001859714040000038
主要反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力。考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
Figure BDA0001859714040000041
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
Figure BDA0001859714040000042
m表示训练集特征项数。
一种信息流素材创意文本的特征提取系统,包括:
复杂网络的文本表示模块,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;
特征词相关度的计算模块;以及
特征词的权重计算模块。
复杂网络的文本表示模块中:
复杂网络是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。
复杂网络的文本表示模块中,构建复杂网络的步骤为:
(1)对文本d进行分词、去停用词等预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};
(2)从G中任意获得两个节点ni和nj(i<j),定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;
(3)计算网络图G边eij的权重wij;以及
(4)计算网络图G节点nij自身的权重.
特征词相关度的计算模块中:
共现频率是基于语料库的词语相关度计算的主要方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
Figure BDA0001859714040000051
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词ti之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度,记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;
Figure BDA0001859714040000052
为第i类文本集,其中dij表示第i类的第j个文本,/>
Figure BDA0001859714040000053
为第i类的文本数目,考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
Figure BDA0001859714040000061
其中p(ci)是i类文本出现的概率,
Figure BDA0001859714040000062
是特征词tp和tq在文本dij的共现频率。
特征词的权重计算模块中:
计算特征主要从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要,而IDF主要反映的是特征词在文档中的分布情况,TF-IDF权重计算公式为:
Figure BDA0001859714040000063
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
Figure BDA0001859714040000064
其中,
Figure BDA0001859714040000065
表示cj内包含特征词tk的文本数量,/>
Figure BDA0001859714040000066
表示tk在文本di里出现的频数,
Figure BDA0001859714040000067
表示文本di中出现最多次数的特征词tl的频数;
Figure BDA0001859714040000071
表达式中,引入了权重因子/>
Figure BDA0001859714040000072
主要反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力,考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
Figure BDA0001859714040000073
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
Figure BDA0001859714040000074
m表示训练集特征项数。
本发明具有如下有益的效果:
本发明弥补了特征项的共现频次局限于单个文本的不足,考虑特征项在类内的词频、共现频次等方面的不同,从词频的角度对特征项之间的关系进行计算,特征提取方法结果更准确。
具体实施方式
下面对本发明作进一步的说明:
一种信息流素材创意文本的特征提取方法,方法如下:
步骤一:复杂网络的文本表示
复杂网络就是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;构建复杂网络的主要步骤如下:(1)对文本d进行分词、去停用词等预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};(2)从G中任意获得两个节点ni和nj(i<j),定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;(3)计算网络图G边eij的权重wij;(4)计算网络图G节点nij自身的权重;
步骤二:特征词相关度的计算
共现频率是基于语料库的词语相关度计算的主要方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
Figure BDA0001859714040000081
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词ti之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度。记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;
Figure BDA0001859714040000082
为第i类文本集,其中dij表示第i类的第j个文本,/>
Figure BDA0001859714040000083
为第i类的文本数目。考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
Figure BDA0001859714040000091
其中p(ci)是i类文本出现的概率,
Figure BDA0001859714040000092
是特征词tp和tq在文本dij的共现频率;
步骤三、特征词的权重计算
计算特征主要从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要。而IDF主要反映的是特征词在文档中的分布情况。TF-IDF权重计算公式为:
Figure BDA0001859714040000093
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
Figure BDA0001859714040000094
其中,
Figure BDA0001859714040000095
表示cj内包含特征词tk的文本数量。/>
Figure BDA0001859714040000096
表示tk在文本di里出现的频数,/>
Figure BDA0001859714040000101
表示文本di中出现最多次数的特征词tl的频数;
Figure BDA0001859714040000102
表达式中,引入了权重因子/>
Figure BDA0001859714040000103
主要反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力。考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
Figure BDA0001859714040000104
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
Figure BDA0001859714040000105
m表示训练集特征项数。
一种信息流素材创意文本的特征提取系统,包括:
复杂网络的文本表示模块,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;
特征词相关度的计算模块;以及
特征词的权重计算模块。
复杂网络的文本表示模块中:
复杂网络是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。
复杂网络的文本表示模块中,构建复杂网络的步骤为:
(1)对文本d进行分词、去停用词等预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};
(2)从G中任意获得两个节点ni和nj(i<j),定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;
(3)计算网络图G边eij的权重wij;以及
(4)计算网络图G节点nij自身的权重.
特征词相关度的计算模块中:
共现频率是基于语料库的词语相关度计算的主要方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
Figure BDA0001859714040000111
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词ti之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度,记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;
Figure BDA0001859714040000121
为第i类文本集,其中dij表示第i类的第j个文本,/>
Figure BDA0001859714040000122
为第i类的文本数目,考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
Figure BDA0001859714040000123
其中p(ci)是i类文本出现的概率,
Figure BDA0001859714040000124
是特征词tp和tq在文本dij的共现频率。
特征词的权重计算模块中:
计算特征主要从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要,而IDF主要反映的是特征词在文档中的分布情况,TF-IDF权重计算公式为:
Figure BDA0001859714040000125
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
Figure BDA0001859714040000126
其中,
Figure BDA0001859714040000131
表示cj内包含特征词tk的文本数量,/>
Figure BDA0001859714040000132
表示tk在文本di里出现的频数,/>
Figure BDA0001859714040000133
表示文本di中出现最多次数的特征词tl的频数;
Figure BDA0001859714040000134
表达式中,引入了权重因子/>
Figure BDA0001859714040000135
主要反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力,考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
Figure BDA0001859714040000136
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
Figure BDA0001859714040000137
m表示训练集特征项数。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (8)

1.一种信息流素材创意文本的特征提取方法,其特征在于:包括:
步骤一:复杂网络的文本表示,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;
步骤二:特征词相关度的计算:
共现频率是基于语料库的词语相关度计算的方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
Figure FDA0003981077570000011
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词tj之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度,记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;
Figure FDA0003981077570000012
为第i类文本集,其中dij表示第i类的第j个文本,/>
Figure FDA0003981077570000013
为第i类的文本数目;考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
Figure FDA0003981077570000014
其中p(ci)是i类文本出现的概率,
Figure FDA0003981077570000015
是特征词tp和tq在文本dij的共现频率;以及
步骤三:特征词的权重计算。
2.如权利要求1所述的方法,其特征在于,所述步骤一包括:
复杂网络是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。
3.如权利要求2所述的方法,其特征在于,所述步骤一中,构建复杂网络的步骤为:
(1)对文本d进行分词、去停用词预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};
(2)从G中任意获得两个节点ni和nj(i<j),,定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;
(3)计算网络图G边eij的权重wij;以及
(4)计算网络图G节点nij自身的权重。
4.如权利要求1所述的方法,其特征在于,所述步骤三包括:
计算特征从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要,而IDF反映的是特征词在文档中的分布情况,TF-IDF权重计算公式为:
Figure FDA0003981077570000031
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
cj类中,特征词tk的词频f计算公式为:
Figure FDA0003981077570000032
其中,
Figure FDA0003981077570000033
表示cj内包含特征词tk的文本数量;/>
Figure FDA0003981077570000034
表示tk在文本di里出现的频数,
Figure FDA0003981077570000035
表示文本di中出现最多次数的特征词tl的频数;
Figure FDA0003981077570000036
表达式中,引入了权重因子/>
Figure FDA0003981077570000037
反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力;考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
Figure FDA0003981077570000038
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
Figure FDA0003981077570000039
5.一种信息流素材创意文本的特征提取系统,其特征在于:包括:
复杂网络的文本表示模块,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;
特征词相关度的计算模块,所述计算模块的相关度计算包括:
共现频率是基于语料库的词语相关度计算的方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
Figure FDA0003981077570000041
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词tj之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度,记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;
Figure FDA0003981077570000042
为第i类文本集,其中dij表示第i类的第j个文本,/>
Figure FDA0003981077570000043
为第i类的文本数目;考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
Figure FDA0003981077570000044
其中p(ci)是i类文本出现的概率,
Figure FDA0003981077570000045
是特征词tp和tq在文本dij的共现频率;以及
特征词的权重计算模块。
6.如权利要求5所述的系统,其特征在于,复杂网络的文本表示模块中:
复杂网络是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。
7.如权利要求6所述的系统,其特征在于,复杂网络的文本表示模块中,构建复杂网络的步骤为:
(1)对文本d进行分词、去停用词预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};
(2)从G中任意获得两个节点ni和nj(i<j),,定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;
(3)计算网络图G边eij的权重wij;以及
(4)计算网络图G节点nij自身的权重。
8.如权利要求5所述的系统,其特征在于,特征词的权重计算模块中:
计算特征从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要,而IDF反映的是特征词在文档中的分布情况,TF-IDF权重计算公式为:
Figure FDA0003981077570000061
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
cj类中,特征词tk的词频f计算公式为:
Figure FDA0003981077570000062
其中,
Figure FDA0003981077570000063
表示cj内包含特征词tk的文本数量;/>
Figure FDA0003981077570000064
表示tk在文本di里出现的频数,/>
Figure FDA0003981077570000065
表示文本di中出现最多次数的特征词tl的频数;
Figure FDA0003981077570000066
表达式中,引入了权重因子/>
Figure FDA0003981077570000067
反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力;考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
Figure FDA0003981077570000068
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
Figure FDA0003981077570000069
/>
CN201811330027.1A 2018-11-09 2018-11-09 信息流素材创意文本的特征提取方法 Active CN109558588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811330027.1A CN109558588B (zh) 2018-11-09 2018-11-09 信息流素材创意文本的特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811330027.1A CN109558588B (zh) 2018-11-09 2018-11-09 信息流素材创意文本的特征提取方法

Publications (2)

Publication Number Publication Date
CN109558588A CN109558588A (zh) 2019-04-02
CN109558588B true CN109558588B (zh) 2023-03-31

Family

ID=65865865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811330027.1A Active CN109558588B (zh) 2018-11-09 2018-11-09 信息流素材创意文本的特征提取方法

Country Status (1)

Country Link
CN (1) CN109558588B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232726B (zh) * 2019-04-26 2021-07-13 特赞(上海)信息科技有限公司 创意素材的生成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN108491429A (zh) * 2018-02-09 2018-09-04 湖北工业大学 一种基于类内类间文档频和词频统计的特征选择方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013043160A1 (en) * 2011-09-20 2013-03-28 Hewlett-Packard Development Company, L.P. Text summarization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN108491429A (zh) * 2018-02-09 2018-09-04 湖北工业大学 一种基于类内类间文档频和词频统计的特征选择方法

Also Published As

Publication number Publication date
CN109558588A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN101488150B (zh) 一种实时多角度网络热点事件分析装置及分析方法
Lossio-Ventura et al. Yet another ranking function for automatic multiword term extraction
CN106599029A (zh) 一种中文短文本聚类方法
CN102214241B (zh) 一种基于图聚类的用户生成文本流中的突发话题检测方法
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN106844331A (zh) 一种句子相似度计算方法和系统
CN103324628A (zh) 一种针对发布文本的行业分类方法和系统
CN110781679B (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN103116588A (zh) 一种个性化推荐方法及系统
CN105005594A (zh) 异常微博用户识别方法
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
CN104239512A (zh) 一种文本推荐方法
CN103473217B (zh) 从文本中抽取关键词的方法和装置
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN108170666A (zh) 一种基于tf-idf关键词提取的改进方法
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN106682123A (zh) 一种获取热点事件的方法及装置
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
Choudhury et al. How difficult is it to develop a perfect spell-checker? A cross-linguistic analysis through complex network approach
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant