CN109558588B - 信息流素材创意文本的特征提取方法 - Google Patents
信息流素材创意文本的特征提取方法 Download PDFInfo
- Publication number
- CN109558588B CN109558588B CN201811330027.1A CN201811330027A CN109558588B CN 109558588 B CN109558588 B CN 109558588B CN 201811330027 A CN201811330027 A CN 201811330027A CN 109558588 B CN109558588 B CN 109558588B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- occurrence
- frequency
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种信息流素材创意文本的特征提取方法,包括复杂网络的文本表示、特征词相关度的计算和特征词的权重计算,本发明弥补了特征项的共现频次局限于单个文本的不足,考虑特征项在类内的词频、共现频次等方面的不同,从词频的角度对特征项之间的关系进行计算,特征提取方法结果更准确。
Description
技术领域
本发明涉及文本特征提取领域,具体涉及一种信息流素材创意文本的特征提取方法。
背景技术
现有网络中节点相关度计算只考虑了词语在文本共现的频率,忽略了词语在类内分布信息的问题进行了研究,而利用类内特征分布信息的特征提取方法,采用复杂网络表示文本,词语映射成网络的节点,词语之间的关系映射成网络节点的有向边。
发明内容
本发明的目的是为解决上述不足,提供一种信息流素材创意文本的特征提取方法。
本发明的目的是通过以下技术方案实现的:
一种信息流素材创意文本的特征提取方法,方法如下:
步骤一:复杂网络的文本表示
复杂网络就是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;构建复杂网络的主要步骤如下:(1)对文本d进行分词、去停用词等预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};(2)从G中任意获得两个节点ni和nj(i<j),定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;(3)计算网络图G边eij的权重wij;(4)计算网络图G节点nij自身的权重;
步骤二:特征词相关度的计算
共现频率是基于语料库的词语相关度计算的主要方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词ti之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度。记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;为第i类文本集,其中dij表示第i类的第j个文本,/>为第i类的文本数目。考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
步骤三、特征词的权重计算
计算特征主要从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要。而IDF主要反映的是特征词在文档中的分布情况。TF-IDF权重计算公式为:
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
在表达式中,引入了权重因子/>主要反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力。考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
m表示训练集特征项数。
一种信息流素材创意文本的特征提取系统,包括:
复杂网络的文本表示模块,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;
特征词相关度的计算模块;以及
特征词的权重计算模块。
复杂网络的文本表示模块中:
复杂网络是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。
复杂网络的文本表示模块中,构建复杂网络的步骤为:
(1)对文本d进行分词、去停用词等预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};
(2)从G中任意获得两个节点ni和nj(i<j),定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;
(3)计算网络图G边eij的权重wij;以及
(4)计算网络图G节点nij自身的权重.
特征词相关度的计算模块中:
共现频率是基于语料库的词语相关度计算的主要方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词ti之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度,记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;为第i类文本集,其中dij表示第i类的第j个文本,/>为第i类的文本数目,考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
特征词的权重计算模块中:
计算特征主要从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要,而IDF主要反映的是特征词在文档中的分布情况,TF-IDF权重计算公式为:
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
在表达式中,引入了权重因子/>主要反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力,考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
m表示训练集特征项数。
本发明具有如下有益的效果:
本发明弥补了特征项的共现频次局限于单个文本的不足,考虑特征项在类内的词频、共现频次等方面的不同,从词频的角度对特征项之间的关系进行计算,特征提取方法结果更准确。
具体实施方式
下面对本发明作进一步的说明:
一种信息流素材创意文本的特征提取方法,方法如下:
步骤一:复杂网络的文本表示
复杂网络就是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;构建复杂网络的主要步骤如下:(1)对文本d进行分词、去停用词等预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};(2)从G中任意获得两个节点ni和nj(i<j),定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;(3)计算网络图G边eij的权重wij;(4)计算网络图G节点nij自身的权重;
步骤二:特征词相关度的计算
共现频率是基于语料库的词语相关度计算的主要方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词ti之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度。记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;为第i类文本集,其中dij表示第i类的第j个文本,/>为第i类的文本数目。考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
步骤三、特征词的权重计算
计算特征主要从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要。而IDF主要反映的是特征词在文档中的分布情况。TF-IDF权重计算公式为:
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
在表达式中,引入了权重因子/>主要反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力。考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
m表示训练集特征项数。
一种信息流素材创意文本的特征提取系统,包括:
复杂网络的文本表示模块,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;
特征词相关度的计算模块;以及
特征词的权重计算模块。
复杂网络的文本表示模块中:
复杂网络是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。
复杂网络的文本表示模块中,构建复杂网络的步骤为:
(1)对文本d进行分词、去停用词等预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};
(2)从G中任意获得两个节点ni和nj(i<j),定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;
(3)计算网络图G边eij的权重wij;以及
(4)计算网络图G节点nij自身的权重.
特征词相关度的计算模块中:
共现频率是基于语料库的词语相关度计算的主要方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词ti之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度,记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;为第i类文本集,其中dij表示第i类的第j个文本,/>为第i类的文本数目,考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
特征词的权重计算模块中:
计算特征主要从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要,而IDF主要反映的是特征词在文档中的分布情况,TF-IDF权重计算公式为:
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
在表达式中,引入了权重因子/>主要反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力,考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
m表示训练集特征项数。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
Claims (8)
1.一种信息流素材创意文本的特征提取方法,其特征在于:包括:
步骤一:复杂网络的文本表示,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;
步骤二:特征词相关度的计算:
共现频率是基于语料库的词语相关度计算的方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词tj之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度,记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;为第i类文本集,其中dij表示第i类的第j个文本,/>为第i类的文本数目;考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
步骤三:特征词的权重计算。
2.如权利要求1所述的方法,其特征在于,所述步骤一包括:
复杂网络是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。
3.如权利要求2所述的方法,其特征在于,所述步骤一中,构建复杂网络的步骤为:
(1)对文本d进行分词、去停用词预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};
(2)从G中任意获得两个节点ni和nj(i<j),,定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;
(3)计算网络图G边eij的权重wij;以及
(4)计算网络图G节点nij自身的权重。
4.如权利要求1所述的方法,其特征在于,所述步骤三包括:
计算特征从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要,而IDF反映的是特征词在文档中的分布情况,TF-IDF权重计算公式为:
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
在表达式中,引入了权重因子/>反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力;考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
5.一种信息流素材创意文本的特征提取系统,其特征在于:包括:
复杂网络的文本表示模块,复杂网络中的节点之间连接的边代表节点之间的相互关系,边的权值代表了节点之间的联系强度,边的有向性体现了特征词在同一单位出现的位置关系,不同的位置关系词语之间的关联强度不一样;
特征词相关度的计算模块,所述计算模块的相关度计算包括:
共现频率是基于语料库的词语相关度计算的方法,共现频率的方法的原理是:在统计语料时统计在一定长度窗口单位的两个词,词语的相关关系随着在同一单位共现频率的增高而增强,共现频率的计算公式如下所示:
其中ωij表示特征词ti与tj在文本中的相关关系,fre(ti)和fre(tj)是特征词ti和tj在文本中出现的频次,fre(ti,tj)表示特征词ti出现在特征词tj之前的共现频次,共现频次越高,特征相关关系越大;考虑特征项之间类内分布信息共现计算特征项的相关度,记C={c1,c2,…,cr}为训练样本类别的集合,其中ci表示第i类,r表示训练样本类别的数目;为第i类文本集,其中dij表示第i类的第j个文本,/>为第i类的文本数目;考虑不同类别的文本出现概率不同,因此,加入文本出现的概率参数,根据类内特征词分布情况,计算特征词tp和tq之间的相关关系的权重为:
特征词的权重计算模块。
6.如权利要求5所述的系统,其特征在于,复杂网络的文本表示模块中:
复杂网络是由大量节点和连接这些节点的边所组成的集合,其中复杂网络中的节点代表现实世界中存在的复杂系统中的实体或者元素。
7.如权利要求6所述的系统,其特征在于,复杂网络的文本表示模块中,构建复杂网络的步骤为:
(1)对文本d进行分词、去停用词预处理,把文本的特征项集合映射成网络图G的节点,得到G的初始化节点集为N={n1,n2,n3,…nm};
(2)从G中任意获得两个节点ni和nj(i<j),,定义一个句子为一个窗口共现单位,若节点对应的特征项ti和tj同时出现在一个窗口中,则定义eij为节点ni指向nj的有向边,加入连接边集合E中;
(3)计算网络图G边eij的权重wij;以及
(4)计算网络图G节点nij自身的权重。
8.如权利要求5所述的系统,其特征在于,特征词的权重计算模块中:
计算特征从词语在文本中出现的频率(Term Frequency,TF)和包含该词语的文本频率(Inverse Document Frequency,IDF)两个方面考虑,TF是指特征词在文本中出现的频率,TF的值越大,则表明特征词对文本越重要,而IDF反映的是特征词在文档中的分布情况,TF-IDF权重计算公式为:
其中w(tk,d)表示特征词tk在文本d的权重,tf(tk,d)表示特征词tk在文本d的词频,Nd代表文档总数,df代表训练文档集中出现tk文档的总数;
在cj类中,特征词tk的词频f计算公式为:
在表达式中,引入了权重因子/>反映的是从类别角度,将cj类内出现特征词tk的文本数同特征词出现最多的文本数相比,体现了从文本频数这一角度衡量特征词tk对该类文本的表现能力;考虑不同类别的文本出现概率不一样,因此,加入文本出现的概率参数,即特征词tk的词频为:
其中p(cj)是i类文本出现的概率,r表示文本类别的数量;
则最终的权重公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811330027.1A CN109558588B (zh) | 2018-11-09 | 2018-11-09 | 信息流素材创意文本的特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811330027.1A CN109558588B (zh) | 2018-11-09 | 2018-11-09 | 信息流素材创意文本的特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109558588A CN109558588A (zh) | 2019-04-02 |
CN109558588B true CN109558588B (zh) | 2023-03-31 |
Family
ID=65865865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811330027.1A Active CN109558588B (zh) | 2018-11-09 | 2018-11-09 | 信息流素材创意文本的特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558588B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232726B (zh) * | 2019-04-26 | 2021-07-13 | 特赞(上海)信息科技有限公司 | 创意素材的生成方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
CN108491429A (zh) * | 2018-02-09 | 2018-09-04 | 湖北工业大学 | 一种基于类内类间文档频和词频统计的特征选择方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013043160A1 (en) * | 2011-09-20 | 2013-03-28 | Hewlett-Packard Development Company, L.P. | Text summarization |
-
2018
- 2018-11-09 CN CN201811330027.1A patent/CN109558588B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224695A (zh) * | 2015-11-12 | 2016-01-06 | 中南大学 | 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置 |
CN108491429A (zh) * | 2018-02-09 | 2018-09-04 | 湖北工业大学 | 一种基于类内类间文档频和词频统计的特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109558588A (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101488150B (zh) | 一种实时多角度网络热点事件分析装置及分析方法 | |
Lossio-Ventura et al. | Yet another ranking function for automatic multiword term extraction | |
CN106599029A (zh) | 一种中文短文本聚类方法 | |
CN102214241B (zh) | 一种基于图聚类的用户生成文本流中的突发话题检测方法 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN103970729A (zh) | 一种基于语义类的多主题提取方法 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN106844331A (zh) | 一种句子相似度计算方法和系统 | |
CN103324628A (zh) | 一种针对发布文本的行业分类方法和系统 | |
CN110781679B (zh) | 一种基于关联语义链网络的新闻事件关键词挖掘方法 | |
CN104008090A (zh) | 一种基于概念向量模型的多主题提取方法 | |
CN103116588A (zh) | 一种个性化推荐方法及系统 | |
CN105005594A (zh) | 异常微博用户识别方法 | |
CN109086355B (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
CN104239512A (zh) | 一种文本推荐方法 | |
CN103473217B (zh) | 从文本中抽取关键词的方法和装置 | |
CN111324801B (zh) | 基于热点词的司法领域热点事件发现方法 | |
CN108170666A (zh) | 一种基于tf-idf关键词提取的改进方法 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN106682123A (zh) | 一种获取热点事件的方法及装置 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
Choudhury et al. | How difficult is it to develop a perfect spell-checker? A cross-linguistic analysis through complex network approach | |
CN110309234A (zh) | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |