CN109241277A - 基于新闻关键词的文本向量加权的方法及系统 - Google Patents
基于新闻关键词的文本向量加权的方法及系统 Download PDFInfo
- Publication number
- CN109241277A CN109241277A CN201810787444.2A CN201810787444A CN109241277A CN 109241277 A CN109241277 A CN 109241277A CN 201810787444 A CN201810787444 A CN 201810787444A CN 109241277 A CN109241277 A CN 109241277A
- Authority
- CN
- China
- Prior art keywords
- news
- text
- document
- keyword
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000007796 conventional method Methods 0.000 claims description 6
- 238000013016 damping Methods 0.000 claims description 6
- 239000007788 liquid Substances 0.000 claims 1
- 238000000926 separation method Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于新闻关键词的文本向量加权的方法及系统,对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词;计算每篇新闻文档关键词的TD‑IDF值,使用关键词的TD‑IDF值构建一个五维的向量,作为该新闻文档的空间向量;统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;将关键词的阅读量作为权值,对文档的空间向量进行加权。本发明有益效果:将新闻的阅读量作为权值,改进TDIDF算法的文本向量加权方法,充分考虑了关键词在文本中的重要程度,提高了文本空间向量的信息量,从而提高后续相关算法的精确度。
Description
技术领域
本发明涉及人工智能领域的自然语言处理方法,具体来说,涉及一种基于新闻关键词的文本向量加权的方法及系统。
背景技术
随着计算机的普及和网络的飞速发展,互联网上各种新闻的数量快速积累,如何快速查找相关信息变得非常重要。文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果,而文本向量加权是文本相速度计算的重要步骤。文本相似度是表示两个或多个文本之间匹配程度的一个度量参数,相似度大,说明文本相似程度高,反之文本相似度低。对于舆情分析、文本聚类、信息检索、问答系统、网页去重、文本分类等众多领域,文本相似度的有效计算问题是其进行信息处理的关键。
在文本挖掘的研究中,学者们运用了很多方法,其中TDIDF是文档特征权重计算的最常用算法之一,但传统的TDIDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,可能会导致文本分类结果的偏差。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于新闻关键词的文本向量加权的方法,能够解决了传统的TDIDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,提高了文本空间向量的信息量,从而提高后续算法的精确度。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于新闻关键词的文本向量加权的方法,具体包括以下步骤:
S1对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词,并将提取的几个关键词做并集;
S2计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
S3统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
S4将关键词的阅读量作为权值,对文档的空间向量进行加权。
进一步地,所述步骤1中所述步骤S1中TextRank算法具体步骤如下:
S11按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
进一步地,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。
进一步地,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);;R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
进一步地,所述步骤S2中TD-IDF的具体计算方式为:
TD-IDF=TF·IDF
其中,Nx为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,Gx为包含关键词x的文档总数。
本发明的另一方面,提供一种基于新闻关键词的文本向量加权系统,包括
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词;
构建模块,用于计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于将关键词的阅读量作为权值,对文档的空间向量进行加权。
进一步地,所述TextRank算法具体步骤如下:
S11按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
进一步地,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。
进一步地,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);;R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
进一步地,所述TD-IDF的具体计算方式为:
TD-IDF=TF·IDF
其中,Nx为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,Gx为包含关键词x的文档总数。
本发明的有益效果:
将新闻的阅读量作为权值,改进TDIDF算法的文本向量加权方法,充分考虑了关键词在文本中的重要程度,提高了文本空间向量的信息量,从而提高后续相关算法的精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于新闻关键词的文本向量加权的方法的流程图;
图2是根据本发明实施例所述的基于新闻关键词的文本向量加权系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
用户的阅读量作为新闻的重要标度,对新闻的文本挖掘有重要作用,将用户阅读量作为权值,对文档的空间向量进行加权处理,在不增加开销的情况下扩大了新闻集的信息量,可提高进一步的相似度、文本聚类等算法的精确度。
如图1所示,根据本发明实施例所述的一种基于新闻关键词的文本向量加权的方法,具体包括以下步骤:
S1对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要通过TextTank算法提取2个关键词,对新闻原文提取3个关键词,并对提取的5个关键词做并集;
其中,TextRank算法关键步骤具体如下:
S11按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注,例如使用N-最短路径分词,采用马尔科夫模型进行词性标注;
S12对分词后的结果进行去停用词操作,主要是根据分词及词性标注结果取出文本中的名词、动词、形容词、副词等,得到处理后的文本数据;
S13根据计算分词处理后的文本数据的TextRank算法得分,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合;
S14在通过TextRank算法获取关键词中,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1,即任意词之间的Wji=1;
S15在通过TextRank算法获取文本摘要时,一般认为全部句子是相邻的,不提取窗口,词与词之间的权重采用BM25相似度算法获得,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);;R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
S16通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词;S2计算每篇新闻文档关键词的TD-IDF值(TermFrequency-Inverse Document Frequemce,词频-逆文档频率),使用关键词的TD-IDF值构建一个五维的向量,做为该新闻文档的空间向量,其中,TD-IDF计算公式如下:
TD-IDF=TF·IDF
其中,Nx为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,Gx为包含关键词x的文档总数。
例如:某新闻关键词及其TD-IDF值为:发展:x1;市场:x2;工业x3;设备:x4;系统:x5,则该新闻的空间向量为{x1,x2,x3,x4,x5}。
S3统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;例如关键词的阅读量分别为:发展:a1;市场:a2;工业a3;设备:a4;系统:a5。
S4将关键词的阅读量作为权值,对文档的空间向量进行加权,即{a1*x1,a2*x2,a3*x3,a4*x4,a5*x5}。
如图2所示,本发明的另一方面,提供一种基于新闻关键词的文本向量加权系统,包括
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词;
构建模块,用于计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于将关键词的阅读量作为权值,对文档的空间向量进行加权。
所述TextRank算法具体步骤如下:
S11按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
在本发明的一个具体实施例中,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。
在本发明的一个具体实施例中,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);;R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
在本发明的一个具体实施例中,所述TD-IDF的具体计算方式为:
TD-IDF=TF·IDF
其中,Nx为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,Gx为包含关键词x的文档总数。
综上所述,借助于本发明的上述技术方案,将新闻的阅读量作为权值,改进TDIDF算法的文本向量加权方法,充分考虑了关键词在文本中的重要程度,提高了文本空间向量的信息量,从而提高后续相关算法的精确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于新闻关键词的文本向量加权的方法,其特征在于,具体包括以下步骤:
S1对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词,并将提取的所述几个关键词做并集;
S2计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
S3统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
S4将关键词的阅读量作为权值,对文档的空间向量进行加权。
2.根据权利要求1所述的基于新闻关键词的文本向量加权的方法,其特征在于,所述步骤S1中TextRank算法具体步骤如下:
S11 按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12 对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13 计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15 通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
3.根据权利要求2所述的基于新闻关键词的文本向量加权的方法,其特征在于,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,表示文本数据中第i个词,表示文本数据中第i个词和第j个词之间的权重,表示文本数据中以为终点的入边集合,表示文本中以起点的出边集合。
4.根据权利要求2所述的基于新闻关键词的文本向量加权的方法,其特征在于,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,表示Q进行分词后的结果列表中的词;d表示处理的文档;表示的权重(一般使用TF-IDF值来作为权重);表示与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,为在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
5.根据权利要求1所述的基于新闻关键词的文本向量加权的方法,其特征在于,所述步骤S2中TD-IDF的具体计算方式为:
其中,为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,为包含关键词x的文档总数。
6.一种基于新闻关键词的文本向量加权系统,其特征在于,包括
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词;
构建模块,用于计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于将关键词的阅读量作为权值,对文档的空间向量进行加权。
7.根据权利要求6所述的基于新闻关键词的文本向量加权系统,其特征在于,所述TextRank算法具体步骤如下:
S11 按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12 对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13 计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15 通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
8.根据权利要求7所述的基于新闻关键词的文本向量加权系统,其特征在于,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,表示文本数据中第i个词,表示文本数据中第i个词和第j个词之间的权重,表示文本数据中以为终点的入边集合,表示文本中以起点的出边集合。
9.根据权利要求7所述的基于新闻关键词的文本向量加权系统,其特征在于,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,表示Q进行分词后的结果列表中的词;d表示处理的文档;表示的权重(一般使用TF-IDF值来作为权重);表示与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,为在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
10.根据权利要求6所述的基于新闻关键词的文本向量加权系统,其特征在于,所述TD-IDF的具体计算方式为:
其中,为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,为包含关键词x的文档总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810787444.2A CN109241277B (zh) | 2018-07-18 | 2018-07-18 | 基于新闻关键词的文本向量加权的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810787444.2A CN109241277B (zh) | 2018-07-18 | 2018-07-18 | 基于新闻关键词的文本向量加权的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109241277A true CN109241277A (zh) | 2019-01-18 |
CN109241277B CN109241277B (zh) | 2022-05-17 |
Family
ID=65071974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810787444.2A Active CN109241277B (zh) | 2018-07-18 | 2018-07-18 | 基于新闻关键词的文本向量加权的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109241277B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858028A (zh) * | 2019-01-30 | 2019-06-07 | 神思电子技术股份有限公司 | 一种基于概率模型的短文本相似度计算方法 |
CN109948125A (zh) * | 2019-03-25 | 2019-06-28 | 成都信息工程大学 | 改进的Simhash算法在文本去重中的方法及系统 |
CN109960724A (zh) * | 2019-03-13 | 2019-07-02 | 北京工业大学 | 一种基于tf-idf的文本摘要方法 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110597981A (zh) * | 2019-09-16 | 2019-12-20 | 西华大学 | 一种采用多策略自动生成摘要的网络新闻概要系统 |
CN111538830A (zh) * | 2020-04-28 | 2020-08-14 | 清华大学 | 法条检索方法、装置、计算机设备及存储介质 |
CN112561334A (zh) * | 2020-12-16 | 2021-03-26 | 咪咕文化科技有限公司 | 阅读对象的评分方法、装置、电子设备及存储介质 |
CN113722428A (zh) * | 2021-08-10 | 2021-11-30 | 哈尔滨工业大学 | 一种基于关键词挖掘新闻的时代特征提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324665A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博的热点信息提取的方法和装置 |
CN104573054A (zh) * | 2015-01-21 | 2015-04-29 | 杭州朗和科技有限公司 | 一种信息推送方法和设备 |
CN106372064A (zh) * | 2016-11-18 | 2017-02-01 | 北京工业大学 | 一种文本挖掘的特征词权重计算方法 |
-
2018
- 2018-07-18 CN CN201810787444.2A patent/CN109241277B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324665A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博的热点信息提取的方法和装置 |
CN104573054A (zh) * | 2015-01-21 | 2015-04-29 | 杭州朗和科技有限公司 | 一种信息推送方法和设备 |
CN106372064A (zh) * | 2016-11-18 | 2017-02-01 | 北京工业大学 | 一种文本挖掘的特征词权重计算方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858028A (zh) * | 2019-01-30 | 2019-06-07 | 神思电子技术股份有限公司 | 一种基于概率模型的短文本相似度计算方法 |
CN109858028B (zh) * | 2019-01-30 | 2022-11-18 | 神思电子技术股份有限公司 | 一种基于概率模型的短文本相似度计算方法 |
CN109960724A (zh) * | 2019-03-13 | 2019-07-02 | 北京工业大学 | 一种基于tf-idf的文本摘要方法 |
CN109948125A (zh) * | 2019-03-25 | 2019-06-28 | 成都信息工程大学 | 改进的Simhash算法在文本去重中的方法及系统 |
CN109948125B (zh) * | 2019-03-25 | 2020-12-08 | 成都信息工程大学 | 改进的Simhash算法在文本去重中的方法及系统 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110147499B (zh) * | 2019-05-21 | 2021-09-14 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110597981A (zh) * | 2019-09-16 | 2019-12-20 | 西华大学 | 一种采用多策略自动生成摘要的网络新闻概要系统 |
CN111538830A (zh) * | 2020-04-28 | 2020-08-14 | 清华大学 | 法条检索方法、装置、计算机设备及存储介质 |
CN111538830B (zh) * | 2020-04-28 | 2023-09-05 | 清华大学 | 法条检索方法、装置、计算机设备及存储介质 |
CN112561334A (zh) * | 2020-12-16 | 2021-03-26 | 咪咕文化科技有限公司 | 阅读对象的评分方法、装置、电子设备及存储介质 |
CN113722428A (zh) * | 2021-08-10 | 2021-11-30 | 哈尔滨工业大学 | 一种基于关键词挖掘新闻的时代特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109241277B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241277B (zh) | 基于新闻关键词的文本向量加权的方法及系统 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
Yasunaga et al. | Robust multilingual part-of-speech tagging via adversarial training | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
US20060136410A1 (en) | Method and apparatus for explaining categorization decisions | |
US7827133B2 (en) | Method and arrangement for SIM algorithm automatic charset detection | |
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN109086355B (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
El-Shishtawy et al. | Arabic keyphrase extraction using linguistic knowledge and machine learning techniques | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN111859961B (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
Freitag | Trained named entity recognition using distributional clusters | |
CN110674635B (zh) | 一种用于文本段落划分的方法和装置 | |
Graovac | A variant of n-gram based language-independent text categorization | |
Ogada et al. | N-gram based text categorization method for improved data mining | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
Graovac et al. | Language independent n-gram-based text categorization with weighting factors: A case study | |
CN113032556A (zh) | 一种基于自然语言处理形成用户画像的方法 | |
Thielmann et al. | Coherence based document clustering | |
CN117112811B (zh) | 一种基于相似度的专利检索方法、检索系统及存储介质 | |
CN110580286A (zh) | 一种基于类间信息熵的文本特征选择方法 | |
Li et al. | Multi-label classification of research papers using multi-label k-nearest neighbour algorithm | |
US20050149846A1 (en) | Apparatus, method, and program for text classification using frozen pattern | |
Li et al. | Keyphrase extraction and grouping based on association rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |