CN109241277A - 基于新闻关键词的文本向量加权的方法及系统 - Google Patents

基于新闻关键词的文本向量加权的方法及系统 Download PDF

Info

Publication number
CN109241277A
CN109241277A CN201810787444.2A CN201810787444A CN109241277A CN 109241277 A CN109241277 A CN 109241277A CN 201810787444 A CN201810787444 A CN 201810787444A CN 109241277 A CN109241277 A CN 109241277A
Authority
CN
China
Prior art keywords
news
text
document
keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810787444.2A
Other languages
English (en)
Other versions
CN109241277B (zh
Inventor
徐汕
刘强
张晶亮
杨端
郭强
姜桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aerospace Cloud Co Ltd
Original Assignee
Beijing Aerospace Cloud Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aerospace Cloud Co Ltd filed Critical Beijing Aerospace Cloud Co Ltd
Priority to CN201810787444.2A priority Critical patent/CN109241277B/zh
Publication of CN109241277A publication Critical patent/CN109241277A/zh
Application granted granted Critical
Publication of CN109241277B publication Critical patent/CN109241277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于新闻关键词的文本向量加权的方法及系统,对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词;计算每篇新闻文档关键词的TD‑IDF值,使用关键词的TD‑IDF值构建一个五维的向量,作为该新闻文档的空间向量;统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;将关键词的阅读量作为权值,对文档的空间向量进行加权。本发明有益效果:将新闻的阅读量作为权值,改进TDIDF算法的文本向量加权方法,充分考虑了关键词在文本中的重要程度,提高了文本空间向量的信息量,从而提高后续相关算法的精确度。

Description

基于新闻关键词的文本向量加权的方法及系统
技术领域
本发明涉及人工智能领域的自然语言处理方法,具体来说,涉及一种基于新闻关键词的文本向量加权的方法及系统。
背景技术
随着计算机的普及和网络的飞速发展,互联网上各种新闻的数量快速积累,如何快速查找相关信息变得非常重要。文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果,而文本向量加权是文本相速度计算的重要步骤。文本相似度是表示两个或多个文本之间匹配程度的一个度量参数,相似度大,说明文本相似程度高,反之文本相似度低。对于舆情分析、文本聚类、信息检索、问答系统、网页去重、文本分类等众多领域,文本相似度的有效计算问题是其进行信息处理的关键。
在文本挖掘的研究中,学者们运用了很多方法,其中TDIDF是文档特征权重计算的最常用算法之一,但传统的TDIDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,可能会导致文本分类结果的偏差。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于新闻关键词的文本向量加权的方法,能够解决了传统的TDIDF单纯考虑特征词频率以及包含特征词的文本数量,并没有很好的考虑特征词在文本中的重要程度以及类内分布均匀情况和类间分布离散的问题,提高了文本空间向量的信息量,从而提高后续算法的精确度。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于新闻关键词的文本向量加权的方法,具体包括以下步骤:
S1对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词,并将提取的几个关键词做并集;
S2计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
S3统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
S4将关键词的阅读量作为权值,对文档的空间向量进行加权。
进一步地,所述步骤1中所述步骤S1中TextRank算法具体步骤如下:
S11按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
进一步地,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。
进一步地,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);;R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
进一步地,所述步骤S2中TD-IDF的具体计算方式为:
TD-IDF=TF·IDF
其中,Nx为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,Gx为包含关键词x的文档总数。
本发明的另一方面,提供一种基于新闻关键词的文本向量加权系统,包括
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词;
构建模块,用于计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于将关键词的阅读量作为权值,对文档的空间向量进行加权。
进一步地,所述TextRank算法具体步骤如下:
S11按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
进一步地,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。
进一步地,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);;R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
进一步地,所述TD-IDF的具体计算方式为:
TD-IDF=TF·IDF
其中,Nx为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,Gx为包含关键词x的文档总数。
本发明的有益效果:
将新闻的阅读量作为权值,改进TDIDF算法的文本向量加权方法,充分考虑了关键词在文本中的重要程度,提高了文本空间向量的信息量,从而提高后续相关算法的精确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的基于新闻关键词的文本向量加权的方法的流程图;
图2是根据本发明实施例所述的基于新闻关键词的文本向量加权系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
用户的阅读量作为新闻的重要标度,对新闻的文本挖掘有重要作用,将用户阅读量作为权值,对文档的空间向量进行加权处理,在不增加开销的情况下扩大了新闻集的信息量,可提高进一步的相似度、文本聚类等算法的精确度。
如图1所示,根据本发明实施例所述的一种基于新闻关键词的文本向量加权的方法,具体包括以下步骤:
S1对新闻内容通过TextRank算法自动提取摘要,并对提取的摘要通过TextTank算法提取2个关键词,对新闻原文提取3个关键词,并对提取的5个关键词做并集;
其中,TextRank算法关键步骤具体如下:
S11按照常规方法对新闻文本进行分词,加载文本,对文本数据进行分词并进行词性标注,例如使用N-最短路径分词,采用马尔科夫模型进行词性标注;
S12对分词后的结果进行去停用词操作,主要是根据分词及词性标注结果取出文本中的名词、动词、形容词、副词等,得到处理后的文本数据;
S13根据计算分词处理后的文本数据的TextRank算法得分,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合;
S14在通过TextRank算法获取关键词中,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1,即任意词之间的Wji=1;
S15在通过TextRank算法获取文本摘要时,一般认为全部句子是相邻的,不提取窗口,词与词之间的权重采用BM25相似度算法获得,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);;R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
S16通过TextRank算法获取得分后,进行降序排序,按照获取摘要和关键词的个数a,取出排序后排名前a个的句子和关键词;S2计算每篇新闻文档关键词的TD-IDF值(TermFrequency-Inverse Document Frequemce,词频-逆文档频率),使用关键词的TD-IDF值构建一个五维的向量,做为该新闻文档的空间向量,其中,TD-IDF计算公式如下:
TD-IDF=TF·IDF
其中,Nx为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,Gx为包含关键词x的文档总数。
例如:某新闻关键词及其TD-IDF值为:发展:x1;市场:x2;工业x3;设备:x4;系统:x5,则该新闻的空间向量为{x1,x2,x3,x4,x5}。
S3统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;例如关键词的阅读量分别为:发展:a1;市场:a2;工业a3;设备:a4;系统:a5。
S4将关键词的阅读量作为权值,对文档的空间向量进行加权,即{a1*x1,a2*x2,a3*x3,a4*x4,a5*x5}。
如图2所示,本发明的另一方面,提供一种基于新闻关键词的文本向量加权系统,包括
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词;
构建模块,用于计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于将关键词的阅读量作为权值,对文档的空间向量进行加权。
所述TextRank算法具体步骤如下:
S11按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
在本发明的一个具体实施例中,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,Vi表示文本数据中第i个词,Wji表示文本数据中第i个词和第j个词之间的权重,In(Vi)表示文本数据中以Vi为终点的入边集合Out(Vj)表示文本中以Vj起点的出边集合。
在本发明的一个具体实施例中,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,qi表示Q进行分词后的结果列表中的词;d表示处理的文档;Wi表示qi的权重(一般使用TF-IDF值来作为权重);;R(qi,d)表示qi与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,fi为qi在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
在本发明的一个具体实施例中,所述TD-IDF的具体计算方式为:
TD-IDF=TF·IDF
其中,Nx为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,Gx为包含关键词x的文档总数。
综上所述,借助于本发明的上述技术方案,将新闻的阅读量作为权值,改进TDIDF算法的文本向量加权方法,充分考虑了关键词在文本中的重要程度,提高了文本空间向量的信息量,从而提高后续相关算法的精确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于新闻关键词的文本向量加权的方法,其特征在于,具体包括以下步骤:
S1对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词,并将提取的所述几个关键词做并集;
S2计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
S3统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
S4将关键词的阅读量作为权值,对文档的空间向量进行加权。
2.根据权利要求1所述的基于新闻关键词的文本向量加权的方法,其特征在于,所述步骤S1中TextRank算法具体步骤如下:
S11 按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12 对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13 计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15 通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
3.根据权利要求2所述的基于新闻关键词的文本向量加权的方法,其特征在于,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,表示文本数据中第i个词,表示文本数据中第i个词和第j个词之间的权重,表示文本数据中以为终点的入边集合,表示文本中以起点的出边集合。
4.根据权利要求2所述的基于新闻关键词的文本向量加权的方法,其特征在于,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,表示Q进行分词后的结果列表中的词;d表示处理的文档;表示的权重(一般使用TF-IDF值来作为权重);表示与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
5.根据权利要求1所述的基于新闻关键词的文本向量加权的方法,其特征在于,所述步骤S2中TD-IDF的具体计算方式为:
其中,为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,为包含关键词x的文档总数。
6.一种基于新闻关键词的文本向量加权系统,其特征在于,包括
提取模块,用于对新闻内容通过TextRank算法自动提取摘要,针对提取的摘要以及新闻原文提取几个关键词;
构建模块,用于计算每篇新闻文档关键词的TD-IDF值,使用关键词的TD-IDF值构建一个五维的向量,作为该新闻文档的空间向量;
统计模块,用于统计每篇新闻的阅读量,对所有样本新闻的关键词做并集,并计算每个关键词的所有阅读量;
计算模块,用于将关键词的阅读量作为权值,对文档的空间向量进行加权。
7.根据权利要求6所述的基于新闻关键词的文本向量加权系统,其特征在于,所述TextRank算法具体步骤如下:
S11 按照常规方法对新闻文本进行分词并加载文本,对文本数据进行分词并进行词性标注;
S12 对分词后的结果进行去停用词操作,得到处理后的文本数据;
S13 计算分词处理后的文本数据的TextRank算法得分;
S14通过TextRank算法获取关键词,采用窗口大小为5来计算得分,关键词和关键词之间的权重为1;
S15 通过TextRank算法获取摘要时,全部句子是相邻的,不提取窗口,关键词与关键词之间的权重采用BM25相似度算法获得;
S16通过TextRank算法获取得分后,进行降序排序。
8.根据权利要求7所述的基于新闻关键词的文本向量加权系统,其特征在于,步骤S13中,计算公式如下:
其中,d为阻尼系数,其取值在0-1之间,表示文本数据中第i个词,表示文本数据中第i个词和第j个词之间的权重,表示文本数据中以为终点的入边集合,表示文本中以起点的出边集合。
9.根据权利要求7所述的基于新闻关键词的文本向量加权系统,其特征在于,步骤S15中,BM25算法计算公式如下:
其中,Q表示文本数据中的句子,表示Q进行分词后的结果列表中的词;d表示处理的文档;表示的权重(一般使用TF-IDF值来作为权重);表示与文档d的相关性得分,其中,计算方式如下:
其中,k,b为调节因子,一般按照经验设置,一般为k=2,b=0.75,在文档中d中出现的频率,dl为文档的长度,avgdl为文本的平均长度。
10.根据权利要求6所述的基于新闻关键词的文本向量加权系统,其特征在于,所述TD-IDF的具体计算方式为:
其中,为关键词x在文档中出现的次数,N为该文档所有词的总数,G为所有新闻文本文档的总数,为包含关键词x的文档总数。
CN201810787444.2A 2018-07-18 2018-07-18 基于新闻关键词的文本向量加权的方法及系统 Active CN109241277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810787444.2A CN109241277B (zh) 2018-07-18 2018-07-18 基于新闻关键词的文本向量加权的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810787444.2A CN109241277B (zh) 2018-07-18 2018-07-18 基于新闻关键词的文本向量加权的方法及系统

Publications (2)

Publication Number Publication Date
CN109241277A true CN109241277A (zh) 2019-01-18
CN109241277B CN109241277B (zh) 2022-05-17

Family

ID=65071974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810787444.2A Active CN109241277B (zh) 2018-07-18 2018-07-18 基于新闻关键词的文本向量加权的方法及系统

Country Status (1)

Country Link
CN (1) CN109241277B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109948125A (zh) * 2019-03-25 2019-06-28 成都信息工程大学 改进的Simhash算法在文本去重中的方法及系统
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN110147499A (zh) * 2019-05-21 2019-08-20 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110597981A (zh) * 2019-09-16 2019-12-20 西华大学 一种采用多策略自动生成摘要的网络新闻概要系统
CN111538830A (zh) * 2020-04-28 2020-08-14 清华大学 法条检索方法、装置、计算机设备及存储介质
CN112561334A (zh) * 2020-12-16 2021-03-26 咪咕文化科技有限公司 阅读对象的评分方法、装置、电子设备及存储介质
CN113722428A (zh) * 2021-08-10 2021-11-30 哈尔滨工业大学 一种基于关键词挖掘新闻的时代特征提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN106372064A (zh) * 2016-11-18 2017-02-01 北京工业大学 一种文本挖掘的特征词权重计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324665A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博的热点信息提取的方法和装置
CN104573054A (zh) * 2015-01-21 2015-04-29 杭州朗和科技有限公司 一种信息推送方法和设备
CN106372064A (zh) * 2016-11-18 2017-02-01 北京工业大学 一种文本挖掘的特征词权重计算方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858028A (zh) * 2019-01-30 2019-06-07 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109858028B (zh) * 2019-01-30 2022-11-18 神思电子技术股份有限公司 一种基于概率模型的短文本相似度计算方法
CN109960724A (zh) * 2019-03-13 2019-07-02 北京工业大学 一种基于tf-idf的文本摘要方法
CN109948125A (zh) * 2019-03-25 2019-06-28 成都信息工程大学 改进的Simhash算法在文本去重中的方法及系统
CN109948125B (zh) * 2019-03-25 2020-12-08 成都信息工程大学 改进的Simhash算法在文本去重中的方法及系统
CN110147499A (zh) * 2019-05-21 2019-08-20 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110147499B (zh) * 2019-05-21 2021-09-14 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110597981A (zh) * 2019-09-16 2019-12-20 西华大学 一种采用多策略自动生成摘要的网络新闻概要系统
CN111538830A (zh) * 2020-04-28 2020-08-14 清华大学 法条检索方法、装置、计算机设备及存储介质
CN111538830B (zh) * 2020-04-28 2023-09-05 清华大学 法条检索方法、装置、计算机设备及存储介质
CN112561334A (zh) * 2020-12-16 2021-03-26 咪咕文化科技有限公司 阅读对象的评分方法、装置、电子设备及存储介质
CN113722428A (zh) * 2021-08-10 2021-11-30 哈尔滨工业大学 一种基于关键词挖掘新闻的时代特征提取方法

Also Published As

Publication number Publication date
CN109241277B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN109241277B (zh) 基于新闻关键词的文本向量加权的方法及系统
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
Yasunaga et al. Robust multilingual part-of-speech tagging via adversarial training
CN104881458B (zh) 一种网页主题的标注方法和装置
US20060136410A1 (en) Method and apparatus for explaining categorization decisions
US7827133B2 (en) Method and arrangement for SIM algorithm automatic charset detection
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN109086355B (zh) 基于新闻主题词的热点关联关系分析方法及系统
El-Shishtawy et al. Arabic keyphrase extraction using linguistic knowledge and machine learning techniques
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN111859961B (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
Freitag Trained named entity recognition using distributional clusters
CN110674635B (zh) 一种用于文本段落划分的方法和装置
Graovac A variant of n-gram based language-independent text categorization
Ogada et al. N-gram based text categorization method for improved data mining
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
Graovac et al. Language independent n-gram-based text categorization with weighting factors: A case study
CN113032556A (zh) 一种基于自然语言处理形成用户画像的方法
Thielmann et al. Coherence based document clustering
CN117112811B (zh) 一种基于相似度的专利检索方法、检索系统及存储介质
CN110580286A (zh) 一种基于类间信息熵的文本特征选择方法
Li et al. Multi-label classification of research papers using multi-label k-nearest neighbour algorithm
US20050149846A1 (en) Apparatus, method, and program for text classification using frozen pattern
Li et al. Keyphrase extraction and grouping based on association rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant