CN105893410A - 一种关键词提取方法和装置 - Google Patents

一种关键词提取方法和装置 Download PDF

Info

Publication number
CN105893410A
CN105893410A CN201510799348.6A CN201510799348A CN105893410A CN 105893410 A CN105893410 A CN 105893410A CN 201510799348 A CN201510799348 A CN 201510799348A CN 105893410 A CN105893410 A CN 105893410A
Authority
CN
China
Prior art keywords
candidate keywords
word
candidate
keywords
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510799348.6A
Other languages
English (en)
Inventor
赵九龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Information Technology Beijing Co Ltd filed Critical LeTV Information Technology Beijing Co Ltd
Priority to CN201510799348.6A priority Critical patent/CN105893410A/zh
Priority to PCT/CN2016/082642 priority patent/WO2017084267A1/zh
Priority to US15/241,121 priority patent/US20170139899A1/en
Publication of CN105893410A publication Critical patent/CN105893410A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种关键词提取方法和装置。利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;计算任意两个所述候选关键词之间的相似度;根据所述相似度计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词,提高了关键词抽取的准确率。

Description

一种关键词提取方法和装置
技术领域
本发明实施例涉及视频技术领域,尤其涉及一种关键词提取方法和装置。
背景技术
随着信息技术的不断发展,大量的文本信息开始以计算机可读的形式存在,许多领域信息都呈现出爆发式增长,比如豆瓣上的影评以及短评。如何在海量的信息当中快速并准确的提取有用的信息将是一个重要的技术需求。关键词提取就是一种解决上述问题的有效手段,关键词是对文章主体信息的精炼,更快的掌握重要信息,提高信息访问的效率。
关键词提取从方法来说大致有两种:第一种叫做关键词分配,即给定一个关键词库,然后来一篇文章从词库里面找到几个词语作为这篇文章的关键词。另外一种就是关键词抽取,就是来一篇文章,从文章中抽取一些词语作为这篇文章的关键词。目前大多数领域无关的关键词抽取算法(领域无关算法的意思就是无论什么主题或者领域的文本都可以抽关键词的算法)和它对应的库都是基于关键词抽取的,关键词抽取相比于关键词分配更具有实际意义。
关键词抽取的算法,目前主要有TF-IDF算法、KEA算法和TextRank算法。在《数学之美》中介绍的TF-IDF关键词提取算法需要预先保存每个词的IDF(逆文档频率)值作为外部知识库,复杂的算法则需要保存更多的信息。对于不使用外部知识库的算法,主要是可以实现语言无关以及避免词表中不存在词语所造成的问题。TF-IDF算法思路是找到文本中常见但是在别的文本中不常出现词语,这个正好符合关键词的特点。
初代KEA算法除了使用TF-IDF外还用到了词语在文章中首次出现的位置,这个根据就是大多数的文章(特别是新闻文本)是总分总的结构,很明显一个词语出现在文章首部和尾部成为关键词的可能性大于只出现在文章中部的词语。对各个词根据在文章首次出现的位置赋予不同的权值,结合TF-IDF以及连续数据离散化方法,这个就是初代KEA算法的核心思想。
不依赖外部知识库的关键词算法主要根据文本本身的特征去提取。比如说关键词特征之一就是在文本中反复出现且关键词附近出现关键词的概率非常大,因此就有了TextRank算法。它利用类似于PageRank算法,将文本中每个词看成一个页面,认为文本中某一个词语与之周围N个词存在一个link,然后在这个网络中使用PageRank算出每个词语的权值,把权值最高的几个词作为关键词即可。TextRank典型的实现包括FudanNLP和SnowNLP等。
以上算法都未考虑词语的相似性,TF*IDF是基于词频(TF)和逆文档频率(IDF)的乘积来衡量词的重要性。优点是简单快捷;缺点也很明显,单纯计算”词频”不够全面,而且无法体现词的位置信息。TextRank中计算的是位置关系,至于该位置是哪个词不做考虑,词语的相似性对结果有影响。因此一种高效准确的关键词提取算法亟待提出。
发明内容
本发明实施例提供一种关键词提取算法及装置,用以解决现有技术仅考虑词频和词的位置关系的缺陷,提高了关键词提取的准确性。
本发明实施例提供一种关键词提取方法,包括:
利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
计算任意两个所述候选关键词之间的相似度;
根据所述相似度,计算每个所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;
根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。本发明实施例提供一种关键词提取装置,包括:
候选关键词获取模块,用于利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
相似度计算模块,用于计算任意两个所述候选关键词之间的相似度;
逆文档频率计算模块,用于根据所述相似度,计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;
关键词提取模块,用于根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
本发明实施例提供的一种关键词提取方法及装置,通过对文本进行分词、计算单词之间的相似度以及逆文档频率,提高了关键词抽取的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一的技术流程图;
图2为本发明实施例二的技术流程图;
图3为本发明实施例三的装置结构示意图;
图4为本发明应用实例的词项图示例;
图5为本发明应用实例的TextRank迭代后的词项图示例。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例一的技术流程图,结合图1,本发明实施例一种关键词提取方法主要包括如下的步骤:
步骤110:利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
本发明实施例中,利用现有的分词器将收集到的文本分割为单独的词语并且能获得每个单词的词性,其中分词器可以包括基于词典匹配算法的分词器、基于词库匹配的分词器、基于词频度统计的分词器和基于知识理解的分词器等,本发明实施例并不做限制。
利用分词器得到单词后需对单词进行进一步地处理,如根据所述词性和预设的黑名单对所述单词进行停用词与非必要词的过滤等。所述停用词是一些没有实际含义的词,包括语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如中文文本中常见的”的、在”之类,英文文本中的“the、is、at、which、on”。针对一些非必要词,可以根据预设的黑名单,结合正则表达式将这些词滤除,得到文本中的候选关键词。
步骤120:计算任意两个所述候选关键词之间的相似度;
本发明实施例中,采用word2vec来计算词向量。word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现,Word2vec可以计算词和词之间的距离,知道了距离,可以对词进行聚类,而且word2vec本身也提供了聚类功能。Word2vec使用到了deep learning技术,不仅有着非常高的准确度,同时效率非常高,适合处理海量数据。
步骤130:根据所述相似度,计算每个所述候选关键词的权重,并根据预设的语料库计算每个所述候选关键词的逆文档频率;
本发明实施例中,利用TextRank公式迭代计算每个所述候选关键词的权重,在迭代计算之前预先构建词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
W S ( V i ) = ( 1 - d ) + d * Σ V j ∈ I n ( V i ) w j i Σ v k ∈ O u t ( V j ) w j k W S ( V j )
其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
通常来说,如果一个词在越多的文本中出现过,那个这个词对某一个文本的贡献度应该就越小,也就是通过这个词来区分文本的区分度越小,因此,本发明实施例中,进一步使用如下公式计算每个所述候选关键词的所述逆文档频率:
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文本都不包含该词)。log表示对得到的值取对数,可以降低最后得到的数值大小。
步骤140:根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
具体地,本发明实施例以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
本发明实施例中,每个候选关键词最终都会得到一个相应的关键度,将所述候选关键词按照其对应的关键度进行由大到小的排序,若是需要提取N个关键词,则只需从关键度最高的候选关键词开始,按序选取N个即可。
本发明实施例中,关键度=权重*逆文档频率,其中,所述权重的计算过程中结合了单词之间的相似性,同时考虑了单词的位置关系,所述逆文档频率又兼顾单词对文本的贡献大小,这样综合的关键词提取方法显著提高了关键词的抽取效果。
实施例二
图2是本发明实施例二的技术流程图,结合图2,本发明实施例一种关键词的提取方法进一步可以细化为以下的步骤:
步骤210:利用分词器对文本进行分词得到每个单词及其词性;
本发明实施例中,用现有的分词方法,将文本分割为词汇的方法可以是下述任一一种,或者任意几种的组合。
基于词典匹配算法的分词器应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。基于词库匹配的分词器则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。
基于字典、词库匹配的分词方法按照一定策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
其中,最大正向匹配法(MaxiumMatchingMethod)通常简称为MM法。其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文本的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文本被扫描完为止。
最大逆向匹配法(ReverseMaxiumMatchingMethod)通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文本的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文本进行倒排处理,生成逆序文本。然后,根据逆序词典,对逆序文本用正向最大匹配法处理即可。
最大匹配算法是一种基于分词词典的机械分词法,不能根据文本上下文的语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案,即双向匹配法。
双向匹配法,将正向最大匹配法与逆向最大匹配法组合。先根据标点对文本进行粗切分,把文本分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。
基于词的频度统计的分词方法是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。
基于知识理解的分词方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。
优选地,本发明实施例在利用分词器对文本进行分词之前预先使用正则表达式对文本进行去重去噪处理,例如文本中的表情符号O(∩_∩)O,或类似“。。。。。。。”的极度重复标点或者类似“哈哈哈哈哈”一类的极度重复词。对于一些特定的网页评论数据,可以进一步统计自动评论模板,例如根据自动评论模板去除评论数据中包含的自动评论、一些网址链接等等。
步骤220:根据所述词性和预设的黑名单对所述单词进行停用词过滤得到候选关键词;
文本中通常含有大量的语气词、助词等一些并不存在实际意义的词,这些词被称为停用词,这类停用词的出现频率通常很高,若是不滤除则会影响到关键词提取的准确率。本发明实施例中,首先根据词性对所述候选关键词进行滤除,通常而言,各类助词和介词是需要被滤除的。除此之外,预先建立黑名单,所述黑名单不仅包括了停用词,还包括一些非法词汇,广告词汇等等。根据预先建立的黑名单可以再次使用正则表达式对所述候选关键词进行清理,减轻后续计算压力。
步骤230:计算任意两个所述候选关键词之间的相似度;
本发明实施例中,利用word2vec将每个所述候选关键词转化为单词向量的形式,并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,采用的模型有CBOW(ContinuousBag-Of-Words,即连续的词袋模型)和Skip-Gram两种。word2vec遵循ApacheLicense 2.0开源协议,通过训练,可以把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,word2vec输出的词向量可以被用来做很多NLP相关的工作,比如聚类、找同义词、词性分析等等。
对本文中的单词进行相似性计算,有助于对文本进行分类,了解文档主题,从而提高关键词的提取准确度
本发明实施例中,主要采用word2vec工具将所述候选关键词转化为K维向量空间中的向量运算,再通过每个所述候选关键词对应的空间词向量的相似性来计算其对应的相似度。
步骤240:根据所述候选关键词构建词项图;
用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词;其中N为所述候选关键词的总数,K为所述窗口的尺寸;
例如,候选关键词为v1,v2,v3,v4,v5,...,vn,窗口长度为K,将窗口覆盖在所述候选关键词上,逐个平移,将得到如下的候选关键词窗口:v1,v2,...,vk、v2,v3,...,vk+1、v3,v4,...,vk+2,...等等。基于相邻的位置关系,每个窗口内的候选关键词是相互关联的,窗口之间默认独立。
得到候选关键词窗口后,用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,在所述词项图中,每一个所述候选关键词都可以看作是一个节点,词项图就是由若干个节点与节点之间的连线构成,这些连线最初是无权无向的边。
需要说明的是,步骤230和步骤240之间并无先后顺序,本发明实施例中也可以先构建所述词项图再计算所述候选关键词之间的相似度。
步骤250:利用TextRank公式迭代计算每个所述候选关键词的权重;
计算每个所述候选关键词的权重时,需进一步结合词项图之间每个所述候选关键词的连接关系以及每个所述候选关键词之间的相似度,采用如下公式迭代计算:
W S ( V i ) = ( 1 - d ) + d * Σ V j ∈ I n ( V i ) w j i Σ v k ∈ O u t ( V j ) w j k W S ( V j )
其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
本发明实施例中,迭代次数是一个预设的经验值,迭代的次数受候选关键词权重初值的影响,通常,需要给所述词项图中的任意一个指定的候选关键词赋初值,本发明实施例中,将每个所述候选关键词的权重初值设为1。
为了避免权重计算过程中出现无限循环迭代的状况,本发明实施例中为迭代过程设定了迭代次数的上限,根据经验值,将迭代次数设置为200,即当迭代次数达到200时,停止迭=代过程,将得到的结果作为对应的候选关键词的权重得分。
优选的,本发明实施例还可以通过判断迭代结果是否收敛来决定迭代次数。当迭代结果收敛时,即可停止迭代,所述指定的候选关键词会得到一个权重值。此处所述收敛通过判断指定的候选关键词计算出的权重值的误差率是否小于预设的极限值从而能够达到收敛点。候选关键词Vi的误差率为其实际权重和第K次迭代时得到的权重之间的差值,但由于候选关键词的实际权重是未知的,所以误差率近似认为是候选关键词在两次迭代结果之间的差值,一般所述极限值取0.0001。
通过反复的迭代计算之后,所述词项图会发生变化
步骤260:并根据预设的语料库计算每个所述候选关键词的逆文档频率;
需要说明的是,步骤250和步骤260之间并无先后顺序,本发明实施例中,也可以先计算逆文档频率,再迭代计算每个候选关键词的权重,本发明并不做限制。
步骤270:以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
Vi的关键度=IDF*WS(Vi)
本实施例中,提取关键词的算法中,通过进一步地对文本进行非必要因素的过滤,减轻了数据冗余,提高了关键词提取过程中的计算效率,同时使用word2vec工具进行近义词的判断,结合词的位置关系和词频,提取的关键词质量和准确率更高。
实施例三
图3是本发明实施例三的技术流程图,结合图3,本发明一种关键词提取装置主要包括候选关键词获取模块310、相似度计算模块320、逆文档频率计算模块330、关键词提取模块340。
所述候选关键词获取模块310,用于利用分词器对文本进行分词得到每个单词及其词性,并根据所述词性和预设的黑名单对所述单词进行停用词过滤得到候选关键词;
所述相似度计算模块320,用于计算任意两个所述候选关键词之间的相似度;
所述逆文档频率计算模块330,用于根据所述相似度,利用TextRank公式迭代计算每个所述候选关键词的权重,并根据预设的语料库计算每个所述候选关键词的逆文档频率;
所述关键词提取模块340,用于以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
进一步地,所述相似度计算模块320进一步用于:利用word2vec将每个所述候选关键词转化为单词向量的形式,并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
所述装置进一步包括构图模块350,所述构图模块350用于根据所述相似度,利用TextRank公式迭代计算每个所述单词的权重之前,用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词;其中N为所述候选关键词的总数,K为所述窗口的尺寸;用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
所述逆文档频率计算模块330进一步用于:根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
W S ( V i ) = ( 1 - d ) + d * Σ V j ∈ I n ( V i ) w j i Σ v k ∈ O u t ( V j ) w j k W S ( V j )
其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
所述逆文档频率计算模块进一步还用于,
使用如下公式计算每个所述候选关键词的所述逆文档频率:
其中,log()表示取对数运算。
应用实例
假设网络爬虫爬取到一篇豆瓣影评文本等待关键词提取处理,文本内容如下:哈哈哈哈哈哈哈!太好看了^_^!太震撼了!强力推荐!这是能让人真心大笑又哽咽感动的影片———好的喜剧剧本、演员,其实比悲剧更难表现好,两位主演的表现相当亮眼,细节也非常出彩到位。真是让人回味无穷。。。。。。推荐下载地址http://movie.xxx.com。
对于这样一篇影评,要提取其关键词作为标签,首先在词语分隔之前进行使用正则表达式对文本进行去重去噪处理,去除类似”哈哈哈哈哈哈哈”、”^_^”、”———”、”。。。。。。”、”。。。。。。”、”http://movie.xxx.com”这样的非必要内容,使得文本更加清洁。
于是得到下述结果:
!太好看了!太震撼了!强力推荐!这是能让人真心大笑又哽咽感动的影片好的喜剧剧本、演员,其实比悲剧更难表现好,两位主演的表现相当亮眼,细节也非常出彩到位。真是让人回味无穷推荐下载地址。
这段文本中,除了必要的句子之外,还有很多标点符号以及停用词,此时,可以再次采用正则表达式过滤掉标点符号以及”太、了、这、是、能”等这一类词,得到下述结果:
好看震撼强力推荐让人真心大笑又哽咽感动的影片好的喜剧剧本演员其实比悲剧更难表现好两位主演的表现相当亮眼细节也非常出彩到位真是让人回味无穷推荐下载地址
接下来,采用分词器进行句子分割,此处采用基于字典、词库匹配的分词方法,正向扫描出每一个词,并将之与预设的词库进行匹配,可能会得到下述结果:
好看震撼强力推荐让人真心大笑又哽咽感动的影片好的喜剧剧本演员其实比悲剧更难表现好两位主演的表现相当亮眼细节也非常出彩到位真是让人回味无穷推荐下载地址
得到分割后的关键词之后,发现部分单字不能成词,且不具实际意义,因此,还需要进一步过滤,将不能成词的单字滤除。进一步,根据得到的若干候选关键词,采用word2vec工具将其转化为词向量,计算任意二者之间的相似度W,例如:W(好看,震撼)=a,W(好看,强力)=b,W(好看,推荐)=c等等。与此同时,采用长度为5的窗口覆盖在所述候选关键词上,逐个平移,得到如下的候选关键词窗口:
每一个窗口内的词语都是相互连接的,两两相互指向,参见图4所示。
得到指向关系和相似度W之后,将其代入TextRank公式计算每个候选关键词的权重。
假设在200次迭代完成之后得到图5的结果。从图5中可以得到关键词的投票结果,被指向最多的候选关键词对应的权重是最高的。与此同时,针对每一个候选关键词,还要结合预设的语料库计算每个所述候选关键词的逆文档频率。权重与逆文档频率的乘积即是每个候选关键词对应的关键度。将这些候选关键词按照对应的关键度从大到小排列,根据需要的数量即可进行抽取。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种关键词提取方法,其特征在于,所述方法包括如下步骤:
利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
计算任意两个所述候选关键词之间的相似度;
根据所述相似度计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;
根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
2.根据权利要求1所述的方法,其特征在于,所述计算任意两个所述候选关键词之间的相似度包括:
利用word2vec将所述候选关键词转化为单词向量的形式,根据所述候选词的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
3.根据权利要求1所述的方法,其特征在于,所述计算所述候选关键词的权重包括,
用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词,其中N为所述候选关键词的总数,K为所述窗口的尺寸;
用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中,V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
W S ( V i ) = ( 1 - d ) + d * Σ V j ∈ I n ( V i ) w j i Σ v k ∈ O u t ( V j ) w j k W S ( V j )
其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
4.根据权利要求1所述的方法,其特征在于,根据预设的语料库计算每个所述单词的逆文档频率括,
使用如下公式计算每个所述候选关键词的所述逆文档频率:
其中,log( )表示取对数运算。
5.根据权利要求1所述的方法,所述根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,包括:
以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
6.一种关键词提取装置,其特征在于,所述方法包括如下模块:
候选关键词获取模块,用于利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
相似度计算模块,用于计算任意两个所述候选关键词之间的相似度;
逆文档频率计算模块,用于根据所述相似度,计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;
关键词提取模块,用于根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
7.根据权利要求6所述的装置,其特征在于,所述相似度计算模块进一步用于:
利用word2vec将每个所述候选关键词转化为单词向量的形式,并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
8.根据权利要求6所述的装置,其特征在于,所述逆文档频率计算模块具体用于:
用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词;其中N为所述候选关键词的总数,K为所述窗口的尺寸;
用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集和,
根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
W S ( V i ) = ( 1 - d ) + d * Σ V j ∈ I n ( V i ) w j i Σ v k ∈ O u t ( V j ) w j k W S ( V j )
其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图中指向候选关键词Vi的候选关键词集合,Out(Vj)表示所述词项图中候选关键词Vj所指向的候选关键词的集合,wji表示候选关键词Vi和候选关键词Vj的所述相似度,wjk表示候选关键词Vj和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词Vj的所述权重。
9.根据权利要求6所述的装置,其特征在于,所述逆文档频率计算模块具体用于,
使用如下公式计算每个所述候选关键词的所述逆文档频率:
其中,log( )表示取对数运算。
10.根据权利要求6所述的装置,其特征在于,所述关键词提取模块,具体用于:
以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
CN201510799348.6A 2015-11-18 2015-11-18 一种关键词提取方法和装置 Pending CN105893410A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510799348.6A CN105893410A (zh) 2015-11-18 2015-11-18 一种关键词提取方法和装置
PCT/CN2016/082642 WO2017084267A1 (zh) 2015-11-18 2016-05-19 一种关键词提取方法和装置
US15/241,121 US20170139899A1 (en) 2015-11-18 2016-08-19 Keyword extraction method and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510799348.6A CN105893410A (zh) 2015-11-18 2015-11-18 一种关键词提取方法和装置

Publications (1)

Publication Number Publication Date
CN105893410A true CN105893410A (zh) 2016-08-24

Family

ID=57002204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510799348.6A Pending CN105893410A (zh) 2015-11-18 2015-11-18 一种关键词提取方法和装置

Country Status (2)

Country Link
CN (1) CN105893410A (zh)
WO (1) WO2017084267A1 (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570120A (zh) * 2016-11-02 2017-04-19 四川用联信息技术有限公司 一种改进的关键词优化实现搜索引擎优化技术
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107168954A (zh) * 2017-05-18 2017-09-15 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
CN107704503A (zh) * 2017-08-29 2018-02-16 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
CN108419123A (zh) * 2018-03-28 2018-08-17 广州市创新互联网教育研究院 一种教学视频的虚拟切片方法
CN108897737A (zh) * 2018-06-28 2018-11-27 中译语通科技股份有限公司 一种基于大数据分析的核心语汇专题构建方法及系统
CN109074366A (zh) * 2017-02-01 2018-12-21 谷歌有限责任公司 用于计算机网络路由基础架构的增益调整组件
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN109408826A (zh) * 2018-11-07 2019-03-01 北京锐安科技有限公司 一种文本信息提取方法、装置、服务器及存储介质
CN109508456A (zh) * 2018-10-22 2019-03-22 网易(杭州)网络有限公司 一种文本处理方法和装置
CN109582968A (zh) * 2018-12-04 2019-04-05 北京容联易通信息技术有限公司 一种语料中的关键信息的提取方法及装置
WO2019076191A1 (zh) * 2017-10-20 2019-04-25 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN109947923A (zh) * 2019-03-21 2019-06-28 江西风向标教育科技有限公司 一种基于词向量的初等数学题型自动提取方法及系统
CN110019702A (zh) * 2017-09-18 2019-07-16 阿里巴巴集团控股有限公司 数据挖掘方法、装置和设备
CN110059183A (zh) * 2019-03-22 2019-07-26 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110134756A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 会议记录生成方法、电子装置及存储介质
CN110347903A (zh) * 2019-07-17 2019-10-18 江苏东网信息科技有限公司 基于统计语言模型算法的智能信息评估和营销系统
CN110362678A (zh) * 2019-06-04 2019-10-22 哈尔滨工业大学(威海) 一种自动提取中文文本关键词的方法与装置
CN110377725A (zh) * 2019-07-12 2019-10-25 深圳新度博望科技有限公司 数据生成方法、装置、计算机设备及存储介质
CN110516225A (zh) * 2018-05-21 2019-11-29 深圳市六度人和科技有限公司 关键短语提取方法以及关键短语提取系统
CN110750619A (zh) * 2019-08-15 2020-02-04 中国平安财产保险股份有限公司 聊天记录关键词的提取方法、装置、计算机设备及存储介质
CN110795911A (zh) * 2019-09-16 2020-02-14 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN110795942A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 基于语义识别的关键词确定方法、装置和存储介质
CN110851578A (zh) * 2019-10-31 2020-02-28 北京大米科技有限公司 关键词提取方法、装置和电子设备
CN111553156A (zh) * 2020-05-25 2020-08-18 支付宝(杭州)信息技术有限公司 一种关键词提取方法、装置及设备
CN111767713A (zh) * 2020-05-09 2020-10-13 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN111985228A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 文本关键词提取方法、装置、计算机设备和存储介质
CN112417296A (zh) * 2020-12-04 2021-02-26 刘奕名 一种互联网关键数据信息采集提取方法
CN112686043A (zh) * 2021-01-12 2021-04-20 武汉大学 一种基于词向量的企业所属新兴产业分类方法
CN112765344A (zh) * 2021-01-12 2021-05-07 哈尔滨工业大学 一种基于会议记录生成会议摘要的方法、装置及存储介质
CN112802569A (zh) * 2021-02-05 2021-05-14 北京嘉和海森健康科技有限公司 一种语义信息的获取方法、装置、设备及可读存储介质
CN113569128A (zh) * 2020-04-29 2021-10-29 北京金山云网络技术有限公司 数据检索方法、装置及电子设备
CN114331766A (zh) * 2022-01-05 2022-04-12 中国科学技术信息研究所 专利技术核心度的确定方法、装置、电子设备及存储介质

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729311B (zh) * 2017-08-28 2020-10-16 云南大学 一种融合文本语气的中文文本特征提取方法
US11334608B2 (en) 2017-11-23 2022-05-17 Infosys Limited Method and system for key phrase extraction and generation from text
CN108170684B (zh) 2018-01-22 2020-06-05 京东方科技集团股份有限公司 文本相似度计算方法及系统、数据查询系统和计算机产品
CN110298024B (zh) * 2018-03-21 2022-10-11 西北工业大学 涉密文档的检测方法、装置及存储介质
CN110413956B (zh) * 2018-04-28 2023-08-01 南京云问网络技术有限公司 一种基于bootstrapping的文本相似度计算方法
CN108932228B (zh) * 2018-06-06 2023-08-08 广东南方报业移动媒体有限公司 直播行业新闻与分区匹配方法、装置、服务器及存储介质
CN108829822B (zh) * 2018-06-12 2023-10-27 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109062895B (zh) * 2018-07-23 2022-06-24 挖财网络技术有限公司 一种智能语义处理方法
CN109189914A (zh) * 2018-08-27 2019-01-11 黑龙江八农垦大学 一种计算机人工智能信息过滤系统
CN110909540B (zh) * 2018-09-14 2022-05-24 阿里巴巴集团控股有限公司 短信垃圾新词识别方法、装置及电子设备
CN110929022A (zh) * 2018-09-18 2020-03-27 阿基米德(上海)传媒有限公司 一种文本摘要生成方法及系统
CN109614626A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于万有引力模型的关键词自动抽取方法
CN109766544B (zh) * 2018-12-24 2022-09-30 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置
CN109933787B (zh) * 2019-02-14 2023-07-14 安徽省泰岳祥升软件有限公司 文本关键信息的提取方法、装置及介质
CN110059311B (zh) * 2019-03-27 2023-04-28 银江技术股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110008474B (zh) * 2019-04-04 2023-06-02 科大讯飞股份有限公司 一种关键短语确定方法、装置、设备及存储介质
CN110083837B (zh) * 2019-04-26 2023-11-24 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110198464B (zh) * 2019-05-06 2023-03-28 平安科技(深圳)有限公司 语音智能播报方法、装置、计算机设备及存储介质
CN110298028B (zh) * 2019-05-21 2023-08-18 杭州未名信科科技有限公司 一种文本段落的关键句提取方法和装置
CN110598972B (zh) * 2019-07-26 2023-01-20 浙江华云信息科技有限公司 一种基于自然语言处理的计量采集研究方向趋势分析方法
CN110717329B (zh) * 2019-09-10 2023-06-16 上海开域信息科技有限公司 基于词向量进行近似搜索快速提取广告文本主题的方法
CN110489759B (zh) * 2019-09-12 2023-02-28 人和未来生物科技(长沙)有限公司 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN111125297B (zh) * 2019-11-29 2022-11-25 中国电子科技集团公司第二十八研究所 一种基于搜索引擎的海量离线文本实时推荐方法
CN111324721A (zh) * 2020-03-16 2020-06-23 云南电网有限责任公司信息中心 一种智能问答知识库的构建方法
CN111460099B (zh) * 2020-03-30 2023-04-07 招商局金融科技有限公司 关键词提取方法、装置及存储介质
CN111680505B (zh) * 2020-04-21 2023-08-08 华东师范大学 一种Markdown特征感知的无监督关键词提取方法
CN111522938B (zh) * 2020-04-27 2023-03-24 广东电网有限责任公司培训与评价中心 一种人才业绩文档的筛选方法、装置和设备
CN111581347B (zh) * 2020-04-28 2023-07-21 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN111581960B (zh) * 2020-05-06 2023-09-29 上海海事大学 一种获取医学文本语义相似度的方法
CN111581990B (zh) * 2020-05-14 2023-11-21 中国银行股份有限公司 跨境交易撮合匹配方法及装置
CN111737997A (zh) * 2020-06-18 2020-10-02 达而观信息科技(上海)有限公司 一种文本相似度确定方法、设备及储存介质
CN111753547B (zh) * 2020-06-30 2024-02-27 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN112232374B (zh) * 2020-09-21 2023-04-07 西北工业大学 基于深度特征聚类和语义度量的不相关标签过滤方法
CN112199926B (zh) * 2020-10-16 2024-05-10 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
CN112364601B (zh) * 2020-10-28 2023-04-07 南阳理工学院 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置
CN112364141A (zh) * 2020-11-05 2021-02-12 天津大学 基于图神经网络的科学文献关键内容潜在关联挖掘方法
CN112733538B (zh) * 2021-01-19 2023-05-30 广东工业大学 一种基于文本的本体构建方法及装置
CN112836487B (zh) * 2021-02-07 2023-01-24 四川封面传媒有限责任公司 一种自动评论方法、装置、计算机设备及存储介质
CN113656429A (zh) * 2021-07-28 2021-11-16 广州荔支网络技术有限公司 一种关键词提取方法、装置、计算机设备和存储介质
CN113722428A (zh) * 2021-08-10 2021-11-30 哈尔滨工业大学 一种基于关键词挖掘新闻的时代特征提取方法
CN113705230B (zh) * 2021-08-31 2023-08-25 中国平安财产保险股份有限公司 基于人工智能的保单特约的评估方法、装置、设备及介质
CN114065758B (zh) * 2021-11-22 2024-04-19 杭州师范大学 一种基于超图随机游走的文档关键词抽取方法
CN114328826B (zh) * 2021-12-20 2024-06-11 青岛檬豆网络科技有限公司 一种提取技术成果、技术需求的关键词和文摘的方法
CN114490396B (zh) * 2022-01-27 2023-05-05 北京京航计算通讯研究所 一种软件测试需求挖掘方法和系统
CN114462392B (zh) * 2022-02-14 2024-07-23 南京邮电大学 一种基于主题关联度与关键词联想的短文本特征扩展方法
CN114742062B (zh) * 2022-05-24 2022-08-23 启客(北京)科技有限公司 文本关键词提取处理方法及系统
CN114786184B (zh) * 2022-06-21 2022-09-16 中国信息通信研究院 涉诈短信拦截模板生成方法及装置
CN115186665B (zh) * 2022-09-15 2023-02-21 北京智谱华章科技有限公司 一种基于语义的无监督学术关键词提取方法及设备
CN116823406B (zh) * 2023-08-24 2023-11-14 国品优选(北京)品牌管理有限公司 一种基于大数据的营养素片推荐方法及系统
CN116993549A (zh) * 2023-09-18 2023-11-03 西北师范大学 一种用于在线学习系统的复习资源推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629833A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 实现问与答功能和计算机辅助写作的方法及装置
US20120078613A1 (en) * 2010-09-29 2012-03-29 Rhonda Enterprises, Llc Method, system, and computer readable medium for graphically displaying related text in an electronic document
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN103678313A (zh) * 2012-08-31 2014-03-26 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200695B2 (en) * 2006-04-13 2012-06-12 Lg Electronics Inc. Database for uploading, storing, and retrieving similar documents
CN101968801A (zh) * 2010-09-21 2011-02-09 上海大学 一种单篇文本关键词的提取方法
CN102033919A (zh) * 2010-12-07 2011-04-27 北京新媒传信科技有限公司 文本关键词提取方法及系统
CN104239300B (zh) * 2013-06-06 2017-10-20 富士通株式会社 从文本中挖掘语义关键词的方法和设备
CN104731797B (zh) * 2013-12-19 2018-09-18 北京新媒传信科技有限公司 一种提取关键词的方法及装置
CN105005589B (zh) * 2015-06-26 2017-12-29 腾讯科技(深圳)有限公司 一种文本分类的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629833A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 实现问与答功能和计算机辅助写作的方法及装置
US20120078613A1 (en) * 2010-09-29 2012-03-29 Rhonda Enterprises, Llc Method, system, and computer readable medium for graphically displaying related text in an electronic document
CN103678313A (zh) * 2012-08-31 2014-03-26 北京百度网讯科技有限公司 一种评估网页权威性的方法及装置
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BBKING: "TextRank自动文摘", 《HTTPS://WWW.CNBLOGS.COM/CHENBJIN/P/4600538.HTML》 *
阮一峰: "TF-IDF与余弦相似性的应用(一):自动提取关键词", 《HTTP://WWW.RUANYIFENG.COM/BLOG/2013/03/TF-IDF.HTML》 *

Cited By (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN106570120A (zh) * 2016-11-02 2017-04-19 四川用联信息技术有限公司 一种改进的关键词优化实现搜索引擎优化技术
US10726446B2 (en) 2016-12-26 2020-07-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for pushing information
CN108241667B (zh) * 2016-12-26 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109074366A (zh) * 2017-02-01 2018-12-21 谷歌有限责任公司 用于计算机网络路由基础架构的增益调整组件
CN109074366B (zh) * 2017-02-01 2021-05-18 谷歌有限责任公司 用于计算机网络路由基础架构的增益调整组件
CN108319627A (zh) * 2017-02-06 2018-07-24 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN108319627B (zh) * 2017-02-06 2024-05-28 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN107122413B (zh) * 2017-03-31 2020-04-10 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN106970910B (zh) * 2017-03-31 2020-03-27 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107168954A (zh) * 2017-05-18 2017-09-15 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN107168954B (zh) * 2017-05-18 2021-03-26 北京奇艺世纪科技有限公司 文本关键词生成方法及装置和电子设备及可读存储介质
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN107704503A (zh) * 2017-08-29 2018-02-16 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
CN110019702A (zh) * 2017-09-18 2019-07-16 阿里巴巴集团控股有限公司 数据挖掘方法、装置和设备
CN110019702B (zh) * 2017-09-18 2023-04-07 阿里巴巴集团控股有限公司 数据挖掘方法、装置和设备
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
WO2019076191A1 (zh) * 2017-10-20 2019-04-25 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置
US11194965B2 (en) 2017-10-20 2021-12-07 Tencent Technology (Shenzhen) Company Limited Keyword extraction method and apparatus, storage medium, and electronic apparatus
CN108052593B (zh) * 2017-12-12 2020-09-22 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108052593A (zh) * 2017-12-12 2018-05-18 山东科技大学 一种基于主题词向量和网络结构的主题关键词提取方法
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
CN108419123B (zh) * 2018-03-28 2020-09-04 广州市创新互联网教育研究院 一种教学视频的虚拟切片方法
CN108419123A (zh) * 2018-03-28 2018-08-17 广州市创新互联网教育研究院 一种教学视频的虚拟切片方法
CN110516225A (zh) * 2018-05-21 2019-11-29 深圳市六度人和科技有限公司 关键短语提取方法以及关键短语提取系统
CN108897737A (zh) * 2018-06-28 2018-11-27 中译语通科技股份有限公司 一种基于大数据分析的核心语汇专题构建方法及系统
CN109508456A (zh) * 2018-10-22 2019-03-22 网易(杭州)网络有限公司 一种文本处理方法和装置
CN109508456B (zh) * 2018-10-22 2023-04-18 网易(杭州)网络有限公司 一种文本处理方法和装置
CN109408826A (zh) * 2018-11-07 2019-03-01 北京锐安科技有限公司 一种文本信息提取方法、装置、服务器及存储介质
CN109582968A (zh) * 2018-12-04 2019-04-05 北京容联易通信息技术有限公司 一种语料中的关键信息的提取方法及装置
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN109947923A (zh) * 2019-03-21 2019-06-28 江西风向标教育科技有限公司 一种基于词向量的初等数学题型自动提取方法及系统
CN110059183B (zh) * 2019-03-22 2022-08-23 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110059183A (zh) * 2019-03-22 2019-07-26 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110134756A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 会议记录生成方法、电子装置及存储介质
CN110362678A (zh) * 2019-06-04 2019-10-22 哈尔滨工业大学(威海) 一种自动提取中文文本关键词的方法与装置
CN110377725B (zh) * 2019-07-12 2021-09-24 深圳新度博望科技有限公司 数据生成方法、装置、计算机设备及存储介质
CN110377725A (zh) * 2019-07-12 2019-10-25 深圳新度博望科技有限公司 数据生成方法、装置、计算机设备及存储介质
CN110347903A (zh) * 2019-07-17 2019-10-18 江苏东网信息科技有限公司 基于统计语言模型算法的智能信息评估和营销系统
CN110750619A (zh) * 2019-08-15 2020-02-04 中国平安财产保险股份有限公司 聊天记录关键词的提取方法、装置、计算机设备及存储介质
CN110750619B (zh) * 2019-08-15 2024-05-28 中国平安财产保险股份有限公司 聊天记录关键词的提取方法、装置、计算机设备及存储介质
CN110795911B (zh) * 2019-09-16 2023-07-21 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN110795911A (zh) * 2019-09-16 2020-02-14 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN110795942A (zh) * 2019-09-18 2020-02-14 平安科技(深圳)有限公司 基于语义识别的关键词确定方法、装置和存储介质
WO2021051557A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 基于语义识别的关键词确定方法、装置和存储介质
CN110795942B (zh) * 2019-09-18 2022-10-14 平安科技(深圳)有限公司 基于语义识别的关键词确定方法、装置和存储介质
CN110851578A (zh) * 2019-10-31 2020-02-28 北京大米科技有限公司 关键词提取方法、装置和电子设备
CN113569128A (zh) * 2020-04-29 2021-10-29 北京金山云网络技术有限公司 数据检索方法、装置及电子设备
CN111767713A (zh) * 2020-05-09 2020-10-13 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN111767713B (zh) * 2020-05-09 2023-07-21 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN111553156A (zh) * 2020-05-25 2020-08-18 支付宝(杭州)信息技术有限公司 一种关键词提取方法、装置及设备
CN111553156B (zh) * 2020-05-25 2023-08-04 支付宝(杭州)信息技术有限公司 一种关键词提取方法、装置及设备
CN111985228A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 文本关键词提取方法、装置、计算机设备和存储介质
CN112417296B (zh) * 2020-12-04 2021-06-15 刘奕名 一种互联网关键数据信息采集提取方法
CN112417296A (zh) * 2020-12-04 2021-02-26 刘奕名 一种互联网关键数据信息采集提取方法
CN112686043B (zh) * 2021-01-12 2024-02-06 武汉大学 一种基于词向量的企业所属新兴产业分类方法
CN112765344A (zh) * 2021-01-12 2021-05-07 哈尔滨工业大学 一种基于会议记录生成会议摘要的方法、装置及存储介质
CN112686043A (zh) * 2021-01-12 2021-04-20 武汉大学 一种基于词向量的企业所属新兴产业分类方法
CN112802569A (zh) * 2021-02-05 2021-05-14 北京嘉和海森健康科技有限公司 一种语义信息的获取方法、装置、设备及可读存储介质
CN112802569B (zh) * 2021-02-05 2023-08-08 北京嘉和海森健康科技有限公司 一种语义信息的获取方法、装置、设备及可读存储介质
CN114331766B (zh) * 2022-01-05 2022-07-08 中国科学技术信息研究所 专利技术核心度的确定方法、装置、电子设备及存储介质
CN114331766A (zh) * 2022-01-05 2022-04-12 中国科学技术信息研究所 专利技术核心度的确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2017084267A1 (zh) 2017-05-26

Similar Documents

Publication Publication Date Title
CN105893410A (zh) 一种关键词提取方法和装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
Ljubešić et al. {bs, hr, sr} wac-web corpora of Bosnian, Croatian and Serbian
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
Fonseca et al. Mac-morpho revisited: Towards robust part-of-speech tagging
Alkhatlan et al. Word sense disambiguation for arabic exploiting arabic wordnet and word embedding
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
Pitler et al. Using web-scale N-grams to improve base NP parsing performance
Al-Omari et al. Arabic light stemmer (ARS)
JP2011118689A (ja) 検索方法及びシステム
Ettinger et al. Retrofitting sense-specific word vectors using parallel text
CN107180026A (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
WO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
CN110929022A (zh) 一种文本摘要生成方法及系统
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN111737420A (zh) 一种基于争议焦点的类案检索方法及系统及装置及介质
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
Sembok et al. Arabic word stemming algorithms and retrieval effectiveness
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Kawahara et al. Single Classifier Approach for Verb Sense Disambiguation based on Generalized Features.
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
Sun et al. Answer extraction from passage graph for question answering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160824

WD01 Invention patent application deemed withdrawn after publication