CN110362678A - 一种自动提取中文文本关键词的方法与装置 - Google Patents
一种自动提取中文文本关键词的方法与装置 Download PDFInfo
- Publication number
- CN110362678A CN110362678A CN201910481863.8A CN201910481863A CN110362678A CN 110362678 A CN110362678 A CN 110362678A CN 201910481863 A CN201910481863 A CN 201910481863A CN 110362678 A CN110362678 A CN 110362678A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- keyword
- score
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000012804 iterative process Methods 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012821 model calculation Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000007792 addition Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明公开了一种自动提取中文文本关键词的方法与装置,该方法包括:首先对文本进行中文分词和去除停用词;然后将单词转化为词向量,然后统计词频,通过词频和词语相似度计算单词在文本中的权重;然后构建基于图模型的文本排序算法,多次迭代计算出顶点得分;并且每次迭代计算过程中对关键词合并,并在图模型中添加新顶点并计算得分,然后对顶点得分进行排序,得分最大的为文本中最重要的关键词,本发明可实现中文文本关键词的准确提取。
Description
技术领域
本发明属于数字数据处理技术领域,特别涉及一种自动提取中文文本关键词的方法与装置。
背景技术
随着计算机网络的发展,互联网每天都产生海量的数据,数据的形式也多种多样,主要形式有文本、图片、音频和视频。虽然图片、音视、频数据所占体量大,但所包含的信息较少,文本数据所包含信息较多,也更难挖掘,如何更有效地挖掘文本中的信息,是信息检索和数据挖掘中重要的问题。提取文本关键词的目的是提取文本中最重要、最核心的词,是文本挖掘中的一个基本问题。
目前,文本关键词提取有多种实现方式,基于统计的方法、基于语义分析的方法、基于图模型的方法和基于深度学习的方法。基于统计的方法有统计词频的方法,TF-IDF方法、LDA统计方法,通过统计单词的特征来确定文本中的关键词,但这种方法很难提取到有效的关键词,基于语义的方法有通过计算单词之间的语义相似度,构建语义相似度网络来衡量一个词词的重要程度。基于图模型的方法,最著名的就是基于谷歌网页重要程度计算算法PageRank思想上设计的TextRank算法,通过候选关键词上下文的投票机制来衡量该词的重要性,该算法只需要分析单篇文档就能提取出关键词,该算法简洁并有效。近年来随着深度学习的发展,很多研究学者也将深度学习技术应用到关键词提取中,最典型的就是把词提取问题转化为序列标注问题,通过大量的标记文本,使用基于双向LSTM的文本标注模型,模型输出为标注关键词的文本,从而解决文本关键词提取问题,但是这种方法需要大量的标注文本,并且过于依赖标注文本,不具备通用性。
而且,由于中文的特殊性,很多方法直接把分词结果作为关键词进行提取,这样做文本词提取的准确性依赖于文本分词的准确度,这显然是不科学的。TextRank算法仅仅通过上下文的投票机制来衡量其重要性,没有考虑单词之间的语义信息。
因此,本文提出一种自动提取中文文本关键词的方法与装置,可以有效地提取中文文本的关键词,提高了提取文本关键词的准确度。
发明内容
针对现有技术存在的不足,本发明提供一种自动提取中文文本关键词的方法与装置,使用深度学习的方法表示中文单词的语义信息,计算候选关键词之间的语义相似度和词频信息作为该候选关键词的权重,然后使用改进的基于图模型的文本排序算法对候选关键词进行排序,每次排序后基于单词共现信息对候选关键词进行合并,多次迭代后直到算法收敛,输出每个候选关键词的重要程度,并对其排序,实现中文文本关键词的准确提取。
为了解决上述技术问题,本发明采用的技术方案是:
本发明提供一种自动提取中文文本关键词的方法,包括以下阶段,
预处理阶段:对文本进行中文分词和去除停用词;
权重计算阶段:用大规模语料库训练的word2vec模型将单词转化为词向量,然后统计词频,通过词频和词语相似度计算单词在文本中的权重;
图模型计算阶段:构建基于图模型的文本排序算法,多次迭代计算出顶点得分;
关键词得分计算及排序阶段:每次迭代计算过程中对关键词合并,并在图模型中添加新顶点并计算得分,然后对顶点得分进行排序,得分最大的为文本中最重要的关键词。
进一步的,所述的自动提取中文文本关键词的方法具体包括以下步骤:
(1)对于一段中文文本Si,首先对该文本进行中文分词,去除停用词和标点符号之后将句子分成单词序列[w1,w2,…,wn];
(2)然后对其中每个单词转化为词向量[v1,v2,…,vn],词向量转化使用在大规模中文语料库上训练的word2vec模型,该模型使用深度学习的思想,学习大量核心词的上下文关系,将单词转化为向量,通过计算向量之间的距离来衡量两个单词的相似程度,相似度计算使用向量的欧氏距离计算,对于n维向量xi和xj之间的欧式距离为
(3)统计每个关键词在文本中的出现频率freq(wi),wi表示文本中的第i个单词,对于每个关键词wi,计算wi与其他单词的相似度,最终计算出wi在文本中的权重,
权重计算公式为
其中dis(wi,w1)+dis(wi,w2)+…+dis(wi,wn)为词wi与其他词之间的距离之和,距离越小表示两词之间的相似度越高,关键词出现的频率越高则该词在文本中的权重越高,表示该词在文本中的重要性越高;
(4)然后使用基于图模型的文本排序算法对关键词进行排序,该算法把文本表示一个无向图G(V,E),V是顶点集合,一个关键词表示为一个顶点vi,E是无向边的集合,是V×V的子集,边的权重与两顶点的相似度有关,也就是单词之间的相似度,vi与vj之间边的权重wij的计算公式为
顶点vi的初始得分为上述单词wi在文本中的权重weight(wi),词顶点vi最终得分的计算公式为
其中α是阻尼系数,取值范围是0到1,含义是图模型中一顶点指向其他顶点的概率,多次递归迭代计算此公式,最终使其收敛,如果任意顶点两次计算的差值小于阈值的时候认为该计算过程收敛;
(5)在每次迭代计算过程中对关键词合并,然后计算合并后的词在文本中的权重weight(ws),并在图模型中加入新顶点vs,并计算顶点得分S(vs),并将此顶点加入下一次的迭代过程中;
(6)算法收敛后对顶点得分进行倒序排序,从大到小得到每个关键词的得分,得分最大的为文本中最重要的关键词。
进一步的,关键词合并的步骤是:在原始文本中标注候选关键词,如果候选关键词在文本中相邻出现,认为相邻的两个关键词能合并为一个关键词,计算合并关键词的词向量
本发明还提供一种自动提取中文文本关键词的装置,输入为中文文本,输出为得分最高的K个关键词及其得分,通过网络发送至电子设备,包括:
预处理模块,用于对中文文本进行预处理;
权重计算模块,用于计算出单词在文本中的权重;
图模型计算模块,用于建立图模型,并计算顶点得分;
词合并模块,用于迭代计算过程中对单词进行合并。
进一步的,所述权重计算模块统计每个关键词在文本中的出现频率freq(wi),计算每个关键词wi与其他单词的相似度,最终计算出wi在文本中的权重,权重计算公式为其中dis(wi,w1)+dis(wi,w2)+…+dis(wi,wn)为词wi与其他词之间的距离之和,距离越小表示两词之间的相似度越高,关键词出现的频率越高则该词在文本中的权重越高,表示该词在文本中的重要性越高。
进一步的,所述图模型计算模块构建基于图模型的文本排序算法,单词作为图的顶点,根据词频和单词相似度初始化边的权重,然后根据文本排序算法中公式计算顶点得分,迭代计算直到每个顶点两次计算得到得分小于阈值,输出得分最高的K个关键词及其得分;
其中,所述词合并模块在每次迭代过程中对单词进行合并,并且添加图模型新顶点,通过所述图模型计算模块计算新顶点得分,并将此顶点加入下次迭代计算过程中。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的自动提取中文文本关键词的方法步骤。
与现有技术相比,本发明优点在于:
(1)定义了改进的关键词权重计算公式,结合了单词语义相似度和关键词词频信息,使关键词的权重计算更加科学有效
(2)定义了关键词合并的方式,解决了中文分词效果差的问题,中文分词效果不会影响到关键词提取的效果;
(3)使用了改进的图模型计算方式,使提取关键词的准确度更高;
(4)是之后文本挖掘,文本情感分析,搜索引擎工作的基础,可以对任何时间、任何地点、大多数设备的文本进行关键词提取,应用前景十分广泛。
实用范围包括对文本提取关键词之后的关键词的情感分析,文本语义挖掘,搜索引擎基于关键词对信息进行检索,该装置可以对任何时间、任何地点、大多数设备的文本进行关键词提取。应用前景十分广泛。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明自动提取中文文本关键词的方法流程图;
图2为本发明自动提取中文文本关键词的装置结构框图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
本发明的自动提取中文文本关键词的方法原理是:使用深度学习的方法表示中文单词的语义信息,计算候选关键词之间的语义相似度和词频信息作为该候选关键词的权重,然后使用基于图模型的文本排序算法对候选关键词进行排序,单词作为图的顶点,根据单词在文本中权重初始化图模型中顶点得分,根据词频和单词相似度初始化边的权重,然后根据文本排序算法中公式计算顶点得分,迭代计算直到每个顶点两次计算得到得分小于阈值,在每次迭代过程中对关键词进行合并,并且添加图模型顶点。最终输出每个候选关键词的重要程度,并对其排序。包括以下阶段:
预处理阶段:对文本进行中文分词和去除停用词。
权重计算阶段:用大规模语料库训练的word2vec模型将单词转化为词向量,然后统计词频,通过词频和词语相似度计算单词在文本中的权重。
图模型计算阶段:构建基于图模型的文本排序算法,多次迭代计算出顶点得分。
关键词得分计算及排序阶段:每次迭代计算过程中对关键词合并,并在图模型中添加新顶点并计算得分,然后对顶点得分进行排序,得分最大的为文本中最重要的关键词。
结合图l所示流程图,本实施例的自动提取中文文本关键词的方法具体包括以下步骤:
(1)对于一段中文文本Si,首先对该文本进行中文分词,去除停用词和标点符号之后将句子分成单词序列[w1,w2,…,wn],此为预处理阶段。
(2)然后对其中每个单词转化为词向量[v1,v2,…,vn],词向量转化使用在大规模中文语料库上训练的word2vec模型,该模型使用深度学习的思想,学习大量核心词的上下文关系,将单词转化为向量,通过计算向量之间的距离来衡量两个单词的相似程度,相似度计算使用向量的欧氏距离计算,对于n维向量xi和xj之间的欧式距离为
(3)然后统计每个关键词在文本中的出现频率freq(wi),wi表示文本中的第i个单词,对于每个关键词wi,计算wi与其他单词的相似度,最终计算出wi在文本中的权重,
权重计算公式为其中dis(wi,w1)+dis(wi,w2)+…+dis(wi,wn)为词wi与其他词之间的距离之和,距离越小表示两词之间的相似度越高,关键词出现的频率越高则该词在文本中的权重越高,表示该词在文本中的重要性越高。
(4)然后使用基于图模型的文本排序算法对关键词进行排序,该算法把文本表示一个无向图G(V,E),V是顶点集合,一个关键词表示为一个顶点vi,E是无向边的集合,是V×V的子集,边的权重与两顶点的相似度有关,也就是单词之间的相似度,vi与vj之间边的权重wij的计算公式为
顶点vi的初始得分为上述单词wi在文本中的权重weight(wi),词顶点vi最终得分的计算公式为
其中α是阻尼系数,取值范围是0到l,一般取值是0.85,含义是图模型中一顶点指向其他顶点的概率,多次递归迭代计算此公式,最终使其收敛,如果任意顶点两次计算的差值小于阈值的时候认为该计算过程收敛,阈值取很小的实数值,可以取0.00000l。
(5)在每次迭代计算过程中还血药进行关键词合并,因为中文分词之后的结果作为关键词显然是不正确的,关键词合并的步骤是:在原始文本中标注候选关键词,如果候选关键词在文本中相邻出现,认为相邻的两个关键词能合并为一个关键词,计算合并关键词的词向量然后计算合并后的词在文本中的权重weight(ws),并在图模型中加入新顶点vs,并计算顶点得分S(vs),并将此顶点加入下一次的迭代过程中;
(6)算法收敛后对顶点得分进行倒序排序,从大到小得到每个关键词的得分,得分最大的为文本中最重要的关键词。
作为本发明另一实施例,如图2所示,一种自动提取中文文本关键词的装置,该装置的输入为中文文本,输出为得分最高的K个关键词及其得分,包括:
预处理模块,用于对中文文本进行预处理;
权重计算模块,用于计算出单词在文本中的权重;
图模型计算模块,用于建立图模型,并计算顶点得分;
词合并模块,用于迭代计算过程中对单词进行合并。
整体设计思路为首先从电子设备通过网络传输过来的中文文本,对中文文本进行预处理,然后通过权重计算模块计算出单词在文本中的权重,然后通过图模型计算模块,建立图模型并计算顶点得分,还需要在迭代计算过程中通过词合并模块对单词进行合并,最终计算结果得到关键词得分及排序,通过网络发送给电子设备,这里电子设备可以是各种移动设备或电脑。
其中,权重计算模块统计每个关键词在文本中的出现频率freq(wi),计算每个关键词wi与其他单词的相似度,最终计算出wi在文本中的权重,权重计算公式为
其中dis(wi,w1)+dis(wi,w2)+…+dis(wi,wn)为词wi与其他词之间的距离之和,距离越小表示两词之间的相似度越高,关键词出现的频率越高则该词在文本中的权重越高,表示该词在文本中的重要性越高。
图模型计算模块构建基于图模型的文本排序算法,单词作为图的顶点,根据词频和单词相似度初始化边的权重,然后根据文本排序算法中公式计算顶点得分,迭代计算直到每个顶点两次计算得到得分小于阈值,输出得分最高的K个关键词及其得分。其中,所述词合并模块在每次迭代过程中对单词进行合并,并且添加图模型新顶点,通过所述图模型计算模块计算新顶点得分,并将此顶点加入下次迭代计算过程中。
关于该装置部分的实施方法还可以参见实施例1,此处不再一一赘述。
作为本发明另一实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的自动提取中文文本关键词的方法步骤。此处不再赘述。
综上所述,本发明采用改进的关键词权重计算公式,结合了单词语义相似度和关键词词频信息,使关键词的权重计算更加科学有效;并且定义了关键词合并的方式,解决了中文分词效果差的问题,中文分词效果不会影响到关键词提取的效果;使用了改进的图模型计算方式,使提取关键词的准确度更高。应用范围广泛,包括对文本提取关键词之后的关键词的情感分析,文本语义挖掘,搜索引擎基于关键词对信息进行检索,该装置可以对任何时间、任何地点、大多数设备的文本进行关键词提取。
本发明说明书的各个实施例之间相同或相似部分互相参见即可,每个实施例重点说明的是与其他实施例不同之处。并且,系统实施例的结构仅仅是示意性的,其中所述可分离部件说明的程序模块可以是或不是物理上分开的,实际应用时,可根据需要选择部分或全部模块实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (7)
1.一种自动提取中文文本关键词的方法,其特征在于,包括以下阶段,
预处理阶段:对文本进行中文分词和去除停用词;
权重计算阶段:用大规模语料库训练的word2vec模型将单词转化为词向量,然后统计词频,通过词频和词语相似度计算单词在文本中的权重;
图模型计算阶段:构建基于图模型的文本排序算法,多次迭代计算出顶点得分;
关键词得分计算及排序阶段:每次迭代计算过程中对关键词合并,并在图模型中添加新顶点并计算得分,然后对顶点得分进行排序,得分最大的为文本中最重要的关键词。
2.根据权利要求1所述的自动提取中文文本关键词的方法,其特征在于,具体包括以下步骤:
(1)对于一段中文文本Si,首先对该文本进行中文分词,去除停用词和标点符号之后将句子分成单词序列[w1,w2,…,wn];
(2)然后对其中每个单词转化为词向量[v1,v2,…,vn],词向量转化使用在大规模中文语料库上训练的word2vec模型,该模型使用深度学习的思想,学习大量核心词的上下文关系,将单词转化为向量,通过计算向量之间的距离来衡量两个单词的相似程度,相似度计算使用向量的欧氏距离计算,对于n维向量xi和xj之间的欧式距离为
(3)统计每个关键词在文本中的出现频率freq(wi),wi表示文本中的第i个单词,对于每个关键词wi,计算wi与其他单词的相似度,最终计算出wi在文本中的权重,
权重计算公式为其中dis(wi,w1)+dis(wi,w2)+…+dis(wi,wn)为词wi与其他词之间的距离之和,距离越小表示两词之间的相似度越高,关键词出现的频率越高则该词在文本中的权重越高,表示该词在文本中的重要性越高;
(4)然后使用基于图模型的文本排序算法对关键词进行排序,该算法把文本表示一个无向图G(V,E),V是顶点集合,一个关键词表示为一个顶点vi,E是无向边的集合,是V×V的子集,边的权重与两顶点的相似度有关,也就是单词之间的相似度,vi与vj之间边的权重wij的计算公式为
顶点vi的初始得分为上述单词wi在文本中的权重weight(wi),词顶点vi最终得分的计算公式为
其中α是阻尼系数,取值范围是0到1,含义是图模型中一顶点指向其他顶点的概率,多次递归迭代计算此公式,最终使其收敛,如果任意顶点两次计算的差值小于阈值的时候认为该计算过程收敛;
(5)在每次迭代计算过程中对关键词合并,然后计算合并后的词在文本中的权重weight(ws),并在图模型中加入新顶点vs,并计算顶点得分S(vs),并将此顶点加入下一次的迭代过程中;
(6)算法收敛后对顶点得分进行倒序排序,从大到小得到每个关键词的得分,得分最大的为文本中最重要的关键词。
3.根据权利要求2所述的自动提取中文文本关键词的方法,其特征在于:关键词合并的步骤是:在原始文本中标注候选关键词,如果候选关键词在文本中相邻出现,认为相邻的两个关键词能合并为一个关键词,计算合并关键词的词向量
4.一种自动提取中文文本关键词的装置,其特征在于,输入为中文文本,输出为得分最高的K个关键词及其得分,通过网络发送至电子设备,包括:
预处理模块,用于对中文文本进行预处理;
权重计算模块,用于计算出单词在文本中的权重;
图模型计算模块,用于建立图模型,并计算顶点得分;
词合并模块,用于迭代计算过程中对单词进行合并。
5.根据权利要求4所述的自动提取中文文本关键词的装置,其特征在于,所述权重计算模块统计每个关键词在文本中的出现频率freq(wi),计算每个关键词wi与其他单词的相似度,最终计算出wi在文本中的权重,权重计算公式为
其中dis(wi,w1)+dis(wi,w2)+…+dis(wi,wn)为词wi与其他词之间的距离之和,距离越小表示两词之间的相似度越高,关键词出现的频率越高则该词在文本中的权重越高,表示该词在文本中的重要性越高。
6.根据权利要求4所述的自动提取中文文本关键词的装置,其特征在于,所述图模型计算模块构建基于图模型的文本排序算法,单词作为图的顶点,根据词频和单词相似度初始化边的权重,然后根据文本排序算法中公式计算顶点得分,迭代计算直到每个顶点两次计算得到得分小于阈值,输出得分最高的K个关键词及其得分;
其中,所述词合并模块在每次迭代过程中对单词进行合并,并且添加图模型新顶点,通过所述图模型计算模块计算新顶点得分,并将此顶点加入下次迭代计算过程中。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3任一权利要求所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910481863.8A CN110362678A (zh) | 2019-06-04 | 2019-06-04 | 一种自动提取中文文本关键词的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910481863.8A CN110362678A (zh) | 2019-06-04 | 2019-06-04 | 一种自动提取中文文本关键词的方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110362678A true CN110362678A (zh) | 2019-10-22 |
Family
ID=68215006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910481863.8A Pending CN110362678A (zh) | 2019-06-04 | 2019-06-04 | 一种自动提取中文文本关键词的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362678A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991175A (zh) * | 2019-12-10 | 2020-04-10 | 爱驰汽车有限公司 | 多模态下的文本生成方法、系统、设备及存储介质 |
CN111027306A (zh) * | 2019-12-23 | 2020-04-17 | 园宝科技(武汉)有限公司 | 一种基于关键词抽取和词移距离的知识产权匹配技术 |
CN111222333A (zh) * | 2020-04-22 | 2020-06-02 | 成都索贝数码科技股份有限公司 | 一种基于网络高阶结构和主题模型融合的关键词抽取方法 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN112668306A (zh) * | 2020-12-22 | 2021-04-16 | 延边大学 | 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统 |
CN112732870A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、装置、设备及存储介质 |
CN112988971A (zh) * | 2021-03-15 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、终端、服务器及存储介质 |
CN113408286A (zh) * | 2021-05-28 | 2021-09-17 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
CN116522901A (zh) * | 2023-06-29 | 2023-08-01 | 金锐同创(北京)科技股份有限公司 | It社群的关注信息的分析方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN108319627A (zh) * | 2017-02-06 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN108763348A (zh) * | 2018-05-15 | 2018-11-06 | 南京邮电大学 | 一种扩展短文本词特征向量的分类改进方法 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
-
2019
- 2019-06-04 CN CN201910481863.8A patent/CN110362678A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
CN108319627A (zh) * | 2017-02-06 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN108763348A (zh) * | 2018-05-15 | 2018-11-06 | 南京邮电大学 | 一种扩展短文本词特征向量的分类改进方法 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
Non-Patent Citations (3)
Title |
---|
司红娜等: "基于同义替换和相邻词合并的关键词特征权重计算新方法", 《计算机与现代化》 * |
朱颢东: "《文本挖掘中若干核心技术研究》", 31 March 2017 * |
管瑞霞等: "TFLD:一种中文文本关键词自动提取方法", 《机电工程》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991175B (zh) * | 2019-12-10 | 2024-04-09 | 爱驰汽车有限公司 | 多模态下的文本生成方法、系统、设备及存储介质 |
CN110991175A (zh) * | 2019-12-10 | 2020-04-10 | 爱驰汽车有限公司 | 多模态下的文本生成方法、系统、设备及存储介质 |
CN111027306A (zh) * | 2019-12-23 | 2020-04-17 | 园宝科技(武汉)有限公司 | 一种基于关键词抽取和词移距离的知识产权匹配技术 |
CN111222333A (zh) * | 2020-04-22 | 2020-06-02 | 成都索贝数码科技股份有限公司 | 一种基于网络高阶结构和主题模型融合的关键词抽取方法 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
CN112668306B (zh) * | 2020-12-22 | 2021-07-27 | 延边大学 | 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统 |
CN112668306A (zh) * | 2020-12-22 | 2021-04-16 | 延边大学 | 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统 |
WO2022141876A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、装置、设备及存储介质 |
CN112732870B (zh) * | 2020-12-31 | 2024-03-05 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、装置、设备及存储介质 |
CN112732870A (zh) * | 2020-12-31 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、装置、设备及存储介质 |
CN112988971A (zh) * | 2021-03-15 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、终端、服务器及存储介质 |
CN113408286A (zh) * | 2021-05-28 | 2021-09-17 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
CN113408286B (zh) * | 2021-05-28 | 2024-03-26 | 浙江工业大学 | 一种面向机械化工领域的中文实体识别方法和系统 |
CN116522901A (zh) * | 2023-06-29 | 2023-08-01 | 金锐同创(北京)科技股份有限公司 | It社群的关注信息的分析方法、装置、设备和介质 |
CN116522901B (zh) * | 2023-06-29 | 2023-09-15 | 金锐同创(北京)科技股份有限公司 | It社群的关注信息的分析方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
US11775760B2 (en) | Man-machine conversation method, electronic device, and computer-readable medium | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
CN103678564B (zh) | 一种基于数据挖掘的互联网产品调研系统 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
Zhang et al. | Automatic synonym extraction using Word2Vec and spectral clustering | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN102637192A (zh) | 一种自然语言问答的方法 | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191022 |
|
RJ01 | Rejection of invention patent application after publication |