CN108241613A - 一种提取关键词的方法及设备 - Google Patents

一种提取关键词的方法及设备 Download PDF

Info

Publication number
CN108241613A
CN108241613A CN201810005975.1A CN201810005975A CN108241613A CN 108241613 A CN108241613 A CN 108241613A CN 201810005975 A CN201810005975 A CN 201810005975A CN 108241613 A CN108241613 A CN 108241613A
Authority
CN
China
Prior art keywords
word
candidate word
keyword
candidate
term vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810005975.1A
Other languages
English (en)
Other versions
CN108241613B (zh
Inventor
徐常亮
花京华
刘军宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Wisdom Cloud Technology Co Ltd
Original Assignee
Xinhua Wisdom Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Wisdom Cloud Technology Co Ltd filed Critical Xinhua Wisdom Cloud Technology Co Ltd
Priority to CN201810005975.1A priority Critical patent/CN108241613B/zh
Publication of CN108241613A publication Critical patent/CN108241613A/zh
Application granted granted Critical
Publication of CN108241613B publication Critical patent/CN108241613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种提取关键词的方法及设备,该方案首先对待抽取文档进行分词,获取候选词语,然后根据所述候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度,进而根据所述候选词语的核密度和所述候选词语的IDF值,确定所述候选词语的关键词分值,最终可以基于所述关键词分值,从所述候选词语中选取关键词,由于将词向量加入到关键词的评判中可以通过词语在全局中的相似性来增强其类似词语作为关键词的得分,同时该方案结合了词语的IDF特征,避免了将常用词作为关键词,保证选取的关键词对文档有较强的归纳能力,提高了关键词提取结果准确性。

Description

一种提取关键词的方法及设备
技术领域
本申请涉及信息技术领域,尤其涉及一种提取关键词的方法及设备。
背景技术
关键词抽取是文本信息检索的一个重要研究课题。中文新闻的关键词抽取对于理解新闻的重要内容和实现相关新闻事件的精确检索有着极其重要的作用。文本关键词是指几个能对文本概述、与文本语义内容相关的词或短语。通过关键词,人们可以快速地查找所需要的信息。更进一步,关键词还能为更深一层的文本挖掘应用提供丰富的语义信息,如文本分类、文本聚类、文本检索及主题挖掘等。
目前国内外已有很多关键词抽取方法,并且已被广泛应用。例如,申请号为200710041150.7的专利申请中提供了一种改进的TF-IDF方法,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法,提取同类文本集合中共同的领域关键词。本发明的方法有效地提高单篇文本的关键词提取精度,能够提取领域关键词,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。但是,该方案在提取关键词时未考虑词语之间相似性或关联度,因此其关键词提取的结果并不准确。
申请内容
本申请的一个目的是提供一种提取关键词的方案,用以解决现有技术中关键词提取的结果准确性不高的问题。
为实现上述目的,本申请提供了一种提取关键词的方法,该方法包括:
对待抽取文档进行分词,获取候选词语;
根据所述候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度;
根据所述候选词语的核密度和IDF值,确定所述候选词语的关键词分值;
基于所述关键词分值,从所述候选词语中选取关键词。
基于本申请的另一方面,还提供了一种提取关键词的设备,该设备包括:
分词装置,用于对待抽取文档进行分词,获取候选词语;
核密度估计装置,用于根据所述候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度;
评分装置,用于根据所述候选词语的核密度和IDF值,确定所述候选词语的关键词分值;
选取装置,用于基于所述关键词分值,从所述候选词语中选取关键词。
此外,本申请还提供了一种提取关键词的设备,该设备包括:
处理器;以及
存储有机器可读指令的一个或多个机器可读介质,当所述处理器执行所述机器可读指令时,使得所述设备执行如权利要求1至8中任一项所述的方法。
本申请提供的方案中,对待抽取文档进行分词,获取候选词语,然后根据所述候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度,进而根据所述候选词语的核密度和所述候选词语的IDF(inverse document frequency,反向文档频率)值,确定所述候选词语的关键词分值,最终可以基于所述关键词分值,从所述候选词语中选取关键词,由于将词向量加入到关键词的评判中可以通过词语在全局中的相似性来增强其类似词语作为关键词的得分,同时该方案结合了词语的IDF特征,避免了将常用词作为关键词,保证选取的关键词对文档有较强的归纳能力,提高了关键词提取结果准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种提取关键词的方法的处理流程图;
图2为采用本申请实施例提供的方法进行实现关键词提取时的处理流程图;
图3为本申请实施例提供的一种提取关键词的设备的示意图;
图4为本申请实施例提供的另一种提取关键词的设备的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
图1示出了本申请实施例提供的一种提取关键词的方法的处理流程图,该方法能够用于准确地提取出文档中的关键词,其处理过程至少包括如下步骤:
步骤S101,对待抽取文档进行分词,获取候选词语。其中,待抽取文档是指用户需要提取其中关键词的文档,本申请实施例中所采用的分词方法可以基于任意常用的分词算法,或者直接使用Ansj或Hanlp等分词器进行分词处理。
例如,本申请实施例中选取的待抽取文档dk的内容为“稳中求进工作总基调是做好经济工作的方法论”,采用分词器对其进行分词后,得到的分词结果为:“稳中求进/工作/总基调/是/做好/经济/工作/的/方法论”。由此,可以得到候选词语的集合为:tk0:稳中求进,tk1:工作,tk2:总基调,tk3:是,tk4:做好,tk5:经济,tk6:的,tk7:方法论。
步骤S102,根据候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度。其中,词向量是通过向量的形式来数字化表示词语属性的一种方式,能够反映词语之间的相似性。每个词tki的词向量可以采用vec(ki)表示,例如vec(工作)=[0.1,-0.2,0.15],vec(方法论)=[0.12,-0.16,0.1],vec(音乐)=[-0.17,0.3,0.6]。
本申请实施例中,可以通过在词向量表中进行查询,来获取所述候选词语的词向量,然后将获取到的候选词语作为独立同分布的样本点,进行核密度估计,确定所述候选词语的核密度。在进行候选词语的核密度估计计算时,样本点的坐标值基于对应的候选词语的词向量确定,例如vec(工作)=[0.1,-0.2,0.15],则候选词语“工作”对应的样本点坐标值可以确定为(0.1,-0.2,0.15);vec(方法论)=[0.12,-0.16,0.1],则候选词语“方法论”对应的样本点坐标值可以确定为(0.12,-0.16,0.1)。获取候选词语的核密度时,假设其概率密度函数为f,则可以计算每个候选词语tki的核密度为:
其中,n为文档中的候选词语总数,K为核函数,h>0为平滑函数,tfk为候选词语在待抽取文档中出现的词频。对于前述待抽取文档dk,其候选词语总数n为8,h可以根据实际场景设定为0.5等适当的值,各个词语的词频tfk0:稳中求进=1,tfk1:工作=2,tfk2:总基调=1,tfk3:是=1,tfk4:做好=1,tfk5:经济=1,tfk6:的=1,tfk7:方法论=1。
核函数K可以采用任何适当的函数,例如高斯核函数、均匀核函数、三角核函数等。本实施例以高斯核函数为例进行说明,高斯核函数如下:
PI为圆周率,d(tk,tki)为距离函数,用于衡量不同候选词语之间的距离,作为两个词语之间的关联性度量。该距离函数可以基于两个候选词语的词向量确定,例如本实施例中采用两个候选词语的词向量之间夹角的余弦值作为两个候选词语间的距离,同时考虑到预先函数的值域范围为[-1,1],因此将为1-cos(vec(ki),vec(kj))作为距离函数d(tk,tki)。该函数的值域范围为[0,2],用于表示候选词语tki和tkj之间的关联性。以前述的候选词语为例,可以计算出d(工作,方法论)=1-0.97=0.03,d(工作,音乐)=1-0.069=0.931,表明候选词语“工作”与“方法论”的距离远远小于候选词语“工作”和“音乐”之间的距离。
所述的词向量表可以是在进行关键词提取处理之前,预先通过足够数量的训练样本以机器学习的方式获取。例如,在本申请的一种实施例中,可以在对待抽取文档进行分词,获取候选词语之前,获取包含多个训练文档的语料集,然后对所述语料集中的所有训练文档进行分词,获取训练词语,并且基于所述语料集,对所述训练词语进行词向量训练,确定所述训练词语的词向量,并获取词向量表。由此,该词向量表中包含了所述训练词语的词向量,可以应用于候选词语的词向量查询。
在进行词向量训练时可以采用如google word2vec等方法,其训练原理主要通过捕获不同词语的共现,然后采用无监督学习的方式获取词向量。此外,也可以使用Glove、SVD分解、Gensim word2vec等词向量训练方法。为了保证训练得到的词向量表能够更好的适应于待抽取文档,对于每一领域,都可以配置对应的语料集,使得语料集中包含的训练文档需要与待抽取文档属于同一领域,从而可以获取到对应于每一领域的词向量表。
步骤S103,根据所述候选词语的核密度和IDF值,确定所述候选词语的关键词分值。与前述的词向量类似,候选词语的IDF值也可以通过在词IDF表中查询获得。
本申请的一种实施例中,在计算出候选词语的核密度并且查询到IDF值之后,将所述候选词语的核密度和IDF值相乘,将其乘积作为所述候选词语的关键词分值。由于核密度是基于词向量计算得到,能够反映词语在全局中的相似性,同时结合了词语的IDF值,以避免将常用词作为关键词,保证选取的关键词对文档有较强的归纳能力。
而所述的词IDF表同样可以是在进行关键词提取处理之前,预先通过足够数量的训练样本计算得到。例如,在本申请的一种实施例中,可以在对待抽取文档进行分词,获取候选词语之前,获取包含多个训练文档的语料集,然后对所述语料集中的所有训练文档进行分词,获取训练词语,并且基于所述语料集,计算所述训练词语的IDF值,并获取词IDF表。由此,该词IDF表表中包含了所述训练词语的IDF值,可以应用于候选词语的IDF值查询。
计算IDF值时,首先需要统计训练词语ti在训练文档dj中的词频,若某个训练词语在训练文档中出现一次,则相应的文档频次Di加1,依次统计所有训练词语对应的文档频次,然后可以根据如下公式计算某个训练词语ti的IDF值:
其中,|D|为语料集中的训练文档总数,|{:ti∈dj}|为每个训练词语的文档频次。为了保证训练得到的词向量表能够更好的适应于待抽取文档,用于计算IDF值的语料集中包含的训练文档与待抽取文档属于同一领域。在本申请的一些实施例中,获取词IDF表和词向量表时,可以使用同一语料集。
步骤S104,基于所述关键词分值,从所述候选词语中选取关键词。
由于在实际场景中,有些词语不适合作为关键词,例如各类连词、介词、助词等,或者用户需要主动屏蔽某些词语,以避免最终提取的关键词中出现这些词语。由此,在基于所述关键词分值,从所述候选词语中选取关键词之前,还可以根据预设的过滤规则,对所述候选词语进行过滤,剔除不适合作为关键词的候选词语。
所述预设的过滤规则可以根据实际场景需求进行设定,例如用户需要对连词、介词、数词、量词、方位词等词语进行过滤,则此时可以设定词性过滤的规则,排除这些词性的候选词语。还如,该过滤规则可以是过滤某些特定的词汇,具体词汇可以由用户设定,如一些敏感词等。
本申请的一些实施例中,在从所述候选词语中选取关键词时,可以根据所述关键词分值,对所述候选词语进行排序,选取排序靠前的K个候选词语作为关键词。例如,按照关键词分值由大至小进行排序时,选取其中分值最高的K个候选词语,这K个候选词语即为待抽取文档的关键词。根据实际的应用场景不同,K值可以根据场景需求进行取值,一般情况下,可以选取5~10个,以保证关键词即可以反映文档内容,又可以区别于其它文档。
图2示出了采用本申请实施例提供的方法进行实现关键词提取时的处理流程图。
在对待抽取文档进行处理之前,首先对用于训练的语料集中的各个训练文档进行分词,得到分词结果作为训练词语集合,根据训练词语集合分别进行词向量训练和IDF值计算,得到各个训练词语的词向量和IDF值,并以词向量表和词IDF表的形式保存。
在得到词向量表和词IDF表之后,可以开始对待抽取文档进行关键词提取的处理,包括如下步骤:
步骤S201,首先对待抽取文档进行分词,得到候选词语。
步骤S202,从词向量表中查询到候选词语的词向量之后,进行核密度估计,得到每个候选词语的核密度。
步骤S203,从词IDF表中查询到候选词语的IDF值,并与候选词语的核密度相乘,得到候选词语的关键词得分。
步骤S204,对候选词语进行词性过滤,剔除特定词性的候选词语。
步骤S205,对关键词进行排序,取前K个候选词语作为关键词。
基于同一发明构思,本申请实施例中还提供了一种提取关键词的设备,所述设备对应的方法是前述实施例中的方法,并且其解决问题的原理与该方法相似。
本申请实施例提供的一种提取关键词的设备的结构如图3所示,包括分词装置310、核密度估计装置320、评分装置330和选取装置340,能够用于准确地提取出文档中的关键词。其中,所述分词装置310用于对待抽取文档进行分词,获取候选词语。其中,待抽取文档是指用户需要提取其中关键词的文档,本申请实施例中所采用的分词方法可以基于任意常用的分词算法,或者直接使用Ansj或Hanlp等分词器进行分词处理。
例如,本申请实施例中选取的待抽取文档dk的内容为“稳中求进工作总基调是做好经济工作的方法论”,采用分词器对其进行分词后,得到的分词结果为:“稳中求进/工作/总基调/是/做好/经济/工作/的/方法论”。由此,可以得到候选词语的集合为:tk0:稳中求进,tk1:工作,tk2:总基调,tk3:是,tk4:做好,tk5:经济,tk6:的,tk7:方法论。
核密度估计装置320用于根据候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度。其中,词向量是通过向量的形式来数字化表示词语属性的一种方式,能够反映词语之间的相似性。每个词tki的词向量可以采用vec(ki)表示,例如vec(工作)=[0.1,-0.2,0.15],vec(方法论)=[0.12,-0.16,0.1],vec(音乐)=[-0.17,0.3,0.6]。
本申请实施例中,核密度估计装置320可以通过在词向量表中进行查询,来获取所述候选词语的词向量,然后将获取到的候选词语作为独立同分布的样本点,进行核密度估计,确定所述候选词语的核密度。在进行候选词语的核密度估计计算时,样本点的坐标值基于对应的候选词语的词向量确定,例如vec(工作)=[0.1,-0.2,0.15],则候选词语“工作”对应的样本点坐标值可以确定为(0.1,-0.2,0.15);vec(方法论)=[0.12,-0.16,0.1],则候选词语“方法论”对应的样本点坐标值可以确定为(0.12,-0.16,0.1)。获取候选词语的核密度时,假设其概率密度函数为f,则可以计算每个候选词语tki的核密度为:
其中,n为文档中的候选词语总数,K为核函数,h>0为平滑函数,tfk为候选词语在待抽取文档中出现的词频。对于前述待抽取文档dk,其候选词语总数n为8,h可以根据实际场景设定为0.5等适当的值,各个词语的词频tfk0:稳中求进=1,tfk1:工作=2,tfk2:总基调=1,tfk3:是=1,tfk4:做好=1,tfk5:经济=1,tfk6:的=1,tfk7:方法论=1。
核函数K可以采用任何适当的函数,例如高斯核函数、均匀核函数、三角核函数等。本实施例以高斯核函数为例进行说明,高斯核函数如下:
PI为圆周率,d(tk,ki)为距离函数,用于衡量不同候选词语之间的距离,作为两个词语之间的关联性度量。该距离函数可以基于两个候选词语的词向量确定,例如本实施例中采用两个候选词语的词向量之间夹角的余弦值作为两个候选词语间的距离,同时考虑到预先函数的值域范围为[-1,1],因此将为1-cos(vec(ki),vec(kj))作为距离函数d(tk,tki)。该函数的值域范围为[0,2],用于表示候选词语tki和tkj之间的关联性。以前述的候选词语为例,可以计算出d(工作,方法论)=1-0.97=0.03,d(工作,音乐)=1-0.069=0.931,表明候选词语“工作”与“方法论”的距离远远小于候选词语“工作”和“音乐”之间的距离。
所述的词向量表可以是在进行关键词提取处理之前,预先通过足够数量的训练样本以机器学习的方式获取。例如,在本申请的一种实施例中,该设备还可以包括一预处理装置,能够在分词装置对待抽取文档进行分词,获取候选词语之前,获取包含多个训练文档的语料集,然后对所述语料集中的所有训练文档进行分词,获取训练词语,并且基于所述语料集,对所述训练词语进行词向量训练,确定所述训练词语的词向量,并获取词向量表。由此,该词向量表中包含了所述训练词语的词向量,可以应用于候选词语的词向量查询。
预处理装置在进行词向量训练时可以采用如google word2vec等方法,其训练原理主要通过捕获不同词语的共现,然后采用无监督学习的方式获取词向量。此外,也可以使用Glove、SVD分解、Gensim word2vec等词向量训练方法。为了保证训练得到的词向量表能够更好的适应于待抽取文档,对于每一领域,都可以配置对应的语料集,使得语料集中包含的训练文档需要与待抽取文档属于同一领域,从而可以获取到对应于每一领域的词向量表。
评分装置330用于根据所述候选词语的核密度和IDF值,确定所述候选词语的关键词分值。与前述的词向量类似,候选词语的IDF值也可以通过在词IDF表中查询获得。
本申请的一种实施例中,评分装置330在计算出候选词语的核密度并且查询到IDF值之后,将所述候选词语的核密度和IDF值相乘,将其乘积作为所述候选词语的关键词分值。由于核密度是基于词向量计算得到,能够反映词语在全局中的相似性,同时结合了词语的IDF值,以避免将常用词作为关键词,保证选取的关键词对文档有较强的归纳能力。
而所述的词IDF表同样可以是在进行关键词提取处理之前,预先通过足够数量的训练样本计算得到。例如,在本申请的一种实施例中,可以在分词装置对待抽取文档进行分词,获取候选词语之前,由预处理装置获取包含多个训练文档的语料集,然后对所述语料集中的所有训练文档进行分词,获取训练词语,并且基于所述语料集,计算所述训练词语的IDF值,并获取词IDF表。由此,该词IDF表中包含了所述训练词语的IDF值,可以应用于候选词语的IDF值查询。
预处理装置计算IDF值时,首先需要统计训练词语ti在训练文档dj中的词频,若某个训练词语在训练文档中出现一次,则相应的文档频次Di加1,依次统计所有训练词语对应的文档频次,然后可以根据如下公式计算某个训练词语ti的IDF值:
其中,|D|为语料集中的训练文档总数,|{:ti∈dj}|为每个训练词语的文档频次。为了保证训练得到的词向量表能够更好的适应于待抽取文档,用于计算IDF值的语料集中包含的训练文档与待抽取文档属于同一领域。在本申请的一些实施例中,获取词IDF表和词向量表时,可以使用同一语料集。
选取装置340用于基于所述关键词分值,从所述候选词语中选取关键词。
由于在实际场景中,有些词语不适合作为关键词,例如各类连词、介词、助词等,或者用户需要主动屏蔽某些词语,以避免最终提取的关键词中出现这些词语。由此,在基于所述关键词分值,从所述候选词语中选取关键词之前,选取装置340还可以根据预设的过滤规则,对所述候选词语进行过滤,剔除不适合作为关键词的候选词语。
所述预设的过滤规则可以根据实际场景需求进行设定,例如用户需要对连词、介词、数词、量词、方位词等词语进行过滤,则此时可以设定词性过滤的规则,排除这些词性的候选词语。还如,该过滤规则可以是过滤某些特定的词汇,具体词汇可以由用户设定,如一些敏感词等。
本申请的一些实施例中,选取装置340在从所述候选词语中选取关键词时,可以根据所述关键词分值,对所述候选词语进行排序,选取排序靠前的K个候选词语作为关键词。例如,按照关键词分值由大至小进行排序时,选取其中分值最高的K个候选词语,这K个候选词语即为待抽取文档的关键词。根据实际的应用场景不同,K值可以根据场景需求进行取值,一般情况下,可以选取5~10个,以保证关键词即可以反映文档内容,又可以区别于其它文档。
综上所述,本申请提供的方案中,对待抽取文档进行分词,获取候选词语,然后根据所述候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度,进而根据所述候选词语的核密度和所述候选词语的IDF(inverse document frequency,反向文档频率)值,确定所述候选词语的关键词分值,最终可以基于所述关键词分值,从所述候选词语中选取关键词,由于将词向量加入到关键词的评判中可以通过词语在全局中的相似性来增强其类似词语作为关键词的得分,同时该方案结合了词语的IDF特征,避免了将常用词作为关键词,保证选取的关键词对文档有较强的归纳能力,提高了关键词提取结果准确性。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个如图4所示的设备,该设备包括存储有机器可读指令的一个或多个机器可读介质410和用于执行机器可读指令的处理器420,其中,当该机器可读指令被该处理器执行时,使得所述设备执行基于前述根据本申请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (17)

1.一种提取关键词的方法,其中,该方法包括:
对待抽取文档进行分词,获取候选词语;
根据所述候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度;
根据所述候选词语的核密度和IDF值,确定所述候选词语的关键词分值;
基于所述关键词分值,从所述候选词语中选取关键词。
2.根据权利要求1所述的方法,其中,根据所述候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度,包括:
在词向量表中查询所述候选词语的词向量;
将获取到的候选词语作为独立同分布的样本点,进行核密度估计,确定所述候选词语的核密度,其中,所述样本点的坐标值基于对应的候选词语的词向量确定。
3.根据权利要求2所述的方法,其中,在对待抽取文档进行分词,获取候选词语之前,还包括:
获取语料集,其中,所述语料集包含多个训练文档;
对所述语料集中的所有训练文档进行分词,获取训练词语;
基于所述语料集,对所述训练词语进行词向量训练,确定所述训练词语的词向量,并获取词向量表,其中,所述词向量表中包含所述训练词语的词向量。
4.根据权利要求1所述的方法,其中,根据所述候选词语的核密度和所述候选词语的IDF值,确定所述候选词语的关键词分值,包括:
在词IDF表中查询所述候选词语的IDF值;
将所述候选词语的核密度和IDF值相乘,将其乘积作为所述候选词语的关键词分值。
5.根据权利要求4所述的方法,其中,在对待抽取文档进行分词,获取候选词语之前,还包括:
获取语料集,其中,所述语料集包含多个与待抽取文档属于同一领域的训练文档;
对所述语料集中的所有训练文档进行分词,获取训练词语;
基于所述语料集,计算所述训练词语的IDF值,并获取词IDF表,其中,词IDF表中包含所述训练词语的IDF值。
6.根据权利要求3或5所述的方法,其中,所述语料集包含与待抽取文档属于同一领域的训练文档。
7.根据权利要求1所述的方法,其中,在基于所述关键词分值,从所述候选词语中选取关键词之前,还包括:
根据预设的过滤规则,对所述候选词语进行过滤,剔除不适合作为关键词的候选词语。
8.根据权利要求1所述的方法,其中,基于所述关键词分值,从所述候选词语中选取关键词,包括:
根据所述关键词分值,对所述候选词语进行排序;
选取排序靠前的K个候选词语作为关键词。
9.一种提取关键词的设备,其中,该设备包括:
分词装置,用于对待抽取文档进行分词,获取候选词语;
核密度估计装置,用于根据所述候选词语的词向量,对所述候选词语进行核密度估计,确定所述候选词语的核密度;
评分装置,用于根据所述候选词语的核密度和IDF值,确定所述候选词语的关键词分值;
选取装置,用于基于所述关键词分值,从所述候选词语中选取关键词。
10.根据权利要求9所述的设备,其中,所述核密度估计装置,用于在词向量表中查询所述候选词语的词向量;将获取到的候选词语作为独立同分布的样本点,进行核密度估计,确定所述候选词语的核密度,其中,所述样本点的坐标值基于对应的候选词语的词向量确定。
11.根据权利要求10所述的设备,其中,该设备还包括:
预处理装置,用于在对待抽取文档进行分词,获取候选词语之前,获取语料集,其中,所述语料集包含多个训练文档;对所述语料集中的所有训练文档进行分词,获取训练词语;以及基于所述语料集,对所述训练词语进行词向量训练,确定所述训练词语的词向量,并获取词向量表,其中,所述词向量表中包含所述训练词语的词向量。
12.根据权利要求9所述的设备,其中,所述评分装置,用于在词IDF表中查询所述候选词语的IDF值;将所述候选词语的核密度和IDF值相乘,将其乘积作为所述候选词语的关键词分值。
13.根据权利要求12所述的设备,其中,该设备还包括:
预处理装置,用于在对待抽取文档进行分词,获取候选词语之前,获取语料集,其中,所述语料集包含多个与待抽取文档属于同一领域的训练文档;对所述语料集中的所有训练文档进行分词,获取训练词语;以及基于所述语料集,计算所述训练词语的IDF值,并获取词IDF表,其中,词IDF表中包含所述训练词语的IDF值。
14.根据权利要求11或13所述的设备,其中,所述语料集包含与待抽取文档属于同一领域的训练文档。
15.根据权利要求9所述的设备,其中,所述选取装置,还用于在基于所述关键词分值,从所述候选词语中选取关键词之前,根据预设的过滤规则,对所述候选词语进行过滤,剔除不适合作为关键词的候选词语。
16.根据权利要求9所述的设备,其中,所述选取装置,用于根据所述关键词分值,对所述候选词语进行排序;选取排序靠前的K个候选词语作为关键词。
17.一种提取关键词的设备,其中,该设备包括:
处理器;以及
存储有机器可读指令的一个或多个机器可读介质,当所述处理器执行所述机器可读指令时,使得所述设备执行如权利要求1至8中任一项所述的方法。
CN201810005975.1A 2018-01-03 2018-01-03 一种提取关键词的方法及设备 Active CN108241613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810005975.1A CN108241613B (zh) 2018-01-03 2018-01-03 一种提取关键词的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810005975.1A CN108241613B (zh) 2018-01-03 2018-01-03 一种提取关键词的方法及设备

Publications (2)

Publication Number Publication Date
CN108241613A true CN108241613A (zh) 2018-07-03
CN108241613B CN108241613B (zh) 2021-05-28

Family

ID=62699356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810005975.1A Active CN108241613B (zh) 2018-01-03 2018-01-03 一种提取关键词的方法及设备

Country Status (1)

Country Link
CN (1) CN108241613B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783806A (zh) * 2018-12-21 2019-05-21 众安信息技术服务有限公司 一种利用语义解析结构的文本匹配方法
CN109918657A (zh) * 2019-02-28 2019-06-21 云孚科技(北京)有限公司 一种从文本中提取目标关键词的方法
CN110008309A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 一种短语挖掘方法及装置
CN110457707A (zh) * 2019-08-16 2019-11-15 秒针信息技术有限公司 实词关键词的提取方法、装置、电子设备及可读存储介质
CN111079422A (zh) * 2019-12-13 2020-04-28 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111985211A (zh) * 2020-09-01 2020-11-24 中国民航科学技术研究院 民航安全领域的本体概念获取方法、装置及存储介质
CN111985228A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 文本关键词提取方法、装置、计算机设备和存储介质
CN112528644A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN112650830A (zh) * 2020-11-17 2021-04-13 北京字跳网络技术有限公司 关键词提取方法、装置、电子设备和存储介质
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404036A (zh) * 2008-11-07 2009-04-08 西安交通大学 PowerPoint电子演示文稿的关键词抽取方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404036A (zh) * 2008-11-07 2009-04-08 西安交通大学 PowerPoint电子演示文稿的关键词抽取方法
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DENNIS THOM 等: "Inverse Document Density: A Smooth Measure for Location-Dependent Term Irregularities", 《PROCEEDINGS OF COLING 2012》 *
熊开玲 等: "基于核密度估计的 K-means 聚类优化", 《计算机技术与发展》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783806A (zh) * 2018-12-21 2019-05-21 众安信息技术服务有限公司 一种利用语义解析结构的文本匹配方法
CN109783806B (zh) * 2018-12-21 2023-05-02 众安信息技术服务有限公司 一种利用语义解析结构的文本匹配方法
CN109918657A (zh) * 2019-02-28 2019-06-21 云孚科技(北京)有限公司 一种从文本中提取目标关键词的方法
CN110008309A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 一种短语挖掘方法及装置
CN110008309B (zh) * 2019-03-21 2021-03-30 腾讯科技(深圳)有限公司 一种短语挖掘方法及装置
CN110457707A (zh) * 2019-08-16 2019-11-15 秒针信息技术有限公司 实词关键词的提取方法、装置、电子设备及可读存储介质
CN110457707B (zh) * 2019-08-16 2023-01-17 秒针信息技术有限公司 实词关键词的提取方法、装置、电子设备及可读存储介质
CN111079422A (zh) * 2019-12-13 2020-04-28 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
CN111079422B (zh) * 2019-12-13 2023-07-14 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111985228A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 文本关键词提取方法、装置、计算机设备和存储介质
CN111985211A (zh) * 2020-09-01 2020-11-24 中国民航科学技术研究院 民航安全领域的本体概念获取方法、装置及存储介质
CN112650830B (zh) * 2020-11-17 2021-11-26 北京字跳网络技术有限公司 关键词提取方法、装置、电子设备和存储介质
CN112650830A (zh) * 2020-11-17 2021-04-13 北京字跳网络技术有限公司 关键词提取方法、装置、电子设备和存储介质
CN112528644A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN112528644B (zh) * 2020-12-24 2024-04-12 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108241613B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN108241613A (zh) 一种提取关键词的方法及设备
Al-Radaideh et al. A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
CN110019668A (zh) 一种文本检索方法及装置
EP3035210A1 (en) Method and device for obtaining web page category standards, and method and device for categorizing web page categories
JP2012525615A (ja) 同義語を識別し、同義語を使用して検索するための方法および装置
CN110019669B (zh) 一种文本检索方法及装置
Li et al. Improved automatic keyword extraction based on textrank using domain knowledge
He et al. Twitter summarization with social-temporal context
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN110909120A (zh) 简历搜索/投递方法、装置、系统及电子设备
CN104615723B (zh) 查询词权重值的确定方法和装置
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
Peng et al. High quality information extraction and query-oriented summarization for automatic query-reply in social network
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN110019670A (zh) 一种文本检索方法及装置
CN109933691B (zh) 用于内容检索的方法、装置、设备和存储介质
Yu et al. Deep relationship analysis in video with multimodal feature fusion
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
JP6426074B2 (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
Hurtado Martín et al. An exploratory study on content-based filtering of call for papers
De Leo et al. Topic detection with recursive consensus clustering and semantic enrichment
Li et al. Research on hot news discovery model based on user interest and topic discovery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant