CN108319627B - 关键词提取方法以及关键词提取装置 - Google Patents
关键词提取方法以及关键词提取装置 Download PDFInfo
- Publication number
- CN108319627B CN108319627B CN201710067269.5A CN201710067269A CN108319627B CN 108319627 B CN108319627 B CN 108319627B CN 201710067269 A CN201710067269 A CN 201710067269A CN 108319627 B CN108319627 B CN 108319627B
- Authority
- CN
- China
- Prior art keywords
- word
- candidate
- candidate words
- vertex
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 148
- 238000004458 analytical method Methods 0.000 claims abstract description 250
- 230000011218 segmentation Effects 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 12
- 238000013016 damping Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 abstract description 28
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种关键词提取方法,其包括:对提取文本的所有分析语句进行分词操作,以得到分析语句的词语单元;确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;确定候选词与提取文本中其他候选词的词引力;计算每个分析语句中的候选词与分析语句中的其他候选词的相关权重;创建每个分析语句的有权无向图;基于文本排序算法,计算有权无向图的每个顶点的顶点得分;根据顶点得分,对于顶点对应的候选词进行排序,进而提取所述候选词中的关键词。本发明还提供一种关键词提取装置,本发明将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而提高了关键词的提取准确度。
Description
技术领域
本发明涉及文本处理领域,特别是涉及一种关键词提取方法及关键词提取装置。
背景技术
为了能够有效地处理海量的文本数据,研究人员在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究,而这些研究都涉及到一个关键而又基础的问题,即如何获取文本中的关键词。因此,在自然语言处理和信息检索等任务中,关键词提取技术已逐渐成为热点研究问题。现有的研究成果中,关键词提取技术已被广泛应用于新闻服务、查询服务等领域,并被证明能够在信息检索、自动摘要、文本分类等任务中发挥重要作用。与此同时,海量信息处理也对关键词提取技术提出了新的挑战。
关键词是对文本主题信息的精炼,高度概括了文本的主要内容,能帮助用户快速理解文本的主旨,易于使用户判断出文本是否是自己所需的内容,从而提高信息访问和信息搜索的效率。不仅如此,由于关键词精炼、简洁的特点,可以利用关键词以较低的复杂度进行文本相关性的计算,从而高效地进行文本分类、文本聚类和信息检索等处理。在这些应用中,使用最广泛的是信息检索,用户在搜索引擎或问答系统中输入关键词,系统将出现这些关键词的文本或问题答案返回给用户。
在查询问句中,关键词代表了用户问句的主体含义。在问题分析时,提取问题中的关键词对于理解问题的语义至关重要。在信息检索中,需要从用户输入的问句中提取出对检索有用的关键词,关键词的提取的效果直接影响到信息检索的结果和答案的相似度计算与排序。因此,关键词提取是问答系统的基础,如何快速准确地从问句中提取关键词对于提升问答系统的性能至关重要。
尽管现有的关键词提取方法在各类公开数据集上都能取得不错的效果,但存在计算两个词语相关性的时候,忽略了词语之间的句法结构关系的问题,因此现有的关键词提取方法的准确度较低。
发明内容
本发明实施例提供一种具有较高关键词提取准确度的关键词提取方法及关键词提取装置,以解决现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。
本发明实施例提供一种关键词提取方法,其包括:
对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;
对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;
根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;
根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;
基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;
基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及
根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。
本发明实施例还提供一种关键词提取装置,其包括:
分词模块,用于对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;
依存关联度确定模块,用于对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;
词引力确定模块,用于根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;
相关权重计算模块,用于根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;
有权无向图创建模块,用于基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;
顶点得分计算模块,用于基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及
关键词提取模块,用于根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。
相较于现有技术,本发明的关键词提取方法及关键词提取装置将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而提高了关键词的提取准确度;解决了现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。
附图说明
图1为本发明的关键词提取方法的第一优选实施例的流程图;
图2为本发明的关键词提取方法的第二优选实施例的流程图;
图3A至图3C为本发明的关键词提取方法的第二优选实施例的候选词依存关系示意图;
图4为本发明的关键词提取装置的第一优选实施例的结构示意图;
图5为本发明的关键词提取装置的第二优选实施例的结构示意图;
图6为本发明的关键词提取装置的第二优选实施例的依存关联度确定模块的结构示意图;
图7为本发明的关键词提取装置的第二优选实施例的词引力确定模块的结构示意图;
图8为本发明的关键词提取装置的第二优选实施例的关键词提取模块的结构示意图;
图9为本发明的关键词提取装置所在的电子设备的工作环境结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行之作业的步骤及符号来说明,除非另有述明。因此,其将可了解到这些步骤及操作,其中有数次提到为由计算机执行,包括了由代表了以一结构化型式中的数据之电子信号的计算机处理单元所操纵。此操纵转换该数据或将其维持在该计算机之内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机之运作。该数据所维持的数据结构为该内存之实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的关键词提取方法及关键词提取装置可设置在各种对文本内容进行处理的电子设备中,该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。该电子设备优选为进行关键词查找的检索服务器。本发明的电子设备对文本排序算法进行了改进,从而提高了关键词的提取准确度。
请参照图1,图1为本发明的关键词提取方法的第一优选实施例的流程图;本优选实施例的关键词提取方法可使用上述的电子设备进行实施,该关键词提取方法包括:
步骤S101,对提取文本的所有分析语句进行分词操作,以得到分析语句的词语单元;
步骤S102,对分词操作后的分析语句进行依存句法分析,确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;
步骤S103,根据提取文本中的候选词的出现频率、以及候选词与提取文本中其他候选词的语义相似度,确定候选词与提取文本中其他候选词的词引力;
步骤S104,根据依存关联度以及词引力,计算每个分析语句中的候选词与分析语句中的其他候选词的相关权重;
步骤S105,基于分析语句中的所有候选词、以及分析语句中的候选词与分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图;
步骤S106,基于文本排序算法,计算有权无向图的每个顶点的顶点得分;
步骤S107,根据所述顶点得分,对于顶点对应的候选词进行排序,进而提取候选词中的关键词。
下面详细说明本优选实施例的关键词提取方法的各步骤的具体流程。
在步骤S101中,关键词提取装置对提取文本的所有分析语句进行分词操作,该提取文件可由多个分析语句组成,这里可采用字符匹配、理解法或统计法等分词方法对分析语句进行分词操作,获取该分析语句的词语单元,该词语单元包括可能会成为关键词的候选词以及不可能成为关键词的停用词,其中关键词即为从候选词中获取的对于提取文本较为重要的词。随后转到步骤S102。
在步骤S102中,关键词提取装置对分词操作后的分析语句进行依存句法分析,确定分析语句中各个候选词与分析语句中其他候选词的依存关联度。这里的依存关联度是指提取文本中某个分析语句中的任意两个候选词的关联程度。关联程度越高,意味着这两个候选词作为整体对该分析语句的重要性越强。随后转到步骤S103。
在步骤S103中,关键词提取装置获取提取文本中每个候选词的出现频率,以及每个候选词与提取文本中其他候选词的语义相似度。
由于关键词的提取不仅仅需要判断该关键词在某个分析语句中是否具有较为重要的作用,还要判断该关键词在整体提取文本中是否具有较为重要的作用。因此这里通过候选词的出现频率、与候选词语义相似的其他候选词的出现频率以及候选词与提取文本中其他候选词的语义相似度,确定候选词与提取文本中其他候选词的词引力。词引力越大,意味着这两个候选词作为整体对该提取文本的重要性越强。随后转到步骤S104。
在步骤S104中,关键词提取装置根据步骤S102获取的分析语句中的任意两个候选词的依存关联度,以及步骤S103获取的候选词与提取文本中其他候选词的词引力,计算每个分析语句中的候选词与分析语句中其他候选词的相关权重。
具体公式为:weight(wi,wj)=Dep(wi,wj)×f(wi,wj)
其中f(wi,wj)为候选词wi和候选词wj的词引力,Dep(wi,wj)为候选词wi和候选词wj的依存关联度,weight(wi,wj)为候选词wi和候选词wj的相关权重。随后转到步骤S105。
在步骤S105中,关键词提取装置基于提取文本中每个分析语句中的所有候选词、分析语句中的候选词与分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图。这里有权无向图由多个顶点以及顶点之间的连线构成,每个顶点表示分析语句中的一个候选词,顶点与顶点的之间的连线表示上述两个顶点对应的候选词之间的相关权重,即有权无向图中的每条边(连线)不仅描述上述两个顶点之间具有依存关联度,还表示两个顶点对应候选词之间的权重信息(相关权重)。随后转到步骤S106。
在步骤S106中,关键词提取装置基于TextRank文本排序算法,计算步骤S105中获取的有权无向图中的每个顶点的顶点得分。该顶点得分即可表示该顶点对应的候选词在提取文本中的重要性。顶点得分越高,该顶点对应的候选词在提取文本中的重要性也就越高。
由于步骤S105中的有权无向图是根据提取文本中的分析语句生成,因此该有权无向图也具有与分析语句对应的有权无向子图,每个有权无向子图均与一分析语句对应,有权无向子图之间并无顶点之间的连线。随后转到步骤S107。
在步骤S107中,关键词提取装置根据步骤S106获取的顶点得分,对提取文本中的所有候选词进行排序,从而将对于提取文本重要性最高的候选词作为该提取文本的关键词。
这样即完成了本优选实施例的关键词提取方法的第一优选实施例的关键词提取过程。
本优选实施例的关键词提取方法将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而提高了关键词的提取准确度。
请参照图2,图2为本发明的关键词提取方法的第二优选实施例的流程图。本优选实施例的关键词提取方法可使用上述的电子设备进行实施,该关键词提取方法包括:
步骤S201,对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元;
步骤S202,对分词语句的词语单元进行停用词处理,以得到分词语句的候选词以及停用词;
步骤S203,对分词操作后的分析语句进行依存句法分析,获取分析语句中所有候选词的依存关系路径;
步骤S204,基于分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;
步骤S205,基于语言模型训练方法,获取提取文本中候选词的词向量;
步骤S206,计算提取文本中候选词的词向量与提取文本中其他候选词的词向量的欧氏距离;
步骤S207,根据提取文本中的候选词的出现频率、以及候选词的词向量与提取文本中其他候选词的词向量的欧氏距离,确定候选词与提取文本中其他候选词的词引力;
步骤S208,根据依存关联度以及所述词引力,计算每个分析语句中的候选词与分析语句中的其他候选词的相关权重;
步骤S209,基于分析语句中的所有候选词、以及分析语句中的候选词与分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图;
步骤S210,基于文本排序算法,计算有权无向图的每个顶点的顶点得分;
步骤S211,判断候选词是否具有重复候选词,如具有重复候选词,则转到步骤S212,如不具有重复候选词,则转到步骤S215;
步骤S212,将重复候选词删除,并获取重复候选词对应的最大顶点得分;
步骤S213,判断重复候选词对应的最大顶点得分是否大于候选词的顶点得分,如重复候选词对应的最大顶点得分大于候选词的顶点得分,则转到步骤S214,如重复候选词对应的最大顶点得分小于等于候选词的顶点得分,则转到步骤S215;
步骤S214,将重复候选词对应的最大顶点得分设定为候选词的顶点得分;
步骤S215,将顶点得分最高的设定数量的候选词设定为提取文本的关键词。
下面详细说明本优选实施例的关键词提取方法的各步骤的具体流程。
在步骤S201中,关键词提取装置对提取文本的所有分析语句进行分词操作,该提取文件可由多个分析语句组成,这里可采用字符匹配、理解法或统计法等分词方法对分析语句进行分词操作,获取该分析语句的词语单元,该词语单元包括可能会成为关键词的候选词以及不可能成为关键词的停用词,其中关键词即为从候选词中获取的对于提取文本较为重要的词。随后转到步骤S202。
在步骤S202中,关键词提取装置使用停用词表对步骤S201中获取的分词语句中的词语单元进行停用词处理,以得到分词语句的候选词以及停用词。这里的停用词可根据用户预先设定的停用词表进行设定。随后转到步骤S203。
在步骤S203中,关键词提取装置对分词操作后的分析语句进行依存句法分析,这里的依存句法分析是根据词性对分析语句中的词语单元进行分析操作,以建立分析语句的一依存句法树,以通过该依存句法树来描述各个词语单元之间的依存关系。
具体请参照图3A,分析语句“领导李某某在调研上海外高桥时提出了什么机制”,基于上述分词方法可将上述分析语句拆分为词语单元“领导”、“李某某”、“在”、“调研”、“上海”、“外高桥”、“时”、“提出”、“了”、“什么”、“机制”。随后基于词语单元的词性建立分析语句的依存句法树,如图3A所示。其中ATT为定中关系,VOB为动宾关系,POB为介宾关系、ADV为状中关系、SBV为主谓关系、RAD为后附加关系。其中该分析语句中的候选词为“领导”、“李某某”、“调研”、“上海”、“外高桥”、“提出”以及“机制”。停用词为“在”、“时”以及“什么”。
随后关键词提取装置对上述依存句法树中的连接取向去除,从而可获取所有候选词的依存关系路径,如图3B所示。
然后关键词提取装置可获取分析语句中每个候选词与该分析语句中其他候选词的依存关系路径,如“李某某”与“外高桥”的依存关系路径如图3C所示。随后转到步骤S204。
在步骤S204中,关键词提取装置可根据上述分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定分析语句中各个候选词与其他候选词的依存关联度。依存关联度越高,意味着这两个候选词作为整体对该分析语句的重要性越强。具体的:
其中Dep(wi,wj)为候选词wi和候选词wj的依存关联度,b为大于1的预设实数,dr_path_len(wi,wj)为候选词wi和候选词wj的依存关系路径长度。如可认为图3C中的“李某某”与“外高桥”的依存关系路径长度为5,“李某某”和“提出”的依存关系路径长度为1。即依存关系路径长度越大,对应的依存关联度就越低。随后转到步骤S205。
在步骤S205中,关键词提取装置基于语言模型训练方法,获取提取文本中候选词的词向量。通过对候选词设置对应的词向量,使得相关或相似的候选词的语义相似度可使用语言模型中的距离,即词向量之间的欧氏距离进行衡量,从而可根据两个候选词的语义相似度对两个候选词的相关权重进行修正。随后转到步骤S206。
在步骤S206中,关键词提取装置计算提取文本中候选词的词向量与提取文本中其他候选词的词向量的欧氏距离。随后转到步骤S207。
在步骤S207中,关键词提取装置获取提取文本中每个候选词的出现频率,以及每个候选词的词向量与提取文本中其他候选词的词向量的欧氏距离。
由于关键词的提取不仅仅需要判断该关键词在某个分析语句中是否具有较为重要的作用,还要判断该关键词在整体提取文本中是否具有较为重要的作用。因此这里通过候选词的出现频率、与候选词语义相似的其他候选词的出现频率以及候选词的词向量与提取文本中其他候选词的词向量的欧氏距离,确定候选词与提取文本中其他候选词的词引力。具体的:
其中freq(wi)为候选词wi在提取文本中的出现频率,freq(wj)为候选词wj在提取文本中的出现频率,d为候选词wi的词向量和候选词wj的词向量的欧式距离。f(wi,wj)为候选词wi和候选词wj的词引力。两个候选词之间的词引力与两个候选词的出现频率成正比,与候选词的词向量之间的欧氏距离的平方成反比。说明候选词的出现频率越大,两个候选词之间的词引力越大;候选词的词向量之间的欧氏距离越小(即语义相似度越高),两个候选词之间的词引力越大。同时词引力越大,意味着这两个候选词作为整体对该提取文本的重要性越强。随后转到步骤S208。
在步骤S208中,关键词提取装置根据步骤S204获取的分析语句中的任意两个候选词的依存关联度,以及步骤S207获取的候选词与提取文本中其他候选词的词引力,计算每个分析语句中的候选词与分析语句中其他候选词的相关权重。
具体公式为:weight(wi,wj)=Dep(wi,wj)×f(wi,wj)
其中f(wi,wj)为候选词wi和候选词wj的词引力,Dep(wi,wj)为候选词wi和候选词wj的依存关联度,weight(wi,wj)为候选词wi和候选词wj的相关权重。随后转到步骤S209。
在步骤S209中,关键词提取装置基于提取文本中每个分析语句中的所有候选词、分析语句中的候选词与分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图。这里有权无向图由多个顶点以及顶点之间的连线构成,每个顶点表示分析语句中的一个候选词,顶点与顶点的之间的连线表示上述两个顶点对应的候选词之间的相关权重,即有权无向图中的每条边(连线)不仅描述上述两个顶点之间具有依存关联度,还表示两个顶点对应候选词之间的权重信息(相关权重)。随后转到步骤S210。
在步骤S210中,关键词提取装置基于TextRank文本排序算法,计算步骤S209中获取的有权无向图中的每个顶点的顶点得分。该顶点得分即可表示该顶点对应的候选词在提取文本中的重要性。顶点得分越高,该顶点对应的候选词在提取文本中的重要性也就越高。
具体的,可通过以下公式对上述有权无向图的每个顶点的顶点得分进行迭代收敛运算直至每次运算直至每次运算的顶点得分变化率小于设定值,如0.0001等。
其中d为阻尼系数,取值范围为0到1,代表从有权无向图中某一顶点指向其他任意顶点的概率,一般取值为0.85。
weight(vi,vj)表示有权无向图中的顶点i和顶点j之间的权重边的相关权重,weight(vj,vk)表示有权无向图中的顶点j和顶点k之间的权重边的相关权重,WS(vi)表示有权无向图中的顶点i的顶点得分,C(vi)表示与顶点i具有权重边的顶点集合,C(vj)表示与顶点j具有权重边的顶点集合。
由于步骤S209中的有权无向图是根据提取文本中的分析语句生成,因此该有权无向图也具有与分析语句对应的有权无向子图,每个有权无向子图均与一分析语句对应,有权无向子图之间并无顶点之间的连线。随后转到步骤S211。
在步骤S211中,关键词提取装置根据步骤S210获取的顶点得分,对提取文本中的所有候选词进行排序,随后判断所有候选词中是否具有重复候选词,如具有重复候选词,则转到步骤S212;如不具有重复候选词,则转到步骤S215。
在步骤S212中,如所有候选词中具有重复候选词,则关键词提取装置对重复候选词进行删除操作,并获取重复候选词对应的最大顶点得分。随后转到步骤S213。
在步骤S213中,关键词提取装置判断重复候选词对应的最大顶点得分是否大于候选词的顶点得分,如重复候选词对应的最大顶点得分大于候选词的顶点得分,则转到步骤S214,如重复候选词对应的最大顶点得分小于等于候选词的顶点得分,则转到步骤S215;
在步骤S214中,关键词提取装置将重复候选词对应的最大顶点得分设定为候选词的顶点得分。
如分析语句A具有候选词“苹果”,该分析语句A的候选词“苹果”的顶点得分为a;分析语句B也具有重复候选词“苹果”,该分析语句B的候选词“苹果”的顶点得分为b,分析语句C也具有重复候选词“苹果”,该分析语句C的重复候选词“苹果”的顶点得分为c,提取文本的其他分析语句中不具有重复候选词“苹果”,如b大于c,则将重复候选词“苹果”的最大顶点得分设为b。
随后关键词提取装置将重复候选词“苹果”的最大顶点得分b和候选词“苹果”的顶点得分为a进行比较,如b大于a,则将重复候选词“苹果”的最大顶点得分b设置为候选词“苹果”的顶点得分。随后转到步骤S215。
在步骤S215中,关键词提取装置将顶点得分最高的设定数量的候选词设定为提取文本的关键词。具体的设定数量可根据用户的需要进行设定,如用户需要对该提取文本设定三个关键字,则可将设定数量定为三。
这样即完成了本优选实施例的关键词提取方法的第二优选实施例的关键词提取过程。
在第二优选实施例的基础上,本优选实施例的关键词提取方法通过停用词表的设置,减少了候选词的处理数量;通过候选词的词向量的设置,提高了候选词的语义相似度的准确性;同时对候选词进行去重操作,避免了多个相同关键词的现象出现。
本发明还提供一种关键词提取装置,请参照图4,图4为本发明的关键词提取装置的第一优选实施例的结构示意图。本优选实施例的关键词提取装置可使用上述的关键词提取方法的第一优选实施例进行实施,该关键词提取装置40包括分词模块41、依存关联度确定模块42、词引力确定模块43、相关权重计算模块44、有权无向图创建模块45、顶点得分计算模块46以及关键词提取模块47。
分词模块41用于对提取文本的所有分析语句进行分词操作,以得到分析语句的词语单元;依存关联度确定模块42用于对分词操作后的分析语句进行依存句法分析,确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;词引力确定模块43用于根据提取文本中的候选词的出现频率、以及候选词与提取文本中其他候选词的语义相似度,确定候选词与所述提取文本中其他候选词的词引力;相关权重计算模块44用于根据依存关联度以及词引力,计算每个分析语句中的候选词与分析语句中的其他候选词的相关权重;有权无向图创建模块45用于基于分析语句中的所有候选词、以及分析语句中的候选词与分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图;顶点得分计算模块46用于基于文本排序算法,计算有权无向图的每个顶点的顶点得分;关键词提取模块47用于根据顶点得分,对于顶点对应的候选词进行排序,进而提取候选词中的关键词。
本优选实施例的关键词提取装置40使用时,首先分词模块41对提取文本的所有分析语句进行分词操作,该提取文件可由多个分析语句组成,这里可采用字符匹配、理解法或统计法等分词方法对分析语句进行分词操作,获取该分析语句的词语单元,该词语单元包括可能会成为关键词的候选词以及不可能成为关键词的停用词,其中关键词即为从候选词中获取的对于提取文本较为重要的词。
随后依存关联度确定模块42对分词操作后的分析语句进行依存句法分析,确定分析语句中各个候选词与分析语句中其他候选词的依存关联度。这里的依存关联度是指提取文本中某个分析语句中的任意两个候选词的关联程度。关联程度越高,意味着这两个候选词作为整体对该分析语句的重要性越强。
然后词引力确定模块43获取提取文本中每个候选词的出现频率,以及每个候选词与提取文本中其他候选词的语义相似度。
由于关键词的提取不仅仅需要判断该关键词在某个分析语句中是否具有较为重要的作用,还要判断该关键词在整体提取文本中是否具有较为重要的作用。因此这里通过候选词的出现频率、与候选词语义相似的其他候选词的出现频率以及候选词与提取文本中其他候选词的语义相似度,确定候选词与提取文本中其他候选词的词引力。词引力越大,意味着这两个候选词作为整体对该提取文本的重要性越强。
随后相关权重计算模块44根据依存关联度确定模块42获取的分析语句中的任意两个候选词的依存关联度,以及词引力确定模块43获取的候选词与提取文本中其他候选词的词引力,计算每个分析语句中的候选词与分析语句中其他候选词的相关权重。
具体公式为:weight(wi,wj)=Dep(wi,wj)×f(wi,wj)
其中f(wi,wj)为候选词wi和候选词wj的词引力,Dep(wi,wj)为候选词wi和候选词wj的依存关联度,weight(wi,wj)为候选词wi和候选词wj的相关权重。
然后有权无向图创建模块45基于提取文本中每个分析语句中的所有候选词、分析语句中的候选词与分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图。这里有权无向图由多个顶点以及顶点之间的连线构成,每个顶点表示分析语句中的一个候选词,顶点与顶点的之间的连线表示上述两个顶点对应的候选词之间的相关权重,即有权无向图中的每条边(连线)不仅描述上述两个顶点之间具有依存关联度,还表示两个顶点对应候选词之间的权重信息(相关权重)。
随后顶点得分计算模块46基于TextRank文本排序算法,计算有权无向图创建模块获取的有权无向图中的每个顶点的顶点得分。该顶点得分即可表示该顶点对应的候选词在提取文本中的重要性。顶点得分越高,该顶点对应的候选词在提取文本中的重要性也就越高。
由于有权无向图创建模块45的有权无向图是根据提取文本中的分析语句生成,因此该有权无向图也具有与分析语句对应的有权无向子图,每个有权无向子图均与一分析语句对应,有权无向子图之间并无顶点之间的连线。
最后关键词提取模块47根据顶点得分计算模块46获取的顶点得分,对提取文本中的所有候选词进行排序,从而将对于提取文本重要性最高的候选词作为该提取文本的关键词。
这样即完成了本优选实施例的关键词提取装置40的第一优选实施例的关键词提取过程。
本优选实施例的关键词提取装置将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而提高了关键词的提取准确度。
请参照图5,图5为本发明的关键词提取装置的第二优选实施例的结构示意图。本优选实施例的关键词提取装置可使用上述的关键词提取方法的第二优选实施例进行实施,该关键词提取装置50包括分词模块51、去停用词模块52、依存关联度确定模块53、词引力确定模块54、相关权重计算模块55、有权无向图创建模块56、顶点得分计算模块57以及关键词提取模块58。
分词模块51用于对提取文本的所有分析语句进行分词操作,以得到分析语句的词语单元;去停用词模块52用于对分词语句的词语单元进行去停用词处理,以得到分析语句的候选词以及停用词;依存关联度确定模块53用于对分词操作后的分析语句进行依存句法分析,确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;词引力确定模块54用于根据提取文本中的候选词的出现频率、以及候选词与提取文本中其他候选词的语义相似度,确定候选词与提取文本中其他候选词的词引力;相关权重计算模块55用于根据依存关联度以及词引力,计算每个分析语句中的候选词与分析语句中的其他候选词的相关权重;有权无向图创建模块56用于基于分析语句中的所有候选词、以及分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图;顶点得分计算模块57用于基于文本排序算法,计算有权无向图的每个顶点的顶点得分;关键词提取模块58用于根据顶点得分,对于顶点对应的候选词进行排序,进而提取候选词中的关键词。
请参照图6,图6为本发明的关键词提取装置的第二优选实施例的依存关联度确定模块的结构示意图。该依存关联度确定模块53包括依存关系路径获取单元61以及依存关联度确定单元62。
依存关系路径获取单元61用于对分析语句进行依存句法分析,获取分析语句中所有候选词的依存关系路径;依存关联度确定单元62用于基于分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定分析语句中各个候选词与分析语句中其他候选词的依存关联度。
请参照图7,图7为本发明的关键词提取装置的第二优选实施例的词引力确定模块的结构示意图。该词引力确定模块54包括词向量获取单元71、距离计算单元72以及词引力确定单元73。
词向量获取单元71用于基于语言模型训练方法,获取提取文本中候选词的词向量;距离计算单元72用于计算提取文本中候选词的词向量与提取文本中其他候选词的词向量的欧氏距离;词引力确定单元73用于根据提取文本中的候选词的出现频率、以及候选词的词向量与提取文本中其他候选词的词向量的欧氏距离,确定候选词与提取文本中其他候选词的词引力。
请参照图8,图8为本发明的关键词提取装置的第二优选实施例的关键词提取模块的结构示意图。关键词提取模块58包括候选词重复判断单元81、重复删除单元82、顶点得分判断单元83、顶点得分设定单元84以及关键词设定单元85。
候选词重复判断单元81用于判断候选词是否具有重复候选词;重复删除单元82用于如具有重复候选词,将重复候选词删除,并获取重复候选词对应的最大顶点得分;顶点得分判断单元83用于判断重复候选词对应的最大顶点得分是否大于候选词的顶点得分;顶点得分设定单元84用于如重复候选词对应的最大顶点得分大于候选词的顶点得分,则将重复候选词对应的最大顶点得分设定为候选词的顶点得分;关键词设定单元85用于将顶点得分最高的设定数量的候选词设定为提取文本的关键词。
本优选实施例的关键词提取装置50使用时,首先分词模块51对提取文本的所有分析语句进行分词操作,该提取文件可由多个分析语句组成,这里可采用字符匹配、理解法或统计法等分词方法对分析语句进行分词操作,获取该分析语句的词语单元,该词语单元包括可能会成为关键词的候选词以及不可能成为关键词的停用词,其中关键词即为从候选词中获取的对于提取文本较为重要的词。
随后去停用词模块52使用停用词表对分词模块51获取的分词语句中的词语单元进行停用词处理,以得到分词语句的候选词以及停用词。这里的停用词可根据用户预先设定的停用词表进行设定。
依存关联度确定模块53的依存关系路径获取单元61对分词操作后的分析语句进行依存句法分析,这里的依存句法分析是根据词性对分析语句中的词语单元进行分析操作,以建立分析语句的一依存句法树,以通过该依存句法树来描述各个词语单元之间的依存关系。
随后依存关系路径获取单元61对上述依存句法树中的连接取向去除,从而可获取所有候选词的依存关系路径。即依存关系路径获取单元可获取分析语句中每个候选词与该分析语句中其他候选词的依存关系路径。
然后依存关联度确定模块53的依存关联度确定单元62可根据上述分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定分析语句中各个候选词与其他候选词的依存关联度。依存关联度越高,意味着这两个候选词作为整体对该分析语句的重要性越强。具体的:
其中Dep(wi,wj)为候选词wi和候选词wj的依存关联度,b为大于1的预设实数,dr_path_len(wi,wj)为候选词wi和候选词wj的依存关系路径长度。即依存关系路径长度越大,对应的依存关联度就越低。
随后词引力确定模块54的词向量获取单元71基于语言模型训练方法,获取提取文本中候选词的词向量。通过对候选词设置对应的词向量,使得相关或相似的候选词的语义相似度可使用语言模型中的距离,即词向量之间的欧氏距离进行衡量,从而可根据两个候选词的语义相似度对两个候选词的相关权重进行修正。
然后词引力确定模块54的距离计算单元72计算提取文本中候选词的词向量与提取文本中其他候选词的词向量的欧氏距离。
随后词引力确定模块54的词引力确定单元73获取提取文本中每个候选词的出现频率,以及每个候选词的词向量与提取文本中其他候选词的词向量的欧氏距离。
由于关键词的提取不仅仅需要判断该关键词在某个分析语句中是否具有较为重要的作用,还要判断该关键词在整体提取文本中是否具有较为重要的作用。因此这里词引力确定单元73通过候选词的出现频率、与候选词语义相似的其他候选词的出现频率以及候选词的词向量与提取文本中其他候选词的词向量的欧氏距离,确定候选词与提取文本中其他候选词的词引力。具体的:
其中freq(wi)为候选词wi在提取文本中的出现频率,freq(wj)为候选词wj在提取文本中的出现频率,d为候选词wi的词向量和候选词wj的词向量的欧式距离。f(wi,wj)为候选词wi和候选词wj的词引力。两个候选词之间的词引力与两个候选词的出现频率成正比,与候选词的词向量之间的欧氏距离的平方成反比。说明候选词的出现频率越大,两个候选词之间的词引力越大;候选词的词向量之间的欧氏距离越小(即语义相似度越高),两个候选词之间的词引力越大。同时词引力越大,意味着这两个候选词作为整体对该提取文本的重要性越强。
然后相关权重计算模块55根据依存关联度确定模块53获取的分析语句中的任意两个候选词的依存关联度,以及词引力确定模块54获取的候选词与提取文本中其他候选词的词引力,计算每个分析语句中的候选词与分析语句中其他候选词的相关权重。
具体公式为:weight(wi,wj)=Dep(wi,wj)×f(wi,wj)
其中f(wi,wj)为候选词wi和候选词wj的词引力,Dep(wi,wj)为候选词wi和候选词wj的依存关联度,weight(wi,wj)为候选词wi和候选词wj的相关权重。
随后有权无向图创建模块56基于提取文本中每个分析语句中的所有候选词、分析语句中的候选词与分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图。这里有权无向图由多个顶点以及顶点之间的连线构成,每个顶点表示分析语句中的一个候选词,顶点与顶点的之间的连线表示上述两个顶点对应的候选词之间的相关权重,即有权无向图中的每条边(连线)不仅描述上述两个顶点之间具有依存关联度,还表示两个顶点对应候选词之间的权重信息(相关权重)。
然后顶点得分计算模块57基于TextRank文本排序算法,计算有权无向图创建模块56中获取的有权无向图中的每个顶点的顶点得分。该顶点得分即可表示该顶点对应的候选词在提取文本中的重要性。顶点得分越高,该顶点对应的候选词在提取文本中的重要性也就越高。
具体的,顶点得分计算模块57可通过以下公式对上述有权无向图的每个顶点的顶点得分进行迭代收敛运算直至每次运算直至每次运算的顶点得分变化率小于设定值,如0.0001等。
其中d为阻尼系数,取值范围为0到1,代表从有权无向图中某一顶点指向其他任意顶点的概率,一般取值为0.85。
weight(vi,vj)表示有权无向图中的顶点i和顶点j之间的权重边的相关权重,weight(vj,vk)表示有权无向图中的顶点j和顶点k之间的权重边的相关权重,WS(vi)表示有权无向图中的顶点i的顶点得分,C(vi)表示与顶点i具有权重边的顶点集合,C(vj)表示与顶点j具有权重边的顶点集合。
由于有权无向图是根据提取文本中的分析语句生成,因此该有权无向图也具有与分析语句对应的有权无向子图,每个有权无向子图均与一分析语句对应,有权无向子图之间并无顶点之间的连线。
随后关键词提取模块58的候选词重复判断单元81根据顶点得分计算模块57获取的顶点得分,对提取文本中的所有候选词进行排序,随后判断所有候选词中是否具有重复候选词。
如所有候选词中具有重复候选词,则关键词提取模块58的重复删除单元82复候选词进行删除操作,并获取重复候选词对应的最大顶点得分。随后关键词提取模块58的顶点得分判断单元83判断重复候选词对应的最大顶点得分是否大于候选词的顶点得分。
如重复候选词对应的最大顶点得分大于候选词的顶点得分,则关键词提取模块58的顶点得分设定单元84将重复候选词对应的最大顶点得分设定为候选词的顶点得分。
如候选词不具有重复候选词,或重复候选词对应的最大顶点小于等于候选词的顶点得分,则不需要对候选词的顶点得分进行修改,关键词提取模块58的关键词设定单元85将顶点得分最高的设定数量的候选词设定为提取文本的关键词。具体的设定数量可根据用户的需要进行设定,如用户需要对该提取文本设定三个关键字,则可将设定数量定为三。
这样即完成了本优选实施例的关键词提取装置50的第二优选实施例的关键词提取过程。
在第二优选实施例的基础上,本优选实施例的关键词提取装置通过停用词表的设置,减少了候选词的处理数量;通过候选词的词向量的设置,提高了候选词的语义相似度的准确性;同时对候选词进行去重操作,避免了多个相同关键词的现象出现。
本发明的关键词提取方法及关键词提取装置相较于单纯的TextRank文本排序算法和基于词引力值排序的关键词提取方法,通过将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而有效的提高提取文本的关键词提取准确率(Precision)、召回率(Recall)以及F值(F-Measure);解决了现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。
如本申请所使用的术语“组件”、“模块”、“系统”、“接口”、“进程”等等一般地旨在指计算机相关实体:硬件、硬件和软件的组合、软件或执行中的软件。例如,组件可以是但不限于是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序和/或计算机。通过图示,运行在控制器上的应用和该控制器二者都可以是组件。一个或多个组件可以有在于执行的进程和/或线程内,并且组件可以位于一个计算机上和/或分布在两个或更多计算机之间。
图9和随后的讨论提供了对实现本发明所述的关键词提取装置所在的电子设备的工作环境的简短、概括的描述。图9的工作环境仅仅是适当的工作环境的一个实例并且不旨在建议关于工作环境的用途或功能的范围的任何限制。实例电子设备912包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。
尽管没有要求,但是在“计算机可读指令”被一个或多个电子设备执行的通用背景下描述实施例。计算机可读指令可以经由计算机可读介质来分布(下文讨论)。计算机可读指令可以实现为程序模块,比如执行特定任务或实现特定抽象数据类型的功能、对象、应用编程接口(API)、数据结构等等。典型地,该计算机可读指令的功能可以在各种环境中随意组合或分布。
图9图示了包括本发明的关键词提取装置中的一个或多个实施例的电子设备912的实例。在一种配置中,电子设备912包括至少一个处理单元916和存储器918。根据电子设备的确切配置和类型,存储器1318可以是易失性的(比如RAM)、非易失性的(比如ROM、闪存等)或二者的某种组合。该配置在图9中由虚线914图示。
在其他实施例中,电子设备912可以包括附加特征和/或功能。例如,设备912还可以包括附加的存储装置(例如可移除和/或不可移除的),其包括但不限于磁存储装置、光存储装置等等。这种附加存储装置在图9中由存储装置920图示。在一个实施例中,用于实现本文所提供的一个或多个实施例的计算机可读指令可以在存储装置920中。存储装置920还可以存储用于实现操作系统、应用程序等的其他计算机可读指令。计算机可读指令可以载入存储器918中由例如处理单元916执行。
本文所使用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。存储器918和存储装置920是计算机存储介质的实例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息并可以被电子设备912访问的任何其他介质。任意这样的计算机存储介质可以是电子设备912的一部分。
电子设备912还可以包括允许电子设备912与其他设备通信的通信连接926。通信连接926可以包括但不限于调制解调器、网络接口卡(NIC)、集成网络接口、射频发射器/接收器、红外端口、USB连接或用于将电子设备912连接到其他电子设备的其他接口。通信连接926可以包括有线连接或无线连接。通信连接926可以发射和/或接收通信媒体。
术语“计算机可读介质”可以包括通信介质。通信介质典型地包含计算机可读指令或诸如载波或其他传输机构之类的“己调制数据信号”中的其他数据,并且包括任何信息递送介质。术语“己调制数据信号”可以包括这样的信号:该信号特性中的一个或多个按照将信息编码到信号中的方式来设置或改变。
电子设备912可以包括输入设备924,比如键盘、鼠标、笔、语音输入设备、触摸输入设备、红外相机、视频输入设备和/或任何其他输入设备。设备912中也可以包括输出设备922,比如一个或多个显示器、扬声器、打印机和/或任意其他输出设备。输入设备924和输出设备922可以经由有线连接、无线连接或其任意组合连接到电子设备912。在一个实施例中,来自另一个电子设备的输入设备或输出设备可以被用作电子设备912的输入设备924或输出设备922。
电子设备912的组件可以通过各种互连(比如总线)连接。这样的互连可以包括外围组件互连(PCI)(比如快速PCI)、通用串行总线(USB)、火线(IEEE1394)、光学总线结构等等。在另一个实施例中,电子设备912的组件可以通过网络互连。例如,存储器918可以由位于不同物理位置中的、通过网络互连的多个物理存储器单元构成。
本领域技术人员将认识到,用于存储计算机可读指令的存储设备可以跨越网络分布。例如,可经由网络928访问的电子设备930可以存储用于实现本发明所提供的一个或多个实施例的计算机可读指令。电子设备912可以访问电子设备930并且下载计算机可读指令的一部分或所有以供执行。可替代地,电子设备912可以按需要下载多条计算机可读指令,或者一些指令可以在电子设备912处执行并且一些指令可以在电子设备930处执行。
本文提供了实施例的各种操作。在一个实施例中,所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令,其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且,应当理解,不是所有操作必需在本文所提供的每个实施例中存在。
而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的方法。
综上所述,虽然本发明已以实施例揭露如上,实施例前的序号仅为描述方便而使用,对本发明各实施例的顺序不造成限制。并且,上述实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。
Claims (11)
1.一种关键词提取方法,其特征在于,包括:
对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;
对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;
根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;
根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;
基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;有权无向图中的每条边不仅描述两个顶点之间依存关联度,还表示两个顶点对应候选词之间的权重信息;所述有权无向图具有与分析语句对应的有权无向子图,每个有权无向子图均与一分析语句对应,有权无向子图之间并无顶点之间的连线;
基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及
判断所述候选词是否具有重复候选词;
如具有重复候选词,将所述重复候选词删除,并获取所述重复候选词对应的最大顶点得分;
判断所述重复候选词对应的最大顶点得分是否大于所述候选词的顶点得分;
如所述重复候选词对应的最大顶点得分大于所述候选词的顶点得分,则将所述重复候选词对应的最大顶点得分设定为所述候选词的顶点得分;以及
如所述重复候选词对应的最大顶点得分小于等于所述候选词的顶点得分,将顶点得分最高的设定数量的候选词设定为所述提取文本的关键词。
2.根据权利要求1所述的关键词提取方法,其特征在于,所述对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度的步骤包括:
对所述分析语句进行依存句法分析,获取所述分析语句中所有候选词的依存关系路径;以及
基于所述分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度。
3.根据权利要求2所述的关键词提取方法,其特征在于,所述关键词提取方法还包括步骤:
对所述分析语句的词语单元进行去停用词处理,以得到所述分析语句的候选词以及停用词。
4.根据权利要求1所述的关键词提取方法,其特征在于,所述根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力的步骤包括:
基于语言模型训练方法,获取所述提取文本中候选词的词向量;
计算所述提取文本中候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离;以及
根据所述提取文本中的候选词的出现频率、以及所述候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离,确定所述候选词与所述提取文本中其他候选词的词引力。
5.根据权利要求1所述的关键词提取方法,其特征在于,所述基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分的步骤包括:
通过以下公式对所述有权无向图的每个顶点的顶点得分进行迭代收敛运算直至每次运算的顶点得分变化率小于设定值:
其中d为阻尼系数,
weight(vi,vj)表示有权无向图中的顶点i和顶点j之间的权重边的相关权重,
weight(vj,vk)表示有权无向图中的顶点j和顶点k之间的权重边的相关权重,
WS(vi)表示有权无向图中的顶点i的顶点得分,
C(vi)表示与顶点i具有权重边的顶点集合,
C(vj)表示与顶点j具有权重边的顶点集合。
6.一种关键词提取装置,其特征在于,包括:
分词模块,用于对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;
依存关联度确定模块,用于对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;
词引力确定模块,用于根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;
相关权重计算模块,用于根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;
有权无向图创建模块,用于基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;有权无向图中的每条边不仅描述两个顶点之间依存关联度,还表示两个顶点对应候选词之间的权重信息;所述有权无向图具有与分析语句对应的有权无向子图,每个有权无向子图均与一分析语句对应,有权无向子图之间并无顶点之间的连线;顶点得分计算模块,用于基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及
关键词提取模块,用于根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词;
所述关键词提取模块包括:
候选词重复判断单元,用于判断所述候选词是否具有重复候选词;
重复删除单元,用于如具有重复候选词,将所述重复候选词删除,并获取所述重复候选词对应的最大顶点得分;
顶点得分判断单元,用于判断所述重复候选词对应的最大顶点得分是否大于所述候选词的顶点得分;
顶点得分设定单元,用于如所述重复候选词对应的最大顶点得分大于所述候选词的顶点得分,则将所述重复候选词对应的最大顶点得分设定为所述候选词的顶点得分;以及
关键词设定单元,用于如所述重复候选词对应的最大顶点得分小于等于所述候选词的顶点得分,将顶点得分最高的设定数量的候选词设定为所述提取文本的关键词。
7.根据权利要求6所述的关键词提取装置,其特征在于,所述依存关联度确定模块包括:
依存关系路径获取单元,用于对所述分析语句进行依存句法分析,获取所述分析语句中所有候选词的依存关系路径;以及
依存关联度确定单元,用于基于所述分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度。
8.根据权利要求7所述的关键词提取装置,其特征在于,所述关键词提取装置还包括:
去停用词模块,用于对所述分析语句的词语单元进行去停用词处理,以得到所述分析语句的候选词以及停用词。
9.根据权利要求6所述的关键词提取装置,其特征在于,所述词引力确定模块包括:
词向量获取单元,用于基于语言模型训练方法,获取所述提取文本中候选词的词向量;
距离计算单元,用于计算所述提取文本中候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离;以及
词引力确定单元,用于根据所述提取文本中的候选词的出现频率、以及所述候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离,确定所述候选词与所述提取文本中其他候选词的词引力。
10.根据权利要求6所述的关键词提取装置,其特征在于,所述顶点得分计算模块用于:
通过以下公式对所述有权无向图的每个顶点的顶点得分进行迭代收敛运算直至每次运算的顶点得分变化率小于设定值:
其中d为阻尼系数,
weight(vi,vj)表示有权无向图中的顶点i和顶点j之间的权重边的相关权重,
weight(vj,vk)表示有权无向图中的顶点j和顶点k之间的权重边的相关权重,
WS(vi)表示有权无向图中的顶点i的顶点得分,
C(vi)表示与顶点i具有权重边的顶点集合,
C(vj)表示与顶点j具有权重边的顶点集合。
11.一种存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行如权利要求1至5中任一的关键词提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710067269.5A CN108319627B (zh) | 2017-02-06 | 2017-02-06 | 关键词提取方法以及关键词提取装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710067269.5A CN108319627B (zh) | 2017-02-06 | 2017-02-06 | 关键词提取方法以及关键词提取装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108319627A CN108319627A (zh) | 2018-07-24 |
CN108319627B true CN108319627B (zh) | 2024-05-28 |
Family
ID=62891709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710067269.5A Active CN108319627B (zh) | 2017-02-06 | 2017-02-06 | 关键词提取方法以及关键词提取装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108319627B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241428B (zh) * | 2018-09-05 | 2021-07-02 | 广州视源电子科技股份有限公司 | 用户性别的确定方法、装置、服务器及存储介质 |
CN109886845A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 合同的智能审核方法、装置、计算机设备及存储介质 |
CN110008401B (zh) * | 2019-02-21 | 2021-03-09 | 北京达佳互联信息技术有限公司 | 关键词提取方法、关键词提取装置和计算机可读存储介质 |
CN109992777B (zh) * | 2019-03-26 | 2020-10-13 | 浙江大学 | 一种基于关键词的中医病情文本关键语义信息提取方法 |
CN110222160B (zh) * | 2019-05-06 | 2023-09-15 | 平安科技(深圳)有限公司 | 智能语义文档推荐方法、装置及计算机可读存储介质 |
CN110362678A (zh) * | 2019-06-04 | 2019-10-22 | 哈尔滨工业大学(威海) | 一种自动提取中文文本关键词的方法与装置 |
CN110427480B (zh) * | 2019-06-28 | 2022-10-11 | 平安科技(深圳)有限公司 | 个性化文本智能推荐方法、装置及计算机可读存储介质 |
CN110309513B (zh) * | 2019-07-09 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN110765765B (zh) * | 2019-09-16 | 2023-10-20 | 平安科技(深圳)有限公司 | 基于人工智能的合同关键条款提取方法、装置及存储介质 |
CN110874396B (zh) * | 2019-11-07 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 一种关键词抽取方法、装置以及计算机存储介质 |
CN111079422B (zh) * | 2019-12-13 | 2023-07-14 | 北京小米移动软件有限公司 | 关键词提取方法、装置及存储介质 |
CN111274358A (zh) * | 2020-01-20 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN111985217B (zh) * | 2020-09-09 | 2022-08-02 | 吉林大学 | 一种关键词提取方法、计算设备及可读存储介质 |
CN111930463A (zh) * | 2020-09-23 | 2020-11-13 | 杭州橙鹰数据技术有限公司 | 展示方法及装置 |
CN112347778B (zh) * | 2020-11-06 | 2023-06-20 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN113033196B (zh) * | 2021-03-19 | 2023-08-15 | 北京百度网讯科技有限公司 | 分词方法、装置、设备及存储介质 |
CN113282711B (zh) * | 2021-06-03 | 2023-09-22 | 中国软件评测中心(工业和信息化部软件与集成电路促进中心) | 一种车联网文本匹配方法、装置、电子设备及存储介质 |
CN114004219B (zh) * | 2021-09-29 | 2024-10-11 | 西北工业大学 | 一种基于语义依存的自动文本摘要方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101048546B1 (ko) * | 2009-03-05 | 2011-07-11 | 엔에이치엔(주) | 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법 |
CN103577462A (zh) * | 2012-08-02 | 2014-02-12 | 北京百度网讯科技有限公司 | 一种文档分类方法及装置 |
JP2014229031A (ja) * | 2013-05-21 | 2014-12-08 | 独立行政法人情報通信研究機構 | 品詞推定装置及びコンピュータプログラム |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN105335348A (zh) * | 2014-08-07 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于目标语句的依存句法分析方法、装置及服务器 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106202042A (zh) * | 2016-07-06 | 2016-12-07 | 中央民族大学 | 一种基于图的关键词抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8290975B2 (en) * | 2008-03-12 | 2012-10-16 | Microsoft Corporation | Graph-based keyword expansion |
JP5161658B2 (ja) * | 2008-05-30 | 2013-03-13 | 株式会社東芝 | キーワード入力支援装置、キーワード入力支援方法及びプログラム |
CN104573028B (zh) * | 2015-01-14 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法和系统 |
-
2017
- 2017-02-06 CN CN201710067269.5A patent/CN108319627B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101048546B1 (ko) * | 2009-03-05 | 2011-07-11 | 엔에이치엔(주) | 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법 |
CN103577462A (zh) * | 2012-08-02 | 2014-02-12 | 北京百度网讯科技有限公司 | 一种文档分类方法及装置 |
JP2014229031A (ja) * | 2013-05-21 | 2014-12-08 | 独立行政法人情報通信研究機構 | 品詞推定装置及びコンピュータプログラム |
CN105335348A (zh) * | 2014-08-07 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于目标语句的依存句法分析方法、装置及服务器 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106202042A (zh) * | 2016-07-06 | 2016-12-07 | 中央民族大学 | 一种基于图的关键词抽取方法 |
Non-Patent Citations (1)
Title |
---|
面向问答的问句关键词提取技术研究;王煦祥;《http://www.xueshutianxia.com/dissertation/detail/100155000312345.html》;20160601;参见正文第8-20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108319627A (zh) | 2018-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319627B (zh) | 关键词提取方法以及关键词提取装置 | |
CN108334490B (zh) | 关键词提取方法以及关键词提取装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN112988969B (zh) | 用于文本检索的方法、装置、设备以及存储介质 | |
CN107168954B (zh) | 文本关键词生成方法及装置和电子设备及可读存储介质 | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
JP7153004B2 (ja) | コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109325108B (zh) | 查询处理方法、装置、服务器及存储介质 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
CN112395867B (zh) | 同义词挖掘方法、装置、存储介质及计算机设备 | |
US20200372117A1 (en) | Proximity information retrieval boost method for medical knowledge question answering systems | |
CN110147494B (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
US10198497B2 (en) | Search term clustering | |
CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
CN112632285A (zh) | 一种文本聚类方法、装置、电子设备及存储介质 | |
CN105550217B (zh) | 场景音乐搜索方法及场景音乐搜索装置 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN113660541A (zh) | 新闻视频的摘要生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |