CN108563636A - 提取文本关键词的方法、装置、设备及存储介质 - Google Patents

提取文本关键词的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108563636A
CN108563636A CN201810304316.8A CN201810304316A CN108563636A CN 108563636 A CN108563636 A CN 108563636A CN 201810304316 A CN201810304316 A CN 201810304316A CN 108563636 A CN108563636 A CN 108563636A
Authority
CN
China
Prior art keywords
text
word
score value
segmented
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810304316.8A
Other languages
English (en)
Inventor
杜翠凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jay Communications Planning And Design Institute Co Ltd
GCI Science and Technology Co Ltd
Original Assignee
Guangzhou Jay Communications Planning And Design Institute Co Ltd
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jay Communications Planning And Design Institute Co Ltd, GCI Science and Technology Co Ltd filed Critical Guangzhou Jay Communications Planning And Design Institute Co Ltd
Priority to CN201810304316.8A priority Critical patent/CN108563636A/zh
Publication of CN108563636A publication Critical patent/CN108563636A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提取文本关键词的方法,包括:对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词。本发明还公开了一种提取文本关键词的装置、设备及存储介质,可以解决文档关键词提取不精准的问题,使得在度量不同文档之间的相似度时更加准确。

Description

提取文本关键词的方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种提取文本关键词的方法、装置、设备及存储介质。
背景技术
随着科学技术的发展和社会法律的健全,目前一定规模的工程项目都需要通过招标的方法选择合适的公司或单位,而参与投标的公司或单位则需要做好投标工作来提高竞争力。因此,投标文档匹配度的研究已经成为了当前投标中介增值业务的重要方向,而文档匹配度研究的前提是文档关键词的提取,提取关键词是自然语言领域的重要领域之一。
然而,发明人在实施本发明的过程中发现,现有技术中,在度量不同文档之间的相似度时,通常采用TFI-DF算法来提取关键词,而由于TFI-DF算法过度关注词语的出现次数和频率,没有客观地分配每个词语的权重,不符合真实的情况,从而导致关键词提取不精准,降低了度量得到的不同文档之间的相似度的准确性。
发明内容
针对上述问题,本发明的目的在于提供一种提取文本关键词的方法、装置、设备及存储介质,可以解决文档关键词提取不精准的问题,使得在度量不同文档之间的相似度时更加准确。
第一方面,本发明实施例提供了一种提取文本关键词的方法,包括以下步骤:
对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;
根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;
根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;
根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;
根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。
在第一方面的第一种实现方式中,所述对待匹配的至少两个文本分别进行分词,得到相应于每个文本的至少一个分词,具体为:
利用分词工具对待匹配的至少两个文本分别进行分词处理,生成相应于每个文本的分词结果;
构建停用词库对每个所述分词结果进行过滤,得到相应于每个文本的至少一个分词。
在第一方面的第二种实现方式中,所述根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值,具体为:
根据所述每个文本的所述每个分词的所述词频分值、所述词性分值和所述位置分值,生成相应于每个文本的词语矩阵;
根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值。
根据第一方面的第二种实现方式,在第一方面的第三种实现方式中,所述根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值,具体为:
对于每一个文本:
计算所述词语矩阵中每个分词的每个特征向量的熵权;
根据所述每个分词的每个特征向量的熵权以及与所述每个特征向量对应的分值,计算所述每个分词的综合权值。
在第一方面的第四种实现方式中,所述根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重,具体为:
对于每一个文本:
根据所述每个分词的综合权值,计算所述每个分词之间的转移概率;
根据所述每个分词之间的转移概率,计算所述每个分词的权重。
在第一方面的第五种实现方式中,所述待匹配的至少两个文本中包括第一文本和第二文本;则在所述根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词之后,还包括:
获取第一文本的关键词和第二文本的关键词,利用正则表达式匹配生成字符串;
根据所述第一文本的每个关键词的权重和所述字符串,生成第一向量矩阵;
根据所述第二文本的每个关键词的权重和所述字符串,生成第二向量矩阵;
根据所述第一向量矩阵和所述第二向量矩阵,计算所述第一文本与所述第二文本之间的相似度。
根据第一方面的第五种实现方式,在第一方面的第六种实现方式中,所述根据所述第一向量矩阵和所述第二向量矩阵,计算所述第一文本与所述第二文本之间的相似度,具体为:
对所述第一向量矩阵和所述第二向量矩阵进行计算,得到所述第一向量矩阵和所述第二向量矩阵的夹角余弦值;
根据所述夹角余弦值的大小,得出所述第一文本与所述第二文本之间的相似度。
第二方面,本发明实施例还提供了一种提取文本关键词的装置,包括:
分词模块,用于对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;
赋值模块,用于根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;
综合权值计算模块,用于根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;
权重计算模块,用于根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;
关键词提取模块,用于根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。
第三方面,本发明实施例还提供了一种提取文本关键词的设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的提取文本关键词的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的提取文本关键词的方法。
上述技术方案中的一个技术方案具有如下优点:根据计算得到的文本中的每个分词的词频分值、词性分值以及位置分值来计算每个分词的综合权值,能够根据各项量评分的分布,使得能够客观地、科学地对每个分词的权值进行合理分配;根据每个分词的权重来提取关键词,能够提高关键词提取的准确率,使得在度量不同文档之间的相似度时能够提高度量的准确性。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的提取文本关键词的方法的一种流程示意图。
图2是本发明第二实施例提供的提取文本关键词的方法的另一种流程示意图。
图3是本发明第三实施例提供的提取文本关键词的装置的一种结构示意图。
图4是本发明第三实施例提供的提取文本关键词的装置的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提供了一种提取文本关键词的方法,其可以在提取文本关键词的设备上执行,包括以下步骤:
S10,对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词。
在本实施例中,所述设备可以包括但不限于:桌上型计算机、笔记本、掌上电脑、手机以及电视机等各类电子设备,在所述设备上可以导入或者接受待匹配的各种文本或文档并且可以将这些文档进行存储。
在本实施例中,对待匹配的文本分别进行分词处理,即对每一个文本分别进行词语的划分,在这里,可以利用结巴分词工具对文本进行分析,其中模式为精确模式,所述精确模式可以将文本中的句子精确地划分,适合文本分析。具体地,利用分词工具对待匹配的至少两个文本分别进行分词处理,生成相应于每个文本的分词结果;构建停用词库对每个所述分词结果进行过滤,得到相应于每个文本的至少一个分词。在本实施例中,对于每个待匹配的文本利用分词工具进行词语的划分,得到分词后的文本(即分词结果),作为示例,其中一个待匹配的原始文本为:“随着信息科学技术的快速发展,各行业及其企业积累了海量的数据,这些数据是包含大量无用信息、特征属性混合的复杂数据。本项目研究目标是:结合行业数据固有的特点,研究和开发一套运用于通信行业的基于云计算的异构的海量数据处理系统”。对其进行分词后的文本为:“/随着/信息/科学技术/的/快速/发展/,/各/行业/及其/企业/积累/了/海量/的/数据/,/这些/数据/是/包含/大量/无用信息/、/特征/属性/混合/的/复杂/数据/。/本/项目/研究/目标/是/:/结合/行业/数据/固有/的/特点/,/研究/和/开发/一套/运用/于/通信/行业/的/基于/云计算/的/异构/的/海量/数据处理系统/”。
在本实施例中,所述分词后的文本中可能存在一些明显的非重要的词语,例如语气助词等,因此需要构建停用词库或停用词字典对这些明显非重要的词语过滤或处理掉,在这里,可以预先在停用词库设置或输入需要过滤掉的词语或词汇,在过滤词语的过程中,对上述得到的所述文本的分词结果中的所有词语,查询是否出现在停用词库中,如果出现,则将出现在停用词库中的词语过滤掉,最后即可得到所述文本的所有分词了。
S20,根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值。
在本实施例中,利用预设的赋值规则对每个文本中的每个分词的词语特征(例如词频、词性以及词的位置特征等)进行赋值计算,在本实施例中,对每个分析的词频、词性以及词的位置特征进行评分,在这里,词频分值是按照该词语的出现次数进行赋值;词性分析是按照名词、动词、形容词、副词、其他等等不同词语重要性进行赋值(例如赋值规则为:名词:0.5分,动词:0.2分,形容词:0.15分,副词:0.1分,其他0.05分);位置分值是按照小标题、首段、末段、首句、尾句等不同词语位置特征进行赋值(例如赋值规则为:小标题:0.5分,首段:0.2分;末段:0.1分,首句:0.1分,尾句:0.15分)。作为示例,假设某篇文本的分词处理后得到的所有分词为:平台、海量、存储、数据、高效、分布式;按照上述的赋值规则对该文本的每个分词的每个特征进行赋值计算,得到以下表格:
S30,根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值。
在本实施例中,根据一个分词的各个词语特征的重要程度(即评分)来计算出该分词的综合权值。具体地,根据所述每个文本的所述每个分词的所述词频分值、所述词性分值和所述位置分值,生成相应于每个文本的词语矩阵;根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值。在本实施例中,对于一个文本,按照计算得到该文本中的每个分词的各个词语特征的分值来生成该文本的词语矩阵,在这里,所述词语矩阵为n*3维度的矩阵,其中n为该文本中的分词的个数,例如根据上述表格得到与表格对应的文本的7*3维度的词语矩阵。
在本实施例中,对于一个文本,根据该文本的词语矩阵可计算该文本的每个分词的综合权值,具体地,计算所述词语矩阵中每个分词的每个特征向量的熵权;根据所述每个分词的每个特征向量的熵权以及与所述每个特征向量对应的分值,计算所述每个分词的综合权值。在本实施例中,需要先找到该文本的每个分词对应的每一个特征向量的权值,即每个分词的词频、词性以及位置的权值。在本实施例中,假设xij表示第i个分词的第j个特征向量的值,根据熵值的定义,计算第i个分词的第j个特征向量的熵值ej以及熵的冗余度hj,具体为:
hj=1-ej
其中,k为常数,n为所述文本中的分词的个数。
接着,计算所述第i个分词的第j个特征向量的熵权wij为:
那么,可以通过每一个特征向量的权值(熵权)乘以对应的特征向量的评分来衡量每一个分词的重要性(综合权值),具体为:
其中,wij表示分词vi(即第i个分词)的第j个特征向量的熵权;Hij表示分词vi的第j个特征向量的评分(即与该特征向量对应的词语特征的分值);W(vi)表示分词vi通过评分以及熵权计算出来的综合权值;m表示与分词vi对应的特征向量的个数,在这里,m=3。
S40,根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重。
S50,根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。
在本实施例中,对于每一个文本,根据计算得到的每个分词的综合权值,构建加权的Textrank算法来计算每个分词的权重,具体地,根据所述每个分词的综合权值,计算所述每个分词之间的转移概率;根据所述每个分词之间的转移概率,计算所述每个分词的权重。在本实施例中,对于每一个文本,根据所述文本中每个分词的先后顺序,就可以知道每一个分词的入度或者出度的关系,从而计算每一个分词之间的转移概率,具体为:
其中,vi表示某个分词(即第i个分词);vj表示分词vi后面紧跟着的词语;vk表示分词vi后面紧跟着的所有分词的集合。作为示例,“大数据vi”后面紧跟着的分词中其中一个为“分布式处理vj”,但是在某篇文章中“大数据”这个分词紧跟着的分词有很多,分别是大数据“分布式处理”、大数据“概念”、大数据“时代”、大数据“分析”等,那么这个vk就是指紧跟在大数据后面的所有的分词的集合。
最后,计算分词vi的最终的权重为:
其中,Out(vi)表示分词vi所指向的所有分词的集合;In(vi)表示指向分词vi的所有分词的集合;d为阻尼系数,一般取值为0.85。
在本实施例中,计算得到所述文本中的每一个分词的权重后,按照权重进行排序,取权重排名靠前的分词作为所述文本的关键词,例如,取权重排名前25%的分词作为所述文本的关键词;可以理解的是,所述关键词的权重为与之对应的分词的权重。同样,可以提取得到其他文本的关键词,使得可以根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度,例如,在招投标内容匹配度研究中,能够对招标的内容快速读取检索关键词,并且对投标方的标书的主要建设内容读取检索关键词,根据招标内容和投标内容的关键词和每个关键词的权重来度量计算招标内容与投标方内容的相似度。
综上所述,采用分词工具进行文本的分词,大大简化了自然语言分词的步骤;通过计算每个分词的词频、词性以及词的位置的评分,采用熵权法实现每个分词的特征向量的权值的计算,能够根据各特征向量评分,客观、科学的实现各特征向量权值的分配,避免人工对特征向量的分配造成误差;通过结合熵权法、转移概率等方法得出每个分词的权重,构建带权值的Textrank算法进行文本关键词的提取,能够快速并且准确地提取文本的关键词。
本发明第二实施例:
在第一个实施例的基础上,所述待匹配的至少两个文本中包括第一文本和第二文本;则在步骤S50之后,还包括:
S60,获取第一文本的关键词和第二文本的关键词,利用正则表达式匹配生成字符串;
S70,根据所述第一文本的每个关键词的权重和所述字符串,生成第一向量矩阵;
S80,根据所述第二文本的每个关键词的权重和所述字符串,生成第二向量矩阵;
S90,根据所述第一向量矩阵和所述第二向量矩阵,计算所述第一文本与所述第二文本之间的相似度。
在本实施例中,从所有待匹配的文档中提取第一文本和第二文本的关键词,例如,获取招标文本的关键词和投标文本的关键词。在本实施例中,正则表达式具备快速匹配字符串的功能,作为示例,假设第一本文的关键词为5个:大数据、云计算、分布式、挖掘、分析;第二文本的关键词为6个:大数据、云计算、并行计算、决策、预警、平台。采用正则表达式能够快速匹配两篇文章的字符串,例如,以第一文本中“大数据”这个关键词为例,利用正则表达式快速扫描第二文本中的关键词是否包含“大数据”,如果包含则对其进行匹配,如此对第一文本中每个关键词进行匹配,直至结束为止,最终匹配得到的两个文本的字符串为“大数据,云计算,分布式,挖掘,分析,并行计算,决策,预警,平台”。接着,根据匹配生成的字符串构建第一文本的向量矩阵和第二文本的向量矩阵,在这里,至于向量的构建,就是根据每个文本的每个关键词的权重对上述匹配得到的字符串进行赋值的过程,例如,构建第一文本的向量矩阵,根据第一文本中的关键词及每个关键词的权重,对上述匹配到的字符串中的关键词进行标记匹配,若匹配得到,就直接采用第一文本中该关键词原来的权重进行赋值,若匹配不到,则将其直接赋值为零:
关键词 大数据 云计算 分布式 挖掘 分析 并行计算 决策 预警 平台
权重 0.3 0.41 0.12 0.08 0.1 0 0 0 0
因此,最终生成第一文本的第一向量矩阵为(0.3,0.41,0.12,0.08,0.1,0,0,0,0)。
同理,构建第二文本的向量矩阵:
关键词 大数据 云计算 分布式 挖掘 分析 并行计算 决策 预警 平台
权重 0.23 0.15 0 0 0 0.2 0.3 0.01 0.05
最终生成第二文本的第二向量矩阵为(0.23,0.15,0,0,0,0.2,0.3,0.01,0.05)。
在本实施例中,根据所述第一向量矩阵和所述第二向量矩阵,利用距离测度、相似测度、匹配测度等方法来衡量两个文本之间的相似程度。在这里,采用余弦相似性来进行相似性计算,作为示例,假设第一文本X的第一向量矩阵为x,第二文本Y的第二向量矩阵为y,则两个文本的相似度sim(X,Y)为:
在本实施例中,具体地,对所述第一向量矩阵和所述第二向量矩阵进行计算,得到所述第一向量矩阵和所述第二向量矩阵的夹角余弦值;根据所述夹角余弦值的大小,得出所述第一文本与所述第二文本之间的相似度。例如,假设第一文本的向量矩阵为(1,1,2,1,1,1,0,0,0),第二文本的向量矩阵为(1,1,1,0,1,1,1,1,1),计算得到两个向量矩阵的夹角余弦值为0.81,由于所述夹角余弦值为0.81非常接近1,因此可以判断第一文本和第一文本的相似度很高,即可以判断两个文本是基本相似的,根据得到的相似度的结果可以进行后续的相关工作,例如,投标中介可以根据计算分析得到的招标内容与投标方建设内容的相似度,给出投标方的匹配度建议以及不匹配词语的明细,可以使投标方按照相关的检索结果补充不匹配的内容,提高中标的概率。
通过上述方式,采用正则表达式快速匹配文本的字符串,这种方法与传统的最长公共子序列相比,大大降低了算法的时间;根据字符串构建文本的向量矩阵,并且采用余弦相似性的定理,对不同文本进行相似度计算,可以快速得出不同文本的相似性。
请参阅图3,本发明第三实施例还提供了一种提取文本关键词的装置,包括:
分词模块10,用于对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;
赋值模块20,用于根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;
综合权值计算模块30,用于根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;
权重计算模块40,用于根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;
关键词提取模块50,用于根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。
进一步地,所述分词模块10,具体为:
分词处理单元,用于利用分词工具对待匹配的至少两个文本分别进行分词处理,生成相应于每个文本的分词结果;
停用词过滤单元,用于构建停用词库对每个所述分词结果进行过滤,得到相应于每个文本的至少一个分词。
优选地,所述综合权值计算模块30,具体为:
矩阵生成单元,用于根据所述每个文本的所述每个分词的所述词频分值、所述词性分值和所述位置分值,生成相应于每个文本的词语矩阵;
第一计算单元,用于根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值。
进一步地,所述第一计算单元具体为:
对于每一个文本:
熵权计算单元,用于计算所述词语矩阵中每个分词的每个特征向量的熵权;
第二计算单元,用于根据所述每个分词的每个特征向量的熵权以及与所述每个特征向量对应的分值,计算所述每个分词的综合权值。
优选地,所述权值计算模块40,具体为:
对于每一个文本:
转移概率计算单元,用于根据所述每个分词的综合权值,计算所述每个分词之间的转移概率;
分词权重计算单元,用于根据所述每个分词之间的转移概率,计算所述每个分词的权重。
优选地,请参阅图4,所述待匹配的至少两个文本中包括第一文本和第二文本;则所述提取文本关键词的装置,还包括:
字符串匹配模块60,用于获取第一文本的关键词和第二文本的关键词,利用正则表达式匹配生成字符串;
第一向量生成模块70,用于根据所述第一文本的每个关键词的权重和所述字符串,生成第一向量矩阵;
第二向量生成模块80,用于根据所述第二文本的每个关键词的权重和所述字符串,生成第二向量矩阵;
相似度计算模块90,用于根据所述第一向量矩阵和所述第二向量矩阵,计算所述第一文本与所述第二文本之间的相似度。
进一步地,所述相似度计算模块具体为:
余弦值计算单元,用于对所述第一向量矩阵和所述第二向量矩阵进行计算,得到所述第一向量矩阵和所述第二向量矩阵的夹角余弦值;
相似度判断单元,用于根据所述夹角余弦值的大小,得出所述第一文本与所述第二文本之间的相似度。
本发明第四实施例提供了一种提取文本关键词的设备。该实施例的提取文本关键词的设备包括:处理器、显示器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如提取文本关键词的程序。所述处理器执行所述计算机程序时实现上述各个提取文本关键词的方法的实施例中的步骤,例如图1所示的步骤S10。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各单元的功能,例如图3所示的分词模块10。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述提取文本关键词的设备中的执行过程。
所述提取文本关键词的设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述提取文本关键词的设备可包括,但不仅限于,处理器、存储器、显示器。本领域技术人员可以理解,上述部件仅仅是提取文本关键词的设备的示例,并不构成对提取文本关键词的设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述提取文本关键词的设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述提取文本关键词的设备的控制中心,利用各种接口和线路连接整个所述提取文本关键词的设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述提取文本关键词的设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述提取文本关键词的设备集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种提取文本关键词的方法,其特征在于,包括:
对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;
根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;
根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;
根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;
根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。
2.根据权利要求1所述的提取文本关键词的方法,其特征在于,所述对待匹配的至少两个文本分别进行分词,得到相应于每个文本的至少一个分词,具体为:
利用分词工具对待匹配的至少两个文本分别进行分词处理,生成相应于每个文本的分词结果;
构建停用词库对每个所述分词结果进行过滤,得到相应于每个文本的至少一个分词。
3.根据权利要求1所述的提取文本关键词的方法,其特征在于,所述根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值,具体为:
根据所述每个文本的所述每个分词的所述词频分值、所述词性分值和所述位置分值,生成相应于每个文本的词语矩阵;
根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值。
4.根据权利要求3所述的提取文本关键词的方法,其特征在于,所述根据所述词语矩阵,计算所述每个文本中的每个分词的综合权值,具体为:
对于每一个文本:
计算所述词语矩阵中每个分词的每个特征向量的熵权;
根据所述每个分词的每个特征向量的熵权以及与所述每个特征向量对应的分值,计算所述每个分词的综合权值。
5.根据权利要求1所述的提取文本关键词的方法,其特征在于,所述根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重,具体为:
对于每一个文本:
根据所述每个分词的综合权值,计算所述每个分词之间的转移概率;
根据所述每个分词之间的转移概率,计算所述每个分词的权重。
6.根据权利要求1所述的提取文本关键词的方法,其特征在于,所述待匹配的至少两个文本中包括第一文本和第二文本;则在所述根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词之后,还包括:
获取第一文本的关键词和第二文本的关键词,利用正则表达式匹配生成字符串;
根据所述第一文本的每个关键词的权重和所述字符串,生成第一向量矩阵;
根据所述第二文本的每个关键词的权重和所述字符串,生成第二向量矩阵;
根据所述第一向量矩阵和所述第二向量矩阵,计算所述第一文本与所述第二文本之间的相似度。
7.根据权利要求6所述的提取文本关键词的方法,其特征在于,所述根据所述第一向量矩阵和所述第二向量矩阵,计算所述第一文本与所述第二文本之间的相似度,具体为:
对所述第一向量矩阵和所述第二向量矩阵进行计算,得到所述第一向量矩阵和所述第二向量矩阵的夹角余弦值;
根据所述夹角余弦值的大小,得出所述第一文本与所述第二文本之间的相似度。
8.一种提取文本关键词的装置,其特征在于,包括:
分词模块,用于对待匹配的至少两个文本分别进行分词处理,得到相应于每个文本的至少一个分词;
赋值模块,用于根据预设的赋值规则,计算所述每个文本中每个分词的词频分值、词性分值及位置分值;
综合权值计算模块,用于根据所述每个分词的所述词频分值、所述词性分值和所述位置分值,计算所述每个文本中的每个分词的综合权值;
权重计算模块,用于根据所述每个分词的综合权值,计算所述每个文本中的每个分词的权重;
关键词提取模块,用于根据所述每个文本中的每个分词的权重,提取所述每个文本的关键词,使得根据不同文本的关键词和所述关键词的权重计算不同文本之间的相似度。
9.一种提取文本关键词的设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的提取文本关键词的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的提取文本关键词的方法。
CN201810304316.8A 2018-04-04 2018-04-04 提取文本关键词的方法、装置、设备及存储介质 Pending CN108563636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810304316.8A CN108563636A (zh) 2018-04-04 2018-04-04 提取文本关键词的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810304316.8A CN108563636A (zh) 2018-04-04 2018-04-04 提取文本关键词的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN108563636A true CN108563636A (zh) 2018-09-21

Family

ID=63534155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810304316.8A Pending CN108563636A (zh) 2018-04-04 2018-04-04 提取文本关键词的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108563636A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388786A (zh) * 2018-09-30 2019-02-26 武汉斗鱼网络科技有限公司 一种文档相似度计算方法、装置、设备及介质
CN109558481A (zh) * 2018-12-03 2019-04-02 中国科学技术信息研究所 专利与企业相关性测度方法、装置、设备及可读存储介质
CN109815499A (zh) * 2019-01-25 2019-05-28 杭州凡闻科技有限公司 信息关联方法和系统
CN110022313A (zh) * 2019-03-25 2019-07-16 河北师范大学 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法
CN110113410A (zh) * 2019-04-30 2019-08-09 秒针信息技术有限公司 一种信息推送的管理方法、装置、电子设备及存储介质
CN110134767A (zh) * 2019-05-10 2019-08-16 云知声(上海)智能科技有限公司 一种词汇表的筛选方法
CN110189393A (zh) * 2019-06-05 2019-08-30 山东大学 一种形状词云的生成方法和装置
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质
CN110753256A (zh) * 2019-09-18 2020-02-04 深圳壹账通智能科技有限公司 录像回放的方法、装置、存储介质及计算机设备
CN110825863A (zh) * 2019-11-11 2020-02-21 腾讯科技(深圳)有限公司 一种文本对融合方法及装置
CN111031397A (zh) * 2019-12-05 2020-04-17 北京奇艺世纪科技有限公司 收集剪辑片段评论的方法、装置、设备及存储介质
CN111274815A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
WO2020215667A1 (zh) * 2019-04-26 2020-10-29 深圳市赛为智能股份有限公司 文本内容快速去重方法、装置、计算机设备及存储介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112464654A (zh) * 2020-11-27 2021-03-09 科技日报社 关键词生成方法、装置、电子设备和计算机可读介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112686026A (zh) * 2021-03-17 2021-04-20 平安科技(深圳)有限公司 基于信息熵的关键词提取方法、装置、设备及介质
CN113254634A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于相空间的档案分类方法及系统
CN113793199A (zh) * 2021-09-14 2021-12-14 北京捷风数据技术有限公司 一种招中标信息推荐方法、系统及存储介质
CN114328900A (zh) * 2022-03-14 2022-04-12 深圳格隆汇信息科技有限公司 一种基于关键词的资讯摘要提取方法
CN116303909A (zh) * 2023-04-26 2023-06-23 山东齐鲁电子招标采购服务有限公司 一种电子投标文件与条款的匹配方法、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN104731797A (zh) * 2013-12-19 2015-06-24 北京新媒传信科技有限公司 一种提取关键词的方法及装置
CN105260359A (zh) * 2015-10-16 2016-01-20 晶赞广告(上海)有限公司 语义关键词提取方法及装置
CN106610951A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 改进的基于语义分析的文本相似度求解算法
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法
CN107704102A (zh) * 2017-10-09 2018-02-16 北京新美互通科技有限公司 一种文本输入方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN104731797A (zh) * 2013-12-19 2015-06-24 北京新媒传信科技有限公司 一种提取关键词的方法及装置
CN105260359A (zh) * 2015-10-16 2016-01-20 晶赞广告(上海)有限公司 语义关键词提取方法及装置
CN106610951A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 改进的基于语义分析的文本相似度求解算法
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法
CN107704102A (zh) * 2017-10-09 2018-02-16 北京新美互通科技有限公司 一种文本输入方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张永礼 等: "《神经网络优化算法在技术经济领域中的应用》", 30 November 2015, 冶金工业出版社 *
李航 等: ""融合多特征的TextRank关键词抽取方法"", 《情报杂志》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388786B (zh) * 2018-09-30 2024-01-23 广州财盟科技有限公司 一种文档相似度计算方法、装置、设备及介质
CN109388786A (zh) * 2018-09-30 2019-02-26 武汉斗鱼网络科技有限公司 一种文档相似度计算方法、装置、设备及介质
CN109558481A (zh) * 2018-12-03 2019-04-02 中国科学技术信息研究所 专利与企业相关性测度方法、装置、设备及可读存储介质
CN109815499A (zh) * 2019-01-25 2019-05-28 杭州凡闻科技有限公司 信息关联方法和系统
CN109815499B (zh) * 2019-01-25 2023-05-23 杭州凡闻科技有限公司 信息关联方法和系统
CN110022313A (zh) * 2019-03-25 2019-07-16 河北师范大学 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法
CN110022313B (zh) * 2019-03-25 2021-09-17 河北师范大学 基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法
WO2020215667A1 (zh) * 2019-04-26 2020-10-29 深圳市赛为智能股份有限公司 文本内容快速去重方法、装置、计算机设备及存储介质
CN110113410A (zh) * 2019-04-30 2019-08-09 秒针信息技术有限公司 一种信息推送的管理方法、装置、电子设备及存储介质
CN110113410B (zh) * 2019-04-30 2021-12-07 秒针信息技术有限公司 一种信息推送的管理方法、装置、电子设备及存储介质
CN110134767A (zh) * 2019-05-10 2019-08-16 云知声(上海)智能科技有限公司 一种词汇表的筛选方法
CN110134767B (zh) * 2019-05-10 2021-07-23 云知声(上海)智能科技有限公司 一种词汇表的筛选方法
CN110189393A (zh) * 2019-06-05 2019-08-30 山东大学 一种形状词云的生成方法和装置
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质
CN110753256B (zh) * 2019-09-18 2022-09-16 深圳壹账通智能科技有限公司 录像回放的方法、装置、存储介质及计算机设备
CN110753256A (zh) * 2019-09-18 2020-02-04 深圳壹账通智能科技有限公司 录像回放的方法、装置、存储介质及计算机设备
CN110825863A (zh) * 2019-11-11 2020-02-21 腾讯科技(深圳)有限公司 一种文本对融合方法及装置
CN111031397A (zh) * 2019-12-05 2020-04-17 北京奇艺世纪科技有限公司 收集剪辑片段评论的方法、装置、设备及存储介质
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN111274815A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
US11775761B2 (en) 2020-01-15 2023-10-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining entity focus in text
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112464654A (zh) * 2020-11-27 2021-03-09 科技日报社 关键词生成方法、装置、电子设备和计算机可读介质
CN112507866B (zh) * 2020-12-03 2021-07-13 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN113254634A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于相空间的档案分类方法及系统
CN112686026A (zh) * 2021-03-17 2021-04-20 平安科技(深圳)有限公司 基于信息熵的关键词提取方法、装置、设备及介质
CN112686026B (zh) * 2021-03-17 2021-06-18 平安科技(深圳)有限公司 基于信息熵的关键词提取方法、装置、设备及介质
CN113793199A (zh) * 2021-09-14 2021-12-14 北京捷风数据技术有限公司 一种招中标信息推荐方法、系统及存储介质
CN114328900A (zh) * 2022-03-14 2022-04-12 深圳格隆汇信息科技有限公司 一种基于关键词的资讯摘要提取方法
CN116303909A (zh) * 2023-04-26 2023-06-23 山东齐鲁电子招标采购服务有限公司 一种电子投标文件与条款的匹配方法、设备及介质
CN116303909B (zh) * 2023-04-26 2023-08-22 山东齐鲁电子招标采购服务有限公司 一种电子投标文件与条款的匹配方法、设备及介质

Similar Documents

Publication Publication Date Title
CN108563636A (zh) 提取文本关键词的方法、装置、设备及存储介质
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
CN107273861A (zh) 一种主观题阅卷评分方法、装置及终端设备
CN104462066B (zh) 语义角色标注方法及装置
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108073673A (zh) 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
US10528662B2 (en) Automated discovery using textual analysis
CN106227756A (zh) 一种基于情感分类的股票指数预测方法及系统
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN109145282A (zh) 断句模型训练方法、断句方法、装置及计算机设备
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
CN108228554A (zh) 基于语义表示模型来生成词向量的方法、装置和电子设备
CN109684476A (zh) 一种文本分类方法、文本分类装置及终端设备
CN106484919A (zh) 一种基于网页独立词的行业网站分类方法和系统
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN111414746A (zh) 一种匹配语句确定方法、装置、设备及存储介质
Wang et al. NUDT@ CLSciSumm-18.
CN110347833B (zh) 一种多轮对话的分类方法
Fan et al. Phonetics and ambiguity comprehension gated attention network for humor recognition
CN111062209A (zh) 自然语言处理模型训练方法和自然语言处理模型
CN112579794B (zh) 一种为中英文单词对预测义原树的方法及系统
CN107092679B (zh) 一种特征词向量获得方法、文本分类方法及装置
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921

RJ01 Rejection of invention patent application after publication