CN103744951A - 一种对文本中关键词重要性的排序方法 - Google Patents

一种对文本中关键词重要性的排序方法 Download PDF

Info

Publication number
CN103744951A
CN103744951A CN201410000706.8A CN201410000706A CN103744951A CN 103744951 A CN103744951 A CN 103744951A CN 201410000706 A CN201410000706 A CN 201410000706A CN 103744951 A CN103744951 A CN 103744951A
Authority
CN
China
Prior art keywords
keyword
vector
text
keywords
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410000706.8A
Other languages
English (en)
Other versions
CN103744951B (zh
Inventor
陈雪
汤文清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201410000706.8A priority Critical patent/CN103744951B/zh
Priority claimed from CN201410000706.8A external-priority patent/CN103744951B/zh
Publication of CN103744951A publication Critical patent/CN103744951A/zh
Application granted granted Critical
Publication of CN103744951B publication Critical patent/CN103744951B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Abstract

本发明公开了一种对文本中关键词重要性的排序方法,该方法首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行处整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。该方法使用多种信息判断文本中关键词的重要性,提高判断在文本中关键词重要性的准确度和可信度。

Description

一种对文本中关键词重要性的排序方法
技术领域
本发明涉及一种对文本中的关键词的重要性的排序方法,该方法是综合利用关键词的词频、词项之间的共现关系和词共现的分布情况,计算文本中关键词的重要性,实现文本中关键词的重要性顺序。
背景技术
在文本处理领域中,提取文本中重要的关键词,然后用来代表该文本,再继续完成相应的任务。要想提取文本中重要的关键词,实质上是需要对关键词的重要性进行排序。在不引入外界知识的情况,依赖于关键词的词频、词项的共现关系判断关键词重要性方法,有二种:一种是,仅利用关键词的词频信息,判断关键词的重要性。具体是,主要是统计文本中关键词的词频,生成对应的词频向量,然后根据词频向量中值的大小对关键词进行排序,从而得到关键词的重要性顺序。另一种利用关键词的词项之间的共现关系,也是判断关键词重要性的一个重要依据。但是,前面所述的方法仅利用关键词的词频和词项之间的共现关系中的一种信息,依据一种信息对文本中的关键词重要性进行判断。显然,该方法会使关键词重要性的判断依据不全面,判断结果的可信度较差。
发明内容
本发明的目的在于针对目前在文本处理领域中对关键词重要性的判断存在的不足,提供一种对文本中关键词重要性的排序方法,该方法综合利用词频、词项之间的共现关系和词项的共现分布,计算文本中关键词的重要性,并根据关键词的重要性,对其进行排序,从而提高判断在文本中关键词重要性的准确度和可信度。
为了实现上述目的,本发明的构思是:首先对一篇文本进行分词操作,然后去除停用词,得到该文本的关键词集合;然后统计关键词的词频,得到关键词对应词频向量;将具有断句功能的标点符号设为共现窗口的分界端点,统计词项之间的共现信息,得到关键词的共现矩阵,并从关键词的共现矩阵,得到关键词的共现的分布情况的向量;对关键词的共现矩阵进行处理,得到由关键词共现关系判断出的关键词重要性向量;然后将由关键词共现关系判断出的关键词重要性向量、从关键词的共现矩阵得到关键词的共现的分布情况的向量和关键词的词频向量进行整合,得到关键词在文本中综合的重要性;最后根据计算所得的关键词的重要性大小,对关键词进行排序。
根据上面的发明构思,本发明采用下述的技术方案:
一种对文本中关键词重要性的排序方法,其具体步骤如下:
(1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A;
(2)、统计关键词集合A中关键词的词频,将统计的关键词的词频生成关键词的词频向量,记为B;
(3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词与其他关键词共现的向量,将上述关键词的共现向量组成一个关键词的共现矩阵,记为C;
(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同,关键词权重的初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为:                                                
Figure 257183DEST_PATH_IMAGE001
, 其中,n为关键词的个数;
(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F; 
 (6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘,得到由关键词权重向量F和关键词的词频向量B生成的关键词权重向量,记为G;
(7)、利用TF-IDF计算公式中的IDF,对由关键词的共现矩阵因素和关键词的词频因素生成关键词权重向量G上的各个元素分别乘以
Figure 174324DEST_PATH_IMAGE002
,则得到最终的关键词权重向量,记为H,向量H中元素的表达式为:
Figure 891744DEST_PATH_IMAGE003
其中,hi为最终的关键词权重向量H的第i个元素;gi为由关键词的共现矩阵因素和关键词的词频因素获得的关键词权重向量G的第i个元素;
Figure 286953DEST_PATH_IMAGE004
 为关键词的个数, 为关键词的共现矩阵C中第i行不为零的元素个数;
(8)、根据关键词的最终权重向量H中各元素的值,从大到小排序,每个元素的值的顺序是其值对应的关键词,在该文本中的重要性的顺序。
上述步骤(5)中对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F,其具体的步骤如下:
(5-1)将关键词的共现矩阵C与关键词权重的初始向量D相乘,得到关键词的词项中间过渡向量,记为E;
(5-2)对关键词的词项中间过渡向量E进行归一化处理,并将归一化后的得到的结果向量,记为向量E’; 
(5-3)、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T,若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T,则将结果向量E’中每个元素的值赋给关键词权重向量F,然后跳转到步骤(6);否则,将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素,然后跳转到步骤(5-1)。
本发明的一种对文本中关键词重要性的排序方法与传统技术相比较,具有如下的优点:
本发明利用TF-IDF公式中词项在文本集合单篇文本中引入关键词共现关系的分布信息,并将其与关键词的词频和关键词之间的共现关系,三者进行融合起来,来判断文本中的关键词重要性,再对文本中关键词的重要性进行排序,能够提高判断在文本中关键词重要性的准确度和可信度。
附图说明
图1是本发明的一种对文本中关键词重要性的排序方法的流程图。
具体实施方式
以下结合附图对本发明的实施实例做出详述的说明。本发明的一种对文本中关键词重要性的排序方法,如图1所示,其具体步骤如下:
(1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A,例如,关键词集合A={数据挖掘,分类,算法,决策树};
(2)、统计关键词集合A中关键词的词频将统计的关键词的词频生成关键词的的词频向量,记为B,例如, 关键词的的词频向量B = [9,6,11,11];
(3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词语其他关键词共现向量,将上述关键词的共现向量组成一个关键词的共现矩阵,记为C;例如,
按照关键词的词频向量B中的词项顺序,以标点符号中的断号,比如,句号等为分界号,统计关键词之间的共现关系,得到关键词的共现矩阵,其表达式为: 
 C=
若两个分界号之间只有一个关键词,则认为一个关键词本身与本身共现关系;
(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同, 关键词权重的共现初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为:
Figure 128504DEST_PATH_IMAGE001
, 其中,n为关键词的个数,例如,关键词的个数n=4,则关键词权重的初始向量
Figure 327404DEST_PATH_IMAGE007
; 
(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F,其具体的步骤如下:
(5-1)将关键词的共现矩阵C与关键词权重的初始向量D相乘,得到的结果向量,记为关键词的词项中间过渡向量,记为E,例如,
Figure 933966DEST_PATH_IMAGE008
(5-2)对关键词的词项中间过渡向量E进行归一化处理,并将归一化后的得到的结果向量,记为E’,例如
Figure 927330DEST_PATH_IMAGE009
(5-3)、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T,若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T,即可将结果向量E’中每个元素的值赋给关键词权重向量F,然后跳转到步骤(6);否则,将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素,然后跳转到步骤(5-1),例如,将阈值T设置为千分之一,经比较可知,结果向量
Figure 681660DEST_PATH_IMAGE009
与关键词权重的初始向量
Figure 356354DEST_PATH_IMAGE007
之间的有元素的差值大于阈值,则需要再重复步骤(5-1)至步骤(5-3),直到满足差值小于阈值为于千分之一条件,则结果向量
Figure 879740DEST_PATH_IMAGE010
;然后将结果向量E’的值赋给关键词权重向量F,则关键词权重向量
Figure 309584DEST_PATH_IMAGE011
(6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘,由关键词权重向量F和关键词的词频向量B生成关键词权重向量,记为G,例如,
Figure 488893DEST_PATH_IMAGE012
(7)、利用TF-IDF计算公式中的IDF,对由关键词的共现矩阵因素和关键词的词频因素生成关键词权重向量G上的各个元素分别乘以
Figure 764016DEST_PATH_IMAGE002
,则得到最终的关键词权重向量,记为H,其向量表达式为:
Figure 407487DEST_PATH_IMAGE003
其中, hi为最终的关键词权重向量H的第i个元素;gi为由关键词的共现矩阵因素和关键词的词频因素获得的关键词权重向量G的第i个元素;,
Figure 680337DEST_PATH_IMAGE004
 为关键词的个数,
Figure 409258DEST_PATH_IMAGE005
 为关键词的共现矩阵C中第i行不为零的元素个数,例如,最终的关键词权重向量H,其表达式为:
Figure 488073DEST_PATH_IMAGE014
    
(8)、根据关键词的最终权重向量H中各元素的值,从大到小排序,每个元素的值的顺序就是其值对应的关键词,即关键词重要性向量H中各个元素的值的大小顺序是在该文本中的重要性顺序,例如,关键词重要性向量H中各个元素的值的大小顺序是:2.9825>2.2875>1.5907>0.6355,所以,对应的关键词顺序为:决策树、算法、数据挖掘、分类。 

Claims (2)

1.一种对文本中关键词重要性的排序方法,其特征在于,其具体步骤如下:
(1)、对文本进行分词操作,并且去除文本中的停用词,保留文本中具有断句功能的标点符号,将文本中的关键词组合成关键词集合,记为A;
(2)、统计关键词集合A中关键词的词频,将统计的关键词的词频生成关键词的词频向量,记为B;
(3)、按关键词的词频向量B中的词项的顺序,统计文本中关键词之间的共现关系,得到关键词集合A中每个关键词与其他关键词共现的向量,将上述关键词的共现向量组成一个关键词的共现矩阵,记为C;
(4)、设置由关键词的共现矩阵因素得到的关键词权重的初始向量,记为D,关键词权重的初始向量D中的维度与关键词的共现矩阵C中的列数相同,关键词权重的初始向量D中每个元素的值置为关键词的共现矩阵C中的列数的倒数,记为:                                               
Figure 2014100007068100001DEST_PATH_IMAGE002
, 其中,n为关键词的个数;
(5)、对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F;  
(6)、将关键词权重向量F中的所有元素与关键词的词频向量B中的所有对应元素进行相乘,得到由关键词权重向量F和关键词的词频向量B生成的关键词权重向量,记为G;
(7)、利用TF-IDF计算公式中的IDF,对由关键词的共现矩阵因素和关键词的词频因素生成关键词权重向量G上的各个元素分别乘以
Figure 2014100007068100001DEST_PATH_IMAGE004
,则得到最终的关键词权重向量,记为H,向量H中元素的表达式为:
Figure 2014100007068100001DEST_PATH_IMAGE006
其中,hi为最终的关键词权重向量H的第i个元素;gi为由关键词的共现矩阵因素和关键词的词频因素获得的关键词权重向量G的第i个元素;
Figure 2014100007068100001DEST_PATH_IMAGE008
 为关键词的个数, 为关键词的共现矩阵C中第i行不为零的元素个数;
(8)、根据关键词的最终权重向量H中各元素的值,从大到小排序,每个元素的值的顺序是其值对应的关键词,在该文本中的重要性的顺序。
2.根据权利要求1所述的一种对文本中关键词重要性的排序方法,其特征在于,上述步骤(5)所述的对关键词的共现矩阵C与关键词权重的初始向量D进行处理,得到由关键词的共现矩阵因素获得的关键词权重向量,记为F,其具体的步骤如下:
(5-1)将关键词的共现矩阵C与关键词权重的初始向量D相乘,得到关键词的词项中间过渡向量,记为E;
(5-2)对关键词的词项中间过渡向量E进行归一化处理,并将归一化后的得到的结果向量,记为向量E’;
(5-3)、设定结果向量E’和关键词权重的初始向量D之间差值的阈值T,若结果向量E’与关键词权重的初始向量D之间的每个元素的差值都不大于阈值T,则将结果向量E’中每个元素的值赋给关键词权重向量F,然后跳转到步骤(6);否则,将结果向量E’中每个元素的值赋给关键词权重的初始向量D中对应的元素,然后跳转到步骤(5-1)。
CN201410000706.8A 2014-01-02 一种对文本中关键词重要性的排序方法 Expired - Fee Related CN103744951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410000706.8A CN103744951B (zh) 2014-01-02 一种对文本中关键词重要性的排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410000706.8A CN103744951B (zh) 2014-01-02 一种对文本中关键词重要性的排序方法

Publications (2)

Publication Number Publication Date
CN103744951A true CN103744951A (zh) 2014-04-23
CN103744951B CN103744951B (zh) 2016-11-30

Family

ID=

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615767A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 搜索排序模型的训练方法、搜索处理方法及装置
CN105468657A (zh) * 2014-09-26 2016-04-06 北大方正集团有限公司 一种获取领域重要知识点的方法和系统
CN106846064A (zh) * 2017-02-04 2017-06-13 苏州阳澄湖数字文化创意园投资有限公司 基于共现关系的软件潜力排序方法
CN106844301A (zh) * 2017-02-22 2017-06-13 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法
CN107562714A (zh) * 2016-06-30 2018-01-09 北京智能管家科技有限公司 一种语句相似度计算方法及装置
CN107909388A (zh) * 2017-10-30 2018-04-13 北京奇艺世纪科技有限公司 一种基于广告主买词行为的关键词关联扩展方法和装置
CN110022242A (zh) * 2018-12-13 2019-07-16 北京神州绿盟信息安全科技股份有限公司 一种关键字确定方法及装置
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110059319A (zh) * 2019-04-22 2019-07-26 上海化学工业区公共管廊有限公司 一种基于关键词共现的管廊故障分析方法
CN110321415A (zh) * 2019-05-10 2019-10-11 福建微码信息科技有限公司 一种电话套接式电话机器人系统
CN110751867A (zh) * 2019-11-27 2020-02-04 上海乂学教育科技有限公司 英文教学系统
CN112307155A (zh) * 2019-07-23 2021-02-02 慧科讯业有限公司 针对互联网中文文本的关键词提取方法和提取系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468657A (zh) * 2014-09-26 2016-04-06 北大方正集团有限公司 一种获取领域重要知识点的方法和系统
CN105468657B (zh) * 2014-09-26 2019-06-04 北大方正集团有限公司 一种获取领域重要知识点的方法和系统
CN104615767B (zh) * 2015-02-15 2017-12-29 百度在线网络技术(北京)有限公司 搜索排序模型的训练方法、搜索处理方法及装置
CN104615767A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 搜索排序模型的训练方法、搜索处理方法及装置
CN107562714A (zh) * 2016-06-30 2018-01-09 北京智能管家科技有限公司 一种语句相似度计算方法及装置
CN107562714B (zh) * 2016-06-30 2021-02-09 北京儒博科技有限公司 一种语句相似度计算方法及装置
CN106846064A (zh) * 2017-02-04 2017-06-13 苏州阳澄湖数字文化创意园投资有限公司 基于共现关系的软件潜力排序方法
CN106846064B (zh) * 2017-02-04 2021-04-06 苏州大数聚信息技术有限公司 基于共现关系的软件潜力排序方法
CN106844301B (zh) * 2017-02-22 2020-04-17 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法
CN106844301A (zh) * 2017-02-22 2017-06-13 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法
CN107909388A (zh) * 2017-10-30 2018-04-13 北京奇艺世纪科技有限公司 一种基于广告主买词行为的关键词关联扩展方法和装置
CN110022242A (zh) * 2018-12-13 2019-07-16 北京神州绿盟信息安全科技股份有限公司 一种关键字确定方法及装置
CN110022242B (zh) * 2018-12-13 2020-12-25 北京神州绿盟信息安全科技股份有限公司 一种关键字确定方法及装置
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110059319A (zh) * 2019-04-22 2019-07-26 上海化学工业区公共管廊有限公司 一种基于关键词共现的管廊故障分析方法
CN110059319B (zh) * 2019-04-22 2022-11-18 上海化学工业区公共管廊有限公司 一种基于关键词共现的管廊故障分析方法
CN110321415A (zh) * 2019-05-10 2019-10-11 福建微码信息科技有限公司 一种电话套接式电话机器人系统
CN112307155A (zh) * 2019-07-23 2021-02-02 慧科讯业有限公司 针对互联网中文文本的关键词提取方法和提取系统
CN110751867A (zh) * 2019-11-27 2020-02-04 上海乂学教育科技有限公司 英文教学系统

Similar Documents

Publication Publication Date Title
CN103617157A (zh) 基于语义的文本相似度计算方法
CN102799647B (zh) 网页去重方法和设备
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN103885937B (zh) 基于核心词相似度判断企业中文名称重复的方法
CN104881458B (zh) 一种网页主题的标注方法和装置
US20160063395A1 (en) Method and apparatus for labeling training samples
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN105786799A (zh) 网络文章原创性判定方法
CN106685964B (zh) 基于恶意网络流量词库的恶意软件检测方法及系统
CN105224648A (zh) 一种实体链接方法与系统
CN103425639A (zh) 一种基于信息指纹的相似信息识别方法
CN108170650B (zh) 文本比较方法以及文本比较装置
CN104866572A (zh) 一种网络短文本聚类方法
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN104679818A (zh) 一种视频关键帧提取方法及系统
CN103092828A (zh) 基于语义分析和语义关系网络的文本相似度度量方法
CN109165382A (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN105574156B (zh) 文本聚类方法、装置及计算设备
CN104281674A (zh) 一种基于集聚系数的自适应聚类方法及系统
CN103970733A (zh) 一种基于图结构的中文新词识别方法
CN101887415B (zh) 一种文本文档主题词义的自动提取方法
CN104978320A (zh) 一种基于相似度的知识推荐方法和设备
CN104281694A (zh) 一种文本情感倾向分析系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161130

Termination date: 20200102