CN101504667A - 关键词的确定方法及系统、权值向量的学习方法及系统 - Google Patents

关键词的确定方法及系统、权值向量的学习方法及系统 Download PDF

Info

Publication number
CN101504667A
CN101504667A CNA2009100806110A CN200910080611A CN101504667A CN 101504667 A CN101504667 A CN 101504667A CN A2009100806110 A CNA2009100806110 A CN A2009100806110A CN 200910080611 A CN200910080611 A CN 200910080611A CN 101504667 A CN101504667 A CN 101504667A
Authority
CN
China
Prior art keywords
text
module
keyword
weight vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009100806110A
Other languages
English (en)
Inventor
刘文硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Original Assignee
BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd filed Critical BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Priority to CNA2009100806110A priority Critical patent/CN101504667A/zh
Publication of CN101504667A publication Critical patent/CN101504667A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关键词的确定方法及系统,以及权值向量的学习方法及系统,可以应用于大规模数据应用的关键词提取。该关键词确定方法,首先根据一目标领域及一通用领域对一权值向量进行学习,该目标领域内的一文字资料设置特征向量,并根据所学习的该目标领域权值向量,确定该文字资料的关键词。本发明的技术方案,在不损失性能的前提下,提高了处理效率,满足像互联网等海量文本分析的应用。

Description

关键词的确定方法及系统、权值向量的学习方法及系统
技术领域
本发明涉及自然语言处理领域,尤其涉及一种关键词的确定方法及系统和一种权值向量的学习方法及系统。
背景技术
关键词用于表达文本资料的主题内容,可以辅助信息的分类和检索。关键词提取是自然语言处理领域内的传统话题,已经被广泛研究。在应用中,关键词是从文本资料的标题、摘要或全文中抽选出来的,具有实际意义的自然语言词汇,作为信息存贮和检索依据的一种检索语言。例如,各大搜索引擎和网络数据库除了提供分类检索外,几乎都提供关键词检索法。
现有技术主要集中使用一些经典的机器学习思想,例如贝叶斯分类器,支持向量机(SVM),决策树等等。这些方法虽然有效,但是由于算法的复杂度较高,导致其时间效率并不突出,在一些针对大规模数据的应用中,可行性并不高。
因此有必要提供针对大规模数据应用的关键词提取技术,以解决当前使用经典的机器学习思想提取关键词时针对大规模应用可行性不高的问题。
发明内容
本发明所要解决的技术问题是在于需要提供一种关键词的确定方法及系统,以及权值向量的学习方法及系统,可以应用于大规模数据应用的关键词提取。
为了解决上述技术问题,本发明提供了一种关键词的确定方法,该方法包括:
确定一目标领域;
通过整理所述目标领域中的若干文本资料,获得一目标语料库,所述目标语料库为所述目标领域内的候选关键词的集合;
通过整理多个领域中的若干文本资料,获得一通用语料库;
结合所述通用语料库,为所述目标语料库中每个候选关键词设置并计算特征向量;
设置一与所述特征向量同维的权值向量;
利用所述目标语料库及特征向量,对所述权值向量进行学习;
对所述目标领域中一欲要确定关键词的目标文本进行停用词过滤,获得的实意词为所述目标文本的候选关键词;及
获得所述目标文本各候选关键词的特征向量,结合学习后的权值向量,确定所述目标文本的关键词。
如上所述的方法中,获得所述目标语料库的步骤,可以包括:
人工标注所述若干文本资料的关键词,并对所述若干文本资料进行停用词过滤;人工标注的关键词及停用词过滤后的实意词,合为所述目标语料库。
进一步地,对所述权值向量进行学习的步骤,可以包括:
把所述目标语料库中人工标注的关键词作为正样例,其余候选关键词作为负样例,对于所述特征向量中的每个特征,通过该特征区分所述正样例与负样例的区分度来调整权值,完成对所述权值向量的学习。
如上所述的方法中,确定所述目标文本的关键词的步骤,可以包括:
将所述目标文本各候选关键词的特征向量与学习后的权值向量进行内积,得到各候选关键词的内积结果;
将内积结果作为对应候选关键词的得分,根据所述得分对所述个候选关键词进行排序;及
根据所述排序确定所述目标文本的关键词。
如上所述的方法中,所述特征向量中的特征,可以包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
为了解决上述技术问题,本发明还提供了一种关键词的确定系统,该系统包括:
领域确定模块,用于确定一目标领域;
语料设置模块,与所述领域确定模块相连,用于获取该目标领域中的若干文本资料,以及多个领域中的若干文本资料;还用于将该目标领域中的若干文本资料及该多个领域中的若干文本资料分别整理成一目标语料库及一通用语料库;其中所述目标语料库为所述目标领域的候选关键词的集合;
特征向量设置及计算模块,与所述语料设置模块相连,用于结合所述通用语料库,为所述目标语料库中的各候选关键词设置并计算特征向量;
权值向量设置模块,与所述特征向量设置及计算模块相连,用于设置一与所述特征向量同维的权值向量;
权值向量学习模块,与所述语料设置模块、特征向量设置及计算模块及权值向量设置模块相连,用于利用所述目标语料库及特征向量,对所述权值向量进行学习;
预处理模块,与所述特征向量设置及计算模块相连,用于接收所述目标领域中一欲要确定关键词的目标文本,对所述目标文本进行停用词过滤,获得的实意词为所述目标文本的候选关键词,获得所述目标文本各候选关键词的特征向量;及
关键词确定模块,与所述预处理模块及权值向量学习模块相连,用于利用所述目标文本各候选关键词的特征向量及学习后的权值向量,确定所述目标文本的关键词。
如上所述的系统中,所述语料设置模块,可以包括:
获取单元,与所述领域确定模块相连,用于获取所述目标领域中的若干文本资料,以及所述多个领域中的若干文本资料;
记录单元,与所述获取单元及权值向量学习模块相连,用于记录人工对所述目标领域中的若干文本资料所标注的关键词;
整理单元,与所述获取单元相连,用于对所述目标领域中的若干文本资料及所述多个领域中的若干文本资料进行停用词过滤,分别获得所述目标领域中的文本资料的实意词及所述多个领域中的若干文本资料的实意词;及
合成单元,与所述记录单元、整理单元、特征向量设置及计算模块及权值向量学习模块相连,用于将人工标注的关键词以及所述目标领域中的文本资料的实意词,合为所述目标语料库;还用于将所述多个领域中的文本资料的实意词,合为所述通用语料库。
进一步地,所述权值向量学习模块,可以包括:
样例选择单元,与所述记录单元及合成单元相连,用于将人工标注的关键词作为正样例,其余的候选关键词作为负样例;
比较单元,与所述样例选择单元及特征向量设置及计算模块相连,用于比较该些正样例及负样例在该特征向量中每个特征上的平均值,通过该些平均值获得所述特征向量中每个特征区分正样例与负样例的区分度;及
调整单元,与所述比较单元、权值向量设置模块及关键词确定模块相连,用于通过所述区分度来调整所述权值向量中的权值,完成对所述权值向量的学习。
如上所述的系统中,所述关键词确定模块,可以包括:
内积单元,与所述权值向量学习模块及预处理模块相连,用于将所述目标文本各候选关键词的特征向量与学习后的权值向量进行内积,一候选关键词获得一内积结果;
排序单元,与所述内积单元相连,用于将内积结果作为对应的候选关键词的得分,根据所述得分对所述个候选关键词进行排序;及
确定单元,与所述排序单元相连,用于根据所述排序确定所述目标文本的关键词。
如上所述的系统中,所述特征向量设置及计算模块,所设置的特征向量中的特征可以包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
为了解决上述技术问题,本发明还提供了一种权值向量的学习方法,应用于确定文本资料的关键词,包括:
确定一目标领域;
通过整理所述目标领域中的若干文本资料,获得一目标语料库,所述目标语料库为所述目标领域的候选关键词的集合;
通过整理多个领域中的若干文本资料,获得一通用语料库;
结合所述通用语料库,为所述目标语料库中每个候选关键词设置并计算特征向量;
设置一与所述特征向量同维的权值向量;
利用所述目标语料库及特征向量,对所述权值向量进行学习。
如上所述的方法中,获得所述目标语料库的步骤,可以包括:
对所述若干文本资料进行人工标注关键词,并对所述若干文本资料进行停用词过滤;人工标注的关键词及停用词过滤后的实意词,合为所述目标语料库。
进一步地,对所述权值向量进行学习的步骤,可以包括:
把所述目标语料库中人工标注的关键词作为正样例,其余候选关键词作为负样例,对于所述特征向量中的每个特征,通过该特征区分所述正样例与负样例的区分度来调整权值,完成对所述权值向量的学习。
如上所述的方法中,所述特征向量中的特征,可以包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
为了解决上述技术问题,本发明还提供了一种权值向量的学习系统,应用于确定文本资料的关键词,该系统包括:
领域确定模块,用于确定一目标领域;
语料设置模块,与所述领域确定模块相连,用于获取该目标领域中的若干文本资料,以及多个领域中的若干文本资料;还用于将该目标领域中的若干文本资料及该多个领域中的若干文本资料分别整理成一目标语料库及一通用语料库;其中所述目标语料库为所述文本的候选关键词的集合;
特征向量设置及计算模块,与所述语料设置模块相连,用于结合所述通用语料库,为所述目标语料库中的各候选关键词设置并计算特征向量;
权值向量设置模块,与所述特征向量设置及计算模块相连,用于设置一与所述特征向量同维的权值向量;及
权值向量学习模块,与所述语料设置模块、特征向量设置及计算模块及权值向量设置模块相连,用于利用所述目标语料库及特征向量,对所述权值向量进行学习。
如上所述的系统中,所述语料设置模块,可以包括:
获取单元,与所述领域确定模块相连,用于获取所述目标领域中的若干文本资料,以及所述多个领域中的若干文本资料;
记录单元,与所述获取单元及权值向量学习模块相连,用于记录人工对所述目标领域中的若干文本资料所标注的关键词;
整理单元,与所述获取单元相连,用于对所述目标领域中的若干文本资料及所述多个领域中的若干文本资料进行停用词过滤,分别获得所述目标领域中的文本资料的实意词及所述多个领域中的若干文本资料的实意词;及
合成单元,与所述记录单元、整理单元、特征向量设置及计算模块及权值向量学习模块相连,用于将人工标注的关键词以及所述目标领域中的文本资料的实意词,合为所述目标语料库;还用于将所述多个领域中的文本资料的实意词,合为所述通用语料库。
进一步地,所述权值向量学习模块,可以包括:
样例选择单元,与所述记录单元及合成单元相连,用于将人工标注的关键词作为正样例,其余的候选关键词作为负样例;
比较单元,与所述样例选择单元及特征向量设置及计算模块相连,用于比较该些正样例及负样例在该特征向量中每个特征上的平均值,通过该些平均值获得所述特征向量中每个特征区分正样例与负样例的区分度;及
调整单元,与所述比较单元、权值向量设置模块及关键词确定模块相连,用于通过所述区分度来调整所述权值向量中的权值,完成对所述权值向量的学习。
如上所述的系统中,所述特征向量设置及计算模块,所设置的特征向量中的特征可以包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
与现有技术相比,本发明的技术方案,在不损失性能的前提下,提高了处理效率。本发明所提供的技术方案,利用线性加权求和方式(即对所有特征值与其特征的权重的积求和)给关键词打分的方法,可以高效地提取关键词,满足像互联网等海量文本分析的应用。
附图说明
图1是本发明中关键词确定方法实施例的流程示意图。
图2是本发明中关键词确定装置实施例的组成示意图。
图3是图2所示实施例中的语料设置模块的组成示意图。
图4是图2所示实施例中的权值向量学习模块的组成示意图。
图5是图2所示实施例中的关键词确定模块的组成示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
图1示出了本发明中关键词的确定方法一实施例的流程示意图。如图1所示,该实施例主要包括如下步骤:
步骤S105,首先确定一欲要为该领域中的文本资料确定关键词的目标领域;比如运动领域、教育领域或者信息技术(IT)领域等等;
步骤S110,获取该目标领域中的若干文本资料,通过整理该目标领域中的若干文本资料,获得一目标语料库,该目标语料库实际为该目标领域的候选关键词的集合;
其中该目标领域中的若干文本资料,对于运动领域,可以是若干描述体育训练、体育比赛等等的文本;对于教育领域,可以使若干描述教育方法、学校生活等等的文本;对于IT领域,可以使若干描述计算机性能、数码相机使用方法等等的文本;
该目标语料库包含若干语料,这些语料均是根据该目标领域中的文本资料整理而来,一文本资料整理后获得一语料;该整理过程是对目标领域中的文本资料人工标注关键词,并采用通用的停用词表对该文本资料进行停用词过滤,获得该目标领域中该些文本资料的实意词,也即目标语料库中的每个语料,包含若干人工标注的关键词以及经停用词过滤后的实意词;一般而言,人工标注的关键词为停用词过滤后实意词的一部分;
目标语料库中的各语料经停用词过滤后获得的实意词,除开已经人工标注的关键词以外,都有可能是该领域内某文本的关键词,因此,目标语料库实际是该目标领域的候选关键词的集合;
步骤S115,获取各种各样的多个领域中的若干文本资料,通过整理多个领域中的若干文本资料,获得一通用语料库;
其中多个领域比如同时包括运动领域、教育领域、IT领域、经济金融领域等等;该通用语料库也包含若干语料,这些语料均是根据各种各样的多个领域中的文本资料整理而来,一文本资料整理后获得一语料;该整理过程是采用通用的停用词表对该多个领域中的文本资料进行停用词过滤,获得该多个领域中该些文本资料的实意词,也即通用语料库中的每个语料,由若干停用词过滤后剩下的实意词构成;
步骤S120,结合该通用语料库中的语料,为目标语料库中的各候选关键词设置并计算特征向量,在本实施例中,特征向量中的特征分别为词频-逆文档频率(TFIDF)、词性、首次出现的相对位置和卡方(CHI)统计量;
步骤S130,设置一与特征向量同维的权值向量;在本实施例中,特征向量的维数为四维,因此所设置的该权值向量也为四维;
步骤S140,把目标语料库中各语料的人工标注的关键词作为正样例,其余的候选关键词作为负样例,采用该些正样例及负样例,对该权值向量进行学习;该学习的具体过程是,对于特征向量中的每个特征,通过比较正样例与负样例在该特征上的平均值,来衡量该特征能在多大程度上区分正样例与负样例的区分度,根据该区分度来调整权值,完成对权值向量的学习;
步骤S150,对该目标领域内的一欲要确定关键词的目标文本进行停用词过滤,获得该目标文本停用词过滤后剩下的实意词,这些实意词均为该目标文本的候选关键词;
步骤S160,获得该目标文本的该些候选关键词的特征向量,并利用这些特征向量,以及上述学习后的权值向量,确定该目标领域中的该目标文本的关键词;
将该目标文本的每个候选关键词的特征向量与学习后的权值向量进行内积,一个候选关键词得到一个内积结果,将该内积结果作为该候选关键词的得分;然后根据该得分的高低,对每个候选关键词进行排序(本实施例中为从高到底进行排序),得分较高的部分候选关键词为该目标文本的关键词;按照该排序确定关键词,因为得分越高越有可能是真正的关键词。
上述步骤S140中,对权值向量的学习,还包括对人工标注的关键词设置较高的权值,以保证这些人工标注的关键词获得较高的得分,以在排序中获得靠前的位置。
图2示出了本发明中关键词的确定装置一实施例的组成示意图,该装置用以提取文本中的关键词。结合图1所示的方法实施例,如图2所示,该装置实施例主要包括领域确定模块210、语料设置模块220、特征向量设置及计算模块230、权值向量设置模块240、权值向量学习模块250及关键词确定模块270,其中:
领域确定模块210,用于确定一目标领域;比如运动领域、教育领域或者IT领域等等;
语料设置模块220,与该领域确定模块210相连,用于获取该目标领域中的若干文本资料,以及多个领域中的若干文本资料;记录人工对该目标领域中若干文本资料所标注的关键词,并采用通用的停用词表,对该目标领域中的该些若干文本资料,以及多个领域中的若干文本资料,分别进行停用词过滤;将所记录的人工标注的关键词,和对该目标领域中的若干文本资料进行停用词过滤后获得的实意词,合为一目标语料库;将对该多个领域中的若干文本资料进行停用词过滤后获得的实意词,合为一通用语料库;其中多个领域比如同时包括运动领域、教育领域、IT领域、经济金融领域等等;
一般而言,人工标注的关键词为停用词过滤后的实意词的一部分;而且该目标语料库中所包含的内容即为该目标领域的候选关键词;目标语料库中的各语料经停用词过滤后获得的实意词,除开已经人工标注的关键词以外,都有可能是该领域内某文本的关键词,因此,目标语料库实际是该目标领域的候选关键词的集合;
特征向量设置及计算模块230,与该语料设置模块220相连,用于结合该通用语料库中的语料,为目标语料库中的各候选关键词设置并计算特征向量;
权值向量设置模块240,与特征向量设置及计算模块230相连,用于设置一与特征向量同维的权值向量;在本实施例中,特征向量的维数为四维,因此所设置的该权值向量也为四维;
权值向量学习模块250,与该语料设置模块220、特征向量设置及计算模块230及权值向量设置模块240相连,用于把目标语料库中各语料的人工标注的关键词作为正样例,其余的候选关键词作为负样例,采用该些正样例及负样例,对该权值向量进行学习;进行学习的具体过程是,对于特征向量中的每个特征,通过比较正样例与负样例在该特征上的平均值,来衡量该特征能在多大程度上区分正样例与负样例的区分度,根据该区分度来调整权值,完成对权值向量的学习;
预处理模块260,与特征向量设置及计算模块230相连,用于接收目标领域中欲要确定关键词的一目标文本,对目标领域中欲要确定关键词的该目标文本进行停用词过滤,获得的该目标文本的实意词即该目标文本的候选关键词,根据特征向量设置及计算模块230为该目标领域所设置的特征向量,获得该目标文本各候选关键词的特征向量;及
关键词确定模块270,与权值向量学习模块250及预处理模块260相连,用于利用预处理模块260获得的该目标文本各候选关键词的特征向量,和权值向量学习模块250学习后的权值向量,从预处理模块260所获得的候选关键词中,确定该目标文本最终的关键词;
将每个候选关键词的特征向量与学习后的权值向量进行内积,将每个候选关键词的内积结果作为该候选关键词的得分;根据该得分高低,对每个候选关键词进行排序(本实施例中是从高到低进行排序),根据该排序确定关键词,因为得分越高越有可能是真正的关键词。
图3为上述语料设置模块220的组成示意图。如图3所示,该语料设置模块220包括获取单元224、记录单元225、整理单元226及合成单元227,其中:
获取单元224,与该领域确定模块210相连,用于获取领域确定模块210所确定的目标领域中的若干文本资料,以及各种各样的多个领域中的若干文本资料;
记录单元225,与该获取单元224及权值向量学习模块250相连,用于记录人工对该目标领域中若干文本资料所标注的关键词;
整理单元226,与该获取单元224相连,用于采用通用的停用词表,对该目标领域中的该些若干文本资料进行停用词过滤,获得该目标领域中该些文本资料的实意词;还用于采用该通用的停用词表对多个领域中的若干文本资料进行停用词过滤,获得该多个领域中该些若干文本资料的实意词;及
合成单元227,与记录单元225、整理单元226、特征向量设置及计算模块230及权值向量学习模块250相连,用于将记录单元225所记录的人工标注的关键词,以及整理单元226所获得的该目标领域中该些文本资料的实意词,合为该目标语料库;还用于将该多个领域中该些文本资料的实意词,合为该通用语料库。
图4为上述权值向量学习模块250的组成示意图。如图4所示,结合图3所示的语料设置模块220的组成示意图,该权值向量学习模块250包括样例选择单元254、比较单元255及调整单元256,其中:
样例选择单元254,与该记录单元225及合成单元227相连,用于将该目标语料库中各语料的人工标注的关键词作为正样例,其余的候选关键词作为负样例;
比较单元255,与该样例选择单元254及特征向量设置及计算模块230相连,用于比较该些正样例及负样例在该特征向量中每个特征上的平均值,通过该些平均值获得该每个特征区分正样例与负样例的区分度;及
调整单元256,与比较单元255、权值向量设置模块240及关键词确定模块270相连,用于通过该区分度来调整权值向量设置模块240所设置的权值向量中的权值,完成对权值向量的学习;
为了保证人工标注的关键词在最后的排序中能获得靠前的位置,通过调整单元256还可以为人工标注的关键词设置较高的权值,以保证这些人工标注的关键词能获得较高的得分。
图5为上述关键词确定模块270的组成示意图。如图5所示,该关键词确定模块270包括内积单元274、排序单元275及确定单元276,其中:
内积单元274,与权值向量学习模块250及预处理模块260相连,用于将预处理模块260获得的该目标文本各候选关键词的特征向量,与权值向量学习模块250学习后的权值向量进行内积,一个候选关键词得到一个内积结果,最终获得该文目标本各候选关键词的内积结果;
排序单元275,与该内积单元274相连,用于将各内积结果作为各自对应的候选关键词的得分,根据每个候选关键词的得分高低进行排序(比如从高到低进行排序);及
确定单元276,与该排序单元275相连,用于根据该排序确定该目标文本的关键词。
以下详细说明本发明上述方法实施例和系统实施例的具体实现过程。
语料库(包括目标语料库和通用语料库)获得的方法为先从目标领域和多个领域中各找出一定数量的文本资料,对这些文本资料分别进行整理,得到目标语料库和通用语料库。
其中的整理过程,对于目标语料库而言,首先对目标领域中的文本资料进行人工标注关键词的处理,也即通过人工标注出目标领域中文本资料的关键词,一般来说,这些人工标注的关键词,肯定是本领域中大多数文本的关键词;然后对文本资料进行切词以及标注词性处理,最后根据通用的停用词表,过滤掉文本资料中的停用词,得到停用词过滤后所剩下的实意词。一般地,对于一片文本资料而言,人工标注的关键词是实意词中的一部分。对于通用语料库而言,对通用领域中的文本资料进行停用词过滤处理,过滤掉文本资料中的停用词,得到通用领域文本资料的实意词。本实施例中,目标语料库中的语料来自网站,人工标注的关键词由人工标注在网页关键字(metakeyword)标签中。
经过上述整理之后,对于目标领域中的文本资料而言,就变成一个由若干候选关键词组成的集合,将该集合称之为一语料,若干个语料构成目标语料库。对于通用领域中的文本资料而言,变成一个由若干实意词组成的集合,将该集合也即为一语料,若干个这样的语料构成通用语料库。
经过整理后的文本资料,其关键的不是词本身,而是词的特征。词的特征的选取根据应用的不同而有所差别。此处列举4个特征,分别是:词频-逆文档频率(TFIDF)、词性、首次出现的相对位置和卡方(CHI)统计量,这样确定的每个候选关键词,均由一个四维的特征向量表示,各维分别对应这4个特征的取值。
以下分别说明TFIDF、词性、首次出现的相对位置和CHI统计量的获取过程。
(1)TFIDF
TFIDF综合了词频(TF)和逆文档频率(IDF),是用来衡量目标词T对于当前文本资料D的相关性,计算公式如下(P表示事件发生的概率):
TFIDF(T,D)=TF×(-log DF)。
其中:
TF=目标词T出现的次数÷文本资料D的总词数,表示目标词T在文本资料D中的出现频率;
DF=出现目标词T的文本资料数÷当前领域的语料库的总文本资料数,表示语料库中含有目标词T的文本资料比例。
(2)词性
关键词在词性上有一定的分布特征,不同领域之间这个特征是不同的,比如教育类的文本资料中,名词作为关键词比较多,但是体育类的文本资料中,可能动词比较多。这个特征就是用来衡量当前领域关键词的词性特征的,即衡量某种词性的目标词有多少可能在这个领域成为关键词的特征值F(词性),其中的词性可以是名词、动词等等,例如当考虑名词时,计算公式如下:
F(名词)=当前研究领域被人工标注为关键词中名词的数量÷当前研究领域人工标注的关键词总数。
(3)首次出现的相对位置
通常关键词都倾向于在文本资料的开头,甚至是标题中出现,因此可以认为越早出现的词越有可能成为关键词。该特征的取值即是目标词首次出现的位置除以文本资料长度。
(4)CHI统计量
CHI统计量用来衡量一个目标词T与某个领域F的相关程度,定义如下:
CHI ( T , F ) = ( n 11 × n 22 - n 12 × n 21 ) × ( n 11 + n 12 + n 21 + n 22 ) ( n 11 + n 12 ) ( n 21 + n 22 ) ( n 11 + n 21 ) ( n 12 + n 22 )    (式1)
其中,n11指目标词T出现在领域F中的次数,n21指不是目标词T的词出现在领域F中的次数,n22指不是目标词T的词出现在不是领域F的领域中的次数,n12指目标词T出现在不是领域F的领域中的次数。可以看出,CHI(T,F)值越大,目标词T与领域F的相关性就越高。当n11×n22-n12×n21>0,目标词T与领域F正相关,即与通用语料库相比,目标词T与领域F的相关性更高,当n11×n22-n12×n21<0,目标词T与领域F负相关,即与通用语料库相比,目标词T与领域F的相关性较低。
设置一个特征向量同维的权值向量,然后利用目标语料库,该该权值向量进行学习。权值向量在最开始可以设为(0,0,0,0)。
对权值向量进行学习时,把每个语料中人工标注的关键词作为正样例,其余的候选关键词作为负样例。之后,对于每一个特征,通过比较正样例与负样例在该特征上的平均值,来衡量该特征能在多大程度上区分关键词与非关键词的区分度,根据区分度来调整权值。例如对于TFIDF这个特征,其区分度采用如下的数学描述:
βTFIDF=E(positive_TFIDF)-E(negative_TFIDF)   (式2)
其中:
E ( positive _ TFIDF ) = ( 1 MumberOfKeyword &Sigma;TFIDF )     (式3)
E ( negative _ TFIDF ) = ( 1 MumberOfKeyword &Sigma;TFIDF )        (式4)
其中:
E(positive_TFIDF),表示正样例在TFIDF这一特征上的平均值;
E(negative_TFIDF),表示负样例在TFIDF这一特征上的平均值;
∑TFIDF,表示对TFIDF求和;
NumberOfKeyword,表示人工标注的关键词的数量;
NumberOfTerm,表示所有其它候选关键词的数量。
通过对其他三个特征(即词性、首次出现的相对位置和CHI统计量)的计算,得到用于更新权值的向量β,即(βTFIDF,βPoS,βFirstOccurence,βChi),其中βTFIDF表示TFIDF特征所对应的向量,βPoS表示词性特征所对应的向量,βFirstOccurence表示首次出现的相对位置特征所对应的向量,βChi表示CHI统计量特征所对应的向量。设定学习速度常量μ,则权值向量ω在第n篇文本资料后的更新使用下式:
ωn=ωn-1+μβ   (式5)
通过如上学习,得到权值向量ω后,就可以提取目标文本的关键词了,即将目标文本中的候选关键词的特征向量与权值向量内积的结果作为目标文本候选关键词的最后得分,通过对该得分进行排序,获得最后的关键词,得分越高越有可能是关键词,关键词个数根据应用不同而具体设定。
以下通过在某网站抓取一IT领域的文章,作为本发明一实施例来详细说明本发明的技术方案。对于网页而言,文章所有的关键词都标注在metakeyword标签内,可以用来学习。权值向量的初始值设为(0,0,0,0)。
例如,学习中遇到的一篇文章如下:
“易用性是富士A800的核心理念,简洁的按键布局将使用户从繁琐的操作中解放出来,更多的享受拍摄的乐趣。富士A800拥有一个全新设计的模式转盘,用户能够方便快捷的对场景模式进行选择。富士A800设置了14种的场景模式,使用户能够根据实际情况选择最佳的场景模式来进行拍摄。例如,“婴儿”模式将再现婴儿柔嫩的皮肤色调,而“双重防抖”模式则可以同时防止手抖及被拍摄物体移动所造成的模糊。富士A800配置:富士A800采用一块1/1.6英寸的800万像素Super CCD,最大分辨率为3296 x 2472。使用焦距等效于传统35mm相机的36-108mm、最大光圈F2.8-F5.1的3倍光学变焦镜头。ISO为100/200/400/800。快门为4-1/1600秒,并且拥有一个2.5英寸的液晶显示屏,象素为11.5万。使用XD/SD卡作为存储卡,内置了10MB内存可以存储照片。电池系统使用2节5号AA电池。富士A800机身重量约151克,外型尺寸是:97.5 x 61.9 x 31.0mm。”
这篇文本资料的meta keyword标签内的关键词为“A800”和“富士”。在切词、去除停用词、特征提取和特征值计算后,候选关键词的特征向量表示如下:
A800 0.4370 0.1307 0.9767 0.0732
富士0.3380 0.1307 0.9533 0.1644
10.0859 0.0020 0.5097 0.0598
20.0863 0.0020 0.9611 -0.1374
50.0961 0.0020 0.2724 0.1443
800 0.0628 0.0020 0.3307 0.2883
X0.0992 0.1307 0.4553 0.3008
场景模式0.1479 0.2382 0.7743 0.0909
电池0.0567 0.2865 0.1634 0.3746
进行0.0567 0.1368 0.7704 -0.0855
模式0.0896 0.2865 0.8093 -0.3433
能够0.0644 0.1368 0.7938 0.4074
拍摄0.0854 0.2382 0.8482 -0.3223
使用0.0796 0.1368 0.4436 -0.0346
选择0.0681 0.1368 0.7665 0.3843
一个0.0529 0.0020 0.8249 0.2274
英寸0.0512 0.0036 0.4942 -0.2252
婴儿0.1093 0.2865 0.6654 0.0579
拥有0.0537 0.1368 0.8288 -0.1684
用户0.0836 0.2865 0.8988 -0.2368
通过计算,可得:
E(positive_tfidf)=0.3875
E(negative_tfidf)=0.0794
E(positive_pos)=0.1307
E(negative_pos)=0.1311
E(positive_first_occurence)=0.965
E(negative_first_occurence)=0.6153
E(positive_chi)=0.1188
E(negative_chi)=0.0432
取μ=1,则:
β=(0.3081,-0.0004,0.3497,0.0756)
ω1=ω0+μβ=(0,0,0,0)+(0.3081,-0.0004,0.3497,0.0756)
  =(0.3081,-0.0004,0.3497,0.0756)
得到第一次更新后的权值向量ω1
本发明所提供的技术方案,通过做充足的预处理来减少目标文本实际提取关键词时的工作量,可以高效地提取关键词,在不损失性能的前提下,能够满足像互联网等海量文本分析的应用。本发明所提供的技术方案,利用线性加权求和方式(即对所有特征值与其特征的权重的积求和)给关键词打分的方法,并且还给出了确定公式中各系数的方法。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (18)

1、一种关键词的确定方法,其特征在于,包括:
确定一目标领域;
通过整理所述目标领域中的若干文本资料,获得一目标语料库,所述目标语料库为所述目标领域内的候选关键词的集合;
通过整理多个领域中的若干文本资料,获得一通用语料库;
结合所述通用语料库,为所述目标语料库中每个候选关键词设置并计算特征向量;
设置一与所述特征向量同维的权值向量;
利用所述目标语料库及特征向量,对所述权值向量进行学习;
对所述目标领域中一欲要确定关键词的目标文本进行停用词过滤,获得的实意词为所述目标文本的候选关键词;及
获得所述目标文本各候选关键词的特征向量,结合学习后的权值向量,确定所述目标文本的关键词。
2、如权利要求1所述的方法,其特征在于,获得所述目标语料库的步骤,包括:
人工标注所述若干文本资料的关键词,并对所述若干文本资料进行停用词过滤;人工标注的关键词及停用词过滤后的实意词,合为所述目标语料库。
3、如权利要求2所述的方法,其特征在于,对所述权值向量进行学习的步骤,包括:
把所述目标语料库中人工标注的关键词作为正样例,其余候选关键词作为负样例,对于所述特征向量中的每个特征,通过该特征区分所述正样例与负样例的区分度来调整权值,完成对所述权值向量的学习。
4、如权利要求1所述的方法,其特征在于,确定所述目标文本的关键词的步骤,包括:
将所述目标文本各候选关键词的特征向量与学习后的权值向量进行内积,得到各候选关键词的内积结果;
将内积结果作为对应候选关键词的得分,根据所述得分对所述个候选关键词进行排序;及
根据所述排序确定所述目标文本的关键词。
5、如权利要求1所述的方法,其特征在于:
所述特征向量中的特征,包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
6、一种关键词的确定系统,其特征在于,包括:
领域确定模块,用于确定一目标领域;
语料设置模块,与所述领域确定模块相连,用于获取该目标领域中的若干文本资料,以及多个领域中的若干文本资料;还用于将该目标领域中的若干文本资料及该多个领域中的若干文本资料分别整理成一目标语料库及一通用语料库;其中所述目标语料库为所述目标领域的候选关键词的集合;
特征向量设置及计算模块,与所述语料设置模块相连,用于结合所述通用语料库,为所述目标语料库中的各候选关键词设置并计算特征向量;
权值向量设置模块,与所述特征向量设置及计算模块相连,用于设置一与所述特征向量同维的权值向量;
权值向量学习模块,与所述语料设置模块、特征向量设置及计算模块及权值向量设置模块相连,用于利用所述目标语料库及特征向量,对所述权值向量进行学习;
预处理模块,与所述特征向量设置及计算模块相连,用于接收所述目标领域中一欲要确定关键词的目标文本,对所述目标文本进行停用词过滤,获得的实意词为所述目标文本的候选关键词,获得所述目标文本各候选关键词的特征向量;及
关键词确定模块,与所述预处理模块及权值向量学习模块相连,用于利用所述目标文本各候选关键词的特征向量及学习后的权值向量,确定所述目标文本的关键词。
7、如权利要求6所述的系统,其特征在于,所述语料设置模块,包括:
获取单元,与所述领域确定模块相连,用于获取所述目标领域中的若干文本资料,以及所述多个领域中的若干文本资料;
记录单元,与所述获取单元及权值向量学习模块相连,用于记录人工对所述目标领域中的若干文本资料所标注的关键词;
整理单元,与所述获取单元相连,用于对所述目标领域中的若干文本资料及所述多个领域中的若干文本资料进行停用词过滤,分别获得所述目标领域中的文本资料的实意词及所述多个领域中的若干文本资料的实意词;及
合成单元,与所述记录单元、整理单元、特征向量设置及计算模块及权值向量学习模块相连,用于将人工标注的关键词以及所述目标领域中的文本资料的实意词,合为所述目标语料库;还用于将所述多个领域中的文本资料的实意词,合为所述通用语料库。
8、如权利要求7所述的系统,其特征在于,所述权值向量学习模块,包括:
样例选择单元,与所述记录单元及合成单元相连,用于将人工标注的关键词作为正样例,其余的候选关键词作为负样例;
比较单元,与所述样例选择单元及特征向量设置及计算模块相连,用于比较该些正样例及负样例在该特征向量中每个特征上的平均值,通过该些平均值获得所述特征向量中每个特征区分正样例与负样例的区分度;及
调整单元,与所述比较单元、权值向量设置模块及关键词确定模块相连,用于通过所述区分度来调整所述权值向量中的权值,完成对所述权值向量的学习。
9、如权利要求6所述的系统,其特征在于,所述关键词确定模块,包括:
内积单元,与所述权值向量学习模块及预处理模块相连,用于将所述目标文本各候选关键词的特征向量与学习后的权值向量进行内积,一候选关键词获得一内积结果;
排序单元,与所述内积单元相连,用于将内积结果作为对应的候选关键词的得分,根据所述得分对所述个候选关键词进行排序;及
确定单元,与所述排序单元相连,用于根据所述排序确定所述目标文本的关键词。
10、如权利要求6所述的系统,其特征在于:
所述特征向量设置及计算模块,所设置的特征向量中的特征包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
11、一种权值向量的学习方法,应用于确定文本资料的关键词,其特征在于,包括:
确定一目标领域;
通过整理所述目标领域中的若干文本资料,获得一目标语料库,所述目标语料库为所述目标领域的候选关键词的集合;
通过整理多个领域中的若干文本资料,获得一通用语料库;
结合所述通用语料库,为所述目标语料库中每个候选关键词设置并计算特征向量;
设置一与所述特征向量同维的权值向量;
利用所述目标语料库及特征向量,对所述权值向量进行学习。
12、如权利要求11所述的方法,其特征在于,获得所述目标语料库的步骤,包括:
对所述若干文本资料进行人工标注关键词,并对所述若干文本资料进行停用词过滤;人工标注的关键词及停用词过滤后的实意词,合为所述目标语料库。
13、如权利要求12所述的方法,其特征在于,对所述权值向量进行学习的步骤,包括:
把所述目标语料库中人工标注的关键词作为正样例,其余候选关键词作为负样例,对于所述特征向量中的每个特征,通过该特征区分所述正样例与负样例的区分度来调整权值,完成对所述权值向量的学习。
14、如权利要求11所述的方法,其特征在于:
所述特征向量中的特征,包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
15、一种权值向量的学习系统,应用于确定文本资料的关键词,其特征在于,包括:
领域确定模块,用于确定一目标领域;
语料设置模块,与所述领域确定模块相连,用于获取该目标领域中的若干文本资料,以及多个领域中的若干文本资料;还用于将该目标领域中的若干文本资料及该多个领域中的若干文本资料分别整理成一目标语料库及一通用语料库;其中所述目标语料库为所述文本的候选关键词的集合;
特征向量设置及计算模块,与所述语料设置模块相连,用于结合所述通用语料库,为所述目标语料库中的各候选关键词设置并计算特征向量;
权值向量设置模块,与所述特征向量设置及计算模块相连,用于设置一与所述特征向量同维的权值向量;及
权值向量学习模块,与所述语料设置模块、特征向量设置及计算模块及权值向量设置模块相连,用于利用所述目标语料库及特征向量,对所述权值向量进行学习。
16、如权利要求15所述的系统,其特征在于,所述语料设置模块,包括:
获取单元,与所述领域确定模块相连,用于获取所述目标领域中的若干文本资料,以及所述多个领域中的若干文本资料;
记录单元,与所述获取单元及权值向量学习模块相连,用于记录人工对所述目标领域中的若干文本资料所标注的关键词;
整理单元,与所述获取单元相连,用于对所述目标领域中的若干文本资料及所述多个领域中的若干文本资料进行停用词过滤,分别获得所述目标领域中的文本资料的实意词及所述多个领域中的若干文本资料的实意词;及
合成单元,与所述记录单元、整理单元、特征向量设置及计算模块及权值向量学习模块相连,用于将人工标注的关键词以及所述目标领域中的文本资料的实意词,合为所述目标语料库;还用于将所述多个领域中的文本资料的实意词,合为所述通用语料库。
17、如权利要求16所述的系统,其特征在于,所述权值向量学习模块,包括:
样例选择单元,与所述记录单元及合成单元相连,用于将人工标注的关键词作为正样例,其余的候选关键词作为负样例;
比较单元,与所述样例选择单元及特征向量设置及计算模块相连,用于比较该些正样例及负样例在该特征向量中每个特征上的平均值,通过该些平均值获得所述特征向量中每个特征区分正样例与负样例的区分度;及
调整单元,与所述比较单元、权值向量设置模块及关键词确定模块相连,用于通过所述区分度来调整所述权值向量中的权值,完成对所述权值向量的学习。
18、如权利要求15所述的系统,其特征在于:
所述特征向量设置及计算模块,所设置的特征向量中的特征包括词频-逆文档频率、词性、首次出现的相对位置和卡方统计量。
CNA2009100806110A 2009-03-20 2009-03-20 关键词的确定方法及系统、权值向量的学习方法及系统 Pending CN101504667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009100806110A CN101504667A (zh) 2009-03-20 2009-03-20 关键词的确定方法及系统、权值向量的学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009100806110A CN101504667A (zh) 2009-03-20 2009-03-20 关键词的确定方法及系统、权值向量的学习方法及系统

Publications (1)

Publication Number Publication Date
CN101504667A true CN101504667A (zh) 2009-08-12

Family

ID=40976913

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009100806110A Pending CN101504667A (zh) 2009-03-20 2009-03-20 关键词的确定方法及系统、权值向量的学习方法及系统

Country Status (1)

Country Link
CN (1) CN101504667A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673305A (zh) * 2009-09-29 2010-03-17 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
CN102012915A (zh) * 2010-11-22 2011-04-13 百度在线网络技术(北京)有限公司 一种文档共享平台的关键词推荐方法及系统
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN102855312A (zh) * 2012-08-24 2013-01-02 武汉大学 一种面向领域主题的Web服务聚类方法
CN104020443A (zh) * 2014-05-23 2014-09-03 上海炫雅科技有限公司 基于无线噪声的无线定位方法及系统
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
CN105630928A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 文本的标识方法及装置
CN110362827A (zh) * 2019-07-11 2019-10-22 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质
CN113434666A (zh) * 2021-04-06 2021-09-24 西安理工大学 一种关键词关联性分析方法
CN117131257A (zh) * 2023-10-26 2023-11-28 环球数科集团有限公司 一种基于aigc的资讯文档收集系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673305B (zh) * 2009-09-29 2015-04-08 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
CN101673305A (zh) * 2009-09-29 2010-03-17 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
CN102012915A (zh) * 2010-11-22 2011-04-13 百度在线网络技术(北京)有限公司 一种文档共享平台的关键词推荐方法及系统
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN102779135B (zh) * 2011-05-13 2015-07-01 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN102855312B (zh) * 2012-08-24 2013-08-14 武汉大学 一种面向领域主题的Web服务聚类方法
CN102855312A (zh) * 2012-08-24 2013-01-02 武汉大学 一种面向领域主题的Web服务聚类方法
CN104679738B (zh) * 2013-11-27 2018-02-27 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN104679738A (zh) * 2013-11-27 2015-06-03 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN105022733B (zh) * 2014-04-18 2018-03-23 中科鼎富(北京)科技发展有限公司 Dinfo‑oec文本分析挖掘方法与设备
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
CN104020443A (zh) * 2014-05-23 2014-09-03 上海炫雅科技有限公司 基于无线噪声的无线定位方法及系统
CN105630928A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 文本的标识方法及装置
CN105630928B (zh) * 2015-12-22 2019-06-21 北京奇虎科技有限公司 文本的标识方法及装置
CN110362827A (zh) * 2019-07-11 2019-10-22 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质
CN110362827B (zh) * 2019-07-11 2024-05-14 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质
CN113434666A (zh) * 2021-04-06 2021-09-24 西安理工大学 一种关键词关联性分析方法
CN117131257A (zh) * 2023-10-26 2023-11-28 环球数科集团有限公司 一种基于aigc的资讯文档收集系统
CN117131257B (zh) * 2023-10-26 2023-12-26 环球数科集团有限公司 一种基于aigc的资讯文档收集系统

Similar Documents

Publication Publication Date Title
CN101504667A (zh) 关键词的确定方法及系统、权值向量的学习方法及系统
CN107436922B (zh) 文本标签生成方法和装置
US11023523B2 (en) Video content retrieval system
Özgür et al. Text categorization with class-based and corpus-based keyword selection
El Kourdi et al. Automatic Arabic document categorization based on the Naïve Bayes algorithm
Dalal et al. Automatic text classification: a technical review
Cohen et al. End to end long short term memory networks for non-factoid question answering
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
US7978882B1 (en) Scoring items
CN108763477A (zh) 一种短文本分类方法及系统
CN107480200B (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN109241277B (zh) 基于新闻关键词的文本向量加权的方法及系统
JP2008287517A (ja) 強調表示装置及びプログラム
KR100645614B1 (ko) 정보 가치 측정결과를 반영한 검색 방법 및 검색 장치
Zheng et al. Semi-supervised event-related tweet identification with dynamic keyword generation
Ranjan et al. Document classification using lstm neural network
CN107463715A (zh) 基于信息增益的英文社交媒体账号分类方法
CN110196910A (zh) 一种语料分类的方法及装置
Lumbanraja et al. Abstract classification using support vector machine algorithm (case study: abstract in a Computer Science Journal)
CN114996444A (zh) 一种新闻自动摘要方法及系统
Wei et al. Coaching the exploration and exploitation in active learning for interactive video retrieval
Hu et al. Using support vector machine for classification of Baidu hot word
Osanyin et al. A review on web page classification
Can et al. Modeling concept dependencies for event detection
Pliakos et al. PLSA driven image annotation, classification, and tourism recommendation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090812