CN108228566A - 多文档关键词自动抽取方法及系统、计算机程序 - Google Patents
多文档关键词自动抽取方法及系统、计算机程序 Download PDFInfo
- Publication number
- CN108228566A CN108228566A CN201810028965.XA CN201810028965A CN108228566A CN 108228566 A CN108228566 A CN 108228566A CN 201810028965 A CN201810028965 A CN 201810028965A CN 108228566 A CN108228566 A CN 108228566A
- Authority
- CN
- China
- Prior art keywords
- word
- document
- seed
- words
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于计算机软件技术领域,公开了一种多文档关键词自动抽取方法及系统、计算机程序,抽取关键词种子;利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整;组合词语意完整,则是关键组合词;组合词语意不完整,则左右扩展。本发明发现语意完整,截断合理的关键短语的抽取方法,使得多文档关键词自动抽取获得的结果可读性大大增强;抽取出的关键词具有更大的平均长度,并且具有更丰富、完整的语意能够更好地描述多文档的主题;Tf‑Idf算法抽取出的关键词更加细碎,语义宽泛而不具体,无法表示文档的主题;本发明的实用性得到保障,节约标注的人工成本,对任何无标注语料都可以进行自动关键词抽取。
Description
技术领域
本发明属于计算机软件技术领域,尤其涉及一种多文档关键词自动抽取方法及系统、计算机程序。
背景技术
词是表达语义的最小单位,关键词是最具有代表某一段文本主题能力的词或词组的集合。关键词自动抽取技术则是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动抽取有助于读者快速准确地把握文章的主题;而且该技术在自动文摘、信息检索、信息抽取等多种场景中有较好的应用。目前关键词抽取方法按照是否有监督两类分为:1)无监督算法,不需要繁重的标注工作,依靠词在文章中的出现频次规律、位置规律等便可以自动抽取关键词。比较经典的无监督关键词自动抽取技术有Tf-Idf算法、TextRank算法、rake算法等。无监督算法已经可以取得不俗的关键词抽取效果。2)有监督算法,标注关键词的语料进行训练,采用机器学习的方式。常见的方法有支持向量机模型,神经网络模型,朴素贝叶斯模型以及最大熵模型等。有监督的方式在准确率上会强于无监督的方式,但是在实际生产环境中,有监督所需的标注语料需要耗费大量人力。因此,无监督算法在这方面具有先天的优势。关键词自动抽取技术按照输入的文档数目的不同可以分为单文档关键词自动抽取和多文档关键词自动抽取。目前多文档关键词抽取技术主要有Tf-Idf、TextRank等,Tf-Idf算法的缺点:过于依赖训练语料,对陌生的组合词不够敏感;对组合词的边界识别很差,抽取的组合词经常不是具有完整语义的短语;能够抽取的组合词的长度有限且死板,将不同长度的词放在同一评分体系中进行排序不够合理。TextRank则完全基于词在文档内部的位置关系,只能对单个词进行抽取,无法抽取组合词,这往往导致了TextRank算法抽取出的关键词过于泛化,无法表达明确语义,从而导致不知所云。TextRank的缺点导致了算法在组合词的抽取上存在劣势,而真正能够最好地表达出文章主题的恰恰是组合词。
综上所述,现有技术存在的问题是:目前的Tf-Idf算法对组合词的边界识别很差,组合词经常不是具有完整语义的短语;TextRank只能对单个词进行抽取,无法抽取组合词,导致TextRank算法抽取出的关键词过于泛化,无法表达明确语义。
发明内容
针对现有技术存在的问题,本发明提供了一种多文档关键词自动抽取方法及系统、计算机程序。
本发明是这样实现的,一种多文档关键词自动抽取方法,所述多文档关键词自动抽取方法抽取关键词种子;利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整;组合词语意完整,则是关键组合词;组合词语意不完整,则左右扩展,即尝试将该词语的左、右方曾经在文中出现的其他词与该词语进行组合,直到组合词达到语义完整的标准后为止。
进一步,所述抽取关键词种子具体包括:
计算文档中所有词的Tf-Idf得分;
计算文档中所有词的TextRank得分;
计算文档中所有词的最终得分,计算公式为score(t)=Tf-Idf(t)*TextRank(t);
过滤掉非名词部分;
选取名词中得分最高的k个词作为关键词种子。
进一步,所述左右扩展采用基于左右邻信息的种子词扩展,围绕关键词种子扩充,找到包含关键词种子,语意完整的关键短语。
本发明的另一目的在于提供一种所述多文档关键词自动抽取方法的多文档关键词自动抽取系统,所述多文档关键词自动抽取系统包括:
抽取模块,用于抽取关键词种子;
判断模块,用于利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整。
所述判断模块进一步包括:
Tf-Idf得分单元,用于计算文档中所有词的Tf-Idf得分;
TextRank得分单元,用于计算文档中所有词的TextRank得分;
最终得分计算单元,用于计算文档中所有词的最终得分,计算公式为score(t)=Tf-Idf(t)*TextRank(t);
过滤单元,用于过滤掉非名词部分;
选取单元,用于选取名词中得分最高的k个词作为关键词种子。
本发明的另一目的在于提供一种实现所述多文档关键词自动抽取方法的计算机程序。
本发明的另一目的在于提供一种搭载有所述计算机程序的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的多文档关键词自动抽取方法。
本发明对现有的多文档关键词自动抽取方法中的组合词抽取部分进行改进,可以发现语意完整,截断合理的关键短语的抽取方法,使得多文档关键词自动抽取获得的结果的可读性大大增强。
由于本发明抽取的关键词长度并不固定,而是根据实际的语义特征动态决定,因此相比TFIDF算法,本发明抽取的关键短语更加灵活,语义更加完备。相比之下,TFIDF算法只能抽取固定长的一元二元词,完全不考虑词语是否是合适的组合,是否有实际意义。
本发明抽取出的关键词具有更大的平均长度,并且具有更丰富、完整的语意能够更好地描述多文档的主题。相比之下,Tf-Idf算法抽取出的关键词更加细碎,语义宽泛而不具体,无法表示文档的主题。
本发明的实用性得到保障,节约标注的人工成本,对任何无标注语料都可以进行自动关键词抽取。
以下是本发明的算法与传统的Tf-Idf算法在某机械领域语料上的关键词抽取效果的对比:
1视图选择 1表示
2齿轮减速器 2应力计算
3载荷平稳 3设计
4切削层尺寸 4器件尺寸
5基本绘图命令 5结构
6正立投影面 6加工
7切削部分 7材料
8直齿轮 8条件
9传动齿轮 9作用
10应力循环次数 10过程
可以直观地看到,左边本发明的算法抽取出的关键词具有更大的平均长度,并且也具有更丰富、完整的语意能够更好地描述多文档的主题。而相比之下,Tf-Idf算法抽取出的关键词更加细碎,语义宽泛而不具体,无法表示文档的主题。
附图说明
图1是本发明实施例提供的多文档关键词自动抽取方法流程图。
图2是本发明实施例提供的多文档关键词自动抽取方法实现流程图。
图3是本发明实施例提供的多文档关键词自动抽取系统结构示意图;
图中:1、抽取模块;1-1、Tf-Idf得分单元;1-2、TextRank得分单元;1-3、最终得分计算单元;1-4、过滤单元;1-5、选取单元;2、判断模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相比单文档关键词自动抽取,多文档可以提供更有效的统计学上的支撑。信息对组合词的抽取极为重要,组合词的抽取效果好坏除了取决于其中的一元词质量,更多地是取决于组合词的语义完整性以及组合词内部的搭配合适性,信息需要从大量的文档中获取,获取信息的方式也就决定了组合词抽取的效果。多文档关键词自动抽取技术面临的最大挑战是组合词的边界识别问题,好的边界识别可以让抽取出的关键短语具有完整、明确的语义。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的多文档关键词自动抽取方法包括以下步骤:
S101:抽取关键词种子;
S102:利用文本中词之间相互位置的统计信息衡量一个组合词是否是一个语意完整,内部搭配“固定化”且外部环境“多样化”的短语;
S103:如果某组合词满足上述原则,则认为其是一个关键组合词,如果不满足上述性质,则进行左右扩展,直到扩展出的词满足语意完整。
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的多文档关键词自动抽取方法具体包括以下步骤:
1)基于Tf-Idf与TextRank的关键词种子抽取算法
Tf-Idf评估词语对于一个文档集或一个语料库中的重要程度。词语的重要性随着它在文档中出现的次数成正比增加,同时会随着它在背景语料库中出现的频率上升而下降。
Tf-Idf便是上述两个指标的乘积组合。Tf称为词频,Df称为文档频率,Idf被称作逆向文档频率,是Df的函数。
Tf定义为:
Idf定义为:
Tf-Idf定义为:
TF-IDF=TF(词频)×IDF(逆文档频率);
在Tf-Idf算法中,对每个词语计算得分后,得分越大的词语越适合作为关键词。
TextRank针对文本里的句子设计的权重算法。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。每次投票的权重公式计算如下:
权重越大的词对周围词的投票力度也会更大,从而导致周围词的权重也会变大,但是最终的权重会收敛到某一值。
基于Tf-Idf与TextRank的关键词种子抽取算法,在分别计算Tf-Idf值和TextRank权值之后将二者的乘积作为最终的关键词评价指标,并且仅仅专注于关键词中的名词部分,得到了较好的抽取效果。具体细节如下:
计算文档中所有词的Tf-Idf得分;
计算文档中所有词的TextRank得分;
计算文档中所有词的最终得分,计算公式为score(t)=Tf-Idf(t)*TextRank(t);
过滤掉非名词部分;
选取名词中得分最高的k个词作为关键词种子。
2)基于左右邻信息的种子词扩展算法,围绕关键词种子进行扩充,找到包含关键词种子,语意完整的关键短语。
如图3所示,本发明实施例提供的多文档关键词自动抽取系统包括:
抽取模块1,用于抽取关键词种子;
判断模块2,用于利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整。
判断模块1进一步包括:
Tf-Idf得分单元1-1,用于计算文档中所有词的Tf-Idf得分;
TextRank得分单元1-2,用于计算文档中所有词的TextRank得分;
最终得分计算单元1-3,用于计算文档中所有词的最终得分,计算公式为score(t)=Tf-Idf(t)*TextRank(t);
过滤单元1-4,用于过滤掉非名词部分;
选取单元1-5,用于选取名词中得分最高的k个词作为关键词种子。
下面结合具体实施例对本发明的应用原理作进一步的描述。
左邻个数:指真实文本中与候选种子左边相邻的元素的个数,元素为分词碎片。
右邻个数:指真实文本中与候选种子右边相邻的元素的个数,元素为分词碎片。
最频繁左邻在某个候选种子的左邻集合中,出现次数最多的字或词,本发明称这个字或者词为候选种子最频繁左邻。某个候选种子的最频繁左邻最有可能成为此候选种子向左扩展时所需要的元素。
最频繁右邻在某个候选种子的右邻集合中,出现次数最多的字或词,本发明称这个字或者词为候选种子的最频繁右邻。某个候选种子的最频繁右邻最有可能成为此候选种子向右扩展时所需要的元素。应该注意的是,最频繁左邻与最频繁右邻可能不为1。
最频繁左邻比:候选种子的最频繁左邻在候选种子左邻出现的次数与候选种子的左邻个数的比率。
最频繁右邻比:候选种子的最频繁右邻在候选种子右邻出现的次数候选种子的右邻个数。
对于某种子词“应力”:假设其在焊接的领域内共出现过10次。其左邻分别为:残余(4次),焊接(2次),消除(2次),切(2次)。那么最频繁左邻显然是“残余”,其最频繁左邻比为0.4,“残余”,最可能成为应力的一个左扩展单元。扩展为“残余应力”。而进一步对“残余应力”进行扩展时,发现其左邻相对多样化,并且没有任何一个左邻占据主导地位,也即“残余应力”的最频繁左邻比较小,说明“残余应力”已经可以作为一个相对独立的词出现在多样化的上下文中了,那么这个词就可以作为一个完整的语义单元被纳入最终的关键词集合。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种多文档关键词自动抽取方法,其特征在于,所述多文档关键词自动抽取方法抽取关键词种子;利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整;组合词语意完整,则是关键组合词;组合词语意不完整,则左右扩展;
所述多文档关键词自动抽取方法具体包括:
左邻个数:指真实文本中与候选种子左边相邻的元素的个数,元素为分词碎片;
右邻个数:指真实文本中与候选种子右边相邻的元素的个数,元素为分词碎片;
最频繁左邻在某个候选种子的左邻集合中,出现次数最多的字或词为候选种子最频繁左邻;某个候选种子的最频繁左邻最有可能成为此候选种子向左扩展时所需要的元素;
最频繁右邻在某个候选种子的右邻集合中,出现次数最多的字或词为候选种子的最频繁右邻;某个候选种子的最频繁右邻最有可能成为此候选种子向右扩展时所需要的元素;
最频繁左邻比:候选种子的最频繁左邻在候选种子左邻出现的次数与候选种子的左邻个数的比率;
最频繁右邻比:候选种子的最频繁右邻在候选种子右邻出现的次数候选种子的右邻个数;
对于某种子词应力:假设其在焊接的领域内共出现过10次;其左邻分别为:残余4次,焊接2次,消除2次,切2次;最频繁左邻显然是残余,最频繁左邻比为0.4,残余,最可能成为应力的一个左扩展单元;扩展为残余应力;对残余应力进行扩展时,残余应力的最频繁左邻比较小,说明残余应力作为一个相对独立的词出现在多样化的上下文中,那么这个词作为一个完整的语义单元被纳入最终的关键词集合。
2.如权利要求1所述的多文档关键词自动抽取方法,其特征在于,所述抽取关键词种子具体包括:
计算文档中所有词的Tf-Idf得分;
计算文档中所有词的TextRank得分;
计算文档中所有词的最终得分,计算公式为score(t)=Tf-Idf(t)*TextRank(t);
过滤掉非名词部分;
选取名词中得分最高的k个词作为关键词种子。
3.如权利要求1所述的多文档关键词自动抽取方法,其特征在于,所述左右扩展采用基于左右邻信息的种子词扩展,围绕关键词种子扩充,找到包含关键词种子,语意完整的关键短语。
4.一种如权利要求1所述多文档关键词自动抽取方法的多文档关键词自动抽取系统,其特征在于,所述多文档关键词自动抽取系统包括:
抽取模块,用于抽取关键词种子;
判断模块,用于利用文本中词之间相互位置统计信息衡量一个组合词是否语意完整。
5.如权利要求4所述的的多文档关键词自动抽取系统,其特征在于,所述判断模块进一步包括:
Tf-Idf得分单元,用于计算文档中所有词的Tf-Idf得分;
TextRank得分单元,用于计算文档中所有词的TextRank得分;
最终得分计算单元,用于计算文档中所有词的最终得分,计算公式为score(t)=Tf-Idf(t)*TextRank(t);
过滤单元,用于过滤掉非名词部分;
选取单元,用于选取名词中得分最高的k个词作为关键词种子。
6.一种实现权利要求1~3任意一项所述多文档关键词自动抽取方法的计算机程序。
7.一种搭载有权利要求6所述计算机程序的信息数据处理终端。
8.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的多文档关键词自动抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028965.XA CN108228566A (zh) | 2018-01-12 | 2018-01-12 | 多文档关键词自动抽取方法及系统、计算机程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028965.XA CN108228566A (zh) | 2018-01-12 | 2018-01-12 | 多文档关键词自动抽取方法及系统、计算机程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228566A true CN108228566A (zh) | 2018-06-29 |
Family
ID=62640288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810028965.XA Pending CN108228566A (zh) | 2018-01-12 | 2018-01-12 | 多文档关键词自动抽取方法及系统、计算机程序 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228566A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427621A (zh) * | 2019-07-23 | 2019-11-08 | 北京语言大学 | 一种汉语分类词语提取方法及系统 |
CN110489757A (zh) * | 2019-08-26 | 2019-11-22 | 北京邮电大学 | 一种关键词提取方法及装置 |
CN111680505A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种Markdown特征感知的无监督关键词提取方法 |
CN111985212A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 文本关键字识别方法、装置、计算机设备及可读存储介质 |
-
2018
- 2018-01-12 CN CN201810028965.XA patent/CN108228566A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427621A (zh) * | 2019-07-23 | 2019-11-08 | 北京语言大学 | 一种汉语分类词语提取方法及系统 |
CN110489757A (zh) * | 2019-08-26 | 2019-11-22 | 北京邮电大学 | 一种关键词提取方法及装置 |
CN111680505A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种Markdown特征感知的无监督关键词提取方法 |
CN111680505B (zh) * | 2020-04-21 | 2023-08-08 | 华东师范大学 | 一种Markdown特征感知的无监督关键词提取方法 |
CN111985212A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 文本关键字识别方法、装置、计算机设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
CN102622338B (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
CN104239373B (zh) | 为文档添加标签的方法及装置 | |
CN106021572B (zh) | 二元特征词典的构建方法和装置 | |
CN108228566A (zh) | 多文档关键词自动抽取方法及系统、计算机程序 | |
CN111126060B (zh) | 一种主题词的提取方法、装置、设备及存储介质 | |
Smith et al. | Evaluating visual representations for topic understanding and their effects on manually generated topic labels | |
EP2801917A1 (en) | Method, apparatus, and computer storage medium for automatically adding tags to document | |
US20090327259A1 (en) | Automatic concept clustering | |
TW201923629A (zh) | 資料處理方法及裝置 | |
CN109657064A (zh) | 一种文本分类方法及装置 | |
CN110134942A (zh) | 文本热点提取方法及装置 | |
Alian et al. | Arabic semantic similarity approaches-review | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
Dubuisson Duplessis et al. | Utterance retrieval based on recurrent surface text patterns | |
US10353927B2 (en) | Categorizing columns in a data table | |
CN108038109A (zh) | 从非结构化文本中提取特征词的方法及系统、计算机程序 | |
Kutuzov et al. | Cross-Lingual Trends Detection for Named Entities in News Texts with Dynamic Neural Embedding Models. | |
JP6426074B2 (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
CN116860963A (zh) | 一种文本分类方法、设备及存储介质 | |
Kumar et al. | Multi document summarization based on cross-document relation using voting technique | |
CN107590163B (zh) | 文本特征选择的方法、装置和系统 | |
Papagiannopoulou et al. | Keywords lie far from the mean of all words in local vector space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |