CN103744837B - 基于关键词抽取的多文本对照方法 - Google Patents
基于关键词抽取的多文本对照方法 Download PDFInfo
- Publication number
- CN103744837B CN103744837B CN201410031338.3A CN201410031338A CN103744837B CN 103744837 B CN103744837 B CN 103744837B CN 201410031338 A CN201410031338 A CN 201410031338A CN 103744837 B CN103744837 B CN 103744837B
- Authority
- CN
- China
- Prior art keywords
- word
- group
- keyword
- text
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 16
- 238000003066 decision tree Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于关键词抽取的多文本对照方法。该多文本对照方法包括步骤:A、把自然语言中的每一句话当作是一个隐马尔科夫链,求出词性标注和分词;B、在隐马尔科夫链模型中加入自定义词库,把自定义词库中的词设置为强相关,在标记词性序列的时候,优先将自定义词库中的词结合为一个词;C、根据给定的词性列表对分词结果进行过滤,去掉停用词;D、根据最终的词性标注和分词进行多文本对照。本发明不仅完成了单文本的关键词提取,且为多文本的快速对比对照提供了一种可行的方案。对于主题类似、不同侧重点的文本,本发明可以识别出它们共同探讨的主题以及每篇文本的侧重点。
Description
技术领域
本发明涉及文本识别领域,更具体的说,涉及一种基于关键词抽取的多文本对照方法。
背景技术
统计和分析大量文本信息的一种常用技术就是关键词提取。通常情况下,受制于人力和时间资源,人们无法逐字阅读海量的文本库。关键词抽取技术的目标,就是找出文本里最能体现文本主旨的词汇,方便快速浏览,甄选信息。
专利文献CN101216825公开了一种预测目标网页的标引关键词的方法,该方法包括:获取训练数据集,根据所获取的训练数据集训练决策树;利用训练得到的决策树生成标引关键词的过滤器;利用训练得到的决策树和所生成的过滤器,预测目标网页的标引关键词。该思路是从文本中过滤、剪除非核心词汇,保留下来的作为关键词。这种方法较适用于目标关键词集很小的应用。
专利文献CN103399901A描述了一种基本的关键词抽取方法。先对文本进行预处理;基于预处理后的文本,统计词频和词对的共现信息;将词频大于或等于预设阈值的词作为候选关键词;根据词对的共现信息,计算各候选关键词对文本的重要性;根据计算结果,对候选关键词进行排序,将前N个候选关键词作为文本的关键词。这种方法在传统关键词提取方法的基础上,添加词对共现信息作为关键词对于文本的重要程度的衡量标准,可提高关键词抽取的精度。
专利文献CN101196904提供了一种基于词频和多元文法的新闻关键词抽取方法。通过挖掘文本中潜在关键词的多元文法的词性模式,将其作为关键词抽取算法的依据。在进行新闻关键词抽取时,首先根据潜在词性模式挖掘文本中的多元词组,抽取关键词的候选词集,然后从标题中挖掘未登录的潜在关键词,将潜在关键词也加入候选关键词集中。这种方法可以抽取符合词性模式的多元词组,通常这样的词组表述是连贯的、有意义的。
实际应用中,人们往往需要对比讨论相同或相近主题的不同文本彼此间有何异同,从对照中发现变化、分析潜在规律。常用关键词提取方法无法满足这一需求。关键词是被定义为最能体现文本主旨的少量核心词汇,因而从相同或相近主题的文本中提取的关键词也必定是相同或相似的,所以我们无法单从提取出的关键词集中区分相近主题的文本的不同侧重点。
CN101216825公开的剔除非核心词汇的过程,一方面需要事先准备相当数量的训练数据集,这提高了应用该方法的复杂度,还需要格外注意待处理的文本与训练数据集中的文本的相似程度。另一方面,该方法过滤排除非目标关键词的执行过程,实际上也是削弱文本差异的显著性的过程。
CN103399901A和CN101196904所述的技术方案先从单个文本中找出候选词汇表,再从中选取最有可能表述文本主旨的词汇作为关键词输出。CN103399901A以词汇出现的频率和词对共现作为依据,CN101196904以词频和词性模式作为依据,这两种方法针对单文本提取关键字,无法顾及到多文本的异同对照。
发明内容
本发明的目的就是提出一种不需要额外语料库的,可供快速对比多文本异同的基于关键词抽取的多文本对照方法。
本发明的目的是通过以下技术方案来实现的:
一种基于关键词抽取的多文本对照方法,包括步骤:
A、把自然语言中的每一句话当作是一个隐马尔科夫链,求出词性标注和分词;
B、在隐马尔科夫链模型中,依用户需要定制并加入自定义词库,通过把自定义词库中的词设置为强相关,在标记词性序列的时候,优先将自定义词库中的词结合为一个词;
C、根据给定的词性列表对分词结果进行过滤,去掉停用词;
D、根据最终的词性标注和分词进行多文本对照。
进一步的,所述步骤D包括:
D1、将每个文本设为一组,以组为单位统计对应文本的关键词的词频和权重;将同时出现在两组或两组以上文本的关键词列入中间组;
D2、采用去重计算减少每组的重复词汇;
D3、采用保中运算,强制降低中间组中的关键词在其他组出现的频率。
进一步的,所述步骤D1中,如果关键词同时出现在两组或两组以上文本时,其权重以词频最小的文本为准。
进一步的,所述步骤D2中,用一组预设的规则重新依组别判定组内的每个关键词是否能够继续出现在该组内:
组内频率:是指关键词在特定组里的词频;
组间频率:是指关键词在所有组里边出现的平均频率;
只有关键词A组内词频与该组内各词的平均词频之比值>关键词A在所有组别内的平均词频与各词在所有组别内的平均词频之比值时,我们才会保留关键词A继续留在特定组内,否则将从某特定组内,删去关键词A。
假设有两个文本,分别为组1和组2。两个文本共有n个不同的词汇。对词汇表中的每一个词,下文中称之为A。a)当关键词A出现在文本1时,则关键词A为组1中的词,权重为A在组1的词频;
组1 的词频向量
组1 的权重向量 ,其中 。
b)当关键词A出现在文本2时,则关键词A为组2中的词,权重为A在组2的词频;
组2的词频向量
组2的权重向量 ,其中 。
c)当关键词A同时出现在文本1和文本2时,则关键词A为中间组(记作组3)中的词,权重为A在组1和组2中词频的较小者。
组1和2的重叠(差异云中间部分)权重向量 其中,。
通过下面三个公式进行去重计算,分别更新组1,组2和中间组(差异云重叠部分)的权重向量:
公式一,重新计算,组1的权重向量
公式二,重新计算,组2的权重向量
公式三,重新计算,中间组的权重向量
通过去重计算,为判定关键词A究竟属于哪一组提供了更加严格的权重依据,使重复出现的情况大大减少。
即使采用了步骤D2的去重计算,有时也会发生关键词A在中间组出现的同时仍然会在组1或组2中出现的情况,而通过保中计算可以保持关键词A在中间组中显示的优势地位。
进一步的,所述步骤D3中,根据“关键词A在组1~N中(即,非中间组)的最终频率= 关键词A在组1中的原始频率-关键词A在中间组的频率”计算规则,强制降低关键词A在组1~N任意一组出现的频率,从而保持关键词A在中间组中显示的优势地位;所述N为大于1的自然数。
本发明不仅完成了单文本的关键词提取,且为多文本的快速对比对照提供了一种可行的方案。对于主题类似、不同侧重点的文本,本发明可以识别出它们共同探讨的主题以及每篇文本的侧重点。这种方法不需要任何关于文本的背景知识,额外的训练,也不需要语料库。
附图说明
图1是本发明实施例基于关键词抽取的多文示意图本对照方法的示意图;
图2是《十七届三中全会公报》和《十八届三中全会公报》的关键词比对效果示意图。
具体实施方式
下面结合附图和较佳的实施例对本发明作进一步说明。
参见图1,本发明技术方案提出的基于关键词提取的文本对照方法,该方法由提取关键字与文本对照两个主流程实现。
一、提取关键字流程包括以下步骤:
1.1 词性标注与分词。把自然语言中的每一句话当作是一个隐马尔科夫链——这一点使用维特比算法可以求出。对于观测到的数据,概率最大的词性标记序列。这个过程隐含着分词,比如“天安门”会被标记为“NSB-NSM=NSE”,分别表示“地名开始”、“地名中间”和“地名结尾”。
1.2 自定义词库和不可分割词。提取关键字流程中的隐马尔科夫链模型支持加入自定义词库。把自定义词库中的词设置为强相关,该模型在标记词性序列的时候,会优先将自定义词结合为一个词。利用这一机制,本发明技术方案提供了设置不可分割词和垃圾词的方法。
1.3 去除停用词。得到了分词结果和词性标注序列之后,算法会根据给定的词性列表对分词结果进行过滤,比如会把“的”、“了”等这样的助词过滤掉。之后,算法会将标记为垃圾词的词语也过滤掉。
二、文本对照流程以负责比较两篇文本的异同为例进行说明,包括以下步骤:
2.1 幼稚计算。
a)当关键词A出现在文本1时,则关键词A为组1中的词,权重为A在组1的词频;
组1 的词频向量
组1 的权重向量 ,其中 。
b)当关键词A出现在文本2时,则关键词A为组2中的词,权重为A在组2的词频;
组2的词频向量
组2的权重向量 ,其中 。
c)当关键词A同时出现在文本1和文本2时,则关键词A为中间组(记作组3)中的词,权重为A在组1和组2中词频的较小者。
组1和2的重叠(差异云中间部分)权重向量 其中,。
2.2 去重计算。幼稚计算的问题在于会出现较严重的重复计算问题。去重计算要求除了满足幼稚计算的条件外,用一组规则重新依组别判定组内的每个词是否能够继续出现在该组内。例如判定关键词A是否应可以继续出现在组1、组2或组3中,需要满足如下规则:
关键词A组内词频与该组内各词的平均词频之比值>关键词A在所有组别内的平均词频与各词在所有组别内的平均词频之比值。计算公式参照公式一、二、三:
公式一,重新计算,组1的权重向量
公式二,重新计算,组2的权重向量
公式三,重新计算,中间组的权重向量
通过去重计算,为判定关键词A究竟属于哪一组提供了更加严格的权重依据,使重复出现的情况大大减少。
2.3 保中计算。即使采用了升级计算,有时也会发生关键词A在中间组出现的同时仍然会在组1或组2中出现的情况。通过的计算规则:
关键词A在组1、2中的最终频率= 关键词A在组1中的频率-关键词A在中间组的频率,强制降低关键词A在组1或组2出现的频率,从而保持关键词A在中间组中显示的优势地位。
本发明不仅完成了单文本的关键词提取,且为多文本的快速对比对照提供了一种可行的方案。对于主题类似、不同侧重点的文本,本发明可以识别出它们共同探讨的主题以及每篇文本的侧重点。这种方法不需要任何关于文本的背景知识,额外的训练,也不需要语料库。图2为《十七届三中全会公报》、《十八届三中全会公报》的关键词比对效果。《十七届三中全会公报》的独有的关键词为左侧词组,《十八届三中全会公报》独有的关键词为右侧词组,中间的词为两份公报共同关注的焦点。从图中可以看到《十七届三中全会公报》关注农村工作,《十八届三中全会》关注体制、经济和生态,两次全会都关注社会主义制度的推进和完善。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (3)
1.一种基于关键词抽取的多文本对照方法,包括步骤:
A、把自然语言中的每一句话当作是一个隐马尔科夫链,求出词性标注和分词;
B、在隐马尔科夫链模型中,依用户需要定制并加入自定义词库,通过把自定义词库中的词设置为强相关,在标记词性序列的时候,优先将自定义词库中的词结合为一个词;
C、根据给定的词性列表对分词结果进行过滤,去掉停用词;
D、根据最终的词性标注和分词进行多文本对照;
所述步骤D包括:
D1、将每个文本设为一组,以组为单位统计对应文本的关键词的词频和权重;将同时出现在两组或两组以上文本的关键词列入中间组;
D2、采用去重计算减少每组的重复词汇;
D3、采用保中运算,强制降低中间组中的关键词在其他组出现的频率;
所述步骤D3中,保中运算是根据“关键词A在组1~N中的最终频率=关键词A在组1中的原始频率-关键词A在中间组的频率”计算规则,强制降低关键词A在组1~N任意一组出现的频率,从而保持关键词A在中间组中显示的优势地位;所述N为大于1的自然数。
2.如权利要求1所述的一种基于关键词抽取的多文本对照方法,其特征在于,所述步骤D1中,如果关键词同时出现在两组或两组以上文本时,其权重以词频最小的文本为准。
3.如权利要求1所述的一种基于关键词抽取的多文本对照方法,其特征在于,所述步骤D2中,用一组预设的规则重新依组别判定组内的每个关键词是否能够继续出现在特定组内:只有关键词A组内词频与该组内各词的平均词频之比值>关键词A在所有组别内的平均词频与各词在所有组别内的平均词频之比值时,保留关键词A继续留在特定组内,否则将从特定组内删去关键词A;关键词A为各组中任意一个关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410031338.3A CN103744837B (zh) | 2014-01-23 | 2014-01-23 | 基于关键词抽取的多文本对照方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410031338.3A CN103744837B (zh) | 2014-01-23 | 2014-01-23 | 基于关键词抽取的多文本对照方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103744837A CN103744837A (zh) | 2014-04-23 |
CN103744837B true CN103744837B (zh) | 2017-01-04 |
Family
ID=50501855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410031338.3A Active CN103744837B (zh) | 2014-01-23 | 2014-01-23 | 基于关键词抽取的多文本对照方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103744837B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778209B (zh) * | 2015-03-13 | 2018-04-27 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN105354182B (zh) * | 2015-09-28 | 2018-06-26 | 北大方正集团有限公司 | 获取相关数字资源的方法及使用其生成专题的方法及装置 |
CN105224521B (zh) * | 2015-09-28 | 2018-05-25 | 北大方正集团有限公司 | 主题词提取方法及使用其获取相关数字资源的方法及装置 |
CN107168946A (zh) * | 2017-04-14 | 2017-09-15 | 北京化工大学 | 一种医疗文本数据的命名实体识别方法 |
CN112163421B (zh) * | 2020-10-09 | 2022-05-17 | 厦门大学 | 一种基于N-Gram的关键词提取方法 |
CN117669550B (zh) * | 2023-11-13 | 2024-04-30 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1560762A (zh) * | 2004-02-26 | 2005-01-05 | 上海交通大学 | 基于字同现频率的主题抽取方法 |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN101079024A (zh) * | 2006-06-19 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成系统和方法 |
CN102207945A (zh) * | 2010-05-11 | 2011-10-05 | 天津海量信息技术有限公司 | 基于知识网络的文本标引系统及其方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8600730B2 (en) * | 2011-02-08 | 2013-12-03 | Microsoft Corporation | Language segmentation of multilingual texts |
-
2014
- 2014-01-23 CN CN201410031338.3A patent/CN103744837B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1560762A (zh) * | 2004-02-26 | 2005-01-05 | 上海交通大学 | 基于字同现频率的主题抽取方法 |
CN101079024A (zh) * | 2006-06-19 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成系统和方法 |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN102207945A (zh) * | 2010-05-11 | 2011-10-05 | 天津海量信息技术有限公司 | 基于知识网络的文本标引系统及其方法 |
Non-Patent Citations (2)
Title |
---|
基于隐马尔科夫模型的文本分类;刘晓飞, 邸书灵;《石家庄铁道大学学报(自然科学版)》;20130331;第26卷(第1期);第103-105,109页 * |
应用于用户兴趣建模的多文本关键词抽取研究;寇苏玲, 蔡庆生;《计算机仿真》;20070228;第24卷(第02期);第101-105,110页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103744837A (zh) | 2014-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
CN107861939B (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
CN103744837B (zh) | 基于关键词抽取的多文本对照方法 | |
US9892727B2 (en) | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods | |
CN113807098A (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
CN108804423B (zh) | 医疗文本特征提取与自动匹配方法和系统 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN108062305B (zh) | 一种基于迭代的三步式无监督中文分词方法 | |
CN107943786B (zh) | 一种中文命名实体识别方法及系统 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
WO2019100458A1 (zh) | 泰语音节切分的方法及装置 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Saharia et al. | Analysis and evaluation of stemming algorithms: a case study with Assamese | |
Koto et al. | The use of POS sequence for analyzing sentence pattern in Twitter sentiment analysis | |
CN111898375B (zh) | 一种基于词向量句子链的文章论点论据自动检测划分方法 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 | |
Nongmeikapam et al. | Verb based manipuri sentiment analysis | |
Li et al. | Exploiting Wikipedia priori knowledge for Chinese named entity recognition | |
CN111310452A (zh) | 一种分词方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |