CN109977219B - 基于启发式规则的文本摘要自动生成方法及装置 - Google Patents
基于启发式规则的文本摘要自动生成方法及装置 Download PDFInfo
- Publication number
- CN109977219B CN109977219B CN201910207415.9A CN201910207415A CN109977219B CN 109977219 B CN109977219 B CN 109977219B CN 201910207415 A CN201910207415 A CN 201910207415A CN 109977219 B CN109977219 B CN 109977219B
- Authority
- CN
- China
- Prior art keywords
- paragraph
- sentence
- abstract
- segment
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000012634 fragment Substances 0.000 claims abstract description 71
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 20
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000008520 organization Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 19
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 14
- 239000010931 gold Substances 0.000 description 14
- 229910052737 gold Inorganic materials 0.000 description 14
- 230000004044 response Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
- G06Q30/0239—Online discounts or incentives
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于启发式规则的文本摘要自动生成方法,包括:S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。以及,基于启发式规则的文本摘要自动生成装置。采用本发明的方法生成的文本摘要的句子组织连贯性好,可读性强。
Description
技术领域
本发明涉及自然语言处理领域。更具体地说,本发明涉及一种基于启发式规则的文本摘要自动生成方法及装置。
背景技术
自动文摘的过程主要是总结文本文档中心意思,目的是创建包含原始文档主要内容的摘要。在新闻、金融、医疗等领域具有意义重大的应用场景。特别是现在的互联网信息时代,信息过载使得人们迫切地希望能在最短的时间内了解最多且最有用的文字信息,文本摘要自动生成技术使得这一项需求得以实现。
自动文摘技术以整篇文章作为输入,并生成一段精炼的话来表达与概况输入文章的核心内容,即生成的文摘就表达了原文要表达的核心意义。目前,自动文本摘要技术主要有生成式和抽取式两种方式,并以抽取式为主。抽取式自动文摘技术是按照一定的权重,从原文中抽取能表达文章中心思想或者文章中比较重要的一条或几条句子,然后组合起来形成摘要。经典的抽取式自动文摘技术如LexRank,TextRank是以句子为分割单元将文章的的所有句子两两之间计算相似度或重要度进行图方法的排序,得到能够表达文章的大致句子级。这种方法由于是自动选择文章中比较重要句子,然后按照句子的重要度顺序组成摘要,在语义语序的重组和生成内容的可读性上差强人意。
发明内容
本发明的一个目的是提供一种基于启发式规则的文本摘要自动生成方法及装置,其考虑段落、句子出现的顺序,先逐级抽取句子,再抽取句子中的片段,并按照片段在原文中的出现顺序生成文本摘要,使摘要的句子组织连贯性好,可读性强。
为了实现根据本发明的目的和其它优点,提供了一种基于启发式规则的文本摘要自动生成方法,包括:
S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。
优选的是,所述的基于启发式规则的文本摘要自动生成方法,S1中,以句子和片段为粒度对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE。
优选的是,所述的基于启发式规则的文本摘要自动生成方法,S2中,具体为:S21、采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算,抽取符合规则的句子为目标句子,按照句子的出现顺序组合,得到开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;S22、以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算,抽取符合规则的片段为目标片段,按照片段的出现顺序组合,得到开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE。
优选的是,所述的基于启发式规则的文本摘要自动生成方法,S3中,具体为:S31、采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;S32、抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
优选的是,所述的基于启发式规则的文本摘要自动生成方法,所述规则为相似度大于设定阈值。
本发明还提供了一种基于启发式规则的文本摘要自动生成装置,包括依次连接的分割模块、第一处理模块和第二处理模块,其中,
分割模块,以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
第一处理模块,用于先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
第二处理模块,用于去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。
优选的是,所述的基于启发式规则的文本摘要自动生成装置,对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE。
优选的是,所述的基于启发式规则的文本摘要自动生成装置,所述第一处理模块,包括,第一计算模块,其与所述分割模块连接,用于获取SB、SC、SE,采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算;第一生成模块,其与所述第一计算模块连接,用于获取句子间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的句子,按照句子出现的顺序,生成开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;第二计算模块,其分别与所述第一生成模块和所述分割模块连接,用于获取GSB、GSC和GSE,以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算;第二生成模块,其与所述第二计算模块连接,用于获取片段间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的片段,按照片段出现的顺序生成开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE。
优选的是,所述的基于启发式规则的文本摘要自动生成装置,所述第二处理模块,包括,第三计算模块,其与所述第二生成模块连接,用于获取GaB、GaC、GaE,采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;第三生成模块,其与所述第三计算模块连接,用于获取片段的排序结果,并抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
本发明至少包括以下有益效果:
第一、本发明不同于经典的抽取式自动文摘技术中,针对文章所有的句子进行等同的图排序计算句子重要性的方法,本发明的方法考虑句子出现在不同段落的这种启发式规则,对于不同的句子在文章中表现的重要度计算考虑句子的出现位置与顺序,即以文本的段落、句子顺序作为启发式语序,将新闻正文分为开头段落、中间段落和结尾段落三个部分,采用图排序算法对各段落中的句子内容进行重要度排序和相似度计算,并对各段落的句子进行逐级抽取,使其最后生成的句子自身带有原文表达的顺序,使抽取的摘要在语义语序的重组和生成内容的可读性上得到一定的保证;
第二、本发明以逗号和分号进行文本内容分割与重要度计算和片段的冗余去除,使得对抽取摘要的分析粒度更细,保证重要片段被筛选的基础上,用最大边界相关算法去除片段的冗余,注重了抽取摘要内容的多样性,通过最小化选取摘要句子之间的相似性,使得生成的摘要多样化。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是本发明实施例的基于启发式规则的文本摘要自动生成方法的流程图;
图2是本发明实施例的基于启发式规则的文本摘要自动生成装置的结构示意图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种基于启发式规则的文本摘要自动生成方法,包括:
S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段在原文中出现的顺序组合,生成文本摘要。
新闻文本是由一系列明确的事实判断语句构成的,新闻报道的组织形式具有一定的叙述结构与事理逻辑的同构特性。新闻文本的外部架构的组成由:标题,电头,导语,主体,背景,结尾六个部分组成。其内容的组织形式是按照新闻的外部架构组络,把导语,主体,背景等基本零件内容有机的结合起来,并按照如倒金字塔式,金字塔式,悬念式,并列式,总分式等结构形式形成有层次新闻的内容。由此可见,新闻内容组织形式是有一定的启发式规则的,在不同的段落的新闻内容对新闻报道的作用不仅不同,而且重要程度也不同。本发明不仅考虑句子在段落中的位置,对各段落中的句子进行逐级抽取,还考虑抽取的句子中各片段的重要度和多样性,去除冗余片段,并将筛选出的片段按照片段在原文中的出现的顺序组合,使得抽取摘要的组成内容单元的粒度更细,组织结构性和可读性更强,更接近文章的中心思想。
S1按照新闻文本段落,以句子和片段为粒度对各段落进行启发式分割
S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE,如,开头段落PB包含T个句子集合S={b1,..,bx,...by,...,bT},其中每一个句子包括文字和“。”作为结束标示符;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE,如开头段落PB包含N个片段集合E={b1,...,bi,...,bj,...,bN},其中每一个片段包括文字和“,”或“;”或者“。”作为结束标识符。
S2基于图排序算法对分割内容进行重要度计算
在对分割内容进行关键句评分时,考虑每一个句子对应节点的连线数量以及连线权重,通过图排序方法得到每一个分割内容的重要性。具体如下:
S21对以“。”为单位的句子与句子之间的相似度计算:
采用基于图排序LexRank算法实现句子级别的文本摘要生成。具体对每一个段落[PB,PC,PE]都采用LexRank进行句子抽取,把每一个段落的文本分割成若干组成句子单元并建立图模型,利用投票机制对文本中的重要句子进行排序。其中,每一个段落以句子分割后,将各段落中的两两句子通过相似度计算,可以将句子与句子表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,E是V×V的子集。
例如,对开头段落PB的句子进行重要句子提取,对于每一个按照“。”号分割的句子b∈SB,进行分词和词性处理,这里运用哈工大的LTP开发工具进行处理,并过滤掉停用词,只保留词性的单词,即把句子b表示为bx=[wx,1,...,wx,j,...,wx,T],wx,j∈bx是保留后的候选关键词。
句子间的相似度计算如:
展开(1)式得到相似度的详细计算方法:
其中,是逆向句子频率,表示词项w在句子中出现的次数,idfw是逆向句子频率,N为段落中句子的总数,Nw为段落中含有特征词w的句子数,如果两个句子间存在关系,则其相似度大于设定的阈值,相似度阈值根据实验的效果进行调整,经验上,阈值设置为0.1,抽取出来的句子表达摘要主要思想的能力最佳,最后得到开头段落PB的句子摘要集合GSB。
中间段落PC、结尾段落PE也按照同样的抽取方式生成对应的句子摘要集合GSC、GSE。
S22、将每一个段落抽取的句子按照原文顺序组合得到以句子为单位的抽取的摘要。在这些抽取的句子集合中,为了更加细粒度分析抽取到的内容的重复性与重要性。以“,”和“;”再次对抽取的内容进行片段分割,采用图排序算法实现片段级别的文本摘要生成。具体的,如S21的方法,对分割的片段b同样进行分词和词性处理,并过滤掉停用词,只保留词性的单词,即把片段b表示为bi=[wi,1,...,wi,j,...,wi,N],其中wi,j∈bi是保留后的候选关键词。
片段间的相似度计算如下:
其中,是逆向句子频率,表示词项w在片段中出现的次数。如果两两片段间存在关系,则其相似度大于设定的阈值,最后筛选出基于片段粒度的摘要集合,并按照片段在原文中出现的顺序组合,得到开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE。
S3,基于最大边界相关算法的分割内容去冗余
在上述抽取片段内容组成的摘要中,还存在部分冗余内容,需要对冗余内容进行噪音去除与筛选得到最后的摘要。
S31、采用最大边界相关算法即MMR算法,通过计算Query语句与被搜索内容之间的相似度,并结合片段重要性分值,得到GaB、GaC、GaE中各片段的MMR值;
具体的MMR算法公式如下:
MMR(Q,Ga,R)=max[λ*score(i)-(1-λ)*max[similarity(i,j)]](4)
其中,Q表示当前查询的片段,Ga表示当前查询的对象即片段组成的摘要的集合。R表示已经得到的一个以相似度为基础的初始片段集合。λ为调节参数,score(i)计算的是i片段的重要性分值,右边第二项的计算的是片段i与所有已经被选择成为摘要的片段j之间的相似度最大值,注意这里的是负号,说明成为摘要的片段间的相似度越小越好。此处体现了MMR的算法原理,即均衡考虑了文本摘要的重要性和多样性。这种摘要提取方式与Textrank不同,Textrank只取全文的重要句子进行排序形成摘要,忽略了其多样性。
S32、按照MMR值对各片段进行rank排序,抽取排名前X的片段,按照片段在原文中出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
本发明还提供了一种基于启发式规则的文本摘要自动生成装置,包括依次连接的分割模块、第一处理模块和第二处理模块,其中,
分割模块,以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
第一处理模块,用于先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
第二处理模块,用于去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要。
在另一技术方案中,所述的基于启发式规则的文本摘要自动生成装置,对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE。
在另一技术方案中,所述的基于启发式规则的文本摘要自动生成装置,所述第一处理模块,包括,第一计算模块,其与所述分割模块连接,用于获取SB、SC、SE,采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算;第一生成模块,其与所述第一计算模块连接,用于获取句子间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的句子,按照句子出现的顺序,生成开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;第二计算模块,其分别与所述第一生成模块和所述分割模块连接,用于获取GSB、GSC和GSE,以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算;第二生成模块,其与所述第二计算模块连接,用于获取片段间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的片段,按照片段出现的顺序生成开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE。
在另一技术方案中,所述的基于启发式规则的文本摘要自动生成装置,所述第二处理模块,包括,第三计算模块,其与所述第二生成模块连接,用于获取GaB、GaC、GaE,采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;第三生成模块,其与所述第三计算模块连接,用于获取片段的排序结果,并抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
以下以具体实施例进行说明:
新闻原文如下:
ofo回应押金转化折扣折扣商城金币,用户拥有自主选择权。
针对将上线折扣商城,并将押金转成消费币一事,ofo在3月2日回应称,所有用户也都会在被充分告知的情况下拥有自主选择权。目前商城还在测试阶段,正努力扩充商品种类。
3月1日,有消息称ofo正在测试“折扣商城”的功能,用户可将押金转换为商城金币,进而可在商城购物消费。在放出的测试页面中部分商品需要以商城金币+现金的方式购买。
用户选择兑换金币后,再次骑车也无需缴纳押金。申请退押金的用户可以选择将押金兑换成购物金币,99元押金可以兑换成等值于150元的购物金币,199元押金可以兑换成等值于300元的购物金币。可购买的商品包括食品生鲜、酒水饮料和美妆护肤等品类。
此事在做,引发了部分网友对共享单车退押金一事的关注。部分网友称一直在排队退ofo的押金,但是几个月过去了,目前还没有拿到钱。此前,ofo用户申请退押金一度排队超过1000多万人,ofo方面称正在根据排队顺序进行退款。
对于新推出的商城业务,ofo回应称,折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,这几天开始小范围的做测试。
ofo方面表示,从去年下半年开始,共享单车行业问题成为社会关注的焦点,ofo一直在努力研究和尝试不同的方法,尽一切可能保障用户权益。同时也为响应近期交通运输部对共享单车行业的指示,给用户更多的选择,推出了这个折扣商城。
所有用户也都会在被充分告知的情况下拥有自主选择权。目前商城还是在测试阶段,还在努力扩充商品种类,ofo会不断地收集用户的反馈,对商城的各个环节作出更好的调整。一段时间之后,ofo会根据测试阶段用户的接受程度,再决定下一步的计划。商城是给用户的一种新的选择,ofo不会放弃探索共享单车行业一切的可能性。
对此条新闻使用基于启发式规则的文本摘要自动生成方法进行摘要抽取:
步骤S1:按照新闻文本段落对句子进行启发式分割
开头段落进行启发式分割后的句子集合SB为:
SB={ofo回应押金转化折扣商城金币,用户拥有自主选择权。}
中间段落进行启发式分割后的句子集合SC为:
SC={针对将上线折扣商城,并将押金转成消费币一事,ofo在3月2日回应称,所有用户也都会在被充分告知的情况下拥有自主选择权。
目前商城还在测试阶段,正努力扩充商品种类。
3月1日,有消息称ofo正在测试“折扣商城”的功能,用户可将押金转换为商城金币,进而可在商城购物消费。
在放出的测试页面中部分商品需要以商城金币+现金的方式购买。
用户选择兑换金币后,再次骑车也无需缴纳押金。
申请退押金的用户可以选择将押金兑换成购物金币,99元押金可以兑换成等值于150元的购物金币,199元押金可以兑换成等值于300元的购物金币。
可购买的商品包括食品生鲜、酒水饮料和美妆护肤等品类。
此事在做,引发了部分网友对共享单车退押金一事的关注。
部分网友称一直在排队退ofo的押金,但是几个月过去了,目前还没有拿到钱。
此前,ofo用户申请退押金一度排队超过1000多万人,ofo方面称正在根据排队顺序进行退款。
对于新推出的商城业务,ofo回应称,折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,这几天开始小范围的做测试。
ofo方面表示,从去年下半年开始,共享单车行业问题成为社会关注的焦点,ofo一直在努力研究和尝试不同的方法,尽一切可能保障用户权益。
同时也为响应近期交通运输部对共享单车行业的指示,给用户更多的选择,推出了这个折扣商城。}
结尾段落进行启发式分割后的句子集合SE为:
SE={所有用户也都会在被充分告知的情况下拥有自主选择权。
目前商城还是在测试阶段,还在努力扩充商品种类,ofo会不断地收集用户的反馈,对商城的各个环节作出更好的调整。
一段时间之后,ofo会根据测试阶段用户的接受程度,再决定下一步的计划。
商城是给用户的一种新的选择,ofo不会放弃探索共享单车行业一切的可能性。}
步骤S2:基于图排序LexRank算法对分割内容进行重要度计算
使用LexRank得到的句子的摘要集合如下:
开头段落句子摘要集合GSB:
GSB={ofo回应押金转化折扣商城金币,用户拥有自主选择权。}
中间段落句子摘要集合GSC:
GSC={针对将上线折扣商城,并将押金转成消费币一事,ofo在3月2日回应称,所有用户也都会在被充分告知的情况下拥有自主选择权。
3月1日,有消息称ofo正在测试“折扣商城”的功能,用户可将押金转换为商城金币,进而可在商城购物消费。
申请退押金的用户可以选择将押金兑换成购物金币,99元押金可以兑换成等值于150元的购物金币,199元押金可以兑换成等值于300元的购物金币。
此前,ofo用户申请退押金一度排队超过1000多万人,ofo方面称正在根据排队顺序进行退款。
对于新推出的商城业务,ofo回应称,折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,这几天开始小范围的做测试。
同时也为响应近期交通运输部对共享单车行业的指示,给用户更多的选择,推出了这个折扣商城。}
结尾段落句子摘要集合GSE:
GSE={目前商城还是在测试阶段,还在努力扩充商品种类,ofo会不断地收集用户的反馈,对商城的各个环节做出更好的调整。
一段时间之后,ofo会根据测试阶段用户的接受程度,再决定下一步的计划。
商城是给用户的一种新的选择,ofo不会放弃探索共享单车行业一切的可能性。}
从GS中以“,”进行摘要再分割,对分割片段采用LexRank算法进行重要度计算,得到片段摘要集合Ga。}
开头段落片段摘要集合GaB:
GaB={ofo回应押金转化折扣商城金币,
用户拥有自主选择权,}
中间段落片段摘要集合GaC:
GaC={针对将上线折扣商城,
并将押金转成消费币一事,
ofo在3月2日回应称,
所有用户也都会在被充分告知的情况下拥有自主选择权。
有消息称ofo正在测试“折扣商城”的功能,
用户可将押金转换为商城金币,
申请退押金的用户可以选择将押金兑换成购物金币,
ofo回应称,
折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,同时也为响应近期交通运输部对共享单车行业的指示,
推出了这个折扣商城。}
结尾段落句子摘要集合GaE:
GaE={目前商城还是在测试阶段,
ofo会不断地收集用户的反馈,
ofo会根据测试阶段用户的接受程度,
商城是给用户的一种新的选择,}
步骤S3:基于最大边界相关算法的分割内容去冗余
对GaB、GaC、GaE中的分割内容进行去冗余后的摘要集合G为
G={ofo回应押金转化折扣商城金币,
用户拥有自主选择权。
有消息称ofo正在测试“折扣商城”的功能,
申请退押金的用户可以选择将押金兑换成购物金币,
折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,
同时也为响应近期交通运输部对共享单车行业的指示,
给用户更多的选择,
ofo会不断地收集用户的反馈,}
最终得到的新闻摘要为:
ofo回应押金转化折扣商城金币,用户拥有自主选择权。有消息称ofo正在测试“折扣商城”的功能,申请退押金的用户可以选择将押金兑换成购物金币,折扣商城是该公司去年年底开始准备经过两个月左右的研发为用户提供的新服务,同时也为响应近期交通运输部对共享单车行业的指示,给用户更多的选择,ofo会不断地收集用户的反馈。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (2)
1.基于启发式规则的文本摘要自动生成方法,其特征在于,包括:
S1、以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
S2、先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
S3、去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要;
S1中,以句子和片段为粒度对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE;
S2中,具体为:S21、采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算,抽取符合规则的句子为目标句子,按照句子的出现顺序组合,得到开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;S22、以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算,抽取符合规则的片段为目标片段,按照片段的出现顺序组合,得到开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE;
S3中,具体为:S31、采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;S32、抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数;
具体的MMR算法公式如下:
MMR(Q,Ga,R)=max[λ*score(i)-(1-λ)*max[similarity(i,j)]]
其中,Q表示当前查询的片段,Ga表示当前查询的对象即片段组成的摘要的集合;R表示已经得到的一个以相似度为基础的初始片段集合;λ为调节参数,score(i)计算的是i片段的重要性分值,右边第二项计算的是片段i与所有已经被选择成为摘要的片段j之间的相似度最大值,注意这里的是负号,说明成为摘要的片段间的相似度越小越好;
所述规则为相似度大于设定阈值。
2.基于启发式规则的文本摘要自动生成装置,其特征在于,包括依次连接的分割模块、第一处理模块和第二处理模块,其中,
分割模块,以文本的段落、句子顺序作为启发式语序,将新闻正文分为开始段落、中间段落和结尾段落,并以句子和片段为粒度对各段落进行启发式分割;
第一处理模块,用于先以句子为粒度,分别抽取各段落的目标句子,得到各段落的句子摘要集合,再以所述句子摘要集合中的片段为粒度,分别抽取各段落的目标片段,得到各段落的片段摘要集合;
第二处理模块,用于去除所述片段摘要集合中的冗余片段,将筛选出的片段按照片段出现的顺序组合,生成文本摘要;
对各段落进行启发式分割,包括,S11、将开头段落PB、中间段落PC、结尾段落PE以句号为切割点,按照句子出现的顺序,将上述段落分别分割为含有该段落总句子数的句子集合SB、SC、SE;S12、将开头段落PB、中间段落PC、结尾段落PE以逗号和分号为切割点,按照片段出现的顺序,将上述段落分别分割为含有该段落总片段数的片段集合EB、EC、EE;
所述第一处理模块,包括,第一计算模块,其与所述分割模块连接,用于获取SB、SC、SE,采用图排序算法分别对SB、SC、SE中的句子内容进行重要度排序,并进行句子间的相似度计算;第一生成模块,其与所述第一计算模块连接,用于获取句子间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的句子,按照句子出现的顺序,生成开头段落的句子摘要集合GSB、中间段落的句子摘要集合GSC和结尾段落的句子摘要集合GSE;第二计算模块,其分别与所述第一生成模块和所述分割模块连接,用于获取GSB、GSC和GSE,以逗号和分号为切割点,分别对GSB、GSC、GSE中的句子进行再分割,采用图排序算法分别对分割的片段内容进行重要度排序,并进行片段间的相似度计算;第二生成模块,其与所述第二计算模块连接,用于获取片段间的相似度计算结果,与设定阈值进行比较,并抽取相似度大于设定阈值的片段,按照片段出现的顺序生成开头段落的片段摘要集合GaB、中间段落的片段摘要集合GaC和结尾段落的片段摘要集合GaE,其中,GaB∈EB、GaC∈EC、GaE∈EE;
所述第二处理模块,包括,第三计算模块,其与所述第二生成模块连接,用于获取GaB、GaC、GaE,采用最大边界相关算法计算GaB、GaC、GaE中各片段的MMR值,并按照MMR值对各片段进行排序;第三生成模块,其与所述第三计算模块连接,用于获取片段的排序结果,并抽取排名前X的片段,按照片段出现的顺序组合,生成文本摘要,其中,X为所述文本摘要的预设片段数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910207415.9A CN109977219B (zh) | 2019-03-19 | 2019-03-19 | 基于启发式规则的文本摘要自动生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910207415.9A CN109977219B (zh) | 2019-03-19 | 2019-03-19 | 基于启发式规则的文本摘要自动生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977219A CN109977219A (zh) | 2019-07-05 |
CN109977219B true CN109977219B (zh) | 2021-04-09 |
Family
ID=67079455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910207415.9A Active CN109977219B (zh) | 2019-03-19 | 2019-03-19 | 基于启发式规则的文本摘要自动生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977219B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362674B (zh) * | 2019-07-18 | 2020-08-04 | 中国搜索信息科技股份有限公司 | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 |
CN111191413B (zh) * | 2019-12-30 | 2021-11-12 | 北京航空航天大学 | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 |
CN111507090A (zh) * | 2020-02-27 | 2020-08-07 | 平安科技(深圳)有限公司 | 摘要提取方法、装置、设备及计算机可读存储介质 |
CN112818077B (zh) * | 2020-12-31 | 2023-05-30 | 科大讯飞股份有限公司 | 文本处理方法、装置、设备及存储介质 |
CN114492384A (zh) * | 2022-01-17 | 2022-05-13 | 海南车智易通信息技术有限公司 | 训练生成文本生成模型的方法及文本生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN105989058A (zh) * | 2015-02-06 | 2016-10-05 | 北京中搜网络技术股份有限公司 | 一种汉语新闻摘要生成系统及方法 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN109033066A (zh) * | 2018-06-04 | 2018-12-18 | 浪潮软件股份有限公司 | 一种摘要形成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831597B2 (en) * | 2005-11-18 | 2010-11-09 | The Boeing Company | Text summarization method and apparatus using a multidimensional subspace |
-
2019
- 2019-03-19 CN CN201910207415.9A patent/CN109977219B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN105989058A (zh) * | 2015-02-06 | 2016-10-05 | 北京中搜网络技术股份有限公司 | 一种汉语新闻摘要生成系统及方法 |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN109033066A (zh) * | 2018-06-04 | 2018-12-18 | 浪潮软件股份有限公司 | 一种摘要形成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109977219A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977219B (zh) | 基于启发式规则的文本摘要自动生成方法及装置 | |
Gerani et al. | Abstractive summarization of product reviews using discourse structure | |
Samha et al. | Aspect-based opinion extraction from customer reviews | |
CN108763362A (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
Astya | Sentiment analysis: approaches and open issues | |
CN108694647B (zh) | 一种商户推荐理由的挖掘方法及装置,电子设备 | |
CN107944911B (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
Dehkharghani et al. | Adaptation and use of subjectivity lexicons for domain dependent sentiment classification | |
CN111538828A (zh) | 文本情感分析方法、装置、计算机装置及可读存储介质 | |
Yeole et al. | Opinion mining for emotions determination | |
Mandel et al. | Contextual tag inference | |
Ferreira et al. | A comparative study of feature extraction algorithms in customer reviews | |
Hanni et al. | Summarization of customer reviews for a product on a website using natural language processing | |
JP2008203933A (ja) | カテゴリ作成方法および装置、文書分類方法および装置 | |
CN109255022A (zh) | 一种用于网络文章的摘要自动提取方法 | |
Chen et al. | Personalized recommendation model: an online comment sentiment based analysis | |
CN113761114A (zh) | 短语生成方法、装置和计算机可读存储介质 | |
Yamada et al. | A text mining approach for automatic modeling of Kansei evaluation from review texts | |
Zin et al. | Term weighting scheme effect in sentiment analysis of online movie reviews | |
Sood et al. | Reasoning through search: a novel approach to sentiment classification | |
Li | Research on an Enhanced Web Information Processing Technology based on AIS Text Mining | |
Boddupalli et al. | Sentiment analysis of Telugu data and comparing advanced ensemble techniques using different text processing methods | |
KR20210137651A (ko) | 리뷰정보 기반 음식점 추천 방법 및 시스템 | |
Samy et al. | Aspect-based Sentiment Analysis of Mobile Apps Reviews using Class Association Rules and LDA | |
Hemalatha et al. | Direct-Indirect Association Rule Mining for Online Shopping Customer Data using Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |