CN104778157A - 一种多文档摘要句的生成方法 - Google Patents
一种多文档摘要句的生成方法 Download PDFInfo
- Publication number
- CN104778157A CN104778157A CN201510092922.4A CN201510092922A CN104778157A CN 104778157 A CN104778157 A CN 104778157A CN 201510092922 A CN201510092922 A CN 201510092922A CN 104778157 A CN104778157 A CN 104778157A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sub
- topics
- document
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多文档摘要句的生成方法,包括下述步骤:S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得到的每一个簇记为一个子主题;S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度,并根据重要程度对子主题进行排序;S3、对每个子主题下的句子进行评分,并进行排序;S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。
Description
技术领域
本发明涉及自动化摘要的研究领域,特别涉及一种一种多文档摘要句的生成方法。
背景技术
随着互联网的普及以及各种网络应用的飞速发展,便捷的获取方式以及齐全的种类使其成为人们获取各种信息的主要渠道。多文档摘要通过对同一主题下的多个原始文本进行处理,从大量信息中提取出主要信息,经过重新组合、润色后,生成一段能全面准确反映原始文本主要内容且简短、连贯、不含冗余信息的文字,呈现给用户阅读。摘要句抽取即从描述相关话题的类中抽取能够表达文档主题信息、内容充实的句子作为摘要句。根据主题的重要程度从中选取句子,使摘要句尽量概括主题的重要内容。常见的摘要句生成方法有以下几种:基于统计的方法、基于图的方法、基于篇章结构的方法和基于机器学习的方法。
基于统计的方法是自动文摘最早处理单文档文摘时就使用的方法,一直沿用至现在多文档文摘的研究中。该方法的核心是利用从词频或分布等特征中导出的统计信息去计算词或句子的重要性,进而对句子进行排序,抽取排在前面的几个句子形成所谓的自动文摘。这种方法需要多个特征配合使用才能取得较好的文摘结果,在特征选择和调参上存在大量的工作;另一方面,该方法无法体现更深层的语义分析,从而也无法表达精确的信息。
基于图的方法把顺序的多文档集转换为一个无向图,一般结点表示文本片段,结点间的边为片断之间的关系(如相似度,语义关系等)。通过对图的拓扑结构分析,获得文本片段在整个文档集中的重要度。这种方法的缺点在于计算复杂度较高,容易陷入局部最优。
基于篇章结构的方法不以单个句子的评分为目标,而是以最终机器文摘所需达到的各种指标为算法的直接目标。文摘既是全文的压縮,也是全文的替代,文摘句之间并非独立存在,而更应是组合成文的关系,所以全局优化的思路更贴合文摘的特性。但这种方法以机器文摘的量化指标为目的,而忽略了人在阅读时呈现的更自然的特性,如可读性、连贯性、一致性、内容含量等。
基于机器学习的方法从标准文摘中获取监督信息,通过提取一系列的句子特征,训练句子分类或排序模型,实现文摘句的提取。机器学习的方法受训练集影响较大,而自动文摘领域现有数据集的规模有限,这使得基于机器学习的方法的性能受限。同时,监督信息的获取也是一大问题。受人力所限,现有数据集中提供的标准文摘数量不多,所以能获取的监督信息数量较少;同时大部分标准文摘为理解式文摘,难以在多文档集中找到一一匹配的原句,所以如何解决模糊匹配问题、准确有效地提取监督信息也是基于机器学习的方法中的技术难点。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种多文档摘要句的生成方法。
为了达到上述目的,本发明采用以下技术方案:
一种多文档摘要句的生成方法,包括下述步骤:
S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得到的每一个簇记为一个子主题;
S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度,并根据重要程度对子主题进行排序;
S3、对每个子主题下的句子进行评分,并进行排序;
S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。
优选的,步骤S2中,子主题的重要度由其覆盖的文档数和包含的句子数目共同评定,如果一个子主题所涉及的文档数越多,包含的句子数目越多,该子主题则越重要。具体为:假设子主题共覆盖了DCi个文档,包含了SCi个句子,则该子主题的重要度得分为:
其中,λD+λS=1,用于调节文档覆盖度和句子包含数目在评分函数中的作用,N是所有的文档数目,M是所有的句子数目。
优选的,步骤S3中,句子的重要程度由以下两个因素决定,1)应包含尽量多的语义概念;2)作为摘要句应尽量短;具体为:假设句子包含了CCi个语义概念,长度为Li,则该句子的重要度得分为:
优选的,步骤S4中,为了提高可读性,如果候选摘要句中没有主语,或只有指示代词作为主语,则为其寻找主语,具体为:当确定某一句子为子主题中重要程度最后的句子,即判定为候选摘要句,识别该摘要句是否有主语,或主语是否为指示代词,如是,则在句子所属文档中向前进行搜索,寻找最近的主语非指示代词的句子,将该主语作为候选摘要句的主语,或替换候选摘要句中的指示代词。
优选的,步骤S4中,在得到摘要句的最终评分并输出最终摘要的方法为:
对每个子主题下的句子进行评分后,从每个子主题中抽取出重要度评分最高的句子作为摘要句,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明基于主题的分析方法,建立在主题的定义和表示上,通过识别文档集内的主题、判断核心主题、分析各主题之间关系等途径,获取重要的主题句作为候选文摘片段。
2、考虑到一篇摘要作为一篇自然文档,也应该具备主次分明,重点突出的特点,采用量化手段评估子主题的重要性,既考虑了子主题的覆盖性(涉及的文档数),又考虑的子主题的普遍性(包含的句子数)。
3、本发明考虑到作为一篇摘要,既应做到信息全面丰富、逻辑顺序合理,另一方面也要尽量的简洁精炼,因此,提出量化手段评估候选摘要句的重要性,使用句子的语义概念与句子长度的比例为指标,兼顾了摘要句的信息量和长度。
4、考虑到语料来源的多样性,多文档摘要中的句子可能来源于不同的文档,为提高可读性,本发明提出了解决摘要句中无主语或主语是指示代词的方案。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,一种多文档摘要句的生成方法,包括下述步骤:
S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得到的每一个簇记为一个子主题;
S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度,并根据重要程度对子主题进行排序;
上述子主题的重要度由其覆盖的文档数和包含的句子数目共同评定,如果一个子主题所涉及的文档数越多,包含的句子数目越多,该子主题则越重要。具体为:假设子主题共覆盖了DCi个文档,包含了SCi个句子,则该子主题的重要度得分为:
其中,λD+λS=1,用于调节文档覆盖度和句子包含数目在评分函数中的作用,N是所有的文档数目,M是所有的句子数目。
S3、对每个子主题下的句子进行评分,并进行排序;
句子的重要程度由以下两个因素决定,1)应包含尽量多的语义概念;2)作为摘要句应尽量短。具体为:假设句子包含了CCi个语义概念,长度为Li,则该句子的重要度得分为:
S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。
为了提高可读性,如果候选摘要句中没有主语,或只有指示代词作为主语,则为其寻找主语。具体为:当确定某一句子为子主题中重要程度最后的句子,即判定为候选摘要句,识别该摘要句是否有主语,或主语是否为指示代词,如是,则在句子所属文档中向前进行搜索,寻找最近的主语非指示代词的句子,将该主语作为候选摘要句的主语,或替换候选摘要句中的指示代词。
本实施例中,在得到摘要句的最终评分并输出最终摘要的方法为:
对每个子主题下的句子进行评分后,从每个子主题中抽取出重要度评分最高的句子作为摘要句,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种多文档摘要句的生成方法,其特征在于,包括下述步骤:
S1、以句子特征向量空间为输入,根据句子特征向量相似度对句子作聚类分析,计算得到的每一个簇记为一个子主题;
S2、根据子主题的文档集合覆盖程度以及所包含的句子数目来确定该子主题的重要程度,并根据重要程度对子主题进行排序;
S3、对每个子主题下的句子进行评分,并进行排序;
S4、从每个子主题中抽取出重要度评分最高的句子作为摘要句,对这些句子中作为主语的指示代词进行替换,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。
2.根据权利要求1所述的一种多文档摘要句的生成方法,其特征在于,步骤S2中,子主题的重要度由其覆盖的文档数和包含的句子数目共同评定,如果一个子主题所涉及的文档数越多,包含的句子数目越多,该子主题则越重要。具体为:假设子主题共覆盖了DCi个文档,包含了SCi个句子,则该子主题的重要度得分为:
其中,λD+λS=1,用于调节文档覆盖度和句子包含数目在评分函数中的作用,N是所有的文档数目,M是所有的句子数目。
3.根据权利要求1所述的一种多文档摘要句的生成方法,其特征在于,步骤S3中,句子的重要程度由以下两个因素决定,1)应包含尽量多的语义概念;2)作为摘要句应尽量短;具体为:假设句子包含了CCi个语义概念,长度为Li,则该句子的重要度得分为:
4.根据权利要求1所述的一种多文档摘要句的生成方法,其特征在于,步骤S4中,为了提高可读性,如果候选摘要句中没有主语,或只有指示代词作为主语,则为其寻找主语,具体为:当确定某一句子为子主题中重要程度最后的句子,即判定为候选摘要句,识别该摘要句是否有主语,或主语是否为指示代词,如是,则在句子所属文档中向前进行搜索,寻找最近的主语非指示代词的句子,将该主语作为候选摘要句的主语,或替换候选摘要句中的指示代词。
5.根据权利要求1所述的一种多文档摘要句的生成方法,其特征在于,步骤S4中,在得到摘要句的最终评分并输出最终摘要的方法为:
对每个子主题下的句子进行评分后,从每个子主题中抽取出重要度评分最高的句子作为摘要句,并把摘要句按句子所属子主题的重要度评分进行排序,最终生成并输出摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510092922.4A CN104778157A (zh) | 2015-03-02 | 2015-03-02 | 一种多文档摘要句的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510092922.4A CN104778157A (zh) | 2015-03-02 | 2015-03-02 | 一种多文档摘要句的生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104778157A true CN104778157A (zh) | 2015-07-15 |
Family
ID=53619631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510092922.4A Pending CN104778157A (zh) | 2015-03-02 | 2015-03-02 | 一种多文档摘要句的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104778157A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991965A (zh) * | 2015-07-23 | 2015-10-21 | 上海智臻网络科技有限公司 | 用于基于标准问创建扩展问的方法和装置 |
CN106066867A (zh) * | 2016-05-27 | 2016-11-02 | 东软集团股份有限公司 | 一种提取摘要的方法及装置 |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN108090049A (zh) * | 2018-01-17 | 2018-05-29 | 山东工商学院 | 基于句子向量的多文档摘要自动提取方法及系统 |
CN108417204A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息安全处理方法 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
US10929452B2 (en) | 2017-05-23 | 2021-02-23 | Huawei Technologies Co., Ltd. | Multi-document summary generation method and apparatus, and terminal |
-
2015
- 2015-03-02 CN CN201510092922.4A patent/CN104778157A/zh active Pending
Non-Patent Citations (1)
Title |
---|
胡立: "基于语义层次聚类的多文档自动摘要研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991965A (zh) * | 2015-07-23 | 2015-10-21 | 上海智臻网络科技有限公司 | 用于基于标准问创建扩展问的方法和装置 |
CN104991965B (zh) * | 2015-07-23 | 2018-11-23 | 上海智臻智能网络科技股份有限公司 | 用于基于标准问创建扩展问的方法和装置 |
CN109241266A (zh) * | 2015-07-23 | 2019-01-18 | 上海智臻智能网络科技股份有限公司 | 人机交互中基于标准问创建扩展问的方法和装置 |
CN106066867A (zh) * | 2016-05-27 | 2016-11-02 | 东软集团股份有限公司 | 一种提取摘要的方法及装置 |
CN106066867B (zh) * | 2016-05-27 | 2019-08-27 | 东软集团股份有限公司 | 一种提取摘要的方法及装置 |
US10929452B2 (en) | 2017-05-23 | 2021-02-23 | Huawei Technologies Co., Ltd. | Multi-document summary generation method and apparatus, and terminal |
CN107688652A (zh) * | 2017-08-31 | 2018-02-13 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN107688652B (zh) * | 2017-08-31 | 2020-12-29 | 苏州大学 | 面向互联网新闻事件的演化式摘要生成方法 |
CN108090049A (zh) * | 2018-01-17 | 2018-05-29 | 山东工商学院 | 基于句子向量的多文档摘要自动提取方法及系统 |
CN108090049B (zh) * | 2018-01-17 | 2021-02-05 | 山东工商学院 | 基于句子向量的多文档摘要自动提取方法及系统 |
CN108417204A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息安全处理方法 |
CN108417206A (zh) * | 2018-02-27 | 2018-08-17 | 四川云淞源科技有限公司 | 基于大数据的信息高速处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Salloum et al. | Mining social media text: extracting knowledge from Facebook | |
CN104778157A (zh) | 一种多文档摘要句的生成方法 | |
CN103970729B (zh) | 一种基于语义类的多主题提取方法 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN106372122B (zh) | 一种基于维基语义匹配的文档分类方法及系统 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
Ahlgren | Research on sentiment analysis: the first decade | |
CN108399265A (zh) | 基于搜索的实时热点新闻提供方法及装置 | |
CN111753067A (zh) | 一种技术交底文本创新性评估方法、装置和设备 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN116187323A (zh) | 一种数控机床领域知识图谱及其构建方法 | |
Yao et al. | Online deception detection refueled by real world data collection | |
CN110245234A (zh) | 一种基于本体和语义相似度的多源数据样本关联方法 | |
CN118113806A (zh) | 一种大模型检索增强生成的可解释事件脉络生成方法 | |
CN111694960A (zh) | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 | |
CN114416914A (zh) | 一种基于图片问答的处理方法 | |
CN113239277A (zh) | 一种基于用户评论的概率矩阵分解推荐方法 | |
KR20130067070A (ko) | 논쟁적인 이슈에 관한 상반된 관점들을 제시할 수 있는 기사 분류 방법 및 시스템 | |
Maibaum et al. | Selecting textual analysis tools to classify sustainability information in corporate reporting | |
Blooma et al. | Clustering similar questions in social question answering services | |
CN112948544B (zh) | 一种基于深度学习与质量影响的图书检索方法 | |
Pham | Building Effective Features based on Automatic Learning for Smart Search | |
CN118484665B (zh) | 基于nlp技术实现文本主题的智能提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150715 |