CN106681982B - 英文长篇小说摘要生成方法 - Google Patents

英文长篇小说摘要生成方法 Download PDF

Info

Publication number
CN106681982B
CN106681982B CN201611007088.5A CN201611007088A CN106681982B CN 106681982 B CN106681982 B CN 106681982B CN 201611007088 A CN201611007088 A CN 201611007088A CN 106681982 B CN106681982 B CN 106681982B
Authority
CN
China
Prior art keywords
sentence
english
theme
autoabstract
novel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611007088.5A
Other languages
English (en)
Other versions
CN106681982A (zh
Inventor
吴宗大
雷力
郑城仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University of Technology
Original Assignee
Wenzhou University Oujiang College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University Oujiang College filed Critical Wenzhou University Oujiang College
Priority to CN201611007088.5A priority Critical patent/CN106681982B/zh
Publication of CN106681982A publication Critical patent/CN106681982A/zh
Application granted granted Critical
Publication of CN106681982B publication Critical patent/CN106681982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了英文长篇小说摘要生成方法,属于英文长篇小说摘要生成技术领域,该方法能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快。所述摘要生成过程为:先给出英文长篇自动摘要的问题定义;然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;再采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;然后从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;最后引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。

Description

英文长篇小说摘要生成方法
技术领域
本发明涉及英文长篇小说摘要生成技术领域,具体涉及英文长篇小说摘要生成方法。
背景技术
随着网上英文长篇小说数量的爆炸式增长,如果读者要想快速了解一篇英文长篇小说的主要内容,就得借助该英文长篇小说的摘要。目前,对英文长篇小说的摘要生成还采用人工方法,导致难于压缩提炼出英文长篇小说的主要内容。
发明内容
本发明是为了解决现有英文长篇小说的摘要生成还采用人工方法,导致难于压缩提炼出英文长篇小说主要内容的不足,提供一种英文长篇小说摘要生成方法,该方法能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。
以上技术问题是通过下列技术方案解决的:
英文长篇小说摘要生成方法,所述摘要生成过程如下:
步骤1,给出英文长篇自动摘要的问题定义;
步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;
步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;
步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;
步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。
本方案能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。
作为优选,所述问题定义包括摘要压缩率定义,所述摘要压缩率定义如下:
英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:
作为优选,所述问题定义还包括主题分布定义,所述主题分布定义如下:
记所有主题词组成的主题空间为记各主题词在英文长篇小说中的出现概率为则英文长篇小说的主题词概率分布向量为:
其中
作为优选,所述问题定义还包括摘要主题多样性定义,所述摘要主题多样性定义如下:
给定英文长篇小说及其自动摘要则自动摘要的主题多样性可通过自动摘要和英文长篇小说的主题概率分布向量之间的余弦相关性进行度量,则自动摘要的主题多样性为:
其中,
作为优选,所述问题定义还包括抽取式自动摘要问题定义,所述抽取式自动摘要问题定义如下:
英文长篇小说的自动摘要需要尽可能地同时满足高压缩率和高压缩质量这两个目标,则高压缩率和高压缩质量分别为:
从公式(4)和(5)可看出,高压缩率和高压缩质量这两个目标是一对矛盾体:
一方面,为了获取高压缩率,理想的自动摘要最好只包含一个句子或者为空,此时自动摘要的高压缩率达到最小值0;
另一方面,为了获取最佳的高压缩质量,理想的自动摘要最好覆盖英文长篇小说原文的所有主题,在最极端情况下,直接使用原文作自动摘要,此时主题多样性达到了最大值1;
为此,需要用一个抽取式自动摘要问题公式将高压缩率和高压缩质量这两个相互矛盾的目标统一起来,设该抽取式自动摘要问题的计算公式为:
其中,α∈[0,1]为平衡参数,用来平衡这两个相互矛盾的目标的影响,当公式(6)的值越大时则主题多样性目标越重要;反之,当公式(6)的值越小时则高压缩率目标越重要;
至此,高压缩率和高压缩质量这两个相互矛盾的目标就是如何从给定英文长篇小说中快速搜索出满足以上公式的自动摘要。
作为优选,主题建模处理过程如下:
在自动摘要生成过程中,主题建模的主要目的是为了发现英文长篇小说关联的主题词,进而获取摘要的候选句子。具体采用LDA算法对英文长篇小说进行主题建模和句子抽取。
作为优选,对自动摘要进行优化过程如下:
由于英文中大量存在着多义词和同义词,这对语义分析造成了极大的困扰;考虑到英文长篇小说和参考摘要的书写者、书写年代与词汇使用有极大的差异;有鉴于此,对机器摘要中一些同义词进行了映射,将其转化成了相对简单的单词,并将单词称作基本词,这有利于提高摘要的机器可阅读性;为此需要引入了外部语言资源,并构建外部语言资源相应的内部数据组织结构;为了处理摘要中的同义词问题,构建了一个同义词网;
(5.1)语义消歧:语义消歧任务可看作是一个分类任务;利用含有语义、词性标注的训练数据集来训练分类器;这意味着,输入一个目标词以及目标词的上下文信息,通过已经训练好的分类器可得到目标词最合适的语义;
(5.2)整合同义词组:从RogetThesaurus在线版中对同义词组进行整合得到同义词网,各个终点节点为基本词,即低级词,连通的节点表示终点词的同义词,并对同义词网的所有单词进行了排序,以加快查找操作;利用该同义词网可将自动摘要中的所有同义词,转换为它们对应的基本词;从而消除了大部分同义词问题,极大地提高了自动摘要的机器的可阅读性。
本发明能够达到如下效果:
1、本发明能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。
2、本发明能处理幅较长、上下文更复杂和涉及主题更多的英文长篇小说,压缩率较高。
3、本发明引入主题建模,通过获取英文长篇小说关联的上下文主题词,使得据此生成的自动摘要能更好地体现英文长篇小说的上下文场景,提高自动摘要的生成质量。
4、本发明以主题多样性来表示压缩质量和冗余率来表示压缩率为目标,定义了候选句子的重要性评估函数,给出了NP穷举难题的高效求解算法。
5、本发明结合SemCor和同义词词典的外部资源对自动摘要进行优化,以克服多义词或同义词引起的自动摘要语义混淆问题,使得最终生成的自动摘要具有更好的机器可读性。
附图说明
图1为本发明英文长篇小说自动生产摘要的一种过程架构示意图。
图2为本发明同义词网一种示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步的说明。
实施例,英文长篇小说摘要生成方法,参见图1所示,所述摘要生成过程如下:
步骤1,给出英文长篇自动摘要的问题定义;
步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;
步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;
步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的机器摘要;
步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要。
(一)问题定义过程如下:
所述问题定义包括摘要压缩率定义、主题分布定义、摘要主题多样性定义和抽取式自动摘要问题定义,
(1.1)所述摘要压缩率定义如下:
英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:
(1.2)所述主题分布定义如下:
记所有主题词组成的主题空间为记各主题词在英文长篇小说中的出现概率为则英文长篇小说的主题词概率分布向量为:
其中
(1.3)所述摘要主题多样性定义如下:
给定英文长篇小说及其自动摘要则自动摘要的主题多样性可通过自动摘要和英文长篇小说的主题概率分布向量之间的余弦相关性进行度量,则自动摘要的主题多样性为:
其中,
(1.4)所述抽取式自动摘要问题定义如下:
英文长篇小说的自动摘要需要尽可能地同时满足高压缩率和高压缩质量这两个目标,则高压缩率和高压缩质量分别为:
从公式(4)和(5)可看出,高压缩率和高压缩质量这两个目标是一对矛盾体:
一方面,为了获取高压缩率,理想的自动摘要最好只包含一个句子或者为空,此时自动摘要的高压缩率达到最小值0;
另一方面,为了获取最佳的高压缩质量,理想的自动摘要最好覆盖英文长篇小说原文的所有主题,在最极端情况下,直接使用原文作自动摘要,此时主题多样性达到了最大值1;
为此,需要用一个抽取式自动摘要问题公式将高压缩率和高压缩质量这两个相互矛盾的目标统一起来,设该抽取式自动摘要问题的计算公式为:
其中,α∈[0,1]为平衡参数,用来平衡这两个相互矛盾的目标的影响,当公式(6)的值越大时则主题多样性目标越重要;反之,当公式(6)的值越小时则高压缩率目标越重要;
至此,高压缩率和高压缩质量这两个相互矛盾的目标就是如何从给定英文长篇小说中快速搜索出满足以上公式的自动摘要。
(二)数据预处理过程如下:
在对源英文长篇小说进行主题建模和句子选取之前,需要对英文长篇小说进行预处理,具体包括章节分割、句子分割、单词分割、去停用词和词干化这几个步骤。
(2.1)章节分割:英文长篇小说通常由几十个章节所组成,相邻的章节之间既互相关联又彼此独立;由于每个章节是由作者直接设定的,为此,可独立地抽取出每个章节的主题,使得后面的主题建模能在确保句子抽取效果的前提下,通过多线程技术提高建模效率。
(2.2)句子分割:在英文长篇小说中,将最小的摘要处理单位设定为句子。采用NLTK中的句子分割器,在该句子分割器扫描英文长篇小说时,当遇到句子结束符时就划分为新的一句。英文长篇小说经过句子分割器分割后,英文长篇小说可表示为句子的集合,记作:
(2.3)单词分割:是将句子表示成独立的单词集合。由于英文一般以空格等特殊字符作为单词分隔符,把英文长篇小说的每个句子Si进一步表示为单词集合,记作:在单词分割过程中,还对每个单词进行了小写化,以方便后续步骤的处理。
(2.4)去停用词:停用词包括介词、代词和冠词,停用词几乎不携带任何的语言成分信息,因此为了避免停用词对自动摘要生成造成的干扰,需要过滤掉句子中的停用词。采用NLTK所列出的停用词表对单词分割后的句子集进行停用词过滤。
(2.5)词干化:每个单词都有其词根,词干化就是将不同词性以及不同时态的词转化为词根形式。
词干化可极大地集中语言信息,从而减少相关计算的规模,也能有效地避免后续主题建模时可能遇到的单词稀疏问题。采用Snowball算法将不同词性以及不同时态的词转化为词根形式。
(三)主题建模处理过程如下:
在自动摘要生成过程中,主题建模的主要目的是为了发现英文长篇小说关联的主题词,进而获取摘要的候选句子。具体采用LDA算法对英文长篇小说进行主题建模和句子抽取。
例如,如果在一篇文章中频繁地出现“地震”、“生还”、“抢救”等单词,则能大概判断出这篇文章的主题很有可能与“地震救援”有关。
LDA算法公式如下:
Pr(word|doc)=∑topicPr(word|topic)·Pr(topic|doc) (7),
其中,各个符号含义的说明如下:
Pr(word|doc):表示单词word在文档doc中的出现概率,它通常是已知的量,其值等于单词word在文档doc中的出现次数除以文档doc的单词总数。
Pr(word|topic):表示在给定主题topic的情况下,各个单词word的出现概率,用于描述单词和主题的相关程度。
Pr(topic|doc):表示在给定文档doc的情况下,各个主题topic的出现概率,用于描述主题和文档的相关程度。
给定一个英文长篇小说的文档集合,利用大量已知的Pr(word|doc),让LDA算法训练计算出两外两类未知的量:Pr(word|topic)和Pr(topic|doc)。因而,可使用LDA算法从一个文档集合中计算得到英文长篇小说的主题。在LDA算法中,每一篇文档代表了某些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
具体地,对于给定文档集中的每篇文档,LDA定义了以下的生成过程:
(3.1)对每篇英文长篇小说文档,根据它的主题分布,获取一个主题;
(3.2)从获取的主题对应的单词分布中,抽取一个单词;
(3.3)重复以上过程,直至遍历完英文长篇小说文档的每个单词。
最终,得到一系列的主题词以及主题词的分布概率。利用主题词,可回溯到英文长篇小说中含有该主题词的所有句子,将这些句子定义为主题句或称作候选句。因而,给定一个英文长篇小说经过主题建模后,将得到一个重要句子的集合,作为英文长篇小说摘要的候选句子集,记作:显然,使用工具Gensim来进行LDA主题建模。Gensim是一款专门用于LDA主题建模的工具,它是基于Python语言开发的开源第三方库,目前已被广泛地应用于LDA主题建模。使用的版本为0.13.1。
(四)句子选取过程如下:
经过前面主题模型的候选句子抽取操作后,英文长篇小说被变换为一个候选句子集合:该候选句子集合覆盖了英文长篇小说的所有主题,因而如果直接使用该候选句子集合作为英文长篇小说的自动摘要,显然能很好地满足主题多样性要求。然而,该候选句子集合的数量远大于理想摘要句子的数量,因而难以达到理想摘要的高压缩比要求。为此,需要从主题建模输出的候选句子集合中筛选信息量最大的句子,重新组成英文长篇小说摘要。
从问题定义所给出的目标函数可看出,如果直接利用该目标函数从候选句子集合中筛选出使得目标函数值最大的候选句子子集,则该候选句子子集是一个非常耗时的过程,其计算时间复杂度为:其中,θ是摘要期望压缩率。实际上,由于因而该求解过程的时间复杂度为:
由于英文长篇小说包含的候选句子规模较大,这种穷举法在实际中是不可行,这种穷举法会成为NP问题。为此,采用以下的方法进行自动摘要选取。
首先,认定高压缩比英文长篇小说的自动摘要过程必须达到的首要目标,从而将双目标优化问题转化为单目标优化问题。则将抽取式自动摘要问题重新定义如下:
其中,θ是期望压缩率,其值设定需保证自动摘要的长度不超过500个单词。
然后,定义句子重要性评估函数来量化评估每个候选句子在体现主题多样性上的重要程度,从而将组合空间的最优化搜索问题转换为基于“贪婪”策略的线性空间搜索问题。
这里主要根据各个句子在主题多样性上的表现和在冗余信息量上的表现来评估候选句子的重要性,从而选取出对主题多样性重要程度影响最大的候选句子,以构成英文长篇小说的摘要。
(4.1)对句子的正面主题多样性的观察可知:对于英文长篇小说的任一句子,它关联主题越多,则该句子就越重要;它关联的主题在英文长篇小说中出现的概率越高,则该句子就越重要。
例如,给定英文长篇小说的两个句子,如果一个句子关联两个出现概率较高的主题,而另一个句子仅关联一个出现概率较低的主题,显然,相比于第二个句子,选择第一个句子作为摘要更能体现主题多样性,即第一个句子更重要。基于观察1,可定义公式来度量句子集中各个句子关于主题多样性的表现情况。
句子的正面主题多样性定义:对于任一候选句子该句子的正面主题多样性度量如下:
其中,θ1为参数,在实验中被设定为2。
例子1:对于英文长篇小说《JaneEyre》中的句子“I never liked long walks,especially on chilly afternoons:dreadful to me was the coming home in the rawtwilight,with nipped fingers and toes,and a heart saddened by the chidings ofBessie,the nurse,and humbled by the consciousness of my physical inferiorityto Eliza,John,and Georgiana Reed”。其中单词“Reed”以及“John”都是主题词,假定它们的主题出现概率分别为0.013和0.008,那么将两个主题概率值相加以后再乘以(假定α1=2),得到的值就是该句子的正面主题多样性度量值。
(4.2)对句子的负面主题多样性的观察可知:对于英文长篇小说的任一句子,如果它关联的主题均没有当前英文长篇小说摘要中出现过,则该句子越重要,该句子主题冗余量小;否则,如果它关联的主题在当前英文长篇小说摘要中出现的次数越大,则该句子越不重要,该句子主题冗余量大。
假定已经获得了一个当前非完整的英文长篇小说的摘要为了方便描述,假定摘要仅包含一个关联主题A的句子,则给定英文长篇小说的两个句子分别关联两个同等重要的主题A和B,对句子的负面主题多样性的观察可知,将认为第一个句子出现了主题冗余,其关联的主题在当前摘要中出现过,而第二个句子更加重要。基于对句子的负面主题多样性的观察可知,可定义公式来度量候选句子集中各个句子关于主题标题多样性的冗余表现情况。
句子的负面主题多样性定义:给定一个当前英文长篇小说摘要对于英文长篇小说的任一候选句子该句子的负面主题多样性可度量公式如下:
其中,表示主题词Wt在摘要中的出现次数,θ2为参数,在实验中被设定为2。
例子2:对于例子1给定的句子,假定“Reed”和“John”这两个句子相关的主题词分别在当前英文长篇小说摘要中出现过2次和1次,并假定α2=1。则句子的负面主题多样性为1+2+1,等于4。说明负面主题多样性值越小,句子越重要。
(4.3)对句子的信息冗余量的观察可知,对于英文长篇小说的任一句子,它包含的无用词越多,则该句子就越不重要;反之,包含的无用词越少,就越重要。
例如,给定英文长篇小说的两个句子,如果两个句子均关联同样主题,但第一个句子包含的无用单词数量高于第二个句子,考虑到摘要的高压缩比限制,显然,相比于第二个句子,选择第一个句子更合适,即第一个句子更不重要,因为在同样的主题多样性表现下,第一个句子的冗余英文长篇小说信息更多。类符/形符比是语料库语言学中常见的概念,其中,类符表示不重复的单词数量,而形符则表示给定语料库所有的单词数量,它常被用来衡量一个语料库的词汇密度。受此启发,结合对句子的信息冗余量的观察可定义公式来度量候选句子集中各个句子的冗余英文长篇小说信息量。
句子的信息冗余量定义:对于任一候选句子符号表示所有的无用词的集合,则该句子的冗余信息可度量公式如下:
其中,表示单词W在句子中的出现次数。
从公式可看出,认为一个句子中的无用词越多,则它包含的情节信息越少,即冗余信息量越大。如英文长篇小说《JaneEyre》中出现的两个句子“Do you think,because I ampoor,obscure,plain,and little,I am soulless and heartless?”和“What do youwant?”和“Whatdoyouwant?”,这两句话的冗余信息量分别为0.4375和0.25。
根据负面主题多样性可度量公式和冗余信息可度量公式可得到以下的句子重要性评估公式:
句子重要性评估公式的值越大,则句子越重要。
(4.4)对句子情节位置的观察可知,句子位置同样是句子选取的重点研究方向,在此,考虑英文长篇小说的特征观察了句子的情节位置;通常的叙述性英文长篇小说情节都可分为三个组成部分:开头、经过和结尾,其中每个部分包含信息量并不相同;为此,摘要也应有对应的三个组成部分,以尽可能保持与原文一致的主题多样性,它们都应选取英文长篇小说中对应的部分。
例如,摘要的开头部分应抽取自英文长篇小说的开头中的句子,其算法如下:
输入:英文长篇小说
基于主题模型,获取摘要的候选句子集
计算候选句子的正面主题多样性
计算候选句了的信息冗余量
endfor
设置为空;
Forkfroml to3do
基于当前摘要计算负面主题多样性
基于计算
endfor
获取中拥有最大重要性函数值的候选句子
候选句子加入摘要候选句子从英文长篇小说句子集移除;
endwhile
endfor
return英文长篇小说初始摘要
(4.5)对句子情节位置的观察后可知,可将分割后的英文长篇小说候选句子集划分为三部子集:开头、经过和结尾;然后分别从这三个子集中选取重要性评分最高的句子,作为英文长篇小说的摘要。
选取重要性评分最高的句子的过程如下:首先,确定英文长篇小说开头、经过和结果部分所占比例,分别记作α1、α2和α3;这里按照叙述性英文长篇小说的一般性规律,即开头部分和结尾部分各占20%,经过部分占60%,设定α1=α3=0.2和α2=0.6;然后根据主题建模中确定的候选句子集合其中m英文长篇小说候选句子数量,确定三个候选句子子集,分别记作:
最后,将分别从这三个子集中选取最重要的句子,构成自动摘要。根据句子的重要性评估值,从选取个重要性最高的句子,记作类似地,从选取个最重要的句子选取,记作选取个最重要的句子选取,记作最后,合并成最终的摘要算法1给出了基于句子重要性评估函数的英文长篇小说抽取式自动算法描述。
(五)对自动摘要进行优化过程如下:
由于英文中大量存在着多义词和同义词,这对语义分析造成了极大的困扰。考虑到英文长篇小说和参考摘要的书写者、书写年代与词汇使用有极大的差异。有鉴于此,对机器摘要中一些同义词进行了映射,将其转化成了相对简单的单词,并将单词称作基本词,这有利于提高摘要的机器可阅读性。为此需要引入了外部语言资源,并构建外部语言资源相应的内部数据组织结构。为了处理摘要中的同义词问题,构建了一个同义词网。
(5.1)语义消歧:语义消歧任务可看作是一个分类任务;利用含有语义、词性标注的训练数据集来训练分类器;这意味着,输入一个目标词以及目标词的上下文信息,通过已经训练好的分类器可得到目标词最合适的语义。
参见图2所示,图2表示同义词网,其中黑色表示低级词,白色表示非低级词。
采用SemCor作为训练数据集。SemCor是Brown语料库的子集,总共360,000字,约234,000的语义标注信息,在语义消歧中被广泛使用。
(5.2)整合同义词组:从RogetThesaurus在线版中对同义词组进行整合得到同义词网,各个终点节点为基本词,即低级词,连通的节点表示终点词的同义词,并对同义词网的所有单词进行了排序,以加快查找操作。利用该同义词网可将自动摘要中的所有同义词,转换为它们对应的基本词。从而消除了大部分同义词问题,极大地提高了自动摘要的机器的可阅读性。
RogetThesaurus是一部大型的同义词词典。爬取了约250,000个词的同义词,这是一种一对多的关系。即一个词对应多个语义、一个语义组中有多个同义词。例如,“good”,既有“fine(adj.)”的意思,也有“advantage(n.)”的意思,在表示,而“great”和“wonderful”属于“fine”的同义词组中的同义词。然后,利用“基本词”和牛津学习者词典提供基本词来对一个同义词组进行标志,构建一个同义词单元。从语义相似度程度上来说,一个同义词组中的所有的相似度均为1。例如“good”同时也是一个“基本词”,所以可用它来标注“fine”这个同义词组。需要说明的是,这些基本词是语言学家抽取出来的低级词,但这些低级词可帮助英语学习者更好地理解文章意思。如维基百科简易版里的文章都用基本词来进行创作。
综上所述,这个将摘要的同义词和多义词转换为基本词的算法可称之为基本词单元算法。利用这个基本词单元算法,将人工摘要与机器摘要的单词做了一个较好统一,提高机器摘要的质量。本实施例能对英文长篇小说进行摘要的自动生成,并且生成摘要的速度较快、质量较高。
上面结合附图描述了本发明的实施方式,但实现时不受上述实施例限制,本领域普通技术人员可在所附权利要求的范围内做出各种变化或修改。

Claims (6)

1.英文长篇小说摘要生成方法,其特征在于,所述摘要生成过程如下:
步骤1,给出英文长篇自动摘要的问题定义;
步骤2,然后对英文长篇小说的章节分割、句子分割、单词分割、去停用词和词干化进行数据预处理;
步骤3,采用主题建模处理来发现英文长篇小说关联的主题词,进而获取摘要的候选句子,并形成候选句子集;
步骤4,从主题建模输出的候选句子集合中筛选信息量最大的句子,句子选取后重新组成英文长篇小说的自动摘要;
步骤5,引入外部语言资源,并构建外部语言资源相应的内部数据组织结构来对自动摘要进行优化,从而生成有效的自动摘要;
所述步骤4包括以下步骤:
首先,认定高压缩率英文长篇小说的自动摘要过程必须达到的首要目标,则将抽取式自动摘要问题重新定义如下:
其中,θ是期望压缩率,为英文长篇小说的压缩率,为自动摘要的主题多样性,为自动摘要,为给定英文长篇小说;
然后,定义句子重要性评估函数来量化评估每个候选句子在体现主题多样性上的重要程度,从而将组合空间的最优化搜索问题转换为基于“贪婪”策略的线性空间搜索问题,这里主要根据各个句子在主题多样性上的表现和在冗余信息量上的表现来评估候选句子的重要性,从而选取出对主题多样性重要程度影响最大的候选句子,以构成英文长篇小说的摘要,具体步骤如下:
句子的正面主题多样性定义:对于任一候选句子该句子的正面主题多样性度量如下:
其中,θ1为参数,Wt为主题词,为所有主题词组成的主题空间,Pr(Wt)为主题Wt出现概率;
句子的负面主题多样性定义:给定一个当前英文长篇小说摘要对于英文长篇小说的任一候选句子该句子的负面主题多样性可度量公式如下:
其中,表示主题词Wt在摘要中的出现次数,θ2为参数,Wt为主题词,为所有主题词组成的主题空间;
句子的信息冗余量定义:对于任一候选句子符号表示所有的无用词的集合,则该句子的冗余信息可度量公式如下:
其中,表示单词W在句子中的出现次数;
根据负面主题多样性可度量公式和冗余信息可度量公式可得到以下的句子重要性评估公式:
句子重要性评估公式的值越大,则句子越重要;
将分割后的英文长篇小说候选句子集划分为三部子集:开头、经过和结尾;然后分别从这三个子集中选取重要性评分最高的句子,作为英文长篇小说的摘要;
选取重要性评分最高的句子的过程如下:首先,确定英文长篇小说开头、经过和结尾部分所占比例,分别记作α1、α2和α3;这里按照叙述性英文长篇小说的一般性规律,即开头部分和结尾部分各占20%,经过部分占60%,设定α1=α3=0.2和α2=0.6;然后根据主题建模中确定的候选句子集合其中m为英文长篇小说候选句子数量,确定三个候选句子子集,分别记作:
最后,将分别从这三个子集中选取最重要的句子,构成自动摘要;根据句子的重要性评估值,从选取个重要性最高的句子,记作类似地,从选取个最重要的句子,记作选取个最重要的句子,记作最后,合并成最终的摘要其中,θ是期望压缩率。
2.根据权利要求1所述英文长篇小说摘要生成方法,其特征在于,所述问题定义包括英文长篇小说的压缩率,所述英文长篇小说的压缩率定义如下:
英文长篇小说可表示为句子的集合,记作英文长篇小说的自动摘要也可表示为句子的集合,记作通常有那么自动摘要关于英文长篇小说的压缩率为:
3.根据权利要求2所述英文长篇小说摘要生成方法,其特征在于,所述问题定义还包括主题分布定义,所述主题分布定义如下:
记所有主题词组成的主题空间为记各主题词在英文长篇小说和的出现概率为则英文长篇小说的主题词概率分布向量为:
其中
4.根据权利要求3所述英文长篇小说摘要生成方法,其特征在于,所述问题定义还包括自动摘要的主题多样性定义,所述自动摘要的主题多样性定义如下:
给定英文长篇小说及其自动摘要则自动摘要的主题多样性可通过自动摘要和英文长篇小说的主题概率分布向量之间的余弦相关性进行度量,则自动摘要的主题多样性为:
其中,
5.根据权利要求1所述英文长篇小说摘要生成方法,其特征在于,主题建模处理过程如下:
在自动摘要生成过程中,主题建模的主要目的是为了发现英文长篇小说关联的主题词,进而获取摘要的候选句子;具体采用LDA算法对英文长篇小说进行主题建模和句子抽取。
6.根据权利要求5所述英文长篇小说摘要生成方法,其特征在于,对自动摘要进行优化过程如下:
由于英文中大量存在着多义词和同义词,这对语义分析造成了极大的困扰;考虑到英文长篇小说和参考摘要的书写者、书写年代与词汇使用有极大的差异;有鉴于此,对自动摘要中一些同义词进行了映射,将其转化成了相对简单的单词,并将单词称作基本词,这有利于提高摘要的机器可阅读性;为此需要引入了外部语言资源,并构建外部语言资源相应的内部数据组织结构;为了处理摘要中的同义词问题,构建了一个同义词网;
(5.1)语义消歧:语义消歧任务可看作是一个分类任务;利用含有语义、词性标注的训练数据集来训练分类器;这意味着,输入一个目标词以及目标词的上下文信息,通过已经训练好的分类器可得到目标词最合适的语义;
(5.2)整合同义词组:从Roget’s Thesaurus在线版中对同义词组进行整合得到同义词网,各个终点节点为基本词,即低级词,连通的节点表示终点词的同义词,并对同义词网的所有单词进行了排序,以加快查找操作;利用该同义词网可将自动摘要中的所有同义词,转换为它们对应的基本词;从而消除了大部分同义词问题,极大地提高了自动摘要的机器可阅读性。
CN201611007088.5A 2016-11-15 2016-11-15 英文长篇小说摘要生成方法 Active CN106681982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611007088.5A CN106681982B (zh) 2016-11-15 2016-11-15 英文长篇小说摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611007088.5A CN106681982B (zh) 2016-11-15 2016-11-15 英文长篇小说摘要生成方法

Publications (2)

Publication Number Publication Date
CN106681982A CN106681982A (zh) 2017-05-17
CN106681982B true CN106681982B (zh) 2018-04-24

Family

ID=58839444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611007088.5A Active CN106681982B (zh) 2016-11-15 2016-11-15 英文长篇小说摘要生成方法

Country Status (1)

Country Link
CN (1) CN106681982B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287413A (zh) * 2019-06-19 2019-09-27 掌阅科技股份有限公司 电子书描述信息的显示方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN105989058A (zh) * 2015-02-06 2016-10-05 北京中搜网络技术股份有限公司 一种汉语新闻摘要生成系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Automatic summarization of English broadcast news speech;Chiori Hori et al.;《Proceeding HLT‘02 Proceedings of the second international conference on Human Language Technology Research》;20020327;第241-246页 *
英文自动文摘的研究与实现;彭蓉霞;《中国优秀硕士学位论文全文数据库哲学与人文科学辑》;20140915;第F085-125页 *

Also Published As

Publication number Publication date
CN106681982A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
Li et al. Recursive deep models for discourse parsing
CN107463553B (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
Hadni et al. Word sense disambiguation for Arabic text categorization.
Sahu et al. Prashnottar: a Hindi question answering system
CN111694927A (zh) 一种基于改进词移距离算法的文档自动评阅方法
Errami et al. Sentiment Analysis onMoroccan Dialect based on ML and Social Media Content Detection
Wong et al. isentenizer-: Multilingual sentence boundary detection model
US20220207240A1 (en) System and method for analyzing similarity of natural language data
Liu et al. Semantic relata for the evaluation of distributional models in mandarin chinese
Barteld et al. Token-based spelling variant detection in Middle Low German texts
CN106681982B (zh) 英文长篇小说摘要生成方法
Rahul et al. Social media sentiment analysis for Malayalam
Han et al. Unsupervised Word Sense Disambiguation based on Word Embedding and Collocation.
Albukhitan et al. Arabic ontology learning from un-structured text
Pease et al. Toward a semantic concordancer
Kumar et al. A review of literature on word sense disambiguation
Sidhu et al. Role of machine translation and word sense disambiguation in natural language processing
Emami et al. Designing a Deep Neural Network Model for Finding Semantic Similarity Between Short Persian Texts Using a Parallel Corpus
Ali et al. Word embedding based new corpus for low-resourced language: Sindhi
Jebbor et al. Overview of knowledge extraction techniques in five question-answering systems
Yuan et al. Semantic based chinese sentence sentiment analysis
Maciołek et al. Using shallow semantic analysis and graph modelling for document classification
Yin et al. CDQA: An ontology-based question answering system for Chinese delicacy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant