CN109726282A - 一种生成文章摘要的方法、装置、设备和存储介质 - Google Patents

一种生成文章摘要的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109726282A
CN109726282A CN201811604835.2A CN201811604835A CN109726282A CN 109726282 A CN109726282 A CN 109726282A CN 201811604835 A CN201811604835 A CN 201811604835A CN 109726282 A CN109726282 A CN 109726282A
Authority
CN
China
Prior art keywords
article
abstract
object statement
sentence
purport
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811604835.2A
Other languages
English (en)
Inventor
赵耕弘
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811604835.2A priority Critical patent/CN109726282A/zh
Publication of CN109726282A publication Critical patent/CN109726282A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种生成文章摘要的方法和装置,包括从文章中选取目标语句并分析该目标语句的语义与文章的主旨之间的相关程度,若该目标语句的语义与文章的主旨之间的相关程度满足摘要语句条件,则将该目标语句确定为该文章的摘要语句,并以所确定出的摘要语句,组成该文章的摘要。可见,由于文章中语句通常都会达到语义表达顺畅的程度,而组成文章摘要的目标语句又是从文章中抽取出来,因此,基于文章中的语句所生成的文章摘要更容易被阅读者理解;而且,从文章中抽取出的目标语句是满足摘要语句条件的,因此,由该目标语句所组成的文章摘要也清晰的表达了文章的主旨,从而使得阅读者基于所生成的文章摘要能够理解该文章的主旨。

Description

一种生成文章摘要的方法、装置、设备和存储介质
技术领域
本发明涉及信息处理技术领域,特别是涉及一种生成文章摘要的方法、装置、设备和存储介质。
背景技术
随着信息量的爆发,对于舆情、检索、内容理解等领域来说,文章的摘要能够更便于信息的搜集与筛选,因此有必要为文章生成摘要。目前,文章摘要可以通过深度学习的方式生成。深度学习模型通过对文章大意的学习,可以生成能够表达文章大意的语句。但是,深度学习模型生成的语句往往难以达到语义表达通顺的程度,这可能会使得阅读者对文章摘要难以理解。
发明内容
本发明所要解决的技术问题是,提供一种生成文章摘要的方法、装置、设备和存储介质,以使得文章摘要的语句能够达到语义表达通顺的程度,从而使得文章摘要更容易被阅读者理解。
第一方面,本申请实施例提供了一种生成文章摘要的方法,包括:
从文章中选取目标语句并分析所述目标语句的语义与所述文章的主旨之间的相关程度;
若所述目标语句的语义与所述文章的主旨之间的相关程度满足摘要语句条件,将所述目标语句确定为所述文章的摘要语句;
以确定出的摘要语句,组成所述文章的摘要。
在一些可能的实施方式中,所述分析所述目标语句的语义与所述文章的主旨之间的相关程度,具体为:
根据所述目标语句与所述文章的语义相似度、所述目标语句对所述文章的区分度以及所述目标语句在所述文章中的位置,计算所述目标语句的语义与所述文章的主旨之间的相关程度。
在一些可能的实施方式中,所述摘要语句条件为:所述摘要语句的语义与所述文章的主旨之间的相关程度高于所述文章中除所述摘要语句之外的非摘要语句的语义与所述文章的主旨之间的相关程度;所述摘要语句的长度之和不超过所述摘要的长度限制。
在一些可能的实施方式中,还包括:
计算所述目标语句分别与所述文章中除所述目标语句之外的各其他语句之间的语义相似度;
将计算得到的各语义相似度之和确定为所述目标语句与所述文章的语义相似度。
在一些可能的实施方式中,还包括:
计算所述目标语句中的各词语对所述文章的区分度;
将计算得到的各区分度之和确定为所述目标语句对所述文章的区分度。
在一些可能的实施方式中,所述词语对所述文章的区分度根据所述词语在所述文章中的词频和所述词语的逆文本频率指数进行计算。
第二方面,本申请实施例还提供了一种生成文章摘要的装置,所述装置包括:
选取模块,用于从文章中选取目标语句;
分析模块,用于分析所述目标语句的语义与所述文章的主旨之间的相关程度;
确定模块,用于若所述目标语句的语义与所述文章的主旨之间的相关程度满足摘要语句条件,将所述目标语句确定为所述文章的摘要语句;
组成模块,用于以确定出的摘要语句,组成所述文章的摘要。
在一些可能的实施方式中,所述分析模块,具体用于根据所述目标语句与所述文章的语义相似度、所述目标语句对所述文章的区分度以及所述目标语句在所述文章中的位置,计算所述目标语句的语义与所述文章的主旨之间的相关程度。
在一些可能的实施方式中,所述摘要语句条件为:所述摘要语句的语义与所述文章的主旨之间的相关程度高于所述文章中除所述摘要语句之外的非摘要语句的语义与所述文章的主旨之间的相关程度;所述摘要语句的长度之和不超过所述摘要的长度限制。
在一些可能的实施方式中,该装置还包括:
第一计算模块,用于计算所述目标语句分别与所述文章中除所述目标语句之外的各其他语句之间的语义相似度;
相似度确定模块,用于将计算得到的各语义相似度之和确定为所述目标语句与所述文章的语义相似度。
在一些可能的实施方式中,该装置还包括:
第二计算模块,用于计算所述目标语句中的各词语对所述文章的区分度;
区分度确定模块,用于将计算得到的各区分度之和确定为所述目标语句对所述文章的区分度。
在一些可能的实施方式中,所述词语对所述文章的区分度根据所述词语在所述文章中的词频和所述词语的逆文本频率指数进行计算。
第三方面,本申请实施例还提供了一种生成文章摘要的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的生成文章摘要的方法。
第四方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的生成文章摘要的方法。
与现有技术相比,本申请实施例具有以下优点:
本实施例中,通过从文章中选取出能够作为文章摘要的语句,使得所生成的文章摘要在能表达文章大意的同时,也能达到语义表达通顺的程度,从而使得文章摘要更容易被阅读者理解。具体的,可以从文章中选取目标语句并分析该目标语句的语义与文章的主旨之间的相关程度,若该目标语句的语义与文章的主旨之间的相关程度满足摘要语句条件,则将该目标语句确定为该文章的摘要语句,并以所确定出的摘要语句,组成该文章的摘要。可以理解,由于文章中语句通常都会达到语义表达顺畅的程度,而组成文章摘要的目标语句又是从文章中抽取出来的,因此,所生成的文章摘要更容易被阅读者理解;而且,从文章中抽取出的目标语句是满足摘要语句条件的,因此,由该目标语句所组成的文章摘要也清晰的表达了文章的主旨,从而使得阅读者基于所生成的文章摘要能够理解该文章的主旨。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一个示例性应用场景示意图;
图2为本申请实施例中一种生成文章摘要的方法流程示意图;
图3为本申请实施例中一种生成文章摘要的装置结构示意图;
图4为本申请实施例中一种生成文章摘要的设备架构示意图。
具体实施方式
现有的为文章生成摘要的实施方式中,通常是将文章输入至预先建立的深度学习模型中,然后,深度学习模型通过深度学习算法理解该文章大意,并生成能够表达该文章大意的语句。这样,在深度学习模型输出其所生成的语句即可得到该文章的文摘。但是,深度学习模型所生成的语句通常难以达到语义表达通顺的程度,从而使得阅读者难以理解文章摘要所真正需要表达的含义。
为了解决上述技术问题,本申请实施例提供了一种生成文章摘要的方法,通过从文章中选取出能够作为文章摘要的语句,使得所生成的文章摘要在能表达文章大意的同时,也能达到语义表达通顺的程度,从而使得文章摘要更容易被阅读者理解。具体的,可以从文章中选取目标语句并分析该目标语句的语义与文章的主旨之间的相关程度,若该目标语句的语义与文章的主旨之间的相关程度满足摘要语句条件,则将该目标语句确定为该文章的摘要语句,并以所确定出的摘要语句,组成该文章的摘要。可以理解,由于文章中语句通常都会达到语义表达顺畅的程度,而组成文章摘要的目标语句又是从文章中抽取出来的,因此,所生成的文章摘要更容易被阅读者理解;而且,从文章中抽取出的目标语句是满足摘要语句条件的,因此,由该目标语句所组成的文章摘要也清晰的表达了文章的主旨,从而使得阅读者基于所生成的文章摘要能够理解该文章的主旨。
作为一种示例,本申请实施例可以应用于如图1所示的示例性应用场景。在该应用场景中,用户101可以在终端102上输入所需生成摘要的文章,并在终端102上执行生成文章摘要的触发操作;终端102响应于该触发操作,从该文章中选取目标语句并分析该目标语句的语义与该文章的主旨之间的相关程度;终端102若确定该目标语句的语义与该文章的主旨之间的相关程序满足摘要语句条件,则将该目标语句确定为该文章的摘要语句,然后,终端102以所确定出的摘要语句组成该文章的摘要,并将所生成的摘要呈现给用户101。
值得注意的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。比如,在另一些可能的应用场景中,由于相比于终端而言,服务器的性能通常较高,因此,终端102可以将用户101所输入的文章传递给服务器,由服务器为该文章生成相应的文章摘要等。总而言之,本申请实施例可以应用于各种可适用的场景中。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图2,图2示出了本申请实施例中一种生成文章摘要的方法流程示意图,该方法包括:
S201:从文章中选取目标语句并分析该目标语句的语义与该文章的主旨之间的相关程度。
可以理解,鉴于文章中的语句在描述文章的主旨的同时,通常也能够达到语义表达顺畅的程度,因此,本实施例在生成文章摘要时,是从该文章中选取部分语句来生成得到表达文章主旨的摘要。这样,所生成的文章摘要也就能达到语义表达顺畅的程度。
实际应用中,文章所包括的众多语句中并非是每个语句均能很好的表达文章的主旨,而作为能够表达文章主旨的文章摘要的语句或者字数存在一定的限制,因此,在从文章中选取语句作为文章摘要的语句时,通常需要从文章中选取能够表达文章主旨的语句来作为文章摘要。本实施例中,在从文章中选取作为文章摘要的语句时,是根据该语句的语义与文章主旨之间的相关程度来进行确定的。具体实现时,可以从文章中任意选取语句,并将其作为目标语句,由于所选取的目标语句并不一定能够体现文章的主旨,因此,还需要对该目标语句进行分析,以确定该目标语句与文章主旨之间的相关程度是否满足要求。若该目标语句与文章主旨之间的相关程度表征该目标语句无法很好地体现文章的主旨,则该目标语句不适合作为文章摘要的语句,因此,此时,可以继续从该文章中选取下一语句作为来进行分析;而若该目标语句与文章主旨之间的相关程度表征该目标语句能够体现文章的主旨,则可以继续执行步骤S202,将该目标语句确定为文章摘要的语句。
其中,对于确定目标语句与文章的主旨之间的相关程度的具体实现过程,可参见下文对其进行的详细介绍。
S202:若该目标语句的语义与该文章的主旨之间的相关程度满足摘要语句条件,则将该目标语句确定为该文章的摘要语句。
本实施例中,并非文章中的所有语句均适合作为该文章的摘要语句,因此,在从文章中选取作为文章的摘要语句时,是基于摘要语句条件来评判所选取的目标语句是否适合作为文章的摘要语句。在一种示例性的实施方式中,该摘要语句条件具体可以是作为摘要语句的语义与文章的主旨之间的相关程度高于该文章中除摘要语句之外的非摘要语句的语义与该文章的主旨之间的相关程度。则,本实施例中在针对于文章中的每个语句计算出该语句与文章的主旨之间的相关程度之后,可以根据各个语句与文章的主旨之间的相关程度的大小进行排序,并选取相关程度相对较高的预设数量的语句作为文章的摘要语句。当然,也可以预先设置语句与文章的主旨之间的相关程度的阈值,则在确定文章的摘要语句时,可以将相关程度大于该阈值的目标语句作为文章的摘要语句。
可以理解,通常情况下,文章的摘要内容会少于文章的内容,也即文章摘要中各语句的长度之和存在一定的长度限制,因此,上述摘要语句条件还可以包括:该摘要语句的长度之和不超过该摘要的长度限制。则,在确定文章的摘要语句时,除了选取相关程度较高的目标语句,还需要比较在选取该目标语句作为文章的摘要语句之后,文章的摘要语句的长度之和是否超过摘要的长度限制。若超过,则可以去除部分已确定的摘要语句,如可以根据相关程度的大小确定所要去除的摘要语句等;当然,若不超过,则可以保留已确定的摘要语句。
S203:以确定出的摘要语句,组成该文章的摘要。
值得注意的是,上述步骤S201以及步骤S202的实施过程,是针对于文章中的每个语句,确定该语句是否适合作为文章的摘要语句的过程进行介绍说明,而文章中通常会包含多个语句,因此,基于上述步骤S201以及步骤S202所确定出的摘要语句也可以是多个语句。当然,在一些场景中,从文章中选取的作为文章摘要的摘要语句也可以是一个语句。
在从文章中选取出作为文章摘要的语句后,可以基于所确定出的摘要语句组成该文章的摘要。可以理解,从文章中选取出满足摘要条件的语句作为文章摘要的摘要语句,不仅可以使得所生成的文章摘要能够表达文章的主旨,而且,该文章摘要中的摘要语句也达到语义表达顺畅的程度,方便阅读者对于该文章主旨的理解。
本实施例中,可以从文章中选取目标语句并分析该目标语句的语义与文章的主旨之间的相关程度,若该目标语句的语义与文章的主旨之间的相关程度满足摘要语句条件,则将该目标语句确定为该文章的摘要语句,并以所确定出的摘要语句,组成该文章的摘要。可以理解,由于文章中语句通常都会达到语义表达顺畅的程度,而组成文章摘要的目标语句又是从文章中抽取出来,因此,基于文章中的语句所生成的文章摘要更容易被阅读者理解;而且,从文章中抽取出的目标语句是满足摘要语句条件的,因此,由该目标语句所组成的文章摘要也清晰的表达了文章的主旨,从而使得阅读者基于所生成的文章摘要能够理解该文章的主旨。
为了更加详细地介绍本申请实施例的技术方案,本实施例中提供了以下几种确定目标语句与文章的主旨之间的相关程度的示例性实施方式。
在其中一种确定目标语句与文章的主旨之间的相关程度的示例性实施方式中,可以计算该目标语句分别与文章中除该目标语句之外的各其它语句之间的语义相似度,并将针对于该目标语句所计算出的各个语义相似度进行求和,并将所计算得到的各个语义相似度之和,确定为该目标语句与该文章的语义相似度,以用于表征该目标语句与文章主旨之间的相关程度。具体的,若目标语句与该文章中其它语句之间的语义相似度之和越高,表明该目标语句与文章的主旨之间的相关程度越高,从而也就越适合作为文章的摘要语句;而若目标语句与该文章中其它语句之间的语义相似度之和越低,表明该目标语句与文章的主旨之间的相关程度越低。
进一步地,在一些可能的实施方式中,该目标语句与文章中其它语句之间的语义相似度之和,具体可以是该目标语句的句向量与其它语句的句向量之间的余弦相似度之和,则,在计算目标语句与文章中其它语句之间的语义相似度之和时,可以基于公式(1)计算出该目标语句中所有词语的词向量(word to vector,Word2Vec)之和,并将所计算出的目标语句中所有词语的词向量之和作为该目标语句的句向量;同时,针对于该文章的其它每个语句,同样可以基于公式(1)计算出该语句中所有词语的词向量之和,并将所计算出的所有词语的词向量之和作为该语句的句向量;然后,基于公式(2)即可计算出目标语句的句向量与每个其它语句的句向量之间的余弦相似度之和。
其中,语句的句向量的计算公式具体如下所示:
其中,“vectorsentance”表征语句的句向量,该语句可以为该文章中的任一语句,“word∈sentance”表征属于该语句中的词语,“vectorword”表征该语句所包括的词语的词向量。
目标语句的句向量与每个其它语句的句向量之间的余弦相似度之和的计算公式具体如下所示:
其中,“theme1 sentance”表征目标语句的句向量与每个其它语句的句向量之间的余弦相似度之和,也即表征该目标语句与文章的语义相似度,“sentence∈Text”表征属于该文章中的语句,“vector目标sentance”表征目标语句的句向量,“vectorsentance1”表征该文章中其它语句的句向量。
上述实施方式中,是利用目标语句与文章的语义相似度来确定目标语句的语义与文章的主旨之间的相关程度,而在另一种确定目标语句与文章的主旨之间的相关程度的示例性实施方式中,也可以是根据目标语句对该文章的区分度来进行确定。其中,该目标语句对该文章的区分度表征了该目标语句将该文章与其它文章进行区分的能力,通常情况下,区分度越大,说明该目标语句的区分能力越强,区分度越小,该目标的区分能力越弱。具体实现时,可以计算该目标语句中的各个词语对该文章的区分度,并根据计算得到的各词语对该文章的区分度,进一步计算出目标语句对该文章的区分度,进而利用该目标语句对文章的区分度来表征目标语句对文章的区分度。在一种实例中,可以在计算出目标语句中各个词语对该文章的区分度后,计算出各个词语的区分度的平均值,并将该平均值作为目标语句对该文章的区分度。
在进一步的可能的具体实施方式中,目标语句中各个词语对该文章的区分度可以根据该词语在该文章中的词频和该词语的逆文本频率指数进行计算得到。则,在一种示例中,目标语句对文章的区分度具体可以根据公式(3)进行计算得到:
其中,“theme2 sentance”表征该目标语句对文章的区分度,“word∈sentance”表征属于该语句中的词语,“|word∈sentence|”表征属于该语句中的词语的个数,“tfword”是指该词语在文章中的词频,“idfword”是指该词语的逆文本频率指数。
除了上述实施方式以外,实际应用中,通过大量的统计分析发现,文章的首段以及尾段中所包含的语句能够体现文章主旨的语句的情况相对较多,并且,在文章的每一段落中,位于该段的段首以及段尾的语句通常也能够表达文章的主旨。因此,在又一种确定目标语句与文章的主旨之间的相关程度的示例性实施方式中,还可以根据该目标语句在文章中的位置进行确定。具体实现时,可以是根据该目标语句在目标段落中的位置和/或包括该目标语句的目标段落在文章中的位置来确定出作为文章摘要的语句,其中,该目标段落即为目标语句所在文章中的段落。比如,在从文章中选取作为文章摘要的语句时,可以是从文章中首段和/或尾段中的语句中进行选择,或者是从文章的各个段落中位于段首和/或段尾的语句中进行选择等。
在一种示例中,基于目标语句在文章中的位置可以采用公式(4)来计算出表征目标语句与文章的主旨之间的相关程度的值:
其中,“theme3 sentance”表征目标语句与文章的主旨之间的相关程度的值,该值越大,表征目标语句与文章的主旨之间的相关程度越高,反之,该值越小,表征目标语句与文章的主旨之间的相关程度越低;“indexsentence”表征目标语句在段落中的位置,“indexsentence∈paraganrah”表征目标语句所在的目标段落在文章中的位置,“sentance∈paragraph”表征属于目标段落中的目标语句,“paragraph∈Text”表征属于文章中的段落。
可以理解,除了上述三种确定目标语句与文章的主旨之间的相关程度的示例性实施方式以外,在其它可能的实施方式中,还可以将上述三种实施方式进行任意组合。即,本实施例中,还可以同时利用目标语句与文章的语义相似度、目标语句对该文章的区分度以及目标语句在文章中的位置这三种实施方式中的任意两种或三种,来确定目标语句与文章的主旨之间的相关程度。
比如,在一种示例中,可以结合上述三种实施方式来计算出目标语句与文章的主旨之间的相关程度,具体可以根据上述三种实施方式所得到的三个值theme1 sentance、theme2 sentance以及theme3 sentance来计算出最终用于表征目标语句与文章主旨的相关程度的具体值。在一种示例中,可以基于公式(5)计算出是三个值的乘积,并将所得到的乘积作为表征目标语句与文章主旨的相关程度的值themesentance。其中,该公式(5)具体如下所示:
当然,在其它可能的实现方式中,也可以分别为theme1 sentance、theme2 sentance以及theme3 sentance设置相应的权重,不同值所对应的权重可以相同,也可以不同。则表征目标语句与文章主旨的相关程度的值themesentance具体可以利用公式(6)进行计算得到。其中,该公式(6)具体如下所示:
其中,“A”、“B”、“C”分别为theme1 sentance、theme2 sentance以及theme3 sentance的权重值。
此外,本申请实施例还提供了一种生成文章摘要的装置。参见图3,图3示出了本申请实施例中一种生成文章摘要的装置结构示意图,该装置300包括:
选取模块301,用于从文章中选取目标语句;
分析模块302,用于分析所述目标语句的语义与所述文章的主旨之间的相关程度;
确定模块303,用于若所述目标语句的语义与所述文章的主旨之间的相关程度满足摘要语句条件,将所述目标语句确定为所述文章的摘要语句;
组成模块304,用于以确定出的摘要语句,组成所述文章的摘要。
在一些可能的实施方式中,所述分析模块302,具体用于根据所述目标语句与所述文章的语义相似度、所述目标语句对所述文章的区分度以及所述目标语句在所述文章中的位置,计算所述目标语句的语义与所述文章的主旨之间的相关程度。
在一些可能的实施方式中,所述摘要语句条件为:所述摘要语句的语义与所述文章的主旨之间的相关程度高于所述文章中除所述摘要语句之外的非摘要语句的语义与所述文章的主旨之间的相关程度;所述摘要语句的长度之和不超过所述摘要的长度限制。
在一些可能的实施方式中,该装置300还包括:
第一计算模块,用于计算所述目标语句分别与所述文章中除所述目标语句之外的各其他语句之间的语义相似度;
相似度确定模块,用于将计算得到的各语义相似度之和确定为所述目标语句与所述文章的语义相似度。
在一些可能的实施方式中,该装置300还包括:
第二计算模块,用于计算所述目标语句中的各词语对所述文章的区分度;
区分度确定模块,用于将计算得到的各区分度之和确定为所述目标语句对所述文章的区分度。
在一些可能的实施方式中,所述词语对所述文章的区分度根据所述词语在所述文章中的词频和所述词语的逆文本频率指数进行计算。
本实施例中,可以从文章中选取目标语句并分析该目标语句的语义与文章的主旨之间的相关程度,若该目标语句的语义与文章的主旨之间的相关程度满足摘要语句条件,则将该目标语句确定为该文章的摘要语句,并以所确定出的摘要语句,组成该文章的摘要。可以理解,由于文章中语句通常都会达到语义表达顺畅的程度,而组成文章摘要的目标语句又是从文章中抽取出来,因此,基于文章中的语句所生成的文章摘要更容易被阅读者理解;而且,从文章中抽取出的目标语句是满足摘要语句条件的,因此,由该目标语句所组成的文章摘要也清晰的表达了文章的主旨,从而使得阅读者基于所生成的文章摘要能够理解该文章的主旨。
此外,本申请实施例还提供了一种生成文章摘要的设备。参阅图4,图4示出了本申请实施例中一种生成文章摘要的设备架构示意图,该设备400包括处理器401以及存储器402:
所述存储器402用于存储程序代码,并将所述程序代码传输给所述处理器401;
所述处理器401用于根据所述程序代码中的指令执行以下操作:
从文章中选取目标语句并分析所述目标语句的语义与所述文章的主旨之间的相关程度;
若所述目标语句的语义与所述文章的主旨之间的相关程度满足摘要语句条件,将所述目标语句确定为所述文章的摘要语句;
以确定出的摘要语句,组成所述文章的摘要。
在一些可能的实施方式中,所述处理器401具体用于执行:
根据所述目标语句与所述文章的语义相似度、所述目标语句对所述文章的区分度以及所述目标语句在所述文章中的位置,计算所述目标语句的语义与所述文章的主旨之间的相关程度。
在一些可能的实施方式中,所述摘要语句条件为:所述摘要语句的语义与所述文章的主旨之间的相关程度高于所述文章中除所述摘要语句之外的非摘要语句的语义与所述文章的主旨之间的相关程度;所述摘要语句的长度之和不超过所述摘要的长度限制。
在一些可能的实施方式中,所述处理器401还用于执行:
计算所述目标语句分别与所述文章中除所述目标语句之外的各其他语句之间的语义相似度;
将计算得到的各语义相似度之和确定为所述目标语句与所述文章的语义相似度。
在一些可能的实施方式中,所述处理器401还用于执行:
计算所述目标语句中的各词语对所述文章的区分度;
将计算得到的各区分度之和确定为所述目标语句对所述文章的区分度。
在一些可能的实施方式中,所述词语对所述文章的区分度根据所述词语在所述文章中的词频和所述词语的逆文本频率指数进行计算。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置和设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种生成文章摘要的方法,其特征在于,包括:
从文章中选取目标语句并分析所述目标语句的语义与所述文章的主旨之间的相关程度;
若所述目标语句的语义与所述文章的主旨之间的相关程度满足摘要语句条件,将所述目标语句确定为所述文章的摘要语句;
以确定出的摘要语句,组成所述文章的摘要。
2.根据权利要求1所述的方法,其特征在于,所述分析所述目标语句的语义与所述文章的主旨之间的相关程度,具体为:
根据所述目标语句与所述文章的语义相似度、所述目标语句对所述文章的区分度和/或所述目标语句在所述文章中的位置,计算所述目标语句的语义与所述文章的主旨之间的相关程度。
3.根据权利要求1所述的方法,其特征在于,所述摘要语句条件为:所述摘要语句的语义与所述文章的主旨之间的相关程度高于所述文章中除所述摘要语句之外的非摘要语句的语义与所述文章的主旨之间的相关程度;所述摘要语句的长度之和不超过所述摘要的长度限制。
4.根据权利要求2所述的方法,其特征在于,还包括:
计算所述目标语句分别与所述文章中除所述目标语句之外的各其他语句之间的语义相似度;
将计算得到的各语义相似度之和确定为所述目标语句与所述文章的语义相似度。
5.根据权利要求2所述的方法,其特征在于,还包括:
计算所述目标语句中的各词语对所述文章的区分度;
将计算得到的各区分度之和确定为所述目标语句对所述文章的区分度。
6.根据权利要求5所述的方法,其特征在于,所述词语对所述文章的区分度根据所述词语在所述文章中的词频和所述词语的逆文本频率指数进行计算。
7.一种生成文章摘要的装置,其特征在于,所述装置包括:
选取模块,用于从文章中选取目标语句;
分析模块,用于分析所述目标语句的语义与所述文章的主旨之间的相关程度;
确定模块,用于若所述目标语句的语义与所述文章的主旨之间的相关程度满足摘要语句条件,将所述目标语句确定为所述文章的摘要语句;
组成模块,用于以确定出的摘要语句,组成所述文章的摘要。
8.根据权利要求7所述的装置,其特征在于,
所述分析模块,具体用于根据所述目标语句与所述文章的语义相似度、所述目标语句对所述文章的区分度以及所述目标语句在所述文章中的位置,计算所述目标语句的语义与所述文章的主旨之间的相关程度。
9.一种生成文章摘要的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一项所述的生成文章摘要的方法。
10.一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至6任一项所述的生成文章摘要的方法。
CN201811604835.2A 2018-12-26 2018-12-26 一种生成文章摘要的方法、装置、设备和存储介质 Pending CN109726282A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811604835.2A CN109726282A (zh) 2018-12-26 2018-12-26 一种生成文章摘要的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811604835.2A CN109726282A (zh) 2018-12-26 2018-12-26 一种生成文章摘要的方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN109726282A true CN109726282A (zh) 2019-05-07

Family

ID=66297274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811604835.2A Pending CN109726282A (zh) 2018-12-26 2018-12-26 一种生成文章摘要的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN109726282A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888976A (zh) * 2019-11-14 2020-03-17 北京香侬慧语科技有限责任公司 一种文本摘要生成方法和装置
CN110968666A (zh) * 2019-11-22 2020-04-07 掌阅科技股份有限公司 基于相似度的标题生成模型的训练方法及计算设备
CN111209480A (zh) * 2020-01-09 2020-05-29 上海风秩科技有限公司 一种推送文本的确定方法、装置、计算机设备和介质
CN112183078A (zh) * 2020-10-22 2021-01-05 上海风秩科技有限公司 文本摘要确定方法和装置
CN113704457A (zh) * 2021-07-23 2021-11-26 北京搜狗科技发展有限公司 摘要的生成方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1609845A (zh) * 2003-10-22 2005-04-27 国际商业机器公司 用于改善由机器自动生成的摘要的可读性的方法和装置
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
WO2009148473A1 (en) * 2007-12-12 2009-12-10 21Ct, Inc. Method and system for abstracting information for use in link analysis
CN101739426A (zh) * 2008-11-13 2010-06-16 北京大学 一种多文档摘要的生成方法及装置
CN104536950A (zh) * 2014-12-11 2015-04-22 北京百度网讯科技有限公司 生成文本摘要的方法及装置
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN106066867A (zh) * 2016-05-27 2016-11-02 东软集团股份有限公司 一种提取摘要的方法及装置
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及系统
CN107797990A (zh) * 2017-10-18 2018-03-13 渡鸦科技(北京)有限责任公司 用于确定文本核心语句的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1609845A (zh) * 2003-10-22 2005-04-27 国际商业机器公司 用于改善由机器自动生成的摘要的可读性的方法和装置
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
WO2009148473A1 (en) * 2007-12-12 2009-12-10 21Ct, Inc. Method and system for abstracting information for use in link analysis
CN101739426A (zh) * 2008-11-13 2010-06-16 北京大学 一种多文档摘要的生成方法及装置
CN104536950A (zh) * 2014-12-11 2015-04-22 北京百度网讯科技有限公司 生成文本摘要的方法及装置
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN106066867A (zh) * 2016-05-27 2016-11-02 东软集团股份有限公司 一种提取摘要的方法及装置
CN107273474A (zh) * 2017-06-08 2017-10-20 成都数联铭品科技有限公司 基于潜在语义分析的自动摘要抽取方法及系统
CN107797990A (zh) * 2017-10-18 2018-03-13 渡鸦科技(北京)有限责任公司 用于确定文本核心语句的方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888976A (zh) * 2019-11-14 2020-03-17 北京香侬慧语科技有限责任公司 一种文本摘要生成方法和装置
CN110968666A (zh) * 2019-11-22 2020-04-07 掌阅科技股份有限公司 基于相似度的标题生成模型的训练方法及计算设备
CN111209480A (zh) * 2020-01-09 2020-05-29 上海风秩科技有限公司 一种推送文本的确定方法、装置、计算机设备和介质
CN112183078A (zh) * 2020-10-22 2021-01-05 上海风秩科技有限公司 文本摘要确定方法和装置
CN112183078B (zh) * 2020-10-22 2023-01-10 上海风秩科技有限公司 文本摘要确定方法和装置
CN113704457A (zh) * 2021-07-23 2021-11-26 北京搜狗科技发展有限公司 摘要的生成方法、装置及存储介质
CN113704457B (zh) * 2021-07-23 2024-03-01 北京搜狗科技发展有限公司 摘要的生成方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109726282A (zh) 一种生成文章摘要的方法、装置、设备和存储介质
US11151143B2 (en) Recommendation engine using inferred deep similarities for works of literature
Chen et al. A novel video summarization based on mining the story-structure and semantic relations among concept entities
US8451292B2 (en) Video summarization method based on mining story structure and semantic relations among concept entities thereof
CN109190111A (zh) 一种文档正文关键词提取方法及装置
US20120296637A1 (en) Method and apparatus for calculating topical categorization of electronic documents in a collection
CN111475729A (zh) 搜索内容推荐方法及装置
Jin et al. Entity linking at the tail: sparse signals, unknown entities, and phrase models
CN106469145A (zh) 文本情感分析方法及装置
CN112052356A (zh) 多媒体分类方法、装置和计算机可读存储介质
Fersini et al. A probabilistic relational approach for web document clustering
Sridharan et al. Computational models for experiences in the arts, and multimedia
Fourati et al. Automatic audiovisual documents genre description
CN113821669A (zh) 搜索方法、装置、电子设备和存储介质
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
JP6676698B2 (ja) 予約語及び属性言語間の関連度を用いた情報検索方法及び装置
Habbat et al. Extracting topics from a tv channel's facebook page using contextualized document embedding
Tohalino et al. Using citation networks to evaluate the impact of text length on the identification of relevant concepts
Wu et al. Analysis of tag within online social networks
CN111079448A (zh) 一种意图识别方法及装置
CN111126033A (zh) 文章的回应预测装置及方法
Sabetghadam et al. Reachability analysis of graph modelled collections
Solskinnsbakk et al. Semantic Annotation from Social Data.
CN114385902B (zh) 一种内容推荐方法、装置及存储介质
Zhang et al. Image-text fusion sentiment analysis with textual attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190507