CN112328783A - 一种摘要确定方法和相关装置 - Google Patents
一种摘要确定方法和相关装置 Download PDFInfo
- Publication number
- CN112328783A CN112328783A CN202011333789.4A CN202011333789A CN112328783A CN 112328783 A CN112328783 A CN 112328783A CN 202011333789 A CN202011333789 A CN 202011333789A CN 112328783 A CN112328783 A CN 112328783A
- Authority
- CN
- China
- Prior art keywords
- text
- segment
- abstract
- processed
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000010801 machine learning Methods 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 9
- 230000000875 corresponding effect Effects 0.000 description 78
- 239000012634 fragment Substances 0.000 description 21
- 230000006870 function Effects 0.000 description 19
- 239000013598 vector Substances 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 2
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Abstract
本申请实施例公开了一种摘要确定方法和相关装置,至少涉及人工智能中的自然语言处理和机器学习,针对包括至少一个待处理文本的文本集合,在确定该文本集合对应摘要内容的过程中,基于待处理文本包括的文本片段相对于待处理文本的重要性参数,以及相对于摘要内容中已确定部分的冗余度参数,共同获得文本片段的摘要权重。依据摘要权重从文本集合所包括文本片段中筛选出较为重要且与目前摘要内容的已确定部分冗余度不高的文本片段,将其作为目标文本片段,通过数量较少的目标文本片段而不是全部文本片段继续生成摘要内容,由此可以降低生成摘要内容所需处理的文本片段数量,降低了计算量,提高了摘要内容的生成效率。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种摘要确定方法和相关装置。
背景技术
摘要可以体现原始文档中的重要信息,而且篇幅一般远小于原始文档,用户可以通过阅读摘要来了解原始文档主旨思想的目的,从而可以从大量原始文档中快速找到符合自身需求的文档,避免了大篇幅内容阅读的筛查时间。
相关技术中,可以通过自动摘要技术,根据神经网络模型基于语义理解原始文档的内容,并以此自动从原始文档中提取重要信息来生成对应的摘要。
然而,上述摘要提取方式的适用范围局限,在很多场景下都具有生成效率低的问题。
发明内容
为了解决上述技术问题,本申请提供了一种摘要确定方法和相关装置,能够提高生成摘要的效率。
本申请实施例公开了如下技术方案:
一方面,本申请实施例一种摘要确定方法,所述方法包括:
获取包括至少一个待处理文本的文本集合,所述待处理文本包括多个文本片段;
在确定所述文本集合对应摘要内容的过程中,通过所述文本片段相对于所述待处理文本的重要性参数和所述文本片段相对于所述摘要内容中已确定部分的冗余度参数,得到所述文本片段的摘要权重;
基于所述摘要权重从所述文本集合包括的文本片段中确定目标文本片段,所述目标文本片段的数量少于所述文本集合中所述文本片段的数量;
根据所述目标文本片段生成所述文本集合对应的所述摘要内容。
另一方面,本申请实施例提供一种摘要确定装置,所述装置包括:获取单元、第一确定单元、第二确定单元和生成单元;
所述获取单元,用于获取包括至少一个待处理文本的文本集合,所述待处理文本包括多个文本片段;
所述第一确定单元,用于在确定所述文本集合对应摘要内容的过程中,通过所述文本片段相对于所述待处理文本的重要性参数和所述文本片段相对于所述摘要内容中已确定部分的冗余度参数,得到所述文本片段的摘要权重;
所述第二确定单元,用于基于所述摘要权重从所述文本集合包括的文本片段中确定目标文本片段,所述目标文本片段的数量少于所述文本集合中所述文本片段的数量;
所述生成单元,用于根据所述目标文本片段生成所述文本集合对应的所述摘要内容。
另一方面,本申请提供一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述技术方案可以看出,针对包括至少一个待处理文本的文本集合,在确定该文本集合对应摘要内容的过程中,基于待处理文本包括的文本片段相对于待处理文本的重要性参数,以及相对于摘要内容中已确定部分的冗余度参数,共同获得文本片段的摘要权重。其中,冗余度参数为本次确定摘要内容时文本片段相对于目前摘要内容的已经确定部分的相似程度,通过冗余度参数可以确定文本集合中哪些文本片段与目前摘要内容的已经确定部分相似度较高,哪些文本片段相似度不高,由于基于目前摘要内容的已确定部分,相似度较高的文本片段对于继续生成该摘要内容的帮助并不高,故此,可以根据基于重要性参数和冗余度参数确定的摘要权重,从文本集合所包括文本片段中筛选出较为重要且与目前摘要内容的已确定部分冗余度不高的作为目标文本片段,通过数量较少的目标文本片段继续生成摘要内容。由此可以降低生成摘要内容所需处理的文本片段数量,提高了摘要内容的生成效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种摘要确定方法的应用场景示意图;
图2为本申请实施例提供的一种摘要确定方法的流程示意图;
图3为本申请实施例提供的一种摘要确定方法的应用场景示意图;
图4为本申请实施例提供的一种摘要确定装置的结构示意图;
图5为本申请实施例提供的服务器的结构示意图;
图6为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
当原始文档的篇幅较长或者用户需要在短时间内阅读多篇原始文档时,根据神经网络模型基于语义理解原始文档,会依据原始文档中的全部内容生成对应的摘要内容,由于较长的原始文档或者多篇原始文档包括了较多的内容,从而导致计算量大,生成的摘要内容速度较慢。
基于此,本申请提供一种摘要确定方法和相关装置,通过重要性参数和冗余度参数对文本集合中的文本片段进行筛选,从而根据数量较少的目标文本片段生成对应的摘要内容,降低生成摘要内容所需处理的文本片段数量,提高了摘要内容的生成效率。
本申请实施例提供的摘要确定方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如,可以涉及自然语言处理(Nature Language processing,NLP)中的语义理解(Semantic understanding)、机器人问答,包括问题理解(queryunderstanding)、答案抽取(Answer extraction)、答案论证(Answer argument),也可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(Artificial Neural Network,ANN)。
本申请提供的摘要确定方法可以应用于具有数据处理能力的摘要确定设备,如终端设备、服务器。其中,终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表等,但并不局限于此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
该摘要确定设备可以具备实施自然语言处理的能力,自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中,文本处理设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。
该摘要确定设备可以具备机器学习能力。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
在本申请实施例提供的摘要确定方法中,采用的人工智能模型主要涉及对机器学习的应用,通过机器学习确定冗余度参数和重要性参数,以便从文本集合中筛选出数量较少的目标文本片段生成对应的摘要内容。
此外,本申请实施例提供的文本处理设备还具备云计算能力。云计算(cloudcomputing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(GridComputing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
在本申请实施例中,摘要确定设备可以利用云计算技术,获取包括至少一个待处理文本的文本集合,以便生成文本集合对应的摘要内容。
为了便于理解本申请的技术方案,下面结合实际应用场景,以服务器作为摘要确定设备对本申请实施例提供的摘要确定方法进行介绍。
参见图1,图1为本申请实施例提供的一种摘要确定方法的应用场景示意图。在图1所示的应用场景中,包括服务器100,用于生成文本集合对应的摘要内容。
服务器100获取文本集合,该文本集合包括至少一个待处理文本,每个待处理文本包括多个文本片段。在图1所示的场景中,服务器100获取的文本集合包括两个待处理文本,分别为待处理文本I和待处理文本II,其中,待处理文本I包括文本片段A和文本片段B,待处理文本II包括文本片段C和文本片段D。
在确定文本集合对应摘要内容的过程中,基于待处理文本包括的文本片段相对于待处理文本的重要性参数,以及相对于摘要内容中已确定部分的冗余度参数,共同获得文本片段的摘要权重。其中,重要性参数体现文本片段与其所在的待处理文本的相关程度,通过该重要性参数确定待处理文本中更为重要的信息。冗余度参数为本次确定摘要内容时文本片段相对于目前摘要内容的已确定部分的相似程度,通过冗余度参数可以确定文本集合中更为相似的信息。
在图1所示的场景中,通过多次迭代处理以生成文本集合对应的摘要内容,每一次迭代处理可以生成摘要内容的一部分,在本实施例中以确定文本集合对应摘要内容的最后两次迭代(第t次迭代和第t+1次迭代)为例进行说明。在第t次迭代中,通过重要性参数和冗余度参数确定了摘要权重,根据摘要权重从文本集合包括的文本片段中确定出此次目标文本片段,例如,文本片段A和文本片段C在文本集合中的摘要权重较高,故此次目标文本片段包括文本片段A和文本片段C,通过目标文本片段可以生成摘要内容的一部分,从而获得对应的摘要内容。在第t+1次迭代,基于目前摘要内容的已确定部分即第t次迭代确定的摘要内容重新确定冗余度参数,进一步重新确定摘要权重,根据重新确定出的摘要权重确定出文本片段A和文本片段B相对于目前摘要内容的已确定部分冗余度较高,由于相似度较高的文本片段对于继续生成摘要内容的帮助并不高,故此次确定出目标文本片段包括文本片段C和文本片段D,通过此次目标文本片段可以生成摘要内容的一部分,并结合第t次迭代确定的摘要内容生成文本集合对应的摘要内容。
基于上述可知,通过基于重要性参数和冗余度参数确定的摘要权重,从文本集合所包括文本片段中筛选出较为重要且与目前摘要内容的已确定部分冗余度不高的作为目标文本片段。由此无需文本集合中全部的文本片段生成文本集合对应的摘要内容,仅基于数量较少的目标文本片段即可生成文本集合对应的摘要内容。从而可以降低生成摘要内容所需处理的文本片段数量,提高了摘要内容的生成效率。
下面结合附图,以终端设备作为文本处理设备,对本申请实施例提供的一种摘要确定方法进行介绍。
参见图2,该图为本申请实施例提供的一种摘要确定方法的流程示意图。如图2所示,该摘要确定方法包括以下步骤:
S201:获取包括至少一个待处理文本的文本集合。
通过使用篇幅较小、涵盖文本重要信息的摘要内容,可以使用户尽快判断是否有必要阅读文本的全篇内容,或者帮助用户快速筛选出所需文本。但并不是所有的文本都具有预先人为总结的摘要内容,例如新闻文章、产品手册等形式的文本,故需要通过本申请实施例提供的自动化摘要生成方式快速提炼出文本对应的摘要内容。
本步骤中终端设备获取的文本集合为需要生成摘要内容的对象,该文本集合中包括至少一个待处理文本。例如,文本集合中包括多篇文章,需要针对多篇文章生成一个对应的摘要内容。需要说明的是,本申请实施例也适用于对仅包括一个待处理文本的文本集合的摘要确定。
其中,一个待处理文本可以被划分为多个文本片段,基于划分粒度不同,文本片段可以为段落、句子、词汇等数据结构。以文本片段为句子为例,可以根据待处理文本中的间隔符,如句号确定该待处理文本包括的多个文本片段。
S202:在确定所述文本集合对应摘要内容的过程中,通过所述文本片段相对于所述待处理文本的重要性参数和所述文本片段相对于所述摘要内容中已确定部分的冗余度参数,得到所述文本片段的摘要权重。
摘要内容的生成一般不是基于一次文本处理,而是在多次迭代的过程中,基于每次迭代生成摘要内容的一部分,最终组成完成的摘要内容,故摘要内容是基于一个时序过程逐渐完成的。
相关技术中,会根据文本集合中包括的所有文本片段生成对应的摘要内容,但很多情况下文本片段的数量实际上很多,若每一次迭代都采用全部文本片段生成摘要内容,会带来高计算量负担,导致摘要内容生成耗时长、效率较低。
然而,由于摘要内容是对文本集合中所体现主旨内容的提纲建领,文本集合中并不是所有的文本片段均对生成摘要内容有所帮助。故可以对文本集合中包括的文本片段进行筛选,筛选出对生成摘要内容具有帮助的文本片段。下面具体说明从文本集合中筛选对生成摘要内容具有帮助的文本片段的因素。
因素一:重要性参数。
由于摘要内容主要体现文本集合的重要信息,因此文本片段与其所在的待处理文本(以下简称待处理文本)相关程度越高,则该文本片段体现待处理文本的重要信息越多,对生成摘要内容的帮助越大。故可以基于文本片段相对于待处理文本的重要性参数对文本片段进行筛选,通过重要性参数确定待处理文本中哪些文本片段较为重要,哪些文本片段不太重要,从而依据重要性参数可以在文本集合中筛选出对生成摘要内容具有帮助的文本片段。
下面介绍一种重要性参数的获取方式,参见公式(1):
r1i=f([sli;idx1i;idx2i;li;simdi]) (1)
其中,文本集合中包括I个文本片段,r1i表示文本集合中第i个文本片段相对于待处理文本的重要性参数,i∈I,i与I均为整数,I>1;sli表示第i个文本片段的长度;idx1i表示第i个文本片段在待处理文本中的绝对位置;idx2i表示第i个文本片段在待处理文本中的相对位置;li表示第i个文本片段的片段特征;simdi表示第i个文本片段的片段特征和待处理文本的片段特征之间的余弦距离。
具体地,下面对上述参数进行具体说明。
其中,f()表示通过参数sli、idx1i、idx2i、li和simdi获得r1i的方式。本申请实施例不具体限定获得重要性参数r1i的方式,例如,r1i可以通过回归分析支持向量机(SupportVector Regression,SVR)模型得到。
绝对位置是指文本片段在待处理文本中的位置,ind1i具有唯一性,通过绝对位置可以明确文本片段在待处理文本中的具体位置,例如,一篇文章中第三个文本片段可以表示为ind13=3。
相对位置是指文本片段由于划分待处理文本方式不同产生的不同位置位置相近的文本片段的相对位置一样或者相差较小,ind2i根据划分方式不同可能对应不同的数值,例如,当把待处理文本按照先后顺序均匀分为n个部分,属于一个部分的文本片段的相对位置相同,每一个部分的相对位置分别为0、1、2、…、n-1,当一篇文章中第三个文本片段属于第二个部分,可以表示为ind23=2,当一篇文章中第三个文本片段属于第三个部分,可以表示为ind23=3。相对位置用于强调文本片段在待处理文本中的头部、中部、尾部等大致位置,相对位置不同的文本片段对摘要内容的帮助程度不同。例如,在新闻的头部的文本片段一般较为重要。
本申请实施例提供了一种确定文本片段的片段特征的可选方式,通过在编码过程中最后一个隐状态得到的特征为li,例如,当文本片段采用基于用户意图的信息选择算法(Query-Based Selective Encoder,QBS-Encoder)的方式对目标文本进行编码时,通过双向长期短期记忆(Bi-directional Long Short-Term Memory,BiLSTM)最后一个隐状态得到的特征为片段特征li。QBS-Encoder和BiLSTM在后续进行说明,在此不再赘述。
由于在确定文本集合后,每个文本片段的重要性参数不会随着确定摘要的过程而改变,属于相对固定的参数,故在本申请实施例中,可以将确定出的重要性参数记录下来,在摘要确定的过程中直接调用,可以不需要重复计算。
因素二:冗余度参数。
此外,由于摘要内容的确定是时序性的逐渐一部分一部分的补全内容,故在这一场景下,每一次迭代时并不是所有重要性参数较高的文本片段均对生成摘要内容具有帮助,而需要进一步考虑文本片段与摘要内容的当前已确定部分间的内容是否重复,例如一个文本片段的内容已经在之前的迭代过程中提炼到当前摘要内容中或已经体现在当前摘要内容中时,这个文本片段实际上对继续补完摘要内容的帮助可能就很低了,又例如,若一个文本片段的重要性参数较高,且冗余度参数较低,那么这个文本片段被用于生成摘要内容中部分摘要的可能性就很大。
由此,本申请实施例还会考虑文本片段相对于摘要内容中已确定部分的冗余度参数。其中,冗余度参数为本次确定摘要内容时文本片段相对于目前摘要内容的已确定部分的相似程度。通过冗余度参数可以确定文本集合中哪些文本片段与目前摘要内容的已经确定部分相似度较高,哪些文本片段相似度不高,采用相似度较高的文本片段会使生成的摘要内容冗余,即该文本片段对生成摘要内容的帮助不大,从而可以依据冗余度参数在文本集合中筛选出对生成摘要内容具有帮助的文本片段。
例如,当通过多个时间步的方式迭代确定文本集合对应的摘要内容时,每一个时间步可以表征一次迭代处理,每次迭代处理可以基于文本集合中的文本片段生成摘要内容的一部分,从而根据多次迭代处理生成文本集合对应的摘要内容。
下面以多个时间步中的第t个时间步为例,其中,t为大于或等于1的整数。在第t个时间步确定摘要内容时,目前摘要内容的已确定部分为前第t-1个时间步确定的部分摘要,确定文本片段在第t个时间步中的冗余度参数。参见公式(2):
其中,r3i表示第i个文本片段相对于摘要内容中已确定部分的冗余度参数;S表示目前摘要内容的已确定部分,该集合中包括J个摘要文本片段,其划分粒度可以与文本片段的划分粒度一致,例如摘要文本片段和文本集合的文本片段都是句子;sj表示S中第j个摘要文本片段;si表示第i个文本片段;ROUGE-L是评价摘要内容的一种方式。可以理解,当t=1时,S为空,相应确定出的r3i为0,即代表没有冗余
具体地,下面对上述参数进行具体说明。
ROUGE-L是Rouge评价方式中使用最长公共子序列评价摘要内容的一组指标,其中Rouge的全称为Recall-Oriented Understudy for Gisting Evaluation,通过将自动生成的摘要内容与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要内容与参考摘要之间的相似度。L表示最长公共子序列(longest commonsubsequence,LCS)。
基于上述可知,可以根据基于重要性参数和冗余度参数确定摘要权重,其中,根据重要性参数和冗余度参数在确定摘要内容中的作用可以明确,重要性参数与摘要权重正相关,冗余度参数与摘要权重负相关。例如,摘要权重可以参见公式(3):
impi=α×r1i-β×r3i (3)
其中,impi表示第i个文本片段的摘要权重;α和β为权重调节参数,例如,α+β=1。
S203:基于所述摘要权重从所述文本集合包括的文本片段中确定目标文本片段。
由于摘要权重是根据重要性参数和冗余度参数确定的,故可以根据摘要权重从文本集合所包括的文本片段中,筛选出重要性较高且与目前摘要内容的已确定部分冗余度不高的文本片段作为目标文本片段。其中,目标文本片段的数量少于文本集合中包括的文本片段数量,从而根据数量较少的目标文本片段生成摘要内容,降低生成摘要的计算量,提高生成效率。
当通过多个时间步确定文本集合对应摘要内容时,由于每个时间步均可以生成摘要内容的一部分,则在每个时间步,文本片段对应的冗余度参数均会由于目前摘要内容已确定部分的变化发生变化。所以,在每个时间步均会重新确定文本片段对应的冗余度参数以更新对应的摘要权重,进而基于更新后的摘要权重重新确定本次迭代处理所需的目标文本片段。
继续以多个时间步中的第t个时间步为例,根据前t-1个时间步得到的摘要内容的已确定部分,重新确定文本片段在第t个时间步中的冗余度参数,并结合重要性参数确定文本片段在第t个时间步中的摘要权重,根据该摘要权重从文本集合包括的文本片段中确定用于第t个时间步的目标文本片段。
为了选取对生成摘要内容帮助较大的目标文本片段,可以基于摘要权重从文本集合中包括的文本片段选取摘要权重的最大前K(topK)个文本片段作为目标文本片段。
可选的,在本申请实施例中,当文本集合包括多个待处理文本时,选择目标文本片段是以文本集合为对象,而不是以单个待处理文本为对象,前述topK个文本片段是基于文本集合中文本片段的摘要权重排序得到。例如,当文本集合包括多个待处理文本时,将多个待处理文本分别包括的文本片段,即文本集合中包括的所有文本片段,按照摘要权重进行排序,将摘要权重的最大前K个文本片段确定为目标文本片段。
S204:根据所述目标文本片段生成所述文本集合对应的所述摘要内容。
目标文本片段是文本集合中较为重要且与目前摘要内容的已确定部分冗余度不高的文本片段,故无需根据文本集合中包括的所有文本片段生成文本集合对应的摘要内容,通过数量较少的目标文本片段即可生成文本集合对应的摘要内容,可以降低生成摘要内容所需处理的文本片段数量,提高了摘要内容的生成效率。
通过目标文本片段生成文本集合对应的摘要内容时,可以依据目标文本片段生成文本集合对应的文本集合特征,然后根据文本集合特征生成对应的摘要。继续以多个时间步中的第t个时间步为例,在确定用于第t个时间步的目标文本片段后,通过第t个时间步的目标文本片段,生成文本集合对应的文本集合特征。
由前述可知,在每个时间步均会重新确定文本片段对应的冗余度参数,从而确定摘要权重,进而确定目标文本片段,也就是说,每个时间步确定出的目标文本片段可能不同,基于每个时间步的目标文本片段生成的文本集合特征可能不同,从而确定出的摘要内容也有所不同,下面具体进行说明。
根据第t个时间步的目标文本片段的摘要权重,在生成文本集合对应的文本集合特征时,调整第t个时间步的目标文本片段对应的注意力权重,参见公式(4):
其中,表示第t个时间步第i个文本片段对应的调整后的注意力权重;表示第t个时间步第i个文本片段对应的注意力权重;impi表示第i个文本片段的摘要权重;SK表示目标文本片段构成的目标文本片段集合,si表示文本集合中第i个文本片段。
在第t个时间步,当文本集合中第i个文本片段属于目标文本片段集合SK中的文本片段时,调整第i个目标文本片段对应的注意力权重为当文本集合中第i个文本片段不属于目标文本片段集合SK中的文本片段时,调整第i个目标文本片段对应的注意力权重为0。
通过调整后的注意力权重以及第t个时间步的目标文本片段的片段特征,生成文本集合对应的文本集合特征。参见公式(5):
其中,表示文本集合对应的文本集合特征;目标文本片段集合SK中包括K个目标文本片段,表示第t个时间步第k个目标文本片段对应的调整后的注意力权重,k∈K,k与K均为整数,K>0;lk表示目标文本片段集合SK中第k个目标文本片段sk的片段特征,目标文本片段sk与文本片段si均为文本集合中的文本片段,且目标文本片段sk的数量少于文本片段si的数量。
由此获得的文本集合特征,不仅考虑了文本集合中每个文本片段相对于待处理文本的重要性,还考虑了每一次迭代过程中文本片段相对于对于目前摘要内容的已经确定部分的相似程度。从而可以动态地筛选出较为重要且与目前摘要内容的已确定部分冗余度不高的作为目标文本片段,通过数量较少的目标文本片段继续生成摘要内容。由此可以降低生成摘要内容所需处理的文本片段数量,提高了摘要内容的生成效率。
在确定文本集合特征后,若第t个时间步不是多个时间步中的最后一个时间步,则根据文本集合特征确定摘要内容在第t个时间步的部分摘要,通过第t+1个时间步等时间步继续生成文本集合对应的摘要内容。
本申请实施例提供一种摘要确定方法,针对包括至少一个待处理文本的文本集合,在确定该文本集合对应摘要内容的过程中,基于待处理文本包括的文本片段相对于待处理文本的重要性参数,以及相对于摘要内容中已确定部分的冗余度参数,共同获得文本片段的摘要权重。其中,冗余度参数为本次确定摘要内容时文本片段相对于目前摘要内容的已经确定部分的相似程度,通过冗余度参数可以确定文本集合中哪些文本片段与目前摘要内容的已经确定部分相似度较高,哪些文本片段相似度不高,由于基于目前摘要内容的已确定部分,相似度较高的文本片段对于继续生成该摘要内容的帮助并不高,故此,可以根据基于重要性参数和冗余度参数确定的摘要权重,从文本集合所包括文本片段中筛选出较为重要且与目前摘要内容的已确定部分冗余度不高的作为目标文本片段,通过数量较少的目标文本片段继续生成摘要内容。由此可以降低生成摘要内容所需处理的文本片段数量,提高了摘要内容的生成效率。
在实际应用中,用户可以在终端设备所提供的搜索界面中输入检索串,将用户意图以检索串的形式进行检索,该检索串包括至少一个检索词。例如,当用户想获取关于某事件新闻的相关信息,可以在搜索界面中输入检索串:某事件。终端设备根据检索串能够获得文本集合,该文本集合中包括至少一个与检索串相关的待处理文本。其中,检索串用于标识用户的检索意图,文本集合中包括的待处理文本是基于检索串的检索结果。
文本集合中包括多个文本片段,每个文本片段与用户意图的相关程度可能存在差异,例如有的文本片段与用户意图相关,有的文本片段与用户意图不相关。为了使生成的摘要内容更加符合用户意图,在筛选出对生成摘要内容具有帮助的文本片段,还可以引入第三个因素:相关性参数。
通过相关性参数可以确定文本集合中哪些文本片段与用户意图更相关,哪些文本片段与用户意图不太相关,从而依据相关性参数在文本集合中筛选出对生成摘要内容具有帮助的文本片段。
下面介绍一种获得相关性参数的方式。先根据检索串确定文本片段相对于检索串的片段特征,根据片段特征、检索串的检索串特征以及文本片段在待处理文本中的位置信息,确定文本片段相对于检索串的相关性参数。具体参见公式(6):
r2i=f([sli;ind1i;ind2i;li;simqi]) (6)
其中,r2i表示文本集合中第i个文本片段相对于检索串的相关性参数;sli表示第i个文本片段的长度;idx1i表示第i个文本片段在待处理文本中的绝对位置;idx2i表示第i个文本片段在待处理文本中的相对位置;li表示第i个文本片段的片段特征;simqi表示第i个文本片段的片段特征和检索串片段特征之间的余弦距离。
具体地,,下面对上述参数进行具体说明。
其中,f()表示通过参数sli、idx1i、idx2i、li和simqi获得r2i的方式。本申请实施例不具体限定获得相关性参数r2i的方式,例如,r2i也可以通过SVR模型得到。其中,重要性参数r1i和相关性参数r2i的获取方式可以相同,也可以不同。
idx1i与idx2i为文本片段在待处理文本中的位置信息,分别表示绝对位置和相对位置,具体参照前述的相关说明,在此不再赘述。
可以理解的是,当引入相关性参数时,在通过公式(1)获取重要性参数时,公式(1)中的片段特征li是基于检索串确定的文本片段相对于与检索串的片段特征。其他相同之处不再赘述。
由于在基于检索串确定文本集合后,每个文本片段的相关性参数不会随着确定摘要的过程而改变,属于相对固定的参数,故在本申请实施例中,可以将确定出的相关性参数记录下来,在摘要确定的过程中直接调用,可以不需要重复计算。
下面对通过QBS-Encoder方式获得第i个文本片段的片段特征li进行说明。
该编码方式在对文本片段进行编码时,考虑了文本片段与用户意图的相关程度,由此获得的文本片段的片段特征会更加突出体现与检索串相关程度较高的片段特征,生成的片段特征中强化了与用户意图相关文本片段的信息,弱化了与用户意图不相关文本片段的信息,从而起到了基于用户意图选择片段特征中信息的作用,使其包括更多与用户意图相关文本片段的信息。
下面以文本片段为句子为例,对QBS-Encoder方式进行说明。句子中包括多个分词,检索串中包括至少一个检索词,可以根据每个分词向量和每个检索词向量,先确定分词相对于检索串中每个检索词的子相关性参数,然后根据多个子相关性参数确定该分词相对检索串的相关性参数。下面对此进行具体说明。
确定每个分词向量分别对应检索串中每个检索词向量的子相关性参数,参见公式(7):
Sij=fs(hi,uj) (7)
其中,Sij表示文本片段中第i个分词与检索串中第j个检索词的子相关性参数;文本片段中包括I个分词,hi表示第i个分词的分词向量,i∈I,i与I均为整数,I>1;检索串共包括J个检索词,uj表示第j个检索词的检索词向量,j∈J,j与J均为整数,J>0。
fs(hi,uj)为分词向量hi与检索词向量uj子相关性参数计算函数,参见公式(8):
确定子相关性参数后,可以根据子相关性参数得到每个分词相对于检索串的相关性参数。例如,可以将获得的子相关性参数进行归一化指数函数softmax操作,获得相关性参数,每个相关性参数的范围都在(0,1)之间。参见公式(9):
a′i=softmax(∑JSij) (9)
其中,ai′表示目标文本中第i个分词相对于检索串的相关性参数。
由前述可知,由于每个分词与检索串的相关程度可能存在差异,故每个分词的相关性参数可能会存在不同,在确定文本片段的片段特征时,基于多个分词分别对应的相关性参数和多个分词分别对应的分词向量共同确定文本片段的片段特征。
例如,结合每个分词向量与其对应的相关性参数更新每个分词向量的表示,基于更新后的分词向量获得文本片段的片段特征。获得更新后的分词向量可以参见公式(10):
h′i=a′i×hi (10)
其中,h′i表示更新后的第i个分词向量;a′i表示第i个分词相对于检索串的相关性参数;hi表示第i个分词向量。
在获得文本片段中的所有更新后的分词向量后,将一个文本片段中包括的更新后的分词向量h′i进行拼接,获得文本片段的片段特征li。
由此,通过上述公式(7)-公式(10)获得片段特征li的方式为QBS-Encoder方式,可以表示为公式(11):
lk=QBSEncoder(d,q) (11)
其中,d表示文本集合,q表示检索串。
可以理解的是,上述获得文本片段的片段特征li中,采用的变量i与变量j仅是示例性的,不具有特殊含义,可以与本申请实施例中的其他部分中的变量i与变量j相同,也可以不同。
在获得相关性参数后,可以通过文本片段相对于待处理文本的重要性参数、文本片段相对于摘要内容中已确定部分的冗余度参数以及文本片段相对于检索串的相关性参数,得到文本片段的摘要权重。公式(3)可以变形为公式(12):
impi=α1×r1i+α2×r2i-β×r3i (12)
其中,α1、α2和β为权重调节参数,例如,α1+α2+β=1。
由于前述采用QBS-Encoder方式进行编码,对应的,可以使用基于用户意图驱动的解码算法(Adapted Query-Driven decoder,AQD-Decoder)进行解码,将获得的文本集合特征输入至AQD-Decoder解码器中,即将文本集合特征作为AQD-Decoder解码器的输入数据,然后进行解码,生成文本集合对应的摘要内容。
下面介绍另一种重要性参数的获取方式,在获得文本片段的片段特征后,可以基于片段特征得到文本片段相对于文本集合的重要性参数。例如,先基于片段特征获取每个文本片段之间的相似度,参见公式(13):
其中,Hii′表示片段特征li和片段特征li′之间的相似度;li′表示目标文本中第i’个文本片段的片段特征,i′∈I,i′为整数。
然后,对文本集合中所有文本片段对应的相似度求和,并进行softmax操作,获得参数bi,该参数可以体现出文本片段相对于文本集合的重要程度,具体参见公式(14):
bi=softmax(∑IHii′) (14)
其中,在该重要性参数的获取方式中,由于bi能够体现出现文本片段相对于文本集合的重要程度,故可以将bi作为表示文本集合中第i个文本片段相对于待处理文本的重要性参数r1i。
此外,在公式(1)中除了通过计算余弦距离确定simdi以外,本申请实施例还提供了另一种基于公式(1)确定simdi的可选方式,这种方式中,可以结合公式(14)得到的参数bi(在不将bi作为r1i的情况下),以及前述通过公式(11)确定的li生成待处理文本的文本特征,参见公式(15):
F′=∑I(li×bi) (15)
其中,F′表示一个待处理文本对应的文本特征;li表示第i个文本片段的片段特征。
由此,可以通过第i个文本片段的片段特征li和待处理文本的文本特征F′之间的余弦距离获得simdi。
本申请实施例提供的摘要确定方法可以应用于搜索引擎、智能客服、个性化浏览等场景。例如,在搜索引擎场景中,通过动态生成符合用户意图的摘要内容,可以帮助用户快速从大量文本中获取感兴趣的内容;在智能客服场景中,以动态生成摘要内容的形式这对用户的查询内容提供解决方案;在个性化浏览场景中,总结包含用户意图的摘要内容以供用户可以快速浏览相应的内容等等。
接下来,以搜索引擎场景为例对本申请实施例提供的摘要确定方法进行说明。参见图3,该图为本申请实施例提供的一种摘要确定方法的应用场景示意图,通过伪代码的形式展示生成摘要内容的过程。
如图3所示,将多个待处理文本SDS、文本集合D和检索串q作为输入,采用本申请实施例提供的摘要确定方法,可以获得文本集合D对应的摘要内容。下面具体进行说明。
用户在终端设备提供的搜索界面中输入检索串q,该检索串q用于标识用户的检索意图,终端设备根据检索串q获取包括文本集合D,其中,文本集合D中包括多个待处理文本SDS,每个待处理文本中包括多个文本片段,文本集合中共包括I个文本片段,文本集合D中每个文本片段可以表示为si,si∈D,i∈I,i与I均为整数,I>1。
由前述可知,摘要内容的生成是基于一个时序过程逐渐完成的,伪代码的第1行至第7行为进入迭代过程之前的准备工作。
第1行:利用待处理文本SDS训练AQD-Decoder模型,以便根据AQD-Decoder模型获取文本片段对应的注意力权重,以及对每个时间步确定的目标文本片段进行解码。
第2行:通过SVR模型根据片段特征、待处理文本的文本特征以及文本片段在待处理文本中的位置信息,通过公式(1)确定文本片段相对于待处理文本的重要性参数。
第3行:通过SVR模型根据片段特征、检索串的检索串特征以及文本片段在待处理文本中的位置信息,通过公式(6)确定文本集合中每个文本片段相对于检索串的相关性参数。
第4行:根据重要性参数、相关性参数,以及冗余度参数通过公式(12)确定文本片段的摘要权重。
第5行:但是由于此时还未获取摘要内容,冗余度参数为0,文本集合D中第i个文本片段的摘要权重impi的获得方式可以参见公式(16):
impi=α1×r1i+α2×r2i (16)
第6行:文本集合D对应摘要内容是通过多个时间步确定的,一个时间步对应一次迭代,生成部分摘要,由此可以建立摘要内容的空集合S={},以便存储每个时间步生成的部分摘要。
第7行:此时,集合S={}中摘要内容中已确定部分的长度为0。
完成准备工作后,通过多次迭代获得文本集合D对应的摘要内容。伪代码第8行至第17行表示迭代的过程。下面以每个时间步确定的部分摘要为词汇进行说明,此时摘要内容的长度为包括的词的个数。
为了从文本集合D包括的文本片段中筛选出数量较少的目标文本片段,从而获得文本集合D对应的摘要内容。在利用前述AQD-Decoder进行解码时使用改进的最大边界相关模型(Adapted Maximal Marginal Relevance Model,AMMR),以下简称为AQD-AMMR模型。在使用AQD-AMMR模型解码时,每一个时间步都会获取文本片段相对于待处理文本的重要性参数、文本片段相对于摘要内容中已确定部分的冗余度参数和文本片段相对于检索串的相关性参数,以便筛选出目标文本片段。
第8行:摘要内容的长度具有一定限制,本实施例将其设置为Lmax,并通过多个时间步逐步获取文本集合D对应的摘要内容,直至获取到的摘要内容长度满足设定的长度。当长度s<Lmax,执行以下操作:
第9行:获得每个文本片段的摘要权重,将文本集合D中包括的I个文本片段进行排序,挑选出摘要权重的最大前K个文本片段作为目标文本片段,构成目标文本片段集合SK。
第10行:利用AQD-Decoder模型获得目标文本片段对应的注意力权重,并根据第t个时间步的目标文本片段的摘要权重调整在生成文本集合对应的文本集合特征时第t个时间步的目标文本片段对应的注意力权重并获得文本集合D对应的文本集合特征参见公式(4)和公式(5)。
第12行:将获得的部分摘要St添加至摘要内容的集合S中。
第13行:通过SVR模型根据片段特征、待处理文本的文本特征以及文本片段在待处理文本中的位置信息,通过公式(1)确定文本片段相对于待处理文本的重要性参数。
第14行:通过SVR模型根据片段特征、检索串的检索串特征以及文本片段在待处理文本中的位置信息,通过公式(6)确定文本集合中每个文本片段相对于检索串的相关性参数。
需要说明的是,由于重要性参数与相关性参数属于相对固定的参数,故可以将第2行和第3行分别获取的重要性参数与相关性参数记录下来,在执行第12行和第13行操作时直接调用,可以不需要重复计算。
第15行:每个时间步均可以生成摘要内容的一部分词汇,对应的在每个时间步,文本片段对应的冗余度参数均会由于目前摘要内容已确定部分的变化发生变化。可以通过公式(2)获得相对于摘要内容中已确定部分的冗余度参数。
第16行:由此,可以通过文本片段相对于待处理文本的重要性参数、文本片段相对于摘要内容中已确定部分的冗余度参数以及文本片段相对于检索串的相关性参数,通过公式(12)得到文本片段的摘要权重。
第17行:一直执行上述步骤,直至摘要内容的长度s≥Lmax,获取此时集合S。
将该集合S中包括的词汇的概率分布进行计算,参见公式(17):
具体地,状态st用于生成第t个时间步对应的部分摘要St。例如,解码过程可理解为单向的循环神经网络(Recurrent neural network,RNN),根据第t-1时间步的状态st-1生成第t时间步的状态,参见公式(18):
st=f(s<t-1>,y<t-1>) (18)
其中,y<t-1>表示第t-1时间步解码生成的词汇,s<t-1>表示第t-1时间步解码器状态。
针对上述实施例提供的摘要确定方法,本申请实施例还提供了一种摘要确定装置。
参见图4,该图为本申请实施例提供的一种摘要确定装置的结构示意图。如图4所示,该摘要确定装置400包括:获取单元401、第一确定单元402、第二确定单元403和生成单元404;
所述获取单元401,用于获取包括至少一个待处理文本的文本集合,所述待处理文本包括多个文本片段;
所述第一确定单元402,用于在确定所述文本集合对应摘要内容的过程中,通过所述文本片段相对于所述待处理文本的重要性参数和所述文本片段相对于所述摘要内容中已确定部分的冗余度参数,得到所述文本片段的摘要权重;
所述第二确定单元403,用于基于所述摘要权重从所述文本集合包括的文本片段中确定目标文本片段,所述目标文本片段的数量少于所述文本集合中所述文本片段的数量;
所述生成单元404,用于根据所述目标文本片段生成所述文本集合对应的所述摘要内容。
作为一种可能的实现方式,所述文本集合对应摘要内容是通过多个时间步确定的,针对所述多个时间步中的第i个时间步,所述装置400,用于:
将前i-1个时间步所确定的部分摘要作为所述摘要内容中已确定部分,确定所述文本片段在第i个时间步中的冗余度参数。
作为一种可能的实现方式,所述第二确定单元403,用于:
根据所述摘要权重从所述文本集合包括的文本片段中确定用于第i个时间步的目标文本片段;
所述生成单元404,用于:
通过所述第i个时间步的目标文本片段,生成所述文本集合对应的文本集合特征;
根据所述文本集合特征确定所述摘要内容在第i个时间步的部分摘要。
作为一种可能的实现方式,所述生成单元404,用于:
根据所述第i个时间步的目标文本片段的摘要权重,调整在生成所述文本集合对应的文本集合特征时所述第i个时间步的目标文本片段对应的注意力权重;
通过调整后的注意力权重以及所述第i个时间步的目标文本片段的片段特征,生成所述文本集合对应的文本集合特征。
作为一种可能的实现方式,所述文本集合是通过检索串确定的,所述第一确定单元402,用于:
通过所述文本片段相对于所述待处理文本的重要性参数、所述文本片段相对于所述摘要内容中已确定部分的冗余度参数以及所述文本片段相对于检索串的相关性参数,得到所述文本片段的摘要权重。
作为一种可能的实现方式,所述装置400,用于:
根据所述检索串,确定所述文本片段相对于检索串的片段特征;
根据所述片段特征、所述检索串的检索串特征以及所述文本片段在所述待处理文本中的位置信息,确定所述文本片段相对于检索串的相关性参数;
根据所述片段特征、所述待处理文本的文本特征以及所述文本片段在所述待处理文本中的位置信息,确定所述文本片段相对于所述待处理文本的重要性参数。
作为一种可能的实现方式,所述文本集合包括多个待处理文本,所述第二确定单元403,用于:
从所述多个待处理文本分别包括的文本片段中确定所述摘要权重的最大前K个文本片段作为所述目标文本片段。
上述实施例提供的摘要确定装置,针对包括至少一个待处理文本的文本集合,在确定该文本集合对应摘要内容的过程中,基于待处理文本包括的文本片段相对于待处理文本的重要性参数,以及相对于摘要内容中已确定部分的冗余度参数,共同获得文本片段的摘要权重。其中,冗余度参数为本次确定摘要内容时文本片段相对于目前摘要内容的已经确定部分的相似程度,通过冗余度参数可以确定文本集合中哪些文本片段与目前摘要内容的已经确定部分相似度较高,哪些文本片段相似度不高,由于基于目前摘要内容的已确定部分,相似度较高的文本片段对于继续生成该摘要内容的帮助并不高,故此,可以根据基于重要性参数和冗余度参数确定的摘要权重,从文本集合所包括文本片段中筛选出较为重要且与目前摘要内容的已确定部分冗余度不高的文本片段作为目标文本片段,通过数量较少的目标文本片段继续生成摘要内容。由此可以降低生成摘要内容所需处理的文本片段数量,提高了摘要内容的生成效率。
本申请实施例还提供了一种计算机设备,下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。
参见图5,图5是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图5所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
获取包括至少一个待处理文本的文本集合,所述待处理文本包括多个文本片段;
在确定所述文本集合对应摘要内容的过程中,通过所述文本片段相对于所述待处理文本的重要性参数和所述文本片段相对于所述摘要内容中已确定部分的冗余度参数,得到所述文本片段的摘要权重;
基于所述摘要权重从所述文本集合包括的文本片段中确定目标文本片段,所述目标文本片段的数量少于所述文本集合中所述文本片段的数量;
根据所述目标文本片段生成所述文本集合对应的所述摘要内容。
可选的,CPU 1422还可以执行本申请实施例中摘要确定方法任一具体实现方式的方法步骤。
针对上文描述的摘要确定方法,本申请实施例还提供了一种用于摘要确定的终端设备,以使上述摘要确定方法在实际中实现以及应用。
参见图6,图6为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,简称PDA)等任意终端设备,以终端设备为手机为例:
图6示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图6,该手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图6中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
该手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的摘要确定方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的摘要确定方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的摘要确定方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种摘要确定方法,其特征在于,所述方法包括:
获取包括至少一个待处理文本的文本集合,所述待处理文本包括多个文本片段;
在确定所述文本集合对应摘要内容的过程中,通过所述文本片段相对于所述待处理文本的重要性参数和所述文本片段相对于所述摘要内容中已确定部分的冗余度参数,得到所述文本片段的摘要权重;
基于所述摘要权重从所述文本集合包括的文本片段中确定目标文本片段,所述目标文本片段的数量少于所述文本集合中所述文本片段的数量;
根据所述目标文本片段生成所述文本集合对应的所述摘要内容。
2.根据权利要求1所述的方法,其特征在于,所述文本集合对应摘要内容是通过多个时间步确定的,针对所述多个时间步中的第t个时间步,所述方法还包括:
将前t-1个时间步所确定的部分摘要作为所述摘要内容中已确定部分,确定所述文本片段在第i个时间步中的冗余度参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述摘要权重从所述文本集合所包括文本片段中确定目标文本片段,包括:
根据所述摘要权重从所述文本集合包括的文本片段中确定用于第t个时间步的目标文本片段;
所述根据所述目标文本片段生成所述文本集合对应的所述摘要内容,包括:
通过所述第t个时间步的目标文本片段,生成所述文本集合对应的文本集合特征;
根据所述文本集合特征确定所述摘要内容在第t个时间步的部分摘要。
4.根据权利要求3所述的方法,其特征在于,所述通过所述第t个时间步的目标文本片段,生成所述文本集合对应的文本集合特征,包括:
根据所述第t个时间步的目标文本片段的摘要权重,调整在生成所述文本集合对应的文本集合特征时所述第t个时间步的目标文本片段对应的注意力权重;
通过调整后的注意力权重以及所述第t个时间步的目标文本片段的片段特征,生成所述文本集合对应的文本集合特征。
5.根据权利要求1所述的方法,其特征在于,所述文本集合是通过检索串确定的,所述通过所述文本片段相对于所述待处理文本的重要性参数和所述文本片段相对于所述摘要内容中已确定部分的冗余度参数,得到所述文本片段的摘要权重,包括:
通过所述文本片段相对于所述待处理文本的重要性参数、所述文本片段相对于所述摘要内容中已确定部分的冗余度参数以及所述文本片段相对于检索串的相关性参数,得到所述文本片段的摘要权重。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述检索串,确定所述文本片段相对于检索串的片段特征;
根据所述片段特征、所述检索串的检索串特征以及所述文本片段在所述待处理文本中的位置信息,确定所述文本片段相对于检索串的相关性参数;
根据所述片段特征、所述待处理文本的文本特征以及所述文本片段在所述待处理文本中的位置信息,确定所述文本片段相对于所述待处理文本的重要性参数。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述文本集合包括多个待处理文本,所述基于所述摘要权重从所述文本集合包括的文本片段中确定目标文本片段,包括:
从所述多个待处理文本分别包括的文本片段中确定所述摘要权重的最大前K个文本片段作为所述目标文本片段。
8.一种摘要确定装置,其特征在于,所述装置包括:获取单元、第一确定单元、第二确定单元和生成单元;
所述获取单元,用于获取包括至少一个待处理文本的文本集合,所述待处理文本包括多个文本片段;
所述第一确定单元,用于在确定所述文本集合对应摘要内容的过程中,通过所述文本片段相对于所述待处理文本的重要性参数和所述文本片段相对于所述摘要内容中已确定部分的冗余度参数,得到所述文本片段的摘要权重;
所述第二确定单元,用于基于所述摘要权重从所述文本集合包括的文本片段中确定目标文本片段,所述目标文本片段的数量少于所述文本集合中所述文本片段的数量;
所述生成单元,用于根据所述目标文本片段生成所述文本集合对应的所述摘要内容。
9.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011333789.4A CN112328783A (zh) | 2020-11-24 | 2020-11-24 | 一种摘要确定方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011333789.4A CN112328783A (zh) | 2020-11-24 | 2020-11-24 | 一种摘要确定方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112328783A true CN112328783A (zh) | 2021-02-05 |
Family
ID=74308627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011333789.4A Pending CN112328783A (zh) | 2020-11-24 | 2020-11-24 | 一种摘要确定方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328783A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7430820B2 (ja) | 2021-08-04 | 2024-02-13 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751425A (zh) * | 2008-12-10 | 2010-06-23 | 北京大学 | 文档集摘要获取方法及装置 |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN105005563A (zh) * | 2014-04-15 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法及装置 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及系统 |
CN109815328A (zh) * | 2018-12-28 | 2019-05-28 | 东软集团股份有限公司 | 一种摘要生成方法及装置 |
CN111666402A (zh) * | 2020-04-30 | 2020-09-15 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN111858912A (zh) * | 2020-07-03 | 2020-10-30 | 黑龙江阳光惠远知识产权运营有限公司 | 一种基于单篇长文本的摘要生成方法 |
-
2020
- 2020-11-24 CN CN202011333789.4A patent/CN112328783A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751425A (zh) * | 2008-12-10 | 2010-06-23 | 北京大学 | 文档集摘要获取方法及装置 |
CN105005563A (zh) * | 2014-04-15 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法及装置 |
CN104216875A (zh) * | 2014-09-26 | 2014-12-17 | 中国科学院自动化研究所 | 基于非监督关键二元词串提取的微博文本自动摘要方法 |
CN109635284A (zh) * | 2018-11-26 | 2019-04-16 | 北京邮电大学 | 基于深度学习结合累积注意力机制的文本摘要方法及系统 |
CN109815328A (zh) * | 2018-12-28 | 2019-05-28 | 东软集团股份有限公司 | 一种摘要生成方法及装置 |
CN111666402A (zh) * | 2020-04-30 | 2020-09-15 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN111858912A (zh) * | 2020-07-03 | 2020-10-30 | 黑龙江阳光惠远知识产权运营有限公司 | 一种基于单篇长文本的摘要生成方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7430820B2 (ja) | 2021-08-04 | 2024-02-13 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102646667B1 (ko) | 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치 | |
CN107943860B (zh) | 模型的训练方法、文本意图的识别方法及装置 | |
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
CN108304846B (zh) | 图像识别方法、装置及存储介质 | |
CN109543195B (zh) | 一种文本翻译的方法、信息处理的方法以及装置 | |
CN110598046B (zh) | 一种基于人工智能的标题党识别方法和相关装置 | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN111553162A (zh) | 一种意图识别的方法以及相关装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN112749252A (zh) | 一种基于人工智能的文本匹配方法和相关装置 | |
CN114328852A (zh) | 一种文本处理的方法、相关装置及设备 | |
CN113392644A (zh) | 模型训练、文本信息处理方法、系统、装置和存储介质 | |
CN113822038A (zh) | 一种摘要生成方法和相关装置 | |
CN111314771B (zh) | 一种视频播放方法及相关设备 | |
CN111738000B (zh) | 一种短语推荐的方法以及相关装置 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN112328783A (zh) | 一种摘要确定方法和相关装置 | |
CN112036135B (zh) | 一种文本处理方法和相关装置 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN113703883A (zh) | 一种交互方法和相关装置 | |
CN111723783A (zh) | 一种内容识别方法和相关装置 | |
CN115080840A (zh) | 一种内容推送方法、装置及存储介质 | |
CN112752155A (zh) | 一种媒体数据显示方法和相关设备 | |
CN110263347A (zh) | 一种同义词的构建方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |