CN110825870B - 文档摘要的获取方法和装置、存储介质及电子装置 - Google Patents
文档摘要的获取方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN110825870B CN110825870B CN201911052170.3A CN201911052170A CN110825870B CN 110825870 B CN110825870 B CN 110825870B CN 201911052170 A CN201911052170 A CN 201911052170A CN 110825870 B CN110825870 B CN 110825870B
- Authority
- CN
- China
- Prior art keywords
- target
- word
- sentence
- round
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文档摘要的获取方法和装置、存储介质及电子装置。其中,该方法包括:获取待处理的初始问题信息和目标文档;根据初始问题信息对目标文档执行多轮的摘要抽取操作,得到目标文档摘要;输出目标文档摘要,其中,目标文档摘要包括执行每轮的摘要抽取操作得到的摘要抽取结果。本发明解决了文档摘要获取的准确性低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种文档摘要的获取方法和装置、存储介质及电子装置。
背景技术
文档摘要的获取是自动文档摘要任务的一个简单变种,即给定用户查询的问题和对应检索的文档,通过对文档内容进行语义分析后生成和问题相关联的摘要。现有技术中主要基于抽取式摘要方法与阅读理解式摘要方法进行文档摘要的获取。
基于抽取式摘要的方法主要存在以下几个问题:抽取的多个句子间很难保证语义是语义连贯的,且模型无法预知抽取到何时摘要即该停止,所以通常需要预测完最后一句,然后根据最大字数限制来选择得分最高的句子。另外受限于摘要的长度,一般摘要只包含几个句子,而有些较长的文档中存在的句子数目很可观,这种基于分类的方法在训练时会不可避免的遭遇类别不平衡问题。而基于阅读理解式摘要的方法,只能根据问题预测一个连续的开始和结束区间,无法直接建模句子的序列信息。因为实际的摘要往往是分散在文档中间,不一定是一个连续的区域,所以这种方法往往产生的结果不是很理想。因此,存在文档摘要获取的准确性低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文档摘要的获取方法和装置、存储介质及电子装置,以至少解决文档摘要获取的准确性低的技术问题。
根据本发明实施例的一个方面,提供了一种文档摘要的获取方法,包括:获取待处理的初始问题信息和目标文档;根据上述初始问题信息对上述目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,通过已执行的一轮或多轮的摘要抽取操作获取摘要抽取结果,进而根据上述摘要抽取结果确定当前轮的当前问题信息,并根据上述当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,上述第1轮的当前问题信息为上述初始问题信息;输出上述目标文档摘要,其中,上述目标文档摘要包括上述执行每轮的摘要抽取操作得到的摘要抽取结果。
根据本发明实施例的另一方面,还提供了一种文档摘要的获取装置,包括:获取单元,用于获取待处理的初始问题信息和目标文档;抽取单元,用于根据上述初始问题信息对上述目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,通过已执行的一轮或多轮的摘要抽取操作获取摘要抽取结果,进而根据上述摘要抽取结果确定当前轮的当前问题信息,并根据上述当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,上述第1轮的当前问题信息为上述初始问题信息;输出单元,用于输出上述目标文档摘要,其中,上述目标文档摘要包括上述执行每轮的摘要抽取操作得到的摘要抽取结果。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文档摘要的获取方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文档摘要的获取方法。
在本发明实施例中,通过获取待处理的初始问题信息和目标文档,根据上述初始问题信息对上述目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,根据已执行的一轮或多轮的摘要抽取操作得到的摘要抽取结果确定当前轮的当前问题信息,并根据上述当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,上述第1轮的当前问题信息为上述初始问题信息,输出上述目标文档摘要,并采用根据问题信息对目标文档执行多轮的摘要抽取操作,且上述问题信息包括已执行的一轮或多轮的摘要抽取结果的方式,达到了使获取的摘要抽取结果与初始问题、目标文档的相关性逐轮提高的目的,解决了文档摘要获取的准确性低的技术问题,进而实现了提高文档摘要获取的准确性的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文档摘要的获取方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的文档摘要的获取方法的流程图的示意图;
图3是根据本发明实施例的一种可选的文档摘要的获取方法的示意图;
图4是根据本发明实施例的另一种可选的文档摘要的获取方法的示意图;
图5是根据本发明实施例的另一种可选的文档摘要的获取方法的示意图;
图6是根据本发明实施例的另一种可选的文档摘要的获取方法的示意图;
图7是根据本发明实施例的另一种可选的文档摘要的获取方法的示意图;
图8是根据本发明实施例的另一种可选的文档摘要的获取方法的示意图;
图9是根据本发明实施例的另一种可选的文档摘要的获取方法的示意图;
图10是根据本发明实施例的另一种可选的文档摘要的获取方法的示意图;
图11是根据本发明实施例的一种可选的文档摘要的获取装置的结构示意图;
图12是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文档摘要的获取方法,可选地,作为一种可选的实施方式,上述文档摘要的获取方法可以但不限于应用于如图1所示的应用环境中。其中,该应用环境中包括用户设备102、服务器112,上述用户设备102和服务器112通过网络110进行通信。其中,上述用户设备102可以但不限于为智能机械人、智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。上述服务器112可以但不限于为数据处理能力较强,且具有一定存储空间的计算机处理设备。上述网络110可以包括但不限于:广域网、城域网、局域网。上述仅是一种示例,本实施例中对此不作任何限定。
需要说明的是,与上述文档摘要的获取方法对应的文档摘要的获取方法也可以但不限于应用于图1所示的应用环境中,具体过程如以下步骤:如步骤S102-S110,用户设备102获取用户A提出的初始问题信息B,同时服务器112获取目标文档114。进一步,用户设备102通过网络110将初始问题B发送给服务器112,服务器112根据初始问题信息B通过处理引擎116对目标文档114执行多轮的摘要抽取操作,得到目标文档摘要。进一步,服务器112通过网络110将目标文档摘要发送给用户设备102。进一步,用户设备102通过处理器106将收到的目标文档摘要通过显示器104呈现给用户A,其中,存储器108用于存储上述目标文档摘要。其中,初始问题B的获取可以但不限于通过接收语音信息、识别物理触碰等,显示器104的显示方式可以但不限于包括以下至少之一:语音播报、视频播放、文字显示等。
可选地,作为一种可选的实施方式,如图2所示,上述文档摘要的获取方法包括:
S202,获取待处理的初始问题信息和目标文档;
S204,根据初始问题信息对目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,通过已执行的一轮或多轮的摘要抽取操作获取摘要抽取结果,进而根据摘要抽取结果确定当前轮的当前问题信息,并根据当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,第1轮的当前问题信息为初始问题信息;
S206,输出目标文档摘要,其中,目标文档摘要包括执行每轮的摘要抽取操作得到的摘要抽取结果。
可选地,在本实施例中,上述文档摘要的获取方法可以但不限于应用于对话系统、搜索引擎等场景。上述初始问题的获取可以但不限于包括以下至少之一:识别输入到指定位置的文字信息、识别一定范围内或目标音频的语音信息、识别可扫描区域内的图片信息等。上述初始问题的形式可以但不限于包括语音、文字、图片、视频等。上述输出文档摘要的形式可以但不限于包括语音、文字、图片、视频等。上述目标文档可以但不限于为与上述初始问题信息相关联的信息类文档。其中,上述摘要为以提供上述目标文档内容梗概为目的,不加评论和补充解释,简明、确切地记述上述目标文档与上述初始问题相关度高的内容的短文。
需要说明的是,在本实施例中,根据初始问题信息对目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,根据已执行的一轮或多轮的摘要抽取操作得到的摘要抽取结果确定当前轮的当前问题信息,并根据当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,第1轮的当前问题信息为初始问题信息。
进一步举例说明,例如在的对话系统场景下,用户与计算机进行对话,计算机获取用户提出的初始问题,如“下雨前为什么会有闪电”,其中初始问题可以但不限于包括语音、文字、视频等形式的问题信息。进一步,检索与上述初始问题相关的文档,并对上述文档进行多轮摘要抽取操作,最终得到目标文档摘要,并可以但不限于通过语音播报、文字表示、视频播放等的形式将上述目标文档摘要播报或者显示出来,如语音播报“下雨时,天上会有带有阳电的云与带阴电的云,两种云碰到一起,就会放电,这种现象,就是闪电”。
进一步举例说明,如图3所示,假设初始问题信息即为第1轮问题信息304,目标文档即为目标文档302。其中,目标文档302中记载了与上述第1轮问题信息304相关度较高的文档信息。如图3所示,首先获取第1轮问题信息304与目标文档302,进一步,根据第1轮问题信息304对目标文档302进行第1轮的摘要抽取操作,进而获取到第1轮文档摘要抽取结果310;进一步,将第1轮文档摘要抽取结果310中的内容作为第2轮问题信息306,进而根据第2轮问题信息306对目标文档302进行第2轮的摘要抽取操作,从而获取第2轮文档摘要抽取结果312。进一步,将第2轮文档摘要抽取结果312作为第3轮问题信息308,进而根据第3轮问题信息308对目标文档302进行第3轮的摘要抽取操作。
需要说明的是,在本实施例中,输出目标文档摘要,其中,目标文档摘要包括执行每轮的摘要抽取操作得到的摘要抽取结果。可选地,输出目标文档摘要的条件可以但不限于包括以下至少之一:当前轮次输出的文档摘要与上一轮输出的文档摘要内容一致、当前轮次次数达到预设的目标次数阈值、当前轮次输出的文档摘要的字数达到或超过预设的目标字数阈值、摘要抽取操作的时间达到或超过预设的目标时间阈值等。
进一步举例说明,如图3所示,预设的目标字数阈值为20,进一步,假设第1轮文档摘要抽取结果310的字数为16,未达到预设的目标字数阈值;第2轮文档摘要抽取结果312的字数为31,超过预设的目标字数阈值,因此,停止摘要抽取操作,执行输出目标文档摘要。其中,输出目标文档摘要为第1轮文档摘要抽取结果310中记载的内容。
进一步举例说明,如图3所示,预设的目标时间阈值为1秒,进一步,假设从开启摘要抽取操作至获取第1轮文档摘要抽取结果310的过程中,总耗时为0.5秒,未达到预设的目标字数阈值;从开启摘要抽取操作至获取第2轮文档摘要抽取结果312的过程中,总耗时为1秒,达到预设的目标字数阈值,因此,停止摘要抽取操作,执行输出目标文档摘要。求中,输出目标文档摘要包括第1轮文档摘要抽取结果310以及第2轮文档摘要抽取结果312中记载的内容。
进一步举例说明,如图3所示,在根据第3轮问题信息308对目标文档302进行第3轮的摘要抽取操作后,假设获取的第3轮文档摘要抽取结果的记载内容与第2轮文档摘要抽取结果312中记载的内容一致,则停止摘要抽取操作,执行输出目标文档摘要。其中,输出的目标文档摘要包括第1轮文档摘要抽取结果310以及第2轮文档摘要抽取结果312中记载的内容。
通过本申请提供的实施例,利用根据已执行的一轮或多轮的摘要抽取操作得到的摘要抽取结果确定当前轮的当前问题信息,并根据当前问题信息执行当前轮的摘要抽取操作,进而达到输出与上述初始问题信息高度相关的目标文档摘要的目的,从而实现了提高文档摘要的获取准确性的技术效果。
作为一种可选的方案,根据初始问题信息对目标文档执行多轮的摘要抽取操作,得到目标文档摘要,包括:
S1,重复执行N轮以下摘要抽取操作,其中,N为大于1的自然数:
S2,获取当前轮的当前问题信息,其中,第1轮的当前问题信息为初始问题信息,在第1轮之后的每一轮的当前问题信息是根据已执行的一轮或多轮的摘要抽取操作得到的文档摘要抽取结果确定得到的当前问题信息;
S3,将当前问题信息转化为一组待处理的句子;
S4,将一组待处理的句子和目标文档输入到目标摘要抽取模型,得到目标抽取模型输出的当前轮的摘要抽取结果,其中,摘要抽取结果包括目标文档中与一组待处理的句子匹配的目标句子。
需要说明的是,重复执行N轮以下摘要抽取操作,其中,N为大于1的自然数。获取当前轮的当前问题信息,其中,第1轮的当前问题信息为初始问题信息,在第1轮之后的每一轮的当前问题信息是根据已执行的一轮或多轮的摘要抽取操作得到的文档摘要抽取结果确定得到的当前问题信息。可选的,当前问题信息可以但不限于包括以下至少之一:已执行的一轮或多轮的摘要抽取操作得到的所有文档摘要抽取结果的组合、已执行的上一轮的摘要抽取操作得到的文档摘要抽取结果等。
进一步举例说明,重复执行N轮以下摘要抽取操作,在第N中停止下一轮的预测,如图4所示,假设N为3,则在第3轮问题信息406上设置终止摘要抽取操作标记416,进一步,终止下一轮的预测,其中,目标文档摘要可以但不限于包括以下至少之一:第1轮文档摘要抽取结果410、第2轮文档摘要抽取结果412。
需要说明的是,将当前问题信息转化为一组待处理的句子。其中,在问题信息中可能存在包含无效信息(如语气助词、冗余词汇等)的问题,可以但不限于通过对上述无效信息执行删除、筛选等方式,将问题信息转化为不包含无效信息的待处理的句子。其中,在问题信息中可能存在语序有误的问题,可以但不限于通过对上述无效信息执行语序调整等方式,将问题信息转化为语序正确的待处理的句子。其中,在问题信息中可能存在缺少部分信息的问题,可以但不限于通过对上述问题信息进行信息补充等方式,将问题信息转化为信息完整的待处理的句子。
进一步举例说明,如图4所示,第1轮问题信息402中记载了“那个,我想问一下哈,大熊猫为什么是国宝”的内容信息。进一步,筛选出第1轮问题信息402的无效信息为“那个”以及“我想问下哈”,将上述无效信息从第1轮问题信息402中删除后,获得不包含无效信息的待处理的句子414,其中,待处理的句子414记载了“大熊猫为什么是国宝”的内容信息。
需要说明的是,将一组待处理的句子和目标文档输入到目标摘要抽取模型,得到目标抽取模型输出的当前轮的摘要抽取结果,其中,摘要抽取结果包括目标文档中与一组待处理的句子匹配的目标句子。
进一步举例说明,如图5所示,步骤S502,将第1轮问题信息504输入至目标摘要抽取模型502中;步骤S504,目标摘要抽取模型502根据第1轮问题信息504输出第1轮摘要抽取结果510。
通过本申请提供的实施例,利用重复执行N轮以下摘要抽取操作并将当前问题信息转化为一组待处理的句子的方式,以及,利用根据已执行的一轮或多轮获得的文档摘要抽取结果确定得到的当前问题信息、将一组待处理的句子和目标文档输入到目标摘要抽取模型的方式,达到了提高摘要抽取结果与初始问题匹配度的效果。
作为一种可选的方案,在当前轮不为第1轮的情况下,获取当前轮的当前问题信息,包括:
S1,将已执行的一轮或多轮得到的摘要抽取结果确定为当前轮的当前问题信息;或者
S2,将已执行的一轮或多轮得到的摘要抽取结果和初始问题信息进行拼接,得到当前轮的当前问题信息。
需要说明的是,将已执行的一轮或多轮得到的摘要抽取结果确定为当前轮的当前问题信息,或者,将已执行的一轮或多轮得到的摘要抽取结果和初始问题信息进行拼接,得到当前轮的当前问题信息。其中,拼接可以但不限于包括内容叠加、拆分组合等。
进一步举例说明,如图4所示,第3轮问题信息406包括第1轮问题信息以及第1轮文档摘要抽取结果410、第2轮文档摘要抽取结果412中记载的内容拼接后的内容信息。
通过本申请提供的实施例,利用将已执行的一轮或多轮得到的摘要抽取结果或者已执行的一轮或多轮得到的摘要抽取结果和初始问题信息进行拼接确定为或者得到当前轮的当前问题信息的方式,达到了提高摘要抽取操作准确性的目的,实现了获取更贴切初始问题信息的摘要抽取结果的效果。
作为一种可选的方案,将已执行的一轮或多轮得到的摘要抽取结果和初始问题信息进行拼接,得到当前轮的当前问题信息,包括:
将已执行的上一轮的摘要抽取结果和初始问题信息进行拼接,得到当前轮的当前问题信息。
需要说明的是,将已执行的上一轮的摘要抽取结果和初始问题信息进行拼接,得到当前轮的当前问题信息。其中,当前问题信息仅包括上一轮的摘要抽取结果和初始问题信息。
进一步举例说明,如图5所示,第2轮问题信息506中包括了第1轮问题信息504(初始问题信息)与第1轮文档摘要抽取结果510中记载的内容拼接后的内容信息;第3轮问题信息508中包括了第1轮问题信息504(初始问题信息)与第2轮文档摘要抽取结果512中记载的内容拼接后的内容信息.
通过本申请提供的实施例,利用将已执行的上一轮的摘要抽取结果和初始问题信息进行拼接,得到当前轮的当前问题信息的方式,达到了减少当前问题信息偏离初始问题信息的概率,实现提高当前问题信息与初始问题信息相关性的效果。
作为一种可选的方案,将一组待处理的句子和目标文档输入到目标摘要抽取模型,得到目标抽取模型输出的当前轮的摘要抽取结果,包括:
S1,在将一组待处理的句子和目标文档中每个字的字向量、位置向量和段向量输入到目标摘要抽取模型的情况下,通过目标抽取模型获取目标文档中每个字作为目标句子的起始位置的第一概率和作为目标句子的结束位置的第二概率;
S2,根据目标文档中每个字作为目标句子的起始位置的第一概率和作为目标句子的结束位置的第二概率,在目标文档中确定出目标句子。
可选的,目标摘要抽取模型可以但不限于包括Bert模型。其中,Bert模型的训练原理可参考图6所示,具体的,输入层同时输入问题信息602和目标文档的段落604,加入位置向量等来区分每个词在输入序列中的位置,利用Bert模型的12层自注意力层来做特征映射。最终输出层经过特征转换后每一个词会输出它作为答案开始位置/答案结束位置的概率606。进一步,取开始和结束概率最高的一个合法片段作为上述问题信息对应的答案信息,即在目标文档中确定出目标句子。可选的,字向量、位置向量和段向量分别用以表示字、位置和段落被映射到实数上的向量,涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入,其中,上述数学嵌入可以但不限于通过神经网络、单词共生矩阵的降维、概率模型等方法实现。
需要说明的是,在将一组待处理的句子和目标文档中每个字的字向量、位置向量和段向量输入到目标摘要抽取模型的情况下,通过目标抽取模型获取目标文档中每个字作为目标句子的起始位置的第一概率和作为目标句子的结束位置的第二概率。可选的,第一概率和第二概率可以但不限于通过分数、相关度、百分数等方式表示。
进一步举例说明,例如目标摘要抽取模型为Bert模型。将一组待处理的句子与目标文档中的每一个字的字向量、位置向量(position embedding)、段向量(segmentembedding)输入给Bert模型,通过Bert模型的自我注意力机制,令第k个输入位置向量的字经过编码后得到一个隐藏层的特征向量Tk,假设其纬度为d。进一步,将上述特征向量Tk接入一个与当前任务相关的抽取层来计算目标文档中每个字的摘要结果的start(开头)得分和end(结尾)得分。其中,开头语得分,为目标文档中每个字作为目标句子的起始位置的第一概率;结尾得分,为目标句子的结束位置的第二概率。具体的,可参考下述公式(1):
Sk=tanh(W×Tk+b),W∈R2×d; (1)
其中,Sk表示开头得分和结尾得分,d为文档中的字的个数,b为预设的偏置量,W为模型需要训练后得到的矩阵。
需要说明的是,根据目标文档中每个字作为目标句子的起始位置的第一概率和作为目标句子的结束位置的第二概率,在目标文档中确定出目标句子。
进一步举例说明,如图7所示,步骤S702输入包括,将待处理的句子702输入至目标摘要抽取模型704中。进一步,步骤S704输出包括,目标摘要抽取模型704输出字得分706,其中,上述字为目标文档710中的每个字,字得分包括目标文档710中的每个字的起始位置得分与结束为止得分,得分越高,代表概率越大。例如,“焚”的起始位置得分在目标文档710中最高,即代表“焚”作为目标句子708起始位置的概率最大;“权”的结束位置得分在目标文档710中最高,即代表“权”作为目标句子708结束位置的概率最大。进一步,步骤S706确定包括。根据字得分706,确定作为目标句子708起始位置的概率最大以及作为目标句子708结束位置的概率最大的字,进而根据字,确定目标句子708。如,通过作为目标句子708起始位置的概率最大的“焚”与作为目标句子708结束位置的概率最大的“权”以确定目标句子708为“焚书坑儒是秦始皇为了加强中央集权”。
通过本申请提供的实施例,利用通过目标抽取模型获取目标文档中每个字作为目标句子的起始位置的第一概率和作为目标句子的结束位置的第二概率的方式,达到在目标文档中确定出目标句子的目的,实现了提高确定出的目标句子的准确性的效果。
作为一种可选的方案,根据目标文档中每个字作为目标句子的起始位置的第一概率和作为目标句子的结束位置的第二概率,在目标文档中确定出目标句子,包括:
S1,在目标文档中选取第一概率最高的第一字和第二概率最高的第二字,其中,第一字在目标文档中位于第二字之前;
S2,将目标句子确定为包括目标文档中第一字所在的第一句子到第二字所在的第二句子。
需要说明的是,在目标文档中选取第一概率最高的第一字和第二概率最高的第二字,其中,第一字在目标文档中位于第二字之前,将目标句子确定为包括目标文档中第一字所在的第一句子到第二字所在的第二句子。
进一步举例说明,如图8所示,在字得分802中,起始位置得分最高的字为“焚”(9.81分),结束位置得分最高的字为“施”(9.81分),即代表“焚”为第一概率最高的第一字,“施”为第二概率最高的第二字。进一步,在目标文档806中,确定“焚”字处于“施”字前,进而获取“焚”所在的第一句为“焚书坑儒是秦始皇为了加强中央集权”,“施”所在的第二句为“尤其是为了加强思想文化上的统治而采取的残暴措施”。进一步,在目标文档806中确定目标句子804包括上述第一句以及第二句,即为“焚书坑儒是秦始皇为了加强中央集权,尤其是为了加强思想文化上的统治而采取的残暴措施”。
通过本申请提供的实施例,利用将目标句子确定为包括目标文档中第一字所在的第一句子到第二字所在的第二句子的方式,达到了保证获取的目标句子语义紧密的目的,实现了提高获取的文档摘要的完整性的效果。
作为一种可选的方案,将一组待处理的句子和目标文档输入到目标摘要抽取模型,得到目标抽取模型输出的当前轮的摘要抽取结果,包括:
S1,在将一组待处理的句子和目标文档中每个词的词向量、位置向量和段向量输入到目标摘要抽取模型的情况下,通过目标抽取模型获取目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率;
S2,根据目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率,在目标文档中确定出目标句子。
可选的,目标摘要抽取模型可以但不限于包括Bert模型。其中,Bert模型的训练原理可参考图6所示,具体的,输入层同时输入问题信息和目标文档的段落,加入位置向量等来区分每个词在输入序列中的位置,利用Bert模型的12层自注意力层来做特征映射。最终输出层经过特征转换后每一个词会输出它作为答案开始位置的概率和答案结束位置的概率,取开始和结束概率最高的一个合法片段即作为上述问题信息对应的答案信息。可选的,第三概率和第四概率可以但不限于通过分数、相关度、百分数等方式表示。
需要说明的是,在将一组待处理的句子和目标文档中每个词的词向量、位置向量和段向量输入到目标摘要抽取模型的情况下,通过目标抽取模型获取目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率。
进一步举例说明,例如目标摘要抽取模型为Bert模型。将一组待处理的句子与目标文档中的每一个词的词向量、位置向量(position embedding)、段向量(segmentembedding)输入给Bert模型,通过Bert模型的自我注意力机制,令第k个输入位置向量的字经过编码后得到一个隐藏层的特征向量Tk,假设其纬度为d。进一步,将上述特征向量Tk接入一个与当前任务相关的抽取层来计算目标文档中每个词的摘要结果的start(开头)得分和end(结尾)得分。其中,开头得分,为目标文档中每个词作为目标句子的起始位置的第三概率;结尾得分,为目标句子的结束位置的第四概率。具体的,可参考上述公式(1)。其中,Sk表示开头得分和结尾得分,d为文档中的字的个数,b为预设的偏置量,W为模型需要训练后得到的矩阵。
需要说明的是,根据目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率,在目标文档中确定出目标句子。
进一步举例说明,如图9所示,在词得分902中,起始位置得分最高的词为“焚书”(9.52分),结束位置得分最高的词为“措施”(9.81分),即代表“焚书”为第三概率最高的起始位置,“措施”为第四概率最高的结束位置。进一步,根据起始位置“焚书”与结束位置“措施”,在目标文档906中确定出目标句子904为“焚书坑儒是秦始皇为了加强中央集权,尤其是为了加强思想文化上的统治而采取的残暴措施”。
通过本申请提供的实施例,利用通过目标抽取模型获取目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率的方式,达到在目标文档中确定出目标句子的目的,实现了提高确定出的目标句子的准确性的效果。
作为一种可选的方案,根据目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率,在目标文档中确定出目标句子,包括:
S1,在目标文档中选取第三概率最高的第一词和第四概率最高的第二词,其中,第一词在目标文档中位于第二词之前;
S2,将目标句子确定为包括目标文档中第一词所在的第三句子到第二词所在的第四句子。
需要说明的是,在目标文档中选取第三概率最高的第一词和第四概率最高的第二词,其中,第一词在目标文档中位于第二词之前。将目标句子确定为包括目标文档中第一词所在的第三句子到第二词所在的第四句子。
进一步举例说明,如图9所示,在词得分902中,起始位置得分最高的词为“焚书”(9.52分),结束位置得分最高的词为“措施”(9.81分),即代表“焚书”为第三概率最高的第一词,“措施”为第四概率最高的第二词。进一步,在目标文档906中,确定“焚书”词处于“措施”词前,进而获取“焚书”所在的第三句为“焚书坑儒是秦始皇为了加强中央集权”,“措施”所在的第四句为“尤其是为了加强思想文化上的统治而采取的残暴措施”进一步,在目标文档906中确定出目标句子904包括第三句以及第四句。具体的,目标句子904为“焚书坑儒是秦始皇为了加强中央集权,尤其是为了加强思想文化上的统治而采取的残暴措施”。
通过本申请提供的实施例,利用根据目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率,在目标文档中确定出目标句子的方式,达到了保证获取的目标句子语义紧密的目的,实现了提高获取的文档摘要的完整性的效果。
作为一种可选的方案,将一组待处理的句子和目标文档输入到目标摘要抽取模型,得到目标抽取模型输出的当前轮的摘要抽取结果,包括:
S1,在执行第t轮的摘要抽取操作时,根据前t-1轮得到的摘要抽取结果获取目标文档中每个句子为目标句子的概率,其中,1<t≤N;
S2,根据每个句子为目标句子的概率确定出当前轮的摘要抽取结果。
需要说明的是,在执行第t轮的摘要抽取操作时,根据前t-1轮得到的摘要抽取结果获取目标文档中每个句子为目标句子的概率,其中,1<t≤N。根据每个句子为目标句子的概率确定出当前轮的摘要抽取结果。可选的,确定出当前轮的摘要抽取结果的条件可以但不限于包括上述概率在目标文档中最高、上述概率大于或等于预设条件概率等。可选的,可选的,目标句子的概率可以但不限于通过分数、相关度、百分数等方式表示。
进一步举例说明,如图5所示,如果根据第2轮文档摘要抽取结果获取目标文档514中每个字句为目标句子的概率在目标文档514中最高,则确定第2轮文档摘要抽取结果为目标句子。
进一步举例说明,在执行第t轮的摘要抽取操作时,首先,根据历史摘要来对当前轮次的问题进行改写。例如,将前t-1轮的摘要句子以及问题进行拼接,进而执行当前轮次的摘要抽取操作,并且在当前轮次的摘要抽取操作的过程中,将已选入作为文档摘要的句子掩盖。
进一步举例说明,可选的,根据下述公式(2)以及公式(3)确定当前句子为目标句子的概率,并选择当前概率最大的句子作为目标句子。
其中,Softmax表示S1到Sn的分布,Sn设定的前n得分对应的开头和结尾对;Et-1表示前t-1轮已选的句子摘要集合;表示第t轮对第i个句子的预测得分,其由落在当前句子区间的开始位置得分和结束位置得分共同决定。
需要说明的是,可选的,在执行第t轮的摘要抽取操作时,在最高开始位置得分和最高结束位置得分都指向第i句的情况下,终止下一轮的预测,并生成上述第i句为最终的目标文档摘要。可选的,按照每个句子的行文顺序构造出多条单轮次目标摘要模型的训练数据。可选的,利用一种正则后的集束/柱搜索(beam search)策略,将开始位置得分和结束位置得分对应的句子按照从高至低的顺序排列,并将同一句子的开始位置得分和结束位置得分组合(norm)成一个组合,最终当前轮的摘要抽取结果为综合得分最高的句子组合。
通过本申请提供的实施例,利用根据每个句子为目标句子的概率确定出当前轮的摘要抽取结果的方式,达到了减少目标摘要模型对原始训练数据的依赖的效果。
作为一种可选的方案,根据前t-1轮得到的摘要抽取结果获取目标文档中每个句子为目标句子的概率,包括:
S1,在前t-1轮得到的摘要抽取结果不包括目标文档中的当前句子的情况下,获取当前句子中每个词作为目标句子的起始位置的第五概率和作为目标句子的结束位置的第六概率;
S2,获取当前句子中的一组词语对,其中,一组词语对中的每个词语对包括当前句子中位置靠前的词和位置靠后的词;
S3,将一组词语对中位置靠前的词的第五概率和位置靠后的词的第六概率进行求和,得到当前句子为目标句子的概率。
需要说明的是,在前t-1轮得到的摘要抽取结果不包括目标文档中的当前句子的情况下,获取当前句子中每个词作为目标句子的起始位置的第五概率和作为目标句子的结束位置的第六概率。获取当前句子中的一组词语对,其中,一组词语对中的每个词语对包括当前句子中位置靠前的词和位置靠后的词。将一组词语对中位置靠前的词的第五概率和位置靠后的词的第六概率进行求和,得到当前句子为目标句子的概率。可选的,词语对可以但不限于包括一对有关联的词语、一对无关联的词语。当前句子为目标句子的概率可以但不限于通过分数、相关度、百分数等方式表示。
进一步举例说明,如图9所示,目标文档906中记载了内容“焚书坑儒是秦始皇为了加强中央集权”,假设,上述内容即为当前句子。进一步,如词得分902中所示,获取当前句子中每个词作为目标句子的起始位置的第五概率和作为目标句子的结束位置的第六概率,其中,获取上述当前句子中的一组词语对,包括位置靠前的“焚书”与位置靠后的“措施”。进一步,将上述“焚书”与“措施”的词得分相加求和,最终得到的总分数,即为当前句子为上述目标句子的得分。例如,“焚书”的起始位置得分为9.52,“措施”的结束位置得分为9.81,进而将“焚书”与“措施”的词得分相加求和,最终得到的总分数为19.33。其中,得到的总分数越高,即代表当前句子为目标句子的概率越大
通过本申请提供的实施例,利用将一组词语对中位置靠前的词的第五概率和位置靠后的词的第六概率进行求和,得到当前句子为目标句子的概率的方式,实现了提高确定目标句子的准确性的效果。
作为一种可选的方案,获取当前句子中的一组词语对,包括:
S1,获取当前句子中每个词语对,得到一组词语对;或者
S2,获取当前句子中第五概率和第六概率之和前M位的词语对,得到一组词语对,其中,1≤M<当前句子中的词语对的总数。
需要说明的是,获取当前句子中每个词语对,得到一组词语对,其中,词语对可以但不限于包括以下至少之一:非重复的一对词、一个位置靠前的词与一个位置靠后的词。
进一步举例说明,如图9所示,词得分902中记载了目标文档906中所有的词的起始位置得分与结束位置得分。进一步,将目标文档906中的所有词进行组合,以获得多组词语对,如“焚书”与“残暴”、“焚书”与“措施”、“焚书”与“极大”等。
需要说明的是,获取当前句子中第五概率和第六概率之和前M位的词语对,得到一组词语对,其中,1≤M<当前句子中的词语对的总数。
进一步举例说明,确定当前词语对中位置靠前的词的起始位置得分以及位置靠后的词的结束位置得分,并将上述得分相加以获得当前词语对的总分数。进一步,分别得出各组词语对的总分数,并进行比较,以确定总分数最高的词语对,其中,上述词语对即为当前句子中第五概率和第六概率之和最大的词语对。
进一步举例说明,确定当前词语对中位置靠前的词的起始位置得分以及位置靠后的词的结束位置得分,并将上述得分相加以获得当前词语对的总分数。进一步,分别得出各组词语对的总分数,并进行排序。若获取当前句子中第五概率和第六概率之和前3位的词语对,则代表获取各组词语对中总分数由高至低排序前三的词语对。
通过本申请提供的实施例,利用获取当前句子中每个词语对,得到一组词语对或者获取当前句子中第五概率和第六概率之和前M位的词语对的方式,实现了提高获取文档摘要的准确性的效果。
作为一种可选的方案,根据每个句子为目标句子的概率确定出当前轮的摘要抽取结果,包括:
S1,将第t轮的摘要抽取结果确定为包括目标文档中概率位于预定范围内的句子;或者
S2,将第t轮的摘要抽取结果确定为包括目标文档中概率最高的句子;或者
S3,将第t轮的摘要抽取结果确定为包括目标文档中概率前P位的句子,其中,1<P≤目标文档中的句子的总数。
需要说明的是,将第t轮的摘要抽取结果确定为包括目标文档中概率位于预定范围内的句子。
进一步举例说明,如图10所示,目标文档1002中记载了第一句子1004、第二句子1006以及第三句子1008,其中,目标句子分数集1010中记载了上述句子的为目标句子的分数。假设,预设句子为目标句子的范围为,句子的目标句子分数1010高于13(即,预设范围),则第一句子1004、第二句子1006以及第三句子1008皆满足上述预设范围。进一步,确定当前轮的摘要抽取结果包括第一句子1004、第二句子1006以及第三句子1008。
需要说明的是,将第t轮的摘要抽取结果确定为包括目标文档中概率最高的句子。
进一步举例说明,如图10所示,目标文档1002中记载了第一句子1004、第二句子1006以及第三句子1008,其中,目标句子分数集1010中记载了上述句子的为目标句子的分数。假设,预设目标文档1002中句子为目标句子的条件为:目标句子分数最高的句子为目标句子。其中,第三句子1008的目标句子分数(16.55)高于第二句子1006(15.33)以及第一句子1004的目标句子分数(13.51),即,第三句子1008的目标句子在目标文档1002中分数最高,符合上述预设条件。进一步,确定当前轮的摘要抽取结果为第三句子1008。
需要说明的是,将第t轮的摘要抽取结果确定为包括目标文档中概率前P位的句子,其中,1<P≤目标文档中的句子的总数。
进一步举例说明,如图10所示,目标文档1002中记载了第一句子1004、第二句子1006以及第三句子1008,其中,目标句子分数集1010中记载了上述句子的为目标句子的分数。假设,预设目标文档1002中句子为目标句子的条件为:在目标文档1002中,目标句子分数排行前二的句子。其中,由目标句子分数集1010中记载的分数可知,第一句子1004、第二句子1006以及第三句子1008的目标句子分数从高至低的排序情况为:第三句子1008、第二句子1006、第一句子1004。其中,第三句子1008和第二句子1006排行前二,符合上述预设条件。进一步,确定当前轮的摘要抽取结果包括第三句子1008以及第二句子1006。
通过本申请提供的实施例,利用目标文档中概率位于预定范围内的句子、目标文档中概率最高的句子或者目标文档中概率前P位的句子确定当前轮的摘要抽取结果的方式,达到了可根据具体需要确定摘要抽取结果的目的,实现了提高获取文档摘要的准确性的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述文档摘要的获取方法的文档摘要的获取装置。如图11所示,该装置包括:
获取单元1102,用于获取待处理的初始问题信息和目标文档;
抽取单元1104,用于根据初始问题信息对目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,通过已执行的一轮或多轮的摘要抽取操作获取摘要抽取结果,进而根据摘要抽取结果确定当前轮的当前问题信息,并根据当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,第1轮的当前问题信息为初始问题信息;
输出单元1106,用于输出目标文档摘要,其中,目标文档摘要包括执行每轮的摘要抽取操作得到的摘要抽取结果。
可选地,在本实施例中,上述文档摘要的获取方法可以但不限于应用于对话系统、搜索引擎等场景。上述初始问题的获取可以但不限于包括以下至少之一:识别输入到指定位置的文字信息、识别一定范围内或目标音频的语音信息、识别可扫描区域内的图片信息等。上述初始问题的形式可以但不限于包括语音、文字、图片、视频等。上述输出文档摘要的形式可以但不限于包括语音、文字、图片、视频等。上述目标文档可以但不限于为与上述初始问题信息相关联的信息类文档。其中,上述摘要为以提供上述目标文档内容梗概为目的,不加评论和补充解释,简明、确切地记述上述目标文档与上述初始问题相关度高的内容的短文。
需要说明的是,在本实施例中,根据初始问题信息对目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,根据已执行的一轮或多轮的摘要抽取操作得到的摘要抽取结果确定当前轮的当前问题信息,并根据当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,第1轮的当前问题信息为初始问题信息。
需要说明的是,在本实施例中,输出目标文档摘要,其中,目标文档摘要包括执行每轮的摘要抽取操作得到的摘要抽取结果。可选地,输出目标文档摘要的条件可以但不限于包括以下至少之一:当前轮次输出的文档摘要与上一轮输出的文档摘要内容一致、当前轮次次数达到预设的目标次数阈值、当前轮次输出的文档摘要的字数达到或超过预设的目标字数阈值、摘要抽取操作的时间达到或超过预设的目标时间阈值等。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
通过本申请提供的实施例,利用根据已执行的一轮或多轮的摘要抽取操作得到的摘要抽取结果确定当前轮的当前问题信息,并根据当前问题信息执行当前轮的摘要抽取操作,进而达到输出与上述初始问题信息高度相关的目标文档摘要的目的,从而实现了提高文档摘要的获取准确性的技术效果。
作为一种可选的方案,抽取单元包括:
1)重复模块,用于重复执行N轮以下摘要抽取操作,其中,N为大于1的自然数:
2)获取模块,用于获取当前轮的当前问题信息,其中,第1轮的当前问题信息为初始问题信息,在第1轮之后的每一轮的当前问题信息是根据已执行的一轮或多轮的摘要抽取操作得到的文档摘要抽取结果确定得到的当前问题信息;
3)转化模块,用于将当前问题信息转化为一组待处理的句子;
4)输入模块,用于将一组待处理的句子和目标文档输入到目标摘要抽取模型,得到目标抽取模型输出的当前轮的摘要抽取结果,其中,摘要抽取结果包括目标文档中与一组待处理的句子匹配的目标句子。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,上述装置包括:
1)确定模块,用于在当前轮不为第1轮的情况下,将已执行的一轮或多轮得到的摘要抽取结果确定为当前轮的当前问题信息;或者
2)拼接模块,用于在当前轮不为第1轮的情况下,将已执行的一轮或多轮得到的摘要抽取结果和初始问题信息进行拼接,得到当前轮的当前问题信息。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,拼接模块包括:
拼接子模块,用于将已执行的上一轮的摘要抽取结果和初始问题信息进行拼接,得到当前轮的当前问题信息。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,输入模块包括:
1)第一获取子模块,用于在将一组待处理的句子和目标文档中每个字的字向量、位置向量和段向量输入到目标摘要抽取模型的情况下,通过目标抽取模型获取目标文档中每个字作为目标句子的起始位置的第一概率和作为目标句子的结束位置的第二概率;
2)第二确定子模块,用于根据目标文档中每个字作为目标句子的起始位置的第一概率和作为目标句子的结束位置的第二概率,在目标文档中确定出目标句子。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,确定子模块包括:
1)第一选取子单元,用于在目标文档中选取第一概率最高的第一字和第二概率最高的第二字,其中,第一字在目标文档中位于第二字之前;
2)第一确定子单元,用于将目标句子确定为包括目标文档中第一字所在的第一句子到第二字所在的第二句子。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,输入模块包括:
1)第二获取子模块,用于在将一组待处理的句子和目标文档中每个词的词向量、位置向量和段向量输入到目标摘要抽取模型的情况下,通过目标抽取模型获取目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率;
2)第二确定子模块,根据目标文档中每个词作为目标句子的起始位置的第三概率和作为目标句子的结束位置的第四概率,在目标文档中确定出目标句子。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第二确定子模块包括:
1)第二选取子单元,用于在目标文档中选取第三概率最高的第一词和第四概率最高的第二词,其中,第一词在目标文档中位于第二词之前;
2)第二确定子单元,用于将目标句子确定为包括目标文档中第一词所在的第三句子到第二词所在的第四句子。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,输入模块包括:
1)第三获取子模块,用于在执行第t轮的摘要抽取操作时,根据前t-1轮得到的摘要抽取结果获取目标文档中每个句子为目标句子的概率,其中,1<t≤N;
2)第三确定子模块,用于根据每个句子为目标句子的概率确定出当前轮的摘要抽取结果。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第三获取子模块包括:
1)抽取子单元,用于在前t-1轮得到的摘要抽取结果不包括目标文档中的当前句子的情况下,获取当前句子中每个词作为目标句子的起始位置的第五概率和作为目标句子的结束位置的第六概率;
2)获取子单元,用于获取当前句子中的一组词语对,其中,一组词语对中的每个词语对包括当前句子中位置靠前的词和位置靠后的词;
3)求和子单元,用于将一组词语对中位置靠前的词的第五概率和位置靠后的词的第六概率进行求和,得到当前句子为目标句子的概率。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,获取子单元包括:
1)第四获取子模块,用于获取当前句子中每个词语对,得到一组词语对;或者
2)第五获取子模块,用于获取当前句子中第五概率和第六概率之和前M位的词语对,得到一组词语对,其中,1≤M<当前句子中的词语对的总数。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第三确定子模块包括:
1)第三确定子单元,用于将第t轮的摘要抽取结果确定为包括目标文档中概率位于预定范围内的句子;或者
2)第四确定子单元,用于将第t轮的摘要抽取结果确定为包括目标文档中概率最高的句子;或者
3)第五确定子单元,用于将第t轮的摘要抽取结果确定为包括目标文档中概率前P位的句子,其中,1<P≤目标文档中的句子的总数。
具体实施例可以参考上述文档摘要的获取方法中所示示例,本示例中在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述文档摘要的获取方法的电子装置,如图12所示,该电子装置包括存储器1202和处理器1204,该存储器1202中存储有计算机程序,该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待处理的初始问题信息和目标文档;
S2,根据初始问题信息对目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,通过已执行的一轮或多轮的摘要抽取操作获取摘要抽取结果,进而根据摘要抽取结果确定当前轮的当前问题信息,并根据当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,第1轮的当前问题信息为初始问题信息;
S3,输出目标文档摘要,其中,目标文档摘要包括执行每轮的摘要抽取操作得到的摘要抽取结果。
可选地,本领域普通技术人员可以理解,图12所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图12中所示更多或者更少的组件(如网络接口等),或者具有与图12所示不同的配置。
其中,存储器1202可用于存储软件程序以及模块,如本发明实施例中的文档摘要的获取方法和装置对应的程序指令/模块,处理器1204通过运行存储在存储器1202内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文档摘要的获取方法。存储器1202可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1202可进一步包括相对于处理器1204远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1202具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。作为一种示例,如图12所示,上述存储器1202中可以但不限于包括上述文档摘要的获取装置中的获取单元1102、抽取单元1104以及输出单元1106。此外,还可以包括但不限于上述文档摘要的获取装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1206包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1206为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1208,用于显示上述待处理的订单信息;和连接总线1210,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待处理的初始问题信息和目标文档;
S2,根据初始问题信息对目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,通过已执行的一轮或多轮的摘要抽取操作获取摘要抽取结果,进而根据摘要抽取结果确定当前轮的当前问题信息,并根据当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,第1轮的当前问题信息为初始问题信息;
S3,输出目标文档摘要,其中,目标文档摘要包括执行每轮的摘要抽取操作得到的摘要抽取结果。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (16)
1.一种文档摘要的获取方法,其特征在于,包括:
获取待处理的初始问题信息和目标文档;
根据所述初始问题信息对所述目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,通过已执行的一轮或多轮的摘要抽取操作获取摘要抽取结果,进而根据所述摘要抽取结果确定当前轮的当前问题信息,并根据所述当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,所述第1轮的当前问题信息为所述初始问题信息,所述根据所述摘要抽取结果确定当前轮的当前问题信息包括:将所述摘要抽取结果确定为所述当前轮的当前问题信息,或将所述摘要抽取结果和所述初始问题信息进行拼接,得到所述当前轮的当前问题信息;
输出所述目标文档摘要,其中,所述目标文档摘要包括所述执行每轮的摘要抽取操作得到的摘要抽取结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始问题信息对所述目标文档执行多轮的摘要抽取操作,得到目标文档摘要,包括:
重复执行N轮以下摘要抽取操作,其中,N为大于1的自然数:获取当前轮的当前问题信息,其中,所述第1轮的当前问题信息为所述初始问题信息,在第1轮之后的每一轮的当前问题信息是根据已执行的一轮或多轮的摘要抽取操作得到的文档摘要抽取结果确定得到的当前问题信息;
将所述当前问题信息转化为一组待处理的句子;
将所述一组待处理的句子和所述目标文档输入到目标摘要抽取模型,得到所述目标摘要抽取模型输出的当前轮的摘要抽取结果,其中,所述摘要抽取结果包括所述目标文档中与所述一组待处理的句子匹配的目标句子。
3.根据权利要求1所述的方法,其特征在于,所述将所述摘要抽取结果和所述初始问题信息进行拼接,得到所述当前轮的当前问题信息,包括:
将已执行的上一轮的摘要抽取结果和所述初始问题信息进行拼接,得到所述当前轮的当前问题信息。
4.根据权利要求2所述的方法,其特征在于,所述将所述一组待处理的句子和所述目标文档输入到目标摘要抽取模型,得到所述目标摘要抽取模型输出的当前轮的摘要抽取结果,包括:
在将所述一组待处理的句子和所述目标文档中每个字的字向量、位置向量和段向量输入到所述目标摘要抽取模型的情况下,通过所述目标摘要抽取模型获取所述目标文档中每个字作为所述目标句子的起始位置的第一概率和作为所述目标句子的结束位置的第二概率;
根据所述目标文档中每个字作为所述目标句子的起始位置的第一概率和作为所述目标句子的结束位置的第二概率,在所述目标文档中确定出所述目标句子。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标文档中每个字作为所述目标句子的起始位置的第一概率和作为所述目标句子的结束位置的第二概率,在所述目标文档中确定出所述目标句子,包括:
在所述目标文档中选取所述第一概率最高的第一字和所述第二概率最高的第二字,其中,所述第一字在所述目标文档中位于所述第二字之前;
将所述目标句子确定为包括所述目标文档中所述第一字所在的第一句子到所述第二字所在的第二句子。
6.根据权利要求2所述的方法,其特征在于,所述将所述一组待处理的句子和所述目标文档输入到目标摘要抽取模型,得到所述目标摘要抽取模型输出的当前轮的摘要抽取结果,包括:
在将所述一组待处理的句子和所述目标文档中每个词的词向量、位置向量和段向量输入到所述目标摘要抽取模型的情况下,通过所述目标摘要抽取模型获取所述目标文档中每个词作为所述目标句子的起始位置的第三概率和作为所述目标句子的结束位置的第四概率;
根据所述目标文档中每个词作为所述目标句子的起始位置的第三概率和作为所述目标句子的结束位置的第四概率,在所述目标文档中确定出所述目标句子。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标文档中每个词作为所述目标句子的起始位置的第三概率和作为所述目标句子的结束位置的第四概率,在所述目标文档中确定出所述目标句子,包括:
在所述目标文档中选取所述第三概率最高的第一词和所述第四概率最高的第二词,其中,所述第一词在所述目标文档中位于所述第二词之前;
将所述目标句子确定为包括所述目标文档中所述第一词所在的第三句子到所述第二词所在的第四句子。
8.根据权利要求2所述的方法,其特征在于,所述将所述一组待处理的句子和所述目标文档输入到目标摘要抽取模型,得到所述目标摘要抽取模型输出的当前轮的摘要抽取结果,包括:
在执行第t轮的摘要抽取操作时,根据前t-1轮得到的摘要抽取结果获取所述目标文档中每个句子为所述目标句子的概率,其中,1<t≤N;根据每个句子为所述目标句子的概率确定出所述当前轮的摘要抽取结果。
9.根据权利要求8所述的方法,其特征在于,所述根据前t-1轮得到的摘要抽取结果获取所述目标文档中每个句子为所述目标句子的概率,包括:
在所述前t-1轮得到的摘要抽取结果不包括所述目标文档中的当前句子的情况下,获取所述当前句子中每个词作为所述目标句子的起始位置的第五概率和作为所述目标句子的结束位置的第六概率;
获取所述当前句子中的一组词语对,其中,所述一组词语对中的每个词语对包括所述当前句子中位置靠前的词和位置靠后的词;
将所述一组词语对中所述位置靠前的词的所述第五概率和所述位置靠后的词的所述第六概率进行求和,得到所述当前句子为所述目标句子的概率。
10.根据权利要求9所述的方法,其特征在于,所述获取所述当前句子中的一组词语对,包括:
获取所述当前句子中每个所述词语对,得到所述一组词语对;或者
获取所述当前句子中所述第五概率和所述第六概率之和前M位的词语对,得到所述一组词语对,其中,1≤M<所述当前句子中的所述词语对的总数。
11.根据权利要求8所述的方法,其特征在于,所述根据每个句子为所述目标句子的概率确定出所述当前轮的摘要抽取结果,包括:
将所述第t轮的摘要抽取结果确定为包括所述目标文档中所述概率位于预定范围内的句子;或者
将所述第t轮的摘要抽取结果确定为包括所述目标文档中所述概率最高的句子;或者
将所述第t轮的摘要抽取结果确定为包括所述目标文档中所述概率前P位的句子,其中,1<P≤所述目标文档中的所述句子的总数。
12.一种文档摘要的获取装置,其特征在于,包括:
获取单元,用于获取待处理的初始问题信息和目标文档;
抽取单元,用于根据所述初始问题信息对所述目标文档执行多轮的摘要抽取操作,得到目标文档摘要,其中,在执行每轮的摘要抽取操作时,通过已执行的一轮或多轮的摘要抽取操作获取摘要抽取结果,进而根据所述摘要抽取结果确定当前轮的当前问题信息,并根据所述当前问题信息执行当前轮的摘要抽取操作,在执行第1轮的摘要抽取操作时,所述第1轮的当前问题信息为所述初始问题信息,所述根据所述摘要抽取结果确定当前轮的当前问题信息包括:将所述摘要抽取结果确定为所述当前轮的当前问题信息,或将所述摘要抽取结果和所述初始问题信息进行拼接,得到所述当前轮的当前问题信息;
输出单元,用于输出所述目标文档摘要,其中,所述目标文档摘要包括所述执行每轮的摘要抽取操作得到的摘要抽取结果。
13.根据权利要求12所述装置,其特征在于,所述抽取单元包括:
重复模块,用于重复执行N轮以下摘要抽取操作,其中,N为大于1的自然数:
获取模块,用于获取当前轮的当前问题信息,其中,所述第1轮的当前问题信息为所述初始问题信息,在第1轮之后的每一轮的当前问题信息是根据已执行的一轮或多轮的摘要抽取操作得到的文档摘要抽取结果确定得到的当前问题信息;
转化模块,用于将所述当前问题信息转化为一组待处理的句子;
输入模块,用于将所述一组待处理的句子和所述目标文档输入到目标摘要抽取模型,得到所述目标摘要抽取模型输出的当前轮的摘要抽取结果,其中,所述摘要抽取结果包括所述目标文档中与所述一组待处理的句子匹配的目标句子。
14.根据权利要求13所述装置,其特征在于,所述输入模块包括:
第一获取子模块,用于在将所述一组待处理的句子和所述目标文档中每个字的字向量、位置向量和段向量输入到所述目标摘要抽取模型的情况下,通过所述目标摘要抽取模型获取所述目标文档中每个字作为所述目标句子的起始位置的第一概率和作为所述目标句子的结束位置的第二概率;
第二确定子模块,用于根据所述目标文档中每个字作为所述目标句子的起始位置的第一概率和作为所述目标句子的结束位置的第二概率,在所述目标文档中确定出所述目标句子。
15.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至11任一项中所述的方法。
16.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911052170.3A CN110825870B (zh) | 2019-10-31 | 2019-10-31 | 文档摘要的获取方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911052170.3A CN110825870B (zh) | 2019-10-31 | 2019-10-31 | 文档摘要的获取方法和装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825870A CN110825870A (zh) | 2020-02-21 |
CN110825870B true CN110825870B (zh) | 2023-07-14 |
Family
ID=69551635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911052170.3A Active CN110825870B (zh) | 2019-10-31 | 2019-10-31 | 文档摘要的获取方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825870B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723196B (zh) * | 2020-05-21 | 2023-03-24 | 西北工业大学 | 基于多任务学习的单文档摘要生成模型构建方法及装置 |
CN116089599B (zh) * | 2023-04-07 | 2023-07-25 | 北京澜舟科技有限公司 | 信息查询方法、系统以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6718346B1 (en) * | 2000-08-17 | 2004-04-06 | 3Com Corporation | Generating summary data for a requested time period having a requested start time and end time a plurality of data records |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN104077388A (zh) * | 2014-06-27 | 2014-10-01 | 北京奇虎科技有限公司 | 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎 |
CN108959312A (zh) * | 2017-05-23 | 2018-12-07 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN109783795A (zh) * | 2017-11-14 | 2019-05-21 | 深圳市腾讯计算机系统有限公司 | 一种摘要获取的方法、装置、设备及计算机可读存储介质 |
CN109977404A (zh) * | 2019-03-22 | 2019-07-05 | 深圳追一科技有限公司 | 基于深度学习的答案抽取方法、装置和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9146985B2 (en) * | 2008-01-07 | 2015-09-29 | Novell, Inc. | Techniques for evaluating patent impacts |
US8078623B2 (en) * | 2009-10-14 | 2011-12-13 | Cyberlink Corp. | Systems and methods for summarizing photos based on photo information and user preference |
-
2019
- 2019-10-31 CN CN201911052170.3A patent/CN110825870B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6718346B1 (en) * | 2000-08-17 | 2004-04-06 | 3Com Corporation | Generating summary data for a requested time period having a requested start time and end time a plurality of data records |
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN104077388A (zh) * | 2014-06-27 | 2014-10-01 | 北京奇虎科技有限公司 | 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎 |
CN108959312A (zh) * | 2017-05-23 | 2018-12-07 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN109783795A (zh) * | 2017-11-14 | 2019-05-21 | 深圳市腾讯计算机系统有限公司 | 一种摘要获取的方法、装置、设备及计算机可读存储介质 |
CN109977404A (zh) * | 2019-03-22 | 2019-07-05 | 深圳追一科技有限公司 | 基于深度学习的答案抽取方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110825870A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110012356B (zh) | 视频推荐方法、装置和设备及计算机存储介质 | |
CN109086303B (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
WO2019144892A1 (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN108491540B (zh) | 文本信息推送方法、装置及智能终端 | |
CN107807915B (zh) | 基于纠错平台的纠错模型建立方法、装置、设备和介质 | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
KR20160020429A (ko) | 맥락적 모바일 애플리케이션 광고 기법 | |
CN102043843A (zh) | 一种用于基于目标应用获取目标词条的方法与获取设备 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN110297897B (zh) | 问答处理方法及相关产品 | |
CN111522886B (zh) | 一种信息推荐方法、终端及存储介质 | |
CN110825870B (zh) | 文档摘要的获取方法和装置、存储介质及电子装置 | |
CN109271641A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN118575173A (zh) | 使用搜索引擎结果增强机器学习语言模型 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN110162769B (zh) | 文本主题输出方法和装置、存储介质及电子装置 | |
CN111259126A (zh) | 基于词语特征的相似度计算方法、装置、设备及存储介质 | |
CN111062209A (zh) | 自然语言处理模型训练方法和自然语言处理模型 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
CN111222328A (zh) | 标签提取方法、装置和电子设备 | |
CN113342932B (zh) | 目标词向量的确定方法、装置、存储介质和电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40021064 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: CORR Ref document number: 40021064 Country of ref document: HK Free format text: CORRECTED DATA OF SECTION 27 08.09.2023: (73) TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED |