CN112148870B - 摘要生成方法、装置、电子设备及计算机可读存储介质 - Google Patents
摘要生成方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112148870B CN112148870B CN201910562883.8A CN201910562883A CN112148870B CN 112148870 B CN112148870 B CN 112148870B CN 201910562883 A CN201910562883 A CN 201910562883A CN 112148870 B CN112148870 B CN 112148870B
- Authority
- CN
- China
- Prior art keywords
- semantic
- attention distribution
- text
- input
- distribution parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000006870 function Effects 0.000 claims description 200
- 230000009466 transformation Effects 0.000 claims description 86
- 238000004364 calculation method Methods 0.000 claims description 47
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 30
- 230000000306 recurrent effect Effects 0.000 claims description 30
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000012937 correction Methods 0.000 claims description 17
- 230000004048 modification Effects 0.000 claims description 15
- 238000012986 modification Methods 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 239000003607 modifier Substances 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 10
- 230000007246 mechanism Effects 0.000 description 24
- 230000000875 corresponding effect Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 13
- 238000000605 extraction Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000001131 transforming effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种摘要生成方法、装置、电子设备及计算机可读存储介质,所述方法包括:获取输入对象,根据所述输入对象确定输入文本;对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;根据所述语义编码结果迭代计算得到初始注意力分布参数;对于所述初始注意力分布参数进行修正;基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要。该技术方案不仅能够节省待处理对象归属方的时间和精力,提高其工作效率,还能够节省阅读方的时间,在短时间内为其输出高价值信息量,并且该技术方案的实现结构简单,有利于广泛推广和使用。
Description
技术领域
本发明实施例涉及摘要提取技术领域,具体涉及一种摘要生成方法、装置、电子设备及计算机可读存储介质。
背景技术
随着科学技术的发展,人们需要接受、阅读和关注的信息量越来越多,为了节省人们的时间、提高人们对于信息的接收效率,信息的摘要提取质量越来越重要。信息的摘要提取指的是将给定信息的主要内容提炼或总结为一句话或者几句话,这样就可以向人们展示精简后的信息内容,方便人们短时间内了解信息的主要内容,并可帮助人们判断是否需要进一步的详细阅读。
但目前信息摘要的提取工作大多是由信息归属方完成的,但出于时间、能力方面的因素,信息归属方提取出的信息摘要往往不够准确或者无法突出重点,从而导致信息摘要的质量低下。若能够自动生成高质量的信息摘要,不仅能够节省信息归属方的时间和精力,提高其工作效率,还能够节省阅读方的时间,在短时间内为其输出高价值的信息量。
相关技术中存在多种自动生成信息摘要的方法,这些方法虽然能够自动生成信息摘要,但是对于长文本对象,或者无法满足摘要生成显著性要求,即提取得到的摘要难以集中在与当前时刻相关的重要部分上,或者实现结构比较复杂,难以广泛使用。
发明内容
本发明实施例提供一种摘要生成方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例中提供了一种摘要生成方法。
具体的,所述摘要生成方法,包括:
获取输入对象,根据所述输入对象确定输入文本;
对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
根据所述语义编码结果迭代计算得到初始注意力分布参数;
对于所述初始注意力分布参数进行修正;
基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,所述输入对象为以下对象中的一种或多种:输入文本、输入语音、输入图像;
当所述输入对象为输入语音时,所述获取输入对象,根据所述输入对象确定输入文本包括:获取输入语音,将所述输入语音转换为输入文本;
当所述输入对象为输入图像时,所述获取输入对象,根据所述输入对象确定输入文本包括:获取输入图像,识别所述输入图像中的文本,得到输入文本。
结合第一方面和第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述对于输入文本进行编码,得到语义编码结果,包括:
对于输入文本进行分词处理,得到一个或多个词语;
对于所述一个或多个词语进行逐词编码,得到语义编码结果。
结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中:利用第一循环神经网络对于输入文本进行编码,得到语义编码结果,和/或,
利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入文本的摘要,即所述输入对象的摘要。
结合第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述根据所述语义编码结果迭代计算得到初始注意力分布参数,包括:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述对于所述初始注意力分布参数进行修正,包括:
根据当前时刻的语义解码结果与输入文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数。结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要,包括:
利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
组合各时刻语义解码结果,得到所述输入文本的摘要,即所述输入对象的摘要。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述对于所述初始注意力分布参数进行修正之后,还包括:
基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
第二方面,本发明实施例中提供了一种游记摘要生成方法。
具体的,所述游记摘要生成方法,包括:
获取链接,所述链接包括游记文本;
基于注意力分布生成所述游记文本的摘要;
将生成的摘要上传至目标对象。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述基于注意力分布生成所述游记文本的摘要,包括:
对于所述游记文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
根据所述语义编码结果迭代计算得到初始注意力分布参数;
对于所述初始注意力分布参数进行修正;
基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
结合第二方面和第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述对于游记文本进行编码,得到语义编码结果,包括:
对于游记文本进行分词处理,得到一个或多个词语;
对于所述一个或多个词语进行逐词编码,得到语义编码结果。
结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中:利用第一循环神经网络对于游记文本进行编码,得到语义编码结果,和/或,
利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
结合第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中,所述根据所述语义编码结果迭代计算得到初始注意力分布参数,包括:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,所述对于所述初始注意力分布参数进行修正,包括:
根据当前时刻的语义解码结果与游记文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式和第二方面的第五种实现方式,本公开在第二方面的第六种实现方式中,所述基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要,包括:
利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
组合各时刻语义解码结果,得到所述游记文本的摘要。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式和第二方面的第六种实现方式,本公开在第二方面的第七种实现方式中,所述对于所述初始注意力分布参数进行修正之后,还包括:
基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式、第二方面的第六种实现方式和第二方面的第七种实现方式,本公开在第二方面的第八种实现方式中,所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
第三方面,本发明实施例中提供了一种摘要生成装置。
具体的,所述摘要生成装置,包括:
确定模块,被配置为获取输入对象,根据所述输入对象确定输入文本;
编码模块,被配置为对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
计算模块,被配置为根据所述语义编码结果迭代计算得到初始注意力分布参数;
修正模块,被配置为对于所述初始注意力分布参数进行修正;
解码模块,被配置为基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要。
结合第三方面,本发明实施例在第三方面的第一种实现方式中,所述输入对象为以下对象中的一种或多种:输入文本、输入语音、输入图像;
当所述输入对象为输入语音时,所述确定模块被配置为:获取输入语音,将所述输入语音转换为输入文本;
当所述输入对象为输入图像时,所述确定模块被配置为:获取输入图像,识别所述输入图像中的文本,得到输入文本。
结合第三方面和第三方面的第一种实现方式,本发明实施例在第三方面的第二种实现方式中,所述编码模块包括:
第一分词处理子模块,被配置为对于输入文本进行分词处理,得到一个或多个词语;
第一编码子模块,被配置为对于所述一个或多个词语进行逐词编码,得到语义编码结果。
结合第三方面、第三方面的第一种实现方式和第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中,所述编码模块被配置为:利用第一循环神经网络对于输入文本进行编码,得到语义编码结果,和/或,
所述解码模块被配置为:利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入文本的摘要,即所述输入对象的摘要。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式和第三方面的第三种实现方式,本公开在第三方面的第四种实现方式中,所述计算模块被配置为:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式和第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,所述修正模块被配置为:
根据当前时刻的语义解码结果与输入文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式和第三方面的第五种实现方式,本公开在第三方面的第六种实现方式中,所述解码模块包括:
第一计算子模块,被配置为利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
第二计算子模块,被配置为利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
组合子模块,被配置为组合各时刻语义解码结果,得到所述输入文本的摘要,即所述输入对象的摘要。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式和第三方面的第六种实现方式,本公开在第三方面的第七种实现方式中,所述修正模块之后,还包括:
再修正模块,被配置为基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数。
结合第三方面、第三方面的第一种实现方式、第三方面的第二种实现方式、第三方面的第三种实现方式、第三方面的第四种实现方式、第三方面的第五种实现方式、第三方面的第六种实现方式和第三方面的第七种实现方式,本公开在第三方面的第八种实现方式中,所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
第四方面,本发明实施例中提供了一种游记摘要生成装置。
具体的,所述游记摘要生成装置,包括:
获取模块,被配置为获取链接,所述链接包括游记文本;
生成模块,被配置为基于注意力分布生成所述游记文本的摘要;
上传模块,被配置为将生成的摘要上传至目标对象。
结合第四方面,本发明实施例在第四方面的第一种实现方式中,所述生成模块包括:
第二编码子模块,被配置为对于所述游记文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
第三计算子模块,被配置为根据所述语义编码结果迭代计算得到初始注意力分布参数;
修正子模块,被配置为对于所述初始注意力分布参数进行修正;
解码子模块,被配置为基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
结合第四方面和第四方面的第一种实现方式,本发明实施例在第四方面的第二种实现方式中,所述第二编码子模块包括:
第二分词处理子模块,被配置为对于游记文本进行分词处理,得到一个或多个词语;
第三编码子模块,被配置为对于所述一个或多个词语进行逐词编码,得到语义编码结果。
结合第四方面、第四方面的第一种实现方式和第四方面的第二种实现方式,本公开在第四方面的第三种实现方式中:所述第二编码子模块被配置为利用第一循环神经网络对于游记文本进行编码,得到语义编码结果,和/或,
所述解码子模块,被配置为利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
结合第四方面的第一种实现方式、第四方面的第二种实现方式和第四方面的第三种实现方式,本公开在第四方面的第四种实现方式中,所述第三计算子模块被配置为:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式、第四方面的第三种实现方式和第四方面的第四种实现方式,本公开在第四方面的第五种实现方式中,所述修正子模块被配置为:
根据当前时刻的语义解码结果与游记文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式、第四方面的第三种实现方式、第四方面的第四种实现方式和第四方面的第五种实现方式,本公开在第四方面的第六种实现方式中,所述解码子模块包括:
第四计算子模块,被配置为利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
第五计算子模块,被配置为利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
第二组合子模块,被配置为组合各时刻语义解码结果,得到所述游记文本的摘要。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式、第四方面的第三种实现方式、第四方面的第四种实现方式、第四方面的第五种实现方式和第四方面的第六种实现方式,本公开在第四方面的第七种实现方式中,所述修正子模块之后,还包括:
再修正子模块,被配置为基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式、第四方面的第三种实现方式、第四方面的第四种实现方式、第四方面的第五种实现方式、第四方面的第六种实现方式和第四方面的第七种实现方式,本公开在第四方面的第八种实现方式中,所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
第五方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持上述任一装置执行上述任一方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述任一装置还可以包括通信接口,用于与其他设备或通信网络通信。
第六方面,本发明实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,其包含用于执行上述任一方法为上述任一装置所涉及的计算机指令。
本发明实施例提供的技术方案可包括以下有益效果:
上述技术方案基于注意力机制,通过对于根据输入对象确定的输入文本进行编码和解码获得输入文本的摘要信息,并且通过对于注意力分布参数的修正,即使对于长文本对象,也能够得到具有显著性的高质量信息摘要。上述技术方案不仅能够节省待处理对象归属方的时间和精力,提高其工作效率,还能够节省阅读方的时间,在短时间内为其输出高价值信息量,并且该技术方案的实现结构简单,有利于广泛推广和使用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明实施例。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本发明实施例的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本发明一实施方式的摘要生成方法的流程图;
图2示出当输入对象为输入语音时的场景应用示意图;
图3示出当输入对象为输入图像时的场景应用示意图;
图4示出根据图1所示实施方式的摘要生成方法的步骤S102的流程图;
图5示出根据图1所示实施方式的摘要生成方法的步骤S105的流程图;
图6示出根据本发明另一实施方式的摘要生成方法的流程图;
图7示出根据本发明一实施方式的游记摘要生成方法的流程图;
图8示出根据图7所示实施方式的游记摘要生成方法的步骤S702的流程图;
图9示出根据本发明一实施方式的摘要生成装置的结构框图;
图10示出根据图9所示实施方式的摘要生成装置的编码模块902的结构框图;
图11示出根据图9所示实施方式的摘要生成装置的解码模块905的结构框图;
图12示出根据本发明另一实施方式的摘要生成装置的结构框图;
图13示出根据本发明一实施方式的游记摘要生成装置的结构框图;
图14示出根据图13所示实施方式的游记摘要生成装置的生成模块1302的结构框图;
图15示出根据本发明一实施方式的电子设备的结构框图;
图16是适于用来实现根据本发明上述实施方式所述方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本发明实施例的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本发明实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明实施例。
本发明实施例提供的技术方案基于注意力机制,通过对于根据输入对象确定的输入文本进行编码和解码获得输入文本的摘要信息,并且通过对于注意力分布参数的修正,即使对于长文本对象,也能够得到具有显著性的高质量信息摘要。上述技术方案不仅能够节省待处理对象归属方的时间和精力,提高其工作效率,还能够节省阅读方的时间,在短时间内为其输出高价值信息量,并且该技术方案的实现结构简单,有利于广泛推广和使用。
图1示出根据本发明一实施方式的摘要生成方法的流程图,如图1所示,所述摘要生成方法包括以下步骤S101-S105:
在步骤S101中,获取输入对象,根据所述输入对象确定输入文本;
在步骤S102中,对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
在步骤S103中,根据所述语义编码结果迭代计算得到初始注意力分布参数;
在步骤S104中,对于所述初始注意力分布参数进行修正;
在步骤S105中,基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要。
上文提及,随着科学技术的发展,人们需要接受、阅读和关注的信息量越来越多,为了节省人们的时间、提高人们对于信息的接收效率,信息的摘要提取质量越来越重要。信息的摘要提取指的是将给定信息的主要内容提炼或总结为一句话或者几句话,这样就可以向人们展示精简后的信息内容,方便人们短时间内了解信息的主要内容,并可帮助人们判断是否需要进一步的详细阅读。但目前信息摘要的提取工作存在多种缺陷,比如无法解决摘要的显著性问题,或者实现结构比较复杂,难以广泛使用。
考虑到上述缺陷,在该实施方式中,提出一种摘要生成方法,该方法基于注意力机制,通过对于根据输入对象确定的输入文本进行编码和解码获得输入文本的摘要信息,并且通过对于注意力分布参数的修正,即使对于长文本对象,也能够得到具有显著性的高质量信息摘要。该技术方案不仅能够节省待处理对象归属方的时间和精力,提高其工作效率,还能够节省阅读方的时间,在短时间内为其输出高价值信息量,并且其实现结构简单,有利于广泛推广和使用。
在本实施例的一个可选实现方式中,所述输入对象可以为以下对象中的一种或多种:输入文本、输入语音、输入图像等。但无论输入对象为何种形式,输出的摘要均为文本形式,因此,当所述输入对象为输入语音时,所述步骤S101,即获取输入对象,根据所述输入对象确定输入文本的步骤包括:获取输入语音,将所述输入语音转换为输入文本;当所述输入对象为输入图像时,所述步骤S101,即获取输入对象,根据所述输入对象确定输入文本的步骤包括:获取输入图像,识别所述输入图像中的文本,得到输入文本,后续再对于确定的所述输入文本进行处理,提取得到相应的摘要。
图2示出当输入对象为输入语音时的场景应用示意图,如图2所示,当输入对象为人发出的语音时,首先利用语音识别技术将语音转换为文本,再对文本进行处理,提取得到对应的摘要。
图3示出当输入对象为输入图像时的场景应用示意图,如图3所示,当输入对象为包含有大量文字的图像时,首先利用图像识别技术将识别得到图像中的文本,再对识别得到的文本进行处理,提取得到对应的摘要。
在本实施例的一个可选实现方式中,所述对于输入文本进行编码指的是对于输入文本进行一种语义编码处理,得到相应的语义编码结果,后续所述语义编码结果可被用来进行语义解码处理,以得到与所述输入文本对应的、能够反映出所述输入文本的重要内容的摘要信息。其中,所述输入对象的内容、与所述输入对象对应的输入文本的内容与语义解码处理得到的摘要信息内容不同,文本长度也不同,通常来说,所述输入文本的文本长度要大于所述摘要信息的文本长度。
在本实施例的一个可选实现方式中,利用循环神经网络(Recurrent NeuralNetwork,RNN)实现信息的编码和解码,具体地,利用第一循环神经网络对于输入文本进行编码,得到语义编码结果,利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入文本的摘要,即所述输入对象的摘要。在本实施例的一个可选实现方式中,所述第一循环神经网络可选为双向长短时记忆网络(Bi-Long-Short Term Memory,Bi-LSTM),所述第二循环神经网络可选为单向长短时记忆网络Long-Short Term Memory,LSTM)。在该实现方式中,所述各时刻语义编码值指的就是Bi-LSTM的隐层状态值,所述初始内容向量指的是Bi-LSTM的输出,而LSTM的最终隐层状态值组成了所述输入文本的摘要。
在本实施例的一个可选实现方式中,所述注意力分布参数是注意力机制中所涉及的参数,以表征需要投入大量注意力的信息的重要程度。所述注意力机制源于人类视觉所特有的大脑信号处理机制,即人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对于这一目标区域投入更多的注意力资源,就可以获取更多所需要关注目标的细节信息,而抑制其他无用信息,这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的一种手段,是人类在长期进化中形成的一种生存机制,上述人类视觉注意力机制的使用能够极大地提高视觉信息处理的效率与准确性。而深度学习中的注意力机制从本质上讲与人类的选择性视觉注意力机制类似,其主要目的也是从众多信息中选择出对当前任务目标更关键的信息。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S102,即对于输入文本进行编码,得到语义编码结果的步骤,包括以下步骤S401-S402:
在步骤S401中,对于输入文本进行分词处理,得到一个或多个词语;
在步骤S402中,对于所述一个或多个词语进行逐词编码,得到语义编码结果。
为了提高文本编码的准确性,适应循环神经网络语义编码的特点,在该实现方式中,首先对于输入的待处理文本进行分词处理,得到一个或多个词语,再对于得到的一个或多个词语进行逐词编码,以得到最终的语义编码结果。
其中,分词处理的具体方式可由本领域技术人员根据实际应用的需要进行选择,本公开对其不作具体限定。
在本实施例的一个可选实现方式中,所述步骤S103,即根据所述语义编码结果迭代计算得到初始注意力分布参数的步骤,可包括:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到。
为了体现需要投入大量注意力的信息的重要程度,在该实现方式中,计算可被用于后续解码处理的注意力分布参数,具体地,基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数。
假设各时刻语义编码值表示为hj,上一时刻语义解码结果表示为Hi-1,其中,j表示语义编码值所处的时刻,也可表示输入文本中词语的出现顺序,也就是说,hj也可表示输入文本中第j个词语对应的语义编码值,j的取值范围为1~Lx,其中,Lx表示输入文本的长度,也即输入文本中词语的数量,Hi-1也可表示第二循环神经网络第i-1时刻的隐层状态值。那么所述当前时刻初始注意力分布参数Wij可表示为:
Wij=F1(hj,Hi-1),
其中,F1(·,·)表示对于输入参数hj和Hi-1进行变换的第一变换函数,其用于表征最终得到的摘要中的目标词语yi与输入文本中的每个输入词语之间的关联性。这样在得到第二循环神经网络每一时刻的隐层状态值后就可以确定相应时刻的初始注意力分布参数Wij,对于第二循环神经网络每一时刻的隐层状态值的具体计算将在下文中进行详细描述。
在本实施例的一个可选实现方式中,所述第一变换函数的表现形式可根据实际应用的需要进行选择和设置,对于其具体表现形式,本公开不作特别限定。
其中,所述最初时刻的语义解码结果可根据所述初始内容向量基于第二变换函数计算得到,所述初始内容向量是对于输入文本进行编码得到的,其可表示为C1,那么所述最初时刻的语义解码结果H1,即最终得到的摘要中的第一个目标词可表示为:H1=y1=F2(C1),其中,F2(■,…,■)表示对于内容向量进行变换得到解码结果的第二变换函数,需要说明的是,由于在本公开实现方式中,采用迭代解码的机制,因此,在获取语义解码结果时需要综合考虑内容向量和历史时刻的语义解码结果,根据语义解码结果数量的不同,所述第二变换函数的输入参数为一个或多个,比如,在最初时刻,还未得到语义解码结果,那么第二变换函数的输入参数仅为最初时刻的初始内容向量C1;利用第二变换函数根据初始内容向量C1计算得到第一时刻的语义解码结果H1之后,可将计算得到的第二时刻的内容向量C2与第一时刻的语义解码结果H1同时作为所述第二变换函数的输入参数计算得到第二时刻的语义解码结果H2:H2=y2=F2(C2,H1);之后,将计算得到的第三时刻的内容向量C3与第一时刻和第二时刻的语义解码结果H1和H2同时作为所述第二变换函数的输入参数计算得到第三时刻的语义解码结果H3:H3=y3=F2(C3,H1,H2),以此类推,即可获得各时刻的语义解码结果。
在本实施例的一个可选实现方式中,所述第二变换函数的表现形式可根据实际应用的需要进行选择和设置,对于其具体表现形式,本公开不作特别限定。
在本实施例的一个可选实现方式中,所述步骤S104,即对于所述初始注意力分布参数进行修正的步骤,可包括:
根据当前时刻的语义解码结果与输入文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数。
考虑到对于长文本而言,计算得到的初始注意力分布往往会比较分散,因此在一定程度上会造成显著性缺失,不利于所生成摘要质量的提高,因此在该实现方式中,计算得到初始注意力分布后,可根据当前时刻的语义解码结果对于所述初始注意力分布进行修正,即确认注意力是否放在了与当前状态相关的重点内容上,以补偿信息显著性。具体地,可根据当前时刻的语义解码结果与输入文本之间的相关度对于所述初始注意力分布参数Wij进行修正,以得到修正后的当前时刻注意力分布参数W’ij。若通过计算当前时刻的语义解码结果与输入文本之间的相关度,确认两者之间的相关度较小,即该输入文本对于当前时刻的语义解码是不重要的信息,则可减小相应的注意力分布参数,将原本集中的注意力分散开来,反之,若通过计算当前时刻的语义解码结果与输入文本之间的相关度,确认两者之间的相关度较大,即该输入文本对于当前时刻的语义解码是比较重要的信息,则可增大相应的注意力分布参数,将注意力集中在这些相对比较重要的内容上。
其中,所述当前时刻语义解码结果与输入文本之间的相关度计算可采用多种方式来计算,本领域技术人员可根据实际应用的需要以及文本对象的特点选择合适的计算方法,本公开对其不作具体限定。另外,在计算所述当前时刻语义解码结果与输入文本之间的相关度时,为了提高计算的准确性,减少计算量,可选择部分输入文本进行相关度计算,比如可选择与当前时刻语义解码结果有可能相关的预设长度的部分输入文本进行计算。
在本实施例的一个可选实现方式中,如图5所示,所述步骤S105,即基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要的步骤,包括以下步骤S501-S503:
在步骤S501中,利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
在步骤S502中,利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
在步骤S503中,组合各时刻语义解码结果,得到所述输入文本的摘要,即所述输入对象的摘要。
在该实现方式中,采用迭代解码的方式获取所述输入文本的摘要,具体地,首先利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;然后利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;最后组合所述语义解码结果,得到所述输入文本的摘要。
更为具体地,假设修正后的第i个时刻注意力分布参数表示为W’ij,各时刻语义编码值表示为hj,则第i个时刻的中间内容向量Ci可由第三变换函数F3(■,■)计算得到:
Ci=F3(W’ij,hj)。
在本实施例的一个可选实现方式中,所述第三变换函数的表现形式可根据实际应用的需要进行选择和设置,对于其具体表现形式,本公开不作特别限定。比如,根据实际应用的需要,可将所述第三变换函数选择为加权求和函数等等。
在得到第i个时刻的中间内容向量Ci后,根据上文描述,可利用所述第二变换函数F2(■,…,■)及历史时刻的语义解码结果计算得到第i个时刻的语义解码结果Hi,即最终得到的摘要中的第i个目标词:Hi=yi=F2(Ci,yi-1,yi-2,…,y1)。
最后将各时刻的语义解码结果按照时刻从先到后的顺序组合起来,即可得到生成的所述输入文本的摘要。
为了确保上述注意力机制的精准度,在本实施例的一个可选实现方式中,在对于所述初始注意力分布参数进行修正之后,还包括基于目标函数对于修正得到的注意力分布参数进行再次修正的步骤,即如图6所示,所述摘要生成方法包括以下步骤S601-S606:
在步骤S601中,获取输入对象,根据所述输入对象确定输入文本;
在步骤S602中,对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
在步骤S603中,根据所述语义编码结果迭代计算得到初始注意力分布参数;
在步骤S604中,对于所述初始注意力分布参数进行修正;
在步骤S605中,基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数;
在步骤S606中,基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要。
考虑到在生成长文本摘要时,从局部角度上来看,每个时刻的注意力集中位置有可能出现偏差,从全局角度上来看,有可能出现同样的位置会被重复关注和注意的情况,因此,为了进一步提高注意力集中质量,对于注意力机制进行监督,在该实现方式中,分别设置基于局部损失函数的第一预设目标函数和基于全局损失函数的第二预设目标函数,来对于前述修正得到的注意力分布参数W’ij进行再一次的修正,得到再修正注意力分布参数W”ij,以纠正局部和全局误差。
考虑到一个注意力集中的分布应当是比较尖锐的,也就是方差会比较大,因此,为了纠正局部误差,在本实施例的一个可选实现方式中,将第一预设目标函数设置为使每一时刻注意力分布参数的方差的倒数最小。
对于整个解码过程,同一个位置的信息不应当多次被关注到,不然会造成关注重复的问题。因此,除去某个时刻注意力被集中到某个特定的位置,其他时刻该位置对应的注意力应当是很小的。因此,为了纠正全局误差,在本实施例的一个可选实现方式中,将第二预设目标函数设置为使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布处于预设范围内,或者使所述差值分布的方差最小,以防止注意力反复集中到同一个位置。理想状态下,所述差值分布应当是比较平坦的,因为特定位置除了某时刻获得一个最大的注意力分布值之外,其他时刻都不应当对该位置分配太多的注意力,因此,通过设置预设范围来限制差值分布的平坦度,或者通过使差值分布的方差最小来减少信息重复关注的问题,达到最小的全局误差。
图7示出根据本发明一实施方式的游记摘要生成方法的流程图,如图7所示,所述游记摘要生成方法包括以下步骤S701-S703:
在步骤S701中,获取链接,所述链接包括游记文本;
在步骤S702中,基于注意力分布生成所述游记文本的摘要;
在步骤S703中,将生成的摘要上传至目标对象。
考虑到目前很多游记形式的文本内容冗长,不利于阅读者快速获得了解自己感兴趣的内容,而且很多游记都是以链接的形式存在,因此,在该实施方式中,对于链接中的游记文本进行处理,提取其摘要,并将提取得到的摘要上传至目标对象上。其中,所述目标对象指的是可放置、存储摘要或者可携带、包含摘要的链接等摘要载体的对象,比如存储器、网站等等。
在本实施例的一个可选实现方式中,如图8所示,所述步骤S702,即基于注意力分布生成所述游记文本的摘要的步骤,包括以下步骤S801-S804:
在步骤S801中,对于所述游记文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
在步骤S802中,根据所述语义编码结果迭代计算得到初始注意力分布参数;
在步骤S803中,对于所述初始注意力分布参数进行修正;
在步骤S804中,基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
为了提高摘要提取的准确度,在该实施方式中,基于注意力机制,通过对于输入游记文本进行编码和解码获得输入游记文本的摘要信息,并且通过对于注意力分布参数的修正,即使对于长游记文本对象,也能够得到具有显著性的高质量信息摘要。该技术方案不仅能够节省文本归属方的时间和精力,提高其工作效率,还能够节省阅读方的时间,在短时间内为其输出高价值信息量,并且其实现结构简单,有利于广泛推广和使用。
需要说明的是,图8中所涉及到的部分技术术语或技术特征与上文所示实施方式提及的技术术语或技术特征存在相同或相似,相应的解释和描述均可参考上文所示实施方式的描述,本发明在此不再赘述。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图9示出根据本发明一实施方式的摘要生成装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图9所示,所述摘要生成装置包括:
确定模块901,被配置为获取输入对象,根据所述输入对象确定输入文本;
编码模块902,被配置为对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
计算模块903,被配置为根据所述语义编码结果迭代计算得到初始注意力分布参数;
修正模块904,被配置为对于所述初始注意力分布参数进行修正;
解码模块905,被配置为基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要。
上文提及,随着科学技术的发展,人们需要接受、阅读和关注的信息量越来越多,为了节省人们的时间、提高人们对于信息的接收效率,信息的摘要提取质量越来越重要。信息的摘要提取指的是将给定信息的主要内容提炼或总结为一句话或者几句话,这样就可以向人们展示精简后的信息内容,方便人们短时间内了解信息的主要内容,并可帮助人们判断是否需要进一步的详细阅读。但目前信息摘要的提取工作存在多种缺陷,比如无法解决摘要的显著性问题,或者实现结构比较复杂,难以广泛使用。
考虑到上述缺陷,在该实施方式中,提出一种摘要生成装置,该装置基于注意力机制,通过对于根据输入对象确定的输入文本进行编码和解码获得输入文本的摘要信息,并且通过对于注意力分布参数的修正,即使对于长文本对象,也能够得到具有显著性的高质量信息摘要。该技术方案不仅能够节省待处理对象归属方的时间和精力,提高其工作效率,还能够节省阅读方的时间,在短时间内为其输出高价值信息量,并且其实现结构简单,有利于广泛推广和使用。
在本实施例的一个可选实现方式中,所述输入对象可以为以下对象中的一种或多种:输入文本、输入语音、输入图像等。但无论输入对象为何种形式,输出的摘要均为文本形式,因此,当所述输入对象为输入语音时,所述确定模块901可被配置为:获取输入语音,将所述输入语音转换为输入文本;当所述输入对象为输入图像时,所述确定模块901可被配置为:获取输入图像,识别所述输入图像中的文本,得到输入文本,后续再对于确定的所述输入文本进行处理,提取得到相应的摘要。
图2示出当输入对象为输入语音时的场景应用示意图,如图2所示,当输入对象为人发出的语音时,确定模块901首先利用语音识别技术将语音转换为文本,再对文本进行处理,提取得到对应的摘要。
图3示出当输入对象为输入图像时的场景应用示意图,如图3所示,当输入对象为包含有大量文字的图像时,确定模块901首先利用图像识别技术将识别得到图像中的文本,再对识别得到的文本进行处理,提取得到对应的摘要。
在本实施例的一个可选实现方式中,所述编码模块902对于输入文本进行编码指的是对于输入文本进行一种语义编码处理,得到相应的语义编码结果,后续所述语义编码结果可被解码模块905用来进行语义解码处理,以得到与所述输入文本对应的、能够反映出所述输入文本的重要内容的摘要信息。其中,所述输入对象的内容、与所述输入对象对应的输入文本的内容与语义解码处理得到的摘要信息内容不同,文本长度也不同,通常来说,所述输入文本的文本长度要大于所述摘要信息的文本长度。
在本实施例的一个可选实现方式中,利用循环神经网络(Recurrent NeuralNetwork,RNN)实现信息的编码和解码,具体地,编码模块501利用第一循环神经网络对于输入文本进行编码,得到语义编码结果,解码模块504利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入文本的摘要,即所述输入对象的摘要。在本实施例的一个可选实现方式中,所述第一循环神经网络可选为双向长短时记忆网络(Bi-Long-Short Term Memory,Bi-LSTM),所述第二循环神经网络可选为单向长短时记忆网络Long-Short Term Memory,LSTM)。在该实现方式中,所述各时刻语义编码值指的就是Bi-LSTM的隐层状态值,所述初始内容向量指的是Bi-LSTM的输出,而LSTM的最终隐层状态值组成了所述输入文本的摘要。
在本实施例的一个可选实现方式中,所述注意力分布参数是注意力机制中所涉及的参数,以表征需要投入大量注意力的信息的重要程度。所述注意力机制源于人类视觉所特有的大脑信号处理机制,即人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对于这一目标区域投入更多的注意力资源,就可以获取更多所需要关注目标的细节信息,而抑制其他无用信息,这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的一种手段,是人类在长期进化中形成的一种生存机制,上述人类视觉注意力机制的使用能够极大地提高视觉信息处理的效率与准确性。而深度学习中的注意力机制从本质上讲与人类的选择性视觉注意力机制类似,其主要目的也是从众多信息中选择出对当前任务目标更关键的信息。
在本实施例的一个可选实现方式中,如图10所示,所述编码模块902包括:
第一分词处理子模块1001,被配置为对于输入文本进行分词处理,得到一个或多个词语;
第一编码子模块1002,被配置为对于所述一个或多个词语进行逐词编码,得到语义编码结果。
为了提高文本编码的准确性,适应循环神经网络语义编码的特点,在该实现方式中,第一分词处理子模块1001首先对于输入的待处理文本进行分词处理,得到一个或多个词语,第一编码子模块1002再对于得到的一个或多个词语进行逐词编码,以得到最终的语义编码结果。
其中,第一分词处理子模块1001分词处理的具体方式可由本领域技术人员根据实际应用的需要进行选择,本公开对其不作具体限定。
在本实施例的一个可选实现方式中,所述计算模块903可被配置为:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到。
为了体现需要投入大量注意力的信息的重要程度,在该实现方式中,计算可被用于后续解码处理的注意力分布参数,具体地,所述计算模块502基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数。
假设各时刻语义编码值表示为hj,上一时刻语义解码结果表示为Hi-1,其中,j表示语义编码值所处的时刻,也可表示输入文本中词语的出现顺序,也就是说,hj也可表示输入文本中第j个词语对应的语义编码值,j的取值范围为1~Lx,其中,Lx表示输入文本的长度,也即输入文本中词语的数量,Hi-1也可表示第二循环神经网络第i-1时刻的隐层状态值。那么所述当前时刻初始注意力分布参数Wij可表示为:
Wij=F1(hj,Hi-1),
其中,F1(■,■)表示对于输入参数hj和Hi-1进行变换的第一变换函数,其用于表征最终得到的摘要中的目标词语yi与输入文本中的每个输入词语之间的关联性。这样在得到第二循环神经网络每一时刻的隐层状态值后就可以确定相应时刻的初始注意力分布参数Wij,对于第二循环神经网络每一时刻的隐层状态值的具体计算将在下文中进行详细描述。
在本实施例的一个可选实现方式中,所述第一变换函数的表现形式可根据实际应用的需要进行选择和设置,对于其具体表现形式,本公开不作特别限定。
其中,所述最初时刻的语义解码结果可根据所述初始内容向量基于第二变换函数计算得到,所述初始内容向量是对于输入文本进行编码得到的,其可表示为C1,那么所述最初时刻的语义解码结果H1,即最终得到的摘要中的第一个目标词可表示为:H1=y1=F2(C1),其中,F2(·,…,■)表示对于内容向量进行变换得到解码结果的第二变换函数,需要说明的是,由于在本公开实现方式中,采用迭代解码的机制,因此,在获取语义解码结果时需要综合考虑内容向量和历史时刻的语义解码结果,根据语义解码结果数量的不同,所述第二变换函数的输入参数为一个或多个,比如,在最初时刻,还未得到语义解码结果,那么第二变换函数的输入参数仅为最初时刻的初始内容向量C1;利用第二变换函数根据初始内容向量C1计算得到第一时刻的语义解码结果H1之后,可将计算得到的第二时刻的内容向量C2与第一时刻的语义解码结果H1同时作为所述第二变换函数的输入参数计算得到第二时刻的语义解码结果H2:H2=y2=F2(C2,H1);之后,将计算得到的第三时刻的内容向量C3与第一时刻和第二时刻的语义解码结果H1和H2同时作为所述第二变换函数的输入参数计算得到第三时刻的语义解码结果H3:H3=y3=F2(C3,H1,H2),以此类推,即可获得各时刻的语义解码结果。
在本实施例的一个可选实现方式中,所述第二变换函数的表现形式可根据实际应用的需要进行选择和设置,对于其具体表现形式,本公开不作特别限定。
在本实施例的一个可选实现方式中,所述修正模块904可被配置为:
根据当前时刻的语义解码结果与输入文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数。
考虑到对于长文本而言,计算得到的初始注意力分布往往会比较分散,在一定程度上会造成显著性缺失,不利于所生成摘要质量的提高,因此在该实现方式中,计算模块903计算得到初始注意力分布后,修正模块904可根据当前时刻的语义解码结果对于所述初始注意力分布进行修正,即确认注意力是否放在了与当前状态相关的重点内容上,以补偿信息显著性。具体地,修正模块904可根据当前时刻的语义解码结果与输入文本之间的相关度对于所述初始注意力分布参数Wij进行修正,以得到修正后的当前时刻注意力分布参数W’ij。若通过计算当前时刻的语义解码结果与输入文本之间的相关度,确认两者之间的相关度较小,即该输入文本对于当前时刻的语义解码是不重要的信息,则修正模块904可减小相应的注意力分布参数,将原本集中的注意力分散开来,反之,若通过计算当前时刻的语义解码结果与输入文本之间的相关度,确认两者之间的相关度较大,即该输入文本对于当前时刻的语义解码是比较重要的信息,则修正模块904可增大相应的注意力分布参数,将注意力集中在这些相对比较重要的内容上。
其中,所述当前时刻语义解码结果与输入文本之间的相关度计算可采用多种方式来计算,本领域技术人员可根据实际应用的需要以及文本对象的特点选择合适的计算方法,本公开对其不作具体限定。另外,在计算所述当前时刻语义解码结果与输入文本之间的相关度时,为了提高计算的准确性,减少计算量,可选择部分输入文本进行相关度计算,比如可选择与当前时刻语义解码结果有可能相关的预设长度的部分输入文本进行计算。
在本实施例的一个可选实现方式中,如图11所示,所述解码模块905包括:
第一计算子模块1101,被配置为利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
第二计算子模块1102,被配置为利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
第一组合子模块1103,被配置为组合各时刻语义解码结果,得到所述输入文本的摘要,即所述输入对象的摘要。
在该实现方式中,解码模块905采用迭代解码的方式获取所述输入文本的摘要,具体地,第一计算子模块1101首先利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;第二计算子模块1102然后利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;第一组合子模块1103最后组合所述语义解码结果,得到所述输入文本的摘要。
更为具体地,假设修正后的第i个时刻注意力分布参数表示为W’ij,各时刻语义编码值表示为hj,则第i个时刻的中间内容向量Ci可由第三变换函数F3(■,■)计算得到:
Ci=F3(W’ij,hj)。
在本实施例的一个可选实现方式中,所述第三变换函数的表现形式可根据实际应用的需要进行选择和设置,对于其具体表现形式,本公开不作特别限定。比如,根据实际应用的需要,可将所述第三变换函数选择为加权求和函数等等。
在得到第i个时刻的中间内容向量Ci后,根据上文描述,可利用所述第二变换函数F2(■,…,■)及历史时刻的语义解码结果计算得到第i个时刻的语义解码结果Hi,即最终得到的摘要中的第i个目标词:Hi=yi=F2(Ci,yi-1,yi-2,…,y1)。
最后将各时刻的语义解码结果按照时刻从先到后的顺序组合起来,即可得到生成的所述输入文本的摘要。
为了确保上述注意力机制的精准度,在本实施例的一个可选实现方式中,在所述修正模块904之后,还包括基于目标函数对于修正得到的注意力分布参数进行再次修正的部分,即如图12所示,所述摘要生成装置包括:
确定模块1201,被配置为获取输入对象,根据所述输入对象确定输入文本;
编码模块1202,被配置为对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
计算模块1203,被配置为根据所述语义编码结果迭代计算得到初始注意力分布参数;
修正模块1204,被配置为对于所述初始注意力分布参数进行修正;
再修正模块1205,被配置为基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数;
解码模块1206,被配置为基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要。
考虑到在生成长文本摘要时,从局部角度上来看,每个时刻的注意力集中位置有可能出现偏差,从全局角度上来看,有可能出现同样的位置会被重复关注和注意的情况,因此,为了进一步提高注意力集中质量,对于注意力机制进行监督,在该实现方式中,再修正模块1205分别设置基于局部损失函数的第一预设目标函数和基于全局损失函数的第二预设目标函数,来对于前述修正得到的注意力分布参数W’ij进行再一次的修正,得到再修正注意力分布参数W”ij,以纠正局部和全局误差。
考虑到一个注意力集中的分布应当是比较尖锐的,也就是方差会比较大,因此,为了纠正局部误差,在本实施例的一个可选实现方式中,将第一预设目标函数设置为使每一时刻注意力分布参数的方差的倒数最小。
对于整个解码过程,同一个位置的信息不应当多次被关注到,不然会造成关注重复的问题。因此,除去某个时刻注意力被集中到某个特定的位置,其他时刻该位置对应的注意力应当是很小的。因此,为了纠正全局误差,在本实施例的一个可选实现方式中,将第二预设目标函数设置为使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布处于预设范围内,或者使所述差值分布的方差最小,以防止注意力反复集中到同一个位置。理想状态下,所述差值分布应当是比较平坦的,因为特定位置除了某时刻获得一个最大的注意力分布值之外,其他时刻都不应当对该位置分配太多的注意力,因此,通过设置预设范围来限制差值分布的平坦度,或者通过使差值分布的方差最小来减少信息重复关注的问题,达到最小的全局误差。
为了使得上述技术方案更清楚,接下来利用一个具体的实例对于上述技术方案进行解释和说明。
假设输入文本使用S来表示,那么对于输入文本S进行分词处理后得到输入文本S的词语构成可以表示为:S={x1,x2,…,xm},其中,xi表示组成输入文本S的第i个词语,i=1…m,m表示输入文本S经分词处理后得到的词语数量;将所述输入文本S中的词语分时刻输入至Bi-LSTM中进行编码,可得到各时刻的语义编码值hj以及初始内容向量C1,其中,C1是对于输入文本S进行编码得到的,也可以认为是利用第四变换函数F4对于输入文本S变换得到的:C1=F4(x1,x2,…,xm);将得到的初始内容向量C1输入至LSTM中进行解码,也可以认为根据初始内容向量C1基于第二变换函数F2计算得到第一时刻的语义解码结果H1:H1=y1=F2(C1);根据第一时刻的语义解码结果H1、各时刻语义编码值hj以及第一变换函数F1计算得到第二时刻初始注意力分布参数W2j:W2j=F1(hj,H1);基于上述目标函数,对于第二时刻初始注意力分布参数W2j进行两次修正,得到二次修正后的第二时刻注意力分布参数W”2j;利用第三变换函数F3,基于二次修正后的第二时刻注意力分布参数W”2j以及各时刻的语义编码值hj计算得到第二时刻中间内容向量C2:C2=F3(W’2j,hj);将第二时刻的中间内容向量C2与第一时刻的语义解码结果H1同时作为所述第二变换函数F2的输入参数计算得到第二时刻的语义解码结果H2:H2=y2=F2(C2,H1);类似地,根据第二时刻的语义解码结果H2、各时刻语义编码值hj以及第一变换函数F1计算得到第三时刻初始注意力分布参数W3j:W3j=F1(hj,H2);基于上述目标函数,对于第三时刻初始注意力分布参数W3j进行两次修正,得到二次修正后的第三时刻注意力分布参数W”3j;利用第三变换函数F3,基于二次修正后的第二时刻注意力分布参数W”3j以及各时刻的语义编码值hj计算得到第三时刻中间内容向量C3:C3=F3(W’2j,hj);将第三时刻的中间内容向量C3与第一时刻的语义解码结果H1和第二时刻的语义解码结果H2同时作为所述第二变换函数F2的输入参数计算得到第三时刻的语义解码结果H3:H3=y3=F2(C3,H1,H2),以此类推,即可获得各时刻的语义解码结果,最后将各时刻的语义解码结果按照时刻从先到后的顺序组合起来,即可生成的所述输入文本S的摘要T,其中,T={y1,y2,…,yn},其中,yi表示组成摘要T的第i个词语,i=1…n,n表示摘要T中的词语数量。
图13示出根据本发明一实施方式的游记摘要生成装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图13所示,所述游记摘要生成装置包括:
获取模块1301,被配置为获取链接,所述链接包括游记文本;
生成模块1302,被配置为基于注意力分布生成所述游记文本的摘要;
上传模块1303,被配置为将生成的摘要上传至目标对象。
考虑到目前很多游记形式的文本内容冗长,不利于阅读者快速获得了解自己感兴趣的内容,而且很多游记都是以链接的形式存在,因此,在该实施方式中,对于链接中的游记文本进行处理,提取其摘要,并将提取得到的摘要上传至目标对象上。其中,所述目标对象指的是可放置、存储摘要或者可携带、包含摘要的链接等摘要载体的对象,比如存储器、网站等等。
在本实施例的一个可选实现方式中,如图14所示,所述生成模块1302包括:
第二编码子模块1401,被配置为对于所述游记文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
第三计算子模块1402,被配置为根据所述语义编码结果迭代计算得到初始注意力分布参数;
修正子模块1403,被配置为对于所述初始注意力分布参数进行修正;
解码子模块1404,被配置为基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
为了提高摘要提取的准确度,在该实施方式中,基于注意力机制,通过对于输入游记文本进行编码和解码获得输入游记文本的摘要信息,并且通过对于注意力分布参数的修正,即使对于长游记文本对象,也能够得到具有显著性的高质量信息摘要。该技术方案不仅能够节省文本归属方的时间和精力,提高其工作效率,还能够节省阅读方的时间,在短时间内为其输出高价值信息量,并且其实现结构简单,有利于广泛推广和使用。
在本实施例的一个可选实现方式中,所述第二编码子模块1401包括:
第二分词处理子模块,被配置为对于游记文本进行分词处理,得到一个或多个词语;
第三编码子模块,被配置为对于所述一个或多个词语进行逐词编码,得到语义编码结果。
在本实施例的一个可选实现方式中,所述第二编码子模块1401被配置为利用第一循环神经网络对于游记文本进行编码,得到语义编码结果,和/或,
所述解码子模块1404,被配置为利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
在本实施例的一个可选实现方式中,所述第三计算子模块1402被配置为:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到。
在本实施例的一个可选实现方式中,所述修正子模块1403被配置为:
根据当前时刻的语义解码结果与游记文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数。
在本实施例的一个可选实现方式中,所述解码子模块1404包括:
第四计算子模块,被配置为利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
第五计算子模块,被配置为利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
第二组合子模块,被配置为组合各时刻语义解码结果,得到所述游记文本的摘要。
在本实施例的一个可选实现方式中,所述修正子模块1403之后,还包括:
再修正子模块,被配置为基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数。
在本实施例的一个可选实现方式中,所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
需要说明的是,图14及其相关实施方式中所涉及到的部分技术术语或技术特征与上文所示实施方式提及的技术术语或技术特征存在相同或相似,相应的解释和描述均可参考上文所示实施方式的描述,本发明在此不再赘述。
本发明实施例还公开了一种电子设备,图15示出根据本发明一实施方式的电子设备的结构框图,如图15所示,所述电子设备1500包括存储器1501和处理器1502;其中,
所述存储器1501用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1502执行以实现上述任一方法步骤。
图16适于用来实现根据本发明实施方式的上述任一方法的计算机系统的结构示意图。
如图16所示,计算机系统1600包括中央处理单元(CPU)1601,其可以根据存储在只读存储器(ROM)1602中的程序或者从存储部分1608加载到随机访问存储器(RAM)1603中的程序而执行上述实施方式中的各种处理。在RAM1603中,还存储有系统1600操作所需的各种程序和数据。CPU1601、ROM1602以及RAM1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。
以下部件连接至I/O接口1605:包括键盘、鼠标等的输入部分1606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1607;包括硬盘等的存储部分1608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1610上,以便于从其上读出的计算机程序根据需要被安装入存储部分1608。
特别地,根据本发明的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本发明的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1609从网络上被下载和安装,和/或从可拆卸介质1611被安装。
附图中的流程图和框图,图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明实施例的方法。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (24)
1.一种摘要生成方法,其特征在于,包括:
获取输入对象,根据所述输入对象确定输入文本;
对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
根据所述语义编码结果迭代计算得到初始注意力分布参数;
对于所述初始注意力分布参数进行修正;
基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要;
其中,所述根据所述语义编码结果迭代计算得到初始注意力分布参数,包括:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到;
所述对于所述初始注意力分布参数进行修正,包括:
根据当前时刻的语义解码结果与输入文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数;
所述对于所述初始注意力分布参数进行修正之后,还包括:
基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数,所述第一预设目标函数用于纠正局部误差,所述第二预设目标函数用于纠正全局误差。
2.根据权利要求1所述的方法,其特征在于,所述输入对象为以下对象中的一种或多种:输入文本、输入语音、输入图像;
当所述输入对象为输入语音时,所述获取输入对象,根据所述输入对象确定输入文本包括:获取输入语音,将所述输入语音转换为输入文本;
当所述输入对象为输入图像时,所述获取输入对象,根据所述输入对象确定输入文本包括:获取输入图像,识别所述输入图像中的文本,得到输入文本。
3.根据权利要求2所述的方法,其特征在于,所述对于输入文本进行编码,得到语义编码结果,包括:
对于输入文本进行分词处理,得到一个或多个词语;
对于所述一个或多个词语进行逐词编码,得到语义编码结果。
4.根据权利要求3所述的方法,其特征在于:利用第一循环神经网络对于输入文本进行编码,得到语义编码结果,和/或,
利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入文本的摘要,即所述输入对象的摘要。
5.根据权利要求3所述的方法,其特征在于,所述基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要,包括:
利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
组合各时刻语义解码结果,得到所述输入文本的摘要,即所述输入对象的摘要。
6.根据权利要求3所述的方法,其特征在于,
所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
7.一种游记摘要生成方法,其特征在于,包括:
获取链接,所述链接包括游记文本;
基于注意力分布生成所述游记文本的摘要;
将生成的摘要上传至目标对象;
其中,所述基于注意力分布生成所述游记文本的摘要,包括:
对于所述游记文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
根据所述语义编码结果迭代计算得到初始注意力分布参数;
对于所述初始注意力分布参数进行修正;
基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要;
所述根据所述语义编码结果迭代计算得到初始注意力分布参数,包括:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到;
所述对于所述初始注意力分布参数进行修正,包括:
根据当前时刻的语义解码结果与游记文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数;
所述对于所述初始注意力分布参数进行修正之后,还包括:
基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数,所述第一预设目标函数用于纠正局部误差,所述第二预设目标函数用于纠正全局误差。
8.根据权利要求7所述的方法,其特征在于,所述对于游记文本进行编码,得到语义编码结果,包括:
对于游记文本进行分词处理,得到一个或多个词语;
对于所述一个或多个词语进行逐词编码,得到语义编码结果。
9.根据权利要求7所述的方法,其特征在于:利用第一循环神经网络对于游记文本进行编码,得到语义编码结果,和/或,
利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
10.根据权利要求7所述的方法,其特征在于,所述基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要,包括:
利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
组合各时刻语义解码结果,得到所述游记文本的摘要。
11.根据权利要求7所述的方法,其特征在于,所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
12.一种摘要生成装置,其特征在于,包括:
确定模块,被配置为获取输入对象,根据所述输入对象确定输入文本;
编码模块,被配置为对于输入文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
计算模块,被配置为根据所述语义编码结果迭代计算得到初始注意力分布参数;
修正模块,被配置为对于所述初始注意力分布参数进行修正;
解码模块,被配置为基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入对象的摘要;
其中,所述计算模块还被配置为:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到;
所述修正模块还被配置为:
根据当前时刻的语义解码结果与输入文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数;
所述修正模块之后,还包括:
再修正模块,被配置为基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数,所述第一预设目标函数用于纠正局部误差,所述第二预设目标函数用于纠正全局误差。
13.根据权利要求12所述的装置,其特征在于,所述输入对象为以下对象中的一种或多种:输入文本、输入语音、输入图像;
当所述输入对象为输入语音时,所述确定模块被配置为:获取输入语音,将所述输入语音转换为输入文本;
当所述输入对象为输入图像时,所述确定模块被配置为:获取输入图像,识别所述输入图像中的文本,得到输入文本。
14.根据权利要求13所述的装置,其特征在于,所述编码模块包括:
第一分词处理子模块,被配置为对于输入文本进行分词处理,得到一个或多个词语;
第一编码子模块,被配置为对于所述一个或多个词语进行逐词编码,得到语义编码结果。
15.根据权利要求13所述的装置,其特征在于,所述编码模块被配置为:利用第一循环神经网络对于输入文本进行编码,得到语义编码结果,和/或,
所述解码模块被配置为:利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述输入文本的摘要,即所述输入对象的摘要。
16.根据权利要求13所述的装置,其特征在于,
所述解码模块包括:
第一计算子模块,被配置为利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
第二计算子模块,被配置为利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
第一组合子模块,被配置为组合各时刻语义解码结果,得到所述输入文本的摘要,即所述输入对象的摘要。
17.根据权利要求13所述的装置,其特征在于,所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
18.一种游记摘要生成装置,其特征在于,包括:
获取模块,被配置为获取链接,所述链接包括游记文本;
生成模块,被配置为基于注意力分布生成所述游记文本的摘要;
上传模块,被配置为将生成的摘要上传至目标对象;其中,所述生成模块包括:
第二编码子模块,被配置为对于所述游记文本进行编码,得到语义编码结果,其中,所述语义编码结果包括各时刻语义编码值以及初始内容向量;
第三计算子模块,被配置为根据所述语义编码结果迭代计算得到初始注意力分布参数;
修正子模块,被配置为对于所述初始注意力分布参数进行修正;
解码子模块,被配置为基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要;
所述第三计算子模块还被配置为:
基于第一变换函数,根据所述各时刻语义编码值与上一时刻语义解码结果计算得到当前时刻初始注意力分布参数,其中,最初时刻语义解码结果根据所述初始内容向量基于第二变换函数计算得到;
所述修正子模块还被配置为:
根据当前时刻的语义解码结果与游记文本之间的相关度对于所述初始注意力分布参数进行修正,得到修正后的当前时刻注意力分布参数;
所述修正子模块之后,还包括:
再修正子模块,被配置为基于预设目标函数对于修正得到的注意力分布参数进行再次修正,其中,所述预设目标函数包括基于局部损失函数生成的第一预设目标函数和基于全局损失函数生成的第二预设目标函数,所述第一预设目标函数用于纠正局部误差,所述第二预设目标函数用于纠正全局误差。
19.根据权利要求18所述的装置,其特征在于,所述第二编码子模块包括:
第二分词处理子模块,被配置为对于游记文本进行分词处理,得到一个或多个词语;
第三编码子模块,被配置为对于所述一个或多个词语进行逐词编码,得到语义编码结果。
20.根据权利要求18所述的装置,其特征在于:所述第二编码子模块被配置为利用第一循环神经网络对于游记文本进行编码,得到语义编码结果,和/或,
所述解码子模块,被配置为利用第二循环神经网络基于修正得到的注意力分布参数以及所述各时刻语义编码值进行迭代解码,得到所述游记文本的摘要。
21.根据权利要求18所述的装置,其特征在于,
所述解码子模块包括:
第四计算子模块,被配置为利用第三变换函数,基于修正后的当前时刻注意力分布参数以及所述各时刻语义编码值计算得到当前时刻中间内容向量;
第五计算子模块,被配置为利用第二变换函数,基于所述当前时刻中间内容向量及历史时刻语义解码结果计算得到当前时刻语义解码结果;
第二组合子模块,被配置为组合各时刻语义解码结果,得到所述游记文本的摘要。
22.根据权利要求18所述的装置,其特征在于,所述第一预设目标函数表征为:使每一时刻注意力分布参数的方差的倒数最小;和/或,所述第二预设目标函数表征为:使所有时刻的注意力分布参数和值减去每一时刻的最大注意力分布参数得到的差值分布的方差最小。
23.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-11任一项所述的方法步骤。
24.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-11任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562883.8A CN112148870B (zh) | 2019-06-26 | 2019-06-26 | 摘要生成方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910562883.8A CN112148870B (zh) | 2019-06-26 | 2019-06-26 | 摘要生成方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112148870A CN112148870A (zh) | 2020-12-29 |
CN112148870B true CN112148870B (zh) | 2022-09-16 |
Family
ID=73869977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910562883.8A Active CN112148870B (zh) | 2019-06-26 | 2019-06-26 | 摘要生成方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148870B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762050B (zh) * | 2021-05-12 | 2024-05-24 | 腾讯云计算(北京)有限责任公司 | 图像数据处理方法、装置、设备以及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733657B (zh) * | 2017-04-17 | 2022-10-28 | 北京搜狗科技发展有限公司 | 神经机器翻译中注意力参数的修正方法、装置及电子设备 |
US10409898B2 (en) * | 2017-11-17 | 2019-09-10 | Adobe Inc. | Generating a targeted summary of textual content tuned to a target audience vocabulary |
US11170158B2 (en) * | 2018-03-08 | 2021-11-09 | Adobe Inc. | Abstractive summarization of long documents using deep learning |
CN109344391B (zh) * | 2018-08-23 | 2022-10-21 | 昆明理工大学 | 基于神经网络的多特征融合中文新闻文本摘要生成方法 |
CN109670035B (zh) * | 2018-12-03 | 2021-03-23 | 科大讯飞股份有限公司 | 一种文本摘要生成方法 |
-
2019
- 2019-06-26 CN CN201910562883.8A patent/CN112148870B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112148870A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796685B2 (en) | Method and device for image recognition | |
US11042968B2 (en) | Method and apparatus for enhancing vehicle damage image on the basis of a generative adversarial network | |
CN112560861B (zh) | 票据处理方法、装置、设备及存储介质 | |
US11126820B2 (en) | Generating object embeddings from images | |
EP3255586A1 (en) | Method, program, and apparatus for comparing data graphs | |
CN113159056A (zh) | 图像分割方法、装置、设备及存储介质 | |
US20220188636A1 (en) | Meta pseudo-labels | |
US11257217B2 (en) | Image segmentation using neural networks | |
CN113763249A (zh) | 文本图像超分辨率重建方法及其相关设备 | |
CN114780701B (zh) | 自动问答匹配方法、装置、计算机设备及存储介质 | |
CN112148870B (zh) | 摘要生成方法、装置、电子设备及计算机可读存储介质 | |
US20220327663A1 (en) | Video Super-Resolution using Deep Neural Networks | |
CN117392260B (zh) | 一种图像生成方法及装置 | |
CN114627354A (zh) | 目标检测方法、装置、存储介质与电子设备 | |
CN108921792B (zh) | 用于处理图片的方法和装置 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN116703944A (zh) | 图像分割方法、图像分割装置、电子设备及存储介质 | |
CN116403142A (zh) | 视频处理方法、装置、电子设备及介质 | |
US20240265911A1 (en) | Adaptive visual speech recognition | |
CN114742052A (zh) | 文本主旨的提取方法、装置、设备及存储介质 | |
CN114639004A (zh) | 多聚焦图像融合方法及装置 | |
CN113392861A (zh) | 模型训练方法、地图绘制方法、装置、计算机设备和介质 | |
CN114913319B (zh) | 图像数据处理及智能标注方法和系统、设备与可存储介质 | |
US20230386063A1 (en) | Method for generating depth in images, electronic device, and non-transitory storage medium | |
US20240249413A1 (en) | Performing multiple segmentation tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |