CN115034194A - 一种摘要生成方法及相关装置 - Google Patents
一种摘要生成方法及相关装置 Download PDFInfo
- Publication number
- CN115034194A CN115034194A CN202210789204.2A CN202210789204A CN115034194A CN 115034194 A CN115034194 A CN 115034194A CN 202210789204 A CN202210789204 A CN 202210789204A CN 115034194 A CN115034194 A CN 115034194A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- target
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种摘要生成方法,包括:获取目标文档;根据目标文档得到文本向量、图像向量、表格向量和布局向量;将文本向量、图像向量和表格向量进行拼接得到第一向量;将第一向量和布局向量相加得到第二向量;将第二向量输入至神经网络进行微调得到目标向量,将目标向量输入至分类函数得到目标信息,最后将目标信息填充至目标模板得到第一摘要。
Description
技术领域
本申请实施例涉及金融技术领域,尤其涉及一种摘要生成方法及相关装置。
背景技术
为了遵循证券法公开原则,上市公司对公司的经营状况、高管任免等重要信息持续公开披露,以保护投资者的利益。然而,随着上市公司披露的公告类型和内容不断增加,冗长的公告文本大大降低了投资者从中获取关键信息的效率。
现有的技术能够从纯文本的公告中提取出投资者最关心的摘要信息,大大提高了阅读效率。然而,当公告中出现图像和表格等非纯文本信息时,现有的技术无法生成准确的摘要信息,这给用户带来了一定的不便。
发明内容
本申请实施例提供了一种摘要生成方法及相关装置。
一种摘要生成方法,包括:
获取目标文档;
根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,所述文本向量为所述目标文档中文本部分的文本片段对应的向量,所述文本坐标向量为所述目标文档中文本部分对应的坐标的向量,所述图像向量为所述目标文档中图像部分对应的向量,所述图像坐标向量为所述目标文档中图像部分对应的坐标的向量,所述表格向量为所述目标文档中表格对应的向量,所述表格内文本坐标向量为所述目标文档中表格内文本对应的坐标的向量;
根据所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量得到布局向量;
将所述文本向量、所述图像向量和所述表格向量进行拼接得到第一向量;
将所述第一向量和所述布局向量对应相加得到第二向量;
将所述第二向量输入至多模态神经网络进行微调得到目标向量;
将所述目标向量输入至分类函数得到目标信息;
将所述目标信息填充至目标模板得到第一摘要,所述目标模板为预先设置好的与所述目标文档对应的模板。
可选的,将所述目标信息填充至目标模板得到第一摘要之后,所述方法还包括:
根据所述目标文档和提示得到目标片段,所述提示为用户根据所述目标文档定义的内容;
将所述第一摘要和所述目标片段输入至生成式神经网络得到第二摘要。
可选的,根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,包括:
根据所述目标文档得到文本信息和非文本信息,所述文本信息包括文本内容信息和文本坐标信息,所述非文本信息包括图像信息和表格信息;
将所述文本内容信息输入至语言模型得到所述文本向量;
将所述非文本信息输入至目标检测模型得到图像特征图、图像坐标信息、表格结构和表格内文本坐标信息;
将所述文本坐标信息、所述图像坐标信息和所述表格内文本坐标信息通过坐标位置编码得到所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量;
通过所述图像特征图得到所述图像向量;
将所述表格结构输入至表格结构识别模型得到所述表格向量。
可选的,根据所述目标文档和提示得到目标片段,包括:
根据所述目标文档和所述提示预测所述目标文档的每一段落中所述目标片段的起始位置概率和结束位置概率;
判断所述起始位置概率的最大值与所述结束位置概率的最大值之和是否小于预设阈值;
若否,则将所述起始位置概率的最大值对应的位置与所述结束位置概率的最大值对应的位置之间的文本确定为所述目标片段。
可选的,将所述第一摘要和所述目标片段输入至生成式神经网络得到第二摘要,包括:
将即将生成的所述第二摘要的第i个位置确定为目标位置,i为1,2,3,...,k-1,其中k为所述第二摘要的位置个数,所述目标位置为即将生成内容的文本片段的位置;
将所述第一摘要和所述目标片段输入至所述生成式神经网络得到目标位置的第一概率,所述第一概率为所述第一摘要和所述目标片段中在所述目标位置出现的概率最大的文本的概率;
获取所述目标位置的第二概率,所述第二概率为词汇表中在所述目标位置出现的概率最大的文本的概率,所述词汇表为预先训练好的词库;
将所述第一概率和所述第二概率两者中较大的概率对应的文本确定为与所述目标位置对应的文本片段的内容;
将第i+1个位置确定为所述目标位置,返回执行所述将所述第一摘要和所述目标片段输入至所述生成式神经网络得到目标位置的第一概率,直到确定k个位置对应的文本片段的内容以得到所述第二摘要为止。
可选的,将所述目标信息填充至目标模板得到第一摘要之前,所述方法还包括:
根据文档的标题进行分类得到预设模板,所述预设模板包括所述目标模板。
可选的,所述生成式神经网络为指针生成网络、GPT-3神经网络或T5神经网络。
一种摘要生成装置,包括:
获取单元,用于获取目标文档;
处理单元,用于根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,所述文本向量为所述目标文档中文本部分的文本片段对应的向量,所述文本坐标向量为所述目标文档中文本部分对应的坐标的向量,所述图像向量为所述目标文档中图像部分对应的向量,所述图像坐标向量为所述目标文档中图像部分对应的坐标的向量,所述表格向量为所述目标文档中表格对应的向量,所述表格内文本坐标向量为所述目标文档中表格内文本对应的坐标的向量;
所述处理单元,还用于根据所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量得到布局向量;
拼接单元,用于将所述文本向量、所述图像向量和所述表格向量进行拼接得到第一向量;
相加单元,用于将所述第一向量和所述布局向量对应相加得到第二向量;
微调单元,用于将所述第二向量输入至多模态神经网络进行微调得到目标向量;
所述处理单元,还用于将所述目标向量输入至分类函数得到目标信息;
填充单元,用于将所述目标信息填充至目标模板得到第一摘要,所述目标模板为预先设置好的与所述目标文档对应的模板。
一种摘要生成装置,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行前述方法。
一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行前述方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
根据目标文档得到文本向量、图像向量、表格向量和布局向量后,将文本向量、图像向量和表格向量进行拼接得到第一向量。接着将第一向量和布局向量对应相加得到第二向量,再将第二向量输入至多模态神经网络微调以得到目标向量。根据目标向量得到目标信息,最后将目标信息填充至目标模板得到第一摘要。通过神经网络进行编码及分类函数以得到目标信息,再将目标信息填充至预先设定的模板得到第一摘要,这样能够使得摘要内容更加准确,给用户带来较好的体验。
附图说明
图1为本申请的摘要生成方法一个实施例示意图;
图2为本申请的摘要生成方法另一实施例示意图;
图3为本申请的摘要生成装置一个实施例示意图;
图4为本申请的摘要生成装置另一实施例示意图。
具体实施方式
本申请实施例提供了一种摘要生成方法及相关装置。
现有技术无法很好地处理带有非纯文本信息的公告内容,得到的摘要不够准确,用户基于该摘要无法准确地了解公告的关键内容。为解决上述问题,本申请提供的摘要生成方法及相关装置能够生成准确的摘要,给用户带来方便。
下面对本申请的摘要生成方法进行描述。请参阅图1,本申请的摘要生成方法一个实施例包括:
101、获取目标文档;
获取目标文档。目标文档为包括用户需获取信息的公告内容的文档,用户主动选取目标文档后将目标文档输入至摘要生成装置中。其中,目标文档可以是PDF形式,也可以是图片格式,具体此处不做限定。
102、根据目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量;
根据目标文档得到文本向量及文本坐标向量、图像向量及图像坐标向量、表格向量及表格内文本坐标向量。其中,文本向量为目标文档中文本部分的文本片段对应的向量,文本坐标向量为目标文档中文本部分对应的坐标的向量,图像向量为目标文档中图像部分对应的向量,图像坐标向量为目标文档中图像部分对应的坐标的向量,表格向量为目标文档中表格部分对应的向量,表格内文本坐标向量为目标文档中表格内文本对应的坐标的向量。文本片段即文本token。可通过对应的工具和相应的模型对目标文档的内容进行处理,得到所需要的向量。如果目标文档是PDF格式,使用PDF解析工具进行解析后,输入至相应模型进行处理得到所需向量,PDF解析工具如PDFMiner和fitz,具体工具此处不做限定。如果目标文档为图像格式,可使用光学字符识别(OCR,optical character recognition)技术进行识别后,输入相应模型进行处理得到所需向量。
103、根据文本坐标向量、图像坐标向量和表格内文本坐标向量得到布局向量;
根据文本坐标向量、图像坐标向量和表格内文本坐标向量得到布局向量。具体的,将文本坐标信息、图像坐标信息和表格内文本坐标信息通过坐标位置编码得到文本坐标向量、图像坐标向量和表格内文本坐标向量,再将文本坐标向量、图像坐标向量和表格内文本坐标向量按照x坐标和y坐标分别进行拼接,得到的新的向量即为所需的布局向量。
104、将文本向量、图像向量和表格向量进行拼接得到第一向量;
将文本向量、图像向量和表格向量进行拼接得到第一向量。将文本向量、图像向量和表格向量进行拼接,即将文本向量、图像向量和表格向量进行拼接,以为后续操作做好准备。
105、将第一向量和布局向量对应相加得到第二向量;
将第一向量和布局向量相加得到第二向量。将第一向量和布局向量一一对应相加,即将第一向量和布局向量对应相加,得到第二向量。
106、将第二向量输入至多模态神经网络进行微调得到目标向量;
将第二向量输入至多模态神经网络进行微调得到目标向量,其中,多模态神经网络是提前训练好的神经网络模型。多模态神经网络对第二向量进行训练,以得到目标向量,其中,目标向量为分类函数的输入。
107、将目标向量输入至分类函数得到目标信息;
将目标向量输入至分类函数得到目标信息,其中,分类函数可以是任何具有分类功能的函数,具体此处不做限定。其中,目标信息为经分类函数得到的公告内容中的关键信息,为键值对形式。
108、将目标信息填充至目标模板得到第一摘要;
将目标信息填充至目标模板得到第一摘要,其中,模板为预先设置好的与目标文档对应的模板。例如,目标文档的标题中有“xx年xx公司第x次临时股东大会决议公告”,可使用对应的目标模板,即根据“股东大会”内容进行设置的模板。
本申请实施例中,根据目标文档得到文本向量、图像向量、表格向量和布局向量后,将文本向量、图像向量和表格向量进行拼接得到第一向量。接着将第一向量和布局向量对应相加得到第二向量,再将第二向量输入至多模态神经网络微调以得到目标向量。根据目标向量得到目标信息,最后将目标信息填充至目标模板得到第一摘要。通过神经网络进行编码及分类函数以得到目标信息,再将目标信息填充至预先设定的模板得到第一摘要,这样能够使得摘要内容更加准确,给用户带来较好的体验。
请参阅图2,本申请的摘要生成方法另一实施例包括:
201、获取目标文档;
获取目标文档。目标文档为包括用户需获取信息的公告内容的文档,用户主动选取目标文档后将目标文档输入至摘要生成装置中。其中,目标文档可以是PDF形式,也可以是图片格式,具体此处不做限定。
202、根据目标文档得到文本信息和非文本信息;
根据目标文档得到文本信息和非文本信息,其中,文本信息包括文本内容信息和文本坐标信息,非文本信息包括图像信息和表格信息。当目标文档是PDF格式,使用PDF解析工具进行解析得到输入文本信息和非文本信息,PDF解析工具如PDFMiner和fitz。当目标文档为图像格式,可使用光学字符识别(OCR,optical character recognition)技术进行识别得到结果。
203、将文本内容信息输入至语言模型得到文本向量;
将文本内容信息输入至语言模型得到文本向量,其中,文本内容信息以字或词或文本片段为单位,称之为文本token,语言模型为预先训练好的模型。文本内容信息输入至语言模型后,将文本token进行embedding序列化处理,得到文本向量。如“我”这个文本token经过embedding序列化处理后可以表示成向量(0.0009 0.012 0.036 0.225 0.012)。另外,可对文本token位置编码,以分辨出该文本token在对应句子中的位置或与另一文本token的相对位置。还可以通过文本标识符来区分不同句子的文本,如有n个句子T1、T2...Tn,添加完文本标识符后变为T1sepT2sep....sepTn。
204、将非文本信息输入至目标检测模型得到图像特征图、图像坐标信息、表格结构和表格内文本坐标信息;
将非文本信息输入至目标检测模型得到图像特征图、图像坐标信息、表格结构和表格内文本坐标信息,目标检测模型为预先设定好的模型,可以是FasterRCNN等类型,也可以是其他类型,具体此处不做限定。具体的,图像特征图是通过将非文本信息输入至目标检测模型的骨干网络得到的,图像坐标信息和表格内文本坐标信息用矩形框表示,如(x_left,y_top,x_right,y_bottom)。
205、将文本坐标信息、图像坐标信息和表格内文本坐标信息通过坐标位置编码得到文本坐标向量、图像坐标向量和表格内文本坐标向量;
将文本坐标信息、图像坐标信息和表格内文本坐标信息通过坐标位置编码得到文本坐标向量、图像坐标向量和表格内文本坐标向量。其中,编码的具体方式可以是任意一种适用的方式,具体此处不做限定。
206、通过图像特征图得到图像向量;
通过图像特征图得到图像向量,具体的,将图像特征图(w,h)通过线性投影层展平成w*h的序列,再进行向量化得到图像向量。另外,可对图像序列进行位置编码,以分辨出该图像序列中元素对应图像的位置。还可以通过图像标识符将不同的图像向量区分开来。
207、将表格结构输入至表格结构识别模型得到表格向量;
将表格结构输入至表格结构识别模型得到表格向量,其中,表格结构识别模型是预先设定好的模型。表格向量可用HTML序列表示,也可以用三元组表示,具体此处不做限定。一般情况下选用HTML序列表示,如(<table><tr><td></td></tr></table>)。另外,可对表格序列进行位置编码,以分辨出表格序列中的元素在对应表中的位置。还可以通过表格标识符将不同的表格区分开来。
208、根据文本坐标向量、图像坐标向量和表格内文本坐标向量得到布局向量;
根据文本坐标向量、图像坐标向量和表格内文本坐标向量得到布局向量,具体的,将文本坐标信息、图像坐标信息、表格内文本坐标信息经过位置编码的得到文本坐标向量、图像坐标向量和表格内文本坐标向量,将文本坐标向量、图像坐标向量和表格内文本坐标向量按照对应的矩形框按照横轴与纵轴分别进行拼接得到布局向量。
209、将文本向量、图像向量和表格向量进行拼接得到第一向量;
将文本向量、图像向量和表格向量进行拼接得到第一向量。将文本向量、图像向量和表格向量进行拼接,即将文本向量、图像向量和表格向量所对应进行拼接,以为后续操作做好准备。
210、将第一向量和布局向量对应相加得到第二向量;
将第一向量和布局向量相加得到第二向量。将第一向量和布局向量一一对应相加,即将第一向量和布局向量对应进行相加,得到第二向量。
211、将第二向量输入至多模态神经网络进行微调得到目标向量;
将第二向量输入至多模态神经网络进行微调得到目标向量,其中,多模态神经网络是提前训练好的神经网络模型。多模态神经网络对第二向量进行训练,以得到目标向量,其中,目标向量为分类函数的输入。
212、将目标向量输入至分类函数得到目标信息;
将目标向量输入至分类函数得到目标信息,其中,分类函数可以是任何具有分类功能的函数,具体此处不做限定。其中,目标信息为经分类函数得到的公告内容中的关键信息,为键值对形式。
213、根据文档的标题进行分类得到预设模板;
根据文档的标题进行分类得到预设模板。具体的,先用深度学习方法根据文档的标题实现文档的分类,再根据每一类进行设定得到预设模板,以丰富目标信息的语义,其中,预设模板包括目标模板。
214、将目标信息填充至目标模板得到第一摘要;
将目标信息填充至目标模板得到第一摘要,其中,模板为预先设置好的与目标文档对应的模板。例如,目标文档的标题中有“xx年xx公司第x次临时股东大会决议公告”,可使用对应的目标模板,即根据“股东大会”内容进行设置的模板。
215、根据目标文档和提示预测目标文档的每一段落中目标片段的起始位置概率和结束位置概率;
根据目标文档和提示预测目标文档的每一段落中目标片段的起始位置概率和结束位置概率。提示为用户根据文档类别设置的提示信息。具体的,将提示和目标文档的段落拼接进入预先训练好的模型,构建目标文档的段落和提示间的向量空间关系,在输出的隐层向量后接线性层,使用损失函数,分别预测目标文档的每一段落中目标片段的起始位置概率和结束位置概率。
216、判断起始位置概率的最大值与结束位置概率的最大值之和是否小于预设阈值,若是,则执行步骤217,若否,则执行步骤218;
217、判定不存在目标片段;
若起始位置概率的最大值与结束位置概率的最大值之和小于预设阈值,则判定不存在目标片段。
218、将起始位置概率的最大值对应的位置与结束位置概率的最大值对应的位置之间的文本确定为目标片段;
若起始位置概率的最大值与结束位置概率的最大值之和大于或等于预设阈值,则将起始位置概率的最大值对应的位置与结束位置概率的最大值对应的位置之间的文本确定为目标片段。例如,有以下目标文档中的段落内容:
工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其他专业投资者使用的更为复杂的投资方法效果好得多。
提示:什么是“傻钱”策略?
目标片段:买入并持有美国股票这样的普通组合。
当起始位置概率的最大值为0.3,对应文中的“买”,而结束位置概率的最大值为0.2,对应文中的“合”,预设阈值为0.45,又0.3+0.2=0.5>0.45,则确定目标片段。
219、将即将生成的第二摘要的第i个位置确定为目标位置;
将即将生成的第二摘要的第i个位置确定为目标位置,其中,i为1,2,3,...,k-1,另外k为第二摘要的位置个数,目标位置为即将生成内容的文本片段的位置。
220、将第一摘要和目标片段输入至生成式神经网络得到目标位置的第一概率;
将第一摘要和目标片段输入至生成式神经网络得到目标位置的第一概率,其中目标位置为即将生成摘要的文本片段位置,第一概率为第一摘要和目标片段中在目标位置最有可能出现的文本的概率。生成式神经网络可以是指针生成网络,还可以是GPT-3神经网络或T5神经网络等其他类型的神经网络,具体此处不做限定。
221、获取目标位置的第二概率;
获取目标位置的第二概率,其中第二概率为词汇表中在目标位置最有可能出现的文本的概率,词汇表为预先训练好的词库。
222、将第一概率和第二概率两者中较大的概率对应的文本确定为与目标位置对应的文本片段的内容;
将第一概率和第二概率两者中较大的概率对应的文本确定为与目标位置对应的文本片段的内容。当第一概率大于或等于第二概率,则将与第一概率对应的文本确定为与目标位置对应的文本片段的内容。当第一概率小于第二概率,则将与第二概率对应的文本确定为与目标位置对应的文本片段的内容。
223、将第i+1个位置确定为目标位置,返回执行将第一摘要和目标片段输入至生成式神经网络得到目标位置的第一概率,直到确定k个位置对应的文本片段的内容以得到第二摘要为止。
第i个位置的内容确定后,将第i+1个位置确定为新的目标位置,返回执行将第一摘要和目标片段输入至生成式神经网络得到目标位置的第一概率,以求出第i+1个位置的内容,依次类推,直到确定k个位置对应的文本片段的内容,以得到第二摘要为止。
为便于理解,下面对步骤218至步骤222进行描述。第一摘要和目标片段经过生成式神经网络进行编码,编码后的向量经过注意力机制后输入解码器进行解码预测,再将词汇表的概率分布进行归一化,然后通过生成式神经网络得到针对第一摘要和目标片段的概率分布,最后选取二者中概率高的作为生成摘要的片段,从而实现了摘要的生成。例如,在第二摘要的第一个位置,准备生成内容,第一摘要和目标片段在该位置上最有可能生成的是“我”,概率为0.3,词汇表中在该位置上最有可能生成的是“他”,概率为0.37,0.3<0.37,则第二摘要的第一个位置对应的文本token的内容即为“他”,接着生成第二摘要的第二个位置的内容,依次类推,直到第二摘要所有位置的内容都确定下来为止。
本实施例中,根据目标文档得到文本向量、图像向量、表格向量和布局向量后,将文本向量、图像向量和表格向量进行拼接得到第一向量。接着将第一向量和布局向量对应相加得到第二向量,再将第二向量输入至多模态神经网络微调得到目标向量。根据目标向量得到目标信息,将目标信息填充至模板得到第一摘要。接着通过阅读理解技术得到目标片段,最后通过生成式神经网络生成第二摘要。通过神经网络得到第一摘要,再结合阅读理解技术得到的目标片段,最后依靠生成式神经网络得到第二摘要,这样能够使得摘要内容更加准确,给用户带来较好的体验。
下面对本申请的摘要生成装置进行描述。请参阅图3,本申请的摘要生成装置一个实施例包括:
获取单元301,用于获取目标文档;
处理单元302,用于根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,所述文本向量为所述目标文档中文本部分的文本片段对应的向量,所述文本坐标向量为所述目标文档中文本部分对应的坐标的向量,所述图像向量为所述目标文档中图像部分对应的向量,所述图像坐标向量为所述目标文档中图像部分对应的坐标的向量,所述表格向量为所述目标文档中表格对应的向量,所述表格内文本坐标向量为所述目标文档中表格内文本对应的坐标的向量;
所述处理单元302,还用于根据所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量得到布局向量;
拼接单元303,用于将所述文本向量、所述图像向量和所述表格向量进行拼接得到第一向量;
相加单元304,用于将所述第一向量和所述布局向量对应相加得到第二向量;
微调单元305,用于将所述第二向量输入至多模态神经网络进行微调得到目标向量;
所述处理单元302,还用于将所述目标向量输入至分类函数得到目标信息;
填充单元306,用于将所述目标信息填充至目标模板得到第一摘要,所述目标模板为预先设置好的与所述目标文档对应的模板。
本实施例中,根据目标文档得到文本向量、图像向量、表格向量和布局向量后,拼接单元303将文本向量、图像向量和表格向量进行拼接得到第一向量。接着相加单元304将第一向量和布局向量对应相加得到第二向量,微调单元305再将第二向量输入至多模态神经网络微调以得到目标向量。根据目标向量得到目标信息,最后填充单元306将目标信息填充至目标模板得到第一摘要。通过神经网络进行编码及分类函数以得到目标信息,再将目标信息填充至预先设定的模板得到第一摘要,这样能够使得摘要内容更加准确,给用户带来较好的体验。
本实施例摘要生成装置中各单元所执行的功能以及流程与前述图1至图2中摘要生成装置所执行的功能和流程类似,此处不再赘述。
图4是本申请实施例提供的一种摘要生成装置结构示意图,该摘要生成装置400可以包括一个或一个以上中央处理器(central processing units,CPU)401和存储器405,该存储器405中存储有一个或一个以上的应用程序或数据。
其中,存储器405可以是易失性存储或持久存储。存储在存储器405的程序可以包括一个或一个以上模块,每个模块可以包括对摘要生成装置中的一系列指令操作。更进一步地,中央处理器401可以设置为与存储器405通信,在摘要生成装置400上执行存储器405中的一系列指令操作。
摘要生成装置400还可以包括一个或一个以上电源402,一个或一个以上有线或无线网络接口403,一个或一个以上输入输出接口404,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器401可以执行前述图1至图2所示实施例中摘要生成装置所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种摘要生成方法,其特征在于,包括:
获取目标文档;
根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,所述文本向量为所述目标文档中文本部分的文本片段对应的向量,所述文本坐标向量为所述目标文档中文本部分对应的坐标的向量,所述图像向量为所述目标文档中图像部分对应的向量,所述图像坐标向量为所述目标文档中图像部分对应的坐标的向量,所述表格向量为所述目标文档中表格对应的向量,所述表格内文本坐标向量为所述目标文档中表格内文本对应的坐标的向量;
根据所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量得到布局向量;
将所述文本向量、所述图像向量和所述表格向量进行拼接得到第一向量;
将所述第一向量和所述布局向量对应相加得到第二向量;
将所述第二向量输入至多模态神经网络进行微调得到目标向量;
将所述目标向量输入至分类函数得到目标信息;
将所述目标信息填充至目标模板得到第一摘要,所述目标模板为预先设置好的与所述目标文档对应的模板。
2.根据权利要求1所述的摘要生成方法,其特征在于,将所述目标信息填充至目标模板得到第一摘要之后,所述方法还包括:
根据所述目标文档和提示得到目标片段,所述提示为用户根据所述目标文档定义的内容;
将所述第一摘要和所述目标片段输入至生成式神经网络得到第二摘要。
3.根据权利要求1所述的摘要生成方法,其特征在于,根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,包括:
根据所述目标文档得到文本信息和非文本信息,所述文本信息包括文本内容信息和文本坐标信息,所述非文本信息包括图像信息和表格信息;
将所述文本内容信息输入至语言模型得到所述文本向量;
将所述非文本信息输入至目标检测模型得到图像特征图、图像坐标信息、表格结构和表格内文本坐标信息;
将所述文本坐标信息、所述图像坐标信息和所述表格内文本坐标信息通过坐标位置编码得到所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量;
通过所述图像特征图得到所述图像向量;
将所述表格结构输入至表格结构识别模型得到所述表格向量。
4.根据权利要求2所述的摘要生成方法,其特征在于,根据所述目标文档和提示得到目标片段,包括:
根据所述目标文档和所述提示预测所述目标文档的每一段落中所述目标片段的起始位置概率和结束位置概率;
判断所述起始位置概率的最大值与所述结束位置概率的最大值之和是否小于预设阈值;
若否,则将所述起始位置概率的最大值对应的位置与所述结束位置概率的最大值对应的位置之间的文本确定为所述目标片段。
5.根据权利要求2所述的摘要生成方法,其特征在于,将所述第一摘要和所述目标片段输入至生成式神经网络得到第二摘要,包括:
将即将生成的所述第二摘要的第i个位置确定为目标位置,i为1,2,3,...,k-1,其中k为所述第二摘要的位置个数,所述目标位置为即将生成内容的文本片段的位置;
将所述第一摘要和所述目标片段输入至所述生成式神经网络得到目标位置的第一概率,所述第一概率为所述第一摘要和所述目标片段中在所述目标位置出现的概率最大的文本的概率;
获取所述目标位置的第二概率,所述第二概率为词汇表中在所述目标位置出现的概率最大的文本的概率,所述词汇表为预先训练好的词库;
将所述第一概率和所述第二概率两者中较大的概率对应的文本确定为与所述目标位置对应的文本片段的内容;
将第i+1个位置确定为所述目标位置,返回执行所述将所述第一摘要和所述目标片段输入至所述生成式神经网络得到目标位置的第一概率,直到确定k个位置对应的文本片段的内容以得到所述第二摘要为止。
6.根据权利要求1所述的摘要生成方法,其特征在于,将所述目标信息填充至目标模板得到第一摘要之前,所述方法还包括:
根据文档的标题进行分类得到预设模板,所述预设模板包括所述目标模板。
7.根据权利要求2所述的摘要生成方法,其特征在于,所述生成式神经网络为指针生成网络、GPT-3神经网络或T5神经网络。
8.一种摘要生成装置,其特征在于,包括:
获取单元,用于获取目标文档;
处理单元,用于根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,所述文本向量为所述目标文档中文本部分的文本片段对应的向量,所述文本坐标向量为所述目标文档中文本部分对应的坐标的向量,所述图像向量为所述目标文档中图像部分对应的向量,所述图像坐标向量为所述目标文档中图像部分对应的坐标的向量,所述表格向量为所述目标文档中表格对应的向量,所述表格内文本坐标向量为所述目标文档中表格内文本对应的坐标的向量;
所述处理单元,还用于根据所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量得到布局向量;
拼接单元,用于将所述文本向量、所述图像向量和所述表格向量进行拼接得到第一向量;
相加单元,用于将所述第一向量和所述布局向量对应相加得到第二向量;
微调单元,用于将所述第二向量输入至多模态神经网络进行微调得到目标向量;
所述处理单元,还用于将所述目标向量输入至分类函数得到目标信息;
填充单元,用于将所述目标信息填充至目标模板得到第一摘要,所述目标模板为预先设置好的与所述目标文档对应的模板。
9.一种摘要生成装置,其特征在于,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210789204.2A CN115034194A (zh) | 2022-07-06 | 2022-07-06 | 一种摘要生成方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210789204.2A CN115034194A (zh) | 2022-07-06 | 2022-07-06 | 一种摘要生成方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115034194A true CN115034194A (zh) | 2022-09-09 |
Family
ID=83128499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210789204.2A Pending CN115034194A (zh) | 2022-07-06 | 2022-07-06 | 一种摘要生成方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034194A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600586A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 摘要文本生成方法、计算设备及存储介质 |
-
2022
- 2022-07-06 CN CN202210789204.2A patent/CN115034194A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600586A (zh) * | 2022-12-15 | 2023-01-13 | 阿里巴巴(中国)有限公司(Cn) | 摘要文本生成方法、计算设备及存储介质 |
CN115600586B (zh) * | 2022-12-15 | 2023-04-11 | 阿里巴巴(中国)有限公司 | 摘要文本生成方法、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021082953A1 (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
WO2022105122A1 (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN111695439B (zh) | 图像结构化数据提取方法、电子装置及存储介质 | |
US20040216050A1 (en) | Translation apparatus and method | |
JP7300034B2 (ja) | テーブル生成方法、装置、電子機器、記憶媒体及びプログラム | |
CN111651573B (zh) | 一种智能客服对话回复生成方法、装置和电子设备 | |
CN111274371A (zh) | 一种基于知识图谱的智能人机对话方法及设备 | |
CN113656547A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN114254071A (zh) | 从非结构化文档中查询语义数据 | |
CN112651392A (zh) | 证件信息的获取方法及装置、存储介质、计算机设备 | |
CN115034194A (zh) | 一种摘要生成方法及相关装置 | |
CN111581346A (zh) | 一种事件抽取方法和装置 | |
CN114639109A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
CN112632950A (zh) | Ppt生成方法、装置、设备及计算机可读存储介质 | |
CN112395407A (zh) | 企业实体关系的抽取方法、装置及存储介质 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN116127013A (zh) | 一种个人敏感信息知识图谱查询方法和装置 | |
CN115718904A (zh) | 文本处理方法及装置 | |
CN112989820B (zh) | 法律文书定位方法、装置、设备及存储介质 | |
CN117271759A (zh) | 文本摘要生成模型训练方法、文本摘要生成方法和装置 | |
CN115048515A (zh) | 文档分类方法、装置、设备和存储介质 | |
CN115294594A (zh) | 文档分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |