CN111460135B - 用于生成文本摘要的方法和装置 - Google Patents
用于生成文本摘要的方法和装置 Download PDFInfo
- Publication number
- CN111460135B CN111460135B CN202010246967.3A CN202010246967A CN111460135B CN 111460135 B CN111460135 B CN 111460135B CN 202010246967 A CN202010246967 A CN 202010246967A CN 111460135 B CN111460135 B CN 111460135B
- Authority
- CN
- China
- Prior art keywords
- vector
- model
- text
- word
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 212
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了用于生成文本摘要的方法和装置,涉及知识图谱技术领域。具体实现方案为:对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列;将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量;将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量;基于待解码向量与输出向量进行解码操作,生成目标文本的摘要。该实施方式提高了生成文本摘要的效率。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及自然语言识别技术领域。
背景技术
自动摘要文本在许多NLP(Natural Language Processing,自然语言处理)领域中有着非常重要的应用。如新闻标题生成、会议纪要、社交短文本的话题生成、智能客服任务等等。如何生成可读性强的摘要文本变成了炙手可热的研究课题。
目前生成文本摘要的方法一般分为抽取式和生成式。抽取式摘要的一般实现方法为从原文中选取关键词、关键句组成摘要。生成式摘要允许摘要中包含新的词语或短语,具有更高的灵活性高,其实现方法一般为利用序列到序列(Seq2Seq)模型。
发明内容
本申请实施例提出了用于生成文本摘要的方法、装置、设备以及存储介质。
第一方面,本申请的一些实施例提供了一种用于生成文本摘要的方法,该方法包括:对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列;将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量;将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量;基于待解码向量与输出向量进行解码操作,生成目标文本的摘要。
第二方面,本申请的一些实施例提供了一种用于生成文本摘要的装置,该装置包括:预处理单元,被配置成对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列;第一输入单元,被配置成将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量;第二输入单元,被配置成将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量;生成单元,被配置成基于待解码向量与输出向量进行解码操作,生成目标文本的摘要。
第三方面,本申请的一些实施例提供了一种设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现如第一方面上述的方法。
第四方面,本申请的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面上述的方法。
根据本申请的技术,通过抽取式文本摘要模型的输出向量缩小了解码空间,提高了生成文本摘要的效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请的一些可以应用于其中的示例性系统架构图;
图2是根据本申请第一实施例的示意图;
图3是根据本申请第二实施例的示意图;
图4是是根据本申请第三实施例的示意图;
图5是根据本申请实施例的一个可选实施方式中前馈神经网络的示意图;
图6是根据本申请第四实施例的示意图;
图7是根据本申请实施例的一个可选实施方式中模型设计的示意图;
图8是根据本申请第五实施例的示意图;
图9是适于用来实现本申请实施例的用于生成文本摘要的方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成文本摘要的方法或用于生成文本摘要的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如新闻资讯类应用、社交类应用、搜索类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上安装的应用提供支持的后台服务器,服务器105可以对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列;将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量;将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量;基于待解码向量与输出向量进行解码操作,生成目标文本的摘要。
需要说明的是,本申请实施例所提供的用于生成文本摘要的方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,用于生成文本摘要的装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于生成文本摘要的方法的一个实施例的流程200。该用于生成文本摘要的方法,包括以下步骤:
步骤201,对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列。
在本实施例中,用于生成文本摘要的方法执行主体(例如图1所示的服务器或终端)可以对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列。目标文本可以是任何待获取其摘要的文本,例如,新闻、评论、论文。可选的,编码解码模型与抽取式文本摘要模型可以基于样本文本与样本文本关联的摘要统一进行训练,也可以单独进行训练。
可选的,预处理可以包括分词、删除停用词、词性标注、词向量转换、实体词识别和关键词识别等。其中,实体是指能够独立存在的并能够作为一切属性的基础和万物本原的真实存在的物质或概念,通常可以指代具体的事物、主体和现象的支持者等,例如人名、物名、地名、机构名以及概念等。词向量可以包括独热表示的向量或分布表示的向量,词向量可以利用预先训练的无监督模型得到,例如词到向量(word2vec)模型等,该无监督模型可以是基于已有的开源词向量或者自行构建的训练语料训练得到,可选的,可以采用与目标文本相同领域的训练语料。
步骤202,将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量。
在本实施例中,上述执行主体可以将步骤201中得到的第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量。编码解码模型(Encoder-Decoder)可以基于RNN(Recurrent Neural Network,循环神经网络)及其各种变体如LSTM(Long Short-Term Memory,长短期记忆网络)建立,LSTM是一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
此外,还可以使用注意力机制加权后的编码解码模型,注意力机制(AttentionMechanism)源于对人类视觉的研究。注意力机制的核心目标也是从众多信息中选择出对当前任务目标更关键的信息。注意力机制加权后的编码解码模型不要求编码器将所有输入信息都编码进一个固定长度的向量之中。相反,此时编码器需要将输入编码成一个向量的序列,而在解码的时候,每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。
步骤203,将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量。
在本实施例中,上述执行主体可以将步骤201中得到的第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量。抽取式文本摘要模型可以包括前馈神经网络、词频统计模型、主题模型等,主题模型可以包括文档主题生成模型(LatentDirichlet Allocation,LDA)等模型。抽取式文本摘要模型的输出向量可以包括表征词分布的向量和表征主题分布的向量,可以基于一种抽取式文本摘要模型得到一种输出向量,也可以基于多种抽取式文本摘要模型得到多种输出向量。
步骤204,基于待解码向量与输出向量进行解码操作,生成目标文本的摘要。
在本实施例中,上述执行主体可以基于步骤202中得到的待解码向量与步骤203中得到的输出向量进行解码操作,生成目标文本的摘要。解码操作可以是通过解码函数得到待解码向量为词典中词的概率分布,根据概率对词进行选择,即可得到目标文本的摘要。解码函数可以包括softmax(归一化指数函数)等。
单独使用生成式摘要方法对训练数据的需求量非常大,当训练数据较少时,容易出现生成的摘要与原文本相关度低的问题。主要原因是生成式摘要的解码空间太大,训练数据少模型很难收敛。本申请的上述实施例提供的方法通过引入抽取式文本摘要模型的输出作为先验知识,使生成摘要的过程中更倾向于选择原文本中出现过的词,等价于缩小了解码空间,从而降低模型训练的难度,提高了生成文本摘要的效率。
进一步参考图3,其示出了用于生成文本摘要的方法的又一个实施例的流程300。该用于生成文本摘要的方法的流程300,包括以下步骤:
步骤301,对目标文本进行分词得到词序列。
在本实施例中,用于生成文本摘要的方法执行主体(例如图1所示的服务器或终端)可以对目标文本进行分词得到词序列。
步骤302,确定词序列中各个词的词向量、词性向量和事件关键词向量。
在本实施例中,上述执行主体可以确定步骤201中得到的词序列中各个词的词向量、词性向量和事件关键词向量,其中,词性向量表征词的词性,词性向量表征词的词性,词性向量可以是将当前词的词性标记映射为一个多维向量,相同的词性使用相同的向量进行初始化,引入词性向量是由于一些动词、名词可能包含更丰富的事件信息。
在这里,事件关键词向量可以表征词是否为事件关键词。事件关键词可以包括文本的关键词,以及更能反映事件信息的表征实体的词和一些动词。在目标文本包括事件内容的情况下,例如目标文本为新闻,通过事件关键词向量可以标记其中的事件关键词。例如,文本中某个词词如果是事件关键词,则其事件关键词向量可以用向量[1]表示,否则可以用向量[0]表示。
在本实施例一些可选的实施方式中,事件关键词包括经由以下步骤确定的词:确定当前词是否为动词或表征实体;响应于确定出当前词是否为动词或表征实体,确定当前词是否为目标文本中的关键词,其中,目标文本中的关键词包括对目标文本进行关键词抽取得到的词;响应于确定出当前词为目标文本中的关键词,确定当前词为事件关键词。
步骤303,根据词序列中各个词的词向量、词性向量和事件关键词向量确定第一输入序列。
在本实施例中,上述执行主体可以根据步骤302中确定的词序列中各个词的词向量、词性向量和事件关键词向量确定第一输入序列。作为示例,可以将各个词的词向量、词性向量和事件关键词向量级联或通过其他合并操作合并,得到第一输入序列。
步骤304,将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量。
步骤305,将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量。
步骤306,基于待解码向量与输出向量进行解码操作,生成目标文本的摘要。
在本实施例中,步骤304、步骤305、步骤306的操作与步骤202、步骤203、步骤204的操作基本相同,在此不再赘述。
从图3中可以看出,与图2对应的实施例相比,本实施例中的用于生成文本摘要的方法的流程300中通过事件关键词向量标注事件关键词,使得最终生成的摘要包含原文本的关键的事件信息,由此,本实施例描述的方案进一步提高了生成文本摘要的准确性。
进一步参考图4,其示出了用于生成文本摘要的方法的又一个实施例的流程400。该用于生成文本摘要的方法的流程400,包括以下步骤:
步骤401,对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列。
步骤402,将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量。
步骤403,将第二输入序列输入前馈神经网络得到前馈神经网络的输出向量,前馈神经网络的输出向量表征目标文本的词分布。
在本实施例中,用于生成文本摘要的方法执行主体(例如图1所示的服务器或终端)可以将步骤401中得到的第二输入序列输入前馈神经网络得到前馈神经网络的输出向量,前馈神经网络的输出向量表征目标文本的词分布。前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层,各层间没有反馈。前馈神经网络的一种可选结构可以参见图5,需要说明的是前馈神经网络的层数与各层神经元的数量可以根据实际需要进行设置。可选的,前馈神经网络可以基于样本文本与样本文本关联的摘要与本申请中其他的模型一起进行训练,也可以单独进行训练。
在本实施例一些可选的实施方式中,抽取式文本摘要模型,包括主题模型,以及将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量,包括:将第二输入序列输入主题模型得到主题模型的输出向量,主题模型的输出向量表征目标文本的主题分布。主题模型可以包括LDA模型。
步骤404,基于待解码向量与输出向量进行解码操作,生成目标文本的摘要。
在本实施例中,上述执行主体可以基于待解码向量、前馈神经网络的输出向量与主题模型的输出向量进行解码操作。例如可以级联待解码向量、前馈神经网络的输出向量与主题模型的输出向量进行解码操作。
在本实施例中,步骤401、步骤403、步骤404的操作与步骤201、步骤203、步骤204的操作基本相同,在此不再赘述。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于生成文本摘要的方法的流程400中通过检索获取候选事件的信息,并通过实体链接对信息进行过滤,进一步提高了更新后事件集合的准确性。
进一步参考图6,其示出了用于生成文本摘要的方法的又一个实施例的流程600。该用于生成文本摘要的方法的流程600,包括以下步骤:
步骤601,对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列。
步骤602,将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量。
步骤603,将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量。
步骤604,根据待解码向量与输出向量确定编码解码模型中解码函数的输入向量。
在本实施例中,用于生成文本摘要的方法执行主体(例如图1所示的服务器或终端)可以根据待解码向量与输出向量确定编码解码模型中解码函数的输入向量。可以通过级联或通过其他合并操作合并待解码向量与输出向量。
在本实施例一些可选的实施方式中,根据待解码向量与输出向量确定编码解码模型中解码函数的输入向量,包括:级联待解码向量与输出向量;将级联后的向量输入预先训练的神经网络,得到与待解码向量长度一致的向量作为输入向量。神经网络的层数与各层神经元的数量可以根据实际需要进行设置。可选的,神经网络可以基于样本文本与样本文本关联的摘要与本申请中其他的模型一起进行训练,也可以单独进行训练。
步骤605,通过解码函数对输入向量进行解码得到目标文本的摘要。
在本实施例中,上述执行主体可以通过解码函数对步骤604中得到的输入向量进行解码得到目标文本的摘要。解码函数可以使用softmax等函数。
在本实施例的一些可选实现方式中,可参考图7的模型结构设计,在图7中,目标文本中各个词的词向量701,词性向量702和事件关键词向量703级联后,输入至编码解码模型704,得到了编码解码模型704的解码部分输出的待解码向量705。同时,词向量701的序列706经过前馈神经网络得到其输出向量707,经过主题模型得到其输出向量708。而后,待解码向量705与输出向量707、输出向量708级联,后经神经网络模型得到长度与待解码向量705相同的向量709,对向量709进行解码操作,可以得到目标文本的摘要。
在本实施例中,步骤601、步骤602、步骤603的操作与步骤201、步骤202、步骤203的操作基本相同,在此不再赘述。
从图6中可以看出,与图2对应的实施例相比,本实施例中的用于生成文本摘要的方法的流程600中根据待解码向量与输出向量确定编码解码模型中解码函数的输入向量,而后通过解码函数对输入向量进行解码得到目标文本的摘要,提高了生成摘要信息的效率。
进一步参考图8,作为对上述各图所示方法的实现,本申请提供了一种用于生成文本摘要的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图8所示,本实施例的用于生成文本摘要的装置800包括:预处理单元801、第一输入单元802、第二输入单元803、生成单元804。其中,预处理单元,被配置成对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列;第一输入单元,被配置成将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量;第二输入单元,被配置成将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量;生成单元,被配置成基于待解码向量与输出向量进行解码操作,生成目标文本的摘要。
在本实施例中,用于生成文本摘要的装置800的预处理单元801、第一输入单元802、第二输入单元803、生成单元804的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204。
在本实施例的一些可选实现方式中,预处理单元,包括:分词子单元,被配置成对目标文本进行分词得到词序列;第一确定子单元,被配置成确定词序列中各个词的词向量、词性向量和事件关键词向量,其中,词性向量表征词的词性,事件关键词向量表征词是否为事件关键词;第二确定子单元,被配置成根据词序列中各个词的词向量、词性向量和事件关键词向量确定第一输入序列。
在本实施例的一些可选实现方式中,第一确定子单元,进一步被配置成:确定当前词是否为动词或表征实体;响应于确定出当前词是否为动词或表征实体,确定当前词是否为目标文本中的关键词,其中,目标文本中的关键词包括对目标文本进行关键词抽取得到的词;响应于确定出当前词为目标文本中的关键词,确定当前词为事件关键词。
在本实施例的一些可选实现方式中,抽取式文本摘要模型,包括前馈神经网络,以及第二输入单元,进一步被配置成:将第二输入序列输入前馈神经网络得到前馈神经网络的输出向量,前馈神经网络的输出向量表征目标文本的词分布。
在本实施例的一些可选实现方式中,抽取式文本摘要模型,包括主题模型,以及第二输入单元,进一步被配置成:将第二输入序列输入主题模型得到主题模型的输出向量,主题模型的输出向量表征目标文本的主题分布。
在本实施例的一些可选实现方式中,生成单元,包括:第三确定子单元,被配置成根据待解码向量与输出向量确定编码解码模型中解码函数的输入向量;解码子单元,被配置成通过解码函数对输入向量进行解码得到目标文本的摘要。
在本实施例的一些可选实现方式中,第三确定子单元,进一步被配置成:级联待解码向量与输出向量;将级联后的向量输入预先训练的神经网络,得到与待解码向量长度一致的向量作为输入向量。
本申请的上述实施例提供的装置,通过对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列;将第一输入序列输入编码解码模型得到编码解码模型中解码部分输出的待解码向量;将第二输入序列输入抽取式文本摘要模型得到抽取式文本摘要模型的输出向量;基于待解码向量与输出向量进行解码操作,生成目标文本的摘要,提高了生成文本摘要的效率。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的用于生成文本摘要的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的用于生成文本摘要的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于生成文本摘要的方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于生成文本摘要的方法对应的程序指令/模块(例如,附图8所示的预处理单元801、第一输入单元802、第二输入单元803、生成单元804)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于生成文本摘要的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于生成文本摘要的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至用于生成文本摘要的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于生成文本摘要的方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与用于生成文本摘要的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,提高了生成文本摘要的效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种用于生成文本摘要的方法,包括:
对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列;
将所述第一输入序列输入所述编码解码模型得到所述编码解码模型中解码部分输出的待解码向量;
将所述第二输入序列输入所述抽取式文本摘要模型得到所述抽取式文本摘要模型的输出向量;
基于所述待解码向量与所述输出向量进行解码操作,生成所述目标文本的摘要。
2.根据权利要求1所述的方法,其中,所述对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列,包括:
对所述目标文本进行分词得到词序列;
确定所述词序列中各个词的词向量、词性向量和事件关键词向量,其中,所述词性向量表征词的词性,所述事件关键词向量表征词是否为事件关键词;
根据所述词序列中各个词的词向量、词性向量和事件关键词向量确定所述第一输入序列。
3.根据权利要求2所述的方法,其中,所述事件关键词包括经由以下步骤确定的词:
确定当前词是否为动词或表征实体;
响应于确定出所述当前词是否为动词或表征实体,确定所述当前词是否为所述目标文本中的关键词,其中,所述目标文本中的关键词包括对所述目标文本进行关键词抽取得到的词;
响应于确定出所述当前词为所述目标文本中的关键词,确定所述当前词为事件关键词。
4.根据权利要求1所述的方法,其中,所述抽取式文本摘要模型,包括前馈神经网络,以及
所述将所述第二输入序列输入所述抽取式文本摘要模型得到所述抽取式文本摘要模型的输出向量,包括:
将所述第二输入序列输入所述前馈神经网络得到所述前馈神经网络的输出向量,所述前馈神经网络的输出向量表征所述目标文本的词分布。
5.根据权利要求1-4中任一项所述的方法,其中,所述抽取式文本摘要模型,包括主题模型,以及
所述将所述第二输入序列输入所述抽取式文本摘要模型得到所述抽取式文本摘要模型的输出向量,包括:
将所述第二输入序列输入所述主题模型得到所述主题模型的输出向量,所述主题模型的输出向量表征所述目标文本的主题分布。
6.根据权利要求1所述的方法,其中,所述基于所述待解码向量与所述输出向量进行解码操作,生成所述目标文本的摘要,包括:
根据所述待解码向量与所述输出向量确定所述编码解码模型中解码函数的输入向量;
通过所述解码函数对所述输入向量进行解码得到所述目标文本的摘要。
7.根据权利要求6所述的方法,其中,所述根据所述待解码向量与所述输出向量确定所述编码解码模型中解码函数的输入向量,包括:
级联所述待解码向量与所述输出向量;
将级联后的向量输入预先训练的神经网络,得到与所述待解码向量长度一致的向量作为所述输入向量。
8.一种用于生成文本摘要的装置,包括:
预处理单元,被配置成对目标文本进行预处理,得到预先训练的编码解码模型的第一输入序列与预先训练的抽取式文本摘要模型的第二输入序列;
第一输入单元,被配置成将所述第一输入序列输入所述编码解码模型得到所述编码解码模型中解码部分输出的待解码向量;
第二输入单元,被配置成将所述第二输入序列输入所述抽取式文本摘要模型得到所述抽取式文本摘要模型的输出向量;
生成单元,被配置成基于所述待解码向量与所述输出向量进行解码操作,生成所述目标文本的摘要。
9.根据权利要求8所述的装置,其中,所述预处理单元,包括:
分词子单元,被配置成对所述目标文本进行分词得到词序列;
第一确定子单元,被配置成确定所述词序列中各个词的词向量、词性向量和事件关键词向量,其中,所述词性向量表征词的词性,所述事件关键词向量表征词是否为事件关键词;
第二确定子单元,被配置成根据所述词序列中各个词的词向量、词性向量和事件关键词向量确定所述第一输入序列。
10.根据权利要求9所述的装置,其中,所述第一确定子单元,进一步被配置成:
确定当前词是否为动词或表征实体;
响应于确定出所述当前词是否为动词或表征实体,确定所述当前词是否为所述目标文本中的关键词,其中,所述目标文本中的关键词包括对所述目标文本进行关键词抽取得到的词;
响应于确定出所述当前词为所述目标文本中的关键词,确定所述当前词为事件关键词。
11.根据权利要求8所述的装置,其中,所述抽取式文本摘要模型,包括前馈神经网络,以及
所述第二输入单元,进一步被配置成:
将所述第二输入序列输入所述前馈神经网络得到所述前馈神经网络的输出向量,所述前馈神经网络的输出向量表征所述目标文本的词分布。
12.根据权利要求8-11中任一项所述的装置,其中,所述抽取式文本摘要模型,包括主题模型,以及
所述第二输入单元,进一步被配置成:
将所述第二输入序列输入所述主题模型得到所述主题模型的输出向量,所述主题模型的输出向量表征所述目标文本的主题分布。
13.根据权利要求8所述的装置,其中,所述生成单元,包括:
第三确定子单元,被配置成根据所述待解码向量与所述输出向量确定所述编码解码模型中解码函数的输入向量;
解码子单元,被配置成通过所述解码函数对所述输入向量进行解码得到所述目标文本的摘要。
14.根据权利要求13所述的装置,其中,第三确定子单元,进一步被配置成:
级联所述待解码向量与所述输出向量;
将级联后的向量输入预先训练的神经网络,得到与所述待解码向量长度一致的向量作为所述输入向量。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246967.3A CN111460135B (zh) | 2020-03-31 | 2020-03-31 | 用于生成文本摘要的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246967.3A CN111460135B (zh) | 2020-03-31 | 2020-03-31 | 用于生成文本摘要的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460135A CN111460135A (zh) | 2020-07-28 |
CN111460135B true CN111460135B (zh) | 2023-11-07 |
Family
ID=71682437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010246967.3A Active CN111460135B (zh) | 2020-03-31 | 2020-03-31 | 用于生成文本摘要的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460135B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148863B (zh) * | 2020-10-15 | 2022-07-01 | 哈尔滨工业大学 | 一种融入常识知识的生成式对话摘要方法 |
CN113010666B (zh) * | 2021-03-18 | 2023-12-08 | 京东科技控股股份有限公司 | 摘要生成方法、装置、计算机系统及可读存储介质 |
CN113268586A (zh) * | 2021-05-21 | 2021-08-17 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、设备及存储介质 |
CN113297353B (zh) * | 2021-06-16 | 2024-09-20 | 深圳前海微众银行股份有限公司 | 文本匹配方法、装置、设备及存储介质 |
CN115309888B (zh) * | 2022-08-26 | 2023-05-30 | 百度在线网络技术(北京)有限公司 | 图表摘要的生成方法和生成模型的训练方法、装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016207141A (ja) * | 2015-04-28 | 2016-12-08 | ヤフー株式会社 | 要約生成装置、要約生成方法、及び要約生成プログラム |
CN108427771A (zh) * | 2018-04-09 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置和计算机设备 |
JP2019016181A (ja) * | 2017-07-07 | 2019-01-31 | 株式会社野村総合研究所 | テキスト要約システム |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
-
2020
- 2020-03-31 CN CN202010246967.3A patent/CN111460135B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016207141A (ja) * | 2015-04-28 | 2016-12-08 | ヤフー株式会社 | 要約生成装置、要約生成方法、及び要約生成プログラム |
JP2019016181A (ja) * | 2017-07-07 | 2019-01-31 | 株式会社野村総合研究所 | テキスト要約システム |
CN108427771A (zh) * | 2018-04-09 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置和计算机设备 |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
Non-Patent Citations (3)
Title |
---|
"A method to generate text summary by accounting pronoun frequency for keywords weightage computation";Siddhaling Urolagin et al;《2017 International Conference on engineering and technology(ICET)》;全文 * |
"基于改进Sequence-to-Sequence模型的文本摘要生成方法";周健等;《计算机工程与应用》;第55卷(第1期);第128-134页 * |
石磊等."基于序列到序列模型的生成式文本摘要研究综述".《情报学报》.2019,(第10期),第1102-1116页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111460135A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460135B (zh) | 用于生成文本摘要的方法和装置 | |
CN111428008B (zh) | 用于训练模型的方法、装置、设备以及存储介质 | |
CN111079442B (zh) | 文档的向量化表示方法、装置和计算机设备 | |
CN111241832B (zh) | 核心实体标注方法、装置及电子设备 | |
CN110674314B (zh) | 语句识别方法及装置 | |
CN111737559B (zh) | 资源排序方法、训练排序模型的方法及对应装置 | |
JP7159248B2 (ja) | レビュー情報の処理方法、装置、コンピュータ機器及び媒体 | |
CN111078865B (zh) | 文本标题生成方法和装置 | |
CN112507735B (zh) | 机器翻译模型的训练方法、装置和电子设备 | |
CN111680517B (zh) | 用于训练模型的方法、装置、设备以及存储介质 | |
CN111104514A (zh) | 文档标签模型的训练方法及装置 | |
CN112000792A (zh) | 自然灾害事件的抽取方法、装置、设备以及存储介质 | |
CN111506725B (zh) | 生成摘要的方法和装置 | |
CN112417156B (zh) | 多任务学习方法、装置、设备以及存储介质 | |
CN111966782A (zh) | 多轮对话的检索方法、装置、存储介质及电子设备 | |
CN111522944A (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN111859953A (zh) | 训练数据的挖掘方法、装置、电子设备及存储介质 | |
CN111523019B (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN111460296B (zh) | 用于更新事件集合的方法和装置 | |
CN111666417A (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
CN112232089B (zh) | 语义表示模型的预训练方法、设备和存储介质 | |
CN112329429B (zh) | 文本相似度学习方法、装置、设备以及存储介质 | |
CN112015866B (zh) | 用于生成同义文本的方法、装置、电子设备及存储介质 | |
CN115130470B (zh) | 一种文本关键词的生成方法、装置、设备及介质 | |
CN111651988B (zh) | 用于训练模型的方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |