CN107832300A

CN107832300A - 面向微创医疗领域文本摘要生成方法及装置

Info

Publication number: CN107832300A
Application number: CN201711148374.8A
Authority: CN
Inventors: 孙晓; 曹馨月; 丁帅; 杨善林; 傅强; 张�林
Original assignee: HEFEI DVL ELECTRON CO Ltd; Hefei University of Technology
Current assignee: HEFEI DVL ELECTRON CO Ltd; Hefei University of Technology
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2018-03-23

Abstract

本发明涉及一种面向微创医疗领域文本摘要生成方法及装置，该方法中首先将文本进行向量转换得到语义和语序向量，接着将语义和语序向量的平均求和输入到编码器中进行去重简化处理得到包含该文本重要信息的特征向量，再将该特征向量输入到解码器中，并根据特征向量的每一个元素以及对应的正确概率来对应生成初始摘要向量，最后将初始摘要向量与人工摘要向量进行比对，在比对结果通过时将初始摘要向量Y作为所述病历文本的摘要进行输出，从而相比于现有的生成式方法能够全面收入文本中的重要特征，解决长句子容易重复同一词语的问题，优化了摘要生成的灵活性。

Description

面向微创医疗领域文本摘要生成方法及装置

技术领域

本发明涉及软件技术领域，具体涉及一种面向微创医疗领域文本摘要生成方法及装置。

背景技术

现有的摘要生成方法主要有两种,一种是抽取式：从文档中抽取已有句子形成摘要，实现方法简单可保证句子的可读性。这种问题一般可看作是组合优化的问题，可与语句压缩一并进行；而另一种方法则是生成式：即生成新的句子，这种方法难度更大，但往往更接近于摘要的本质。

现有的生成式摘要生成技术大致有三类：一、基于形式化语义表示，从文本到语义图，进行子图选择，最后生成摘要；二、基于短语选择与拼凑，将文本分词成若干词语，进行重要性计算后利用ILP方法进行短语选择和拼凑生成摘要；三、基于深度学习之序列转换模型，利用编码器－解码器框架，将词序列解码成带有标签的词序列，从而生成摘要。

然而，在实施本发明实施例的过程中发明人发现，现有的生成式摘要方法无法将待生成摘要的文本的信息收集全面，且生成摘要的灵活性差，易出现重复同一词句的问题。

发明内容

本发明实施例的目的在于提供一种面向微创医疗领域文本摘要生成方法及装置。

第一方面，本发明实施例提供了一种面向微创医疗领域文本摘要生成方法，包括：

将病历文本通过预设的模型进行向量转换，得到所述文本的语义向量和语序向量，将所述语义向量以及所述语序向量进行求和平均运算，得到第一向量；

将所述第一向量输入到编码器中进行去重简化处理，得到包含语义和语序的特征向量X；

将所述特征向量X输入到解码器中，根据特征向量X的每一个元素x_i对应生成初始摘要向量Y中的各个元素y_i，其中每一个元素y_i+1均是根据元素y_i以及元素x_i所对应的正常概率h_i来确定的；

将生成的初始摘要向量Y与预设的标准摘要集中的人工摘要向量Z进行比较，并在比较结果通过时将所述初始摘要向量Y作为所述病历文本的摘要进行输出。

第二方面，本发明实施例又提供了一种面向微创医疗领域文本摘要生成装置，包括：

预处理单元，用于将病历文本通过预设的模型进行向量转换，得到所述文本的语义向量和语序向量，将所述语义向量以及所述语序向量进行求和平均运算，得到第一向量；

特征提取单元，用于将所述第一向量输入到编码器中进行去重简化处理，得到包含语义和语序的特征向量X；

摘要生成单元，用于将所述特征向量X输入到解码器中，根据特征向量X的每一个元素x_i对应生成初始摘要向量Y中的各个元素y_i，其中每一个元素y_i+1均是根据元素y_i以及元素x_i所对应的正常概率h_i来确定的；

摘要测评单元，用于将生成的初始摘要向量Y与预设的标准摘要集中的人工摘要向量Z进行比较，并在比较结果通过时将所述初始摘要向量Y作为所述病历文本的摘要进行输出。

第三方面，本发明的又一实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述方法的步骤。

第四方面，本发明的又一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述方法的步骤。

本发明实施例提供了一种面向微创医疗领域文本摘要生成方法及装置、计算机设备以及计算机可读存储介质，该方法中首先将文本进行向量转换得到语义和语序向量，接着将语义和语序向量的平均求和输入到编码器中进行去重简化处理得到包含该文本重要信息的特征向量，再将该特征向量输入到解码器中，并根据特征向量的每一个元素以及对应的正确概率来对应生成初始摘要向量，最后将初始摘要向量与人工摘要向量进行比对，在比对结果通过时将初始摘要向量Y作为所述病历文本的摘要进行输出，从而相比于现有的生成式方法能够全面收入文本中的重要特征，解决长句子容易重复同一词语的问题，优化了摘要生成的灵活性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明提供的一种面向微创医疗领域文本摘要生成方法实施例流程图；

图2是本发明提供的一种解码器生成初始摘要单元示意图；

图3是本发明提供的一种面向微创医疗领域文本摘要生成装置实施例结构示意图；

图4是本发明提供的一种计算机设备实施例结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面，本发明实施例提供了一种面向微创医疗领域文本摘要生成方法，如图1所示，包括：

S101、将病历文本通过预设的模型进行向量转换，得到所述文本的语义向量和语序向量，将所述语义向量以及所述语序向量进行求和平均运算，得到第一向量；

S102、将所述第一向量输入到编码器中进行去重简化处理，得到包含语义和语序的特征向量X；

S103、将所述特征向量X输入到解码器中，根据特征向量X的每一个元素x_i对应生成初始摘要向量Y中的各个元素y_i，其中每一个元素y_i+1均是根据元素y_i以及元素x_i所对应的正常概率h_i来确定的；

S104、将生成的初始摘要向量Y与预设的标准摘要集中的人工摘要向量Z进行比较，并在比较结果通过时将所述初始摘要向量Y作为所述病历文本的摘要进行输出。

本发明实施例提供的方法中，首先将文本进行向量转换得到语义和语序向量，接着将语义和语序向量的平均求和输入到编码器中进行去重简化处理得到包含该文本重要信息的特征向量，再将该特征向量输入到解码器中，并根据特征向量的每一个元素以及对应的正确概率来对应生成初始摘要向量，最后将初始摘要向量与人工摘要向量进行比对，在比对结果通过时将初始摘要向量Y作为所述病历文本的摘要进行输出，从而相比于现有的生成式方法能够全面收入文本中的重要特征，解决长句子容易重复同一词语的问题，优化了摘要生成的灵活性。

为便于理解本发明，下面结合附图对本发明实施例提供的各个步骤进行详细说明。

本发明实施例的目的在于将卷积神经网络(Convolutional Neural Network,以下简称CNN)和循环神经网络(RecurrentNeuralNetwork，以下简称RNN)引入到生成摘要的过程中，同时引入注意力机制及ROUGE评价机制，有针对性的开发面向医疗领域的文本摘要生成系统。

本发明实施例提供的生成式神经网络模型的基本结构主要是由编码器和解码器组成的。在编码器中应用CNN，负责将输入的原文本编码成一个包含文本信息的向量，作为文本的一个表征信息；在解码器中应用RNN，负责从该向量中提取重要信息进行加工后生成文本摘要。用这套模型可以完成一个端到端(End-to-End)的文本摘要生成系统。下面对各个步骤进行分别说明。

首先将病历文本通过word embedding模块利用word2vec映射成分布式向量，可以用一个实数矩阵、向量表示一句话或一个词，从而获得文本的语义向量和语序向量。通常情况下利用RNN可以有效的接收到之前词语序列的反馈，现在我们在编码器中虽然使用了CNN结构，但由于病历文本被映射成包含语序和位置信息的分布式向量，可以在保证CNN优势的情况下最大程度的模拟RNN对词序的感知，更为全面的收集输入文本中的各种特征，将语义和语序的embedding(即低维度向量形式的表示)通过求和平均作为整个系统的输入。

然后将经过上述预处理得到的语义语序embedding求和平均的结果作为输入，通过经典的卷积层和两层递归LSTM(Long Short-Term Memory,长短期记忆网络)相结合形成的编码器，可以得到包含语义和语序的特征向量X，该特征向量中包含了文本的重要信息。这种编码器结构有能力控制信息流的传递，同时有效的保证了时间语序信息的传递。

本发明实施例在解码器中应用RNN模型，RNN对每个单元执行相同的运算过程，展开如图3所示：

其中，x_i是第i个输入词语，h_i是接收x_i之后RNN隐单元的状态。h_i+1基于前一个隐状态h_i和当前的输入x_i+1得到，其中，h_i+1＝f(Ux_i+1+Whi)，f是非线性函数，如tanh或者sigmoid，函数值一般映射在0-1之间，可以有效的解释为正常概率。这里的U、W以及V均为词汇表。而每一步的输出y_i+1对应规模为V的词表上所有词语的概率分布(用softmax函数将V维的分向量标准化得到)，产生y_i+1的过程依赖于前一步状态h_i以及前一步的输出y_i。

在其中引入两套内注意力机制，分别是1)经典的解码器-编码器注意力机制，和2)解码器内部的注意力机制。

前者可以动态地、按需求地获得输入端的信息。形式上，给定一个包含M个词的输入文本序列X＝{x₁,x₂,…,x_M}，在模型中将每个词x_t表示成一个向量。语句简化的目标是生成输入句X的一个简化Y＝{y₁,y₂,…,y_N}，一般要求Y的长度小于输入句X，即N<M。生成摘要的目标是寻找Y使得给定X的条件下y的条件概率最大化，即：y＝argmaxy〖P(y|x；θ)〗，其中θ代表需要学习的模型参数。条件概率P(y|x；θ)可以由链式法则分解为：

主要在每一步生成不同的y_i+1时，侧重使用编码器中对应x的不同部分的隐状态信息，即使用编码器中各隐状态h_t的加权和作为生成时所需要考虑的“上下文”：

其中，表示生成不同单词时解码器在不同输入词语上的注意力权值，计算方法为：

解码过程中，生成单词y_i+1的方法是：

y_i+1＝argmax_y'P(y'|{y₁,y_2,,...,y_i,c_i+1},X；θ) (4)

后者则使模型能关注到已生成的词，帮助解决生成长句子时容易重复同一词句的问题。

为了解决生成句子不通顺和模式固定问题，引入强化学习ROUGE指标评价机制。主要思想是由多个专家分别生成人工摘要，并以此构成标准摘要集，将模型生成的摘要样本与人工生成的摘要进行比较，用ROUGE指标测评打分，得到了对这个样本的评价后，再根据回报更新模型参数，以便之后输出评价更高的摘要样本。

ROUGE的评分主要是应用ROUGE-W(Weighted Longest Common Subsequence，WLCS)的方法，引入加权系数W＝连续匹配的最大公共子串长度。WLCS＝W*LCS，其中LCS主要思想是：给定的人工摘要Z与待评价摘要Y将公共子序列长度最大的序列作为两者的最长公共子序列。为了使连续匹配比不连续匹配拥有更大的权重，选取f(k)＝k²，则：

其中，WLCS(Z,Y)为X与Z的最长公共子序列长度与最长连续公共子序列长度的乘积；m为Y的长度；f(k)＝k²；

用这种方法可以求出ROUGE机制的评价，设定标准R_WLCS的取值，若高于该值，则鼓励输出；若低于该值，则抑制输出。ROUGE指标则降低生成摘要模式固定的可能性，允许摘要拥有更多的灵活性，同时针对ROUGE的优化也直接提升了模型的ROUGE评分。

本发明实施例提供的方法能够获得如下有益效果：

1、将语义和语序信息加权，模拟RNN对词序的感知，同时可以更为全面的收集输入文本中的各种特征。

2、将经典的卷积层与两层LSTM结构结合在一起，使网络有能力控制信息流的传递，保证了时间语序信息的有效传递。

3、引入注意力机制，使解码器在生成结果时，能动态地、按需求地获得输入端的信息；同时解决生成长句子时容易重复同一词句的问题。

4、引入强化学习的ROUGE指标评价机制，有效的优化生成摘要的灵活性。

第二方面，本发明实施例还提供了一种面向微创医疗领域文本摘要生成装置，如图3所示，包括：

预处理单元201，用于将病历文本通过预设的模型进行向量转换，得到所述文本的语义向量和语序向量，将所述语义向量以及所述语序向量进行求和平均运算，得到第一向量；

特征提取单元202，用于将所述第一向量输入到编码器中进行去重简化处理，得到包含语义和语序的特征向量X；

摘要生成单元203，用于将所述特征向量X输入到解码器中，根据特征向量X的每一个元素x_i对应生成初始摘要向量Y中的各个元素y_i，其中每一个元素y_i+1均是根据元素y_i以及元素x_i所对应的正常概率h_i来确定的；

摘要测评单元204，用于将生成的初始摘要向量Y与预设的标准摘要集中的人工摘要向量Z进行比较，并在比较结果通过时将所述初始摘要向量Y作为所述病历文本的摘要进行输出。

由于本实施例所介绍的面向微创医疗领域文本摘要生成装置为可以执行本发明实施例中的面向微创医疗领域文本摘要生成方法的装置，故而基于本发明实施例中所介绍的面向微创医疗领域文本摘要生成的方法，本领域所属技术人员能够了解本实施例的面向微创医疗领域文本摘要生成装置的具体实施方式以及其各种变化形式，所以在此对于该面向微创医疗领域文本摘要生成装置如何实现本发明实施例中的面向微创医疗领域文本摘要生成方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中面向微创医疗领域文本摘要生成方法所采用的装置，都属于本申请所欲保护的范围。

此外，图4示出本发明实施例提供的计算机设备的结构框图。

参照图4，该计算机设备，包括：处理器(processor)301、存储器(memory)302、以及总线303；

其中，所述处理器301以及存储器302通过所述总线303完成相互间的通信；

所述处理器301用于调用所述存储器302中的程序指令，以执行上述各方法实施例所提供的方法。

本发明实施例还公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的某些部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种面向微创医疗领域文本摘要生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将病历文本通过预设的模型进行向量转换，得到所述文本的语义向量和语序向量，包括：

将病历文本通过预设的word embedding模块利用word2vec工具进行映射处理，得到维度低于预设维度的语义向量和语序向量。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一向量输入到编码器中进行去重简化处理，得到包含语义和语序的特征向量X，包括：

将所述第一向量通过经典的卷积层和两层递归LSTM相结合的编码器进行去重简化处理，得到包含语义和语序的特征向量X。

4.根据权利要求1所述的方法，其特征在于，将所述特征向量X输入到解码器中，根据特征向量X的每一个元素x_i对应生成初始摘要向量Y中的各个元素y_i，包括：

将所述特征向量X＝{x₁,x₂,…,x_M}输入到解码器中，基于下式获得初始摘要向量Y：

y_i+1＝argmax_y'P(y'|{y₁,y_2,,...,y_i,c_i+1},X；θ)

其中，c_i+1用于表示生成y_i时所需考虑的上下文情况，且：

<mrow> <msub> <mi>c</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msubsup> <mi>&alpha;</mi> <mi>t</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mi>h</mi> <mi>t</mi> </msub> <mo>;</mo> </mrow>

表示生成不同单词时解码器在不同输入词语上的注意力权值，且

<mrow> <msubsup> <mi>&alpha;</mi> <mi>t</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>t</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>h</mi> <mrow> <mi>y</mi> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>t</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>h</mi> <mrow> <mi>y</mi> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

θ用于表示需要学习的模型参数；

P＝(Y|X；θ)用于表示条件概率。

5.根据权利要求1所述的方法，其特征在于，所述将生成的初始摘要向量Y与预设的标准摘要集中的人工摘要向量Z进行比较，包括：

根据初始摘要向量Y以及人工摘要向量Z，基于下式获得Y与Z的评分值R_WLCS：

在评分值R_WLCS大于预设的评分阈值时，确定比较通过。

6.一种面向微创医疗领域文本摘要生成装置，其特征在于，包括：

7.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5任一所述方法的步骤。