CN110083836A

CN110083836A - 一种文本预测结果的关键证据抽取方法

Info

Publication number: CN110083836A
Application number: CN201910335219.XA
Authority: CN
Inventors: 丁效; 刘挺; 段俊文
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-02
Anticipated expiration: 2039-04-24
Also published as: CN110083836B

Abstract

一种文本预测结果的关键证据抽取方法，本发明涉及文本预测结果的关键证据抽取方法。本发明的目的是为了解决现有技术在文本中抽取能解释预测结果的关键证据时依赖人工标注来寻找证据的问题。过程为：一、得到句子级向量；二、将句子级向量的平均值作为外部存储单元的初值；三、得到第一个句子级向量对应的更新后的外部存储单元；直至得到第n个句子级向量对应的最终的外部存储单元，即得到文档级向量；四、输出文档每个类别的概率；五、得到训练好的硬抽取网络模型；将待分类的文档输入到训练好的硬抽取网络模型，得到待分类的文档分为各个类别的概率以及文档被分为该类别的句子集合。本发明用于文本预测结果的证据抽取领域。

Description

一种文本预测结果的关键证据抽取方法

技术领域

本发明涉及文本预测结果的关键证据抽取方法。

背景技术

最近深度学习模型在各种具有挑战性的自然语言处理任务中取得了令人瞩目的成绩，如机器翻译(Kyunghyun Cho,Bart Van Merrinboer,Caglar Gulcehre,DzmitryBahdanau,Fethi Bougares,Holger Schwenk,and Yoshua Bengio.2014.Learning phraserepresentations using RNN encoder-decoder for statisti cal machinetranslation.arXiv preprint arXiv:1406.1078(2014).)和阅读理解(Danqi Chen,AdamFisch,Jason Weston,and Antoine Bordes.2017.Reading wikipedia to answer open-domain questions.arXiv preprint arXiv:1704.00051(2017).)。深度神经网络模型的一个优点是它们能够为最终任务自动归纳有效的特性，而不依赖于特征工程。但是随着应用场景逐渐复杂和技术的推陈出新，近年来通过抽取文本中关键证据(例如短语、句子)来解释预测结果的解决方法受到越来越多的关注并且逐渐成为当下的研究热点。

基于深度神经网络的文本驱动预测模型解释性差，这限制了其广泛的应用。克服这一问题的一个方法是从文本中抽取可解释预测结果的关键证据(例如短语、句子)。然而，实际应用中的模型严重依赖人工标注来寻找证据，这是一种费时的做法，无法推广到大型语料库和新兴领域。虽然很难获得细粒度的数据标注，但是任务级标签却相对容易收集。

对于文本驱动的预测，一个理想的解决方案是从文本中抽取可解释预测结果的关键证据。然而，建立这样一个模型的挑战是双重的。一方面，有监督的方法依赖于显式标注来训练模型专注于文本的特定部分。例如，(Iain J Marshall,Jol Kuiper,and Byron CWallace.2015.RobotReviewer:evaluation of a system for automatically assessingbias in clinical trials.Journal of the American Medical Informatics AssociaTion 23,1(2015),1923/201.)与(Ye Zhang,Iain Marshall,and Byron CWallace.2016.Rationale-augmented convolutional neural networks for textclassification.In Proceedings of the Conference on Empirical Methods inNatural Languag e Processing.Conference on Empirical Methods in NaturalLanguage Processing,Vol.2016.NIH Public Access,795.)通过依靠句子或短语级别的标注来训练能够解释分类结果的模型。但是获得这样的标注需要大量的人力，这限制了它们对大型文本语料库和新兴领域的扩展。在许多领域，构建这样一个数据集甚至需要专业知识，这既费时又耗资源。另一方面，无监督方法利用文本的内部联系抽取文本片段，这种文本片段由于没有针对特定任务进行修改或优化，因此在许多任务中并不适用。

近年来如何解释深度神经网络模型的潜在机制已引起广泛关注。该领域的研究可以进一步分为模型可解释性和预测可解释性。模型可解释性旨在使架构本身可解释，而预测可解释性则试图解释预测结果。对于模型可解释性，Faruqi等人(Manaal Faruqui,JesseDodge,Sujay K Jauhar,Chris Dyer,Eduard Hovy,and Noah ASmith.2014.Retrofitting word vectors to semantic lexicons.arXiv preprintarXiv:1411.4166(2014).)将词向量的维度与语义词典联系起来解释词语表示。Li等人(Jiwei Li,Xinlei Chen,Eduard Hovy,and Dan Jurafsky.2015.Visualizing andunderstanding neural models in NLP.arXiv preprint arXiv:1506.01066(2015).)通过中间状态可视化以理解神经网络模型，进而(Jiwei Li,Will Monroe,and DanJurafsky.2016.Understanding neural networks through representationerasure.arXiv preprint arXiv:1612.08220(2016).)删除网络的某些部分以分析被删除部分对模型的影响。预测可解释性通常通过将输出与输入相关联来实现。Alvarez-Melis等人(David Alvarez-Melis and Tommi S Jaakkola.2017.A causal framework forexplaining the predictions of black-box sequence-to-sequence models.arXivpreprint arXiv:1707.01943(2017).)提出了一个因果框架，通过返回随机相关的输入-输出特征对来解释网络。Ross等人(Andrew Slavin Ross,Michael C Hughes,and FinaleDoshi-Velez.2017.Right for the right reasons:Training differentiable modelsby constraining their explanations.arXiv preprint arXiv:1703.03717(20 17).)引入了一个框架，用于检查并选择性地惩罚输入梯度。注意力模型(Minh-Thang Luong,HieuPham,and Christopher D Manning.2015.Effective approaches to attention-basedneural machine translation.arXiv preprint arXiv:1508.04025(2015).)提供了通过关注输入的某些部分来实现可视化和解释结果的方法，获得了对各种自然语言处理问题的最先进的结果。Lei等人(Tao Lei,Regina Barzilay,and TommiJaakkola.2016.Rationalizing neural predictions.arXiv preprint arXiv:1606.04155(2016))抽取连贯的文本段来证明预测的合理性。工作属于预测可解释性，通过将输出与输入相关联来解释结果。

此外，构建预测结果解释框架也涉及到摘要自动抽取。摘要抽取分为无监督摘要抽取和有监督摘要抽取。摘要抽取的核心是从文档中抽取保留完整语义的句子或短语。无监督的摘要抽取不依赖于外部资源，外部资源通常将提示词(Harold PEdmundson.1969.New methods in automatic extracting.Journal of the ACM(JACM)16,2(1969),264/285.)，单词或短语频率(Hans Peter Luhn.1958.The automaticcreation of literature abstracts.IBM Journal of research and development 2,2(1958),159/165.)和句内相似性(Günes Erkan and Dragomir R Radev.2004.Lexrank:Graph-based lexical centrality as salience in text summarization.JAIR 22(2004),457/479.)作为对句子进行排名的线索。有监督摘要抽取依赖于带标注的数据或并行推断。最相关的文献包括：Filippova等(Katja Filippova,Mihai Surdeanu,Massimiliano Ciaramita,and Hugo Zaragoza.2009.Company-oriented extractivesummarization of financial news.In EACL.Association for ComputationalLinguistics,246-two hundred and fifty four)通过查询的方式来扩展从文档中抽取的以公司为导向的句子。Isonuma等(Masaru Isonuma,Toru Fujino,Junichiro Mori,YutakaMatsuo,and Ichiro Sakata.2017.Extractive summarization using multi-tasklearning with document classification.In EMNLP.2101-2110.)在多任务学习框架中总结和分类文档。此一类的相关工作依赖于标注数据，这些资源目前大多需要人工校对或者纯人工构建，可扩展性方面有待提高。

另一个相关研究是多实例学习。多实例学习由Keeler等(James D Keeler,DavidE Rumelhart,and Wee Kheng Leow.1991.Integrated segmentation and recognitionof hand-printed numerals.In Advances in neural information processingsystems.557/563.)首先提出。在20世纪90年代，属于有监督学习的范畴。与一般有监督学习设置不同，标签在实例级别不可用。相反，标签被标记到一组(袋)实例上。如果至少有一个实例被标记为正，则该组(袋)被标记为正，否则它是负的。多实例学习的假设使其适用于各种应用，例如文本或文档分类(Stefanos Angelidis and MirellaLapata.2018.Multiple Instance Learning Networks for Fine-Grained SentimentAnalysis.Transactions of the Association of Computational Linguistics 6(2018),17/31)，图像分类(Wentao Zhu,Qi Lou,Yeeleng Scott Vang,and XiaohuiXie.2017.Deep multiinstance networks with sparse label assignment for wholemammogram classification.In International Conference on Medical Imag EComputing and ComputerAssisted Intervention.Springer,603/611.)和事件抽取(WeiWang,Yue Ning,Huzefa Rangwala,and Naren Ramakrishnan.2016.A Multiple InstanceLearning Framework for Identifying Key Sentences and Detecting Events.InProceedings of the 25th ACM Internatio Nal on Conference on Information andKnowledge Management.ACM,509/518.)。多实例学习主要应用于分类任务，很少被用于回归任务，在功能方面尚有不足。

可解释性对于股票市场预测、医疗诊断和推荐系统等许多应用都是至关重要的。因为用户更喜欢验证和理解决策背后的原因。图5展示了一个啤酒评论示例及其用户评分。除了口感方面的四星级评分外，用户也很有兴趣找出“口味有点重，但不厚。”这句话是评分的原因。

对于文本驱动的预测，一个理想的解决方案是从文本中抽取能够解释预测结果的关键证据。然而，建立这样一个模型的挑战是双重的。一方面，有监督的方法依赖于显式标注来教导模型专注于文本的特定部分。例如，Marshall等人(Iain J Marshall,JolKuiper,and Byron C Wallace.2015.RobotReviewer:evaluation of a system forautomatically assessing bias in clinical trials.Journal of the AmericanMedical Informatics Associa Tion 23,1(2015),1923/201.)依靠句子或短语级别的标注来训练能够解释分类结果的模型。获得这样的标注需要大量的人力，这限制了它们对大型文本语料库和新兴领域的扩展。在许多领域，构建这样一个数据集甚至需要专业知识，这既费时又耗资源。另一方面，无监督方法基于文本内部关系抽取文本片段，这样的文本片段由于没有针对特定的预测任务进行修改或优化，因此这种方法是不合适的。图5用户评论界面图中的示例涉及多个角度(外观、口感等)，无监督方法的抽取结果无法区分这些角度。

发明内容

本发明的目的是为了解决现有技术在文本中抽取能解释预测结果的关键证据时依赖人工标注来寻找证据的问题，浪费时间和资源的问题，而提出一种文本预测结果的关键证据抽取方法。

一种文本预测结果的关键证据抽取方法，具体过程为：

步骤一、针对每个单词从GloVe词向量中查找每个单词对应的词向量，再通过卷积神经网络来编码句子，得到句子级向量；

步骤二、将步骤一得到的句子级向量求平均，得到一个句子级向量的平均值，将句子级向量的平均值作为外部存储单元的初值；

步骤三、基于步骤一得到的第一个句子级向量、步骤二得到的初始外部存储单元、硬抽取网络模型得到第一个句子级向量对应的更新后的外部存储单元；

基于步骤一得到的第二个句子级向量、更新后的外部存储单元、硬抽取网络模型得到第二个句子级向量对应的更新后的外部存储单元；

直至基于步骤一得到的第n个句子级向量、更新后的外部存储单元、硬抽取网络模型得到第n个句子级向量对应的最终的外部存储单元，即得到文档级向量；

步骤四、使用softmax分类器作为预测模块，将步骤三得到的最终的外部存储单元m_n作为预测模块的输入，输出文档每个类别的概率；

步骤五、根据步骤四得到的文档类别，以及步骤三得到的所有句子的抽取动作a，训练硬抽取网络模型，得到训练好的硬抽取网络模型；

将待分类的文档输入到训练好的硬抽取网络模型，得到待分类的文档分为各个类别的概率以及文档被分为该类别的句子集合。

一种文本预测结果的关键证据抽取方法(详见图4)，具体过程为：

步骤一、针对每个单词从GloVe词向量中查找每个单词对应的词向量，再通过卷积神经网络来编码句子，得到句子级向量表示；

步骤三、基于步骤一得到的第一个句子级向量、步骤二得到的初始外部存储单元、软抽取网络模型得到第一个句子级向量对应的更新后的外部存储单元；

基于步骤一得到的第二个句子级向量、更新后的外部存储单元、软抽取网络模型得到第二个句子级向量对应的更新后的外部存储单元；

直至基于步骤一得到的第n个句子级向量、更新后的外部存储单元、软抽取网络模型得到第n个句子级向量对应的最终的外部存储单元，即得到文档级向量；

步骤四、使用非线性神经网络和sigmoid函数作为预测模块，将步骤三得到的最终的外部存储单元m_n作为预测模块的输入，输出文档得分；

步骤五、根据步骤四得到的文档得分，以及步骤三得到的所有句子的抽取动作a，训练软抽取网络模型，得到训练好的软抽取网络模型；

将待预测的文档输入到软抽取网络，得到待预测的文档得分以及文档获得该得分的句子集合。

发明效果

本发明提出了一种文本预测结果的关键证据抽取方法。现有技术在文本中抽取能解释预测结果的关键证据时依赖人工标注来寻找证据的问题，浪费时间和资源的问题。本文提出一种基于神经网络的解释文本预测结果的关键证据抽取方法，它完全依赖于任务级标签自动抽取有助于预测的关键句子，而不需要人工标注关键证据，抽取时间快。同时将关键句抽取整合到最终的预测目标中，共同优化。通过数据源不同的两个任务对本发明方法进行了评估，即多角度情感分析(非正式文本)和财经新闻累积超额收益预测(正式文本)。在多角度情感分析任务上的实验结果表明，本发明方法在很大程度上优于最先进的基线结果。在累积超额收益预测任务上的实验结果表明，本发明方法优于基于无监督抽取方法和文档级别的新型神经网络方法的预测模型。

1、在多角度情感分析任务中，本发明将抽取的句子与人工标注进行对比。结果表明，本发明方法很好地匹配了人工标注结果，在F1值上比最先进的基线结果平均提高了8％。预测累积超额收益任务的实验结果表明，本发明方法优于使用自动抽取语句的预测模型，也优于文档级别的新型神经网络模型。进一步的分析结果表明，在长文档中去除噪声和无关信息使本发明方法更加鲁棒和有效。

2、Hard Extra-iNet在F值上将最佳基线Reccurent Gen分别在气味和口感这两个角度上的结果提升了1.9％和7.6％。Soft Extra-iNet在F值上比最佳基线Reccurent Gen的结果高出了8％；并且，本发明可以设置不同的阈值Δ和k来平衡精确率和召回率。当本发明设置Δ＝0.2，k＝1.5且允许模型抽取更多句子时，Soft Extra-iNet分别可以达到64.08％的精确率，85.3％的召回率和73.18％的F值，这也显示了本发明方法的灵活性和鲁棒性。

3、本发明的模型可以容忍空抽取，因为本发明的外部存储块由先验知识初始化并且通过输入的证据获取新知识，所以这种设计能够处理空抽取，显示了本发明提出的模型的鲁棒性。

4、案例研究表明，自动抽取方法在有大量噪声信息时鲁棒性变差，文本及其抽取的关键句子过于泛化，无法应用于特定的预测任务。本发明还发现，本发明的方法倾向于抽取股票价格波动相关的证据，表明它们可以作为预测未来收益的有效指标。

附图说明

图1为本发明硬抽取网络流程图；

图2为累计超额收益预测任务的文档长度-准确率曲线图，横坐标为#DocumentLength，#Document Length为文档长度，Accuracy为准确率，HN为层次神经网络，HAN为层次注意力神经网络，Hard Extra-iNet为硬抽取网络，Soft Extra-iNet为软抽取网络；

图3为句子抽取模块的基础单元框图；

图4为解释预测结果抽取关键句子的方法的整体说明图，Sentence Encoder为句子编码器，External Memory Block为外部存储单元，Sentence Extraction-Representation Module为句子抽取-表示模块，Prediction为预测，为第i个句子的第1个词的向量表示，为第i个句子的第n个词的向量表示，为第s篇文档的第i个句子的向量表示，为第s篇文档的第1个句子的向量表示，为第s篇文档的第n个句子的向量表示，m₀为外部存储单元的初始表示，a₁为针对第1个句子采取的动作，a_n为针对第n个句子采取的动作；

图5为用户评论界面图；

图6为本发明软抽取网络流程图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，具体实施方式一种文本预测结果的关键证据抽取方法(详见图4)，具体过程为：

步骤一、针对每个单词从GloVe词向量(预训练的向量矩阵)中查找每个单词对应的词向量，再通过卷积神经网络来编码句子，得到句子级向量；

使用外部存储单元来记录并累积信息，为最终的预测提供支持；

受到记忆网络在问答领域成功的启发，建议使用外部存储块来记录信息。外部存储块可以读取和写入，并通过将所有句子表示加和平均进行初始化。初始化外部存储块旨在提供有关任务的一些先验知识。

步骤四、使用softmax分类器作为预测模块，将步骤三得到的最终的外部存储单元m_n作为预测模块的输入，输出文档每个类别(比如教育、医疗等)的概率；

步骤五、根据步骤四得到的文档类别，以及步骤三得到的所有句子的抽取动作a(取0或1,1代表保留该句子，0代表不保留该句子)，训练硬抽取网络模型，得到训练好的硬抽取网络模型；

将待分类的文档输入到训练好的硬抽取网络模型，得到待分类的文档分为各个类别的概率以及解释文档被分为该类别的句子集合(即a_t＝1保留的句子)。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤一中针对每个单词从GloVe词向量(预训练的向量矩阵)中查找每个单词对应的词向量，再通过卷积神经网络来编码句子，得到句子级向量；具体过程为：

从预训练的向量矩阵中查找每个单词对应的单词向量，再通过卷积神经网络来编码句子，得到句子的向量表示；句子编码器不是任务特定的，可以是能够在语义上将单词向量组合成稠密向量表示的任何算法。为了提高效率，采用卷积神经网络，它在各种句子分类任务中表现突出，例如句子级情感分析。实证研究表明，具有不同窗口宽度的卷积滤波器可以捕获不同粒度的语义。

对于文档中的第n个句子s_n有M个单词从GloVe词向量(预训练的向量矩阵)中查找M个单词对应的单词向量 R^d为实数域，即d维的向量；

设有l个窗口，每个窗口对应q个卷积滤波器，共有l×q个卷积滤波器，取l×q个卷积滤波器中的任意一个卷积滤波器β，卷积滤波器β对应的窗口大小为h，则通过将卷积滤波器β应用于连续的h个单词的向量生成单个特征c_j；公式如下：

式中，β为任意一个卷积滤波器，是h·d维的向量，β∈R^hd；b∈R为偏置项；R^hd为实数域，即h·d维的向量；h为窗口大小；f是一个非线性激活函数，使用ReLU作为非线性激活函数；

采用卷积滤波器β对进行滤波，得到一个特征映射c＝{c₁,c₂,…,c_j,…,c_M-h+1}；

在特征映射c上应用最大池化以获得特征映射c的全局最重要的特征

将l×q个卷积滤波器对应的全局最重要的特征进行拼接，获得句子s_i的句子级向量

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤三中基于步骤一得到的第一个句子级向量、步骤二得到的初始外部存储单元、硬抽取网络模型得到第一个句子级向量对应的更新后的外部存储单元；

直至基于步骤一得到的第n个句子级向量、更新后的外部存储单元、硬抽取网络模型得到第n个句子级向量对应的最终的外部存储单元，即得到文档级向量；具体过程为：

硬抽取网络Hard Extra-iNet：Hard Extra-iNet中的句子抽取表示模块基于强化学习，对文档中的每个句子进行二元决策(保留或忽略)。

状态和决策网络：图3是句子抽取模块的基础单元示意图，每一个抽取动作a_t均从一个随机的策略网络采样得到；

基于句子级向量、更新后的外部存储单元、硬抽取网络得到句子级向量对应的更新后的外部存储单元；具体过程为：

通过将当前句子级向量与上一个外部存储块状态m_t-1进行计算来表示当前状态

式中，⊙表示向量元素对位相乘，表示拼接操作；⊙和-操作用来捕捉未被记录在外部存储块中的中的新信息；

a_t∈{0,1}代表t时刻抽取动作，0代表忽略当前句子，1代表保留当前句子到最终的句子集合中；

由于当前抽取动作a_t依赖于历史动作a_＜t，因此为了将这些动作进行连接，修改当前状态表达式

根据当前状态表达式通过决策网络得到当前抽取动作a_t，定义如下：

式中，决策网络是一个两层的非线性神经网络，σ为sigmoid函数，f′(·)为非线性网络，W为权值矩阵(自定义)，为当前状态，b为偏置项，a_＜t为历史动作；

外部存储块状态m_t更新公式如下：

式中，GRU(·)为门限递归单元；

直至得到的最终的外部存储单元m_n。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述当a_t＝1，具体求解过程为：

门限递归单元(GRU)通过前一时刻外部存储块状态m_t-1以及当前句子级向量来更新当前时刻外部存储块状态信息m_t，具体更新公式如下：

式中，W_r为权值矩阵，r_t为中间变量，b_r为偏置，W_z为权值矩阵，b_z为偏置，z_t为中间变量，为中间变量，W_m为权值矩阵，b_m为偏置。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述步骤四中使用softmax分类器作为预测模块，将步骤三得到的最终的外部存储单元m_n作为预测模块的输入，输出文档每个类别(比如教育、医疗等)的概率；

公式如下：

P(y|m_n)＝softmax(g(m_n))

其中y为类标号，g为非线性神经网络。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述步骤五中根据步骤四得到的文档分类，以及步骤三得到的所有句子的抽取动作a(取0或1,1代表保留该句子，0代表不保留该句子)，训练硬抽取网络模型，得到训练好的硬抽取网络模型；具体过程为：

在框架设计时，考虑到整个文档中句子之间的相互依赖，通过将文档中所有句子向量加和平均来初始化外部存储块，这样当外部存储块与每个句子进行交互时便可以捕捉到句子之间的依赖信息。得到决策网络生成的动作概率后采用一种贪婪策略，即选择概率最大的动作(保留或忽略)；

参数θ_a包括决策网络中的参数、参数θ_g包括外部存储块和分类的参数；

因为θ_g与最终的预测目标直接相连，因此这部分参数可以参数θ_g通过误差反向传播进行更新；

但是，由于在迭代的处理句子的时候，对于句子的保留或忽略做出了离散的决策，这使得θ_a针对于目标不再可微。为了解决这个问题，采用了REINFORCE算法去近似梯度。

训练的目标为最大化由θ_a生成的动作序列a的期望奖励，期望奖励表示如下：

其中

式中，为期望奖励，为a_t的概率，为文档状态；

为了计算出期望奖励，需要遍历所有可能的a的组合，然而当a的维度很高时是不可实现的。因此采样K个文档，根据K个文档近似更新梯度，如下所示：

式中，为K个文档近似梯度，K为文档总数，k为第k个文档，t为第t个句子，R^k为第k个文档的奖励；

在估计的过程中，尽管模型不存在偏置，但会有很高的方差。采用Mnih等人的策略，每一步在原有奖励基础上减去一个基线奖励来减小方差，通过一个两层的非线性网络g′来近似，g′的输入为基线奖励表示如下：

式中，g′为一个两层的非线性网络；

基线奖励的参数θ_b通过最小化来进行更新；

根据K个文档近似更新梯度转换为：

根据θ_a、θ_g、θ_b的参数更新规则(θ_a通过近似梯度更新；参数θ_b通过最小化来进行更新；参数θ_g通过误差反向传播进行更新；)、超参数、学习速率，使用GloVe词向量(预训练的向量矩阵)，通过早停法(early stopping)来训练(RichCaruana,Steve Lawrence,and C Lee Giles.2001.Overfitting in neural nets:Backpropagation,conjugate gradient,and early stopping.In Advances in neuralinformation processing systems.402/408.)硬抽取网络模型，得到训练好的硬抽取网络模型；

使用Adam优化算法作为优化器自动调整学习速率；

超参数包括学习率、批处理大小、词向量维度、隐层状态维度、滤波器窗口宽度、滤波器个数；

超参数设置如表1所示：

表1

表1中Hyper-parameter为超参数，Value为数值，learning rate为学习率；batchsize为批处理大小，embedding size为词向量维度，hidden state size为隐层状态维度，filter width为滤波器窗口宽度，num of filters为滤波器个数；

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述第k个文档的奖励R^k的具体求解过程为；

奖励：为了让模型可以抽取更加显著且不冗余的句子，将奖励分成预测奖励R_p以及抽取奖励R_e；公式如下：

R＝R_p+λ·R_e

式中，λ是一个正则项因子，用来平衡这两种奖励；

将最终的外部存储块状态m_n作为预测模块的输入，输出文档每个类别(比如教育、医疗等)的概率，表达式为通过来得到最终的预测奖励结果；对于分类任务，真实类别对应的概率越高，期望获得的奖励也越大，因此有R_p＝logP(y_gold|m_n)，

式中，P(y_gold|m_n)表示预测模型给出的真实类别对应的概率，y_gold为标注的真实类别；

为了鼓励模型选择更少的句子，抽取奖励定义为R_e＝min(0,k-||a||)，

式中，a＝{a₁,a₂,…,a_n}表示动作序列，k为设置的阈值；||a||代表抽取的句子数量；

如果一篇文档抽取的句子数量超过k，硬抽取网络将会收到惩罚，R_e即为负值；(k-||a||变成负值，那么R_e即为负值)；

如果一篇文档抽取的句子数量不超过k，那么R_e即为0；

最终的奖励表达式如下：

R＝R_p+λ·min(0,k-||a||)

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：结合图6说明本实施方式，具体实施方式一种文本预测结果的关键证据抽取方法(详见图4)，具体过程为：

步骤一、针对每个单词从GloVe词向量(预训练的向量矩阵)中查找每个单词对应的词向量，再通过卷积神经网络来编码句子，得到句子级向量表示；

步骤四、使用非线性神经网络和sigmoid函数作为预测模块，将步骤三得到的最终的外部存储单元m_n作为预测模块的输入，输出文档得分(比如0.5分、0.2分等)；

步骤五、根据步骤四得到的文档得分，以及步骤三得到的所有句子的抽取动作a(取0或1,1代表保留该句子，0代表不保留该句子)，训练软抽取网络模型，得到训练好的软抽取网络模型；

将待预测的文档输入到软抽取网络，得到待预测的文档得分以及解释文档获得该得分的句子集合(即a_t>Δ保留的句子)。

具体实施方式九：本实施方式与具体实施方式八不同的是，所述步骤一中针对每个单词从GloVe词向量(预训练的向量矩阵)中查找每个单词对应的词向量，再通过卷积神经网络来编码句子，得到句子级向量表示；具体过程为：

其它步骤及参数与具体实施方式八相同。

具体实施方式十：本实施方式与具体实施方式八或九不同的是，所述步骤三中基于步骤一得到的第一个句子级向量、步骤二得到的初始外部存储单元、软抽取网络模型得到第一个句子级向量对应的更新后的外部存储单元；

直至基于步骤一得到的第n个句子级向量、更新后的外部存储单元、软抽取网络模型得到第n个句子级向量对应的最终的外部存储单元，即得到文档级向量；具体过程为：

利用gate机制控制Soft Extra-iNet中句子表示的信息流，每个句子都能不同程度地更新外部存储块，将分数超过预定义阈值的句子认为是保留的关键句子；

基于句子级向量、更新后的外部存储单元、软抽取网络得到句子级向量对应的更新后的外部存储单元；具体过程

软抽取网络Soft Extra-iNet：在Hard Extra-iNet中，每一个句子被标记为0或1，表明它应该被用于更新外部存储块或是被完全忽略，这是一个很强的约束。一些时候，也希望可以计算出在得到最终预测结果的过程中，每个句子的相对重要程度。为了得到句子的相对重要程度，提出了另一种模型(Soft Extra-iNet)来更加平滑的更新外部存储块。

在Soft Extra-iNet中，利用门限机制来控制每一句子表示的信息流传递程度，这样每个句子不同程度的更新外部存储块。但是只有那些得分超过了预定义阈值的句子会被保留当作关键证据。

不同于Hard Extra-iNet需要在分布中进行采样，Soft Extra-iNet软抽取网络中的a_t是一个0到1之间的确定实数，表示当前句子的重要程度并控制传输信息的比例，a_t的值取决于当前状态公式如下：

其中σ表示sigmoid函数，f′与Hard Extra-iNet中的f′相同，表示非线性网络；当前状态是由当前句子级向量前一时刻外部存储块m_t-1以及前一时刻的a_t-1共同作用得到；可以看出，这里的用来捕捉目标相关的新的显著信息。W为权值矩阵，b为偏置；

外部存储块的当前状态m_t的更新公式如下：

只有当句子对应的a_t大于一个预定义的阈值Δ时，保留当前句子到最终的句子集合。

式中，GRU(·)为门限递归单元；

直至得到的最终的外部存储单元m_n。

其它步骤及参数与具体实施方式八或九相同。

具体实施方式十一：本实施方式与具体实施方式八至十之一不同的是，所述步骤四中使用非线性神经网络和sigmoid函数作为预测模块，将步骤三得到的最终的外部存储单元m_n作为预测模块的输入，输出文档得分(比如0.5分、0.2分等)；公式如下：

其中g与分类任务中的g相同，均表示非线性神经网络；是预测值，σ是sigmoid函数，sigmoid函数可以将任意实数值映射到[0,1]之间。

其它步骤及参数与具体实施方式八至十之一相同。

具体实施方式十二：本实施方式与具体实施方式八至十一之一不同的是，所述步骤五中根据步骤四得到的文档得分，以及步骤三得到的所有句子的抽取动作a(取0或1,1代表保留该句子，0代表不保留该句子)，训练软抽取网络模型，得到训练好的硬抽取网络模型；具体过程为：

为了让模型可以从文档中抽取更少且更加相关的句子。在原有目标基础上添加了额外的损失项其中1表示指示函数，k表示当模型抽取过多的句子时惩罚模型的超参数。综上，最小化的目标表达式如下：

其中θ是需要优化的参数，λ为正则因子，用来平衡负对数似然损失和惩罚项损失；为额外的损失项，其中1表示指示函数，k表示当模型抽取过多的句子时惩罚模型的超参数，Δ为阈值，*为乘号，n为句子总数；y_gold为标注的真实类别；

参数θ包括卷积滤波网络、外部存储单元、软抽取网络中抽取动作a_t的非线性网络预测模块中的非线性神经网络g(m_n)；

参数θ通过误差反向传播进行更新；

根据参数θ更新规则(反向传播更新)、超参数，学习速率，使用GloVe词向量(预训练的向量矩阵)，通过早停法(early stopping)训练(Rich Caruana,Steve Lawrence,andC Lee Giles.2001.Overfitting in neural nets:Backpropagation,conjugategradient,and early stopping.In Advances in neural information processingsystems.402/408.)软抽取网络模型，得到训练好的软抽取网络模型；

使用Adam优化算法作为优化器自动调整学习速率；

其它步骤及参数与具体实施方式八至十一之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例一中给定一篇财经类新闻文档，新闻文档中包含可能会引起新闻中所涉及的公司的股票的波动。模型除了预测公司股票价格波动的方向(涨跌)外，还需要对预测结果进行解释，即识别文档中可能导致股票价格涨跌的句子。任务的目的是预测累积超额收益，累积超额收益旨在衡量一篇新闻对所涉及公司的影响程度。更具体地，超额收益AR_t定义为第t天真实收益r_t与期望收益之间的差异，即其中可以通过股指来近似，例如S&P500指数。针对一个k天的窗口，累加每一天的超额收益来得到k天的累积超额收益，实际预测过程中，通常累积新闻发布当天、前一天和后一天的超额收益，表示为CAR₃，最终要预测的目标为CAR₃的极性。具体是按照以下步骤制备的：

步骤一、收集财经新闻数据集用于验证模型；

使用Chang等人(Ching-Yun Chang,Yue Zhang,Zhiyang Teng Teng,ZahnBozanic,and Bin Ke.2016.Measuring the Information Content of FinancialNews.In 26th Coling.)的数据集。这是丁等人(Xiao Ding,Yue Zhang,Ting Liu,andJunwen Duan.2014.Using Structured Events to Predict Stock Price Movement:AnEmpirical Investigation..In EMNLP.1415/1425.)发布的路透社新闻数据集的一个子集。本发明专注于从单个文档中抽取关键句子以进行累积超额收益预测。本发明假设简短的文档没有必要总结，因此只包含超过十个句子的文档。本发明数据集的统计结果在表2累积超额收益数据集描述中给出。

表2

表2中Training为训练集，Development为验证集，Test为开发集，#doc为文档数，#s/d为文档平均句子数；

本发明采用准确率和宏观F1作为评估指标，其中准确率是所有预测中的正确预测的比例，宏观F1通过对正类和负类的F1进行平均计算得到。

步骤二、设定Baselines：本发明介绍三类不同的方法，这些方法通过不同的策略来抽取和表示句子，从而进行预测。通过与这些方法进行对比来证明本发明方法的有效性；

第一类仅仅使用文件的标题或首句作为关键证据。标题、LEAD-1和LEAD-3分别表示文档的标题、第一句话和前三句。

第二类包括基于图的无监督抽取方法(LexRank和TextRank)，它抽取用于预测的句子子集。LexRank在图表示中考虑句子内在相似性来识别文档中最重要的句子。本发明使用LexRank给出的前三个句子进行预测，而TextRank利用相似性和PageRank算法对句子的重要性进行排序。本发明保留了预测算法给出的前20％的句子。本发明使用了LexRank和TextRank的两个开源实现。LexRank抽取句子作为摘要，而TextRank从文档中抽取部分文本作为摘要。对于LexRank，通常使用前三个句子作为摘要，并且用于评估TextRank的DUC2002数据集将文档化简为其原始大小的20％。

第三类包括最新的神经网络模型，该模型学习了用于预测的完整文档的表示(CNN+AVG，HN和HAN)。对于前两类方法，本发明使用CNN来学习抽取句子的表示以进行分类。CNN+AVG使用CNN进行句子表示，并将所有句子表示的平均值作为文档表示。本发明在初始化外部存储块的方法中也使用CNN+AVG。分层网络(HN)是用于对整篇文档进行建模的神经网络模型。本发明使用卷积神经网络将单词向量组合成句子向量，并使用门限递归神经网络将句子向量组合成文档表示以进行预测。分层注意力网络(HAN)类似于HN，其分层地学习用于预测的文档表示。不同之处在于它分别在执行语义合成时利用两个自我注意神经网络来权衡词和句子。

评价方案：测试数据集的最终实验结果显示在表3中，测试数据集的实验结果，最佳结果以粗体显示。

表3

表3中Method为方法，Macro-F1为宏-F1，Accuracy为准确率，TITLE为标题，LEAD1为第一个句子，LEAD3为前三个句子，HN为层次神经网络，HAN为层次注意力神经网络，SoftExtra-iNet为软抽取网络，Hard Extra-iNet为硬抽取网络；

结果发现，弱基线LEAD1和LEAD3只考虑文档的主要句子，因此在此任务中较为可靠。TITLE比LEAD1弱得多，因为标题通常要短得多，而且包含的信息要少得多。LEAD3与包含全文信息的HN竞争。正如财经新闻记者倾向于在文章的最开头提出最重要的信息。过往研究(Jianpeng Cheng and Mirella Lapata.2016.Neural summarization by extractingsentences and words.arXiv preprint arXiv:1603.07252(2016).)也表明LEAD3仍然是抽取式摘要数据集的强基线。

简单方法(TITLE,LEAD1,LEAD3)和通用自动抽取方法(LexRank,TextRank)在句子抽取上是无监督的，它们不使用关于任务的任何先验知识。因此效果不如HN和HAN这类利用全文信息的方法。结果表明，一般抽取方法给出的关键句可能对预测没有帮助，因为抽取过程是独立于预测的。

本发明提出的方法中的外部存储块由CNN+AVG的输出初始化。然而，本发明模型在很大程度上优于CNN+AVG，表明它能够捕获利于最终预测任务的有用信息。HN和HAN是用于学习文档级表示的新型神经网络模型，其中HAN略高于HN，但相对的模型复杂程度也更高。通过抽取和表示一部分关键句子，本发明Soft Extra-iNet和Hard Extra-iNet与基于全文档的模型相比展现出了更好的性能，表明可以通过省略噪声信息并关注相关信息来提升性能。Soft Extra-iNet的准确率达到58.82％，Macro-F1达到59.43％，Hard Extra-iNet的准确率达到60.62％，Macro-F1达到59.75％，优于其他所有基线。Hard Extra-iNet相比SoftExtra-iNet具有更好的性能。与社交媒体评论相比，财经新闻通常很长，使得网络难以建模。但是，Hard Extra-iNet只表示一部分句子，过滤掉噪音信息和不相关的句子。

准确率与文档长度：一般来说，对包含更多无关信息的较长文档建模更具挑战性。进一步验证了本发明的方法在可变长度文档上的效果，按照文档长度将测试数据集中的文档划分为七个部分，每个部分的文档包含的句子数的区间为[5i,5i+5)，这里i∈[2,8]。图2给出了Hard Extra-iNet和Soft Extra-iNet以及基线方法(HN和HAN)的实验结果，与HN和HAN相比，Extra-iNet框架受文档长度的影响较小，在不同长度的文档上的结果更加一致。此外，随着文档变长，准确率逐渐提高，表明它可以捕捉到包含目标信息最丰富的部分。HAN相比于HN更引人注目，后者在长度较长的文档上的性能显著下降。从理论上讲，HardExtra-iNet在推理方面也更有效，因为它在建模文档时跳过了不相关的句子。

从实验结果可以看出，本发明提出的模型性能明显优于其他baseline，在基于财经新闻的累积超额收益预测任务上取得了最好的效果。

实施例二：

为了更好地评价本发明模型抽取的关键句的质量，本发明将其应用于一个多角度的情感分析任务。给定一篇在线用户关于某品牌啤酒评论文本，任务的目的是预测特定方面(如口味，外观、色泽等)的情感打分(如0.2分，0.4分等)，同时识别出能够解释文本在这些方面打分的句子。通过与人工标注的比较，评价关键句的抽取质量。

步骤一：收集特定角度的情感评级数据集用于验证模型；

本发明使用由McAuley等人发布的beeradvocate数据集。原始数据集包含了超过150万条由该网站用户生成的啤酒评论。数据集还提供了与四个不同角度(即外观、气味、口感和味道)；McAuley等人的还提供了大约1000条评论的句子级标注。标注中的每个句子都有一个或多个标签，表示它所涉及的情感角度。本发明使用这个带标注的子集作为测试集。本发明没有考虑味道是因为它与前三个情感角度高度相关进而会误导模型。在预处理之后，子集中每个角度仍然保留80k-90k的评论数量，其中10k的评论作为开发集。

步骤二、与注意力模型、多层注意力模型和递归生成模型进行了比较。

注意力模型(AM)。本发明使用CNN来学习每个句子的表示，注意力模型使用自我注意力网络为每个句子分配权重，归一化权值大于0.3的句子(通过调整该超参数，0.3为最优性能)被保留为解释预测结果的关键句子。注意力模型可以看作是用加权池化代替平均池化的CNN+AVG模型。

分层注意网络(HAN)。HAN是一种用于文档表示的通用方法，它是许多文档分类任务的强大基线。HAN学习了一种分层的文档表示方法，该方法首先将词向量语义组合成句子表示，然后将句子向量语义组合成文档表示。HAN使用了两个双向门限递归单元来表示句子和文档。每个单词和句子在文档中都有不同的权重。本发明保持归一化权重大于0.3的句子(同样调整了该超参数)作为解释预测结果的关键句子。

递归生成模型(Reccurent Gen)。Reccurent Gen是一个生成器-编码器框架。生成器指定输入文本段上的分布，并对子集进行采样，作为解释预测结果的候选证据。然后将采样的文本传递给编码器，从而学习稠密的向量表示来进行预测。该模型抽取的结果为片段级别文本，本发明将其发布的结果转换为句子级别以进行公平比较。

评价指标：精确率(Precision)、召回率(Recall)以及F值(F-Measure)，通过与测试用例上的人工标注结果进行比较计算。

本发明方法和基线在测试数据集上的实验结果如表4所示，基线的准确率(Precision)、召回率(Recall)以及F值(F-Measure)：

表4

表4中Method为方法，Appearance为外观，Smell为气味，Palate为味道，AttentionModel为注意力模型，HAN为层次注意力模型，Recurrent Gen为递归生成模型，Hard Extra-iNet为硬抽取网络，Soft Extra-iNet为软抽取网络

基于注意力机制的模型是可解释性预测的常用方法。在多角度的情感分析任务中，注意力模型在各个方面都能达到与HAN和本发明的方法相媲美的精度但召回率却远远落后。注意力模型与其他方法在各方面的效果差距约为15％。一个可能的解释是注意力模型利用外部自注意力网络衡量每个句子，而这个网络无法捕捉句子之间的相互作用和相互依赖关系。相比之下，HAN利用双向门限递归单元在词和句两个层面捕获上下文信息，优于注意力模型。虽然HAN使用与注意力模型类似的注意力机制，但是它的F值提高到了70％以上，说明了对句子之间的交互进行建模的重要性。这两个基线均使用评论中的所有信息进行预测。

递归生成模型是一个强大的基线，可以在所有角度提供相对较高的召回率并可以从多个句子中抽取文本片段。这也解释了为什么与所有其他方法相比精度更低。Extra-iNet通常精度很高，因为它能够专注于一部分句子。Hard Extra-iNet比最佳基线Reccurent Gen在气味和口感这两个角度上提升了1.9％和7.6％。Soft Extra-iNet比最佳基线Reccurent Gen在F值上平均提高了8％；并且，本发明可以设置不同的阈值Δ和k来平衡精确率和召回率。当设置Δ＝0.2，k＝1.5且允许模型抽取更多句子时，Soft Extra-iNet分别可以达到64.08％的精度，85.3％的召回率和73.18％的F值。这也显示了本发明方法的灵活性和鲁棒性。

在所有的基线上，外观相比于口感有近10％的性能差距，这表明识别出描述口感的句子要更加困难。本发明进一步分析了数据集，发现测试数据集中16.7％的评论没有描述口感的句子，60.56％只有一句话。这样的数据集对于递归生成模型来说是困难的，因为它的编码器依赖于生成器的输出。它不能处理来自生成器的空输出。然而，本发明模型可以容忍空抽取，因为本发明的外部存储块由先验知识初始化并且由证据中的新知识更新，所以这种设计对空抽取是免疫的。在口感这个情感角度上，相比于递归生成模型，HardExtra-iNet和Soft Extra-iNet的F值分别提高了5.42％和7.62％，显示了本发明提出的模型的鲁棒性。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种文本预测结果的关键证据抽取方法，其特征在于：所述方法具体过程为：

2.根据权利要求1所述一种文本预测结果的关键证据抽取方法，其特征在于：所述步骤一中针对每个单词从GloVe词向量中查找每个单词对应的词向量，再通过卷积神经网络来编码句子，得到句子级向量；具体过程为：

对于文档中的第n个句子s_n有M个单词从GloVe词向量中查找M个单词对应的单词向量R^d为实数域，即d维的向量；

采用卷积滤波器β对进行滤波，得到一个特征映射c＝{c₁，c₂，...，c_j，...，c_M-h+1}；

3.根据权利要求1或2所述一种文本预测结果的关键证据抽取方法，其特征在于：所述步骤三中基于步骤一得到的第一个句子级向量、步骤二得到的初始外部存储单元、硬抽取网络模型得到第一个句子级向量对应的更新后的外部存储单元；

式中，⊙表示向量元素对位相乘，表示拼接操作；

a_t∈{0，1}代表t时刻抽取动作，0代表忽略当前句子，1代表保留当前句子；

修改当前状态表达式

式中，决策网络是一个两层的非线性神经网络，σ为sigmoid函数，f′(·)为非线性网络，W为权值矩阵，为当前状态，b为偏置项，a_＜t为历史动作；

外部存储块状态m_t更新公式如下：

式中，GRU(·)为门限递归单元；

直至得到的最终的外部存储单元m_n。

4.根据权利要求3所述一种文本预测结果的关键证据抽取方法，其特征在于：所述当具体求解过程为：

门限递归单元通过前一时刻外部存储块状态m_t-1以及当前句子级向量来更新当前时刻外部存储块状态信息m_t，具体更新公式如下：

5.根据权利要求4所述一种文本预测结果的关键证据抽取方法，其特征在于：所述步骤四中使用softmax分类器作为预测模块，将步骤三得到的最终的外部存储单元m_n作为预测模块的输入，输出文档每个类别的概率；

公式如下：

P(y|m_n)＝softmax(g(m_n))

其中y为类标号，g为非线性神经网络。

6.根据权利要求5所述一种文本预测结果的关键证据抽取方法，其特征在于：所述步骤五中根据步骤四得到的文档分类，以及步骤三得到的所有句子的抽取动作a，训练硬抽取网络模型，得到训练好的硬抽取网络模型；具体过程为：

参数θ_g通过误差反向传播进行更新；

其中

式中，为期望奖励，为a_t的概率，为文档状态；

采样K个文档，根据K个文档近似更新梯度，如下所示：

基线奖励表示如下：

式中，g′为一个两层的非线性网络；

基线奖励的参数θ_b通过最小化来进行更新；

根据K个文档近似更新梯度转换为：

根据θ_a、θ_g、θ_b的参数更新规则、超参数、学习速率，使用GloVe词向量，通过早停法来训练硬抽取网络模型，得到训练好的硬抽取网络模型；

使用Adam优化算法作为优化器自动调整学习速率；

7.根据权利要求6所述一种文本预测结果的关键证据抽取方法，其特征在于：所述第k个文档的奖励R^k的具体求解过程为；

将奖励分成预测奖励R_p以及抽取奖励Re；公式如下：

R＝R_p+λ·R_e

式中，λ是一个正则项因子，用来平衡这两种奖励；

将最终的外部存储块状态m_n作为预测模块的输入，输出文档每个类别的概率，表达式为

R_p＝log P(y_gold|m_n)，

抽取奖励定义为R_e＝min(0，k-||a||)，

式中，a＝{a₁，a₂，...，a_n}表示动作序列，k为设置的阈值；||a||代表抽取的句子数量；

如果一篇文档抽取的句子数量超过k，硬抽取网络将会收到惩罚，R_e即为负值；

如果一篇文档抽取的句子数量不超过k，那么R_e即为0；

最终的奖励表达式如下：

R＝R_p+λ·min(0，k-||a||)。

8.一种文本预测结果的关键证据抽取方法，其特征在于：所述方法具体过程为：

9.根据权利要求8所述一种文本预测结果的关键证据抽取方法，其特征在于：所述步骤一中针对每个单词从GloVe词向量中查找每个单词对应的词向量，再通过卷积神经网络来编码句子，得到句子级向量表示；具体过程为：

对于文档中的第n个句子s_n有M个单词从GloVe词向量中查找M个单词对应的单词向量Rd为实数域，即d维的向量；

10.根据权利要求8或9所述一种文本预测结果的关键证据抽取方法，其特征在于：所述步骤三中基于步骤一得到的第一个句子级向量、步骤二得到的初始外部存储单元、软抽取网络模型得到第一个句子级向量对应的更新后的外部存储单元；

软抽取网络中的a_t是一个0到1之间的确定实数，a_t的值取决于当前状态公式如下：

其中σ表示sigmoid函数，f′表示非线性网络；当前状态是由当前句子级向量前一时刻外部存储块m_t-1以及前一时刻的a_t-1共同作用得到；W为权值矩阵，b为偏置；

外部存储块的当前状态m_t的更新公式如下：

只有当句子对应的a_t大于一个预定义的阈值Δ时，保留当前句子；

式中，GRU(·)为门限递归单元；

直至得到的最终的外部存储单元m_n。

11.根据权利要求10所述一种文本预测结果的关键证据抽取方法，其特征在于：所述步骤四中使用非线性神经网络和sigmoid函数作为预测模块，将步骤三得到的最终的外部存储单元m_n作为预测模块的输入，输出文档得分；公式如下：

其中g表示非线性神经网络；是预测值，σ是sigmoid函数，sigmoid函数将任意实数值映射到[0，1]之间。

12.根据权利要求11所述一种文本预测结果的关键证据抽取方法，其特征在于：所述步骤五中根据步骤四得到的文档得分，以及步骤三得到的所有句子的抽取动作a，训练软抽取网络模型，得到训练好的硬抽取网络模型；具体过程为：

最小化的目标表达式如下：

其中θ是需要优化的参数，λ为正则因子；为额外的损失项，其中1表示指示函数，k表示当模型抽取过多的句子时惩罚模型的超参数，Δ为阈值，*为乘号，n为句子总数；y_gold为标注的真实类别；

参数θ通过误差反向传播进行更新；

根据参数θ更新规则、超参数，学习速率，使用GloVe词向量，通过早停法训练软抽取网络模型，得到训练好的软抽取网络模型；

使用Adam优化算法作为优化器自动调整学习速率；