CN115186654A

CN115186654A - 一种公文文本摘要生成方法

Info

Publication number: CN115186654A
Application number: CN202211091542.5A
Authority: CN
Inventors: 吕灏; 李庆; 韩国权; 祁纲; 李宝东; 程建润
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2022-10-14
Anticipated expiration: 2042-09-07
Also published as: CN115186654B

Abstract

本申请提供一种公文文本摘要生成方法，所述方法包括：对目标公文文本进行分句处理得到多个分句；根据所述目标公文文本的类型得到各个分句对应的分句权重；将所述目标公文文本的多个分句以及对应的分句权重输入摘要生成模型，得到所述摘要生成模型输出的公文文本摘要；其中，训练所述摘要生成模型使用的损失函数包括目标审批关键词命中函数。本发明提供的公文文本摘要生成方法，考虑到了不同类型的公文文本的结构特征，将目标审批关键词命中函数、审批时长调整函数等适用于公文文本自动审批场景的内容设计到了损失函数中，不但使得所生成的公文文本摘要准确性更高，还能使得公文文本摘要生成的长度自适应地根据审批需求进行调整。

Description

一种公文文本摘要生成方法

技术领域

本申请涉及计算机技术领域，特别涉及一种公文文本摘要生成方法。

背景技术

据统计，在公文数据集中，超过一半的公文文本长度达几百字，甚至上千字，为面临大量公文审批工作的审批者带来了极大的阅读和批阅的工作量。因此，需要在保留公文关键信息的前提下，生成公文文本的摘要供审批者进行审批工作。

现有的文本摘要技术通常可分为抽取式和生成式两种类别。其中，生成式文本摘要技术一般先确定文本关键词后再造句，应用自然语言处理的算法，通过转述、同义替换、句子缩写等技术，生成更凝练简洁的摘要。然而，生成式文本摘要技术所生成的摘要只能表意，而公文文本的用语具有特定的规范，使得这类方法所生成的摘要会丢失公文文本特定的文本特征，无法用于公文文本的审批。

抽取式文本摘要技术会使用文本摘要抽取模型，例如基于BM25的信息索引方法的思路，判断和提取文本中的重要句子组成文本对应的摘要。然而现有的抽取式文本摘要生成模型的训练方法仅面向通用文本，在训练过程中仅考虑到了句子间语义上的相关程度，而未考虑到公文文本特定的文本结构和用于规范，也没有考虑到公文语料数据库中不同类型的公文文本及其批注信息具有各自的文本特征，因此这样的模型应用于公文文本摘要生成时存在准确性较低的问题。

发明内容

本申请的目的在于提供一种公文文本摘要生成方法，包括：

对目标公文文本进行分句处理得到多个分句；

根据所述目标公文文本的类型得到各个分句对应的分句权重；

将所述目标公文文本的多个分句以及对应的分句权重输入摘要生成模型，得到所述摘要生成模型输出的公文文本摘要；

其中，训练所述摘要生成模型使用的损失函数包括目标审批关键词命中函数；所述目标审批关键词命中函数用于表征训练过程中将样本公文文本输入至所述摘要生成模型后，所输出的样本公文文本摘要中目标审批关键词的覆盖率差值；所述目标审批关键词是在公文数据库中查找与所述目标公文文本相同类型的样本公文文本对应的审批信息并提取到的。

可选地，所述目标审批关键词通过如下步骤生成：

在公文数据库中查找所有样本公文文本的审批信息；

提取所述审批信息中的关键词；

根据所述样本公文文本的类型，将所述关键词添加到对应类型的公文文本的目标审批关键词。

可选地，所述样本公文文本摘要中目标审批关键词的覆盖率差值通过如下方式计算得到：

将所述样本公文文本摘要的文本内容，与所述样本公文文本摘要对应的对应类型的公文文本的目标审批关键词进行一一匹配；

统计匹配过程中所述样本公文文本摘要命中所述目标审批关键词的关键句子和关键文字的比例；

将所述关键句子和关键文字的比例分别与预设的关键句子和关键文字的平均比例进行比较，得到所述样本公文文本摘要中目标审批关键词的覆盖率差值。

可选地，所述根据所述目标公文文本的类型得到各个分句对应的分句权重，具体包括：

根据所述目标公文文本的类型获取所述目标公文文本的结构化信息；其中，所述结构化信息根据对应类型的目标公文文本的标准模板和关键文本统计信息提取得到，包括对应类型的目标公文文本的关键段落和关键语句的位置信息；

根据所述目标公文文本对应的多个分句与所述结构化信息的匹配结果，确定各个分句对应的分句权重。

可选地，所述目标公文文本的关键文本统计信息是通过人工标注公文数据库中同类型的目标公文文本的关键段落和关键语句得到的。

可选地，所述方法还包括：

定期根据公文数据库中新加入的公文文本，更新目标公文文本的对应类型的结构化信息。

可选地，训练所述摘要生成模型使用的损失函数还包括审批时长调整函数；所述时长调整函数用于根据所述样本公文文本在电子审批系统中记录的审批时长与标准审批时长进行比较，训练所述摘要生成模型输出的公文文本摘要的长度。

可选地，所述方法还包括：

定期根据公文数据库中新加入的公文文本的审批信息，更新目标公文文本的对应类型的目标审批关键词。

可选地，训练所述摘要生成模型使用的损失函数还包括语法审核函数；所述语法审核函数用于根据所述样本公文文本摘要的语法特征调整所述摘要生成模型的参数。

可选地，根据标点符号的位置或根据预设的句子长度对目标公文文本进行分句处理得到多个分句。

本发明提供的公文文本摘要生成方法，在使用抽取式摘要生成模型的基础上，通过将文本的分句及其权重作为模型的特征输入，考虑到了不同类型的公文文本的结构特征，并在训练摘要生成模型时利用公文数据库中审批文本、审批时长等丰富的语料信息，将目标审批关键词命中函数、审批时长调整函数等适用于公文文本自动审批场景的内容设计到了损失函数中，从更多的维度对摘要生成模型进行评价，不但使得所生成的公文文本摘要准确性更高，还能使得公文文本摘要生成的长度自适应地根据审批需求进行调整。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本发明提供的公文文本摘要生成方法的流程示意图；

图2为本发明提供的训练摘要生成模型的损失函数的示意图；

图3为本发明提供的目标审批关键词的覆盖率差值计算方法的流程示意图；

图4为本发明提供的公文文本摘要生成装置的结构示意图；

图5为本发明提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

目前，公文的电子审批系统已逐渐普及。各地各单位的系统中已积累了大量的已审批和待审批公文，形成了具有丰富语料数据的公文数据库。审批者可以直接在电子审批系统对电子化的公文文本进行审批，审批过程中的各种过程数据也可以被记录在电子审批系统中。这些丰富的数据为基于公文文本的特点设计一种公文文本摘要生成方法提供了基础。

基于此，本发明实施例提供了一种公文文本摘要生成方法。附图1示出了本发明实施例提供的公文文本摘要生成方法的流程示意图。

步骤S110，对目标公文文本进行分句处理得到多个分句；

本发明实施例中的目标公文文本，可以是指公文数据库中新上传的待审核公文文本。为了提取目标公文文本的关键内容、节省审批人后续的公文审批时间，需要生成目标公文文本的公文文本摘要。

本发明实施例中的公文文本摘要生成方法属于抽取式的文本摘要生成方法。因此，首先需要对目标公文文本进行分句处理得到多个分句。具体地，可以根据标点符号的位置或根据预设的句子长度对目标公文文本进行分句处理得到多个分句。例如，以逗号、句号、感叹号、问号等具有一般分隔含义的标点符号作为句子分隔的标志；也可以仅以句号、感叹号、问号等具有较强分隔含义的标点符号作为句子分隔的标志；在基础上，还可以使用标点符号结合预设的句子长度来调整分句的过程。

步骤S120，根据所述目标公文文本的类型得到各个分句对应的分句权重。

与一般文本不同，本发明实施例中的公文文本具有特定的结构和语法特征。公文中的句子出现在哪个段落、或段落的哪个位置，对该句子是否为关键句子具有统计学意义上的影响。此外，不同类型的公文文本具有各自特定的结构和语法特征，从而表现出关键句子出现的地方也不尽相同。以决议这一类型的公文文本的结构化模板为例，起始段落的第二句话通常用于描述决议产生的背景信息，结尾段落通常用于描述所形成的决议的具体内容，均属于决议这一类公文文本的潜在关键信息。由此可见，公文文本的结构化信息可以体现出不同分句之间重要性的不同。同理，其他类型的公文文本，例如函件、报告、请示等，也具有各自的结构化信息。该结构化信息均可以预先被定义。

因此，本步骤中和现有技术有所区别的是，不仅要将多个分句作为抽取式的摘要生成模型的输入，还要根据预先分析出的各个类型的公文的结构化信息，确定多个分句对应的分句权重作为抽取式的摘要生成模型的输入。其中，分句本身用于常规的语法分析，权重用于根据公文文本特定的结构化特征辅助分析，从而以摘要生成模型为载体分析出公文文本摘要。

值得说明的是，本发明实施例中各个分句对应的分句权重是根据不同类型的公文文本的结构化信息确定的，而不是根据句子本身的特征以及句子之间的关系确定的，属于本发明实施例针对公文文本摘要生成的应用场景所提取的特定信息，用于摘要生成模型同时具有公文文本的结构信息和语法信息作为输入。相比之下，现有的抽取式摘要生成方法只需要语法信息的输入，因此仅适合用于通用文本的摘要生成。

步骤S130，将所述目标公文文本的多个分句以及对应的分句权重输入摘要生成模型，得到所述摘要生成模型输出的公文文本摘要。

摘要生成模型的训练过程是本发明实施例的关键步骤。在训练摘要生成模型时，例如采用深度神经网络这样适用于文本深度处理的模型而言，模型的训练过程中最重要的部分是通过损失函数的设计来评价摘要生成模型，从而进一步地调整模型中的各个参数，从而对摘要生成模型进行不断更新。现有技术在对摘要生成模型进行评价时，一般会从语法的角度进行文本分析，例如文本的正确性、连贯性、可读性等。然而单一地从语法进行评价文本，并不能体现公文文本特定的文本结构和用于规范，也没有考虑到公文语料数据库中不同类型的公文文本及其批注信息具有各自的文本特征，会导致训练出的摘要生成模型在生成一般文本的摘要时性能尚可，而在生成公文文本摘要时存在准确性较低的问题。

因此，本发明实施例中训练摘要生成模型使用的损失函数由三部分组成。如附图2所示，除了语法审核函数外，还包括目标审批关键词命中函数和审批时长调整函数。接下来对训练摘要生成模型使用的损失函数进行重点介绍。

首先，训练所述摘要生成模型使用的损失函数包括目标审批关键词命中函数。所述目标审批关键词命中函数用于表征训练过程中将样本公文文本输入至所述摘要生成模型后，所输出的样本公文文本摘要中目标审批关键词的覆盖率差值。所述目标审批关键词是在公文数据库中查找与所述目标公文文本相同类型的样本公文文本对应的审批信息并提取到的。

本发明实施例中公文数据库中的各个公文文本可以作为训练摘要模型的样本，在本发明实施例中用于训练过程时称为样本公文文本。训练过程中将样本公文文本输入至所述摘要生成模型后，所输出的摘要称为样本公文文本摘要。此时，需要将该样本公文文本摘要通过本发明实施例提供的损失函数进行计算，具体而言可以将样本公文文本摘要分别通过损失函数的三个部分进行计算误差，实现对样本公文文本摘要的评价。

其中，目标审批关键词命中函数是用于评价样本公文文本摘要中目标审批关键词的覆盖率差值。目标审批关键词是公文文本的重要特征。由于公文文本不同于一般文本，具有特定的表达方式，不同类型的公文文本各自具有一些常用的关键词。此外，电子公文审批系统中，公文文本关联有相应的审批文本，公文文本常用的关键词均会常出现在不同的审批文本中，使得公文文本关联有相应的审批文本可以作为语料信息辅助摘要生成模型的训练。

具体地，本步骤中可以根据公文数据库中的公文文本及其审批信息生成目标审批关键词。为了体现关键词与公文文本特性之间的具体对应关系，目标审批关键词与公文文本的类型是相关的，一种公文文本的类型会对应一组目标审批关键词。

目标审批关键词通过如下步骤生成：首先，在公文数据库中查找所有样本公文文本的审批信息；然后，提取所述审批信息中的关键词；最后，根据所述样本公文文本的类型，将所述关键词添加到对应类型的公文文本的目标审批关键词。这样在训练摘要生成模型之前，本步骤中获取了不同类型的公文文本对应的目标审批关键词，后续无论使用何种类型的样本公文文本作为样本进行模型训练，只需要在训练过程中调用对应类型的目标审批关键词即可。

本发明实施例中的目标审批关键词是可以动态更新的。具体地，可以定期根据公文数据库中新加入的公文文本的审批信息，更新目标公文文本的对应类型的目标审批关键词。随着公文数据库中语料信息的逐渐丰富，目标审批关键词的生成也会逐渐完善，也可以随时增加该类公文文本中最新出现的词汇。

目标审批关键词命中函数是通过输出样本公文文本摘要中目标审批关键词的覆盖率差值，来实现对样本公文文本摘要是否满足公文文本特性的评价。如附图3所示，样本公文文本摘要中目标审批关键词的覆盖率差值通过如下方式计算得到：

S310，将所述样本公文文本摘要的文本内容，与所述样本公文文本摘要对应的对应类型的公文文本的目标审批关键词进行一一匹配。

本步骤主要用于判断样本公文文本摘要对应的对应类型的公文文本的各个目标审批关键词是否出现在了所生成的样本公文文本摘要的文本内容中。

S320，统计匹配过程中所述样本公文文本摘要命中所述目标审批关键词的关键句子和关键文字的比例。

如果目标审批关键词是否出现在了所生成的样本公文文本摘要的文本内容中，可以将对应的样本公文文本摘要的文本内容的文字认为是关键文字，关键文字所在的句子是关键句子。此时，可以将出现的关键文字以及关键句子分别进行标记。然后分别统计关键文字数量占样本公文文本摘要的所有文字数量的比例，以及关键句子数量占样本公文文本摘要的所有句子数量的比例。上述比例体现了样本公文文本摘要中关键信息的覆盖率，而从统计学的意义上看，关键信息占比足够高的摘要才能达到公文文本摘要生成的要求。

S330，将所述关键句子和关键文字的比例分别与预设的关键句子和关键文字的平均比例进行比较，得到所述样本公文文本摘要中目标审批关键词的覆盖率差值。

目标审批关键词命中函数为了调整模型参数，最终输出的是样本公文文本摘要中目标审批关键词的覆盖率差值，即样本公文文本摘要中关键信息的覆盖率与该类公文文本关键信息的平均覆盖率的差值。本步骤中在分别得到关键句子的覆盖率差值和关键文字的覆盖率差值后，再取两个差值的平均值，得到最终的覆盖率差值。

本步骤中，预设的关键句子和关键文字的平均比例属于较为理想的关键句子和关键文字的平均比例。该数值是模型训练前预计算得到的，可以根据一些人工生成的样本公文文本摘要，统计其关键句子和关键文字的平均比例后得到的。可以理解的是，不同类型的公文对应的关键句子和关键文字的平均比例是不同的，例如纪要对应的平均值相对较低，请示或批复等类型的公文对应的平均值相对较高，其他例子本发明实施例在此处不做赘述。

训练所述摘要生成模型使用的损失函数还包括审批时长调整函数；所述时长调整函数用于根据所述样本公文文本在电子审批系统中记录的审批时长与标准审批时长进行比较，训练所述摘要生成模型输出的公文文本摘要的长度。

现有技术中生成一般文本的摘要时，一般较少考虑摘要的长度问题。而本发明实施例注重解决大量公文审批工作的审批者带来了极大的阅读和批阅的工作量的问题，因此所生成的摘要的文本长度变得至关重要，影响着审批者的单位工作效率。对于公文数据库中的样本公文文本而言，其审批过程所用的时长通常也会记录在电子审批系统中，因此成为了训练文本摘要模型的另一语料信息。

本发明实施例中摘要的长度可以使用摘要的字数来确定，具体在抽取式摘要生成方法中，也可以通过抽取的句子的数量来确定。在训练摘要生成模型前，用户可以预先设置单份公文的预期审核时长，作为标准审批时长。在用户将样本公文文本输入至摘要生成模型训练时，将电子审批系统中记录的该样本公文文本的审批时长与标准审批时长进行比较，可以根据其差值作为审批时长调整函数的输出结果，用于调整摘要生成模型中与抽取句子数量相关的参数。

进一步地，为了防止所生成的摘要过于固定，本发明实施例还可以预先设置一个审批时长调整区间，可以将标准审批时长转化为标准审批时长区间。那么时长调整函数就用于根据所述样本公文文本在电子审批系统中记录的审批时长与标准审批时长区间进行比较，对摘要的长度确定了一个容忍区间，使得训练出的摘要生成模型所生成的摘要长度可以根据公文的实际情况可以灵活调整，兼顾了摘要生成的准确性和所需的时长。

本发明实施例训练所述摘要生成模型使用的损失函数还包括语法审核函数；所述语法审核函数用于根据所述样本公文文本摘要的语法特征调整所述摘要生成模型的参数。

语法审核函数审核的是所生成摘要的语法特征，包括语法的正确性、连贯性、可读性等特征，属于文本分析技术的范畴。现有技术中的摘要生成模型已对此设计了较为成熟鲁棒的损失函数，本发明实施例不做具体赘述。

本发明实施例提供的公文文本摘要生成方法，在使用抽取式摘要生成模型的基础上，通过将文本的分句及其权重作为模型的特征输入，考虑到了不同类型的公文文本的结构特征，并在训练摘要生成模型时利用公文数据库中审批文本、审批时长等丰富的语料信息，将目标审批关键词命中函数、审批时长调整函数等适用于公文文本自动审批场景的内容设计到了损失函数中，从更多的维度对摘要生成模型进行评价，不但使得所生成的公文文本摘要准确性更高，还能使得公文文本摘要生成的长度自适应地根据审批需求进行调整。

基于上述任一实施例，附图4示出了本发明实施例提供的公文文本摘要生成装置的结构示意图，具体内容如下：

分句处理模块401，用于分句对目标公文文本进行分句处理得到多个分句；

权重确定模块402，用于根据所述目标公文文本的类型得到各个分句对应的分句权重；

摘要生成模块403，用于将所述目标公文文本的多个分句以及对应的分句权重输入摘要生成模型，得到所述摘要生成模型输出的公文文本摘要；

本发明实施例提供的公文文本摘要生成装置，在使用抽取式摘要生成模型的基础上，通过将文本的分句及其权重作为模型的特征输入，考虑到了不同类型的公文文本的结构特征，并在训练摘要生成模型时利用公文数据库中审批文本、审批时长等丰富的语料信息，将目标审批关键词命中函数、审批时长调整函数等适用于公文文本自动审批场景的内容设计到了损失函数中，从更多的维度对摘要生成模型进行评价，不但使得所生成的公文文本摘要准确性更高，还能使得公文文本摘要生成的长度自适应地根据审批需求进行调整。

基于上述任一实施例，附图5示出了本发明实施例提供的电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)510、通信接口(CommunicationsInterface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行如下方法：

对目标公文文本进行分句处理得到多个分句；

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

对目标公文文本进行分句处理得到多个分句；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种公文文本摘要生成方法，其特征在于，所述方法包括：

对目标公文文本进行分句处理得到多个分句；

2.根据权利要求1所述的公文文本摘要生成方法，其特征在于，所述目标审批关键词通过如下步骤生成：

在公文数据库中查找所有样本公文文本的审批信息；

提取所述审批信息中的关键词；

3.根据权利要求2所述的公文文本摘要生成方法，其特征在于，所述样本公文文本摘要中目标审批关键词的覆盖率差值通过如下方式计算得到：

4.根据权利要求1所述的公文文本摘要生成方法，其特征在于，所述根据所述目标公文文本的类型得到各个分句对应的分句权重，具体包括：

5.根据权利要求4所述的公文文本摘要生成方法，其特征在于，所述目标公文文本的关键文本统计信息是通过人工标注公文数据库中同类型的目标公文文本的关键段落和关键语句得到的。

6.根据权利要求5所述的公文文本摘要生成方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的公文文本摘要生成方法，其特征在于，训练所述摘要生成模型使用的损失函数还包括审批时长调整函数；所述时长调整函数用于根据所述样本公文文本在电子审批系统中记录的审批时长与标准审批时长进行比较，训练所述摘要生成模型输出的公文文本摘要的长度。

8.根据权利要求1所述的公文文本摘要生成方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的公文文本摘要生成方法，其特征在于，训练所述摘要生成模型使用的损失函数还包括语法审核函数；所述语法审核函数用于根据所述样本公文文本摘要的语法特征调整所述摘要生成模型的参数。

10.根据权利要求1所述的公文文本摘要生成方法，其特征在于，根据标点符号的位置或根据预设的句子长度对目标公文文本进行分句处理得到多个分句。