CN114298012A

CN114298012A - 生成长文本科技情报模型的优化方法

Info

Publication number: CN114298012A
Application number: CN202111675398.5A
Authority: CN
Inventors: 孙凤松; 董琦; 尚晓舟; 杨焱煜; 王锦宇
Original assignee: China Academy of Electronic and Information Technology of CETC
Current assignee: China Academy of Electronic and Information Technology of CETC
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-08
Anticipated expiration: 2041-12-31
Also published as: CN114298012B

Abstract

本发明提出了一种生成长文本科技情报模型的优化方法，包括：S100：获取模型生成的长文本科技情报；S200：对所述长文本科技情报进行用词准确程度评估；S300：对所述长文本科技情报进行语句连贯程度评估；S400：对所述长文本科技情报进行文章结构合理程度评估；S500：对所述长文本科技情报进行科技情报内容关联程度评估；S600：对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的评估结果加权计算得到长文本科技情报质量评估值；S700：根据质量评估值改进所述模型。根据本发明提供的生成长文本科技情报模型的优化方法，对使用者先验知识依赖较少，可对生成预训练模型等多种自然语言处理模型文本生成效果进行评估并对模型进行改进。

Description

生成长文本科技情报模型的优化方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种生成长文本科技情报模型的优化方法。

背景技术

随着自然语言处理技术在文本生成方面的应用愈加广泛，如何对生成的文本进行客观、量化的评价变得尤为关键，好的评价指标可以让人发现生成文本的优缺点所在，帮助找出模型改进的方向。现有的评价指标主要通过对生成文本与参照文本进行对比，差距越小，则文本生成的效果越好,但随着无监督学习的出现与成熟，针对没有参考可以对比的生成文本，现有的评价指标无法对其进行有效的评价。

长文本生成任务与机器翻译任务不同，是基于海量数据形成具有较强可读性、逻辑性长文本的任务。其处理过程是无监督学习，将预处理后相关科技情报的文本语料输入到预训练模型中进行训练，经过多轮迭代，训练出能较好地反映出科技情报的文本语料和输出之间映射关系的模型，然后输入情报话题，模型根据需求便可自动形成相应的长文本科技情报，因此不能用传统的自然语言处理评价指标进行评估，亟待寻找一种新的评估手段。

发明内容

本发明要解决的技术问题是如何确定长文本科技情报生成的质量，并据此对长文本生产模型进行改进。提供一种生成长文本科技情报模型的优化方法。

本发明提供一种生成长文本科技情报模型的优化方法，包括：

获取模型生成的长文本科技情报；

对所述长文本科技情报进行用词准确程度评估；

对所述长文本科技情报进行语句连贯程度评估；

对所述长文本科技情报进行文章结构合理程度评估；

对所述长文本科技情报进行科技情报内容关联程度评估；

对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的评估结果加权计算得到长文本科技情报质量评估值；

根据质量评估值改进所述模型。

根据本发明提供的生成长文本科技情报模型的优化方法，包括用词准确程度、语句连贯程度、文章结构合理程度以及科技情报内容关联程度四种评估指标，对使用者先验知识依赖较少，可以评估无参照的长文本科技情报，并有效减少成本，从而对生成预训练模型等多种自然语言处理模型文本生成效果进行评估并进一步对模型进行改进。

根据本发明的一些实施例，对所述长文本科技情报进行用词准确程度评估具体为：

其中，VA为用词准确程度，x为用词错误数量，x_max为用词错误数量上限，R为文本实际字数，

为基于文本实际字数的第一惩罚函数。

在本发明的一些实施例中，对所述长文本科技情报进行语句连贯程度评估具体为：

其中，SC为语句连贯程度，y为不通顺语句数量，y_max为不通顺语句数量上限，R为文本实际字数，

为基于文本实际字数的第一惩罚函数。

根据本发明的一些实施例，对所述长文本科技情报进行文章结构合理程度评估具体为：

其中，AS为文章结构合理性，z为不合理结构字数，R为文本实际字数，

为基于文本实际字数的第一惩罚函数。

在本发明的一些实施例中，所述第一惩罚函数具体为：

其中，S为参考字数，R为文本实际字数。

根据本发明的一些实施例，对所述长文本科技情报进行科技情报内容关联程度评估具体为：

在长文本科技情报中确定多个关键词，对多个关键词赋值，将关键词在长文本科技情报的次数与赋值的乘积求和，并乘以第二惩罚函数。

在本发明的一些实施例中，所述第二惩罚函数具体为：

其中，θ(R)为第二惩罚函数，S为参考字数，R为文本实际字数。

根据本发明的一些实施例，所述对多个关键词赋值之和为1。

在本发明的一些实施例中，在多个关键词中的一个为核心词汇，其余关键词为核心词汇的单个分解词，其中，对于核心词汇的赋值大于0.5。

根据本发明的一些实施例，在对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的结果加权计算得到长文本科技情报质量评估中，对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的权重之和为1。

附图说明

图1为根据本发明实施例的生成长文本科技情报模型的优化方法的流程示意图；

图2为根据本发明具体实施例中模型A、模型B和蓝皮书中的节选文本。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

在现有技术中，对长文本生成模型的评估主要通过计算生成文本与参考文本之间的词重叠率作为模型质量的评估标准，或通过训练文本评估模型来对文本进行评估，或者是通过将许多机器生成的文本与人工撰写的文本混合在一起，由专家来对混合的文本进行评估来确定结果。

在现有技术中存在以下技术问题：

(1)如果使用现有的文本评估指标或者训练评估模型评估文本的方法，就只能针对具有参照的短文本进行评估，无法评估无参照的长文本科技情报。

(2)如果使用专家评估的方法，需要有几十名专家来同时对文本进行评估，这种方法耗时、耗力并且成本高昂。

本发明旨在至少解部分上述技术问题，提供了一种生成长文本科技情报模型的优化方法。

本发明提供一种生成长文本科技情报模型的优化方法，如图1，包括：

S100：获取模型生成的长文本科技情报；

S200：对长文本科技情报进行用词准确程度评估；

S300：对长文本科技情报进行语句连贯程度评估；

S400：对长文本科技情报进行文章结构合理程度评估；

S500：对长文本科技情报进行科技情报内容关联程度评估；

S600：对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的评估结果加权计算得到长文本科技情报质量评估值；

S700：根据质量评估值改进模型。

其中，在步骤S700中，可以根据用词准确程度、语句连贯程度、文章结构合理程度以及科技情报内容关联程度四项评估指标，分别针对模型的上述四个参数进行优化和改进，也可以根据在步骤S600中获得长文本科技情报质量评估值，对长本文生成模型进行比较和筛选，从而选出较为优化的模型，以实现对模型的改进。并且，步骤S200～S500可以互换顺序或同时进行。

根据本发明的一些实施例，步骤S200中，对长文本科技情报进行用词准确程度评估具体为：

为基于文本实际字数的第一惩罚函数。其中，当用词错误数量等于用词错误数量上限时，用词准确程度的评估结果为0。

在本发明的一些实施例中，步骤S300中，对长文本科技情报进行语句连贯程度评估具体为：

为基于文本实际字数的第一惩罚函数。其中，当不通顺语句数量等于不通顺语句数量上限时，语句连贯程度的评估结果为0。

根据本发明的一些实施例，步骤S400中，对长文本科技情报进行文章结构合理程度评估具体为：

其中，AS为文章结构合理性，z为不合理结构字数，S为参考字数，R为文本实际字数，

为基于文本实际字数的第一惩罚函数。其中，当不合理结构字数超过文本真实字数时，文章结构合理性的评估结果为0。

在本发明的一些实施例中，第一惩罚函数具体为：

其中，S为参考字数，R为文本实际字数。具体而言，用词准确程度、句子连贯程度和文章结构的合理程度会受文字实际数目的影响，文本实际的文字数量越少，上述三个评估指标的取值也会越高，因此通过第一惩罚函数，对上述三个评估指标的结果进行修正。

根据本发明的一些实施例，步骤S500中，对长文本科技情报进行科技情报内容关联程度评估具体为：

具体而言，对科技情报的内容本身，提出来了关于科技情报内容关联程度指标CR。首先确定关键词词典，针对所输入的初始话题，建立词典，赋予权重，例如，输入“在相控阵雷达领域”，那么建立关键词词典如下：{“相控阵雷达”：A＝0.6，“相控阵”：B＝0.3，“雷达”：C＝0.1}，词典中元素取值之和为1。词典的赋值规则为赋予整个核心词汇大于0.5的权重，然后根据重点将剩余权重值分配给核心词汇的单个分解词语。

然后确定科技情报中介绍的知识点为多少。对每个知识点，判断其关键词，然后根据其关键词进行赋值，得出具有u个A关键词，v个B关键词，w个C关键词，最后对所有知识点的赋值求和，并将求和的结果乘以第二惩罚函数进行修正。则科技情报内容关联程度：

CR＝(uA+vB+wC)θ(R)。

在本发明的一些实施例中，第二惩罚函数具体为：

其中，θ(R)为第二惩罚函数，S为参考字数，R为文本实际字数。具体而言，对于科技情报内容关联程度评估指标，由于知识点数量会受文字数量影响，随着文字量的增加，科技情报内的知识点得关键词的数量也会随之增加，因此通过第二惩罚函数，对科技情报内容关联程度评估指标的结果进行修正。

根据本发明的一些实施例，对多个关键词赋值之和为1。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

下面结合具体实施例，进一步验证本发明的技术效果。应理解的是，这些实施例仅用于说明本发明而不用于限制本发明的范围。

将中国工程院于2020年发布的一份蓝皮书中关于反导领域的一段文本，与选取10000条维基百科数据加1000条专业文献语料与10万条维基百科加10000条专业文献语料训练出两个生成预训练模型A、B生成的文本进行对比，通过实验验证上述的长文本科技情报质量评估指标，如图1。

其中，用词错误数量上限x_max设为10，不通顺语句数量上限y_max设为5。

对于上述的文本，首先建立关键词权重词典{“舰载雷达”：0.4，“舰载”：0.1，“雷达”：0.1，“射频”：0.2，“海基反导”：0.2}。

GPT-2模型A生成的长文本科技情报，其错误用词数为3；其不连贯语句数为1；其不合理结构字数131；文本实际文字数目为508；其具有1个关键词为“雷达”的知识点。

GPT-2模型B生成的长文本科技情报，其错误用词数为1；其不连贯语句数为0；其不合理结构字数为0；文本实际文字数目为496；其具有2个关键词为“射频”的知识点，2个关键词为“雷达”的知识点。

蓝皮书中科技情报，其错误用词数为0；其不连贯语句数为0；其不合理结构字数为0；文本实际文字数目为471；其具有1个关键词为“舰载雷达”的知识点，1个关键词为“射频”的知识点，1个关键词为“海基反导”的知识点。

三段科技情报的评估结果如下表所示。

	VA	SC	AS	CR	EXT
						GPT-2模型A	0.6005	0.6862	0.6366	0.0763	0.4152
GPT-2模型B	0.7568	0.8409	0.8409	0.4720	0.6765
						官方科技情报	0.8065	0.8065	0.8065	0.6699	0.7519

根据上表结论可以得出模型A生成文本质量最低，模型B生成的文本次之，蓝皮书中文本质量最好，这与主观的评价相符，证明了评估指标体系的可行性。通过上述评估结果，可以量化模型生成的长文本的用词准确程度、语句连贯程度、文章结构合理程度以及科技情报内容关联程度四种评估指标，从而有针对性的对模型进行改进。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种生成长文本科技情报模型的优化方法，其特征在于，包括：

获取模型生成的长文本科技情报；

对所述长文本科技情报进行用词准确程度评估；

对所述长文本科技情报进行语句连贯程度评估；

对所述长文本科技情报进行文章结构合理程度评估；

对所述长文本科技情报进行科技情报内容关联程度评估；

根据质量评估值改进所述模型。

2.根据权利要求1所述的生成长文本科技情报模型的优化方法，其特征在于，对所述长文本科技情报进行用词准确程度评估具体为：

为基于文本实际字数的第一惩罚函数。

3.根据权利要求1所述的生成长文本科技情报模型的优化方法，其特征在于，对所述长文本科技情报进行语句连贯程度评估具体为：

为基于文本实际字数的第一惩罚函数。

4.根据权利要求1所述的生成长文本科技情报模型的优化方法，其特征在于，对所述长文本科技情报进行文章结构合理程度评估具体为：

为基于文本实际字数的第一惩罚函数。

5.根据权利要求2～4中任一项所述的生成长文本科技情报模型的优化方法，其特征在于，所述第一惩罚函数具体为：

其中，S为参考字数，R为文本实际字数。

6.根据权利要求1所述的生成长文本科技情报模型的优化方法，其特征在于，对所述长文本科技情报进行科技情报内容关联程度评估具体为：

7.根据权利要求6所述的生成长文本科技情报模型的优化方法，其特征在于，所述第二惩罚函数具体为：

8.根据权利要求6所述的生成长文本科技情报模型的优化方法，其特征在于，所述对多个关键词赋值之和为1。

9.根据权利要求8所述的生成长文本科技情报模型的优化方法，其特征在于，在多个关键词中的一个为核心词汇，其余关键词为核心词汇的单个分解词，其中，对于核心词汇的赋值大于0.5。

10.根据权利要求1所述的生成长文本科技情报模型的优化方法，其特征在于，在对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的结果加权计算得到长文本科技情报质量评估中，对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的权重之和为1。