CN114298012A - 生成长文本科技情报模型的优化方法 - Google Patents

生成长文本科技情报模型的优化方法 Download PDF

Info

Publication number
CN114298012A
CN114298012A CN202111675398.5A CN202111675398A CN114298012A CN 114298012 A CN114298012 A CN 114298012A CN 202111675398 A CN202111675398 A CN 202111675398A CN 114298012 A CN114298012 A CN 114298012A
Authority
CN
China
Prior art keywords
text
scientific
information
long
long text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111675398.5A
Other languages
English (en)
Other versions
CN114298012B (zh
Inventor
孙凤松
董琦
尚晓舟
杨焱煜
王锦宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Electronic and Information Technology of CETC
Original Assignee
China Academy of Electronic and Information Technology of CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Electronic and Information Technology of CETC filed Critical China Academy of Electronic and Information Technology of CETC
Priority to CN202111675398.5A priority Critical patent/CN114298012B/zh
Publication of CN114298012A publication Critical patent/CN114298012A/zh
Application granted granted Critical
Publication of CN114298012B publication Critical patent/CN114298012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提出了一种生成长文本科技情报模型的优化方法,包括:S100:获取模型生成的长文本科技情报;S200:对所述长文本科技情报进行用词准确程度评估;S300:对所述长文本科技情报进行语句连贯程度评估;S400:对所述长文本科技情报进行文章结构合理程度评估;S500:对所述长文本科技情报进行科技情报内容关联程度评估;S600:对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的评估结果加权计算得到长文本科技情报质量评估值;S700:根据质量评估值改进所述模型。根据本发明提供的生成长文本科技情报模型的优化方法,对使用者先验知识依赖较少,可对生成预训练模型等多种自然语言处理模型文本生成效果进行评估并对模型进行改进。

Description

生成长文本科技情报模型的优化方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种生成长文本科技情报模型的优化方法。
背景技术
随着自然语言处理技术在文本生成方面的应用愈加广泛,如何对生成的文本进行客观、量化的评价变得尤为关键,好的评价指标可以让人发现生成文本的优缺点所在,帮助找出模型改进的方向。现有的评价指标主要通过对生成文本与参照文本进行对比,差距越小,则文本生成的效果越好,但随着无监督学习的出现与成熟,针对没有参考可以对比的生成文本,现有的评价指标无法对其进行有效的评价。
长文本生成任务与机器翻译任务不同,是基于海量数据形成具有较强可读性、逻辑性长文本的任务。其处理过程是无监督学习,将预处理后相关科技情报的文本语料输入到预训练模型中进行训练,经过多轮迭代,训练出能较好地反映出科技情报的文本语料和输出之间映射关系的模型,然后输入情报话题,模型根据需求便可自动形成相应的长文本科技情报,因此不能用传统的自然语言处理评价指标进行评估,亟待寻找一种新的评估手段。
发明内容
本发明要解决的技术问题是如何确定长文本科技情报生成的质量,并据此对长文本生产模型进行改进。提供一种生成长文本科技情报模型的优化方法。
本发明提供一种生成长文本科技情报模型的优化方法,包括:
获取模型生成的长文本科技情报;
对所述长文本科技情报进行用词准确程度评估;
对所述长文本科技情报进行语句连贯程度评估;
对所述长文本科技情报进行文章结构合理程度评估;
对所述长文本科技情报进行科技情报内容关联程度评估;
对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的评估结果加权计算得到长文本科技情报质量评估值;
根据质量评估值改进所述模型。
根据本发明提供的生成长文本科技情报模型的优化方法,包括用词准确程度、语句连贯程度、文章结构合理程度以及科技情报内容关联程度四种评估指标,对使用者先验知识依赖较少,可以评估无参照的长文本科技情报,并有效减少成本,从而对生成预训练模型等多种自然语言处理模型文本生成效果进行评估并进一步对模型进行改进。
根据本发明的一些实施例,对所述长文本科技情报进行用词准确程度评估具体为:
Figure BDA0003451800920000021
其中,VA为用词准确程度,x为用词错误数量,xmax为用词错误数量上限,R为文本实际字数,
Figure BDA0003451800920000022
为基于文本实际字数的第一惩罚函数。
在本发明的一些实施例中,对所述长文本科技情报进行语句连贯程度评估具体为:
Figure BDA0003451800920000023
其中,SC为语句连贯程度,y为不通顺语句数量,ymax为不通顺语句数量上限,R为文本实际字数,
Figure BDA0003451800920000031
为基于文本实际字数的第一惩罚函数。
根据本发明的一些实施例,对所述长文本科技情报进行文章结构合理程度评估具体为:
Figure BDA0003451800920000032
其中,AS为文章结构合理性,z为不合理结构字数,R为文本实际字数,
Figure BDA0003451800920000033
为基于文本实际字数的第一惩罚函数。
在本发明的一些实施例中,所述第一惩罚函数具体为:
Figure BDA0003451800920000034
其中,S为参考字数,R为文本实际字数。
根据本发明的一些实施例,对所述长文本科技情报进行科技情报内容关联程度评估具体为:
在长文本科技情报中确定多个关键词,对多个关键词赋值,将关键词在长文本科技情报的次数与赋值的乘积求和,并乘以第二惩罚函数。
在本发明的一些实施例中,所述第二惩罚函数具体为:
Figure BDA0003451800920000035
其中,θ(R)为第二惩罚函数,S为参考字数,R为文本实际字数。
根据本发明的一些实施例,所述对多个关键词赋值之和为1。
在本发明的一些实施例中,在多个关键词中的一个为核心词汇,其余关键词为核心词汇的单个分解词,其中,对于核心词汇的赋值大于0.5。
根据本发明的一些实施例,在对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的结果加权计算得到长文本科技情报质量评估中,对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的权重之和为1。
附图说明
图1为根据本发明实施例的生成长文本科技情报模型的优化方法的流程示意图;
图2为根据本发明具体实施例中模型A、模型B和蓝皮书中的节选文本。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
在现有技术中,对长文本生成模型的评估主要通过计算生成文本与参考文本之间的词重叠率作为模型质量的评估标准,或通过训练文本评估模型来对文本进行评估,或者是通过将许多机器生成的文本与人工撰写的文本混合在一起,由专家来对混合的文本进行评估来确定结果。
在现有技术中存在以下技术问题:
(1)如果使用现有的文本评估指标或者训练评估模型评估文本的方法,就只能针对具有参照的短文本进行评估,无法评估无参照的长文本科技情报。
(2)如果使用专家评估的方法,需要有几十名专家来同时对文本进行评估,这种方法耗时、耗力并且成本高昂。
本发明旨在至少解部分上述技术问题,提供了一种生成长文本科技情报模型的优化方法。
本发明提供一种生成长文本科技情报模型的优化方法,如图1,包括:
S100:获取模型生成的长文本科技情报;
S200:对长文本科技情报进行用词准确程度评估;
S300:对长文本科技情报进行语句连贯程度评估;
S400:对长文本科技情报进行文章结构合理程度评估;
S500:对长文本科技情报进行科技情报内容关联程度评估;
S600:对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的评估结果加权计算得到长文本科技情报质量评估值;
S700:根据质量评估值改进模型。
其中,在步骤S700中,可以根据用词准确程度、语句连贯程度、文章结构合理程度以及科技情报内容关联程度四项评估指标,分别针对模型的上述四个参数进行优化和改进,也可以根据在步骤S600中获得长文本科技情报质量评估值,对长本文生成模型进行比较和筛选,从而选出较为优化的模型,以实现对模型的改进。并且,步骤S200~S500可以互换顺序或同时进行。
根据本发明提供的生成长文本科技情报模型的优化方法,包括用词准确程度、语句连贯程度、文章结构合理程度以及科技情报内容关联程度四种评估指标,对使用者先验知识依赖较少,可以评估无参照的长文本科技情报,并有效减少成本,从而对生成预训练模型等多种自然语言处理模型文本生成效果进行评估并进一步对模型进行改进。
根据本发明的一些实施例,步骤S200中,对长文本科技情报进行用词准确程度评估具体为:
Figure BDA0003451800920000051
其中,VA为用词准确程度,x为用词错误数量,xmax为用词错误数量上限,R为文本实际字数,
Figure BDA0003451800920000052
为基于文本实际字数的第一惩罚函数。其中,当用词错误数量等于用词错误数量上限时,用词准确程度的评估结果为0。
在本发明的一些实施例中,步骤S300中,对长文本科技情报进行语句连贯程度评估具体为:
Figure BDA0003451800920000053
其中,SC为语句连贯程度,y为不通顺语句数量,ymax为不通顺语句数量上限,R为文本实际字数,
Figure BDA0003451800920000061
为基于文本实际字数的第一惩罚函数。其中,当不通顺语句数量等于不通顺语句数量上限时,语句连贯程度的评估结果为0。
根据本发明的一些实施例,步骤S400中,对长文本科技情报进行文章结构合理程度评估具体为:
Figure BDA0003451800920000062
其中,AS为文章结构合理性,z为不合理结构字数,S为参考字数,R为文本实际字数,
Figure BDA0003451800920000063
为基于文本实际字数的第一惩罚函数。其中,当不合理结构字数超过文本真实字数时,文章结构合理性的评估结果为0。
在本发明的一些实施例中,第一惩罚函数具体为:
Figure BDA0003451800920000064
其中,S为参考字数,R为文本实际字数。具体而言,用词准确程度、句子连贯程度和文章结构的合理程度会受文字实际数目的影响,文本实际的文字数量越少,上述三个评估指标的取值也会越高,因此通过第一惩罚函数,对上述三个评估指标的结果进行修正。
根据本发明的一些实施例,步骤S500中,对长文本科技情报进行科技情报内容关联程度评估具体为:
在长文本科技情报中确定多个关键词,对多个关键词赋值,将关键词在长文本科技情报的次数与赋值的乘积求和,并乘以第二惩罚函数。
具体而言,对科技情报的内容本身,提出来了关于科技情报内容关联程度指标CR。首先确定关键词词典,针对所输入的初始话题,建立词典,赋予权重,例如,输入“在相控阵雷达领域”,那么建立关键词词典如下:{“相控阵雷达”:A=0.6,“相控阵”:B=0.3,“雷达”:C=0.1},词典中元素取值之和为1。词典的赋值规则为赋予整个核心词汇大于0.5的权重,然后根据重点将剩余权重值分配给核心词汇的单个分解词语。
然后确定科技情报中介绍的知识点为多少。对每个知识点,判断其关键词,然后根据其关键词进行赋值,得出具有u个A关键词,v个B关键词,w个C关键词,最后对所有知识点的赋值求和,并将求和的结果乘以第二惩罚函数进行修正。则科技情报内容关联程度:
CR=(uA+vB+wC)θ(R)。
在本发明的一些实施例中,第二惩罚函数具体为:
Figure BDA0003451800920000071
其中,θ(R)为第二惩罚函数,S为参考字数,R为文本实际字数。具体而言,对于科技情报内容关联程度评估指标,由于知识点数量会受文字数量影响,随着文字量的增加,科技情报内的知识点得关键词的数量也会随之增加,因此通过第二惩罚函数,对科技情报内容关联程度评估指标的结果进行修正。
根据本发明的一些实施例,对多个关键词赋值之和为1。
在本发明的一些实施例中,在多个关键词中的一个为核心词汇,其余关键词为核心词汇的单个分解词,其中,对于核心词汇的赋值大于0.5。
根据本发明的一些实施例,在对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的结果加权计算得到长文本科技情报质量评估中,对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的权重之和为1。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
下面结合具体实施例,进一步验证本发明的技术效果。应理解的是,这些实施例仅用于说明本发明而不用于限制本发明的范围。
将中国工程院于2020年发布的一份蓝皮书中关于反导领域的一段文本,与选取10000条维基百科数据加1000条专业文献语料与10万条维基百科加10000条专业文献语料训练出两个生成预训练模型A、B生成的文本进行对比,通过实验验证上述的长文本科技情报质量评估指标,如图1。
其中,用词错误数量上限xmax设为10,不通顺语句数量上限ymax设为5。
对于上述的文本,首先建立关键词权重词典{“舰载雷达”:0.4,“舰载”:0.1,“雷达”:0.1,“射频”:0.2,“海基反导”:0.2}。
GPT-2模型A生成的长文本科技情报,其错误用词数为3;其不连贯语句数为1;其不合理结构字数131;文本实际文字数目为508;其具有1个关键词为“雷达”的知识点。
GPT-2模型B生成的长文本科技情报,其错误用词数为1;其不连贯语句数为0;其不合理结构字数为0;文本实际文字数目为496;其具有2个关键词为“射频”的知识点,2个关键词为“雷达”的知识点。
蓝皮书中科技情报,其错误用词数为0;其不连贯语句数为0;其不合理结构字数为0;文本实际文字数目为471;其具有1个关键词为“舰载雷达”的知识点,1个关键词为“射频”的知识点,1个关键词为“海基反导”的知识点。
三段科技情报的评估结果如下表所示。
VA SC AS CR EXT
GPT-2模型A 0.6005 0.6862 0.6366 0.0763 0.4152
GPT-2模型B 0.7568 0.8409 0.8409 0.4720 0.6765
官方科技情报 0.8065 0.8065 0.8065 0.6699 0.7519
根据上表结论可以得出模型A生成文本质量最低,模型B生成的文本次之,蓝皮书中文本质量最好,这与主观的评价相符,证明了评估指标体系的可行性。通过上述评估结果,可以量化模型生成的长文本的用词准确程度、语句连贯程度、文章结构合理程度以及科技情报内容关联程度四种评估指标,从而有针对性的对模型进行改进。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (10)

1.一种生成长文本科技情报模型的优化方法,其特征在于,包括:
获取模型生成的长文本科技情报;
对所述长文本科技情报进行用词准确程度评估;
对所述长文本科技情报进行语句连贯程度评估;
对所述长文本科技情报进行文章结构合理程度评估;
对所述长文本科技情报进行科技情报内容关联程度评估;
对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的评估结果加权计算得到长文本科技情报质量评估值;
根据质量评估值改进所述模型。
2.根据权利要求1所述的生成长文本科技情报模型的优化方法,其特征在于,对所述长文本科技情报进行用词准确程度评估具体为:
Figure FDA0003451800910000011
其中,VA为用词准确程度,x为用词错误数量,xmax为用词错误数量上限,R为文本实际字数,
Figure FDA0003451800910000012
为基于文本实际字数的第一惩罚函数。
3.根据权利要求1所述的生成长文本科技情报模型的优化方法,其特征在于,对所述长文本科技情报进行语句连贯程度评估具体为:
Figure FDA0003451800910000013
其中,SC为语句连贯程度,y为不通顺语句数量,ymax为不通顺语句数量上限,R为文本实际字数,
Figure FDA0003451800910000014
为基于文本实际字数的第一惩罚函数。
4.根据权利要求1所述的生成长文本科技情报模型的优化方法,其特征在于,对所述长文本科技情报进行文章结构合理程度评估具体为:
Figure FDA0003451800910000015
其中,AS为文章结构合理性,z为不合理结构字数,R为文本实际字数,
Figure FDA0003451800910000021
为基于文本实际字数的第一惩罚函数。
5.根据权利要求2~4中任一项所述的生成长文本科技情报模型的优化方法,其特征在于,所述第一惩罚函数具体为:
Figure FDA0003451800910000022
其中,S为参考字数,R为文本实际字数。
6.根据权利要求1所述的生成长文本科技情报模型的优化方法,其特征在于,对所述长文本科技情报进行科技情报内容关联程度评估具体为:
在长文本科技情报中确定多个关键词,对多个关键词赋值,将关键词在长文本科技情报的次数与赋值的乘积求和,并乘以第二惩罚函数。
7.根据权利要求6所述的生成长文本科技情报模型的优化方法,其特征在于,所述第二惩罚函数具体为:
Figure FDA0003451800910000023
其中,θ(R)为第二惩罚函数,S为参考字数,R为文本实际字数。
8.根据权利要求6所述的生成长文本科技情报模型的优化方法,其特征在于,所述对多个关键词赋值之和为1。
9.根据权利要求8所述的生成长文本科技情报模型的优化方法,其特征在于,在多个关键词中的一个为核心词汇,其余关键词为核心词汇的单个分解词,其中,对于核心词汇的赋值大于0.5。
10.根据权利要求1所述的生成长文本科技情报模型的优化方法,其特征在于,在对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的结果加权计算得到长文本科技情报质量评估中,对词准确程度、句子连贯程度、文章结构合理程度和科技情报内容关联程度的权重之和为1。
CN202111675398.5A 2021-12-31 2021-12-31 生成长文本科技情报模型的优化方法 Active CN114298012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111675398.5A CN114298012B (zh) 2021-12-31 2021-12-31 生成长文本科技情报模型的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111675398.5A CN114298012B (zh) 2021-12-31 2021-12-31 生成长文本科技情报模型的优化方法

Publications (2)

Publication Number Publication Date
CN114298012A true CN114298012A (zh) 2022-04-08
CN114298012B CN114298012B (zh) 2022-10-25

Family

ID=80975715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111675398.5A Active CN114298012B (zh) 2021-12-31 2021-12-31 生成长文本科技情报模型的优化方法

Country Status (1)

Country Link
CN (1) CN114298012B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN110020047A (zh) * 2017-10-25 2019-07-16 长治市科技情报研究所 一种科技情报信息管理系统
CN110287314A (zh) * 2019-05-20 2019-09-27 中国科学院计算技术研究所 基于无监督聚类的长文本可信度评估方法及系统
CN111241817A (zh) * 2020-01-20 2020-06-05 首都医科大学 一种基于文本的抑郁症识别方法
CN111737475A (zh) * 2020-07-21 2020-10-02 南京擎盾信息科技有限公司 一种无监督的网络舆情垃圾长文本识别方法
CN112329433A (zh) * 2020-11-10 2021-02-05 平安科技(深圳)有限公司 文本通顺度检测方法、装置、设备及计算机可读存储介质
CN112667815A (zh) * 2020-12-30 2021-04-16 北京捷通华声科技股份有限公司 文本处理方法、装置、计算机可读存储介质及处理器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN110020047A (zh) * 2017-10-25 2019-07-16 长治市科技情报研究所 一种科技情报信息管理系统
CN110287314A (zh) * 2019-05-20 2019-09-27 中国科学院计算技术研究所 基于无监督聚类的长文本可信度评估方法及系统
CN111241817A (zh) * 2020-01-20 2020-06-05 首都医科大学 一种基于文本的抑郁症识别方法
CN111737475A (zh) * 2020-07-21 2020-10-02 南京擎盾信息科技有限公司 一种无监督的网络舆情垃圾长文本识别方法
CN112329433A (zh) * 2020-11-10 2021-02-05 平安科技(深圳)有限公司 文本通顺度检测方法、装置、设备及计算机可读存储介质
CN112667815A (zh) * 2020-12-30 2021-04-16 北京捷通华声科技股份有限公司 文本处理方法、装置、计算机可读存储介质及处理器

Also Published As

Publication number Publication date
CN114298012B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN110647619B (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN106202059B (zh) 机器翻译方法以及机器翻译装置
Kumar et al. Get it scored using autosas—an automated system for scoring short answers
Waterman et al. Protocol analysis as a task for artificial intelligence
Kyle Measuring lexical richness
CN112434517B (zh) 一种结合主动学习的社区问答网站答案排序方法及系统
CN104731777A (zh) 一种译文评价方法及装置
CN109766421A (zh) 智能问答系统以及方法
CN111428490B (zh) 一种利用语言模型的指代消解弱监督学习方法
CN110852069A (zh) 一种文本相关性评分方法及系统
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN110347833B (zh) 一种多轮对话的分类方法
CN115062070A (zh) 一种基于问答的文本表格数据查询方法
CN110110066B (zh) 一种交互数据处理方法、装置以及计算机可读存储介质
Yadav et al. A comparative study of deep learning methods for hate speech and offensive language detection in textual data
CN114298012B (zh) 生成长文本科技情报模型的优化方法
CN110705318B (zh) 一种机器翻译引擎测评优选方法及系统
CN112989803A (zh) 一种基于主题向量学习的实体链接模型
JP7303243B2 (ja) 試験問題予測システム及び試験問題予測方法
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN112667492B (zh) 一种软件缺陷报告修复人推荐方法
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
Naulla et al. Predicting the Next Word of a Sinhala Word Series Using Recurrent Neural Networks
KR102636868B1 (ko) 머신 러닝을 이용한 멘토-멘티의 그룹 매칭 시스템 및 멘토-멘티의 그룹 매칭 방법
CN114490932B (zh) 基于文本相似度和关键字的语义推测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant