CN113901840A

CN113901840A - 一种基于多粒度特征的文本生成评价方法

Info

Publication number: CN113901840A
Application number: CN202111078487.1A
Authority: CN
Inventors: 赖华; 高玉梦; 余正涛; 黄于欣; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-01-07
Anticipated expiration: 2041-09-15
Also published as: CN113901840B

Abstract

本发明涉及一种基于多粒度特征的文本生成评价方法。为了获取不同粒度特征的语义表示，本发明首先采用MBERT得到参考句与生成句的子词序列并进行向量表征；基于此，根据构成音节与词组的子词组合，结合不同子词语义向量表征得到音节语义向量表征以及词组语义向量表征；其次，采用贪婪匹配分别对参考句与生成句不同粒度下的语义特征向量进行最大余弦相似度计算，使模型在多个粒度上考虑两个句子间的语义相关关系；最后，结合多粒度特征对生成句打分。本发明从子词、音节、词组三个粒度考虑，更大化的包容不同字词结构之间的差异性，能够更准确评估生成系统模型的好坏，同时也能有效引导生成模型提升性能。

Description

一种基于多粒度特征的文本生成评价方法

技术领域

本发明涉及一种基于多粒度特征的文本生成评价方法，属于自然语言处理技术领域。

背景技术

机器翻译、文本摘要等生成任务得到了广泛的研究，取得了令人瞩目的成就，但针对这类任务的生成文本质量评价仍是一个难点问题。一个与人类评价相关度高的自动评价指标，不仅对准确评估生成系统模型的好坏起到了至关重要的作用，而且能够有效引导生成模型提升性能。

文本生成评价可以看作一个计算生成句和标准参考句之间相似度的任务，可分为基于统计的方法和基于语义相似度的方法两类。基于统计的方法一般是计算生成句和参考句之间的不同粒度语义单元的共现程度来评价模型性能，虽然基于统计的方法能够很好的表征句子之间的重叠度，但是缺乏对句子深层语义的建模。常出现两个句子语义相近，但是重叠的词很少，限制了词汇和成分多样性。

近年来，基于预训练语言模型的语义相似度评价方法很多，其基本的思想是利用预训练语言模型来提取语义特征，基于此进行语义匹配。如Zhang等人提出BERTScore，基于预训练语言模型将参考句与生成句进行子词切分，将子词序列输入预训练语言模型得到子词语义向量表征，采用贪婪匹配计算参考句与生成句子词语义向量表征间余弦相似度，并累加子词最大余弦相似度得分。但在越南语、泰语等存在大量黏着语素的语言中多数子词并不具有完整的语义，基于子词粒度的对应关系不能很好的反映语义之间的相似关系。在此基础上，本专利在MBERT进行子词语义表征的基础上，对音节、词组等能更完整表达语义的单位进行语义表征，采用多粒度特征匹配来评价生成句与参考句之间的相似性。本发明从子词、音节、词组三个粒度考虑，更大化的包容不同字词结构之间的差异性，进一步增强基于子词语义特征匹配的自动评价方法。

发明内容

本发明提供了一种基于多粒度特征的文本生成评价方法，以用于解决传统基于统计的评价方法中存在的词汇多样性评价能力弱的问题，以及基于子词粒度深度语义匹配的评价方法不能很好的反映生成句与参考句间的语义关系的问题。

本发明的技术方案是：一种基于多粒度特征的文本生成评价方法，所述一种基于多粒度特征的文本生成评价方法的具体步骤如下：

Step1、从互联网采集数据，对数据进行预处理，构造文本生成测评任务数据集；所述文本生成测评任务数据集数据格式为：参考句-生成句，并对数据集进行人工评价；

Step2、在上述构造的文本生成测评任务数据集基础上，对参考句X与生成句Y输入MBERT预训练语言模型进行子词切分并进行子词向量表征，得到参考句子词序列E_x与生成句子词序列E_Y，以及参考句子词序列语义向量表征E_X与生成句子词序列语义向量表征E_Y；

Step3、利用对应语言音节切分工具，对参考句X与生成句Y进行音节切分，得到参考句音节序列Z_X与生成句音节序列Z_Y，并结合Step2，得到参考句音节序列语义向量表征Z_X与生成句音节序列语义向量表征Z_Y；

Step4、利用对应语言分词工具，对参考句X与生成句Y进行词组切分，得到参考句词组序列W_X与生成句词组序列W_Y，并结合Step3，得到参考句词组序列语义向量表征W_X与生成句词组序列语义向量表征W_Y；

Step5、基于Step2计算子词粒度下生成句的召回率、精确率、以及F_E值；

Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及F_Z值；

Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及F_W值；

Step8、结合各粒度下的召回率、精确率与F值，综合考虑各粒度特征，确定生成句最终的召回率R、精确率P与F值。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、构造机器翻译测评数据集：从互联网采集越南语、泰语、中文数据并人工进行处理，得到越南语、泰语、中文句子，作为参考句，利用谷歌翻译得到生成句；

Step1.2、构造跨语言摘要测评数据集：采用公开的中文短文本摘要数据集LCSTS，数据格式为：中文摘要—中文文档，其中，中文摘要翻译成越南语作为参考句；将中文文档输入跨语言摘要模型得到越南语生成摘要；

Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价，人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到；打分时，以参考句为基准，综合考虑生成句的相关性、一致性和流畅性，打分范围为以1到5分(1最差，5最好)。

作为本发明的优选方案，所述步骤Step1.1的具体步骤：

Step1.1.1、过滤越南语、泰语、中文数据少于10个字符的句子：

Step1.1.2、过滤句子中的特殊字符；

Step1.1.3、并在每个语言中各挑出200个句子，作为越南语/泰语/中文参考句；

Step1.1.4、将参考句，利用谷歌翻译模型进行回译(将A语言的正向翻译成B，在将B反向翻译成A)的方式，反向翻译得到目标语言生成句。

作为本发明的优选方案，所述步骤Step1.2的具体步骤：

Step1.2.1、从LCST抽取200个摘要对，数据格式为：中文摘要—中文文档；

Step1.2.2、将中文摘要翻译为越南语摘要，作为越南语参考摘要；

Step1.2.3、方法一：跨语言摘要模型采用传统的基线方法先摘要后翻译(ST)，将中文文档输入LexRank(无监督的抽取式摘要模型)，得到中文生成摘要；在将中文生成摘要输入谷歌翻译模型，得到越南语生成摘要；

Step1.2.4、方法二：跨语言摘要模型采用传统的基线方法先翻译后摘要(TS)，将中文摘要与文档采用谷歌翻译模型翻译成越南语后，输入LexRank，得到越南语生成摘要。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、利用MBERT模型中的WordPiece模块，对参考句X与生成句Y进行子词粒度切分得到参考句子词序列E_x＝{e_x1,e_x2,e_x3,…,e_xn}与生成句子词序列E_Y＝{e_y1,e_y2,e_y3,…,e_ym}，其中，e_xn表示参考句X中第n个子词；e_ym表示生成句Y中第m个子词；

Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列E_x＝{e_x1,e_x2,e_x3,…,e_xn}，e_xn表示参考句X中第n个子词；

{e_x1,e_x2,e_x3,…,e_xn}＝WordPiece(X) (2)

其中，WordPiece表示采用WordPiece模块对句子进行子词切分。

Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列E_Y＝{e_y1，e_y2，e_y3，…，e_ym}，e_ym表示生成句Y中第m个子词；

{e_y1，e_y2，e_y3，…，e_ym}＝WordPiece(Y) (3)

其中，WordPiece表示采用WordPiece模块对句子进行子词切分。

Step2.4、将得到的参考句子词序列E_x输入MBERT模型，对其进行上下文嵌入得到参考句子词序列语义向量表征E_X＝{e_xcls，e_x1，e_x2，e_x3，…，e_xn，e_xsep}，e_xn表示参考句X中第n个子词的向量表征；

{e_xcls，e_x1，e_x2，e_x3，…，e_xn，e_xsep}＝MBERT{[cls]，e_x1，e_x2，e_x3，…，e_xn，[sep]} (4)

其中，MBERT表示Multilingual BERT词嵌入；[cls]表示句子的起始标志位；[sep]表示句子的结束标志位；

Step2.5、将得到的生成句子词序列E_Y输入MBERT模型，对其进行上下文嵌入得到生成句的子词序列语义向量表征E_Y＝{e_ycls，e_y1，e_y2，e_y3，…，e_ym，e_ysep}，e_ym表示生成句Y中第m个子词的向量表征；

{e_ycls，e_y1，e_y2，e_y3，…，e_ym，e_ysep}＝MBERT{[cls]，e_y1，e_y2，e_y3，…，e_ym，[sep]} (5)

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、使用分词工具对参考句进行音节切分得到音节序列

表示参考句X中的第i音节由第n-1与第n个子词构成：

其中，syllablePiece表示进行音节切分，越南语以空格切分，泰语利用PyThaiNLP工具切分；

Step3.2、使用分词工具对生成句与进行音节切分得到

其中

表示参考句Y中的第j音节由第m个子词构成：

其中，syllablePiece表示进行音节切分；

Step3.3、基于Step2.4的得到参考句子词序列语义向量表征E_X＝{e_xcls，e_x1，e_x2，e_x3，…，e_xn，e_xsep}，对参考句音节序列Z_X进行对音节语义向量表示，根据下式(8)，得到参考句音节序列语义向量表征

其中，pooling表示average pooling。

Step3.4、基于Step2.5得到的生成句子词序列语义向量表征E_Y＝{e_ycls，e_y1，e_y2，e_y3，…，e_ym，e_ysep}，对生成句音节序列Z_Y进行对音节语义向量表征表示，根据下式(8)，得到生成句音节序列语义向量表征

其中，pooling表示average pooling。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、在各语种下，根据式(9)对原始输入序列参考句X得到词组序列

其中，

表示生成句X中第l个词组由第i个音节构成。

其中，phrasePiece表示进行词组切分，中文使用jieba工具，越南语使用VnCoreNLP工具，泰语使用PyThaiNLP工具词；

Step4.2、在各语种下，根据式(10)对原始输入序列生成句Y分词得到词组序列

其中，

表示生成句Y中第p个词组由第j-2，j-1，j个音节构成。

其中，phrasePiece表示进行词组切分；

Step4.3、基于Step3.3得到的参考句音节序列语义向量表征

对参考句词组序列W_X进行对词组语义向量表征表示，根据式(11)计算参考句词组序列语义向量表征

其中，pooling表示average pooling。

Step4.4、基于Step3.4得到的生成句音节序列语义向量表征

对生成句词组序列W_Y进行对词组语义向量表征表示，根据式(12)计算生成句词组序列语义向量表征

其中，pooling表示average pooling。

作为本发明的优选方案，所述步骤Step5的具体步骤为：

Step5.1、基于得到的参考句子词序列语义向量表征E_X＝{e_xcls，e_x1，e_x2，e_x3，…，e_xn，e_xsep}与生成句子词序列语义向量表征E_Y＝{e_ycls，e_y1，e_y2，e_y3，…，e_ym，e_ysep}，根据下式计算子词粒度下生成句的召回率R_E；

其中，|E_x|为参考句子词序列的长度，

表示为e_xn与e_ym余弦相似度计算。

Step5.2、基于得到的参考句子词序列语义向量表征E_X＝{e_xcls，e_x1，e_x2，e_x3，…，e_xn，e_xsep}与生成句子词序列语义向量表征E_Y＝{e_ycls，e_y1，e_y2，e_y3，…，e_ym，e_ysep}，根据下式计算子词粒度下生成句的精确率P_E；

其中，|E_y|为生成句子词序列的长度，

表示为e_xn与e_ym余弦相似度计算。

Step5.3、根据下式计算子词粒度下生成句的F_E；

作为本发明的优选方案，所述步骤Step6的具体步骤为：

Step6.1、基于得到的参考句音节序列语义向量表征

与生成句音节序列语义向量表征

根据下式计算音节粒度下生成句的召回率R_Z；

其中，|Z_X|为参考句音节序列的长度，

表示为

与

余弦相似度计算。

Step6.2、基于得到的音节序列语义向量表征

与生成句音节序列语义向量表征

根据下式计算音节粒度下生成句的精确率P_Z；

其中，|Z_Y|为生成句音节序列的长度，

表示为

与

余弦相似度计算。

Step6.3、根据下式计算音节粒度下生成句的F_Z；

作为本发明的优选方案，所述步骤Step7的具体步骤为：

Step7.1、基于得到的参考句词组序列语义向量表征

与生成句词组序列语义向量表征

根据下式计算词组粒度下生成句的召回率R_W；

其中，|W_X|为参考句词组序列的长度，

表示为

与

余弦相似度计算；

Step7.2、基于得到的参考句词组序列语义向量表征

与生成句词组序列语义向量表征

根据下式计算词组粒度下生成句的精确率P_W；

其中，|W_Y|为生成句音节序列的长度，

表示为

与

余弦相似度计算；

Step7.3、根据下式计算词组粒度下生成句的F_W；

作为本发明的优选方案，所述步骤Step8的具体步骤为：

Step8.1、结合多粒度的语义特征，根据下式计算生成句的召回率R；

Step8.2、结合多粒度的语义特征，根据下式计算生成句的精确率；

Step8.3、根据下式计算词组粒度下生成句的F；

本发明的有益效果是：

1)引入MBERT预训练语言模型进行语义表征，从语义的角度出发，改善了传统基于统计的评价方法中存在的词汇多样性评价能力弱的问题。

2)结合越南语、泰语等存在大量黏着语素的语言结构特点，从子词、字、短语考虑，捕捉到了不同粒度的语义，提取了更加全面的特征信息。不仅提升了多语言预训练语言模型在该类语言上的表征能力，也更好反映了生成句与参考句间的语义关系，为快速准确的自动评价文本生成模型性能提供了有力支撑。

附图说明

图1为本发明中的总的流程图；

图2为本发明各预训练语言模型不同层数下的实验结果；

图3为本发明中测评数据集构建流程图；

图4为本发明中多粒度特性评价方法模型结构示意图。

具体实施方式

实施例1：如图1-图4所示，一种基于多粒度特征的文本生成评价方法，所述一种基于多粒度特征的文本生成评价方法的具体步骤如下：

Step1、从互联网采集数据，对数据进行预处理，构造文本生成任务测评数据集。所述文本生成任务测评数据集数据格式为：参考句-生成句，各文本生成测评数据集的详细信息如表1所示。

表1数据集统计信息

Step6、基于Step3计算音节粒度下生成句的召回率、精确率、以及F_Z值。

Step7、基于Step4计算词组粒度下生成句的召回率、精确率、以及F_W值

实施例2：如图1-图4所示，一种基于多粒度特征的文本生成评价方法，本实施例与实施例1相同，其中：

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.2、构造跨语言摘要测评数据集：采用公开的中文短文本摘要数据集LCSTS，数据格式为：中文摘要-中文文档，其中，中文摘要翻译成越南语作为参考句；将中文文档输入跨语言摘要模型得到越南语生成摘要；

作为本发明的优选方案，所述步骤Step1.1的具体步骤：

Step1.1.2、过滤句子中的特殊字符；

作为本发明的优选方案，所述步骤Step1.2的具体步骤：

Step1.2.1、从LCST抽取200个摘要对，数据格式为：中文摘要-中文文档；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、利用MBERT模型中的WordPiece模块，对参考句X与生成句Y进行子词粒度切分得到参考句子词序列E_x＝{e_x1，e_x2，e_x3，…，e_xn}与生成句子词序列E_Y＝{e_y1，e_y2，e_y3，…，e_ym}，其中，e_xn表示参考句X中第n个子词；e_ym表示生成句Y中第m个子词；

Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列E_x＝{e_x1，e_x2，e_x3，…，e_xn}，e_xn表示参考句X中第n个子词；

{e_x1，e_x2，e_x3，…，e_xn}＝WordPiece(X) (1)

其中，WordPiece表示采用WordPiece模块对句子进行子词切分。

{e_y1，e_y2，e_y3，…，e_ym}＝WordPiece(Y) (2)

其中，WordPiece表示采用WordPiece模块对句子进行子词切分。

{e_xcls，e_x1，e_x2，e_x3，…，e_xn，e_xsep}＝MBERT{[cls]，e_x1，e_x2，e_x3，…，e_xn，[sep]} (3)

{e_ycls，e_y1，e_y2，e_y3，…，e_ym，e_ysep}＝MBERT{[cls]，e_y1，e_y2，e_y3，…，e_ym，[sep]} (4)

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、使用分词工具对参考句进行音节切分得到音节序列

表示参考句X中的第i音节由第n-1与第n个子词构成：

Step3.2、使用分词工具对生成句与进行音节切分得到

其中

表示参考句Y中的第j音节由第m个子词构成：

其中，syllablePiece表示进行音节切分；

Step3.3、基于Step2.4的得到参考句子词序列语义向量表征E_X＝{e_xcls，e_x1，e_x2，e_x3，…，e_xn，e_xsep}，对参考句音节序列Z_X进行对音节语义向量表示，根据下式(18)，得到参考句音节序列语义向量表征

其中，pooling表示average pooling。

其中，pooling表示average pooling。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

其中，

表示生成句X中第l个词组由第i个音节构成。

其中，

表示生成句Y中第p个词组由第j-2，j-1，j个音节构成。

其中，phrasePiece表示进行词组切分；

Step4.3、基于Step3.3得到的参考句音节序列语义向量表征

其中，pooling表示average pooling。

Step4.4、基于Step3.4得到的生成句音节序列语义向量表征

其中，pooling表示average pooling。

作为本发明的优选方案，所述步骤Step5的具体步骤为：

其中，|E_x|为参考句子词序列的长度，

表示为e_xn与e_ym余弦相似度计算。

其中，|E_y|为生成句子词序列的长度，

表示为e_xn与e_ym余弦相似度计算。

Step5.3、根据下式计算子词粒度下生成句的F_E；

作为本发明的优选方案，所述步骤Step6的具体步骤为：

Step6.1、基于得到的参考句音节序列语义向量表征

与生成句音节序列语义向量表征

根据下式计算音节粒度下生成句的召回率R_Z；

其中，|Z_X|为参考句音节序列的长度，

表示为

与

余弦相似度计算。

Step6.2、基于得到的音节序列语义向量表征

与生成句音节序列语义向量表征

根据下式计算音节粒度下生成句的精确率P_Z；

其中，|Z_Y|为生成句音节序列的长度，

表示为

与

余弦相似度计算。

Step6.3、根据下式计算音节粒度下生成句的F_Z；

作为本发明的优选方案，所述步骤Step7的具体步骤为：

Step7.1、基于得到的参考句词组序列语义向量表征

与生成句词组序列语义向量表征

根据下式计算词组粒度下生成句的召回率R_W；

其中，|W_X|为参考句词组序列的长度，

表示为

与

余弦相似度计算；

Step7.2、基于得到的参考句词组序列语义向量表征

与生成句词组序列语义向量表征

根据下式计算词组粒度下生成句的精确率P_W；

其中，|W_Y|为生成句音节序列的长度，

表示为

与

余弦相似度计算；

Step7.3、根据下式计算词组粒度下生成句的F_W；

作为本发明的优选方案，所述步骤Step8的具体步骤为：

Step8.3、根据下式计算词组粒度下生成句的F；

为了说明本发明的在文本生成测评上的有效性，本文设计了三组实验进行验证。第一组实验验证本发明在评价文本生成任务中的有效性；第二组验证多粒度特征在文本生成评价的有效性；实验三：验证了本发明在不同预训练语言模型及不同层数下的有效性。

本发明采用判断评价方法最常用皮尔逊相关系数r、斯皮尔曼等级系数ρ以及肯德尔等级系数τ来判定不同的自动评价指标与人工评价的相关性，r、ρ、τ取值越接近1表示相关性越好。

(1)本发明在评价文本生成任务中的有效性

本节在评价机器翻译、跨语言摘要两个文本生成任务上验证本发明的有效性，并选取以下四种评价方法作为基线方法。在同一文本生成任务中，所有的基线方法测评对象与本发明相同。

BLEU：基于统计的评价方法，在机器翻译评价任务中使用最广泛的评价指标，将生成句与参考句之间的长短关系作为惩罚因子，基于此，结合参考句与生成句的N-gram重叠率进行评分，在本文计算中，N最大为4；

ROUGE：基于统计的评价方法，在文本摘要评价任务中使用最为广泛，通过对比参考句与生成句间的N-gram重叠率进行评分，本文分别计算ROUGE-1、ROUGE-2、ROUGE-L的F1值；

Bertscore：基于深度语义匹配的评价方法，可用于文本生成任务的评价，通过计算参考句与生成句的子词粒度语义相似度进行评分，本文计算在该评价方法下的三个指标，为R召回率、P精确率、F值；

本发明：本文提出的评价方法，可用于文本生成任务的评价，综合子词、音节、词组语义特征信息对生成句进行评分，本文计算在该评价方法下的三个指标，为R召回率、P精确率、F值。

在机器翻译测评上，表2展示了在越中、中越、中泰机器翻译测评任务中本发明带来的性能提升。其中，MT(vi→zh)表示越中机器翻译测评任务，MT(zh→vi)表示中越机器翻译测评任务，MT(zh→th)表示中泰机器翻译测评任务。

表2机器翻译测评任务中基线方法对比实验

从上表可以看出：在越中测评任务上，本文提出的评价方法与人工评价相关性低于Bertscore。这是由于中文上子词属于较粗粒度(中文子词与音节基本相同)，子词嵌入向量表征存在的误差，导致了多粒度语义特征提取时出现错误传播现象较为严重。

另外，在中越及中泰两个语言对的机器翻译测评任务上，本发明与人工评价的相关性明显高于基线BLEU和Bertscore，证明本发明评价的有效性。其中，本发明在中泰测评任务中提升最大，与Bertscore最优结果相比，在相关性系数r、ρ、τ分别取得了3.5％，2.8％，1.9％的提升。

在跨语言摘要测评上，表3展示了中越跨语言摘要测评任务中本发明带来的性能提升。其中，TS(zh→vi)表示先翻译后摘要的中越跨语言摘要测评任务；ST(zh→vi)表示先摘要后翻译的中越跨语言摘要测评任务。

表3跨语言摘要测评任务中基线方法对比实验

从上表可以看出：在中越跨语言摘要测评任务中，相比于ROUGE与Bertscore，本发明取得了最优结果。其中，Bertscore与本发明均是基于MBERT表征进行评价，二者与人工评估的相关性明显高于ROUGE，说明了基于语义相似度评价的方法比基于统计的评价方法更具有优势。在TS模型中，本发明与Bertscore最优结果相比，在相关系数r、ρ、τ上分别提升了1.6％，2.0％，1.9％；类似地，在ST模型中，本发明与Bertscore最优结果相比，在相关系数r、ρ、τ上分别得到1.3％，0.8％，0.2％的提升，证明了多粒度特征评价方法与人工评价相关性更高。

(2)多粒度特征在文本生成评价的有效性

为了验证本发明的多粒度特征文本生成评价方法优于单粒度的评价方法，本实验在中越与中泰两个语言对的测评任务上，探究在不同粒度特征匹配下的F值与人工评价的皮尔逊相关系数r、斯皮尔曼等级系数ρ以及肯德尔等级系数τ，实验结果如表4所示。

表4不同粒度下的F值对比实验

在上表中可以发现，针对r、ρ相关系数来说，在中越测评任务上，基于词组粒度的评价与人工评价相关系数最高；在中泰测评任务上，基于音节粒度的评价与人工评价相关系数最高；但无论是在中泰还是中越测评任务中，本发明与人工评估的相关系数r、ρ均维持在高于中位数水平，由此可见，结合多粒度特征的评价方法有较高的稳定性。针对相关系数τ来说，本发明与单粒度评价中的最优结果相近。由此，进一步证明了本发明的评估方法具有更加稳定的性能。

(3)本发明在不同预训练语言模型及不同层数下的有效性

为了验证本文提出方法在不同预训练语言模型上的有效性，以及探究预训练语言模型层数对本文提出的评价方法的性能的影响，本小节在MBERT与XLM(xlm-mlm-100-1280)两个预训练语言模型上进行实验，计算不同层表示下本发明或Bertscore的F值与人工评估的皮尔逊相关系数ρ，结果如图2所示。

从上图可以看出，一方面，在不同的预训练语言模型中，本发明与Bertscore相比表现更好。另一方面，在中越与中泰的测评任务中，本发明或Bertscore与人工评估的相关性并没有随着模型层数的增加而不断上升，而是在中间层取得了更好的结果，说明中间层的表示包含了更多的语义信息。同时，本发明与Bertscore比较，在低层表示时性能提升较大，这是由于低层的表征中包含了更多子词本身的信息，此时更加明显的体现出了基于多粒度的方法能提取更全面的信息。而随着层数的增加，子词向量表征提取到了更多上下文的信息以及一些语义无关信息，此时带来的错误传播也更为明显，以致于本发明较Bertscore在性能提升出现了减缓的趋势。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于多粒度特征的文本生成评价方法，其特征在于：所述基于多粒度特征的文本生成评价方法具体步骤如下：

2.根据权利要求1所述的基于多粒度特征的文本生成评价方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.3、对构造的机器翻译与跨语言摘要两个文本生成任务的数据集进行人工评价，人工评价由12名精通中文、越南、泰语的志愿者对文本生成测评数据进行人工打分得到；打分时，以参考句为基准，综合考虑生成句的相关性、一致性和流畅性，打分范围为以1到5分。

3.根据权利要求1所述的基于多粒度特征的文本生成评价方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.1、利用MBERT模型中的WordPiece模块，对参考句X与生成句Y进行子词粒度切分得到参考句子词序列E_x＝{e_x1，e_x2，e_x3,…，e_xn}与生成句子词序列E_Y＝{e_y1,e_y2，e_y3，…，e_ym}，其中，e_xn表示参考句X中第n个子词；e_ym表示生成句Y中第m个子词；

Step2.2、通过下式对参考句X进行子词粒度切分得到参考句子词序列E_x＝{e_x1，e_x2，e_x3，…,e_xn}，e_xn表示参考句X中第n个子词；

{e_x1，e_x2，e_x3，…，e_xn}＝WordPiece(X) (1)

其中，WordPiece表示采用WordPiece模块对句子进行子词切分；

Step2.3、通过下式对生成句Y进行子词粒度切分得到生成句子词序列E_Y＝{e_y1,e_y2,e_y3,…,e_ym}，e_ym表示生成句Y中第m个子词；

{e_y1,e_y2,e_y3,…,e_ym}＝WordPiece(Y) (2)

其中，WordPiece表示采用WordPiece模块对句子进行子词切分；

Step2.4、将得到的参考句子词序列E_x输入MBERT模型，对其进行上下文嵌入得到参考句子词序列语义向量表征E_X＝{e_xcls,e_x1,e_x2,e_x3,…,e_xn,e_xsep}，e_xn表示参考句X中第n个子词的向量表征；

{e_xcls,e_x1,e_x2,e_x3,…,e_xn,e_xsep}＝MBERT{[cls],e_x1,e_x2,e_x3,…,e_xn,[sep]} (3)

Step2.5、将得到的生成句子词序列E_Y输入MBERT模型，对其进行上下文嵌入得到生成句的子词序列语义向量表征E_Y＝{e_ycls,e_y1,e_y2,e_y3,…,e_ym,e_ysep}，e_ym表示生成句Y中第m个子词的向量表征；

{e_ycls,e_y1,e_y2，e_y3,…，e_ym,e_ysep}＝MBERT{[cls],e_y1,e_y2,e_y3,…,e_ym,[sep]} (4)

其中，MBERT表示Multilingual BERT词嵌入；[cls]表示句子的起始标志位；[sep]表示句子的结束标志位。

4.根据权利要求1所述的基于多粒度特征的文本生成评价方法，其特征在于：所述步骤Step3的具体步骤为：

Step3.1、使用分词工具对参考句进行音节切分得到音节序列

表示参考句X中的第i音节由第n-1与第n个子词构成：

Step3.2、使用分词工具对生成句与进行音节切分得到

其中

表示参考句Y中的第j音节由第m个子词构成:

其中，syllablePiece表示进行音节切分；

Step3.3、基于得到参考句子词序列语义向量表征E_X＝{e_xcls,e_x1，e_x2，e_x3，…，e_xn，e_xsep}，对参考句音节序列Z_X进行对音节语义向量表示，根据下式(1)，得到参考句音节序列语义向量表征

其中，pooling表示average pooling。

Step3.4、基于得到的生成句子词序列语义向量表征E_Y＝{e_ycls，e_y1，e_y2，e_y3，…，e_ym，e_ysep}，对生成句音节序列Z_Y进行对音节语义向量表征表示，根据下式(8)，得到生成句音节序列语义向量表征

其中，pooling表示average pooling。

5.根据权利要求1所述的基于多粒度特征的文本生成评价方法，其特征在于：所述步骤Step4的具体步骤为：

其中，

表示生成句X中第l个词组由第i个音节构成；

其中，

表示生成句Y中第p个词组由第j-2，j-1,j个音节构成；

其中，phrasePiece表示进行词组切分；

Step4.3、基于得到的参考句音节序列语义向量表征

其中，pooling表示average pooling；

Step4.4、基于得到的生成句音节序列语义向量表征

其中，pooling表示average pooling。

6.根据权利要求1所述的基于多粒度特征的文本生成评价方法，其特征在于：所述步骤Step5的具体步骤为：

Step5.1、基于得到的参考句子词序列语义向量表征E_X＝{e_xcls,e_x1,e_x2,e_x3,…,e_xn,e_xsep}与生成句子词序列语义向量表征E_Y＝{e_ycls,e_y1,e_y2,e_y3,…,e_ym,e_ysep}，根据下式计算子词粒度下生成句的召回率R_E；

其中，|E_x|为参考句子词序列的长度，

表示为e_xn与e_ym余弦相似度计算；

Step5.2、基于得到的参考句子词序列语义向量表征E_X＝{e_xcls,e_x1,e_x2,e_x3,…,e_xn,e_xsep}与生成句子词序列语义向量表征E_Y＝{e_ycls,e_y1,e_y2,e_y3,…,e_ym,e_ysep}，根据下式计算子词粒度下生成句的精确率P_E；

其中，|E_y|为生成句子词序列的长度，

表示为e_xn与e_ym余弦相似度计算；

Step5.3、根据下式计算子词粒度下生成句的F_E；

7.根据权利要求1所述的基于多粒度特征的文本生成评价方法，其特征在于：所述步骤Step6的具体步骤为：

Step6.1、基于得到的参考句音节序列语义向量表征

与生成句音节序列语义向量表征

根据下式计算音节粒度下生成句的召回率R_Z；

其中，|Z_X|为参考句音节序列的长度，

表示为

与

余弦相似度计算；

Step6.2、基于得到的音节序列语义向量表征

与生成句音节序列语义向量表征

根据下式计算音节粒度下生成句的精确率P_Z；

其中，|Z_Y|为生成句音节序列的长度，

表示为

与

余弦相似度计算；

Step6.3、根据下式计算音节粒度下生成句的F_Z；

8.根据权利要求1所述的基于多粒度特征的文本生成评价方法，其特征在于：所述步骤Step7的具体步骤为：

Step7.1、基于得到的参考句词组序列语义向量表征

与生成句词组序列语义向量表征

根据下式计算词组粒度下生成句的召回率R_W；

其中，|W_X|为参考句词组序列的长度，

表示为

与

余弦相似度计算；

Step7.2、基于得到的参考句词组序列语义向量表征

与生成句词组序列语义向量表征

根据下式计算词组粒度下生成句的精确率P_W；

其中，|W_Y|为生成句音节序列的长度，

表示为

与

余弦相似度计算；

Step7.3、根据下式计算词组粒度下生成句的F_W；