CN116187334B

CN116187334B - 一种基于mt5模型融合ner实体识别的评论生成方法

Info

Publication number: CN116187334B
Application number: CN202310422539.5A
Authority: CN
Inventors: 宋耀; 魏传强; 司君波; 李喆; 刘鹏
Original assignee: Shandong Qilu Yidian Media Co ltd
Current assignee: Shandong Qilu Yidian Media Co ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-07-25
Anticipated expiration: 2043-04-20
Also published as: CN116187334A

Abstract

本发明提供了一种基于mt5模型融合ner实体识别的评论生成方法，属于文本生成技术领域。通过对mt5模型结构进行修改，增加ner实体识别部分，利用输入的实体信息提高评论生成的质量，并且利用sep_token作为分隔符将每个片段生成的评论连接起来，生成完整的评论。本方法针对文章主题进行多条评论的生成，生成的评论具有更高的相关性和连贯性。本方法实现了ner实体识别和评论生成的整合，减少了模型的训练和生成时间，提高了模型的效率。

Description

一种基于mt5模型融合ner实体识别的评论生成方法

技术领域

本发明涉及一种基于mt5模型融合ner实体识别的评论生成方法，属于文本生成技术领域。

背景技术

新闻评论让用户表达自己对文章的观点和态度，通过鼓励用户浏览评论、相互交流，从而扩展新闻的内容和提高新闻客户端的用户参与度。现阶段主要采用传统seq2seq模型进行评论生成，但是评论生成质量一般。当前急需一种高质量的评论生成方法。

发明内容

本发明目的是提供了一种基于mt5模型融合ner实体识别的评论生成方法，实现对输入文本的分隔处理，使每条评论的输入信息更加明确清晰。

本发明为实现上述目的，通过以下技术方案实现：

步骤1：数据预处理，将输入文本的新闻数据进行位置信息标注，得到序列x，同时将多条评论label数据进行实体信息提取标注得到，然后每条评论数据通过seq_token分隔符拼接，得到训练label数据 Y；

步骤2：把序列转化为词向量/>和位置向量/>，其中，i表示每个字符的绝对位置，/>、/>的维度为模型的隐向量维度；将词向量和位置向量相加，得到输入序列/>；并将输入序列划分为测试集和训练集；

步骤3：构建评论生成模型，所述评论生成模型包括编码和解码两部分，所述编码部分和解码部分均由9个Block组成，其中解码部分最后多了一层Linear；

步骤4：将训练集输入序列输入评论生成模型进行训练，编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失;解码后续的输出通过和训练label数据Y计算交熵损失得到生成任务的交叉熵损失，然后两个损失加权求和作为最后的损失函数，通过adam优化器优化，得到评论生成模型；

步骤5：将测试集输入训练好的评论生成模型，得到最终结果。

优选的，所述编码部分整合ner，对输入序列处理过程如下：

训练集输入序列输入编码部分，得到输出隐状态h，再通过一个全连接层将隐状态h映射为NER的概率分布，具体公式如下：

；

式中，表示每个字符的实体概率分布、/>表示计算每个实体类别的概率、表示感知机网络、/>表示第/>个包含实体信息的隐状态向量；

将输出隐状态h和ner输出y通过关联模块合并，得到包含ner信息的隐状态向量，具体公式如下：/>；

其中，表示隐状态向量对ner概率分布的得分，/>表示编码部分的输出隐状态。

优选的，所述隐状态向量对ner概率分布的得分具体公式如下：

；

其中，，/>，/>表示通过全连接层对/>进行信息提取后的结果、/>表示通过全连接层对/>进行信息提取后的结果，/>表示连接/>的全连接层的权重，/>表示连接/>的全连接层权重。

优选的，所述损失函数为：；

其中，为比例系数，/>表示生成任务的交叉熵损失，/>表示实体识别部分的交叉熵损失。

优选的，所述为0.3。

优选的，所述编码部分的每个块由两层组成，第一层的结构依次为自注意力层、层归一化、随机失活，第二层的结构依次传统线性整流函数的全连接层、层归一化、随机失活。

优选的，所述解码部分每个块由三层组成，第一层依次为自注意力层、层归一化和随机失活，第二层依次为线性整流函数的全连接层、层归一化和随机失活，第三层依次为线性整流函数的全连接层、层归一化和随机失活。

本发明的优点在于：本发明利用输入的实体信息提高生成评论的质量并通过特殊的排序方案，对评论进行排序，并通过的分隔符，将每个片段生成的评论连接起来，提高评论的相关性和连贯性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

1、一种基于mt5模型融合ner实体识别的评论生成方法，其特征在于，包括以下步骤：

编码部分的每个块由两层组成，第一层的结构依次为自注意力层、层归一化、随机失活，第二层的结构依次传统线性整流函数的全连接层、层归一化、随机失活。

所述解码部分每个块由三层组成，第一层依次为自注意力层、层归一化和随机失活，第二层依次为线性整流函数的全连接层、层归一化和随机失活，第三层依次为线性整流函数的全连接层、层归一化和随机失活。

所述编码部分整合ner，对输入序列处理过程如下：

；

所述隐状态向量对ner概率分布的得分具体公式如下：

；

步骤4：将训练集输入序列输入评论生成模型进行训练，编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失;解码后续的输出通过和真实数据Y计算交熵损失得到生成任务的交叉熵损失，然后两个损失加权求和作为最后的损失函数，通过adam优化器优化，得到评论生成模型；所述损失函数为：；

其中，为比例系数，所述/>为0.3，/>表示生成任务的交叉熵损失，/>表示实体识别部分的交叉熵损失。

实施例2

利用本发明，从互联网网站获取的新闻，如下

芦笋是一种营养价值比较高的蔬菜，它里面含有人体所需的氨基酸，还有很多微量元素。现在的芦笋一年四季都能吃上，但春天的芦笋才是最好吃的，这个季节的芦笋水分很足，又鲜又嫩，还带有微微的甜味。

洛阳牡丹是中国传统名花之一，其珍品“银丝贯顶”更是它们中的佼佼者。每年五月，当这些花盛开时，成千上万的游客会来自世界各地前来观看。而这些“银丝贯顶”珍品，更是如同明珠一般，在花丛中熠熠生辉。不过，在这里，保护这些珍贵的花朵同样也非常重要。

表1评论生成结果对比表

。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于mt5模型融合ner实体识别的评论生成方法，其特征在于，包括以下步骤：

所述编码部分整合ner，对输入序列处理过程如下：

；

其中，表示隐状态向量对ner概率分布的得分，/>表示编码部分的输出隐状态；

所述隐状态向量对ner概率分布的得分具体公式如下：

；

其中，，/>，/>表示通过全连接层对/>进行信息提取后的结果、/>表示通过全连接层对/>进行信息提取后的结果，/>表示连接/>的全连接层的权重，/>表示连接/>的全连接层权重；

步骤4：将训练集输入序列输入评论生成模型进行训练，编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失；解码后续的输出通过和训练label数据Y计算交熵损失得到生成任务的交叉熵损失，然后两个损失加权求和作为最后的损失函数，通过adam优化器优化，得到评论生成模型；

2.根据权利要求1所述的基于mt5模型融合ner实体识别的评论生成方法，其特征在于，所述损失函数为：；

3.根据权利要求2所述的基于mt5模型融合ner实体识别的评论生成方法，其特征在于，所述为0.3。

4.根据权利要求1所述的基于mt5模型融合ner实体识别的评论生成方法，其特征在于，所述编码部分的每个块由两层组成，第一层的结构依次为自注意力层、层归一化、随机失活，第二层的结构依次传统线性整流函数的全连接层、层归一化、随机失活。

5.根据权利要求1所述的基于mt5模型融合ner实体识别的评论生成方法，其特征在于，所述解码部分每个块由三层组成，第一层依次为自注意力层、层归一化和随机失活，第二层依次为线性整流函数的全连接层、层归一化和随机失活，第三层依次为线性整流函数的全连接层、层归一化和随机失活。