CN114218936A

CN114218936A - 一种媒体领域的优质评论自动生成算法

Info

Publication number: CN114218936A
Application number: CN202111156043.5A
Authority: CN
Inventors: 李梓华; 王梦环; 罗小龙
Original assignee: Guangdong Southern New Media Technology Co ltd
Current assignee: Guangdong Southern New Media Technology Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-03-22

Abstract

本发明属于自然语言生成(NLG)技术领域，涉及一种媒体领域的优质评论自动生成算法，依次包括评论审核、评论情感分析、评论自动生成，即通过机器审核+人工审核相互合作的方式，严格把关客户端的评论质量；其次，通过情感分析算法分析评论的情感系数，对用户评论做情感分层；最终，根据情感等级提取相关评论进行定制化训练，让机器学习用户的评论思维，生成两种模式下的评论生成模型：正能量模式、大众评论模式。当然，机器生成的评论同样需要经过机器审核+人工审核流程，将机器评论的风险降到最低；三大流程形成闭环，层层筛选把控，打造优质评论生产生态圈。

Description

一种媒体领域的优质评论自动生成算法

技术领域

本发明属于自然语言生成(NLG)技术领域，涉及一种媒体领域的优质评论自动生成算法。

背景技术

在全媒体时代下，信息传播采用文字、声音、影像、动画、网页等多种媒体表现手段进行。在此形势下，如何全面提升“四力”：脚力、眼力、脑力、笔力，加快推进媒体的深度融合发展，加强新闻舆论的监控覆盖范围和执行效能成为一个值得研究的课题。而研究课题的难点在于通过人机互动的方式激发用户与新闻内容的互动性，同时也能做到舆论监控技术的自我把控，这是值得我们深思的一个问题。在此背景下，南方+客户端积极响应数字化转型的理念，采用深度学习技术打造端内智能化“评论审核——评论筛选——评论生成”优质评论的生态闭环，实现从评论生产到发布的全流程自动化监控处理。从而提升了新闻舆论的监控执行效力，加强监控覆盖范围。

通过人机结合进行评论审核，杜绝出现辱骂等违规评论，打造一个拥有优质绿色环境的移动媒体平台；对过审的评论进行情感分析，建立评论情感系数漏斗，实现评论数据的分层管理；根据实际业务场景，筛选不同情感等级的评论数据进行训练机器评论模型，学习优质用户的评论思维，然后通过机器理解新闻内容的方式生成互动性较高的评论，从而达到增强用户在新闻评论区的互动性和提升用户对客户端的体验质量的效果。对比传统的人工评论审核，机器审核可以帮助新闻编辑解放大量的重复性审核工作，与此同时，通过大数据精准计算，推送用户感兴趣的评论互动内容，通过人机互动的方式来提升新闻内容与用户的互动效果，让APP更懂用户，为用户带来更多的新闻价值。

发明内容

本发明针对上述的问题，提供了一种媒体领域的优质评论自动生成算法。

为了达到上述目的，本发明采用的技术方案为，

一种媒体领域的优质评论自动生成算法，依次包括以下步骤：

A、评论审核；

B、评论情感分析；

C、评论自动生成。

作为优选，所述评论审核采用bert预训练模型与softmax函数进行微调处理，具体包括以下步骤：

步骤一

通过人工标注方式对评论进行打标，标注评论所属类型，作为评论审核的训练数据，训练数据的格式为：

[[comment,label],[comment,label],[comment, label].....,[comment,label]]；

步骤二

采用bert模型的tokenizer分词器对评论进行分词，并且根据 tokenizer的encode规则和标签表进行id转码，生成词id (batch_token_ids)，句子id(batch_segment_ids)，标签id (batch_label_id)；

步骤三

搭建评论审核模型的神经网络，具体的搭建流程如下：

1)加载bert预训练模型，[batch_token_ids，batch_segment_ids] 作为输入层；

2)bert的输出层的结果为bert_output，bert_output的形状为 [batch_size,max_length,hidden_size]；

3)提取bert_output的cls元素的编码向量来表示评论的编码特征，即pool_output＝bert_output[:,0:1,:]，pool_output的形状为 [batch_size,hidden_size]；

4)评论的编码特征pool_output后面连接一层全连接层，并以 softmax作为激活函数，输出预测概率label_prob，label_prob的形状为[label_num]；

步骤四

argmax(label_prob)得到的最大值索引，匹配到标签表中的标签名，得到最终的预测结果。

作为优选，所述步骤一中的标注评论所属类型，其类型为：普通。

作为优选，步骤二中的batch_token_ids的形状为 [batch_size,max_length+2]，batch_segment_ids的形状为 [batch_size,max_length+2]，标签id的形状为[batch_size]，batch_size 表示的是每个训练批次的数据量，max_length表示的是当前bert模型支持的最大文本长度；假设batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3, 0,0]]

batch_segment_ids＝[[0,0,0,.....,0,0],[0,0,0,.....,0,0]]

batch_label_id＝[[0,1]]。

作为优选，所述评论情感分析采用bert预训练模型与sigmod函数进行微调处理，具体包括以下步骤：

步骤五

通过人工标注方式对评论进行情感分类，标注评论所属的情感类型，作为评论情感分析的训练数据，训练数据的格式为：

[[comment,label],[comment,label],[comment, label].....,[comment,label]]

步骤六

步骤七

搭建评论审核模型的神经网络，具体的搭建流程如下：

4)评论的编码特征pool_output后面连接一层全连接层，并以 sigmod作为激活函数，输出正负面的预测概率label_prob， label_prob的形状为[2]；

步骤八

作为优选，步骤五中的标注评论所属的情感类型，其情感类型为正面和负面。

作为优选，步骤六中的batch_token_ids的形状为 [batch_size,max_length+2]，batch_segment_ids的形状为[batch_size,max_length+2]，标签id的形状为[batch_size]，batch_size 表示的是每个训练批次的数据量，max_length表示的是当前bert模型支持的最大文本长度；假设batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3, 0,0]]

batch_segment_ids＝[[0,0,0,.....,0,0],[0,0,0,.....,0,0]]

batch_label_id＝[[0,1]]

作为优选，所述评论自动生成采用bert预训练模型与mask机制，结合了seq2seq算法进行微调处理，具体步骤如下：

步骤九

提取新闻稿件的正文(text)和评论(comment)，将正文与评论对应组合作为评论自动生成模型的训练数据，格式为：

[[text_1,comment_1],[text_2,comment_2],.....,[text_n,comment_n]]

步骤十

采用bert模型的tokenizer分词器对评论进行分词，并且根据 tokenizer的encode规则对正文和评论进行合并编码，生成词id (batch_token_ids)，句子id(batch_segment_ids)；

步骤十一

搭建评论自动生成模型的编码层神经网络，具体的搭建流程如下：

1)加载bert预训练模型，[batch_token_ids，batch_segment_ids] 作为输入层，每个batch的输入层为token_ids和segment_ids，其中 token_ids由正文的token_ids和评论的token_ids拼接而成，segment_ids由正文的segment_ids和评论的segment_ids拼接而成；

2)bert的输出层的结果为bert_output，bert_output的形状为 [batch_size,max_length,vocab_size]，其中vocab_size为bert内置词表的大小；

3)bert的输入层的token_ids作为真实标签、segment_ids作为 mask，bert_output作为预测序列，通过交叉熵损失函数计算 token_ids与bert_output的每个序列的损失值，然后与segment_ids 进行相乘，mask掉正文序列的损失值，最终计算评论序列的平均损失值；

4)最终评论自动生成模型的编码层输出为bert_output；

步骤十二

搭建评论自动生成模型的解码层神经网络，具体的搭建流程如下：

1)定义评论的最大长度，在最大长度范围内进行迭代预测，直到预测结果中出现end标记；

2)定义Top k值，作用是配置每一步序列预测中取得分最高的前k个token_id；

3)初始化output_ids，output_scores,其中output_ids为上一步输出分数最高的前k个token_id，output_socres为上一步输出最高的前 k个分数；

4)正文token_ids与上一步的output_ids进行拼接，正文 segment_ids与上一步的output_ids的ones_like进行拼接；上述两个拼接生成的new_token_ids和new_segment_ids作为编码层的输入；

5)将编码层的输出结果bert_output进行重复生成k次；

6)取每个bert_output最后一个token的预测分值向量得到 scores，scores的形状为[k,vocab_size]；

7)对scores进行展开，从k*vocab_size个分值中，取分值最高的前k个作为当前的output_scores，同时得到该k个分值在scores 中的索引值indices；

8)通过indices索引定位到分值最高的前k个token_id，作为当前的output_ids；

9)重复进行4)-8)的运算，将每一步的output_ids进行拼接以及output_scores累加；

10)直到所有评论序列都出现end标记才视为预测结束，生成 k个评论的序列id列表；

11)最终得到k个评论的序列id列表，取最终output_scores中分值最大的评论序列作为最佳输出结果output_ids；

步骤十三

通过tokenizer对output_ids进行decode转换，从id转换成文字，得到评论内容。

作为优选，步骤十中的batch_token_ids的形状为 [batch_size,max_length+2],batch_segment_ids的形状为 [batch_size,max_length+2]，batch_size表示的是每个训练批次的数据量，max_length表示的是当前bert模型支持的最大文本长度。假设 batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3, 0,0]]

batch_segment_ids＝[[0,0,0,.....,1,1],[0,0,0,.....,1,1]]。

与现有技术相比，本发明的优点和积极效果在于，

1、本发明通过机器审核+人工审核相互合作的方式，严格把关客户端的评论质量；其次，通过情感分析算法分析评论的情感系数，对用户评论做情感分层；最终，根据情感等级提取相关评论进行定制化训练，让机器学习用户的评论思维，生成两种模式下的评论生成模型：正能量模式、大众评论模式。当然，机器生成的评论同样需要经过机器审核+人工审核流程，将机器评论的风险降到最低；

2、本发明依次包括评论审核——评论筛选——评论生成，三大流程形成闭环，层层筛选把控，打造优质评论生产生态圈

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种媒体领域的优质评论自动生成算法的示意图；

图2为一种媒体领域的优质评论自动生成算法的总体流程图；

图3为一种媒体领域的优质评论自动生成算法中评论审核的流程图；

图4为一种媒体领域的优质评论自动生成算法中评论情感分析的流程图；

图5为一种媒体领域的优质评论自动生成算法中评论自动生成的流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和实施例对本发明做进一步说明。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开说明书的具体实施例的限制。

实施例1，如图1图2所示，本发明提供了一种媒体领域的优质评论自动生成算法，依次包括以下步骤：

A、评论审核；

B、评论情感分析；

C、评论自动生成。

如图2和图3所示，其评论审核采用bert预训练模型与softmax 函数进行微调处理，具体包括以下步骤：

步骤一

通过人工标注方式对评论进行打标，标注评论所属类型，如：普通等，作为评论审核的训练数据，训练数据的格式为：

[[comment,label],[comment,label],[comment, label].....,[comment,label]]

步骤二

采用bert模型的tokenizer分词器对评论进行分词，并且根据 tokenizer的encode规则和标签表进行id转码，生成词id

(batch_token_ids)，句子id(batch_segment_ids)，标签id (batch_label_id)。

其中batch_token_ids的形状为[batch_size,max_length+2]， batch_segment_ids的形状为[batch_size,max_length+2]，标签id的形状为[batch_size]，batch_size表示的是每个训练批次的数据量， max_length表示的是当前bert模型支持的最大文本长度。假设 batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3, 0,0]]

batch_segment_ids＝[[0,0,0,.....,0,0],[0,0,0,.....,0,0]]

batch_label_id＝[[0,1]]

步骤三

搭建评论审核模型的神经网络，具体的搭建流程如下：

1)加载bert预训练模型，[batch_token_ids，batch_segment_ids] 作为输入层。

2)bert的输出层的结果为bert_output，bert_output的形状为[batch_size,max_length,hidden_size]

3)提取bert_output的cls元素的编码向量来表示评论的编码特征，即pool_output＝bert_output[:,0:1,:]，pool_output的形状为 [batch_size,hidden_size]

4)评论的编码特征pool_output后面连接一层全连接层，并以 softmax作为激活函数，输出预测概率label_prob，label_prob的形状为[label_num]。

步骤四

如图2和图4所示，其评论情感分析采用bert预训练模型与 sigmod函数进行微调处理，具体包括以下步骤：

步骤一

通过人工标注方式对评论进行情感分类，标注评论所属的情感类型，如：正面和负面，作为评论情感分析的训练数据，训练数据的格式为：

[[comment,label],[comment,label],[comment, label].....,[comment,label]]

步骤二

采用bert模型的tokenizer分词器对评论进行分词，并且根据 tokenizer的encode规则和标签表进行id转码，生成词id (batch_token_ids)，句子id(batch_segment_ids)，标签id (batch_label_id)。

其中batch_token_ids的形状为[batch_size,max_length+2]， batch_segment_ids的形状为[batch_size,max_length+2]，标签id的形状为[batch_size]，batch_size表示的是每个训练批次的数据量， max_length表示的是当前bert模型支持的最大文本长度。假设batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3, 0,0]]

batch_segment_ids＝[[0,0,0,.....,0,0],[0,0,0,.....,0,0]]

batch_label_id＝[[0,1]]

步骤三

搭建评论审核模型的神经网络，具体的搭建流程如下：

2)bert的输出层的结果为bert_output，bert_output的形状为 [batch_size,max_length,hidden_size]。

4)评论的编码特征pool_output后面连接一层全连接层，并以 sigmod作为激活函数，输出正负面的预测概率label_prob， label_prob的形状为[2]。

步骤四

如图2和图5所示，其评论自动生成采用bert预训练模型与 mask机制，结合了seq2seq算法进行微调处理，具体步骤如下：

步骤一

[[text_1,comment_1],[text_2,comment_2],.....,[text_n,comment_n]]

步骤二

采用bert模型的tokenizer分词器对评论进行分词，并且根据 tokenizer的encode规则对正文和评论进行合并编码，生成词id (batch_token_ids)，句子id(batch_segment_ids)

其中batch_token_ids的形状为 [batch_size,max_length+2],batch_segment_ids的形状为 [batch_size,max_length+2]，batch_size表示的是每个训练批次的数据量，max_length表示的是当前bert模型支持的最大文本长度。假设 batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3, 0,0]]

batch_segment_ids＝[[0,0,0,.....,1,1],[0,0,0,.....,1,1]]

步骤三

1)加载bert预训练模型，[batch_token_ids，batch_segment_ids] 作为输入层，每个batch的输入层为token_ids和segment_ids，其中 token_ids由正文的token_ids和评论的token_ids拼接而成，segment_ids由正文的segment_ids和评论的segment_ids拼接而成。

2)bert的输出层的结果为bert_output，bert_output的形状为 [batch_size,max_length,vocab_size]，其中vocab_size为bert内置词表的大小。

3)bert的输入层的token_ids作为真实标签、segment_ids作为 mask，bert_output作为预测序列，通过交叉熵损失函数计算 token_ids与bert_output的每个序列的损失值，然后与segment_ids 进行相乘(正文序列在segment_ids中的值都为0)，mask掉正文序列的损失值，最终计算评论序列的平均损失值。

4)最终评论自动生成模型的编码层输出为bert_output。

步骤四

1)定义评论的最大长度，在最大长度范围内进行迭代预测，直到预测结果中出现end标记。

2)定义Top k值，作用是配置每一步序列预测中取得分最高的前k个token_id。

3)初始化output_ids，output_scores,其中output_ids为上一步输出分数最高的前k个token_id，output_socres为上一步输出最高的前 k个分数。

4)正文token_ids与上一步的output_ids进行拼接，正文 segment_ids与上一步的output_ids的ones_like进行拼接；上述两个拼接生成的new_token_ids和new_segment_ids作为编码层的输入。

5)将编码层的输出结果bert_output进行重复生成k次，假设 k＝3，则得到[bert_output,bert_output,bert_output]。

6)取每个bert_output最后一个token的预测分值向量得到 scores，scores的形状为[k,vocab_size]。

7)对scores进行展开，从k*vocab_size个分值中，取分值最高的前k个作为当前的output_scores，同时得到该k个分值在scores 中的索引值indices。

8)通过indices索引定位到分值最高的前k个token_id，作为当前的output_ids。

9)重复进行4)-8)的运算，将每一步的output_ids进行拼接以及output_scores累加。

10)直到所有评论序列都出现end标记才视为预测结束，生成 k个评论的序列id列表。

11)最终得到k个评论的序列id列表，取最终output_scores中分值最大的评论序列作为最佳输出结果output_ids。

步骤五

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种媒体领域的优质评论自动生成算法，其特征在于，依次包括以下步骤：

A、评论审核；

B、评论情感分析；

C、评论自动生成。

2.根据权利要求1所述的一种媒体领域的优质评论自动生成算法，其特征在于，

所述评论审核采用bert预训练模型与softmax函数进行微调处理，具体包括以下步骤：

步骤一

[[comment,label],[comment,label],[comment,label].....,[comment,label]]；

步骤二

采用bert模型的tokenizer分词器对评论进行分词，并且根据tokenizer的encode规则和标签表进行id转码，生成词id(batch_token_ids)，句子id(batch_segment_ids)，标签id(batch_label_id)；

步骤三

搭建评论审核模型的神经网络，具体的搭建流程如下：

1)加载bert预训练模型，[batch_token_ids，batch_segment_ids]作为输入层；

2)bert的输出层的结果为bert_output，bert_output的形状为[batch_size,max_length,hidden_size]；

3)提取bert_output的cls元素的编码向量来表示评论的编码特征，即pool_output＝bert_output[:,0:1,:]，pool_output的形状为[batch_size,hidden_size]；

4)评论的编码特征pool_output后面连接一层全连接层，并以softmax作为激活函数，输出预测概率label_prob，label_prob的形状为[label_num]；

步骤四

3.根据权利要求2所述的一种媒体领域的优质评论自动生成算法，其特征在于，所述步骤一中的标注评论所属类型，其类型为：普通。

4.根据权利要求2所述的一种媒体领域的优质评论自动生成算法，其特征在于，步骤二中的batch_token_ids的形状为[batch_size,max_length+2]，batch_segment_ids的形状为[batch_size,max_length+2]，标签id的形状为[batch_size]，batch_size表示的是每个训练批次的数据量，max_length表示的是当前bert模型支持的最大文本长度；假设batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3,0,0]]

batch_segment_ids＝[[0,0,0,.....,0,0],[0,0,0,.....,0,0]]

batch_label_id＝[[0,1]]。

5.根据权利要求1所述的一种媒体领域的优质评论自动生成算法，其特征在于，

所述评论情感分析采用bert预训练模型与sigmod函数进行微调处理，具体包括以下步骤：

步骤五

[[comment,label],[comment,label],[comment,label].....,[comment,label]]

步骤六

步骤七

搭建评论审核模型的神经网络，具体的搭建流程如下：

4)评论的编码特征pool_output后面连接一层全连接层，并以sigmod作为激活函数，输出正负面的预测概率label_prob，label_prob的形状为[2]；

步骤八

6.根据权利要求5所述的一种媒体领域的优质评论自动生成算法，其特征在于，步骤五中的标注评论所属的情感类型，其情感类型为正面和负面。

7.根据权利要求5所述的一种媒体领域的优质评论自动生成算法，其特征在于，步骤六中的batch_token_ids的形状为[batch_size,max_length+2]，batch_segment_ids的形状为[batch_size,max_length+2]，标签id的形状为[batch_size]，batch_size表示的是每个训练批次的数据量，max_length表示的是当前bert模型支持的最大文本长度；假设batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3,0,0]]

batch_segment_ids＝[[0,0,0,.....,0,0],[0,0,0,.....,0,0]]

batch_label_id＝[[0,1]]。

8.根据权利要求1所述的一种媒体领域的优质评论自动生成算法，其特征在于，所述评论自动生成采用bert预训练模型与mask机制，结合了seq2seq算法进行微调处理，具体步骤如下：

步骤九

[[text_1,comment_1],[text_2,comment_2],.....,[text_n,comment_n]]

步骤十

采用bert模型的tokenizer分词器对评论进行分词，并且根据tokenizer的encode规则对正文和评论进行合并编码，生成词id(batch_token_ids)，句子id(batch_segment_ids)；

步骤十一

1)加载bert预训练模型，[batch_token_ids，batch_segment_ids]作为输入层，每个batch的输入层为token_ids和segment_ids，其中token_ids由正文的token_ids和评论的token_ids拼接而成，segment_ids由正文的segment_ids和评论的segment_ids拼接而成；

2)bert的输出层的结果为bert_output，bert_output的形状为[batch_size,max_length,vocab_size]，其中vocab_size为bert内置词表的大小；

3)bert的输入层的token_ids作为真实标签、segment_ids作为mask，bert_output作为预测序列，通过交叉熵损失函数计算token_ids与bert_output的每个序列的损失值，然后与segment_ids进行相乘，mask掉正文序列的损失值，最终计算评论序列的平均损失值；

4)最终评论自动生成模型的编码层输出为bert_output；

步骤十二

3)初始化output_ids，output_scores,其中output_ids为上一步输出分数最高的前k个token_id，output_socres为上一步输出最高的前k个分数；

4)正文token_ids与上一步的output_ids进行拼接，正文segment_ids与上一步的output_ids的ones_like进行拼接；上述两个拼接生成的new_token_ids和new_segment_ids作为编码层的输入；

5)将编码层的输出结果bert_output进行重复生成k次；

6)取每个bert_output最后一个token的预测分值向量得到scores，scores的形状为[k,vocab_size]；

7)对scores进行展开，从k*vocab_size个分值中，取分值最高的前k个作为当前的output_scores，同时得到该k个分值在scores中的索引值indices；

10)直到所有评论序列都出现end标记才视为预测结束，生成k个评论的序列id列表；

步骤十三

9.根据权利要求1所述的一种媒体领域的优质评论自动生成算法，其特征在于，步骤十中的batch_token_ids的形状为[batch_size,max_length+2],batch_segment_ids的形状为[batch_size,max_length+2]，batch_size表示的是每个训练批次的数据量，max_length表示的是当前bert模型支持的最大文本长度。假设batch_size为2，max_length为128：

batch_token_ids＝[[2,689,1819,.....,1860,3],[2,4700,2039,.....,1860,3,0,0]]batch_segment_ids＝[[0,0,0,.....,1,1],[0,0,0,.....,1,1]]。