CN113157913A

CN113157913A - 一种基于社会新闻数据集的伦理行为判别方法

Info

Publication number: CN113157913A
Application number: CN202110131238.8A
Authority: CN
Inventors: 李龙; 冯旋; 古天龙; 李晶晶; 罗义琴
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2021-01-30
Filing date: 2021-01-30
Publication date: 2021-07-23

Abstract

本发明基于包含具体行为的社会新闻进行伦理行为判别研究，提出了基于社会新闻数据集的伦理行为判别方法。基于社会新闻构建了社会新闻数据集，并将新闻文本中包含的行为分类为道德行为、不道德行为和违法行为。基于使用信息实体的增强语言表示(ERNIE)和卷积神经网络(CNN)构建了伦理行为判别模型，其中，ERNIE通过捕获新闻文本的多维语义特征获得词向量；CNN通过对文本语义特征进行提取、筛选、拼接等操作，构成文本句子的向量表示，并通过概率计算及归一化处理得到分类结果。经过训练的模型编码了知识信息，可理解行为背后的伦理内涵，从而进行伦理行为判别。

Description

一种基于社会新闻数据集的伦理行为判别方法

技术领域

本发明涉及人工智能伦理技术领域，尤其涉及一种基于社会新闻数据集的伦理行为判别方法。

背景技术

人工智能(英文全称：Artificial Intelligence，简称AI)已经广泛应用到无人驾驶、智能家居、医疗护理等诸多领域，为生活带来巨大便利。人机交互方式的简化使得人们对技术的依赖程度越来越深，对其控制却逐渐减弱，技术的不完善和数据的不恰当使用引发的伦理问题不断出现。

但与此同时，现有的人工智能系统或模型没有伦理道德判别模块，不能有效理解特定社会的伦理道德规范以及法律，无法理解行为背后的伦理内涵，不具备伦理行为判别能力。

发明内容

本发明实施例提供一种基于社会新闻数据集的伦理行为判别方法，可以理解行为背后的伦理内涵，进行伦理行为判别。

本发明提供了一种基于社会新闻数据集的伦理行为判别方法，包括下列步骤：

获取新闻文本数据，对所述新闻文本数据预处理，形成语料数据集；

基于信息实体的增强语言表示，对所述语料数据集进行处理，获得文本数据的词向量表示；

基于词嵌入输出，借助文本卷积操作提取所述文本数据的词向量表示特征，得到特征映射；

使用时序最大池化操作筛选所述特征映射并拼接成文本句子的向量表示，以及进行概率计算及归一化处理后得到分类结果。

其中，使用时序最大池化操作筛选所述特征映射并拼接成文本句子的向量表示，以及进行概率计算及归一化处理后得到分类结果之后，所述方法还包括：

利用标注好的数据集对所述伦理行为判别模型进行训练，并根据准确率、召回率和F1值构建多种可视化图表；

根据多种所述可视化图表对学习率、正则化参数进行调整，得到的所需的伦理行为判别模型。

其中，根据多种所述可视化图表对学习率、正则化参数进行调整，得到的所需的伦理行为判别模型之后，所述方法还包括：

调用训练好的所述伦理行为判别模型预测文本的伦理极性，或按照特定任务、需求重新训练所述伦理行为判别模型。

其中，获取新闻文本数据，对所述新闻文本数据预处理，形成语料数据集，包括：

利用爬虫技术爬取新闻文本数据，并对所述新闻文本数据和获取的法律与行为规范数据进行数据预处理；

利用众包方法对所述新闻文本数据进行标注，形成语料数据集，其中，所述语料数据集为社会新闻数据集。

其中，基于信息实体的增强语言表示，对所述语料数据集进行处理，获得文本数据的词向量表示，包括：

基于文本编码器和知识编码器构建语言模型，并将所述语料数据集输入所述语言模型中进行编码；

将所述语言模型中的实体表征整合到语义模型的底层中，结合大规模无监督语料库和知识图谱进行预训练，得到新闻文本数据的词向量表示。

其中，基于词嵌入输出，借助文本卷积操作提取所述文本数据的词向量表示特征，得到特征映射，包括：

基于所述语言模型构建伦理行为判别模型，并将所述词向量表示输入所述伦理行为判别模型中进行文本卷积，得到特征映射。

其中使用时序最大池化操作筛选所述特征映射并拼接成文本句子的向量表示，以及进行概率计算及归一化处理后得到分类结果，包括：

使用时序最大池化操作对所述特征映射进行拼接，并输出得到的文本句子的向量表示的每个类别的概率，以及使用Softmax激活函数进行归一化处理，得到最终分类结果。

实施本发明实施例，具有如下有益效果：

本发明选择充分涵盖伦理道德和人类行为的社会新闻为数据源，构建了社会新闻数据集，推动了因缺乏高质量数据集而受阻的伦理行为判别研究。设计了伦理行为判别模型ERNIE-CNN，经过训练的模型编码了知识信息，能够从大量的社会新闻数据中学习行为内涵，并通过词向量表示计算语义相似度来进行伦理判别，可以理解行为背后的伦理内涵，进行伦理行为判别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于社会新闻数据集的伦理行为判别方法的步骤示意图。

图2是本发明提供的基于社会新闻数据集的伦理行为判别方法的模型架构示意图。

图3是本发明提供的ERNIE中文本编码器架构示意图。

图4是本发明提供的ERNIE中知识编码器架构示意图。

图5是本发明提供的ERNIE-CNN模型中文本卷积过程流程图。

图6是本发明提供的模型预测数据处理流程图。

图7是本发明提供的模型训练流程图。

图8是本发明提供的模型预测流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本发明针对包含具体行为的社会新闻做伦理行为判别研究，提出了基于社会新闻数据集的伦理行为判别方法。具体地，基于社会新闻构建了社会新闻数据集。基于使用信息实体的增强语言表示(ERNIE)捕获新闻文本的多维语义特征获得词向量，通过卷积神经网络(CNN)模型自动对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息，从而提升模型的识别能力。

为使本发明的目的、技术方案和优点更加清楚，以下结合具体实例，并参照附图，对本发明进一步详细阐述：

请参阅图1和图2，本发明提供一种基于社会新闻数据集的伦理行为判别方法，包括下列步骤：

S101、获取新闻文本数据，对所述新闻文本数据预处理，形成语料数据集。

具体的，为了推动因缺乏高质量数据集而受阻的伦理行为判别研究，本发明选择充分涵盖伦理道德和人类行为的社会新闻标题为数据源，构建了社会新闻数据集。

(1)数据采集

本发明针对的是中文语境中的伦理行为判别，采集的新闻文本主要爬取于新浪微博(https://weibo.com)，并使用THUCTC工具包筛选出社会新闻。 THUCTC工具包是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动高效地实现用户自定义的文本分类任务。为了扩充样本，进一步爬取了中国新闻网(http://www.wenming.cn/)好人好事专栏中的全部新闻标题。

(2)数据处理

本发明期望通过具体的行为训练模型伦理行为判别的能力，因此对上述新闻进行了筛选，保留了至少包含一个具体行为的文本，同时删除：1)不包含具体行为的文本；2)字段长度超过52个字符的文本；3)格式错误的文本。

(3)数据标注

数据集的标注工作由九名标注人员共同完成，分为3组，每组3人。每条新闻文本首先由组内两人进行标注，每个标注人员将文本标注为0(道德行为， Moral)，1(不道德行为，Immoral)，2(违法行为，Illegal)，同时删除所有不包括具体行为的新闻文本。当两人标注结果相同时则完成标注，如有分歧，由第三人进行仲裁，以此在最大程度上保证标注的一致性和合理性。本发明构建的社会新闻数据集包含3496条道德行为、2771条不道德行为和5916条违法行为。表1为社会新闻数据集示例展示。

表1社会新闻数据集示例

社会新闻标题	数据来源	类别	标签
				A	社会新闻	Moral	0
B	社会新闻	Immoral	1
				C	社会新闻	Illegal	2

S102、基于信息实体的增强语言表示，对所述语料数据集进行处理，获得文本数据的词向量表示。

具体的，本发明构建了ERNIE-CNN伦理行为判别模型，其整体架构如图2 所示。词嵌入层采用ERNIE(信息实体的增强语言表示)获得文本数据的词向量表示；ERNIE抽取和编码知识信息，将知识模型中的实体表征整合到语义模型的底层中，结合大规模无监督语料库和知识图谱进行预训练。

词嵌入层由两个模块组成：1)文本编码器(T-Encoder)，负责从输入的文本中捕获词汇和语义信息；2)知识编码器(K-Encoder)，负责将知识图谱中的知识信息整合到输出的词向量中。

文本编码器是包含多头注意力机制和前馈神经网络的多层双向transformer 编码单元，其架构如图3所示。给定一条句子，令x_i∈R^k为句子中第i个单词所对应的k维词向量，通过式(1)计算每个字符的词汇和语义特征：

{h₁,...,h_n}＝T-Encoder({x₁,...,x_n}) (1)

其中{h₁,...,h_n}代表具有语义特征的词嵌入输出，n为文本长度。

多头注意力机制(Multi-HeadAttention)是文本编码器中的核心组成单元之一。注意力机制具有快速提取关键信息的重要特征，广泛应用于自然语言处理任务。注意力机制可以描述为一个查询(Query)到一系列键-值对(Key-Value) 的映射。注意力机制计算方法如下：

其中，分别用向量Q、K、V进行表示查询和键-值对。首先，将Q和K进行相似度计算(点积)得到权重，为了防止点乘结果数值过大，使用向量K的维度d_k进行缩放；其次，使用softmax函数对权重进行归一化得到概率分布；最后，将权重与相应的键值V进行加权求和得到目标的Attention。在自然语言处理任务中，K通常与V取值相同，即K＝V。

自注意力机制是注意力机制的改进，为了捕获句子的内部相关性，减少了对外部信息的依赖。在自注意力机制中，Q＝K＝V。

多头注意力机制利用多个查询，并行地从输入信息中选取多组信息，可以提取多重语义的含义。多头注意力机制将数据投影到h(注意力机制头数)个子空间中，考虑了多个子空间中向量的相似度。其中单头注意力H_i的计算公式如式(3)所示：

H_i＝Att(QW_i ^Q,KW_i ^K,VW_i ^V) (3)

其中W_i ^Q、W_i ^K、W_i ^V为Q、K、V的权重矩阵。

多头注意力机制将所有空间中的注意力向量进行拼接，计算公式如式(4) 所示：

MH-Att(Q,K,V)＝Concat(H₁,H₂,...,H_h)W⁰ (4)

其中W⁰是附加权重矩阵，作用是将拼接后的矩阵维度压缩成固定的文本长度大小。

知识编码器可以编码字符和实体，也能融合异构特征，作用是将知识信息注入语义表征，其结构如图4所示。在知识编码器中，将字符嵌入{h₁,...,h_n}和预训练得到的实体嵌入{e₁,...,e_m}(其中m是实体对齐序列长度)进行异构信息融合并通过式(5)计算得到最终的词嵌入输出{w₁,...,w_n}。

{w₁,...,w_n}＝K-Encoder({h₁,...,h_n},{e₁,...,e_m}) (5)

S103、基于词嵌入输出，借助文本卷积操作提取所述文本数据的词向量表示特征，得到特征映射。

具体的，在获得词嵌入输出{w₁,...,w_n}后，通过文本卷积操作提取句子的局部区域特征，能够自动地对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息。文本卷积神经网络结构如图5所示。对于输入的每一个句子s，将s 中字符的词向量{w₁,...,w_n}进行连接操作，如式(6)所示。

其中

表示词向量间的连接操作。s是拼接得到的n×k维矩阵，其中n为一个句子中的单词数，k是每个单词对应的词向量维度。

使用卷积核W∈R^jk与滑动窗口s_i:i+j-1对输入的n×k维矩阵进行卷积操作，产生特征c_i：

c_i＝f(W·s_i:i+j-1+b) (7)

其中j表示窗口中的单词数，s_i:i+j-1代表由输入矩阵的第i行到第i+j+1行拼接而成的大小为j×k维的窗口，W为卷积核对应的j×k维的权重矩阵，b为偏置参数，f(·)为非线性函数tanh。首先，W和s_i:i+j-1进行点积运算；其次，卷积核对j个字符按照步长1滑动提取文本局部特征c_i；最后，将其拼接得到特征映射 c＝[c₁,...,c_n-j+1]。

S104、使用时序最大池化操作筛选所述特征映射并拼接成文本句子的向量表示，以及进行概率计算及归一化处理后得到分类结果。

具体的，经卷积操作后，使用时序最大池化操作(1-Max Pooling)从每个滑动窗口产生的特征向量中筛选出最重要的特征，并将这些特征进行拼接，构成文本句子的向量表示。池化的特点之一就是它输出一个固定大小的矩阵，还能降低输出结果的维度，却能保留显著的特征。因为在卷积层过程中使用了不同高度的卷积核，使得通过卷积层后得到的向量维度不一致，所以在池化层中，使用1-Max-pooling对每个特征向量池化成一个值，即抽取每个特征向量的最大值表示该特征，即最重要的特征。当对所有特征向量进行1-Max-Pooling之后，还需要将每个值给拼接起来，得到池化层最终的特征向量。在池化层到输出层之前可以加上dropout防止过拟合。

得到文本句子的向量表示之后，接入输出层，输出每个类别的概率，并使用Softmax激活函数进行归一化处理，得到最终分类结果。

所述方法还包括：

模型训练。模型训练模块有模型训练和训练可视化两种功能，其中的模型训练功能有继续训练模型和重新训练模型两种训练方式。模型训练模块从训练集提取文本数据，将经过预处理后的数据用于模型的训练，训练时获取数据、数据预处理的情况如图6所示。模型的训练功能根据数据特性，进行掩码(Mask) 操作，短填长切，将每句话长度处理为等长，对必要的训练特征进行抽取、汇聚、分批，供各个算法模型进行训练，模型的训练流程如图7所示。采用Adam 梯度下降更新网络参数，使用交叉熵(Cross Entropy)作为代价函数，计算模型预测结果与训练实例之间的差异性。为了缓解训练中可能出现的过拟合问题，在模型的全连接层使用了随机失活(Dropout)和提前停止技术。训练结束后保存模型参数、预测损失和、召回率和F1值指标等必要信息，供预测模块使用模型进行预测。将池化操作过程可视化供管理员更直观和清晰的了解模型训练过程，也使得管理员用户便捷管理和优化模型。

实现模型预测模块。添加模型的预测功能，模型预测模块读取已保存的模型数据文件，用户输入包含具体行为的文本，模型将输出文本中包含行为的伦理极性(道德/不道德/违法)，为用户提供明确的伦理建议，模型的预测流程如图8所示。或将模型嵌入机器人中，当收到人类指令时，判断其指令是否符合伦理道德，避免伦理问题的发生。

实验设计与结果分析

本发明在社会新闻数据集上训练模型，对社会新闻中包含的行为进行伦理判别。分别进行二分类实验和三分类实验：二分类实验将不道德行为(Immoral) 与违法行为(Illegal)归并为一类，可以体现模型辨别对错的能力；三分类实验将行为划分为道德行为(Moral)、不道德行为(Immoral)、违法行(Illegal)为三类，更细粒度的行为划分可以体现模型识别行为伦理程度的能力。

1度量标准

为了计算分类模型在不同类别上的总体精确率、召回率和F1值，选用宏精确率(Pmacro)、宏召回率(Rmacro)和宏F1值(F1macro)作为模型预测评价指标。

其中，m为类别数，Pl为精确率，Rl为召回率。

2数据与设置

表2数据集划分情况

标签	训练集	验证集	测试集
				Moral	2496	500	500
Immoral	1771	500	500
				Illegal	3916	1000	1000
总计	8183	2000	2000

2.1伦理行为判别实验

使用以下基准模型来构建二元、三元分类器。

TextCNN：本发明选择卷积核的大小为(2，3，4)，每个尺寸的卷积核个数为100，Dropout设置为0.5，学习率设置为1×10^-3。

TextRNN(Bi-LSTM)：使用双向长短期记忆网络捕捉长距离语义关系，能够更好的表达上下文信息。TextRCNN在Bi-LSTM的基础上加入一层最大池化层来捕捉重要的特征信息。本发明使用两层双向LSTM，每层包含256个神经元， Dropout设置为0.5，学习率设置为1×10^-4。

RNN-Att：在Bi-LSTM的基础上加入注意力机制，能够直观的解释各个句子和词对分类类别的重要性。本发明使用两层双向LSTM，第1层包含128个神经元，第2层包含64个神经元，Dropout设置为0.5，学习率设置为1×10^-3。

DPCNN：引入了残差结构，增加了多尺度信息，并且增加了用于文本卷积神经网络的网络深度，以提取文本中远程关系特征。本发明选择卷积核的大小为3，卷积核个数为250，Dropout设置为0.5，学习率设置为1×10^-5。

BERT：采用多层双向Transformer结构以及掩码语言模型来捕捉一个词在上下文语境中的词向量表达，极大程度提升了词向量的表征能力。本发明使用谷歌发布的预训练模型BERT_Chinese进行微调，微调的学习率设置为5×10^-5。

BERT-CNN：将BERT的输出作为词嵌入层，再由卷积神经网络经过卷积后提取句子级别特征，经过池化层保留重要特征，微调的学习率设置为5×10^-5。

BERT-RCNN：基于BERT-CNN与TextRCNN的设计思路，将BERT的输出作为词嵌入层，加入Bi-LSTM捕捉长距离语义关系，最后加入一层最大池化层来捕捉层次语义信息，微调的学习率设置为5×10^-5。

表3实验结果

与现有的技术相比，本发明具有如下优势：

1、选择充分涵盖伦理道德和人类行为的社会新闻为数据源，构建了社会新闻数据集，并将新闻文本中包含的行为分类为道德行为、不道德行为和违法行为，用于伦理行为判别模型的训练，推动了因缺乏高质量数据集而受阻的伦理行为判别研究。

2、构建了伦理行为判别模型ERNIE-CNN，从大量的社会新闻数据中学习行为内涵，通过词向量表示计算语义相似度来进行伦理判别。经过训练的模型编码了知识信息，可以理解行为背后的伦理内涵。

3、利用深度学习算法，能够准确、高效提取数据的重要特征，弥补了人工特征工程带来的局限性，并能够端到端地处理复杂非线性问题，提高模型的性能。

4、设计了较完善的文本预测模块，功能全面，可针对任务进行重新训练，实用性强。

本发明针对包含具体行为的社会新闻做伦理行为判别研究，提出了基于社会新闻数据集的伦理行为判别方法。具体地，基于社会新闻构建了社会新闻数据集，基于使用信息实体的增强语言表示(ERNIE)捕获新闻文本的多维语义特征获得词向量，通过卷积神经网络(CNN)模型自动对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息，从而提升模型的识别能力。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于社会新闻数据集的伦理行为判别方法，其特征在于，包括下列步骤：

2.如权利要求1所述的基于社会新闻数据集的伦理行为判别方法，其特征在于，使用时序最大池化操作筛选所述特征映射并拼接成文本句子的向量表示，以及进行概率计算及归一化处理后得到分类结果之后，所述方法还包括：

3.如权利要求2所述的基于社会新闻数据集的伦理行为判别方法，其特征在于，根据多种所述可视化图表对学习率、正则化参数进行调整，得到的所需的伦理行为判别模型之后，所述方法还包括：

4.如权利要求1所述的基于社会新闻数据集的伦理行为判别方法，其特征在于，获取新闻文本数据，对所述新闻文本数据预处理，形成语料数据集，包括：

5.如权利要求1所述的基于社会新闻数据集的伦理行为判别方法，其特征在于，基于信息实体的增强语言表示，对所述语料数据集进行处理，获得文本数据的词向量表示，包括：

6.如权利要求1所述的基于社会新闻数据集的伦理行为判别方法，其特征在于，基于词嵌入输出，借助文本卷积操作提取所述文本数据的词向量表示特征，得到特征映射，包括：

7.如权利要求1所述的基于社会新闻数据集的伦理行为判别方法，其特征在于，使用时序最大池化操作筛选所述特征映射并拼接成文本句子的向量表示，以及进行概率计算及归一化处理后得到分类结果，包括：