CN114118779A

CN114118779A - 一种基于kgann的面向互联网舆情事件的企业风险识别方法

Info

Publication number: CN114118779A
Application number: CN202111404720.0A
Authority: CN
Inventors: 张志剑; 马费成; 洪亮; 刘政昊; 王丹丹; 倪珍妮
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-03-01
Anticipated expiration: 2041-11-24
Also published as: CN114118779B

Abstract

本发明提供了一种基于KGANN的面向互联网舆情事件的企业风险识别方法，通过重构神经网络的神经元，在保留知识图谱内容和结构的基础上，实现知识图谱和神经网络的融合，在识别风险过程中考虑到企业相关的领域知识。领域知识可以对特征向量进行补充或约束，从而使所提方法在识别风险时更具有针对性，从而提升模型风险识别能力。而且KGANN通过引入领域知识，在小规模数据集上表现优异。本发明在面向互联网舆情事件的企业风险识别任务上相较于传统方法具有显著优势。

Description

一种基于KGANN的面向互联网舆情事件的企业风险识别方法

技术领域

本发明涉及风险识别技术领域，尤其涉及一种基于KGANN的面向互联网舆情事件的企业风险识别方法。

背景技术

近年来，随着经济全球化进程的不断加速，市场主体各要素间的关联性不断增强，金融系统的风险敞口也日益增大。在全球经济贸易互通互联、国内经济加速转型的特殊阶段，企业正处于创新发展与经济转型升级的关键时期，然而由于企业内外环境的不确定性、生产经营活动的高度复杂性和部分企业能力的有限性，导致各类风险因子高度集中，企业风险事件频发。与此同时，互联网媒体的发展大大加快了各行业信息产生和传播速度，一些负面的互联网舆情事件的爆发与传播更是加剧了企业风险，给企业带来了巨大的财产损失和声誉损失。

企业全面风险管理是一项十分重要的工作，关系到资产的增值保值和企业持续、健康、稳定发展。相关企业如果对互联网舆情事件处理不及时或不到位，将会面临资产负债和信用破产的风险，甚至直接影响到行业和社会经济的正常运行。可见，识别重大风险因素对于企业及时发现风险根源、调整战略规划、实现良性运营和长足发展具有重要意义。企业应广泛且持续地收集与自身风险和风险管理相关的舆情信息，提高风险防范意识，并制定有效的风险识别和预警方案。

传统的企业风险识别研究主要采用案例分析方法，重点在于将人工定义的风险类型应用于个体风险的管理，但具有一定的主观因素，普适性较差。随着大数据、人工智能、云计算等新一代信息技术的发展和企业数字化转型加速的冲击，企业的经营决策与风险管理更加依赖对互联网新闻舆情等企业外部信息的智能化分析与处理。在面向企业风险的识别任务中，卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(RecurrentNeural Network，RNN)和长短期记忆神经网络(Long Short-Term Memory，LSTM)等传统深度学习模型因推出时间较早，已在业界得到了广泛应用。但由于传统深度学习模型融入知识的能力较差，导致模型可扩展性较差，因此识别效果不佳。

发明内容

本发明要解决的技术问题是：提供一种风险识别方法，特别是在小规模数据集情况下具有较好的表现。为此本发明提出一种基于知识图谱的神经网络模型(KGANN模型)，该模型将知识图谱改造成神经网络，并使其可以使用反向传播的方式进行训练。本发明所提模型可以有效识别互联网舆情事件下企业风险，KGANN模型结合了知识图谱模式层构建的基本原理，将知识图谱中的“知识”作为神经网络的一部分，实现了神经元与知识的有效融合，在风险识别任务中有着更好的表现，同时一定程度上增强了深度学习模型的可解释性。

本发明提供了一种基于KGANN的面向互联网舆情事件的企业风险识别方法，包括：

S1：构建企业风险本体库，企业风险本体库包括企业基本信息、企业股权信息、企业财务信息和企业风险信息；

S2：基于企业风险本体库，使用自顶向下的方式构建企业风险知识图谱；

S3：利用企业风险知识图谱对TransE模型进行训练，得到训练好的TransE模型，再使用训练好的将企业风险知识图谱中三元组形式的知识转化为知识向量；

S4：根据企业风险本体库的层次结构对企业知识图谱进行结构识别，识别得到的结构作为后续神经网络模型隐藏层的结构；

S5：获取数据集，并对数据集进行预处理和数据集划分；

S6：使用步骤S5划分得到的训练数据集对Word2vec模型进行训练，利用训练好的Word2vec模型对训练集语料进行向量化表示；

S7：构建知识图谱神经网络模型：KGANN模型，该模型包括输入层、隐藏层和输出层三部分，其中，输入层负责接收步骤S6所生成的向量化语料；隐藏层包含特征提取层和全连接层，特征提取层的结构为步骤S4所提取出知识图谱的结构，特征提取层的每个神经元由特征向量和知识向量两部分组成，特征向量表示传统的神经网络部分，知识向量为步骤S3生成的知识向量，表示具体的领域知识，全连接层将特征提取层的特征进行融合，得到融合特征向量，并将其缩放至适当的维度；输出层使用softmax函数将融合特征向量进行归一化表示，得到输入语料的风险类别概率，并将其输出；

S8：利用训练数据集对构建的KGANN模型进行训练，得到训练好的KGANN模型；

S9：使用步骤S8中得到的训练好的KGANN模型进行风险识别。

在一种实施方式中，步骤S1中的企业风险本体库分为三层，第一层包含企业基本信息、企业股权信息、企业财务信息和企业风险信息本体；第二层包含法人、登记状态、成立日期、所属地、所属行业、曾用名、参保人数和变更记录；第三层包含控股股东、持有股份、投资比例、投资金额、案件金额和裁判结果。

在一种实施方式中，S2中的企业风险知识图谱的构建是企业风险本体库的实例化，企业风险知识图谱包含企业基本信息、企业股权信息、企业财务信息和企业风险信息。

在一种实施方式中，企业风险知识图谱使用三元组[实体h，关系及属性r，实体t]表示知识，步骤S3采用TransE模型作为知识图谱的向量化模型，对企业风险知识图谱中的知识进行向量化表示，得到知识向量。

在一种实施方式中，所述步骤S4中，知识图谱具有顶点，使用该顶点作为起始位置，以该节点的一跳节点作为第一层特征提取层，以该节点的二跳节点作为第二层特征提取层，直到覆盖企业风险本体库所包含的所有层，从而抽取出知识图谱的层次结构，该层次结构为特征提取层的骨架。

在一种实施方式中，步骤S5对数据集进行预处理和划分包括：首先去除数据集中无用字段，然后进行分词和去除停用词的处理，最后进行数据集划分。

在一种实施方式中，步骤S7中特征提取层神经元表示为式(1)：

o_i＝f(nn_i,kg_i) (1)

其中，nn_i表示特征向量，kg_i表示知识向量，o_i表示第i个输出向量，

nn_i的计算方式如式(2)所示，kg的计算方式如式(3)所示，

nn_i＝x_i·W_N+b_i (2)

kg_i＝x_i·W_R·(w_K*KGM)^T (3)

其中，x_i表示第i个输入向量，W_N表示特征向量的权重，b_i表示特征向量的偏置，W_R表示转换矩阵，用于将输入向量和知识矩阵进行融合，并以适当维度输出式，KGM表示知识矩阵，KGM的每一行都代表一条知识，w_K表示每条知识的权值。

在一种实施方式中，步骤S8采用早停策略进行训练，直至模型收敛达到最佳效果时，保存该模型。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明方法通过重构知识图谱的神经元，在保留知识图谱内容和结构的基础上，使其可被深度学习训练方法训练，从而达到知识图谱和深度学习模型高度融合。得益于特殊的结构，每个神经元都包含独立的知识特征，KGANN模型可以根据当前任务对知识的权重进行主动学习，具有较高的自主性，通过训练好的KGANN模型对企业风险进行识别，改善了识别效果。实验结果表明，本发明所提方法在相关评价指标中优于RNN和Bi-LSTM模型，在风险识别任务上具有显著优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施中提供基于KGANN的面向互联网舆情事件的企业风险识别方法的整体框架图；

图2为本发明实施中KGANN的特征提取层神经元的计算流程图；

图3为本发明实施中企业风险本体库；

图4为本发明实施中最优模型测试集下的混淆矩阵；

图5为本发明实施中第二层特征提取层中知识的频数分布直方图；

图6为本发明实施中第三层特征提取层中知识的频数分布直方图；

图7为本发明实施中第二层特征提取层中关系及属性占比变化Top8；

图8为本发明实施中第三层特征提取层中关系及属性占比变化Top8。

具体实施方式

本发明的主要发明构思如下：

提供一种基于KGANN(Knowledge Graph Artificial Neural Network，知识图谱神经网络KGANN)的面向互联网舆情事件的企业风险识别方法，该方法通过重构神经网络的神经元，在保留知识图谱内容和结构的基础上，实现知识图谱和神经网络的融合，在识别风险过程中考虑到企业相关的领域知识。领域知识可以对特征向量进行补充或约束，从而使本发明所提方法在识别风险时更具有针对性，从而提升模型风险识别能力。而且KGANN通过引入领域知识，在小规模数据集上表现优异。本发明在面向互联网舆情事件的企业风险识别任务上相较于传统方法具有显著优势。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于KGANN的面向互联网舆情事件的企业风险识别方法，包括：

S5：获取数据集，并对数据集进行预处理和数据集划分；

S9：使用步骤S8中得到的训练好的KGANN模型进行风险识别。

请参见图1，为本发明实施中提供基于KGANN的面向互联网舆情事件的企业风险识别方法的整体框架图；

具体实施过程中，步骤S1中的企业风险本体库由领域专家使用七步法构建，步骤S2中使用自顶向下的方式构建企业风险知识图谱，由此方法构建的领域知识图谱和任务领域匹配程度较高。

特征提取层的每个神经元由特征向量和知识向量两部分组成，特征向量表示传统的神经网络部分，通过训练可以提取语料的语义特征，知识向量表示具体的领域知识，作为任务的有益补充。由于S8中的KGANN模型需要输入数据为向量，而S5得到的原始数据(生成的数据集)为文本，因此需要使用S6的Word2vec模型将文本转化为向量。同时，S6的Word2vec模型需要使用S5的原始数据进行训练。

在步骤S9之后，还可以对模型的识别效果进行评估，并通过“知识”的权重对模型进行分析。

如图3所示，为本发明实施中构建的企业风险本体库示意图。

其中，步骤S2中，企业风险本体库指导了企业风险知识图谱的构建，采用自顶向下的方式构建。则企业风险知识图谱的构建就是企业风险本体库的实例化，因此企业风险知识图谱和企业风险本体库一样，同样包含了四大部分：企业基本信息、企业股权信息、企业财务信息和企业风险信息。

具体来说，与传统神经网络模型不同，本发明所提框架的隐藏层结构和内容由知识图谱决定。构建知识图谱有自底向上和自顶向下两种模式，自底向上的知识图谱构建方式通常为数据驱动，从公开的海量数据集中进行知识抽取，并选择其中置信度较高的知识存入知识图谱。自顶向下的知识图谱构建方式通常需要构建本体库，使用本体库从高质量的结构化和半结构化数据进行知识抽取并存入知识图谱。本体是知识图谱的模式层和逻辑基础，知识图谱是本体的实例化，本体研究的成果可以促进该领域知识图谱得到更快的发展和应用。在使用KGANN模型时，需要考虑计算开销，小而精的知识图谱更加适合本框架。因此，使用自顶向下的方式来构建知识图谱。

企业风险本体库由领域专家构建，如图2所示。本体库共分为三层，第一层为企业基本信息、企业股权信息、企业财务信息和企业风险信息本体；第二层包含法人、登记状态、成立日期、所属地、所属行业、曾用名、参保人数、变更记录等；第三层包含控股股东、持有股份、投资比例、投资金额、案件金额、裁判结果等。

通过自顶向下的方式构建知识图谱，需要借助高质量的半结构化和结构化的数据，从中抽取符合本体结构的知识加入到知识图谱中。考虑到知识图谱应具有更高的可复用性和普适性，将沪深300指数和语料集包含的3527家企业纳入知识抽取范围。最后按照本体库在互联网上获取相关企业的具体数据，获取到2822394个三元组。

具体实施时，由于TransE、TranR、TransH等方法生成的知识向量和Word2vec、BERT等方法生成的词向量本身不在同一个语义空间，因此生成模型的表达能力不应太强，否则特征难以融合。由于TransE模型是通过计算

来拟合知识的内在联系，简单易用，因此使用TransE模型作为知识图谱的向量化模型。

举例来说，三元组[北京，首都，中国]通过TranE模型可以变为向量[1.2221,…,2.2215]。

具体来说，知识图谱具有本体意义上的顶点，使用该顶点作为起始位置，以该节点的一跳节点作为第一层特征提取层，以该节点的二跳节点作为第二层特征提取层，直到覆盖本体库所包含的所有层，这样可以抽取出知识图谱的层次结构，该结构就是特征提取层的骨架；接下来需要明确特征提取层的内容，特征提取层的神经元同时包含“特征向量”和“知识向量”两部分。“特征向量”的结构与感知机的结构类似，“知识向量”则使用TransE模型生成。

具体来说，使用TransE模型可以将实体和属性转化为长度为kl的向量，接着将每一条知识<实体，关系，实体>都转换为对应的3个向量，然后将3个向量进行拼接，则知识<实体，关系，实体>可以使用长度为3kl的向量进行表示。接着将特征提取层的知识逐一进行转换，使用KGM_i表示第i层隐藏层的知识向量，则KGM_i的尺寸大小可以表示为KGM_i∈R^3kl×il，其中il表示第i层隐藏层的知识个数，同时也是该层的神经元个数。

具体实施过程中，需要将所爬取语料中的无用字段去除，由于步骤S6中使用的是Word2vec模型，该模型的输入是词而非字，因此需要对语料进行分词处理。为了加快训练速度，接着对分词后的语料进行去除停用词的处理。

具体来说，常用的词向量模型主要为Word2vec模型和双向注意力机制编码器(Bidirectional Encoder Representations From Transformers，BERT)模型。2013年Mikolov等人提出Word2vec模型，由于其简单有效得到了广泛的应用。2018年Google的研究人员提出了BERT模型，该模型使用self-Attention机制进行特征提取，在多种自然语言处理任务中取得SOTA结果。

BERT模型具有较强的特征提取能力，然而该模型的最大输入长度为512，去除[CLS]和[SEP]两个标签后，有效输入仅为510个字，因此难以处理长文本任务。为此，有研究人员提出截断法，将输入文本的起始部分和结尾部分作为模型输入，但是依旧难以覆盖完整语料；另一些研究人员提出将输入文本进行切分，分别输入BERT模型，最后使用注意力机制将多个输出进行融合。但是该方法生成向量的语义并不连续，效果难以达到预期；还有一部分研究人员提出扩大BERT模型的输入长度，虽然该方法可以更好的支持长文本的输入，但其计算成本也大幅提升，难以得到广泛的应用。

经统计，所选数据集中的每条正文平均包含1042个字，上述三种方法难以较好的应用于当前任务。因此，使用Word2vec模型作为框架的词向量模型。通过将训练集分词和去除停用词之后，使用Skip-gram方式训练Word2vec模型。

步骤S6中，使用步骤S5所得语料(划分得到的训练数据集)训练Word2vec模型，保存损失最低的模型，以便后续使用。

o_i＝f(nn_i,kg_i) (1)

nn_i的计算方式如式(2)所示，kg的计算方式如式(3)所示，

nn_i＝x_i·W_N+b_i (2)

kg_i＝x_i·W_R·(w_K*KGM)^T (3)

具体来说，使用领域专家通过科学的方法所构建的企业风险本体库具有逻辑严密、结构清晰、层次分明、覆盖全面等特点。使用自顶向下的方法，并基于上述的企业风险本体库所构建的企业风险知识图谱，同样具有本体库的特点。同时知识图谱具有本体意义上的顶点，使用该顶点作为起始位置，以该节点的一跳节点作为第一层特征提取层，以该节点的二跳节点作为第二层特征提取层，直到覆盖本体库所包含的所有层，这样可以抽取出知识图谱的层次结构，该结构就是特征提取层的骨架；接下来需要明确特征提取层的内容，特征提取层的神经元同时包含“特征向量”和“知识向量”两部分。“特征向量”的结构与感知机的结构类似，“知识向量”则使用TransE模型生成。

KGANN的特征提取层神经元的计算流程如图2所示。其中x_i表示第i个输入向量，W_N表示特征向量的权重，b_i表示特征向量的偏置，KGM表示知识矩阵，w_ki表示知识矩阵中第i条知识的权重，W_R表示转换矩阵，可以将输入向量和知识矩阵进行融合，并以适当维度输出。式(2)中“神经网络”部分的计算过程参考了感知器的计算过程，Word2vec模型将输入语句转换为包含一定语义信息的向量x_i，接着使用W_N对输入向量进行加权处理，最后添加偏置因子b_i，使模型表达能力更强。

为了区分不同知识的重要程度，需要给每条知识赋予权重。此时的知识是按行存放，然而输入神经元时需要按列读取，因此需要将(w_K*KGM)转置。然后，需要计算输入向量和知识间的语义关联性，但是输入向量x_i和知识矩阵KGM维度往往不匹配，无法直接进行计算。因此，需要引入转换矩阵W_R做连接，将输入向量和知识矩阵进行融合后得到融合知识向量。

具体来说，本发明将计算特征提取层神经元计算过程中的维度，以帮助用户更清晰的理解KGANN模型的计算过程和原理。KGANN模型神经元的计算原理如上文中式(1)所示。其中nn_i的计算原理如上文中式(2)所示，kg_i的计算原理如上文中式(3)所示。其中变量的维度可以表示为：KGM∈R^kn×kl、W_k∈R^kn×1、W_n∈R^v×kn、b∈R^kn×1、W_R∈R^v×kl、x_i∈R^b×s×v，其中kn表示知识的数量，kl表示知识的长度，v表示Word2vec模型生成词向量的长度，b表示每个批次的大小，s表示输入的最大长度。

接下来使用a表示nn部分的维度，如式4所示：

nn∈R^a (4)

则a可以写为式5：

a＝[b,s,v]·[v,kn]+[kn] (5)

合并整理后a可以表示为式6：

a＝[b,s,kn] (6)

最终，nn的维度可以表示为式7：

nn∈R^b×s×kn (7)

同样的，本发明使用b表示kg部分的维度，如式8：

kg∈R^kg (8)

则b可以写为式9：

b＝[b,s,v]·[v,kl]·([kn,kl]*[kn,1])^T (9)

合并整理后b可以表示为式10：

b＝[b,s,kn] (10)

最终，kg的维度可以表示为式11：

kg∈R^b×s×kn (11)

使用c表示最终输出o的维度，如式12：

o∈R^c (12)

那么o的维度是将nn和kg进行拼接，如式13：

c＝[a；b] (13)

那么c可以表示为式:14：

c＝[[b,s,kn]；[b,s,kn]] (14)

合并整理后为式15：

c＝[b,s,2kn] (15)

最后神经网络的输出维度如式16所示：

o∈R^b×s×2kn (16)

最后，神经网络的输入为[b,s,v]，其中b表示batch_size，s表示sentence的最大长度，v表示词向量的长度。对应的特征提取后的矩阵维度为[b,s,2kn]，其中b依旧表示batch_size，s依旧表示sentence的最大长度，2kn表示每个神经元输出的向量长度，为两倍的知识向量的长度。接着使用全连接层将长度为2kn的向量缩放至合适大小，最后使用softmax函数得到不同风险种类的概率，选取概率最大的风险种类输出。

具体实施过程中，步骤S8中，使用截断正太分布初始化模型参数，KGM矩阵为固定向量，由步骤S3生成的知识向量组成，不参与训练调参。

其中，步骤S9中，使用步骤S8所保存的模型可以对互联网舆情事件进行快速准确的识别。同时，传统深度学习模型神经元向量不具有可解释性，因此深度学习模型常被作为黑箱使用。得益于KGANN神经元的特殊结构，其中的知识是固定不变的，因此可以通过神经元中的知识及其权重对模型的侧重点进行一定程度的分析和解释。

下面结合具体的示例与实验数据对本发明提供的方法进行一进步说明。

关于数据集与知识图谱，实验使用“互联网舆情企业风险事件的识别和预警”比赛数据集，该数据集包含13个字段：新闻ID、新闻标题、摘要、正文、作者、下载源地址、文章类型、来源、首发网站名称、网站频道、发布时间、企业名称、风险标签。共计13类标签，其中包含12类企业风险事件和无风险事件，剔除无用字符后风险类型和字词数量统计信息如表1所示。

表1不同风险类型数据的统计信息

由表1可知，无风险类别的数量远高于其他风险类别，为降低数据类别不平衡所产生的影响，使用欠采样(under sampling)方法随机从无风险类别数据中取800个样本。同时，平均词数最多的风险为重大诉讼仲裁，达到937个词。为了覆盖大部分语料，将Word2vec模型的最大输入长度设置为1000词，当输入长度超过1000词时，采用截断法，取开头500词和结尾500词作为输入。

本发明构建的企业风险知识图谱包含280余万条知识，如果将其全部纳入KGANN模型会导致参数过多且难以训练。因此，根据企业所属行业和规模，选取具有代表性的86家企业及其相关知识节点，生成知识图谱子图。接着对子图进行剪枝，去除无意义的节点。为保证每层知识向量的长度一致，使用企业类型为属性的三元组作为第一层知识(例如：[中国石油化工股份有限公司，企业类型，其他股份有限公司(上市)])。最终得到知识图谱的第一层包含86个节点，第二层共计914个节点，第三层共计6650个。以此为基础构成了KGANN模型的隐藏层结构。

实验设置

使用Word2vec模型和TransE模型分别对输入语料和知识图谱进行向量化表示，然后构建KGANN模型，模型均采用early_stopping策略进行训练，模型的相关参数设置如表2所示。

表2模型参数设置

实验采用精确率P(Precision)、召回率R(Recall)和F1值进行评估，在多分类任务中，需要单独计算每一类的P、R和F1值。当计算某一类样本的指标时，该类样本为正样本，其余类样本为负样本。其定义如式(4)-(6)所示。

其中，TP表示正样本识别正确的数量，FP表示正样本识别错误的数量，FN表示负样本识别错误的数量。P表示在识别样本总数中，识别正确的样本占比；R表示在所有正样本数中，识别正确的样本占比；F1值是P和R的等权调和平均值，可以对P和R进行整体评价。

对比实验

为了验证模型的有效性，选取了RNN模型和Bi-LSTM模型作为KGANN模型的对比模型。上述模型均使用Word2vec作为词向量工具，RNN模型和Bi-LSTM模型的神经元个数设置为1024，使用包含1200个样本的验证集对模型进行验证，得到结果如表3所示。

表3对比实验结果

由表3可知，Bi-LSTM模型的相关评价指标略优于RNN模型，其原因是Bi-LSTM模型引入门结构可以将对识别结果有益的特征进行保留，无益的特征选择遗忘。同时双层结构可以同时提取输入语料的正向特征和逆向特征，进而提高了模型的特征提取能力。KGANN模型在相关评价指标中均显著优于RNN模型和Bi-LSTM模型，其原因是KGANN模型将知识图谱转化为模型，不仅模型结构更加符合逻辑，而且在模型识别风险过程中考虑到企业相关的领域知识。领域知识可以对特征向量进行补充或约束，从而使模型在识别风险时更具有针对性。

为了进一步研究KGANN模型在识别不同类别风险时的差异，将模型在验证集上所得结果绘制成如图4所示混淆矩阵。由图4可知，有5个安全事故的样本被识别为环境污染，是因为安全事故有时会导致环境污染，例如有毒有害化学品大量泄露会在一定范围内造成环境污染；有15个被采取监管措施的样本被识别为被监管机构罚款或查处，有22个被监管机构罚款或查处的样本被识别为被采取监管措施。其原因是监管措施是非行政处罚性监管措施，通常以监管谈话、出具警示函和计入诚信档案等形式出现，而被监管机构罚款或查处则是通过减损权益或增加义务的形式，达到一定的惩戒效果，通常以罚款、限制生产经营活动和责令关闭等形式出现。两种风险事件存在部分重叠，因此模型在识别时存在误判的情况；有7个信息披露违规样本被识别为被采取监管措施，其原因是信息违规披露通常为企业信息披露不完整、风险揭示不充分，造成企业和广大投资者之间的信息不对称，损害了金融市场的健康发展。因此监管机构会对企业信息违规披露行为处以相应监管措施；有22个实控人变更的样本、16个债务逾期样本、19个重大诉讼仲裁样本和13个退市样本被识别为破产重整。其原因是当企业一旦出现上述情形时，如果处理不当往往会演变为企业债务危机，甚至陷入资不抵债和破产重整的境地。因此企业出现上述四种重大风险时，往往伴随着破产重整。

分析及讨论

在自然语言处理领域，神经元的含义不明确是传统深度学习模型可解释性较差的根本原因，KGANN模型通过将知识图谱转换为可训练的深度学习模型，模型可以通过追踪隐藏层中每个神经元的知识部分，从而对深度学习模型进行分析。同时，知识图谱的构建依赖于本体库，通过本体库可以对模型进行逻辑上的解释。

保存训练过程中F1值最高的模型，其中每一条知识都包含对应的权重值。通常，权重值有正负之分，当神经元处于激活状态时权重值为正，此时神经元内的知识有利于风险识别；当神经元处于静息状态时权重值接近于零，此时神经元内的知识作用较低；当神经元处于抑制状态时权重为负，此时神经元内的知识不利于风险识别。通过分析权重值可以了解深度学习模型的侧重点，并分析不同类型的风险对应的重要因素和指标。

隐藏层权重分布描述性统计

第一层隐藏层包含86个节点，节点所包含的知识结构为[企业名称，企业类型，企业类型的值]。选取企业时需要尽量包含不同行业和规模的企业，以此为基础链接到企业具体的知识节点。第一层隐藏层节点包含企业名称和企业类型，模型无法通过企业名称来判断企业是否包含风险。尽管企业类型和风险类别存在一定关联，但样本过少不具备统计学上的解释意义。因此后续分析的数据为第二层隐藏层和第三层隐藏层的知识权重值，简称为第二层和第三层。将第二层和第三层的权重频数进行统计，并绘制成如图5所示的频数分布直方图，图中蓝色曲线为服从N(μ,σ²)的正态分布曲线(μ为隐藏层权重的平均值，σ为隐藏层权重的标准差)。

由图5可知，第二层和第三层权重值在零附近聚集，说明模型中的大部分知识对模型的修正较为谨慎。第二层相较于第三层的权重值具有更高的离散度和区分度，其原因是第三层所包含的知识更为具体，例如第三层的“变更项目”、“变更前”和“变更后”相较于第二层的“变更记录”更为具体，更上层的概念所能表达的特征更丰富，对模型产生的影响更大，因此第二层权重相较于第三层权重更加分散，方差也更大。

描述性统计结果显示，第二层和第三层的均值接近零，分别为0.00056和-0.00127，说明模型中的知识激活或抑制较为均衡。第二层和第三层的标准差分别为0.70607和0.16717，说明第二层知识的权重更离散，相较于第三层的知识有着更高的区分度。第二层的最大值和最小值分别为3.29179和-3.72968，第三层的最大值和最小值分别为1.89145和-2.05702，可以看到第二层知识的权重区间更大，说明数据分布较为分散。

离群点中具有极高和极低的权重值，对模型产生的影响较大，具有分析意义。使用四分数方法计算离群点，首先将数据从小到大排列分成四等份，三个分割点从小到大分别为下四分位Q₁、中位数Q₂、上四分位Q₃。第二层的Q₃和Q₁分别为0.05243和-0.04162，第三层的Q₃和Q₁分别为0.02734和-0.02715。接着使用式(7)和式(8)计算权重值的最大观测值和最小观测值。

最大观测值＝Q₃+1.5(Q₃-Q₁) (7)

最小观测值＝Q₁-1.5(Q₃-Q₁) (8)

经计算第二层的最大观测值和最小观测值分别为0.19108和-0.18121，第三层的最大观测值和最小观测值分别为0.10872和-0.10876。最后，大于最大观测值或小于最小观测值的权重值为离群点，第二层和第三层的离群点个数分别为372和831。

离群点特征分析

基于本体库构建知识图谱时，知识的关系及属性含义较为清晰，因此使用知识的关系及属性来表示知识的所属类别。为了分析模型在学习过程中调整了哪些类别的知识，使用负离群点表示小于最小观测值的点，使用正离群点表示大于最大观测值的点。通过观测负离群点和正离群点中不同关系及属性占比的变化，进而分析出哪些类别的知识具有更高的区分度。最后对第二层和第三层隐藏层中占比变化最大的八类关系及属性进行统计，如图6所示。其中，横轴为初始状态下各关系及属性的占比，在横轴以下代表占比减少，在横轴以上代表占比增加。正离群点在横轴以上时，代表该类别的关系及属性有利于风险识别，有更高的区分度。而负离群点在横轴以上时，代表该类别的关系及属性不利于风险识别，容易混淆风险识别特征。

图7和图8中“案件名称”为司法案件的名称，正离群点的增幅较大，说明司法案件相关知识在风险识别过程中起到了积极的作用。除去一些特殊行业的企业，如保险公司虽有较多的司法案件，但不影响其风险水平。但常规企业涉及司法案件较多时，通常伴随着企业的信用缺失和风险水平的提高。

图7和图8中“被控制企业名称”的正离群点的增幅较大，说明被控制企业相关知识有利于风险的识别。与之相对应的是图7和图8中“投资企业名称”的正负离群点的占比同时增加，说明投资企业分为两种情况，一种对风险识别有益，一种对风险识别无益。投资人以股东身份投资企业时分为控股股东和非控股股东，控股股东对应“被控制企业名称”，表现出正离群点占比增加趋势，有利于风险的识别。非控股股东则表现负离群点占比增加趋势，无益于风险的识别。这是因为许多投资人为了规避风险，通过多层嵌套的方式，利用有限责任公司间接持有上市公司股份。由于自身风险得到控制，股东有动力实施自身收益更高而风险更大的决策，这样的决策无形中提高了企业的风险水平，不利于金融市场的稳定性。

同时，企业为了扩展自身业务还会开设分支机构，如图7中的“分支结构名称”表现出负离群点占比增加的趋势，说明分支结构的相关知识和风险识别关联度较低。其原因是分支结构与总公司存在密切联系，当分支结构出现风险事件时，总公司难以置身事外，需要承担相应的责任。因此分支机构不会增加企业的风险水平。图8中的“状态”为企业分支结构的状态，呈现正负离群点的占比同时增加，但负离群点占比增幅大于正离群点，说明分支机构的状态和企业风险的关联度较低，这是因为分支机构在业、存续或注销都不会显著影响企业的风险水平。

图7中的“主要人员”为担任董事长、总经理、董事和监事等重要职务的人员，表现为负离群点占比增加，说明企业的主要人员与风险关联度较低。其原因是高风险水平企业的主要人员通常不是企业的实际控制人，即便是实际控制人对待自己不同企业也有不同的策略，因此企业的主要人员缺少能够表征企业风险的相关特征，无法判断企业的风险水平。

图7中的“经营范围”表现为正离群点占比少量增加，说明部分经营范围相关的知识有利于风险的识别。其原因是少数风险和企业的经营范围密切相关，例如金融领域的企业发生安全事故的概率极低，教育领域的企业发生环境污染的概率极低。因此通过企业的经营范围可以对识别结果进行一定程度的约束，从而达到全局最优解。

图7中的“变更记录日期”和“曾用名”均表现为负离群点占比增加，说明两者与企业风险关联程度较低。这两类关系缺少风险识别的相关特征，模型无法通过“变更记录日期”和“曾用名”来辨别企业的风险水平。

图8中的“投资比例”为图7中的“投资企业名称”的下位关系，两者具有相似的变化趋势，其中投资比例较高的情况对应被控制企业。与之相关的关系为图8中的“投资数额”，表现为负离群点占比增加，说明投资数额与企业风险水平相关性较低。同一投资数额对不同规模的企业影响不同，因此投资比例相较于投资数额具有更高的区分度。

图8中“知识产权名称”表现为正离群点占比增加，说明知识产权有利于风险识别。其原因是重视知识产权的企业，通常具有更强的法律意识，有助于企业在签订合同、履行合同、融资等过程中规避风险。因此，以知识产权为着眼点可以体现企业全局的法律意识，因此知识产权具有较高的风险区分度。

图8中“关联产品或机构”表现为正负离群点占比同时增加，负离群点增幅大于正离群点。说明该关系所包含的大部分知识不具有区分度，小部分有较高的区分度。其原因与图7中“经营范围”相似，小部分企业产品和机构与特定类型的风险相关，例如主营产品为矿产的行业发生安全事故的风险明显高于其他行业。

总体来说，风险对企业的生存发展有着重要的作用，随着互联网的快速发展，网络舆情信息对企业影响越来越大，如何快速准确地识别舆情事件中的风险成为了企业、投资人、监管机构和学术界共同关注的热点之一。为了对企业风险进行更为准确的识别，本文提出了一种基于KGANN的面向互联网舆情事件的企业风险识别方法。与传统深度学习模型不同，KGANN模型保留了知识图谱的层级结构和具体的知识。得益于特殊的结构，每个神经元都包含独立的知识特征，模型可以根据当前任务对知识的权重进行主动学习，具有较高的自主性。实验结果表明，本发明所提方法在相关评价指标中优于RNN和Bi-LSTM模型，在风险识别任务上具有显著优势。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于KGANN的面向互联网舆情事件的企业风险识别方法，其特征在于，包括：

S5：获取数据集，并对数据集进行预处理和数据集划分；

S9：使用步骤S8中得到的训练好的KGANN模型进行风险识别。

2.如权利要求1所述的企业风险识别方法，其特征在于，步骤S1中的企业风险本体库分为三层，第一层包含企业基本信息、企业股权信息、企业财务信息和企业风险信息本体；第二层包含法人、登记状态、成立日期、所属地、所属行业、曾用名、参保人数和变更记录；第三层包含控股股东、持有股份、投资比例、投资金额、案件金额和裁判结果。

3.如权利要求1所述的企业风险识别方法，其特征在于，S2中的企业风险知识图谱的构建是企业风险本体库的实例化，企业风险知识图谱包含企业基本信息、企业股权信息、企业财务信息和企业风险信息。

4.如权利要求1所述的企业风险识别方法，其特征在于，企业风险知识图谱使用三元组[实体h，关系及属性r，实体t]表示知识，步骤S3采用TransE模型作为知识图谱的向量化模型，对企业风险知识图谱中的知识进行向量化表示，得到知识向量。

5.如权利要求1所述的企业风险识别方法，其特征在于，所述步骤S4中，知识图谱具有顶点，使用该顶点作为起始位置，以该节点的一跳节点作为第一层特征提取层，以该节点的二跳节点作为第二层特征提取层，直到覆盖企业风险本体库所包含的所有层，从而抽取出知识图谱的层次结构，该层次结构为特征提取层的骨架。

6.如权利要求1所述的企业风险识别方法，其特征在于，步骤S5对数据集进行预处理和划分包括：首先去除数据集中无用字段，然后进行分词和去除停用词的处理，最后进行数据集划分。

7.如权利要求1所述的企业风险识别方法，其特征在于，步骤S7中特征提取层神经元表示为式(1)：

o_i＝f(nn_i,kg_i) (1)

nn_i的计算方式如式(2)所示，kg的计算方式如式(3)所示，

nn_i＝x_i·W_N+b_i (2)

kg_i＝x_i·W_R·(w_K*KGM)^T (3)

8.如权利要求1所述的企业风险识别方法，其特征在于，步骤S8采用早停策略进行训练，直至模型收敛达到最佳效果时，保存该模型。