CN109241199B

CN109241199B - 一种面向金融知识图谱发现的方法

Info

Publication number: CN109241199B
Application number: CN201810897485.7A
Authority: CN
Inventors: 龙世增; 蔡瑞初; 毕辉; 李楠
Original assignee: Shanghai Xurong Network Technology Co ltd
Current assignee: Shanghai Xurong Network Technology Co ltd
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2022-09-23
Anticipated expiration: 2038-08-08
Also published as: CN109241199A

Abstract

本发明公布了一种面向金融知识图谱的分析方法。面向金融知识图谱的分析系统包括：文本预处理模块、协方差模块、深度学习模块、关系矩阵模块、Deep‑Lasso模块、用户反馈模块、系统管理模块。用户可以通过该系统存储和管理各种金融领域的训练样本，并对之进行分句、分词、词性标注和句法分析等处理。用户还可以添加自定义实体对处理好的文本信息进行特征抽取和向量化，然后用训练的模型计算文本中实体的相关关系，进而用于金融知识图谱发现，以及对系统的实体预测结果进行反馈，并传递给管理员进行审核，进一步提高知识图谱的可靠性。

Description

一种面向金融知识图谱发现的方法

技术领域

本发明属于网络信息处理技术领域，具体涉及一种面向金融知识图谱发现的方法。

背景技术

在人工智能兴起的大背景下，知识图谱作为一种全面的表达方式已经得到越来越多的关注，越来越多的研究者投入到了知识图谱的研究中。

福尔摩斯说过：“一个逻辑学家，不需要亲眼见过，或听过大西洋和尼亚加拉大瀑布，他从一滴水中就能推测出它们。知识图谱就像福尔摩斯破案一样，首先需要采集散布在各个角落的碎片化信息和数据，然后把它按标准化思考方式整理，再将各个看似不相关但背后有着共同联系的信息关联起来挖掘背后的规律，据此做深入的推理。

2012年，Google率先在自己的搜索引擎中加入了知识图谱，当用户查询关键词的时候，不仅能够得到相关网页，还可以得到更多与查询词相关的其他信息。从技术的角度来说，知识图谱是一个由数据到信息再到知识，最后转化为智慧的过程。

知识图谱技术包括以下三个方面的研究内容:

1.知识表示:研究客观世界知识的建模，以方便机器识别和理解，既要考虑知识的表示与存储，又要考虑知识的使用和计算；

2.知识图谱构建:解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识，主要研究使用何种数据和方法抽取何种知识；

3.知识图谱应用:主要研究如何利用知识图谱建立基于知识的智能服务系统，更好地解决实际应用问题。

知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式，使得网络的智能化水平更高，更加接近于人类的认知思维。在关注到知识图谱在自然语言处理、人工智能等领域展现巨大潜力的同时，也不难发现知识图谱中的知识获取、知识表示、知识推理等技术依然面临着一些困难与挑战，很多重要的开放问题急待学术界与工业界协力来解决。知识图谱的主要挑战问题主要包括：1.知识的自动获取；2.多源知识的自动融合；3.面向知识的表示学习；4.知识推理与应用等。在开放源的文本中，如何提取实体和实体之间的关系，一直是知识图谱领域中一个比较棘手的问题。围绕这方面研究主要是entity和relation extraction。虽然NLP领域也对这个问题研究了很多年，但是在开放信息源中的效果并不是很理想。在未来的几年时间内，知识图谱仍将是大数据智能的前沿研究问题。

发明内容

为了解决上述问题，本发明提出了一种面向金融知识图谱的分析方法。本发明有效避免了Graph Lasso在关系抽取中过拟合的问题，能很好的应对错分类和遗漏新关系的情况,且有效提高了在小样本数据上的准确性。

本发明面向金融知识图谱的分析方法，其中面向金融知识图谱的分析系统包括如下模块：

文本预处理模块，对输入的文本进行清洗，并进行分词、词性标注和停用词处理等操作；预处理的数据要用作模型的输入，因此去除冗余的数据是必要的，此外由于金融领域的特殊性，需要去除一些非领域内的常用词；

协方差模块：抽取实体间与文本间从属关系的协方差矩阵，从样本数据库中提取文本集，对每一篇文章，若实体出现在了文章中，则标记为1，否则记为0，得到一个实体和文章间的共现矩阵，在此基础上加入实体重要性后求出协方差矩阵；

深度学习模块：深度学习模块分为预测和训练两个部分，预测部分用预训练的end-to-end的深度学习算法进行实体关系的预测，然后直接输出实体关系；另一部分需要将输出实体关系的二值表示，为关系矩阵的搭建做准备；另外，反馈机制会重新引入数据，届时模型也需要根据更新的数据重新训练；

关系矩阵模块：在预训练好的end-to-end模型中输入文本，可直接得到实体关系的一个三元组，此三元组为整个Deep-Lasso模块的输出；训练时需要将实体关系简化为0/1，作为实体关系矩阵中元素的值，其中，实体间存在实体关系的记为1，否则记为0；

Deep-Lasso模块：在Deep-Lasso模块的损失函数中引入深度学习损失项，即log|X|-<S1,X>-<S2,X>-v||X||_1,其中，S1为协方差模块中的协方差矩阵，S2为关系矩阵模块中的关系矩阵，S1和S2分别从不同的方向逼近相关关系，增强了模型的准确性和健壮性，减少过拟合；值得一提的是，Deep-Lasso模块仅包含对Deep-Lasso损失函数的改进，是整个Deep-Lasso模型的一部分，而并不等同于Deep-Lasso模型；

用户反馈模块：收录用户意见及之间没有出现过的新实体关系，建立反馈数据集并提交系统进行审核；这样能让用户也参与到知识图谱的构建，能拓宽知识图谱的知识边界，提高可信度和准确度；

系统管理模块：系统管理员会通过管理员接口收录反馈模块中的用户反馈和新发现的实体关系集合，进行人工审核，通过审核的实体关系会重新回到Deep-Lasso模块中进行训练，以进一步提高模型的准确率；

面向金融知识图谱的分析方法，上述七个模块中，文本预处理模块负责将公司的相关文本进行预处理，预处理后的文本一方面进入协方差模块进行协方差矩阵的计算，另一方面进入从模型库中导入的深度学习模型进行预测并有预测的结果进行关系矩阵的计算，然后将协方差模块和关系矩阵模块的结果加入Deep-Lasso模块所代表的损失函数中，通过系统管理模块的审核后进入反馈模块进行反馈，反馈的结果进入反馈库并由管理员进行审核。

本发明的方法，对新输入的文本，实体间的关系可由模型库中导入的深度学习模型直接进行预测，对预测的结果做两种处理，一是直接输出实体关系，而是对实体关系二值化后得到关系矩阵，引入Deep-Lasso模块的损失函数继续训练end-to-end深度学习模型。对于新输入的文本和实体，实体通过在文章中的共现矩阵，加入实体在对应文本的权重后，求得其协方差矩阵，以度量实体的重要性及实体间的联系紧密程度。分别将协方差矩阵和关系矩阵与随机初始化的X矩阵做内积，加入到损失函数中，让矩阵X从两个不同的方向去接近实体关系，是本发明的关键创新点。本方法相比于单一的Grapha Lasso或深度学习算法，都具备更强的鲁棒性。同时，由于金融领域的特殊性，会出现一些之前没有出现过的新关系，对于这种新关系，需要采取更谨慎的人工审核和筛选。在用户反馈模块中，会将新发现的实体关系和用户反馈放在一起做批量处理，然后加入模型二次训练，进一步提高算法的准确性。本发明具有如下优点：

1)本发明用深度学习的方法有效避免了Graph Lasso在关系抽取中过拟合的问题，由于Graph Lasso本身会引入稀疏性，这样就造成了一定程度上的信息损失。而加入深度学习抽取实体关系这一行为，无疑弥补了这种损失，为之后的知识图谱的构建起到了帮助。

2)本发明引入了反馈模块，能很好的应对错分类和遗漏新关系的情况。

3)本发明的数据预处理模块对很不常见但重要性很高的实体对也做了处理，有效提高了在小样本数据上的准确性。

4)本发明Deep-lasso优化：协方差矩阵仅仅利用了共现信息，对于实体关系的描述不够充分。可建立一个金融领域的实体关系的全面的词典，寻找Deep-Lasso计算所得的相关关系在词典中的映射，这样得到的结果会更可靠。另外，实体识别和关系抽取实际上还是分开进行，等于放弃了它们之间相互联系的那一部分信息，这一部分可在深度学习模型中加入端对端的训练，将实体识别和关系抽取整合到一次训练中。

附图说明

图1为本发明的分析流程图；

图2为本发明的系统结构图。

具体实施方式：

下面结合附图对本发明做进一步的说明。图1为本发明的整体算法流程。本发明面向金融知识图谱的分析方法，其中面向金融知识图谱的分析系统包括如下模块：

文本预处理模块1，对输入的文本进行清洗，并进行分词、词性标注和停用词处理等操作；预处理的数据要用作模型的输入，因此去除冗余的数据是必要的，此外由于金融领域的特殊性，需要去除一些非领域内的常用词；

协方差模块2：抽取实体间与文本间从属关系的协方差矩阵，从样本数据库中提取文本集，对每一篇文章，若实体出现在了文章中，则标记为1，否则记为0，得到一个实体和文章间的共现矩阵，在此基础上加入实体重要性后求出协方差矩阵；

深度学习模块3：深度学习模块分为预测和训练两个部分，预测部分用预训练的end-to-end的深度学习算法进行实体关系的预测，然后直接输出实体关系；另一部分需要将输出实体关系的二值表示，为关系矩阵的搭建做准备；另外，反馈机制会重新引入数据，届时模型也需要根据更新的数据重新训练；

关系矩阵模块4：在预训练好的end-to-end模型中输入文本，可直接得到实体关系的一个三元组，此三元组为整个Deep-Lasso模块的输出；训练时需要将实体关系简化为0/1，作为实体关系矩阵中元素的值，其中，实体间存在实体关系的记为1，否则记为0；

Deep-Lasso模块5：在Deep-Lasso模块的损失函数中引入深度学习损失项，即log|X|-<S1,X>-<S2,X>-v||X||_1,其中，S1为协方差模块中的协方差矩阵，S2为关系矩阵模块中的关系矩阵，S1和S2分别从不同的方向逼近相关关系，增强了模型的准确性和健壮性，减少过拟合；值得一提的是，Deep-Lasso模块仅包含对Deep-Lasso损失函数的改进，是整个Deep-Lasso模型的一部分，而并不等同于Deep-Lasso模型；

用户反馈模块6：收录用户意见及之间没有出现过的新实体关系，建立反馈数据集并提交系统进行审核；这样能让用户也参与到知识图谱的构建，能拓宽知识图谱的知识边界，提高可信度和准确度；

系统管理模块7：系统管理员会通过管理员接口收录反馈模块中的用户反馈和新发现的实体关系集合，进行人工审核，通过审核的实体关系会重新回到Deep-Lasso模型中进行训练，以进一步提高模型的准确率；

本发明的具体步骤如下：

1.对输入的文本进行清洗，并进行分词、词性标注和停用词处理等操作。预处理的数据要用作模型的输入，因此去除冗余的数据是必要的。

2.抽取实体与文本间从属关系的协方差矩阵。若实体出现在了文章中，则标记为1，否则记为0，记录实体出现的次数，然后乘以每个实体对应所有文章的tf-idf值，为了数据规模统一，需要将数据规约，最后得到一个实体和文章间的共现矩阵。然后依据这个矩阵求出协方差矩阵。

3.深度学习模块需要分成两个部分。一部分导入预训练的端对端深度学习模型直接预测实体间的关系。另一部分，将实体关系转化成关系矩阵。可提供使用的预训练的深度学习模型，比如联合学习LSTM-RC模型进行训练。其将实体识别和关系抽取放在一个算法中，能够有效利用实体识别和关系抽取间的联系，减少了分开计算造成的信息损失。另外，新发现的实体关系会经过反馈模块由管理员确认后重新加入模型训练，提高算法的准确性。

4.用训练好的模型抽取实体在文章中的关系矩阵。根据模型直接输出预测的结果，有关系的标记为1，否则为0。可得实体关系矩阵。其与随机初始化的矩阵X做内积，可从另一个不同于协方差矩阵的方向逼近实体相关关系，减小过拟合。

5.在Deep-Lasso模块的损失函数中引入深度学习损失项，即log|X|-<S1,X>-<S2,X>-v||X||_1,其中，S1为2中的协方差矩阵，S2为4中的关系矩阵。S1和S2分别从不同的方向逼近相关关系，增强了模型的准确性和健壮性。代入相关数据后输出相关关系的计算结果。值得一提的是，Deep-Lasso模块仅包含对Deep-Lasso损失函数的改进，是整个Deep-Lasso模型的一部分，而并不等同于Deep-Lasso模型。详细的Deep-Lasso模型结构见图1.

6.得到Deep-Lasso处理新文本的结果后，需要对结果进行审视，如果计算得到的实体关系是在训练即中没出现过的关系，第一次出现的时候可能会丢失的情况。因此对于新发现的关系，单独将其聚集起来形成一个单独的新发现关系集。而对于Deep-Lasso输出的结果，难免出现误判的情况，因此必须接受用户的反馈。最后将新发现的关系集和用户反馈的情况统一整理，在进行人工核实以后，将新发现的关系和纠错后的关系重新输入Deep-Learning中进行训练。

上述文本预处理模块1:金融领域的关系抽取不同于公共领域关系抽取，具有很强的金融特征。另外在金融知识图谱的构建过程中，不需要一些常见的实体及关系，因此，在模型中输入文本之前做一层清洗是必要的。

上述协方差模块2：根据给定的实体和文本，建立一个实体在文章中的共现矩阵。遍历每一个文本，若实体出现在文章中，则表示为1，不在文本中则表示为0。另外，求出每个实体在文章中的tf-idf值作为该实体在当前文章中的重要性，然后将其与共现矩阵中对应的元素及权重相乘，最后求出其协方差矩阵。在损失函数中，协方差矩阵与随机初始化的X矩阵的内积，刻画了X与实体间的相似程度。加入到损失函数中可从协方差矩阵的方向逼近实体相关关系，减小过拟合。

上述深度学习模块3：深度学习模块需要分成两个部分。一部分导入预训练的end-to-end深度学习模型直接预测实体间的关系。另一部分，将实体关系转化成关系矩阵。可提供使用的预训练的深度学习模型，比如联合学习LSTM-RC模型进行训练。其将实体识别和关系抽取放在一个算法中，能够有效利用实体识别和关系抽取间的联系，减少了分开计算造成的信息损失。

上述关系矩阵模块4：对于新输入的文本，可用远程监督，命名实体识别等方法得到新的实体集，然后用深度学习模型输出的实体间的关系，若实体间有关系，则表示为1，否则表示为0。由此可得实体间的关系矩阵。

上述Deep-Lasso模块5：对于Deep-Lasso模块的损失函数log|x|-<S,X>-v||X||_1,由于其本身具有的稀疏性，算法会在某种程度上自动进行特征选择，这样会造成一定信息的损失。因此将4中深度学习算法提取的关系矩阵与X的内积加入到以上损失函数中，进一步提升损失函数减小到代价，以减少过拟合的情况。我们将这种损失函数所表达的算法命名为Deep-Lasso。

上述用户反馈模块6：原来一直都没出现的关系，第一次出现的时候可能会丢失的情况。因此对于新发现的关系，可以单独将其聚集起来，形成一个单独的新发现关系集。而对于Deep-Lasso输出的结果，难免出现误判的情况，因此必须接受用户的反馈。最后将新发现的关系集和用户反馈的情况统一整理，在进行人工核实以后，将新发现的关系和纠错后的关系重新输入Deep-Learning中进行训练。

上述系统管理模块7：文本预处理模块，对输入的文本进行清洗，并进行分词、词性标注和停用词处理操作。比如文本中含有的诸如html、停用词、标点等脏数据需要处理，为了将文本数据转化为结构化数据，需要对文本进行分词操作，为了区分实体状态需要进行词性标注等。

下面分别叙述各模块的具体内容：

文本预处理模块1：

将文章做分词，与金融词语料库做对比，去除与金融无关的冗余数据，能提高领域相关性，减小数据噪音和复杂度。导入预训练的词向量对实体进行embedding，根据文本和实体的规模调整词向量的维度。由于是金融领域的关系提取，需要特别注意金融热词之间的关系。相比于通用领域的实体关系，金融领域的关系提取往往具有更高的难度。因此我们需要更多的实体关系语料，在具备足够多实体对的情况下，可以用远程监督提取实体关系。这样就在某种程度上解决了数据来源的问题，为了和增加和金融领域的相关性，需要去除实体或文本中与金融领域不相关的数据。

协方差模块2：

2.1根据给定的文本和实体，求出每个实体在文本中的tf-idf。

2.2求实体的共现矩阵

对每个出现的实体i，遍历每一篇文章j。实体在该文章中出现的次数n乘以该实体对应的tf-idf的sigmoid函数，得到实体i对应文章j在共现矩阵中的元素值。伪代码如下：

forentityinentities

fortextintexts

n＝num(entity)intext\\实体在当前文本中出现的次数

matrix[x]＝n*1/(1+exp(-entity_tf-idf))\\次数*实体重要性的S值

returnmatrix

2.3求共现矩阵的协方差矩阵

对共现矩阵中的第i行，求其与共现矩阵中的第j行的协方差。伪代码如下：

foriinmatrix

u[i]＝E[matrix[i]

cov(matrix[i]，matrix[j])＝E[(matrix[i]-u[i])(matrix[j]-u[j])]

returncov

协方差矩阵刻画了实体间联系的紧密程度，在损失函数中，协方差矩阵与随机初始化的X矩阵的内积，刻画了X与实体间的相似程度。协方差矩阵与随机初始化的矩阵X做内积，可从协方差矩阵的方向逼近实体相关关系，减小过拟合。协方差模块由于无需参与训练，可直接进行协方差矩阵的计算。

深度学习模块3：

深度学习模块需要分成两个部分。一部分导入预训练的端对端深度学习模型直接预测实体间的关系。另一部分，将实体关系转化成关系矩阵。可提供使用的预训练的深度学习模型，比如联合学习LSTM-RC模型进行训练。其将实体识别和关系抽取放在一个算法中，能够有效利用实体识别和关系抽取间的联系，减少了分开计算造成的信息损失。另外，新发现的实体关系会经过反馈模块由管理员确认后重新加入模型训练，提高算法的准确性。

3.1深度学习训练模型

深度学习通过反馈模块得到的数据加入原有数据库中一起训练，可进一步提高模型的准确率。本发明从模型库中导入预训练的端对端神经网络进行实体关系的直接预测。由此得到的实体关系一方面作为金融知识图谱的构造元素，另一方面回到Deep-Lasso中进行重新学习，下一次训练的模型会覆盖原有的预训练模型。如此产生一个模型迭代的过程。

3.2深度学习预测模型

在3.1中导入训练好的模型，当文本输入进来时，可直接进入该模块，输出实体间的关系。输出的结果需要通过LSTM解码和Softmax层，得到最终的实体关系。

预训练end-to-end模型伪代码如下：

gettexts\\在样本库中获取金融文章

wordembedding\\对输入的文本通过共用的wordembedding

encodinginputbyBiLSTM\\接双同的LSTM层来对输入进行分编码

NERbyLSTM\\用LSTM进行命名实体识别

relationsclassifierbyCNN\\用CNN进行关系分类

该模型主要是通过底层的模型参数共享，在训练时两个任务都会通过后向传播算法来更新共享参数来实现两个子任务之间的依赖。

4.相关关系矩阵模块

用深度学习模型输出的实体间的关系，若实体间有关系，则表示为1，否则表示为0。由此可得实体间的关系矩阵。其与随机初始化的矩阵X做内积，即<S2,X>，可从另一个不同于协方差矩阵的方向逼近实体相关关系，减小过拟合。

Deep-Lasso模块5：

对于Deep-Lasso模块的损失函数log|x|-<S,X>-v||X||_1,由于其本身具有的稀疏性，算法会在某种程度上自动进行特征选择，这样会造成一定信息的损失。因此将4中深度学习算法提取的关系矩阵与X的内积加入到以上损失函数中，即log|X|-<S1,X>-<S2,X>-v||X||_1,其中，S1为2中的协方差矩阵，S2为4中的关系矩阵。这样能进一步提升损失函数减小到代价，以减少过拟合的情况。我们将这种损失函数所表达的算法命名为Deep-Lasso。

反馈模块6：

在deep-lasso对新文本进行计算时，可能会有一些原来一直都没出现的实体关系，第一次出现的时候可能会丢失的情况。因此对于新发现的关系，可以单独将其聚集起来，形成一个单独的新发现关系集。而对于Deep-Lasso输出的结果，难免出现误判的情况，因此必须接受用户的反馈。反馈会进入反馈库供管理员调用。

系统管理模块7：

系统管理员通过接口从反馈库中将新发现的关系集和用户反馈的情况统一整理，在进行人工核实以后，将新发现的关系和纠错后的关系重新输入Deep-Learning中进行训练，以保证模型的准确率以及知识图谱不会因为新的实体或关系的出现而失效。

Claims

1.一种面向金融知识图谱的分析方法，其特征在于：

利用文本预处理模块对输入的文本进行清洗，并进行分词、词性标注和停用词处理操作；

利用协方差模块抽取实体间与文本间从属关系的协方差矩阵，包括：根据给定的文本和实体，求出每个实体对应所有文章的tf-idf值；对于每个实体i，遍历每一篇文章j，记录实体i在文章j中出现的次数；基于该次数和实体i的tf-idf值得出实体i对应文章j在共现矩阵中的元素值，得到实体和文章间的共现矩阵；再依据所述共现矩阵求出协方差矩阵；

在深度学习模块的训练部分，利用预训练的end-to-end的深度学习模型进行实体关系的预测，输出实体关系；

利用关系矩阵模块将所述实体关系进行二值化表示，作为关系矩阵中元素的值，其中，实体间存在实体关系的记为1，否则记为0；

在Deep-Lasso模块的损失函数中引入深度学习损失项，即log|X|-<S1,X>-<S2,X>-v||X||_1,其中，S1为所述协方差矩阵，S2为所述关系矩阵，X为初始化的矩阵，<S1,X>表示协方差矩阵S1与初始化矩阵X做内积；在Deep-Lasso模块中进行重新学习的模型会覆盖原有的预训练模型，是一个模型迭代的过程；

在深度学习模块的预测部分，导入训练好的模型，当文本输入进来时，可输出实体间的关系；

通过用户反馈模块收录用户意见及之间没有出现过的新实体关系，建立反馈数据集并提交系统进行审核；

在系统管理模块中，系统管理员会通过管理员接口收录反馈模块中的用户反馈和新发现的实体关系集合，进行人工审核，通过审核的实体关系会重新回到Deep-Lasso模块中进行训练。

2.根据权利要求1所述的面向金融知识图谱的分析方法，其特征在于，对于新输入的文本，可用远程监督，命名实体识别方法得到新的实体集，然后用深度学习模型输出实体间的关系，若实体间有关系，则表示为1，否则表示为0，由此可得实体间的关系矩阵。

3.根据权利要求1所述的面向金融知识图谱的分析方法，其特征在于深度学习模块分为预测和训练两个部分，预测部分用预训练的end-to-end的深度学习算法进行实体关系的预测，其中，end-to-end模型采用了LSTM-RC的联合模型。