CN115392251A

CN115392251A - 一种互联网金融业务的实体实时识别方法

Info

Publication number: CN115392251A
Application number: CN202211065582.2A
Authority: CN
Inventors: 陈平华; 匡翊政
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-11-25

Abstract

本发明公开了一种互联网金融业务的实体实时识别的方法，步骤包括：步骤1)：对输入的金融文本数据X进行数据预处理，使用BIO标注体系对数据集进行标注；步骤2)：用五折切割来切分训练集，使用ALBERT‑CRF模型对处理过的文本进行实体识别得到实体集合，接着用频繁模式挖掘对数据进行后处理，由此得到金融文本对应的实体集合；步骤3)：通过得到的实体和关系构建金融领域知识图谱，接着将上述步骤进行综合，通过Micro‑Averaging来计算评测分数，最终得到金融文本对应的最优实体集合。本发明重点强调对于互联网中实时的金融文本数据，可以实时识别出金融文本中的实体，提升了金融实体识别的实时性，从而更好的为金融领域相关机构和个人提供信息支撑。

Description

一种互联网金融业务的实体实时识别方法

技术领域

本发明涉及到特定场景下的实体识别领域，具体为一种互联网金融业务的实体实时识别方法。

背景技术

随着互联网的快速进步和世界金融行业的高速发展，互联网金融实体呈现爆炸式增长。面对每时每刻都在更新的互联网金融信息，如何实时准确的识别出自身所需互联网金融实体信息成为了一道难题。因此互联网金融实体实时识别成为了一种迫切的社会需要，构建一种针对互联网金融业务场景下的实体实时识别的方法具有重要的现实意义和使用价值。

通过命名实体识别将文本和金融业务的实体信息关联起来，可以为用户提供更优质的金融智能化服务。相比于通用领域中文的命名实体识别，金融领域是一个具有高度专业性的领域，其命名实体识别除了人名、地名的识别以外，还包含属于专业领域的金融实体，比如金融公司名、项目名称、产品名称等具有强专业性的实体名称。当前金融领域的命名实体识别存在以下三点问题，其一是文本数据量大，噪声高且更新快；其二是缺乏实体丰富且有质量的金融领域数据集供实验研究；其三是金融领域存在大量结构复杂的实体，比如实体内层嵌套多，边界不易识别。

命名实体识别最早是由第六届语义理解会议(Message UnderstandingConference)提出，属于自然语言处理中的一项基础任务。命名实体一般指的是从大量待处理文本中识别出具有特定意义或者指代性强的实体，一般包括人名、地名、组织机构名、专有名词和日期时间等。目前命名实体识别任务已经深入各种垂直领域，如金融、电商、社交媒体等。命名实体识别技术就是从正式文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如项目名称、项目资金等。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。命名实体识别技术为信息抽取、信息检索、知识图谱、文本摘要、机器翻译、问答系统等多种自然语言处理技术奠定了基础。

发明内容

针对现有金融领域的实体识别存在识别速度慢和识别的准确性较差的问题，本发明提出了一种互联网金融业务的实体实时识别方法，提升了金融实体识别的实时性，帮助金融从业者更加快速高效地获取信息，从而能够提前把握行业动态，追踪行业发展趋势。其包含以下步骤：

步骤1，数据预处理模块中，对输入的金融文本数据X进行格式判断，格式不正确则进行数据预处理，包括数据清洗和数据划分，然后定义多个实体类型标签，使用BIO标注体系对数据集进行标注；

步骤2，实体集合提取模块中，用五折切割来切分训练集，保证模型泛化性，再使用ALBERT-CRF模型对文本进行实时的实体识别得到实体集合，对上一步骤得到的实体集合进行后处理，采用频繁模式挖掘可能遗漏的实体，并过滤掉误识别的实体，由此得到当前训练轮次金融文本对应的最优实体。

步骤3，实时处理模块中，通过上一步骤得到的实体和关系从而构建金融领域知识图谱，再用ALBERT-CRF模型针对数据集进行三轮fine-tunning，最后引用两种参数减少技术，提升实体识别的实时性。

进一步地，所述步骤1中，数据预处理模块的具体方法包括：

步骤1.1，针对金融文本常出现的噪音及错误标签等问题，本发明使用正则表达式定位噪声与错误标签数据；

步骤1.2，找出数据集中所有的非中文、非英文和非数字符号，比如一些HTML标签、特殊符号、无意义字符等，利用正则表达式进行过滤清除实现数据清洗，对文本中出现的错误标签进行定位并针对互联网金融文本进行数据清洗；

步骤1.3，定义多个实体类型标签，比如“FIN”金融实体，“LOC”地名实体，“ORG”机构实体，“PER”人名实体，“O”非命名实体；

步骤1.4，采用BIO标注体系，将标签细分为“B-LOC”、“I-LOC”、“B-ORG”、“I-ORG”、“B-PER”、“I-PER”、“B-FIN”、“I-FIN”、“O”；

步骤1.5，在句子长度超过510个的文本或者无结尾标点的文本的后面直接增加句号，然后以逗号，句号，感叹号，问号的优先级将长文本分割成多个独立短文本，同时还要对切割索引进行保存，方便之后拼接。

进一步地，所述步骤2中，实体集合提取模块的具体方法包括：

步骤2.1，用五折切割来切分训练集，分成训练集和验证集，多维度利用训练集信息，保证模型的泛化性；

步骤2.2，使用ALBERT预训练语言模型对待处理金融领域文本进行编码完成词嵌入，获取动态词向量；

步骤2.3，将上一步的动态词向量输入至CRF层并解码，

设两组随机变量X＝(x₁，x₂，...，x_n)和Y＝(y₁，y₂，...，y_n)，

线性链式条件随机场定义如下：p(y_i|X，y₁，y₂，...，y_i-1，y_y+1，...，y_n)＝p(y_i|X，y_i-1，y_i+1)，i＝1，2，...，n

其中：X为观察状态，Y为隐藏状态。

使用以下CRF的判别计算公式，可以得到本发明实体识别模型的预测标签序列的分值：

其中：mask(X，y)表示预测标签序列y的分值，P表示从ALBERT层得到的分数矩阵，T表示CRF学习得到的转移矩阵，p(y|X)表示输入序列与标签序列的对应概率；Y_X表示金融文本数据序列X对应的所有可能的字符序列。

步骤2.4，进一步地，根据所属分数最高的标签序列，得到当前语句文本对应的实体，使用以下公式来计算最大化正确标签序列的对数概率：

其中，X代表输入的金融文本数据序列X＝(x₀，x₁，...，x_n)，y代表预测的字符标签序列，Y_X表示金融文本数据序列X对应的所有可能的字符序列，mask(X，y)表示预测标签序列y的分值。

步骤2.5，再使用以下公式，解码得到最大值的预测输出序列：y_max＝argmax(mask(X，y′))，接着结合预测的标签序列和实体标注信息，完成实体边界及分类识别；

步骤2.6，再对得到的实体集合进行后处理，采用频繁模式挖掘遗漏的实体并过滤误判的实体，由此提取到金融文本对应的实体集合。

进一步地，所述步骤3中，实时处理模块的具体方法包括：

步骤3.1，通过得到的实体和关系构建金融知识图谱，并用Dgraph图数据库进行存储，Dgraph数据库操作高效，支持实时运行任意复杂的查询；

步骤3.2，基于上一步骤构建的知识图谱再构建一个字典树对数据进行回标，然后用ALBERT-CRF模型针对我们的金融数据集进行3轮fine-tuning训练，提升识别速度；

步骤3.3，为了更进一步减少模型训练时间和推理时间，本发明采用两种方法，第一种是跨层参数共享，相当于模型仅学习第一层参数，在其他所有层中重用该层参数，这样即减少了参数量又有效提升了模型稳定性；第二种是分解嵌入向量参数因式，设W为词向量大小，H为隐藏层大小，在BERT、RoBERTa等预训练语言模型中W≡H，参数规模为O(V×H)。ALBERT采用因式分解的方法来降低参数量，在词嵌入后加入一个矩阵以完成维度变化，参数量从O(V×H)降低为O(V×E+E×H)，当H＞＞E时参数量明显减少。

步骤3.4，将实时处理模块和实体集合提取模块进行综合，通过命名实体识别常用指标Micro-Averaging来计算评测分数，得到金融文本对应的最优实体集合，公式如下：

其中，n代表金融文本个数，TP_i代表第i条文本中正确识别出实体的数量，FP_i代表第i条文本中错误识别出实体的数量，FN_i代表第i条文本中没有识别出实体的数量。最后通过以上步骤，可以有效提升金融实体识别的实时性，有利于快速找到金融决策信息。

本发明提供的一种互联网金融业务的实体实时识别方法，优点在于实现了特定领域的实体识别，在金融领域缺少优秀的实体识别模型的情况下，构建了高速且精准的命名实体识别模型，并区别于以BERT作为嵌入层的传统模型，使用ALBERT作为嵌入层并进行微调，有效地学习基于金融领域业务的上下语义特征，实现对输入的金融文本语句进行实时精准的实体识别，提升了金融实体识别的实时性，解决了金融领域实体识别困难的问题，为金融从业者高效获取信息、及时把握行业动态提供了便利，从而更好的为金融领域相关机构和个人提供信息支撑。

附图说明

图1为本发明的一种互联网金融业务的实体实时识别的方法模型流程图；

图2为本发明所提出的实体集合提取模型流程图；

图3为本发明中的跨层参数共享流程图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚，以下结合说明书附图和本发明实施例方式，对本发明作进一步详细说明。

针对现有金融领域的实体识别存在识别速度慢和识别的准确性较差的问题，本发明提出了一种互联网金融业务的实体实时识别方法，如图1所示，该方法包括以下步骤：

步骤1，数据预处理模块中，对输入的金融文本数据X进行格式判断，格式不正确则进行数据预处理，包括数据清洗和数据划分，具体为：

在步骤1.1中，本实施例通过requests库直接调用新浪微博官方提供的数据API接口，从新浪微博获得实时的金融领域本文数据，针对获取到的文本出现的噪音及错误标签等问题，本发明使用正则表达式定位噪声与错误标签数据；

在步骤1.2中，找出数据集中所有的非中文、非英文和非数字符号，比如超链接"<a>“标签、段落标签”<p>"、图片标签"<img>"以及一些url标签等等，然后利用正则表达式进行过滤清除实现数据清洗；

在步骤1.3中，首先定义多个实体类型标签，比如“FIN”金融实体，“LOC”地名实体，“ORG”机构实体，“PER”人名实体，“O”非命名实体；

在步骤1.4中，采用BIO标注体系，将标签细分为“B-LOC”、“I-LOC”、“B-ORG”、“I-ORG”、“B-PER”、“I-PER”、“B-FIN”、“I-FIN”、“O”；

在步骤1.5中，对于序列X中的句子长度超过510个的文本或者无结尾标点的文本的后面直接增加句号，然后以逗号，句号，感叹号，问号的优先级将长文本分割成多个独立短文本，同时还要对切割索引进行保存，方便之后拼接。

步骤2，实体集合提取模块中，首先定义多个实体类型标签，使用BIO标注体系对数据集进行标注，然后使用ALBERT-CRF模型对文本进行实时的实体识别得到实体集合，对上一步骤得到的实体集合进行后处理，采用频繁模式挖掘可能遗漏的实体，并过滤掉误识别的实体，由此得到当前训练轮次金融文本对应的最优实体，具体为：

在步骤2.1中，用五折切割来切分训练集，分成训练集和验证集，多维度利用训练集信息，保证模型的泛化性；

在步骤2.2中，使用ALBERT预训练语言模型对待处理金融文本数据序列X进行编码完成词嵌入，获取动态词向量，比如”互联网金融在最近几年成全面爆发的趋势，从”支付宝“的一组数据可窥一斑。杭州的阿里巴巴旗下蚂蚁金服可谓是突飞猛进。“从这段话我们可以通过模型识别出互联网金融对应我们自定义的金融实体，支付宝、阿里巴巴、蚂蚁金服对应组织机构实体，杭州对应地点实体；

在步骤2.3中，接着用得到的动态词向量输入至CRF层并解码，再使用以下CRF的判别计算公式，可以得到本发明实体识别模型的预测标签序列的分值：

在步骤2.4中，进一步地，根据所属分数最高的标签序列，得到当前语句文本对应的实体，使用以下公式来计算最大化正确标签序列的对数概率：

在步骤2.5中，再使用以下公式，解码得到最大值的预测输出序列：y_max＝argmax(mask(X，y′))，接着结合预测的标签序列和实体标注信息，完成实体边界及分类识别；

在步骤2.6中，再对得到的实体集合进行后处理，采用频繁模式挖掘遗漏的实体并过滤误判的实体，比如对于不完整的实体，像″支付宝基(金)/(上)海能源期货交易中心“，我们根据预测标签进行判读，一部分直接丢掉，一部分根据后缀补全，由此提取到金融文本对应的实体集合。

步骤3，实时处理模块中，通过上一步骤得到的实体和关系从而构建金融领域知识图谱，再用ALBERT-CRF模型针对数据集进行三轮fine-tunning，最后引用两种参数减少技术，提升实体识别的实时性，具体为：

在步骤3.1中，通过得到的实体和关系构建金融知识图谱，并用Dgraph图数据库进行存储，Dgraph数据库操作高效，支持实时运行任意复杂的查询，Dgraph图数据库创建的知识图谱基于属性图模型，每个实体都有唯一的标识，每个节点由标签分组，每个关系有一个唯一的类型，基本概念有：实体、标记、属性。

在步骤3.2中，基于上一步骤构建的知识图谱再构建一个字典树对数据进行回标，然后用ALBERT-CRF模型针对我们的金融数据集进行3轮fine-tuning训练，提升识别速度；

在步骤3.3中，为了更进一步减少模型训练时间和推理时间，本发明采用两种方法，第一种是跨层参数共享，相当于模型仅学习第一层参数，在其他所有层中重用该层参数，这样即减少了参数量又有效提升了模型稳定性；第二种是分解嵌入向量参数因式，设W为词向量大小，H为隐藏层大小，在BERT、RoBERTa等预训练语言模型中W≡H，参数规模为O(V×H)。ALBERT采用因式分解的方法来降低参数量，在词嵌入后加入一个矩阵以完成维度变化，参数量从O(V×H)降低为O(V×E+E×H)，当H＞＞E时参数量明显减少。

在步骤3.4中，将实时处理模块和实体集合提取模块进行综合，通过命名实体识别常用指标Micro-Averaging来计算评测分数，得到金融文本对应的最优实体集合，公式如下：

应当理解，本发明所描述的实施例仅仅属于本发明中实施例的一部分，并不是全部实施例。上述的具体实施方式仅仅是示意性的，而不是限制性的。在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种互联网金融业务的实体实时识别的方法，其特征在于，包含以下步骤：

步骤2，实体集合提取模块中，用五折切割来切分训练集，保证模型泛化性，再使用ALBERT-CRF模型对文本进行实时的实体识别得到实体集合，对上一步骤得到的实体集合进行后处理，采用频繁模式挖掘可能遗漏的实体，并过滤掉误识别的实体，由此得到当前训练轮次金融文本对应的最优实体；

2.如权利要求1所述的一种互联网金融业务的实体实时识别的方法，其特征在于，所述步骤1具体包括：

3.如权利要求1所述的一种互联网金融业务的实体实时识别的方法，其特征在于，所述步骤2具体包括：

步骤2.3，将上一步的动态词向量输入至CRF层并解码，

设两组随机变量X＝(x₁,x₂,...,x_n)和Y＝(y₁,y₂,...,y_n)，

线性链式条件随机场定义如下：p(y_i|X,y₁,y₂,...,y_i-1,y_y+1,...,y_n)＝p(y_i|X,y_i-1,y_i+1),i＝1,2,...,n

其中：X为观察状态，Y为隐藏状态；

其中：mask(X,y)表示预测标签序列y的分值，P表示从ALBERT层得到的分数矩阵，T表示CRF学习得到的转移矩阵，p(y|X)表示输入序列与标签序列的对应概率，Y_X表示金融文本数据序列X对应的所有可能的字符序列；

其中，X代表输入的金融文本数据序列X＝(x₀,x₁,...,x_n)，y代表预测的字符标签序列；

步骤2.5，再使用以下公式，解码得到最大值的预测输出序列：y_max＝argmax(mask(X,y′))，接着结合预测的标签序列和实体标注信息，完成实体边界及分类识别；

4.如权利要求1所述的一种互联网金融业务的实体实时识别的方法，其特征在于，所述步骤3具体包括：

步骤3.3，为了更进一步减少模型训练时间和推理时间，本发明采用两种方法，第一种是跨层参数共享，相当于模型仅学习第一层参数，在其他所有层.中重用该层参数，这样即减少了参数量又有效提升了模型稳定性；第二种是分解嵌入向量参数因式，设W为词向量大小，H为隐藏层大小，在BERT、RoBERTa等预训练语言模型中W≡H，参数规模为O(V×H)；ALBERT采用因式分解的方法来降低参数量，在词嵌入后加入一个矩阵以完成维度变化，参数量从O(V×H)降低为O(V×E+E×H)，当H＞＞E时参数量明显减少；

其中，n代表金融文本个数，TP_i代表第i条文本中正确识别出实体的数量，FP_i代表第i条文本中错误识别出实体的数量，FN_i代表第i条文本中没有识别出实体的数量，最后通过以上步骤，可以有效提升金融实体识别的实时性，有利于快速找到金融决策信息。