CN115953788A

CN115953788A - 基于ocr和nlp技术的绿色金融属性智能认定方法及系统

Info

Publication number: CN115953788A
Application number: CN202211536575.6A
Authority: CN
Inventors: 周凌飞; 张笑冬; 何平
Original assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Current assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-04-11

Abstract

本发明提供了一种基于OCR和NLP技术的绿色金融属性智能认定方法及系统，包括：步骤S1：进行图像信息提取和识别，得到非结构化字符数据信息；步骤S2：将非结构化字符数据信息进行数据结构化构建，得到标准化结构字符数据；步骤S3：将标准化结构字符数据进行文本数据预处理，并得到词向量或者矩阵形式的数据；步骤S4：文本词向量输入全连接网络进行分析，得到具体属性分类结果。本发明可以高效地分析相关材料的文档信息，并给出有价值的参考指标；本发明给向银行工作人员提供一种快捷高效地金融属性认定服务；本发明利用OCR和NLP技术提高银行客户的绿色金融贷款的审查效率。

Description

基于OCR和NLP技术的绿色金融属性智能认定方法及系统

技术领域

本发明涉及数据处理技术领域，具体地，涉及一种基于OCR和NLP技术的绿色金融属性智能认定方法及系统。

背景技术

2020年央行高层在相关会议场合发表发展绿色金融科技的需求，指出发展“金融科技通过大数据、人工智能、物联网、云计算、区块链等数字技术应用”，能有效缓解相关业务的痛点和难点。而桥梁的绿色金融更能有效地引导更多的社会资本投向绿色产业。因此增强对绿色金融属性的判别分类能力尤为重要。

目前，大部分的绿色金融属性认定系统采用关键词词典的形式，该种认定方式对于金融专业领域的特殊分词经常会出现切分不准确的情况，为解决该问题需要大量人工设置专有领域词典以及词语的优先级，而人工的介入必然会给属性认定系统造成主观分歧的问题。

专利文献CN115048940A(申请号：CN202210724689.7)公开了一种基于实体词属性特征和回译的中文金融文本数据增强方法。该方法包括：首先对输入的金融文本进行文本预处理工作；紧接着，通过命名实体识别和词汇匹配的方法对金融文本中翻译难度较大的实体词使用指代字符进行实体词指代替换以生成金融文本的中间文本和指代字符-实体映射关系字典；之后，使用回译的方法增强金融文本的中间文本，并使用指代字符-实体映射关系字典还原文本中的指代字符，进而生成与原文本语义相似的新文本。但该发明没有利用OCR和NLP技术。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于OCR和NLP技术的绿色金融属性智能认定方法及系统。

根据本发明提供的一种基于OCR和NLP技术的绿色金融属性智能认定方法，包括：

步骤S1：进行图像信息提取和识别，得到非结构化字符数据信息；

步骤S2：将非结构化字符数据信息进行数据结构化构建，得到标准化结构字符数据；

步骤S3：将标准化结构字符数据进行文本数据预处理，并得到词向量或者矩阵形式的数据；

步骤S4：文本词向量输入全连接网络进行分析，得到具体属性分类结果。

优选地，在所述步骤S1中：

用户提供的数据包括结构化数据和非结构化数据；其中非结构化数据的处理需要添加辅助检测模型，对非结构的图像数据进行预检测，将模型判别的各个检测框进行结构化还原，转化为具有结构关系的模板数据后与结构化数据一同输入后端的提取识别模型；

在数据的提取识别阶段，对各个关键字段进行文字识别，将每个图像文字识别为对应计算机字符；在文字识别中应用识别神经网络模型，在有印章和水印遮挡以及像素较低情况下识别关键字段信息，得到的非结构化字符数据信息将传入下一个模块进行数据结构化。

优选地，在所述步骤S2中：

将输出的非结构化字符数据信息作为数据的输入输出流暂存于服务器中，等待下一步的数据结构化处理；

结构化构建使用检测框和字符内容对应配准的方法，检测模型输出的检测框输出对角的两点的相对坐标，再将对应框中的内容输入相对应的坐标位置，通过智能算法将检测框进行对齐和适配操作，输出原始图像的标准化结构字符数据，给后端的NLP模型提供标准化结构字符数据。

优选地，在所述步骤S3中：

文本数据预处理：

通过NLP智能模型将标准化结构字符数据进行字词分析和命名实体的识别工作，对字符数据进行数据清洗去除无效字符，限制文本最大长度输入，如果有超出长度的部分采用切片输入的方式，得到文本长度一致的标准数据；

文本的词向量表示：

将文本长度一致的标准数据进行转换得到词向量或者矩阵形式的数据，利用预训练的词嵌入模型将文本分词转化为稠密低维的词向量，并设置神经元失活系数，消减过拟合的情况，设计指标项信息抽取的端到端解决方案，通过对预定义的指标项的数据标注，由神经网络训练得到给定指标项标签的文本内容。

优选地，在所述步骤S4中：

将文本词向量输入全连接网络进行分析，得到具体属性分类结果，选取Bert的Bi-LSTM模型结构处理给定的指标项标签文本内容，然后经过专门设计的全连接层和CRF模型进行文本分类工作，输出属性分类结果：

包括如下两个步骤：

步骤S4.1：通过Bi-LSTM层从给定标签的文本词向量中自动提取分词中的特征，将一个完整文本的Word Embedding序列作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐性状态序列与反向LSTM的在各个位置输出的隐状态进行状态拼接，得到完整的隐性状态序列；

步骤S4.2：将隐状态传入CRF层进行处理，实现行文本级的序列预测，CRF层对文本中的隐性状态序列进行建模并计算各个状态的转移概率，给出行文本的语义信息分类。

根据本发明提供的一种基于OCR和NLP技术的绿色金融属性智能认定系统，包括：

模块M1：进行图像信息提取和识别，得到非结构化字符数据信息；

模块M2：将非结构化字符数据信息进行数据结构化构建，得到标准化结构字符数据；

模块M3：将标准化结构字符数据进行文本数据预处理，并得到词向量或者矩阵形式的数据；

模块M4：文本词向量输入全连接网络进行分析，得到具体属性分类结果。

优选地，在所述模块M1中：

优选地，在所述模块M2中：

优选地，在所述模块M3中：

文本数据预处理：

文本的词向量表示：

优选地，在所述模块M4中：

包括如下两个步骤：

模块M4.1：通过Bi-LSTM层从给定标签的文本词向量中自动提取分词中的特征，将一个完整文本的Word Embedding序列作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐性状态序列与反向LSTM的在各个位置输出的隐状态进行状态拼接，得到完整的隐性状态序列；

模块M4.2：将隐状态传入CRF层进行处理，实现行文本级的序列预测，CRF层对文本中的隐性状态序列进行建模并计算各个状态的转移概率，给出行文本的语义信息分类。

与现有技术相比，本发明具有如下的有益效果：

1、本发明可以高效地分析相关材料的文档信息，并给出有价值的参考指标；

2、本发明给向银行工作人员提供一种快捷高效地金融属性认定服务；

3、本发明利用OCR和NLP技术提高银行客户的绿色金融贷款的审查效率；

4、本发明为实际的业务场景中提供动态新增数据和标签优化的解决方法，可以实现模型的增量训练，有效地降低模型上线后的迭代周期；

5、本发明提出一种绿色金融属性认定以及模型迭代的设计思路。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为智能绿色金融属性认定模型的业务处理流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

在大数据趋势中，本发明基于光学字符识别、自然语言处理等AI新技术，通过开发和训练相关判别模型、显著地提升绿色金融属性的判别能力。

应用光学字符识别模型(Opt ical Character Recognit ion，OCR)和自然语言处理模型(Nature Language Processing，NLP)对所投放贷款的文本资料进行绿色金融属性智能认定。通过光学字符识别模型和自然语言处理模型智能算法，对用户提交的金融待审核材料(包含但不仅限于项目可行性研究报告、项目可行性研究报告批复、项目环境影响评估报告、项目环评批复等)进行绿色属性认定。本发明对资料中的文字信息进行智能识别，抽取文本中的主题关键字段和关键词，然后对以上关键字段信息进行自然语言处理，由神经网络模型认定该项目是否具有绿色金融相关属性。

根据本发明提供的一种基于OCR和NLP技术的绿色金融属性智能认定方法，如图1所示，包括：

具体地，在所述步骤S1中：

具体地，在所述步骤S2中：

具体地，在所述步骤S3中：

文本数据预处理：

文本的词向量表示：

具体地，在所述步骤S4中：

将文本词向量输入全连接网络进行分析，得到具体属性分类结果，选取Bert的Bi-LSTM模型结构处理给定的指标项标签文本内容，然后经过专有全连接层和CRF模型进行文本分类工作，输出属性分类结果：

包括如下两个步骤：

实施例2：

实施例2为实施例1的优选例，以更为具体地对本发明进行说明。

本发明还提供一种基于OCR和NLP技术的绿色金融属性智能认定系统，所述基于OCR和NLP技术的绿色金融属性智能认定系统可以通过执行所述基于OCR和NLP技术的绿色金融属性智能认定方法的流程步骤予以实现，即本领域技术人员可以将所述基于OCR和NLP技术的绿色金融属性智能认定方法理解为所述基于OCR和NLP技术的绿色金融属性智能认定系统的优选实施方式。

具体地，在所述模块M1中：

具体地，在所述模块M2中：

具体地，在所述模块M3中：

文本数据预处理：

文本的词向量表示：

具体地，在所述模块M4中：

包括如下两个步骤：

实施例3：

实施例3为实施例1的优选例，以更为具体地对本发明进行说明。

一种基于OCR和NLP技术的绿色金融属性智能认定方法和系统，该方法由OCR和NLP两阶段模型组合而成，该模型的主要特征在于：

第一阶段OCR模型的文本字符识别和结构化重构输出；

第二阶段NLP模型的关键字段抽取和属性类别智能识别。

具体包括以下内容：

(1)图像信息提取和结构化数据构建

本发明将OCR智能算法得出的目标检测框进行结构化还原，转化为具有结构关系的模板数据后与结构化数据一同输入后端的提取识别模型。在字符数据识别阶段，需要对各个关键字段进行文字识别，将每个图像文字准确地识别为对应字符。本发明在文字识别中应用最新的识别神经网络模型，可以在有印章和水印遮挡以及像素较低情况下精准识别文本的标题、表头和正文内容等关键字段信息。

(2)文本数据预处理和词向量的表示

本发明通过NLP智能模型对结构化字符数据进行字词分析和命名实体的识别工作。并利用预训练的词嵌入模型将文本中的每个字词生成稠密低维的词向量，设置神经元失活系数，消减模型过拟合的情况。

(3)全连接层文本分类

本阶段选取Bert的Bi-LSTM模型结构处理词向量层中的待处理字词数据，然后经过专门设计的全连接层和CRF模型进行文本分类工作。Bi-LSTM层可以自动提取分词中的特征，将一个完整文本进行特征抽取获得完整的隐状态序列。CRF层进行文本级的序列预测，从各个粒度上判断该项目是否属于绿色金融项目。

(4)绿色金融属性认定系统的建立

建立的AI智能认定系统主要分为客户端、AI大数据基础服务平台和绿色金融系统三个部分。中间通过Web通信进行交互。然后将提取的样本数据输入绿色金融系统为客户提供绿色金融属性的参考认定结果。最后将样本数据进行整理，为版本迭代提供数据支持。

实施例4：

实施例4为实施例1的优选例，以更为具体地对本发明进行说明。

本发明应用OCR模型和NLP模型提供一种所投放贷款的文本资料进行绿色金融属性智能认定系统，实施方式主要有文本图像的信息提取和识别、构建结构化数据、自然语言文本数据预处理、文本的词向量表示、全连接层文本分类、绿色金融属性认定系统的建立以及新系统的版本迭代。

通过OCR文字识别手段和NLP语言处理等AI技术处理各类原始的文本形成结构化数据，提炼如企业名称、项目名称、贷款流向、项目建设等内容的智能模块从而实现为用户提供便捷高效地绿色金融属性智能认定服务。具体步骤如下所示：

步骤1：图像信息提取和识别。

首先，用户提供的数据主要有结构化和非结构化两种类型(非结构化数据：如项目环评批复文件PDF或扫描图片等；结构化数据：如已登记在信贷系统的企业贷款申请信息)。其中非结构化数据的处理较为复杂，需要添加辅助检测模型，对非结构的图像数据进行预检测。然后将模型判别的各个检测框进行结构化还原，转化为具有结构关系的模板数据后与结构化数据一同输入后端的提取识别模型。在数据的提取识别阶段，需要对各个关键字段进行文字识别，将每个图像文字准确地识别为对应计算机字符。本发明在文字识别中应用最新的识别神经网络模型，可以在有印章和水印遮挡以及像素较低情况下精准识别标题、表头和正文内容等关键字段信息。得到的非结构化字符数据信息将传入下一个模块进行数据结构化。

步骤2：数据结构化构建。

将OCR识别模型输出的非结构化字符数据信息作为数据的输入输出流暂存于服务器中，等待下一步的数据结构化处理。非结构化字符数据如果直接传入NLP模型进行词法分析和命名实体识别会出现字词切分异常的状况，因此有必要对字符数据进行结构化构建。本发明的结构化构建使用检测框和字符内容对应配准的方法。首先，检测模型输出的检测框输出对角的两点的相对坐标，再将对应框中的内容输入相对应的坐标位置。但是不同的检测框的尺寸不同，会出现文字信息错位的情况，面对此问题本发明通过智能算法将检测框进行对齐和适配操作。最终输出原始图像的标准化结构字符数据，给后端的NLP模型提供标准化结构字符数据；

步骤3：文本数据预处理。

此阶段的核心工作为通过NLP智能模型将标准化结构字符数据进行字词分析和命名实体的识别工作。首先，上级传输的原始字符数据存在大量无效的字符，需要对字符数据进行数据清洗，去除无效字符，限制文本最大长度输入为512，如果有超出长度的部分采用切片输入的方式，得到文本长度一致的标准数据。

步骤4：文本的词向量表示。

将文本长度一致的标准数据进行转换得到可以处理的词向量或者矩阵形式的数据。本发明利用预训练的词嵌入模型将文本分词转化为稠密低维的词向量(WordEmbedding)，并设置神经元失活系数，消减过拟合的情况。由于在文本分析中存在多种语义关系(同义词)、语料中分词之间的上下文关系和词向量维度复杂性等情况。本发明设计指标项信息抽取的端到端解决方案，通过对预定义的指标项的数据标注，由神经网络训练得到给定指标项标签的文本内容。

步骤5：全连接层文本分类。

将上一阶段的文本词向量输入全连接网络进行分析，得到具体属性分类结果。本阶段选取Bert的Bi-LSTM模型结构处理给定的指标项标签文本内容，然后经过专门设计的全连接层和CRF模型进行文本分类工作，输出最终的属性分类结果。

所述步骤5包括如下两个步骤：

步骤5.1：通过Bi-LSTM层从给定标签的文本词向量中自动提取分词中的特征，将一个完整文本的Word Embedding序列作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐性状态序列与反向LSTM的在各个位置输出的隐状态进行状态拼接，得到完整的隐性状态序列；

步骤5.2：将隐状态传入CRF层进行处理，实现行文本级的序列预测。CRF层对文本中的t₀到t_i时的隐性状态序列进行建模并计算各个状态的转移概率，最终给出行文本的整体详细的语义信息分类。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于OCR和NLP技术的绿色金融属性智能认定方法，其特征在于，包括：

2.根据权利要求1所述的基于OCR和NLP技术的绿色金融属性智能认定方法，其特征在于，在所述步骤S1中：

3.根据权利要求1所述的基于OCR和NLP技术的绿色金融属性智能认定方法，其特征在于，在所述步骤S2中：

4.根据权利要求1所述的基于OCR和NLP技术的绿色金融属性智能认定方法，其特征在于，在所述步骤S3中：

文本数据预处理：

文本的词向量表示：

5.根据权利要求1所述的基于OCR和NLP技术的绿色金融属性智能认定方法，其特征在于，在所述步骤S4中：

包括如下两个步骤：

6.一种基于OCR和NLP技术的绿色金融属性智能认定系统，其特征在于，包括：

7.根据权利要求6所述的基于OCR和NLP技术的绿色金融属性智能认定系统，其特征在于，在所述模块M1中：

8.根据权利要求6所述的基于OCR和NLP技术的绿色金融属性智能认定系统，其特征在于，在所述模块M2中：

9.根据权利要求6所述的基于OCR和NLP技术的绿色金融属性智能认定系统，其特征在于，在所述模块M3中：

文本数据预处理：

文本的词向量表示：

10.根据权利要求6所述的基于OCR和NLP技术的绿色金融属性智能认定系统，其特征在于，在所述模块M4中：

包括如下两个步骤：