CN116229493B

CN116229493B - 跨模态的图片文本命名实体识别方法、系统及电子设备

Info

Publication number: CN116229493B
Application number: CN202211608574.8A
Authority: CN
Inventors: 张朝阳; 仝金正; 杨百兴; 刘宁; 孙云飞
Original assignee: National Energy Supply Chain Management Group Co ltd; National Energy Group Materials Co ltd
Current assignee: National Energy Supply Chain Management Group Co ltd; National Energy Group Materials Co ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2024-02-09
Anticipated expiration: 2042-12-14
Also published as: CN116229493A

Abstract

本发明提供一种跨模态的图片文本命名实体识别方法、系统及电子设备，属于计算机人工智能技术领域。所述方法包括：识别待处理的图片数据中的字符序列，并采用文本边界处理方法将所述字符序列整理为文本输入序列；将所述文本输入序列输入训练好的命名实体识别模型进行识别，得到命名实体标签序列结果。该方法通过文本边界处理方法对识别得到的字符序列进行整理，有利于提高文本输入序列的准确率，从而提高命名实体识别的准确度，解决因为图片数据文字排版参差不齐、扫描图像不清晰等问题对命名实体识别准确度带来的影响。

Description

跨模态的图片文本命名实体识别方法、系统及电子设备

技术领域

本发明涉及计算机人工智能技术领域，具体地涉及一种跨模态的图片文本命名实体识别方法、一种跨模态的图片文本命名实体识别系统、一种机器可读存储介质以及一种电子设备。

背景技术

在各行业领域都存着大量的印刷后形成的电子或者纸质文档资料，如采购文件和报价文件中的营业执照、资格证书等图片，这些图片中包含一些重要的有价值的信息，如何将这些图片文字识别为含有语义的文本，提取图片文本命名实体是非常有意义的工作。要从电子文档资料和图片中提取命名实体，需要图像到文本的跨模态处理技术。首先应用光学字符识别(OCR)技术从图片文本中识别出字符，然后针对字符构成的文本进行命名实体识别。光学字符识别是用计算机自动辨别写在或印在纸(或其他介质)上的文字。由于印刷资料随着时间推移文档色彩退化、拍照或者扫描时不清晰、文档中旧的排版格式以及美工处理等问题，这些文件被OCR识别时会出现字符错误、字符错位、不同字符序列混编等情况，直接进行命名实体识别准确率不高。

光学字符识别和自然语言命名实体识别技术都相对比较成熟，但是采用非OCR识别出的字符直接用于自然语言命名实体识别时，识别出的命名实体准确率不高，因此需要从字符识别到命名实体抽取的一整套技术，获取图片中的关键信息，但是跨模态的图片文本命名实体识别技术目前研究较少，大多集中在对历史报纸资料、发票、情报等少数的具体行业，这些研究通常将OCR与深度学习模型结合识别相关领域的命名实体。但是由于OCR识别的文字中存在拼写错误、语法错误、不同字符序列混编等问题导致命名实体识别准确率不高。

发明内容

本发明实施方式的目的是提供一种跨模态的图片文本命名实体识别方法、系统及电子设备，该方法通过文本边界处理方法对识别得到的字符序列进行整理，有利于提高文本输入序列的准确率，从而提高命名实体识别的准确度，解决因为图片数据文字排版参差不齐、扫描图像不清晰等问题对命名实体识别准确度带来的影响。

为了实现上述目的，本发明第一方面提供一种跨模态的图片文本命名实体识别方法，所述方法包括：

识别待处理的图片数据中的字符序列，并采用文本边界处理方法将所述字符序列整理为文本输入序列；

将所述文本输入序列输入训练好的命名实体识别模型进行识别，得到命名实体标签序列结果。

在本申请实施例中，所述待处理的图片数据包括：采购文件图片、营业执照图片、资格证书图片和报价文件图片。采购文件、营业执照、资格证书和报价文件中存在着招标评审因素等关键信息，将图片数据上的这些关键信息提取出来能够更方便的进行比较评判，有利于节省评标过程中的人力劳动。

在本申请实施例中，所述识别待处理的图片数据中的字符序列，并采用文本边界处理方法将所述字符序列整理为文本输入序列，包括：

采用OCR技术识别待处理的图片数据中的字符序列；

获取OCR技术识别得到的检测框的位置信息；

根据所述检测框的位置信息确定检测框在图片数据中的排布方向；

根据检测框的位置信息和所确定的排布方向拼接所述字符序列，得到文本输入序列。根据OCR识别的检测框的位置信息来确认检测框在图片数据中的排布方向，能够有效对不同排版方式的文件是字符序列进行校正，提高提取得到的文本输入序列的准确度。

在本申请实施例中，所述检测框的位置信息包括检测框各个顶点的x轴坐标；根据所述检测框的位置信息确定检测框在图片数据中的排布方向，包括：

将所有检测框的四个顶点的x轴坐标进行升序排列；

根据排列后的x轴坐标中的最大值和最小值计算得到图片中心线的x轴坐标；

判断是否存在检测框位于图片中心线上的情况；若是，则判定该图片的检测框是自上而下依次排列；否则，判定该图片的检测框为先左后右分布排列。通过确定中心线，然后与中心线进行比较的方式能够快速确定排布方向，提升处理效率。

在本申请实施例中，所述判断是否存在检测框位于图片中心线上的情况，包括：

判断是否存在某个检测框的左上角顶点的x轴坐标小于图片中心线x轴坐标，且右上角顶点的x轴坐标大于图片中心线x轴坐标。

在本申请实施例中，所述根据检测框的位置信息和所确定的排布方向拼接所述字符序列，包括：

若图片的检测框为自上而下依次排列，则按照每个检测框的位置顺序拼接识别的字符序列；

若图片的检测框为先左后右分布排列，则判断图片的检测框所属图片区域：

若检测框的左上角顶点的x轴坐标小于图片中心线的x轴坐标，则判定该检测框位于图片中心线左边；若检测框的右上角顶点x轴坐标大于图片中心线x轴坐标，则判定该检测框位于图片中心线右边；

根据检测框所属图片区域判断结果按照先左后右的顺序拼接识别的字符序列。

在本申请实施例中，所述命名实体识别模型包括嵌入层、编码器层、上下文语义抽取层、全连接层以及条件随机场层；

所述嵌入层包括Token嵌入、Segment嵌入和Position嵌入，三个嵌入层形成的词向量求和的结果作为嵌入层的输出；

所述编码器层通过多头注意力机制计算词向量之间的相关性，并使用softmax函数对相关度进行归一化，形成相关度矩阵；将相关度矩阵与权重加权求和，得到每个词的编码；

所述上下文语义抽取层包括多个神经元和双向遗忘门，多个神经元提取文本序列中前向和后向的信息，计算命名实体类别序列标注的状态分数矩阵；双向遗忘门对双向输出的高维向量进行对应位置相加得到该层输出结果；

所述全连接层用于将高维向量映射为命名实体类别序列标注标签；

所述条件随机场层用于根据约束条件搜索命名实体类别序列标注标签的最优路径，得到命名实体标签序列结果。命名实体识别模型可以对文本输入序列进行计算，通过捕获上下文语义获得文本输入序列的关键信息，对命名实体类别序列标注标签进行条件约束，实现命名实体识别。

在本申请实施例中，所述命名实体识别模型在训练过程中利用交叉熵损失函数计算得到的命名实体标签序列结果中概率的误差，采用梯度下降优化算法更新模型参数，直到交叉熵损失函数最小化，得到训练好的命名实体识别模型。训练方法可以实现可视化训练过程的准确率和损失，为分析命名实体识别结果提供简洁直观的参考。

本申请第二方面提供一种跨模态的图片文本命名实体识别系统，所述系统包括：

图片数据识别模块，用于识别处理的图片数据中的字符序列，并采用文本边界处理方法将所述字符序列整理为文本输入序列；

命名实体识别模块，用于将所述文本输入序列输入训练好的命名实体识别模型进行识别，得到命名实体标签序列结果。

在本申请实施例中，所述图片数据识别模块包括：

OCR识别模块，用于采用OCR技术识别待处理的图片数据中的字符序列

检测框处理模块，用于获取OCR技术识别得到的检测框的位置信息，并确定检测框在图片数据中的排布方向；根据检测框的位置信息和所确定的排布方向拼接所述字符序列，得到文本输入序列。

本发明第三方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行所述的跨模态的图片文本命名实体识别方法。

本发明还提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被一个或多个处理器执行时，使得所述一个或多个处理器实现所述的跨模态的图片文本命名实体识别方法。

通过上述技术方案，能够通过文本边界处理方法对识别得到的字符序列进行整理，有利于提高文本输入序列的准确率，从而提高命名实体识别的准确度，解决因为图片数据文字排版参差不齐、扫描图像不清晰等问题对命名实体识别准确度带来的影响。

上述方法自动执行，能够给有效地提取资格审核资料中的关键信息，有助于节省评标时的人力劳动。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是本发明一种实施方式提供的跨模态的图片文本命名实体识别方法流程图；

图2是本发明一种实施方式提供的跨模态的图片文本命名实体识别方法将字符序列整理为文本输入序列方法流程图；

图3是本发明一种实施方式提供的命名实体识别模型示意图；

图4是本发明一种实施方式提供的图片数据处理流程示意图；

图5是本发明一种实施方式提供的跨模态的图片文本命名实体识别系统框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

要从采购文件、资格证书和报价文件中提取出评审因素等关键信息，可以使用基于统计概率和深度学习的命名实体识别方法，比如隐马尔可夫模型、条件随机场、最大熵模型、卷积神经网络、循环神经网络等模型。但是从图片中提取到的数据的准确度会影响模型对命名实体识别的准确度。

图1是本发明一种实施方式提供的跨模态的图片文本命名实体识别方法流程图，如图1所示，所述方法包括：

步骤一：识别待处理的图片数据中的字符序列，并采用文本边界处理方法将所述字符序列整理为文本输入序列。

在本申请实施例中，所述识别待处理的图片数据中的字符序列，并采用文本边界处理方法将所述字符序列整理为文本输入序列，如图2所示，包括：

S110：采用OCR技术识别待处理的图片数据中的字符序列。在本申请中采用Paddle-OCR v3模型来识别待处理的图片数据，OCR技术是一种成熟的技术，具体实现方式本申请不进行赘述。

S120：获取OCR技术识别得到的检测框的位置信息，在本申请实施例中，检测框的位置信息最少包括检测框各个顶点的x轴坐标。

S130：根据所述检测框的位置信息确定检测框在图片数据中的排布方向，具体包括：

将所有检测框的四个顶点的x轴坐标进行升序排列；

根据排列后的x轴坐标中的最大值和最小值计算得到图片中心线的x轴坐标；在本申请实施例中，计算x轴坐标中的最大值和最小值的平均值作为图片中心线的x轴坐标。

在本申请实施例中，判断是否存在检测框位于图片中心线上的情况，包括：

S140：根据检测框的位置信息和所确定的排布方向拼接所述字符序列，得到文本输入序列，具体包括：

若检测框的左上角顶点的x轴坐标小于图片中心线的x轴坐标，则判定该检测框位于图片中心线左边，即位于图片左半部分；若检测框的右上角顶点x轴坐标大于图片中心线x轴坐标，则判定该检测框位于图片中心线右边，即位于图片右半部分；

根据OCR识别的检测框的位置信息来确认检测框在图片数据中的排布方向，能够有效对不同排版方式的文件是字符序列进行校正，提高提取得到的文本输入序列的准确度。

步骤二：将所述文本输入序列输入训练好的命名实体识别模型进行识别，得到命名实体标签序列结果。

在本申请实施例中，如图3所示，所述命名实体识别模型包括嵌入层、编码器层、上下文语义抽取层、全连接层以及条件随机场层；

所述嵌入层包括Token嵌入、Segment嵌入和Position嵌入，Token嵌入将每个词转换为固定维度的向量表示形式，Segment嵌入用于区分句子，Position嵌入用于获取每个词的位置编码，三个嵌入层形成的词向量求和的结果作为嵌入层的输出，也即编码器的输入。

所述编码器层由多头注意力机制和层归一化构成，通过多头注意力机制计算词向量之间的相关性，并使用softmax函数对相关度进行归一化，形成相关度矩阵；将相关度矩阵与权重value加权求和，得到每个词的编码；在本申请实施例中，注意力机制用于注重于关键局部信息的捕获，降低无用信息的关注。计算词向量之间的相关性的过程包括：首先使用三个权重矩阵对输入的词向量做线性变换，生成query、key和value三个序列向量，然后对每个词的query向量分别和序列中所有词的key向量做乘积，最后得到词语之间的相关度。

所述上下文语义抽取层包括多个神经元和双向遗忘门，多个神经元提取文本序列中前向和后向的信息，计算命名实体类别序列标注的状态分数矩阵；双向遗忘门对双向输出的高维向量进行对应位置相加得到该层输出结果。在本申请实施例中，上下文语义抽取层包括64个神经元。在本申请实施例中，状态分数矩阵是每个词向量对应的实体标签类别的概率矩阵。

所述全连接层Dense用于将高维向量映射为命名实体类别序列标注标签，在本申请实施例中，命名实体类别序列标注为命名实体中，每个字对应的实体标签，如：B-张。

所述条件随机场CRF层用于根据约束条件搜索命名实体类别序列标注标签的最优路径，得到命名实体标签序列结果经由输出层输出。其中约束条件是指条件随机场CRF层从训练数据中获得的约束性的规则，比如：实体的开头一定是B-实体名称。命名实体识别模型可以对文本输入序列进行计算，通过捕获上下文语义获得文本输入序列的关键信息，对命名实体类别序列标注标签进行条件约束，实现命名实体识别。

在本申请中，将构建的命名实体识别模型命名为BBAC模型。

在图片文本命名实体识别过程中使用的是训练好的BBAC模型进行识别，在进行命名实体识别模型训练前，收集采购文件、资格证书和报价文件，人工标注这些文件中的专家姓名、专业名称和投标单位，构建训练数据集。在本申请中，训练数据集标注方式为BIO方式。

然后采用与本申请中识别待处理的图片数据相同的方法处理得到训练数据集对应的文本输入序列，使用该文本输入序列对命名实体识别模型进行训练。在模型训练过程中，将训练数据集对应的文本输入序列进行分词，然后输入构建好的命名实体识别模型中，利用交叉熵损失函数计算得到的命名实体标签序列结果中概率的误差，采用梯度下降优化算法更新模型参数，直到交叉熵损失函数最小化，得到训练好的命名实体识别模型。训练方法可以实现可视化训练过程的准确率和损失，为分析命名实体识别结果提供简洁直观的参考。

在命名实体识别模型实验过程中，利用非招标采购文件资质类型等图片数据数据进行实验，实验数据初步标注的实体包括专家姓名、专业名称和投标单位等信息。使用OCR技术识别采购文件、工程师证书、国家职业资格证书等图片文本，得到识别出的文本字符序列后，使用文本边界处理方法处理文本字符序列错乱问题，对文本进行标注得到文本输入序列，标记格式采用BIO方式，在标注过程中，以招标采购相关的实体为对象，按照“实体-标签”格式将实体归类于所属类别。所定义的标签有9种：B-PER，B-ID，B-PRO，B-ORG，I-PER，I-ID，I-PRO，I-ORG，O，其中B-PER标签表示“姓名”实体的开始，B-ID标签表示“身份证号”实体的开始，B-PRO标签表示“专业名称”实体的开始，B-ORG标签表示“投标单位”实体的开始，I-PER标签表示“姓名”实体的内部，I-ID标签表示“身份证号”实体的内部，I-PRO标签表示“专业名称”实体的内部，I-ORG标签表示“投标单位”实体的内部，O表示非实体名称。比如“机电工程，秦皇岛XX工程有限公司，张三”，标注的内容包括：机电工程-专业名称；秦皇岛XX工程有限公司-投标单位；张三-姓名；其中，专业名称、投标单位和姓名均为实体类型，机电工程、秦皇岛XX工程有限公司和张三均为命名实体。

将标注后的部分图片文本数据作为训练数据，使用构建好的BBAC模型训练文本序列词向量，生成标签状态分数矩阵，最终得到全局最优标签序列。在上述步骤中得到的状态分数矩阵为字符序列的标签分类概率，字符序列中的每个字符对应9个概率值，选择概率值最高的作为该字符的标签结果，计算预测误差，使用梯度下降法调整BBAC模型多个参数。

在模型预测过程中，假设当前输入的句子为“李四的专业名称是给排水，投标单位为XX市政工程有限公司”。利用上述训练过程得到的命名实体识别模型对输入文本进行识别，可以输出三个命名实体分别为“李四”、“给排水”和“XX市政工程有限公司”。

在使用过程中，如图4所示，图片数据输入到Paddle-OCR v3模型进行识别，得到的混乱的文字编排经过文本边界处理后得到文本输入序列，然后经嵌入层、编码器层、上下文语义抽取层、全连接层、条件随机场CRF层处理后经输出层输出识别结果。

在本实施例中，提取采购文件、资格证书等图片文本中的字符序列，并通过文本边界处理方法对识别得到的字符序列进行整理，有利于提高文本输入序列的准确率，从而提高命名实体识别的准确度，解决因为图片数据文字排版参差不齐、扫描图像不清晰等问题对命名实体识别准确度带来的影响。

本申请第二方面提供一种跨模态的图片文本命名实体识别系统，如图5所示，所述系统包括：

在本申请实施例中，所述图片数据识别模块包括：

本发明还提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上结合附图详细描述了本发明的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

Claims

1.一种跨模态的图片文本命名实体识别方法，其特征在于，所述方法包括：

识别待处理的图片数据中的字符序列，并采用文本边界处理方法将所述字符序列整理为文本输入序列，包括：

采用OCR技术识别待处理的图片数据中的字符序列；

获取OCR技术识别得到的检测框的位置信息，所述检测框的位置信息包括检测框各个顶点的x轴坐标；

根据所述检测框的位置信息确定检测框在图片数据中的排布方向，包括：

将所有检测框的四个顶点的x轴坐标进行升序排列；

判断是否存在检测框位于图片中心线上的情况；若是，则判定该图片的检测框是自上而下依次排列；否则，判定该图片的检测框为先左后右分布排列；

根据检测框的位置信息和所确定的排布方向拼接所述字符序列，得到文本输入序列；

2.根据权利要求1所述的跨模态的图片文本命名实体识别方法，其特征在于，所述待处理的图片数据包括：采购文件图片、营业执照图片、资格证书图片和报价文件图片。

3.根据权利要求1所述的跨模态的图片文本命名实体识别方法，其特征在于，所述判断是否存在检测框位于图片中心线上的情况，包括：

4.根据权利要求1所述的跨模态的图片文本命名实体识别方法，其特征在于，所述根据检测框的位置信息和所确定的排布方向拼接所述字符序列，包括：

5.根据权利要求1所述的跨模态的图片文本命名实体识别方法，其特征在于，所述命名实体识别模型包括嵌入层、编码器层、上下文语义抽取层、全连接层以及条件随机场层；

所述条件随机场层用于根据约束条件搜索命名实体类别序列标注标签的最优路径，得到命名实体标签序列结果。

6.根据权利要求5所述的跨模态的图片文本命名实体识别方法，其特征在于，所述命名实体识别模型在训练过程中利用交叉熵损失函数计算得到的命名实体标签序列结果中概率的误差，采用梯度下降优化算法更新模型参数，直到交叉熵损失函数最小化，得到训练好的命名实体识别模型。

7.一种跨模态的图片文本命名实体识别系统，应用权利要求1-6中任一项所述的跨模态的图片文本命名实体识别方法，其特征在于，所述系统包括：

所述图片数据识别模块包括：

OCR识别模块，用于采用OCR技术识别待处理的图片数据中的字符序列；

检测框处理模块，用于获取OCR技术识别得到的检测框的位置信息，并确定检测框在图片数据中的排布方向；根据检测框的位置信息和所确定的排布方向拼接所述字符序列，得到文本输入序列；

8.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1-6中任一项所述的跨模态的图片文本命名实体识别方法。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1-6中任一项所述的跨模态的图片文本命名实体识别方法。