CN115410185A

CN115410185A - 一种多模态数据中特定人名及单位名属性的提取方法

Info

Publication number: CN115410185A
Application number: CN202211031517.8A
Authority: CN
Inventors: 文栋; 谢燮; 张新燕
Original assignee: Huimei Digital Beijing Medical Technology Co ltd
Current assignee: Huimei Digital Beijing Medical Technology Co ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-29

Abstract

本发明提供的一种多模态数据中特定人名及单位名属性的提取方法包括：获取原始数据文件；采用图像文字识别方法识别所述原始数据文件中的图像中的文本；将图像文字识别文本框转为文本序列，获得图片识别的纯文本结果；从所述纯文本结果中筛选目标信息的数据，获得目标文本；从所述目标文本中识别文本里的人名结果和单位名实体；对所述人名结果增强处理，获得增强人名结果；根据所述增强人名结果对人物单位进行匹配。通过分析数据内部关键信息间的逻辑关联，逐步把满足所有逻辑关系约束的目标结果状态识别出来，通过识别人物及单位的例子具体说明这一算法范式的操作细节。

Description

一种多模态数据中特定人名及单位名属性的提取方法

技术领域

本发明涉及数据识别领域，尤其涉及一种多模态数据中特定人名及单位名属性的提取方法。

背景技术

从数据中识别特定类别的有价值信息的过程称为信息抽取，信息抽取的过程面临两个关键问题，第一是数据格式，不同格式数据需按特性采取不同手段的加工处理方法，多种格式间数据融合存在更复杂的对齐和交互问题；第二是抽取算法，大体上可分为基于规则的方法和基于机器学习的方法，基于规则的方法启动方便，可灵活注入知识，但结果呆板，需大量人工逻辑调试，基于机器学习的方法在某些抽象问题上可取得规则无法实现的良好结果，但需要大量领域内数据标注。本工作解决的问题是从包括文本数据和图像数据的多模态数据中识别人物及其对应的单位，用于辅助下游工作。

发明内容

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种多模态数据中特定人名及单位名属性的提取方法。

根据本发明的一个方面，提供了一种多模态数据中特定人名及单位名属性的提取方法包括：

获取原始数据文件；

采用图像文字识别方法识别所述原始数据文件中的图像中的文本；

将图像文字识别文本框转为文本序列，获得图片识别的纯文本结果；

从所述纯文本结果中筛选目标信息的数据，获得目标文本；

从所述目标文本中识别文本里的人名结果和单位名实体；

对所述人名结果增强处理，获得增强人名结果；

根据所述增强人名结果对人物单位进行匹配。

可选的，所述获取原始数据文件具体包括：

原始数据文件格式包括纯文本、图片、同时包含文本和图片的文档；

对所述纯文本，编号后存档；

对所述图片，编号后存档；

对同时包含文本和图片的文档，采用现成工具提取文本内容和所有图片，分类编号存档，并保存存档文件和原始文件的对应关系。

可选的，所述采用图像文字识别方法识别所述原始数据文件中的图像中的文本具体包括：

输入为图片，输出为文本框序列，每个文本框包括位置坐标和文本内容；很多图片为适应移动端查看会做成长宽尺寸比例很大的长图，直接通过图像文字识别模型识别时会重调图片尺寸，当图片长度超过某一阈值且长宽比例超过某一阈值时，进入切图流程；

先按固定长度截取子图，识别文本，当没有识别到文本框或最后一个文本框位置距离子图下边界超过某一阈值时，将切割下界作为下一次切割上界，否则认为有把文本框从中间切开的风险，将最后一个文本框下边缘作为下一次切割上界，再继续按固定长度截取子图，直到整个长图处理完成，

根据切割位置偏置修改识别结果里文本框的真实坐标位置；

对每张图片的识别结果存档，并保存识别结果文件和原始图片文件的对应关系。

可选的，所述将图像文字识别文本框转为文本序列，获得图片识别的纯文本结果具体包括：

将图像文字识别文本框转为文本序列；

微调对齐文本框位置，对所有文本框，计算左上左下角横坐标均值并替换原始值，计算右上右下角横坐标均值并替换原始值，计算左上右上纵坐标均值并替换原始值，计算左下右下纵坐标均值并替换原始值；

对所有文本框按左上角横坐标排序，对相邻文本框，如果左边界距离不超过某一阈值，则归为一组，否则归为不同组，最后同组文本框左边界取均值并替换原始值；

对右边界、上边界、下边界进行同样的操作；

保证所有文本框均为相对平行的长方形，且相近文本框的边界位置对齐；将文本框顺序恢复为原本从左到右从上到下的顺序；

基于左上角纵坐标对所有文本框排序，计算相邻文本框间上下边界距离，取没有重叠关系的文本框距离的上四分位数作为间隔阈值，按所述间隔阈值对所有文本框在垂直方向上分组；

再对每个垂直分组，用同样的方法得到组内水平方向分组，将小水平分组里包含所有文本框的最小方框作为新的合并文本框，分别计算四个方向上最外位置所包围的方框；

对每个合并方框内文本框按从左到右从上到下恢复顺序后，拼接合并方框内文本；合并文本时需判断相邻两句话可以直接拼接还是需要加入标点符号，在中文维基百科数据上训练统计语言模型后，分别计算五组条件概率：前一条文本加结尾符s1，前一条文本加标点符号s2，前一条文本加后一条文本的第一个字s3，起始符加后一条文本s4，前一条文本的最后一个字加后一条文本s5，如果s3>s1且s2>s1或s5>s4，说明两条文本连贯的可能性大于拆分的可能性，则直接拼接，否则通过连接符拼接；

对得到的合并重排过的结果，按纵向大分区和横向小分组，分别用不同的连接符拼接文本，得到图片识别到的纯文本结果，存档并保留识别结果文件与原始图像文字识别结果文件的对应关系。

可选的，所述从所述纯文本结果中筛选目标信息的数据，获得目标文本具体包括：

采用高召回关键词对文本进行筛选；

分别对文本文件和图像识别文本文件寻找关键词，保留包含关键词的有效结果。

可选的，所述对所述人名结果增强处理具体包括：

对每条数据里的多组人名识别结果投票确定最终结果，如果有两个以上一致则保留；

对隶属于同一个原始文档的所有文件的识别结果，汇总所有人名识别结果，再利用汇总的人名识别结果对所有文件按字符串匹配，补充没有识别到的人名位置；

对每个文件的识别结果，计算一定窗口距离内人名和单位名的共现次数，得到每个文章里人名单位名共现矩阵。

可选的，所述根据所述增强人名结果对人物单位进行匹配具体包括：

对每个文件的识别结果，计算相邻实体的位置距离，如果距离超过阈值长度，则插入间隔符，再加上前面识别到的文本内硬间隔符，寻找至少包含一个人名和一个单位名的区间，保留这种有效区间；

对纯文本数据进行人物单位匹配；

对图片识别数据进行人物单位匹配；

将隶属于同一个原始文件的多个数据文件的结果合并，映射到原始文件上。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种多模态数据中特定人名及单位名属性的提取方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。

下面结合附图和实施例，对本发明的技术方案做进一步的详细描述。

如图1所示，一种多模态数据中特定人名及单位名属性的提取方法包括：

获取原始数据文件；

从所述纯文本结果中筛选目标信息的数据，获得目标文本；

从所述目标文本中识别文本里的人名结果和单位名实体；

对所述人名结果增强处理，获得增强人名结果；

根据所述增强人名结果对人物单位进行匹配。

获取原始数据文件，算法输入是包含多种数据格式的数据集。原始数据文件格式包括纯文本(txt)、图片(jpeg、png、tiff等)、同时包含文本和图片的文档(html、doc、ppt、pdf等)。对纯文本文件，编号后存档。对单独的图片文件，编号后存档。对同时包含文本和图片的文档文件，使用现成工具提取文本内容和所有图片，分类编号存档，并保存存档文件和原始文件的对应关系。

采用图像文字识别方法识别所述原始数据文件中的图像中的文本具体包括：为了便于语义理解图像内容，首先通过OCR技术识别图像里的文本。OCR技术可看作一项成熟的现成技术，不作为本工作重点，其核心原理不再详述。输入为图片，输出为文本框序列，每个文本框包含位置坐标和文本内容。特别地，很多图片为适应移动端查看会做成长宽尺寸比例很大的长图，这类图片直接通过OCR模型识别时会重调图片尺寸，可能导致图像被大比例压缩，其中的文字内容难以识别，针对这一问题，当图片长度超过某一阈值且长宽比例超过某一阈值时，进入切图流程。先按固定长度截取子图，识别文本，当没有识别到文本框或最后一个文本框位置距离子图下边界超过某一阈值时，将切割下界作为下一次切割上界，否则认为有把文本框从中间切开的风险，将最后一个文本框下边缘作为下一次切割上界，再继续按固定长度截取子图，直到整个长图处理完成，最后根据切割位置偏置修改识别结果里文本框的真实坐标位置。对每张图片的识别结果存档，并保存识别结果文件和原始图片文件的对应关系。

从所述纯文本结果中筛选目标信息的数据，获得目标文本具体包括：将OCR文本框转为文本序列，便于后续通过文本数据解析的方法识别关键信息。考虑到图片设计时一般都会遵循内容对齐的原则，但OCR识别出的文本框位置可能存在小量偏移，影响后续分组判断，所以首先微调对齐文本框位置。对所有文本框，计算左上左下角横坐标均值并替换原始值，计算右上右下角横坐标均值并替换原始值，计算左上右上纵坐标均值并替换原始值，计算左下右下纵坐标均值并替换原始值。对所有文本框按左上角横坐标排序，对相邻文本框，如果左边界距离不超过某一阈值，则归为一组，否则归为不同组，最后同组文本框左边界取均值并替换原始值。对右边界、上边界、下边界进行同样的操作。这一步保证所有文本框均为相对平行的长方形，且相近文本框的边界位置对齐。最后将文本框顺序恢复为原本从左到右从上到下的顺序。

有时图片里文本行距过大会导致连续文本被切割为不同文本框，会导致原本的连续文本混乱，所以接下来对相近文本框分组合并。基于左上角纵坐标对所有文本框排序，计算相邻文本框间上下边界距离，取没有重叠关系的文本框距离的上四分位数作为间隔阈值，按此阈值对所有文本框在垂直方向上分组。再对每个垂直分组，用同样的方法得到组内水平方向分组，将小水平分组里包含所有文本框的最小方框作为新的合并文本框，即分别计算四个方向上最外位置所包围的方框。对每个合并方框内文本框按从左到右从上到下恢复顺序后，拼接合并方框内文本。合并文本时需判断相邻两句话可以直接拼接还是需要加入标点符号，在中文维基百科数据上训练统计语言模型后，分别计算五组条件概率：前一条文本加结尾符s1，前一条文本加标点符号s2，前一条文本加后一条文本的第一个字s3，起始符加后一条文本s4，前一条文本的最后一个字加后一条文本s5。如果s3>s1且s2>s1或s5>s4，说明两条文本连贯的可能性大于拆分的可能性，则直接拼接，否则通过连接符拼接。

对上面得到的合并重排过的结果，按纵向大分区和横向小分组，分别用不同的连接符拼接文本，得到图片识别到的纯文本结果，存档并保留识别结果文件与原始OCR结果文件的对应关系。

数据筛选具体为：真实数据里包含目标信息的数据可能只占一小部分，为了避免无关数据占用大量处理时间和计算资源，通过高召回关键词对文本进行筛选。观察数据找到如下职位头衔相关关键词与人名出现相关程度很高，包括：院士，教授，导师，博导，主任，博士，医师，院长，主席，理事，主委，医院。分别对文本文件和OCR文本文件寻找关键词，保留包含关键词的有效结果。

命名实体识别采用包括但不限于CRF、LSTM、BERT的模型识别文本里的人名和单位名实体。

CRF：条件随机场模型，假设X和Y都是线性表示的随机变量序列，给定X下Y的条件概率只与前后临近状态有关，学习给定X条件下Y的条件概率分布。原始CRF方法通过定义与原始文本、位置、当前标签、前一标签有关的特征函数，包括从原始序列通过特征函数生成特征序列的状态特征函数和相邻状态转移得分的转移特征函数，学习每个特征函数的权重。加入神经网络的CRF层从上游编码层得到特征序列，再学习转移矩阵。解码时通过计算标签序列的发射和转移路径得分，通过维特比算法得到最佳路径。

BiLSTM-CRF：文本向量化后通过双向LSTM提取特征，再通过CRF解码得到标注序列。LSTM里每个文本作为一个时间步，利用输入向量和上一时间步的输出，分别计算输入门、遗忘门、输出门，再加上上一时间步的长时记忆，计算长时记忆和短时记忆后输出到下一时间步。分别按正序和倒序计算一遍以充分获得前后上下文信息，再拼接起来作为发射矩阵传入CRF。另外，从计算效率、特征提取等角度出发，BiLSTM也可替换为CNN等其他模块。

BERT：通过多层多头自注意力模块学习文本表示，在大规模语料训练后，在面向任务语料上小数据量学习即可迁移知识获得更好的表现。transformer的每个单元通过多头自注意力从不同角度融合全局特征，相比RNN也有更高的计算效率，加上层归一化和残差连接提升学习效率，从而通过深层网络学习到非常复杂的多层次全局文本特征，加上大规模语料的学习，使预训练模型有很强的泛化能力。由于BERT本身已经有很强的上下文知识，所以直接通过全连接层和softmax输出每个标签概率即可得到标签序列。

为了减少单一模型预测结果的偏差，通过多个模型预测人名和单位名。命名实体识别结果可能与准确的词边界有出入，所以通过分词结果对识别结果做调整。基于分词工具的原理，在大部分歧义不明显的语境下，分词结果倾向切分更细粒度，把某些成词拆分成词元，但相比命名实体识别的结果边界应该更准确。通过现成分词工具对文本分词，对识别到实体范围的位置，比较分词边界和实体识别边界，如果识别出两个连续的同样类型的实体，则合并实体范围；如果实体边界与分词边界不一致，扩展实体边界到向外最近分词边界。另外，按句号、分区分隔等分隔符把文本里的硬间隔识别出来。

人名结果增强包括：对每条数据里的多组人名识别结果投票确定最终结果，如果有两个以上一致则保留。对隶属于同一个原始文档的所有文件的识别结果，汇总所有人名识别结果，再利用汇总的人名识别结果对所有文件按字符串匹配，补充没有识别到的人名位置。对每个文件的识别结果，计算一定窗口距离内人名和单位名的共现次数，得到每个文章里人名单位名共现矩阵。

配对粗筛包括：对每个文件的识别结果，计算相邻实体的位置距离，如果距离超过阈值长度，则插入间隔符，再加上前面识别到的文本内硬间隔符，寻找至少包含一个人名和一个单位名的区间，保留这种有效区间。

人物单位匹配包括：对纯文本数据的匹配方式如下：第一步，在每个区间里，寻找“没有竞争“的人名，没有竞争的含义是按相邻匹配的原则某个单位名只存在一个可匹配的人名，遍历所有人名，分析人名前后总长为5的实体序列，如果类别组合满足以下情况，则认为目标人名可以确定与相邻单位名配对，共包括17种最小组合情况：PA,PAA,AP,AAP,AAPPP,APPP,AAPP,AAPPA,APPA,AAPAA,APA,AAPA,APAA,PPPAA,PPPA,PPAA,APPAA(A表示单位名，P表示人名)，如果符合要求，目标人名与两侧距离最近的单位名配对，保存结果，并将已配对实体从实体序列里移除。第二步，在每个区间里，寻找”没有竞争“的单位名，方法同上。第三步，寻找剩下的人名和单位名一对二的情况，如果其中一个配对在已保存结果里，则保留结果并从实体序列里移除；如果存在人名和其中一个单位名位置紧贴的情况，则保留结果并从实体序列里移除，如果与两侧单位名都位置紧贴，判断人名和两侧的单位名哪个存在更大的共现频率，能找出较大者则保留结果并从实体序列里移除。第三步做完后，可能又留出很多前面步骤能确定的情况，因此循环这个过程，直到一轮结果不再变化。最后一步，对仍未匹配到的结果，由于单位名是有限的，人名多余的可能性更大，所以用单位名寻找最近的人名后匹配。

对图片识别数据的匹配方式如下：对所有的人名识别结果，逐个寻找对应的单位名。如果仅存在一个文本框，则对文本框内文字按上述文本搜索的方法查找。如果不止一个文本框，从当前人名所在文本框出发，寻找满足距离阈值的左右上下最近邻的文本框，递归查找直到所有满足要求的文本框都链接到，就得到了目标文本框周围所有相邻的所有文本框区域。对所有候选文本框按左下坐标先纵再横排序后拼接文本，对文本识别单位名。如果只有一个单位名结果，找到对应的文本框，如果文本框里包含多个人名，匹配距离最近的。如果有多个单位名结果，对每个单位名结果，先用文本序列偏置找到单位名结果所在的文本框，再找单位名文本框距离最近的人名文本框。对目标人名文本框寻找最近的单位名文本框，如果找到的单位名文本框的最近人名文本框与目标人名文本框一致，则保留结果。对找到的人名和单位名文本框，拼接文本，再按上述的文本处理流程找到配对结果。

按之前步骤保存的文件名对应关系，将隶属于同一个原始文件的多个数据文件的结果合并，映射到原始文件上。

有益效果：充分利用OCR、NER等基础技术产生的无状态结果，通过分析数据内部关键信息间的逻辑关联，逐步把满足所有逻辑关系约束的目标结果状态识别出来，通过识别人物及其单位的例子具体说明这一算法范式的操作细节。从包括文本数据和图像数据的多模态数据中识别人物及其对应的单位，用于辅助下游工作。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态数据中特定人名及单位名属性的提取方法，其特征在于，所述提取方法包括：

获取原始数据文件；

从所述纯文本结果中筛选目标信息的数据，获得目标文本；

从所述目标文本中识别文本里的人名结果和单位名实体；

对所述人名结果增强处理，获得增强人名结果；

根据所述增强人名结果对人物单位进行匹配。

2.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法，其特征在于，所述获取原始数据文件具体包括：

对所述纯文本，编号后存档；

对所述图片，编号后存档；

3.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法，其特征在于，所述采用图像文字识别方法识别所述原始数据文件中的图像中的文本具体包括：

根据切割位置偏置修改识别结果里文本框的真实坐标位置；

4.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法，其特征在于，所述将图像文字识别文本框转为文本序列，获得图片识别的纯文本结果具体包括：

将图像文字识别文本框转为文本序列；

对右边界、上边界、下边界进行同样的操作；

保证所有文本框均为相对平行的长方形，且相近文本框的边界位置对齐；

将文本框顺序恢复为原本从左到右从上到下的顺序；

5.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法，其特征在于，所述从所述纯文本结果中筛选目标信息的数据，获得目标文本具体包括：

采用高召回关键词对文本进行筛选；

6.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法，其特征在于，所述对所述人名结果增强处理具体包括：

7.根据权利要求1所述的一种多模态数据中特定人名及单位名属性的提取方法，其特征在于，所述根据所述增强人名结果对人物单位进行匹配具体包括：

对纯文本数据进行人物单位匹配；

对图片识别数据进行人物单位匹配；