CN114359912B - 基于图神经网络的软件页面关键信息提取方法及系统 - Google Patents

基于图神经网络的软件页面关键信息提取方法及系统 Download PDF

Info

Publication number
CN114359912B
CN114359912B CN202210279500.8A CN202210279500A CN114359912B CN 114359912 B CN114359912 B CN 114359912B CN 202210279500 A CN202210279500 A CN 202210279500A CN 114359912 B CN114359912 B CN 114359912B
Authority
CN
China
Prior art keywords
text
text line
lines
neural network
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210279500.8A
Other languages
English (en)
Other versions
CN114359912A (zh
Inventor
方明超
高扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Real Intelligence Technology Co ltd
Original Assignee
Hangzhou Real Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Real Intelligence Technology Co ltd filed Critical Hangzhou Real Intelligence Technology Co ltd
Priority to CN202210279500.8A priority Critical patent/CN114359912B/zh
Publication of CN114359912A publication Critical patent/CN114359912A/zh
Application granted granted Critical
Publication of CN114359912B publication Critical patent/CN114359912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于软件页面信息提取技术领域,具体涉及基于图神经网络的软件页面关键信息提取方法及系统。方法包括S1,将输入的网页图片,输出图片上所有的文本行坐标信息;S2,根据得到的文本行坐标信息,裁剪出所有的文本行并识别,得到每个文本行字符信息;S3,结合网页图片、文本行坐标信息、文本行字符信息,并通过基于图神经网络模型的文本行分类算法,输出所有文本行的类别;S4,结合文本行的类别进行键值对匹配;若匹配成功,则输出需要的键值对所对应的文本信息。系统包括文本行检测模块、文本行识别模块、文本行分类模块、文本行键值对匹配模块。本发明具有通用性强,能应用到所有的软件文本类型的特点。

Description

基于图神经网络的软件页面关键信息提取方法及系统
技术领域
本发明属于软件页面信息提取技术领域,具体涉及基于图神经网络的软件页面关键信息提取方法及系统。
背景技术
RPA应用场景中通常会遇到网页或软件页面特定文本信息提取的任务。该任务需要借助光学字符识别(Optical Character Recognition, OCR)技术来获取页面上所有的文字信息,然后通过一些后处理操作(如根据关键字进行正则匹配等)取出需要的字段内容。
近年来,随着人工智能领域的发展,深度神经网络在OCR领域得到了广泛应用,如文档识别,证件识别,票据识别等。相较于传统OCR识别算法,深度神经网络能明显提升OCR识别的适用范围和识别准确率。最常用的卷积神经网络(Convolutional NeuralNetworks,CNN)往往只关注图像的局部特征,忽略了局部特征之前的相互关系。图神经网络可以将图像的局部特征当作图节点,学习节点间的相互关系。在一些特定场景中如软件界面等,图像上的文本行之间有很大的相互关系,利用图神经网络可以学习到更多的有用信息。
关键信息提取指的是从图像文本中提取出需要的指定的字段信息。例如,从身份证图片中提取出姓名,性别,民族,身份证号等特定字段信息。一般的软件界面上往往有很多文本信息,在实际业务中只有少数关键文本信息是有用的。如果要在所有的文本信息中提取出这些有用的关键信息,需要设计一系列复杂的后处理方法,如模板匹配等。在设计模板的时候需要考虑文本行的字符信息,文本行的位置信息等。对于不同的软件界面需要花大量的人工成本和时间成本设定不同的后处理规则。
现有的关键信息提取方法一种是基于模板匹配,根据预先设定好的模板,判断模板图像和待测图像的字符串两两之间是否是匹配关系。例如在识别出图片上所有的文本信息之后根据关键字段的文本特征设定一些正则规则与图片上所有的文本行进行匹配,与对应关键字段的正则规则匹配成功的文本行就是该关键信息。
另外,还有基于深度神经网络的方法,对OCR算法提取出的图片中所有的文本框进行分类。例如待测试图片是一张身份证图片,则可以将图中的所有文本框分类成姓名、民族、出生日期、地址等类别,从而完成关键信息提取。
然而,基于模板匹配的方法非常依赖于图像文本的布局情况,一旦待测图像的文本布局与预先设定的模板文本布局不一致,就会导致关键信息提取错误或提取失败。此外,不同的应用软件的界面文本布局千差万别,很难设计出一种通用的匹配模板。例如,想从一张图片中提取姓名字段,一般地,需要设计一种匹配模式,先检索关键字“姓名”这个字段,然后从“姓名”字段右侧的文本框去匹配2-3个汉字的文本框。如果某个软件的界面排版不是左右排布而是上下排布,即实际的姓名在关键字“姓名”的下方。此时,原来设定的匹配模式就无法适用。因此,基于模板匹配的方法很难具有较好的通用性。
基于深度神经网络分类的方法是将图片中所有的文本行都分配一个类别。例如要提取一张身份证上的信息,可以将身份证上所有的文本行字段分类成“姓名”,“性别”,“出生日期”,“住址”,“身份证号”等类别。当需要提取某个关键字段时,只需要根据关键字段相应的类别就可以提取出对应的字段信息。这种方法不需要依赖特定的模板,但是需要明确所有的类别个数。不同的应用软件上面的文本类型会有很大差异,很难穷举出所有的类别。因此,基于深度神经网络分类的方法只能用于特定的场景,也不具有很好的通用性。
基于上述问题,设计一种通用性强,能应用到所有的软件文本类型的基于图神经网络的软件页面关键信息提取方法及系统,就显得十分重要。
例如,申请号为CN201911163754.8的中国专利文献描述的访问网页页面的方法、装置、终端设备及服务器,该方法包括:获取目标网页的访问请求;其中,访问请求中携带有预设关键字;获取关键字在目标网页中的位置信息,以及目标网页的页面数据;根据位置信息,显示目标网页的页面数据。虽然根据关键字的位置信息显示目标网页的页面数据,可以使用户在目标网页中快捷地找到搜索的关键字的相关内容,从而提高了用户体验,但是其缺点在于,上述方法只能用于特定的场景,并不具有很好的通用性。
发明内容
本发明是为了克服现有技术中,现有的关键信息提取方法存在只能用于特定的场景,并不具有很好的通用性的问题,提供了一种通用性强,能应用到所有的软件文本类型的基于图神经网络的软件页面关键信息提取方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
基于图神经网络的软件页面关键信息提取方法,包括如下步骤;
S1,将输入的网页图片通过DBNet文本检测算法,输出网页图片上所有的文本行坐标信息;
S2,通过CRNN文本识别算法,同时根据得到的文本行坐标信息,裁剪出所有的文本行并进行识别,得到每个文本行字符信息;
S3,结合输入的网页图片以及获得的文本行坐标信息、文本行字符信息,并通过基于图神经网络模型的文本行分类算法,输出所有文本行的类别;
S4,分别提取任意两个文本行的文本行坐标信息特征和文本行字符信息特征,并进行融合获得融合特征,同时结合文本行的类别进行键值对匹配;若匹配成功,则输出所有需要的键值对所对应的文本信息。
作为优选,步骤S3中所述文本行的类别包括“键”,“值”和“其他”三个类别。
作为优选,步骤S3包括如下步骤:
S31,用CNN骨干网络提取网页图片的特征,同时利用ROI Pooling层将所有文本行 的特征处理成一个统一的维度;用CNN+ROI Pooling提取每个文本行的视觉特征
Figure 112029DEST_PATH_IMAGE001
,用长短 期记忆网络LSTM提取文本行的语义特征
Figure 407881DEST_PATH_IMAGE002
,并将视觉特征
Figure 317063DEST_PATH_IMAGE001
和语义特征
Figure 825404DEST_PATH_IMAGE002
融合,得到融合 特征
Figure 267756DEST_PATH_IMAGE003
Figure 609876DEST_PATH_IMAGE004
表示拼接操作,公式如下:
Figure DEST_PATH_IMAGE005
S32,利用每个文本行的融合特征
Figure 599828DEST_PATH_IMAGE003
建立图神经网络模型,将每个文本行作为一个 图节点构造一个无向图,所述无向图表示成
Figure 911861DEST_PATH_IMAGE006
,其中
Figure 474298DEST_PATH_IMAGE007
表示所有文本行的融合 特征,
Figure 987319DEST_PATH_IMAGE008
表示无向图中两个节点的边的权重;
考虑文本行之间的空间关系,构造特征向量
Figure 385939DEST_PATH_IMAGE009
其中,
Figure 252395DEST_PATH_IMAGE010
Figure 420072DEST_PATH_IMAGE011
表示第
Figure 477895DEST_PATH_IMAGE012
个文本行的中心点坐标,
Figure 973599DEST_PATH_IMAGE013
Figure 893013DEST_PATH_IMAGE014
表示第
Figure 400349DEST_PATH_IMAGE015
个文本行的中心点坐标,
Figure 114227DEST_PATH_IMAGE016
Figure 471128DEST_PATH_IMAGE017
表示第
Figure 928654DEST_PATH_IMAGE012
个文本行的宽和高,
Figure 149551DEST_PATH_IMAGE018
Figure 283598DEST_PATH_IMAGE019
表示第
Figure 612948DEST_PATH_IMAGE015
个文本行的宽和高;
Figure 359318DEST_PATH_IMAGE020
Figure 824935DEST_PATH_IMAGE021
表 示两个文本行之间的距离;
Figure 661041DEST_PATH_IMAGE022
Figure 212108DEST_PATH_IMAGE023
表示两个文本行各自的宽高比;
Figure 27749DEST_PATH_IMAGE024
Figure 613451DEST_PATH_IMAGE025
表示两个文本行之 间宽高比的差异。
作为优选,步骤S3还包括如下步骤:
S33,构造两个文本行之间的空间关系
Figure 823721DEST_PATH_IMAGE026
Figure 393243DEST_PATH_IMAGE027
Figure 746995DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE029
是一个线性变换,用于将
Figure 967630DEST_PATH_IMAGE030
进行升维,
Figure DEST_PATH_IMAGE031
表示
Figure 709321DEST_PATH_IMAGE031
正则化,
Figure 234980DEST_PATH_IMAGE032
表示多层神 经网络。
作为优选,步骤S3还包括如下步骤:
S34,利用如下公式对无向图
Figure 890958DEST_PATH_IMAGE033
上的节点
Figure 451252DEST_PATH_IMAGE034
进行迭代,迭代次数为超参数,可按需调 整:
Figure 770369DEST_PATH_IMAGE035
Figure 48904DEST_PATH_IMAGE036
其中,
Figure 242994DEST_PATH_IMAGE037
表示ReLU激活函数,
Figure 657795DEST_PATH_IMAGE038
是一个线性变换,
Figure DEST_PATH_IMAGE039
表示第
Figure 210130DEST_PATH_IMAGE040
次迭代中的第
Figure DEST_PATH_IMAGE041
个 图节点;
S35,图神经网络模型构建完成。
作为优选,步骤S4包括如下步骤:
S41,对于每个文本行的文本行字符信息用长短期记忆网络LSTM提取语义特征
Figure 553124DEST_PATH_IMAGE042
, 对于每个文本行有四个顶点的文本行坐标信息特征
Figure 442583DEST_PATH_IMAGE043
,
Figure 728202DEST_PATH_IMAGE044
,
Figure 903968DEST_PATH_IMAGE045
,
Figure 406363DEST_PATH_IMAGE046
,融合得到融合特征
Figure 958567DEST_PATH_IMAGE047
Figure 98692DEST_PATH_IMAGE048
其中,
Figure 586305DEST_PATH_IMAGE042
Figure 61149DEST_PATH_IMAGE049
分别表示第
Figure 424170DEST_PATH_IMAGE012
个文本行和第
Figure 933649DEST_PATH_IMAGE015
个文本行的语义特征;
Figure 467529DEST_PATH_IMAGE050
表示第
Figure 570614DEST_PATH_IMAGE012
个文本行的顶点坐标;
Figure 199042DEST_PATH_IMAGE051
表示第
Figure 812295DEST_PATH_IMAGE015
个文本行的顶点坐标;
Figure 766344DEST_PATH_IMAGE016
Figure 966513DEST_PATH_IMAGE017
表示第
Figure 398631DEST_PATH_IMAGE012
个文本 行的宽和高;
Figure 758068DEST_PATH_IMAGE018
Figure 866707DEST_PATH_IMAGE019
表示第
Figure 803439DEST_PATH_IMAGE015
个文本行的宽和高。
S42,将融合后的融合特征
Figure 789981DEST_PATH_IMAGE047
送到分类器中,当两个文本行不属于同一个键值对, 则输出类别为0;当两个文本行属于同一个键值对,则输出类别为1。
本发明还提供了基于图神经网络的软件页面关键信息提取系统,包括:
文本行检测模块,用于将输入的网页图片通过DBNet文本检测算法,输出网页图片上所有的文本行坐标信息;
文本行识别模块,用于通过CRNN文本识别算法,同时根据得到的文本行坐标信息,裁剪出所有的文本行并进行识别,得到每个文本行字符信息;
文本行分类模块,用于结合输入的网页图片以及获得的文本行坐标信息、文本行字符信息,并通过基于图神经网络模型的文本行分类算法,输出所有文本行的类别;
文本行键值对匹配模块,用于分别提取任意两个文本行的文本行坐标信息特征和文本行字符信息特征,并进行融合获得融合特征,同时结合文本行的类别进行键值对匹配。
作为优选,基于图神经网络的软件页面关键信息提取系统还包括;
键值对输出模块,用于当键值对匹配成功时,输出所有需要的键值对所对应的文本信息。
作为优选,所述文本行分类模块还包括:
图神经网络模型模块,用于构建图神经网络模型;
分类模块,用于输出所有文本行的类别。
本发明与现有技术相比,有益效果是:(1)本发明独创性的将图神经网络应用到RPA应用软件关键信息提取中,能直接输出软件图片中所有的键值对,从而帮助提取出想要的关键信息,大大减少后期人工设定规则来查找关键信息的复杂度;(2)本发明的关键信息提取方法融合了图像的视觉特征,文本的语义特征,文本行的位置特征,大大提升了关键信息的提取准确率;(3)本发明的键值对匹配采用的对比学习方法,只需要少量的文本框类别标注样本,即可有很好的键值对匹配效果,系统泛化性强。
附图说明
图1为本发明中基于图神经网络的软件页面关键信息提取方法的一种流程图;
图2为本发明中基于图神经网络的软件页面关键信息提取系统的一种功能构架图;
图3为本发明中文本行分类模块的一种功能构架图;
图4为本发明实施例所提供的从RPA抓取图片到提取关键信息的一种流程图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1所示,本发明提供了基于图神经网络的软件页面关键信息提取方法,包括如下步骤;
S1,将输入的网页图片通过DBNet文本检测算法,输出网页图片上所有的文本行坐标信息;
S2,通过CRNN文本识别算法,同时根据得到的文本行坐标信息,裁剪出所有的文本行并进行识别,得到每个文本行字符信息;
S3,结合输入的网页图片以及获得的文本行坐标信息、文本行字符信息,并通过基于图神经网络模型的文本行分类算法,输出所有文本行的类别;
S4,分别提取任意两个文本行的文本行坐标信息特征和文本行字符信息特征,并进行融合获得融合特征,同时结合文本行的类别进行键值对匹配;若匹配成功,则输出所有需要的键值对所对应的文本信息。
进一步的,步骤S3中所述文本行的类别包括“键”,“值”和“其他”三个类别。
这样分类的目的一方面可以将图片中所有的键值都提取出来,另一方面可以过滤掉一些无效的文本行。一般的分类网络往往是通过一系列的卷积操作提取图像的视觉特征,根据视觉特征来对图片进行分类。但是现在的任务是将文本行进行分类,文本行的视觉特征差异不明显,仅仅根据视觉特征来进行分类往往不能有好的分类效果。文本行的类别与它的语义信息,位置信息都有很强的关系,一些关键信息比如“名称”,“日期”等都是特定的文本,“值”一般都在“键”的右侧或下方。因此将文本行的位置信息和语义信息也作为网络的输入能提升文本行的分类准确率。
如图3所示,步骤S3包括如下步骤:
S31,用CNN骨干网络提取网页图片的特征,同时利用ROI Pooling(感兴趣区域池 化)层将所有文本行的特征处理成一个统一的维度;用CNN+ROI Pooling提取每个文本行的 视觉特征
Figure 971301DEST_PATH_IMAGE001
,用长短期记忆网络LSTM提取文本行的语义特征
Figure 80203DEST_PATH_IMAGE002
,并将视觉特征
Figure 222340DEST_PATH_IMAGE001
和语义特 征
Figure 261840DEST_PATH_IMAGE002
融合,得到融合特征
Figure 205656DEST_PATH_IMAGE003
Figure 672410DEST_PATH_IMAGE004
表示拼接操作,公式如下:
Figure 301843DEST_PATH_IMAGE005
S32,利用每个文本行的融合特征
Figure 20401DEST_PATH_IMAGE003
建立图神经网络模型,将每个文本行作为一个 图节点构造一个无向图,所述无向图表示成
Figure 67991DEST_PATH_IMAGE006
,其中
Figure 456378DEST_PATH_IMAGE007
表示所有文本行的 融合特征,表示无向图中两个节点的边的权重;
考虑文本行之间的空间关系,构造特征向量
Figure 589419DEST_PATH_IMAGE009
其中,
Figure 219990DEST_PATH_IMAGE010
Figure 122086DEST_PATH_IMAGE011
表示第
Figure 806009DEST_PATH_IMAGE012
个文本行的中心点坐标,
Figure 442658DEST_PATH_IMAGE013
Figure 96493DEST_PATH_IMAGE014
表示第
Figure 367943DEST_PATH_IMAGE015
个文本行的中心点坐 标,
Figure 81821DEST_PATH_IMAGE016
Figure 674608DEST_PATH_IMAGE017
表示第
Figure 866554DEST_PATH_IMAGE012
个文本行的宽和高,
Figure 258090DEST_PATH_IMAGE018
Figure 408449DEST_PATH_IMAGE019
表示第
Figure 488532DEST_PATH_IMAGE015
个文本行的宽和高;
Figure 15328DEST_PATH_IMAGE020
Figure 887469DEST_PATH_IMAGE021
表示两个文本行之间的距离;
Figure 457996DEST_PATH_IMAGE022
Figure 274643DEST_PATH_IMAGE023
表示两个文本行各自的宽高比;
Figure 90283DEST_PATH_IMAGE024
Figure 675985DEST_PATH_IMAGE025
表示 两个文本行之间宽高比的差异。
S33,构造两个文本行之间的空间关系
Figure 417414DEST_PATH_IMAGE026
Figure 986936DEST_PATH_IMAGE027
Figure 340688DEST_PATH_IMAGE028
其中,
Figure 921842DEST_PATH_IMAGE029
是一个线性变换,用于将
Figure 850484DEST_PATH_IMAGE030
进行升维,
Figure 625410DEST_PATH_IMAGE031
表示
Figure 297700DEST_PATH_IMAGE031
正则化,
Figure 343148DEST_PATH_IMAGE032
表示多层 神经网络。
S34,利用如下公式对无向图
Figure 177112DEST_PATH_IMAGE033
上的节点
Figure 439334DEST_PATH_IMAGE034
进行迭代,迭代次数为超参数,可按需调 整:
Figure 384157DEST_PATH_IMAGE052
Figure 284111DEST_PATH_IMAGE053
其中,
Figure 288976DEST_PATH_IMAGE037
表示ReLU激活函数,
Figure 38495DEST_PATH_IMAGE038
是一个线性变换,
Figure 521429DEST_PATH_IMAGE039
表示第
Figure 541469DEST_PATH_IMAGE040
次迭代中的第
Figure 717235DEST_PATH_IMAGE041
个图节点;
S35,图神经网络模型构建完成。
ROI Pooling是一种能将不同维度特征处理成相同维度的操作,普遍存在与主流的两阶段目标检测算法(如Faster RCNN)中。
步骤S4包括如下步骤:
S41,对于每个文本行的文本行字符信息用长短期记忆网络LSTM提取语义特征
Figure 813105DEST_PATH_IMAGE042
, 对于每个文本行有四个顶点的文本行坐标信息特征
Figure 584883DEST_PATH_IMAGE043
,
Figure 708697DEST_PATH_IMAGE044
,
Figure 773473DEST_PATH_IMAGE045
,
Figure 248317DEST_PATH_IMAGE046
,融合得到融合特征
Figure 89365DEST_PATH_IMAGE047
Figure 333265DEST_PATH_IMAGE048
其中,
Figure 123539DEST_PATH_IMAGE042
Figure 85679DEST_PATH_IMAGE049
分别表示第
Figure 730418DEST_PATH_IMAGE012
个文本行和第
Figure 94403DEST_PATH_IMAGE015
个文本行的语义特征;
Figure 297720DEST_PATH_IMAGE050
表示第
Figure 622522DEST_PATH_IMAGE012
个文本行的顶点坐标;
Figure 54641DEST_PATH_IMAGE051
表示第
Figure 289444DEST_PATH_IMAGE015
个文本行的顶点坐标;
Figure 414395DEST_PATH_IMAGE016
Figure 600394DEST_PATH_IMAGE017
表示第
Figure 570624DEST_PATH_IMAGE012
个文本 行的宽和高;
Figure 784568DEST_PATH_IMAGE018
Figure 831153DEST_PATH_IMAGE019
表示第
Figure 989601DEST_PATH_IMAGE015
个文本行的宽和高。
S42,将融合后的融合特征
Figure 278369DEST_PATH_IMAGE047
送到分类器中,当两个文本行不属于同一个键值对, 则输出类别为0;当两个文本行属于同一个键值对,则输出类别为1。
本发明将关键信息提取拆分成两步,分别是文本行分类和文本行键值对匹配。文本行分类是将所有检测到的文本行分成三种类别:键(key),值(value)和其他(other),不需要区分具体的键值类别,这样通用性大大增强,可以应用到所有的软件文本类型。文本行键值对匹配是将所有的键和值进行配对,将每一个属于“键”类别的文本行与对应的属于“值”类别的文本行绑定起来,这样只要输入某个关键信息对应的键就可以得到其对应的值。
如图2所示,本发明还提供了基于图神经网络的软件页面关键信息提取系统,包括:
文本行检测模块,用于将输入的网页图片通过DBNet文本检测算法,输出网页图片上所有的文本行坐标信息;
文本行识别模块,用于通过CRNN文本识别算法,同时根据得到的文本行坐标信息,裁剪出所有的文本行并进行识别,得到每个文本行字符信息;
文本行分类模块,用于结合输入的网页图片以及获得的文本行坐标信息、文本行字符信息,并通过基于图神经网络模型的文本行分类算法,输出所有文本行的类别;
文本行键值对匹配模块,用于分别提取任意两个文本行的文本行坐标信息特征和文本行字符信息特征,并进行融合获得融合特征,同时结合文本行的类别进行键值对匹配。
键值对输出模块,用于当键值对匹配成功时,输出所有需要的键值对所对应的文本信息。
进一步的,所述文本行分类模块还包括:
图神经网络模型模块,用于构建图神经网络模型;
分类模块,用于输出所有文本行的类别。
基于本发明的技术方案,在具体实施和操作过程中,以图4所示从RPA抓取图片到提取关键信息的流程图说明本发明具体实施流程。
如图4所示,具体实施流程如下:
1.利用RPA抓取应用软件页面的图片作为输入,并且配置需要输出的关键信息字段的名称;
2.将图片输入文本检测器中,检测出图片中所有的文本行坐标;
3.根据第2步检测出的文本行坐标,在原图中裁剪出所有文本行输入文本识别器中,识别出每个文本行的字符内容;
4.将原图,文本检测器输出的文本行坐标,文本识别器输出的文本行内容输入文本行分类器中,得到所有文本行的类别(“键”,“值”,“其他”);
5.将每个属于“键”的文本行分别与所有属于“值”的文本行输入到键值对匹配器里面进行匹配,如果匹配成功则将当前的“键”与“值”绑定起来;
6.根据第1步中设定的关键信息字段的名称匹配到“键”的名称;
7.根据名称对应的“键”输出与之绑定的“值”。
本发明独创性的将图神经网络应用到RPA应用软件关键信息提取中,能直接输出软件图片中所有的键值对,从而帮助提取出想要的关键信息,大大减少后期人工设定规则来查找关键信息的复杂度;本发明的关键信息提取方法融合了图像的视觉特征,文本的语义特征,文本行的位置特征,大大提升了关键信息的提取准确率;本发明的键值对匹配采用的对比学习方法,只需要少量的文本框类别标注样本,即可有很好的键值对匹配效果,系统泛化性强。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (5)

1.基于图神经网络的软件页面关键信息提取方法,其特征在于,包括如下步骤;
S1,将输入的网页图片通过DBNet文本检测算法,输出网页图片上所有的文本行坐标信息;
S2,通过CRNN文本识别算法,同时根据得到的文本行坐标信息,裁剪出所有的文本行并进行识别,得到每个文本行字符信息;
S3,结合输入的网页图片以及获得的文本行坐标信息、文本行字符信息,并通过基于图神经网络模型的文本行分类算法,输出所有文本行的类别;
S4,分别提取任意两个文本行的文本行坐标信息特征和文本行字符信息特征,并进行融合获得融合特征,同时结合文本行的类别进行键值对匹配;若匹配成功,则输出所有需要的键值对所对应的文本信息;
步骤S3中所述文本行的类别包括“键”,“值”和“其他”三个类别;
步骤S3包括如下步骤:
S31,用CNN骨干网络提取网页图片的特征,同时利用ROI Pooling层将所有文本行的特征处理成一个统一的维度;用CNN+ROI Pooling提取每个文本行的视觉特征
Figure DEST_PATH_IMAGE002
,用长短期记忆网络LSTM提取文本行的语义特征
Figure DEST_PATH_IMAGE004
,并将视觉特征
Figure 841030DEST_PATH_IMAGE002
和语义特征
Figure 554908DEST_PATH_IMAGE004
融合,得到融合特征
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
表示拼接操作,公式如下:
Figure DEST_PATH_IMAGE010
S32,利用每个文本行的融合特征
Figure 459279DEST_PATH_IMAGE006
建立图神经网络模型,将每个文本行作为一个图节点构造一个无向图,所述无向图表示成
Figure DEST_PATH_IMAGE012
,其中
Figure DEST_PATH_IMAGE014
表示所有文本行的融合特征,
Figure DEST_PATH_IMAGE016
表示无向图中两个节点的边的权重;
考虑文本行之间的空间关系,构造特征向量
Figure DEST_PATH_IMAGE018
其中,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
表示第
Figure DEST_PATH_IMAGE024
个文本行的中心点坐标,
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
表示第
Figure DEST_PATH_IMAGE030
个文本行的中心点坐标,
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
表示第
Figure 422863DEST_PATH_IMAGE024
个文本行的宽和高,
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
表示第
Figure 695625DEST_PATH_IMAGE030
个文本行的宽和高;
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
表示两个文本行之间的距离;
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE046
表示两个文本行各自的宽高比;
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
表示两个文本行之间宽高比的差异;
S33,构造两个文本行之间的空间关系
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE056
其中,
Figure DEST_PATH_IMAGE058
是一个线性变换,用于将
Figure DEST_PATH_IMAGE060
进行升维,
Figure DEST_PATH_IMAGE062
表示
Figure 735449DEST_PATH_IMAGE062
正则化,
Figure DEST_PATH_IMAGE064
表示多层神经网络;
S34,利用如下公式对无向图
Figure DEST_PATH_IMAGE066
上的节点
Figure DEST_PATH_IMAGE068
进行迭代,迭代次数为超参数,可按需调整:
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE072
其中,
Figure DEST_PATH_IMAGE074
表示ReLU激活函数,
Figure DEST_PATH_IMAGE076
是一个线性变换,
Figure DEST_PATH_IMAGE078
表示第
Figure DEST_PATH_IMAGE080
次迭代中的第
Figure DEST_PATH_IMAGE082
个图节点;
S35,图神经网络模型构建完成。
2.根据权利要求1所述的基于图神经网络的软件页面关键信息提取方法,其特征在于,步骤S4包括如下步骤:
S41,对于每个文本行的文本行字符信息用长短期记忆网络LSTM提取语义特征
Figure DEST_PATH_IMAGE084
,对于每个文本行有四个顶点的文本行坐标信息特征
Figure DEST_PATH_IMAGE086
,
Figure DEST_PATH_IMAGE088
,
Figure DEST_PATH_IMAGE090
,
Figure DEST_PATH_IMAGE092
,融合得到融合特征
Figure DEST_PATH_IMAGE094
Figure DEST_PATH_IMAGE096
其中,
Figure 831843DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE098
分别表示第
Figure 539731DEST_PATH_IMAGE024
个文本行和第
Figure 51352DEST_PATH_IMAGE030
个文本行的语义特征;
Figure DEST_PATH_IMAGE100
表示第
Figure 966087DEST_PATH_IMAGE024
个文本行的顶点坐标;
Figure DEST_PATH_IMAGE102
表示第
Figure 923679DEST_PATH_IMAGE030
个文本行的顶点坐标;
Figure 503434DEST_PATH_IMAGE032
Figure 371027DEST_PATH_IMAGE034
表示第
Figure 394347DEST_PATH_IMAGE024
个文本行的宽和高;
Figure 484574DEST_PATH_IMAGE036
Figure 307168DEST_PATH_IMAGE038
表示第
Figure 544114DEST_PATH_IMAGE030
个文本行的宽和高;
S42,将融合后的融合特征
Figure 518761DEST_PATH_IMAGE094
送到分类器中,当两个文本行不属于同一个键值对,则输出类别为0;当两个文本行属于同一个键值对,则输出类别为1。
3.基于图神经网络的软件页面关键信息提取系统,应用权利要求1-2中任一项所述的基于图神经网络的软件页面关键信息提取方法,其特征在于,所述基于图神经网络的软件页面关键信息提取系统包括:
文本行检测模块,用于将输入的网页图片通过DBNet文本检测算法,输出网页图片上所有的文本行坐标信息;
文本行识别模块,用于通过CRNN文本识别算法,同时根据得到的文本行坐标信息,裁剪出所有的文本行并进行识别,得到每个文本行字符信息;
文本行分类模块,用于结合输入的网页图片以及获得的文本行坐标信息、文本行字符信息,并通过基于图神经网络模型的文本行分类算法,输出所有文本行的类别;
文本行键值对匹配模块,用于分别提取任意两个文本行的文本行坐标信息特征和文本行字符信息特征,并进行融合获得融合特征,同时结合文本行的类别进行键值对匹配。
4.根据权利要求3所述的基于图神经网络的软件页面关键信息提取系统,其特征在于,还包括;
键值对输出模块,用于当键值对匹配成功时,输出所有需要的键值对所对应的文本信息。
5.根据权利要求3所述的基于图神经网络的软件页面关键信息提取系统,其特征在于,所述文本行分类模块还包括:
图神经网络模型模块,用于构建图神经网络模型;
分类模块,用于输出所有文本行的类别。
CN202210279500.8A 2022-03-22 2022-03-22 基于图神经网络的软件页面关键信息提取方法及系统 Active CN114359912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279500.8A CN114359912B (zh) 2022-03-22 2022-03-22 基于图神经网络的软件页面关键信息提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279500.8A CN114359912B (zh) 2022-03-22 2022-03-22 基于图神经网络的软件页面关键信息提取方法及系统

Publications (2)

Publication Number Publication Date
CN114359912A CN114359912A (zh) 2022-04-15
CN114359912B true CN114359912B (zh) 2022-06-24

Family

ID=81095001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279500.8A Active CN114359912B (zh) 2022-03-22 2022-03-22 基于图神经网络的软件页面关键信息提取方法及系统

Country Status (1)

Country Link
CN (1) CN114359912B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079288B (zh) * 2023-10-19 2023-12-29 华南理工大学 一种识别场景中文字语义的关键信息提取方法及模型

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN112257841A (zh) * 2020-09-03 2021-01-22 北京大学 图神经网络中的数据处理方法、装置、设备及存储介质
CN112464781A (zh) * 2020-11-24 2021-03-09 厦门理工学院 基于图神经网络的文档图像关键信息提取及匹配方法
CN114187595A (zh) * 2021-12-14 2022-03-15 中国科学院软件研究所 基于视觉特征和语义特征融合的文档布局识别方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403488B2 (en) * 2020-03-19 2022-08-02 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for recognizing image-based content presented in a structured layout
CN114037985A (zh) * 2021-11-04 2022-02-11 北京有竹居网络技术有限公司 信息提取方法、装置、设备、介质及产品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN112257841A (zh) * 2020-09-03 2021-01-22 北京大学 图神经网络中的数据处理方法、装置、设备及存储介质
CN112464781A (zh) * 2020-11-24 2021-03-09 厦门理工学院 基于图神经网络的文档图像关键信息提取及匹配方法
CN114187595A (zh) * 2021-12-14 2022-03-15 中国科学院软件研究所 基于视觉特征和语义特征融合的文档布局识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Graph-based Visual-Semantic Entanglement Network for Zero-shot Image Recognition;Yang Hu 等;《arXiv》;20210614;第1-15页 *
基于主次关系特征的自动文摘方法;张迎等;《计算机科学》;20200615;第16-21页 *
基于深度学习技术的图片文字提取技术的研究;蒋良卫等;《信息系统工程》;20200320(第03期);第89-90页 *

Also Published As

Publication number Publication date
CN114359912A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN110717534B (zh) 一种基于网络监督的目标分类和定位方法
US8744196B2 (en) Automatic recognition of images
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN112464781A (zh) 基于图神经网络的文档图像关键信息提取及匹配方法
CN111931859B (zh) 一种多标签图像识别方法和装置
WO2020071558A1 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
CN110413825B (zh) 面向时尚电商的街拍推荐系统
Hu et al. Enriching the metadata of map images: a deep learning approach with GIS-based data augmentation
CN112381086A (zh) 一种结构化输出图像文字识别结果的方法及装置
CN113469067A (zh) 一种文档解析方法、装置、计算机设备和存储介质
CN114359912B (zh) 基于图神经网络的软件页面关键信息提取方法及系统
CN113762257B (zh) 一种美妆品牌图像中标志的识别方法及装置
CN113628181A (zh) 图像处理方法、装置、电子设备及存储介质
CN115640401B (zh) 文本内容提取方法及装置
Fang et al. Visual music score detection with unsupervised feature learning method based on k-means
JP6896260B1 (ja) レイアウト解析装置、その解析プログラムおよびその解析方法
Akhter et al. Semantic segmentation of printed text from marathi document images using deep learning methods
Liao et al. Image-matching based identification of store signage using web-crawled information
Sun et al. Lecture video automatic summarization system based on DBNet and Kalman filtering
Yadav et al. Rfpssih: reducing false positive text detection sequels in scenery images using hybrid technique
Goyal et al. ScreenSeg: On-Device Screenshot Layout Analysis
Zhong et al. Sequence recognition of natural scene house number based on convolutional neural network
CN113591680B (zh) 对地质图片钻井经纬度进行识别的方法和系统
Khlif Multi-lingual scene text detection based on convolutional neural networks
Xu et al. Unsupervised person re-identification via graph-structured image matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant