CN116152817B - 信息处理方法、装置、设备、介质和程序产品 - Google Patents
信息处理方法、装置、设备、介质和程序产品 Download PDFInfo
- Publication number
- CN116152817B CN116152817B CN202211742761.5A CN202211742761A CN116152817B CN 116152817 B CN116152817 B CN 116152817B CN 202211742761 A CN202211742761 A CN 202211742761A CN 116152817 B CN116152817 B CN 116152817B
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- image
- features
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 230000003993 interaction Effects 0.000 claims abstract description 69
- 238000013528 artificial neural network Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims description 37
- 230000000007 visual effect Effects 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 66
- 238000004590 computer program Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012993 chemical processing Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本公开提供了一种信息处理方法、装置、设备、介质和程序产品,涉及人工智能技术领域,具体为深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。在本公开的一些实施例中,获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
Description
技术领域
本公开提供了一种信息处理方法、装置、设备、介质和程序产品,涉及人工智能技术领域,具体为深度学习、图像处理和计算机视觉技术领域,可应用于OCR等场景。
背景技术
文档是一种重要的信息载体,被广泛用于各种商业和办公场景。
对纸质文档进行信息录入是一个最普遍且费时流程之一。在一些场景下需要对文档文本包含的实体关系进行识别,以进一步获取文档的类型或者其他信息。
目前,对文档文本中包含的实体关系识别的准确率较低,且计算资源消耗较大。
发明内容
本公开提供了一种信息处理方法、装置、设备、介质和程序产品。
本公开实施例提供一种信息处理方法,包括:
获取原始文本图像以及所述原始文本图像对应的原始文本;
分别对所述原始文本和所述原始文本图像进行编码处理,得到文本特征和图像特征;
将所述文本特征和所述图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;所述特征交互神经网络层用于对所述文本特征和所述图像特征中提取到的特征进行交叉合并处理,以分别得到文本特征对应的文本类别特征以及所述图像特征对应的图像类别特征;
根据所述文本类别特征和所述图像类别特征,确定所述原始文本包含的实体的类型。
本公开实施例还提供一种信息处理装置,包括:
获取模块,用于获取原始文本图像以及所述原始文本图像对应的原始文本;
编码模块,分别用于对所述原始文本和所述原始文本图像进行编码处理,得到文本特征和图像特征;
特征提取模块,用于将所述文本特征和所述图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;所述特征交互神经网络层用于对所述文本特征和所述图像特征中提取到的特征进行交叉合并处理,以分别得到文本特征对应的文本类别特征以及所述图像特征对应的图像类别特征;
确定模块,用于根据所述文本类别特征和所述图像类别特征,确定所述原始文本包含的实体的类型。
本公开实施例还提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
本公开实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述的方法。
本公开实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现上述的方法中的步骤。
本公开的实施例提供的技术方案至少带来以下有益效果:
在本公开的一些实施例中,获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例一提供的一种信息处理方法的流程示意图;
图2为本公开示例性实施例提供的一种特征交互神经网络层的示意图;
图3为本公开示例性实施例提供的一种特征编码网络的示意图;
图4为本公开示例性实施例提供的一种信息处理装置的结构示意图;
图5示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
文档是一种重要的信息载体,被广泛用于各种商业和办公场景。在一些场景下需要对文档文本包含的实体关系进行识别,以进一步获取文档的类型或者其他信息。
例如,在办公场景中,需要对用户上传的文档图像例如增值税发票、出租车票、通行费、火车票、行程单或者是保险单、检查报告等文档图像进行扫描和分门别类,然后按照业务归属进行不同处理。
针对上述存在的技术问题,在本公开的一些实施例中,获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
以下结合附图,详细说明本公开各实施例提供的技术方案。
图1为本公开实施例一提供的一种信息处理方法的流程示意图。如图1所示,该方法包括:
S101:获取原始文本图像以及原始文本图像对应的原始文本;
S102:分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;
S103:将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,以分别得到文本特征对应的文本类别特征以及图像特征对应的图像类别特征;
S104:根据文本类别特征和图像类别特征,确定原始文本包含的实体的类型。
在本实施例中,上述方法的执行主体可以为终端设备或者服务器。
在执行主体为终端设备时,并不限定终端设备的类型。终端设备包括但不限于以下任意一种:个人电脑,笔记本电脑,平板电脑,手机,智能手环,智能手表和智能音响。
在执行主体为服务器时,并不限定服务器的实现形态。例如,服务器可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中,服务器的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类型。
获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
在本实施例中,获取原始文本图像,对原始文本图像进行OCR识别,得到原始文本图像对应的原始文本。
在本公开一些实施例中,对原始文本进行编码处理,得到文本特征。一种可实现的方式为,提取原始文本中的文本行;对文本行进行向量化处理,得到文本特征。可选地,利用OCR技术提取原始文本中的文本行,使用word2vector将原始文本中每个字符编码成d维的向量,使用BERT模型对文本行的特征向量序列进行编码以获取文本特征其中,T={BERT(ti),i∈[1,n]}。
在本公开的一些实施例中,对原始文本图像进行编码处理,得到图像特征。一种可实现的方式为,对原始文本图像进行压缩,得到压缩文本图像;将压缩文本图像输入卷积神经网络,得到宽度视觉特征和高度视觉特征;将宽度视觉特征和高度视觉特征合并,得到图像特征。可选地,对原始文本图像缩放为宽为w像素,高为h像素的压缩文本图像I∈Rh×w×3;将压缩文本图像输入卷积神经网络,卷积神经网络的参数核(kernel)大小K∈Rr×r×3×d,输出的三维视觉特征为将宽度视觉特征和高度视觉特征合并,得到图像特征
在本公开的一些实施例中,将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,以分别得到文本特征对应的文本类别特征以及图像特征对应的图像类别特征。一种可实现的方式为,每个特征交互神经网络层包括第一全连接层、第二全连接层、第三全连接层和特征交互子层;针对每个特征交互神经网络层,将文本特征分别输入第一全连接层、第二全连接层和第三全连接层得到第一文本特征、第二文本特征和第三文本特征;以及将图像特征分别输入第一全连接层、第二全连接层和第三全连接层,得到第一图像特征、第二图像特征和第三图像特征;将第一文本特征、第二文本特征、第三文本特征、第一图像特征、第二图像特征和第三图像特征输入特征交互子层中,得到第一类别特征和第二类别特征;将第一类别特征和第二类别特征输入下一个特征交互神经网络层中,直至得到文本类别特征和图像类别特征。需要说明的是,本公开实施例对特征交互神经网络层的数量不作限定,可以根据实际情况作出调整。
可选地,将第一文本特征、第二文本特征、第三文本特征、第一图像特征、第二图像特征和第三图像特征输入特征交互子层中,得到第一类别特征和第二类别特征。一种可实现的方式为,将第一文本特征和第二文本特征进行归一化处理,得到第一概率分布;将第一概率分布和第三文本特征进行向量化处理,得到第一特征向量;以及将第一图像特征和第二图像特征进行归一化处理,得到第二概率分布;将第二概率分布和第三图像特征进行向量化处理,得到第二特征向量;将第二概率分布和第一特征向量进行处理交叉合并处理,得到第一类别特征;以及将第一概率分布和第二特征向量进行处理,得到第二类别特征。
例如,图2为本公开示例性实施例提供的一种特征交互神经网络层的示意图。如图2所示,将文本特征分别输入第一全连接层、第二全连接层和第三全连接层得到第一文本特征Tq、第二文本特征Tk和第三文本特征Tv。将图像特征分别输入第一全连接层、第二全连接层和第三全连接层,得到第一图像特征Vq、第二图像特征Vk和第三图像特征Vv。将第一文本特征Tq和第二文本特征Tk进行归一化处理,得到第一概率分布Mt;将第一概率分布Mt和第三文本特征Tv进行向量化处理,得到第一特征向量Tn;将第一图像特征Vq和第二图像特征Vk进行归一化处理,得到第二概率分布Mv;将第二概率分布Mv和第三图像特征Vv进行向量化处理,得到第二特征向量Vn;
将第二概率分布Mv和第一特征向量Tn进行处理交叉合并处理,得到第一类别特征T0;将第一概率分布Mt和第二特征向量Vn进行处理,得到第二类别特征V0。本公开采用优化的特征交互神经网络层,减少计算量。
在本公开的一些实施例中,对第一类别特征和第二类别特征进行线性变换,得到压缩后的特征;以及在下一个特征交互神经网络层中,对压缩后的特征进行复制操作,直至特征长度满足等于编码特征长度,得到复制后的特征。本公开的特征编码网络通过对现有Transformer网络结构进行优化,该网络通过堆叠多层网络对视觉特征V和文本特征T进行压缩和复原改变特征大小,从而形成一个U型结构,进而降低网络的计算量。
图3为本公开示例性实施例提供的一种特征编码网络的示意图。如图3所示,通过将视觉特征V和文本特征T共同输入深度网络中进行编码,本公开实施例采用编解码对Transformers中的特征进行压缩,并设计出一种更加高效的单层Transformer网络结构。
参照图3,本公开实施例构建具有L个block的Transformers网络。每个block包含有K层Transformer单层结构,block内部的特征大小不产生变化。该网络通过堆叠多层block对视觉特征V和文本特征T进行压缩和复原改变特征大小,从而形成一个U型结构,进而降低网络的计算量。图中展示了一个L=3,K=1的Transformers网络示意图。
编码阶段,在每个block的最后一层,通过增加一个参数核大小为3,步长为2的线性变换将上一阶段的特征压缩成原本长度的1/2。需要说明的是,视觉特征单元和文本特征单元不做重叠。如果特征长度不满足压缩比例,则在前后添加0向量做为补充单元。
解码阶段,将上一阶段的特征序列中的非补充视觉特征V和非补充文本特征T复制为原来2倍,如果复制后的特征长度不满足对应编码阶段的长度,则最后一个单元都复制多次直到与编码阶段的特征长度相同。同时,将编码阶段的特征直接与复制后的解码特征相加,保证单元特征语义的完整性。经过单元压缩网络编码后的特征记作
在本公开的一些实施例中,根据文本类别特征和图像类别特征,确定原始文本包含的实体的类型。一种可实现的方式为,根据文本类别特征和图像类别特征,确定原始文本中包含的字符的类型;根据字符的类型,确定原始文本包含的实体的类型。
在一种可选实施例中,根据文本类别特征和图像类别特征,确定原始文本包含的字符的类型。一种可实现的方式为,将文本类别特征和图像类别特征输入全连接层,得到原始文本包含的字符的类型。
例如,对每个实体定义一个标记类型,例如人名标记为PER、公司名标记为COM、地名标记为LOC、日期标记为DATE、金额标记为MON等。对于文本中的每个实体采用BIO格式标记,其中B表示实体文本的起始字符,I表示实体文本的非起始字符,O表示为其他非关键信息字符。例如,“我查到AB在北京成立”标记为:
我 | 查 | 到 | 百 | 度 | 在 | 北 | 京 | 成 | 立 |
B-PER | O | O | B-COM | I-COM | O | B-LOC | I-LOC | O | O |
其中,我为人名,百度为公司,北京为地名。具体预测方式是将文本类别特征和图像类别特征经过一层全连接层,对每个字符进行BIO分类,即可得出文本各个字符对应的BIO标记。将BIO标记的结果进行切分转换,即可得到原始文本中的实体的类型。
在本公开的上述方法实施例中,获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
图4为本公开示例性实施例提供的一种信息处理装置40的结构示意图。该信息处理装置40包括获取模块41、编码模块42、特征提取模块43和确定模块44。
其中,获取模块41,用于获取原始文本图像以及原始文本图像对应的原始文本;
编码模块42,分别用于对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;
特征提取模块43,用于将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,以分别得到文本特征对应的文本类别特征以及图像特征对应的图像类别特征;
确定模块44,用于根据文本类别特征和图像类别特征,确定原始文本包含的实体的类型。
可选地,每个特征交互神经网络层包括第一全连接层、第二全连接层、第三全连接层和特征交互子层,特征提取模块43在将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征时,用于:
针对每个特征交互神经网络层,将文本特征分别输入第一全连接层、第二全连接层和第三全连接层得到第一文本特征、第二文本特征和第三文本特征;以及
将图像特征分别输入第一全连接层、第二全连接层和第三全连接层,得到第一图像特征、第二图像特征和第三图像特征;
将第一文本特征、第二文本特征、第三文本特征、第一图像特征、第二图像特征和第三图像特征输入特征交互子层中,得到第一类别特征和第二类别特征;
将第一类别特征和第二类别特征输入下一个特征交互神经网络层中,直至得到文本类别特征和图像类别特征。
可选地,特征提取模块43在将第一文本特征、第二文本特征、第三文本特征、第一图像特征、第二图像特征和第三图像特征输入特征交互子层中,得到第一类别特征和第二类别特征时,用于:
将第一文本特征和第二文本特征进行归一化处理,得到第一概率分布;
将第一概率分布和第三文本特征进行向量化处理,得到第一特征向量;以及
将第一图像特征和第二图像特征进行归一化处理,得到第二概率分布;将第二概率分布和第三图像特征进行向量化处理,得到第二特征向量;
将第二概率分布和第一特征向量进行处理交叉合并处理,得到第一类别特征;以及
将第一概率分布和第二特征向量进行处理,得到第二类别特征。
可选地,特征提取模块43,还可用于:
对第一类别特征和第二类别特征进行线性变换,得到压缩后的特征;以及
在下一个特征交互神经网络层中,对压缩后的特征进行复制操作,直至特征长度满足等于编码特征长度,得到复制后的特征。
可选地,确定模块44在根据文本类别特征和图像类别特征,确定原始文本包含的实体的类型时,用于:
根据文本类别特征和图像类别特征,确定原始文本中包含的字符的类型;
根据字符的类型,确定原始文本包含的实体的类型。
可选地,确定模块44在根据文本类别特征和图像类别特征,确定原始文本包含的字符的类型时,用于:
将文本类别特征和图像类别特征输入全连接层,得到原始文本包含的字符的类型。
可选地,编码模块42在对原始文本进行编码处理,得到文本特征时,用于:
提取原始文本中的文本行;
对文本行进行向量化处理,得到文本特征。
可选地,编码模块42在对原始文本图像进行编码处理,得到图像特征时,用于:
对原始文本图像进行压缩,得到压缩文本图像;
将压缩文本图像输入卷积神经网络,得到宽度视觉特征和高度视觉特征;
将宽度视觉特征和高度视觉特征合并,得到图像特征。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
在本公开上述装置、设备、存储设备及计算机程序产品实施例中,获取原始文本图像以及原始文本图像对应的原始文本;分别对原始文本和原始文本图像进行编码处理,得到文本特征和图像特征;将文本特征和图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;特征交互神经网络层用于对文本特征和图像特征中提取到的特征进行交叉合并处理,通过对神经网络结构进行优化,降低计算量;融合文本特征和图像特征,确定原始文本包含的实体的类型,提升实体类型识别的准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (16)
1.一种信息处理方法,包括:
获取原始文本图像以及所述原始文本图像对应的原始文本;
分别对所述原始文本和所述原始文本图像进行编码处理,得到文本特征和图像特征;
将所述文本特征和所述图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;所述特征交互神经网络层用于对所述文本特征和所述图像特征中提取到的特征进行交叉合并处理,以分别得到文本特征对应的文本类别特征以及所述图像特征对应的图像类别特征;
根据所述文本类别特征和所述图像类别特征,确定所述原始文本包含的实体的类型;
其中,每个所述特征交互神经网络层包括全连接层和特征交互子层,所述将所述文本特征和所述图像特征输入至少一个所述特征交互神经网络层中,得到文本类别特征和图像类别特征,包括:
将所述文本特征、所述图像特征输入所述全连接层,并将所述全连接层的输出输入至所述特征交互子层中,得到第一类别特征和第二类别特征;
将所述第一类别特征和所述第二类别特征输入下一个特征交互神经网络层中,直至得到所述文本类别特征和所述图像类别特征;
对所述第一类别特征和所述第二类别特征进行线性变换,得到压缩后的特征;
在所述下一个特征交互神经网络层中,对压缩后的特征进行复制操作,直至特征长度满足等于编码特征长度,得到复制后的特征。
2. 根据权利要求1所述的方法,其中,所述全连接层包括第一全连接层、第二全连接层、第三全连接层,将所述文本特征和所述图像特征输入至少一个所述特征交互神经网络层中,得到文本类别特征和图像类别特征,包括:
针对每个所述特征交互神经网络层,将所述文本特征分别输入所述第一全连接层、所述第二全连接层和所述第三全连接层得到第一文本特征、第二文本特征和第三文本特征;以及
将所述图像特征分别输入所述第一全连接层、所述第二全连接层和所述第三全连接层,得到第一图像特征、第二图像特征和第三图像特征;
将所述第一文本特征、第二文本特征、第三文本特征、第一图像特征、第二图像特征和第三图像特征输入所述特征交互子层中,得到第一类别特征和第二类别特征;
将所述第一类别特征和所述第二类别特征输入下一个特征交互神经网络层中,直至得到所述文本类别特征和所述图像类别特征。
3.根据权利要求2所述的方法,其中,所述将所述第一文本特征、第二文本特征、第三文本特征、第一图像特征、第二图像特征和第三图像特征输入所述特征交互子层中,得到第一类别特征和第二类别特征,包括:
将所述第一文本特征和所述第二文本特征进行归一化处理,得到第一概率分布;
将所述第一概率分布和第三文本特征进行向量化处理,得到第一特征向量;以及
将所述第一图像特征和所述第二图像特征进行归一化处理,得到第二概率分布;将所述第二概率分布和所述第三图像特征进行向量化处理,得到第二特征向量;
将所述第二概率分布和所述第一特征向量进行处理交叉合并处理,得到所述第一类别特征;以及
将所述第一概率分布和所述第二特征向量进行处理,得到第二类别特征。
4.根据权利要求1所述的方法,其中,所述根据所述文本类别特征和所述图像类别特征,确定所述原始文本包含的实体的类型,包括:
根据所述文本类别特征和所述图像类别特征,确定所述原始文本中包含的字符的类型;
根据所述字符的类型,确定所述原始文本包含的实体的类型。
5.根据权利要求4所述的方法,其中,所述根据所述文本类别特征和所述图像类别特征,确定所述原始文本包含的字符的类型,包括:
将所述文本类别特征和所述图像类别特征输入全连接层,得到所述原始文本包含的字符的类型。
6.根据权利要求1所述的方法,其中,对所述原始文本进行编码处理,得到文本特征,包括:
提取所述原始文本中的文本行;
对所述文本行进行向量化处理,得到文本特征。
7.根据权利要求1所述的方法,其中,对所述原始文本图像进行编码处理,得到图像特征,包括:
对所述原始文本图像进行压缩,得到压缩文本图像;
将所述压缩文本图像输入卷积神经网络,得到宽度视觉特征和高度视觉特征;
将所述宽度视觉特征和所述高度视觉特征合并,得到图像特征。
8.一种信息处理装置,包括:
获取模块,用于获取原始文本图像以及所述原始文本图像对应的原始文本;
编码模块,分别用于对所述原始文本和所述原始文本图像进行编码处理,得到文本特征和图像特征;
特征提取模块,用于将所述文本特征和所述图像特征输入至少一个特征交互神经网络层中,得到文本类别特征和图像类别特征;所述特征交互神经网络层用于对所述文本特征和所述图像特征中提取到的特征进行交叉合并处理,以分别得到文本特征对应的文本类别特征以及所述图像特征对应的图像类别特征;
确定模块,用于根据所述文本类别特征和所述图像类别特征,确定所述原始文本包含的实体的类型;
其中,每个所述特征交互神经网络层包括全连接层和特征交互子层,所述将所述文本特征和所述图像特征输入至少一个所述特征交互神经网络层中,得到文本类别特征和图像类别特征,包括:
将所述文本特征、所述图像特征输入所述全连接层,并将所述全连接层的输出输入至所述特征交互子层中,得到第一类别特征和第二类别特征;
将所述第一类别特征和所述第二类别特征输入下一个特征交互神经网络层中,直至得到所述文本类别特征和所述图像类别特征;
其中,所述特征提取模块,还用于:
对所述第一类别特征和所述第二类别特征进行线性变换,得到压缩后的特征;
在所述下一个特征交互神经网络层中,对压缩后的特征进行复制操作,直至特征长度满足等于编码特征长度,得到复制后的特征。
9. 根据权利要求8所述的装置,其中,所述全连接层包括第一全连接层、第二全连接层、第三全连接层所述特征提取模块在将所述文本特征和所述图像特征输入至少一个所述特征交互神经网络层中,得到文本类别特征和图像类别特征时,用于:
针对每个所述特征交互神经网络层,将所述文本特征分别输入所述第一全连接层、所述第二全连接层和所述第三全连接层得到第一文本特征、第二文本特征和第三文本特征;以及
将所述图像特征分别输入所述第一全连接层、所述第二全连接层和所述第三全连接层,得到第一图像特征、第二图像特征和第三图像特征;
将所述第一文本特征、第二文本特征、第三文本特征、第一图像特征、第二图像特征和第三图像特征输入所述特征交互子层中,得到第一类别特征和第二类别特征;
将所述第一类别特征和所述第二类别特征输入下一个特征交互神经网络层中,直至得到所述文本类别特征和所述图像类别特征。
10.根据权利要求9所述的装置,其中,所述特征提取模块在将所述第一文本特征、第二文本特征、第三文本特征、第一图像特征、第二图像特征和第三图像特征输入所述特征交互子层中,得到第一类别特征和第二类别特征时,用于:
将所述第一文本特征和所述第二文本特征进行归一化处理,得到第一概率分布;
将所述第一概率分布和第三文本特征进行向量化处理,得到第一特征向量;以及
将所述第一图像特征和所述第二图像特征进行归一化处理,得到第二概率分布;将所述第二概率分布和所述第三图像特征进行向量化处理,得到第二特征向量;
将所述第二概率分布和所述第一特征向量进行处理交叉合并处理,得到所述第一类别特征;以及
将所述第一概率分布和所述第二特征向量进行处理,得到第二类别特征。
11.根据权利要求8所述的装置,其中,所述确定模块在根据所述文本类别特征和所述图像类别特征,确定所述原始文本包含的实体的类型时,用于:
根据所述文本类别特征和所述图像类别特征,确定所述原始文本中包含的字符的类型;
根据所述字符的类型,确定所述原始文本包含的实体的类型。
12.根据权利要求11所述的装置,其中,所述确定模块在根据所述文本类别特征和所述图像类别特征,确定所述原始文本包含的字符的类型时,用于:
将所述文本类别特征和所述图像类别特征输入全连接层,得到所述原始文本包含的字符的类型。
13.根据权利要求8所述的装置,其中,所述编码模块在对所述原始文本进行编码处理,得到文本特征时,用于:
提取所述原始文本中的文本行;
对所述文本行进行向量化处理,得到文本特征。
14.根据权利要求8所述的装置,其中,所述编码模块在对所述原始文本图像进行编码处理,得到图像特征时,用于:
对所述原始文本图像进行压缩,得到压缩文本图像;
将所述压缩文本图像输入卷积神经网络,得到宽度视觉特征和高度视觉特征;
将所述宽度视觉特征和所述高度视觉特征合并,得到图像特征。
15. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211742761.5A CN116152817B (zh) | 2022-12-30 | 2022-12-30 | 信息处理方法、装置、设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211742761.5A CN116152817B (zh) | 2022-12-30 | 2022-12-30 | 信息处理方法、装置、设备、介质和程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116152817A CN116152817A (zh) | 2023-05-23 |
CN116152817B true CN116152817B (zh) | 2024-01-02 |
Family
ID=86361289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211742761.5A Active CN116152817B (zh) | 2022-12-30 | 2022-12-30 | 信息处理方法、装置、设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116152817B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507150A (zh) * | 2020-12-09 | 2021-03-16 | 曙光信息产业(北京)有限公司 | 一种标签扩充方法、装置、电子设备及存储介质 |
CN112733789A (zh) * | 2021-01-20 | 2021-04-30 | 清华大学 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
CN113343982A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN113742483A (zh) * | 2021-08-27 | 2021-12-03 | 北京百度网讯科技有限公司 | 文档分类的方法、装置、电子设备和存储介质 |
CN114155543A (zh) * | 2021-12-08 | 2022-03-08 | 北京百度网讯科技有限公司 | 神经网络训练方法、文档图像理解方法、装置和设备 |
CN114330475A (zh) * | 2021-10-29 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 内容匹配方法、装置、设备、存储介质及计算机程序产品 |
CN114550156A (zh) * | 2022-02-18 | 2022-05-27 | 支付宝(杭州)信息技术有限公司 | 图像处理方法及装置 |
CN114708461A (zh) * | 2022-04-21 | 2022-07-05 | 平安科技(深圳)有限公司 | 基于多模态学习模型的分类方法、装置、设备及存储介质 |
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
-
2022
- 2022-12-30 CN CN202211742761.5A patent/CN116152817B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507150A (zh) * | 2020-12-09 | 2021-03-16 | 曙光信息产业(北京)有限公司 | 一种标签扩充方法、装置、电子设备及存储介质 |
CN112733789A (zh) * | 2021-01-20 | 2021-04-30 | 清华大学 | 一种基于动态时空图的视频推理方法、装置、设备及介质 |
CN113343982A (zh) * | 2021-06-16 | 2021-09-03 | 北京百度网讯科技有限公司 | 多模态特征融合的实体关系提取方法、装置和设备 |
CN113742483A (zh) * | 2021-08-27 | 2021-12-03 | 北京百度网讯科技有限公司 | 文档分类的方法、装置、电子设备和存储介质 |
CN114330475A (zh) * | 2021-10-29 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 内容匹配方法、装置、设备、存储介质及计算机程序产品 |
CN114155543A (zh) * | 2021-12-08 | 2022-03-08 | 北京百度网讯科技有限公司 | 神经网络训练方法、文档图像理解方法、装置和设备 |
CN114550156A (zh) * | 2022-02-18 | 2022-05-27 | 支付宝(杭州)信息技术有限公司 | 图像处理方法及装置 |
CN114708461A (zh) * | 2022-04-21 | 2022-07-05 | 平安科技(深圳)有限公司 | 基于多模态学习模型的分类方法、装置、设备及存储介质 |
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116152817A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966522B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN114821622B (zh) | 文本抽取方法、文本抽取模型训练方法、装置及设备 | |
CN114372477B (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
CN113033534A (zh) | 建立票据类型识别模型与识别票据类型的方法、装置 | |
CN113742483A (zh) | 文档分类的方法、装置、电子设备和存储介质 | |
CN112949415A (zh) | 图像处理方法、装置、设备和介质 | |
CN111177367B (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN114818708B (zh) | 关键信息抽取方法、模型训练方法、相关装置及电子设备 | |
CN113313111A (zh) | 文本识别方法、装置、设备和介质 | |
CN112507706A (zh) | 知识预训练模型的训练方法、装置和电子设备 | |
CN114863439B (zh) | 信息提取方法、装置、电子设备和介质 | |
CN113657274A (zh) | 表格生成方法、装置、电子设备、存储介质及产品 | |
CN114242113B (zh) | 语音检测方法、训练方法、装置和电子设备 | |
CN114091472B (zh) | 多标签分类模型的训练方法 | |
CN110457478B (zh) | 文本合规性检查方法及装置、电子设备和计算机可读介质 | |
CN115565177A (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN115035351B (zh) | 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质 | |
CN116152817B (zh) | 信息处理方法、装置、设备、介质和程序产品 | |
CN116363663A (zh) | 图像处理方法、图像识别方法及装置 | |
CN115130473B (zh) | 关键信息抽取方法、模型训练方法、相关装置及电子设备 | |
CN115457329A (zh) | 图像分类模型的训练方法、图像分类方法和装置 | |
CN115116080A (zh) | 表格解析方法、装置、电子设备和存储介质 | |
CN116110056B (zh) | 信息抽取方法及装置、电子设备和存储介质 | |
CN112966150A (zh) | 一种视频内容抽取的方法、装置、计算机设备及存储介质 | |
CN114821603B (zh) | 票据识别方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |