CN117075778A - 一种图片文字的信息处理系统 - Google Patents
一种图片文字的信息处理系统 Download PDFInfo
- Publication number
- CN117075778A CN117075778A CN202311320696.1A CN202311320696A CN117075778A CN 117075778 A CN117075778 A CN 117075778A CN 202311320696 A CN202311320696 A CN 202311320696A CN 117075778 A CN117075778 A CN 117075778A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- semantic
- node
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 19
- 238000003709 image segmentation Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000012015 optical character recognition Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 18
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012098 association analyses Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图片文字的信息处理系统,涉及计算机技术领域,本发明通过深度卷积神经网络进行图像分割,提取图像中的语义区域,再通过文本信息提取和关联识别图像中的关键物体,以及包含文本的区域,文本区域经过光学字符识别转换为可读文本,然后通过比较物体的边界框和文本区域实现的物体与文本之间的关联,将图像中的物体与对应的文本信息关联起来,采用语义关系图对图文进行信息展示,以节点代表图像中的文本、物体和背景的语义信息,以边表示节点之间的关系,采用图神经网络模型关系进行捕捉,从而实现对文本和图像的推理性解释,使系统能够更深入地理解文本和图像之间的复杂语义关系。
Description
技术领域
本发明涉及计算机技术领域,具体为一种图片文字的信息处理系统。
背景技术
在日常生活中,人们可以将图像中的场景、色彩、逻辑关系等低层视觉特征信息自动建立关系,从而感知图像的高层语义信息,但是计算机作为工具只能提取到数字图像的低层数据特征,而无法像人类大脑一样生成高层语义信息,这就是计算机视觉中的“语义鸿沟”问题。
而图片文字识别技术即图片文字的信息处理技术,则是实现跨越“语义鸿沟”的技术,通常来说,图片文字识别首先需要对原始图片进行预处理,包含:灰度化、二值化、降噪、倾斜矫正、文字切分,图片预处理完毕后,在进行特征提取和降维以及分类器设计、训练,最后再对分类器的分类结果进行优化,最终输出图片文字的可识别信息。
然而传统的图片文字信息处理系统难以捕捉图像和文本之间的复杂语义关系,导致输出结果缺乏深度理解,无法深度理解图像和文本之间的复杂关系,容易错过关键信息导致输出结果的信息丢失、不准确性或者产生歧义,因此亟需一种可以对文本和图像进行推理性解释的图片文字的信息处理系统来解决此类问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种图片文字的信息处理系统,解决现有技术中存在的难以捕捉图像和文本之间的复杂语义关系,容易错过关键信息导致输出结果的信息丢失、不准确性或者产生分歧的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现,本发明提供了一种图片文字的信息处理系统,包括:
图像分割模块,用于对预处理后的图像进行图像分割,并提取图像中的语义区域;
目标检测模块,对所述预处理后的图像进行目标检测,识别图像中的关键物体,并基于SSD技术提取文本信息进行识别,将物体与语义区域进行关联;
文本关联模块,包括语义关系图,语义关系图基于图神经网略模型进行构建,对文本和图像进行推理性解释;
所述推理性解释方法具体为:
将每个节点的特征表示作为初始特征输入选择的模型中进行特征传播;
此处的所述节点即图像中的文本、物体和背景的语义信息需要根据邻近的节点信息进行更新;
通过关系预测来推断文本和物体之间的关系;
所述关系预测方法具体为:
使用所选择的图神经网络模型学习节点的表示,设初始节点为:,其中代表节点v的特征;
进行推理性解释步骤中的节点信息更新,更新规则为:
,
其中,是节点v在k+1层的表示,用激活函数表示,N(v) 是节点v的邻居节点集合,W为学习的权重矩阵;
采用分类器对节点间的关系进行预测,所述分类器为全连接层分类器,设节点间有C种类别关系,则:
,
其中,是节点u和v之间的关系预测概率,/>和/>是分类器的权重矩阵,和/>分别是节点u和v在最终层K的表示;
可视化结果输出单元,将识别的文本与图像中的语义区域以及物体进行可视化关联,以可视化形式输出,输出内容包括实体识别,图文关联、背景分析和关联性分析。
本发明进一步地设置为:所述图像预处理内容至少包括:除噪、增强对比度;
所述图像分割模块通过深度卷积神经网络CNN,从预处理后的图像中提取特征;
所述从预处理后的图像中提取特征方法具体包括:
将预处理后的图像作为输入并表示为I,I为W*C*H的张量,W为图像的宽度,H为图像的高度,C为通道数,采用卷积层进行特征提取,卷积操作公式为:
,
其中表示卷积层的输出特征图,/>为滤波器的权重,/>为偏置项,/>表示ReLU激活函数;
进行多层卷积,每个层具有不同数量的卷积核,用于提取不同级别的特征,用来捕捉图像的局部和全局特征;
采用平均池化减少特征图尺寸,提取关键特征:
,/>就是池化后的特征图像素值;
再通过多个全连接层进行分类、回归;
本发明进一步地设置为:所述从预处理后的图像中提取特征方法还包括:
基于深度学习模型FCN对提取的特征进行处理,将图像中的每个像素分配到对应的语义类别,生成具有语义标签的分割结果,包含了图像中的不同物体和文本;
本发明进一步地设置为:所述FCN进行特征提取步骤中:
输入图像I的卷积和池化层,并提取特征;
转置卷积使所提取特征分辨率与原始图像相匹配,并进行采样;
对上采样后的特征图应用1x1卷积层生成每个像素的语义分数;
再通过softmax获得像素级别的类别分布,为每个像素提供与每个语义类别相关的概率分布;
以最高概率的语义类别作为其语义标签,即包含语义标签的分割结果;
本发明进一步地设置为:所述目标检测模块中,进行文本提取和识别的步骤包括:
将预处理后的图像作为输入,基于SSD模型进行目标检测,输出每个物体的边界框和类别标签;
基于图像的文本区域检测算法检测包含文本的区域;
将检测到的文本区域提取出来,采用光学字符识别OCR转换为可读文本;
本发明进一步地设置为:所述物体与语义区域进行关联步骤包括:
通过比较物体的边界框和文本区域,将目标检测步骤中检测到的物体与文本识别步骤中识别的文本相关联;
再将关联的物体和文本信息整合到同一数据结构;
本发明进一步地设置为:所述语义关系图构建方式具体为:
图节点为图像中的文本、物体和背景的语义信息;
图边为节点关系,即文本与物体之间的关联、文本物体间的关系、文本之间的关系;
用所述图节点和图边构建语义关系图;
选用GCN、GAT模型对节点关系进行捕捉,建立图神经网络模型。
(三)有益效果
本发明提供了一种图片文字的信息处理系统。具备以下有益效果:
本申请所提供的图片文字的信息处理系统,在图像处理过程中通过深度卷积神经网络进行图像分割,提取图像中的语义区域,再通过文本信息提取和关联识别图像中的关键物体,以及包含文本的区域,文本区域经过光学字符识别转换为可读文本,然后通过比较物体的边界框和文本区域实现的物体与文本之间的关联,将图像中的物体与对应的文本信息关联起来。
在文本关联模块中,采用语义关系图对图文进行信息展示,以节点代表图像中的文本、物体和背景的语义信息,以边表示节点之间的关系,采用图神经网络模型关系进行捕捉,从而实现对文本和图像的推理性解释,使系统能够更深入地理解文本和图像之间的复杂语义关系,有助于更深入地理解文本和图像之间的关系,提高了语义解释的质量。
解决了现有技术中存在的难以捕捉图像和文本之间的复杂语义关系,容易错过关键信息导致输出结果的信息丢失、不准确性或者产生分歧的问题。
附图说明
图1为本发明的图片文字的信息处理系统框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1,本发明提供一种图片文字的信息处理系统,包括:
S1.图像分割模块,用于对预处理后的图像进行图像分割,并提取图像中的语义区域。
图像预处理内容至少包括:除噪、增强对比度;
图像分割模块通过深度卷积神经网络CNN,从预处理后的图像中提取特征;
从预处理后的图像中提取特征方法具体包括:
将预处理后的图像作为输入并表示为I,I为W*C*H的张量,W为图像的宽度,H为图像的高度,C为通道数,采用卷积层进行特征提取,卷积操作公式为:
,
其中表示卷积层的输出特征图,/>为滤波器的权重,/>为偏置项,/>表示ReLU激活函数;
进行多层卷积,每个层具有不同数量的卷积核,用于提取不同级别的特征,用来捕捉图像的局部和全局特征;
采用平均池化减少特征图尺寸,提取关键特征:
,/>就是池化后的特征图像素值;
再通过多个全连接层进行分类、回归;
训练过程中,权重以及偏置项/>通过反向传播和优化算法进行调整,使网络更高效学习图像特征,用于后续的图文关联。
基于深度学习模型FCN对提取的特征进行处理,将图像中的每个像素分配到对应的语义类别,生成具有语义标签的分割结果,包含了图像中的不同物体和文本。
FCN进行特征提取步骤中:
输入图像I的卷积和池化层,并提取特征;
转置卷积使所提取特征分辨率与原始图像相匹配,并进行采样;
对上采样后的特征图应用1x1卷积层生成每个像素的语义分数,语义分数表示像素属于每个语义类别的概率;
再通过softmax获得像素级别的类别分布,为每个像素提供与每个语义类别相关的概率分布;
以最高概率的语义类别作为其语义标签,即包含语义标签的分割结果。
S2.目标检测模块,对预处理后的图像进行目标检测,识别图像中的关键物体,并基于SSD技术提取文本信息进行识别,将物体与语义区域进行关联。
目标检测模块中,进行文本提取和识别的步骤包括:
将预处理后的图像作为输入,基于SSD模型进行目标检测,输出每个物体的边界框和类别标签;
基于图像的文本区域检测算法检测包含文本的区域;
将检测到的文本区域提取出来,采用光学字符识别OCR转换为可读文本。
物体与语义区域进行关联步骤包括:
通过比较物体的边界框和文本区域,将目标检测步骤中检测到的物体与文本识别步骤中识别的文本相关联;
再将关联的物体和文本信息整合到同一数据结构。
S3.文本关联模块,包括语义关系图,语义关系图基于图神经网略模型进行构建,对文本和图像进行推理性解释。
语义关系图构建方式具体为:
图节点为图像中的文本、物体和背景的语义信息;
图边为节点关系,即文本与物体之间的关联、文本物体间的关系、文本之间的关系;
用图节点和图边构建语义关系图;
选用GCN、GAT模型对节点关系进行捕捉,建立图神经网络模型;
推理性解释方法具体为:
将每个节点的特征表示作为初始特征输入选择的模型中进行特征传播;
此处的节点即图像中的文本、物体和背景的语义信息需要根据邻近的节点信息进行更新;
通过关系预测来推断文本和物体之间的关系。
关系预测方法具体为:
使用所选择的图神经网络模型学习节点的表示,设初始节点为:,其中代表节点v的特征;
进行推理性解释步骤中的节点信息更新,更新规则为:
,
其中,是节点v在k+1层的表示,用激活函数表示,N(v) 是节点v的邻居节点集合,W为学习的权重矩阵;
采用分类器对节点间的关系进行预测,分类器为全连接层分类器,设节点间有C种类别关系,则:
,
其中,是节点u和v之间的关系预测概率,/>和/>是分类器的权重矩阵,和/>分别是节点u和v在最终层K的表示。
S4.可视化结果输出单元,将识别的文本与图像中的语义区域以及物体进行可视化关联,以可视化形式输出,输出内容包括实体识别,图文关联、背景分析和关联性分析。
综合以上内容,在本申请中:
本申请所提供的图片文字的信息处理系统,在图像处理过程中通过深度卷积神经网络进行图像分割,提取图像中的语义区域,再通过文本信息提取和关联识别图像中的关键物体,以及包含文本的区域,文本区域经过光学字符识别转换为可读文本,然后通过比较物体的边界框和文本区域实现的物体与文本之间的关联,将图像中的物体与对应的文本信息关联起来。
在文本关联模块中,采用语义关系图对图文进行信息展示,以节点代表图像中的文本、物体和背景的语义信息,以边表示节点之间的关系,采用图神经网络模型关系进行捕捉,从而实现对文本和图像的推理性解释,使系统能够更深入地理解文本和图像之间的复杂语义关系,有助于更深入地理解文本和图像之间的关系,提高了语义解释的质量。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种图片文字的信息处理系统,其特征在于,包括:
图像分割模块,用于对预处理后的图像进行图像分割,并提取图像中的语义区域;
目标检测模块,对所述预处理后的图像进行目标检测,识别图像中的关键物体,并基于SSD技术提取文本信息进行识别,将物体与语义区域进行关联;
文本关联模块,包括语义关系图,语义关系图基于图神经网络模型进行构建,对文本和图像进行推理性解释;
所述推理性解释方法具体为:
将每个节点的特征表示作为初始特征输入选择的模型中进行特征传播;
此处的所述节点即图像中的文本、物体和背景的语义信息需要根据邻近的节点信息进行更新;
通过关系预测来推断文本和物体之间的关系;
所述关系预测方法具体为:
使用所选择的图神经网络模型学习节点的表示,设初始节点为:,其中/>代表节点v的特征;
进行推理性解释步骤中的节点信息更新,更新规则为:
,
其中,是节点v在k+1层的表示,用激活函数表示,N(v) 是节点v的邻居节点集合,W为学习的权重矩阵;
采用分类器对节点间的关系进行预测,所述分类器为全连接层分类器,设节点间有C种类别关系,则:
,
其中,是节点u和v之间的关系预测概率,/>和/>是分类器的权重矩阵,/>和分别是节点u和v在最终层K的表示;
可视化结果输出单元,将识别的文本与图像中的语义区域以及物体进行可视化关联,以可视化形式输出,输出内容包括实体识别,图文关联、背景分析和关联性分析。
2.根据权利要求1所述的一种图片文字的信息处理系统,其特征在于,所述图像预处理内容至少包括:除噪、增强对比度;
所述图像分割模块通过深度卷积神经网络CNN,从预处理后的图像中提取特征;
所述从预处理后的图像中提取特征方法具体包括:
将预处理后的图像作为输入并表示为I,I为W*C*H的张量,W为图像的宽度,H为图像的高度,C为通道数,采用卷积层进行特征提取,卷积操作公式为:
,
其中表示卷积层的输出特征图,/>为滤波器的权重,/>为偏置项,/>表示ReLU激活函数;
进行多层卷积,每个层具有不同数量的卷积核,用于提取不同级别的特征,用来捕捉图像的局部和全局特征;
采用平均池化减少特征图尺寸,提取关键特征:
,/>就是池化后的特征图像素值,m和n分别用于定义窗口的高度和宽度,/>表示在第i个卷积层的特征图中位于位置(m,n)的像素值;
再通过多个全连接层进行分类、回归。
3.根据权利要求2所述的一种图片文字的信息处理系统,其特征在于,所述从预处理后的图像中提取特征方法还包括:
基于深度学习模型FCN对提取的特征进行处理,将图像中的每个像素分配到对应的语义类别,生成具有语义标签的分割结果,包含了图像中的不同物体和文本。
4.根据权利要求3所述的一种图片文字的信息处理系统,其特征在于,所述FCN进行特征提取步骤中:
输入图像I的卷积和池化层,并提取特征;
转置卷积使所提取特征分辨率与原始图像相匹配,并进行采样;
对上采样后的特征图应用1x1卷积层生成每个像素的语义分数;
再通过softmax获得像素级别的类别分布,为每个像素提供与每个语义类别相关的概率分布;
以最高概率的语义类别作为其语义标签,即包含语义标签的分割结果。
5.根据权利要求1所述的一种图片文字的信息处理系统,其特征在于,所述目标检测模块中,进行文本提取和识别的步骤包括:
将预处理后的图像作为输入,基于SSD模型进行目标检测,输出每个物体的边界框和类别标签;
基于图像的文本区域检测算法检测包含文本的区域;
将检测到的文本区域提取出来,采用光学字符识别OCR转换为可读文本。
6.根据权利要求1所述的一种图片文字的信息处理系统,其特征在于,所述物体与语义区域进行关联步骤包括:
通过比较物体的边界框和文本区域,将目标检测步骤中检测到的物体与文本识别步骤中识别的文本相关联;
再将关联的物体和文本信息整合到同一数据结构。
7.根据权利要求1所述的一种图片文字的信息处理系统,其特征在于,所述语义关系图构建方式具体为:
图节点为图像中的文本、物体和背景的语义信息;
图边为节点关系,即文本与物体之间的关联、文本物体间的关系、文本之间的关系;
用所述图节点和图边构建语义关系图;
选用GCN、GAT模型对节点关系进行捕捉,建立图神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311320696.1A CN117075778B (zh) | 2023-10-12 | 2023-10-12 | 一种图片文字的信息处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311320696.1A CN117075778B (zh) | 2023-10-12 | 2023-10-12 | 一种图片文字的信息处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117075778A true CN117075778A (zh) | 2023-11-17 |
CN117075778B CN117075778B (zh) | 2023-12-26 |
Family
ID=88717320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311320696.1A Active CN117075778B (zh) | 2023-10-12 | 2023-10-12 | 一种图片文字的信息处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117075778B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
CN114398491A (zh) * | 2021-12-21 | 2022-04-26 | 成都量子矩阵科技有限公司 | 一种基于知识图谱的语义分割图像实体关系推理方法 |
US20220230324A1 (en) * | 2021-01-21 | 2022-07-21 | Dalian University Of Technology | Camouflaged object segmentation method with distraction mining |
CN115455935A (zh) * | 2022-09-14 | 2022-12-09 | 华东师范大学 | 一种文本信息智能处理系统 |
-
2023
- 2023-10-12 CN CN202311320696.1A patent/CN117075778B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180366013A1 (en) * | 2014-08-28 | 2018-12-20 | Ideaphora India Private Limited | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
US20220230324A1 (en) * | 2021-01-21 | 2022-07-21 | Dalian University Of Technology | Camouflaged object segmentation method with distraction mining |
CN114398491A (zh) * | 2021-12-21 | 2022-04-26 | 成都量子矩阵科技有限公司 | 一种基于知识图谱的语义分割图像实体关系推理方法 |
CN115455935A (zh) * | 2022-09-14 | 2022-12-09 | 华东师范大学 | 一种文本信息智能处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117075778B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN111488826B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN108345850B (zh) | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 | |
US5373566A (en) | Neural network-based diacritical marker recognition system and method | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及系统 | |
CN110766020A (zh) | 一种面向多语种自然场景文本检测与识别的系统及方法 | |
CN111191695A (zh) | 一种基于深度学习的网站图片篡改检测方法 | |
CN111414906A (zh) | 纸质票据图片的数据合成与文本识别方法 | |
CN109753962B (zh) | 基于混合网络的自然场景图像中文本区域的处理方法 | |
Kantipudi et al. | Scene text recognition based on bidirectional LSTM and deep neural network | |
CN111507353B (zh) | 一种基于文字识别的中文字段检测方法及系统 | |
Roy et al. | Date-field retrieval in scene image and video frames using text enhancement and shape coding | |
CN118115947A (zh) | 基于随机颜色转换和多尺度特征融合的跨模态行人重识别方法 | |
CN114359917A (zh) | 一种手写汉字检测识别及字形评估方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN112149523B (zh) | 基于深度学习和并查集算法识别并抽取图片的方法及装置 | |
CN117793483A (zh) | 视频标签的提取方法、系统、设备及介质 | |
CN113159071A (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN117075778B (zh) | 一种图片文字的信息处理系统 | |
CN115984699A (zh) | 基于深度学习的违规广告牌检测方法、装置、设备及介质 | |
CN114595786A (zh) | 一种基于弱监督位置定位的注意力细粒度分类方法 | |
CN114359613A (zh) | 一种基于空间和多通道融合自注意力网络的遥感图像场景分类方法 | |
CN107545261A (zh) | 文本检测的方法及装置 | |
CN112633287A (zh) | 一种面向矿井多源异构图文信息的文本识别方法及装置 | |
Milyaev et al. | Improving the processing of machine vision images of robotic systems in the Arctic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |