CN116541549A - 子图分割方法、装置、电子设备及计算机可读存储介质 - Google Patents
子图分割方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116541549A CN116541549A CN202310822891.8A CN202310822891A CN116541549A CN 116541549 A CN116541549 A CN 116541549A CN 202310822891 A CN202310822891 A CN 202310822891A CN 116541549 A CN116541549 A CN 116541549A
- Authority
- CN
- China
- Prior art keywords
- sub
- illustration
- picture
- graph
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 40
- 238000005520 cutting process Methods 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 14
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 238000004043 dyeing Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000001262 western blot Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- OIRDTQYFTABQOQ-UHFFFAOYSA-N ara-adenosine Natural products Nc1ncnc2n(cnc12)C1OC(CO)C(O)C1O OIRDTQYFTABQOQ-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical compound OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种子图分割方法、装置、电子设备及计算机可读存储介质,涉及图像处理领域,该方法包括:确定插图以及与插图对应的文本,插图包括多个子插图,文本包括多个子插图各自的题注;将插图输入分割模型,获得分割模型输出的插图中各子插图的位置,将插图输入至筛选模型,获得筛选模型输出的各子插图序号的位置;根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号;从文本中确定题注和子插图序号的关系,结合每个子插图对应的子插图序号,确定每个子插图对应的题注;对于每个子插图,根据子插图对应的题注确定所述子插图的检索范围,以进行检索,本申请实施例解决了论文插图检索效率低和检索准确度差的问题。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,本申请涉及一种子图分割方法、装置、电子设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,文本查重工具的出现对学术出版中文字剽窃或重复相似度的检测比对已见成效,但对于图像中剽窃不端行为,由于目前缺乏成熟可靠的检测工具,仅靠人工无法做到精确高效地察觉图像学术不端行为,很难在发表前检测出。然而,近年来已经有大量的论文在发表后被查出存在图像抄袭现象,甚至一些高水平的期刊也难以避免。图像抄袭不仅仅是学术不端行为,也会导致学术界的信誉受损,甚至会带来法律风险。因此,图像查重技术的需求十分显著。
相关的图像查重技术大多需要输入整张图像后直接与图库中的其他图像进行相似度检测,然而实际场景中的论文插图由多张子插图拼接而成,涉及到学术不端的可能仅仅是其中一张子插图,相似点的范围不会超过子插图的大小,可能会低于预设的抄袭相似度阈值,从而降低了查重准确度,另外,目前的检测效率主要在于遍历搜索的方式,目前的检测工具需要对数据库中的所有图像进行相似度检测,从而计算出所有图像的相似度,因此,相关技术存在论文插图检索效率低和检索准确度差的问题。
发明内容
本申请实施例提供了一种子图分割方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决论文插图检索效率低和检索准确度差的问题。所述技术方案如下:
根据本申请实施例的第一方面,提供了一种子图分割方法,该方法包括:
确定论文中的插图以及与所述插图对应的文本,所述插图包括多个子插图,所述文本包括所述多个子插图各自的题注;
将所述插图输入预先训练的分割模型,获得所述分割模型输出的所述插图中各子插图的位置,将所述插图输入至预先训练的筛选模型,获得所述筛选模型输出的各子插图序号的位置;
根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号;
从所述文本中确定题注和子插图序号的关系,结合每个子插图对应的子插图序号,确定每个子插图对应的题注;
对于每个子插图,根据所述子插图对应的题注确定所述子插图的检索范围,以进行检索;
其中,所述分割模型是以样本论文插图中的样本插图为训练样本,以所述样本插图中各子插图的位置为训练标签训练而成的;所述筛选模型是以所述样本论文插图中的样本插图为训练样本,以所述样本插图中各子插图序号的位置为训练标签训练而成的。
在一个可能的实现方式中,分割模型包括特征提取层、切割分类层和排序输出层,所述输入模块包括:
提取单元,用于将所述插图输入所述特征提取层,获得所述特征提取层输出的插图中每个子区域的图像特征;
第一分类单元,用于将所述各个子区域的图像特征输入至所述切割分类层,获得所述切割分类层输出的各个子区域的预测信息,所述预测信息包括相应子区域周围的至少一个子插图边界框的置信度和分类概率;所述分类概率为相应子区域中的子插图分别属于各个类别的概率;
处理单元,针对每一个子插图边界框,将所述子插图边界框的置信度分别与所述子插图边界框所属子区域对应的每一类的分类概率进行相乘,得到所述子插图边界框中的子插图分别属于各个类别的分数值;
第二分类单元,用于基于所述分数值的类别,对所述分数值进行分类;
排序单元,用于针对每一个类别的分数值,将每一个分数值输入至所述类别的排序输出层中,所述排序输出层将所述分数值大于预设阈值的子插图边界框作为所述子插图的位置,将所述类别作为所述子插图的类别。
在另一个可能的实现方式中,所述置信度与所述子插图边界框内存在子插图的概率和所述子插图边界框的区域存在的子插图的区域的匹配程度相关。
在又一个可能的实现方式中,筛选模型包括:特征提取层和分类层,输入模块包括:
特征提取单元,用于将所述插图输入到所述特征提取层,获得所述特征提取层输出的所述插图中各个字符的特征向量,所述特征向量用于表征相应字符的含义和位置;
序号分类单元,将所述特征向量输入到所述分类层,对于每个字符,若确定所述字符与所述字符周围的各个字符的距离大于预设阈值,则将所述字符确定为子插图序号,获得所述分类层输出的所述插图的各个子插图序号的位置和含义。
在又一个可能的实现方式中,处理模块包括:
距离确定单元,用于针对每一个子插图序号,确定所述子插图序号与各子插图的距离;
处理单元,用于将与所述子插图序号距离最短的子插图,作为所述子插图序号对应的子插图。
在又一个可能的实现方式中,关联模块包括:
检测单元,用于对所述文本进行文本检测,获取文本内容;其中,所述文本内容中包含各个子插图序号和所述题注间的对应关系;
关联单元,用于针对每一个子插图,根据所述子插图和所述子插图序号的对应关系,从所述文本内容中确定所述子插图对应的题注。
在又一个可能的实现方式中,子图分割装置还包括增强模块,增强模块中包括:
翻转单元,用于将所述插图镜面对称翻转;
旋转单元,用于将所述插图旋转预设度数;
放大单元,用于将所述插图放大,剪裁至放大前的尺寸;
缩小单元,用于将所述插图缩小,填充至缩小前的尺寸。
根据本申请实施例的第二方面,提供了一种子图分割装置,该装置包括:
确定模块,用于确定论文中的插图以及与所述插图对应的文本,所述插图包括多个子插图,所述文本包括所述多个子插图各自的题注;
输入模块,用于将所述插图输入预先训练的分割模型,获得所述分割模型输出的所述插图中各子插图的位置,将所述插图输入至预先训练的筛选模型,获得所述筛选模型输出的各子插图序号的位置;
处理模块,用于根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号;
关联模块,用于从所述文本中确定题注和子插图序号的关系,结合每个子插图对应的子插图序号,确定每个子插图对应的题注;
检索模块,用于对于每个子插图,根据所述子插图对应的题注确定所述子插图的检索范围,以进行检索;
其中,所述分割模型是以样本论文插图中的样本插图为训练样本,以所述样本插图中各子插图的位置为训练标签训练而成的;所述筛选模型是以所述样本论文插图中的样本插图为训练样本,以所述样本插图中各子插图序号的位置为训练标签训练而成的。
根据本申请实施例的第三方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行程序时实现如第一方面所提供的子图分割方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的子图分割方法的步骤。
根据本申请实施例的第五方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中,当计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现如第一方面所提供的方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的子图切割方法,通过预先训练的分割模型获取插图中各子插图的位置,提高了论文子插图分割的准确率和效率,通过样本插图预先训练的筛选模型,获得插图中各子插图序号的位置 并根据各子插图的位置和各子插图序号的位置确定每个子插图对应的子插图序号,从而根据子插图对应的文本中的题注与子插图序号的关系,确定每个子插图对应的题注,最后便能根据各子插图对应的题注所涉及的检索范围,对各子插图进行检索,缩小插图的检索范围,避免了每一张插图需要对图库中的所有图片都进行检索,大大缩短了子插图检索所需要花费的时间,提高了检索的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的实现子图分割方法的系统架构示意图;
图2为本申请实施例提供的一种子图分割方法的流程示意图;
图3为本申请实施例提供的一种子区域和子插图边界框的位置示意图;
图4为本申请实施例提供的一种子图分割方法中的获取子插图的位置和类别的流程示意图;
图5为本申请实施例提供的一种子插图序号和子插图的示意图;
图6为本申请实施例提供的一种子插图序号、子插图和题注的示意图;
图7为本申请实施例提供的一种子图分割方法中的子插图与题注进行匹配的流程示意图;
图8为本申请实施例提供的一种子图分割装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:
特征图:特征图主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质;纹理特征也是一种全局特征,它也描述了图像或图像区域所对应景物的表面性质;形状特征有两类表示方法,一类是轮廓特征,另一类是区域特征,图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域;空间关系特征,是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系,这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。
题注:一幅图片的题注是指出现在图片下方的一段简短描述。大部分题注都是用简短的话语叙述关于该图片的一些重要的信息,这些信息光从图片上看并不是那么明显,比如说图片与正文的相关之处。对于那些复杂的图片,或者与正文的关联并不清楚的图片,题注可能就只有一两个短句,少有三句的。撰写良好的题注是有难度的,下面的示例可能会有帮助。题注与标题、篇首段、章节标题一道,是一个条目中最经常被阅读的内容,因此,这几项应该简洁明了、内容详实。
卷积层:卷积神经网络中每层卷积层(Convolutional layer)由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。
本申请提供的子图分割方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,旨在解决现有技术的如上技术问题。
下面对相关技术进行说明:
目前的子图分割技术,常见的方法有人工切割标注、基于阈值方法切割标注和深度神经网络切割标注三种方法。
然而在人工切割标注方法中,需要对专业人员进行特定的培训,人工审阅论文插图,手工识别子图的位置,并通过特定的系统划出子图位置,识别子图所属的类别,人工切割标注方法中存在标注效率低、标注成本高、响应速度慢、在需要进行即时搜索的场景下不能满足即时查询的要求。
在基于阈值方法切割标注方法中,基于论文插图中子图呈现出的边缘,使用灰度转换、阈值处理等图像处理方法提取这些边框。由于用于切割的阈值标准需要在一批数据集上统计后人工设定,不能用于增量更新的论文图片,造成较差的切割结果,另外,上述方法必须以矩形结构到的边缘作为标准提取子图,对于概念图等复杂结构、边缘非矩形的论文子图,分割效果较差。
在深度神经网络切割标注方法中,通用模型并不能完全适用于论文数据,在传统的目标检测方法中,先使用卷积神经网络进行特征提取,得到推测的目标位置,再使用分类器进行目标分类预测,然而用一个通用的模型进行目标物体的位置与分类预测,由于模型参数量有限,可能造成某些子图类别的识别精度较低的问题。
针对相关技术中所存在的上述至少一个技术问题或需要改善的地方,本申请提出一种子图分割方法,该方法通过预先训练的分割模型确定插图中各子插图的位置,通过预先训练的筛选模型确定插图中各子插图序号的位置,基于子插图序号的位置和子插图的位置确定每个子插图对应的子插图序号,并结合插图对应的文本内容,确定子插图对应的题注,基于子插图的题注确定子插图的检索范围,以进行检索,缩小插图的检索范围,避免了每一张插图需要对图库中的所有图片都进行检索,大大缩短了子插图检索所需要花费的时间,提高了检索效率和准确率。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1为本申请实施例提供的实现子图分割方法的系统架构示意图,其中该系统架构包括:终端120和服务器140。
终端120安装和运行有支持子图分割方法的应用程序,终端120,用于根据分割模型确定插图中各子插图的位置,用于根据筛选模型获得各子插图序号的位置,还用于根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号,还用于根据文本确定题注和子插图序号的关系,并结合每个子插图对应的子插图序号,确定每个子插图对应的题注,用于根据题注确定子插图的检索范围,以进行检索。
终端120通过无线网络或有线网络与服务器140相连。
服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的,服务器140包括处理器144和存储器142,存储器142包括显示模块1421、控制模块1422和接收模块1423。服务器140用于为子图分割方法的应用程序提供后台服务。可选的,服务器140承担主要计算工作,终端120承担次要计算工作;或者,服务器140承担次要计算工作,终端120承担主要计算工作;或者,服务器140、终端120和之间采用分布式计算架构进行协同计算。
可选的,终端的设备类型包括:智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层3(MovingPicture Experts Group Audio Layer III,MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV,MP4)播放器、膝上型便携计算机和台式计算机中的至少一种。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。
为克服现有技术的上述问题,本申请实施例中提供了一种子图分割方法,应用于图1的终端,如图2所示,该方法包括:
S101,确定论文中的插图以及与插图对应的文本,插图包括多个子插图,文本包括多个子插图各自的题注。
在本申请实施例中,插图为包括多个子插图的插图,即一副插图由多个子插图拼接而成。其中,子插图的图像类别有如统计图、条带图、染色图、示意图、流程图、造影图等多种类型,需要说明的是本申请实施例不对子插图的图像类型进行限定。
在本申请实施例中,在论文的文本中,有描述图片内容的相关文本,我们将文本中对各子插图进行描述的文本称为题注,即子插图的题注是关于子插图的一段简短描述,大部分题注都是用简短的话语叙述关于该子插图的一些重要的信息。
在本申请实施例中,终端获取论文数据,对论文数据进行PDF图像解析,确定论文中的插图;对论文数据进行PDF解析获取论文插图对应的论文文本。
本申请实施例中提供了一种可能的实现方式,对插图进行数据增强;数据增强的方式包括以下至少一种:将插图镜面对称翻转;将插图旋转预设度数;将插图放大,剪裁至放大前的尺寸;将插图缩小,填充至缩小前的尺寸。
在一个例子中,在获取到论文的插图后,将插图输入到预设的分割模型之前还需要对插图进行预处理操作,预处理操作至少包括以下一种:将插图进行镜面对称翻转、将插图旋转180度、将插图进行放大,并将放大后的剪裁至上述插图放大前的尺寸、对插图进行缩小,缩小后对插图进行填充,将插图填充至插图缩小前的尺寸、对插图进行随机剪裁,将剪裁后的插图调整为原插图的尺寸。
通过在输入预设非分割模型之前对插图进行预处理操作,使插图的数据集拥有了对抗过拟合的能力,避免了在模型中产生过拟合,增强了模型的性能。
S102,将插图输入预先训练的分割模型,获得分割模型输出的插图中各子插图的位置,将插图输入至预先训练的筛选模型,获得筛选模型输出的各子插图序号的位置。
其中,分割模型是以样本论文插图中的样本插图为训练样本,以样本插图中各子插图的位置为训练标签训练而成的;筛选模型是以样本论文插图中的样本插图为训练样本,以样本插图中各子插图序号的位置为训练标签训练而成的。
在本申请实施例中,分割模型包括特征提取层、切割分类层和排序输出层。
在本申请实施例中特征提取层为elan模块,在本申请实施例提供的子图分割方法中通过使用elan模块,经过多次对比试验得知,与其他的特征提取模块相比,elan模块能够获取插图的更多特征,并且子图分割的结果具有更强的鲁棒性。
在本申请实施例中,特征提取层包括4层CBS卷积层,每层CBS卷积层由卷积层、批归一化层和SiLU函数连接而构成。卷积层用于提取插图的局部特征,批归一化层用于将分散的数据同一,SiLU函数是由Sigmoid激活函数进行加权线性组合得到的,可以用于将神经网络的非线性化,保证梯度回传的顺利进行,其中,批归一化层的公式如下:
其中,是卷积层的输出,/>和/>)分别表示对该层输出的均值和方差进行估计,/>和/>是可学习的缩放因子和偏移项,/>是一个小的常数,用于保证分母不为零。
本申请实施例中提供了一种可能的实现方式,将插图输入特征提取层,获得特征提取层输出的插图中每个子区域的图像特征;
在一个例子中,将经预处理后的插图的尺寸缩放为640*640的尺寸,其中包含R、G、B三个通道,即将(640,640,3)的向量输入到特征提取层,输入的插图经过一层CBS卷积层后,CBS卷积层输出大小为(160,160,128)的特征图,即经过一层CBS卷积层后,输入的插图的尺寸减小了,通道数增加了,增加的通道从不同维度展现插图的特征,一层CBS卷积层输出的特征图经过连续的3层CBS卷积层后,输出大小为(20,20,1024)的特征图,即特征提取层输出的每个子区域的图像特征,每个子区域的图像特征用于反映子插图的位置和类别信息。
本申请实施例中提供了一种可能的实现方式,将各个子区域的图像特征输入至切割分类层,获得切割分类层输出的各个子区域的预测信息,预测信息包括相应子区域周围的至少一个子插图边界框的置信度和分类概率;分类概率为相应子区域中的子插图分别属于各个类别的概。
在本申请实施例中,预测信息是指各个子区域预测可能存在子插图的位置的概率,即子插图边界框的置信度,以及子区域存在的子插图为各类类别的概率,即分类概率。
在本申请实施例中,每个子插图边界框还包括:子插图边界框的中心坐标位置(x,y)和子插图边界框的宽和高。
请参考图3,其示例性的示出了子区域与子插图边界框的位置关系,如图所示,如子区域与子插图边界框的位置关系可以为子插图边界框在子区域的区域内,如子区域A与子插图边界框a所示,子区域与子插图边界框的位置关系也可以为子插图边界框的所在区域与子区域存在部分交集区域,如子区域B与子插图边界框b所示,子区域与子插图边界框的位置关系还可以为子插图边界框所在区域完全覆盖子区域,如子区域C与子插图边界框c所示。
在本申请实施例中,置信度与子插图边界框内存在子插图的概率和子插图边界框的区域存在的子插图的区域的匹配程度相关。
在一个例子中,子区域的子插图边界框表征预测的子插图所在的区域,子插图边界框的置信度为子插图边界框中存在子插图的概率和子插图边界框的区域与子插图区域的匹配程度的乘积。
在本申请实施例中,子插图的类别包括:统计图、条带图、染色图、示意图、造影图、实物图等类别的图片,根据各图像类别的特性训练各自的排序输出层,其中,染色图、造影图和实物图具有明显的图片边缘线条,条带图和统计图不具有明显的图片边缘线条,但是上述两类图片具有可识别的直角坐标;示意图和其他类型的图片完全不具备可识别的边框。
在本申请实施例中,切割分类层可以预测N种子插图类别,因此,将各个子区域的图像特征输入至切割分类层后,输出的每一个子区域的分类概率中有N个类别概率值。
在一个例子中,切割分类层可以预测统计图、示意图和流程图三种类别的子插图,将各子区域的图像特征输入至切割分类层后,每一个子区域都将输出所在区域的子插图分别为统计图、示意图和流程图的概率。
本申请实施例中提供了一种可能的实现方式,针对每一个子插图边界框,将子插图边界框的置信度分别与子插图边界框所属子区域对应的每一类的分类概率进行相乘,得到子插图边界框中的子插图分别属于各个类别的分数值;基于分数值的类别,对分数值进行分类;
在本申请实施例中,通过将子插图边界框的置信度分别与所在子区域对应的每一类的分类概率进行相乘,得到子插图边界框中的子插图为各个类别的子插图的概率,即分数值。分数值越高说明子插图边界框的位置与实际子插图的位置越接近,与实际子插图的类别越相近。
在一个例子中,子区域A有a、b、c三个子插图边界框,子区域A的三个子插图边界框的置信度分别为0.2、0.9、0.35,子区域A的子插图分别为类别1、类别2、类别3的概率分别为0.8、0.2、0.25。将子区域A的每一子插图边界框的置信度,分别与三种类别的概率进行相乘,得到子插图边界框的分数值。经过计算得到子插图边界框a的分数值分别为0.16、0.04、0.05;子插图边界框b的分数值分别为0.72、0.18、0.225;子插图边界框c的分数值分别为0.28、0.07、0.0875。
本申请实施例中提供了一种可能的实现方式,针对每一个类别的分数值,将每一个分数值输入至上述类别的排序输出层中,排序输出层将分数值大于预设阈值的子插图边界框作为子插图的位置,将上述类别作为所述子插图的类别。
在本申请实施例中,每个子插图边界框有多个分数值,由于分数值是基于不同类别的概率相乘得到,因此,可以将子插图边界框的分数值按照类别进行分类,然后将一个类别的子插图边界框的分数值统一输入到上述类别的排序输出层中,从而根据分数值的大小得到准确度最高的子插图边界框,从而将子插图边界框作为子插图的位置,将上述类别作为所述子插图的类别。
通过子插图的类别分数值排序,对子插图进行子图切割,确定子插图的位置和类型,大大提高了子插图分割位置和类别的准确性。
在本申请实施例中,每一类的排序输出层只输出所有该类型的子插图的位置,提升了参数数量,优化了子插图分类的步骤,增强了分割模型对待提取子插图的针对性。
在一个例子中,子区域A的子插图边界框a、b、c的置信度,分别与分类概率中类别1、类别2、类别3的概率进行相乘得到,a的分数值分别为0.16、0.04、0.05;子插图边界框b的分数值分别为0.72、0.18、0.225;子插图边界框c的分数值分别为0.28、0.07、0.0875,根据子插图的类别对上述分数值进行分类,得到类别1的分数值为0.16、0.72和0.28;类别2的分数值为0.04、0.18和0.07,类别3的分数值为0.225、0.0875、0.28;其他区域中的子插图边界框的分数值也按照上述方法按类别进行分类。针对每一类的分数值,将当前类别内的所有分数值输入到当前类别的排序输出层中,例如在类别1的分数值中,最高分数值为子插图边界框a的分数值0.72,且0.72大于预设阈值,那么类别1的排序输出层,将子插图边界框a的位置作为插图中子插图的位置,将类别1作为子插图的类别。
在一个例子中,子插图的特征图被划分为2*2个子区域的特征图,子区域A的4个子插图边界框a1、a2、a3和a4的置信度分别为0.3、0.5、0.9、0.6,子区域B的4个子插图边界框b1、b2、b3和b4的置信度分别为0.2、0.3、0.8、0.15,子区域C的4个子插图边界框c1、c2、c3和c4的置信度分别为0.6、0.65、0.2、0.15,子区域D的4个子插图边界框d1、d2、d3和d4的置信度分别为0.1、0.3、0.25、0.85、子区域A存在的子插图的类别为A、B和C的概率分别为0.1、0.8和0.45,子区域B存在的子插图的类别为A、B和C的概率分别为0.2、0.3和0.85,子区域C存在的子插图的类别为A、B和C的概率分别为0.2、0.3和0.9,子区域D存在的子插图的类别为A、B和C的概率分别为0.9、0.3和0.15。将各子区域的子插图边界框的置信度分别于分类概率中的类别A、类别B和类别C的概率进行相乘,得到子插图边界框的分数值。并对子插图边界框的分数值进行分类。
针对子插图类别A,将四块子区域的所有子插图边界框的置信度分别与各自子区域对应的类别A的分类概率输入类别A的排序输出层中,在排序输出层中,针对每一块子区域,计算子区域中每一个子插图边界框与上述子区域对应的分类概率的乘积,即分数值,具体过程如下:将子区域A中的4个子插图边界框的置信度0.3、0.5、0.9、0.6分别与子区域A对应的类别A的分类概率0.1相乘,得到子区域A的子插图边界框a1、a2、a3和a4中的子插图的类别为类别A的分数值分别为0.03、0.05、0.09和0.06;其他子区域中的子插图边界框的置信度和对应的分类概率同样执行上述步骤,得到子区域B的子插图边界框b1、b2、b3和b4中的子插图的类别为类别A的分数值分别为0.04、0.06、0.16和0.03;子区域C的子插图边界框c1、c2、c3和c4中的子插图的类别为类别A的分数值分别为0.12、0.13、0.04和0.03;子区域D的子插图边界框d1、d2、d3和d4中的子插图的类别为类别A的分数值分别为0.09、0.27、0.225和0.765。
对每一个子插图边界框的最终预测概率进行排序,排序输出层输出分数值超过预设筛选阈值的子插图边界框作为插图中子插图的位置,例如将预设筛选阈值设置为0.7,那么在插图中,类别为A的子插图的位置为子区域D中的子插图边界框d4。
在一个例子中,请参考图4,其示例性的示出了获取插图中子插图的位置和类别的流程的示意图,具体内容如下:
步骤1:对论文PDF图像进行解析获取论文的插图。
步骤2:对插图进行预处理,并将预处理后的插图输入到ELAN模块中进行图像特征提取,获取插图的特征向量,即插图中每个子区域的图像特征。
步骤3:将特征向量输入到切割分类层,识别插图中子插图的位置和类别,得到各子区域中各子插图边界框中存在各类别的子插图的分数值。
步骤4:将各子区域中各子插图边界框中存在各类别的子插图的分数值输入到排序输出层,输出子插图的位置和类别作为子图分割结果。
在本申请实施例中,在分割模型的训练过程中,我们使用以下损失函数来度量预测的子插图位置和真实子插图之间的差异,以及预测子插图类别与真实子插图类别之间的差异,并通过梯度下降算法不端优化模型参数,使分割模型能准确地切割子插图,其中,损失函数表示为:
其中,S表示划分的子区域的数量;B表示每个子区域预测的子插图边界框的数量;和/>用于平衡不同部分损失的权重;/>是一个指示函数,用于表示第i个子区域是否包含子插图;/>是一个指示函数,用于表示第i个网格是否不包含子插图;(xi,yi)表示预测的子插图边界框的中心坐标;(wi,hi)表示预测的子插图边界框的宽度和高度;Ci表示预测的子插图边界框是否包含目标的置信度;/>、/>、/>、/>、/>和/>分别表示子插图中心坐标横坐标、子插图中心坐标纵坐标、子插图的宽度、子插图的长度、子插图边界框是否含有子插图、子插图属于类别C的概率的标签。
在本申请实施例中,筛选模型包括:特征提取层和分类层。特征提取层用于获取表征字符位置和含义的字符的特征向量;分类层用于基于字符的位置确定字符中为子插图序号的字符。
在本申请实施例中筛选模型的特征提取层使用VGG模块,采用VGG模型采用较小的卷积核堆叠代替较大的卷积核,即VGG网络结构更加简洁,提高了在对子插图序号位置的提取过程中位置的准确率。
本申请实施例中提供了一种可能的实现方式,将插图输入到特征提取层,获得特征提取层输出的插图中各个字符的特征向量,特征向量用于表征相应字符的含义和位置;将特征向量输入到分类层,对于每个字符,若确定字符与字符周围的各个字符的距离大于预设阈值,则将字符确定为子插图序号,获得分类层输出的插图的各个子插图序号的位置和含义。
在本申请实施例中,字符的特征向量用于表示字符在插图中的区域和字符对应的文字内容。
在一个例子中,将插图输入到VGG网络中,得到插图的特征向量,在插图的特征向量中检测感兴趣区域,此处的感兴趣区域为字符区域,即筛选出各个字符所在的区域,从而得到各个字符的特征向量。
在一个例子中,将插图输入到VGG网络中后,输入的插图经过各连续卷积层,经过连续的特征提取与下采样后,最终得到包含512个通道的插图的特征向量,有效值卷积层的定义式为:
其中,其中x为被卷积矩阵,k为卷积核,krot由k旋转180°得到,z为卷积结果,n为卷积核的尺寸。
在本申请实施例中,经过VGG网络获取了插图的特征向量后,使用3×3的滑窗从插图的特征向量中提取字符的特征向量。
在本申请实施例中,将表征字符的位置和含义的特征向量输入到分类层中,分类层基于字符的与周围字符的距离,输出为子插图序号的字符和位置。
在一个例子中,将提取的字符的特征向量输入到分类层,分类层基于特征向量中字符的位置,确定每一个字符与周围字符之间的距离,由于子插图序号通常是单个字符如A、B或者1、2这种形式出现,由于文字具有连续性,因此,连续出现的字符不会为子插图序号,因此当字符与周围字符的距离大于预设阈值时,说明当前字符是单个出现的,不是连续的文字,那么将当前字符确定为子插图序号,从分类层中输出上述字符,即从分类层中得到子插图序号的位置和其对应的文本内容。
S103,根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号。
本申请实施例中提供了一种可能的实现方式,针对每一个子插图序号,确定子插图序号与各子插图的距离;将与子插图序号距离最短的子插图,作为子插图序号对应的子插图。
在一个例子中,请参考图5,其示例性地示出了子插图序号和子插图的示意图,分别从分割模型和筛选模型中获取了插图中子插图1、2和3的位置,以及插图中子插图序号A、B和C的位置后,获取子插图1、2和3的中心坐标分别为(xi1,yi1)、(xi2, yi2)和(xi3, yi3);获取子插图序号的中心坐标为(xn1,yn1)、(xn2, yn2)和(xn3, yn3),分别计算每一个子插图与每一个子插图序号之间的欧几里得距离,即子插图序号与子插图之间的最短距离,分别确定与子插图1、2和3距离最近的子插图序号,从而建立子插图与子插图序号之间的对应关系,例如分别计算子插图序号A的中心坐标与子插图1、2和3的中心坐标的距离,得到距离分别为d1、d2和d3,其中,d1<d2<d3,由于计算得出,子插图序号A与子插图1的距离最近,那么子插图序号A为子插图1的子插图序号,建立子插入序号A和子插图1的对应关系。
S104,从文本中确定题注和子插图序号的关系,结合每个子插图对应的子插图序号,确定每个子插图对应的题注。
本申请实施例中提供了一种可能的实现方式,对文本进行文本检测,获取文本内容;其中,文本内容中包含各个子插图序号和题注的对应关系;针对每一个子插图,根据子插图和子插图序号的对应关系,从文本内容中确定子插图对应的题注。
在一个例子中,通常题注的内容前面会有子插图序号来表明题注描述的是子插图序号对应的子插图,因此,对文本内容进行文本检测,找到文本中子插图序号所在的位置,那么就可以找到子插图序号对应的题注,从而确定了子插图序号和题注的对应关系,由于前述步骤已经确定了子插图序号与子插图的对应关系,因此,结合上述对应关系可以得到子插图对应的题注。
在一个例子中,请参考图6,其示例性地示出了子插图序号、子插图和题注的示意图,图中包括子插图序号A、B、C和对应的三张子插图,子插图下方文本中包括子插图序号和题注,通过子插图序号建立题注和子插图之间的对应关系,由于,基于子插图序号和子插图的距离已经得出了子插图序号A为子插图1的子插图序号,子插图序号B为子插图2的子插图序号,子插图序号B为子插图3的子插图序号,且在文本内容中子插图序号A对应的题注内容为“蛋白质印迹检测”,子插图序号B对应的题注内容为“腺嘌呤核苷三磷酸生产”,子插图序号C对应的题注内容为“细胞凋亡检测”,因此,题注内容“蛋白质印迹检测”用于描述子插图1,题注内容“腺嘌呤核苷三磷酸生产”用于描述子插图2,题注内容“细胞凋亡检测”用于描述子插图3。
在一个例子中,请参考图7,其示例性的示出了子插图与题注进行匹配的流程的示意图,具体内容如下:
步骤1:将论文插图输入到VGG网络进行特征提取,获取插图的特征向量。
步骤2:对插图的特征向量进行感兴趣区域检测,得到插图中的子插图序号和各子插图序号的位置。
步骤3:结合子插图序号的位置和分割模型输出的子插图的位置,计算与各子插图序号距离最近的子插图,建立子插图和子插图序号的对应关系。
步骤4:对论文的文本进行检测,获取论文文本中子插图序号和题注的对应关系。
步骤5:基于子插图序号和题注的对应关系,和子插图和子插图序号的对应关系,进行子插图和子插图序号的匹配。
其中,步骤4可以和步骤1-3同步进行,也可以在步骤1-3之前或者之后执行,本申请实施例不对步骤4的执行顺序进行限定。
S105,对于每个子插图,根据子插图对应的题注确定子插图的检索范围,以进行检索。
在本申请实施例中,对于每一个子插图都有其对应的题注,根据各子插图对应的题注我们可以确定子插图的检索范围,将检索范围确定在某一个专业领域,从而能更精准的对子插图进行检索。
通过对应的题注确定子插图的领域,从而只需在相应的范围内进行插图检索,大大的减少了检索所花的时间,同时也提高了检索结果的精准性。
本申请实施例提供的子图分割方法,通过预先训练的分割模型获取插图中各子插图的位置,利用目标检测技术对论文插图中的子插图进行识别,提高了子插图分割的识别准确率和响应速度,并根据不同类别的子插图使用不同的排序输出层进行子图识别与分割,增强了对同类型插图之间细微差异的捕捉和辨别能力,提高了对不同类别的子插图分割的准确率和效率,通过预先训练的筛选模型,获得插图中各子插图序号的位置 并根据个子插图的位置和各子插图序号的位置确定每个子插图对应的子插图序,从而根据子插图对应的文本中的题注与子插图序号的关系,确定每个子插图对应的题注,最后便能根据各子插图对应的题注所涉及的检索范围,对各子插图进行检索,缩小插图的检索范围,避免了每一张插图需要对图库中的所有图片都进行检索,大大缩短了子插图检索所需要花费的时间,提高了检索效率和准确率。
本申请实施例提供了一种子图分割装置,如图8所示,该子图分割装置80可以包括:确定模块801、输入模块802、处理模块803关联模块804以及检索模块805。
确定模块801,用于确定论文中的插图以及与插图对应的文本,插图包括多个子插图,文本包括多个子插图各自的题注;
输入模块802,用于将插图输入预先训练的分割模型,获得分割模型输出的插图中各子插图的位置,将插图输入至预先训练的筛选模型,获得筛选模型输出的各子插图序号的位置;
处理模块803,用于根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号;
关联模块804,用于从文本中确定题注和子插图序号的关系,结合每个子插图对应的子插图序号,确定每个子插图对应的题注;
检索模块805,用于对于每个子插图,根据子插图对应的题注确定子插图的检索范围,以进行检索;
其中,分割模型是以样本论文插图中的样本插图为训练样本,以样本插图中各子插图的位置为训练标签训练而成的;筛选模型是以样本论文插图中的样本插图为训练样本,以样本插图中各子插图序号的位置为训练标签训练而成的。
本申请实施例提供子图切割装置实现的子图切割方法,通过预先训练的分割模型获取插图中各子插图的位置,提高了论文子插图分割的准确率和效率,通过插图预先训练的筛选模型,获得插图中各子插图序号的位置 并根据个子插图的位置和各子插图序号的位置确定每个子插图对应的子插图序,从而根据子插图对应的文本中的题注与子插图序号的关系,确定每个子插图对应的题注,最后便能根据各子插图对应的题注所涉及的检索范围,对各子插图进行检索,缩小插图的检索范围,避免了每一张插图需要对图库中的所有图片都进行检索,大大缩短了子插图检索所需要花费的时间,提高了检索效率和准确率。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
进一步地,在一个可能的实现方式中,分割模型包括特征提取层、切割分类层和排序输出层,输入模块包括:
提取单元,用于将插图输入特征提取层,获得特征提取层输出的插图中每个子区域的图像特征;
第一分类单元,用于将各个子区域的图像特征输入至切割分类层,获得切割分类层输出的各个子区域的预测信息,预测信息包括相应子区域周围的至少一个子插图边界框的置信度和分类概率;分类概率为相应子区域中的子插图分别属于各个类别的概率;
处理单元,针对每一个子插图边界框,将子插图边界框的置信度分别与子插图边界框所属子区域对应的每一类的分类概率进行相乘,得到子插图边界框中的子插图分别属于各个类别的分数值;
第二分类单元,用于基于分数值的类别,对分数值进行分类;
排序单元,用于针对每一个类别的分数值,将每一个分数值输入至类别的排序输出层中,排序输出层将分数值大于预设阈值的子插图边界框作为子插图的位置,将类别作为子插图的类别。
在另一个可能的实现方式中,置信度与子插图边界框内存在子插图的概率和子插图边界框的区域存在的子插图的区域的匹配程度相关。
在又一个可能的实现方式中,筛选模型包括:特征提取层和分类层,输入模块包括:
特征提取单元,用于将插图输入到特征提取层,获得特征提取层输出的插图中各个字符的特征向量,特征向量用于表征相应字符的含义和位置;
序号分类单元,将特征向量输入到分类层,对于每个字符,若确定字符与字符周围的各个字符的距离大于预设阈值,则将字符确定为子插图序号,获得分类层输出的插图的各个子插图序号的位置和含义。
在又一个可能的实现方式中,处理模块包括:
距离确定单元,用于针对每一个子插图序号,确定所述子插图序号与各子插图的距离;
处理单元,用于将与所述子插图序号距离最短的子插图,作为所述子插图序号对应的子插图。
在又一个可能的实现方式中,关联模块包括:
检测单元,用于对文本进行文本检测,获取文本内容;其中,文本内容中包含各个子插图序号和所述题注间的对应关系;
关联单元,用于针对每一个子插图,根据子插图和子插图序号的对应关系,从文本内容中确定子插图对应的题注。
在又一个可能的实现方式中,子图分割装置还包括增强模块,增强模块中包括:
翻转单元,用于将插图镜面对称翻转;
旋转单元,用于将插图旋转预设度数;
放大单元,用于将插图放大,剪裁至放大前的尺寸;
缩小单元,用于将插图缩小,填充至缩小前的尺寸。
本申请实施例中提供了一种电子设备(计算机装置/设备/系统),包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以子图分割方法的步骤,与相关技术相比可实现:
本申请实施例提供的子图切割方法,通过预先训练的分割模型获取插图中各子插图的位置,提高了论文子插图分割的准确率和效率,通过插图预先训练的筛选模型,获得插图中各子插图序号的位置 并根据个子插图的位置和各子插图序号的位置确定每个子插图对应的子插图序,从而根据子插图对应的文本中的题注与子插图序号的关系,确定每个子插图对应的题注,最后便能根据各子插图对应的题注所涉及的检索范围,对各子插图进行检索,缩小插图的检索范围,避免了每一张插图需要对图库中的所有图片都进行检索,大大缩短了子插图检索所需要花费的时间,提高了检索效率和准确率。
在一个可选实施例中提供了一种电子设备,如图9所示,图9所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9所示的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。与现有技术相比可实现:
本申请实施例提供的子图切割方法,通过预先训练的分割模型获取插图中各子插图的位置,提高了论文子插图分割的准确率和效率,通过插图预先训练的筛选模型,获得插图中各子插图序号的位置 并根据个子插图的位置和各子插图序号的位置确定每个子插图对应的子插图序,从而根据子插图对应的文本中的题注与子插图序号的关系,确定每个子插图对应的题注,最后便能根据各子插图对应的题注所涉及的检索范围,对各子插图进行检索,缩小插图的检索范围,避免了每一张插图需要对图库中的所有图片都进行检索,大大缩短了子插图检索所需要花费的时间,提高了检索效率和准确率。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。与现有技术相比可实现:
本申请实施例提供的子图切割方法,通过预先训练的分割模型获取插图中各子插图的位置,提高了论文子插图分割的准确率和效率,通过插图预先训练的筛选模型,获得插图中各子插图序号的位置 并根据个子插图的位置和各子插图序号的位置确定每个子插图对应的子插图序,从而根据子插图对应的文本中的题注与子插图序号的关系,确定每个子插图对应的题注,最后便能根据各子插图对应的题注所涉及的检索范围,对各子插图进行检索,缩小插图的检索范围,避免了每一张插图需要对图库中的所有图片都进行检索,大大缩短了子插图检索所需要花费的时间,提高了检索效率和准确率。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (10)
1.一种子图分割方法,其特征在于,包括:
确定论文中的插图以及与所述插图对应的文本,所述插图包括多个子插图,所述文本包括所述多个子插图各自的题注;
将所述插图输入预先训练的分割模型,获得所述分割模型输出的所述插图中各子插图的位置,将所述插图输入至预先训练的筛选模型,获得所述筛选模型输出的各子插图序号的位置;
根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号;
从所述文本中确定题注和子插图序号的关系,结合每个子插图对应的子插图序号,确定每个子插图对应的题注;
对于每个子插图,根据所述子插图对应的题注确定所述子插图的检索范围,以进行检索;
其中,所述分割模型是以样本论文插图中的样本插图为训练样本,以所述样本插图中各子插图的位置为训练标签训练而成的;所述筛选模型是以所述样本论文插图中的样本插图为训练样本,以所述样本插图中各子插图序号的位置为训练标签训练而成的。
2.根据权利要求1所述的子图分割方法,其特征在于,所述分割模型包括特征提取层、切割分类层和排序输出层;
所述将所述插图输入预先训练的分割模型,获得所述分割模型输出的所述插图中各子插图的位置,包括:
将所述插图输入所述特征提取层,获得所述特征提取层输出的插图中每个子区域的图像特征;
将所述各个子区域的图像特征输入至所述切割分类层,获得所述切割分类层输出的各个子区域的预测信息,所述预测信息包括相应子区域周围的至少一个子插图边界框的置信度和分类概率;所述分类概率为相应子区域中的子插图分别属于各个类别的概率;
针对每一个子插图边界框,将所述子插图边界框的置信度分别与所述子插图边界框所属子区域对应的每一类的分类概率进行相乘,得到所述子插图边界框中的子插图分别属于各个类别的分数值;
基于所述分数值的类别,对所述分数值进行分类;
针对每一个类别的分数值,将每一个分数值输入至所述类别的排序输出层中,所述排序输出层将所述分数值大于预设阈值的子插图边界框作为所述子插图的位置,将所述类别作为所述子插图的类别。
3.根据权利要求2所述的子图分割方法,其特征在于,所述置信度与所述子插图边界框内存在子插图的概率和所述子插图边界框的区域存在的子插图的区域的匹配程度相关。
4.根据权利要求1所述的子图分割方法,其特征在于,所述筛选模型包括:特征提取层和分类层;
所述将所述插图输入至预先训练的筛选模型,获得所述筛选模型输出的各子插图序号的位置,包括:
将所述插图输入到所述特征提取层,获得所述特征提取层输出的所述插图中各个字符的特征向量,所述特征向量用于表征相应字符的含义和位置;
将所述特征向量输入到所述分类层,对于每个字符,若确定所述字符与所述字符周围的各个字符的距离大于预设阈值,则将所述字符确定为子插图序号,获得所述分类层输出的所述插图的各个子插图序号的位置和含义。
5.根据权利要求1所述的子图分割方法,其特征在于,所述根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号,包括:
针对每一个子插图序号,确定所述子插图序号与各子插图的距离;
将与所述子插图序号距离最短的子插图,作为所述子插图序号对应的子插图。
6.根据权利要求1所述的子图分割方法,其特征在于,所述从所述文本中确定题注和子插图序号的关系,结合每个子插图对应的子插图序号,确定每个子插图对应的题注,包括:
对所述文本进行文本检测,获取文本内容;其中,所述文本内容中包含各个子插图序号和所述题注间的对应关系;
针对每一个子插图,根据所述子插图和所述子插图序号的对应关系,从所述文本内容中确定所述子插图对应的题注。
7.根据权利要求1所述的子图分割方法,其特征在于,所述将所述插图输入预先训练的分割模型,之前还包括:
对所述插图进行数据增强;
所述数据增强的方式包括以下至少一种:
将所述插图镜面对称翻转;
将所述插图旋转预设度数;
将所述插图放大,剪裁至放大前的尺寸;
将所述插图缩小,填充至缩小前的尺寸。
8.一种子图分割装置,其特征在于,包括:
确定模块,用于确定论文中的插图以及与所述插图对应的文本,所述插图包括多个子插图,所述文本包括所述多个子插图各自的题注;
输入模块,用于将所述插图输入预先训练的分割模型,获得所述分割模型输出的所述插图中各子插图的位置,将所述插图输入至预先训练的筛选模型,获得所述筛选模型输出的各子插图序号的位置;
处理模块,用于根据各子插图的位置和各子插图序号的位置,确定每个子插图对应的子插图序号;
关联模块,用于从所述文本中确定题注和子插图序号的关系,结合每个子插图对应的子插图序号,确定每个子插图对应的题注;
检索模块,用于对于每个子插图,根据所述子插图对应的题注确定所述子插图的检索范围,以进行检索;
其中,所述分割模型是以样本论文插图中的样本插图为训练样本,以所述样本插图中各子插图的位置为训练标签训练而成的;所述筛选模型是以所述样本论文插图中的样本插图为训练样本,以所述样本插图中各子插图序号的位置为训练标签训练而成的。
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310822891.8A CN116541549B (zh) | 2023-07-06 | 2023-07-06 | 子图分割方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310822891.8A CN116541549B (zh) | 2023-07-06 | 2023-07-06 | 子图分割方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116541549A true CN116541549A (zh) | 2023-08-04 |
CN116541549B CN116541549B (zh) | 2023-09-19 |
Family
ID=87456415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310822891.8A Active CN116541549B (zh) | 2023-07-06 | 2023-07-06 | 子图分割方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541549B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007081519A2 (en) * | 2005-12-30 | 2007-07-19 | Steven Kays | Genius adaptive design |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN110047053A (zh) * | 2019-04-26 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 人像图片生成方法、装置和计算机设备 |
CN115731441A (zh) * | 2022-11-29 | 2023-03-03 | 浙江大学 | 基于数据跨模态迁移学习的目标检测和姿态估计方法 |
-
2023
- 2023-07-06 CN CN202310822891.8A patent/CN116541549B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007081519A2 (en) * | 2005-12-30 | 2007-07-19 | Steven Kays | Genius adaptive design |
CN108509519A (zh) * | 2018-03-09 | 2018-09-07 | 北京邮电大学 | 基于深度学习的通用知识图谱增强问答交互系统及方法 |
CN110047053A (zh) * | 2019-04-26 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 人像图片生成方法、装置和计算机设备 |
CN115731441A (zh) * | 2022-11-29 | 2023-03-03 | 浙江大学 | 基于数据跨模态迁移学习的目标检测和姿态估计方法 |
Non-Patent Citations (1)
Title |
---|
卓选鹏;黄崇亚;胡爱玲;: "医学期刊中照片图的编排理念和编辑方法", 编辑学报, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN116541549B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304835B (zh) | 文字检测方法和装置 | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN111488826B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
US20190385054A1 (en) | Text field detection using neural networks | |
CN109918513B (zh) | 图像处理方法、装置、服务器及存储介质 | |
US20210141826A1 (en) | Shape-based graphics search | |
CN111488873B (zh) | 一种基于弱监督学习的字符级场景文字检测方法和装置 | |
CN110866930B (zh) | 语义分割辅助标注方法与装置 | |
CN110263877B (zh) | 场景文字检测方法 | |
CN113239227B (zh) | 图像数据结构化方法、装置、电子设备及计算机可读介质 | |
Dutta et al. | Multi-lingual text localization from camera captured images based on foreground homogenity analysis | |
CN111738252B (zh) | 图像中的文本行检测方法、装置及计算机系统 | |
CN114511857A (zh) | 一种ocr识别结果处理方法、装置、设备及存储介质 | |
CN113255501A (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN116541549B (zh) | 子图分割方法、装置、电子设备及计算机可读存储介质 | |
CN112785601B (zh) | 一种图像分割方法、系统、介质及电子终端 | |
CN115410211A (zh) | 图像分类方法、装置、计算机设备和存储介质 | |
CN113128496B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
CN114782771A (zh) | 训练方法、图像检索方法、图像处理方法、装置及设备 | |
CN114387600A (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
CN114120305A (zh) | 文本分类模型的训练方法、文本内容的识别方法及装置 | |
CN112287763A (zh) | 图像处理方法、装置、设备及介质 | |
CN110807452A (zh) | 预测模型构建方法、装置、系统及银行卡卡号识别方法 | |
CN115004261A (zh) | 文本行检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |