CN110807309A - 一种pdf文档的内容类型识别方法、装置及电子设备 - Google Patents

一种pdf文档的内容类型识别方法、装置及电子设备 Download PDF

Info

Publication number
CN110807309A
CN110807309A CN201810861695.0A CN201810861695A CN110807309A CN 110807309 A CN110807309 A CN 110807309A CN 201810861695 A CN201810861695 A CN 201810861695A CN 110807309 A CN110807309 A CN 110807309A
Authority
CN
China
Prior art keywords
document
sample
neural network
content
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810861695.0A
Other languages
English (en)
Other versions
CN110807309B (zh
Inventor
邓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Guangzhou Kingsoft Mobile Technology Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201810861695.0A priority Critical patent/CN110807309B/zh
Publication of CN110807309A publication Critical patent/CN110807309A/zh
Application granted granted Critical
Publication of CN110807309B publication Critical patent/CN110807309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种PDF文档的内容类型识别方法、装置及电子设备,方案包括:获取PDF格式的待识别文档,提取待识别文档的特征数据,将特征数据作为输入数据,输入预先训练的神经网络模型,得到待识别文档的内容类型。采用本发明实施例提供的方案,可以实现对PDF文档的内容类型进行识别,进而根据PDF文档的内容类型,为用户带来更好的使用体验。

Description

一种PDF文档的内容类型识别方法、装置及电子设备
技术领域
本发明涉及文档识别技术领域,特别是涉及一种PDF文档的内容类型识别方法、装置及电子设备。
背景技术
PDF(Portable Document Format,便携式文档格式)文档是一种电子文件格式。这种文档格式与操作系统的平台无关,也就是说,PDF文档不管是在Windows,Unix或者Mac OS等操作系统中都是通用的。这一特点使得PDF文档成为在网络上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式,生成对应的PDF文档。
发明内容
本发明实施例的目的在于提供一种PDF文档的内容类型识别方法、系统及电子设备,以实现对PDF文档的内容类型进行识别。具体技术方案如下:
本发明实施例提供了一种PDF文档的内容类型识别方法,所述方法包括:
获取PDF格式的待识别文档;
提取所述待识别文档的特征数据,所述特征数据包括内容特征数据和结构特征数据;
将所述特征数据作为输入数据,输入预先训练的神经网络模型,得到所述待识别文档的内容类型,其中,所述神经网络模型为基于样本数据进行训练得到的,所述样本数据包括PDF格式的样本文档,以及所述样本文档的实际内容类型。
进一步的,提取所述待识别文档的特征数据,所述特征数据包括内容特征数据和结构特征数据,包括:
提取所述待识别文档所包含的各部分内容,作为内容特征数据;
确定所述各部分内容之间的关联关系,作为结构特征数据。
进一步的,提取所述待识别文档所包含的各部分内容,包括:
针对所述待识别文档,提取该文档中包含的文字信息和图片信息;
所述确定所述各部分内容之间的关联关系,包括:
针对所述待识别文档中包含有文字信息,基于文本分类方法,获取预处理后的文字信息,根据循环神经网络模型,确定文字之间的关联关系以及上下文之间的关联关系;
针对所述待识别文档中包含有图片信息,基于图像识别技术,获取滤波后的图片,根据卷积神经网络模型,通过多级卷积和池化,确定所述图片中各部分之间的关联关系;
针对所述待识别文档中包含有文字信息和图片信息,根据深度学习算法,确定所述文字信息与所述图片信息在内容以及布局上的关联关系。
进一步的,所述神经网络模型的训练过程,包括:
获取所述样本文档;
提取所述样本文档的样本特征数据,所述样本特征数据包括样本内容特征数据和样本结构特征数据;
将所述样本特征数据作为输入数据,输入采用当前网络参数的预设结构的神经网络,得到所述样本文档的内容类型识别结果,在首次训练时所述当前网络参数为预设的初始网络参数;
将所述样本文档的内容类型识别结果,与所述样本文档的实际内容类型进行比较,得到表示类型偏差的损失值;
当基于所述损失值确定所述预设结构的神经网络收敛时,完成训练,得到由所述预设结构的神经网络和所述当前网络参数组成的神经网络模型;
当基于所述损失值确定所述预设结构的神经网络不收敛时,按照预设调整方式,调整所述当前网络参数,得到新的网络参数,并采用所述新的网络参数,进行下一次训练。
进一步的,将所述样本文档的内容类型识别结果,与所述样本文档的实际内容类型进行比较,得到表示类型偏差的损失值,包括:
基于所述样本文档的文档类型识别结果,根据MSE损失函数,计算该结果与其实际内容类型之间的偏差,作为损失值;
其中,所述损失值表示为:
Figure BDA0001749842450000031
L表示所述损失值,n表示已经输入所述神经网络模型的样本文档数量,y′i表示第i个样本文档对应的文档类型识别结果对应的数值,yi表示第i个样本文档对应的实际文档类型表示的数值。
进一步的,当基于所述损失值确定所述预设结构的神经网络不收敛时,按照预设调整方式,调整所述当前网络参数,得到新的网络参数,包括:
当基于所述损失值确定所述预设结构的神经网络不收敛时,基于梯度下降法,计算所述网络参数的变化量,将所述变化量与当前网络参数的差,作为新的网络参数;
其中,针对所述神经网络中第i层的第j个神经元,其网络参数包括其权重wij和偏置量θij,则其新的网络参数w′ij和θ′ij表示为:
Figure BDA0001749842450000032
Figure BDA0001749842450000033
α表示学习率,
Figure BDA0001749842450000034
表示损失函数对偏置量的梯度值,
Figure BDA0001749842450000035
表示损失函数对偏置量的梯度值。
本发明实施例提供了一种PDF文档的内容类型识别装置,所述装置包括:
待识别文档获取模块,用于获取PDF格式的待识别文档;
特征数据提取模块,用于提取所述待识别文档的特征数据,所述特征数据包括内容特征数据和结构特征数据;
内容类型确定模块,用于将所述特征数据作为输入数据,输入预先训练的神经网络模型,得到所述待识别文档的内容类型,其中,所述神经网络模型为基于样本数据进行训练得到的,所述样本数据包括PDF格式的样本文档,以及所述样本文档的实际内容类型。
进一步的,特征数据提取模块,包括:
内容特征数据提取子模块,用于提取所述待识别文档所包含的各部分内容,作为内容特征数据;
结构特征数据确定子模块,用于确定所述各部分内容之间的关联关系,作为结构特征数据。
进一步的,内容特征数据提取子模块,具体用于针对所述待识别文档,提取该文档中包含的文字信息和图片信息;
结构特征数据确定子模块,具体用于针对所述待识别文档中包含有文字信息,基于文本分类方法,获取预处理后的文字信息,根据循环神经网络模型,确定文字之间的关联关系以及上下文之间的关联关系;针对所述待识别文档中包含有图片信息,基于图像识别技术,获取滤波后的图片,根据卷积神经网络模型,通过多级卷积和池化,确定所述图片中各部分之间的关联关系;针对所述待识别文档中包含有文字信息和图片信息,根据深度学习算法,确定所述文字信息与所述图片信息在内容以及布局上的关联关系。
进一步的,上述装置,还包括:
样本文档获取模块,用于获取所述样本文档;
样本特征数据提取模块,用于提取所述样本文档的样本特征数据,所述样本特征数据包括样本内容特征数据和样本结构特征数据;
识别结果获取模块,用于将所述样本特征数据作为输入数据,输入采用当前网络参数的预设结构的神经网络,得到所述样本文档的内容类型识别结果,在首次训练时所述当前网络参数为预设的初始网络参数;
损失值计算模块,用于将所述样本文档的内容类型识别结果,与所述样本文档的实际内容类型进行比较,得到表示类型偏差的损失值;
模型生成模块,用于当基于所述损失值确定所述预设结构的神经网络收敛时,完成训练,得到由所述预设结构的神经网络和所述当前网络参数组成的神经网络模型;
网络参数调整模块,用于当基于所述损失值确定所述预设结构的神经网络不收敛时,按照预设调整方式,调整所述当前网络参数,得到新的网络参数,并采用所述新的网络参数,进行下一次训练。
进一步的,损失值计算模块具体用于基于所述样本文档的文档类型识别结果,根据MSE损失函数,计算该结果与其实际内容类型之间的偏差,作为损失值;
其中,所述损失值表示为:
L表示所述损失值,n表示已经输入所述神经网络模型的样本文档数量,y′i表示第i个样本文档对应的文档类型识别结果对应的数值,yi表示第i个样本文档对应的实际文档类型表示的数值。
进一步的,网络参数调整模块,具体用于当基于所述损失值确定所述预设结构的神经网络不收敛时,基于梯度下降法,计算所述网络参数的变化量,将所述变化量与当前网络参数的差,作为新的网络参数;
其中,针对所述神经网络中第i层的第j个神经元,其网络参数包括其权重wij和偏置量θij,则其新的网络参数w′ij和θ′ij表示为:
Figure BDA0001749842450000052
Figure BDA0001749842450000053
α表示学习率,
Figure BDA0001749842450000054
表示损失函数对偏置量的梯度值,表示损失函数对偏置量的梯度值。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一PDF文档的内容类型识别方法步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的PDF文档的内容类型识别方法。
本发明实施例提供的一种PDF文档的内容类型识别方法、系统及电子设备,可以获取PDF格式的待识别文档,提取待识别文档的特征数据,将特征数据作为输入数据,输入预先训练的神经网络模型,得到待识别文档的内容类型。采用本发明实施例可以实现对PDF文档的内容类型进行识别。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种PDF文档的内容类型识别方法的流程图;
图2为本发明实施例提供的一种PDF文档内容类型识别的神经网络训练方法流程图;
图3为本发明实施例提供的一种PDF文档的内容类型识别装置的结构示意图之一;
图4为本发明实施例提供的一种PDF文档内容类型识别装置的结构示意图之二;
图5为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,针对PDF格式的文档进行编辑或者阅读等操作的过程中,服务器仅仅是将其作为一个PDF文档进行处理的,并没有针对不同内容类型的PDF文档为用户提供特定的功能服务,例如:为杂志或者漫画这种类型的PDF文档提供专门的阅读模式,提升用户的使用体验。针对上述问题其主要原因在于现有技术中并没有对PDF文档的内容类型进行识别的技术。
在本发明实施例提供的方案中,通过获取PDF格式的待识别文档,提取待识别文档的特征数据,将特征数据作为输入数据,输入预先训练的神经网络模型,得到待识别文档的内容类型。通过上述方案实现对PDF文档的内容类型进行识别,进而根据PDF文档的内容类型,为用户带来更好的使用体验。
本发明实施例提供了一种PDF文档的内容类型识别方法,如图1所示,可以包括以下步骤:
步骤S101,获取PDF格式的待识别文档。
在本步骤中,可以获取用户选择的PDF格式的文档,作为待识别文档。
具体的,可以获取上述PDF格式的文档中的全部内容信息,作为待识别文档中的文档内容;也可以获取上述PDF格式的文档中的部分内容信息,作为待识别文档中的文档内容。
步骤S102,提取待识别文档的特征数据。
在本步骤中,提取待识别文档中的特征数据。其中,待识别文档的特征数据可以包括该文档的内容特征数据和结构特征数据。
具体的,针对待识别文档,可以提取该文档中包含的各部分内容作为内容特征数据;根据该文档内容特征数据,确定该文档各部分内容之间的关联关系,作为结构特征数据,其中,内容特征数据可以是文字信息,也可以是图片信息。当待识别文档为小说这种类型的文档时,其内容特征数据只包含文字信息;当待识别文档为漫画这种类型的文档时,其内容特征数据只包含图片信息;当待识别文档为杂志这类文档时,其内容特征数据包含文字信息和图片信息。因此,待识别文档的内容特征数据中包含的文字信息和图片信息,需要根据待识别文档的具体内容来确定。
针对待识别文档中包含有文字信息,可以基于文本分类方法,获取预处理后的文字信息,根据循环神经网络模型,确定文字之间的关联关系以及上下文之间的关联关系;
针对待识别文档中包含有图片信息,可以基于图像识别技术,获取滤波后的图片,根据卷积神经网络模型,通过多级卷积和池化,确定图片中各部分之间的关联关系;
针对待识别文档中包含有文字信息和图片信息,根据深度学习算法,确定文字信息与图片信息在内容以及布局上的关联关系。
进一步的,在提取特征数据过程中,可以存在以下几种情况:
第一种情况,针对上述待识别文档,提取特征数据时,其内容特征数据只包含文字信息。此时,提取待识别文档的特征数据,具体实施方式可以包括:
根据文本分类方法,提取待识别文档中的文字信息,并进行预处理。将待识别文档中的文字信息进行分词和去停用词,例如,可以采用字符串匹配分词法,全切分法或者字构词的分词法等方法实现分词,而去停用词则可以通过维护一个停用词表,在分词过程中过滤掉停用词表中的词语,其中,停用词表中可以包括一些语气词、连词、介词等对文档类型识别的没有意义的词语。在分词之后,根据分词的结果,采用WordEmbedding或者Word2vec算法将分词结果映射到高维空间,生成特征向量。
例如,“苹果是一种水果”利用全切分法进行分词,得到的结果可以是“苹,果,是,一,种,水,果”,也可以是“苹果,是,一种,水果”等多种组合形式。而去停用词则可以将其中的“一”字过滤掉。采用WordEmbedding方法表示“苹果是一种水果”和“小明很喜欢吃苹果”这两句话。预设“苹”用1表示,“果”用2表示,“是”用3表示,“一”用4表示,“种”用5表示,“水”用6表示,“小”用7表示,“明”用8表示,“很”用9表示,“喜”用10表示,“欢”用11表示,“吃”用12表示。分词后每一个字可以由特定的向量表示,例如,“苹果是一种水果”中“苹果”的“果”可以表示为向量“水果”的“果”可以表示为向量
Figure BDA0001749842450000091
“小明很喜欢吃苹果”中的“果”可以表示为向量
Figure BDA0001749842450000092
同理,因为分词的结果也可以是“苹果是一种水果”和“小明很喜欢吃苹果”,此时,“苹果是一种水果”可以表示为向量
Figure BDA0001749842450000093
“小明很喜欢吃苹果”可以表示为向量
Figure BDA0001749842450000094
将预处理后的文字信息,按照待识别文档中描述的顺序输入循环神经网络,根据输入数据之间的时序特征,循环神经网络可以确定每一个文字之间的关联关系以及上下文之间的关联关系。
仍旧以上述“苹果是一种水果”和“小明很喜欢吃苹果”这两句话为例进行说明。假设“苹果是一种水果”这一句在待识别文档中描述顺序在“小明很喜欢吃苹果”这句之前,则将“苹果是一种水果”和“小明很喜欢吃苹果”对应的特征向量依次输入循环神经网络,根据输入的先后顺序,循环神经网络可以确定输入的信息之间存在的关联关系可以是“苹果-水果”,“吃-苹果”,“小明-喜欢-苹果”,“吃-水果”,“小明-吃-水果”等。
在循环神经网络中,循环神经网络通过不断地提取待上传文档中的内容特征数据和结构特征数据,根据提取的特征数据,确定待识别文档中文字之间的关联关系,上下文之间的关联关系,进而确定待识别文档的内容。
第二种情况,针对上述待识别文档,提取特征数据时,其内容特征数据只包含图片信息。此时,提取待识别文档的特征数据,具体实施方式可以包括:
提取待识别文档中包含的所有图片,作为内容特征数据。
针对内容特征数据中的图片,根据图像识别技术,对图片进行预处理。其中,预处理的过程可以是按照预设的规则分割待识别文档中的图片,针对分割后的每一个子图片,根据该子图片每一个像素点处的红、绿、蓝的灰度值,生成三个堆叠的二维矩阵。当然,预处理的过程也可以是将待识别文档中的图片转为灰度图片,按照预设的规则分割该灰度图片,针对分割后的每一个子灰度图片,根据该子灰度图片中每一个像素点处的灰度值,生成一个二维矩阵。
将上述每一个二维矩阵作为输入数据,输入卷积神经网络,通过多级卷积和池化,确定图像分割后的各部分之间的关联关系。
例如,现有一张大小为640*640像素的灰度图像,该灰度图像中仅有一只老鼠的图像。此时,可以按照8*8的大小分割该图像,得到64个子图像,且每个子图像的大小为80*80像素。针对每一个子图像,可以根据每一个像素点处的灰度值,生成一个二维矩阵。按照每一个子图像在分割前的灰度图像中的相对位置,排列对应的二维矩阵,得到全排列的二维矩阵。假设卷积模板的大小为3*3,利用卷积模板在全排列的二维矩阵上滑动,通过计算全排列的二维矩阵和卷积模板重合区域的卷积结果,确定待识别文档中图片信息的关联关系。再利用平均池化或者最大池化,对卷积确定的关联关系进行进一步提取。通过多级卷积和池化过程,确定每一个子图像中的关联关系,如,老鼠头与耳朵的连接关系,眼睛鼻子之间相对位置关系等,进而识别待识别文档中的图片信息。
第三种情况,针对上述待识别文档,提取特征数据时,其内容特征数据不仅包含文字信息,还包含图片信息。此时,提取待识别文档的特征数据,具体实施方式可以包括:
提取待识别文档中的内容结构特征。
根据上述第一种情况中的方法,针对待识别文档中的文字信息,提取文字之间的关联关系,上下文之间的关联关系,针对待识别文档中的图片信息,提取图片中各部分之间的关联关系,除此以外,还需要根据深度学习算法,提取文字与图片之间的关联关系。
假设现有一待识别文档是学术论文,其中包括论文的描述文字以及对应的实验图片。此时,在提取特征数据时,其内容特征数据可以有该学术论文中的描述文字,如:目录内容,摘要内容,正文内容等,还有该学术论文中的实验图片;那么,该学术论文的结构特征数据则可以包括整篇论文中每一个字之间的关联关系,论文中每一个部分之间关联关系,实验图片中各部分之间的连接关系,以及论文中的内容文字与实验图片之间的关联关系等。如,论文中多次出现同一个专有名词之间的关联关系,论文摘要、关键字、以及正文之间的关联关系,图片中的信息与图片标记之间关联关系,图片与图片描述的文字之间的关联关系等。
需要说明的是,上述关于特征数据的提取,采用的是神经网路提取特征数据,除此以外,还可以采用现有技术中的其他方法实现。例如,采用Apriori算法对待识别文档提取频繁集,对于频繁集中的每个集合,分析其子集之间的关联关系,如,求各子集的交集、并集和补集等表示各子集之间的关联关系,并计算每一种关联关系之间的支持度以及置信度,进而确定强关联关系。
步骤S103,将特征数据作为输入数据,输入预先训练的神经网络模型,得到待识别文档的内容类型。
在本步骤中,将特征数据作为输入数据,输入到预先训练的神经网络模型中,神经网络模型根据训练时得到的判断规则,对输入数据进行分析,输出待识别文档的内容类型。
进一步的,针对该神经网络模型,假设训练得到的判断规则中有一个是:若文档值仅包含文字信息,且该文字信息中有大量的人物姓名,每一个人物姓名又关联着其他多个人物姓名,形成一个巨大的人物关系网络,则该文档是小说。现有一待识别文档,将根据待识别文档提取的特征数据,输入上述神经网络模型后,进过上述神经网络判断后符合上述判断规则,此时,该神经网络对该待识别文档内容类型判断结果为小说,并输出该判断结果。
在上述PDF文档内容类型识别方法的一个实施例中,上述步骤S103中神经网络模型的训练过程,如图2所示,可以包括以下步骤:
步骤S201,获取样本文档。
在本步骤中,获取大量已知内容类型的文档作为样本文档。
具体的,获取大量的小说、杂志、试卷、漫画等不同类型的文档作为样本文档。
步骤S202,提取样本文档的样本特征数据。
在步骤中,可以采用上述步骤S102中提取待识别文档的特征数据相同的方法,提取样本文档中的内容特征参数和结构特征参数,作为样本特征数据。
步骤S203,将样本特征数据作为输入数据,输入采用当前网络参数的预设结构的神经网络,得到样本文档的内容类型识别结果。
在本步骤中,将样本特征数据作为输入数据,输入预设结构的神经网络中,该神经网络根据当前的网络参数,输出样本文档的内容类型识别结果。其中,在首次训练时,上述当前网络参数为预先设置的初始网络参数。
具体的,在首次训练之前,可以采用卷积神经网络的网络结构作为上述预设结构的神经网络,并预设该神经网络中的初始网络参数,将样本特征参数作为输入数据输入神经网络中,输入数据在神经网络中,按照该神经网络模型的结构和初始网络参数进行计算,直至输出其对应的类型识别结果。其中,上述卷积神经网络模型的网络结构可以包括输入层,卷积池化层,全连接层,以及输出层,数据在神经网络中按照上述结构的顺序依次传递直至输出,初始网络参数为初始化后的权重值以及偏置量。
进一步的,针对上述神经网络模型,任意选取一个节点作为当前节点,则该当前节点的值x'可以表示为:
Figure BDA0001749842450000121
其中,n表示当前节点所在层的上一层节点中将其数值传递给当前节点的节点数,xi表示上一层的节点中将其数值传递给当前节点的节点中的第i个节点,wi上述第i个节点对应的权重,θi表示上述第i个节点与当前节点传递过程中的偏置量。
步骤S204,将样本文档的内容类型识别结果,与样本文档的实际内容类型进行比较,得到表示类型偏差的损失值。
在本步骤中,根据样本文档的内容类型识别结果,将该结果与样本文档的实际内容类型进行比较,得到神经网络输出类型与实际类型之间偏差的损失值。
具体的,基于样本文档的文档类型识别结果,可以根据MSE损失函数,计算该文档类型识别结果与其实际内容类型之间的偏差,作为损失值;
其中,损失值L可以表示为:
Figure BDA0001749842450000122
n表示已经输入神经网络模型的样本文档数量,y′i表示第i个样本文档对应的文档类型识别结果对应的数值,yi表示第i个样本文档对应的实际文档类型表示的数值。
步骤S205,当基于损失值确定预设结构的神经网络收敛时,完成训练,得到由预设结构的神经网络和当前网络参数组成的神经网络模型。
具体的,可以基于损失值与预设阈值的大小,将损失值低于预设阈值定义为收敛。当基于损失值确定预设结构的神经网络收敛时,训练过程完成,得到由预设结构的神经网络和当前网络参数组成的神经网络模型。此时,该神经网络的结构,就是步骤S103中预先训练的神经网络模型对应的网络结构,该神经网络中的网路参数,就是步骤S103中预先训练的神经网络模型对应的网络参数。
步骤S206,当基于损失值确定预设结构的神经网络不收敛时,按照预设调整方式,确定新的网络参数,并采用新的网络参数,进行下一次训练。
具体的,可以基于损失值与预设阈值的大小,将损失值不低于预设阈值定义为不收敛。此时,可以基于梯度下降法,计算网络参数的变化量,将变化量与当前网络参数的差,作为新的网络参数,并根据新的网络参数,进行下一次训练;
进一步的,当基于损失值确定预设结构的神经网络不收敛时,针对神经网络中第i层的第j个神经元,其当前网络参数可以包括其权重wij和偏置量θij,则其新的网络参数w′ij和θ′ij可以表示为:
Figure BDA0001749842450000131
Figure BDA0001749842450000132
α表示学习率,表示损失函数对偏置量的梯度值,
Figure BDA0001749842450000134
表示损失函数对偏置量的梯度值,其中,学习率α的大小主要控制神经网络收敛的速度,可以是自定义设置的。
需要说明的是,关于上述步骤S205和步骤S206的执行顺序,这两个步骤的执行需要根据神经网络是否收敛来确定,当神经网络收敛时,执行步骤S205,当神经网络不收敛时,执行步骤S206。在步骤S206中,当新的神经网络参数确定后,需要重复执行上述步骤S201至步骤S204的过程,每一次重复过程结束后,都要判断神经网络是否收敛,只有当神经网络收敛时,执行步骤S205,结束训练过程。除此以外,关于神经网络是否收敛的判断,也可以通过统计不同内容类型的样本文档训练的次数来判断,当训练次数达到预设阈值时,认为神经网络收敛,当训练次数未到达预设阈值时,认为神经网络未收敛。例如,针对每一种内容类型的样本文档,只有当训练次数达到都5000次时,才算收敛,可以结束训练。
综上所述,根据本发明实施例提供的一种PDF文档的内容类型识别方法,可以根据PDF文档中的内容,实现对PDF文档的内容类型进行识别,进而可以根据PDF文档的内容类型,为用户带来更好的使用体验。
在本发明实施例中,针对待识别文档的内容类型进行识别,简单来说就是对待识别文档的内容中的特征数据进行提取,以及根据提取的特征数据进行回归分析,判断待识别文档的内容类型。关于待识别文档的特征数据的提取可以采用上述步骤S102中提供的方法。而根据特征数据进行回归分析则可以根据现有的softmax回归算法、逻辑回归算法等,得到待识别文档的内容类型。因此,上述神经网络的具体结构可以多种网络结构实现,例如,前馈结构,循环结构,对连接结构以及全连接结构等。
具体的,根据上述步骤S102和步骤S103可知,在步骤S102中,已经确定了待识别文档中的内容特征数据以及结构特征数据,因此,在步骤S103中,上述神经网络的主要功能是,根据特征数据,进行回归计算,得到待识别文档的内容类型。
以全连接结构为例进行说明,假设现待识别文档中为一本漫画,根据步骤S102可以得到的内容特征数据可以包括,每一页漫画中文字以及图片,得到的机构特征数据有,每一页文字与文字之间的关联关系,图片与图片之间的关联关系,文字与图片之间的关联关系,以及当前页与其他页内容特征数据之间的关联关系。将上述特征数据输入步骤S103中的神经网络,全连接这些特征数据,进行加权计算,在根据回归算法,对加权计算结果进行回归,将回归的值与训练时文档内容类型的预设值进行比较,识别待识别文档的内容。
具体的,在全连接结构中,首先,对步骤S102得到的每一特征数据,按照不同权重,进行加权计算。例如,可以选择将每一页漫画中相同人物的表情的特征数据的权重设定为1,其他特征数据设定为0,计算所有特征数据的加权和,从而将所有的人物表情变化组合在一起,识别人物的表情变化;也可以将每一页背景的变化的特征数据的权重设定为1,其他特征数据的权重设定为0,计算所有特征数据的加权和,从而将所有的背景变化组合在一起,识别故事的时间变化;以此类推,通过全连接结构得到上述漫画中的所有故事情节,人物关系的等有关该漫画的相关信息。然后,将这些相关信息通过回归算法表示出来,例如,有图片信息用1表示,有文字信息有2表示,文字与图片的位置关系是嵌套用5表示,有人物关系用4表示等,将上述漫画的相关信息表示出来,接下来可以采用数学方式进行计算,如,求上述所有值的平均数或者加权平均数等方式,得到一个确定的值。最后,将该确定的值与训练时样本文档对应的内容类型的预设值作比较,在误差允许范围内,最相近的预设值对应的文档内容类型就是上述神经网络的输出值。例如,可以计算上述漫画的所有相关信息经过回归算法处理后的平均值,假设该平均值为7.5,上述神经网络在训练时漫画的预设值为7,允许的误差范围是正负1之间,则将7.5与7相比,在误差允许范围内,上述神经网络输出的内容类型是漫画。
在本发明实施例中,对于待识别文档的识别过程,其特征数据的提取与特征数据的识别文档的内容类型是相互独立的,并不是有由同一神经网络模型完成的,但是在实际识别过程中,是可以将待识别文档作为输入数据直接输入神经网络,由该神经网络模型按照上述步骤提取待识别文档的特征数据,然后根据特征数据识别文档的内容类型。以卷积神经网络为例,可以将待识别文档以二进制文件或者图片格式等形式输入神经网络,通过多级卷积池化处理,再利用全连接结构将卷积池化处理的结果进行回归处理,得到文档的内容类型。除此以外,上述文档的内容类型对应的预设值,可以是预先设定的一个固定值,也可以是采用非监督式学习方法,根据样本文档实际输出值设定的一个取值区间。
综上所述,在本发明实施例中,上述神经网络的训练方法可以采用监督式学习方法或者非监督式学习方法,而该神经网络的具体结构则可以采用多种现有神经网络的结构,如,卷积神经网络,循环神经网络,以及长短期记忆网络(LSTM神经网络)等多种网络结构。
基于同一发明构思,根据本发明提供的上述PDF文档的内容类型识别方法,本发明实施例还提供了一种PDF文档的内容类型识别装置,如图3所示,可以包括以下模块:
待识别文档获取模块301,用于获取PDF格式的待识别文档;
特征数据提取模块302,用于提取待识别文档的特征数据,特征数据包括内容特征数据和结构特征数据;
内容类型确定模块303,用于将特征数据作为输入数据,输入预先训练的神经网络模型,得到待识别文档的内容类型,其中,神经网络模型为基于样本数据进行训练得到的,样本数据包括PDF格式的样本文档,以及样本文档的实际内容类型。
进一步的,特征数据提取模块302,包括:
内容特征数据提取子模块,用于提取待识别文档所包含的各部分内容,作为内容特征数据;
结构特征数据确定子模块,用于确定各部分内容之间的关联关系,作为结构特征数据。
进一步的,内容特征数据提取子模块,具体用于针对待识别文档,提取该文档中包含的文字信息和图片信息;
结构特征数据确定子模块,具体用于针对待识别文档中包含有文字信息,基于文本分类方法,获取预处理后的文字信息,根据循环神经网络模型,确定文字之间的关联关系以及上下文之间的关联关系;针对待识别文档中包含有图片信息,基于图像识别技术,获取滤波后的图片,根据卷积神经网络模型,通过多级卷积和池化,确定图片中各部分之间的关联关系;针对待识别文档中包含有文字信息和图片信息,根据深度学习算法,确定文字信息与图片信息在内容以及布局上的关联关系。
进一步的,上述本发明实施例提供的一种PDF文档的内容类型识别装置,如图4所示,还可以包括以下模块:
样本文档获取模块401,用于获取样本文档;
样本特征数据提取模块402,用于提取样本文档的样本特征数据,样本特征数据包括样本内容特征数据和样本结构特征数据;
识别结果获取模块403,用于将样本特征数据作为输入数据,输入采用当前网络参数的预设结构的神经网络,得到样本文档的内容类型识别结果,在首次训练时当前网络参数为预设的初始网络参数;
损失值计算模块404,用于将样本文档的内容类型识别结果,与样本文档的实际内容类型进行比较,得到表示类型偏差的损失值;
模型生成模块405,用于当基于损失值确定预设结构的神经网络收敛时,完成训练,得到由预设结构的神经网络和当前网络参数组成的神经网络模型;
网络参数调整模块406,用于当基于损失值确定预设结构的神经网络不收敛时,按照预设调整方式,调整当前网络参数,得到新的网络参数,并采用新的网络参数,进行下一次训练。
进一步的,损失值计算模块404具体用于基于样本文档的文档类型识别结果,根据MSE损失函数,计算该结果与其实际内容类型之间的偏差,作为损失值;
其中,损失值表示为:
Figure BDA0001749842450000171
L表示损失值,n表示已经输入神经网络模型的样本文档数量,y′i表示第i个样本文档对应的文档类型识别结果对应的数值,yi表示第i个样本文档对应的实际文档类型表示的数值。
进一步的,网络参数调整模块406,具体用于当基于损失值确定预设结构的神经网络不收敛时,基于梯度下降法,计算网络参数的变化量,将变化量与当前网络参数的差,作为新的网络参数;
其中,针对神经网络中第i层的第j个神经元,其网络参数包括其权重wij和偏置量θij,则其新的网络参数w′ij和θ′ij表示为:
Figure BDA0001749842450000181
Figure BDA0001749842450000182
α表示学习率,
Figure BDA0001749842450000183
表示损失函数对偏置量的梯度值,
Figure BDA0001749842450000184
表示损失函数对偏置量的梯度值。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取PDF格式的待识别文档;
提取待识别文档的特征数据,特征数据包括内容特征数据和结构特征数据;
将特征数据作为输入数据,输入预先训练的神经网络模型,得到待识别文档的内容类型,其中,神经网络模型为基于样本数据进行训练得到的,样本数据包括PDF格式的样本文档,以及样本文档的实际内容类型。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一PDF文档的内容类型识别方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一PDF文档的内容类型识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置及电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (13)

1.一种PDF文档的内容类型识别方法,其特征在于,包括:
获取PDF格式的待识别文档;
提取所述待识别文档的特征数据,所述特征数据包括内容特征数据和结构特征数据;
将所述特征数据作为输入数据,输入预先训练的神经网络模型,得到所述待识别文档的内容类型,其中,所述神经网络模型为基于样本数据进行训练得到的,所述样本数据包括PDF格式的样本文档,以及所述样本文档的实际内容类型。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待识别文档的特征数据,所述特征数据包括内容特征数据和结构特征数据,包括:
提取所述待识别文档所包含的各部分内容,作为内容特征数据;
确定所述各部分内容之间的关联关系,作为结构特征数据。
3.根据权利要求2所述的方法,其特征在于,所述提取所述待识别文档所包含的各部分内容,包括:
针对所述待识别文档,提取该文档中包含的文字信息和图片信息;
所述确定所述各部分内容之间的关联关系,包括:
针对所述待识别文档中包含有文字信息,基于文本分类方法,获取预处理后的文字信息,根据循环神经网络模型,确定文字之间的关联关系以及上下文之间的关联关系;
针对所述待识别文档中包含有图片信息,基于图像识别技术,获取滤波后的图片,根据卷积神经网络模型,通过多级卷积和池化,确定所述图片中各部分之间的关联关系;
针对所述待识别文档中包含有文字信息和图片信息,根据深度学习算法,确定所述文字信息与所述图片信息在内容以及布局上的关联关系。
4.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练过程,包括:
获取所述样本文档;
提取所述样本文档的样本特征数据,所述样本特征数据包括样本内容特征数据和样本结构特征数据;
将所述样本特征数据作为输入数据,输入采用当前网络参数的预设结构的神经网络,得到所述样本文档的内容类型识别结果,在首次训练时所述当前网络参数为预设的初始网络参数;
将所述样本文档的内容类型识别结果,与所述样本文档的实际内容类型进行比较,得到表示类型偏差的损失值;
当基于所述损失值确定所述预设结构的神经网络收敛时,完成训练,得到由所述预设结构的神经网络和所述当前网络参数组成的神经网络模型;
当基于所述损失值确定所述预设结构的神经网络不收敛时,按照预设调整方式,调整所述当前网络参数,得到新的网络参数,并采用所述新的网络参数,进行下一次训练。
5.根据权利要求4所述的方法,其特征在于,所述将所述样本文档的内容类型识别结果,与所述样本文档的实际内容类型进行比较,得到表示类型偏差的损失值,包括:
基于所述样本文档的文档类型识别结果,根据MSE损失函数,计算该结果与其实际内容类型之间的偏差,作为损失值;
其中,所述损失值表示为:
Figure FDA0001749842440000021
L表示所述损失值,n表示已经输入所述神经网络模型的样本文档数量,L′i表示第i个样本文档对应的文档类型识别结果对应的数值,yi表示第i个样本文档对应的实际文档类型表示的数值。
6.根据权利要求4所述的方法,其特征在于,所述当基于所述损失值确定所述预设结构的神经网络不收敛时,按照预设调整方式,调整所述当前网络参数,得到新的网络参数,包括:
当基于所述损失值确定所述预设结构的神经网络不收敛时,基于梯度下降法,计算所述网络参数的变化量,将所述变化量与当前网络参数的差,作为新的网络参数;
其中,针对所述神经网络中第i层的第j个神经元,其网络参数包括其权重wij和偏置量θij,则其新的网络参数w′ij和θ′ij表示为:
Figure FDA0001749842440000031
Figure FDA0001749842440000032
a表示学习率,
Figure FDA0001749842440000033
表示损失函数对偏置量的梯度值,
Figure FDA0001749842440000034
表示损失函数对偏置量的梯度值。
7.一种PDF文档的内容类型识别装置,其特征在于,包括:
待识别文档获取模块,用于获取PDF格式的待识别文档;
特征数据提取模块,用于提取所述待识别文档的特征数据,所述特征数据包括内容特征数据和结构特征数据;
内容类型确定模块,用于将所述特征数据作为输入数据,输入预先训练的神经网络模型,得到所述待识别文档的内容类型,其中,所述神经网络模型为基于样本数据进行训练得到的,所述样本数据包括PDF格式的样本文档,以及所述样本文档的实际内容类型。
8.根据权利要求7所述的装置,其特征在于,所述特征数据提取模块,包括:
内容特征数据提取子模块,用于提取所述待识别文档所包含的各部分内容,作为内容特征数据;
结构特征数据确定子模块,用于确定所述各部分内容之间的关联关系,作为结构特征数据。
9.根据权利要求8所述的装置,其特征在于,所述内容特征数据提取子模块,具体用于针对所述待识别文档,提取该文档中包含的文字信息和图片信息;
结构特征数据确定子模块,具体用于针对所述待识别文档中包含有文字信息,基于文本分类方法,获取预处理后的文字信息,根据循环神经网络模型,确定文字之间的关联关系以及上下文之间的关联关系;针对所述待识别文档中包含有图片信息,基于图像识别技术,获取滤波后的图片,根据卷积神经网络模型,通过多级卷积和池化,确定所述图片中各部分之间的关联关系;针对所述待识别文档中包含有文字信息和图片信息,根据深度学习算法,确定所述文字信息与所述图片信息在内容以及布局上的关联关系。
10.根据权利要求7所述的装置,其特征在于,还包括:
样本文档获取模块,用于获取所述样本文档;
样本特征数据提取模块,用于提取所述样本文档的样本特征数据,所述样本特征数据包括样本内容特征数据和样本结构特征数据;
识别结果获取模块,用于将所述样本特征数据作为输入数据,输入采用当前网络参数的预设结构的神经网络,得到所述样本文档的内容类型识别结果,在首次训练时所述当前网络参数为预设的初始网络参数;
损失值计算模块,用于将所述样本文档的内容类型识别结果,与所述样本文档的实际内容类型进行比较,得到表示类型偏差的损失值;
模型生成模块,用于当基于所述损失值确定所述预设结构的神经网络收敛时,完成训练,得到由所述预设结构的神经网络和所述当前网络参数组成的神经网络模型;
网络参数调整模块,用于当基于所述损失值确定所述预设结构的神经网络不收敛时,按照预设调整方式,调整所述当前网络参数,得到新的网络参数,并采用所述新的网络参数,进行下一次训练。
11.根据权利要求10所述的装置,其特征在于,所述损失值计算模块,具体用于基于所述样本文档的文档类型识别结果,根据MSE损失函数,计算该结果与其实际内容类型之间的偏差,作为损失值;
其中,所述损失值表示为:
Figure FDA0001749842440000051
L表示所述损失值,n表示已经输入所述神经网络模型的样本文档数量,y′i表示第i个样本文档对应的文档类型识别结果对应的数值,yi表示第i个样本文档对应的实际文档类型表示的数值。
12.根据权利要求10所述的装置,其特征在于,所述网络参数调整模块,具体用于当基于所述损失值确定所述预设结构的神经网络不收敛时,基于梯度下降法,计算所述网络参数的变化量,将所述变化量与当前网络参数的差,作为新的网络参数;
其中,针对所述神经网络中第i层的第j个神经元,其网络参数包括其权重wij和偏置量θij,则其新的网络参数w′ij和θij表示为:
Figure FDA0001749842440000052
Figure FDA0001749842440000053
a表示学习率,
Figure FDA0001749842440000054
表示损失函数对偏置量的梯度值,
Figure FDA0001749842440000055
表示损失函数对偏置量的梯度值。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
CN201810861695.0A 2018-08-01 2018-08-01 一种pdf文档的内容类型识别方法、装置及电子设备 Active CN110807309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810861695.0A CN110807309B (zh) 2018-08-01 2018-08-01 一种pdf文档的内容类型识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810861695.0A CN110807309B (zh) 2018-08-01 2018-08-01 一种pdf文档的内容类型识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110807309A true CN110807309A (zh) 2020-02-18
CN110807309B CN110807309B (zh) 2024-05-03

Family

ID=69486756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810861695.0A Active CN110807309B (zh) 2018-08-01 2018-08-01 一种pdf文档的内容类型识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110807309B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN113704184A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 一种文件分类方法、装置、介质及设备
CN114239881A (zh) * 2021-12-13 2022-03-25 国网河南省电力公司漯河供电公司 一种基于cnn技术的继电保护定值核对方法及系统
US20220182497A1 (en) * 2020-12-07 2022-06-09 Canon Kabushiki Kaisha Image processing system, image processing apparatus, control method
CN117593752A (zh) * 2024-01-18 2024-02-23 星云海数字科技股份有限公司 一种pdf文档录入方法、系统、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
US20120041955A1 (en) * 2010-08-10 2012-02-16 Nogacom Ltd. Enhanced identification of document types
CN108154191A (zh) * 2018-01-12 2018-06-12 北京经舆典网络科技有限公司 文档图像的识别方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120041955A1 (en) * 2010-08-10 2012-02-16 Nogacom Ltd. Enhanced identification of document types
CN102012985A (zh) * 2010-11-19 2011-04-13 国网电力科学研究院 一种基于数据挖掘的敏感数据动态识别方法
CN108154191A (zh) * 2018-01-12 2018-06-12 北京经舆典网络科技有限公司 文档图像的识别方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111488931B (zh) * 2020-04-10 2023-04-07 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
US20220182497A1 (en) * 2020-12-07 2022-06-09 Canon Kabushiki Kaisha Image processing system, image processing apparatus, control method
CN113704184A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 一种文件分类方法、装置、介质及设备
CN114239881A (zh) * 2021-12-13 2022-03-25 国网河南省电力公司漯河供电公司 一种基于cnn技术的继电保护定值核对方法及系统
CN117593752A (zh) * 2024-01-18 2024-02-23 星云海数字科技股份有限公司 一种pdf文档录入方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN110807309B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN110807309B (zh) 一种pdf文档的内容类型识别方法、装置及电子设备
CN108960073B (zh) 面向生物医学文献的跨模态图像模式识别方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN106980868B (zh) 用于具有多个文本标签的图像的嵌入空间
CN108764195B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
GB2547068B (en) Semantic natural language vector space
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN109948149B (zh) 一种文本分类方法及装置
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
AU2016256764A1 (en) Semantic natural language vector space for image captioning
US11562203B2 (en) Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113486175B (zh) 文本分类方法、文本分类装置、计算机设备及存储介质
CN113901954A (zh) 一种文档版面的识别方法、装置、电子设备及存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
US20210256115A1 (en) Method and electronic device for generating semantic representation of document to determine data security risk
Krishnan et al. Detection of alphabets for machine translation of sign language using deep neural net
CN110968697A (zh) 文本分类方法、装置、设备及可读存储介质
CN111144369A (zh) 一种人脸属性识别方法和装置
KR102244982B1 (ko) 이미지 학습을 이용한 텍스트 필터링 방법 및 장치
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN112200216A (zh) 汉字识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant