CN117668336A

CN117668336A - 文档处理方法及装置

Info

Publication number: CN117668336A
Application number: CN202211042633.XA
Authority: CN
Inventors: 熊龙飞; 段纪伟; 朱熠锷
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Wuhan Kingsoft Office Software Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Wuhan Kingsoft Office Software Co Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-03-08

Abstract

本发明提供一种文档处理方法及装置，其中，该方法包括：拍摄目标文档，获取第一图片；基于第一图片，生成目标格式的第一文件，并基于第一图片，对第一文件进行分类，确定第一文件的第一类型；提取第一图片中的文字信息，并基于文字信息，确定第一文件的第二类型；第二类型是第一类型的子类型。本发明提供的文档处理方法及装置，通过拍摄目标文档，获取第一图片，基于第一图片进行粗分类，自动确定第一文件的第一类型，然后基于第一图片中的文字信息进行细分类，自动确定第一文件的第二类型，能更快速、高效地确定第一文件的第一类型和第二类型，能基于第一文件的第一类型和第二类型，对第一文件进行更高效的归类，能提高纸质文档归类的效率。

Description

文档处理方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文档处理方法及装置。

背景技术

目前，可以通过扫描仪将纸质文档扫描为PDF格式的文件，然后将PDF格式的文件转成docx、xlsx或pptx等格式的文件。对于docx、xlsx或pptx等格式的文件，通常可以通过人工将其手动标记为文档类、表格格式或证件类等类型，从而根据类型快速进行查找，以查找到目标文件。但现有方法存在效率低等不足。

发明内容

本发明提供一种文档处理方法及装置，用以解决现有技术中文档归类的效率低的缺陷，实现高效率的文档自动电子化及归类。

本发明提供一种文档处理方法，包括：

拍摄目标文档，获取第一图片；

基于所述第一图片，生成目标格式的第一文件，并基于所述第一图片，对所述第一文件进行分类，确定所述第一文件的第一类型；

提取所述第一图片中的文字信息，并基于所述文字信息，确定所述第一文件的第二类型；所述第二类型是所述第一类型的子类型。

根据本发明提供的一种文档处理方法，所述拍摄目标文档，获取第一图片之后，还包括：

基于所述第一图片，获取关键字；

基于所述关键字，对所述第一文件进行命名。

根据本发明提供的一种文档处理方法，所述基于所述第一图片，对所述第一文件进行分类，确定所述第一文件的第一类型之后，还包括：

基于所述第一类型，设置所述第一文件的第一标签；

所述提取所述第一图片中的文字信息，并基于所述文字信息，确定所述第一文件的第二类型之后，还包括：

基于所述第二类型，设置所述第一文件的第二标签；

基于所述第一标签和所述第二标签，对所述第一文件进行归档处理。

根据本发明提供的一种文档处理方法，所述基于所述第一标签和所述第二标签，对所述第一文件进行归档处理之后，还包括：

响应于文件查询操作，接收第一查询标签和第二查询标签；

基于所述第一查询标签和所述第二查询标签，查询已进行归档处理的文件。

根据本发明提供的一种文档处理方法，所述基于所述第一图片，确定所述第一文件的第一类型，包括：

基于特征提取网络，对所述第一图片进行特征提取，获取图像特征；

将所述图像特征输入分类器，获取所述第一类型。

根据本发明提供的一种文档处理方法，所述拍摄目标文档，获取第一图片，包括：

拍摄所述目标文档，获取第二图片；

对所述第二图片进行图像校正处理，获取所述第一图片。

根据本发明提供的一种文档处理方法，所述基于所述第一图片，生成目标格式的第一文件，包括：

接收用户的第一输入；

响应于所述第一输入，基于所述第一图片，生成所述目标格式的所述第一文件；所述目标格式是基于所述第一输入确定的。

根据本发明提供的一种文档处理方法，所述对所述第二图片进行图像校正处理，获取所述第一图片包括：

对所述第二图片进行边缘检测，获取所述第二图片中文档区域的边缘和顶点；

基于所述顶点，对所述边缘进行透视变换，获取所述第一图片。

根据本发明提供的一种文档处理方法，所述基于所述顶点，对所述边缘进行透视变换，获取所述第一图片，包括：

基于所述顶点的坐标，获取透视变换矩阵；

基于所述透视变换矩阵，对所述边缘进行透视变换，获取所述第一图片。

本发明还提供一种文档处理装置，包括：

拍摄模块，用于拍摄目标文档，获取第一图片；

第一处理模块，用于基于所述第一图片，生成目标格式的第一文件，并基于所述第一图片，对所述第一文件进行分类，确定所述第一文件的第一类型；

第二处理模块，用于提取所述第一图片中的文字信息，并基于所述文字信息，确定所述第一文件的第二类型；所述第二类型是所述第一类型的子类型。

根据本发明提供的一种文档处理装置，还包括：

关键字获取模块，用于基于所述第一图片，获取关键字；

命名模块，用于基于所述关键字，对所述第一文件进行命名。

根据本发明提供的一种文档处理装置，还包括：

第一设置模块，用于基于所述第一类型，设置所述第一文件的第一标签；

第二设置模块，用于基于所述第二类型，设置所述第一文件的第二标签；

归档模块，用于基于所述第一标签和所述第二标签，对所述第一文件进行归档处理。

根据本发明提供的一种文档处理装置，还包括：

接收模块，用于响应于文件查询操作，接收第一查询标签和第二查询标签；

查询模块，用于基于所述第一查询标签和所述第二查询标签，查询已进行归档处理的文件。

根据本发明提供的一种文档处理装置，所述第一处理模块，包括：

特征提取单元，用于基于特征提取网络，对所述第一图片进行特征提取，获取图像特征；

分类单元，用于将所述图像特征输入分类器，获取所述第一类型。

根据本发明提供的一种文档处理装置，所述拍摄模块，包括：

拍摄单元，用于拍摄所述目标文档，获取第二图片；

校正单元，用于对所述第二图片进行图像校正处理，获取所述第一图片。

接收单元，用于接收用户的第一输入；

文件生成单元，用于响应于所述第一输入，基于所述第一图片，生成所述目标格式的所述第一文件；所述目标格式是基于所述第一输入确定的。

根据本发明提供的一种文档处理装置，所述校正单元，包括：

边缘检测子单元，用于对所述第二图片进行边缘检测，获取所述第二图片中文档区域的边缘和顶点；

透视变换子单元，用于基于所述顶点，对所述边缘进行透视变换，获取所述第一图片。

根据本发明提供的一种文档处理装置，所述透视变换子单元，具体用于基于所述顶点的坐标，获取透视变换矩阵；基于所述透视变换矩阵，对所述边缘进行透视变换，获取所述第一图片。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文档处理方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文档处理方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文档处理方法。

本发明提供的文档处理方法及装置，通过拍摄目标文档，获取第一图片，基于第一图片进行粗分类，自动确定第一文件的第一类型，然后基于第一图片中的文字信息进行细分类，自动确定第一文件对应的第一类型的子类型，作为第一文件的第二类型，能实现随手拍摄合同、简历或书籍等纸质文档，将纸质文档转化成可编辑的电子文件，能更快速、高效地确定第一文件的第一类型和第二类型，从而能基于第一文件的第一类型和第二类型，对第一文件进行更高效的归类，能实现更高效率的文档自动电子化及归类，能大大提高纸质文档电子化和归类的效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文档处理方法的流程示意图；

图2是本发明提供的第一文件的示意图；

图3是本发明提供的查询已进行归档处理的文件的界面的示意图；

图4是本发明提供的第二图片的示意图；

图5是本发明提供的第一图片的示意图；

图6是本发明提供的获取第一输入的界面的示意图；

图7是本发明提供的文档处理装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例的描述中，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性，且不涉及顺序。

下面结合图1至图8描述本发明提供的文档处理方法及装置。

图1是本发明提供的文档处理方法的流程示意图。如图1所示，本发明实施例提供的文档处理方法的执行主体可以为文档处理装置，该方法包括：步骤101、步骤102和步骤103。

具体地，该文档处理装置可以以各种形式来实施。例如，本发明实施例中描述的文档处理装置可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、智能手环、智能手边、数码相机等等的移动终端以及诸如数字TV、台式计算机(PC)、嵌入式设备等等的固定终端。下面，假设文档处理装置是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明实施例的构造也能够应用于固定类型的终端。

步骤101、拍摄目标文档，获取第一图片。

具体地，本发明实施例中的文档处理装置可以包括至少一个摄像头。

目标文档为纸质文档。用户可以根据需要，向该文档处理装置输入用于拍摄图像的拍摄指令，控制至少一个摄像头，基于设定的拍摄参数(包括感光度、快门时间、焦距和白平衡等)拍摄目标文档，以获取第一图片。

例如，在手机包括一个前摄像头和多个后摄像头的情况下，通过拍摄指令，可以控制前摄像头拍摄目标文档；也可控制任一后摄像头拍摄第一图像；还可以控制多个后摄像头拍摄目标文档。

第一图片的数量可以为一张或多张，第一图片的数量与目标文档的页数相同或不同，一张第一图片可以承载目标文档中的至少一页，也可以仅承载目标文档中任意一页的部分内容。

可选地，可以通过拍摄目标文档，直接获得第一图片，也可以对拍摄目标文档得到的图片进行图像处理之后，得到第一图片。

步骤102、基于第一图片，生成目标格式的第一文件，并基于第一图片，对第一文件进行分类，确定第一文件的第一类型。

具体地，可以将第一图片转换为目标格式的第一文件。

可选地，通过拍摄目标文档获得一张或多张第一图片之后，可以全部第一图片上传至服务端。服务端可以运行版式还原程序。版式还原程序，可以用于检测出文字和图片位置以及文字内容；如果含有表格时，将识别出表格线和单元格及表格的文字内容。通过运行版式还原程序，第一图片可以被转换成标准的PDF、docx、xlsx或pptx等目标格式的第一文件。转换得到的第一文件可以如图2所示。

可选地，目标格式可以是预先设定的默认的一种或多种文件格式，也可以是基于用户的输入确定的一种或多种文件格式。

可选地，目标格式可以包括PDF、docx、xlsx或pptx等格式中的至少一种。

可选地，目标格式可以包括普通文档、幻灯片、表格、PDF、书籍和证件等中的至少一种。

通过上述步骤，可以不用通过扫描仪将文档扫描保存成PDF格式的文档，可以实现直接通过手机等文档处理装置拍摄纸质的目标文档生成可编辑的电子文档(即第一文件)。

可选地，可以通过基于人工智能(Artificial Intelligence，AI)等技术，对第一图片进行识别和分类，实现对第一文件的分类，从而确定第一文件的第一类型。

第一类型，可以包括基础图文类、表格格式类、工程图(CAD)类、证件类、试卷类和小票类等。

第一类型，可以是每一种目标格式的文件进一步细分确定的类型。

可以将第一图片输入预先训练好的第一模型，通过第一模型对第一图片进行特征提取和特征分类，输出第一文件的第一类型。

可以理解的是，第一模型，可以是基于样本图片和样本图片对应的第一类型标签进行训练后得到的。样本图片对应的第一类型标签，用于指示样本图片电子化后的电子文件的第一类型。可以将样本图片作为训练样本，将该样本图片对应的第一类型标签作为该训练样本对应的标签进行训练，从而得到训练好的第二模型。

可选地，第一模型，可以用于通过图像检测和分类技术对目标文档进行粗分类。

步骤103、提取第一图片中的文字信息，并基于文字信息，确定第一文件的第二类型；第二类型是第一类型的子类型。

具体地，可以先对第一图片进行文字检测，判断第一图片中是否存在文字。

文字检测的方法，可以包括形态学操作、MSER+NMS、SWT、CTPN、SegLink和EAST等方法中的至少一种。

可选地，如果存在文字，可以进行后续的文字识别处理，基于任一种文字识别方法，提取第一图片中的文字信息。

提取第一图片中的文字信息之后，可以基于文字信息所描述的内容，确定第一文件的第二类型。第二类型，可以是对第一类型进一步细分确定的类型，即第二类型是第一类型的子类型。

可选地，每一种第一类型，均可以包括至少一种子类型，即包括至少一个第二类型。某一第一类型包括的某一子类型，可以与另一第一类型包括的一个子类型相同，也可以与另一第一类型包括的各子类型均不相同。

示例性地，第一类型为表格格式类的第一文件或普通文档格式的第一文件，第二类型可以为简历类、财务报表类(可以简称“财报类”)、报名表类或保险单类等。

可选地，可以通过基于人工智能(Artificial Intelligence，AI)等技术，利用训练好的第二模型，确定第一文件的第二类型。

可选地，可以基于第一图片中的文字信息提取特征向量，将特征向量输入训练好的第二模型，获取第二模型输出的第一文件的第二类型。

可选地，第二模型，可以是基于样本文本的特征向量和样本文本的第二类型标签进行训练后得到的。可以将样本文本的特征向量作为训练样本，将该样本文本的第二类型标签作为该训练样本对应的标签进行训练，从而得到训练好的第二模型。

可选地，第二模型，可以是基于卷积神经网络(Convolutional Neural Networks，CNN)、全卷积神经网络(Fully Convolutional Networks，FCN)和循环神经网络(RecurrentNeural Network，RNN)等的模型。本发明实施例对于第二模型的选择不作具体限定。

可选地，可以基于自然语言处理(Natural Language Processing，NLP)技术中的任一种文本特征的表示方法，获取特征向量。示例性地，文本特征的表示方法可以采用独热(one-hot)编码、词袋模型(Bag Of Word,BOW)、词频-逆文档频率(Term Frequency-Inverse Document Frequency，TF-IDF)或N-gram模型。本发明实施例对采用的文本特征的表示方法不进行具体限定。

可选地，可以基于第一图片中的文字信息和预设的词表，得到特征向量。示例性地，预设的词表共有n个词(n为正整数)，相应地特征向量可以为n维。

示例性地，可以基于第一图片中的文字信息是否包含词表中的每个词，得到特征向量。第一图片中的文字信息包含预设的词表中的某个词，则特征向量中该词对应的元素的值为1；否则特征向量中该词对应的元素的值为0。

示例性地，可以基于词表中的每个词在第一图片中的文字信息中出现的次数，得到特征向量。词表中的某个词在第一图片中的文字信息中出现的次数为m(m为非负整数)，则特征向量中该词对应的元素的值为m。

本发明实施例通过拍摄目标文档，获取第一图片，基于第一图片进行粗分类，自动确定第一文件的第一类型，然后基于第一图片中的文字信息进行细分类，自动确定第一文件对应的第一类型的子类型，作为第一文件的第二类型，能实现随手拍摄合同、简历或书籍等纸质文档，将纸质文档转化成可编辑的电子文件，能更快速、高效地确定第一文件的第一类型和第二类型，从而能基于第一文件的第一类型和第二类型，对第一文件进行更高效的归类，能实现高效率的文档自动电子化及归类，能大大提高纸质文档电子化和归类的效率。

可选地，在本发明实施例一些可能的实现方式中，拍摄目标文档，获取第一图片之后，还包括：对第一图片进行文字识别处理，获取关键字。

具体地，关键字，为用于描述目标文档的内容的关键字。

在第一图片中存在文字的情况下，可以对第一图片进行文字识别处理，识别出第一图片中的文字；识别出第一图片中的文字之后，可以对第一图片中的文字进行关键词提取，获取关键字。

可选地，对第一图片中的文字进行关键词提取，可以采用任一种基于统计特征的关键词提取方法(例如TF或TF-IDF等)、任一种基于词图模型的关键词提取方法(例如PageRank或TextRank等)、任一种基于主题模型的关键词提取方法(例如LDA等)或者任一种有监督关键词提取方法。

可选地，可以通过文字识别方法，获取第一图片中的文字，得到第一图片中的文字信息。

可选地，可以将预先获取的词库中的每一特定词语与第一图片中的文字信息进行匹配，将第一文本包含的特定词语，作为关键字。

可选地，在第一图片中的文字信息不包含特定词语的情况下，将通过NLP(自然语言处理，Natural Language Processing)技术(示例性地，可以使用jieba、Textrank4zh、SnowNLP等工具或算法)对从整张第一图片提取的第一图片中的文字信息进行关键信息抽取，得到关键字。

可选地，如果第一图片中不存在文字，则可以通过任一种图像内容识别方法，对第一图片进行图像内容识别，获取第一图片的内容标签，作为关键字。

基于关键字，对第一文件进行命名。

具体地，可以关键字，或者将包括关键字的字符组合作为第一文件的文件名。

可选地，可以基于关键字对应的文件名模板，将关键字填入文件名模板中，得到第一文件的文件名。

可选地，文件名模板可以从服务端获取。文件名模板，可以为常用的证件或者文件命名。

可选地，可以通过OCR(Optical Character Recognition，光学文字识别)技术，逐张对每一第一图片进行识别；识别出来的字段如果存在特定词语，如“简历”、“合同”或“身份证”等，可以基于预设的文件名模板，将关键字如“###”(姓名)加上“简历”作为文件名对第一图片和第一文件进行命名。

示例性地，在关键字包括“合同”的情况下，可以将“###”(可以为关键字“租赁”或“房屋买卖”等)加上“合同”作为第一文件的文件名。

本发明实施例通过对第一图片进行文字识别处理，获取关键字，基于关键字，对第一文件进行命名，通过文档识别和分类技术自动给第一文件命名，用户能通过文件名更快速了解到目标文档和第一文件的大体内容。

可选地，在本发明实施例一些可能的实现方式中，基于第一图片，对第一文件进行分类，确定第一文件的第一类型之后，还包括：基于第一类型，设置第一文件的第一标签。

具体地，确定第一文件的第一类型之后，可以设置第一文件的第一标签。第一文件的第一标签，用于指示第一文件的第一类型，因而第一文件的第一标签可以根据第一文件的第一类型确定。

第一文件的第一类型，还可以作为用于生成该第一文件的第一图片的第一类型。

提取第一图片中的文字信息，并基于文字信息，确定第一文件的第二类型之后，还包括：基于第二类型，设置第一文件的第二标签。

具体地，确定第一文件的第二类型之后，可以设置第一文件的第二标签。第一文件的第二标签，用于指示第一文件的第二类型，因而第一文件的第二标签可以根据第一文件的第二类型确定。

第一文件的第二类型，还可以作为用于生成该第一文件的第一图片的第二类型。

基于第一标签和第二标签，对第一文件进行归档处理。

具体地，可以基于第一标签，将第一文件和与其第一标签相同的其他文件归档为一类；然后可以基于第二标签，将第一文件和该类文件中与其第二标签相同的其他文件归档为该类的一个子类。

本发明实施例基于第一类型，设置第一文件的第一标签，基于第二类型，设置第一文件的第二标签，基于第一标签和第二标签，对第一文件进行归档处理，能更快速、高效地将第一文件归档于相应的类和子类，能大大提高纸质文档归档的效率。并且，可以基于第一标签和第二标签自动归档第一图片和/或第一文件，能大大提高相册和/或文件的管理效率。

可选地，在本发明实施例一些可能的实现方式中，基于第一标签和第二标签，对第一文件进行归档处理之后，还包括：响应于文件查询操作，接收第一查询标签和第二查询标签。

具体地，用户可以对该文档处理装置进行文件查询操作，在响应文件查询操作的过程中，该文档处理装置可以接收用户输入的第一查询标签和第二查询标签。

第一查询标签属于第一标签集合，第一标签集合中包括上述第一文件的第一标签。第二查询标签属于第二标签集合，第二标签集合中包括上述第一文件的第二标签。

可选地，用户可以通过直接输入或者从列表中进行选择等方式，输入第一查询标签。

可选地，用户可以通过直接输入或者从列表中进行选择等方式，输入第二查询标签。

基于第一查询标签和第二查询标签，查询已进行归档处理的文件。

具体地，基于第一查询标签，查询已进行归档处理的文件，可以获取其中第一标签为第一查询标签的文件；基于第二查询标签，可以对上述第一标签为第一查询标签的文件进行查询，获取其中第二标签为第二查询标签的文件。

图3是本发明提供的查询已进行归档处理的文件的界面的示意图。如图3所示，进行归档后，该界面先显示第一区域310，用户可以通过点击第一区域310中的控件301的方式，进行文件查询操作；控件301对应的第一查询标签为“表格”，因而可以接收到第一查询标签为“表格”；基于第一查询标签“表格”进行查询，在全部42个文件中可以获取10个文件，在该界面中显示第二区域320；用户如果需要进一步在表格格式中列出财报，而不包含其他表格，可以通过点击第二区域320中的控件302的方式，继续进行文件查询操作；控件302对应的第二查询标签为“财报”，因而可以接收到第二查询标签为“财报”；基于第二查询标签“财报”进行查询，在上述10个文件中可以获取4个文件：财报1、财报2、财报3和财报4，并将上述4个文件的图标显示于该界面的第三区域330中。

第一区域310中的控件，可以用于指示第一类型以及该第一类型的文件的数量。第二区域320中的控件，可以用于指示第一类型“表格”的子类型及该子类型的文件的数量。

本发明实施例基于第一查询标签和第二查询标签，查询已进行归档处理的文件，能更方便地查询文件，能更快速查找到用户需要的文件，能提高文件查询的效率。

可选地，在本发明实施例一些可能的实现方式中，基于第一图片，对第一文件进行分类，确定第一文件的第一类型，包括：基于特征提取网络，对第一图片进行特征提取，获取图像特征。

具体地，特征提取网络，可以采用任一种人工神经网络(Artificial NeuralNetwork，ANN)。

人工神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。人工神经网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。人工神经网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。因此，可以利用人工神经网络，提取出第一图片的特征，从而得到上述的图像特征。

示例性地，固定端可以采用ResNet(深度残差网络，Deep residual network)等卷积神经网络作为特征提取网络，移动端可以采用MobileNet等卷积神经网络作为特征提取网络，对第一图片进行特征提取。

将图像特征输入分类器，获取第一类型。

具体地，分类器，用于对图像特征进行分类。将图像特征输入分类器，可以获取分类器输出的第一文件的第一类型。

本发明实施例中，分类器可以采用决策树、逻辑回归、朴素贝叶斯和人工神经网络中的任意一种。

示例性地，分类器可以采用人工神经网络，该人工神经网络包括至少一层全连接层，将图像特征经过全连接层处理之后，可以输出第一文件的第一类型。

本发明实施例通过基于特征提取网络，对第一图片进行特征提取，获取图像特征，将图像特征输入分类器，获取分类器输出的第一文件的第一类型，能更高效、快速、准确地确定第一文件的第一类型。

可选地，在本发明实施例一些可能的实现方式中，拍摄目标文档，获取第一图片，包括：拍摄目标文档，获取第二图片。

具体地，用户可以根据需要，向该文档处理装置输入用于拍摄图像的拍摄指令，控制至少一个摄像头，基于设定的拍摄参数(包括感光度、快门时间、焦距和白平衡等)拍摄目标文档，得到第二图片。

对第二图片进行图像校正处理，获取第一图片。

具体地，可以采用任一种图像校正方法，分别对每一张第二图片进行校正处理，校正该第二图片，得到第一图片。

校正后的第二图片，即第一图片，可以与铺平目标文档通过扫描仪扫描获得的电子文件的效果接近。

本发明实施例通过对拍摄得到的第二图片进行图像校正处理，获取第一图片，能得到显示效果更好的第一文档。

可选地，在本发明实施例一些可能的实现方式中，对第二图片进行图像校正处理，获取第一图片，包括：对第二图片进行边缘检测，获取第二图片中文档区域的边缘(或称边界)和顶点。

具体地，第二图片可以为在拍摄时的实时预览界面显示的预览图。

可选地，可以通过边缘检测技术对预览图进行边缘检测，在实时预览界面绘制检测到的文档区域的边缘。

可以理解的是，基于文档区域的边缘，可以确定文档区域的顶点。通常情况下，文档区域的顶点的数量为4个，当然本发明不排除顶点数量为其余数量的情况，下面以文档区域的顶点的数量为4个为例进行说明。

基于顶点，对边缘进行透视变换，获取第一图片。

具体地，文档区域的顶点，可以用于透视变换。基于文档区域的顶点，根据透视变换的原理，可以对文档区域的边缘进行透视变换，实现对第二图片的校正，从而可以获得第一图片。

图4示出了第二图片；图5示出了对图4所示的第二图片进行图像校正处理后得到的第一图片。

本发明实施例通过第二图片进行边缘检测，获取第二图片中文档区域的边缘和顶点，基于顶点，对边缘进行透视变换，实现对第二图片的校正，能得到对第一文档的显示效果更好的第一图片。

可选地，在本发明实施例一些可能的实现方式中，基于顶点，对边缘进行透视变换，获取第一图片，包括：基于顶点的坐标，获取透视变换矩阵。

具体地，透视变换是把一个图像投影到一个新的视平面的过程，该过程包括：把一个二维坐标系转换为三维坐标系，然后把三维坐标系投影到新的二维坐标系。该过程是一个非线性变换过程。

可以获取第二图片中第一文档覆盖的区域的四个顶点(左上顶点、右上顶点、左下顶点和右下顶点)的坐标。上述四个顶点的坐标，是透视变换前的坐标。

透视变换后四个顶点的坐标要满足约束条件：左上顶点的横坐标与左下顶点的横坐标相同，左上顶点的纵坐标与右上顶点的纵坐标相同，右上顶点的横坐标与右下顶点的横坐标相同，且左下顶点的纵坐标与右下顶点的纵坐标相同。

基于上述约束条件和透视变换前四个顶点的坐标，可以得到透视变换后四个顶点的坐标。

基于透视变换前四个顶点的坐标和透视变换后四个顶点的坐标，可以得到透视变换矩阵。

基于透视变换矩阵，对边缘进行透视变换，获取第一图片。

具体地，可以基于透视变换矩阵，对边缘进行透视变换，获取透视变换后边缘上各点的坐标，从而将第二图片中第一文档覆盖的区域为不规则的四边形，变换为矩形，从而得到第一图片。

本发明实施例基于第二图片中文档区域的顶点的坐标，获取透视变换矩阵，基于透视变换矩阵，对第二图片中文档区域的边缘进行透视变换，获取第一图片，能实现对第二图片的校正，从而能得到对第一文档的显示效果更好的第一图片，进而提高后续分类的准确性。

可选地，在本发明实施例一些可能的实现方式中，基于第一图片，生成目标格式的第一文件，包括：接收用户的第一输入。

具体地，获取第一图片之后，用户可以根据需要输入用于指示目标格式的第一输入。该文档处理装置可以接收该第一输入。

第一输入，可以为用触控输入、语音输入、手势输入或按键输入等。

可以理解，上述列举的各个输入均是示例性的列举，即本发明实施例包括但不限于上述列举的各个输入。实际实现时，输入还可以包括其它任意可能的输入，可以根据实际使用需求具体确定，本发明实施例不作限定。

响应于第一输入，基于第一图片，生成目标格式的第一文件；目标格式是基于第一输入确定的。

具体地，第一输入用于指示目标格式，因此，可以基于第一输入，确定目标格式。确定目标格式之后，可以将第一图片转换为目标格式，从而得到目标格式的第一文件。

如图6所示，用户可以通过点击控件601、控件602、控件603、控件604和控件605中的一个或多个的方式，输入第一输入；点击控件601、控件602、控件603、控件604和控件605，分别用于指示目标格式为普通文档格式(doc格式或docx格式)、表格格式(xls格式或xls格式)、幻灯片格式(ppt格式或pptx格式)、PDF格式和图片格式。

本发明实施例通过响应于用户的第一输入，基于第一图片，生成目标格式的第一文件，能将目标文档自动转换为用户指定的目标格式的电子文件。

下面对本发明提供的文档处理装置进行描述，下文描述的文档处理装置与上文描述的文档处理方法可相互对应参照。

图7是本发明提供的文档处理装置的结构示意图。基于上述任一实施例的内容，如图7所示，该装置可以包括拍摄模块701、第一处理模块702和第二处理模块703，其中：

拍摄模块701，用于拍摄目标文档，获取第一图片；

第一处理模块702，用于基于第一图片，生成目标格式的第一文件，并基于第一图片，对第一文件进行分类，确定第一文件的第一类型；

第二处理模块703，用于提取第一图片中的文字信息，并基于文字信息，确定第一文件的第二类型；第二类型是第一类型的子类型。

具体地，拍摄模块701和处理模块702可以电连接。

拍摄模块701可以控制至少一个摄像头，基于设定的拍摄参数(包括感光度、快门时间、焦距和白平衡等)拍摄目标文档，以获取第一图片。

处理模块702可以将第一图片转换为目标格式的第一文件。

处理模块702还可以通过基于人工智能(Artificial Intelligence，AI)等技术，对第一图片进行识别和分类，实现对第一文件的分类，从而确定第一文件的第一类型。

可选地，该文档处理装置，可以还包括：

关键字获取模块，用于基于第一图片，获取关键字；

命名模块，用于基于关键字，对第一文件进行命名。

可选地，该文档处理装置，可以还包括：

第一设置模块，用于基于第一类型，设置第一文件的第一标签；

第二设置模块，用于基于第二类型，设置第一文件的第二标签；

归档模块，用于基于第一标签和第二标签，对第一文件进行归档处理。

可选地，该文档处理装置，可以还包括：

查询模块，用于基于第一查询标签和第二查询标签，查询已进行归档处理的文件。

可选地，第一处理模块702，可以包括：

特征提取单元，用于基于特征提取网络，对第一图片进行特征提取，获取图像特征；

分类单元，用于将图像特征输入分类器，获取第一类型。

可选地，拍摄模块701，可以包括：

拍摄单元，用于拍摄目标文档，获取第二图片；

校正单元，用于对第二图片进行图像校正处理，获取第一图片。

可选地，第一处理模块702，可以包括：

接收单元，用于接收用户的第一输入；

文件生成单元，用于响应于第一输入，基于第一图片，生成目标格式的第一文件；目标格式是基于第一输入确定的。

可选地，校正单元，可以包括：

边缘检测子单元，用于对第二图片进行边缘检测，获取第二图片中文档区域的边缘和顶点；

透视变换子单元，用于基于顶点，对边缘进行透视变换，获取第一图片。

可选地，透视变换子单元，可以具体用于基于顶点的坐标，获取透视变换矩阵；基于透视变换矩阵，对边缘进行透视变换，获取第一图片。

本发明实施例提供的文档处理装置，用于执行本发明上述文档处理方法，其实施方式与本发明提供的文档处理方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

该文档处理装置用于前述各实施例的文档处理方法。因此，在前述各实施例中的文档处理方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

本发明实施例通过拍摄目标文档，获取第一图片，基于第一图片进行粗分类，自动确定第一文件的第一类型，然后基于第一图片中的文字信息进行细分类，自动确定第一文件对应的第一类型的子类型，作为第一文件的第二类型，能实现随手拍摄合同、简历或书籍等纸质文档，将纸质文档转化成可编辑的电子文件，能更快速、高效地确定第一文件的第一类型和第二类型，从而能基于第一文件的第一类型和第二类型，对第一文件进行更高效的归类，能实现更高效率的文档自动电子化及归类，能大大提高纸质文档电子化和归类的效率。

图8是本发明提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行文档处理方法，该方法包括：拍摄目标文档，获取第一图片；基于第一图片，生成目标格式的第一文件，并基于第一图片，对第一文件进行分类，确定第一文件的第一类型；提取第一图片中的文字信息，并基于文字信息，确定第一文件的第二类型；第二类型是第一类型的子类型。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的电子设备中的处理器810可以调用存储器830中的逻辑指令，其实施方式与本申请提供的文档处理方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法所提供的文档处理方法，该方法包括：拍摄目标文档，获取第一图片；基于第一图片，生成目标格式的第一文件，并基于第一图片，对第一文件进行分类，确定第一文件的第一类型；提取第一图片中的文字信息，并基于文字信息，确定第一文件的第二类型；第二类型是第一类型的子类型。

本发明实施例提供的计算机程序产品被执行时，实现上述文档处理方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文档处理方法，该方法包括：拍摄目标文档，获取第一图片；基于第一图片，生成目标格式的第一文件，并基于第一图片，对第一文件进行分类，确定第一文件的第一类型；提取第一图片中的文字信息，并基于文字信息，确定第一文件的第二类型；第二类型是第一类型的子类型。

本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述文档处理方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文档处理方法，其特征在于，包括：

拍摄目标文档，获取第一图片；

2.根据权利要求1所述的文档处理方法，其特征在于，所述拍摄目标文档，获取第一图片之后，还包括：

对所述第一图片进行文字识别处理，获取关键字；

基于所述关键字，对所述第一文件进行命名。

3.根据权利要求1所述的文档处理方法，其特征在于，所述基于所述第一图片，对所述第一文件进行分类，确定所述第一文件的第一类型之后，还包括：

基于所述第一类型，设置所述第一文件的第一标签；

基于所述第二类型，设置所述第一文件的第二标签；

4.根据权利要求3所述的文档处理方法，其特征在于，所述基于所述第一标签和所述第二标签，对所述第一文件进行归档处理之后，还包括：

响应于文件查询操作，接收第一查询标签和第二查询标签；

5.根据权利要求1所述的文档处理方法，其特征在于，所述基于所述第一图片，对所述第一文件进行分类，确定所述第一文件的第一类型，包括：

将所述图像特征输入分类器，获取所述第一类型。

6.根据权利要求1所述的文档处理方法，其特征在于，所述拍摄目标文档，获取第一图片，包括：

拍摄所述目标文档，获取第二图片；

对所述第二图片进行图像校正处理，获取所述第一图片。

7.根据权利要求1所述的文档处理方法，其特征在于，所述基于所述第一图片，生成目标格式的第一文件，包括：

接收用户的第一输入；

8.根据权利要求6所述的文档处理方法，其特征在于，所述对所述第二图片进行图像校正处理，获取所述第一图片，包括：

9.根据权利要求8所述的文档处理方法，其特征在于，所述基于所述顶点，对所述边缘进行透视变换，获取所述第一图片，包括：

基于所述顶点的坐标，获取透视变换矩阵；

10.一种文档处理装置，其特征在于，包括：

拍摄模块，用于拍摄目标文档，获取第一图片；