CN115641601A

CN115641601A - 车辆零件文档处理方法、装置、设备及存储介质

Info

Publication number: CN115641601A
Application number: CN202211140040.7A
Authority: CN
Inventors: 余国滔; 杨艺兴; 刘锦秋; 龙吕肖; 韩传玲; 李盛芳; 段萍; 蓝何鹏
Original assignee: Dongfeng Liuzhou Motor Co Ltd
Current assignee: Dongfeng Liuzhou Motor Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-01-24

Abstract

本发明公开了一种车辆零件文档处理方法、装置、设备及存储介质，该方法包括：将待处理的车辆零件文档转换为文档图像；对文档图像中的文字进行识别，获得文档图像中各部分文字的文档信息；根据文档信息和文档图像确定各部分文字的实体类型，根据与实体类型对应的处理方式对文档信息进行处理，获得车辆零件文档对应的结构化文档。本发明将车辆零件文档转换为文档图像，根据对文档图像中的文字进行识别获得的文档信息和文档图像确定各部分文字的实体类型，根据与实体类型对应的处理方式将文档信息处理成结构化文档，能够基于结构化文档进行零件信息的提取，降低了人工阅读和筛选的工作量，提高了零件信息提取的效率。

Description

车辆零件文档处理方法、装置、设备及存储介质

技术领域

本发明涉及文档处理技术领域，尤其涉及一种车辆零件文档处理方法、装置、设备及存储介质。

背景技术

随着技术的发展，车辆越来越趋向于智能化，车辆的零件也越来越多，对应的标准文档也越来越繁杂，在需要从标准文档中获取某些零件的信息时，一般通过人工阅读标准文档，并从标准文档中筛选出需要的零件信息，工作效率低，无法满足生产需求。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种车辆零件文档处理方法、装置、设备及存储介质，旨在解决现有技术从零件标准文档中获取零件信息的效率低的技术问题。

为实现上述目的，本发明提供了一种车辆零件文档处理方法，所述方法包括以下步骤：

将待处理的车辆零件文档转换为文档图像；

对所述文档图像中的文字进行识别，获得所述文档图像中各部分文字的文档信息；

根据所述文档信息和所述文档图像确定各部分文字的实体类型，根据与所述实体类型对应的处理方式对所述文档信息进行处理，获得所述车辆零件文档对应的结构化文档。

可选地，所述将待处理的车辆零件文档转换为文档图像，包括：

获取图片转换参数；

根据所述图片转换参数将所述车辆零件文档转换为初始文档图像；

对所述初始文档图像进行灰度化处理，并对灰度化处理后的图像进行图像缩放处理，获得文档图像。

可选地，所述对所述文档图像中的文字进行识别，获得所述文档图像中各部分文字的文档信息，包括：

将所述文档图像输入预设文字检测网络，获得各部分文字的文字检测框和文字检测框的位置信息；

根据所述位置信息将对应的文字检测框进行扩张处理，获得各部分文字的扩张文字检测框；

根据所述扩张文字检测框对所述文档图像进行裁剪，获得各部分文字的文字图像；

将所述文字图像输入预设文字识别网络，获得各部分文字的文档信息。

可选地，所述对所述初始文档图像进行灰度化处理，包括：

通过预设灰度公式对所述初始文档图像进行灰度化处理；

其中，所述预设灰度公式为：

pixel(x,y)＝0.299*r(x,y)+0.587*g(x,y)+0.114*b(x,y)

式中，pixel(x,y)为灰度化处理后的颜色值；r(x,y)为灰度化处理前红色通道的颜色值；g(x,y)为灰度化处理前绿色通道的颜色值；b(x,y)为灰度化处理前蓝色通道的颜色值。

可选地，所述将所述文字图像输入预设文字识别网络，获得各部分文字的文档信息，包括：

根据所述位置信息在所述文字图像上选取水平检测点；

根据所述水平检测点确定所述文字图像中的文字检测框与水平方向之间的夹角；

根据所述夹角将所述文字图像中的文字检测框调整至水平方向，并将调整后的文字图像输入预设文字识别网络，获得各部分文字的文档信息。

可选地，所述文档信息包括页码信息、文字检测框信息和文本信息；

所述根据所述文档信息和所述文档图像确定各部分文字的实体类型，根据与所述实体类型对应的处理方式对所述文档信息进行处理，获得所述车辆零件文档对应的结构化文档，包括：

根据所述页码信息和所述文字检测框信息构建页码特征向量；

对所述文档图像对应的文字图像进行高层特征提取，获得文本特征向量；

通过词嵌入模型将所述文本信息转换为对应的文字特征向量；

根据所述页码特征向量、所述文本特征向量和所述文字特征向量构造三维特征向量；

将所述三维特征向量输入预设分类模型获得各部分文字的实体类型，所述实体类型包括文档标题、国标编码、段落标题、表格、图像、公式和注释；

根据与所述实体类型对应的处理方式对所述文档信息和所述文档图像进行处理，获得所述车辆零件文档对应的结构化文档。

可选地，所述根据与所述实体类型对应的处理方式对所述文档信息进行处理，包括：

在所述实体类型为公式时，根据与所述公式对应的文字检测框对在所述文档图像上裁剪出公式图像；以及

在所述实体类型为文档标题时，根据文字检测框的位置信息确定文本行，并根据所述文本行进行文本信息合并。

此外，为实现上述目的，本发明还提出一种车辆零件文档处理装置，所述装置包括：

转换模块，用于将待处理的车辆零件文档转换为文档图像；

识别模块，用于对所述文档图像中的文字进行识别，获得所述文档图像中各部分文字的文档信息；

处理模块，用于根据所述文档信息和所述文档图像确定各部分文字的实体类型，根据与所述实体类型对应的处理方式对所述文档信息进行处理，获得所述车辆零件文档对应的结构化文档。

此外，为实现上述目的，本发明还提出一种车辆零件文档处理设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的车辆零件文档处理程序，所述车辆零件文档处理程序配置为实现如上文所述的车辆零件文档处理方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有车辆零件文档处理程序，所述车辆零件文档处理程序被处理器执行时实现如上文所述的车辆零件文档处理方法的步骤。

本发明将待处理的车辆零件文档转换为文档图像；对所述文档图像中的文字进行识别，获得所述文档图像中各部分文字的文档信息；根据所述文档信息和所述文档图像确定各部分文字的实体类型，根据与所述实体类型对应的处理方式对所述文档信息进行处理，获得所述车辆零件文档对应的结构化文档。本发明将车辆零件文档转换为文档图像，根据对文档图像中的文字进行识别获得的文档信息和文档图像确定各部分文字的实体类型，根据与实体类型对应的处理方式将文档信息处理成结构化文档，能够基于结构化文档进行零件信息的提取，降低了人工阅读和筛选的工作量，提高了零件信息提取的效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的车辆零件文档处理设备的结构示意图；

图2为本发明车辆零件文档处理方法第一实施例的流程示意图；

图3为本发明车辆零件文档处理方法第二实施例的流程示意图；

图4为本发明车辆零件文档处理方法第三实施例的流程示意图；

图5为本发明车辆零件文档处理装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的车辆零件文档处理设备结构示意图。

如图1所示，该车辆零件文档处理设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对车辆零件文档处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及车辆零件文档处理程序。

在图1所示的车辆零件文档处理设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明车辆零件文档处理设备中的处理器1001、存储器1005可以设置在车辆零件文档处理设备中，所述车辆零件文档处理设备通过处理器1001调用存储器1005中存储的车辆零件文档处理程序，并执行本发明实施例提供的车辆零件文档处理方法。

本发明实施例提供了一种车辆零件文档处理方法，参照图2，图2为本发明车辆零件文档处理方法第一实施例的流程示意图。

本实施例中，所述车辆零件文档处理方法包括以下步骤：

步骤S10：将待处理的车辆零件文档转换为文档图像。

需要说明的是，本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备，例如平板电脑、个人电脑、手机等，或者是一种能够实现上述功能的电子设备、车辆零件文档处理设备等。以下以车辆零件处理设备为例，对本实施例及下述各实施例进行举例说明。

可以理解的是，车辆零件文档可以是国家标准的车辆零件标准文档，车辆零件文档一般是PDF格式的文档；文档图像可以是车辆零件文档对应的图像；将待处理的车辆零件文档转换为文档图像可以是通过预设工具将PDF格式的车辆零件文档转换为对应的文档图像。

步骤S20：对所述文档图像中的文字进行识别，获得所述文档图像中各部分文字的文档信息。

可以理解的是，对所述文档图像中的文字进行识别可以是先对文档图像进行文字检测，再对文档图像中检测到的文字进行文字识别；文档信息可以是文档中各部分文字信息，文档信息包括文档图像中各部分文字的位置信息和文字信息。

步骤S30：根据所述文档信息和所述文档图像确定各部分文字的实体类型，根据与所述实体类型对应的处理方式对所述文档信息进行处理，获得所述车辆零件文档对应的结构化文档。

可以理解的是，实体类型可以是文档图像中各部分文字的类型，实体类型包括文档标题、国标编码、段落标题、表格、图像、公式和注释等，实体类型可以是根据车辆零件国家标准的相关格式、文档重建算法和实际使用的需求确定的；根据所述文档信息和所述文档图像确定各部分文字的实体类型可以是根据文档信息和文档图像构造特征向量，将该特征向量输入预设模型，获得各部分文字对应的实体类型；结构化文档可以是根据各部分文字的实体类型，采用不同的处理方式对文档信息中的文字信息进行提取，并根据实体类型将提取后的文字信息进行重新组合后获得的文档；例如：文字的实体类型为公式，由于公式包含大量的特殊字符，适合采用图像的形式呈现，此时对应的处理方式为将公式部分对应的文字进行裁剪，获得公式对应的公式图像，根据公式的位置信息将公式图像放置在结构化文档中对应的位置。

在具体实施中，通过预设图片转换工具将PDF格式的车辆零件标准文档转换为对应的文档图像，先对文档图像进行文字检测，再对检测到的文字进行文字识别获得文档图像中各部分文字对应的文档信息，根据文档信息和文档图像构造特征向量，将特征向量输入预设模型，获得各部分文字对应的实体类型，根据与实体类型对应的处理方式处理对应的文档信息，获得车辆零件标准文档对应的结构化文档。

进一步地，为了将车辆零件标准文档转换为结构化文档，所述步骤S10，包括：获取图片转换参数；根据所述图片转换参数将所述车辆零件文档转换为初始文档图像；对所述初始文档图像进行灰度化处理，并对灰度化处理后的图像进行图像缩放处理，获得文档图像。

可以理解的是，图片转换参数可以是将车辆零件文档转换为文档图像的参数，图片转换参数包括开始页码、结束页码、旋转角度、分辨率和缩放系数等；根据图片转换参数将车辆零件文档转换为初始文档图像可以是根据图片转换参数，通过图片转换工具将PDF格式的标准零件文档转换为初始文档图像，所述图片转换工具可以是PyMuPDF工具。

在具体实施中，获取用户输入的开始页码、结束页码、旋转角度、分辨率和缩放系数等参数，通过该参数控制PyMuPDF工具将PDF格式的车辆零件文档转换为文档图像，将转换后的文档图像进行灰度化处理和缩放处理，获得最终的文档图像，PDF格式的车辆零件文档的转换过程可参照下式：

(image,page_num)＝process(pdf_convert(pdf,page_range,config))

式中，process为图像处理过程，(image,page_num)为输出的图像与页码的元组，pdf_convert表示pdf的转换过程，(pdf,page_range,config)为pdf文件、页码范围和相关的转换配置信息。

进一步地，为了提高文字检测和文字识别的准确度，所述对所述初始文档图像进行灰度化处理，包括：通过预设灰度公式对所述初始文档图像进行灰度化处理；其中，所述预设灰度公式为：

pixel(x,y)＝0.299*r(x,y)+0.587*g(x,y)+0.114*b(x,y)

可以理解的是，对进行灰度化处理后的图像进行缩放处理获得最终的文档图像可以是：获取灰度化文档图像的高度和宽度，在所述高度小于所述宽度时，通过第一预设缩放公式对所述灰度化文档图像进行缩放处理，获得最终的文档图像；其中，第一预设缩放公式为：

式中，short_size为设置的短边长度，height为灰度化文档图像的高度，width为灰度化文档图像的宽度，而new_height为最终的文档图像的高度，new_width最终的文档图像的宽度；在所述高度大于所述宽度时，则通过第二预设缩放公式对所述灰度化文档图像进行缩放处理，获得最终的文档图像；其中，第二预设缩放公式为：

本实施例将待处理的车辆零件文档转换为文档图像；对所述文档图像中的文字进行识别，获得所述文档图像中各部分文字的文档信息；根据所述文档信息和所述文档图像确定各部分文字的实体类型，根据与所述实体类型对应的处理方式对所述文档信息进行处理，获得所述车辆零件文档对应的结构化文档。本实施例将车辆零件文档转换为文档图像，根据对文档图像中的文字进行识别获得的文档信息和文档图像确定各部分文字的实体类型，根据与实体类型对应的处理方式将文档信息处理成结构化文档，能够基于结构化文档进行零件信息的提取，降低了人工阅读和筛选的工作量，提高了零件信息提取的效率。

参考图3，图3为本发明车辆零件文档处理方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S20包括：

步骤S201：将所述文档图像输入预设文字检测网络，获得各部分文字的文字检测框和文字检测框的位置信息。

可以理解的是，预设文字检测网络可以是DB Net网络；将文档图像输入DB Net网络，可以得到该网络输出的文档图像中各部分文字的文字检测框和文字检测框在文档图像中的位置信息；位置信息可以是文字检测框在文档图像中的像素坐标信息。

步骤S202：根据所述位置信息将对应的文字检测框进行扩张处理，获得各部分文字的扩张文字检测框。

可以理解的是，根据所述位置信息将对应的文字检测框进行扩张处理，获得各部分文字的扩张文字检测框可以是根据文字检测框的位置信息确定文字检测框的顶点像素坐标，根据所述顶点像素坐标通过预设扩张公式将各部分文字对应的文字检测框进行扩张处理，获得各部分文字的扩张文字检测框；其中，顶点像素坐标包括左上顶点像素坐标、左下顶点像素坐标、右上顶点像素坐标和右下顶点像素坐标；预设扩张公式为：

P_dst((x_lt,y_lt),(x_rt,y_rt),(x_lb,y_lb),(x_rb,y_rb))＝P_src((x_lt-t,y_lt-t),(x_rt+t,y_rt-t),(x_lb-t,y_lb+t),(x_rb+t,y_rb+t))

式中，(x_lt,y_lt)表示左上顶点像素坐标，(x_rt,y_rt)表示右上顶点像素坐标，(x_lb,y_lb)表示左下顶点像素坐标，(x_rb,y_rb)表示右下顶点像素坐标，t表示扩张距离，P_src表示扩张前的点，P_dst表示扩张后的点。

步骤S203：根据所述扩张文字检测框对所述文档图像进行裁剪，获得各部分文字的文字图像；

步骤S204：将所述文字图像输入预设文字识别网络，获得各部分文字的文档信息。

可以理解的是，预设文字识别网络可以是CRNN文字识别网络；将文字图像输入CRNN文字识别网络，即可获得CRNN文字识别网络输出的各部分文字的文档信息。

在具体实施中，车辆零件文档处理设备将文档图像输入DB Net网络，得到该网络输出的各部分文字对应的文字检测框和各文字检测框在文档图像中的像素坐标位置信息，从所述像素坐标位置信息中读取文字检测框的左上顶点像素坐标、左下顶点像素坐标、右上顶点像素坐标和右下顶点像素坐标，根据四个顶点的像素坐标和预设扩张公式对文字检测框进行扩张处理，获得扩张文字检测框，根据扩张文字检测框在文档图像上将各部分文字裁剪出，获得各部分文字对应的文字图像，将文字图像输入CRNN文字检测网络，获得CRNN文字检测网络输出的各部分文字的文档信息。

进一步地，为了提升文字识别的准确度，所述步骤S202包括：根据所述位置信息在所述文字图像上选取水平检测点；根据所述水平检测点确定所述文字图像中的文字检测框与水平方向之间的夹角；根据所述夹角将所述文字图像中的文字检测框调整至水平方向，并将调整后的文字图像输入预设文字识别网络，获得各部分文字的文档信息。

可以理解的是，水平检测点可以是用于检测文本检测框是否处于水平方向的检测点，水平检测点可在文本检测框上选取，例如选取文本检测框的左上顶点和右上顶点为水平检测点，或左下顶点和右下顶点为水平检测点，还可选取其他点为水平检测点，本实施例在此不作限制；根据所述水平检测点确定所述文字图像中的文字检测框与水平方向之间的夹角可以是根据水平检测点确定文字检测框在预设直角坐标系中的坐标位置，根据坐标位置确定文字检测框与水平方向之间的夹角；预设直角坐标系可以是以文字图像的左上顶点坐标为原点，以水平方向为X轴，以竖直方向为Y轴构建测直角坐标系。

在具体实施中，例如选取的水平检测点为文字检测框的左上顶点A和右上顶点B，两个水平检测点在预设直角坐标系中的坐标分别为A：(x_lt,y_lt)和B：(x_rt,y_rt)，计算第一距离：x_d＝x_rt-x_lt；第二距离：y_d＝y_rt-y_lt，如果x_d＝0，则判断y_d的值，若y_d<0，则angel＝90度，此时将文字检测框绕顺时针方向旋转90度；假设y_d>0，则angel＝-90度，此时将文字检测框绕逆时针方向旋转90度；假设y_d＝0，则angel＝0度；如果x_d≠0，则可通过反三角函数计算夹角：angle＝arctan(y_d/x_d)，根据计算得到的角度旋转文字检测框，以将文字检测框调至水平方向，将调整后的文字图像输入至CRNN文字识别网络，获得各部分文字的文档信息。

本实施例将所述文档图像输入预设文字检测网络，获得各部分文字的文字检测框和文字检测框的位置信息；根据所述位置信息将对应的文字检测框进行扩张处理，获得各部分文字的扩张文字检测框；根据所述扩张文字检测框对所述文档图像进行裁剪，获得各部分文字的文字图像；将所述文字图像输入预设文字识别网络，获得各部分文字的文档信息。本实施例通过对文字检测框进行扩张处理，获得扩张文字检测框，根据扩张文字检测框裁剪文字图像，能够获得更大的文字区域，从而提高了文字识别的准确度。

参考图4，图4为本发明车辆零件文档处理方法第三实施例的流程示意图。

基于上述各实施例，在本实施例中，所述文档信息包括页码信息、文字检测框信息和文本信息，所述步骤S30，包括：

步骤S301：根据所述页码信息和所述文字检测框信息构建页码特征向量。

可以理解的是，页码信息可以是车辆零件文档的页码，文字检测框信息可以是各页码对应的文字检测框的信息，文字检测框信息包括文字检测框的序号和位置等信息；文档的页码特征向量需要根据该页文本检测框的个数N，构造一个N维的向量，该向量表示为：

P＝[page_num,0,0,......,0]

式中，page_num为页码，为了使向量维度相同，0为填充数值，填充数值的个数根据文本检测框的个数N确定，填充数值个数＝N-1。

步骤S302：对所述文档图像对应的文字图像进行高层特征提取，获得文本特征向量；

步骤S303：通过词嵌入模型将所述文本信息转换为对应的文字特征向量。

可以理解的是，可通过mobile net对文字图像进行高层特征提取，获得文本特征向量；通过词嵌入构造与文本信息对应的文字特征向量。

步骤S304：根据所述页码特征向量、所述文本特征向量和所述文字特征向量构造三维特征向量。

可以理解的是，三维特征向量可为：V＝P^N+CNN(I)^N+wordembeding(T)^N，其中V表示构造好的三维特征向量，I表示文字图像，T表示文本信息。

步骤S305：将所述三维特征向量输入预设分类模型获得各部分文字的实体类型，所述实体类型包括文档标题、国标编码、段落标题、表格、图像、公式和注释。

可以理解的是，预设分类模型可以是Bi-LSTM+CRF，将三维特征向量输入Bi-LSTM+CRF对各部分文字进行实体分类，获得各部分文字的实体类型。

在具体实施中，对页码信息、文字检测框信息、文字图像和文本信息加以利用，构造出一个三维特征向量，将三维特征向量输入Bi-LSTM+CRF进行实体分类，再通过Bi-LSTM构造的编码器进行编码，再使用CRF进行解码降维和简单的处理，得到的输出格式为“index,transcript,entity”的结果，其中index表示文字检测框的序号，transcript表示该文字检测框中的文本，而entity表示分类结果对应的实体类型。

步骤S306：根据与所述实体类型对应的处理方式对所述文档信息和所述文档图像进行处理，获得所述车辆零件文档对应的结构化文档。

进一步地，为了提高零件信息的提取效率，所述根据与所述实体类型对应的处理方式对所述文档信息进行处理，包括：在所述实体类型为公式时，根据与所述公式对应的文字检测框对在所述文档图像上裁剪出公式图像；以及在所述实体类型为文档标题时，根据文字检测框的位置信息确定文本行，并根据所述文本行进行文本信息合并。

在具体实施中，可根据“index,transcript,entity”确定文字检测框的序号以及该文字检测框对应文本信息和该文本信息的实体类型，先确定仅会出现一次的实体类型，例如文档标题、国标编码等，提取该类实体类型的文本信息；在实体类型为段落标题和注释时，根据文字检测框的位置信息划分不同的文本行，并将按照文本行将不同的文本信息合并；在实体类型为图像、公式时，可直接根据文字检测框的位置信息将文字图像中包含图像和公式的图像裁剪，例如对于位于同一行的公式，可确定左上顶点和右下顶点两个点，根据这两个点在文字图像上将公式裁剪出来，对于一般的图像来说，可直接在文档图像上裁剪出来；对于段落标题、表格和注释则按照实体在页码从前到后以及当前页上从上到下的位置排序即可，对不同的实体类型处理后，根据提取的字段按照页码和位置进行排序，即可获得车辆零件文档对应的结构化文档。

本实施例根据所述页码信息和所述文字检测框信息构建页码特征向量；对所述文档图像对应的文字图像进行高层特征提取，获得文本特征向量；通过词嵌入模型将所述文本信息转换为对应的文字特征向量；根据所述页码特征向量、所述文本特征向量和所述文字特征向量构造三维特征向量；将所述三维特征向量输入预设分类模型获得各部分文字的实体类型，所述实体类型包括文档标题、国标编码、段落标题、表格、图像、公式和注释；根据与所述实体类型对应的处理方式对所述文档信息和所述文档图像进行处理，获得所述车辆零件文档对应的结构化文档。本实施例通过页码特征向量、文本特征向量和文字特征向量构造三维特征向量，将三维特征向量输入预设分类模型确定各部分文字对应的实体类型，根据实体类型对应的方式对文档信息处理获得结构化文档，基于该结构化文档进行零件信息的提取，提高了信息获取效率。

参照图5，图5为本发明车辆零件文档处理装置第一实施例的结构框图。

如图5所示，本发明实施例提出的车辆零件文档处理装置包括：

转换模块10，用于将待处理的车辆零件文档转换为文档图像；

识别模块20，用于对所述文档图像中的文字进行识别，获得所述文档图像中各部分文字的文档信息；

处理模块30，用于根据所述文档信息和所述文档图像确定各部分文字的实体类型，根据与所述实体类型对应的处理方式对所述文档信息进行处理，获得所述车辆零件文档对应的结构化文档。

基于本发明上述车辆零件文档处理装置第一实施例，提出本发明车辆零件文档处理装置的第二实施例。

在本实施例中，所述转换模块10，还用于获取图片转换参数；根据所述图片转换参数将所述车辆零件文档转换为初始文档图像；对所述初始文档图像进行灰度化处理，并对灰度化处理后的图像进行图像缩放处理，获得文档图像。

所述识别模块20，还用于将所述文档图像输入预设文字检测网络，获得各部分文字的文字检测框和文字检测框的位置信息；根据所述位置信息将对应的文字检测框进行扩张处理，获得各部分文字的扩张文字检测框；根据所述扩张文字检测框对所述文档图像进行裁剪，获得各部分文字的文字图像；将所述文字图像输入预设文字识别网络，获得各部分文字的文档信息。

所述转换模块10，还用于通过预设灰度公式对所述初始文档图像进行灰度化处理；其中，所述预设灰度公式为：

pixel(x,y)＝0.299*r(x,y)+0.587*g(x,y)+0.114*b(x,y)

所述识别模块20，还用于根据所述位置信息在所述文字图像上选取水平检测点；根据所述水平检测点确定所述文字图像中的文字检测框与水平方向之间的夹角；根据所述夹角将所述文字图像中的文字检测框调整至水平方向，并将调整后的文字图像输入预设文字识别网络，获得各部分文字的文档信息。

所述处理模块30，还用于根据所述页码信息和所述文字检测框信息构建页码特征向量；对所述文档图像对应的文字图像进行高层特征提取，获得文本特征向量；通过词嵌入模型将所述文本信息转换为对应的文字特征向量；根据所述页码特征向量、所述文本特征向量和所述文字特征向量构造三维特征向量；将所述三维特征向量输入预设分类模型获得各部分文字的实体类型，所述实体类型包括文档标题、国标编码、段落标题、表格、图像、公式和注释；根据与所述实体类型对应的处理方式对所述文档信息和所述文档图像进行处理，获得所述车辆零件文档对应的结构化文档；所述文档信息包括页码信息、文字检测框信息和文本信息。

所述处理模块30，还用于在所述实体类型为公式时，根据与所述公式对应的文字检测框对在所述文档图像上裁剪出公式图像；以及在所述实体类型为文档标题时，根据文字检测框的位置信息确定文本行，并根据所述文本行进行文本信息合并。

本发明车辆零件文档处理装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种车辆零件文档处理方法，其特征在于，所述方法包括：

将待处理的车辆零件文档转换为文档图像；

2.如权利要求1所述的方法，其特征在于，所述将待处理的车辆零件文档转换为文档图像，包括：

获取图片转换参数；

3.如权利要求1所述的方法，其特征在于，所述对所述文档图像中的文字进行识别，获得所述文档图像中各部分文字的文档信息，包括：

4.如权利要求2所述的方法，其特征在于，所述对所述初始文档图像进行灰度化处理，包括：

通过预设灰度公式对所述初始文档图像进行灰度化处理；

其中，所述预设灰度公式为：

pixel(x,y)＝0.299*r(x,y)+0.587*g(x,y)+0.114*b(x,y)

5.如权利要求3所述的方法，其特征在于，所述将所述文字图像输入预设文字识别网络，获得各部分文字的文档信息，包括：

根据所述位置信息在所述文字图像上选取水平检测点；

6.如权利要求1-5任一项所述的方法，其特征在于，所述文档信息包括页码信息、文字检测框信息和文本信息；

7.如权利要求6所述的方法，其特征在于，所述根据与所述实体类型对应的处理方式对所述文档信息进行处理，包括：

8.一种车辆零件文档处理装置，其特征在于，所述装置包括：

转换模块，用于将待处理的车辆零件文档转换为文档图像；

9.一种车辆零件文档处理设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的车辆零件文档处理程序，所述车辆零件文档处理程序配置为实现如权利要求1至7中任一项所述的车辆零件文档处理方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有车辆零件文档处理程序，所述车辆零件文档处理程序被处理器执行时实现如权利要求1至7任一项所述的车辆零件文档处理方法的步骤。