CN118172792A

CN118172792A - 电子元器件手册中封装图参数信息自动抽取方法

Info

Publication number: CN118172792A
Application number: CN202410599279.3A
Authority: CN
Inventors: 李宁; 吴绿
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2024-05-15
Filing date: 2024-05-15
Publication date: 2024-06-11

Abstract

本发明涉及电子设计自动化技术领域，公开了一种电子元器件手册中封装图参数信息自动抽取方法，包括数据手册预处理模块、封装图预处理模块、封装图特殊处理模块、尺寸线识别与尺寸标注参数匹配模块、字母标注封装图参数提取与语义对齐模块、数字标注封装图参数提取与语义对齐模块、语义逻辑修复模块和封装参数格式转换模块；检测封装图、对页面做划分、提取和分析独有特征、将尺寸线与尺寸标注做匹配、提取尺寸线最近邻的数字和字母做语义对齐、语义逻辑修复后转换成常见文件格式。本发明电子元器件手册中封装图参数信息自动抽取方法，实现元器件封装参数建库和3D模型建库的高度自动化，且准确率高，大大提高建库工作的效率。

Description

电子元器件手册中封装图参数信息自动抽取方法

技术领域

本发明涉及电子设计自动化技术领域，具体涉及一种电子元器件手册中封装图参数信息自动抽取方法。

背景技术

在PCB EDA的板图设计工具、元器件选型工具中，元器件封装参数库是必不可少的。由于封装类型种类多，对同一类封装，厂家可以自定义各种不同尺寸，而且还存在一些异型封装。除了PCB EDA工具厂商之外，很多大中型电子企业都会建立自己的元器件封装参数库和3D模型库，电子元件销售平台、PCB贴片厂也都需要建立自己的封装参数库和3D模型库。

但是当前封装参数建库工作，基本都依赖人工翻阅电子元器件手册，寻找到元器件封装图及其参数表之后，逐一将相关参数录入到数据库中。这些手册基本都是PDF格式，少则几十页，多则几千页，且不同厂家的绘图规范也各不相同。因此，建库工作需要使用大量的人力做简单重复工作，且效率低，出错难以被发现。

发明内容

本发明的目的就是针对上述技术的不足，提供一种电子元器件手册中封装图参数信息自动抽取方法，从PDF格式电子元器件手册中自动提取元器件封装参数，以实现元器件封装参数建库和3D模型建库的高度自动化，且准确率高，大大提高建库工作的效率。

为实现上述目的，本发明所涉及的电子元器件手册中封装图参数信息自动抽取方法，包括数据手册预处理模块、封装图预处理模块、封装图特殊处理模块、尺寸线识别与尺寸标注参数匹配模块、字母标注封装图参数提取与语义对齐模块、数字标注封装图参数提取与语义对齐模块、语义逻辑修复模块和封装参数格式转换模块；包括如下步骤：

步骤S101：所述数据手册预处理模块采用封装图分类识别方法，检测出电子元器件数据手册中的所有封装图，识别其封装类型，定位每个封装图所在的页码和其关键特征视图的坐标范围；

步骤S102：所述封装图预处理模块对所述步骤S101得到的每个封装图做预处理，在其所在页面，采用图、表和长文本自动分类方法，将封装图、参数表格和长文本做自动划分，并得到各自的坐标范围，然后采用视图语义分割方法对封装图做语义分割，得到各视图的类型及坐标范围；

步骤S103：所述封装图特殊处理模块根据所述步骤S101得到的封装类型的特点，对每个封装图的关键特征视图做处理，对其独有特征做提取和分析；

步骤S104：对所述步骤S102得到的各个视图，所述尺寸线识别与尺寸标注参数匹配模块检测视图中的所有尺寸线，定位其起止点，得到其位置、方向和长度信息，采用尺寸线与尺寸标注参数匹配方法将尺寸线与尺寸标注做匹配；

步骤S105：判断关键特征视图中是否采用数字标注，若为数字标注则转入步骤S106，否则转入步骤S107；

步骤S106：所述数字标注封装图参数提取与语义对齐模块提取封装图中与各尺寸线最近邻的数字标注，根据封装类型，将所有视图中尺寸线及数字尺寸标注做语义对齐，得到该封装的参数；

步骤S107：在步骤S102所得到的表格或下一页的表格中，使用Paddle OCR表格内容提取方法提取其中的内容，使用所述字母标注封装图参数提取与语义对齐模块提取封装图中各尺寸线最近邻字母标注，根据封装类型，将所有视图中尺寸线及字母尺寸标注与封装参数表格做语义对齐，得到该封装的参数；

步骤S108：根据封装类型，使用所述语义逻辑修复模块按照典型封装参数字典中典型封装参数的内在逻辑关系，对步骤S106和S107得到的封装参数做语义逻辑修复；

步骤S109：将步骤S108所得封装参数，转换为指定格式，并保存；

其中，所述封装图分类识别方法使用ResNet50网络，从不同厂商的电子元器件数据手册中选取各类封装图的关键特征视图构建数据集做训练，使之能对封装图的类别做识别；

所述图、表和长文本自动分类方法收集不同厂商电子元器件数据手册中的封装图页构建数据集，标注数据，送入Resnet50网络训练，再利用训练的分类网络将当前页封装图、表格和长文本划分开；

所述视图语义分割方法收集不同厂商的封装图构建数据集，标注数据，送入yolox网络训练，使用训练后的网络检测各类视图特征，将封装图的各个视图分割开，识别各视图语义，并做定位；

所述尺寸线与尺寸标注参数匹配方法收集各种封装的不同视图构建的数据集，标注数据，送入yolox深度检测网络和DBnet++文本检测网络训练，使之能将视图中的所有尺寸线和尺寸标注识别出来，并做最近邻匹配。

优选地，所述封装图分类识别方法包括如下步骤：确定电子元器件封装图的类别数，确定每种封装图的关键特征视图，每种封装从不同厂商的电子元器件数据手册中截取5000张关键特征视图，作为数据集；采用Resnet50网络作为分类器的主体结构，搭建分类网络，使用所得数据集训练网络，得到该分类模型的网络权重参数。

优选地，所述图、表和长文本自动分类方法包括如下步骤：标注封装图上的表格送入Resnet50网络训练；标注封装图上的关键特征视图送入Resnet50网络训练；标注封装图上的长文本送入Resnet50网络训练；使用训练所得分类模型，实现图、表和长文本自动分类方法。

优选地，所述视图语义分割方法包括如下步骤：根据视角的不同，将视图分为顶视图、底视图、正视图、侧视图和整体视图；标注各类视图并送入yolox深度网络训练，得到具有权重参数的网络；输入封装图，使用该yolox网络做视图的语义分割。

优选地，所述尺寸线与尺寸标注匹配方法包括如下步骤：利用yolox检测尺寸线，根据尺寸线检测框的坐标，计算尺寸线位置、长度和方向；利用DBnet++检测标注文本，根据文本检测框的坐标，并判断文本框是X轴方向还是Y轴方向；在X轴方向上，遍历各尺寸线检测框中心点和所有文本检测框中心点之间的距离，距离最小的文本框作为该尺寸线的尺寸标注，同理做Y轴方向上的尺寸线与尺寸标注的最近邻匹配。

优选地，所述数据手册预处理模块使用时包括如下步骤：输入电子元器件数据手册；删除无图页；判断电子元器件数据手册是否有水印，若有水印则做去除水印处理；将剩余页转换为图片，使用封装图分类识别方法搜索和检测到其中所有的封装图，并定位其页码。

优选地，所述封装图预处理模块使用时包括如下步骤；对获得的某个带封装图的页面，判断关键特征视图是采用数字标注还是字母标注；计算关键特征视图的模糊度，若模糊度过高则转人工处理；采用封装图、表和长文本自动分类方法，对本页做自动划分；采用视图语义分割方法，将其中各视图划分开来、并做视图分类；记录该页中所有视图、表格以及长文本的坐标范围，关键特征视图的标注方法和其模糊度。

优选地，所述尺寸线识别与尺寸标注匹配模块对获得的某个视图，使用尺寸线与尺寸标注匹配方法，将视图中所有的尺寸线信息提取出来，然后与其最近邻的尺寸标注做匹配。

优选地，所述字母标注封装图参数提取与语义对齐模块使用时包括如下步骤：对字母标注的封装图，在本页寻找对应的封装参数表格，若没有则跳转到下一页寻找；使用Paddle OCR表格内容提取方法，提取其中的参数；将尺寸线信息转换为长度、方向和位置，与最近邻字母标注和封装参数表格内容做语义对齐，获得该封装的各项参数。

优选地，所述语义逻辑修复模块使用时根据典型封装参数字典和各种封装参数的内在逻辑关系，对所获取的封装参数做语义逻辑修复。

本发明与现有技术相比，具有以下优点：

1、利用图像处理、自然语言理解和多种深度学习技术，提出了从电子元器件数据手册中自动提取封装参数的方法，可以自动从各种类型的电子元器件数据手册中提取所有封装建库所需的参数，大大提高电子元器件封装图建库工作的效率，且准确率高；

2、数据手册预处理模块中，提出了电子元器件封装图分类识别方法，能准确定位电子元器件数据手册中所有含封装图的页面，并对其做分类；

3、封装图预处理模块中，提出了当前页面封装图、表和长文本自动分类方法，封装图语义分割方法，能准确对封装图做视图语义分割；

4、尺寸线识别与尺寸标注匹配模块中，能准确将各封装视图中尺寸标注的参数与其语义进行对齐；

5、语义逻辑修复模块中，根据典型封装参数字典和各种封装参数的内在逻辑关系，对所获取的封装参数做语义逻辑修复，进一步提高了所提取参数的准确性。

附图说明

图1为本发明电子元器件手册中封装图参数信息自动抽取方法的模块图；

图2为本发明电子元器件手册中封装图参数信息自动抽取方法的流程图；

图3为本发明实施例中数据手册预处理模块进行预处理时的流程图；

图4为本发明实施例中封装图预处理模块的流程图；

图5为字母标注封装图参数提取与语义对齐模块的流程图；

图6为数字标注封装图参数提取与语义对齐模块的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

一种电子元器件手册中封装图参数信息自动抽取方法，如图1所示，包括数据手册预处理模块、封装图预处理模块、封装图特殊处理模块、尺寸线识别与尺寸标注参数匹配模块、字母标注封装图参数提取与语义对齐模块、数字标注封装图参数提取与语义对齐模块、语义逻辑修复模块和封装参数格式转换模块；如图2所示，包括如下步骤：

步骤S101：数据手册预处理模块采用封装图分类识别方法，检测出电子元器件数据手册中的所有封装图，识别其封装类型，定位每个封装图所在的页码和其关键特征视图的坐标范围；

步骤S102：封装图预处理模块对步骤S101得到的每个封装图做预处理，在其所在页面，采用图、表和长文本自动分类方法，将封装图、参数表格和长文本做自动划分，并得到各自的坐标范围，然后采用视图语义分割方法对封装图做语义分割，得到各视图的类型及坐标范围；

步骤S103：封装图特殊处理模块根据步骤S101得到的封装类型的特点，对每个封装图的关键特征视图做处理，对其独有特征做提取和分析，例如对BGA封装，检测球的数量，是否缺球；对于QFN封装，检查PIN的数量，散热盘的大小等；

步骤S104：对步骤S102得到的各个视图，尺寸线识别与尺寸标注参数匹配模块检测视图中的所有尺寸线，定位其起止点，得到其位置、方向和长度信息，采用尺寸线与尺寸标注参数匹配方法将尺寸线与尺寸标注做匹配；

步骤S106：数字标注封装图参数提取与语义对齐模块提取封装图中与各尺寸线最近邻的数字标注，根据封装类型，将所有视图中尺寸线及数字尺寸标注做语义对齐，得到该封装的参数；

步骤S107：在步骤S102所得到的表格或下一页的表格中，使用Paddle OCR表格内容提取方法提取其中的内容，使用字母标注封装图参数提取与语义对齐模块提取封装图中各尺寸线最近邻字母标注，根据封装类型，将所有视图中尺寸线及字母尺寸标注与封装参数表格做语义对齐，得到该封装的参数；

步骤S108：根据封装类型，使用语义逻辑修复模块按照典型封装参数字典中典型封装参数的内在逻辑关系，对步骤S106和S107得到的封装参数做语义逻辑修复；

其中，封装图分类识别方法使用ResNet50网络，从不同厂商的电子元器件数据手册中选取各类封装图的关键特征视图构建数据集做训练，使之能对封装图的类别做识别；

图、表和长文本自动分类方法收集不同厂商电子元器件数据手册中的封装图页构建数据集，标注数据，送入Resnet50网络训练，再利用训练的分类网络将当前页封装图、表格和长文本划分开；

视图语义分割方法收集不同厂商的封装图构建数据集，标注数据，送入yolox网络训练，使用训练后的网络检测各类视图特征，将封装图的各个视图分割开，识别各视图语义，并做定位；

尺寸线与尺寸标注参数匹配方法收集各种封装的不同视图构建的数据集，标注数据，送入yolox深度检测网络和DBnet++文本检测网络训练，使之能将视图中的所有尺寸线和尺寸标注识别出来，并做最近邻匹配。

封装图分类识别方法包括如下步骤：确定电子元器件封装图的类别数，确定每种封装图的关键特征视图，每种封装从不同厂商的电子元器件数据手册中截取5000张关键特征视图，作为数据集；采用Resnet50网络作为分类器的主体结构，搭建分类网络，使用所得数据集训练网络，得到该分类模型的网络权重参数。

具体地，在本实施例中，包括如下步骤：

步骤S201：涉及的封装类型有：BGA，OSCILLATOR，CHIP，ARRAY，CHIP，CRYSTAL，MOLDED，QFN，QFP，SON，SOP，CAPAE，CFP，CGA，CQFP，DFN，LCC，LED，LGA，MELF，PLOC，SOD，SODFL，SOJ，SOT143，SOT223，SOT89，SOTFL，TO252，TO263，共30类；

步骤S202：数据集准备及分类网络训练：收集上述类型的封装图片5000张并标注其关键特征视图，以封装类型名称命名，标注完成后，使用CNN网络计算各封装的卷积特征后送入Resnet50网络训练，学习率0.005，迭代次数设置为2000，得到封装分类模型的网络权重参数；

步骤S203：数据测试：将待测数据手册转换成图片送入分类网络，得到含有封装名称的封装图，如若一个图出现多个封装名称，选取置信率最高的作为封装名。

其中，数据手册预处理模块使用时包括如下步骤：输入电子元器件数据手册；删除无图页；判断电子元器件数据手册是否有水印，若有水印则做去除水印处理；将剩余页转换为图片，使用封装图分类识别方法搜索和检测到其中所有的封装图，并定位其页码。

具体地，在本实施例中，如图3所示，包括如下步骤：

步骤S301：输入电子元器件数据手册；

步骤S302：对电子元器件数据手册是否可读做判断，如果该电子元器件数据手册无法正常打开，则输出提示信息，并退出，若正常打开则进入步骤S303；

步骤S303：采用关键字判断、封装图特征检测等方法，删除手册中的无图页；

步骤S304：判断电子元器件数据手册是否有水印，若有水印则转入步骤S305，否则转入S306；

步骤S305：根据水印类型做针对性的去除，之后转入步骤S306；

步骤S306：将剩余页面转换为图像；

步骤S307：遍历步骤S306所得图像，检测出所有封装图的关键特征视图，得到各封装图的类别、所在页号以及关键特征视图的坐标范围。

图、表和长文本自动分类方法包括如下步骤：标注封装图上的表格送入Resnet50网络训练；标注封装图上的关键特征视图送入Resnet50网络训练；标注封装图上的长文本送入Resnet50网络训练；根据Resnet50训练网络得到的分类模型，实现图、表和长文本自动分类方法。

具体地，在本实施例中，包括如下步骤：

步骤S401：数据准备：收集5000张含有封装图、表、长文本的图片，并分类标注；

步骤S402：数据训练：将标注好的5000张图片送入Resnet50网络训练，得到该分类网络的权重参数；

步骤S403：自动检测分类：将待测试的图片送入自动分类网络，得到的矩形框及其名称作为自动分类的符号图、表和长文本。符号图、表和长文本检测框重叠IOU<0.2可以忽略；符号图、表和长文本检测框重叠IOU>0.2，选取置信率高的框作为检测结果。

视图语义分割方法包括如下步骤：根据视角的不同，将视图分为顶视图、底视图、正视图、侧视图和整体视图；标注各类视图并送入yolox深度网络训练，得到具有权重参数的网络；输入封装图，调用网络作视图的语义分割。

具体地，在本实施例中，包括如下步骤：

步骤S501：数据准备：将封装图分类中用到的图片，根据视角的不同，将视图分为顶视图（top view），底视图（bottom view）、正视图（front view）、侧视图（side view）和整体视图（entirety view），分别标注命名后，放入不同文件夹中；

步骤S502：数据训练：将五种不同的视图标注放入yolox深度检测网络训练，设置网络的学习率为0.002，迭代次数2000，得到含有权重参数的检测网络；

步骤S503：语义分割：将待测视图送入yolox深度检测网络，得到包含至少三个含标签的检测框；如果检测框个数过多，在同一位置上，若两框标签名称一致且IOU>0.5，则合并外框；若两框标签名称一致但IOU<0.5，保留像素点密度高的检测框；若两框标签名称不一致但IOU>0.5，判断三视图另外两个框的位置和名称，最终保留三个名称不一致的框。

封装图预处理模块使用时包括如下步骤：对获得的某个带封装图的页面，判断关键特征视图是采用数字标注还是字母标注；计算关键特征视图的模糊度，若模糊度过高则转人工处理；采用封装图、表和长文本自动分类方法，对本页做自动划分；采用视图语义分割方法，将其中各视图划分开来、并做视图分类；记录该页中所有视图、表格以及长文本的坐标范围，关键特征视图的标注方法和其模糊度。

具体地，在本实施例中，如图4所示，包括如下步骤：

步骤S601：定位到数据手册预处理模块所得的某个封装图所在页面，判断该页是否还存在其他封装图，若存在则转入步骤S602，否则转入步骤S603；

步骤S602：根据同在一页面中各关键特征视图的坐标范围，自动划分各封装图的坐标范围；

步骤S603：通过Paddle OCR读取关键特征视图中的字符串内容，判断其中是否有字母；

步骤S604：采用灰度方差算法，计算关键特征视图的模糊度；

步骤S605：若关键特征视图的模糊度大于设定的阈值，则提示人工处理，并结束；否则转入步骤S606；

步骤S606：采用图、表和长文本自动分类方法，对关键特征视图所在页进行划分，得到其中封装图、表格和长文本的坐标范围；

步骤S607：采用视图语义分割法，对步骤S606所得封装图做视图语义分割，得到各视图的类型和坐标范围；

步骤S608：记录关键特征视图是否有字母及其模糊度、所有视图的类型及坐标范围、所在页面各表格和长文本的坐标范围。

尺寸线识别与尺寸标注匹配模块对封装图分类识别方法所获得的某个视图，使用尺寸线与尺寸标注匹配方法，将视图中所有的尺寸线信息提取出来，然后与其最近邻的尺寸标注做匹配。在本实施例中，尺寸线与尺寸标注匹配方法包括如下步骤：

步骤S701：利用yolox检测尺寸线，根据尺寸线检测框的坐标，得到尺寸线的位置，计算尺寸线的长度，并判断尺寸线是X轴方向还是Y轴方向；

步骤S702：利用DBnet++检测标注文本，根据文本检测框的坐标，并判断文本框是X轴方向还是Y轴方向；

步骤S703：在X轴方向上，遍历各尺寸线检测框中心和所有文本检测框中心点之间的距离，距离最小的文本框作为该尺寸线的尺寸标注；同理计算Y轴方向上的尺寸线与尺寸标注的最近邻匹配。

字母标注封装图参数提取与语义对齐模块使用时包括如下步骤：对字母标注的封装图，在本页寻找对应的封装参数表格，若没有则跳转到下一页寻找；使用Paddle OCR表格内容提取方法，提取其中的参数；将尺寸线信息转换为长度、方向和位置，与最近邻字母标注和封装参数表格内容做语义对齐，获得该封装的各项参数。

具体地，在本实施例中，如图5所示，包括如下步骤：

步骤S801：检查封装图所在页是否存在表格，若无表格则转向步骤S802，否则进入步骤S803；

步骤S802：寻下一页所有表格，找到与当前封装图对应的表格。

步骤S803：判断封装参数表格是否可编辑，若可编辑则转入步骤S804，否则转入步骤S805；

步骤S804：使用PDFPlumber读取封装参数表格内容，之后转入步骤S806；

步骤S805：使用Paddle OCR表格内容提取方法，提取封装参数表格中的内容，之后转入步骤S806；

步骤S806：将尺寸线识别与尺寸标注匹配模块所获得的字母标注以及尺寸线信息，与步骤S804和S805所得的封装参数表格中的内容做语义对齐，得到封装参数。

数字标注封装图参数提取与语义对齐模块进行参数提取和语义对齐时，如图6所示，包括如下步骤：

步骤S901：根据封装类型，将尺寸线识别与尺寸标注匹配模块所得到的尺寸线信息和数据做语义识别，判断其含义；

步骤S902：将S901的结果填入相应的封装参数表中；

步骤S903：若封装参数表中缺失数据，则转入步骤S904，否则进入步骤S905；

步骤S904：到下一页寻找其他视图，使用尺寸线与尺寸标注匹配方法提取其中的尺寸线信息和数据，做语义识别，然后转入步骤S902；

步骤S905：根据封装的类型，以及所有视图中尺寸线所在的位置、方向和长度信息，对步骤S902所得封装参数表中的数据做语义对齐。

最后，在本实施例中，语义逻辑修复模块使用时根据典型封装参数字典和各种封装参数的内在逻辑关系，对所获取的封装参数做语义逻辑修复。

本发明电子元器件手册中封装图参数信息自动抽取方法，利用图像处理、自然语言理解和多种深度学习技术，提出了从电子元器件数据手册中自动提取封装参数的方法，可以自动从各种类型的电子元器件数据手册中提取所有封装建库所需的参数，大大提高电子元器件封装图建库工作的效率，且准确率高；数据手册预处理模块中，提出了电子元器件封装图分类识别方法，能准确定位电子元器件数据手册中所有含封装图的页面，并对其做分类；封装图预处理模块中，提出了当前页面封装图、表和长文本自动分类方法，封装图语义分割方法，能准确对封装图做视图语义分割；尺寸线识别与尺寸标注匹配模块中，能准确将各封装视图中尺寸标注的参数与其语义进行对齐；语义逻辑修复模块中，根据典型封装参数字典和各种封装参数的内在逻辑关系，对所获取的封装参数做语义逻辑修复，进一步提高了所提取参数的准确性。

Claims

1.一种电子元器件手册中封装图参数信息自动抽取方法，其特征在于：包括数据手册预处理模块、封装图预处理模块、封装图特殊处理模块、尺寸线识别与尺寸标注参数匹配模块、字母标注封装图参数提取与语义对齐模块、数字标注封装图参数提取与语义对齐模块、语义逻辑修复模块和封装参数格式转换模块；包括如下步骤：

步骤S106：所述数字标注封装图参数提取与语义对齐模块提取封装图中各尺寸线最近邻的数字标注，根据封装类型，将所有视图中尺寸线及数字尺寸标注做语义对齐，得到该封装的参数；

步骤S107：在步骤S102所得到的表格或下一页的表格中，使用Paddle OCR表格内容提取方法提取其中的内容，所述字母标注封装图参数提取与语义对齐模块提取封装图中各尺寸线最近邻字母标注，根据封装类型，将所有视图中尺寸线及字母尺寸标注与封装参数表格做语义对齐，得到该封装的参数；

步骤S108：根据封装类型，所述语义逻辑修复模块按照典型封装参数字典中典型封装参数的内在逻辑关系，对步骤S106和S107得到的封装参数做语义逻辑修复；

2.如权利要求1所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述封装图分类识别方法包括如下步骤：确定电子元器件封装图的类别数，确定每种封装图的关键特征视图，每种封装从不同厂商的电子元器件数据手册中截取5000张关键特征视图，作为数据集；采用Resnet50网络作为分类器的主体结构，搭建分类网络，使用所得数据集训练网络，得到该分类模型的权重参数。

3.如权利要求1所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述图、表和长文本自动分类方法包括如下步骤：标注封装图上的表格送入Resnet50网络训练；标注封装图上的关键特征视图送入Resnet50网络训练；标注封装图上的长文本送入Resnet50网络训练；根据Resnet50训练网络得到的分类模型，实现图、表和长文本自动分类方法。

4.如权利要求1所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述视图语义分割方法包括如下步骤：根据视角的不同，将视图分为顶视图、底视图、正视图、侧视图和整体视图；标注各类视图并送入yolox深度网络训练，得到该yolox网络的权重参数；输入封装图，调用该yolox网络做视图的语义分割。

5.如权利要求1所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述尺寸线与尺寸标注匹配方法包括如下步骤：利用yolox检测尺寸线，根据尺寸线检测框的坐标，计算尺寸线位置、长度和方向；利用DBnet++检测标注文本，根据文本检测框的坐标，并判断文本框是X轴方向还是Y轴方向；在X轴方向上，遍历各尺寸线检测框中心点和所有文本检测框中心点之间的距离，距离最小的文本框作为该尺寸线的尺寸标注，同理做Y轴方向上的尺寸线与尺寸标注的最近邻匹配。

6.如权利要求1所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述数据手册预处理模块使用时包括如下步骤：输入电子元器件数据手册；删除无图页；判断电子元器件数据手册是否有水印，若有水印则做去除水印处理；将剩余页转换为图片，使用封装图分类识别方法搜索和检测到其中所有的封装图，并定位其页码。

7.如权利要求6所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述封装图预处理模块使用时包括如下步骤；对获得的某个带封装图的页面，判断关键特征视图是采用数字标注还是字母标注；计算关键特征视图的模糊度，若模糊度过高则转人工处理；采用封装图、表和长文本自动分类方法，对本页做自动划分；采用视图语义分割方法，将其中各视图划分开来、并做视图分类；记录该页中所有视图、表格以及长文本的坐标范围，关键特征视图的标注方法和其模糊度。

8.如权利要求7所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述尺寸线识别与尺寸标注匹配模块对获得的某个视图，使用尺寸线与尺寸标注匹配方法，将视图中所有的尺寸线信息提取出来，然后与其最近邻的尺寸标注做匹配。

9.如权利要求8所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述字母标注封装图参数提取与语义对齐模块使用时包括如下步骤：对字母标注的封装图，在本页寻找对应的封装参数表格，若没有则跳转到下一页寻找；使用Paddle OCR表格内容提取方法，提取其中的参数；将尺寸线信息转换为长度、方向和位置，与最近邻字母标注和封装参数表格内容做语义对齐，获得该封装的各项参数。

10.如权利要求1所述电子元器件手册中封装图参数信息自动抽取方法，其特征在于：所述语义逻辑修复模块使用时根据典型封装参数字典和各种封装参数的内在逻辑关系，对所获取的封装参数做语义逻辑修复。