CN114187605A - 一种数据集成方法、装置和可读存储介质 - Google Patents

一种数据集成方法、装置和可读存储介质 Download PDF

Info

Publication number
CN114187605A
CN114187605A CN202111522010.8A CN202111522010A CN114187605A CN 114187605 A CN114187605 A CN 114187605A CN 202111522010 A CN202111522010 A CN 202111522010A CN 114187605 A CN114187605 A CN 114187605A
Authority
CN
China
Prior art keywords
target
text
information
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111522010.8A
Other languages
English (en)
Other versions
CN114187605B (zh
Inventor
丁皓
丁宏翔
沙周凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Fangxing Information Technology Co ltd
Original Assignee
Suzhou Fangxing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Fangxing Information Technology Co ltd filed Critical Suzhou Fangxing Information Technology Co ltd
Priority to CN202111522010.8A priority Critical patent/CN114187605B/zh
Publication of CN114187605A publication Critical patent/CN114187605A/zh
Application granted granted Critical
Publication of CN114187605B publication Critical patent/CN114187605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据集成方法、装置和可读存储介质。所述方法包括:获取待分类信息,其中,所述待分类信息中包括多种类别的目标信息,所述目标信息为图片格式;将待分类信息输入目标分类模型,得到所述目标分类模型输出的每个所述目标信息的目标载体类别和目标物品类别,其中,所述目标载体类别包括图纸、设定文件和长文本文件,所述设定文件是在模板文件的基础上添加信息后得到的,所述目标物品类别属于关键词;按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词;通过所述关键词为所述目标信息进行数据集成。本申请扩大推广范围,提高关键词生成效率和生成准确度。

Description

一种数据集成方法、装置和可读存储介质
技术领域
本申请涉及数据集成技术领域,尤其涉及一种数据集成方法、装置和可读存储介质。
背景技术
近年来,伴随着企业数字化转型的逐步深入,作为数字化基础设施建设,越来越多的企业开始部署新建项目的数字化交付和对老旧工厂的数字化改造。不论是数字化交付还是数字化改造,工程数据仓库都是核心与基础。不同于传统的文档管理系统,工程数据仓库通过关键词,如位号、资产号、区域、成本中心或类型等,将工程图纸、数据表、说明书、采购订单、检测报告、照片等相关联,构建一个统一的跨部门的数据平台,确保数据的一致性与唯一性,从而作为数字孪生的基础。
工程数据集成的工作一般可以分成两大类:
1.关键数据,如三维模型、工艺流程图、仪表回路图等,需要对其进行完全结构化(即在智能系统中重建或由智能系统直接生成),用户可以直接访问到图纸、文档内的信息,数据间关联由智能系统自动生成,完全结构化的方法无疑是效果最好的数据处理方式,但其花费巨大,且耗时过多。
2.针对如建筑图、设备安装图、说明书、合格证这样的“一次性”数据,用户需要通过关键词,如位号、资产号、区域、类型、成本中心等,快速访问到图纸或文档。为此类数据构建关联,需要为这些数据赋予一定的关键词。
对于第一类工作,完全结构化的费用多、耗时长,且仅针对图纸与文档,无法推广到整个工程数据。对于第二类工作,目前为数据赋予关键词是通过人工方式,人工效率低且准确性差。
发明内容
本申请实施例的目的在于提供一种数据集成方法、装置和可读存储介质,以解决推广范围小、人工效率低且准确性差的问题。具体技术方案如下:
第一方面,提供了一种数据集成方法,所述方法包括:
获取待分类信息,其中,所述待分类信息中包括多种类别的目标信息,所述目标信息为图片格式;
将待分类信息输入目标分类模型,得到所述目标分类模型输出的每个所述目标信息的目标载体类别和目标物品类别,其中,所述目标载体类别包括图纸、设定文件和长文本文件,所述设定文件是在模板文件的基础上添加信息后得到的,所述目标物品类别属于关键词;
按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词;
通过所述关键词为所述目标信息进行数据集成。
可选地,所述载体类别为图纸,所述图纸对应的目标信息为目标图纸,所述按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词包括:
将所述目标图纸输入第一文本检测模型,得到所述第一文本检测模型输出的所述目标图纸中的第一文本图片;
将所述第一文本图片输入第一文本识别模型,得到所述第一文本识别模型输出的所述第一文本图片中包含的第一文本信息;
根据预设匹配方案,通过正则表达式确定所述第一文本信息中的第一关键词。
可选地,所述载体类别为设定文件,所述设定文件对应的目标信息为目标设定文件,所述按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词包括:
将所述目标设定文件输入第二文本检测模型,得到所述第二文本检测模型输出的所述目标设定文件中的第二文本图片;
将所述第二文本图片输入第二文本识别模型,得到所述第二文本识别模型输出的所述第二文本图片中包含的第二文本信息;
提取设定位置处的第二文本信息中的第二关键词,其中,所述设定位置处为所述目标设定文件中的位置。
可选地,提取设定位置处的第二文本信息中的第二关键词之前,所述方法还包括:
确定所述目标设定文件的模板类别;
根据所述模板类别,确定所述目标设定文件中包含关键词的设定位置,其中,不同模板类别的目标设定文件的设定位置不完全相同。
可选地,所述载体类别为长文本文件,所述长文本文件对应的目标信息为目标长文本,所述按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词包括:
将所述目标长文本输入OCR模型,得到所述OCR模型输出的所述目标长文本中的第三文本信息;
根据预设匹配方案,通过正则表达式确定所述第三文本信息中的位号。
可选地,将待分类信息输入目标分类模型之前,所述方法还包括:
获取样本信息和所述样本信息对应的样本类别,其中,所述样本类别包括样本载体类别和样本物品类别;
将所述样本信息转化为样本图片;
将所述样本图片输入初始分类模型,得到所述初始分类模型输出的分类结果;
在所述分类结果与所述样本类别不同的情况下,调整所述初始分类模型中的模型参数,得到目标分类模型,其中,所述目标分类模型输出的分类结果与所述样本类别相同。
可选地,将所述目标图纸输入第一文本检测模型之前,所述方法还包括:
获取样本图纸和所述样本图纸对应的文本图片,其中,所述样本图纸为图片格式,所述文本图片为所述样本图纸中的文本的图片;
将所述样本图纸输入第一初始检测模型,得到所述第一初始检测模型输出的检测结果;
在所述检测结果与所述文本图片不同的情况下,调整所述第一初始检测模型中的模型参数,得到第一文本检测模型,其中,所述第一文本检测模型输出的检测结果与所述文本图片相同。
可选地,将所述第一文本图片输入第一文本识别模型之前,所述方法还包括:
获取样本图纸对应的文本图片和所述样本图纸对应的关键词;
将所述文本图片输入第一初始识别模型,得到所述第一初始识别模型输出的识别结果;
在所述识别结果与所述关键词不同的情况下,调整所述第一初始识别模型中的模型参数,得到第一文本识别模型,其中,所述第一文本识别模型输出的识别结果与所述关键词相同。
第二方面,提供了一种数据集成装置,所述装置包括:
获取模块,用于获取待分类信息,其中,所述待分类信息中包括多种类别的目标信息,所述目标信息为图片格式;
输入输出模块,用于将待分类信息输入目标分类模型,得到所述目标分类模型输出的每个所述目标信息的目标载体类别和目标物品类别,其中,所述目标载体类别包括图纸、设定文件和长文本文件,所述设定文件是在模板文件的基础上添加信息后得到的,所述目标物品类别属于关键词;
得到模块,用于按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词;
集成模块,用于通过所述关键词为所述目标信息进行数据集成。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的数据集成方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的数据集成方法步骤。
本申请实施例有益效果:
在本申请中,服务器先通过目标分类模型确定目标信息的目标载体类别,然后再根据目标载体类别将待分类信息输入不同的目标检测识别模型,通过目标检测识别模型输出对应的目标信息的关键词。本申请中的待分类信息适用于各种载体类别,相对于完全结构化,提高了待分类信息的适用范围,能够推广至整个工程数据,扩大推广范围。本申请采用机器方式得到待分类信息的关键词,提高关键词生成效率和生成准确度。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据集成方法硬件环境示意图;
图2为本申请实施例提供的一种数据集成的方法流程图;
图3为本申请实施例提供的一种数据集成装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种数据集成方法的实施例。
可选地,在本申请实施例中,上述数据集成方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种数据集成方法可以由终端101来执行,可以由服务器103来执行,还可以是由服务器103和终端101共同执行。
本申请实施例提供了一种数据集成方法,可以应用于服务器,用于通过关键词进行数据集成。
下面将结合具体实施方式,对本申请实施例提供的一种数据集成方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:获取待分类信息。
其中,待分类信息中包括多种类别的目标信息,目标信息为图片格式。
在本申请实施例中,服务器获取待分类信息,待分类信息中包括多种类别的目标信息,目标信息用于进行数据集成从而构建工程数据仓库。目标信息为图片格式。可选地,目标信息的首页为图片格式
步骤202:将待分类信息输入目标分类模型,得到目标分类模型输出的每个目标信息的目标载体类别和目标物品类别。
其中,目标载体类别包括图纸、设定文件和长文本文件,设定文件是在模板文件的基础上添加信息后得到的,目标物品类别属于关键词。
在本申请实施例中,服务器将待分类信息输入目标分类模型,得到目标分类模型输出的每个目标信息的目标载体类别和目标物品类别。
目标载体类别为承载目标信息的文件的类别,目标载体类别包括图纸、设定文件和长文本文件,设定文件是在模板文件的基础上添加信息后得到的。示例性地,设定文件为xx数据表、xx管线表和xx合格证等。长文本文件中的文本数量超过预设数量,示例性地,长文本文件为说明书、操作手册等。
目标物品类别为目标信息中包含的物品的类别,示例性地,目标物品类别为管道、仪表和设备等。
示例性地,目标分类模型输出的目标物品类别和目标载体类别为:管道布置图、设备布置图、仪表数据表或设备数据表。其中,管道、设备和仪表为目标物品类别;布置图和数据表为目标载体类别。
服务器通过目标分类模型,不但可以得到目标信息中的一个关键词(目标物品类别),还可以根据目标载体类型将目标信息进行分类。
步骤203:按照目标载体类别将待分类信息输入不同的目标检测识别模型,得到目标检测识别模型输出的目标信息的关键词。
在本申请实施例中,服务器根据目标载体类别,将待分类信息输入不同的目标检测识别模型,得到目标检测识别模型输出的目标信息的关键词。
示例性地,服务器将图纸对应的目标信息输入第一文本检测模型和第一文本识别模型,得到图纸中的关键词。服务器将设定文件对应的目标信息输入第二文本检测模型和第二文本识别模型,得到设定文件中的关键词。服务器将长文本文件对应的目标信息输入OCR模型,得到长文本文件中的关键词。示例性地,关键词包括但不限于位号、资产号、区域、成本中心和类型。
步骤204:通过关键词为目标信息进行数据集成。
在本申请实施例中,服务器通过关键词,建立关键词和目标信息之间的关联关系,以通过该关键词快速定位访问到目标信息,并通过目标信息进行数据集成。
在本申请中,服务器先通过目标分类模型确定目标信息的目标载体类别,然后再根据目标载体类别将待分类信息输入不同的目标检测识别模型,通过目标检测识别模型输出对应的目标信息的关键词。本申请中的待分类信息适用于各种载体类别,相对于完全结构化,提高了待分类信息的适用范围,能够推广至整个工程数据,扩大推广范围。本申请采用机器方式得到待分类信息的关键词,提高关键词生成效率和生成准确度。
作为一种可选的实施方式,载体类别为图纸,图纸对应的目标信息为目标图纸,按照目标载体类别将待分类信息输入不同的目标检测识别模型,得到目标检测识别模型输出的目标信息的关键词包括:将目标图纸输入第一文本检测模型,得到第一文本检测模型输出的目标图纸中的第一文本图片;将第一文本图片输入第一文本识别模型,得到第一文本识别模型输出的第一文本图片中包含的第一文本信息;根据预设匹配方案,通过正则表达式确定第一文本信息中的第一关键词。
在本申请实施例中,载体类别为图纸,图纸对应的目标信息为目标图纸。服务器将目标图纸输入第一文本检测模型,得到第一文本检测模型输出的目标图纸中的第一文本图片,其中,第一文本图片中只包含文本,第一文本图片的数量为至少一个。服务器将第一文本图片输入第一文本识别模型,得到第一文本识别模型输出的第一文本图片中包含的第一文本信息,其中,第一文本信息为文本内容。服务器根据预设匹配方案,通过正则表达式匹配特定格式的第一文本信息,得到第一文本信息中的第一关键词。目标图纸中的第一关键词可以为位号、区域等。
在本申请中,服务器通过第一文本检测模型检测目标图纸中的第一文本图片,然后通过第一文本识别模型识别出第一文本图片中的第一文本信息,最后采用正则表达式提取第一文本信息中的第一关键词。
作为一种可选的实施方式,载体类别为设定文件,设定文件对应的目标信息为目标设定文件,按照目标载体类别将待分类信息输入不同的目标检测识别模型,得到目标检测识别模型输出的目标信息的关键词包括:将目标设定文件输入第二文本检测模型,得到第二文本检测模型输出的目标设定文件中的第二文本图片;将第二文本图片输入第二文本识别模型,得到第二文本识别模型输出的第二文本图片中包含的第二文本信息;提取设定位置处的第二文本信息中的第二关键词,其中,设定位置处为目标设定文件中的位置。
在本申请实施例中,载体类别为设定文件,设定文件对应的目标信息为目标设定文件,目标设定文件可以为数据表、管线表和合格证等。服务器将目标设定文件输入第二文本检测模型,得到第二文本检测模型输出的目标设定文件中的第二文本图片,其中,第二文本图片中只包含文本,第二文本图片的数量为至少一个。服务器将第二文本图片输入第二文本识别模型,得到第二文本识别模型输出的第二文本图片中包含的第二文本信息,其中,第二文本信息为文本内容。服务器确定目标设定文件的设定位置,然后提取设定位置处的第二文本信息中的第二关键词。
在本申请中,服务器通过第二文本检测模型检测目标设定文件中的第二文本图片,然后通过第二文本识别模型识别出第二文本图片中的第二文本信息,最后提取设定位置处的第二文本信息中的第二关键词。
作为一种可选的实施方式,提取设定位置处的第二文本信息中的第二关键词之前,方法还包括:确定目标设定文件的模板类别;根据模板类别,确定目标设定文件中包含关键词的设定位置,其中,不同模板类别的目标设定文件的设定位置不完全相同。
在本申请实施例中,服务器先确定目标设定文件的模板类别,如数据表、管线表、合格证等,然后根据模板类别确定目标设定文件中包含关键词的设定位置,不同模板类别的目标设定文件的设定位置不完全相同。示例性地,管线表中包含关键词的设定位置为表格的第二行第三列。合格证中包含关键词的设定位置为第二行和第五行。
本申请通过提取设定位置处的关键词,这样无需对全部的第二文本信息进行分析,只需要分析设定位置处的第二文本信息,即可快速得到目标设定文件的关键词,提高了目标设定文件的关键词的提取效率。
作为一种可选的实施方式,载体类别为长文本文件,长文本文件对应的目标信息为目标长文本,按照目标载体类别将待分类信息输入不同的目标检测识别模型,得到目标检测识别模型输出的目标信息的关键词包括:将目标长文本输入OCR模型,得到OCR模型输出的目标长文本中的第三文本信息;根据预设匹配方案,通过正则表达式确定第三文本信息中的位号。
在本申请实施例中,目标长文本中的信息由于无固定格式,很难提取到除位号之外的其他关键词,因此,目标长文本中的关键词为位号。服务器将目标长文本输入OCR模型,通过OCR模型对目标长文本进行全文的文本识别,得到OCR模型输出的目标长文本中的第三文本信息,服务器根据预设匹配方案,通过正则表达式确定第三文本信息中的位号。
在本申请中,由于目标长文本难以提取到除位号之外的其他关键词,因此服务器采用OCR模型进行文本识别,然后采用正则表达式确定第三文本信息中的位号。
作为一种可选的实施方式,若需要提取目标长文本中的除位号之外的关键词,服务器需要对目标长文本进行自然语言处理,然后再提取关键词。
作为一种可选的实施方式,将待分类信息输入目标分类模型之前,方法还包括:获取样本信息和样本信息对应的样本类别,其中,样本类别包括样本载体类别和样本物品类别;将样本信息转化为样本图片;将样本图片输入初始分类模型,得到初始分类模型输出的分类结果;在分类结果与样本类别不同的情况下,调整初始分类模型中的模型参数,得到目标分类模型,其中,目标分类模型输出的分类结果与样本类别相同。
在本申请实施例中,服务器得到目标分类模型的过程为:服务器获取样本信息和样本信息对应的样本类别,其中,样本类别包括样本载体类别和样本物品类别。服务器将样本信息转化为样本图片,然后将样本图片输入初始分类模型。可选地,服务器可以只将样本信息的首页转化为样本图片,首页一般能够体现出样本类别,这样就无需将样本信息的每一页都转化为图片,提高了目标分类模型的生成效率。
服务器得到初始分类模型输出的分类结果,在分类结果中的载体类别结果与样本载体类别不同,或者物品类别结果与样本物品类别不同的情况下,调整初始分类模型中的模型参数,直至载体类别结果与样本载体类别相同、且物品类别结果与样本物品类别相同,得到目标分类模型。示例性地,初始分类模型采用Resnet101网络。
作为一种可选的实施方式,将目标图纸输入第一文本检测模型之前,方法还包括:获取样本图纸和样本图纸对应的文本图片,其中,样本图纸为图片格式,文本图片为样本图纸中的文本的图片;将样本图纸输入第一初始检测模型,得到第一初始检测模型输出的检测结果;在检测结果与文本图片不同的情况下,调整第一初始检测模型中的模型参数,得到第一文本检测模型,其中,第一文本检测模型输出的检测结果与文本图片相同。
在本申请实施例中,服务器得到第一文本检测模型的过程为:服务器将待检测图纸转化为图片格式,得到样本图纸和样本图纸对应的文本图片,文本图片为样本图纸中的文本的图片。服务器将样本图纸输入第一初始检测模型,得到第一初始检测模型输出的检测结果,若检测结果与文本图片不同,服务器调整第一初始检测模型中的模型参数,直至第一初始检测模型输出的检测结果与文本图片相同,得到第一文本检测模型。其中,第一初始检测模型采用DBNet网络。
作为一种可选的实施方式,将第一文本图片输入第一文本识别模型之前,方法还包括:获取样本图纸对应的文本图片和样本图纸对应的关键词;将文本图片输入第一初始识别模型,得到第一初始识别模型输出的识别结果;在识别结果与关键词不同的情况下,调整第一初始识别模型中的模型参数,得到第一文本识别模型,其中,第一文本识别模型输出的识别结果与关键词相同。
在本申请实施例中,服务器得到第一文本识别模型的过程为:服务器获取样本图纸对应的文本图片和样本图纸对应的关键词。服务器将文本图片输入第一初始识别模型,得到第一初始识别模型输出的识别结果,若识别结果与关键词不同,服务器调整第一初始识别模型中的模型参数,直至第一初始识别模型输出的识别结果与关键词相同,得到第一文本识别模型,其中,第一初始识别模型采用CRNN网络。
其中,目标设定文件的第二文本检测模型是通过第二初始检测模型得到的,第二初始检测模型采用DBNet网络,第二文本识别模型是通过第二初始识别模型得到的,第二初始识别模型采用CRNN网络。第二初始检测模型的训练过程与第一初始检测模型的训练过程类似,第二初始识别模型的训练过程与第一初始识别模型的训练过程类似,本申请不再赘述。
可选的,本申请实施例还提供了一种数据集成方法的处理流程,具体步骤如下。
步骤1:获取待分类信息。
步骤2:将待分类信息输入目标分类模型,得到目标分类模型输出的每个目标信息的目标载体类别和目标物品类别。
步骤3:按照目标载体类别,将待分类信息分为目标图纸、目标设定文件和目标长文本。
步骤4:目标图纸输入第一文本检测模型和第一文本识别模型,得到第一文本信息;通过正则表达式确定第一文本信息中的第一关键词。
步骤5:目标设定文件输入第二文本检测模型和第二文本识别模型,得到第二文本信息;提取设定位置处的第二文本信息中的第二关键词。
步骤6:目标长文本输入OCR模型,得到第三文本信息;通过正则表达式确定第三文本信息中的位号。
步骤7:通过第一关键词、第二关键词和位号进行数据集成。
其中,步骤4、5、6为并列步骤。
基于相同的技术构思,本申请实施例还提供了一种数据集成装置,如图3所示,该装置包括:
获取模块301,用于获取待分类信息,其中,待分类信息中包括多种类别的目标信息,目标信息为图片格式;
输入输出模块302,用于将待分类信息输入目标分类模型,得到目标分类模型输出的每个目标信息的目标载体类别和目标物品类别,其中,目标载体类别包括图纸、设定文件和长文本文件,设定文件是在模板文件的基础上添加信息后得到的,目标物品类别属于关键词;
得到模块303,用于按照目标载体类别将待分类信息输入不同的目标检测识别模型,得到目标检测识别模型输出的目标信息的关键词;
集成模块304,用于通过关键词为目标信息进行数据集成。
可选地,载体类别为图纸,图纸对应的目标信息为目标图纸,得到模块303用于:
将目标图纸输入第一文本检测模型,得到第一文本检测模型输出的目标图纸中的第一文本图片;
将第一文本图片输入第一文本识别模型,得到第一文本识别模型输出的第一文本图片中包含的第一文本信息;
根据预设匹配方案,通过正则表达式确定第一文本信息中的第一关键词。
可选地,载体类别为设定文件,设定文件对应的目标信息为目标设定文件,得到模块303用于:
将目标设定文件输入第二文本检测模型,得到第二文本检测模型输出的目标设定文件中的第二文本图片;
将第二文本图片输入第二文本识别模型,得到第二文本识别模型输出的第二文本图片中包含的第二文本信息;
提取设定位置处的第二文本信息中的第二关键词,其中,设定位置处为目标设定文件中的位置。
可选地,该装置还用于:
确定目标设定文件的模板类别;
根据模板类别,确定目标设定文件中包含关键词的设定位置,其中,不同模板类别的目标设定文件的设定位置不完全相同。
可选地,载体类别为长文本文件,长文本文件对应的目标信息为目标长文本,得到模块303用于:
将目标长文本输入OCR模型,得到OCR模型输出的目标长文本中的第三文本信息;
根据预设匹配方案,通过正则表达式确定第三文本信息中的位号。
可选地,该装置还用于:
获取样本信息和样本信息对应的样本类别,其中,样本类别包括样本载体类别和样本物品类别;
将样本信息转化为样本图片;
将样本图片输入初始分类模型,得到初始分类模型输出的分类结果;
在分类结果与样本类别不同的情况下,调整初始分类模型中的模型参数,得到目标分类模型,其中,目标分类模型输出的分类结果与样本类别相同。
可选地,该装置还用于:
获取样本图纸和样本图纸对应的文本图片,其中,样本图纸为图片格式,文本图片为样本图纸中的文本的图片;
将样本图纸输入第一初始检测模型,得到第一初始检测模型输出的检测结果;
在检测结果与文本图片不同的情况下,调整第一初始检测模型中的模型参数,得到第一文本检测模型,其中,第一文本检测模型输出的检测结果与文本图片相同。
可选地,该装置还用于:
获取样本图纸对应的文本图片和样本图纸对应的关键词;
将文本图片输入第一初始识别模型,得到第一初始识别模型输出的识别结果;
在识别结果与关键词不同的情况下,调整第一初始识别模型中的模型参数,得到第一文本识别模型,其中,第一文本识别模型输出的识别结果与关键词相同。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图4所示,包括存储器403、处理器401、通信接口402及通信总线404,存储器403中存储有可在处理器401上运行的计算机程序,存储器403、处理器401通过通信接口402和通信总线404进行通信,处理器401执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据集成方法,其特征在于,所述方法包括:
获取待分类信息,其中,所述待分类信息中包括多种类别的目标信息,所述目标信息为图片格式;
将待分类信息输入目标分类模型,得到所述目标分类模型输出的每个所述目标信息的目标载体类别和目标物品类别,其中,所述目标载体类别包括图纸、设定文件和长文本文件,所述设定文件是在模板文件的基础上添加信息后得到的,所述目标物品类别属于关键词;
按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词;
通过所述关键词为所述目标信息进行数据集成。
2.根据权利要求1所述的方法,其特征在于,所述载体类别为图纸,所述图纸对应的目标信息为目标图纸,所述按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词包括:
将所述目标图纸输入第一文本检测模型,得到所述第一文本检测模型输出的所述目标图纸中的第一文本图片;
将所述第一文本图片输入第一文本识别模型,得到所述第一文本识别模型输出的所述第一文本图片中包含的第一文本信息;
根据预设匹配方案,通过正则表达式确定所述第一文本信息中的第一关键词。
3.根据权利要求1所述的方法,其特征在于,所述载体类别为设定文件,所述设定文件对应的目标信息为目标设定文件,所述按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词包括:
将所述目标设定文件输入第二文本检测模型,得到所述第二文本检测模型输出的所述目标设定文件中的第二文本图片;
将所述第二文本图片输入第二文本识别模型,得到所述第二文本识别模型输出的所述第二文本图片中包含的第二文本信息;
提取设定位置处的第二文本信息中的第二关键词,其中,所述设定位置处为所述目标设定文件中的位置。
4.根据权利要求3所述的方法,其特征在于,提取设定位置处的第二文本信息中的第二关键词之前,所述方法还包括:
确定所述目标设定文件的模板类别;
根据所述模板类别,确定所述目标设定文件中包含关键词的设定位置,其中,不同模板类别的目标设定文件的设定位置不完全相同。
5.根据权利要求1所述的方法,其特征在于,所述载体类别为长文本文件,所述长文本文件对应的目标信息为目标长文本,所述按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词包括:
将所述目标长文本输入OCR模型,得到所述OCR模型输出的所述目标长文本中的第三文本信息;
根据预设匹配方案,通过正则表达式确定所述第三文本信息中的位号。
6.根据权利要求1所述的方法,其特征在于,将待分类信息输入目标分类模型之前,所述方法还包括:
获取样本信息和所述样本信息对应的样本类别,其中,所述样本类别包括样本载体类别和样本物品类别;
将所述样本信息转化为样本图片;
将所述样本图片输入初始分类模型,得到所述初始分类模型输出的分类结果;
在所述分类结果与所述样本类别不同的情况下,调整所述初始分类模型中的模型参数,得到目标分类模型,其中,所述目标分类模型输出的分类结果与所述样本类别相同。
7.根据权利要求2所述的方法,其特征在于,将所述目标图纸输入第一文本检测模型之前,所述方法还包括:
获取样本图纸和所述样本图纸对应的文本图片,其中,所述样本图纸为图片格式,所述文本图片为所述样本图纸中的文本的图片;
将所述样本图纸输入第一初始检测模型,得到所述第一初始检测模型输出的检测结果;
在所述检测结果与所述文本图片不同的情况下,调整所述第一初始检测模型中的模型参数,得到第一文本检测模型,其中,所述第一文本检测模型输出的检测结果与所述文本图片相同。
8.根据权利要求2所述的方法,其特征在于,将所述第一文本图片输入第一文本识别模型之前,所述方法还包括:
获取样本图纸对应的文本图片和所述样本图纸对应的关键词;
将所述文本图片输入第一初始识别模型,得到所述第一初始识别模型输出的识别结果;
在所述识别结果与所述关键词不同的情况下,调整所述第一初始识别模型中的模型参数,得到第一文本识别模型,其中,所述第一文本识别模型输出的识别结果与所述关键词相同。
9.一种数据集成装置,其特征在于,所述装置包括:
获取模块,用于获取待分类信息,其中,所述待分类信息中包括多种类别的目标信息,所述目标信息为图片格式;
输入输出模块,用于将待分类信息输入目标分类模型,得到所述目标分类模型输出的每个所述目标信息的目标载体类别和目标物品类别,其中,所述目标载体类别包括图纸、设定文件和长文本文件,所述设定文件是在模板文件的基础上添加信息后得到的,所述目标物品类别属于关键词;
得到模块,用于按照所述目标载体类别将所述待分类信息输入不同的目标检测识别模型,得到所述目标检测识别模型输出的所述目标信息的关键词;
集成模块,用于通过所述关键词为所述目标信息进行数据集成。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
CN202111522010.8A 2021-12-13 2021-12-13 一种数据集成方法、装置和可读存储介质 Active CN114187605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111522010.8A CN114187605B (zh) 2021-12-13 2021-12-13 一种数据集成方法、装置和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111522010.8A CN114187605B (zh) 2021-12-13 2021-12-13 一种数据集成方法、装置和可读存储介质

Publications (2)

Publication Number Publication Date
CN114187605A true CN114187605A (zh) 2022-03-15
CN114187605B CN114187605B (zh) 2023-02-28

Family

ID=80604795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111522010.8A Active CN114187605B (zh) 2021-12-13 2021-12-13 一种数据集成方法、装置和可读存储介质

Country Status (1)

Country Link
CN (1) CN114187605B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953533A (zh) * 2024-03-26 2024-04-30 北京鸿鹄云图科技股份有限公司 用于文档页面的高效提取方法及系统

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010014082A1 (en) * 2008-07-29 2010-02-04 Textwise Llc Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN104199834A (zh) * 2014-08-04 2014-12-10 徐�明 从信息载体表面交互式获取远程资源并输出的方法及系统
WO2015143237A1 (en) * 2014-03-19 2015-09-24 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN111126367A (zh) * 2020-04-01 2020-05-08 国网电子商务有限公司 一种图像分类方法及系统
CN111125408A (zh) * 2019-10-11 2020-05-08 平安科技(深圳)有限公司 基于特征提取的搜索方法、装置、计算机设备和存储介质
US20200234186A1 (en) * 2017-02-21 2020-07-23 Nec Corporation Classification apparatus, classification method, and program
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN111507420A (zh) * 2020-04-22 2020-08-07 上海眼控科技股份有限公司 轮胎信息获取方法、装置、计算机设备和存储介质
CN112148750A (zh) * 2020-10-20 2020-12-29 成都中科大旗软件股份有限公司 一种数据集成方法及系统
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN112307199A (zh) * 2019-07-14 2021-02-02 阿里巴巴集团控股有限公司 信息识别、数据处理方法、装置及设备、信息交互方法
CN112396054A (zh) * 2020-11-30 2021-02-23 泰康保险集团股份有限公司 文本提取方法、装置、电子设备及存储介质
CN112434504A (zh) * 2020-11-23 2021-03-02 京东数字科技控股股份有限公司 生成文件信息的方法、装置、电子设备和计算机可读介质
CN112508094A (zh) * 2020-07-24 2021-03-16 完美世界(北京)软件科技发展有限公司 垃圾图片的识别方法、装置及设备
CN113569024A (zh) * 2021-07-19 2021-10-29 上海明略人工智能(集团)有限公司 卡片类别的识别方法、装置、电子设备和计算机存储介质
CN113723158A (zh) * 2020-12-18 2021-11-30 北京沃东天骏信息技术有限公司 文本结构化识别方法、装置、电子设备和计算机可读介质
CN113762321A (zh) * 2021-04-13 2021-12-07 北京沃东天骏信息技术有限公司 多模态分类模型生成方法和装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010014082A1 (en) * 2008-07-29 2010-02-04 Textwise Llc Method and apparatus for relating datasets by using semantic vectors and keyword analyses
WO2015143237A1 (en) * 2014-03-19 2015-09-24 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
CN104199834A (zh) * 2014-08-04 2014-12-10 徐�明 从信息载体表面交互式获取远程资源并输出的方法及系统
US20200234186A1 (en) * 2017-02-21 2020-07-23 Nec Corporation Classification apparatus, classification method, and program
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN112307199A (zh) * 2019-07-14 2021-02-02 阿里巴巴集团控股有限公司 信息识别、数据处理方法、装置及设备、信息交互方法
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN111125408A (zh) * 2019-10-11 2020-05-08 平安科技(深圳)有限公司 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN111126367A (zh) * 2020-04-01 2020-05-08 国网电子商务有限公司 一种图像分类方法及系统
CN111507420A (zh) * 2020-04-22 2020-08-07 上海眼控科技股份有限公司 轮胎信息获取方法、装置、计算机设备和存储介质
CN112508094A (zh) * 2020-07-24 2021-03-16 完美世界(北京)软件科技发展有限公司 垃圾图片的识别方法、装置及设备
CN112148750A (zh) * 2020-10-20 2020-12-29 成都中科大旗软件股份有限公司 一种数据集成方法及系统
CN112434504A (zh) * 2020-11-23 2021-03-02 京东数字科技控股股份有限公司 生成文件信息的方法、装置、电子设备和计算机可读介质
CN112396054A (zh) * 2020-11-30 2021-02-23 泰康保险集团股份有限公司 文本提取方法、装置、电子设备及存储介质
CN113723158A (zh) * 2020-12-18 2021-11-30 北京沃东天骏信息技术有限公司 文本结构化识别方法、装置、电子设备和计算机可读介质
CN113762321A (zh) * 2021-04-13 2021-12-07 北京沃东天骏信息技术有限公司 多模态分类模型生成方法和装置
CN113569024A (zh) * 2021-07-19 2021-10-29 上海明略人工智能(集团)有限公司 卡片类别的识别方法、装置、电子设备和计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953533A (zh) * 2024-03-26 2024-04-30 北京鸿鹄云图科技股份有限公司 用于文档页面的高效提取方法及系统
CN117953533B (zh) * 2024-03-26 2024-05-28 北京鸿鹄云图科技股份有限公司 用于文档页面的高效提取方法及系统

Also Published As

Publication number Publication date
CN114187605B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN103970848B (zh) 一种通用型互联网信息数据挖掘方法
CA3004599C (en) System and method for automated address verification
JP2019519019A (ja) テキストタイプを識別する方法、装置及びデバイス
CN112613917A (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN113342976B (zh) 一种自动采集处理数据的方法、装置、存储介质及设备
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN111078776A (zh) 数据表的标准化方法、装置、设备及存储介质
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN103235773B (zh) 基于关键词的文本的标签提取方法及装置
CN110765101A (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN114187605B (zh) 一种数据集成方法、装置和可读存储介质
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN112434168A (zh) 基于图书馆的知识图谱构建方法、碎片化知识生成方法
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN111752922A (zh) 一种建立知识数据库、实现知识查询的方法及装置
CN108959289B (zh) 网站类别获取方法和装置
CN114564938A (zh) 文档的解析方法及装置、存储介质和处理器
CN111984797A (zh) 客户身份识别装置及方法
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
TW201822025A (zh) 比較表格自動產生方法、裝置及其電腦程式產品
CN105512270A (zh) 一种确定相关对象的方法和装置
CN103186573B (zh) 一种确定搜索需求强度的方法、需求识别的方法及其装置
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN111178072A (zh) 一种法律条文的确定方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant