CN102110102A - 数据处理方法及装置、文件识别方法及工具 - Google Patents

数据处理方法及装置、文件识别方法及工具 Download PDF

Info

Publication number
CN102110102A
CN102110102A CN200910243216XA CN200910243216A CN102110102A CN 102110102 A CN102110102 A CN 102110102A CN 200910243216X A CN200910243216X A CN 200910243216XA CN 200910243216 A CN200910243216 A CN 200910243216A CN 102110102 A CN102110102 A CN 102110102A
Authority
CN
China
Prior art keywords
sign
data field
target
source data
synthetic file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910243216XA
Other languages
English (en)
Inventor
谢成辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical BEIJING FOUNDER E-GOVERNMENT INFORMATION TECHNOLOGY Co Ltd
Priority to CN200910243216XA priority Critical patent/CN102110102A/zh
Publication of CN102110102A publication Critical patent/CN102110102A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种数据处理方法,包括:获取源数据库中存储的记录信息,所述记录信息中包括与源数据字段对应的第一标识;根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,所述第二标识与所述目标数据库中的目标数据字段相对应;将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中,并将经插入操作生成的结合数据字段导入所述目标数据库中。本发明还公开了一种文件识别方法、一种数据处理装置及一种文件识别工具。采用本发明可以用于降低数据迁移工作的繁琐性,提高数据迁移工作的准确率,节省资源。

Description

数据处理方法及装置、文件识别方法及工具
技术领域
本发明涉及数据处理领域,尤其是涉及一种数据处理方法、一种数据处理装置、一种文件识别方法及一种文件识别工具。
背景技术
当前对信息化的重视程度越来越强,对档案信息的公开、检索利用、系统网络化要求越来越高,通过对档案系统进行数字化处理,可以对档案馆的数据进行统一管理、统一查询,同时可以对数字化后的各类档案进行全文检索、在线利用等操作,提高档案的利用率。
但是,由于各家档案馆保存档案的时候都比较长,很多有几十年甚至上百年,在计算机发展过程中,不同的档案馆使用的档案管理产品也不完全相同,导致了存储的数据保存格式的多样性,例如,目前使用较多的数据保存格式包括:DBF数据库数据保存格式,Access访问数据库数据保存格式、Excel表格数据保存格式、Txt文本文件数据保存格式、Sybase单机片数据库数据保存格式、SQL Server(Structured Query Language,结构化查询语言管理,是一个关系数据库管理系统)数据库数据保存格式、Oracle(甲骨文)数据库数据保存格式等等。并且,对于每一家档案馆而言,自身都至少有若干种档案,如文书档案、科技档案、会计档案、各种专题档案等等,每一种档案的数据保存格式可能也不完全相同。
因此,对档案馆进行数据迁移工作时,具有相当大的繁琐性,非常容易出错。在以往的数据迁移过程中,开发人员针对每一种数据保存格式都进行调整或开发,多次进行导致代码不具备重用性,每个项目中均可能作了重复的数据的导入,造成资源的浪费。
发明内容
本发明实施例提供了一种数据处理方法,用于降低数据迁移工作的繁琐性,提高数据迁移工作的准确率,节省资源,该方法包括:
获取源数据库中存储的记录信息,所述记录信息中包括与源数据字段对应的第一标识;
根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,所述第二标识与所述目标数据库中的目标数据字段相对应;
将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中。
本发明实施例还提供了一种文件识别方法,用于提高对合成文件识别的准确性,包括:
对当前合成的文件进行识别;
当所述合成的文件识别失败时,将所述合成的文件转化成单层可移植文档格式PDF文件;
当所述合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
本发明实施例还提供了一种数据处理装置,用于降低数据迁移工作的繁琐性,提高数据迁移工作的准确率,节省资源,包括:
获取单元,用于获取源数据库中存储的记录信息,所述记录信息中包括与源数据字段对应的第一标识;
确定单元,用于根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,所述第二标识与所述目标数据库中的目标数据字段相对应;
插入单元,用于将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中。
本发明实施例还提供了一种文件识别工具,用于提高对合成文件识别的准确性,包括:
第二识别单元,用于对当前合成的文件进行识别;
第一生成单元,用于当所述合成的文件识别失败时,将所述合成的文件转化成单层可移植文档格式PDF文件;
第二生成单元,用于当所述合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
在本发明实施例中,在数据迁移工作中,将源数据字段插入目标数据字段后,生成的结合数据字段与目标数据库中数据保存格式是相同的,目标数据库可以直接对其进行识别、解析,获取相应信息,能够提高数据迁移工作的准确率,屏蔽了不同保存格式的源数据结构之间的差异,避免了现有技术中提到的,在以往的数据迁移过程中,开发人员需要针对每一种数据保存格式都进行调整或开发,多次进行导致代码不具备重用性,每个项目中均可能作了重复的数据的导入,造成资源的浪费。
进一步,OCR识别工具在对合成的文件进行识别时,设定周期重启OCR识别工具,对合成的文件进行识别;和/或,对OCR识别工具进行监控,当监控到OCR识别工具退出时,重启OCR识别工具。通过对OCR识别工具进行监控,确定合成的文件的合法性,以及OCR识别工具是否导常退出,达到遍历、完成图片识别及PDF合成的合过程。
进一步,采用XML格式存储预设的映射关系时,由于XML格式的高扩展性及高兼容性,即使源数据格式与目标数据格式差别较大时,也可以通过较少的改动迅速地适应导入需求,屏蔽了不同保存格式的源数据结构之间的差异。
附图说明
图1是本发明实施例提供的数据处理方法的具体流程图;
图2是本发明实施例提供的数据处理方法的一个实施例的具体流程图;
图3是本发明实施例提供的利用OCR识别工具对合成的文件进行识别的具体流程图;
图4是本发明实施例提供的利用数据处理方法生成的界面的示意图;
图5、图7、图8及图9是本发明实施例提供的数据处理装置的结构示意图;
图6是本发明实施例提供的插入单元的结构示意图;
图10是本发明实施例提供的文件识别工具的结构示意图。
具体实施方式
为达到降低数据迁移工作的繁琐性,提高数据迁移工作的准确率,节省资源的目的,本发明实施例提供了数据处理方法,具体处理流程如图1所示,包括:
步骤101、获取源数据库中存储的记录信息,记录信息中包括与源数据字段对应的第一标识;
步骤102、根据预设的映射关系,确定目标数据库中与第一标识对应的第二标识,第二标识与目标数据库中的目标数据字段相对应;
步骤103、将第一标识对应的源数据字段插入到第二标识对应的目标数据字段中。
本领域技术人员公知,源数据库中包括的数据被分为多个数据字段,每个数据字段拥有对应的第一标识。
如图1所示流程,步骤101在实施时,从源数据库中获取记录信息,解析该记录信息,获取该记录信息中包括的与源数据字段对应的第一标识,第一标识可以为一个,也可以为多个,根据具体情况而定。
如图1所示流程,步骤102在实施时,根据预设的映射关系,确定目标数据库中与第一标识对应的第二标识。确定方式有多种,例如,一种实施例为:当记录信息中包括的第一标识为一个时,根据预设的映射关系,在目标库中确定出至少一个与第一标识对应的第二标识,即,根据一个第一标识能够确认出一个或多个第二标识;再例如,另外一种实施例为:当记录信息中包括的第一标识为至少两个时,根据预设的映射关系,在目标库中确定出一个与第一标识对应的第二标识,即,根据多个第一标识确定出唯一的一个第二标识。当然了,在实施时还可能存在其他情况,能够确定出与记录信息中包括的第一标识对应的第二标识即可,具体采用哪种实施方式根据具体情况而定。
步骤103在实施时,将第一标识对应的源数据字段插入到第二标识对应的目标数据字段中,根据第一标识及对应确定的第二标识的数目不同,源数据字段插入目标数据字段的方式也不同,现以几个具体的实施例进行说明。
实施例一:采用一对一的映射关系
获取的记录信息中包括一个第一标识时,根据预设的映射关系,在目标数据库中确定出唯一的一个与第一标识对应的第二标识,将该第一标识对应的源数据字段插入到该第二标识对应的目标数据字段中。
实施例二:采用分拆的第一种映射关系
获取的记录信息中包括一个第一标识时,根据预设的映射关系,在目标数据库中确定出至少两个与第一标识对应的第二标识,按第二标识的数目对第一标识对应的源数据字段进行分拆,并将分拆后的第一子源数据字段分别插入到至少两个第二标识对应的目标数据字段中。
通常本领域技术人员可以利用分隔符对源数据字段进行拆分,每个第一子源数据字段的长度可能相同也可能不同,根据具体情况而定。
实施例三:采用分拆的第二种映射关系
获取的记录信息中包括一个第一标识时,根据预设的映射关系,在目标数据库中确定出至少两个与第一标识对应的第二标识,并对每个第二标识对应的目标数据字段均执行如下操作:
接收目标数据库的控制指令,确定与该第二标识对应的目标数据字段能够插入的源数据字符数值,从源数据字段中未被获取的子源数据字段中获取与源数据字符值相同的第二子源数据字段,并将第二子源数据字段分别插入到两个以上第二标识对应的目标数据字段中。
实施例四:采用合并的映射关系
记录信息中包括至少两个与源数据字段对应的第一标识时,根据预设的映射关系,在目标数据库中确定出一个与第一标识对应的第二标识,将至少两个第一标识对应的源数据字段合并插入该第二标识对应的目标数据字段中。
如图1所示流程,步骤103在实施时,将源数据字段插入目标数据字段后,生成的结合数据字段与目标数据库中数据保存格式是相同的,目标数据库可以直接对其进行识别、解析,获取相应信息,避免了现有技术中提到的,在以往的数据迁移过程中,开发人员需要针对每一种数据保存格式都进行调整或开发,多次进行导致代码不具备重用性,每个项目中均可能作了重复的数据的导入,造成资源的浪费。
如图1所示流程,步骤103在实施时,还可以为经插入操作生成的结合数据字段生成对应的第三标识,并将第三标识导入目标数据库中,建立第三标识与结合数据字段的映射关系。导入成功后,就可以直接根据第三标识查找到对应的结合数据字段,并进行调用。在实施时,第三标识可以有多种形式,如可以选择页码的数字作为第三标识,也可以选择档案号作为第三标识,还可以选择其他标识作为第三标识,根据具体情况而定。
如图1所示流程,步骤103在实施时,根据经插入操作生成的结合数据字段对应的内容在目标数据库中进行查询,若确定已存在对应的原目标数据字段时,此时,利用经插入操作生成的结合数据字段覆盖对应的原目标数据字段,对目标数据库存储的数据进行更新。
如图1所示流程,步骤103在实施之后,可以将经插入操作生成的结合数据字段导入目标数据库的一个项目中,并在目标数据库中建立插入操作生成的结合数据字段与项目的映射关系。建立了映射关系后,可以直接从项目中查找对应的结合数据字段。项目可能有多种,例如,可以是案卷,也可以是档案名,还可以是其他形式,根据具体情况确定采用哪种项目形式。
如图1所示流程,步骤103在实施之后,为保证导入的数据的可用性,在将经插入操作生成的结合数据字段导入目标数据库之后,可以判断导入的结合数据字段是否能够合成一个完整的文件,当结合数据字段合成文件后,对合成的文件进行识别,一种较优的识别方式为:当合成的文件识别失败时,将合成的文件转化成单层PDF(Portable Document Format,可移植文档格式)文件,当合成的文件识别成功时,将合成的文件转化成合成为双层PDF文件。当然,在实施时,还可能存在其他较优的识别方式,根据具体情况采用不同的识别方式。
在实施时,通常采用OCR(Optical Character Recognition,光字符识别)识别工具用于识别合成的文件,在现有技术中,由于扫描的历史文件不可避免地存在黑点、手写体、扫描文字模糊等问题,导致现有的OCR识别工具在使用时经常导常退出,导致索引很难建立成功,且无法保证大批量OCR的正确性,为解决该问题,本发明实施提供了一种较优的解决方法,即,按设定周期重启OCR识别工具,对合成的文件进行识别;或者,还可以采用另外一种较优的解决方法,即,对OCR识别工具进行监控,当监控到OCR识别工具退出时,进行重启。当然,在实施时,还可以对OCR识别工具进行其他监控,监控OCR工具根据扫描路径格式、文件名规则等识别、组合文件。
在实施时,预设的映射关系可以有多种实现方式,为达到多种数据库数据保存格式的兼容性,一种较优的方法是:采用兼容性较好的XML(eXtensibleMarkup Language,可扩展移植性语句)格式保存预设的映射关系。由于XML格式的高扩展性及高兼容性,即使源数据格式与目标数据格式差别较大时,也可以通过较少的改动迅速地适应导入需求。现以XML格式为例,对本发明实施例提供的数据处理方法进行详细的说明。
在本例中,以档案馆案卷迁移为例,采用的XML格式的实例如下:
<?xml version=′1.0′encoding=′gb2312′?>
<Mapper>
  <Map>
    <Attr src=′全宗号′dest=′全宗号′FunStr=′substr(0,6)′/>
    <Attr src=′档案室′dest=′件号′/>
    <Attr src=′机构′dest=′机构或问题′/>
    <Attr src=′文号′dest=′文号′/>
    。。。
  </Map>
<Arch fileUpload=′1′notCreateArchNo=′0′fileJoinOnly=′1′simpleArch=′1′></Arch>
<Combination>
   <Attr src1=′全宗号′src2=′年度′dest=′档号′/>
</Combination>
<Separator>
    <Attr src=′起止日期′dest1=′开始日期′dest2=′结束日期′sepchar=’-’/>
</Separator>
<Other>
<Option combinePDF=′0′ocr=′0′overwrite=′0′PDFOutPath=″srcDir=″/>
</Other>
</Mapper>
对XML格式的具体说明如下:
1).<Map>节点:源数据字段与目标数据字段为一对一的影射关系,下面包含多个字段的影射关系;
<Attr>节点:源数据字段与目标数据字段的影射关系;
Src属性:源数据字段;
Dest属性:目标数据字段;
FunStr属性:函数字符串属性,根据该属性值的设置把源数据字段的相关字符串插入到目标数据字段中。
2).<Arch>节点:与数据导入相关的信息;
fileUpload属性:值为0或者1,是否上载全文到ftp服务器中;
notCreateArchNo属性:值为0或1,是否在入库的同时根据档号规则生成档案的档号;
fileJoinOnly属性:值为0或1,是否只作文件挂接,针对扫描的电子全文是否只作文件关系的建立,而不进行实际的文件上传操作,由用户挂接完成后手工一次性把文件拷贝到ftp服务器中,从而加快导入的速度。
SimpleArch属性:值为0或1,是否为文书简化立卷的方式。
3).<Combination>节点:源数据库多个字段合并成为目标数据库中的一个字段,可以在一次数据导入的过程中配置多个合并的导入关系;
<Attr>节点:一对合并的配置关系;
src1属性:源数据字段1;
src2属性:源数据字段2;源数据字段可以有两个以上;
dest属性:合并后的目标数据字段。
4).<Separator>节点:源数据库中的一个源数据字段拆分后插入到多个目标数字字段中,可以在一次数据倒入的过程中配置多个拆分的导入关系;
<Attr>节点:一对拆分的配置关系;
src属性:源数据字段;
dest1属性:目标数据字段1;
dest2属性:目标数据字段2;目标数据字段可以有两个以上;
sepchar属性:源数据字段中拆分的分隔符,根据分隔符把源数据字段的值拆分后放入各个目标字段中。
5).<Other>节点:目录数据导入选项以外的一些其他选项;
<Option>节点:具体的选项内容;
combinePDF属性:值为0或1,是否合成PDF;
ocr属性:值为0或1,是否进行OCR操作,只有在选择了合成PDF的情况下才能进行OCR识别选项的选择;
overwrite属性:在合成PDF过程中,如果目标PDF已经存在,是否覆盖PDF,重新生成PDF文件;
PDFOutPath属性:合成生成PDF的路径;
srcDir属性:扫描后源文件(需要挂接处理的文件)存放的路径。
本例中,数据处理方法的具体处理流程如图2所示,包括:
步骤201、利用XML格式存储预设的映射关系;
步骤202、判断映射关系是否设置正确,执行步骤203;
步骤203、判断同一目标数据字段是否被指定多次,若是,执行步骤201,若否,执行步骤204;
步骤204、判断相同档号字段是否已在目标数据字段中设置,若是,执行步骤201,若否,执行步骤205;
步骤205、判断目标数据字段是否存在于目标数据库中,若是,执行步骤201,若否,执行步骤206;
步骤206、为源数据库设定主键;
步骤207、从源数据库中获取一条记录信息;
步骤208、根据一对一的映射关系生成对应的结合数据字段,执行步骤211;
步骤209、根据合并的关系生成的对应的结合数据字段,执行步骤211;
步骤210、根据拆分的关系生成的对应的结合数据字段,执行步骤211;
步骤211、确定生成的结合数据字段是否已保存在目标数据库中,若是,执行步骤213,若否,执行步骤212;
步骤212、将结合数据字段导入目标数据库;
步骤213、利用保存的结合数据字段更新目标数据库中存在的原目标数据字段;
步骤214、根据保存的结合数据字段在目标数据库中查找对应的案卷;
步骤215、在目标数据库中查找到对应的案卷,并与保存的结合数据字段建立映射关系。
步骤208、步骤209和步骤210在实施时,根据映射关系的不同生成结合数据字段,根据实际情况选择任意一个步骤进行实施即可,
在将结合数据字段导入目标数据库后,合成文件,并对合成的文件进行识别,具体识别过程如图3所示:
步骤301、对合成的文件进行识别,当对合成的文件识别失败时,执行步骤302,当对合成的文件识别失败时,执行步骤303;
步骤302、将合成的文件转化成单层PDF文件;
步骤303、将合成的文件转化成合成为双层PDF文件。
如图3所示流程,当利用OCR识别工具在对合成的文件进行识别时,设定周期重启OCR识别工具,对合成的文件进行识别;和/或,对OCR识别工具进行监控,当监控到OCR识别工具退出时,重启OCR识别工具。通过对OCR识别工具进行监控,确定合成的文件的合法性,以及OCR识别工具是否导常退出,达到遍历、完成图片识别及PDF合成的合过程。
实施时,除XML格式外,还可以采用其他扩展性及兼容性较好的格式,能够记录源数据字段和目标数据字段之间的对应关系即可。
基于XML格式的实例,可以构建一个面向最终用户、简单易用且能够灵活实施的数据处理工具,例如,GUI(Graphical User Interface,图形用户界面)工具,包括以下功能:
1、以Java Swing的方式组织、生成相应的界面工具,具体如图4所示,适应跨平台操作的需要;
2、以表Table的方式显示源数据字段与目标数据字段之间的对应关系,同时以树Tree的方式来显示源数据表和目标数据表的不同形状;
3、支持鼠标拖动的方式选择树中的任意节点;
4、提供丰富的选项由用户选择,满足不同保存格式的源数据的导入需要。
从图4中可以看出,映射源的数据经中间处理迁移到映射目标中,迁移的项目包括全宗号、档案室、档案馆、机构、文号、责任者、年度、期限、日期、页数、备注、全宗名称、案号、文件等等,利用合并、分拆、枚举、文件处理或其他设置迁移到映射目标中,可以选择直接上传,也可以选择只作文件链接,或不生成档号等相关选项。
实施时,该例与档案系统紧密结合,可以利用该界面工具将数据导入其他档案系统中,也可以将数据导入到非档案系统的表中。
为保证识别的准确性与有效性,本发明实施例还提供了一种文件识别方法,具体如下:对当前合成的文件进行识别;当合成的文件识别失败时,将合成的文件转化成单层可移植文档格式PDF文件;当合成的文件识别成功时,将合成的文件转化成合成为双层PDF文件。
实施时,识别可以多种识别工具,例如,采用光学字符识别OCR识别工具时,按设定周期重启OCR识别工具,对合成的文件进行识别;和/或,对OCR识别工具进行监控,当监控到OCR识别工具退出时,重启OCR识别工具。
基于同一发明构思,本发明实施例还提供了一种数据处理装置,具体结构如图5所示,包括:
获取单元501,用于获取源数据库中存储的记录信息,记录信息中包括与源数据字段对应的第一标识;
确定单元502,用于根据预设的映射关系,在目标数据库中确定与第一标识对应的第二标识,第二标识与目标数据库中的目标数据字段相对应;
插入单元503,用于将第一标识对应的源数据字段插入到第二标识对应的目标数据字段中。
在一个实施例中,如图5所示结构,确定单元502可以进一步用于:在获取单元501获取的记录信息中包括一个与源数据字段对应的第一标识时,根据预设的映射关系,在目标数据库中确定出至少一个与第一标识对应的第二标识;
插入单元503可以进一步用于:将该第一标识对应的源数据字段插入到至少一个第二标识对应的目标数据字段中。
在一个实施例中,如图6所示装置,插入单元503可以包括:
第一插入子单元601,用于当确定单元502确定的第二标识为两个以上时,按第二标识的数目对第一标识对应的源数据字段进行分拆,并将分拆后的第一子源数据字段分别插入到至少两个第二标识对应的目标数据字段中;
第二插入子单元602,用于当确定单元502确定的第二标识为两个以上时,对两个以上的第二标识中的每个第二标识对应的目标数据字段执行如下操作:接收目标数据库的控制指令,控制指令中包含该第二标识对应的目标数据字段能够插入的源数据字符数值;从源数据字段中未被获取的子源数据字段中获取与源数据字符数值相同的第二子源数据字段,并将第二子源数据字段插入到该第二标识对应的目标数据字段中。
在一个实施例中,如图5所示结构,确定单元502可以进一步用于:在获取单元501获取的记录信息中包括至少两个与源数据字段对应的第一标识时,根据预设的映射关系,在目标数据库中确定出一个与第一标识对应的第二标识;
插入单元503可以进一步用于:将至少两个第一标识对应的源数据字段合并插入该第二标识对应的目标数据字段中。
在一个实施例中,如图7所示结构,数据处理装置还可以包括:
标识生成单元701,用于为经插入操作生成的结合数据字段生成对应的第三标识,并第三标识导入目标数据库中,建立第三标识与结合数据字段的映射关系。
在一个实施例中,如图7所示结构,插入单元503可以进一步用于:当确定结合数据字段对应的内容在目标数据库中已存在对应的原目标数据字段时,利用结合数据字段覆盖原目标数据字段。
在一个实施例中,如图8所示结构,数据处理装置还可以包括:
导入单元801,用于将经插入操作生成的结合数据字段导入目标数据库的一个项目中,并在目标数据库中建立将所述结合数据字段与项目的映射关系。
在一个实施例中,如图9所示结构,数据处理装置还可以包括:
第一识别单元901,用于当结合数据字段合成文件后,对合成的文件进行识别;当合成的文件识别失败时,将合成的文件转化成单层可移植文档格式PDF文件;当合成的文件识别成功时,将合成的文件转化成合成为双层PDF文件。
在一个实施例中,如图9所示结构,第一识别单元901可以进一步用于:采用光学字符识别OCR识别工具时,按设定周期重启所述OCR识别工具,对所述合成的文件进行识别;和/或
对所述OCR识别工具进行监控,当监控到所述OCR识别工具退出时,重启所述OCR识别工具。
在一个实施例中,如图5、图6、图7、图8及图9任一张图所示的结构,确定单元502可以采用XML格式存储预设的映射关系。
基于同一发明构思,本发明实施例还提供了一种文件识别工具,具体结构如图10所示,包括:
第二识别单元1001,用于对当前合成的文件进行识别;
第一生成单元1002,用于当合成的文件识别失败时,将合成的文件转化成单层可移植文档格式PDF文件;
第二生成单元1003,用于当合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
在一个实施例中,如图10所示结构,第二识别单元1001可以采用光学字符识别OCR识别工具时,按设定周期重启OCR识别工具,对合成的文件进行识别;和/或
对OCR识别工具进行监控,当监控到OCR识别工具退出时,重启OCR识别工具。
在本发明实施例中,在数据迁移工作中,将源数据字段插入目标数据字段后,生成的结合数据字段与目标数据库中数据保存格式是相同的,目标数据库可以直接对其进行识别、解析,获取相应信息,能够提高数据迁移工作的准确率,屏蔽了不同保存格式的源数据结构之间的差异,避免了现有技术中提到的,在以往的数据迁移过程中,开发人员需要针对每一种数据保存格式都进行调整或开发,多次进行导致代码不具备重用性,每个项目中均可能作了重复的数据的导入,造成资源的浪费。
进一步,OCR识别工具在对合成的文件进行识别时,设定周期重启OCR识别工具,对合成的文件进行识别;和/或,对OCR识别工具进行监控,当监控到OCR识别工具退出时,重启OCR识别工具。通过对OCR识别工具进行监控,确定合成的文件的合法性,以及OCR识别工具是否导常退出,达到遍历、完成图片识别及PDF合成的合过程。
进一步,采用XML格式存储预设的映射关系时,由于XML格式的高扩展性及高兼容性,即使源数据格式与目标数据格式差别较大时,也可以通过较少的改动迅速地适应导入需求,屏蔽了不同保存格式的源数据结构之间的差异。
显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变形属于本发明权利要求及其等同技术范围之内,则本发明也意图包含这些改动和变形在内。

Claims (26)

1.一种数据处理方法,其特征在于,包括:
获取源数据库中存储的记录信息,所述记录信息中包括与源数据字段对应的第一标识;
根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,所述第二标识与所述目标数据库中的目标数据字段相对应;
将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中。
2.如权利要求1所述的方法,其特征在于,所述记录信息中包括一个与源数据字段对应的第一标识时,所述根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,包括:
根据所述预设的映射关系,在所述目标数据库中确定出至少一个与所述第一标识对应的第二标识;将该第一标识对应的源数据字段插入到所述至少一个第二标识对应的目标数据字段中。
3.如权利要求2所述的方法,其特征在于,当所述第二标识为两个以上时,所述根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,包括:
按所述第二标识的数目对所述第一标识对应的源数据字段进行分拆,并将分拆后的第一子源数据字段分别插入到所述至少两个第二标识对应的目标数据字段中;或
对所述两个以上的第二标识中的每个第二标识对应的目标数据字段执行如下操作:
接收所述目标数据库的控制指令,所述控制指令中包含该第二标识对应的目标数据字段能够插入的源数据字符数值;从所述源数据字段中未被获取的子源数据字段中获取与所述源数据字符数值相同的第二子源数据字段,并将所述第二子源数据字段插入到该第二标识对应的目标数据字段中。
4.如权利要求1所述的方法,其特征在于,所述记录信息中包括至少两个与源数据字段对应的第一标识时,所述根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,包括:
根据所述预设的映射关系,在所述目标数据库中确定出一个与所述第一标识对应的第二标识;将所述至少两个第一标识对应的源数据字段合并插入该第二标识对应的目标数据字段中。
5.如权利要求1所述的方法,其特征在于,将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中之后,还包括:
为经插入操作生成的结合数据字段生成对应的第三标识,并所述第三标识导入所述目标数据库中,建立所述第三标识与所述结合数据字段的映射关系。
6.如权利要求5所述的方法,其特征在于,所述第三标识包括:档号。
7.如权利要求5所述的方法,其特征在于,当确定所述结合数据字段对应的内容在所述目标数据库中已存在对应的原目标数据字段时,利用所述结合数据字段覆盖所述原目标数据字段。
8.如权利要求1所述的方法,其特征在于,将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中之后,还包括:
将经插入操作生成的结合数据字段导入所述目标数据库的一个项目中,并在所述目标数据库中建立所述将所述结合数据字段与所述项目的映射关系。
9.如权利要求8所述的方法,其特征在于,所述项目包括案卷。
10.如权利要求1所述的方法,其特征在于,将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中之后,还包括:
当所述结合数据字段合成文件后,对所述合成的文件进行识别;
当所述合成的文件识别失败时,将所述合成的文件转化成单层可移植文档格式PDF文件;
当所述合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
11.如权利要求10所述的方法,其特征在于,所述识别采用光学字符识别OCR识别工具时,按设定周期重启所述OCR识别工具,对所述合成的文件进行识别;和/或对所述OCR识别工具进行监控,当监控到所述OCR识别工具退出时,重启所述OCR识别工具。
12.如权利要求1-11任一项所述的方法,其特征在于,所述预设的映射关系保存在可扩展标记语言XML格式中。
13.一种文件识别方法,其特征在于,包括:
对当前合成的文件进行识别;
当所述合成的文件识别失败时,将所述合成的文件转化成单层可移植文档格式PDF文件;
当所述合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
14.如权利要求13所述的方法,其特征在于,所述识别采用光学字符识别OCR识别工具时,按设定周期重启所述OCR识别工具,对所述合成的文件进行识别;和/或对所述OCR识别工具进行监控,当监控到所述OCR识别工具退出时,重启所述OCR识别工具。
15.一种数据处理装置,其特征在于,包括:
获取单元,用于获取源数据库中存储的记录信息,所述记录信息中包括与源数据字段对应的第一标识;
确定单元,用于根据预设的映射关系,在目标数据库中确定与所述第一标识对应的第二标识,所述第二标识与所述目标数据库中的目标数据字段相对应;
插入单元,用于将所述第一标识对应的源数据字段插入到所述第二标识对应的目标数据字段中。
16.如权利要求15所述的装置,其特征在于,所述确定单元进一步用于:在所述获取单元获取的记录信息中包括一个与源数据字段对应的第一标识时,根据所述预设的映射关系,在所述目标数据库中确定出至少一个与所述第一标识对应的第二标识;
所述插入单元进一步用于:将该第一标识对应的源数据字段插入到所述至少一个第二标识对应的目标数据字段中。
17.如权利要求16所述的装置,其特征在于,所述插入单元包括:
第一插入子单元,用于当所述确定单元确定的第二标识为两个以上时,按所述第二标识的数目对所述第一标识对应的源数据字段进行分拆,并将分拆后的第一子源数据字段分别插入到所述至少两个第二标识对应的目标数据字段中;
第二插入子单元,用于对所述两个以上的第二标识中的每个第二标识对应的目标数据字段执行如下操作:接收所述目标数据库的控制指令,所述控制指令中包含该第二标识对应的目标数据字段能够插入的源数据字符数值;从所述源数据字段中未被获取的子源数据字段中获取与所述源数据字符数值相同的第二子源数据字段,并将所述第二子源数据字段插入到该第二标识对应的目标数据字段中。
18.如权利要求15所述的装置,其特征在于,所述确定单元进一步用于:在所述获取单元获取的记录信息中包括至少两个与源数据字段对应的第一标识时,根据所述预设的映射关系,在目标数据库中确定出一个与所述第一标识对应的第二标识;
所述插入单元进一步用于:将所述至少两个第一标识对应的源数据字段合并插入该第二标识对应的目标数据字段中。
19.如权利要求15所述的装置,其特征在于,还包括:
标识生成单元,用于为经插入操作生成的结合数据字段生成对应的第三标识,并所述第三标识导入所述目标数据库中,建立所述第三标识与所述结合数据字段的映射关系。
20.如权利要求19所述的装置,其特征在于,所述插入单元进一步用于:当确定所述结合数据字段对应的内容在所述目标数据库中已存在对应的原目标数据字段时,利用所述结合数据字段覆盖所述原目标数据字段。
21.如权利要求15所述的装置,其特征在于,还包括:
导入单元,用于将经插入操作生成的结合数据字段导入所述目标数据库的一个项目中,并在所述目标数据库中建立所述将所述结合数据字段与所述项目的映射关系。
22.如权利要求15所述的装置,其特征在于,还包括:
第一识别单元,用于当所述结合数据字段合成文件后,对所述合成的文件进行识别;当所述合成的文件识别失败时,将所述合成的文件转化成单层可移植文档格式PDF文件;当所述合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
23.如权利要求22所述的装置,其特征在于,所述第一识别单元采用光学字符识别OCR识别工具时,按设定周期重启所述OCR识别工具,对所述合成的文件进行识别;和/或
对所述OCR识别工具进行监控,当监控到所述OCR识别工具退出时,重启所述OCR识别工具。
24.如权利要求15-23任一项所述的装置,其特征在于,所述确定单元采用即可扩展标记语言XML格式存储所述预设的映射关系。
25.一种文件识别工具,其特征在于,包括:
第二识别单元,用于对当前合成的文件进行识别;
第一生成单元,用于当所述合成的文件识别失败时,将所述合成的文件转化成单层可移植文档格式PDF文件;
第二生成单元,用于当所述合成的文件识别成功时,将所述合成的文件转化成合成为双层PDF文件。
26.如权利要求25所述的工具,其特征在于,所述第二识别单元采用光学字符识别OCR识别工具时,按设定周期重启所述OCR识别工具,对所述合成的文件进行识别;和/或
对所述OCR识别工具进行监控,当监控到所述OCR识别工具退出时,重启所述OCR识别工具。
CN200910243216XA 2009-12-29 2009-12-29 数据处理方法及装置、文件识别方法及工具 Pending CN102110102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910243216XA CN102110102A (zh) 2009-12-29 2009-12-29 数据处理方法及装置、文件识别方法及工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910243216XA CN102110102A (zh) 2009-12-29 2009-12-29 数据处理方法及装置、文件识别方法及工具

Publications (1)

Publication Number Publication Date
CN102110102A true CN102110102A (zh) 2011-06-29

Family

ID=44174265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910243216XA Pending CN102110102A (zh) 2009-12-29 2009-12-29 数据处理方法及装置、文件识别方法及工具

Country Status (1)

Country Link
CN (1) CN102110102A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508862A (zh) * 2011-09-29 2012-06-20 用友软件股份有限公司 数据扩展装置和数据扩展方法
CN102929895A (zh) * 2011-08-12 2013-02-13 上海博泰悦臻电子设备制造有限公司 基于地图数据的处理方法、导航系统服务器以及导航系统
CN102982133A (zh) * 2012-11-15 2013-03-20 山东中创软件工程股份有限公司 一种数据审核方法、装置及系统
CN104657396A (zh) * 2013-11-25 2015-05-27 腾讯科技(深圳)有限公司 数据迁移方法及装置
CN105528453A (zh) * 2015-12-24 2016-04-27 浪潮软件集团有限公司 一种更新招聘信息的方法、装置及系统
CN106033438A (zh) * 2015-03-13 2016-10-19 北大方正集团有限公司 舆情数据存储方法和服务器
CN102929895B (zh) * 2011-08-12 2016-12-14 上海博泰悦臻电子设备制造有限公司 基于地图数据的处理方法、导航系统服务器以及导航系统
CN107463618A (zh) * 2017-07-04 2017-12-12 北京奇艺世纪科技有限公司 一种索引创建方法和装置
CN108629020A (zh) * 2018-05-08 2018-10-09 亳州中药材商品交易中心有限公司 一种新型的库结构数据
CN108897811A (zh) * 2018-06-19 2018-11-27 广州地铁集团有限公司 一种地铁设备维修数据的标准化方法及装置
CN109241026A (zh) * 2018-07-18 2019-01-18 阿里巴巴集团控股有限公司 数据管理的方法、装置及系统
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN110110151A (zh) * 2018-01-05 2019-08-09 北大方正集团有限公司 资源包解析入库的方法、系统、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684069A (zh) * 2004-04-13 2005-10-19 微软公司 计算机化财务系统的提取、变换和加载设计器模块
US20080313204A1 (en) * 2007-06-14 2008-12-18 Colorquick, L.L.C. Method and apparatus for database mapping

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684069A (zh) * 2004-04-13 2005-10-19 微软公司 计算机化财务系统的提取、变换和加载设计器模块
US20080313204A1 (en) * 2007-06-14 2008-12-18 Colorquick, L.L.C. Method and apparatus for database mapping

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈培: "纸质档案全文数字化存贮格式管见", 《四川档案》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929895B (zh) * 2011-08-12 2016-12-14 上海博泰悦臻电子设备制造有限公司 基于地图数据的处理方法、导航系统服务器以及导航系统
CN102929895A (zh) * 2011-08-12 2013-02-13 上海博泰悦臻电子设备制造有限公司 基于地图数据的处理方法、导航系统服务器以及导航系统
CN102508862A (zh) * 2011-09-29 2012-06-20 用友软件股份有限公司 数据扩展装置和数据扩展方法
CN102982133A (zh) * 2012-11-15 2013-03-20 山东中创软件工程股份有限公司 一种数据审核方法、装置及系统
TWI550417B (zh) * 2013-11-25 2016-09-21 騰訊科技(深圳)有限公司 資料遷移方法及裝置
WO2015074427A1 (en) * 2013-11-25 2015-05-28 Tencent Technology (Shenzhen) Company Limited Systems and methods for data migration
US9661109B2 (en) 2013-11-25 2017-05-23 Tencent Technology (Shenzhen) Company Limited Systems and methods for data migration
CN104657396A (zh) * 2013-11-25 2015-05-27 腾讯科技(深圳)有限公司 数据迁移方法及装置
CN104657396B (zh) * 2013-11-25 2020-04-24 腾讯科技(深圳)有限公司 数据迁移方法及装置
CN106033438B (zh) * 2015-03-13 2019-06-04 北大方正集团有限公司 舆情数据存储方法和服务器
CN106033438A (zh) * 2015-03-13 2016-10-19 北大方正集团有限公司 舆情数据存储方法和服务器
CN105528453A (zh) * 2015-12-24 2016-04-27 浪潮软件集团有限公司 一种更新招聘信息的方法、装置及系统
CN105528453B (zh) * 2015-12-24 2018-10-23 浪潮软件集团有限公司 一种更新招聘信息的方法、装置及系统
CN107463618A (zh) * 2017-07-04 2017-12-12 北京奇艺世纪科技有限公司 一种索引创建方法和装置
CN110110151A (zh) * 2018-01-05 2019-08-09 北大方正集团有限公司 资源包解析入库的方法、系统、计算机设备和存储介质
CN108629020A (zh) * 2018-05-08 2018-10-09 亳州中药材商品交易中心有限公司 一种新型的库结构数据
CN108897811A (zh) * 2018-06-19 2018-11-27 广州地铁集团有限公司 一种地铁设备维修数据的标准化方法及装置
CN109241026A (zh) * 2018-07-18 2019-01-18 阿里巴巴集团控股有限公司 数据管理的方法、装置及系统
CN109241026B (zh) * 2018-07-18 2021-10-15 创新先进技术有限公司 数据管理的方法、装置及系统
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法

Similar Documents

Publication Publication Date Title
CN102110102A (zh) 数据处理方法及装置、文件识别方法及工具
CN107918666B (zh) 一种区块链上的数据同步方法和系统
EP3105688B1 (en) System for synchronization of changes in edited websites and interactive applications
US9940108B2 (en) Automated merging in a software development environment
EP1347394B1 (en) Schema-oriented content management system
US7610317B2 (en) Synchronization with derived metadata
US7904488B2 (en) Time stamp methods for unified plant model
EP2784665A1 (en) Program and version control method
CN110263317B (zh) 一种生成文档模板的方法及装置
EP2463816A1 (en) Methods, apparatus, systems and computer readable mediums for use in sharing information between entities
US20120210298A1 (en) Locating changes in source code
CN111339041A (zh) 文件解析入库、文件生成方法及装置
CN111078702B (zh) 一种sql语句分类管理及统一查询方法和装置
US11593357B2 (en) Databases and methods of storing, retrieving, and processing data
KR20090028758A (ko) 정보 재사용 방법, 정보 제공 방법, 편집 가능한 문서, 및 문서 편집 시스템
US9406018B2 (en) Systems and methods for semantic data integration
CN101882135A (zh) 一种数据处理方法和装置
CN114090671A (zh) 数据导入方法、装置、电子设备及存储介质
CN106802928B (zh) 电网历史数据管理方法及其系统
US8433729B2 (en) Method and system for automatically generating a communication interface
US20050071740A1 (en) Task extraction and synchronization
CN103984554A (zh) 软件设计文档的生成方法及装置
CN113641651A (zh) 一种业务数据管理方法、系统及计算机存储介质
CN111061733A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN115269548A (zh) 一种数据仓库开发模型的生成方法、系统及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110629