CN116126998B - 一种档案同源核查方法和系统 - Google Patents

一种档案同源核查方法和系统 Download PDF

Info

Publication number
CN116126998B
CN116126998B CN202310402054.XA CN202310402054A CN116126998B CN 116126998 B CN116126998 B CN 116126998B CN 202310402054 A CN202310402054 A CN 202310402054A CN 116126998 B CN116126998 B CN 116126998B
Authority
CN
China
Prior art keywords
text
text data
fitting
checking
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310402054.XA
Other languages
English (en)
Other versions
CN116126998A (zh
Inventor
黎明
毕春明
常景云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Provincial Institute of Land Surveying and Mapping
Original Assignee
Shandong Provincial Institute of Land Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Provincial Institute of Land Surveying and Mapping filed Critical Shandong Provincial Institute of Land Surveying and Mapping
Priority to CN202310402054.XA priority Critical patent/CN116126998B/zh
Publication of CN116126998A publication Critical patent/CN116126998A/zh
Application granted granted Critical
Publication of CN116126998B publication Critical patent/CN116126998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明适用于电数字数据处理技术领域,尤其涉及一种档案同源核查方法和系统,所述方法包括:将母本档案存储于档案数据库中,获取待核查档案;从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据;对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数;将拟合函数存储于核查服务器中,进行同源核验,输出核验结果。本发明通过对母本文档进行处理,将其中包含的数据转换为多个拟合函数,通过拟合函数来表征母本文档,从而在需要进行同源验证时,将待核验的文本导入到拟合函数中,若计算得到偏离度满足阈值要求,则视为核验通过,不仅保护了母本文档的安全性,还减少了数据的存储量。

Description

一种档案同源核查方法和系统
技术领域
本发明属于电数字数据处理技术领域,尤其涉及一种档案同源核查方法和系统。
背景技术
档案是指人们在各项社会活动中直接形成的各种形式的具有保存价值的原始记录,原始记录性是它的本质属性。
在当前的社会中,各种文本都通过档案的方式进行存储,但是由于文本在流转过程中,其是否被修改是无从得知的,只能够与原文本进行比对方可知晓,对于对安全性要求高的档案,频繁的进行读取操作,数据安全性难以得到保障。
发明内容
本发明实施例的目的在于提供一种档案同源核查方法,旨在解决对于对安全性要求高的档案,频繁的进行读取操作,数据安全性难以得到保障的问题。
本发明实施例是这样实现的,一种档案同源核查方法,所述方法包括:
将母本档案存储于档案数据库中,获取待核查档案,所述档案数据库中的数据经过加密处理;
从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据;
对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数;
将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果。
优选的,所述从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据的步骤,具体包括:
根据母本文档的类型选择对应的文本提取方式;
对母本进行内容识别,获取有效文本数据;
对有效文本数据进行文字统计,并按照预设的文本分类阈值进行分段,得到独立文本数据。
优选的,所述对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数的步骤,具体包括:
读取独立文本数据,按照预设的转换规则将其转换为预设类型的字符串;
按照预设的字符截取长度对字符串进行截取,得到多组预设长度的字符组;
将每一个字符组转换为一组坐标,得到多组坐标,根据坐标进行函数拟合,得到多组拟合函数。
优选的,所述将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果的步骤,具体包括:
将拟合函数存储于核查服务器中,并导入待核查档案,对拟合函数进行更新;
对待核查档案进行内容截取,得到核验文本段,将核验文本段转换为多组待核验坐标;
根据待核验坐标计算偏离度,若偏离度不超过预设值,则判定同源核验通过。
优选的,计算偏离度时,将待核验坐标的横坐标代入拟合函数,计算输出至与待核验坐标的纵坐标的差值,计算多组待核验坐标对应的差值的平均值,该平均值为偏离度。
优选的,母本档案为图片格式或者文本格式。
本发明实施例的另一目的在于提供一种档案同源核查系统,所述系统包括:
数据获取模块,用于将母本档案存储于档案数据库中,获取待核查档案,所述档案数据库中的数据经过加密处理;
文本分段模块,用于从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据;
函数拟合模块,用于对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数;
同源核验模块,用于将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果。
优选的,所述文本分段模块包括:
文档识别单元,用于根据母本文档的类型选择对应的文本提取方式;
文本获取单元,用于对母本进行内容识别,获取有效文本数据;
文本分段单元,用于对有效文本数据进行文字统计,并按照预设的文本分类阈值进行分段,得到独立文本数据。
优选的,所述函数拟合模块包括:
数据转换单元,用于读取独立文本数据,按照预设的转换规则将其转换为预设类型的字符串;
字符截取单元,用于按照预设的字符截取长度对字符串进行截取,得到多组预设长度的字符组;
坐标拟合单元,用于将每一个字符组转换为一组坐标,得到多组坐标,根据坐标进行函数拟合,得到多组拟合函数。
优选的,所述同源核验模块包括:
函数存储单元,用于将拟合函数存储于核查服务器中,并导入待核查档案,对拟合函数进行更新;
坐标转换单元,用于对待核查档案进行内容截取,得到核验文本段,将核验文本段转换为多组待核验坐标;
坐标核验单元,用于根据待核验坐标计算偏离度,若偏离度不超过预设值,则判定同源核验通过。
本发明实施例提供的一种档案同源核查方法,通过对母本文档进行处理,将其中包含的数据转换为多个拟合函数,通过拟合函数来表征母本文档,从而在需要进行同源验证时,将待核验的文本导入到拟合函数中,若计算得到偏离度满足阈值要求,则视为核验通过,不仅保护了母本文档的安全性,还减少了数据的存储量。
附图说明
图1为本发明实施例提供的一种档案同源核查方法的流程图;
图2为本发明实施例提供的从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据的步骤的流程图;
图3为本发明实施例提供的对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数的步骤的流程图;
图4为本发明实施例提供的将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果的步骤的流程图;
图5为本发明实施例提供的一种档案同源核查系统的架构图;
图6为本发明实施例提供的一种文本分段模块的架构图;
图7为本发明实施例提供的一种函数拟合模块的架构图;
图8为本发明实施例提供的一种同源核验模块的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例提供的一种档案同源核查方法的流程图,所述方法包括:
S100,将母本档案存储于档案数据库中,获取待核查档案,所述档案数据库中的数据经过加密处理。
在本步骤中,将母本档案存储于档案数据库中,所述母本档案可以为图像格式或者文本格式,文本格式可以直接读取,而图像格式则需要进行图像识别,方可读取其中包含的文字内容,将母本档案存储在档案数据库中,并进行加密,只有拥有密钥的管理人员方能读取,获取待核查档案,待核查档案为外部流转的文本,其可能与母本档案同源,也可能不同源,因此需要进行分析方可确定。
S200,从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据。
在本步骤中,从母本文档中获取有效文本数据,若母本文档为图像格式,则通过文字识别的方式,提取其中包含的文本内容,得到有效文本数据,若母本文档是通过文字直接记载的,则直接读取得到有效文本数据,按照预设的分段阈值进行分段处理,得到多组独立文本数据,具体的,也可以按照有效文本数据的内容进行识别,从而进行分段处理,如通过语义识别,确定各段落的语义内容,以得到多组独立文本数据。
S300,对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数。
在本步骤中,对各个独立文本数据进行文本转换,按照预设的文本转换方式,将独立数据文本转换为特定长度的文本,然后进一步转换为坐标,坐标即为二维坐标系中的点,在得到多个点之后,通过拟合的方式,为每一组独立文本数据构建一个拟合函数,根据拟合函数在二维坐标系中构建的图案能够穿过根据独立文本数据转化得到的各个坐标,那么通过对多组独立文本数据进行拟合,则可以得到多组拟合函数,通过拟合函数可以对待核查档案进行表征。
S400,将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果。
在本步骤中,将拟合函数存储于核查服务器中,核查服务器与档案数据库之间是存在数据传输关系的,并且数据传输关系为单向,即仅供档案数据库传输数据至核查服务器,在需要对待核查档案进行同源核验时,将待核查档案同样的转换为多组坐标,进而确定多组坐标对应的点与拟合函数在二维坐标系中构建的图案之间的距离,若平均距离超过预设值,则视为核验失败,最终输出核验结果。
如图2所示,作为本发明的一个优选实施例,所述从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据的步骤,具体包括:
S201,根据母本文档的类型选择对应的文本提取方式。
在本步骤中,识别母本文档的类型,判定母本文档是文本还是图片,对于图片格式的母本文档,则调取对应的图像识别引擎,对于普通的文字文本,则可以直接进行读取。
S202,对母本进行内容识别,获取有效文本数据。
在本步骤中,对母本进行内容识别,图片格式的母本文档,利用图像识别引擎进行识别,将识别得到的文字作为有效文本数据。
S203,对有效文本数据进行文字统计,并按照预设的文本分类阈值进行分段,得到独立文本数据。
在本步骤中,对有效文本数据进行文字统计,具体的,统计文字的数量,根据预设的文本分类阈值进行分段,如将每1000字作为一个段落,即得到一个独立文本数据。
如图3所示,作为本发明的一个优选实施例,所述对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数的步骤,具体包括:
S301,读取独立文本数据,按照预设的转换规则将其转换为预设类型的字符串。
在本步骤中,读取独立文本数据,将其转换为二进制数据,此时整个独立文本数据为由1和0表示的二进制字符,进而将其转换为十进制数据,得到十进制的字符串。
S302,按照预设的字符截取长度对字符串进行截取,得到多组预设长度的字符组。
在本步骤中,按照预设的字符截取长度对字符串进行截取,如每次截取四个十进制字符,那么最终通过截取将会得到多组包含四个十进制字符的字符组,当然,字符组的包含的十进制字符的数量也可以调整为6个,或者8个。
S303,将每一个字符组转换为一组坐标,得到多组坐标,根据坐标进行函数拟合,得到多组拟合函数。
在本步骤中,将每一个字符组转换为一组坐标,以包含四个十进制字符的字符串为例,将该字符串中的前两个字符作为横坐标,以后两个字符作为纵坐标,此时将会得到多组坐标,对上述坐标中横坐标重合的数据进行删除,如A坐标和B坐标的横坐标值均为a,则随机保留A或者B,然后通过函数拟合,获取对应的拟合函数。
如图4所示,作为本发明的一个优选实施例,所述将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果的步骤,具体包括:
S401,将拟合函数存储于核查服务器中,并导入待核查档案,对拟合函数进行更新。
在本步骤中,将拟合函数存储于核查服务器中,当档案数据库中的母本档案更新时,将会产生对应的拟合函数,对该拟合函数进行更新,在进行同源核验时,则将需要核验的待核验档案导入到核查服务器中。
S402,对待核查档案进行内容截取,得到核验文本段,将核验文本段转换为多组待核验坐标。
在本步骤中,对待核查档案进行内容截取,截取的内容数据至少包含两倍的文本分类阈值,如文本分类阈值为1000个文字,那么截取的内容数据至少包含2000个文字,在生成待核验坐标的时候,根据字符截取长度来多次生成待核验坐标,具体的,生成待核验坐标的次数与字符截取长度的数值相同,如字符截取长度为四个字符,那么生成待核验坐标的次数为四次,第N次生成待核验坐标的开始位置从截取的内容数据的第N个十进制字符开始,以下举例说明,截取的内容数据包含2000个文字,将其转化为十进制表示的字符串,定义为字符串Q,其前八个十进制字符为26489694,字符截取长度为4,那么生成四次待核验坐标,第一生成待核验坐标,从字符串Q的第一个十进制字符开始截取,那么待核验坐标中的第一个坐标为(26,48),第二坐标为(9694),第二次生成待核验坐标时,待核验坐标中的第一个坐标为(64,89),第三次生成待核验坐标时,待核验坐标中的第一个坐标为(48,96),第四次生成待核验坐标时,待核验坐标中的第一个坐标为(89,69),那么就得到四组不同的待核验坐标。
S403,根据待核验坐标计算偏离度,若偏离度不超过预设值,则判定同源核验通过。
在本步骤中,依次将多组待核验坐标导入到所有拟合函数中,如包含N组拟合函数,存在M组待核验坐标,则将M组待核验坐标的横坐标依次代入到N组拟合函数中,每次将一个横坐标导入到一个拟合函数中,将会得到一个计算值,此时计算该计算值与该横坐标对应的纵坐标的差值,进一步计算该差值与拟合函数导出的计算值的比值,可以将该比值作为判定核验是否通过的依据,设置一个比值阈值范围,如0.05,当存在一组待核验坐标对应的多组比值中有40%以上的比值低于0.05,则判定核验通过,反之则核验失败。
如图5所示,为本发明实施例提供的一种档案同源核查系统,所述系统包括:
数据获取模块100,用于将母本档案存储于档案数据库中,获取待核查档案,所述档案数据库中的数据经过加密处理。
在本系统中,数据获取模块100将母本档案存储于档案数据库中,所述母本档案可以为图像格式或者文本格式,文本格式可以直接读取,而图像格式则需要进行图像识别,方可读取其中包含的文字内容,将母本档案存储在档案数据库中,并进行加密,只有拥有密钥的管理人员方能读取,获取待核查档案,待核查档案为外部流转的文本,其可能与母本档案同源,也可能不同源,因此需要进行分析方可确定。
文本分段模块200,用于从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据。
在本系统中,文本分段模块200从母本文档中获取有效文本数据,若母本文档为图像格式,则通过文字识别的方式,提取其中包含的文本内容,得到有效文本数据,若母本文档是通过文字直接记载的,则直接读取得到有效文本数据,按照预设的分段阈值进行分段处理,得到多组独立文本数据,具体的,也可以按照有效文本数据的内容进行识别,从而进行分段处理,如通过语义识别,确定各段落的语义内容,以得到多组独立文本数据。
函数拟合模块300,用于对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数。
在本系统中,函数拟合模块300对各个独立文本数据进行文本转换,按照预设的文本转换方式,将独立数据文本转换为特定长度的文本,然后进一步转换为坐标,坐标即为二维坐标系中的点,在得到多个点之后,通过拟合的方式,为每一组独立文本数据构建一个拟合函数,根据拟合函数在二维坐标系中构建的图案能够穿过根据独立文本数据转化得到的各个坐标,那么通过对多组独立文本数据进行拟合,则可以得到多组拟合函数,通过拟合函数可以对待核查档案进行表征。
同源核验模块400,用于将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果。
在本系统中,同源核验模块400将拟合函数存储于核查服务器中,核查服务器与档案数据库之间是存在数据传输关系的,并且数据传输关系为单向,即仅供档案数据库传输数据至核查服务器,在需要对待核查档案进行同源核验时,将待核查档案同样的转换为多组坐标,进而确定多组坐标对应的点与拟合函数在二维坐标系中构建的图案之间的距离,若平均距离超过预设值,则视为核验失败,最终输出核验结果。
如图6所示,作为本发明的一个优选实施例,所述文本分段模块200包括:
文档识别单元201,用于根据母本文档的类型选择对应的文本提取方式。
在本模块中,文档识别单元201识别母本文档的类型,判定母本文档是文本还是图片,对于图片格式的母本文档,则调取对应的图像识别引擎,对于普通的文字文本,则可以直接进行读取。
文本获取单元202,用于对母本进行内容识别,获取有效文本数据。
在本模块中,文本获取单元202对母本进行内容识别,图片格式的母本文档,利用图像识别引擎进行识别,将识别得到的文字作为有效文本数据。
文本分段单元203,用于对有效文本数据进行文字统计,并按照预设的文本分类阈值进行分段,得到独立文本数据。
在本模块中,文本分段单元203对有效文本数据进行文字统计,具体的,统计文字的数量,根据预设的文本分类阈值进行分段,如将每1000字作为一个段落,即得到一个独立文本数据。
如图7所示,作为本发明的一个优选实施例,所述函数拟合模块300包括:
数据转换单元301,用于读取独立文本数据,按照预设的转换规则将其转换为预设类型的字符串。
在本模块中,数据转换单元301读取独立文本数据,将其转换为二进制数据,此时整个独立文本数据为由1和0表示的二进制字符,进而将其转换为十进制数据,得到十进制的字符串。
字符截取单元302,用于按照预设的字符截取长度对字符串进行截取,得到多组预设长度的字符组。
在本模块中,字符截取单元302按照预设的字符截取长度对字符串进行截取,如每次截取四个十进制字符,那么最终通过截取将会得到多组包含四个十进制字符的字符组,当然,字符组的包含的十进制字符的数量也可以调整为6个,或者8个。
坐标拟合单元303,用于将每一个字符组转换为一组坐标,得到多组坐标,根据坐标进行函数拟合,得到多组拟合函数。
在本模块中,坐标拟合单元303将每一个字符组转换为一组坐标,以包含四个十进制字符的字符串为例,将该字符串中的前两个字符作为横坐标,以后两个字符作为纵坐标,此时将会得到多组坐标,对上述坐标中横坐标重合的数据进行删除,如A坐标和B坐标的横坐标值均为a,则随机保留A或者B,然后通过函数拟合,获取对应的拟合函数。
如图8所示,作为本发明的一个优选实施例,所述同源核验模块400包括:
函数存储单元401,用于将拟合函数存储于核查服务器中,并导入待核查档案,对拟合函数进行更新。
在本模块中,函数存储单元401将拟合函数存储于核查服务器中,当档案数据库中的母本档案更新时,将会产生对应的拟合函数,对该拟合函数进行更新,在进行同源核验时,则将需要核验的待核验档案导入到核查服务器中。
坐标转换单元402,用于对待核查档案进行内容截取,得到核验文本段,将核验文本段转换为多组待核验坐标。
在本模块中,坐标转换单元402对待核查档案进行内容截取,截取的内容数据至少包含两倍的文本分类阈值,如文本分类阈值为1000个文字,那么截取的内容数据至少包含2000个文字,在生成待核验坐标的时候,根据字符截取长度来多次生成待核验坐标,具体的,生成待核验坐标的次数与字符截取长度的数值相同,如字符截取长度为四个字符,那么生成待核验坐标的次数为四次,第N次生成待核验坐标的开始位置从截取的内容数据的第N个十进制字符开始,以下举例说明,截取的内容数据包含2000个文字,将其转化为十进制表示的字符串,定义为字符串Q,其前八个十进制字符为26489694,字符截取长度为4,那么生成四次待核验坐标,第一生成待核验坐标,从字符串Q的第一个十进制字符开始截取,那么待核验坐标中的第一个坐标为(26,48),第二坐标为(9694),第二次生成待核验坐标时,待核验坐标中的第一个坐标为(64,89),第三次生成待核验坐标时,待核验坐标中的第一个坐标为(48,96),第四次生成待核验坐标时,待核验坐标中的第一个坐标为(89,69),那么就得到四组不同的待核验坐标。
坐标核验单元403,用于根据待核验坐标计算偏离度,若偏离度不超过预设值,则判定同源核验通过。
在本模块中,坐标核验单元403依次将多组待核验坐标导入到所有拟合函数中,如包含N组拟合函数,存在M组待核验坐标,则将M组待核验坐标的横坐标依次代入到N组拟合函数中,每次将一个横坐标导入到一个拟合函数中,将会得到一个计算值,此时计算该计算值与该横坐标对应的纵坐标的差值,进一步计算该差值与拟合函数导出的计算值的比值,可以将该比值作为判定核验是否通过的依据,设置一个比值阈值范围,如0.05,当存在一组待核验坐标对应的多组比值中有40%以上的比值低于0.05,则判定核验通过,反之则核验失败。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种档案同源核查方法,其特征在于,所述方法包括:
将母本档案存储于档案数据库中,获取待核查档案,所述档案数据库中的数据经过加密处理;
从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据;
对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数;
将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果;
所述对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数的步骤,具体包括:
读取独立文本数据,按照预设的转换规则将其转换为预设类型的字符串;
按照预设的字符截取长度对字符串进行截取,得到多组预设长度的字符组;
将每一个字符组转换为一组坐标,得到多组坐标,根据坐标进行函数拟合,得到多组拟合函数。
2.根据权利要求1所述的档案同源核查方法,其特征在于,所述从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据的步骤,具体包括:
根据母本文档的类型选择对应的文本提取方式;
对母本进行内容识别,获取有效文本数据;
对有效文本数据进行文字统计,并按照预设的文本分类阈值进行分段,得到独立文本数据。
3.根据权利要求1所述的档案同源核查方法,其特征在于,所述将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果的步骤,具体包括:
将拟合函数存储于核查服务器中,并导入待核查档案,对拟合函数进行更新;
对待核查档案进行内容截取,得到核验文本段,将核验文本段转换为多组待核验坐标;
根据待核验坐标计算偏离度,若偏离度不超过预设值,则判定同源核验通过。
4.根据权利要求3所述的档案同源核查方法,其特征在于,计算偏离度时,将待核验坐标的横坐标代入拟合函数,计算输出至与待核验坐标的纵坐标的差值,计算多组待核验坐标对应的差值的平均值,该平均值为偏离度。
5.根据权利要求3所述的档案同源核查方法,其特征在于,母本档案为图片格式或者文本格式。
6.一种档案同源核查系统,其特征在于,所述系统包括:
数据获取模块,用于将母本档案存储于档案数据库中,获取待核查档案,所述档案数据库中的数据经过加密处理;
文本分段模块,用于从母本文档中获取有效文本数据,对有效文本数据进行分段处理,得到独立文本数据;
函数拟合模块,用于对各个独立文本数据进行文本转换,基于转换后的文本进行函数拟合,得到多组拟合函数;
同源核验模块,用于将拟合函数存储于核查服务器中,将待核查档案导入核查服务器,进行同源核验,输出核验结果;
所述函数拟合模块包括:
数据转换单元,用于读取独立文本数据,按照预设的转换规则将其转换为预设类型的字符串;
字符截取单元,用于按照预设的字符截取长度对字符串进行截取,得到多组预设长度的字符组;
坐标拟合单元,用于将每一个字符组转换为一组坐标,得到多组坐标,根据坐标进行函数拟合,得到多组拟合函数。
7.根据权利要求6所述的档案同源核查系统,其特征在于,所述文本分段模块包括:
文档识别单元,用于根据母本文档的类型选择对应的文本提取方式;
文本获取单元,用于对母本进行内容识别,获取有效文本数据;
文本分段单元,用于对有效文本数据进行文字统计,并按照预设的文本分类阈值进行分段,得到独立文本数据。
8.根据权利要求6所述的档案同源核查系统,其特征在于,所述同源核验模块包括:
函数存储单元,用于将拟合函数存储于核查服务器中,并导入待核查档案,对拟合函数进行更新;
坐标转换单元,用于对待核查档案进行内容截取,得到核验文本段,将核验文本段转换为多组待核验坐标;
坐标核验单元,用于根据待核验坐标计算偏离度,若偏离度不超过预设值,则判定同源核验通过。
CN202310402054.XA 2023-04-17 2023-04-17 一种档案同源核查方法和系统 Active CN116126998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310402054.XA CN116126998B (zh) 2023-04-17 2023-04-17 一种档案同源核查方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310402054.XA CN116126998B (zh) 2023-04-17 2023-04-17 一种档案同源核查方法和系统

Publications (2)

Publication Number Publication Date
CN116126998A CN116126998A (zh) 2023-05-16
CN116126998B true CN116126998B (zh) 2023-06-27

Family

ID=86312105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310402054.XA Active CN116126998B (zh) 2023-04-17 2023-04-17 一种档案同源核查方法和系统

Country Status (1)

Country Link
CN (1) CN116126998B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN114817676A (zh) * 2022-04-21 2022-07-29 重庆市规划和自然资源档案馆 档案管理系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335956B (zh) * 2014-08-06 2020-07-28 腾讯科技(深圳)有限公司 同源图像的校验方法及装置
US20170236130A1 (en) * 2014-10-13 2017-08-17 Kim Seng Kee Emulating Manual System of Filing Using Electronic Document and Electronic File
CN106296378B (zh) * 2016-07-26 2021-06-01 四川长虹电器股份有限公司 基于xbrl的智能财务云平台系统、构建方法及业务实现方法
CN107766570B (zh) * 2017-11-10 2020-04-07 广东电网有限责任公司电力科学研究院 一种档案同源核查方法
CN113887199A (zh) * 2021-09-29 2022-01-04 合肥文因互联科技有限公司 一种基于知识库的金融文本核查系统
CN115567284A (zh) * 2022-09-22 2023-01-03 上海天擎天拓软件技术有限公司 一种基于文字及图片的内容安全过滤方法及系统
CN115776397A (zh) * 2022-11-18 2023-03-10 承德医学院 一种计算机网络防火墙开启方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质
CN114817676A (zh) * 2022-04-21 2022-07-29 重庆市规划和自然资源档案馆 档案管理系统

Also Published As

Publication number Publication date
CN116126998A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
JP2017528070A (ja) 情報の暗号化及び復号化
Poisel et al. A comprehensive literature review of file carving
CN110362799B (zh) 基于在线仲裁的裁决书生成处理方法、装置和计算机设备
CN109325118B (zh) 不平衡样本数据预处理方法、装置和计算机设备
CN116089620B (zh) 一种电子档案数据管理方法和系统
WO2019148712A1 (zh) 钓鱼网站检测方法、装置、计算机设备和存储介质
CN111612476B (zh) 二次校验防伪方法、装置、设备及存储介质
CN111124421B (zh) 区块链智能合约的异常合约数据检测方法和装置
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN115567284A (zh) 一种基于文字及图片的内容安全过滤方法及系统
CN111666258B (zh) 信息处理方法和装置、信息查询方法和装置
CN116126998B (zh) 一种档案同源核查方法和系统
CN115859370B (zh) 交易数据的处理方法、装置、计算机设备和存储介质
CN116055067B (zh) 一种弱口令检测的方法、装置、电子设备及介质
CN116228508A (zh) 一种密码生成和认证系统及方法
CN115776397A (zh) 一种计算机网络防火墙开启方法和系统
CN115080992A (zh) 一种基于标识的统一电子印章系统及方法
EP3929787A1 (en) Detecting sensitive data records using a data format analysis
CN112749539B (zh) 文本匹配方法、装置、计算机可读存储介质和计算机设备
CN114385080A (zh) 一种区块链数据的存储方法及系统
CN108959486B (zh) 审计字段信息获取方法、装置、计算机设备和存储介质
CN112732937A (zh) 基于知识图谱的隐藏关系获取方法、装置、设备和介质
CN117294526B (zh) 一种通信信息共享方法及系统
US20240111887A1 (en) System and Method for creating a digital fingerprint library
CN117034236A (zh) 虹膜数据隐私保护、识别方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant