CN117149716A - 一种电子文档真实性检测方法、装置和设备 - Google Patents
一种电子文档真实性检测方法、装置和设备 Download PDFInfo
- Publication number
- CN117149716A CN117149716A CN202311401992.4A CN202311401992A CN117149716A CN 117149716 A CN117149716 A CN 117149716A CN 202311401992 A CN202311401992 A CN 202311401992A CN 117149716 A CN117149716 A CN 117149716A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- content
- data
- detected
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 238000007621 cluster analysis Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 56
- 238000012795 verification Methods 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及电子文档内容检测技术领域,具体涉及一种电子文档真实性检测方法、装置和设备,其中,所述方法包括自动获取待检测电子文档的内容数据,并根据待检测电子文档的元数据获取位置信息,确定待检测电子文档元数据的获取路径,从而获取待检测电子文档的元数据,通过对内容数据和元数据进行聚类分析,根据聚类结果,确定电子文档的真实性,从而解决了目前需要手动提取电子文档的内容数据,以及手动检索电子文档的元数据从而进行真实性检测,检测效率低的问题。
Description
技术领域
本发明涉及电子文档内容检测技术领域,具体涉及一种电子文档真实性检测方法、装置和设备。
背景技术
“四性”检测与电子文档归档、电子文档移交接收和电子文档长期保存这三个环节密切结合,与电子文档生命周期管理密切结合,确保电子文档和电子文档的真实、完整、可用和安全。其中真实性检测内容包括:电子文档内容的真实性检测,检测电子文档内容数据中包含的电子属性信息与电子文档元数据中记录的信息是否一致。
现有技术中采用人工的方式对电子文档进行真实性校验,需要手动提取电子文档的内容数据,以及手动检索电子文档的元数据从而进行真实性检测,检测效率低。
发明内容
有鉴于此,本发明的目的在于提供一种电子文档真实性检测方法、装置和设备,以克服目前采用人工的方式对电子文档进行真实性校验,需要手动提取电子文档的内容数据,以及手动检索电子文档的元数据从而进行真实性检测,检测效率低的问题。
为实现以上目的,本发明采用如下技术方案:
第一方面,本申请提供了一种电子文档真实性检测方法,包括:
获取待检测电子文档及其元数据获取位置信息;
根据所述元数据获取位置信息确定所述待检测电子文档的元数据的获取路径;
根据所述获取路径,获取所述待检测电子文档的元数据;
获取所述待检测电子文档中的内容数据;
对所述内容数据和获取的所述元数据进行聚类分析,根据聚类结果,确定所述电子文档的真实性。
进一步的,以上所述的方法,所述对所述内容数据和获取的所述元数据进行聚类分析,根据聚类结果,确定所述电子文档的真实性,包括:
根据所述电子文档的预设版式,确定所述内容数据中的各数据的标签;所述预设版式包括档案版式;
根据各数据的标签,确定与各数据匹配的元数据;
分别计算各数据与对应的元数据之间的相似性特征值;
根据各数据对应的相似性特征值,确定聚类特征值,并将所述聚类特征值作为所述聚类结果;
在所述聚类特征值大于预设阈值的情况下,确定所述待检测电子文档为真实电子文档。
进一步的,以上所述的方法,所述获取所述待检测电子文档中的内容数据,包括:
根据深度学习算法建立内容识别模型;
获取模型训练数据;其中,所述模型训练数据包括:训练数据集合和验证数据集合;
通过所述训练数据集合对所述内容识别模型进行训练;
通过所述验证数据集合对训练完成的所述内容识别模型进行验证;
根据验证通过后的所述内容识别模型识别并提取所述待检测电子文档中的内容数据。
进一步的,以上所述的方法,所述通过所述训练数据集合对所述内容识别模型进行训练,包括:
将所述训练数据集合中的版式电子文档转换成图像文件;
获取用户指令,并根据所述用户指令通过方框在所述图像文件中标记出识别内容;
将所述训练数据集合转换的标记后的图像文件输入到所述内容识别模型,对所述内容识别模型进行训练。
进一步的,以上所述的方法,所述通过所述验证数据集合对训练完成的所述内容识别模型进行验证,包括:
将所述验证数据集合转换的未标记的图像文件输入到训练完成的所述内容识别模型中;
获取所述内容识别模型输出的识别结果数据,并根据所述验证数据集合转换的标记后的图像文件对所述识别结果数据进行验证;
若所述验证数据集合转换的标记后的图像文件与所述识别结果数据一致,则判断所述内容识别模型验证通过。
进一步的,以上所述的方法,还包括:
若所述验证数据集合转换的标记后的图像文件与所述识别结果数据不一致,则重新获取不同的所述模型训练数据;
通过重新获取的所述模型训练数据中的训练数据集合对所述内容识别模型进行训练;
通过重新获取的所述验证数据集合对训练完成的所述内容识别模型进行验证,直至所述内容识别模型通过验证。
进一步的,以上所述的方法,所述根据验证通过后的所述内容识别模型识别并提取所述电子文档中的内容数据,包括:
将所述待检测电子文档转换成图像文件;
通过所述内容识别模型对所述图像文件中的内容进行识别标记;
获取空白的版式模板电子文档,并将所述图像文件中标记的内容同比例映射到所述版式模板电子文档相应的内容区域;
提取所述版式模板电子文档内容区域中的内容。
进一步的,以上所述的方法,所述提取所述版式模板电子文档内容区域中的内容,包括:
获取所有所述待检测电子文档的置信度;
确定置信度最高的所述待检测电子文档;
确定置信度最高的所述待检测电子文档对应的版式模板电子文档,并提取所述版式模板电子文档内容区域中的内容。
第二方面,本申请提供了一种电子文档真实性检测装置,包括:
检测内容获取模块,用于获取待检测电子文档及其元数据获取位置信息,根据所述元数据获取位置信息确定所述待检测电子文档的元数据的获取路径,根据所述获取路径,获取所述待检测电子文档的元数据;
内容数据获取模块,用于获取所述待检测电子文档中的内容数据;
真实性检测模块,用于对所述内容数据和获取的所述元数据进行聚类分析,根据聚类结果,确定所述电子文档的真实性。
第三方面,本申请提供了一种电子文档真实性检测设备,包括处理器和存储器,所述处理器与存储器相连:
其中,所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器,用于存储所述程序,所述程序至少用于执行以上任一项所述的电子文档真实性检测方法。
本发明的有益效果为:
本申请中首先获取待检测电子文档及其元数据获取位置信息,根据元数据获取位置信息确定待检测电子文档的元数据的获取路径,根据获取路径,获取待检测电子文档的元数据,获取待检测电子文档中的内容数据,对内容数据和获取的元数据进行聚类分析,根据聚类结果,确定电子文档的真实性。在本申请中,系统会自动获取待检测电子文档的内容数据,并根据待检测电子文档的元数据获取位置信息,确定待检测电子文档元数据的获取路径,从而获取待检测电子文档的元数据,通过对内容数据和元数据进行聚类分析,根据聚类结果,确定电子文档的真实性,从而解决了目前需要手动提取电子文档的内容数据,以及手动检索电子文档的元数据从而进行真实性检测,检测效率低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种电子文档真实性检测方法一种实施例提供的流程图;
图2是本发明一种电子文档真实性检测装置一种实施例提供的结构示意图;
图3是本发明一种电子文档真实性检测设备一种实施例提供的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
现有技术中采用人工的方式对电子文档进行真实性校验,需要手动提取电子文档的内容数据,以及手动检索电子文档的元数据从而进行真实性检测,检测效率低。
有鉴于此,本发明的目的在于提供一种电子文档真实性检测方法、装置和设备,以克服目前采用人工的方式对电子文档进行真实性校验,需要手动提取电子文档的内容数据,以及手动检索电子文档的元数据从而进行真实性检测,检测效率低的问题。
图1是本发明一种电子文档真实性检测方法一种实施例提供的流程图。请参阅图1,本实施例可以包括以下步骤:
S1、获取待检测电子文档及其元数据获取位置信息。
S2、根据元数据获取位置信息确定待检测电子文档的元数据的获取路径。
S3、根据获取路径,获取待检测电子文档的元数据。
S4、获取待检测电子文档中的内容数据。
S5、对内容数据和获取的元数据进行聚类分析,根据聚类结果,确定电子文档的真实性。
可以理解的是,本申请中首先获取待检测电子文档及其元数据获取位置信息,根据元数据获取位置信息确定待检测电子文档的元数据的获取路径,根据获取路径,获取待检测电子文档的元数据,获取待检测电子文档中的内容数据,对内容数据和获取的元数据进行聚类分析,根据聚类结果,确定电子文档的真实性。在本申请中,系统会自动获取待检测电子文档的内容数据,并根据待检测电子文档的元数据获取位置信息,确定待检测电子文档元数据的获取路径,从而获取待检测电子文档的元数据,通过对内容数据和元数据进行聚类分析,根据聚类结果,确定电子文档的真实性,从而解决了目前需要手动提取电子文档的内容数据,以及手动检索电子文档的元数据从而进行真实性检测,检测效率低的问题。
优选的,步骤S5,包括:
根据电子文档的预设版式,确定内容数据中的各数据的标签;预设版式包括档案版式;
根据各数据的标签,确定与各数据匹配的元数据;
分别计算各数据与对应的元数据之间的相似性特征值;
根据各数据对应的相似性特征值,确定聚类特征值,并将聚类特征值作为聚类结果;
在聚类特征值大于预设阈值的情况下,确定待检测电子文档为真实电子文档。
可以理解的是,通过内容数据中的各数据的标签,确定内容数据代表档案中的哪部分数据,与哪部分元数据技术计算相似性,通过常用的特征相似度计算方法,计算各数据与对应的元数据之间的相似性特征值。例如:欧式距离、曼哈顿距离、余弦相似度、皮尔逊相关系数和汉明距离。通过对各部分数据设置不同的权重,通过加权求和的方式计算得出聚类特征值,并通过与预设的阈值进行对比,从而确定电子文档的真实性。
优选的,步骤S4,包括:
根据深度学习算法建立内容识别模型;
获取模型训练数据;其中,模型训练数据包括:训练数据集合和验证数据集合;
通过训练数据集合对内容识别模型进行训练;
通过验证数据集合对训练完成的内容识别模型进行验证;
根据验证通过后的内容识别模型识别并提取待检测电子文档中的内容数据。
可以理解的是,现有的对电子文档真实性的检测中,采用自然语言处理算法对电子文档版式电子文档中的内容通过语义理解的方式进行识别,然后再根据电子文档元数据对识别出的内容进行真实性校验。但是,自然语言处理算法只能做到词向量或者句子向量的相似概率,识别的内容不精确。在本实施例中,采用内容识别模型识别待检测电子文档中的内容,通过深度学习算法建立内容识别模型,通过训练数据集合对内容识别模型进行训练,并且为了保证内容识别模型识别的准确度,通过验证数据集合对训练完成的内容识别模型进行验证,只有在验证通过后,才通过内容识别模型对待检测电子文档进行内容识别,并提取识别出的内容数据,最后通过待检测电子文档的元数据对识别出的内容数据进行真实性校验,从而解决了目前采用自然语言处理算法识别电子文档版式电子文档中的内容,只能做到词向量或者句子向量的相似概率,识别的内容不精确,真实性检测不准确的问题。
优选的,通过训练数据集合对内容识别模型进行训练,包括:
将训练数据集合中的版式电子文档转换成图像文件;
获取用户指令,并根据用户指令通过方框在图像文件中标记出识别内容;
将训练数据集合转换的标记后的图像文件输入到内容识别模型,对内容识别模型进行训练。
优选的,通过验证数据集合对训练完成的内容识别模型进行验证,包括:
将验证数据集合转换的未标记的图像文件输入到训练完成的内容识别模型中;
获取内容识别模型输出的识别结果数据,并根据验证数据集合转换的标记后的图像文件对识别结果数据进行验证;
若验证数据集合转换的标记后的图像文件与识别结果数据一致,则判断内容识别模型验证通过。
在具体的实践中,首先建立内容识别模型,然后,获取一定的版式电子文档训练数据,数量大概在1000左右。将版式电子文档的转换成图像文件,图像文件大小设为width*height(这个长宽比例和版式电子文档的比例要一致)这个width 和height 今后需要跟pdf页面的大小进行缩放。使用标记工具,将训练数据转换成的图像文件进行训练标记。图像文件上的题名、文号等需要识别的内容使用方框标记出,并保存到json配置电子文档格式,例如:
"label": "文号",
"points": [
[
262.71428571428555,
822.5612244897958
],
[
677.0,
822.5612244897958
],
[
679.0408163265306,
902.1530612244898
],
[
262.71428571428555,
904.1938775510204
]
],
"group_id": null,
"shape_type": "polygon",
"flags": {}
},
{
"label": "题名",
"points": [
[
289.2448979591836,
1085.8265306122448
],
[
1364.7551020408162,
1075.6224489795918
],
[
1370.877551020408,
1232.765306122449
],
[
293.3265306122448,
1234.8061224489795
]
]。
需要说明的是,这是题名、文号两种标签的标记数据,其他内容类型的标记数据采用类似的方法进行标记。使用标记好的数据进行训练,得到模型。需要说明的是训练集合需要划分为训练集合和验证集合,比例在8:2左右,训练模型采用pytorch的模型,目前比较主流的ai框架。
优选的,还包括:
若验证数据集合转换的标记后的图像文件与识别结果数据不一致,则重新获取不同的模型训练数据;
通过重新获取的模型训练数据中的训练数据集合对内容识别模型进行训练;
通过重新获取的验证数据集合对训练完成的内容识别模型进行验证,直至内容识别模型通过验证。
可以理解的是,为了保证内容识别模型识别的准确性,在对内容识别模型进行验证时,当内容识别模型的标记结果与训练数据集合标记后的图像文件不一致,则重新获取不同的模型训练数据,重新对内容识别模型进行训练,并再次进行验证,直到内容识别模型输出的标记结果与训练数据集合标记后的图像文件一致为止。
优选的,根据验证通过后的内容识别模型识别并提取待检测电子文档中的内容数据,包括:
将待检测电子文档转换成图像文件;
通过内容识别模型对图像文件中的内容进行识别标记;
获取空白的版式模板电子文档,并将图像文件中标记的内容同比例映射到版式模板电子文档相应的内容区域;
提取版式模板电子文档内容区域中的内容。
优选的,提取版式电子文档内容区域中的内容,包括:
获取所有待检测电子文档的置信度;
确定置信度最高的待检测电子文档;
确定置信度最高的待检测电子文档对应的版式模板电子文档,并提取版式模板电子文档内容区域中的内容。
可以理解的是,根据待检测电子文档的图像文件上的标记映射到版式模板电子文档内容区域,首先图像文件和版式模板电子文档进行同比例映射。如width*height的图像文件,需要同比例映射到版面尺寸为pagewidth*pageheight。图像文件的坐标原点左上方,版式模板电子文档的坐标原点在左下方。图像文件上的标记为bbox[a,b,c,d],转换为版式模板电子文档上的内容区域坐标newbbox[e,f,g,h]。然后将内容区域内的信息进行抽取。根据识别置信度对抽取的信息进行取舍,筛选置信度最高的版式电子文档题名、文号等。即获取版式电子文档各类型内容的置信度,对各类型内中置信度最高的内容进行提取然后进行组合,或者,获取所有待检测电子文档的置信度,直接提取置信度最高的待检测电子文档对应的版式模板电子文档中的内容。最后根据提取到的内容和待检测电子文档的元数据进行真实性校验,确定待检测电子文档的真实性。
本发明还提供了一种电子文档真实性检测装置,用于实现上述方法实施例。图2是本发明一种电子文档真实性检测装置一种实施例提供的结构示意图。如图2所示,包括:
检测内容获取模块1,用于获取待检测电子文档所在的电子文档及其元数据获取位置信息,根据元数据获取位置信息确定电子文档的元数据的获取路径,根据获取路径,获取待检测电子文档的元数据;
内容数据获取模块2,用于获取电子文档中的内容数据;
真实性检测模块3,用于对内容数据和获取的元数据进行聚类分析,根据聚类结果,确定电子文档的真实性。
可以理解的是,本申请中首先获取待检测电子文档及其元数据获取位置信息,根据元数据获取位置信息确定待检测电子文档的元数据的获取路径,根据获取路径,获取待检测电子文档的元数据,获取待检测电子文档中的内容数据,对内容数据和获取的元数据进行聚类分析,根据聚类结果,确定电子文档的真实性。在本申请中,系统会自动获取待检测电子文档的内容数据,并根据待检测电子文档的元数据获取位置信息,确定待检测电子文档元数据的获取路径,从而获取待检测电子文档的元数据,通过对内容数据和元数据进行聚类分析,根据聚类结果,确定电子文档的真实性,从而解决了目前需要手动提取电子文档的内容数据,以及手动检索电子文档的元数据从而进行真实性检测,检测效率低的问题。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明还提供了一种电子文档真实性检测设备,用于实现上述方法实施例。图3是本发明一种电子文档真实性检测设备一种实施例提供的结构示意图。如图3所示,本实施例的电子文档真实性的检测设备包括处理器21和存储器22,处理器21与存储器22相连。其中,处理器21用于调用并执行所述存储器22中存储的程序;存储器22用于存储所述程序,所述程序至少用于执行以上实施例中的电子文档真实性检测方法。
本申请实施例提供的电子文档真实性检测设备的具体实施方案可以参考以上任意实施例的电子文档真实性检测方法的实施方式,此处不再赘述。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种电子文档真实性检测方法,其特征在于,包括:
获取待检测电子文档及其元数据获取位置信息;
根据所述元数据获取位置信息确定所述待检测电子文档的元数据的获取路径;
根据所述获取路径,获取所述待检测电子文档的元数据;
获取所述待检测电子文档中的内容数据;
对所述内容数据和获取的所述元数据进行聚类分析,根据聚类结果,确定所述电子文档的真实性。
2.根据权利要求1所述的方法,其特征在于,所述对所述内容数据和获取的所述元数据进行聚类分析,根据聚类结果,确定所述电子文档的真实性,包括:
根据所述电子文档的预设版式,确定所述内容数据中的各数据的标签;所述预设版式包括档案版式;
根据各数据的标签,确定与各数据匹配的元数据;
分别计算各数据与对应的元数据之间的相似性特征值;
根据各数据对应的相似性特征值,确定聚类特征值,并将所述聚类特征值作为所述聚类结果;
在所述聚类特征值大于预设阈值的情况下,确定所述待检测电子文档为真实电子文档。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待检测电子文档中的内容数据,包括:
根据深度学习算法建立内容识别模型;
获取模型训练数据;其中,所述模型训练数据包括:训练数据集合和验证数据集合;
通过所述训练数据集合对所述内容识别模型进行训练;
通过所述验证数据集合对训练完成的所述内容识别模型进行验证;
根据验证通过后的所述内容识别模型识别并提取所述待检测电子文档中的内容数据。
4.根据权利要求3所述的方法,其特征在于,所述通过所述训练数据集合对所述内容识别模型进行训练,包括:
将所述训练数据集合中的版式电子文档转换成图像文件;
获取用户指令,并根据所述用户指令通过方框在所述图像文件中标记出识别内容;
将所述训练数据集合转换的标记后的图像文件输入到所述内容识别模型,对所述内容识别模型进行训练。
5.根据权利要求4所述的方法,其特征在于,所述通过所述验证数据集合对训练完成的所述内容识别模型进行验证,包括:
将所述验证数据集合转换的未标记的图像文件输入到训练完成的所述内容识别模型中;
获取所述内容识别模型输出的识别结果数据,并根据所述验证数据集合转换的标记后的图像文件对所述识别结果数据进行验证;
若所述验证数据集合转换的标记后的图像文件与所述识别结果数据一致,则判断所述内容识别模型验证通过。
6.根据权利要求5所述的方法,其特征在于,还包括:
若所述验证数据集合转换的标记后的图像文件与所述识别结果数据不一致,则重新获取不同的所述模型训练数据;
通过重新获取的所述模型训练数据中的训练数据集合对所述内容识别模型进行训练;
通过重新获取的所述验证数据集合对训练完成的所述内容识别模型进行验证,直至所述内容识别模型通过验证。
7.根据权利要求6所述的方法,其特征在于,所述根据验证通过后的所述内容识别模型识别并提取所述电子文档中的内容数据,包括:
将所述待检测电子文档转换成图像文件;
通过所述内容识别模型对所述图像文件中的内容进行识别标记;
获取空白的版式模板电子文档,并将所述图像文件中标记的内容同比例映射到所述版式模板电子文档相应的内容区域;
提取所述版式模板电子文档内容区域中的内容。
8.根据权利要求7所述的方法,其特征在于,所述提取所述版式模板电子文档内容区域中的内容,包括:
获取所有所述待检测电子文档的置信度;
确定置信度最高的所述待检测电子文档;
确定置信度最高的所述待检测电子文档对应的版式模板电子文档,并提取所述版式模板电子文档内容区域中的内容。
9.一种电子文档真实性检测装置,其特征在于,包括:
检测内容获取模块,用于获取待检测电子文档及其元数据获取位置信息,根据所述元数据获取位置信息确定所述待检测电子文档的元数据的获取路径,根据所述获取路径,获取所述待检测电子文档的元数据;
内容数据获取模块,用于获取所述待检测电子文档中的内容数据;
真实性检测模块,用于对所述内容数据和获取的所述元数据进行聚类分析,根据聚类结果,确定所述电子文档的真实性。
10.一种电子文档真实性检测设备,其特征在于,包括处理器和存储器,所述处理器与存储器相连:
其中,所述处理器,用于调用并执行所述存储器中存储的程序;
所述存储器,用于存储所述程序,所述程序至少用于执行权利要求1-8任一项所述的电子文档真实性检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311401992.4A CN117149716A (zh) | 2023-10-27 | 2023-10-27 | 一种电子文档真实性检测方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311401992.4A CN117149716A (zh) | 2023-10-27 | 2023-10-27 | 一种电子文档真实性检测方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117149716A true CN117149716A (zh) | 2023-12-01 |
Family
ID=88912324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311401992.4A Pending CN117149716A (zh) | 2023-10-27 | 2023-10-27 | 一种电子文档真实性检测方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117149716A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109075971A (zh) * | 2016-02-08 | 2018-12-21 | 林赛·莫洛尼 | 用于文档信息真实性验证的系统和方法 |
CN114970554A (zh) * | 2022-08-02 | 2022-08-30 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
CN115329169A (zh) * | 2022-06-27 | 2022-11-11 | 海南电网有限责任公司信息通信分公司 | 一种基于深度神经模型的档案归档计算方法 |
CN115620317A (zh) * | 2022-10-26 | 2023-01-17 | 王蒙娟 | 一种电子工程文档真实性验证方法和系统 |
CN115964684A (zh) * | 2022-12-26 | 2023-04-14 | 重庆傲雄在线信息技术有限公司 | 检测电子档案元数据真实性的方法、系统、设备及介质 |
US20230214502A1 (en) * | 2018-05-03 | 2023-07-06 | ZorroSign, Inc. | Systems and methods for electronic document execution, authentication, and forensic review |
-
2023
- 2023-10-27 CN CN202311401992.4A patent/CN117149716A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109075971A (zh) * | 2016-02-08 | 2018-12-21 | 林赛·莫洛尼 | 用于文档信息真实性验证的系统和方法 |
US20230214502A1 (en) * | 2018-05-03 | 2023-07-06 | ZorroSign, Inc. | Systems and methods for electronic document execution, authentication, and forensic review |
CN115329169A (zh) * | 2022-06-27 | 2022-11-11 | 海南电网有限责任公司信息通信分公司 | 一种基于深度神经模型的档案归档计算方法 |
CN114970554A (zh) * | 2022-08-02 | 2022-08-30 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
CN115620317A (zh) * | 2022-10-26 | 2023-01-17 | 王蒙娟 | 一种电子工程文档真实性验证方法和系统 |
CN115964684A (zh) * | 2022-12-26 | 2023-04-14 | 重庆傲雄在线信息技术有限公司 | 检测电子档案元数据真实性的方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6996295B2 (en) | Automatic document reading system for technical drawings | |
CN108733778B (zh) | 对象的行业类型识别方法和装置 | |
RU2760471C1 (ru) | Способы и системы идентификации полей в документе | |
US20180267956A1 (en) | Identification of reading order text segments with a probabilistic language model | |
US20090144277A1 (en) | Electronic table of contents entry classification and labeling scheme | |
JP2005242579A (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
CN102414680A (zh) | 利用跨域知识的语义事件检测 | |
CN111241230A (zh) | 一种基于文本挖掘识别串标风险的方法及系统 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
Mishchenko et al. | Chart image understanding and numerical data extraction | |
CN112149663A (zh) | 结合rpa和ai的图像文字的提取方法、装置及电子设备 | |
CN112509661B (zh) | 用于识别体检报告的方法、计算设备和介质 | |
WO2023038722A1 (en) | Entry detection and recognition for custom forms | |
CN113610068B (zh) | 基于试卷图像的试题拆解方法、系统、存储介质及设备 | |
CN105809181A (zh) | 用于Logo检测的方法和设备 | |
Tomovic et al. | Aligning document layouts extracted with different OCR engines with clustering approach | |
TWI285849B (en) | Optical character recognition device, document searching system, and document searching program | |
CN114691907B (zh) | 一种跨模态检索的方法、设备及介质 | |
CN117149716A (zh) | 一种电子文档真实性检测方法、装置和设备 | |
CN115373982A (zh) | 基于人工智能的测试报告分析方法、装置、设备及介质 | |
CN112070082B (zh) | 一种基于实例感知成分合并网络的曲线文字定位方法 | |
EP3757825A1 (en) | Methods and systems for automatic text segmentation | |
Bhanbhro et al. | Symbol Detection in a Multi-class Dataset Based on Single Line Diagrams using Deep Learning Models | |
CN113688243B (zh) | 语句中实体的标注方法、装置、设备以及存储介质 | |
RU2774653C1 (ru) | Способы и системы идентификации полей в документе |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |