CN115774805A - 一种基于数字化处理的档案智能查询方法及系统 - Google Patents

一种基于数字化处理的档案智能查询方法及系统 Download PDF

Info

Publication number
CN115774805A
CN115774805A CN202310095088.9A CN202310095088A CN115774805A CN 115774805 A CN115774805 A CN 115774805A CN 202310095088 A CN202310095088 A CN 202310095088A CN 115774805 A CN115774805 A CN 115774805A
Authority
CN
China
Prior art keywords
information
file
query
semantic
semantic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310095088.9A
Other languages
English (en)
Other versions
CN115774805B (zh
Inventor
谷磊
王楠
温旭东
宋永生
臧萌
李志鹏
常青
贾晓燕
郑昊伦
李超
顾凌峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu United Industrial Ltd By Share Ltd
Original Assignee
Jiangsu United Industrial Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu United Industrial Ltd By Share Ltd filed Critical Jiangsu United Industrial Ltd By Share Ltd
Priority to CN202310095088.9A priority Critical patent/CN115774805B/zh
Publication of CN115774805A publication Critical patent/CN115774805A/zh
Application granted granted Critical
Publication of CN115774805B publication Critical patent/CN115774805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数字化处理的档案智能查询方法及系统,涉及数据处理领域,其中,所述方法包括:采用OCR技术对档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据档案图像特征信息,对纯文本转换信息进行结构信息还原;将结构还原后的纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;基于语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。解决了现有技术中针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。达到了提高档案数字化加工效果,提高档案查询效率,提高档案查询的准确性、可靠性等技术效果。

Description

一种基于数字化处理的档案智能查询方法及系统
技术领域
本发明涉及数据处理领域,具体地,涉及一种基于数字化处理的档案智能查询方法及系统。
背景技术
随着档案数量的日趋增多,档案种类的日趋多样化,纸质档案迅速膨胀,传统的档案管理方式已不能满足档案信息化管理的实际需要,数字化档案应运而生。单一的把传统纸质档案进行数字化加工,生成的数字化档案在实际应用时,存在着档案查询效率低、查询结果依赖关键词等问题,亟需采用技术成熟的智能化辅助手段,显著提升档案查询利用水平,满足人民群众日益增长的档案查询需求。
现有技术中,存在针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。
发明内容
本申请提供了一种基于数字化处理的档案智能查询方法及系统。解决了现有技术中针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。
鉴于上述问题,本申请提供了一种基于数字化处理的档案智能查询方法及系统。
第一方面,本申请提供了一种基于数字化处理的档案智能查询方法,其中,所述方法应用于一种基于数字化处理的档案智能查询系统,所述方法包括:通过图像扫描设备对档案进行扫描,获得档案图像特征信息;采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。
第二方面,本申请还提供了一种基于数字化处理的档案智能查询系统,其中,所述系统包括:档案扫描模块,所述档案扫描模块用于通过图像扫描设备对档案进行扫描,获得档案图像特征信息;特征识别转换模块,所述特征识别转换模块用于采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;结构还原模块,所述结构还原模块用于根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;语义解析模块,所述语义解析模块用于将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;查找匹配模块,所述查找匹配模块用于基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过图像扫描设备对档案进行扫描,获得档案图像特征信息;通过OCR技术对档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据档案图像特征信息,对纯文本转换信息进行结构信息还原;将结构还原后的纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;按照语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。达到了提高档案数字化加工效果,提高档案查询效率,提高档案查询的准确性、可靠性,同时,实现数字化、智能化、高效化的档案查询,满足人民群众日益增长的档案查询需求的技术效果。
附图说明
图1为本申请一种基于数字化处理的档案智能查询方法的流程示意图;
图2为本申请一种基于数字化处理的档案智能查询方法中获得纯文本转换信息的流程示意图;
图3为本申请一种基于数字化处理的档案智能查询方法中将档案与目录信息的挂接信息与查询目录字段链接的流程示意图;
图4为本申请一种基于数字化处理的档案智能查询系统的结构示意图。
附图标记说明:档案扫描模块11,特征识别转换模块12,结构还原模块13,语义解析模块14,查找匹配模块15。
具体实施方式
本申请通过提供一种基于数字化处理的档案智能查询方法及系统。解决了现有技术中针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。达到了提高档案数字化加工效果,提高档案查询效率,提高档案查询的准确性、可靠性,同时,实现数字化、智能化、高效化的档案查询,满足人民群众日益增长的档案查询需求的技术效果。
实施例一
请参阅附图1,本申请提供一种基于数字化处理的档案智能查询方法,其中,所述方法应用于一种基于数字化处理的档案智能查询系统,所述方法具体包括如下步骤:
步骤S100:通过图像扫描设备对档案进行扫描,获得档案图像特征信息;
具体而言,利用图像扫描设备对档案进行扫描,获得档案图像特征信息。其中,所述图像扫描设备可以为现有技术中平板扫描仪、馈纸式扫描仪、非接触式扫描仪等档案扫描装置。所述档案图像特征信息包括通过图像扫描设备对档案进行扫描,获得的档案对应的图像数据信息。达到了通过图像扫描设备对档案进行扫描,获得档案图像特征信息,为后续对档案进行特征识别转换、查询奠定基础的技术效果。
步骤S200:采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;
进一步的,如附图2所示,本申请步骤S200还包括:
步骤S210:对所述档案图像特征信息进行扫描缺陷识别,确定扫描缺陷类型;
步骤S220:基于所述扫描缺陷类型,启动缺陷优化算法对扫描缺陷进行优化;
步骤S230:对所述档案图像特征信息进行图像特征识别,确定图像特征类型;
步骤S240:根据所述图像特征类型,确定文本转换规则,基于所述文本转换规则对档案图像特征信息进行纯文本转换,获得所述纯文本转换信息。
具体而言,通过对档案图像特征信息进行扫描缺陷识别,获得扫描缺陷类型,并根据缺陷优化算法对扫描缺陷类型中的扫描缺陷进行优化。进一步,对完成扫描缺陷优化之后的档案图像特征信息,进行图像特征识别,获得图像特征类型,并根据其确定文本转换规则。进而,基于文本转换规则,利用OCR技术,对完成扫描缺陷优化之后的档案图像特征信息进行纯文本转换,获得纯文本转换信息。
其中,所述扫描缺陷类型包括档案图像特征信息对应的倾斜、黑边、图像模糊、印章压字、扭曲、畸变等扫描缺陷信息。所述缺陷优化算法包括几何变换、畸变校正、去除模糊、图像增强、光线校正等图像处理算法。所述图像特征类型包括完成扫描缺陷优化之后的档案图像特征信息对应的嵌套表格、文字竖排、从右到左书写等格式问题,以及完成扫描缺陷优化之后的档案图像特征信息对应的字体字号、字体颜色、行间距、段落顺序、字符格式等文字特征信息。所述OCR技术(Optical Character Recognition)是一种对图像中的文字进行识别处理,将图像中的文字转换纯文本的光学字符识别技术。所述文本转换规则包括文字板式转换规则、表格转换规则、文字字体转换规则。所述纯文本转换信息包括完成扫描缺陷优化之后的档案图像特征信息对应的纯文本信息。达到了通过OCR技术对完成扫描缺陷优化之后的档案图像特征信息进行特征识别转换,获得纯文本转换信息,有效避免因原有数字化加工标准不同、质量参差不齐、OCR转换不完整带来的档案信息错漏等问题,以保证档案查询来源信息的准确性,提高档案查询的可靠性、准确性的技术效果。
步骤S300:根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;
进一步的,本申请步骤S300还包括:
步骤S310:根据所述档案图像特征信息,确定图像特征类型,根据所述图像特征类型,获得类型结构信息;
步骤S320:根据所述类型结构信息,对所述纯文本转换信息进行结构还原。
具体而言,在对完成扫描缺陷优化之后的档案图像特征信息,进行图像特征识别时,已经获得了图像特征类型,从图像特征类型中提取出类型结构信息,按照类型结构信息对纯文本转换信息进行结构还原。其中,所述类型结构信息包括完成扫描缺陷优化之后的档案图像特征信息对应的字体字号、字体颜色、行间距、段落顺序、字符格式等文字特征信息。达到了按照类型结构信息对纯文本转换信息进行结构还原,提高档案数字化加工的质量,从而提高档案查询的精确度的技术效果。
步骤S400:将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;
进一步的,本申请步骤S400还包括:
步骤S410:构建语义解析架构,包括词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层;
步骤S420:获得深度学习训练数据库,利用所述深度学习训练数据库分别对词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层进行深度学习,并利用优化收敛函数对训练结果进行优化收敛,直到达到预设收敛要求为止,获得所述深度学习语义模型。
具体而言,基于深度学习训练数据库,分别对语义解析架构中的词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层进行深度学习,深度学习是一种以词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层为架构,对深度学习训练数据库进行表征学习、自我监督训练的算法。通过优化收敛函数对训练结果进行优化收敛,直到达到预设收敛要求为止,从而获得误差小、高准确率的深度学习语义模型。进一步,将结构还原后的纯文本转换信息作为输入信息,输入深度学习语义模型,获得语义解析结果。其中,所述深度学习训练数据库包括大量的经过结构还原后的历史纯文本转换信息。所述语义解析架构包括词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层。所述优化收敛函数包括绝对值损失函数、log对数损失函数、代价函数等,对模型训练过程进行优化收敛的函数。所述训练结果包括经过深度学习后的词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层。所述预设收敛要求包括预先设置的深度学习语义模型的收敛状态要求。所述深度学习语义模型包括输入层、词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层、输出层。所述语义解析结果包括结构还原后的纯文本转换信息对应的全文词语义、全文显性语义、全文格式语义、全文隐含语义、全文篇章语义。达到了通过深度学习语义模型对结构还原后的纯文本转换信息进行全文语义解析,获得语义解析结果,从而提高档案查询的准确性、效率的技术效果。
步骤S500:基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。
进一步的,本申请步骤S500还包括:
步骤S510:获得查询输入信息,对所述查询输入信息进行语义分析,确定查询语义信息;
步骤S520:将所述查询语义信息输入所述实体概念关系库、语义规则库中进行匹配确定查询关联信息;
进一步的,本申请步骤S500还包括:
步骤S521:根据所述语义解析结果,提取档案关键信息;
步骤S522:基于所述档案关键信息,构建实体概念关系库;
步骤S523:根据所述语义解析结果,提取档案结构信息、档案内容类型信息;
步骤S524:根据所述档案结构信息、档案内容类型信息进行语义规则分析,构建语义规则库。
具体而言,从语义解析结果中提取出档案关键信息,并根据档案关键信息构建实体概念关系库。从语义解析结果中提取出档案结构信息、档案内容类型信息,并对档案结构信息、档案内容类型信息进行语义规则分析,构建语义规则库。进一步,通过对查询输入信息进行语义分析,获得查询语义信息,并将查询语义信息输入实体概念关系库、语义规则库,获得查询关联信息。其中,所述查询输入信息包括任意人员使用所述一种基于数字化处理的档案智能查询系统进行档案查询时的,输入的档案查询线索信息。所述查询语义信息包括查询输入信息对应的具体含义信息。所述档案关键信息包括语义解析结果对应的档案关键词语、档案关键篇章、档案关键语句等关键信息。所述实体概念关系库包括档案关键信息,以及档案关键信息之间的因果关系、递进关系、选择关系等关联关系。所述档案结构信息包括语义解析结果对应的档案篇章结构、档案单元结构。所述档案内容类型信息包括语义解析结果对应的档案类型信息。所述语义规则库包括档案结构信息、档案内容类型信息对应的语义符号、具体含义。所述查询关联信息包括查询语义信息对应的档案关键信息、档案类型信息、语义规则信息。达到了通过实体概念关系库、语义规则库对查询语义信息进行匹配分析,获得可靠的查询关联信息,从而提高档案查询的精准性的技术效果。
步骤S530:根据所述查询关联信息,在所述语义解析结果进行模糊匹配,获得匹配档案信息;
步骤S540:对匹配档案信息进行匹配度排序,将排序后的匹配档案信息作为所述档案查询结果进行输出。
具体而言,根据语义解析结果对查询关联信息进行匹配,获得匹配档案信息,并根据匹配度对匹配档案信息进行排序,将排序后的匹配档案信息输出为档案查询结果。其中,所述匹配档案信息包括查询关联信息对应的多个档案。所述匹配度包括查询关联信息与匹配档案信息之间的相关性。所述档案查询结果包括进行匹配度排序后的匹配档案信息。达到了通过查询关联信息进行档案匹配,获得档案查询结果,提高档案查询的效率的技术效果。
进一步的,本申请步骤S500还包括:
步骤S550:获得所述查询语义信息在所述实体概念关系库中实体概念关联信息;
步骤S560:将所述匹配档案信息中进行人名信息、地名信息、机构名信息、文件名信息四类要素提取,获得四类要素提取信息;
步骤S570:基于所述四类要素提取信息、所述实体概念关联信息,对匹配档案信息进行关联度分析,并将分析结果进行输出;
步骤S580:根据关联度大小,确定推荐查询线索,基于所述推荐查询线索进行多轮查询,向查询人进行查询推荐;
步骤S590:基于查询推荐,获得查询人唤起查询信息,基于所述查询人唤起查询信息继续进行查询。
具体而言,基于实体概念关系库,对查询语义信息进行匹配,获得实体概念关联信息。进一步,对匹配档案信息进行人名信息、地名信息、机构名信息、文件名信息四类要素的提取,获得四类要素提取信息,结合实体概念关联信息进行关联度分析,获得分析结果,并将分析结果进行输出。进一步,根据分析结果中关联度大小,确定推荐查询线索,并基于推荐查询线索进行多轮查询后,向查询人进行查询推荐。继而,基于查询推荐,获得查询人唤起查询信息,并按照查询人唤起查询信息继续进行查询。其中,所述实体概念关联信息包括实体概念关系库中,查询语义信息对应的档案关键信息,以及档案关键信息之间的因果关系、递进关系、选择关系等关联关系。所述四类要素提取信息包括匹配档案信息中的人名信息、地名信息、机构名信息、文件名信息。所述分析结果包括四类要素提取信息与实体概念关联信息之间的关联度。所述推荐查询线索包括最大关联度对应的四类要素提取信息。所述查询人包括使用所述一种基于数字化处理的档案智能查询系统进行档案查询的任意人员。所述查询推荐包括根据按照推荐查询线索进行多轮查询后的匹配档案信息。所述查询人唤起查询信息包括查询人输入的查询线索信息。达到了通过推荐查询线索进行多轮查询,提高档案查询的精准性的技术效果。
进一步的,如附图3所示,本申请步骤S500之后,还包括:
步骤S610:通过多渠道进行档案载入,对载入档案进行档案和目录信息识别;
步骤S620:根据档案、目录信息识别结果进行档案和目录自动匹配,并根据匹配结果将档案与目录信息进行挂接;
步骤S630:将档案与目录信息的挂接信息与查询目录字段链接。
具体而言,通过大数据采集、有偿档案收集、社会档案征集等多渠道进行档案载入,并对载入档案进行档案和目录信息识别,获得档案、目录信息识别结果。继而,对档案、目录信息识别结果进行档案和目录自动匹配,获得匹配结果,并按照匹配结果将档案与目录信息进行挂接,获得挂接信息。当档案查询人员输入查询目录字段后,将挂接信息与查询目录字段进行链接,提高档案查询效率。其中,所述载入档案包括通过多渠道收集到的多个档案。所述档案、目录信息识别结果包括载入档案对应的档案信息、目录信息。所述匹配结果包括载入档案对应的档案信息与目录信息之间的对应关系。所述挂接信息包括档案与目录信息之间的链接信息。所述查询目录字段包括档案查询人员输入的查询字符信息。
综上所述,本申请所提供的一种基于数字化处理的档案智能查询方法具有如下技术效果:
1.通过图像扫描设备对档案进行扫描,获得档案图像特征信息;通过OCR技术对档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据档案图像特征信息,对纯文本转换信息进行结构信息还原;将结构还原后的纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;按照语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。达到了提高档案数字化加工效果,提高档案查询效率,提高档案查询的准确性、可靠性,同时,实现数字化、智能化、高效化的档案查询,满足人民群众日益增长的档案查询需求的技术效果。
2.通过OCR技术对完成扫描缺陷优化之后的档案图像特征信息进行特征识别转换,获得纯文本转换信息,有效避免因原有数字化加工标准不同、质量参差不齐、OCR转换不完整带来的档案信息错漏等问题,以保证档案查询来源信息的准确性,提高档案查询的可靠性、准确性。
3.通过深度学习语义模型对结构还原后的纯文本转换信息进行全文语义解析,获得语义解析结果,从而提高档案查询的准确性、效率。
实施例二
基于与前述实施例中一种基于数字化处理的档案智能查询方法,同样发明构思,本发明还提供了一种基于数字化处理的档案智能查询系统,请参阅附图4,所述系统包括:
档案扫描模块11,所述档案扫描模块11用于通过图像扫描设备对档案进行扫描,获得档案图像特征信息;
特征识别转换模块12,所述特征识别转换模块12用于采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;
结构还原模块13,所述结构还原模块13用于根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;
语义解析模块14,所述语义解析模块14用于将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;
查找匹配模块15,所述查找匹配模块15用于基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。
进一步的,所述系统还包括:
扫描缺陷识别模块,所述扫描缺陷识别模块用于对所述档案图像特征信息进行扫描缺陷识别,确定扫描缺陷类型;
扫描缺陷优化模块,所述扫描缺陷优化模块用于基于所述扫描缺陷类型,启动缺陷优化算法对扫描缺陷进行优化;
档案图像特征识别模块,所述档案图像特征识别模块用于对所述档案图像特征信息进行图像特征识别,确定图像特征类型;
纯文本转换信息获得模块,所述纯文本转换信息获得模块用于根据所述图像特征类型,确定文本转换规则,基于所述文本转换规则对档案图像特征信息进行纯文本转换,获得所述纯文本转换信息。
进一步的,所述系统还包括:
类型结构信息获得模块,所述类型结构信息获得模块用于根据所述档案图像特征信息,确定图像特征类型,根据所述图像特征类型,获得类型结构信息;
转换信息结构还原模块,所述转换信息结构还原模块用于根据所述类型结构信息,对所述纯文本转换信息进行结构还原。
进一步的,所述系统还包括:
架构确定模块,所述架构确定模块用于构建语义解析架构,包括词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层;
模型获得模块,所述模型获得模块用于获得深度学习训练数据库,利用所述深度学习训练数据库分别对词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层进行深度学习,并利用优化收敛函数对训练结果进行优化收敛,直到达到预设收敛要求为止,获得所述深度学习语义模型。
进一步的,所述系统还包括:
关键信息提取模块,所述关键信息提取模块用于根据所述语义解析结果,提取档案关键信息;
关系库构建模块,所述关系库构建模块用于基于所述档案关键信息,构建实体概念关系库;
档案信息提取模块,所述档案信息提取模块用于根据所述语义解析结果,提取档案结构信息、档案内容类型信息;
规则库构建模块,所述规则库构建模块用于根据所述档案结构信息、档案内容类型信息进行语义规则分析,构建语义规则库。
进一步的,所述系统还包括:
查询语义信息确定模块,所述查询语义信息确定模块用于获得查询输入信息,对所述查询输入信息进行语义分析,确定查询语义信息;
查询关联信息确定模块,所述查询关联信息确定模块用于将所述查询语义信息输入所述实体概念关系库、语义规则库中进行匹配确定查询关联信息;
匹配档案信息获得模块,所述匹配档案信息获得模块用于根据所述查询关联信息,在所述语义解析结果进行模糊匹配,获得匹配档案信息;
查询结果输出模块,所述查询结果输出模块用于对匹配档案信息进行匹配度排序,将排序后的匹配档案信息作为所述档案查询结果进行输出。
进一步的,所述系统还包括:
实体概念关联信息确定模块,所述实体概念关联信息确定模块用于获得所述查询语义信息在所述实体概念关系库中实体概念关联信息;
四类要素提取信息获得模块,所述四类要素提取信息获得模块用于将所述匹配档案信息中进行人名信息、地名信息、机构名信息、文件名信息四类要素提取,获得四类要素提取信息;
关联度分析模块,所述关联度分析模块用于基于所述四类要素提取信息、所述实体概念关联信息,对匹配档案信息进行关联度分析,并将分析结果进行输出;
多轮查询模块,所述多轮查询模块用于根据关联度大小,确定推荐查询线索,基于所述推荐查询线索进行多轮查询,向查询人进行查询推荐;
查询执行模块,所述查询执行模块用于基于查询推荐,获得查询人唤起查询信息,基于所述查询人唤起查询信息继续进行查询。
进一步的,所述系统还包括:
档案载入模块,所述档案载入模块用于通过多渠道进行档案载入,对载入档案进行档案和目录信息识别;
档案挂接模块,所述档案挂接模块用于根据档案、目录信息识别结果进行档案和目录自动匹配,并根据匹配结果将档案与目录信息进行挂接;
链接模块,所述链接模块用于将档案与目录信息的挂接信息与查询目录字段链接。
本申请提供了一种基于数字化处理的档案智能查询方法,其中,所述方法应用于一种基于数字化处理的档案智能查询系统,所述方法包括:通过图像扫描设备对档案进行扫描,获得档案图像特征信息;通过OCR技术对档案图像特征信息进行特征识别转换,获得纯文本转换信息;根据档案图像特征信息,对纯文本转换信息进行结构信息还原;将结构还原后的纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;按照语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。解决了现有技术中针对档案数字化加工的标准不同,造成档案数字化加工效果不佳,以及档案查询的效率低、准确性不高的技术问题。达到了提高档案数字化加工效果,提高档案查询效率,提高档案查询的准确性、可靠性,同时,实现数字化、智能化、高效化的档案查询,满足人民群众日益增长的档案查询需求的技术效果。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本说明书和附图仅仅是本申请的示例性说明,如果本发明的修改和变型属于本发明及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于数字化处理的档案智能查询方法,其特征在于,所述方法包括:
通过图像扫描设备对档案进行扫描,获得档案图像特征信息;
采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;
根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;
将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;
基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果,包括:
获得查询输入信息,对所述查询输入信息进行语义分析,确定查询语义信息;
根据所述语义解析结果,提取档案关键信息;
基于所述档案关键信息,构建实体概念关系库;
根据所述语义解析结果,提取档案结构信息、档案内容类型信息;
根据所述档案结构信息、档案内容类型信息进行语义规则分析,构建语义规则库;
将所述查询语义信息输入所述实体概念关系库、语义规则库中进行匹配确定查询关联信息;
根据所述查询关联信息,在所述语义解析结果进行模糊匹配,获得匹配档案信息;
对匹配档案信息进行匹配度排序,将排序后的匹配档案信息作为所述档案查询结果进行输出。
2.如权利要求1所述的方法,其特征在于,所述采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息,包括:
对所述档案图像特征信息进行扫描缺陷识别,确定扫描缺陷类型;
基于所述扫描缺陷类型,启动缺陷优化算法对扫描缺陷进行优化;
对所述档案图像特征信息进行图像特征识别,确定图像特征类型;
根据所述图像特征类型,确定文本转换规则,基于所述文本转换规则对档案图像特征信息进行纯文本转换,获得所述纯文本转换信息。
3.如权利要求2所述的方法,其特征在于,根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原,包括:
根据所述档案图像特征信息,确定图像特征类型,根据所述图像特征类型,获得类型结构信息;
根据所述类型结构信息,对所述纯文本转换信息进行结构还原。
4.如权利要求1所述的方法,其特征在于,所述将结构还原后的所述纯文本转换信息输入深度学习语义模型之前,包括:
构建语义解析架构,包括词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层;
获得深度学习训练数据库,利用所述深度学习训练数据库分别对词语义分析层、显性语义分析层、格式语义分析层、隐含语义分析层、篇章语义分析层进行深度学习,并利用优化收敛函数对训练结果进行优化收敛,直到达到预设收敛要求为止,获得所述深度学习语义模型。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
获得所述查询语义信息在所述实体概念关系库中实体概念关联信息;
将所述匹配档案信息中进行人名信息、地名信息、机构名信息、文件名信息四类要素提取,获得四类要素提取信息;
基于所述四类要素提取信息、所述实体概念关联信息,对匹配档案信息进行关联度分析,并将分析结果进行输出;
根据关联度大小,确定推荐查询线索,基于所述推荐查询线索进行多轮查询,向查询人进行查询推荐;
基于查询推荐,获得查询人唤起查询信息,基于所述查询人唤起查询信息继续进行查询。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
通过多渠道进行档案载入,对载入档案进行档案和目录信息识别;
根据档案、目录信息识别结果进行档案和目录自动匹配,并根据匹配结果将档案与目录信息进行挂接;
将档案与目录信息的挂接信息与查询目录字段链接。
7.一种基于数字化处理的档案智能查询系统,其特征在于,所述系统用于执行权利要求1至6任一项所述的方法,所述系统包括:
档案扫描模块,所述档案扫描模块用于通过图像扫描设备对档案进行扫描,获得档案图像特征信息;
特征识别转换模块,所述特征识别转换模块用于采用OCR技术,对所述档案图像特征信息进行特征识别转换,获得纯文本转换信息;
结构还原模块,所述结构还原模块用于根据所述档案图像特征信息,对纯文本转换信息进行结构信息还原;
语义解析模块,所述语义解析模块用于将结构还原后的所述纯文本转换信息输入深度学习语义模型进行全文语义解析,获得语义解析结果;
查找匹配模块,所述查找匹配模块用于基于所述语义解析结果,对查询输入信息进行查找匹配,输出档案查询结果。
CN202310095088.9A 2023-02-10 2023-02-10 一种基于数字化处理的档案智能查询方法及系统 Active CN115774805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310095088.9A CN115774805B (zh) 2023-02-10 2023-02-10 一种基于数字化处理的档案智能查询方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310095088.9A CN115774805B (zh) 2023-02-10 2023-02-10 一种基于数字化处理的档案智能查询方法及系统

Publications (2)

Publication Number Publication Date
CN115774805A true CN115774805A (zh) 2023-03-10
CN115774805B CN115774805B (zh) 2023-04-28

Family

ID=85393453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310095088.9A Active CN115774805B (zh) 2023-02-10 2023-02-10 一种基于数字化处理的档案智能查询方法及系统

Country Status (1)

Country Link
CN (1) CN115774805B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116450769A (zh) * 2023-06-09 2023-07-18 北京量子伟业信息技术股份有限公司 智慧档案的管理方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966682A (zh) * 2021-05-18 2021-06-15 江苏联著实业股份有限公司 一种基于语义分析的档案分类方法及系统
CN113221562A (zh) * 2021-04-14 2021-08-06 河海大学 一种基于知识图谱提高文书档案检索效率的方法及系统
CN113282752A (zh) * 2021-06-09 2021-08-20 江苏联著实业股份有限公司 一种基于语义映射的事物分类方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221562A (zh) * 2021-04-14 2021-08-06 河海大学 一种基于知识图谱提高文书档案检索效率的方法及系统
CN112966682A (zh) * 2021-05-18 2021-06-15 江苏联著实业股份有限公司 一种基于语义分析的档案分类方法及系统
CN113282752A (zh) * 2021-06-09 2021-08-20 江苏联著实业股份有限公司 一种基于语义映射的事物分类方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116450769A (zh) * 2023-06-09 2023-07-18 北京量子伟业信息技术股份有限公司 智慧档案的管理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN115774805B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
US6178417B1 (en) Method and means of matching documents based on text genre
US6243501B1 (en) Adaptive recognition of documents using layout attributes
US8064703B2 (en) Property record document data validation systems and methods
JP4577931B2 (ja) ドキュメント処理システム及びインデックス情報獲得方法
CN102053991B (zh) 用于多语言文档检索的方法及系统
US20160055376A1 (en) Method and system for identification and extraction of data from structured documents
CN111753099A (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
US20070217692A1 (en) Property record document data verification systems and methods
US20040015775A1 (en) Systems and methods for improved accuracy of extracted digital content
CN106502991B (zh) 出版物处理方法和装置
ATE322051T1 (de) System und verfahren zur automatischen aufbereitung und suche von abgetasteten dokumenten
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN115774805A (zh) 一种基于数字化处理的档案智能查询方法及系统
US20060210171A1 (en) Image processing apparatus
CN112464907A (zh) 一种文档处理系统及方法
CN115830620B (zh) 一种基于ocr的档案文本数据处理方法及系统
CN113220821A (zh) 一种针对试题检索的索引建立方法、装置及电子设备
CN111860524A (zh) 一种数字档案智能分类的装置及方法
Couasnon et al. Making handwritten archives documents accessible to public with a generic system of document image analysis
US20070217691A1 (en) Property record document title determination systems and methods
KR100655916B1 (ko) 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
Barrett et al. Digital mountain: From granite archive to global access
EP1365331A2 (en) Determination of a semantic snapshot
CN110852359A (zh) 基于深度学习的家谱识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Digital Processing Based Intelligent Query Method and System for Archives

Granted publication date: 20230428

Pledgee: Nanjing Bank Co.,Ltd. Nanjing Financial City Branch

Pledgor: Jiangsu United Industrial Limited by Share Ltd.

Registration number: Y2024980012709

PE01 Entry into force of the registration of the contract for pledge of patent right