CN113378916A - 一种基于聚类分析的智慧档案馆分层服务模式 - Google Patents

一种基于聚类分析的智慧档案馆分层服务模式 Download PDF

Info

Publication number
CN113378916A
CN113378916A CN202110640333.0A CN202110640333A CN113378916A CN 113378916 A CN113378916 A CN 113378916A CN 202110640333 A CN202110640333 A CN 202110640333A CN 113378916 A CN113378916 A CN 113378916A
Authority
CN
China
Prior art keywords
service
archive
file
cluster
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110640333.0A
Other languages
English (en)
Inventor
李莉
何进
樊建勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unis Software Systems Co Ltd
Original Assignee
Unis Software Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unis Software Systems Co Ltd filed Critical Unis Software Systems Co Ltd
Priority to CN202110640333.0A priority Critical patent/CN113378916A/zh
Publication of CN113378916A publication Critical patent/CN113378916A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及智慧档案馆技术领域,且公开了一种基于聚类分析的智慧档案馆分层服务模式,可提供数据层、信息层、情报层、智慧层的档案服务,具体实现思路为:采取K‑Medoids算法,设计一种属性权重可配置的聚类分析方法,通过对属性权重的配置满足了不同层次的服务需求,在保障档案凭证价值的基础上提升了档案的服务利用价值根据通过从数字档案馆角色行为和需求出发,结合目前技术发展现状,设计了新型数字档案馆系统架构,统一维护系统性能与安全,以确保各个步骤安全可靠的进行,然后依此针对每一步的功能和技术要求,设计了具体的功能模块,并进行了详尽的技术分析,实现数字档案馆的专业化、自动化、灵活化和智能化演进。

Description

一种基于聚类分析的智慧档案馆分层服务模式
技术领域
本发明涉及智慧档案馆技术领域,具体为一种基于聚类分析的智慧档案馆分层服务模式。
背景技术
信息化时代的来临形成了一种新型档案信息形态,即电子档案,电子档案的来源可以分为具有凭证、查考和保存价值并且归档保存的电子档案和将纸档案进行数字加工,将其转换为存储在磁带、磁盘、光盘等载体上且能被计算机识别的数字图像或者数字文本,相对于传统纸质档案,由于电子档案的固有特性,在数字档案馆的建设与管理过程中存在着诸多问题,由于电子文件的流转特性,电子档案在存档、利用期间,需要在不同数据处理容器对其进行计算、存储和传输操作,造成了其格式与内容分布的碎片化,同一份电子档案的不同部分,存储在不同的数据容器中,查阅者需要浏览大量相关档案才能获取完整的信息。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于聚类分析的智慧档案馆分层服务模式,具备快速对大数据进行整理和数字档案馆的专业化、自动化、灵活化和智能化演进等优点,解决了数据规模庞大、内容与数据碎片化和载体与信息分离的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于聚类分析的智慧档案馆分层服务模式,包括数字档案馆、档案角色、系统维护员、管理决策员、查档人员、内容业务员、资源业务员、功能模块、区块链记录、数据监控、权限配置、系统维护、参数配置、系统架构、技术分析、智能知识服务、基础知识服务、关系抽取、图谱构建、目录生成、摘要提取、鉴定标注、文本识别、图像识别、视频识别、文档数字化和档案收录。
优选的,内容业务员包括服务人员、分析员和编辑员,资源业务员包括归档审核员和档案移交员。
优选的,智能知识服务包括智能检索、主动推荐、AL助手和数字纪念馆,基础知识服务包括精确检索、浏览借阅和人工协助。
根据上述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于:数字档案馆包括以下步骤:
S1:系统与业务的解耦,当电子档案由馆内不同工作人员处理时,由于业务类型不同,对系统功能的要求也不同,如果将系统功能模块化,工作人员直接从业务平台上调取所需要的应用,可以避免在操作系统上花费时间精力,专注于档案的业务工作,因此电子文件的管理利用效率将显著增加。而数字档案馆系统将交给计算机网络专业人员进行维护管理,以此加强系统的稳健性和安全性;
S2:数字资源和内容信息的解耦,将电子档案的内容信息从数字资源中提取出来,就档案的管理者从繁复机械的基础编撰工作中解脱出来,投入到更高层次的研究、管理、分析中去,以实现档案管理的知识化转型,从技术条件上看,现有的计算机技术足以实现对电子档案数据层面的自动处理,实现电子档案的信息价值密度的迭代提升;
S3:业务管控和服务利用的解耦,采取“预授权”的模式进行权限管控,采取“代授权”的方式实现服务业务。其中“预授权”包括代授权、通过SQL方式按元数据授权、处理流程内人员携带权限、特定职责携带权限、特定身份人员的批量授权与临时授权。这一模式下,权限的认证鉴定工作由档案主管人员直接完成,服务人员直接面对已经拿到权限的查档人员,既可以减少查档人员的无效访问,又可以从多个维度管理档案的使用权限,实现严格的业务管控;
S4:信息功能和数据形式的解耦,将碎片化的信息系统性的呈现给档案使用者。因此需要将信息利用与数据形式解耦,实现数字档案馆从数据服务到信息服务、信息服务到知识服务、知识服务到智慧服务的递进式服务功能。
根据上述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于:系统架构包括以下步骤:
STEP 1:电子档案输入,档案收集员提供便捷明确的档案上传界面,尽可能提供软件化的模数转换技术,对于已经数字化的文档,需要提供按照电子档案的收录要求,提供格式转换技术,以确保收录档案符合存档要求,同时这些技术嵌入到系统内部可以避免调用第三方软件,有效防止档案在输入阶段外泄,确保输入阶段安全性,对于档案资源而言,这一步骤面向档案数据资源,技术上应当保证数字档案馆具有充足的数据存储、计算、迁徙能力,同时确保文档和操作日志关联,确保电子文档在数据层面的安全性、真实性和可靠性;
STEP 2:档案信息提取,对于电子档案的处理将在这些技术的基础上,结合机器学习算法进行进一步智能化扩展,具体而言,对于文本档案,除了印刷体的识别,还将训练手写字体识别模型,以实现电子文档中的签字识别和基础的签字鉴定;对于包含照片视频的档案,除了基础数字图像处理,还将应用深度学习和增强学习算法实现图片中的物体识别、特殊场景识别和人脸识别,以自动标签的形式实现图片档案的基础信息提取;对于音频档案,提供语音到文本的转换能力和一定的说话人识别能力,以便于重要会议、访谈记录相关档案的整理;
STEP 3:数据结构化,根据档案管理标准规范文档中管理规则,提取电子文档中相应的关键信息,对文档的保管期限、密级等进行辅助鉴定;
STEP 4:知识图谱构建,基于语义分析、社会常识,提取文本中的实体、属性和关系,实现通用知识图谱的构建,随后需要为专业人士提供手动编著的接口,维护特定行业的规则集合,并且根据生成的图谱效果,由专业人士配置的规则将在相应的档案集合中反复训练适配,逐渐准确化、精细化和专业化,最终得到适用于特定行业的知识图谱构建模式;
STEP 5:档案服务,根据查档人员的历史检索记录,推送查档人员感兴趣的条目;提供数字纪念馆功能,将档案馆中的信息知识化整理后,从时间、空间、事件、人物等多个维度呈现历史。另一方面为档案服务人员提供AI助手,智能分析查档人员或者单位的行为统计信息,以确保服务人员可以提供给查档人员更为个性化的查档服务,并更为敏锐地察觉到查档过程中的异常事件。
根据上述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于,在数字档案馆的编研分析过程中,采用K-Medoids算法,提出一种基于汉明距离的权重可选跨维度聚类算法:将档案的样本空间定义为
Figure BDA0003106949830000043
分簇数量为K,簇的中心点表示为
Figure BDA0003106949830000044
K-Medoids算法和K-mean算法一样可以分为两个步骤,第一步是根据现有的聚类中心点将样本空间中的每一个元素归到所属于的簇中,这个簇的标示值我们根据公式:
Figure BDA0003106949830000041
计算,即计算每个元素与中心点的汉明距离,取距离最小的中心点所属的簇;第二步为中心点的更新,即找到一个簇内的现有所有元素的中心点,根据公式:
Figure BDA0003106949830000042
计算,两个步骤循环迭代直到收敛,包括以下步骤:
输入:分簇数量K,档案样本空间
Figure BDA0003106949830000045
迭代次数λ;
输出:档案对应的簇
Figure BDA0003106949830000054
每个簇的中心点集合
Figure BDA0003106949830000055
1:初始化:随机指定
Figure BDA0003106949830000056
初始值
Figure BDA0003106949830000051
i=1
j=1
2:For i=1:λdo;
3:For j do;
4:计算
Figure BDA0003106949830000052
5:End For;
6:根据公式
Figure BDA0003106949830000057
更新
Figure BDA0003106949830000058
7:End For。
(三)有益效果
与现有技术相比,本发明提供了一种基于聚类分析的智慧档案馆分层服务模式,具备以下有益效果:
1、该基于聚类分析的智慧档案馆分层服务模式,通过从数字档案馆角色行为和需求出发,结合目前技术发展现状,设计了新型数字档案馆系统架构,根据数字档案馆的资源维度将电子档案处理分为五个步骤,并统一维护系统性能与安全,以确保各个步骤安全可靠的进行,然后依此针对每一步的功能和技术要求,设计了具体的功能模块,并进行了详尽的技术分析,实现数字档案馆的专业化、自动化、灵活化和智能化演进。
附图说明
图1为本发明流程结构示意图;
图2为本发明档案馆部分流程结构示意图;
图3为本发明文档聚类分析流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,一种基于聚类分析的智慧档案馆分层服务模式,包括数字档案馆、档案角色、功能模块、技术分析和系统架构,其特征在于:档案角色包括系统维护员、管理决策员、查档人员、内容业务员和资源业务员,功能模块包括区块链记录、数据监控、权限配置、系统维护和参数配置,技术分析包括智能知识服务、基础知识服务、关系抽取、图谱构建、目录生成、摘要提取、鉴定标注、文本识别、图像识别、视频识别、文档数字化和档案收录,内容业务员包括服务人员、分析员和编辑员,资源业务员包括归档审核员和档案移交员,智能知识服务包括智能检索、主动推荐、AL助手和数字纪念馆,基础知识服务包括精确检索、浏览借阅和人工协助。
根据上述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于:数字档案馆包括以下步骤:
S1:系统与业务的解耦,当电子档案由馆内不同工作人员处理时,由于业务类型不同,对系统功能的要求也不同,如果将系统功能模块化,工作人员直接从业务平台上调取所需要的应用,可以避免在操作系统上花费时间精力,专注于档案的业务工作,因此电子文件的管理利用效率将显著增加。而数字档案馆系统将交给计算机网络专业人员进行维护管理,以此加强系统的稳健性和安全性;
S2:数字资源和内容信息的解耦,将电子档案的内容信息从数字资源中提取出来,就档案的管理者从繁复机械的基础编撰工作中解脱出来,投入到更高层次的研究、管理、分析中去,以实现档案管理的知识化转型,从技术条件上看,现有的计算机技术足以实现对电子档案数据层面的自动处理,实现电子档案的信息价值密度的迭代提升;
S3:业务管控和服务利用的解耦,采取“预授权”的模式进行权限管控,采取“代授权”的方式实现服务业务。其中“预授权”包括代授权、通过SQL方式按元数据授权、处理流程内人员携带权限、特定职责携带权限、特定身份人员的批量授权与临时授权,这一模式下,权限的认证鉴定工作由档案主管人员直接完成,服务人员直接面对已经拿到权限的查档人员,既可以减少查档人员的无效访问,又可以从多个维度管理档案的使用权限,实现严格的业务管控;
S4:信息功能和数据形式的解耦,将碎片化的信息系统性的呈现给档案使用者,因此需要将信息利用与数据形式解耦,实现数字档案馆从数据服务到信息服务、信息服务到知识服务、知识服务到智慧服务的递进式服务功能。
根据上述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于:系统架构包括以下步骤:
STEP 1:电子档案输入,档案收集员提供便捷明确的档案上传界面,尽可能提供软件化的模数转换技术,对于已经数字化的文档,需要提供按照电子档案的收录要求,提供格式转换技术,以确保收录档案符合存档要求,同时这些技术嵌入到系统内部可以避免调用第三方软件,有效防止档案在输入阶段外泄,确保输入阶段安全性,对于档案资源而言,这一步骤面向档案数据资源,技术上应当保证数字档案馆具有充足的数据存储、计算、迁徙能力,同时确保文档和操作日志关联,确保电子文档在数据层面的安全性、真实性和可靠性;
STEP 2:档案信息提取,对于电子档案的处理将在这些技术的基础上,结合机器学习算法进行进一步智能化扩展,具体而言,对于文本档案,除了印刷体的识别,还将训练手写字体识别模型,以实现电子文档中的签字识别和基础的签字鉴定;对于包含照片视频的档案,除了基础数字图像处理,还将应用深度学习和增强学习算法实现图片中的物体识别、特殊场景识别和人脸识别,以自动标签的形式实现图片档案的基础信息提取;对于音频档案,提供语音到文本的转换能力和一定的说话人识别能力,以便于重要会议、访谈记录相关档案的整理;
STEP 3:数据结构化,根据档案管理标准规范文档中管理规则,提取电子文档中相应的关键信息,对文档的保管期限、密级等进行辅助鉴定;
STEP 4:知识图谱构建,基于语义分析、社会常识,提取文本中的实体、属性和关系,实现通用知识图谱的构建,随后需要为专业人士提供手动编著的接口,维护特定行业的规则集合,并且根据生成的图谱效果,由专业人士配置的规则将在相应的档案集合中反复训练适配,逐渐准确化、精细化和专业化,最终得到适用于特定行业的知识图谱构建模式;
STEP 5:档案服务,根据查档人员的历史检索记录,推送查档人员感兴趣的条目;提供数字纪念馆功能,将档案馆中的信息知识化整理后,从时间、空间、事件、人物等多个维度呈现历史。另一方面为档案服务人员提供AI助手,智能分析查档人员或者单位的行为统计信息,以确保服务人员可以提供给查档人员更为个性化的查档服务,并更为敏锐地察觉到查档过程中的异常事件。
根据上述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于,在数字档案馆的编研分析过程中,采用K-Medoids算法,提出一种基于汉明距离的权重可选跨维度聚类算法:将档案的样本空间定义为
Figure BDA0003106949830000081
分簇数量为K,簇的中心点表示为
Figure BDA0003106949830000082
K-Medoids算法和K-mean算法一样可以分为两个步骤,第一步是根据现有的聚类中心点将样本空间中的每一个元素归到所属于的簇中,这个簇的标示值我们根据公式:
Figure BDA0003106949830000091
计算,即计算每个元素与中心点的汉明距离,取距离最小的中心点所属的簇;第二步为中心点的更新,即找到一个簇内的现有所有元素的中心点,根据公式:
Figure BDA0003106949830000092
计算,两个步骤循环迭代直到收敛,包括以下步骤:
输入:分簇数量K,档案样本空间
Figure BDA0003106949830000096
迭代次数λ;
输出:档案对应的簇
Figure BDA0003106949830000097
每个簇的中心点集合
Figure BDA0003106949830000098
1:初始化:随机指定
Figure BDA0003106949830000099
初始值
Figure BDA0003106949830000093
i=1
j=1
2:For i=1:λ do;
3:For j do;
4:计算
Figure BDA0003106949830000094
5:End For;
6:根据公式
Figure BDA00031069498300000910
更新
Figure BDA00031069498300000911
7:End For。
工作原理
在使用时,增加计算机专业人员为系统管理员,负责档案馆计算机系统的管理维护,根据工作内容将档案管理员角色简化为档案审核员,将现有档案管理员的工作移交给计算机批量自动处理,处理后的结果由档案审核员确认,根据档案研究层次将档案研究员角色细化为档案编研员和档案分析员,编研员对电子文档数据进行结构化标注,分析员对电子文档信息中的知识进行研究挖掘,查档人员到馆前就经过了管理决策员的身份认证与预授权,服务人员在接待查档人员时仅执行授权操作,并对查档人员的行为进行记录。
当电子档案由馆内不同工作人员处理时,由于业务类型不同,对系统功能的要求也不同,如果将系统功能模块化,工作人员直接从业务平台上调取所需要的应用,可以避免在操作系统上花费时间精力,专注于档案的业务工作,因此电子文件的管理利用效率将显著增加。而数字档案馆系统将交给计算机网络专业人员进行维护管理,以此加强系统的稳健性和安全性,将电子档案的内容信息从数字资源中提取出来,就档案的管理者从繁复机械的基础编撰工作中解脱出来,投入到更高层次的研究、管理、分析中去,以实现档案管理的知识化转型,从技术条件上看,现有的计算机技术足以实现对电子档案数据层面的自动处理,实现电子档案的信息价值密度的迭代提升,采取“预授权”的模式进行权限管控,采取“代授权”的方式实现服务业务,“预授权”包括代授权、通过SQL方式按元数据授权、处理流程内人员携带权限、特定职责携带权限、特定身份人员的批量授权与临时授权,这一模式下,权限的认证鉴定工作由档案主管人员直接完成,服务人员直接面对已经拿到权限的查档人员,既可以减少查档人员的无效访问,又可以从多个维度管理档案的使用权限,实现严格的业务管控,将碎片化的信息系统性的呈现给档案使用者,因此需要将信息利用与数据形式解耦,实现数字档案馆从数据服务到信息服务、信息服务到知识服务、知识服务到智慧服务的递进式服务功能。
档案收集员提供便捷明确的档案上传界面,尽可能提供软件化的模数转换技术,对于已经数字化的文档,需要提供按照电子档案的收录要求,提供格式转换技术,以确保收录档案符合存档要求,同时这些技术嵌入到系统内部可以避免调用第三方软件,有效防止档案在输入阶段外泄,确保输入阶段安全性,对于档案资源而言,这一步骤面向档案数据资源,技术上应当保证数字档案馆具有充足的数据存储、计算、迁徙能力,同时确保文档和操作日志关联,确保电子文档在数据层面的安全性、真实性和可靠性。
对于电子档案的处理将在这些技术的基础上,结合机器学习算法进行进一步智能化扩展,具体而言,对于文本档案,除了印刷体的识别,还将训练手写字体识别模型,以实现电子文档中的签字识别和基础的签字鉴定;对于包含照片视频的档案,除了基础数字图像处理,还将应用深度学习和增强学习算法实现图片中的物体识别、特殊场景识别和人脸识别,以自动标签的形式实现图片档案的基础信息提取。
对于音频档案,提供语音到文本的转换能力和一定的说话人识别能力,以便于重要会议、访谈记录相关档案的整理,根据档案管理标准规范文档中管理规则,提取电子文档中相应的关键信息,对文档的保管期限、密级等进行辅助鉴定,基于语义分析、社会常识,提取文本中的实体、属性和关系,实现通用知识图谱的构建,随后需要为专业人士提供手动编著的接口,维护特定行业的规则集合,并且根据生成的图谱效果,由专业人士配置的规则将在相应的档案集合中反复训练适配,逐渐准确化、精细化和专业化,最终得到适用于特定行业的知识图谱构建模式,根据查档人员的历史检索记录,推送查档人员感兴趣的条目。
提供数字纪念馆功能,将档案馆中的信息知识化整理后,从时间、空间、事件、人物等多个维度呈现历史。另一方面为档案服务人员提供AI助手,智能分析查档人员或者单位的行为统计信息,以确保服务人员可以提供给查档人员更为个性化的查档服务,并更为敏锐地察觉到查档过程中的异常事件。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于聚类分析的智慧档案馆分层服务模式,包括数字档案馆、档案角色、系统维护员、管理决策员、查档人员、内容业务员、资源业务员、功能模块、区块链记录、数据监控、权限配置、系统维护、参数配置、系统架构、技术分析、智能知识服务、基础知识服务、关系抽取、图谱构建、目录生成、摘要提取、鉴定标注、文本识别、图像识别、视频识别、文档数字化和档案收录。
2.根据权利要求1所述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于:所述内容业务员包括服务人员、分析员和编辑员,所述资源业务员包括归档审核员和档案移交员。
3.根据权利要求1所述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于:所述智能知识服务包括智能检索、主动推荐、AL助手和数字纪念馆,所述基础知识服务包括精确检索、浏览借阅和人工协助。
4.根据权利要求1所述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于,所述数字档案馆包括以下步骤:
S1:系统与业务的解耦;
S2:数字资源和内容信息的解耦;
S3:业务管控和服务利用的解耦;
S4:信息功能和数据形式的解耦。
5.根据权利要求1所述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于,所述系统架构包括以下步骤:
STEP 1:电子档案输入;
STEP 2:档案信息提取;
STEP 3:数据结构化;
STEP 4:知识图谱构建;
STEP 5:档案服务。
6.根据权利要求1所述的一种基于聚类分析的智慧档案馆分层服务模式,其特征在于,在数字档案馆的编研分析过程中,采用K-Medoids算法,提出一种基于汉明距离的权重可选跨维度聚类算法:
将档案的样本空间定义为
Figure FDA0003106949820000021
分簇数量为K,簇的中心点表示为
Figure FDA0003106949820000022
K-Medoids算法和K-mean算法一样可以分为两个步骤,第一步是根据现有的聚类中心点将样本空间中的每一个元素归到所属于的簇中,这个簇的标示值我们根据公式:
Figure FDA0003106949820000023
计算,即计算每个元素与中心点的汉明距离,取距离最小的中心点所属的簇;第二步为中心点的更新,即找到一个簇内的现有所有元素的中心点,根据公式:
Figure FDA0003106949820000024
计算,两个步骤循环迭代直到收敛,包括以下步骤:
输入:分簇数量K,档案样本空间
Figure FDA0003106949820000025
迭代次数λ。
输出:档案对应的簇
Figure FDA0003106949820000026
每个簇的中心点集合
Figure FDA0003106949820000027
1初始化:随机指定
Figure FDA0003106949820000028
初始值
Figure FDA0003106949820000029
i=1;j=1。
2 For i=1:λ do
3 For j=1:T do
4计算
Figure FDA00031069498200000210
5 End For
6根据公式
Figure FDA0003106949820000031
7 End For。
CN202110640333.0A 2021-06-08 2021-06-08 一种基于聚类分析的智慧档案馆分层服务模式 Pending CN113378916A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110640333.0A CN113378916A (zh) 2021-06-08 2021-06-08 一种基于聚类分析的智慧档案馆分层服务模式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110640333.0A CN113378916A (zh) 2021-06-08 2021-06-08 一种基于聚类分析的智慧档案馆分层服务模式

Publications (1)

Publication Number Publication Date
CN113378916A true CN113378916A (zh) 2021-09-10

Family

ID=77573079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110640333.0A Pending CN113378916A (zh) 2021-06-08 2021-06-08 一种基于聚类分析的智慧档案馆分层服务模式

Country Status (1)

Country Link
CN (1) CN113378916A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129959A (zh) * 2022-08-25 2022-09-30 北京美络克思科技有限公司 一种档案智能鉴定方法、装置及系统
CN117251526A (zh) * 2023-09-06 2023-12-19 上海云思智慧信息技术有限公司 一种会议档案数字化管理系统、方法及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131767A1 (en) * 2003-12-10 2005-06-16 Heins Douglas B. Digital photography processing and fulfillment via a communication network
US20100241617A1 (en) * 2009-03-20 2010-09-23 Microsoft Corporation Virtual safe deposit box for perpetual digital archival
CN105335506A (zh) * 2015-10-29 2016-02-17 福建亿榕信息技术有限公司 一种电子档案编研方法及系统
CN106960405A (zh) * 2016-01-08 2017-07-18 山西三友和计算机技术有限公司 智慧档案大数据平台系统
CN107103529A (zh) * 2016-02-23 2017-08-29 陈馨媛 基于soa框架的银行档案管理系统
CN107798148A (zh) * 2017-12-20 2018-03-13 江西白莲钢质制品有限公司 一种档案馆
US20190287553A1 (en) * 2018-03-18 2019-09-19 Christopher Griffin Byerly Automatic phonographic record playing and archiving device, system and method
CN111813959A (zh) * 2020-07-29 2020-10-23 安徽省气象信息中心 气象记录档案知识图谱构建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131767A1 (en) * 2003-12-10 2005-06-16 Heins Douglas B. Digital photography processing and fulfillment via a communication network
US20100241617A1 (en) * 2009-03-20 2010-09-23 Microsoft Corporation Virtual safe deposit box for perpetual digital archival
CN105335506A (zh) * 2015-10-29 2016-02-17 福建亿榕信息技术有限公司 一种电子档案编研方法及系统
CN106960405A (zh) * 2016-01-08 2017-07-18 山西三友和计算机技术有限公司 智慧档案大数据平台系统
CN107103529A (zh) * 2016-02-23 2017-08-29 陈馨媛 基于soa框架的银行档案管理系统
CN107798148A (zh) * 2017-12-20 2018-03-13 江西白莲钢质制品有限公司 一种档案馆
US20190287553A1 (en) * 2018-03-18 2019-09-19 Christopher Griffin Byerly Automatic phonographic record playing and archiving device, system and method
CN111813959A (zh) * 2020-07-29 2020-10-23 安徽省气象信息中心 气象记录档案知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚健雅: "《对地观测数据处理与分析研究进展》", 武汉大学出版社, pages: 337 - 342 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129959A (zh) * 2022-08-25 2022-09-30 北京美络克思科技有限公司 一种档案智能鉴定方法、装置及系统
CN117251526A (zh) * 2023-09-06 2023-12-19 上海云思智慧信息技术有限公司 一种会议档案数字化管理系统、方法及电子设备

Similar Documents

Publication Publication Date Title
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成系统
CN109522312B (zh) 一种数据处理方法、装置、服务器和存储介质
CN102741803B (zh) 用于促进数据发现的系统和方法
CN113378916A (zh) 一种基于聚类分析的智慧档案馆分层服务模式
CN110866110A (zh) 基于人工智能的会议纪要生成方法、装置、设备及介质
US11797705B1 (en) Generative adversarial network for named entity recognition
WO2022081812A1 (en) Artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations
CN115422385A (zh) 一种干部人事档案存储管理方法
CN117473431A (zh) 一种基于知识图谱的机场数据分类分级方法及系统
CN118013364A (zh) 一种多维数据智能标识方法
CN115238153A (zh) 一种基于虚拟仿真的文档管理方法及系统
CN113326363B (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
TWI793432B (zh) 工程專案文件管理方法與系統
CN111666263A (zh) 一种数据湖环境下异构数据管理的实现方法
CN112200212A (zh) 一种基于人工智能的企业物资分类目录构建方法
CN116415180A (zh) 一种基于标识的数据自动分类分级方法及装置
CN113538011B (zh) 一种电力系统中非在册联系信息与在册用户的关联方法
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN114862246A (zh) 政策匹配方法及相关装置
US11436262B2 (en) System and method of creating entity records
US11416685B2 (en) System and method for artificial intelligence driven document analysis, including automated reuse of predictive coding rules based on management and curation of datasets or models
Syahminan et al. Application-based archive management for accelerated process of shrinking and recovering active inactive data
CN116910264A (zh) 基于非结构化数据的cnas体系程序文件智慧管理系统
CN117251526B (zh) 一种会议档案数字化管理系统、方法及电子设备
CN112507062B (zh) 一种文档分类保存管理方法、系统及存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination