CN112966682A

CN112966682A - 一种基于语义分析的档案分类方法及系统

Info

Publication number: CN112966682A
Application number: CN202110536990.0A
Authority: CN
Inventors: 宋永生; 银思琪; 顾凌峰; 常祖贤; 刘杰; 徐杰; 张宇
Original assignee: Jiangsu United Industrial Ltd By Share Ltd
Current assignee: Jiangsu United Industrial Ltd By Share Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-06-15
Anticipated expiration: 2041-05-18
Also published as: CN112966682B

Abstract

本发明公开了一种基于语义分析的档案分类方法及系统，获得第一接收档案；根据第一格式识别指令对第一接收档案进行格式识别，获得第一格式识别结果；根据第一格式转换指令进行格式转换，获得第二接收档案，将其输入第一格式语义库，获得第一格式语义分析结果；构建第一语义知识库模型，获得第一语义解析结果；将第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；将第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；根据第一档案标签分类排行结果和第一档案保密分类结果进行分类，解决了现有技术中进行智能化档案分类过程中，存在因关键词过滤的准确率低，误判率高，导致档案分类不够智能准确的技术问题。

Description

一种基于语义分析的档案分类方法及系统

技术领域

本发明涉及档案分类相关领域，尤其涉及一种基于语义分析的档案分类方法及系统。

背景技术

档案分类就是依据一定的标准，按照档案来源、时间、内容和形式特征的异同点，对档案进行有层次的区分，参照国家档案馆划控与开放鉴定的原则和馆藏到开放期档案的划控鉴定实际情况，制定基于语义分析的档案馆开放鉴定条件解析规范，并据此创立档案馆馆藏到开放期档案划控鉴定的语义分析知识库。当前，运用数字化手段实施档案馆档案划控开放鉴定的主流做法是，利用光学字符识别（OCR）技术将单层PDF文件或图片文件中的文字识别出来，或通过格式转换技术将双层PDF或OFD文件转换为纯文本文件，然后利用全文检索技术实现对文本档案的关键词过滤。这种技术手段虽然可以快速发现并过滤掉一批继续控制使用的档案，大大降低档案开放鉴定的时间成本和人力成本，提高档案鉴定的效率，但是，其存在着误判率高和准确率低的缺陷。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中进行智能化档案分类过程中，存在因关键词过滤的准确率低，误判率高，导致档案分类不够智能准确的技术问题。

发明内容

本申请实施例通过提供一种基于语义分析的档案分类方法及系统，解决了现有技术中进行智能化档案分类过程中，存在因关键词过滤的准确率低，误判率高，导致档案分类不够智能准确的技术问题，达到对档案进行智能化语义分析，使得对档案的表述内容读取更加准确，进而实现对档案的智能、准确分类的技术效果。

鉴于上述问题，提出了本申请实施例提供一种基于语义分析的档案分类方法及系统。

第一方面，本申请提供了一种基于语义分析的档案分类方法，所述方法应用于一档案分类系统，所述系统与第一数据接收装置通信连接，所述方法包括：通过所述第一数据接收装置获得第一接收档案；获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果；获得第一格式转换指令，根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换，获得第二接收档案，其中，所述第二接收档案为纯文本档案；将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果；构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型；获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果；将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；将所述第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。

另一方面，本申请还提供了一种基于语义分析的档案分类系统，所述系统包括：第一获得单元，所述第一获得单元用于通过第一数据接收装置获得第一接收档案；第二获得单元，所述第二获得单元用于获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果；第三获得单元，所述第三获得单元用于获得第一格式转换指令，根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换，获得第二接收档案，其中，所述第二接收档案为纯文本档案；第一输入单元，所述第一输入单元用于将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果；第一构建单元，所述第一构建单元用于构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型；第四获得单元，所述第四获得单元用于获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果；第二输入单元，所述第二输入单元用于将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；第五获得单元，所述第五获得单元用于将所述第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；第一分类单元，所述第一分类单元用于根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。

第三方面，本发明提供了一种基于语义分析的档案分类系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了通过第一数据接收装置获得第一接收档案，根据第一格式识别指令对所述第一接收档案进行格式识别后，将所述第一接收档案格式转换为第二格式档案，将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果，通过第一语义知识库模型对所述第一格式语义分析结果进行语义解析，获得第一语义解析结果，通过所述第一鉴定条件库对所述第一语义分析结果进行档案标签分类排行，通过第二鉴定条件库对所述第一语义分析结果进行档案保密分类判定，基于第一档案标签分类排行结果和第一档案保密分类结果进行档案分类，达到对档案进行智能化语义分析，使得对档案的表述内容读取更加准确，进而实现对档案的智能、准确分类的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于语义分析的档案分类方法的流程示意图；

图2为本申请实施例一种基于语义分析的档案分类方法的结构示意图；

图3为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第二获得单元12，第三获得单元13，第一输入单元14，第一构建单元15，第四获得单元16，第二输入单元17，第五获得单元18，第一分类单元19，总线300，接收器301，处理器302，发送器303，存储器304，总线接口304。

具体实施方式

本申请实施例通过提供一种基于语义分析的档案分类方法及系统，解决了现有技术中进行智能化档案分类过程中，存在因关键词过滤的准确率低，误判率高，导致档案分类不够智能准确的技术问题，达到对档案进行智能化语义分析，使得对档案的表述内容读取更加准确，进而达到对档案的智能、准确分类的技术效果。下面，将参考附图详细的描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

档案分类就是依据一定的标准，按照档案来源、时间、内容和形式特征的异同点，对档案进行有层次的区分，参照国家档案馆划控与开放鉴定的原则和馆藏到开放期档案的划控鉴定实际情况，制定基于语义分析的档案馆开放鉴定条件解析规范，并据此创立档案馆馆藏到开放期档案划控鉴定的语义分析知识库。当前，运用数字化手段实施档案馆档案划控开放鉴定的主流做法是，利用光学字符识别（OCR）技术将单层PDF文件或图片文件中的文字识别出来，或通过格式转换技术将双层PDF或OFD文件转换为纯文本文件，然后利用全文检索技术实现对文本档案的关键词过滤。这种技术手段虽然可以快速发现并过滤掉一批继续控制使用的档案，大大降低档案开放鉴定的时间成本和人力成本，提高档案鉴定的效率，但是，其存在着误判率高和准确率低的缺陷。现有技术中进行智能化档案分类过程中，存在因关键词过滤的准确率低，误判率高，导致档案分类不够智能准确的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于语义分析的档案分类方法，所述方法应用于一档案分类系统，所述系统与第一数据接收装置通信连接，所述方法包括：通过所述第一数据接收装置获得第一接收档案；获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果；获得第一格式转换指令，根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换，获得第二接收档案，其中，所述第二接收档案为纯文本档案；将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果；构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型；获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果；将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；将所述第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于语义分析的档案分类方法，其中，所述方法应用于一档案分类系统，所述系统与第一数据接收装置通信连接，所述方法包括：

步骤S100：通过所述第一数据接收装置获得第一接收档案；

步骤S200：获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果；

具体而言，所述档案分类系统为对档案进行智能化分类的系统，它依据档案的语义解析结果，依托预先设定好的分类规则对档案进行分类处理，所述第一数据接收装置为对档案进行实时接收和预处理的装置，所述档案分类系统与所述第一数据接收装置通信连接，通过所述第一数据接收装置获得第一接收档案，其中，所述第一接收档案为要进行识别和分类的档案，当所述第一数据接收装置接收所述第一接收档案后，获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行原文格式识别，一般而言，所述第一接收档案一般为PDF、OFD格式和图片的各种格式档案，通过所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果。

步骤S300：获得第一格式转换指令，根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换，获得第二接收档案，其中，所述第二接收档案为纯文本档案；

具体而言，所述格式转换的过程包括但不限于将原文的不同格式的档案转化为纯文本档案，通过档案文本解析模块将所述第一接收档案调整为纯文本格式后，还至少包括如下两个子任务，即（1）恢复纯文本档案的版面格式（正确划分段落、句子，正确区分标题、正文等）；（2）对文本的每一句进行自然语言解析（NLP），包括切词、词性标注、词语聚合、短语识别、命名实体识别等。将所述第一接收档案转化为第二接收档案。

步骤S400：将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果；

具体而言，所述第一格式语义库为对文本进行词性的解析和分析处理的数据库，通过所述第一格式语义库对所述转化为纯文本文档进行词性的断句，根据词性、格式的结构等对所述第二接收档案进行格式语义分析，获得第一格式语义分析结果。

步骤S500：构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型；

步骤S600：获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果；

具体而言，所述第一语义知识库模型为通过收集档案馆划控开放鉴定中人的专业知识和经验。转化成为语义知识库模型和计算机语义鉴定规则，通过大量的专业知识和计算机语言的充分融合，构建出所述第一语义知识库模型，通过所述第一语义知识库模型，对所述第一格式语义分析结果进行进一步的语义解析。进一步来说，当所述第一语义知识库模型构建完成后，通过所述第一语义解析指令，将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果。

步骤S700：将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；

具体而言，所述第一鉴定条件库为根据设定的不同标准，对档案进行标签分类的数据库，根据获得的语义分析结果，进行中心思想和关键词的提炼，依据已有的分类标准对中心思想和关键词匹配，获得与所述第一语义分析结果最接近标签分类进行匹配，获得与所述第一接收档案最为接近的标签分类结果，并根据标签分类信息熵对所述标签分类结果进行排序，最终获得第一档案标签分类排行结果。

步骤S800：将所述第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；

步骤S900：根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。

具体而言，所述第二鉴定条件库为对所述第一接收文档进行保密等级鉴定的数据库，在保证对所述第一接收档案的语义解析准确的前提下，根据所述第一语义分析结果对所述第一接收档案的内容进行识别匹配，输入所述第二鉴定条件库，根据所述第二鉴定条件库中的敏感语义、敏感词汇对所述第一语义分析结果进行词汇和语义匹配，根据匹配的结果对所述第一接收档案的保密等级进行评估，获得第一档案保密分类结果。将所述第一档案标签分类排行结果和所述第一档案保密分类结果作为档案分类的依据，进行档案分类，达到对档案进行智能化语义分析，使得对档案的表述内容读取更加准确，进而达到对档案的智能、准确分类的技术效果。

进一步而言，所述将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果，本申请实施例步骤S700还包括：

步骤S710：根据所述第一语义分析结果获得第一标签分类结果、第二标签分类结果、第三标签分类结果，其中，所述第一标签分类结果、所述第二标签分类结果和所述第三标签分类结果为不同标签分类结果；

步骤S720：将所述第一标签分类结果进行信息论编码运算，获得第一标签分类信息熵，对所述第二标签分类结果进行信息论编码运算，获得第二标签分类信息熵，对所述第三标签分类结果进行信息论编码运算，获得第三标签分类信息熵；

步骤S730：获得第一排序指令，根据所述第一排序指令对所述第一标签分类信息熵、所述第二标签分类信息熵、所述第三标签分类信息熵进行排序，获得标签分类信息熵排序结果；

步骤S740：根据所述标签分类信息熵排序结果获得所述第一档案标签分类排行结果。

具体而言，所述第一标签分类结果、第二标签分类结果、第三标签分类结果为根据所述第一语义分析结果获得的标签分类的特征，根据所述第一语义分析结果对所述第一接收档案进行初步分析评估，依托于所述初步分析结果，对所述第一接收档案进行初步分类，其中，所述初步分类为对所述第一接收档案的涉及内容、中心思想的分类，获得关联度排名前三的标签分类结果，将所述第一标签分类结果、第二标签分类结果、第三标签分类结果进行信息熵运算，即通过信息论编码中的香农公式对其信息熵数值进行具体的运算，其中，所述信息熵的计算重要特征包括但不限于中心思想的关联度程度、语义关联的频次统计等，根据所述相关特征计算获得所述第一标签分类信息熵、所述第二标签分类信息熵、所述第三标签分类信息熵，根据信息熵的数值大小对所述接收档案的标签的相关程度进行排序，获得所述第一档案的标签分类排行结果。通过信息熵对所述标签分类进行排行，使得根据信息熵的大小、占比不同，对所述不同标签分类的关联程度进行准确的预估，进而获得更加准确的标签分类结果，为后续准确检索档案夯实了基础。

进一步而言，所述获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果，本申请实施例步骤S600还包括：

步骤S610：获得第一全文检索指令，根据所述第一全文检索指令对所述第一格式语义分析结果进行全文检索，获得第一全文检索结果；

步骤S620：根据所述第一语义解析指令对所述第一全文检索结果进行字面语义分析，获得第一分析结果；

步骤S630：根据所述第一语义解析指令对所述第一全文检索结果进行隐含语义分析，获得第二分析结果；

步骤S640：获得第一信息整合指令，根据所述第一信息整合指令对所述第一分析结果和所述第二分析结果进行信息整合，获得所述第一语义解析结果。

具体而言，所述进行语义解析的过程至少包括显性语义解析和隐性语义解析两部分，其中，所述显性语义解析为根据字面意思对已经进行格式分类后的结果进行语义解析的过程，即根据关键词库和聚合后的文本信息，获得显性语义分析结果，所述隐性语义解析为对文本中隐含的语义进行分析的结果，其中，所述隐性语义分析为进行上下文、全文结合的方式，对可能具有多重含义的文字、词句、标点符号进行代入式分析，从而获得隐含语义，进一步来说，所述隐含语义的分析过程还包括对互联网热词、热门短语句子进行实时的学习，通过学习和掌握不同的知识和体系使得所述隐含语义分析的结果更加准确，通过所述第一全文检索指令对所述第一格式语义分析结果进行全文检索，获得第一全文检索结果，对所述第一全文检索结果进行基于字面的语义分析和隐含语义分析，获得第一分析结果和第二分析结果，对所述第一分析结果和第二分析结果进行信息整合，获得所述第一语义解析结果。通过对所述第一语义解析结果的细化，即进行显性语义解析和隐性语义解析，将显性语义解析结果和隐性语义解析结果进行信息整合，进而可获得更加准确的语义解析结果，使得后续对所述第一接收档案的表述内容提取更加准确，进而获得更加准确的档案分类结果。

进一步的，本申请实施例还包括：

步骤S641：构建第一隐含语义分析数据库，其中，所述第一隐含语义分析数据库为通过实时大数据信息更新训练获得的，且所述第一隐含语义分析数据库包括词性聚合模块和事件识别模块；

步骤S642：将所述第一全文检索结果输入所述第一语义信息分析数据库，获得所述第二分析结果。

具体而言，所述隐含语义分析的过程包括通过隐含语义数据库进行语义分析的过程，首先，通过大数据实时采集的数据构建所述第一隐含语义数据库，根据实时的热点数据对所述第一隐含语义分析数据库进行不断地更迭，在保证所述第一隐含语义数据库稳定性的同时还要保证所述第一隐含语义数据库的更新速度，使得所述第一隐含语义数据库能尽快的结合实时热点，避免因为数据的训练不及时进而导致隐含语义的识别异常。将所述第一全文检索结果输入所述第一隐含语义分析数据库，获得所述第二分析结果。

进一步的，本申请实施例还包括：

步骤S643：根据所述第一语义解析结果对标签分类结果进行语义关联频次统计，获得语义关联频次统计结果；

步骤S644：根据所述第一语义解析结果进行中心思想提取，获得所述第一接收档案的中心思想提取结果；

步骤S645：根据所述中心思想提取结果和所述标签分类结果进行关联度预估，获得关联度预估结果；

步骤S646：将所述中心思想提取结果、所述关联度预估结果作为信息熵的计算特征。

具体而言，所述关联频次统计为进行相关联词语的频次统计结果，举例而言，当所述分类标签中包含“物理”标签时，则出包括力的计算、热力、电磁、量子力学、宏观性质、微观性质等词汇，均是与所述物理标签的关联词汇，通过对所述不同的标签分类下不同标签与所述第一语义解析结果中的语义关联词的频次统计，将所述频次统计结果作为信息熵的计算特征；进一步的，对所述第一语义解析结果进行中心思想提取，所述提取可以包括逐段、逐篇、甚至逐章的总结，分别根据不同段落、篇章的中心思想的提取结果，对所述标签分类结果与所述中心思想的关联程度的评估结果，获得所述关联度预估结果，将所述关联度预估结果作为所述信息熵的计算特征，通过所述中心思想提取结果、所述关联度预估结果作为所述信息熵的计算特征，使得所述信息熵的计算更加准确，进而获得更加准确的标签的分类排名信息，进而达到获得更加准确的分类结果的技术效果。

进一步而言，本申请实施例还包括：

步骤S1010：根据所述第一档案保密分类结果判断是否对所述第一接收档案输出为可开放档案；

步骤S1020：当判断所述第一接收档案可输出为可开放档案时，获得第一人工审核指令；

步骤S1030：根据所述第一人工审核指令将所述第一接收档案发送至人工审核，获得第一审核结果；

步骤S1040：根据所述第一审核结果判断是否将所述第一接收档案输出为可开放档案。

具体而言，当所述第一接收档案的标签分类结果确定后，根据所述第一接收档案的语义分析结果对所述第一接受档案进行安全、开放的分析，根据所述分析结果判断所述第一接收档案是否可以开放进行判断，当判断所述第一接收档案为可开放档案时，此时获得第一人工审核指令，根据所述第一人工审核指令对所述第一接收档案进行人工审核，获得第一人工审核结果，根据所述第一人工审核结果，对所述第一接收档案是否可以进行输出为可开放档案进行进一步的审核确认，当所述人工复审通过后对所述第一接收档案进行输出为可开放档案。

进一步而言，所述构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型，本申请实施例步骤S500还包括：

步骤S510：获得第一语义数据库，其中，所述第一语义数据库为包括不同格式语义的输入数据和标识语义解析结果的标识信息；

步骤S520：根据所述第一语义数据库对所述第一语义知识库模型进行监督学习，当所述第一语义知识库模型处于收敛状态后，则所述第一语义知识库模型构建完成。

具体而言，所述第一语义知识库模型为机器学习中的神经网络模型，它可以不断地进行学习和调整，是一个高度复杂的非线性动力学习系统。简单来说它是一个数学模型，通过大量训练数据的训练，将所述第一语义知识库模型训练至收敛状态后，根据所述输入数据，通过所述第一语义知识库模型进行语义分析，获得第一语义分析结果。

更进一步而言，所述训练的过程还包括监督学习的过程，每一组监督数据都包括不同格式语义的输入数据和标识语义解析结果的标识信息，将所述格式语义输入到神经网络模型中，根据用来标识语义解析结果的标识信息对所述第一语义知识库模型进行监督学习，使得所述第一语义知识库模型的输出数据与监督数据一致，通过所述神经网络模型进行不断的自我修正、调整，直至获得的输出结果与所述标识信息一致，则结束本组数据监督学习，进行下一组数据监督学习；当所述神经网络模型的为收敛状态时，则监督学习过程结束。通过对所述模型的监督学习，进而使得所述模型处理所述输入信息更加准确，进而获得更加准确的所述语义分析结果。

综上所述，本申请实施例所提供的一种基于语义分析的档案分类方法及系统具有如下技术效果：

1、由于采用了通过第一数据接收装置获得第一接收档案，根据第一格式识别指令对所述第一接收档案进行格式识别后，将所述第一接收档案格式转换为第二格式档案，将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果，通过第一语义知识库模型对所述第一格式语义分析结果进行语义解析，获得第一语义解析结果，通过所述第一鉴定条件库对所述第一语义分析结果进行档案标签分类排行，通过第二鉴定条件库对所述第一语义分析结果进行档案保密分类判定，基于第一档案标签分类排行结果和第一档案保密分类结果进行档案分类，达到对档案进行智能化语义分析，使得对档案的表述内容读取更加准确，进而达到对档案的智能、准确分类的技术效果。

2、由于采用了通过信息熵对所述标签分类进行排行的方式，使得根据信息熵的大小、占比不同，对所述不同标签分类的关联程度进行准确的预估，进而获得更加准确的标签分类结果，为后续准确检索档案夯实了基础。

实施例二

基于与前述实施例中一种基于语义分析的档案分类方法同样发明构思，本发明还提供了一种基于语义分析的档案分类系统，如图2所示，所述系统包括：

第一获得单元11，所述第一获得单元11用于通过第一数据接收装置获得第一接收档案；

第二获得单元12，所述第二获得单元12用于获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果；

第三获得单元13，所述第三获得单元13用于获得第一格式转换指令，根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换，获得第二接收档案，其中，所述第二接收档案为纯文本档案；

第一输入单元14，所述第一输入单元14用于将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果；

第一构建单元15，所述第一构建单元15用于构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型；

第四获得单元16，所述第四获得单元16用于获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果；

第二输入单元17，所述第二输入单元17用于将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；

第五获得单元18，所述第五获得单元18用于将所述第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；

第一分类单元19，所述第一分类单元19用于根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。

进一步的，所述系统还包括：

第六获得单元，所述第六获得单元用于根据所述第一语义分析结果获得第一标签分类结果、第二标签分类结果、第三标签分类结果，其中，所述第一标签分类结果、所述第二标签分类结果和所述第三标签分类结果为不同标签分类结果；

第七获得单元，所述第七获得单元用于将所述第一标签分类结果进行信息论编码运算，获得第一标签分类信息熵，对所述第二标签分类结果进行信息论编码运算，获得第二标签分类信息熵，对所述第三标签分类结果进行信息论编码运算，获得第三标签分类信息熵；

第八获得单元，所述第八获得单元用于获得第一排序指令，根据所述第一排序指令对所述第一标签分类信息熵、所述第二标签分类信息熵、所述第三标签分类信息熵进行排序，获得标签分类信息熵排序结果；

第九获得单元，所述第九获得单元用于根据所述标签分类信息熵排序结果获得所述第一档案标签分类排行结果。

进一步的，所述系统还包括：

第十获得单元，所述第十获得单元用于获得第一全文检索指令，根据所述第一全文检索指令对所述第一格式语义分析结果进行全文检索，获得第一全文检索结果；

第十一获得单元，所述第十一获得单元用于根据所述第一语义解析指令对所述第一全文检索结果进行字面语义分析，获得第一分析结果；

第十二获得单元，所述第十二获得单元用于根据所述第一语义解析指令对所述第一全文检索结果进行隐含语义分析，获得第二分析结果；

第十三获得单元，所述第十三获得单元用于获得第一信息整合指令，根据所述第一信息整合指令对所述第一分析结果和所述第二分析结果进行信息整合，获得所述第一语义解析结果。

进一步的，所述系统还包括：

第二构建单元，所述第二构建单元用于构建第一隐含语义分析数据库，其中，所述第一隐含语义分析数据库为通过实时大数据信息更新训练获得的，且所述第一隐含语义分析数据库包括词性聚合模块和事件识别模块

第十四获得单元，所述第十四获得单元用于将所述第一全文检索结果输入所述第一语义信息分析数据库，获得所述第二分析结果。

进一步的，所述系统还包括：

第十五获得单元，所述第十五获得单元用于根据所述第一语义解析结果对标签分类结果进行语义关联频次统计，获得语义关联频次统计结果；

第十六获得单元，所述第十六获得单元用于根据所述第一语义解析结果进行中心思想提取，获得所述第一接收档案的中心思想提取结果；

第十七获得单元，所述第十七获得单元用于根据所述中心思想提取结果和所述标签分类结果进行关联度预估，获得关联度预估结果；

第十八获得单元，所述第十八获得单元用于将所述中心思想提取结果、所述关联度预估结果作为信息熵的计算特征。

进一步的，所述系统还包括：

第十九获得单元，所述第十九获得单元用于根据所述第一档案保密分类结果判断是否对所述第一接收档案输出为可开放档案；

第二十获得单元，所述第二十获得单元用于当判断所述第一接收档案可输出为可开放档案时，获得第一人工审核指令；

第二十一获得单元，所述第二十一获得单元用于根据所述第一人工审核指令将所述第一接收档案发送至人工审核，获得第一审核结果；

第二十二获得单元，所述第二十二获得单元用于根据所述第一审核结果判断是否将所述第一接收档案输出为可开放档案。

进一步的，所述系统还包括：

第二十三获得单元，所述第二十三获得单元用于获得第一语义数据库，其中，所述第一语义数据库为包括不同格式语义的输入数据和标识语义解析结果的标识信息；

第二十四获得单元，所述第二十四获得单元用于根据所述第一语义数据库对所述第一语义知识库模型进行监督学习，当所述第一语义知识库模型处于收敛状态后，则所述第一语义知识库模型构建完成。

前述图1实施例一中的一种基于语义分析的档案分类方法的各种变化方式和具体实例同样适用于本实施例的一种基于语义分析的档案分类系统，通过前述对一种基于语义分析的档案分类方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于语义分析的档案分类系统的实施方法，所以为了说明书的简洁，在此不再详述。

示例性电子设备

下面参考图3来描述本申请实施例的电子设备。

图3图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例中一种基于语义分析的档案分类方法的发明构思，本发明还提供一种基于语义分析的档案分类系统，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种基于语义分析的档案分类方法的任一方法的步骤。

其中，在图3中，总线架构（用总线300来代表），总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口414在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本发明实施例提供的一种基于语义分析的档案分类方法，所述方法应用于一档案分类系统，所述系统与第一数据接收装置通信连接，所述方法包括：通过所述第一数据接收装置获得第一接收档案；获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果；获得第一格式转换指令，根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换，获得第二接收档案，其中，所述第二接收档案为纯文本档案；将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果；构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型；获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果；将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；将所述第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。解决了现有技术中进行智能化档案分类过程中，存在因关键词过滤的准确率低，误判率高，导致档案分类不够智能准确的技术问题，达到对档案进行智能化语义分析，使得对档案的表述内容读取更加准确，进而实现对档案的智能、准确分类的技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于语义分析的档案分类方法，其中，所述方法应用于一档案分类系统，所述系统与第一数据接收装置通信连接，所述方法包括：

通过所述第一数据接收装置获得第一接收档案；

获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果；

获得第一格式转换指令，根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换，获得第二接收档案，其中，所述第二接收档案为纯文本档案；

将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果；

构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型；

获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果；

将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；

将所述第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；

根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。

2.如权利要求1所述的方法，其中，所述将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果，还包括：

根据所述第一语义分析结果获得第一标签分类结果、第二标签分类结果、第三标签分类结果，其中，所述第一标签分类结果、所述第二标签分类结果和所述第三标签分类结果为不同标签分类结果；

将所述第一标签分类结果进行信息论编码运算，获得第一标签分类信息熵，对所述第二标签分类结果进行信息论编码运算，获得第二标签分类信息熵，对所述第三标签分类结果进行信息论编码运算，获得第三标签分类信息熵；

获得第一排序指令，根据所述第一排序指令对所述第一标签分类信息熵、所述第二标签分类信息熵、所述第三标签分类信息熵进行排序，获得标签分类信息熵排序结果；

根据所述标签分类信息熵排序结果获得所述第一档案标签分类排行结果。

3.如权利要求2所述的方法，其中，所述获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果，还包括：

获得第一全文检索指令，根据所述第一全文检索指令对所述第一格式语义分析结果进行全文检索，获得第一全文检索结果；

根据所述第一语义解析指令对所述第一全文检索结果进行字面语义分析，获得第一分析结果；

根据所述第一语义解析指令对所述第一全文检索结果进行隐含语义分析，获得第二分析结果；

获得第一信息整合指令，根据所述第一信息整合指令对所述第一分析结果和所述第二分析结果进行信息整合，获得所述第一语义解析结果。

4.如权利要求3所述的方法，其中，所述方法还包括：

构建第一隐含语义分析数据库，其中，所述第一隐含语义分析数据库为通过实时大数据信息更新训练获得的，且所述第一隐含语义分析数据库包括词性聚合模块和事件识别模块；

将所述第一全文检索结果输入所述第一语义信息分析数据库，获得所述第二分析结果。

5.如权利要求3所述的方法，其中，所述方法还包括：

根据所述第一语义解析结果对标签分类结果进行语义关联频次统计，获得语义关联频次统计结果；

根据所述第一语义解析结果进行中心思想提取，获得所述第一接收档案的中心思想提取结果；

根据所述中心思想提取结果和所述标签分类结果进行关联度预估，获得关联度预估结果；

将所述中心思想提取结果、所述关联度预估结果作为信息熵的计算特征。

6.如权利要求1所述的方法，其中，所述方法还包括：

根据所述第一档案保密分类结果判断是否对所述第一接收档案输出为可开放档案；

当判断所述第一接收档案可输出为可开放档案时，获得第一人工审核指令；

根据所述第一人工审核指令将所述第一接收档案发送至人工审核，获得第一审核结果；

根据所述第一审核结果判断是否将所述第一接收档案输出为可开放档案。

7.如权利要求1所述的方法，其中，所述构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型，还包括：

获得第一语义数据库，其中，所述第一语义数据库为包括不同格式语义的输入数据和标识语义解析结果的标识信息；

根据所述第一语义数据库对所述第一语义知识库模型进行监督学习，当所述第一语义知识库模型处于收敛状态后，则所述第一语义知识库模型构建完成。

8.一种基于语义分析的档案分类系统，其中，所述系统包括：

第一获得单元，所述第一获得单元用于通过第一数据接收装置获得第一接收档案；

第二获得单元，所述第二获得单元用于获得第一格式识别指令，根据所述第一格式识别指令对所述第一接收档案进行格式识别，获得第一格式识别结果；

第三获得单元，所述第三获得单元用于获得第一格式转换指令，根据所述第一格式转换指令通过所述第一格式识别结果进行格式转换，获得第二接收档案，其中，所述第二接收档案为纯文本档案；

第一输入单元，所述第一输入单元用于将所述第二接收档案输入第一格式语义库，获得第一格式语义分析结果；

第一构建单元，所述第一构建单元用于构建第一语义知识库模型，其中，所述第一语义知识库模型为通过训练数据和计算机语义鉴定规则融合后获得的进行语义解析的模型；

第四获得单元，所述第四获得单元用于获得第一语义解析指令，根据所述第一语义解析指令将所述第一格式语义分析结果输入所述第一语义知识库模型，获得第一语义解析结果；

第二输入单元，所述第二输入单元用于将所述第一语义分析结果输入第一鉴定条件库，获得第一档案标签分类排行结果；

第五获得单元，所述第五获得单元用于将所述第一语义分析结果输入第二鉴定条件库，获得第一档案保密分类结果；

第一分类单元，所述第一分类单元用于根据所述第一档案标签分类排行结果和所述第一档案保密分类结果进行档案分类。

9.一种基于语义分析的档案分类系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。