CN112988982A

CN112988982A - 一种计算机比较空间的自主学习方法及系统

Info

Publication number: CN112988982A
Application number: CN202110531281.3A
Authority: CN
Inventors: 王楠; 徐杰; 张翔; 张宇
Original assignee: Jiangsu United Industrial Ltd By Share Ltd
Current assignee: Jiangsu United Industrial Ltd By Share Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-06-18
Anticipated expiration: 2041-05-17
Also published as: CN112988982B

Abstract

本发明公开了一种计算机比较空间的自主学习方法及系统，其中，所述方法包括：将第一文件按照预设转化处理方法进行转化，获得第二文件；将第二文件输入第一语义分析模型，获得第一语义信息；依据筛选要求信息获得组合筛选条件；根据各筛选条件，获得筛选参数信息；对第二文件进行参数信息匹配，获得第二文件匹配参数，从而获得匹配训练数据；并对匹配训练数据进行深度学习，构建比较模型；根据第二文件匹配参数获得第一筛选特征；将第一筛选特征、第一语义信息输入比较模型中，获得第一对比结果。解决了现有技术中关键词检索的覆盖率较低，检索准确率较低，且开放鉴定方法难以复制，检索过程中机器运算效率较低的技术问题。

Description

一种计算机比较空间的自主学习方法及系统

技术领域

本发明涉及人工智能领域，尤其涉及一种计算机比较空间的自主学习方法及系统。

背景技术

当前，业内主要通过光学字符识别技术和全文检索技术实现档案开放鉴定数字化，但这种关键词过滤方法的覆盖率依然较低。随着人工智能技术的发展，业内通过神经网络技术可以将档案开放鉴定的水平实现一定程度的提高，但神经网络训练需要大量的人工标注、训练成本，而且，可移植性很差，因此也存在许多弊端。

本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

关键词检索的覆盖率较低，检索准确率较低，且开放鉴定方法难以复制，检索过程中机器运算效率较低。

发明内容

本申请实施例通过提供一种计算机比较空间的自主学习方法及系统，解决了现有技术中关键词检索的覆盖率较低，检索准确率较低，且开放鉴定方法难以复制，检索过程中机器运算效率较低的技术问题。实现了在关键词过滤基础上，基于语义分析技术，通过构架语义知识库达到提高关键词覆盖率及检索准确率，且通过赋予机器参数信息进行自主学习，提高机器运算效率的技术目的。

鉴于上述问题，本申请实施例提供一种计算机比较空间的自主学习方法及系统。

第一方面，本申请提供了一种计算机比较空间的自主学习方法，其中，所述方法包括：获得第一文件信息；将所述第一文件信息按照预设转化处理方法进行转化，获得第二文件信息，所述第二文件信息具有第一属性；将所述第二文件信息输入第一语义分析模型，获得第一语义信息；获得筛选要求信息，其中，所述筛选要求信息包括时间要求信息、内容要求信息、归属要求信息；根据所述时间要求信息，获得第一筛选条件；根据所述归属要求信息，获得第二筛选条件；根据所述内容要求信息，获得第三筛选条件；将所述第一筛选条件、所述第二筛选条件、所述第三筛选条件进行任意组合，获得组合筛选条件；根据所述第一、第二、第三筛选条件及所述组合筛选条件，获得筛选参数信息；根据所述第二文件信息对所述筛选参数信息进行匹配，获得第二文件匹配参数；根据所述第二文件匹配参数，获得匹配训练数据；对所述匹配训练数据进行深度学习，构建比较模型；根据所述第二文件匹配参数，获得第一筛选特征；将所述第一筛选特征、所述第一语义信息输入所述比较模型中，获得第一对比结果。

另一方面，本申请还提供了一种计算机比较空间的自主学习系统，其中，所述系统包括：第一获得单元，所述第一获得单元用于获得第一文件信息；第二获得单元，所述第二获得单元用于将所述第一文件信息按照预设转化处理方法进行转化，获得第二文件信息，所述第二文件信息具有第一属性；第一输入单元，所述第一输入单元用于将所述第二文件信息输入第一语义分析模型，获得第一语义信息；第三获得单元，所述第三获得单元用于获得筛选要求信息，其中，所述筛选要求信息包括时间要求信息、内容要求信息、归属要求信息；第四获得单元，所述第四获得单元用于根据所述时间要求信息，获得第一筛选条件；第五获得单元，所述第五获得单元用于根据所述归属要求信息，获得第二筛选条件；第六获得单元，所述第六获得单元用于根据所述内容要求信息，获得第三筛选条件；第七获得单元，所述第七获得单元用于将所述第一筛选条件、所述第二筛选条件、所述第三筛选条件进行任意组合，获得组合筛选条件；第八获得单元，所述第八获得单元用于根据所述第一、第二、第三筛选条件及所述组合筛选条件，获得筛选参数信息；第九获得单元，所述第九获得单元用于根据所述第二文件信息对所述筛选参数信息进行匹配，获得第二文件匹配参数；第十获得单元，所述第十获得单元用于根据所述第二文件匹配参数，获得匹配训练数据；第十一获得单元，所述第十一获得单元用于对所述匹配训练数据进行深度学习，构建比较模型；第十二获得单元，所述第十二获得单元用于根据所述第二文件匹配参数，获得第一筛选特征；第二输入单元，所述第二输入单元用于将所述第一筛选特征、所述第一语义信息输入所述比较模型中，获得第一对比结果。

另一方面，本申请实施例还提供了一种计算机比较空间的自主学习系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了在关键词过滤基础上，设置不同的关键词筛选参数，并为由计算机依据档案信息选择对应的筛选参数，确定筛选条件，基于语义分析技术，通过构架语义知识库，获得对于档案内容的语义分析结果，从而将语义分析结果和筛选条件输入至神经网络模型获得对于内容的关键词比对结果，从而对档案内容进行开放鉴定，达到了基于语义分析技术，通过构架语义知识库达到提高关键词覆盖率及检索准确率的技术目的；依据文档鉴定的筛选条件要求，根据文档的具体情况，如时间、属性、内容设置不同的参数，利用对应的参数进行比较模型的建立和比较处理，在计算机进行文档内容筛选时，不需要将所有筛选要求依次进行比较，从而达到减少运算处理内容，提高运算处理效率的技术目的。

上述说明是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种计算机比较空间的自主学习方法的流程示意图；

图2为本申请实施例一种计算机比较空间的自主学习系统的结构示意图；

图3为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第二获得单元12，第一输入单元13，第三获得单元14，第四获得单元15，第五获得单元16，第六获得单元17，第七获得单元18，第八获得单元19，第九获得单元20，第十获得单元21，第十一获得单元22，第十二获得单元23，第二输入单元24，总线300，接收器301，处理器302，发送器303，存储器304，总线接口305。

具体实施方式

下面，将参考附图详细的描述本申请的示例实施例，显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

当前，业内主要通过光学字符识别技术和全文检索技术实现档案开放鉴定数字化，但这种关键词过滤方法的覆盖率依然较低。随着人工智能技术的发展，业内通过神经网络技术可以将档案开放鉴定的水平实现一定程度的提高，但神经网络训练需要大量的人工标注、训练成本，而且，可移植性很差，因此也存在许多弊端。现有技术中还存在着关键词检索的覆盖率较低，检索准确率较低，且开放鉴定方法难以复制，检索过程中机器运算效率较低的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请提供了一种计算机比较空间的自主学习方法，其中，所述方法包括：获得第一文件信息；将所述第一文件信息按照预设转化处理方法进行转化，获得第二文件信息，所述第二文件信息具有第一属性；将所述第二文件信息输入第一语义分析模型，获得第一语义信息；获得筛选要求信息，其中，所述筛选要求信息包括时间要求信息、内容要求信息、归属要求信息；根据所述时间要求信息，获得第一筛选条件；根据所述归属要求信息，获得第二筛选条件；根据所述内容要求信息，获得第三筛选条件；将所述第一筛选条件、所述第二筛选条件、所述第三筛选条件进行任意组合，获得组合筛选条件；根据所述第一、第二、第三筛选条件及所述组合筛选条件，获得筛选参数信息；根据所述第二文件信息对所述筛选参数信息进行匹配，获得第二文件匹配参数；根据所述第二文件匹配参数，获得匹配训练数据；对所述匹配训练数据进行深度学习，构建比较模型；根据所述第二文件匹配参数，获得第一筛选特征；将所述第一筛选特征、所述第一语义信息输入所述比较模型中，获得第一对比结果。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种计算机比较空间的自主学习方法，其中，所述方法包括：

步骤S100：获得第一文件信息；

具体而言，随着科技的日新月异，电子信息技术也给档案工作带来了巨大的变革，“档案数字化”、“智慧档案”的概念随之应运而生。而结合人工智能实现档案数字化是提高生产力和效率的方式，在人工智能模式下，实现对档案做开放鉴定，首先需要获取档案内容，所述第一文件信息为档案的原始文件信息。所述第一文件信息的格式包括纸质版格式的文件信息、PDF、OFD、图片等电子版格式的文件信息，首先获得所述第一文件信息，即获得档案的原始文件信息，继而将文件传输并存储至信息处理中心，进行进一步的文件处理。

步骤S200：将所述第一文件信息按照预设转化处理方法进行转化，获得第二文件信息，所述第二文件信息具有第一属性；

具体而言，所述预设转化处理方法包括光学字符识别（OCR）技术、格式转换技术以及文本解析技术，在获得所述第一文件信息之后，依据所述预设转化处理方法对文件进行格式转化，通过光学字符识别（OCR）技术将单层PDF文件或图片文件中的文字识别出来，或通过格式转换技术将双层PDF或OFD文件转换为纯文本文件。在获得纯文本档案之后，通过文本解析技术将纯文本档案变为一个可进行语义分析的文件。所述第一属性为所述第二文件具有可进行语义分析的属性。

进一步地，所述预设转化处理方法中，对纯文本格式的文件进行文本解析时，有两个子任务：一是恢复纯文本档案的版面格式（正确划分段落、句子，正确区分标题、正文等）；二是对文本的每一句进行自然语言解析（NLP），包括切词、词性标注、词语聚合、短语识别、命名实体识别、事件识别等。通过对文件进行文本解析，使得所述第二文件信息具有可进行语义识别的特征。

步骤S300：将所述第二文件信息输入第一语义分析模型，获得第一语义信息；

具体而言，自然语言处理包括句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、图像识别等等。而将语义分析技术应用到档案开放鉴定中，基于语义分析技术对中文文本大数据进行语义分析，能够对中文文本大数据自动识别、学习、提取信息，实现中文文本信息由非结构化向结构化的转变。可以对档案案卷目录、案件目录、档案内容进行筛查，匹配“不可开放规则”。所述第一语义分析模型为一深度神经网络学习模型，具有不断学习、获取经验来处理数据的特点，通过将所述第二文件信息输入所述第一语义分析模型，实现对所述第二文件信息的语义分析。

进一步地，所述第一语义分析模型可实现对所述第二文件信息的格式语义分析、显式语义分析和隐含语义分析。显式语义分析又分为全文检索和字面语义分析；而隐含语义分析需要用到句子中的所有成分，与显式语义分析一起，实现对句子语义的精确语义解析；格式语义分析模块将档案版面位置所隐含的语义“翻译”出来，所述第一语义信息包括所述第二文件信息的格式语义分析、显式语义分析和隐含语义分析的各项结果。通过所述第一语义分析模型，实现了语义分析获取内容的精确性。

步骤S400：获得筛选要求信息，其中，所述筛选要求信息包括时间要求信息、内容要求信息、归属要求信息；

具体而言，所述筛选要求信息为参照档案馆划控与开放鉴定的原则和馆藏到开放期档案的划控鉴定实际情况，所制定的基于语义分析的档案馆开放鉴定条件解析规范。依据所述筛选要求信息，对档案文件中的语义分析结果进行关键词筛选及过滤，对档案内容实现精准匹配，从而实现对于各档案文件的开放鉴定。所述筛选要求信息包括时间要求信息、内容要求信息、归属要求信息，通过分别判断所识别筛选的档案文件的时间要求、内容要求、归属要求是否满足所述筛选要求，从而获取对于档案内容的不同筛选条件，依据筛选条件，对其进行不同“不可开放规则”的确定。

步骤S500：根据所述时间要求信息，获得第一筛选条件；

步骤S600：根据所述归属要求信息，获得第二筛选条件；

步骤S700：根据所述内容要求信息，获得第三筛选条件；

步骤S800：将所述第一筛选条件、所述第二筛选条件、所述第三筛选条件进行任意组合，获得组合筛选条件；

具体而言，所述第一筛选条件为依据档案的形成时间制定的筛选条件，举例而言，对于不同形成期限的档案的不可开放鉴定条件不同；所述第二筛选条件为依据档案的经济、科学、技术、文化等不同归属要求所制定的筛选条件；所述第三筛选条件为依据档案的文本内容所制定的筛选条件。通过分别制定多筛选条件，实现开放鉴定的准确性、高效性。通过将所述第一筛选条件、所述第二筛选条件、所述第三筛选条件进行任意组合，获得所述组合筛选条件，依据所述组合筛选条件实现对文本内容的全方位筛选的形式，提高了档案开放条件筛选的精确性。

步骤S900：根据所述第一、第二、第三筛选条件及所述组合筛选条件，获得筛选参数信息；

步骤S1000：根据所述第二文件信息对所述筛选参数信息进行匹配，获得第二文件匹配参数；

具体而言，所述筛选参数信息为所述第一、第二、第三筛选条件及所述组合筛选条件中所提取的各筛选条件对应的具体筛选参数，不同的筛选参数对应不同的筛选条件，通过识别筛选参数，可以快速、精准的获得对应文本内容所对应的筛选条件，从而依据各筛选条件确定档案内容是否满足“不可开放规则”。因此根据所述第二文件信息对所述筛选参数信息进行匹配，获得所述第二文本内容信息中包含所述筛选参数信息的所述第二文件匹配参数，从而依据所述第二文件匹配参数，确定所述第二文件信息所对应的筛选条件。根据文档的具体情况，如时间、属性、内容选择不同的参数，利用对应的参数进行比较模型的建立和比较处理，而不需要将所有筛选要求依次进行比较，可以减少运算处理内容，提高运算处理效率，赋予机器参数自主选择，从而针对参数的数据进行筛选训练。

步骤S1100：根据所述第二文件匹配参数，获得匹配训练数据；

步骤S1200：对所述匹配训练数据进行深度学习，构建比较模型；

具体而言，依据所述第二文件匹配参数，选择所述第二文件信息对应的历史筛选数据作为训练数据构建所述比较模型，所述比较模型为一神经网络模型，用于通过将对应文档信息的语义分析结果作为输入数据输入至所述比较模型，通过监督学习的方式，将语义分析结果文本内容与训练数据进行比对，获得对比结果。通过应用神经网络模型，进一步提高了数据获取的准确性。

步骤S1300：根据所述第二文件匹配参数，获得第一筛选特征；

步骤S1400：将所述第一筛选特征、所述第一语义信息输入所述比较模型中，获得第一对比结果。

具体而言，所述第一筛选特征为所述第二文件匹配参数中的文本特征信息，基于所述第一筛选特征，自主选择所述第二文件的匹配参数进行筛选，通过将所述第一筛选特征、所述第一语义信息输入所述比较模型中，获得第一对比结果。依据所述第一语义信息获得所述第二文件信息的语义分析结果，依据所述第一筛选特征确定各项语义分析结果对应的筛选参数，以及各筛选参数对应的筛选条件，通过将上述数据输入至所述比较模型中进行深度学习，从而获得所述第二文本信息与筛选条件的对比结果，并依据所述第一对比结果获得所述第二文本信息是否可开放的结果。

进一步而言，本申请实施例步骤S300还包括：

步骤S310：获得关键词库；

步骤S320：根据所述关键词库对所述第二文件信息进行全文检索，获得第一检索结果；

步骤S330：判断所述第一检索结果是否存在；

步骤S340：当存在时，根据所述第一检索结果，获得第二语义信息。

具体而言，所述关键词库为依据档案开放鉴定条件解析规范进行拆分、细分获得的档案“不可开放规则”关键词数据库，基于此关键词库，对所述第二文件信息进行全文检索，通过全文检索技术，获得所述第二文件信息对于所述关键词库中关键词的匹配度和覆盖率，获得所述第一检索结果，所述第一检索结果包括所述第二文本信息与所述关键词库的匹配结果，若通过全文检索，存在所述第一检索结果，则所述第二文件信息存在满足“不可开放规则”的关键词，则进一步依据所述第一检索结果，对检索结果中的第二文件内容进行语义分析，从而通过语义分析对所述第二文件信息的开放性进行更为精确的鉴定。

进一步而言，本申请实施例步骤S330还包括：

步骤S331：当所述第一检索结果不存在时，获得预设句法分析方法；

步骤S332：根据所述预设句法分析方法对所述第二文件信息进行句法分析，获得文件句法信息；

步骤S333：获得预设语义模型库；

步骤S334：根据所述文件句法信息，获得句法特征；

步骤S335：根据所述句法特征、所述预设语义模型库进行模型匹配，获得所述第一语义分析模型；

步骤S336：将所述文件句法信息输入所述第一语义分析模型，获得所述第一语义信息。

具体而言，若所述第一检索结果不存在，则代表所述第二文件信息的文本内容无法通过全文检索进行关键词过滤。由于关键词过滤的准确率取决于被用于检索条件的关键词组与“不可开放规则”之间是否有一一对应的绑定关系，因此当关键词词库不够全面或者一些替代关键词出现时，全文检索就会出现“误判”的现象，导致检索结果准确率降低。因此，当所述第一检索结果不存在时，根据所述预设句法分析方法对所述第二文件信息进行句法分析，获得文件句法信息，基于字面语义分析技术，通过对档案文件进行句法分析，对文本句子的结构进行拆分，从而将句子各部分的内容进行分开显示，举例而言，通过名词、时间、动词等分类信息进行句子结构拆解，从而获得所述文件句法信息。继而在句法分析的基础上，获得所述句法特征，将所述句法特征与所述预设语义模型库进行模型匹配，依据所述句法特征确定所述第一语义分析模型，通过语义模型，对拆分后的所述文件句法信息进行语义分析，从而将对应语句的语义内容与“不可开放规则”的关键词对应起来，从而实现不依赖关键词（依靠语义）将符合“不可开放规则”的句子内容检索出来，从而提高关键词过滤的准确性和覆盖率的技术目的。

进一步而言，本申请实施例步骤S1000还包括：

步骤S1010：根据所述第二文件信息，获得第二文件属性信息；

步骤S1020：根据所述第二文件属性信息，获得第二文件时间信息；

步骤S1030：判断所述第二文件时间信息是否满足所述第一筛选条件；

步骤S1040：当满足时，根据所述第二筛选条件、所述第三筛选条件，获得所述第二文件匹配参数；

步骤S1050：当所述第二文件时间信息不满足所述第一筛选条件时，根据所述第一筛选条件、所述第二筛选条件，获得所述第二文件匹配参数。

具体而言，依据所述第二文件属性信息获得第二文件的所述第二文件时间信息，举例而言，国家档案馆保管的档案，一般应当自形成之日起满30年向社会开放。经济、科学、技术、文化等类档案向社会开放的期限可以少于30年，涉及国家安全或者重大利益以及其他到期不宜开放的档案向社会开放的期限可以多于30年，后来经过修改，档案开放期限由30年缩短为25年。通过判断所述第二文件时间信息是否满足所述第一筛选条件，即判断所述第二文件时间的形成年限是否满足档案开放的最低限度，若满足所述第一筛选条件，则进一步进行对档案属性以及内容的开放鉴定；若不满足，则直接依据档案的时间、属性参数确定所述第二文件匹配参数。由于对于档案开放鉴定的首要判断要素为形成年限，且不同属性的档案对于开放实现要求不同，因此当所述第二文件时间信息不满足所述第一筛选条件时，根据所述第一筛选条件、所述第二筛选条件，获得所述第二文件匹配参数。

进一步而言，本申请实施例步骤S200还包括：

步骤S210：获得预设格式语义库；

步骤S220：根据所述预设格式语义库，获得格式特征信息；

步骤S230：将所述格式特征信息、所述第二文件信息输入格式匹配模型中，获得第一匹配结果；

步骤S240：当所述第一匹配结果存在时，根据所述第一匹配结果，获得第三语义信息。

具体而言，通过获得所述预设格式语义库，获得基于格式语义分析获得的不同的格式特征信息，包括纯文本档案的版面中，段落、句子、标题、正文等格式特征，通过将所述格式特征信息、所述第二文件信息输入格式匹配模型中，获得第一匹配结果，若所述第一匹配结果存在，则所述第二文件信息存在所述预设格式语义库中的格式特征，则需要进一步对匹配结果进行语义分析，实现将档案版面位置所隐含的语义“翻译”出来，作为开放鉴定线索之一的技术目的。

进一步而言，本申请实施例步骤S240还包括：

步骤S241：将所述第三语义信息输入所述比较模型中，获得第二对比结果；

步骤S242：通过对所述第二对比结果进行数据损失分析，获得第一损失数据；

步骤S243：将所述第一损失数据输入所述比较模型中进行训练，获得增量比较模型，其中，所述增量比较模型为所述比较模型进行增量学习后生成的新模型。

具体而言，所述第三语义信息为对于所述第二文件信息的格式特征进行语义分析获得的结果，可通过将所述第三语义信息输入所述比较模型中，将格式特征的语义分析结果作为开放鉴定的判定结果，即获得所述第二比对结果。从而依据对所述第二对比结果进行数据损失分析，并将缺失数据输入至所述比较模型，对所述比较模型进行增量学习，从而获得所述增量比较模型，通过增量学习使得模型的获取更为准确，从而使得输出数据更为准确。

进一步而言，本申请实施例步骤S1200还包括：

步骤S1210：通过对所有匹配训练数据进行训练分析，获得第一特征向量集合和第二特征向量集合，其中，所述第一特征向量对应于所述第一筛选特征，所述第二特征向量对应于所述第一语义信息；

步骤S1220：利用所有第一特征向量、第二特征向量及标识第一特征向量与第二特征向量比较结果的标识信息，组建多组训练数据；

步骤S1230：通过对所述多组训练数据进行训练收敛，获得所述比较模型。

具体而言，所述比较模型为一神经网络模型，所述神经网络模型通过多组训练数据训练获得，所述神经网络模型即机器学习中的神经网络模型，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。所述神经网络模型通过训练数据训练的过程本质上为监督学习的过程。所述多组中的训练数据中的每一组训练数据均包括所述第一筛选特征、所述第一语义信息以及用于标识第一对比结果的标识信息；利用所有第一特征向量、第二特征向量及标识第一特征向量与第二特征向量比较结果的标识信息，组建多组训练数据，在获得所述第一筛选特征、所述第一语义信息的情况下，神经网络模型会输出所述第一对比结果的标识信息来对神经网络模型输出的所述第一对比结果进行校验，如果输出的所述第一对比结果同标识的所述第一对比结果相一致，则本数据监督学习完成，则进行下一组数据监督学习；如果输出的所述第一对比结果同标识的所述第一对比结果不一致，则神经网络模型自身进行调整，直到神经网络模型达到预期的准确率后，进行下一组数据的监督学习。通过训练数据使神经网络模型自身不断地修正、优化，通过监督学习的过程来提高神经网络模型处理所述数据的准确性，进而使得所述第一对比结果更加准确。

综上所述，本申请实施例所提供的一种计算机比较空间的自主学习方法具有如下技术效果：

1、由于采用了在关键词过滤基础上，设置不同的关键词筛选参数，并为由计算机依据档案信息选择对应的筛选参数，确定筛选条件，基于语义分析技术，通过构架语义知识库，获得对于档案内容的语义分析结果，从而将语义分析结果和筛选条件输入至神经网络模型获得对于内容的关键词比对结果，从而对档案内容进行开放鉴定，达到了基于语义分析技术，通过构架语义知识库达到提高关键词覆盖率及检索准确率的技术目的。

2、由于采用了通过神经网络模型进行训练学习，将所述第一筛选特征、所述第一语义信息输入所述比较模型中进行训练学习，基于训练模型能够不断学习、获取经验来处理数据的特点，使得所获得的所述第一对比结果更为准确。并将所述第二文件信息的格式语义分析结果作为缺失数据对所述比较模型进行增量学习，通过对格式特征提取与模型增量学习进行双重结合的方式，减少模型响应时间，提高模型识别性能的技术效果。

3、由于采用了依据文档鉴定的筛选条件要求，根据文档的具体情况，如时间、属性、内容设置不同的参数，利用对应的参数进行比较模型的建立和比较处理，在计算机进行文档内容筛选时，不需要将所有筛选要求依次进行比较，从而达到减少运算处理内容，提高运算处理效率，赋予机器参数自主选择，针对参数的数据进行筛选训练的技术目的。

实施例二

基于与前述实施例中一种计算机比较空间的自主学习方法同样发明构思，本发明还提供了一种计算机比较空间的自主学习系统，如图2所示，所述系统包括：

第一获得单元11，所述第一获得单元11用于获得第一文件信息；

第二获得单元12，所述第二获得单元12用于将所述第一文件信息按照预设转化处理方法进行转化，获得第二文件信息，所述第二文件信息具有第一属性；

第一输入单元13，所述第一输入单元13用于将所述第二文件信息输入第一语义分析模型，获得第一语义信息；

第三获得单元14，所述第三获得单元14用于获得筛选要求信息，其中，所述筛选要求信息包括时间要求信息、内容要求信息、归属要求信息；

第四获得单元15，所述第四获得单元15用于根据所述时间要求信息，获得第一筛选条件；

第五获得单元16，所述第五获得单元16用于根据所述归属要求信息，获得第二筛选条件；

第六获得单元17，所述第六获得单元17用于根据所述内容要求信息，获得第三筛选条件；

第七获得单元18，所述第七获得单元18用于将所述第一筛选条件、所述第二筛选条件、所述第三筛选条件进行任意组合，获得组合筛选条件；

第八获得单元19，所述第八获得单元19用于根据所述第一、第二、第三筛选条件及所述组合筛选条件，获得筛选参数信息；

第九获得单元20，所述第九获得单元20用于根据所述第二文件信息对所述筛选参数信息进行匹配，获得第二文件匹配参数；

第十获得单元21，所述第十获得单元21用于根据所述第二文件匹配参数，获得匹配训练数据；

第十一获得单元22，所述第十一获得单元22用于对所述匹配训练数据进行深度学习，构建比较模型；

第十二获得单元23，所述第十二获得单元23用于根据所述第二文件匹配参数，获得第一筛选特征；

第二输入单元24，所述第二输入单元24用于将所述第一筛选特征、所述第一语义信息输入所述比较模型中，获得第一对比结果。

进一步的，所述系统还包括：

第十三获得单元，所述第十三获得单元用于获得关键词库；

第十四获得单元，所述第十四获得单元用于根据所述关键词库对所述第二文件信息进行全文检索，获得第一检索结果；

第一判断单元，所述第一判断单元用于判断所述第一检索结果是否存在；

第十五获得单元，所述第十五获得单元用于当存在时，根据所述第一检索结果，获得第二语义信息。

进一步的，所述系统还包括：

第十六获得单元，所述第十六获得单元用于当所述第一检索结果不存在时，获得预设句法分析方法；

第十七获得单元，所述第十七获得单元用于根据所述预设句法分析方法对所述第二文件信息进行句法分析，获得文件句法信息；

第十八获得单元，所述第十八获得单元用于获得预设语义模型库；

第十九获得单元，所述第十九获得单元用于根据所述文件句法信息，获得句法特征；

第二十获得单元，所述第二十获得单元用于根据所述句法特征、所述预设语义模型库进行模型匹配，获得所述第一语义分析模型；

第三输入单元，所述第三输入单元用于将所述文件句法信息输入所述第一语义分析模型，获得所述第一语义信息。

进一步的，所述系统还包括：

第二十一获得单元，所述第二十一获得单元用于根据所述第二文件信息，获得第二文件属性信息；

第二十二获得单元，所述第二十二获得单元用于根据所述第二文件属性信息，获得第二文件时间信息；

第二判断单元，所述第二判断单元用于判断所述第二文件时间信息是否满足所述第一筛选条件；

第二十三获得单元，所述第二十三获得单元用于当满足时，根据所述第二筛选条件、所述第三筛选条件，获得所述第二文件匹配参数；

第二十四获得单元，所述第二十四获得单元用于当所述第二文件时间信息不满足所述第一筛选条件时，根据所述第一筛选条件、所述第二筛选条件，获得所述第二文件匹配参数。

进一步的，所述系统还包括：

第二十五获得单元，所述第二十五获得单元用于获得预设格式语义库；

第二十六获得单元，所述第二十六获得单元用于根据所述预设格式语义库，获得格式特征信息；

第四输入单元，所述第四输入单元用于将所述格式特征信息、所述第二文件信息输入格式匹配模型中，获得第一匹配结果；

第二十七获得单元，所述第二十七获得单元用于当所述第一匹配结果存在时，根据所述第一匹配结果，获得第三语义信息。

进一步的，所述系统还包括：

第五输入单元，所述第五输入单元用于将所述第三语义信息输入所述比较模型中，获得第二对比结果；

第二十八获得单元，所述第二十八获得单元用于通过对所述第二对比结果进行数据损失分析，获得第一损失数据；

第六输入单元，所述第六输入单元用于将所述第一损失数据输入所述比较模型中进行训练，获得增量比较模型，其中，所述增量比较模型为所述比较模型进行增量学习后生成的新模型。

进一步的，所述系统还包括：

第二十九获得单元，所述第二十九获得单元用于通过对所有匹配训练数据进行训练分析，获得第一特征向量集合和第二特征向量集合，其中，所述第一特征向量对应于所述第一筛选特征，所述第二特征向量对应于所述第一语义信息；

第三十获得单元，所述第三十获得单元用于利用所有第一特征向量、第二特征向量及标识第一特征向量与第二特征向量比较结果的标识信息，组建多组训练数据；

第三十一获得单元，所述第三十一获得单元用于通过对所述多组训练数据进行训练收敛，获得所述比较模型。

前述图1实施例一中的一种计算机比较空间的自主学习方法和具体实例同样适用于本实施例的一种计算机比较空间的自主学习系统，通过前述对一种计算机比较空间的自主学习方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种计算机比较空间的自主学习系统，所以为了说明书的简洁，在此不再详述。

示例性电子设备

下面参考图3来描述本申请实施例的电子设备。

图3图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例一种计算机比较空间的自主学习方法的发明构思，本发明还提供一种计算机比较空间的自主学习系统，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种计算机比较空间的自主学习方法的任一方法的步骤。

其中，在图3中，总线架构（用总线300来代表），总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种计算机比较空间的自主学习方法，其中，所述方法包括：

获得第一文件信息；

将所述第一文件信息按照预设转化处理方法进行转化，获得第二文件信息，所述第二文件信息具有第一属性；

将所述第二文件信息输入第一语义分析模型，获得第一语义信息；

获得筛选要求信息，其中，所述筛选要求信息包括时间要求信息、内容要求信息、归属要求信息；

根据所述时间要求信息，获得第一筛选条件；

根据所述归属要求信息，获得第二筛选条件；

根据所述内容要求信息，获得第三筛选条件；

将所述第一筛选条件、所述第二筛选条件、所述第三筛选条件进行任意组合，获得组合筛选条件；

根据所述第一、第二、第三筛选条件及所述组合筛选条件，获得筛选参数信息；

根据所述第二文件信息对所述筛选参数信息进行匹配，获得第二文件匹配参数；

根据所述第二文件匹配参数，获得匹配训练数据；

对所述匹配训练数据进行深度学习，构建比较模型；

根据所述第二文件匹配参数，获得第一筛选特征；

将所述第一筛选特征、所述第一语义信息输入所述比较模型中，获得第一对比结果。

2.如权利要求1所述的方法，其中，所述将所述第二文件信息输入第一语义分析模型，获得第一语义信息之前，包括：

获得关键词库；

根据所述关键词库对所述第二文件信息进行全文检索，获得第一检索结果；

判断所述第一检索结果是否存在；

当存在时，根据所述第一检索结果，获得第二语义信息。

3.如权利要求2所述的方法，其中，所述将所述第二文件信息输入第一语义分析模型，获得第一语义信息，包括：

当所述第一检索结果不存在时，获得预设句法分析方法；

根据所述预设句法分析方法对所述第二文件信息进行句法分析，获得文件句法信息；

获得预设语义模型库；

根据所述文件句法信息，获得句法特征；

根据所述句法特征、所述预设语义模型库进行模型匹配，获得所述第一语义分析模型；

将所述文件句法信息输入所述第一语义分析模型，获得所述第一语义信息。

4.如权利要求1所述的方法，其中，所述根据所述第二文件信息对所述筛选参数信息进行匹配，获得第二文件匹配参数，包括：

根据所述第二文件信息，获得第二文件属性信息；

根据所述第二文件属性信息，获得第二文件时间信息；

判断所述第二文件时间信息是否满足所述第一筛选条件；

当满足时，根据所述第二筛选条件、所述第三筛选条件，获得所述第二文件匹配参数；

当所述第二文件时间信息不满足所述第一筛选条件时，根据所述第一筛选条件、所述第二筛选条件，获得所述第二文件匹配参数。

5.如权利要求1所述的方法，其中，所述获得第二文件信息之后，包括：

获得预设格式语义库；

根据所述预设格式语义库，获得格式特征信息；

将所述格式特征信息、所述第二文件信息输入格式匹配模型中，获得第一匹配结果；

当所述第一匹配结果存在时，根据所述第一匹配结果，获得第三语义信息。

6.如权利要求5所述的方法，其中，所述方法包括：

将所述第三语义信息输入所述比较模型中，获得第二对比结果；

通过对所述第二对比结果进行数据损失分析，获得第一损失数据；

将所述第一损失数据输入所述比较模型中进行训练，获得增量比较模型，其中，所述增量比较模型为所述比较模型进行增量学习后生成的新模型。

7.如权利要求1所述的方法，其中，所述对所述匹配训练数据进行深度学习，构建比较模型，包括：

通过对所有匹配训练数据进行训练分析，获得第一特征向量集合和第二特征向量集合，其中，所述第一特征向量对应于所述第一筛选特征，所述第二特征向量对应于所述第一语义信息；

利用所有第一特征向量、第二特征向量及标识第一特征向量与第二特征向量比较结果的标识信息，组建多组训练数据；

通过对所述多组训练数据进行训练收敛，获得所述比较模型。

8.一种计算机比较空间的自主学习系统，其中，所述系统包括：

第一获得单元，所述第一获得单元用于获得第一文件信息；

第二获得单元，所述第二获得单元用于将所述第一文件信息按照预设转化处理方法进行转化，获得第二文件信息，所述第二文件信息具有第一属性；

第一输入单元，所述第一输入单元用于将所述第二文件信息输入第一语义分析模型，获得第一语义信息；

第三获得单元，所述第三获得单元用于获得筛选要求信息，其中，所述筛选要求信息包括时间要求信息、内容要求信息、归属要求信息；

第四获得单元，所述第四获得单元用于根据所述时间要求信息，获得第一筛选条件；

第五获得单元，所述第五获得单元用于根据所述归属要求信息，获得第二筛选条件；

第六获得单元，所述第六获得单元用于根据所述内容要求信息，获得第三筛选条件；

第七获得单元，所述第七获得单元用于将所述第一筛选条件、所述第二筛选条件、所述第三筛选条件进行任意组合，获得组合筛选条件；

第八获得单元，所述第八获得单元用于根据所述第一、第二、第三筛选条件及所述组合筛选条件，获得筛选参数信息；

第九获得单元，所述第九获得单元用于根据所述第二文件信息对所述筛选参数信息进行匹配，获得第二文件匹配参数；

第十获得单元，所述第十获得单元用于根据所述第二文件匹配参数，获得匹配训练数据；

第十一获得单元，所述第十一获得单元用于对所述匹配训练数据进行深度学习，构建比较模型；

第十二获得单元，所述第十二获得单元用于根据所述第二文件匹配参数，获得第一筛选特征；

第二输入单元，所述第二输入单元用于将所述第一筛选特征、所述第一语义信息输入所述比较模型中，获得第一对比结果。

9.一种计算机比较空间的自主学习系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。