CN111104476A

CN111104476A - 档案数据生成方法、档案数据生成装置和可读存储介质

Info

Publication number: CN111104476A
Application number: CN201911314535.5A
Authority: CN
Inventors: 张跃鹏
Original assignee: Yonyou Network Technology Co Ltd
Current assignee: Yonyou Network Technology Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-05
Anticipated expiration: 2039-12-19
Also published as: CN111104476B

Abstract

本发明提供了一种档案数据生成方法、档案数据生成装置及可读存储介质，包括：获取至少一个外源数据包，根据预设的数据分类模型，对所述至少一个外源数据包进行分类，生成至少一个外源数据组合；根据档案查询指令中第一特征值，过滤出符合第一匹配条件的至少一个所述外源数据组合，并生成至少一个结果数据集；根据档案生成指令中至少一个自定义特征值，在至少一个结果数据集选取符合第二匹配条件的所述外源数据包，生成档案数据，从而快速生成一套符合行业特性的基础档案数据，极大的缩短了软件的实施周期，极大的降低了人工成本，加快了项目实施进度。

Description

档案数据生成方法、档案数据生成装置和可读存储介质

技术领域

本发明涉及档案数据开发技术领域，具体而言，涉及一种档案数据生成方法、一种档案数据生成装置及一种计算机可读存储介质。

背景技术

由于ERP软件的复杂性及各行各业数据的多样性，在安装部署软件初期，往往要花费大量人力成本、时间成本进行系统初始化工作。特别对于档案数据系统最基本，最底层的基础数据，所有业务数据均构建与基础档案数据之上，并且档案数据种类繁多，数量之大，导致录入工作繁琐且进度缓慢，使得实施周期过长。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

为此，本发明的第一方面提供了一种档案数据生成方法。

本发明的第二方面提供了一种档案数据生成装置。

本发明的第三方面提供了一种计算机可读存储介质。

有鉴于此，根据本发明的第一方面，提供了一种档案数据生成方法，包括：获取至少一个外源数据包，根据预设的数据分类模型，对至少一个外源数据包进行分类，生成至少一个外源数据组合；根据档案查询指令中第一特征值，过滤出符合第一匹配条件的至少一个外源数据组合，并生成至少一个结果数据集；根据档案生成指令中至少一个自定义特征值，在至少一个结果数据集选取符合第二匹配条件的外源数据包，生成档案数据。

本发明实施例提供的档案数据生成方法，通过获取多个外源数据包，根据预设的数据分类模型，将多个外源数据包中的数据进行整理分类，生成多个外源数据组合，从而避免外源数据包中存储的文档档案因种类繁杂，造成搜索引擎对文档的搜索速度过慢，降低生成一套符合行业标准的档案数据的速度。根据档案查询指令中的第一特征值，从多个外源数据包中过滤出符合第一匹配条件的多个外源数据组合，并生成多个结果数据集，从而使系统自动匹配、筛选出符合查询条件的多个结果数据集，进一步缩小了筛选范围，用于提高用户后续进行二次筛选的过滤速度；根据档案生成指令中的多个自定义特征值，能够说明的是自定义特征值能够反映各个结果数据集的特征标签，从多个结果数据集中选取符合第二匹配条件的外源数据，并将这些外源数据集成外源数据包后，一次性生成档案数据，从而避免所有业务数据均构建在基础档案数据之上，提高档案录入的工作量，进一步缩短了软件的实施周期，提高了生成一套符合行业标准的档案数据的集成速度。本发明通过对外源数据整理分类后，基于外源数据进行特征值描述，对包含特征值描述的外源数据进行分类推荐，以供用户进行二次刷选，从而快速生成一套符合行业特性的基础档案数据，极大的缩短了软件的实施周期，极大的降低了人工成本，加快了项目实施进度。

另外，根据本发明上述技术方案提供的档案数据生成方法，还具有如下附加技术特征：

在上述技术方案中，进一步地，根据档案查询指令中第一特征值，过滤出符合第一匹配条件的至少一个所述外源数据组合，并生成至少一个结果数据集，具体包括：设定第一匹配条件的所属行业匹配规则；提取各个外源数据组合中的固定特征，根据固定特征，获取固定特征的所属行业；判断所属行业与第一特征值符合所属行业匹配规则，根据判断结果，过滤出与第一特征值对应的外源数据组合；新建推荐列表，将至少一个外源数据组合依次存放在推荐列表内，并生成至少一个结果数据集。

在该技术方案中，根据档案查询指令中第一特征值，过滤出符合第一匹配条件的至少一个所述外源数据组合，并生成至少一个结果数据集，具体包括：通过事先设定关于第一匹配条件的所属行业匹配规则，然后提取出每个外源数据组合中的固定特征，由于固定特征中包含所属行业，因此能够根据固定特征获取所属行业，通过将所属行业、第一特征值和所属行业匹配规则进行匹配判断，根据判断结果，过滤出与第一特征值对应的外源数据组合，从而基于所属行业实现快速搜索出符合第一匹配条件的基础档案数据，进一步缩小了筛选范围，能够方便用户在后续进行二次刷选；通过新建推荐列表，将多个外源数据组合依次存放在推荐列表内，使推荐列表被划分成多个区域，并生成多个结果数据集，从而能够方便用户根据推荐列表自主选择所需的业务数据，避免所有业务数据均构建与基础档案数据之上，并且档案数据种类繁多，数量之大，导致录入工作繁琐且进度缓慢，延长实施周期。

在上述技术方案中，进一步地，根据档案生成指令中至少一个自定义特征值，在至少一个结果数据集选取符合第二匹配条件的外源数据包，生成档案数据，具体包括：设定第二匹配条件的特征值多次选定规则；根据特征值多次选定规则，选取与自定义特征值相关联的至少一个结果数据集；根据结果数据集，集成外源数据包为档案数据。

在该技术方案中，根据档案生成指令中至少一个自定义特征值，在多个结果数据集内选取符合第二匹配条件的外源数据包，生成档案数据，具体包括：事先设定第二匹配条件的特征值多次选定规则，根据特征值多次选定规则，选取与自定义特征值相关联的多个结果数据集，并将选取的结果数据集进行集成合并成外源数据包，将外源数据包一次性导入生成档案数据，从而快速生成一套符合行业标准的档案数据，极大的缩短了软件的实施周期，极大的降低了人工成本，加快了项目实施进度。

在上述技术方案中，进一步地，获取至少一个外源数据包，根据数据分类模型，对至少一个外源数据包进行分类，生成至少一个外源数据组合，具体包括：获取任一外源数据包中的外源文档，根据数据分类模型中的分词识别规则，切分外源文档中的外源语句；根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征；根据数据分类模型中的索引排布规则，按照固定特征中包含的所属行业，将含有相同所属行业的固定特征进行归类，并为归类后的至少一个固定特征建立与所属行业对应的唯一主索引；在每个固定特征中建立至少一个子索引，并将子索引中的唯一标识符添加在动态特征中，以使每个固定特征与至少一个动态特征映像生成索引树；遍历并确认固定特征中的子索引存在动态特征，生成与索引树中的索引列对应的外源数据组合。

在该技术方案中，获取多个外源数据包，根据数据分类模型，对多个外源数据包进行分类，生成多个外源数据组合，具体包括：通过获取外源数据包中的外源文档，对外源文档中的外源语句进行分词识别、切分处理，然后根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征；并根据数据分类模型中的索引排布规则，挑选出含有相同所属行业的各个固定特征并进行归类，在归类后的多个固定特征基础上，建立一个与所属行业具有一一映射关系的唯一主索引，用于搜索查询时能够通过唯一主索引快速查询到相同所属行业的多个固定特征，并且在每个固定特征内部建立多个子索引，由于每个固定特征与动态特征属于一对多的关系，因此能够将子索引中的唯一标识符添加在动态特征，从而使主索引与子索引之间映像形成关于固定特征和动态特征的索引树，从而提高遍历的查询速度；最后，遍历并确认固定特征中的子索引是否存在动态特征，如果存在则说明能够生成包含固定特征和动态特征的索引列的外源数据组合，从而提高查询速度，进一步提高快速生成一套符合行业标准的档案数据的处理速度，极大的缩短了软件的实施周期。

在上述技术方案中，进一步地，根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征，具体包括：按照用户的使用热度，设定固定特征值拟合标准；遍历并确认外源语句中的外部索引次数大于固定特征值拟合标准中的热度标准值，设定外源语句的优先级为高级；确认外源语句中的外部索引次数与热度标准值相等，则设定外源语句的优先级为中级；确认外源语句中的外部索引次数小于热度标准值，则设定外源语句的优先级为低级；识别设定完优先级的外源语句中的关键词，根据关键词，判断外源语句对应的数据来源和所属行业，并将判断结果标记在外源语句中，生成与外源语句对应的固定特征。

在该技术方案中，根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征，具体包括：事先设定一个有关用户使用热度的固定特征值拟合标准，通过遍历多个外源语句并确认外源语句中的外部索引次数，以与拟合标准比较的方式，确定各个外源语句的优先级，然后识别各个外源语句中的关键词，以判断的方式，区分出各个外源语句的数据来源和所属行业，并将判断结果标记在外源语句中，使每条外源语句均生成对应的固定特征，从而使得外源数据的分类更加精细。

在上述技术方案中，进一步地，根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征，还包括：按照应用场景，设定特征值描述规则中的特定场景和特定用途；切取外源语句中的关键分词，模拟分词字段的使用场景，生成与外源语句对应的至少一个个性化描述；根据个性化描述，匹配出符合设定的特定场景和特定用途，并将特定场景和特定用途、个性化描述添加在动态缓冲区，生成与动态缓冲区对应的动态特征。

在该技术方案中，根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征，还包括：设定特征值描述规则中的多个特定场景和特定用途，能够说明的是按照场景的应用进行设定；对外源语句中的关键分词进行切取，模拟出该分词字段的使用场景，生成与外源语句具有对应关系的个性化描述，并根据个性化描述，从事先设定的特征值描述规则中匹配出符合个性化描述的特定场景和特定用途，并将特定场景和特定用途、个性化描述一起添加在动态缓冲区，由于动态缓冲区与动态特征之间具有对应的关联关系，因此能够通过动态缓冲区生成对应的动态特征，从而使得各类外源数据的描述更精细，适用范围更广泛。

在上述技术方案中，进一步地，获取至少一个外源数据包之前，具体包括：按照档案数据的类别，设定至少一个外源类别；根据数据收集接口，获取档案数据；按照外源类别，对档案数据进行分类存储，以使档案数据归集存储在对应的外源类别。

在该技术方案中，获取多个外源数据包之前，具体包括：分别对档案数据的类别进行设定，生成多个外源类别，用于描述档案的数据来源；然后根据数据收集接口，实现档案数据的获取，并按照事先设定的外源类别，对档案数据进行分类存储，以使档案数据按照外源类别，实现归类集成存储，从而实现对其他所需数据的采集，以实现可扩展性。

根据本发明的第二方面，提供了一种档案数据生成装置，包括存储器和处理器，存储器被配置为存储计算机程序；处理器被配置为执行计算机程序以实现如上述任一技术方案的档案数据生成方法的步骤，因而具备该档案数据生成方法的全部有益技术效果，在此不再赘述。

根据本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一技术方案的档案数据生成方法的步骤，因而具备该档案数据生成方法的全部有益技术效果，在此不再赘述。

根据本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了本发明的一个实施例的档案数据生成方法的示意流程图；

图2示出了本发明的另一个实施例的档案数据生成方法的示意流程图；

图3示出了本发明的再一个实施例的档案数据生成方法的示意流程图；

图4示出了本发明的又一个实施例的档案数据生成方法的示意流程图；

图5示出了本发明的另一个实施例的档案数据生成方法的示意流程图；

图6示出了本发明的再一个实施例的档案数据生成方法的示意流程图；

图7示出了本发明的又一个实施例的档案数据生成方法的示意流程图；

图8示出了本发明的又一个实施例的档案数据生成装置的示意流程图；

图9示出了本发明的又一个实施例的档案数据生成装置的示意流程图；

图10示出了本发明的又一个实施例的档案数据生成装置的示意流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图10描述根据本发明一些实施例的档案数据生成方法、档案数据生成装置和计算机可读存储介质。

实施例一：

本发明第一方面的实施例提供了一种档案数据生成方法。

具体阐述关于档案数据生成方法的详细内容。

下文将以ERP管理软件为应用场景，从而对本申请的实施例进行具体说明。

图1示出了本申请的一个实施例的基于数据库中间件的分区方法的示意流程图。

如图1所示，该档案数据生成方法包括：

步骤S102，获取至少一个外源数据包，根据预设的数据分类模型，对至少一个外源数据包进行分类，生成至少一个外源数据组合；

步骤S104，根据档案查询指令中第一特征值，过滤出符合第一匹配条件的至少一个外源数据组合，并生成至少一个结果数据集；

步骤S106，根据档案生成指令中至少一个自定义特征值，在至少一个结果数据集选取符合第二匹配条件的外源数据包，生成档案数据。

本发明实施例提供的档案数据生成方法，首先收集各类外源数据，比如国际标准类、国家标准类、行业标准类，可以理解的是，利用配置的数据收集接口，实现对外源数据的收集；其次在数据分类模型中设定特定的规则算法，从而实现对外源数据的整理、加工、分类处理；将分类完的数据进行推荐，用于用户进行二次筛选，并将筛选后的外源数据集成，一次性导入到系统中，从而快速生成一套符合行业特性的基础档案数据，避免因所有业务数据均构建与基础档案数据之上，档案数据种类繁多，数量之大，导致录入工作繁琐且进度缓慢，使得ERP实施周期过长的问题发生。

图2示出了本申请的一个实施例的档案数据生成方法的另一个示意流程图。

如图2所示，根据档案查询指令中第一特征值，过滤出符合第一匹配条件的至少一个外源数据组合，并生成至少一个结果数据集，具体包括：

步骤S202，设定第一匹配条件的所属行业匹配规则；

步骤S204，提取各个外源数据组合中的固定特征，根据固定特征，获取固定特征的所属行业；

步骤S206，判断所属行业与第一特征值符合所属行业匹配规则，根据判断结果，过滤出与第一特征值对应的外源数据组合；

步骤S208，新建推荐列表，将至少一个外源数据组合依次存放在推荐列表内，并生成至少一个结果数据集。

在该实施例中，用户能够在ERP系统的档案生成界面的查询框内，输入所属行业，系统会自动匹配并过滤出符合第一匹配条件的多个外源数据组合，其中第一匹配条件，即，将用户输入的查询信息传入数据接收层，接收到数据后，根据查询信息从固定特征中搜索匹配出与输入指令信息相关的外源数据组合，并展示给用户各类数据包含的具体数据内容和特征描述。

图3示出了本申请的一个实施例的档案数据生成方法的再一个示意流程图。

如图3所示，该档案数据生成方法还包括：

步骤S302，设定第二匹配条件的特征值多次选定规则；

步骤S304，根据特征值多次选定规则，选取与自定义特征值相关联的至少一个结果数据集；

步骤S306，根据结果数据集，集成外源数据包为档案数据。

在该实施例中，用户在使用ERP软件中的快速生成档案数据的功能时，需要先输入所属行业，查询到有关用户输入的固定特征和动态特征，即，系统会自动匹配所有数据的特征值，形成一套数据集；并将特征值分区域进行展示，每类数据均包含具体数据内容及特征描述，用户可进行二次筛选，即，选取需要用到的素材数据，并将多次选取到的数据进行集成，一次性导入到系统中。

图4示出了本申请的一个实施例的档案数据生成方法的另一个示意流程图。

如图4所示，该档案数据生成方法还包括：

步骤S402，获取至少一个外源数据包，根据预设的数据分类模型，对至少一个外源数据包进行分类，生成至少一个外源数据组合；

步骤S404，设定第一匹配条件的所属行业匹配规则；

步骤S406，提取各个外源数据组合中的固定特征，根据固定特征，获取固定特征的所属行业；

步骤S408，判断所属行业与第一特征值符合所属行业匹配规则，根据判断结果，过滤出与第一特征值对应的外源数据组合；

步骤S410，新建推荐列表，将至少一个外源数据组合依次存放在推荐列表内，并生成至少一个结果数据集；

步骤S412，设定第二匹配条件的特征值多次选定规则；

步骤S414，根据特征值多次选定规则，选取与自定义特征值相关联的至少一个结果数据集；

步骤S416，根据结果数据集，集成外源数据包，生成档案数据。

在该实施例中，事先设定关于第一匹配条件的所属行业匹配规则，然后提取出每个外源数据组合中的固定特征，由于固定特征中包含所属行业，因此能够根据固定特征获取所属行业，通过将所属行业、第一特征值和所属行业匹配规则进行匹配判断，根据判断结果，过滤出与第一特征值对应的外源数据组合，从而基于所属行业实现快速搜索出符合第一匹配条件的基础档案数据，进一步缩小了筛选范围，能够方便用户在后续进行二次刷选；通过新建推荐列表，将多个外源数据组合依次存放在推荐列表内，使推荐列表被划分成多个区域，并生成多个结果数据集，从而能够方便用户根据推荐列表自主选择所需的业务数据，避免所有业务数据均构建与基础档案数据之上，并且档案数据种类繁多，数量之大，导致录入工作繁琐且进度缓慢，延长实施周期；事先设定第二匹配条件的特征值多次选定规则，根据特征值多次选定规则，选取与自定义特征值相关联的多个结果数据集，并将选取的结果数据集进行集成合并成外源数据包，将外源数据包一次性导入生成档案数据，从而快速生成一套符合行业标准的档案数据，极大的缩短了软件的实施周期，极大的降低了人工成本，加快了项目实施进度。

图5示出了本申请的一个实施例的档案数据生成方法的另一个示意流程图。

如图5所示，获取至少一个外源数据包，根据数据分类模型，对至少一个外源数据包进行分类，生成至少一个外源数据组合，具体包括：

步骤S502，获取任一外源数据包中的外源文档，根据数据分类模型中的分词识别规则，切分外源文档中的外源语句；

步骤S504，根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征；

步骤S506，根据数据分类模型中的索引排布规则，按照固定特征中包含的所属行业，将含有相同所属行业的固定特征进行归类，并为归类后的至少一个固定特征建立与所属行业对应的唯一主索引；

步骤S508，在每个固定特征中建立至少一个子索引，并将子索引中的唯一标识符添加在动态特征中，以使每个固定特征与至少一个动态特征映像生成索引树；

步骤S510，遍历并确认固定特征中的子索引存在动态特征，生成与索引树中的索引列对应的外源数据组合。

在该实施例中，在数据分类模型中设定特定的规则算法，从而实现对外源数据的整理、加工、分类处理，其算法设计思路具体包括：在分词切分、排序的基础上进行二次开发，对每篇外源文档中进行切分，生成多个已拆分的外源语句；以使用特征值的方式对每条拆分后的数据进行描述，其中用特征值拟合，精细化描述出与外源语句对应的固定特征和动态特征，固定特征可以包括：数据来源、所属行业、优先级；动态特征：依据各类数据的特定场景、特定用途及特征进行个性化描述，使得各类数据的描述更精细，适用范围更广泛。并利用索引，对特征值进行索引排布，由于各个固定特征中包含的所属行业的属性值各不相同，因此通过将所属行业相同的属性值进行归类，并根据所属行业建立一一对应的唯一主索引，从而方便搜索引擎能够根据唯一主索引搜索到有关某类所属行业的所有固定特征；并对固定特征设定多个子索引，以使每个子索引与每个动态特征进行映像关联，由于每个子索引中都包含一个唯一标识符，因此将唯一标识符添加在动态特征中，进而形成多个索引树；通过遍历索引树中的索引列是否都存在固定特征和动态特征，进而使生成的外源数据组合能够包含特征值，从而使用户在输入所属行业时，能够依据分词特征值和索引树的结合，快速搜索出符合用户输入的一类与固定特征对应的外源文档；并且固定特征中的设定的优先级，能够标识出外源语句的使用热度，并展示给用户；通过公知中的分词识别关键词，能够判断外源语句的数据来源和所属行业，从而快速生成一套符合行业标准的档案数据，极大的缩短了ERP软件的实施周期。

图6示出了本申请的一个实施例的档案数据生成方法的另一个示意流程图。

如图6所示，根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征，具体包括：

步骤S602，按照用户的使用热度，设定固定特征值拟合标准；

步骤S604，遍历并确认外源语句中的外部索引次数大于固定特征值拟合标准中的热度标准值，设定外源语句的优先级为高级；确认外源语句中的外部索引次数与热度标准值相等，则设定外源语句的优先级为中级；确认外源语句中的外部索引次数小于热度标准值，则设定外源语句的优先级为低级；

步骤S606，识别设定完优先级的外源语句中的关键词，根据关键词，判断外源语句对应的数据来源和所属行业，并将判断结果标记在外源语句中，生成与外源语句对应的固定特征。

在该实施例中，根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征，具体包括：事先设定一个有关用户使用热度的固定特征值拟合标准，通过遍历多个外源语句并确认外源语句中的外部索引次数，以与拟合标准比较的方式，确定各个外源语句的优先级，然后识别各个外源语句中的关键词，以判断的方式，区分出各个外源语句的数据来源和所属行业，并将判断结果标记在外源语句中，使每条外源语句均生成对应的固定特征，从而使得外源数据的分类更加精细。

图7示出了本申请的一个实施例的档案数据生成方法的另一个示意流程图。

如图7所示，根据数据分类模型中的特征值描述规则，对外源语句进行特征值拟合，生成与外源语句对应的固定特征和动态特征，还包括：

步骤S702，按照应用场景，设定特征值描述规则中的特定场景和特定用途；

步骤S704，切取外源语句中的关键分词，模拟分词字段的使用场景，生成与外源语句对应的至少一个个性化描述；

步骤S706，根据个性化描述，匹配出符合设定的特定场景和特定用途，并将特定场景和特定用途、个性化描述添加在动态缓冲区，生成与动态缓冲区对应的动态特征。

在该实施例中，获取至少一个外源数据包之前，具体包括：按照档案数据的类别，设定至少一个外源类别；根据数据收集接口，获取档案数据；按照外源类别，对档案数据进行分类存储，以使档案数据归集存储在对应的外源类别。通过各类数据获取接口进行数据获取，将获取到的数据进行存储。除了这些标准化的数据，用户还可以根据该子组件提供的数据接口标准，实现对其他所需数据的采集，以实现可扩展性。

实施例二：

根据本发明第二方面的实施例，提供了一种档案数据生成装置。

在该实施例中，包括存储器和处理器，存储器中存储有计算机程序，处理器用于执行计算机程序时实现如上述任一实施例中档案数据生成方法的步骤，其中本发明主要由档案数据归集子组件、档案数据分类子组件、档案数据推荐子组件构成。各组件以数据为中心，对数据进行加工处理。根据用户的输入取得预期的结果。

图8示出了本申请的一个实施例的档案数据生成装置的另一个示意流程图。

如图8所示，本发明的总体结构如下：

各组件以数据为中心，对数据进行加工处理。根据用户的输入取得预期的结果。

档案数据归集子组件，主要完成各类档案数据的收集及清洗，这些数据来源于国际标准、国家标准、行业标准等；档案数据分类子组件，将收集到的档案数据，依据特征分类方法进行分类整理；档案数据推荐子组件，依据用户所输入的行业，生成一套符合该行业特性的档案数据集。

图9示出了本申请的一个实施例的档案数据生成装置的另一个示意流程图。

如图9所示，本发明的数据归集结构如下：

各类国际标准、国家标准、行业标准类的数据通过数据导入适配器，传入数据库中。

图10示出了本申请的一个实施例的档案数据生成装置的另一个示意流程图。

如图10所示，本发明的数据特征描述如下：

固定特征包括：数据来源、所属行业、优先级；动态特征：依据各类数据的特定场景、特定用途及特征进行个性化描述。使得各类数据的描述更精细，适用范围更广泛。

实施例三：

根据本发明第三方面的实施例，提出一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例中提供的档案数据生成方法，因此，该计算机可读存储介质包括如上述任一实施例中提供的档案数据生成方法的全部有益效果，在此不再赘述。

在该实施例中，计算机可读存储介质，计算机程序被处理器执行时实现如上述任一技术方案的档案数据生成方法的步骤，因此该计算机可读存储介质包括上述任一技术方案的档案数据生成方法的全部有益效果。

具体地，计算机可读存储介质可以包括能够存储或传输信息的任何介质。计算机可读存储介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

在本申请中，术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种档案数据生成方法，其特征在于，包括：

获取至少一个外源数据包，根据预设的数据分类模型，对所述至少一个外源数据包进行分类，生成至少一个外源数据组合；

根据档案查询指令中第一特征值，过滤出符合第一匹配条件的至少一个所述外源数据组合，并生成至少一个结果数据集；

根据档案生成指令中至少一个自定义特征值，在至少一个结果数据集选取符合第二匹配条件的所述外源数据包，生成档案数据。

2.根据权利要求1所述的档案数据生成方法，其特征在于，所述根据档案查询指令中第一特征值，过滤出符合第一匹配条件的至少一个所述外源数据组合，并生成至少一个结果数据集，具体包括：

设定所述第一匹配条件的所属行业匹配规则；

提取各个所述外源数据组合中的固定特征，根据所述固定特征，获取所述固定特征的所属行业；

判断所述所属行业与所述第一特征值符合所述所属行业匹配规则，根据所述判断结果，过滤出与所述第一特征值对应的所述外源数据组合；

新建推荐列表，将所述至少一个所述外源数据组合依次存放在所述推荐列表内，并生成至少一个所述结果数据集。

3.根据权利要求1所述的档案数据生成方法，其特征在于，所述根据档案生成指令中至少一个自定义特征值，在至少一个结果数据集选取符合第二匹配条件的所述外源数据包，生成档案数据，具体包括：

设定所述第二匹配条件的特征值多次选定规则；

根据所述特征值多次选定规则，选取与所述自定义特征值相关联的至少一个所述结果数据集；

根据所述结果数据集，集成所述外源数据包，生成所述档案数据。

4.根据权利要求2所述的档案数据生成方法，其特征在于，所述获取至少一个外源数据包，根据数据分类模型，对所述至少一个外源数据包进行分类，生成至少一个外源数据组合，具体包括：

获取任一所述外源数据包中的外源文档，根据所述数据分类模型中的分词识别规则，切分所述外源文档中的外源语句；

根据所述数据分类模型中的特征值描述规则，对所述外源语句进行特征值拟合，生成与所述外源语句对应的所述固定特征和动态特征；

根据所述数据分类模型中的索引排布规则，按照所述固定特征中包含的所属行业，将含有相同所述所属行业的所述固定特征进行归类，并为归类后的所述至少一个固定特征建立与所述所属行业对应的唯一主索引；

在每个所述固定特征中建立至少一个子索引，并将所述子索引中的唯一标识符添加在所述动态特征中，以使每个所述固定特征与至少一个所述动态特征映像生成索引树；

遍历并确认所述固定特征中的所述子索引存在所述动态特征，生成与所述索引树中的索引列对应的所述外源数据组合。

5.根据权利要求4所述的档案数据生成方法，其特征在于，所述根据所述数据分类模型中的特征值描述规则，对所述外源语句进行特征值拟合，生成与所述外源语句对应的所述固定特征和动态特征，具体包括：

按照用户的使用热度，设定固定特征值拟合标准；

遍历并确认所述外源语句中的外部索引次数大于所述固定特征值拟合标准中的热度标准值，设定所述外源语句的优先级为高级；确认所述外源语句中的外部索引次数与所述热度标准值相等，则设定所述外源语句的优先级为中级；确认所述外源语句中的外部索引次数小于所述热度标准值，则设定所述外源语句的优先级为低级；

识别设定完优先级的所述外源语句中的关键词，根据所述关键词，判断所述外源语句对应的数据来源和所述所属行业，并将所述判断结果标记在所述外源语句中，生成与所述外源语句对应的所述固定特征。

6.根据权利要求4所述的档案数据生成方法，其特征在于，所述根据所述数据分类模型中的特征值描述规则，对所述外源语句进行特征值拟合，生成与所述外源语句对应的所述固定特征和动态特征，还包括：

按照应用场景，设定所述特征值描述规则中的特定场景和特定用途；

切取所述外源语句中的关键分词，模拟所述分词字段的使用场景，生成与所述外源语句对应的至少一个个性化描述；

根据所述个性化描述，匹配出符合设定的所述特定场景和特定用途，并将所述特定场景和特定用途、个性化描述添加在动态缓冲区，生成与所述动态缓冲区对应的所述动态特征。

7.根据权利要求1所述的档案数据生成方法，其特征在于，所述获取至少一个外源数据包之前，具体包括：

按照所述档案数据的类别，设定至少一个外源类别；

根据数据收集接口，获取所述档案数据；

按照所述外源类别，对所述档案数据进行分类存储，以使所述档案数据归集存储在对应的所述外源类别。

8.一种档案数据生成装置，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于执行计算机程序时实现如权利要求1至7中任一项所述的档案数据生成方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的档案数据生成方法的步骤。