CN115859128B

CN115859128B - 一种基于档案数据交互相似度的分析方法和系统

Info

Publication number: CN115859128B
Application number: CN202310153481.9A
Authority: CN
Inventors: 韩春林; 何莎莎; 兰菊; 李亮杰
Original assignee: Chengdu Ruianxin Information Security Technology Co ltd
Current assignee: Chengdu Ruianxin Information Security Technology Co ltd
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-05-09
Anticipated expiration: 2043-02-23
Also published as: CN115859128A

Abstract

本发明公开了一种基于档案数据交互相似度的分析方法和系统，包括：获取样本；抽取样本的第一关键信息，并形成样本数据库；根据样本数据库进行聚类分析生成分类模型；当对多个业务系统的数据进行相似度分析时，从多个业务系统的数据中抽取第二关键信息；将第二关键信息输入分类模型，并接收分类模型输出的分类数据；对分类数据中同一类别的数据进行相似度分析计算。本发明通过前期对第一关键信息进行聚类模型训练，可以在不需要将多个业务系统的数据转换为标准数据的情况下，完成对不同业务系统数据相似度的比较，有效的节省了算力，并且对于新加入的业务系统数据具有很好的兼容性，使得本申请具有很强的适用性。

Description

一种基于档案数据交互相似度的分析方法和系统

技术领域

本发明涉及信息技术领域，具体涉及一种基于档案数据交互相似度的分析方法和系统。

背景技术

语言是一项基本的沟通工具。人类使用语言来传递信息和意义，人类善于用语言来描述现实世界。当人们看到文本时，他们通常能理解其中的含义。而当计算机看到文本时，它们只能看到字符串，无法将其对应到现实世界的事物或者理解其中包含的想法。随着人类越来越依赖于计算系统，计算机理解文本和语言也变得越来越重要。这就是自然语言处理（NLP）的作用。现在，机器学习和人工智能正在不断发展，自然语言处理正是计算机与人类交流之间的桥梁。

自然语言处理（NLP）是计算机科学、人工智能和语言学的交叉领域。目的是让计算机处理或“理解”自然语言，以执行诸如语言翻译和问题回答等任务。随着人工智能的兴起，NLP成为了信息时代最重要的技术之一，是人工智能的重要组成部分，比尔·盖茨曾把NLP比喻成人工智能皇冠上的明珠。

每一行业、每一单位都具有不同的业务系统，不同的业务系统由不同的开发商进行开发，不同的业务系统的关键信息也不尽相同，在未完成系统与系统之间的对接的情况下，获取不同系统之间的档案数据的相似情况，对系统后期对接有很大的帮助，也有利于大数据数据库的生成。

发明内容

为了至少克服现有技术中的上述不足，本申请的目的在于提供一种基于档案数据交互相似度的分析方法和系统。

第一方面，本申请实施例提供了一种基于档案数据交互相似度的分析方法，包括：

获取多个具有档案数据关联关系的业务系统的档案数据作为样本；

抽取样本中档案数据的第一关键信息，并为所述第一关键信息赋值形成样本数据库；所述赋值包括词性、类型、词频中的至少一种；

根据所述样本数据库进行聚类分析生成分类模型；

当对多个业务系统的档案数据进行相似度分析时，从多个业务系统的档案数据中抽取第二关键信息；

将所述第二关键信息输入所述分类模型，并接收所述分类模型输出的分类数据；

对所述分类数据中同一类别的档案数据进行相似度分析计算。

现有技术中，对于多个不同具有数据关联关系的业务系统的数据的分析，多采用将不同的业务系统的档案数据转换成标准的数据，这样的方案对于业务系统数据映射到标准数据的映射精度要求较高，尤其是对于不同的档案数据，数据结构有很大不同的情况下，精准映射的难度就会大大加强；并且每次新增一种业务系统时，需要将该业务系统的数据重新映射到标准数据中，这需要花费大量的时间对数据进行分析。

本申请实施例实施时，采用了无监督的聚类分析形成分类模型，由于聚类分析算法的特点，可以通过对聚类算法参数的调试，实现对第一关键信息精准的分类，在本申请中的样本，不需要全部类型的业务系统的档案数据，只需要获取部分第一关键信息已知的业务系统即可，而本申请实施例中的第一关键信息可以是数字信息、状态信息等，本申请实施例中所述的赋值的词性、类型、词频中的至少一种包括该第一关键信息的词性、类型、词频，也包括第一关键信息上下文的词性、类型、词频，本领域技术人员可以根据需要进行赋值的选择。

在已经生产了分类模型后，可以将分类模型用于多个业务系统的数据进行相似度分析，其中第二关键信息应当是和第一关键信息相对应的信息，在提取第二关键信息时，可以不需要明确第二关键信息的含义，但是需要知晓哪些信息需要提取出来作为第二关键信息，这是容易实现的，因为作为档案数据，需要明确哪些内容是重要的需要提取出来。

将第二关键信息提取出后可以输入到分类模型中，应当理解的是，为了更精准的对第二关键信息进行分类，其也应当进行与第一关键信息相同的赋值。完成分类后，可以对同一类别中的数据进行相似度分析，相似度分析的方法有很多，如余弦距离等计算防范，本申请实施例对此不多做限定。本申请实施例通过前期对第一关键信息进行聚类模型训练，可以在不需要将多个业务系统的数据转换为标准数据的情况下，完成对不同业务系统数据相似度的比较，有效的节省了算力，并且对于新加入的业务系统数据具有很好的兼容性，使得本申请具有很强的适用性。

在一种可能的实现方式中，根据所述样本数据库进行聚类分析生成分类模型包括：

构建聚类空间，并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果；

将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值；

根据所述差异评估值反演所述聚类空间的聚类参数，并根据反演生成的聚类参数再次进行聚类生成第二聚类结果；

将第二聚类结果作为第一聚类结果，循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件；

将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。

在一种可能的实现方式中，所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中，第一关键信息表征的意义是否相同；

将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值包括：

将第一关键信息分为多个类别作为基准类别，并将所述第一聚类结果映射至所述基准类别中；

从所述第一聚类结果结果中选出映射过程中，结果与所述基准类别不符的第一关键信息作为错误位置信息，并计算所述错误位置信息的参考值；所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离；

对所有参考值进行线性回归计算形成所述差异评估值。

在一种可能的实现方式中，根据所述差异评估值反演所述聚类空间的聚类参数包括：

将所述差异评估值输入聚类参数反演模型，并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数；所述聚类参数反演模型采用样本训练神经网络模型获取。

在一种可能的实现方式中，所述聚类参数反演模型的生成包括：

建立样本对，所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系；

通过所述样本对训练神经网络模型形成所述聚类参数反演模型。

第二方面，本申请实施例提供了一种基于档案数据交互相似度的分析系统，包括：

获取模块，被配置为获取多个具有档案数据关联关系的业务系统的档案数据作为样本；

第一抽取模块，被配置为抽取样本中档案数据的第一关键信息，并为所述第一关键信息赋值形成样本数据库；所述赋值包括词性、类型、词频中的至少一种；

生成模块，被配置为根据所述样本数据库进行聚类分析生成分类模型；

第二抽取模块，被配置为当对多个业务系统的档案数据进行相似度分析时，从多个业务系统的档案数据中抽取第二关键信息；

分类模块，被配置为将所述第二关键信息输入所述分类模型，并接收所述分类模型输出的分类数据；

分析模块，被配置为对所述分类数据中同一类别的档案数据进行相似度分析计算。

在一种可能的实现方式中，生成模块还被配置为：

生成模块还被配置为：

对所有参考值进行线性回归计算形成所述差异评估值。

在一种可能的实现方式中，生成模块还被配置为：

本发明与现有技术相比，具有如下的优点和有益效果：

本发明一种基于档案数据交互相似度的分析方法和系统，通过前期对第一关键信息进行聚类模型训练，可以在不需要将多个业务系统的档案数据转换为标准数据的情况下，完成对不同业务系统数据相似度的比较，有效的节省了算力，并且对于新加入的业务系统数据具有很好的兼容性，使得本申请具有很强的适用性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本申请实施例方法步骤示意图；

图2为本申请实施例系统架构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

请结合参阅图1，为本发明实施例所提供的一种基于档案数据交互相似度的分析方法的流程示意图，所述一种基于档案数据交互相似度的分析方法可以应用于图2中的一种基于档案数据交互相似度的分析系统，进一步地，所述一种基于档案数据交互相似度的分析方法具体可以包括以下步骤S1-步骤S6所描述的内容。

S1：获取多个具有档案数据关联关系的业务系统的档案数据作为样本；

S2：抽取样本中档案数据的第一关键信息，并为所述第一关键信息赋值形成样本数据库；所述赋值包括词性、类型、词频中的至少一种；

S3：根据所述样本数据库进行聚类分析生成分类模型；

S4：当对多个业务系统的档案数据进行相似度分析时，从多个业务系统的档案数据中抽取第二关键信息；

S5：将所述第二关键信息输入所述分类模型，并接收所述分类模型输出的分类数据；

S6：对所述分类数据中同一类别的档案数据进行相似度分析计算。

本申请实施例实施时，为了形成准确的聚类空间，采用了对聚类空间的聚类参数进行反演的方案进行聚类空间的聚类参数修正，在完成第一次聚类形成第一聚类结果后，由于样本数据库中第一关键信息的分类是已知的，即第一关键信息之间的关联关系，所以在本申请实施例中，通过差异评估值描述第一聚类结果和已知分类之间的差异，并根据该差异进行聚类空间的聚类参数的反演，以提高聚类空间的聚类精度。

调整了聚类参数后，再次进行聚类分析，并再次计算差异评估值，并再次修正聚类参数，如此循环，一直到聚类结果和实际的第一关键信息的分类大致相同，即差异评估值满足预设条件。以最终的第二聚类结果作为分类模型。在本申请实施例中，不同于现有技术中采用训练神经网络模型的方案，采用聚类计算并调整聚类参数的方案所需要的样本量非常小，并且不会出现神经网络模型训练中不收敛或者漂移的情况，对于本实施例中这种小样本的分类模型训练具有极好的适用性和精度。

对所有参考值进行线性回归计算形成所述差异评估值。

本申请实施例实施时，第一关键信息之间的关联关系为实际的第一关键信息的分类，也即第一关键信息表征的意义是否相同；在进行第一聚类结果与第一关键信息之间的关联关系之间的差异值比对时，在形成的第一聚类结果映射到基准类别中后，出显示出第一聚类结果和基准类别的差异，比如多个不应该在这个类别的第一关键信息出现在了该类别，将这些第一关键信息作为错误位置信息，并计算这些错误位置信息与错误位置信息对应的基准类别的距离，该距离可以建立错误位置信息与基准类别中心点之间的连线进行计算，具体选值可以是错误位置信息到对应的基准类别中心点或边界点的欧式距离，欧式距离本身可以体现多维度参数下的差异。通过这种方案可以有效的为后续的聚类参数反演提供参考。

本申请实施例实施时，采用聚类参数反演模型进行聚类参数的训练，不同于直接建立一个分类的神经网络模型，聚类参数反演模型的样本可以在多次的聚类计算中获取，样本量已经不会成为神经网络模型训练的问题。

基于同样的发明构思，请参阅图2，还提供了一种基于档案数据交互相似度的分析系统，包括：

在一种可能的实现方式中，生成模块还被配置为：

生成模块还被配置为：

对所有参考值进行线性回归计算形成所述差异评估值。

在一种可能的实现方式中，生成模块还被配置为：

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显然本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于档案数据交互相似度的分析方法，其特征在于，包括：

根据所述样本数据库进行聚类分析生成分类模型；

对所述分类数据中同一类别的档案数据进行相似度分析计算；

其中，

所述第一关键信息是数字信息或状态信息，第二关键信息是和第一关键信息相对应的信息；

所述样本数据库进行聚类分析生成分类模型包括：

构建聚类空间，并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行

聚类分析生成第一聚类结果；

2.根据权利要求 1 所述的一种基于档案数据交互相似度的分析方法，其特征在于，所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中，第一关键信息表征的意义是否相同；

从所述第一聚类结果中选出映射过程中，结果与所述基准类别不符的第一关键信息作为错误位置信息，并计算所述错误位置信息的参考值；所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离；

对所有参考值进行线性回归计算形成所述差异评估值。

3.根据权利要求 2所述的一种基于档案数据交互相似度的分析方法，其特征在于，根据所述差异评估值反演所述聚类空间的聚类参数包括：

4.根据权利要求 3 所述的一种基于档案数据交互相似度的分析方法，其特征在于，所述聚类参数反演模型的生成包括：

5.使用权利要求 1~4 任意一项所述方法的一种基于档案数据交互相似度的分析系统，其特征在于，包括：

6.根据权利要求5所述的一种基于档案数据交互相似度的分析系统，其特征在于，生成模

块还被配置为：

7.根据权利要求6所述的一种基于档案数据交互相似度的分析系统，其特征在于，所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中，第一关键信息表征的意义是否相同；

生成模块还被配置为：

从所述第一聚类结果中选出映射过程中，结果与所述基准类别不符的第一关键信息作为错误位置信息，并计算所述错误位置信息的参考值；所述参考值为所述错误位置信息到对应

的所述基准类别中心点或边界点的欧式距离；

对所有参考值进行线性回归计算形成所述差异评估值。

8.根据权利要求7所述的一种基于档案数据交互相似度的分析系统，其特征在于，生成模块还被配置为：

9.根据权利要求8所述的一种基于档案数据交互相似度的分析系统，其特征在于，生成模块还被配置为：