CN115859128A - 一种基于档案数据交互相似度的分析方法和系统 - Google Patents

一种基于档案数据交互相似度的分析方法和系统 Download PDF

Info

Publication number
CN115859128A
CN115859128A CN202310153481.9A CN202310153481A CN115859128A CN 115859128 A CN115859128 A CN 115859128A CN 202310153481 A CN202310153481 A CN 202310153481A CN 115859128 A CN115859128 A CN 115859128A
Authority
CN
China
Prior art keywords
clustering
key information
data
difference evaluation
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310153481.9A
Other languages
English (en)
Other versions
CN115859128B (zh
Inventor
韩春林
何莎莎
兰菊
李亮杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Ruianxin Information Security Technology Co ltd
Original Assignee
Chengdu Ruianxin Information Security Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Ruianxin Information Security Technology Co ltd filed Critical Chengdu Ruianxin Information Security Technology Co ltd
Priority to CN202310153481.9A priority Critical patent/CN115859128B/zh
Publication of CN115859128A publication Critical patent/CN115859128A/zh
Application granted granted Critical
Publication of CN115859128B publication Critical patent/CN115859128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于档案数据交互相似度的分析方法和系统,包括:获取样本;抽取样本的第一关键信息,并形成样本数据库;根据样本数据库进行聚类分析生成分类模型;当对多个业务系统的数据进行相似度分析时,从多个业务系统的数据中抽取第二关键信息;将第二关键信息输入分类模型,并接收分类模型输出的分类数据;对分类数据中同一类别的数据进行相似度分析计算。本发明通过前期对第一关键信息进行聚类模型训练,可以在不需要将多个业务系统的数据转换为标准数据的情况下,完成对不同业务系统数据相似度的比较,有效的节省了算力,并且对于新加入的业务系统数据具有很好的兼容性,使得本申请具有很强的适用性。

Description

一种基于档案数据交互相似度的分析方法和系统
技术领域
本发明涉及信息技术领域,具体涉及一种基于档案数据交互相似度的分析方法和系统。
背景技术
语言是一项基本的沟通工具。人类使用语言来传递信息和意义,人类善于用语言来描述现实世界。当人们看到文本时,他们通常能理解其中的含义。而当计算机看到文本时,它们只能看到字符串,无法将其对应到现实世界的事物或者理解其中包含的想法。随着人类越来越依赖于计算系统,计算机理解文本和语言也变得越来越重要。这就是自然语言处理(NLP)的作用。现在,机器学习和人工智能正在不断发展,自然语言处理正是计算机与人类交流之间的桥梁。
自然语言处理(NLP)是计算机科学、人工智能和语言学的交叉领域。目的是让计算机处理或“理解”自然语言,以执行诸如语言翻译和问题回答等任务。随着人工智能的兴起,NLP成为了信息时代最重要的技术之一,是人工智能的重要组成部分,比尔·盖茨曾把NLP比喻成人工智能皇冠上的明珠。
每一行业、每一单位都具有不同的业务系统,不同的业务系统由不同的开发商进行开发,不同的业务系统的关键信息也不尽相同,在未完成系统与系统之间的对接的情况下,获取不同系统之间的档案数据的相似情况,对系统后期对接有很大的帮助,也有利于大数据数据库的生成。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种基于档案数据交互相似度的分析方法和系统。
第一方面,本申请实施例提供了一种基于档案数据交互相似度的分析方法,包括:
获取多个具有档案数据关联关系的业务系统的档案数据作为样本;
抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;
根据所述样本数据库进行聚类分析生成分类模型;
当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;
将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;
对所述分类数据中同一类别的档案数据进行相似度分析计算。
现有技术中,对于多个不同具有数据关联关系的业务系统的数据的分析,多采用将不同的业务系统的档案数据转换成标准的数据,这样的方案对于业务系统数据映射到标准数据的映射精度要求较高,尤其是对于不同的档案数据,数据结构有很大不同的情况下,精准映射的难度就会大大加强;并且每次新增一种业务系统时,需要将该业务系统的数据重新映射到标准数据中,这需要花费大量的时间对数据进行分析。
本申请实施例实施时,采用了无监督的聚类分析形成分类模型,由于聚类分析算法的特点,可以通过对聚类算法参数的调试,实现对第一关键信息精准的分类,在本申请中的样本,不需要全部类型的业务系统的档案数据,只需要获取部分第一关键信息已知的业务系统即可,而本申请实施例中的第一关键信息可以是数字信息、状态信息等,本申请实施例中所述的赋值的词性、类型、词频中的至少一种包括该第一关键信息的词性、类型、词频,也包括第一关键信息上下文的词性、类型、词频,本领域技术人员可以根据需要进行赋值的选择。
在已经生产了分类模型后,可以将分类模型用于多个业务系统的数据进行相似度分析,其中第二关键信息应当是和第一关键信息相对应的信息,在提取第二关键信息时,可以不需要明确第二关键信息的含义,但是需要知晓哪些信息需要提取出来作为第二关键信息,这是容易实现的,因为作为档案数据,需要明确哪些内容是重要的需要提取出来。
将第二关键信息提取出后可以输入到分类模型中,应当理解的是,为了更精准的对第二关键信息进行分类,其也应当进行与第一关键信息相同的赋值。完成分类后,可以对同一类别中的数据进行相似度分析,相似度分析的方法有很多,如余弦距离等计算防范,本申请实施例对此不多做限定。本申请实施例通过前期对第一关键信息进行聚类模型训练,可以在不需要将多个业务系统的数据转换为标准数据的情况下,完成对不同业务系统数据相似度的比较,有效的节省了算力,并且对于新加入的业务系统数据具有很好的兼容性,使得本申请具有很强的适用性。
在一种可能的实现方式中,根据所述样本数据库进行聚类分析生成分类模型包括:
构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值;
根据所述差异评估值反演所述聚类空间的聚类参数,并根据反演生成的聚类参数再次进行聚类生成第二聚类结果;
将第二聚类结果作为第一聚类结果,循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件;
将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。
在一种可能的实现方式中,所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中,第一关键信息表征的意义是否相同;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值包括:
将第一关键信息分为多个类别作为基准类别,并将所述第一聚类结果映射至所述基准类别中;
从所述第一聚类结果结果中选出映射过程中,结果与所述基准类别不符的第一关键信息作为错误位置信息,并计算所述错误位置信息的参考值;所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离;
对所有参考值进行线性回归计算形成所述差异评估值。
在一种可能的实现方式中,根据所述差异评估值反演所述聚类空间的聚类参数包括:
将所述差异评估值输入聚类参数反演模型,并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数;所述聚类参数反演模型采用样本训练神经网络模型获取。
在一种可能的实现方式中,所述聚类参数反演模型的生成包括:
建立样本对,所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系;
通过所述样本对训练神经网络模型形成所述聚类参数反演模型。
第二方面,本申请实施例提供了一种基于档案数据交互相似度的分析系统,包括:
获取模块,被配置为获取多个具有档案数据关联关系的业务系统的档案数据作为样本;
第一抽取模块,被配置为抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;
生成模块,被配置为根据所述样本数据库进行聚类分析生成分类模型;
第二抽取模块,被配置为当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;
分类模块,被配置为将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;
分析模块,被配置为对所述分类数据中同一类别的档案数据进行相似度分析计算。
在一种可能的实现方式中,生成模块还被配置为:
构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值;
根据所述差异评估值反演所述聚类空间的聚类参数,并根据反演生成的聚类参数再次进行聚类生成第二聚类结果;
将第二聚类结果作为第一聚类结果,循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件;
将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。
在一种可能的实现方式中,所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中,第一关键信息表征的意义是否相同;
生成模块还被配置为:
将第一关键信息分为多个类别作为基准类别,并将所述第一聚类结果映射至所述基准类别中;
从所述第一聚类结果结果中选出映射过程中,结果与所述基准类别不符的第一关键信息作为错误位置信息,并计算所述错误位置信息的参考值;所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离;
对所有参考值进行线性回归计算形成所述差异评估值。
在一种可能的实现方式中,生成模块还被配置为:
将所述差异评估值输入聚类参数反演模型,并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数;所述聚类参数反演模型采用样本训练神经网络模型获取。
在一种可能的实现方式中,生成模块还被配置为:
建立样本对,所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系;
通过所述样本对训练神经网络模型形成所述聚类参数反演模型。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于档案数据交互相似度的分析方法和系统,通过前期对第一关键信息进行聚类模型训练,可以在不需要将多个业务系统的档案数据转换为标准数据的情况下,完成对不同业务系统数据相似度的比较,有效的节省了算力,并且对于新加入的业务系统数据具有很好的兼容性,使得本申请具有很强的适用性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本申请实施例方法步骤示意图;
图2为本申请实施例系统架构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
请结合参阅图1,为本发明实施例所提供的一种基于档案数据交互相似度的分析方法的流程示意图,所述一种基于档案数据交互相似度的分析方法可以应用于图2中的一种基于档案数据交互相似度的分析系统,进一步地,所述一种基于档案数据交互相似度的分析方法具体可以包括以下步骤S1-步骤S6所描述的内容。
S1:获取多个具有档案数据关联关系的业务系统的档案数据作为样本;
S2:抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;
S3:根据所述样本数据库进行聚类分析生成分类模型;
S4:当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;
S5:将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;
S6:对所述分类数据中同一类别的档案数据进行相似度分析计算。
现有技术中,对于多个不同具有数据关联关系的业务系统的数据的分析,多采用将不同的业务系统的档案数据转换成标准的数据,这样的方案对于业务系统数据映射到标准数据的映射精度要求较高,尤其是对于不同的档案数据,数据结构有很大不同的情况下,精准映射的难度就会大大加强;并且每次新增一种业务系统时,需要将该业务系统的数据重新映射到标准数据中,这需要花费大量的时间对数据进行分析。
本申请实施例实施时,采用了无监督的聚类分析形成分类模型,由于聚类分析算法的特点,可以通过对聚类算法参数的调试,实现对第一关键信息精准的分类,在本申请中的样本,不需要全部类型的业务系统的档案数据,只需要获取部分第一关键信息已知的业务系统即可,而本申请实施例中的第一关键信息可以是数字信息、状态信息等,本申请实施例中所述的赋值的词性、类型、词频中的至少一种包括该第一关键信息的词性、类型、词频,也包括第一关键信息上下文的词性、类型、词频,本领域技术人员可以根据需要进行赋值的选择。
在已经生产了分类模型后,可以将分类模型用于多个业务系统的数据进行相似度分析,其中第二关键信息应当是和第一关键信息相对应的信息,在提取第二关键信息时,可以不需要明确第二关键信息的含义,但是需要知晓哪些信息需要提取出来作为第二关键信息,这是容易实现的,因为作为档案数据,需要明确哪些内容是重要的需要提取出来。
将第二关键信息提取出后可以输入到分类模型中,应当理解的是,为了更精准的对第二关键信息进行分类,其也应当进行与第一关键信息相同的赋值。完成分类后,可以对同一类别中的数据进行相似度分析,相似度分析的方法有很多,如余弦距离等计算防范,本申请实施例对此不多做限定。本申请实施例通过前期对第一关键信息进行聚类模型训练,可以在不需要将多个业务系统的数据转换为标准数据的情况下,完成对不同业务系统数据相似度的比较,有效的节省了算力,并且对于新加入的业务系统数据具有很好的兼容性,使得本申请具有很强的适用性。
在一种可能的实现方式中,根据所述样本数据库进行聚类分析生成分类模型包括:
构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值;
根据所述差异评估值反演所述聚类空间的聚类参数,并根据反演生成的聚类参数再次进行聚类生成第二聚类结果;
将第二聚类结果作为第一聚类结果,循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件;
将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。
本申请实施例实施时,为了形成准确的聚类空间,采用了对聚类空间的聚类参数进行反演的方案进行聚类空间的聚类参数修正,在完成第一次聚类形成第一聚类结果后,由于样本数据库中第一关键信息的分类是已知的,即第一关键信息之间的关联关系,所以在本申请实施例中,通过差异评估值描述第一聚类结果和已知分类之间的差异,并根据该差异进行聚类空间的聚类参数的反演,以提高聚类空间的聚类精度。
调整了聚类参数后,再次进行聚类分析,并再次计算差异评估值,并再次修正聚类参数,如此循环,一直到聚类结果和实际的第一关键信息的分类大致相同,即差异评估值满足预设条件。以最终的第二聚类结果作为分类模型。在本申请实施例中,不同于现有技术中采用训练神经网络模型的方案,采用聚类计算并调整聚类参数的方案所需要的样本量非常小,并且不会出现神经网络模型训练中不收敛或者漂移的情况,对于本实施例中这种小样本的分类模型训练具有极好的适用性和精度。
在一种可能的实现方式中,所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中,第一关键信息表征的意义是否相同;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值包括:
将第一关键信息分为多个类别作为基准类别,并将所述第一聚类结果映射至所述基准类别中;
从所述第一聚类结果结果中选出映射过程中,结果与所述基准类别不符的第一关键信息作为错误位置信息,并计算所述错误位置信息的参考值;所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离;
对所有参考值进行线性回归计算形成所述差异评估值。
本申请实施例实施时,第一关键信息之间的关联关系为实际的第一关键信息的分类,也即第一关键信息表征的意义是否相同;在进行第一聚类结果与第一关键信息之间的关联关系之间的差异值比对时,在形成的第一聚类结果映射到基准类别中后,出显示出第一聚类结果和基准类别的差异,比如多个不应该在这个类别的第一关键信息出现在了该类别,将这些第一关键信息作为错误位置信息,并计算这些错误位置信息与错误位置信息对应的基准类别的距离,该距离可以建立错误位置信息与基准类别中心点之间的连线进行计算,具体选值可以是错误位置信息到对应的基准类别中心点或边界点的欧式距离,欧式距离本身可以体现多维度参数下的差异。通过这种方案可以有效的为后续的聚类参数反演提供参考。
在一种可能的实现方式中,根据所述差异评估值反演所述聚类空间的聚类参数包括:
将所述差异评估值输入聚类参数反演模型,并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数;所述聚类参数反演模型采用样本训练神经网络模型获取。
本申请实施例实施时,采用聚类参数反演模型进行聚类参数的训练,不同于直接建立一个分类的神经网络模型,聚类参数反演模型的样本可以在多次的聚类计算中获取,样本量已经不会成为神经网络模型训练的问题。
在一种可能的实现方式中,所述聚类参数反演模型的生成包括:
建立样本对,所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系;
通过所述样本对训练神经网络模型形成所述聚类参数反演模型。
基于同样的发明构思,请参阅图2,还提供了一种基于档案数据交互相似度的分析系统,包括:
获取模块,被配置为获取多个具有档案数据关联关系的业务系统的档案数据作为样本;
第一抽取模块,被配置为抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;
生成模块,被配置为根据所述样本数据库进行聚类分析生成分类模型;
第二抽取模块,被配置为当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;
分类模块,被配置为将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;
分析模块,被配置为对所述分类数据中同一类别的档案数据进行相似度分析计算。
在一种可能的实现方式中,生成模块还被配置为:
构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值;
根据所述差异评估值反演所述聚类空间的聚类参数,并根据反演生成的聚类参数再次进行聚类生成第二聚类结果;
将第二聚类结果作为第一聚类结果,循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件;
将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。
在一种可能的实现方式中,所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中,第一关键信息表征的意义是否相同;
生成模块还被配置为:
将第一关键信息分为多个类别作为基准类别,并将所述第一聚类结果映射至所述基准类别中;
从所述第一聚类结果结果中选出映射过程中,结果与所述基准类别不符的第一关键信息作为错误位置信息,并计算所述错误位置信息的参考值;所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离;
对所有参考值进行线性回归计算形成所述差异评估值。
在一种可能的实现方式中,生成模块还被配置为:
将所述差异评估值输入聚类参数反演模型,并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数;所述聚类参数反演模型采用样本训练神经网络模型获取。
在一种可能的实现方式中,生成模块还被配置为:
建立样本对,所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系;
通过所述样本对训练神经网络模型形成所述聚类参数反演模型。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显然本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于档案数据交互相似度的分析方法,其特征在于,包括:
获取多个具有档案数据关联关系的业务系统的档案数据作为样本;
抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;
根据所述样本数据库进行聚类分析生成分类模型;
当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;
将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;
对所述分类数据中同一类别的档案数据进行相似度分析计算。
2.根据权利要求1所述的一种基于档案数据交互相似度的分析方法,其特征在于,根据所述样本数据库进行聚类分析生成分类模型包括:
构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值;
根据所述差异评估值反演所述聚类空间的聚类参数,并根据反演生成的聚类参数再次进行聚类生成第二聚类结果;
将第二聚类结果作为第一聚类结果,循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件;
将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。
3.根据权利要求2所述的一种基于档案数据交互相似度的分析方法,其特征在于,所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中,第一关键信息表征的意义是否相同;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值包括:
将第一关键信息分为多个类别作为基准类别,并将所述第一聚类结果映射至所述基准类别中;
从所述第一聚类结果结果中选出映射过程中,结果与所述基准类别不符的第一关键信息作为错误位置信息,并计算所述错误位置信息的参考值;所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离;
对所有参考值进行线性回归计算形成所述差异评估值。
4.根据权利要求3所述的一种基于档案数据交互相似度的分析方法,其特征在于,根据所述差异评估值反演所述聚类空间的聚类参数包括:
将所述差异评估值输入聚类参数反演模型,并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数;所述聚类参数反演模型采用样本训练神经网络模型获取。
5.根据权利要求4所述的一种基于档案数据交互相似度的分析方法,其特征在于,所述聚类参数反演模型的生成包括:
建立样本对,所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系;
通过所述样本对训练神经网络模型形成所述聚类参数反演模型。
6.使用权利要求1~5任意一项所述方法的一种基于档案数据交互相似度的分析系统,其特征在于,包括:
获取模块,被配置为获取多个具有档案数据关联关系的业务系统的档案数据作为样本;
第一抽取模块,被配置为抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;
生成模块,被配置为根据所述样本数据库进行聚类分析生成分类模型;
第二抽取模块,被配置为当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;
分类模块,被配置为将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;
分析模块,被配置为对所述分类数据中同一类别的档案数据进行相似度分析计算。
7.根据权利要求6所述的一种基于档案数据交互相似度的分析系统,其特征在于,生成模块还被配置为:
构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;
将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值;
根据所述差异评估值反演所述聚类空间的聚类参数,并根据反演生成的聚类参数再次进行聚类生成第二聚类结果;
将第二聚类结果作为第一聚类结果,循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件;
将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。
8.根据权利要求7所述的一种基于档案数据交互相似度的分析系统,其特征在于,所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中,第一关键信息表征的意义是否相同;
生成模块还被配置为:
将第一关键信息分为多个类别作为基准类别,并将所述第一聚类结果映射至所述基准类别中;
从所述第一聚类结果结果中选出映射过程中,结果与所述基准类别不符的第一关键信息作为错误位置信息,并计算所述错误位置信息的参考值;所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离;
对所有参考值进行线性回归计算形成所述差异评估值。
9.根据权利要求8所述的一种基于档案数据交互相似度的分析系统,其特征在于,生成模块还被配置为:
将所述差异评估值输入聚类参数反演模型,并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数;所述聚类参数反演模型采用样本训练神经网络模型获取。
10.根据权利要求9所述的一种基于档案数据交互相似度的分析系统,其特征在于,生成模块还被配置为:
建立样本对,所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系;
通过所述样本对训练神经网络模型形成所述聚类参数反演模型。
CN202310153481.9A 2023-02-23 2023-02-23 一种基于档案数据交互相似度的分析方法和系统 Active CN115859128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310153481.9A CN115859128B (zh) 2023-02-23 2023-02-23 一种基于档案数据交互相似度的分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310153481.9A CN115859128B (zh) 2023-02-23 2023-02-23 一种基于档案数据交互相似度的分析方法和系统

Publications (2)

Publication Number Publication Date
CN115859128A true CN115859128A (zh) 2023-03-28
CN115859128B CN115859128B (zh) 2023-05-09

Family

ID=85658736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310153481.9A Active CN115859128B (zh) 2023-02-23 2023-02-23 一种基于档案数据交互相似度的分析方法和系统

Country Status (1)

Country Link
CN (1) CN115859128B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598011A (zh) * 2019-09-27 2019-12-20 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备以及可读存储介质
CN110738561A (zh) * 2019-10-15 2020-01-31 上海云从企业发展有限公司 一种基于特征分类的业务管理方法、系统、设备和介质
US20200285903A1 (en) * 2017-11-16 2020-09-10 Accenture Global Solutions Limited System for time-efficient assignment of data to ontological classes
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN111753872A (zh) * 2020-05-12 2020-10-09 高新兴科技集团股份有限公司 串并案关联性分析方法、装置、设备和存储介质
CN112214515A (zh) * 2020-10-16 2021-01-12 平安国际智慧城市科技股份有限公司 数据自动匹配方法、装置、电子设备及存储介质
CN112506930A (zh) * 2020-12-15 2021-03-16 北京三维天地科技股份有限公司 一种基于机器学习技术的数据洞察平台
CN112951374A (zh) * 2021-02-25 2021-06-11 平安普惠企业管理有限公司 数据分析方法、系统、计算机设备及存储介质
CN113011895A (zh) * 2021-03-31 2021-06-22 腾讯科技(深圳)有限公司 关联账户样本筛选方法、装置和设备及计算机存储介质
CN113515597A (zh) * 2021-06-21 2021-10-19 中盾创新档案管理(北京)有限公司 一种基于关联规则挖掘的档案处理方法
CN114281928A (zh) * 2020-09-28 2022-04-05 中国移动通信集团广西有限公司 基于文本数据的模型生成方法、装置及设备
CN114298122A (zh) * 2021-10-22 2022-04-08 腾讯科技(深圳)有限公司 数据分类方法、装置、设备、存储介质及计算机程序产品
CN114997259A (zh) * 2022-04-08 2022-09-02 浙江大华技术股份有限公司 图像聚类方法、图像聚类模型训练方法和电子设备
CN115098690A (zh) * 2022-08-24 2022-09-23 中信天津金融科技服务有限公司 一种基于聚类分析的多数据文档分类方法及系统
CN115146062A (zh) * 2022-07-07 2022-10-04 上海金融期货信息技术有限公司 融合专家推荐与文本聚类的智能事件分析方法和系统
WO2022261233A1 (en) * 2021-06-10 2022-12-15 Oracle International Corporation Identifying a classification hierarchy using a trained machine learning pipeline
CN115577698A (zh) * 2022-10-17 2023-01-06 非传信息科技南京有限公司 一种基于机器学习的数据和文本处理系统及其方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285903A1 (en) * 2017-11-16 2020-09-10 Accenture Global Solutions Limited System for time-efficient assignment of data to ontological classes
CN110598011A (zh) * 2019-09-27 2019-12-20 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备以及可读存储介质
CN110738561A (zh) * 2019-10-15 2020-01-31 上海云从企业发展有限公司 一种基于特征分类的业务管理方法、系统、设备和介质
CN111753872A (zh) * 2020-05-12 2020-10-09 高新兴科技集团股份有限公司 串并案关联性分析方法、装置、设备和存储介质
CN111753099A (zh) * 2020-06-28 2020-10-09 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN114281928A (zh) * 2020-09-28 2022-04-05 中国移动通信集团广西有限公司 基于文本数据的模型生成方法、装置及设备
CN112214515A (zh) * 2020-10-16 2021-01-12 平安国际智慧城市科技股份有限公司 数据自动匹配方法、装置、电子设备及存储介质
CN112506930A (zh) * 2020-12-15 2021-03-16 北京三维天地科技股份有限公司 一种基于机器学习技术的数据洞察平台
CN112951374A (zh) * 2021-02-25 2021-06-11 平安普惠企业管理有限公司 数据分析方法、系统、计算机设备及存储介质
CN113011895A (zh) * 2021-03-31 2021-06-22 腾讯科技(深圳)有限公司 关联账户样本筛选方法、装置和设备及计算机存储介质
WO2022261233A1 (en) * 2021-06-10 2022-12-15 Oracle International Corporation Identifying a classification hierarchy using a trained machine learning pipeline
CN113515597A (zh) * 2021-06-21 2021-10-19 中盾创新档案管理(北京)有限公司 一种基于关联规则挖掘的档案处理方法
CN114298122A (zh) * 2021-10-22 2022-04-08 腾讯科技(深圳)有限公司 数据分类方法、装置、设备、存储介质及计算机程序产品
CN114997259A (zh) * 2022-04-08 2022-09-02 浙江大华技术股份有限公司 图像聚类方法、图像聚类模型训练方法和电子设备
CN115146062A (zh) * 2022-07-07 2022-10-04 上海金融期货信息技术有限公司 融合专家推荐与文本聚类的智能事件分析方法和系统
CN115098690A (zh) * 2022-08-24 2022-09-23 中信天津金融科技服务有限公司 一种基于聚类分析的多数据文档分类方法及系统
CN115577698A (zh) * 2022-10-17 2023-01-06 非传信息科技南京有限公司 一种基于机器学习的数据和文本处理系统及其方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JANUSZ ANDRZEJ 等: "Unsupervised Similarity Learning from Textual Data" *
刘巧: "基于智能问诊的药品推荐系统的研究与实现" *
刘能: "多维知识空间建模及分析系统设计" *
张书月: "关于大数据挖掘中的数据分类算法技术的研究" *
王刚 等: "基于本体及相似度的文本聚类研究" *

Also Published As

Publication number Publication date
CN115859128B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
US11816078B2 (en) Automatic entity resolution with rules detection and generation system
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
CN111680159B (zh) 数据处理方法、装置及电子设备
CN112016553B (zh) 光学字符识别(ocr)系统、自动ocr更正系统、方法
CN109739995B (zh) 一种信息处理方法及装置
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN114676704B (zh) 句子情感分析方法、装置、设备以及存储介质
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN105528620B (zh) 一种联合鲁棒主成分特征学习与视觉分类方法及系统
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN112100374A (zh) 文本聚类方法、装置、电子设备及存储介质
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
CN112836019B (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
Gang et al. Coresets for PCB character recognition based on deep learning
CN110929519B (zh) 实体属性抽取方法及装置
CN115859128B (zh) 一种基于档案数据交互相似度的分析方法和系统
CN113673501B (zh) 一种ocr分类方法、系统、电子设备及存储介质
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
CN115408500A (zh) 问答一致性的评估方法、装置、电子设备及介质
CN113159419A (zh) 一种群体特征画像分析方法、装置、设备及可读存储介质
CN114911922A (zh) 一种情感分析方法、装置和存储介质
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant