CN112214515A

CN112214515A - 数据自动匹配方法、装置、电子设备及存储介质

Info

Publication number: CN112214515A
Application number: CN202011110901.8A
Authority: CN
Inventors: 宋梧边
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Shenzhen Saiante Technology Service Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-12
Anticipated expiration: 2040-10-16
Also published as: CN112214515B

Abstract

本发明涉及人工智能技术领域，提供一种数据自动匹配方法、装置、电子设备及存储介质。所述数据自动匹配方法包括：预处理第一数据集得到第一训练数据集，并使用第一训练数据集训练随机森林模型得到分类模型，通过聚类模型对第二数据集进行聚类，并使用分类模型对第二数据集进行分类，将聚类模型得到的类别对应的数据与分类模型得到的类别对应的数据进行比较，计算包含相同数据的类别对应的关键字与第一数据集内的关键字的文本相似度，并将文本相似度最高的第一数据集的主题作为第二数据集中数据的自动匹配结果。本方案可以缩小数据合并时文本相似度的比较范围，减少运算量，从而减少计算时间，并减少文本相似度误匹配的概率。

Description

数据自动匹配方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能中的数据匹配技术领域，具体涉及一种数据自动匹配方法、装置、电子设备及存储介质。

背景技术

现有技术中，数据匹配大多使用基于正则表达式的数据匹配方法或人工匹配，这些方法通常需要很大的工作量且适用的场景有限。

发明内容

鉴于以上内容，有必要提出一种数据自动匹配方法、装置、电子设备及存储介质以实现对大量数据的自动匹配。

本申请的第一方面提供一种数据自动匹配方法，所述数据自动匹配方法包括：

对第一数据集中的数据进行预处理，得到第一训练数据集，其中所述第一数据集中的数据包括预设数量个主题；

将所述第一训练数据集按预设比例划分为训练集和测试集，使用所述训练集训练随机森林模型，并利用所述测试集验证所述随机森林模型的准确性，得到分类模型；

获取第二数据集，并预处理所述第二数据集，得到输入数据集；

使用K-均值聚类模型按照预设数量个聚类中心对所述输入数据集进行聚类，得到预设数量个聚类类别，每个所述聚类类别对应一个聚类号，其中，所述第二数据集中的每个数据对应一个聚类类别；

使用所述分类模型对所述输入数据集进行分类，得到所述输入数据集中每个第二输入数据的分类号，将所述每个第二输入数据的分类号作为分类号序列，其中，所述第一数据集中的一个主题对应一个所述分类号，所述第二数据集中的每个数据对应一个所述分类号；

比较每个所述聚类类别对应的所述第二数据集中的数据与所述分类号序列中每个分类号对应的所述第二数据集中的数据，并得到比较结果；

当所述比较结果为相同时，计算一个所述分类号对应的所述第二数据集中的关键字与所述分类号对应的所述第一数据集的主题包含的关键字的文本相似度，并将文本相似度最高的所述第一数据集的主题作为所述第二数据集中数据的自动匹配结果。

优选地，对第一数据集中的数据进行预处理，得到第一训练数据集包括：

使用数据分析工具将每一所述主题包括的表处理成具有预设格式的数据，得到第一训练数据集，得到表的主题对应的分类号、所述主题包含的关键字序列，计算所述关键字序列中的每个关键字在表中出现的次数得到第一序列，计算所述关键字序列中的每个关键字在所述第一训练数据集中所有表中出现的次数得到第二序列。

优选地，使用所述训练集训练随机森林模型，并利用所述测试集验证所述随机森林模型的准确性，得到分类模型包括：

根据所述训练集构造所述随机森林模型的第一输入数据；

重复执行随机森林模型训练方法，得到参数最优的所述随机森林模型，作为分类模型；

其中，所述随机森林模型训练方法包括：

使用所述第一输入数据训练所述随机森林模型；

使用所述测试集得到所述随机森林模型的准确率；

根据所述准确率调整所述随机森林模型的参数。

优选地，所述获取第二数据集，并预处理所述第二数据集，得到输入数据集包括：

去除所述第二数据集中的无意义字段，并将所述第二数据集中的数据处理为[所述主题包含的关键字的词频-逆向文件频率值组成的序列]格式的向量，得到输入数据集。

优选地，使用K-均值聚类模型按照预设数量个聚类中心对所述输入数据集进行聚类，得到预设数量个聚类类别包括：

使用K-均值聚类模型，通过余弦相似度算法对所述输入数据集按照预设数量个聚类中心进行聚合，得到预设数量个聚类类别。

优选地，所述使用所述分类模型对所述输入数据集进行分类，得到所述输入数据集中每个第二输入数据的分类号，将所述每个第二输入数据的分类号作为分类号序列包括：

将所述输入数据集输入所述分类模型，所述分类模型根据所述输入数据集中的每个第二输入数据预测所述第二输入数据的主题的分类号，得到所述输入数据集中每个第二输入数据的分类号。

优选地，所述计算一个所述分类号对应的所述第二数据集中的关键字与所述分类号对应的所述第一数据集的主题包含的关键字的文本相似度包括：

计算一个所述分类号对应的所述第二数据集中的关键字的词频-逆向文件频率值与所述分类号对应的所述第一数据集的主题包含的关键字的词频-逆向文件频率值；

根据一个所述分类号对应的所述第二数据集中的关键字的词频-逆向文件频率值与所述分类号对应的所述第一数据集的主题包含的关键字的词频-逆向文件频率值计算文本相似度。

本申请的第二方面提供一种数据自动匹配装置，所述装置包括：

第一预处理模块，用于对第一数据集中的数据进行预处理，得到第一训练数据集，其中所述第一数据集中的数据包括预设数量个主题；

分类模型训练模块，用于将所述第一训练数据集按预设比例划分为训练集和测试集，使用所述训练集训练随机森林模型，并利用所述测试集验证所述随机森林模型的准确性，得到分类模型；

第二预处理模块，用于获取第二数据集，并预处理所述第二数据集，得到输入数据集；

聚类模块，用于使用K-均值聚类模型按照预设数量个聚类中心对所述输入数据集进行聚类，得到预设数量个聚类类别，每个所述聚类类别对应一个聚类号，其中，所述第二数据集中的每个数据对应一个聚类类别；

分类模块，用于使用所述分类模型对所述输入数据集进行分类，得到所述输入数据集中每个第二输入数据的分类号，将所述每个第二输入数据的分类号作为分类号序列，其中，所述第一数据集中的一个主题对应一个所述分类号，所述第二数据集中的每个数据对应一个所述分类号；

比较模块，用于比较每个所述聚类类别对应的所述第二数据集中的数据与所述分类号序列中每个分类号对应的所述第二数据集中的数据，并得到比较结果；

匹配模块，用于当所述比较结果为相同时，计算一个所述分类号对应的所述第二数据集中的关键字与所述分类号对应的所述第一数据集的主题包含的关键字的文本相似度，并将文本相似度最高的所述第一数据集的主题作为所述第二数据集中数据的自动匹配结果。

本申请的第三方面提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现所述数据自动匹配方法。

本申请的第四发明提供一种计算机存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述数据自动匹配方法。

本发明通过预处理第一数据集得到第一训练数据集，并使用所述第一训练数据集训练随机森林模型得到分类模型，通过聚类模型对第二数据集进行聚类，并使用所述分类模型对所述第二数据集进行分类，将聚类模型得到的类别对应的数据与分类模型得到的类别对应的数据进行比较，对包含相同数据的类别对应的关键字与第一数据集内的关键字进行文本相似度计算，并将文本相似度最高的所述第一数据集的主题作为所述第二数据集中数据的自动匹配结果。本方案可以通过缩小数据合并时文本相似度的比较范围，减少运算量，从而减少计算时间，并减少文本相似度误匹配的概率。本发明可应用在智慧医疗中，推动智慧医疗及智慧城市的建设。

附图说明

图1为本发明一实施方式中数据自动匹配方法的流程图。

图2为本发明一实施方式中数据自动匹配装置的结构图。

图3为本发明一实施方式中电子设备的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明数据自动匹配方法应用在一个或者多个电子设备中。所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(DigitalSignal Processor，DSP)、嵌入式设备等。

所述电子设备可以是桌上型计算机、笔记本电脑、平板电脑及云端服务器等计算设备。所述设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例1

图1是本发明一实施方式中数据自动匹配方法的流程图。根据不同的需求，所述流程图中步骤的顺序可以改变，某些步骤可以省略。

参阅图1所示，所述数据自动匹配方法具体包括以下步骤：

步骤S11，对第一数据集中的数据进行预处理，得到第一训练数据集，其中所述第一数据集中的数据包括预设数量个主题。

具体地，所述第一数据集中的数据可以是由医疗机构上传的表，每个表对应所述预设数量个主题中的一个主题，所述主题包括，但不限于：门诊处方、病历、费用、公共卫生、基本信息、检验、检查、住院、体检；每个表由表名，字段名和文本内容组成，所述第一数据集中预设数量个主题中的每个主题对应一个分类号，所述预设数量个主题中的每个主题包括至少一个表，所述至少一个表中的每个表包括关键字，所述关键字包括表的表名与字段名。

在本发明的至少一个实施方式中，使用数据分析工具将每一所述主题包括的表处理成具有预设格式的数据，得到第一训练数据集，得到表的主题对应的分类号、所述主题包含的关键字序列，计算所述关键字序列中的每个关键字在表中出现的次数得到第一序列，计算所述关键字序列中的每个关键字在所述第一训练数据集中所有表中出现的次数得到第二序列。

具体地，所述数据分析工具可以是spark。所述预设格式为[表的主题对应的分类号，所述主题包含的关键字序列，所述第一序列，所述第二序列]。

例如，所述预设数量个主题可以是门诊处方、病历、费用、公共卫生、基本信息、检验、检查、住院、体检9个主题；所述预设数量个主题的名称与分类号一一对应，表示为[(0，门诊处方)，(1，病历)，(2，费用)，(3，公共卫生)，(4，基本信息)，(5，检验)，(6，检查)，(7，住院)，(8，体检)]。

又例如，当所述第一训练数据集中的一项数据对应的表主题为“门诊处方”时，所述一项数据的格式为[0，[发票，处方，中药，发药，科室]，[2，8，1，3，1]，[20，10，30，50，20]]，其中，第一维“0”为所述一项数据对应的表的主题“门诊处方”对应的分类号；第二维中，“发票”、“处方”、“中药”、“发药”、“科室”为所述主题“门诊处方”包含的关键字；第三维中，“2”、“8”、“1”、“3”、“1”代表“发票”、“处方”、“中药”、“发药”、“科室”在所述一项数据对应的表中的出现次数分别为2次、8次、1次、3次、1次；第四维中，“20”、“10”、“30”、“50”、“20”代表“发票”、“处方”、“中药”、“发药”、“科室”在所述第一训练数据集对应的所有表中的出现次数分别为20次、10次、30次、50次、20次。

步骤S12，将所述第一训练数据集按预设比例划分为训练集和测试集，使用所述训练集训练随机森林模型，并利用所述测试集验证所述随机森林模型的准确性，得到分类模型。

在本发明的至少一个实施方式中，所述将所述第一训练数据集按预设比例划分为训练集和测试集包括：

随机选择所述第一训练数据集中80％的数据作为所述训练集，并将所述第一训练数据集中除所述80％外的数据作为所述测试集。

在本发明的至少一个实施方式中，使用所述训练集训练随机森林模型，并利用所述测试集验证所述随机森林模型的准确性，得到分类模型包括：

根据所述训练集构造所述随机森林模型的第一输入数据；

其中，所述随机森林模型训练方法包括：

使用所述第一输入数据训练所述随机森林模型；

使用所述测试集得到所述随机森林模型的准确率；

根据所述准确率调整所述随机森林模型的参数。

具体地，根据所述训练集构造所述随机森林模型的第一输入数据包括：

将所述训练集中的数据构造为(分类号，关键字的词频-逆向文件频率值序列)的形式作为所述随机森林模型的第一输入数据。

在本发明的至少一个实施方式中，一个关键字的词频-逆向文件频率值为所述一个关键字在一个表中的出现次数占所述一个关键字在所述训练集中的出现次数的比例。

例如，当一项数据为[0，[发票，处方，中药，发药，科室]，[2，8，1，3，1]，[20，10，30，50，20]]时，将所述一项数据构造为(0，[2/20，8/10，1/30，3/50，1/20])作为所述随机森林模型的第一输入数据。

在本发明的至少一个实施方式中，所述使用所述第一输入数据训练所述随机森林模型包括：

使用所述第一输入数据中的每个数据对应的表的主题包含的关键字的词频-逆向文件频率值作为所述随机森林模型的输入，使用所述第一输入数据中每个数据对应的表的主题对应的分类号作为所述随机森林模型的输出，训练所述随机森林模型。

例如，当一项数据为[0，[发票，处方，中药，发药，科室]，[2，8，1，3，1]，[20，10，30，50，20]]时，将(0，[2/20，8/10，1/30，3/50，1/20])作为所述随机森林模型的第一输入数据，使用特征[2/20，8/10，1/30，3/50，1/20]作为所述随机森林模型的输入，分类号“0”作为所述随机森林模型的输出，训练所述随机森林模型。

具体地，所述随机森林模型的参数包括，但不限于：所述随机森林模型的最大特征数、所述随机森林模型中决策树的最大深度、所述随机森林模型的内部节点再划分所需最小样本数、所述随机森林模型的叶子节点最少样本数、所述随机森林模型的叶子节点最小的样本权重和、所述随机森林模型的最大叶子节点数、所述随机森林模型的节点划分最小不纯度。

具体地，所述根据所述准确率调整所述随机森林模型的参数包括：

使用网格搜索方法根据所述准确率选择使所述随机森林模型在验证集上达到最高的准确率的参数。

所述随机森林模型可以基于所述数据分析工具搭建，例如，当使用spark作为数据分析工具时，利用spark中的Mllib对所述训练集进行训练。

步骤S13，获取第二数据集，并预处理所述第二数据集，得到输入数据集。

具体地，所述第二数据集中的数据可以是由新增的医疗机构上传的表，每个表包括关键字，所述关键字包括表的表名与字段名。

在本发明的至少一个实施方式中，所述获取第二数据集，并预处理所述第二数据集，得到输入数据集包括：

例如，当所述第二数据集中的一项数据为[[发票，处方，中药，发药，科室]，[3，9，2，4，2]，[21，11，31，51，21]]时，对应的向量为[3/21，9/11，2/31，4/51，2/21]，其中，“发票”、“处方”、“中药”、“发药”、“科室”为所述一项数据的关键字；“3”、“9”、“2”、“4”、“2”代表“发票”、“处方”、“中药”、“发药”、“科室”在所述一项数据对应的表中的出现次数分别为3次、9次、2次、4次、2次；“21”、“11”、“31”、“51”、“21”代表“发票”、“处方”、“中药”、“发药”、“科室”在所述第二数据集对应的所有表中的出现次数分别为21次、11次、31次、51次、21次。

步骤S14，使用K-均值聚类模型按照预设数量个聚类中心对所述输入数据集进行聚类，得到预设数量个聚类类别，每个所述聚类类别对应一个聚类号，其中，所述第二数据集中的每个数据对应一个聚类类别。

在本发明的至少一个实施方式中，所述使用K-均值聚类模型按照预设数量个聚类中心对所述输入数据集进行聚类，得到预设数量个聚类类别包括：

具体地，使用K-均值聚类模型，通过余弦相似度算法对所述输入数据集按照预设数量个聚类中心进行聚合，得到预设数量个聚类类别包括：

从所述输入数据集中随机选择一个向量作为初始聚类中心；

计算所述输入数据集中每个向量与所述初始聚类中心的余弦相似度，根据所述每个向量与所述初始聚类中心的余弦相似度计算所述每个向量成为下一个聚类中心的概率，并依据所述概率确定下一聚类中心；

重复执行上一步骤直至得到预设数量个聚类中心。

在本发明的其他实施例中，统计所述第一数据集中预设数量个主题对应的表中最经常出现的10个词汇，在使用K-均值聚类模型对所述输入数据集进行聚合时，使用所述10个词汇作为主题因子权重以提高聚类的准确性。

步骤S15，使用所述分类模型对所述输入数据集进行分类，得到所述输入数据集中每个第二输入数据的分类号，将所述每个第二输入数据的分类号作为分类号序列，其中，所述第一数据集中的一个主题对应一个所述分类号，所述第二数据集中的每个数据对应一个所述分类号。

在本发明的至少一个实施例中，所述使用所述分类模型对所述输入数据集进行分类，得到所述输入数据集中每个第二输入数据的分类号，将所述每个第二输入数据的分类号作为分类号序列包括：

步骤S16，比较每个所述聚类类别对应的所述第二数据集中的数据与所述分类号序列中每个分类号对应的所述第二数据集中的数据，并得到比较结果。

具体地，当每个所述聚类类别对应的所述第二数据集中的数据与所述分类号序列中每个分类号对应的所述第二数据集中的数据相同时，比较结果为相同；当每个所述聚类类别对应的所述第二数据集中的数据与所述分类号序列中每个分类号对应的所述第二数据集中的数据不同时，比较结果为不同。

步骤S17，当所述比较结果为相同时，计算一个所述分类号对应的所述第二数据集中的关键字与所述分类号对应的所述第一数据集的主题包含的关键字的文本相似度，并将文本相似度最高的所述第一数据集的主题作为所述第二数据集中数据的自动匹配结果。

在本发明的至少一个实施方式中，所述计算一个所述分类号对应的所述第二数据集中的关键字与所述分类号对应的所述第一数据集的主题包含的关键字的文本相似度包括：

通过计算一个所述分类号对应的所述第二数据集中的关键字的词频-逆向文件频率值与所述分类号对应的所述第一数据集的主题包含的关键字的词频-逆向文件频率值；

具体地，根据一个所述分类号对应的所述第二数据集中数据的关键字的词频-逆向文件频率值与所述分类号对应的所述第一数据集的主题包含的关键字的词频-逆向文件频率值计算文本相似度包括：

根据一个所述分类号对应的所述第二数据集中数据的关键字的词频-逆向文件频率值生成所述分类号对应的所述第二数据集中数据的第一词频-逆向文件频率值向量；

根据一个所述分类号对应的所述第一数据集的主题包含的关键字的词频-逆向文件频率值生成所述分类号对应的所述第一数据集的主题的第二词频-逆向文件频率值向量；

计算所述第一词频-逆向文件频率值向量与所述第二词频-逆向文件频率值向量的余弦相似度，得到所述第二数据集中的数据对应的每个表与所述分类号对应的所述第一数据集的主题包含的文本相似度。

例如，当所述第二数据集的关键字为“发票”、“处方”、“中药”、“发药”、“科室”，对应的词频-逆向文件频率值为3/21，9/11，2/31，4/51，2/21时，所述第一词频-逆向文件频率值向量为[3/21，9/11，2/31，4/51，2/21]；当所述第一数据集中的数据的关键字为“发票”、“处方”、“中药”、“发药”、“科室”，对应的词频-逆向文件频率值为2/20、8/10、1/30、3/50、1/20时，所述第二词频-逆向文件频率值向量为[2/20，8/10，1/30，3/50，1/20]；计算得到所述第一词频-逆向文件频率值向量[3/21，9/11，2/31，4/51，2/21]和所述第二词频-逆向文件频率值向量[2/20，8/10，1/30，3/50，1/20]的余弦相似度为0.99，则所述第二数据集中的数据对应的每个表与所述分类号对应的所述第一数据集的主题包含的文本相似度为0.99。

需要说明的是，为保证上述处理过程中的数据和输出结果的私密性和安全性，所述处理过程中的数据和输出结果可存储于区块链中，比如第一数据集、第一训练数据集、第二数据集及输入数据集等。

实施例2

图2为本发明一实施方式中数据自动匹配装置30的结构图。

在一些实施例中，所述数据自动匹配装置30运行于电子设备中。所述数据自动匹配装置30可以包括多个由程序代码段所组成的功能模块。所述数据自动匹配装置30中的各个程序段的程序代码可以存储于存储器中，并由至少一个处理器所执行，以执行数据自动匹配功能。

本实施例中，所述数据自动匹配装置30根据其所执行的功能，可以被划分为多个功能模块。参阅图2所示，所述数据自动匹配装置30可以包括第一预处理模块301、分类模型训练模块302、第二预处理模块303、聚类模块304、分类模块305、比较模块306及匹配模块307。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。所述在一些实施例中，关于各模块的功能将在后续的实施例中详述。

所述第一预处理模块301对第一数据集中的数据进行预处理，得到第一训练数据集，其中所述第一数据集中的数据包括预设数量个主题。

在本发明的至少一个实施方式中，所述第一预处理模块301使用数据分析工具将每一所述主题包括的表处理成具有预设格式的数据，得到第一训练数据集，得到表的主题对应的分类号、所述主题包含的关键字序列，计算所述关键字序列中的每个关键字在表中出现的次数得到第一序列，计算所述关键字序列中的每个关键字在所述第一训练数据集中所有表中出现的次数得到第二序列。

所述分类模型训练模块302将所述第一训练数据集按预设比例划分为训练集和测试集，使用所述训练集训练随机森林模型，并利用所述测试集验证所述随机森林模型的准确性，得到分类模型。

在本发明的至少一个实施方式中，所述分类模型训练模块302将所述第一训练数据集按预设比例划分为训练集和测试集包括：

所述分类模型训练模块302随机选择所述第一训练数据集中80％的数据作为所述训练集，并将所述第一训练数据集中除所述80％外的数据作为所述测试集。

在本发明的至少一个实施方式中，所述分类模型训练模块302使用所述训练集训练随机森林模型，并利用所述测试集验证所述随机森林模型的准确性，得到分类模型包括：

所述分类模型训练模块302根据所述训练集构造所述随机森林模型的第一输入数据；

所述分类模型训练模块302重复执行随机森林模型训练方法，得到参数最优的所述随机森林模型，作为分类模型；

其中，所述随机森林模型训练方法包括：

使用所述输入训练所述随机森林模型；

使用所述测试集得到所述随机森林模型的准确率；

根据所述准确率调整所述随机森林模型的参数。

具体地，所述分类模型训练模块302根据所述训练集构造所述随机森林模型的第一输入数据包括：

将所述训练集中的数据构造为(分类号，关键字词频-逆向文件频率值序列)的形式作为所述随机森林模型的第一输入数据。

在本发明的至少一个实施方式中，所述分类模型训练模块302使用所述第一输入数据训练所述随机森林模型包括：

所述分类模型训练模块302使用所述第一输入数据中的每个数据对应的表的主题包含的关键字的词频-逆向文件频率值作为所述随机森林模型的输入，使用所述第一输入数据中每个数据对应的表的主题对应的分类号作为所述随机森林模型的输出，训练所述随机森林模型。

具体地，所述分类模型训练模块302根据所述准确率调整所述随机森林模型的参数包括：

所述分类模型训练模块302使用网格搜索方法根据所述准确率选择使所述随机森林模型在验证集上达到最高的准确率的参数。

所述第二预处理模块303获取第二数据集，并预处理所述第二数据集，得到输入数据集。

具体地，所述第二数据集中的数据可以是由新增的医疗机构上传的表，每个表包含的关键字，所述关键字包括表的表名与字段名。

在本发明的至少一个实施方式中，所述第二预处理模块303获取第二数据集，预处理所述第二数据集，得到输入数据集包括：

所述第二预处理模块303去除所述第二数据集中的无意义字段，并将所述第二数据集中的数据处理为[所述主题包含的关键字的词频-逆向文件频率值组成的序列]格式的向量，得到输入数据集。

在本发明的至少一个实施例中，所述第二预处理模块303根据所述第二训练数据得到输入数据集包括：

所述第二预处理模块303计算所述第二训练数据中包含的关键字序列中每个关键字对应的词频-逆向文件频率值，并作为所述分类模型的输入数据集。

所述聚类模块304使用K-均值聚类模型按照预设数量个聚类中心对所述输入数据集进行聚类，得到预设数量个聚类类别，每个所述聚类类别对应一个聚类号，其中，所述第二数据集中的每个数据对应一个聚类类别。

在本发明的至少一个实施方式中，所述聚类模块304使用K-均值聚类模型按照预设数量个聚类中心对所述输入数据集进行聚类，得到预设数量个聚类类别包括：

所述聚类模块304使用K-均值聚类模型，通过余弦相似度算法对所述输入数据集按照预设数量个聚类中心进行聚合，得到预设数量个聚类类别。

具体地，所述聚类模块304使用K-均值聚类模型，通过余弦相似度算法对所述输入数据集按照预设数量个聚类中心进行聚合，得到预设数量个聚类类别包括：

从所述输入数据集中随机选择一个向量作为初始聚类中心；

重复执行上一步骤直至得到预设数量个聚类中心。

在本发明的其他实施例中，所述聚类模块304统计所述第一数据集中预设数量个主题对应的表中最经常出现的10个词汇，在使用K-均值聚类模型对所述输入数据集进行聚合时，使用所述10个词汇作为主题因子权重以提高聚类的准确性。

所述分类模块305使用所述分类模型对所述输入数据集进行分类，得到所述输入数据集中每个第二输入数据的分类号，将所述每个第二输入数据的分类号作为分类号序列，其中，所述第一数据集中的一个主题对应一个所述分类号，所述第二数据集中的每个数据对应一个所述分类号。

在本发明的至少一个实施例中，所述分类模块305使用所述分类模型对所述输入数据集进行分类，得到所述输入数据集中每个第二输入数据的分类号，将所述每个第二输入数据的分类号作为分类号序列包括：

所述分类模块305将所述输入数据集输入所述分类模型，所述分类模型根据所述输入数据集中的每个第二输入数据预测所述第二输入数据的主题的分类号，得到所述输入数据集中每个第二输入数据的分类号。

所述比较模块306比较每个所述聚类类别对应的所述第二数据集中的数据与所述分类号序列中每个分类号对应的所述第二数据集中的数据，并得到比较结果。

所述匹配模块307当所述比较结果为相同时，计算一个所述分类号对应的所述第二数据集中的关键字与所述分类号对应的所述第一数据集的主题包含的关键字的文本相似度，并将文本相似度最高的所述第一数据集的主题作为所述第二数据集中数据的自动匹配结果。

在本发明的至少一个实施方式中，所述匹配模块307计算一个所述分类号对应的所述第二数据集中的关键字与所述分类号对应的所述第一数据集的主题包含的关键字的文本相似度包括：

实施例3

图3为本发明一实施方式中电子设备6的示意图。

所述电子设备6包括存储器61、处理器62以及存储在所述存储器61中并可在所述处理器62上运行的计算机可读指令。所述处理器62执行所述计算机可读指令时实现上述数据自动匹配方法实施例中的步骤，例如图1所示的步骤S11～S17。或者，所述处理器62执行所述计算机可读指令时实现上述数据自动匹配装置实施例中各模块/单元的功能，例如图2中的模块301～307。

示例性的，所述计算机可读指令可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由所述处理器62执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，所述指令段用于描述所述计算机可读指令在所述电子设备6中的执行过程。例如，所述计算机可读指令可以被分割成图2中的第一预处理模块301、分类模型训练模块302、第二预处理模块303、聚类模块304、分类模块305、比较模块306及匹配模块307，各模块具体功能参见实施例2。

本实施方式中，所述电子设备6可以是桌上型计算机、笔记本、掌上电脑、服务器及云端终端装置等计算设备。本领域技术人员可以理解，所述示意图仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备6还可以包括输入输出设备、网络接入设备、总线等。

所称处理器62可以是中央处理模块(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器62也可以是任何常规的处理器等，所述处理器62是所述电子设备6的控制中心，利用各种接口和线路连接整个电子设备6的各个部分。

所述存储器61可用于存储所述计算机可读指令和/或模块/单元，所述处理器62通过运行或执行存储在所述存储器61内的计算机可读指令和/或模块/单元，以及调用存储在存储器61内的数据，实现所述电子设备6的各种功能。所述存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备6的使用所创建的数据等。此外，存储器61可以包括易失性存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。

所述电子设备6集成的模块/单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读存储介质中，所述计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机可读指令包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能模块可以集成在相同处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在相同模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他模块或步骤，单数不排除复数。电子设备权利要求中陈述的多个模块或电子设备也可以由同一个模块或电子设备通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种数据自动匹配方法，其特征在于，所述数据自动匹配方法包括：

2.如权利要求1所述的数据自动匹配方法，其特征在于，对第一数据集中的数据进行预处理，得到第一训练数据集包括：

3.如权利要求1所述的数据自动匹配方法，其特征在于，使用所述训练集训练随机森林模型，并利用所述测试集验证所述随机森林模型的准确性，得到分类模型包括：

根据所述训练集构造所述随机森林模型的第一输入数据；

其中，所述随机森林模型训练方法包括：

使用所述第一输入数据训练所述随机森林模型；

使用所述测试集得到所述随机森林模型的准确率；

根据所述准确率调整所述随机森林模型的参数。

4.如权利要求1所述的数据自动匹配方法，其特征在于，所述获取第二数据集，并预处理所述第二数据集，得到输入数据集包括：

5.如权利要求1所述的数据自动匹配方法，其特征在于，使用K-均值聚类模型按照预设数量个聚类中心对所述输入数据集进行聚类，得到预设数量个聚类类别包括：

6.如权利要求1所述的数据自动匹配方法，其特征在于，所述使用所述分类模型对所述输入数据集进行分类，得到所述输入数据集中每个第二输入数据的分类号，将所述每个第二输入数据的分类号作为分类号序列包括：

7.如权利要求4所述的数据自动匹配方法，其特征在于，所述计算一个所述分类号对应的所述第二数据集中的关键字与所述分类号对应的所述第一数据集的主题包含的关键字的文本相似度包括：

8.一种数据自动匹配装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如权利要求1至7中任一项所述的数据自动匹配方法。

10.一种计算机存储介质，其上存储有计算机可读指令，其特征在于：所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的数据自动匹配方法。