CN110427381A

CN110427381A - 一种数据处理方法及相关设备

Info

Publication number: CN110427381A
Application number: CN201910728773.4A
Authority: CN
Inventors: 王飞; 胡可云; 陈联忠
Original assignee: Beijing Jiahesen Health Technology Co Ltd
Current assignee: Beijing Jiahesen Health Technology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-11-08

Abstract

本申请实施例提供了一种数据处理方法及相关设备，可以为同一身份标识的数据配置相同的主索引，既消除同一用户多个身份标识，同时又保证同一用户的数据记录不会丢失。该方法包括：确定第一结构化数据，所述第一结构化数据包括N个分词，其中，N为大于或等于1的正整数；根据所述N个分词与第二结构化数据对应的分词确定目标比例，所述第二结构化数据为数据库中存储的任意一个结构化数据；判断所述目标比例是否大于预设值；若是，则将所述第一结构化数据关联保存至所述第二结构化数据对应的主索引下。

Description

一种数据处理方法及相关设备

技术领域

本申请涉及大数据领域，尤其涉及一种数据处理方法及相关设备。

背景技术

随着网络的进步，社会各界科研人员已逐步意识到数据应用的重要性，开始挖掘数据潜在的海量应用价值。

现有的用户的数据信息多是分散的，同一用户在不同的信息系统中的个人信息是不相同的，无法实现同一用户的信息在各个分散信息系统间的自动关联，甚至单个信息系统内都出现同一用户存在多个身份标识，大量历史数据难以应用。

如何解决消除同一用户多个身份标识，同时又保证同一用户的数据记录不会丢失，是亟待解决的问题。

发明内容

本申请提供了一种数据处理方法及相关设备，可以为同一身份标识的数据配置相同的索引，既保证同一用户只对应一个身份标识，同时又保证同一用户的数据记录不会丢失。

本申请实施例第一方面提供一种数据处理方法，所述方法包括：

确定第一结构化数据，所述第一结构化数据包括N个分词，其中，N为大于或等于1的正整数；

根据所述N个分词与第二结构化数据对应的分词确定目标比例，所述第二结构化数据为数据库中存储的任意一个结构化数据；

判断所述目标比例是否大于预设值；

若是，则将所述第一结构化数据关联保存至所述第二结构化数据对应的主索引下。

可选地，所述根据所述N个分词以及第二结构化数据对应的分词确定目标比例包括：

将所述N个分词与所述第二结构化数据对应的分词进行对比，得到所述第一目标分词，所述第一目标分词为所述N个分词中与所述第二结构化数据对应的分词中相同的分词；

将所述第一目标分词与第二目标分词进行比值计算，得到所述目标比例，所述第二目标分词为所述第一结构化数据与所述第二结构化数据对应的分词中字段数量多的结构化数据对应的分词。

可选地，所述将所述N个分词与所述第二结构化数据对应的分词进行对比，得到所述第一目标分词包括；

将所述N个分词中的时间分词转换为第一标准时间分词；

将所述第二结构化数据对应的分词中的时间分词转换为第二标准时间分词；

当所述第一标准时间与所述第二标准时间匹配时，将所述N个分词中除所述第一标准时间分词之外的分词与所述第二结构化数据对应的分词中除所述第二标准时间分词之外的其他分词进行对比，得到所述第一目标分词。

可选地，所述确定第一结构化数据包括：

获取所述目标对象的半结构化数据；

对所述目标对象的半结构化数据进行分词，得到所述第一结构化数据。

可选地，所述方法还包括：

当所述目标比值小于预设值时，则在所述数据库中为所述第一结构化数据建立新的目标主索引；

将所述第一结构化数据关联保存至所述目标主索引。

本申请实施例第二方面提供了一种数据处理装置，包括：

第一确定单元，用于确定第一结构化数据，所述第一结构化数据包括N个分词，其中，N为大于或等于1的正整数；

第二确定单元，用于根据所述N个分词与第二结构化数据对应的分词确定目标比例，所述第二结构化数据为数据库中存储的任意一个结构化数据；

判断单元，用于判断所述目标比例是否大于预设值；

存储单元，用于当所述目标比例大于所述预设值时，将所述第一结构化数据关联保存至所述第二结构化数据对应的主索引下。

可选地，所述第二确定单元具体用于：

可选地，所述第二确定单元将所述N个分词与所述第二结构化数据对应的分词进行对比，得到所述第一目标分词包括；

将所述N个分词中的时间分词转换为第一标准时间分词；

可选地，所述第一确定单元具体用于：

获取所述目标对象的半结构化数据；

可选地，所述存储单元还用于：

将所述第一结构化数据关联保存至所述目标主索引。

本申请实施例第四方面提供了一种计算机装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的操作。

本申请实施例第五方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述各方面所述的操作。

综上所述，可以看出，本申请实施例中，通过对半结构化数据进行分词处理，得到结构化数据，并将结构化数据中的分词与数据库中的结构化数据分词进行比对，得到目标比值，若该目标比值大于预设值，则将该结构化数据关联存储至数据库中对应的主索引下，这样，可以将相同身份标识的数据存储至同一个主索引下，既消除同一用户多个身份标识，同时又保证同一用户的数据记录不会丢失。

附图说明

图1为本申请实施例提供的数据处理方法的流程示意图；

图2为本申请实施例提供的数据处理装置的虚拟结构示意图；

图3为本申请实施例提供的服务器的硬件结构示意图。

具体实施方式

本申请供了一种数据处理方法及相关设备，可以为同一身份标识的数据配置相同的主索引，既消除同一用户多个身份标识，同时又保证同一用户的数据记录不会丢失。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

下面从数据处理装置的角度对本申请实施例提供的数据处理方法进行说明，该数据处理装置可以为服务器也可以为服务器中的服务单元，具体不做限定。

请参阅图1，图1为本申请实施例提供的数据处理方法的流程示意图，包括：

101、确定第一结构化数据。

本实施例中，在对数据进行整合并配置主索引的过程中，可以首先确定第一结构化数据，该第一结构化数据包括N个分词，其中，N为大于或等于1的正整数。具体的，可以获取目标对象的半结构化数据，并对目标对象的半结构化数据进行分词，得到第一结构化数据。下面对数据的划分方式以及分词进行说明：

1、数据的划分方式；

目前，数据可以分为非结构化数据、半结构化数据、结构化数据，结构化数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据；非结构化数据就是没有固定结构的数据，例如图片、文档等；半结构化数据是结构化数据的一种形式，它是不符合关系型数据库或其他数据表的形式关联起来的数据模型结构，但包含相关标记，用来分隔语义元素以及对记录和字段进行分层，它也被称为自描述的结构，常见的半结构数据有XML和JSON；

2、分词：

分词，目标是从海量、异构、不规范、含有大量噪声和冗余的文本中大规模地抽取开放类别的实体、关系、事件等多层次语义单元信息，并形成结构化数据格式输出。开放式信息抽取的特点在于：①文本领域开放：处理的文本领域不再限定于规范的新闻文本或者某一领域文本，而是不限定领域的网络文本；②语义单元类型开放：所抽取的语义单元不限定类型，而是自动地从网络中挖掘语义单元的类型，如实体类型、关系类型和事件类型等；③以“抽取”替代“识别”：相对于传统的信息抽取，开放式文本信息抽取不再拘泥于从文本中精确识别目标信息的每次出现，而是充分利用网络数据海量、冗余的特性，以抽取的方式构建面向实际应用的多层次语义单元集合。在这一过程中，不仅需要考虑文本特征，同时需要综合考虑文本结构特征和用户行为特征等。

在确定第一结构化数据时，可以首先获取目标对象的半结构化数据，之后，对目标对象的半结构化数据进行分词，得到第一结构化数据。具体不限定分词方式，例如可以采用通用的分词工具，或者采用与半结构化数据对应的行业的专用分词词库(例如医学对应的医学分词词库、生物学对应的生物学分词词库或植物学对应的植物学分词词库等等专用分词词库)进行分词，具体不做限定，只要能对目标对象的半结构化数据进行分词，得到可保存的第一结构化数据即可。

102、根据N个分词与第二结构化数据对应的分词确定目标比例。

本实施例中，在得到第一结构化数据之后，可以根据第一结构化数据中的N个分词与第二结构化数据对应的分词确定目标比例，其中，第二结构化数据为数据库中存储的任意一个结构化数据，且该数据库中的每一个结构化数据具有与之对应的主索引。

在一个实施例中，根据N个分词以及第二结构化数据对应的分词确定目标比例包括：

将N个分词与第二结构化数据对应的分词进行对比，得到第一目标分词，第一目标分词为N个分词中与第二结构化数据对应的分词中相同的分词；

将第一目标分词与第二目标分词进行比值计算，得到目标比例，第二目标分词为第一结构化数据与第二结构化数据对应的分词中字段数量多的结构化数据对应的分词。

也就是说，可以将N个分词分别与数据库中存储的每个结构化数据对应的分词进行对比，找到N个分词与每个结构化数据对应的分词中相同的第一目标分词，之后，统计第一目标分词中字段的数量，并确定第二目标分词中字段的数量，该第二目标分词为N个分词与每个结构化数据对应的分词中字段数量多的结构化数据对应的分词，之后计算第一目标字段的数量与第二目标字段的数量的比值，得到目标比值。例如，N个分词中的字段数量为75个，数据库中存储的某个结构化数据对应的分词的字段数量为78个，去除时间分词之后的N个分词中的字段数量为39个，去除时间分词之后的某个结构化数据对应的分词的字段数量为40个，第一目标分词中字段的数量为35个，则第二目标分词中字段的数量为40个，目标比例为35/40＝87.5％。

在一个实施例中，将N个分词与第二结构化数据对应的分词进行对比，得到第一目标分词包括；

将N个分词中的时间分词转换为第一标准时间分词；

将第二结构化数据对应的分词中的时间分词转换为第二标准时间分词；

当第一标准时间与第二标准时间匹配时，将N个分词中除第一标准时间分词之外的分词与第二结构化数据对应的分词中除第二标准时间分词之外的其他分词进行对比，得到第一目标分词。

需要说明的是，某些行业的结构化数据中往往可能包括一些时间，在当N个分词以及数据库中存储的结构化数据对应的分词中包括时间分词时，可以首先匹配N个分词与每个结构化数据对应的分词中的时间分词，在时间分词匹配成功时，才进行除时间分词之外的分词的匹配。由于在N个分词中的时间分词可能都不是标准时间分词(例如包括5年前、3天前等分词，那么需要将这些分词转换成标准时间分词，例如当前时刻为2019年7月17日，5年前则为2014年7月17日，3天前则为2019年7月14日)，因此，需要将N个分词中的时间分词转换为第一标准时间分词，之后采用同样的方法将第二结构化数据对应的分词中的时间分词转换为第二标准时间分词，然后将第一标准时间分词与第二标准时间分词进行匹配，当匹配成功时，将N个分词中除第一标准时间分词之外的分词与第二结构化数据对应的分词中除第二标准时间分词之外的其他分词进行对比，得到第一目标分词。

103、判断目标比例是否大于预设值，若是，则执行步骤104，若否，则执行步骤105。

本实施例中，在得到目标比例之后，可以判断目标比例是否大于预先设置的预设值，若是，则执行步骤104，若否，则执行步骤105，该预设值为预先设置的用于判断第一结构化数据是否可以在数据库中找到与之对应的主索引，若该目标比值大于预设值，则说明第一结构化数据与第二结构化数据可能为相同的身份标识来自不同信息系统的结构化数据(也即同一个用户在不同信息系统的结构化数据)，则执行步骤104，若目标比值不大于预设值，则说明第一结构化数据与第二结构化数据可能为不同的身份标识的结构化数据，则执行步骤105。

104、将第一结构化数据关联保存至第二结构化数据对应的主索引下。

本实施例中，当目标比值大于预设值时，则说明该第一结构化数据与第二结构化数据为同一身份标识的结构化数据，可能只是来源不同而以，且数据库中已尽存储有该第二结构化数据对应的主索引，则可以直接将第一结构化数据关联保存至第二结构化数据对应的主索引下。主索引的主要用途是在一个复杂的数据体系内，通过唯一的身份标识将多个信息系统有效地关联在一起，以实现各个系统之间的互联互通，保证对同一个对象，分布在不同信息系统中的个人信息采集的完整性和准确性。

需要说明的是，若该第一结构化数据在数据库中找到与之对应的主索引之后，可以确定该主索引之下还有没有除匹配时的结构化数据之外的其他结构化数据，若有，为了提高主索引匹配的准确率还可以将第一结构化数据与该主索引下的所有结构化数据进行匹配，若得到的所有目标比值均大于预设值，则说明该第一结构化数据归属于该主索引，若有目标均值不大于该预设值，则发出提示信息，提示用户进行确认，以防止误判。

105、执行其他操作。

本实施例中，当目标比值小于预设值时，则在数据库中为第一结构化数据建立新的目标主索引，并将第一结构化数据关联保存至目标主索引。也就是说，当目标比值小于预设值时，说明该第一结构化数据与第二结构化数据为不同对象的结构化数据，数据库没有存储有该第一结构化数据对应的主索引，则可以为第一结构化数据新建一个目标主索引，并将第一结构化数据关联保存至目标主索引下。

需要说明的是，该方法可以应用至多个应用场景，例如电子病历的整合，不同用户在不同医院，甚至同一医院的不同科室都会有不同的身份标识，又例如网络购物，相同类型的购物网站，同一用户可能有不同的身份标识，当然也还可以应用至其他的应用场景，此处仅为举例说明，并不代表对其的限定。

上面从数据处理方法的角度对本申请实施例进行描述，下面从数据处理装置的角度对本申请实施例进行描述。

请参阅图2，图2为本申请实施例中数据处理装置的虚拟结构示意图，该数据处理装置包括：

第一确定单元201，用于确定第一结构化数据，所述第一结构化数据包括N个分词，其中，N为大于或等于1的正整数；

第二确定单元202，用于根据所述N个分词与第二结构化数据对应的分词确定目标比例，所述第二结构化数据为数据库中存储的任意一个结构化数据；

判断单元203，用于判断所述目标比例是否大于预设值；

存储单元204，用于当所述目标比例大于所述预设值时，将所述第一结构化数据关联保存至所述第二结构化数据对应的主索引下。

可选地，所述第二确定单元202具体用于：

可选地，所述第二确定单元202将所述N个分词与所述第二结构化数据对应的分词进行对比，得到所述第一目标分词包括；

将所述N个分词中的时间分词转换为第一标准时间分词；

可选地，所述第一确定单元201具体用于：

获取所述目标对象的半结构化数据；

可选地，所述存储单元204还用于：

将所述第一结构化数据关联保存至所述目标主索引。

上面从模块化功能实体的角度对本申请实施例中的数据处理装置进行了描述，下面从硬件处理的角度分别对本申请实施例中的服务器进行描述。

图3是本发明实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由数据处理装置所执行的步骤可以基于该图3所示的服务器结构。

本申请实施例还提供了一种计算机存储介质，其上存储有程序，该程序被处理器执行时实现所述数据处理方法。

本申请实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述数据处理方法。

本申请实施例还提供了一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现上述所述数据处理方法的步骤。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行上述所述数据处理方法的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

判断所述目标比例是否大于预设值；

2.根据权利要求1所述的方法，其特征在于，所述根据所述N个分词以及第二结构化数据对应的分词确定目标比例包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述N个分词与所述第二结构化数据对应的分词进行对比，得到所述第一目标分词包括；

将所述N个分词中的时间分词转换为第一标准时间分词；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述确定第一结构化数据包括：

获取所述目标对象的半结构化数据；

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

将所述第一结构化数据关联保存至所述目标主索引。

6.一种数据处理装置，其特征在于，包括：

判断单元，用于判断所述目标比例是否大于预设值；

7.根据权利要求6所述的装置，其特征在于，所述第二确定单元具体用于：

8.根据权利要求7所述的装置，其特征在于，所述第二确定单元将所述N个分词与所述第二结构化数据对应的分词进行对比，得到所述第一目标分词包括；

将所述N个分词中的时间分词转换为第一标准时间分词；

9.一种计算机装置，其特征在于，所述装置包括：

至少一个处理器、存储器和收发器；

其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-5中任一项所述的方法的步骤。

10.一种计算机存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5中任一所述的方法的步骤。