CN116821145B

CN116821145B - 一种识别数据变化的自适应表结构调整方法及系统

Info

Publication number: CN116821145B
Application number: CN202311095069.2A
Authority: CN
Inventors: 徐荣
Original assignee: Affiliated Hospital of Jiangnan University
Current assignee: Affiliated Hospital of Jiangnan University
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-11-14
Anticipated expiration: 2043-08-29
Also published as: CN116821145A

Abstract

一种识别数据变化的自适应表结构调整方法及系统，该方法包括：获取医疗数据表；通过医疗信息识别模型识别并提取非结构化第一数据中对应M个数据字段的内容，作为第一条目添加到该医疗数据表；识别结构化第二数据包含的N个数据字段的内容；更新该医疗数据表的结构至M+A个数据字段，将结构化第二数据的N个数据字段的内容作为第二条目添加到该医疗数据表；通过该医疗信息识别模型识别并提取非结构化第三数据中对应M+A个数据字段的内容，作为第三条目添加到该医疗数据表。实施本申请提供的方法，根据数据的实际使用情况动态地调整表的结构，优化了数据更新的效率性能，保证了数据管理的高效化。

Description

一种识别数据变化的自适应表结构调整方法及系统

技术领域

本申请涉及数据识别及处理领域，尤其涉及一种识别数据变化的自适应表结构调整方法及系统。

背景技术

医疗数据也称医疗数据资产，是指医疗机构在医疗领域中产生和积累的各种数据资源，包括但不限于就诊者病历、医学影像、实验室检查结果、健康监测数据等。对于医疗机构来说医疗数据具有重要的价值和应用潜力，可以支持临床决策、研究和教育等方面的需求。

随着医疗行业的发展和变化，医疗机构可能需要调整其业务流程和信息系统，相应的，医疗数据需要进行适应性更新。而医疗数据通常由多个医疗设备或流程系统生成，因此相关技术中医疗数据通常存储在多个数据表中，每个数据表都有对应的数据管理团队分别进行管理和维护。

但这样的数据管理方法缺乏统一的数据更新机制，其在医疗设备或流程变更时需要协调不同的数据管理团队来同步执行数据更新，数据更新效率较低。

发明内容

本申请提供了一种识别数据变化的自适应表结构调整方法及系统，根据数据的实际使用情况动态地调整表的结构，优化了数据更新的效率性能，保证了数据管理的高效化。

第一方面，本申请提供了一种识别数据变化的自适应表结构调整方法，应用于数据处理系统，该方法包括：获取医疗数据表；该医疗数据表包括M个数据字段；该M为大于或等于0的整数；在获取到来自第一医疗设备的非结构化第一数据之后，通过医疗信息识别模型识别并提取该非结构化第一数据中对应M个数据字段的内容，作为第一条目添加到该医疗数据表；该医疗信息识别模型中包括图像识别子模型和自然语言处理子模型；在获取到来自第二医疗设备的结构化第二数据之后，识别该结构化第二数据包含的N个数据字段的内容，其中包括相对于该M个数据字段不同的A个数据字段；该N或A为大于或等于0的整数；更新该医疗数据表的结构至M+A个数据字段，将该结构化第二数据的N个数据字段的内容作为第二条目添加到该医疗数据表；在获取到来自第一医疗设备的非结构化第三数据之后，通过该医疗信息识别模型识别并提取该非结构化第三数据中对应M+A个数据字段的内容，作为第三条目添加到该医疗数据表。

在上述实施例中，数据处理系统通过识别第二数据中N个数据字段，进一步通过和医疗数据表中的M个数据字段作比较，为医疗数据表新增A个数据字段，使得医疗数据表能够同时存储来自于第一和第二设备的不同数据，在数据更新上达成了统一，提高了数据更新效率。

结合第一方面的一些实施例，在一些实施例中，在该更新该医疗数据表的结构至M+A个数据字段的步骤之后，该方法还包括：监测该医疗数据表中的该M+A个数据字段的调用频率；在B个数据字段的该调用频率低于设定活跃阈值时，确定该B个数据字段为冗余字段；该B为大于或等于0的整数；发送提示信息给用户，提示该用户删除该冗余字段；在该用户确定进行删除后，更新该医疗数据表的结构至M+A-B个数据字段。

在上述实施例中，数据处理系统在医疗数据表的数据字段中存在调用频率较低的冗余字段时，通过及时提示用户并进行字段删除的方法，优化了医疗数据表的内存占用，提高了其空间利用率。

结合第一方面的一些实施例，在一些实施例中，在该更新该医疗数据表的结构至M+A个数据字段的步骤之后，该方法还包括：通过该医疗信息识别模型识别并提取该非结构化第一数据中对应M+A个数据字段的内容，作为第一更改条目；将该医疗数据表中的该第一条目替换为该第一更改条目。

在上述实施例中，数据处理系统在医疗数据表的结构进行更新后，通过对原有数据重新进行提取，并进一步使用更新后的条目数据替换原有条目数据的方法，保证了数据的及时更新，进而保证了医疗数据表中存储数据的全面性和完整性。

结合第一方面的一些实施例，在一些实施例中，在该更新该医疗数据表的结构至M+A个数据字段的步骤之后，该方法还包括：通过该医疗信息识别模型识别并提取该非结构化第一数据中对应A个数据字段的内容，作为第一附加条目；在该医疗数据表中的该第一条目后添加该第一附加条目。

在上述实施例中，数据处理系统在医疗数据表的结构进行更新后，通过对原有数据进行部分提取，并进一步使用提取到的新的条目数据附加到原有条目数据的方法，在保证数据及时更新的同时优化了数据处理步骤，提高了数据处理的效率，还保证的医疗数据表中存储数据的全面性和完整性。

结合第一方面的一些实施例，在一些实施例中，在该更新该医疗数据表的结构至M+A个数据字段的步骤之后，该方法还包括：基于相似度算法，确定该A个数据字段中与该M个数据字段相似度大于预设相似阈值的a个相似数据字段；该a为大于或等于0的整数；基于该M个数据字段的数据处理规则，给该a个相似数据字段绑定相应的数据处理规则。

在上述实施例中，数据处理系统把新增的数据字段和原有的医疗数据字段进行相似度比较，并确认出相似的数据字段，进一步的为其绑定相对应的数据处理规则，简化了数据规则制定步骤，降低了数据管理的难度。

结合第一方面的一些实施例，在一些实施例中，在该基于相似度算法，确定该A个数据字段中与该M个数据字段相似度大于预设相似阈值的a个相似数据字段的步骤之后，该方法还包括：确定该A个数据字段中与该M个数据字段相似度小于预设相似阈值的A-a个不相似数据字段；基于用户的规则制定操作，确定该A-a不相似字段的数据处理规则。

在上述实施例中，数据处理系统把新增的数据字段和原有的医疗数据字段进行相似度比较，并确认出其中不相似的数据字段，进一步的通过用户的规则制定等反馈处理为其绑定相对应的数据处理规则，提高了用户与数据管理系统的交互性。

结合第一方面的一些实施例，在一些实施例中，在该获取医疗数据表的步骤之后，该方法还包括：基于该医疗数据表，确定来自于多个医疗设备的多个数据对应的多个元数据；基于该多个元数据，确定该多个数据的来源和指定信息。

在上述实施例中，数据处理系统获取医疗数据对应的元数据，并基于这些元数据确定这些医疗数据的来源和指定信息，建立了基本的信息保护机制，即在医疗数据表中某条目发生数据丢失时，数据处理系统能根据元数据的记录重新对原有的医疗数据进行提取，补全丢失的信息，保证了数据的可回溯性，提高了数据的安全性。

第二方面，本申请实施例提供了一种数据处理系统，该数据处理系统包括：数据表获取模块，用于获取医疗数据表；该医疗数据表包括M个数据字段；该M为大于或等于0的整数；第一数据处理模块，用于在获取到来自第一医疗设备的非结构化第一数据之后，通过医疗信息识别模型识别并提取该非结构化第一数据中对应M个数据字段的内容，作为第一条目添加到该医疗数据表；该医疗信息识别模型中包括图像识别子模型和自然语言处理子模型；第二数据处理模块，用于在获取到来自第二医疗设备的结构化第二数据之后，识别该结构化第二数据包含的N个数据字段的内容，其中包括相对于该M个数据字段不同的A个数据字段；该N或A为大于或等于0的整数；字段更新模块，用于更新该医疗数据表的结构至M+A个数据字段，将该结构化第二数据的N个数据字段的内容作为第二条目添加到该医疗数据表；第三数据处理模块，用于在获取到来自第一医疗设备的非结构化第三数据之后，通过该医疗信息识别模型识别并提取该非结构化第三数据中对应M+A个数据字段的内容，作为第三条目添加到该医疗数据表。

第三方面，本申请实施例提供了一种数据处理系统，该数据处理系统包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该数据处理系统执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

第四方面，本申请实施例提供一种包含指令的计算机程序产品，当上述计算机程序产品在数据处理系统上运行时，使得上述数据处理系统执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

第五方面，本申请实施例提供一种计算机可读存储介质，包括指令，当上述指令在数据处理系统上运行时，使得上述数据处理系统执行如第一方面以及第一方面中任一可能的实现方式描述的方法。

可以理解地，上述第二方面、第三方面提供的数据处理系统，第四方面提供的计算机程序产品和第五方面提供的计算机存储介质均用于执行本申请实施例所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、由于采用了识别第二数据中N个数据字段，进一步通过和医疗数据表中的M个数据字段作比较，为医疗数据表新增A个数据字段的方法，使得医疗数据表能够同时存储来自于第一和第二设备的不同数据，有效解决了现有技术中的数据更新整合较慢的问题，进而实现了数据更新效率的提升。

2、由于采用了在医疗数据表的结构进行更新后，通过对原有数据进行部分提取，并进一步使用提取到的新的条目数据附加到原有条目数据的方法，所以在保证数据及时更新的同时优化了数据处理步骤，有效解决了现有技术中的数据转化后数据不全面不兼容的问题，进而保证了医疗数据表中存储数据的全面性和完整性。

3、由于采用了获取医疗数据对应的元数据，并基于这些元数据确定这些医疗数据的来源和指定信息的方法，所以在医疗数据表中某条目发生数据丢失时能根据元数据的记录重新对原有的医疗数据进行提取，有效解决了现有技术中医疗数据表中数据丢失进而造成损失的问题，保证了数据的安全性。

附图说明

图1是本申请实施例中医疗数据收集的一个应用场景示意图；

图2是使用相关技术的更新医疗数据的方法的一个示例性场景示意图；

图3是使用本申请实施例中更新医疗数据的方法的一个示例性场景示意图；

图4是本申请实施例中更新医疗数据的方法的一个流程示意图；

图5是本申请实施例中更新医疗数据的方法的另一个场景示意图；

图6是本申请实施例中更新医疗数据的方法的另一个流程示意图；

图7是本申请实施例中数据处理系统的功能模块结构示意图；

图8是本申请实施例中数据处理系统的实体装置结构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

应该说明的是，本文中所叙述的数据表，是指能够记录信息的文件，在实际应用中的表现形式包括但不限于表格、数据库、日志文件等。为便于理解，文中以数据表进行统一叙述。

为便于理解，下面介绍本申请实施例的应用场景图。请参阅图1，为本申请实施例中医疗数据收集的一个应用场景示意图。

图1中示出了一条医疗流程的部分内容，图中可以看出，一条医疗流程可以由多个医疗实验过程或医疗检验设备的检测过程组成。而医疗流程中各阶段的数据都需要记录在医院专用计算机上，便于医生进行查询或诊断，即需要将流程中生成的医疗数据上传到医院计算机的数据表中，生成一个和此流程相关的医疗数据表。

例如，在某实际的医疗检验流程中，对就诊者A进行诊断时，计算机上会登记就诊者A的个人信息到一个数据表上，该数据表即医疗数据表；通过医生的检查和判断，在医疗数据表上记录就诊者A的病史、诊断结果等相关信息；进一步的，如果就诊者A选择进行医学检验，医疗设备上就诊者A的检验结果也将记录到医疗数据表上。最终，整个诊断流程下来，医疗数据表上能够得到就诊者A的完整的问询、就诊和检验记录。在收集无数个如同就诊者A的就诊者的医疗数据后，该医疗数据表记录的信息将变得非常庞大。

此时该医疗数据表的维护方面就面临了一些问题。由于医疗科技的进步，医院会更换或升级医疗设备系统，同时也会优化医疗流程。对应的，在进行医疗设备、系统或医疗流程的优化时，数据的类型或数量发生了变化，原有的医疗数据表无法记录新的医疗数据，需要建立新的医疗数据表来对新的医疗数据进行记录。其中如何进行相应医疗数据的迁移，即如何将数据从旧表转移到新表也成为了一大难题。

在相关技术中，可以通过人工操作来进行数据表格的合并，实现医疗数据的更新整合。请参阅图2，为使用相关技术的更新医疗数据的方法的一个示例性场景示意图。

图2中示出了两条医疗流程，分别为医疗流程A和医疗流程B，两条流程的不同点在于采用了不同的医疗检验设备。为方便理解，图2中省略了如图1所示的医院专用计算机的信息收集过程，由流程中的医疗设备直接对应到不同的医疗数据表。即图中使用了医疗设备A的医疗流程A，数据记录在医疗数据表A上；同理使用了医疗设备B的医疗流程B，数据记录在医疗数据表B上。

图2所示的场景中，展示了某医院招标的两台设备，分别为医疗检验设备A和医疗检验设备B。该医院对于两台设备处于试用阶段，基于检验结果的准确性和相应成本的考量，最终将会决定使用其中的一台设备。

两台设备处理了相同的检验项目，但生成的数据有所不同，医疗检验设备B生成的医疗数据表B相比于医疗数据表A多了一个检验项目参数。即如图2所示，医疗数据表B中的就诊人王五，相比于医疗数据表A中的就诊人张三和李四，多检查了一个项目3。

在经过一段时间的试用后，医院决定使用医疗检验设备B，即采用医疗流程B，而医疗流程A将会被舍弃，对应的，医疗数据表A中的数据需要转移到医疗数据表B中来，便于进行统一管理。两台设备有不同的技术负责人，数据的记录也由其负责人进行管理，在进行数据表的合并时，需要统一两个负责人的意见，如确定数据表中的数据是否完整正确、转移后数据是否丢失等。而由于数据较多、数据量大，数据合并的效率非常低。

应该说明的是，为便于理解，图中展示的是简化场景。实际应用中两个流程的差异远远不只于图中所示的单个设备的差异，差异更可能体现在不同的实验流程、不同的实验数据的记录上。因此两个医疗数据表的差异远不只于图中所示的单个项目数据的有无，在数据的类型和数量上可能存在更多差异。例如，医疗流程B可能拍摄了病理样本图像，而医疗流程A没有，两者的信息在收集记录和后续处理上存在着千差万别。

而采用本申请实施例中的更新医疗数据的方法，通过医疗数据表随着不同的医疗数据进行适应性变化，实现了单个医疗数据表记录不同的医疗数据的功能，不仅避免了多表管理的麻烦，还简化了医疗流程优化后数据表合并的步骤，提高了数据更新效率。

请参阅图3，为使用本申请实施例中更新医疗数据的方法的一个示例性场景示意图。

图3同样示出了示出了使用医疗检验设备A和B的两条医疗流程，但两条医疗流程A和B的医疗数据均存储在医疗数据表S中。

对比于上述图2中的场景，在医院决定使用医疗检验设备B后，对应的医疗数据表S无需进行任何调整，因为其表中同时记录了医疗检验设备A和医疗检验设备B的医疗数据。即如图3所示，医疗数据表S同时记录了使用医疗检验设备A进行检测的张三、李四的医疗数据和使用了医疗检验设备B进行检测的王五的医疗数据。整个医疗数据表S可统一交由一人进行管理，省去了多表多人管理的麻烦。

可见，采用本申请实施例中的更新医疗数据的方法，在实现多医疗数据统一记录的同时，还可以有效解决流程更新时数据迁移难的问题，进而实现了数据更新效率的提升。

应该说明的是，在实际的医疗数据收集中，医疗数据可分为结构化数据和非结构化数据。结构化数据是指按照预定义的模式和格式进行组织的数据，每个数据字段都有明确定义的数据类型和约束条件，常见的结构化数据为包括姓名、就诊时间等在内的数字文本数据；而非结构化数据是没有明确结构和格式的数据，其形式多种多样，常见的非结构化数据包括诊断意见、病理图像、病理音视频等。

数据字段是指数据表中的最小数据单元，用于存储和表示特定类型的数据，在医疗数据表中体现为数据表的项，如图2和图3中的姓名、项目1、项目2、结果等。医疗数据的不同具体体现在其包含的数据字段的不同和其数据结构的不同，例如图2中两个医疗数据表记录的数据字段项目3有所不同，又例如实际情况中对于病理样本图像的采集与否，其生成的数据又有所不同。

后文中实施例的流程叙述了两个不同医疗设备的数据处理过程，通过对两个不同医疗设备的不同结构数据的处理，完整展示了本方法相对于相关技术提高了数据更新效率的优点。

同时应当注意的是，本方法实施的数据表的更新方法，不应该因为上述的场景，就限定在两个不同医疗流程上的医疗数据的合并上；在实际应用中，同一个医疗流程可能因为设备不同而将医疗数据分别记录在不同的医疗数据表中，本方法也可提供在一个流程上的不同医疗数据表的合并记录和更新。

为便于理解，下面结合上述场景，对本实施提供的方法进行流程叙述。请参阅图4，为本申请实施例中更新医疗数据的方法的一个流程示意图。

S401、获取医疗数据表。

数据处理系统先获取医疗数据表，该医疗数据表与上述场景中相同，是指能够记录医疗数据的数据文件。该医疗数据表由工作人员进行预设，其中包含初始的M个数据字段，该M为大于或等于0的整数。

在一些实施例中，在不存在医疗数据的情况下，数据处理系统可以自行生成对应的医疗数据表，并进一步根据需要记录的医疗数据中数据字段的多少确定M的大小。

S402、在获取到来自第一医疗设备的非结构化第一数据之后，通过医疗信息识别模型识别并提取该非结构化第一数据中对应M个数据字段的内容，作为第一条目添加到该医疗数据表。

数据处理系统在获取到来自第一医疗设备的非结构化第一数据之后，由于该第一数据为非结构化数据，数据处理系统无法直接提取出其中的字段，此时数据处理系统会借助医疗信息识别模型对该非结构化第一数据进行识别，并提取出其中与M个数据字段相对应的数据内容。进一步的，数据处理系统会将该数据内容作为第一条目添加到该医疗数据表中。

具体的，该医疗信息识别模型中包括图像识别子模型和自然语言处理子模型，能通过图像和语言识别提取出该非结构化的第一数据的对应于医疗数据表中M个数据字段的关键信息。

应当注意的是，这里与后文叙述的医疗设备，是指能够生成医疗数据的设备，包括但不限于医疗检验设备和医院专有的计算机设备。前者依靠实验结果生成相应参数，如病理图像、检验结果参数等；后者依靠医院工作人员手动录入或相关系统自动录入对应信息，如诊断意见、就诊人的个人信息等。

例如，某医疗数据表中包含姓名、项目1、项目2和结果这4项数据字段，数据处理系统通过医疗信息识别模型对医生在医院计算机上录入的诊断意见表进行提取，该诊断意见表为第一数据，得到相应的就诊人的姓名为张三、项目1参数为xx、项目2参数为xxx、结果为正常的信息，并将这些信息作为第一条目，添加到该医疗数据表中。

S403、在获取到来自第二医疗设备的结构化第二数据之后，识别该结构化第二数据包含的N个数据字段的内容，其中包括相对于该M个数据字段不同的A个数据字段。

对于第二医疗设备，数据处理系统获取其发送的结构化的第二数据后，由于该第二数据为结构化数据，数据处理系统能直接识别出其中包含的N个数据字段的内容。

由于是不同于第一医疗设备的第二医疗设备生成的，该N个数据字段的内容不对应于上述设置的M个数据字段，即此时的医疗数据表无法完整地记录这N个数据字段，因为该N个数据字段中包括相对于该M个数据字段不同的A个数据字段。

接上述示例，医疗数据表中包含姓名、项目1、项目2和结果这4项数据字段，但相对于医生手动录入的第一数据信息，某自动化设备能自动生成姓名、项目1、项目2、项目3和结果这5项数据字段，这些数据合称为第二数据信息。其中有一项为项目3，与原医疗数据表的数据字段不同，即此时的M为4，N为5，A为1。

S404、更新该医疗数据表的结构至M+A个数据字段，将该结构化第二数据的N个数据字段的内容作为第二条目添加到该医疗数据表。

数据处理系统在识别到该第二数据中包含的N个数据字段的内容，并计算出相应的不同数据字段A后，会更新该医疗数据表的结构到M+A个数据字段。此时的医疗数据表因为包含初始的M个数据字段，同时包含A个第二数据中新增的字段，可同时记录第一数据和第二数据。

进一步的，数据处理系统会将第二数据提取出的N个数据字段的内容作为第二条目，并添加到该医疗数据表中。

接上述示例，医疗数据表变为包含姓名、项目1、项目2、项目3和结果这5项数据字段的状态，可同时记录医生手动录入的第一数据信息和自动化设备生成的第二数据信息。

S405、在获取到来自第一医疗设备的非结构化第三数据之后，通过该医疗信息识别模型识别并提取该非结构化第三数据中对应M+A个数据字段的内容，作为第三条目添加到该医疗数据表。

在该医疗数据表的结构更新到M+A个数据字段之后，若再接收到来着第一医疗设备的信息时，数据处理系统会根据此时数据字段的数量，做适应性的识别。

便于叙述，此时接收到的数据信息记为非结构化的第三数据，同样的，数据处理系统无法直接提取出其中的字段，此时数据处理系统会通过医疗信息识别模型对该非结构化第三数据进行识别，并提取出其中与M+A个数据字段相对应的数据内容。进一步的，数据处理系统会将该数据内容作为第三条目添加到该医疗数据表中。

接上述示例，医疗数据表变为包含姓名、项目1、项目2、项目3和结果这5项数据字段的状态之后，再次接收到记录医生手动录入的诊断意见表时，数据处理系统通过医疗信息识别模型进行提取，得到相应的就诊人的姓名为李四、项目1参数为xx、项目2参数为xxxx、项目3参数为-、结果为异常的信息，并将这些信息作为第三条目，添加到该医疗数据表中。

上面实施例中，通过对不同的医疗数据的字段进行提取，并进一步对比数据中字段与当前医疗数据表中的字段，对医疗数据表进行适应性的改变，保证了多设备多类型数据的统一记录，提高了数据更新效率。在实际应用中，由于设备或相应流程的改变相对比较复杂，涉及到数据字段的增删改查，该医疗数据表需要适应性地拥有更多更全面的更新方法。

下面对本实施例的场景进行补充。请参阅图5，为本申请实施例中更新医疗数据的方法的另一个场景示意图。

图5中示出了一个医疗数据表更新的场景。在该场景中，医疗数据表中有一项数据字段为选项A，该选项A为体现结果正常与否的数字数据，0为异常，1为正常，该选项A由于与结果重复，且可读性差，在实际的数据调取中使用较少。数据处理系统在判断该选项A调用较少时，提示用户进行数据删除，用户点击删除选项后，医疗数据表中的选项A消失不见。

图5场景的另一方面，在张三和李四的条目信息中，项目3为空选项，记为-，数据处理系统通过对原数据的重新识别和提取，分别得到并更新了张三和李四条目中的项目3信息为xx和x。

在结合上述场景后，下面对本实施提供的方法进行进一步的更具体的流程叙述。请参阅图6，为本申请实施例中更新医疗数据的方法的另一个流程示意图。

S601、获取医疗数据表。

参考步骤S401，数据处理系统先获取医疗数据表，该医疗数据表与上述场景中相同，是指能够记录医疗数据的数据文件。该医疗数据表由工作人员进行预设，其中包含初始的M个数据字段。

在一些实施例中，数据处理系统会基于该医疗数据表，确定来自于多个医疗设备的多个数据对应的多个元数据，即数据处理系统在获取医疗数据的同时，会获取对应的元数据信息。元数据是描述数据的一种数据，它提供了关于数据的定义、结构、属性、关系以及数据的来源、格式、质量等信息。元数据可以被用于数据管理、数据集成、数据分析和数据交换等方面。

进一步的，基于这些元数据，数据处理系统会确定这些数据的来源和指定信息，以方便后续数据的溯源处理。例如，在医疗数据表中某条目发生信息丢失时，数据处理系统能根据元数据中的记录信息，重新找到原有的医疗数据，并对其进行提取，补全丢失的信息。

S602、在获取到来自第一医疗设备的非结构化第一数据之后，通过医疗信息识别模型识别并提取该非结构化第一数据中对应M个数据字段的内容，作为第一条目添加到该医疗数据表。

参考步骤S402，数据处理系统在获取到来自第一医疗设备的非结构化第一数据之后，由于该第一数据为非结构化数据，数据处理系统无法直接提取出其中的字段，此时数据处理系统会借助医疗信息识别模型对该非结构化第一数据进行识别，并提取出其中与M个数据字段相对应的数据内容。进一步的，数据处理系统会将该数据内容作为第一条目添加到该医疗数据表中。

S603、在获取到来自第二医疗设备的结构化第二数据之后，识别该结构化第二数据包含的N个数据字段的内容，其中包括相对于该M个数据字段不同的A个数据字段。

参考步骤S403，对于第二医疗设备，数据处理系统获取其发送的结构化的第二数据后，由于该第二数据为结构化数据，数据处理系统能直接识别出其中包含的N个数据字段的内容。该N个数据字段的内容不对应于上述设置的M个数据字段，其中包括相对于该M个数据字段不同的A个数据字段。

S604、更新该医疗数据表的结构至M+A个数据字段。

参考步骤S404，数据处理系统在识别到该第二数据中包含的N个数据字段的内容，并计算出相应的不同数据字段A后，会更新该医疗数据表的结构到M+A个数据字段。此时的医疗数据表因为包含初始的M个数据字段，同时包含A个第二数据中新增的字段，可同时记录第一数据和第二数据。

在一些实施例中，数据处理系统会基于相似度算法，确定A个数据字段中与M个数据字段相似度大于预设相似阈值的a个相似数据字段，a为大于或等于0的整数，即确定新增的A个数据字段中与原有数据的形式相同的数据字段。进一步的，基于M个数据字段中数据的处理规则，给该a个相似数据字段绑定相应的数据处理规则。

数据处理规则用于指导和规范数据的采集、存储、传输、分析和使用等环节，以确保数据的安全性、完整性和合法性。在实际应用中，数据处理规则包括数据的加密、调用、引用和其他的一些功能，例如，某些数据由于涉及到客户的隐私，如客户的姓名、年龄等身份信息数据，会采用加密算法，在进行这些数据的存储和读取时会有特定的读写规则；又例如用户点击某些数据能够跳转到更详细的数据页面；再有，对于某些数据，用户点击后能够对数据进行删除或修改等。

在一些实施例中，对于其他不相似的数据字段，数据处理系统会基于用户的操作制定相应的数据处理规则。具体的，数据处理系统确定该A个数据字段中剩下的、与该M个数据字段相似度小于预设相似阈值的A-a个不相似数据字段。进一步的，基于用户的规则制定操作，确定这些A-a个不相似字段的数据处理规则。

S605、通过该医疗信息识别模型识别并提取该非结构化第一数据中对应M+A个数据字段的内容，作为第一更改条目。

在数据处理系统更新该医疗数据表的结构到M+A个数据字段之后，会进一步检测更新之前的数据，并对这些数据进行更新。具体的，此时数据处理系统会借助医疗信息识别模型对此前的非结构化第一数据进行识别，并提取出其中与M+A个数据字段相对应的数据内容。进一步的，将该数据内容作为第一更改条目。

S606、将该医疗数据表中的该第一条目替换为该第一更改条目。

在确定第一更改条目后，数据处理系统会将医疗数据表中的第一条目进行替换，替换为该第一更改条目，使得第一条目对应的数据内容更加全面完整。

例如，在图5中，医疗数据表中张三对应的条目进行了替换，替换后新增了项目3的数据xx。

应该说明的是，A数据字段，即这里的项目3不应该被限定为医疗检验的项目，项目3只是一个数据字段的示例，在实际情况中也可能为某个具体的参数，如就诊人的登记时间、年龄等已有但先前未进行记录的信息。

S607、通过该医疗信息识别模型识别并提取该非结构化第一数据中对应A个数据字段的内容，作为第一附加条目。

同样的，为简化医疗数据表中的数据操作，可以将上述S605和S606中的数据替换操作具体为某些部分的新增操作。

具体的，在数据处理系统更新该医疗数据表的结构到M+A个数据字段之后，数据处理系统会借助医疗信息识别模型对此前的非结构化第一数据进行识别，并只提取出其中与A个数据字段相对应的数据内容。进一步的，将该数据内容作为第一附加条目。

S608、在该医疗数据表中的该第一条目后添加该第一附加条目。

在确定第一附加条目后，数据处理系统会在医疗数据表的第一条目中进行进行数据添加，添加该第一附加条目，使得第一条目对应的数据内容更加全面完整。例如，在图5中，可理解为数据处理系统对医疗数据表中李四对应的条目进行了数据添加，添加了项目3的数据x。

S609、监测该医疗数据表中的该M+A个数据字段的调用频率。

另外，对于医疗数据表中一些没必要的数据字段，即冗余字段的及时清理有助于优化医疗数据表的内存占用，提高其空间利用率。

具体的，数据处理系统会监测该医疗数据表中的M+A个数据字段的调用频率，调用频率是指医院在进行数据结果生成时、或通过该医疗数据表进行数据查询时，使用该数据字段的频率，直接反映了该数据字段的重要程度。即调用频率越高则该数据越重要；调用频率越低则该数据越不重要。

S610、在B个数据字段的该调用频率低于设定活跃阈值时，确定该B个数据字段为冗余字段。

在固定时间内检测到某个数据字段的调用次数低于设定值，即该数据字段的调用频率低于设定的活跃阈值时，数据处理系统确定该数据字段为冗余字段。冗余字段可能不只一个，数据处理系统会进行统一检测和收集，确定B个冗余字段。

S611、发送提示信息给用户，提示该用户删除该冗余字段。

在确定冗余字段后，数据处理系统会发送提示信息给用户，用以提示该用户删除该冗余字段。

具体的，提示信息包括但不限于界面弹窗形式、短信或其他通知形式，图5中示出了该提示信息，提示信息下有两个控件按钮，用户可选择删除或取消。

S612、在该用户确定进行删除后，更新该医疗数据表的结构至M+A-B个数据字段。

如图5所示，在用户点击删除按钮后，即确定该B个冗余字段可以删除，数据处理系统会更新该医疗数据表的结构至M+A-B个数据字段，此时的医疗数据表将不包含B个冗余字段。

在一些实施例中，提示信息可对该B个冗余字段的删除分别提示，即用户可选择删除其中的一个或多个，医疗数据表也会根据用户的删除所选删除对应的数据字段。

在一些实施例中，该B个冗余字段的删除可以不为常规意义上的数据删除，由于字段可能有特殊用处，这些字段的删除主要体现在表格的显示层面上的删除，即字段可以被隐藏，也可以放入特殊的回收容器中暂时存储，只需要在用户的角度无法观测到该字段即可。

本申请实施例中，由于在医疗数据表结构发生变化时，及时对旧数据进行了相应更新，保证了数据的完整性，同时通过相关冗余字段的及时删除，保证了医疗数据表的空间利用率，有效解决了相关技术对数据进行更新整合时复杂度较高的问题，进而实现了医疗数据的准确性和高效性。

在一些实施例中，数据处理系统会将来自不同业务厂商的数据集成在医疗数据表上，以该医疗数据表为基础建立医疗数据底座。数据底座是用来描述数据管理和处理系统中的核心组件或基础设施，它提供了数据存储、数据处理和数据访问等功能，以支持数据的有效管理和利用。该医疗数据底座可用于对医院的医疗数据资产进行统一管理。

同时在一些实施例中，数据处理系统可以对该医疗数据表中数据的变化进一步进行分析处理。具体的，数据处理系统会定期监控该医疗数据表中的数据变化情况，例如数据的插入、删除或修改等操作；进一步的，根据这些操作的触发频率，对表格中各个数据的管理执行相应优化，例如对于修改比较频繁的数据，可以将其放在比较显眼的区域，便于工作人员确定其修改是否合理；同时，数据处理系统可以基于监控到的数据变化分析表的查询、更新等基础性能，并进行可视化展示。

下面从模块的角度介绍本申请实施例中的数据处理系统。请参阅图7，为本申请实施例中数据处理系统的一种数据处理系统的功能模块结构示意图。

该数据处理系统包括：

数据表获取模块701，用于获取医疗数据表；该医疗数据表包括M个数据字段；该M为大于或等于0的整数；

数据处理模块702，用于在获取到来自第一医疗设备的非结构化第一数据之后，通过医疗信息识别模型识别并提取该非结构化第一数据中对应M个数据字段的内容，作为第一条目添加到该医疗数据表；该医疗信息识别模型中包括图像识别子模型和自然语言处理子模型；

其中数据处理模块702还用于在获取到来自第二医疗设备的结构化第二数据之后，识别该结构化第二数据包含的N个数据字段的内容，其中包括相对于该M个数据字段不同的A个数据字段；该N或A为大于或等于0的整数；

字段更新模块703，用于更新该医疗数据表的结构至M+A个数据字段，将该结构化第二数据的N个数据字段的内容作为第二条目添加到该医疗数据表；

其中数据处理模块702还用于在获取到来自第一医疗设备的非结构化第三数据之后，通过该医疗信息识别模型识别并提取该非结构化第三数据中对应M+A个数据字段的内容，作为第三条目添加到该医疗数据表。

需要说明的是，数据处理模块702包括上文叙述的第一数据处理模块、第二数据处理模块和第三数据处理模块，所谓第一、第二、第三只是对其在处理顺序上的一个习惯性表述。

在一些实施例中，该数据处理系统还包括：

监测模块704，用于监测该医疗数据表中的该M+A个数据字段的调用频率；

定性模块705，用于在B个数据字段的该调用频率低于设定活跃阈值时，确定该B个数据字段为冗余字段；该B为大于或等于0的整数；

提示模块706，用于发送提示信息给用户，提示该用户删除该冗余字段；

其中数据处理模块702还用于在该用户确定进行删除后，更新该医疗数据表的结构至M+A-B个数据字段。

在一些实施例中，该数据处理系统的数据处理模块702还用于通过该医疗信息识别模型识别并提取该非结构化第一数据中对应M+A个数据字段的内容，作为第一更改条目，同时将该医疗数据表中的该第一条目替换为该第一更改条目。

在一些实施例中，该数据处理系统的数据处理模块702还用于通过该医疗信息识别模型识别并提取该非结构化第一数据中对应A个数据字段的内容，作为第一附加条目，同时在该医疗数据表中的该第一条目后添加该第一附加条目。

在一些实施例中，定性模块705还用于基于相似度算法，确定该A个数据字段中与该M个数据字段相似度大于预设相似阈值的a个相似数据字段；该a为大于或等于0的整数；该数据处理系统还包括：

规则绑定模块707，用于基于该M个数据字段的数据处理规则，给该a个相似数据字段绑定相应的数据处理规则。

在一些实施例中，定性模块705还用于确定该A个数据字段中与该M个数据字段相似度小于预设相似阈值的A-a个不相似数据字段；该数据处理系统还包括：

规则制定模块708，用于基于用户的规则制定操作，确定该A-a不相似字段的数据处理规则。

在一些实施例中，该数据处理系统还包括：

元数据模块709，用于基于该医疗数据表，确定来自于多个医疗设备的多个数据对应的多个元数据；

溯源模块710，用于基于该多个元数据，确定该多个数据的来源和指定信息。

上面从模块化功能实体的角度对本申请实施例中的数据处理系统进行描述，下面从硬件处理的角度对本发明申请实施例中的数据处理系统进行描述，请参阅图8，为本申请实施例中数据处理系统的一种数据处理系统的实体装置结构示意图。

需要说明的是，图8示出的数据处理系统的结构仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，数据处理系统包括中央处理单元（Central Processing Unit，CPU）801，其可以根据存储在只读存储器（Read-Only Memory，ROM）802中的程序或者从存储部分808加载到随机访问存储器（Random Access Memory，RAM）803中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（Input/Output，I/O）接口805也连接至总线804。

以下部件连接至I/O接口805：包括扫描仪、键盘、鼠标等的输入部分806；包括液晶显示器（Liquid Crystal Display，LCD）以及打印机、音响等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN（Local Area Network，局域网）卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元（CPU）801执行时，执行本发明中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

具体的，本实施例的数据处理系统包括处理器和存储器，存储器上存储有计算机程序，计算机程序被处理器执行时，实现上述实施例提供的光谱信息测量方法。

作为另一方面，本发明还提供了一种计算机可读的存储介质，该存储介质可以是上述实施例中描述的数据处理系统中所包含的；也可以是单独存在，而未装配入该数据处理系统中。上述存储介质承载有一个或者多个计算机程序，当上述一个或者多个计算机程序被一个该数据处理系统的处理器执行时，使得该数据处理系统实现上述实施例中提供的方法。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到（所陈述的条件或事件）”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到（所陈述的条件或事件）时”或“响应于检测到（所陈述的条件或事件）”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站的站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线）或无线（例如红外、无线、微波等）方式向另一个网站的站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质（例如固态硬盘）等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种识别数据变化的自适应表结构调整方法，其特征在于，应用于数据处理系统，所述方法包括：

获取医疗数据表；所述医疗数据表包括M个数据字段；所述M为大于或等于0的整数；

在获取到来自第一医疗设备的非结构化第一数据之后，通过医疗信息识别模型识别并提取所述非结构化第一数据中对应M个数据字段的内容，作为第一条目添加到所述医疗数据表；所述医疗信息识别模型中包括图像识别子模型和自然语言处理子模型；

在获取到来自第二医疗设备的结构化第二数据之后，识别所述结构化第二数据包含的N个数据字段的内容，其中包括相对于所述M个数据字段不同的A个数据字段；所述N或A为大于或等于0的整数；

更新所述医疗数据表的结构至M+A个数据字段，将所述结构化第二数据的N个数据字段的内容作为第二条目添加到所述医疗数据表；

在获取到来自第一医疗设备的非结构化第三数据之后，通过所述医疗信息识别模型识别并提取所述非结构化第三数据中对应M+A个数据字段的内容，作为第三条目添加到所述医疗数据表；

监测所述医疗数据表中的所述M+A个数据字段的调用频率；

在B个数据字段的所述调用频率低于设定活跃阈值时，确定所述B个数据字段为冗余字段；所述B为大于或等于0的整数；

发送提示信息给用户，提示所述用户删除所述冗余字段；

在所述用户确定进行删除后，更新所述医疗数据表的结构至M+A-B个数据字段。

2.根据权利要求1所述的方法，其特征在于，在所述更新所述医疗数据表的结构至M+A个数据字段的步骤之后，所述方法还包括：

通过所述医疗信息识别模型识别并提取所述非结构化第一数据中对应M+A个数据字段的内容，作为第一更改条目；

将所述医疗数据表中的所述第一条目替换为所述第一更改条目。

3.根据权利要求1所述的方法，其特征在于，在所述更新所述医疗数据表的结构至M+A个数据字段的步骤之后，所述方法还包括：

通过所述医疗信息识别模型识别并提取所述非结构化第一数据中对应A个数据字段的内容，作为第一附加条目；

在所述医疗数据表中的所述第一条目后添加所述第一附加条目。

4.根据权利要求1所述的方法，其特征在于，在所述更新所述医疗数据表的结构至M+A个数据字段的步骤之后，所述方法还包括：

基于相似度算法，确定所述A个数据字段中与所述M个数据字段相似度大于预设相似阈值的a个相似数据字段；所述a为大于或等于0的整数；

基于所述M个数据字段的数据处理规则，给所述a个相似数据字段绑定相应的数据处理规则。

5.根据权利要求4所述的方法，其特征在于，在所述基于相似度算法，确定所述A个数据字段中与所述M个数据字段相似度大于预设相似阈值的a个相似数据字段的步骤之后，所述方法还包括：

确定所述A个数据字段中与所述M个数据字段相似度小于预设相似阈值的A-a个不相似数据字段；

基于用户的规则制定操作，确定所述A-a不相似字段的数据处理规则。

6.根据权利要求1所述的方法，其特征在于，在所述获取医疗数据表的步骤之后，所述方法还包括：

基于所述医疗数据表，确定来自于多个医疗设备的多个数据对应的多个元数据；

基于所述多个元数据，确定所述多个数据的来源和指定信息。

7.一种数据处理系统，其特征在于，包括：

数据表获取模块，用于获取医疗数据表；所述医疗数据表包括M个数据字段；所述M为大于或等于0的整数；

第一数据处理模块，用于在获取到来自第一医疗设备的非结构化第一数据之后，通过医疗信息识别模型识别并提取所述非结构化第一数据中对应M个数据字段的内容，作为第一条目添加到所述医疗数据表；所述医疗信息识别模型中包括图像识别子模型和自然语言处理子模型；

第二数据处理模块，用于在获取到来自第二医疗设备的结构化第二数据之后，识别所述结构化第二数据包含的N个数据字段的内容，其中包括相对于所述M个数据字段不同的A个数据字段；所述N或A为大于或等于0的整数；

字段更新模块，用于更新所述医疗数据表的结构至M+A个数据字段，将所述结构化第二数据的N个数据字段的内容作为第二条目添加到所述医疗数据表；

第三数据处理模块，用于在获取到来自第一医疗设备的非结构化第三数据之后，通过所述医疗信息识别模型识别并提取所述非结构化第三数据中对应M+A个数据字段的内容，作为第三条目添加到所述医疗数据表；

监测模块，用于监测所述医疗数据表中的所述M+A个数据字段的调用频率；

定性模块，用于在B个数据字段的所述调用频率低于设定活跃阈值时，确定所述B个数据字段为冗余字段；所述B为大于或等于0的整数；

提示模块，用于发送提示信息给用户，提示所述用户删除所述冗余字段；

第四数据处理模块，用于在所述用户确定进行删除后，更新所述医疗数据表的结构至M+A-B个数据字段。

8.一种数据处理系统，其特征在于，包括：一个或多个处理器和存储器；

所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述数据处理系统执行如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在数据处理系统上运行时，使得所述数据处理系统执行如权利要求1-6中任一项所述的方法。