CN117524464B

CN117524464B - 一种基于大数据的计算手术后目标血红蛋白的方法及系统

Info

Publication number: CN117524464B
Application number: CN202410012113.7A
Authority: CN
Inventors: 王民; 王蕾
Original assignee: Beijing Healsci Chuanglian Health Technology Co ltd
Current assignee: Beijing Healsci Chuanglian Health Technology Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-04-05
Anticipated expiration: 2044-01-04
Also published as: CN117524464A

Abstract

本发明公开了一种基于大数据的计算手术后目标血红蛋白的方法及系统，属于数据处理技术领域，包括：步骤S1：基于各个特征标签从集成数据库中提取特征信息，构建资料分析库；步骤S2：设置多个第一维度区间，分别将资料分析库划分为多个第一维数组、第二维数组和第三维数组；步骤S3：分别获取第一维度值、第二维度值和第三维度值，基于第三维度值生成术后血红蛋白输入的最佳时间点；步骤S4：输入待手术患者的术前信息，输出对应的第一维度值、第二维度值和第三维度值，计算术后血红蛋白输入的目标估值和最佳时间点。通过本发明可以计算术后血红蛋白的目标估值以确定可靠的输血方案，从而避免血液资源浪费的问题。

Description

一种基于大数据的计算手术后目标血红蛋白的方法及系统

技术领域

本发明属于数据处理技术领域，具体涉及一种基于大数据的计算手术后目标血红蛋白的方法及系统。

背景技术

输血是手术中的常见操作，“限制性输血”主要指在临床治疗中，医生尽可能地限制使用血液制品，只在必要时进行输血，以减少输血的风险和并发症。实现限制性输血主要方法是设置更低的输血阈值，只有在血红蛋白水平低于该阈值时才进行输血。由于设定阈值的复杂性和难以单维度评价，产生了难以确定输血阈值的问题，造成血液资源浪费或输注不足影响患者预后的结果，因此，在需要确定具体患者的输血阈值时，基于大数据的计算手术后目标血红蛋白的方法具有重要的价值。

例如中国专利申请“CN106250689B”公开了一种基于氧供平衡原理建立的临床输血需求量评估与疗效评价的系统和方法，系统包括数据收集模块，数据存储模块，数据处理模块，数据显示模块。该方法通过比较实际检测到的输血后血红蛋白升高浓度和预期理论上血红蛋白升高的浓度差值，并根据积累的数据进一步精准计算出不同受血者在现有情况下的推荐输注量，同时能够自动评估每次输注后的治疗效果，并在积累受血者的主观感受评价输血效果的基础上，建立一种新的输血后效果评价体系。该方法能够实现临床红细胞输注需求评估和红细胞输注疗效的科学评价，减少患者痛苦，降低医生工作量，降低输血风险，节约血液资源，是指导临床科学合理输血不可或缺的工具。又例如中国专利申请“CN116030990B”公开了一种基于级联模型的围手术期输血方案生成方法及系统，获取历史术前贫血纠正数据，基于历史术前贫血纠正数据建立术前贫血预测模型，获取历史手术数据，基于历史手术数据建立术中失血量预测模型，获得术中失血量预测信息，获取历史术中输血数据，基于历史术中输血数据建立术中输血量预测模型，获得术中输血量预测信息，获取出现术中大出血的历史手术记录，基于历史手术记录建立大出血预测模型，获得术中大出血危险因素评估报告，该发明通过建立多个模型，多个模型互联互通，从而生成围手术期术前、术中和术后的输血策略，从而为患者的输血方案提供决策基础。

然而，上述现有技术中仅对患者输血后的效果进行评价并通过失血量来预测输血量，在实际情况中，需要结合患者的生理特征等综合因素计算术后目标血红蛋白，以确定可靠的输血方案。

发明内容

为解决上述问题，本发明提供了一种基于大数据的计算手术后目标血红蛋白的方法、系统及存储介质，以解决现有技术中的问题。

为了达到上述的发明目的，本发明提出一种基于大数据的计算手术后目标血红蛋白的方法，包括：

采集单元收集样本数据，将各个所述样本数据集成生成集成数据库，所述集成数据库包括文本信息和数值信息，设置多种特征标签，所述特征标签包括第一标签、第二标签和第三标签，所述第一标签包括年龄、体重和性别，所述第二标签包括科室名称和手术名称，所述第三标签包括血红蛋白检测值、检测偏移时间和输血偏移时间，基于各个所述特征标签从所述集成数据库中提取与不同标签对应的特征信息，基于所述特征信息构建资料分析库，并发送至分类单元；

所述分类单元内设置多个第一维度区间，将所述资料分析库中位于相同所述第一维度区间内的所述第一标签分类至同一第一维数组内，以划分为多个所述第一维数组，基于相同所述第二标签将所述资料分析库划分为多个第二维数组，基于相同所述第二标签将所述第一维数组划分为多个第三维数组，将各个维数组传输至处理单元；

所述处理单元基于所述第一维数组中所述第三标签的所述特征信息获取第一维度值，基于所述第二维数组中所述第三标签的所述特征信息获取第二维度值，基于所述第三维数组中所述第三标签的所述特征信息获取第三维度值，基于所述第三维度值生成术后血红蛋白输入的最佳时间点，将各个维度值和所述最佳时间点发送至输出单元；

在所述输出单元中输入待手术患者的术前信息，分别选取所述术前信息对应的所述第一维数组、所述第二维数组和所述第三维数组，对应输出所述第一维度值、所述第二维度值和所述第三维度值，并生成所述待手术患者对应所述术后血红蛋白输入的目标估值和所述最佳时间点；

基于以下步骤生成所述集成数据库：

建立预测模型对各个所述样本数据进行纳排，所述预测模型是指神经网络模型，所述预测模型用于预测所述样本数据中输血偏移时间，在所述样本数据中分别获取第一数据组和第二数据组，所述第一数据组和所述第二数据组包含不同的子标签，所述第一数据组为目标科室所建立的数据集合，所述第二数据组为非目标科室所建立的数据集合，基于第一公式计算各个数据组的评价值W，所述第一公式为：，其中，/>和/>为权重系数，/>为将各个数据组输入至所述预测模型后，所述预测模型输出的预测准确率，/>为输入所述预测模型中各个数据组的样本数量，将所述第二数据组拆分为第三数据组和第四数据组，基于所述第一公式分别计算所述第三数据组和所述第四数据组的第三评价值和第四评价值，比较所述第三评价值和所述第四评价值的大小，获取较高评价值对应的数据组，并从中抽取所述第一数据组中不包含的所述子标签定义为扩展标签，将所述扩展标签对应的数据整合至所述第一数据组中，以获得第五数据组，基于所述第一公式分别获取所述第一数据组和所述第五数据组的第一评价值和第五评价值，若所述第五评价值大于等于所述第一评价值，则将所述第五数据组设定为所述集成数据库，否则，删除所述扩展标签对应的数据，并将所述第二数据组重新拆分为所述第三数据组和所述第四数据组，重复执行此步骤，直至完成所述第二数据组中所有数据的抽取。

进一步的，基于所述第二标签从所述集成数据库中提取所述科室名称对应的所述特征信息包括以下步骤：

设置标准科室名称，在所述集成数据库中抽取所述第二标签中所述科室名称的特征信息，通过自然语言模型获取所述第二标签中所述科室名称与所述标准科室名称的词向量，获取所述标准科室名称对应的字符信息，基于所述词向量和第二公式计算所述科室名称和所述标准科室名称的词义相似度S，所述第二公式为：，其中，/>和/>为权重系数，/>为所述标准科室名称的词向量，/>为所述第二标签中所述科室名称的词向量，/>函数为计算两个词向量的夹角余弦值，n为所述科室名称对应的特征信息与所述标准科室名称的所述字符信息相同的数量，N为所述标准科室名称的所述字符信息的数量，比较各个所述词义相似度的大小，将最大所述词义相似度的所述标准科室名称的所述字符信息设定为所述科室名称对应的所述特征信息。

进一步的，获取所述第一维度值、所述第二维度值、所述第三维度值和所述最佳时间点包括以下步骤：

基于预设的第一字符串将各个维数组中所述检测偏移时间划分为术中时间段和术后时间段，获取所述第一维数组在所述术后时间段中所述血红蛋白检测值相同且所述输血偏移时间相同的样本数量并定义为第一数值，获取所述第一数值最大时包含的各个所述血红蛋白检测值，将各个所述血红蛋白检测值的中值设定为所述第一维度值，获取所述第二维数组在所述术后时间段中所述血红蛋白检测值相同且所述输血偏移时间相同的样本数量并定义为第二数值，获取所述第二数值最大时包含的各个所述血红蛋白检测值，将各个所述血红蛋白检测值的中值设定为所述第二维度值，获取所述第三维数组在所述术后时间段中所述血红蛋白检测值相同且所述输血偏移时间相同的样本数量并定义为第三数值，获取所述第三数值最大时包含的各个所述血红蛋白检测值，将各个所述血红蛋白检测值的平均值设定为所述第三维度值，在所述第三维数组中获取各个所述术后时间段的所述输血偏移时间对应的时间序列，将各个所述时间序列输入预设的预测模型中，所述预测模型输出所述第三维数组中所述术后血红蛋白输入的预测时间点，将所述预测时间点设定为所述最佳时间点。

进一步的，生成所述术后目标估值包括以下步骤：

判断所述术前信息是否包含各个所述第一标签和所述第二标签，是的情况下，分别获取所述术前信息对应的所述第一维数组、所述第二维数组和所述第三维数组，并基于第三公式计算术后目标估值Y，否的情况下，将所述术前信息进行扩充提取后执行此步骤，所述第三公式为：，其中，/>函数是按照指定的小数位数进行四舍五入运算，/>为所述资料分析库中术后时间段对应的各个所述血红蛋白检测值的中值，/>为所述术前信息中各个所述血红蛋白检测值的中值，/>为所述术前信息对应所述第一维数组的所述第一维度值，/>为所述术前信息对应所述第二维数组的所述第二维度值，为所述术前信息对应所述第三维数组的所述第三维度值。

进一步的，将所述术前信息进行扩充提取包括以下步骤：

收集所述待手术患者的资料信息，通过自然语言处理技术在各个所述样本数据获取统计特征，基于所述统计特征在所述资料信息中提取各个特征类型的所述特征信息。

本发明还提供了一种基于大数据的计算手术后目标血红蛋白的系统，该系统用于实现上述所述的一种基于大数据的计算手术后目标血红蛋白的方法，该系统主要包括：

数据采集模块中采集单元收集样本数据，将各个所述样本数据集成生成集成数据库，所述集成数据库包括文本信息和数值信息，设置多种特征标签，所述特征标签包括第一标签、第二标签和第三标签，所述第一标签包括年龄、体重和性别，所述第二标签包括科室名称和手术名称，所述第三标签包括血红蛋白检测值、检测偏移时间和输血偏移时间，基于各个所述特征标签从所述集成数据库中提取与不同标签对应的特征信息，基于所述特征信息构建资料分析库，并发送至分类单元，其中，建立预测模型对各个所述样本数据进行纳排，所述预测模型是指神经网络模型，所述预测模型用于预测所述样本数据中输血偏移时间，在所述样本数据中分别获取第一数据组和第二数据组，所述第一数据组和所述第二数据组包含不同的子标签，所述第一数据组为目标科室所建立的数据集合，所述第二数据组为非目标科室所建立的数据集合，基于第一公式计算各个数据组的评价值W，所述第一公式为：，其中，/>和/>为权重系数，/>为将各个数据组输入至所述预测模型后，所述预测模型输出的预测准确率，/>为输入所述预测模型中各个数据组的样本数量，将所述第二数据组拆分为第三数据组和第四数据组，基于所述第一公式分别计算所述第三数据组和所述第四数据组的第三评价值和第四评价值，比较所述第三评价值和所述第四评价值的大小，获取较高评价值对应的数据组，并从中抽取所述第一数据组中不包含的所述子标签定义为扩展标签，将所述扩展标签对应的数据整合至所述第一数据组中，以获得第五数据组，基于所述第一公式分别获取所述第一数据组和所述第五数据组的第一评价值和第五评价值，若所述第五评价值大于等于所述第一评价值，则将所述第五数据组设定为所述集成数据库，否则，删除所述扩展标签对应的数据，并将所述第二数据组重新拆分为所述第三数据组和所述第四数据组，重复执行此步骤，直至完成所述第二数据组中所有数据的抽取；

数据分类模块中分类单元内设置多个第一维度区间，将所述资料分析库中位于相同所述第一维度区间内的所述第一标签分类至同一第一维数组内，以划分为多个所述第一维数组，基于相同所述第二标签将所述资料分析库划分为多个第二维数组，基于相同所述第二标签将所述第一维数组划分为多个第三维数组，将各个维数组传输至处理单元；

数据处理模块中处理单元基于所述第一维数组中所述第三标签的所述特征信息获取第一维度值，基于所述第二维数组中所述第三标签的所述特征信息获取第二维度值，基于所述第三维数组中所述第三标签的所述特征信息获取第三维度值，基于所述第三维度值生成术后血红蛋白输入的最佳时间点，将各个维度值和所述最佳时间点发送至输出单元；

数据输出模块用于在所述输出单元中输入待手术患者的术前信息，分别选取所述术前信息对应的所述第一维数组、所述第二维数组和所述第三维数组，对应输出所述第一维度值、所述第二维度值和所述第三维度值，并生成所述待手术患者对应所述术后血红蛋白输入的目标估值和所述最佳时间点。

与现有技术相比，本发明的有益效果至少如下所述：

本发明首先建立大数据的预测模型对多个样本数据中第一数据组和第二数据组进行预测后计算对应的评价值，通过拆分第二数据组并基于评价值的大小判断第二数据组中扩展标签对应的数据是否整合至第一数据组中以集成生成集成数据库，有利于提高各个样本数据的可使用性，便于有效统计与分析，然后设置多个特征标签提取集成数据库中有效的特征信息，并对第二标签对应的特征信息进行规范化设置，以构建资料分析库，可以在统计分析样本数据中术后血红蛋白检测值时，降低数据处理过程的运行负载，提高数据处理效率，生成资料分析库后，基于各个特征标签从三个特征维度将资料分析库划分为各个第一维数组、第二维数组和第三维数组，有利于分析不同维度的特征标签对应的术后血红蛋白检测值，最后通过统计分析各个维数组对应的术后血红蛋白的维度值，可以计算出术后血红蛋白的目标估值，可以解决计算手术后血红蛋白的目标阈值的问题。

本发明通过设置标准手术名称和标准科室名称对第二标签的特征信息进行判断，可以有效解决样本数据中科室名称不统一和手术名称不规范的问题，进一步扩大第二维数组的样本数量，使得计算术后血红蛋白的目标估值更加准确。

附图说明

图1为本发明一种基于大数据的计算手术后目标血红蛋白的方法的步骤流程图；

图2为本发明一种基于大数据的计算手术后目标血红蛋白的系统结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

如图1所示，一种基于大数据的计算手术后目标血红蛋白的方法，包括：

步骤S1：采集单元收集样本数据，将各个样本数据集成生成集成数据库，集成数据库包括文本信息和数值信息，设置多种特征标签，特征标签包括第一标签、第二标签和第三标签，第一标签包括年龄、体重和性别，第二标签包括科室名称和手术名称，第三标签包括血红蛋白检测值、检测偏移时间和输血偏移时间，基于各个特征标签从集成数据库中提取与不同标签对应的特征信息，基于特征信息构建资料分析库，并发送至分类单元。

具体的，手术后是否需要输血以及术后输血量与手术名称类型、患者的健康状况、疾病严重程度以及限制性输血有密切联系，在本实施例中，利用医疗历史数据分别对手术中和手术后的输血数据进行统计分析，并计算出患者在手术后的最佳血红蛋白数值，进一步计算出患者在术后的最佳输血量和最佳输血时间，为医生诊断提供参考。样本数据是指各个医院的病历数据，包括且不限于各个患者的入院记录、手术记录和术后病程记录等，其中均以文本信息和数值信息相结合，由于不同医院的病历数据可能存在不同的存储方式和撰写格式，因此在收集样本数据过程中，需要对不同医院的样本数据进行处理后再使用，集成数据库是指文本信息完整、数值信息准确和涉及多种手术类型的样本数据集合，将各个样本数据进行集成后生成集成数据库，样本数据集成的具体方法在后续进行描述；通过设置多种特征标签，可以将各种文本形式较复杂的样本数据进行关键信息提取，进一步生成简约文本格式的资料分析库，更便于后续的分析使用，在多种特征标签中，第一标签是指样本数据中记录患者的基本信息，包括且不限于患者的年龄、性别和体重等，第二标签是指样本数据中记录患者就诊的科室名称和手术名称等，其中对科室名称和手术名称进行规范化处理的方法在后续描述，第三标签是指样本数据中记录的各个血红蛋白检测值、对应的检测偏移时间和输血偏移时间，检测偏移时间是指依次检测血红蛋白的时间距离，输血偏移时间是指手术结束时间与输血时间点的时间距离；特征信息是指特征标签对应的文本信息和数值信息，基于各个特征标签在样本数据中提取属于各个特征标签的特征信息，将各个特征标签和特征信息进行组合后生成资料分析库，其中，资料分析库是指将所有样本数据包含的信息进行筛选整理后的可用数据库，提取出样本数据中必要的特征信息，可以降低文本处理过程的复杂度。

步骤S2：分类单元内设置多个第一维度区间，将资料分析库中位于相同第一维度区间内的第一标签分类至同一第一维数组内，以划分为多个第一维数组，基于相同第二标签将资料分析库划分为多个第二维数组，基于相同第二标签将第一维数组划分为多个第三维数组，将各个维数组传输至处理单元。

具体的，在本实施例中，通过设置多个第一维度区间可以对相同第一标签的资料分析库进行归纳分析，第一维度区间包括且不限于年龄区间和体重区间，例如，第一标签1为年龄，年龄区间设定为和大于75，单位为岁，若两名患者的年龄属于同一个年龄区间，则判断两名患者的第一标签1相同，同样的，第一标签2位体重，体重区间设定为/> 和大于100，单位为kg，若两名患者的体重属于同一个体重区间，则设定两名患者的第一标签2相同，其中，将不包含第一标签对应的样本数据进行排除，例如，一般小孩或新生儿的血红蛋白检测值与成人存在差异，因此通过在第一标签中设定年龄区间和体重区间以排除不用于统计分析的样本数据；将资料分析库中第一标签相同设定为第一维数组，进一步划分为多个第一维数组，即第一维数组中第一标签相同，第一维数组是指从患者基本信息的维度对资料分析库进行分类，可以统计分析不同年龄、性别和体重的患者对应的术后血红蛋白检测值；同样的，将资料分析库中第二标签相同设定为第二维数组，进一步划分为多个第二维数组，即第二维数组中各个样本数据的第二标签相同，第二维数组是指从科室名称和手术名称的维度对资料分析库进行分类，可以统计分析不同手术名称和不同科室名称中血红蛋白检测值；最后将第一维数组中第二标签相同设定为第三维数组，进一步划分为多个第三维数组，即第三维数组中各个样本数据的第一标签和第二标签均相同，第三维数组是指从限制性输血的维度对资料分析库进行分类，限制性输血是指各个科室针对不同患者进行的手术所设定的输血推荐值；为了使分类后的各个维数组具有可分析性，需要过滤手术数量非常小，且无法总结出规律的第一数据组，例如，预设数量设定为30，则将对应样本数据量小于30的第一数据组删除。

步骤S3：处理单元基于第一维数组中第三标签的特征信息获取第一维度值，基于第二维数组中第三标签的特征信息获取第二维度值，基于第三维数组中第三标签的特征信息获取第三维度值，基于第三维度值生成术后血红蛋白输入的最佳时间点，将各个维度值和最佳时间点发送至输出单元。

具体的，在本实施例中，通过大数据分析出各个维数据组中第三标签对应的特征信息的数据变化趋势，即第三标签中血红蛋白检测值和输血偏移时间的分布规律，第一维度值是指将不同年龄、性别和体重的患者对应的血红蛋白检测值，第二维度值是指不同手术名称和不同科室名称对应的血红蛋白检测值，第三维度值是指不同第一标签和第二标签对应的限制性输血的血红蛋白检测值，术后血红蛋白是指患者进行手术后的血红蛋白浓度，最佳时间点是指手术操作结束后进行术后血红蛋白输入的最佳偏移时间，具体的生成方法在后续进行描述。

步骤S4：在输出单元中输入待手术患者的术前信息，分别选取术前信息对应的第一维数组、第二维数组和第三维数组，对应输出第一维度值、第二维度值和第三维度值，并生成待手术患者对应术后血红蛋白输入的目标估值和最佳时间点。

具体的，在本实施例中，待手术患者是指需要在手术后进行输入血红蛋白的预测对象，术前信息是指待手术患者的就诊信息，包括且不限于年龄、体重、血型、手术名称和科室名称等，通过获取待手术患者的术前信息可以将该患者进行归类分析，分别获取术前信息对应的第一维度值、第二维度值、第三维度值和最佳时间点，进一步生成目标估值，目标估值是指患者手术后血红蛋白的浓度，通过目标估值和最佳时间点可以确定可靠的输血方案供医生参考。

基于以下步骤生成集成数据库：

建立预测模型对各个样本数据进行纳排，预测模型是指神经网络模型，预测模型用于预测样本数据中输血偏移时间，在样本数据中分别获取第一数据组和第二数据组，第一数据组和第二数据组包含不同的子标签，第一数据组为目标科室所建立的数据集合，第二数据组为非目标科室所建立的数据集合，基于第一公式计算各个数据组的评价值W，第一公式为：，其中，/>和/>为权重系数，/>为将各个数据组输入至预测模型后，预测模型输出的预测准确率，/>为输入预测模型中各个数据组的样本数量，将第二数据组拆分为第三数据组和第四数据组，基于第一公式分别计算第三数据组和第四数据组的第三评价值和第四评价值，比较第三评价值和第四评价值的大小，获取较高评价值对应的数据组，并从中抽取第一数据组中不包含的子标签定义为扩展标签，将扩展标签对应的数据整合至第一数据组中，以获得第五数据组，基于第一公式分别获取第一数据组和第五数据组的第一评价值和第五评价值，若第五评价值大于等于第一评价值，则将第五数据组设定为集成数据库，否则，删除扩展标签对应的数据，并将第二数据组重新拆分为第三数据组和第四数据组，重复执行此步骤，直至完成第二数据组中所有数据的抽取。

具体的，在本实施例中，通过神经网络建立预测模型可以对各个不同数据组中包含的输血偏移时间进行预测，并基于预测结果和预测时间通过第一公式计算对应数据组的评价值，第一数据组是指在各个样本数据中属于目标科室的数据集合，目标科室包括且不限于心内科、心外科和急诊科等，例如第一数据组为心内科的所有样本数据，第二数据组是指各个样本数据中属于非目标科室的数据集合，通过设立目标科室将各个样本数据进行分组，可以获取不同科室的就诊环境因素对应输血偏移时间的变化规律，例如，不同科室在进行同一手术时会制定不同输血偏移时间的操作计划；在第一公式中，数据组的样本数量会影响数据组在预测模型中的运行时间，因此需要设置权重系数计算各个数据组的评价值，通过第一公式可以计算出各个数据组对应的评价值；将第二数据组随机拆分为两个数据组以生成第三数据组和第四数据组，进一步获取对应的第三评价值和第四评价值并比较两者的大小，对比评价值较高的数据组和第一数据组的各个子标签，将不属于第一数据组的子标签设定为扩展标签，并将评价值较高的数据组中扩展标签对应的数据整合集成至第一数据组中以生成第五数据组，即通过整合可以扩大第一数据组的样本数量，比较第五评价值和第一评价值的大小，若第五评价值大于等于第一评价值，则说明扩展标签对应的数据可能使得第五数据组在预测模型中的预测准确率增加，若第五评价值小于第一评价值，则说明整合后的第一数据组评价值降低，由于第五数据组的数据量增加可能会影响预测模型的运行时间增加，而第五评价值小于第一评价值，即预测模型的准确率明显降低，因此需要将该扩展标签对应的数据在第二数据组中删除，并将第二数据组重新拆分，重复上述步骤，可以将第二数据组中所有数据进行抽取后判断是否整合集成至第一数据组中以生成集成数据库，用于后续的数据分析。

基于第二标签从集成数据库中提取科室名称对应的特征信息包括以下步骤：

设置标准科室名称，在集成数据库中抽取第二标签中科室名称的特征信息，通过自然语言模型获取第二标签中科室名称与标准科室名称的词向量，获取科室名称与标准科室名称对应的字符信息，基于词向量和第二公式计算科室名称和标准科室名称的词义相似度S，第二公式为：，其中，/>和/>为权重系数，/>为标准科室名称的词向量，/>为第二标签中科室名称的词向量，/>函数为计算两个词向量的夹角余弦值，n为科室名称对应的特征信息与标准科室名称相同字符信息的数量，N为标准科室名称的字符信息的数量，比较各个词义相似度的大小，将最大词义相似度对应的标准科室名称设定为第二标签中科室名称对应的特征信息。

具体的，在本实施例中，标准科室名称是指建立标准化科室名称数据库，通过第二公式可以对科室名称进行规范化处理，例如，标准科室名称分为两级科室，第一级科室包含：骨科、妇产科、心血管科、神经科、五官科、呼吸科、胸外科、内科、外科和其它科室，第二级科室进一步细化为：骨科、妇科、产科、妇产科、心血管外科、心血管内科、心血管科、神经外科、神经内科、神经科、口腔科、耳鼻咽科、呼吸科、胸外科、消化内科、肾脏内科、内科、泌尿科、消化科、肝胆科、普通外科、肿瘤科、日间手术、 ICU、 Stepdown、血液科、急诊、中医、放化疗、介入、感染、保键、透析、风湿、烧伤、皮肤和其它，在本实施例中标准科室名称使用第二级科室对应的字符信息，通过自然语言模型中Word2Vec模型可以分别获取科室名称和标准科室名称的词向量，通过第二公式可以在标准科室名称中选择出与科室名称之间的最大词义相似度，并将最大词义相似度对应的标准科室名称设定为科室名称对应的特征信息，可以使科室名称规范化处理，使用同样的方法，设置标准手术名称，从集成数据库中提取手术名称对应的特征信息，获取与手术名称的词义相似度最大值对应的标准手术名称，并将标准手术名称对应的字符信息设定为手术名称的特征信息，使得生成规范化的手术名称。

获取第一维度值、第二维度值、第三维度值和最佳时间点包括以下步骤：

基于预设的第一字符串将各个维数组中检测偏移时间划分为术中时间段和术后时间段，获取第一维数组在术后时间段中血红蛋白检测值相同且输血偏移时间相同的样本数量并定义为第一数值，获取第一数值最大时包含的各个血红蛋白检测值，将各个血红蛋白检测值的中值设定为第一维度值，获取第二维数组在术后时间段中血红蛋白检测值相同且输血偏移时间相同的样本数量并定义为第二数值，获取第二数值最大时包含的各个血红蛋白检测值，将各个血红蛋白检测值的中值设定为第二维度值，获取第三维数组在术后时间段中血红蛋白检测值相同且输血偏移时间相同的样本数量并定义为第三数值，获取第三数值最大时包含的各个血红蛋白检测值，将各个血红蛋白检测值的平均值设定为第三维度值，在第三维数组中获取各个术后时间段的血红蛋白检测值与检测偏移时间对应的时间序列，将各个时间序列输入预测模型中，预测模型输出第三维数组中术后血红蛋白输入的预测时间点，将预测时间点设定为最佳时间点。

具体的，在本实施例中，第一字符串是用于区分时间序列的字符串，例如，手术开始时间和手术结束时间，通过第一字符串可以筛选出各个维数组中属于术后时间段的血红蛋白检测值和对应的检测偏移时间，以及获取术后时间段的输血偏移时间，本实施例中，检测偏移时间和输血偏移时间是指相对时间，不是指世界时间，第一数值是统计第一维数组中在术后时间段内血红蛋白检测值相同且输血偏移时间相同的样本数量，考虑到患者自身的血红蛋白恢复能力，将输血偏移时间设定为术后７天以内，且输血偏移时间不能为零，因此需要删除第一维数组中不符合条件的样本数据，在第一数值最大时，说明样本数量最大，对应的血红蛋白检测值的可使用性较高，因此将各个血红蛋白检测值的中值设定为第一维度值；同样的方法，从第二维数组中获取第二维度值，第三维度值是指不同科室的限制性输血的血红蛋白检测值，因此第三维数组将资料分析库中第一标签和第二标签均相同时进行划分，使得第三维度值更具参考性；最佳时间点是指患者手术后若出现血红蛋白检测值降低时，需要输入血红蛋白的最佳时间，即术后的最佳输血时间，预测模型是指神经网络模型，将各个第三维数组中所有样本的时间序列输入预测模型中，预测模型对各个数据进行训练后生成预测结果，该预测结果为第二数据组的预测时间点，通过预测时间点获取术后输入血红蛋白的最佳时间点，其中，若第三维数组的样本数据量小于预设数值，则将第三维数组中每个样本数据对应的输血偏移时间的中值设定为最佳时间点，例如，预设数值为50，说明样本量较少，不利于预测模型的训练，因此通过统计的方法获取最佳时间点。

生成术后目标估值包括以下步骤：

判断术前信息是否包含各个第一标签和第二标签，是的情况下，分别获取术前信息对应的第一维数组、第二维数组和第三维数组，并基于第三公式计算术后目标估值Y，否的情况下，将术前信息进行扩充提取后执行此步骤，第三公式为：，其中，/>函数是按照指定的小数位数进行四舍五入运算，为资料分析库中术后时间段对应的各个血红蛋白检测值的中值，/>为术前信息中各个血红蛋白检测值的中值，/>为术前信息对应第一维数组的第一维度值，/>为术前信息对应第二维数组的第二维度值，/>为术前信息对应第三维数组的第三维度值。

具体的，在本实施例中，通过待手术患者的术前信息分别获取对应的第一维数组、第二维数组和第三维数组，再由第三公式计算出该待手术患者在术后所需血红蛋白浓度的术后目标估值，例如，该资料分析库中各个术后血红蛋白检测值的中值为105，一个男性患者，年龄65岁，进行手术F，术前信息中各个血红蛋白检测值的中值为 110，第一维数组中对应患者年龄65岁的第一维度值维为110，第二维数组中手术名称F的第二维度值为115，对应第三维数组中限制性输血的第三维度值为80，代入第二公式中，该患者的术后目标血红蛋白的目标估值为Y=110×（110/105）×（115/105）×（80/105）=100。

将术前信息进行扩充提取包括以下步骤：

收集待手术患者的资料信息，通过自然语言处理技术在各个样本数据获取统计特征，基于统计特征在资料信息中提取各个特征类型的特征信息。

具体的，在本实施例中，若待手术患者的术前信息缺少第一标签和第二标签的特征信息，则需要收集待手术患者的所有资料信息，通过自然语言模型将各个样本数据进行训练以生成统计特征，由统计特征在资料信息中获取特征信息，并补充术前信息，可以使待手术患者的样本信息更加完善。

尤为注意的是，通过本发明可以合理计算术后血红蛋白的目标估值，具有较高的临床实用价值，从而避免血液资源浪费或输血不足影响患者预后的结果。

如图2所示，本发明还提供了一种基于大数据的计算手术后目标血红蛋白的系统，该系统用于实现上述的一种基于大数据的计算手术后目标血红蛋白的方法，该系统主要包括：

数据采集模块中采集单元收集样本数据，将各个样本数据集成生成集成数据库，集成数据库包括文本信息和数值信息，设置多种特征标签，特征标签包括第一标签、第二标签和第三标签，第一标签包括年龄、体重和性别，第二标签包括科室名称和手术名称，第三标签包括血红蛋白检测值、检测偏移时间和输血偏移时间，基于各个特征标签从集成数据库中提取与不同标签对应的特征信息，基于特征信息构建资料分析库，并发送至分类单元，其中，建立预测模型对各个样本数据进行纳排，预测模型是指神经网络模型，预测模型用于预测样本数据中输血偏移时间，在样本数据中分别获取第一数据组和第二数据组，第一数据组和第二数据组包含不同的子标签，第一数据组为目标科室所建立的数据集合，第二数据组为非目标科室所建立的数据集合，基于第一公式计算各个数据组的评价值W，第一公式为：

，其中，/>和/>为权重系数，/>为将各个数据组输入至预测模型后，预测模型输出的预测准确率，/>为输入预测模型中各个数据组的样本数量，将第二数据组拆分为第三数据组和第四数据组，基于第一公式分别计算第三数据组和第四数据组的第三评价值和第四评价值，比较第三评价值和第四评价值的大小，获取较高评价值对应的数据组，并从中抽取第一数据组中不包含的子标签定义为扩展标签，将扩展标签对应的数据整合至第一数据组中，以获得第五数据组，基于第一公式分别获取第一数据组和第五数据组的第一评价值和第五评价值，若第五评价值大于等于第一评价值，则将第五数据组设定为集成数据库，否则，删除扩展标签对应的数据，并将第二数据组重新拆分为第三数据组和第四数据组，重复执行此步骤，直至完成第二数据组中所有数据的抽取；

数据分类模块中分类单元内设置多个第一维度区间，将资料分析库中位于相同第一维度区间内的第一标签分类至同一第一维数组内，以划分为多个第一维数组，基于相同第二标签将资料分析库划分为多个第二维数组，基于相同第二标签将第一维数组划分为多个第三维数组，将各个维数组传输至处理单元；

数据处理模块中处理单元基于第一维数组中第三标签的特征信息获取第一维度值，基于第二维数组中第三标签的特征信息获取第二维度值，基于第三维数组中第三标签的特征信息获取第三维度值，基于第三维度值生成术后血红蛋白输入的最佳时间点，将各个维度值和最佳时间点发送至输出单元；

数据输出模块用于在输出单元中输入待手术患者的术前信息，分别选取术前信息对应的第一维数组、第二维数组和第三维数组，对应输出第一维度值、第二维度值和第三维度值，并生成待手术患者对应术后血红蛋白输入的目标估值和最佳时间点。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一个非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

上述的实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述的实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

上述的仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的计算手术后目标血红蛋白的方法，其特征在于，所述方法包括如下步骤：

在所述输出单元中输入待手术患者的术前信息，分别选取所述术前信息对应的所述第一维数组、所述第二维数组和所述第三维数组，对应输出所述第一维度值、所述第二维度值和所述第三维度值，并生成所述待手术患者对应所述术后血红蛋白输入的目标估值和所述最佳时间点；基于以下步骤生成所述集成数据库：

2.根据权利要求1所述的一种基于大数据的计算手术后目标血红蛋白的方法，其特征在于，基于所述第二标签从所述集成数据库中提取所述科室名称对应的所述特征信息包括以下步骤：

3.根据权利要求1所述的一种基于大数据的计算手术后目标血红蛋白的方法，其特征在于，获取所述第一维度值、所述第二维度值、所述第三维度值和所述最佳时间点包括以下步骤：

4.根据权利要求1所述的一种基于大数据的计算手术后目标血红蛋白的方法，其特征在于，生成术后目标估值包括以下步骤：

判断所述术前信息是否包含各个所述第一标签和所述第二标签，是的情况下，分别获取所述术前信息对应的所述第一维数组、所述第二维数组和所述第三维数组，并基于第三公式计算术后目标估值Y，否的情况下，将所述术前信息进行扩充提取后执行此步骤，所述第三公式为：，其中，/>函数是按照指定的小数位数进行四舍五入运算，/>为所述资料分析库中术后时间段对应的各个所述血红蛋白检测值的中值，为所述术前信息中各个所述血红蛋白检测值的中值，/>为所述术前信息对应所述第一维数组的所述第一维度值，/>为所述术前信息对应所述第二维数组的所述第二维度值，/>为所述术前信息对应所述第三维数组的所述第三维度值。

5.根据权利要求4所述的一种基于大数据的计算手术后目标血红蛋白的方法，其特征在于，将所述术前信息进行扩充提取包括以下步骤：

6.一种基于大数据的计算手术后目标血红蛋白的系统，用于实现如权利要求1-5任一项所述的一种基于大数据的计算手术后目标血红蛋白的方法，其特征在于，所述系统包括如下模块：