CN116304114A

CN116304114A - 基于外科护理的智能数据处理方法及系统

Info

Publication number: CN116304114A
Application number: CN202310526284.7A
Authority: CN
Inventors: 韩珉; 王霞
Original assignee: Qingdao Huangdao District Central Hospital
Current assignee: Qingdao Huangdao District Central Hospital
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-06-23
Anticipated expiration: 2043-05-11
Also published as: CN116304114B

Abstract

本发明涉及数据处理技术，揭露了一种基于外科护理的智能数据处理方法及系统，所述方法包括：获取外科护理数据，对所述外科护理数据进行数据类型划分，得到文本数据及数值数据；对所述文本数据进行关系抽取，得到文本信息，对所述文本信息进行结构转化，得到标准数据；对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据；对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果。本发明可以提高外科护理的数据处理方法的准确性及效率。

Description

基于外科护理的智能数据处理方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于外科护理的智能数据处理方法及系统。

背景技术

随着医疗卫生信息化建设进程的不断加快，国民生活水平日益提高，健康已经成为当前人们最关心最现实的主要利益问题之一；以健康为导向，积极发展和应用医疗大数据已经成为世界各国的重要共识。目前，医疗大数据已经成为信息化建设以及战略资源的重要内容，其中，外科护理作为医疗中重要的一部分，相关数据具有信息资源复杂的特点，如果不对外科护理数据进行分类处理，在进行有效医疗信息获取时存在速度慢、过程繁琐等问题。因此，对外科护理数据进行合理分类成为重中之重。

当前，传统的数据分类处理技术主要包含离散化分类处理、模型分类处理等，缺乏结构化和规整化的分类特性；例如，离散化分类处理技术能够提高算法的精准度，具有较强的伸缩性，但是对于庞大的外科护理数据展现出效率较低以及灵活性较差的弊端；另一方面，模型分类处理有基于经典检索模型的分类方法，尽管该方法利用模型进行数据分析，但是在实际应用过程中容易受到数据质量影响从而导致分类结果的不准确。综上所述，现有关于外科护理的数据处理方法存在准确性及效率较低的问题。

发明内容

本发明提供一种基于外科护理的智能数据处理方法及系统，其主要目的在于解决外科护理的数据处理方法的准确性及效率较低的问题。

为实现上述目的，本发明提供的一种基于外科护理的智能数据处理方法，包括：获取外科护理数据，对所述外科护理数据进行数据类型划分，得到文本数据及数值数据；对所述文本数据进行关系抽取，得到文本信息，对所述文本信息进行结构转化，得到标准数据；对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据；对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果。

可选地，所述对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据，包括：将所述标准数据与所述数值数据作为一个数据集，对所述数据集中的数据进行相关性计算，得到所述数据集中数据对应的关联值；根据所述数据集中数据对应的关联值对所述数据集进行支持度计算，得到支持度值；根据所述支持度值对所述数据集进行融合处理，得到所述目标外科护理数据。

利用下式对所述数据集进行支持度计算：

；

其中，

表示为所述数据集中的数据/>

与数据/>

之间的支持度值；/>

表示为所述数据集中数据/>

与数据/>

之间对应的关联值；/>

表示为常数；/>

表示为预设的支持度衰减因子。

可选地，所述对所述外科护理数据进行数据类型划分，得到文本数据及数值数据，包括：对所述外科护理数据进行数据清洗，得到清洗数据；对所述清洗数据进行数据规约，得到有效信息；对所述有效信息进行类型识别，得到文本数据及数值数据。

可选地，其特征在于，所述对所述外科护理数据进行数据清洗，得到清洗数据，包括：对所述外科护理数据进行噪声清洗，得到第一数据；对所述第一数据进行属性错误剔除，得到第二数据；对所述第二数据进行重复性检测，得到清洗数据。

可选地，所述对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果，包括：获取外科护理数据分类集，根据所述外科护理数据分类集对所述目标外科护理数据进行关系表示，得到模糊集合；计算所述模糊集合中的数据模糊相似值；根据所述数据模糊相似值对所述目标外科护理数据进行分类，得到外科护理数据的分类结果。

可选地，所述计算所述模糊集合中的数据模糊相似值，包括：利用下式计算所述模糊集合中的数据模糊相似值：

；

其中，

表示为所述模糊集合中数据/>

与数据/>

的数据模糊相似值；/>

表示为所述目标外科护理数据中数据/>

的隶属度；/>

表示为所述外科护理数据分类集中数据/>

的隶属度；/>

表示为所述目标外科护理数据；/>

表示为外科护理数据分类集。

可选地，所述对所述文本数据进行关系抽取，得到文本信息，包括：对所述文本数据进行分词处理，得到文本分词；对所述文本分词进行序列标注，得到所述文本分词对应的序列标签；根据所述序列标签对所述文本分词进行关系提取，得到文本信息。

可选地，所述根据所述序列标签对所述文本分词进行关系提取，得到文本信息，包括：根据所述序列标签对所述文本分词进行分类，得到分词集合；对所述分词集合进行实体识别，得到分词实体；对所述分词实体进行关系匹配，得到文本信息。

可选地，所述对所述文本信息进行结构转化，得到标准数据，包括：创建所述文本信息的自定义文件；利用预设的解析函数对所述自定义文件进行结构解析，得到标准数据。

为了解决上述问题，本发明还提供一种基于外科护理的智能数据处理系统，所述系统包括：数据类型划分模块，用于获取外科护理数据，对所述外科护理数据进行数据类型划分，得到文本数据及数值数据；标准数据生成模块，用于对所述文本数据进行关系抽取，得到文本信息，对所述文本信息进行结构转化，得到标准数据；多源数据融合模块，用于对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据；模糊分类模块，用于对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果。

本发明实施例通过对文本数据进行关系抽取，可以获取文本数据之间的逻辑关系，得到有效的文本信息，提高数据质量；对文本信息进行结构转化，得到标准数据，可以将非结构化的数据转化为结构化数据，便于后续对数据进行分类，提高数据处理的效率；通过计算目标外科护理数据之间的模糊相似值对目标外科护理数据进行模糊分类，可以提高数据处理的准确性。因此本发明提出的基于外科护理的智能数据处理方法及系统，可以解决外科护理的数据处理方法存在准确性及效率较低的问题。

附图说明

图1为本发明一实施例提供的基于外科护理的智能数据处理方法的流程示意图；

图2为本发明一实施例提供的对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据的流程示意图；

图3为本发明一实施例提供的对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果的流程示意图；

图4为本发明一实施例提供的基于外科护理的智能数据处理系统的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1所示，为本发明一实施例提供的基于外科护理的智能数据处理方法的流程示意图。在本实施例中，所述基于外科护理的智能数据处理方法包括：S1、获取外科护理数据，对所述外科护理数据进行数据类型划分，得到文本数据及数值数据。

本发明实施例中，所述外科护理数据可以从医院医疗信息系统中的各种临床数据库中进行数据提取，所述外科护理数据可以包括患者饮食数据、患者检查数据、实验室研究数据等。

本发明实施例中，所述对所述外科护理数据进行数据类型划分，得到文本数据及数值数据，包括：对所述外科护理数据进行数据清洗，得到清洗数据；对所述清洗数据进行数据规约，得到有效信息；对所述有效信息进行类型识别，得到文本数据及数值数据。

本发明实施例中，数据规约是一种对所述清洗数据的压缩处理，通过对所述清洗数据的维度减少或者数据量的减少来降低数据规模的目的，以便于提高数据处理的效率；例如，对于数据规约中的维度规约可以采用主成分分析法，首先对所述清洗数据进行向量计算，得到所述清洗数据中变量的正交向量，然后将所述正交向量对应的变量重新组合，得到不相关的新变量，直到所述清洗数据中的所有变量都相互独立，完成数据规约；所述清洗数据中变量的相关性可以通过计算协方差矩阵的方法进行识别，如果两个变量之间的协方差为正，则两个变量正相关，如果协方差为负，则两个变量呈负相关，如果协方差为0，则两个变量相互独立。

本发明实施例中，类型识别是将所述有效信息中的字符串、数字等结构化数据划分为数值数据，将文本、图片等非结构化数据划分为文本数据并且通过关系型数据库进行数据存储和管理，使得所述有效信息中的数据结构不规则或不完整的部分实现结构统一；例如，文本、图片等无法用二维逻辑表所表现的数据，在通过类型识别之后可以减少后续处理的流程，提高了外科护理数据处理的效率。

本发明实施例中，所述对所述外科护理数据进行数据清洗，得到清洗数据，包括：对所述外科护理数据进行噪声清洗，得到第一数据；对所述第一数据进行属性错误剔除，得到第二数据；对所述第二数据进行重复性检测，得到清洗数据。

本发明实施例中，噪声清洗可以采用分箱法，所述分箱法作为所述外科护理数据预处理的一部分，是对所述外科护理数据进行初步数据分组，减少所述外科护理数据中每个属性的不同值数量；所述分箱法包含深度、宽度等元素，所述分箱法中箱的深度表示不同的箱里有相同数量的数据，箱的宽度表示每个箱中数字的取值区间为常数，然后将所述外科护理数据的属性值分配到等深或等宽的箱中；例如，所述外科护理数据中的年龄数据的可以取值为0岁—120岁之间，则可以对其分为四组：18岁以下、18岁至40岁、40岁至60岁以及60岁以上，这样原本多个年龄数据就可以被分到这四个固定的值中，得到的数据可取值的范围变小了、数据可取值更加稳定。

本发明实施例中，属性错误剔除主要是处理空缺值，可以采用定义全局变量的方法进行数据填充，例如，对所述第一数据中的数值型的空缺值采用Unknown变量（未知变量）进行填充，对于所述第一数据中的非数值型的空缺值（例如，字符串）采用平均值变量填充法，所述平均值变量填充是利用所述第一数据中的某一个属性内数据的平均值填充；重复性检测是针对字符串重复的情况，可以采用字符串匹配算法，具体的，对所述第二数据中的任意两个字符串中的n个字符进行排序组合得到两个子字符串，然后计算这两个子字符串的hash值（散列函数值），如果hash值相同，则说明这两个子字符串是一致的，因此，说明这个两个子字符串对应的两个字符串存在重复性，需要剔除其中的任意一个。

S2、对所述文本数据进行关系抽取，得到文本信息，对所述文本信息进行结构转化，得到标准数据。

本发明实施例中，所述对所述文本数据进行关系抽取，得到文本信息，包括：对所述文本数据进行分词处理，得到文本分词；对所述文本分词进行序列标注，得到所述文本分词对应的序列标签；根据所述序列标签对所述文本分词进行关系提取，得到文本信息。

本发明实施例中，由于所述文本数据是医疗领域中的外科护理数据，其中存在大量医学术语、数学符号以及英文缩写等，所以可以采用医学词库对所述文本数据进行分词处理，例如，“李华是一个糖尿病患者”这句话经过分词处理可以得到“李华”、“是”、“一个”、“糖尿病患者”；为了评估分词处理的结果，还可以利用准确率、召回率等指标进行分词测评，例如，所述准确率的计算方法为当前分词处理正确切分出的词数占当前分词处理切分出的总词数的百分比，当准确率的百分比数值越大，说明当前分词处理的效果越好；序列标注是一个对所述文本分词进行特征标记的过程，对所述文本分词进行具体的语义、情感等标签添加，得到每一个文本分词对应的序列标签，所述序列标签包含B（begin，开始标签）、M（middle，中间标签）等；例如，“李华是一个糖尿病患者”这句话中的文本分词“李华”可以添加B标签，表示为该文本分词是文本片段的开始。

本发明实施例中，所述根据所述序列标签对所述文本分词进行关系提取，得到文本信息，包括：根据所述序列标签对所述文本分词进行分类，得到分词集合；对所述分词集合进行实体识别，得到分词实体；对所述分词实体进行关系匹配，得到文本信息。

本发明实施例中，所述根据所述序列标签对所述文本分词进行分类是将所述序列标签相同的文本分词分为一个集合；实体识别可以采用预设的基于医疗BERT（语言表征模型）的实体识别模型实现，所述实体识别模型的主要功能是从所述分词集合中识别出其中的命名实体，并对其进行分类，例如，时间、人名、地名等类型的实体；所述实体识别模型包括输入层、中间层以及输出层，所述输入层是产生嵌入向量并添加至所述分词集合中并进行特征编码，得到分词特征信息，所述中间层是对所述分词特征信息进行实体识别，得到实体向量，最后将所述实体向量经过所述实体识别模型的输出层输出得到分词实体。

本发明实施例中，关系匹配也可以利用预训练的BERT（语言表征模型）模型实现，该BERT（语言表征模型）模型与所述实体识别模型的区别在于模型执行任务的不同，所述BERT（语言表征模型）模型是通过对所述分词实体进行实体编码，得到编码信息，再通过时间、地点以及分词实体的来源等对所述编码信息进行关系预测，最终将关系预测的结果以三元组的形式输出；所述关系匹配是为了检测所述分词实体之间的语义关系，可以通过所述分词实体以主体、关系、客体三元组作为形式表现；例如，“高压病史十年余，目前口服苯磺酸氨氯地平”可以提取三元组“高血压”、“药物治疗”、“苯磺酸氨氯地平”。

本发明实施例中，所述对所述文本信息进行结构转化，得到标准数据，包括：创建所述文本信息的自定义文件；利用预设的解析函数对所述自定义文件进行结构解析，得到标准数据。

本发明实施例中，所述自定义文件是一种没有使用预定义标记语言的文件，例如，XML（可扩展语言标记）文件，可以将所述文本信息进行存储并支持搜索以及共享格式的文件格式，所述自定义文件具有易于扩展的优势，在进行数据存储的时候不需要特定的数据架构，只需要更改所述自定义文件对应的文档类型，提高结构转化的效率；所述解析函数可以通过解析器生成法获取，例如，SAX（简单应用程序接口）解析器，所述解析器在解析所述自定义文件中所述文本信息的各个组成部分时会报告事件，但不会以任何方式存储文档，而是由所述解析器中的事件处理器建立相应的数据结构，具有解析速度快，占用存储空间少的优点；结构转化是为了让所述文本信息与所述数值数据具有同样存储形式，都是结构化数据，通过统一数据格式提高数据处理的效率。

S3、对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据。

请参阅图2所示，本发明实施例中，所述对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据，包括：S21、将所述标准数据与所述数值数据作为一个数据集，对所述数据集中的数据进行相关性计算，得到所述数据集中数据对应的关联值；S22、根据所述数据集中数据对应的关联值对所述数据集进行支持度计算，得到支持度值；S23、根据所述支持度值对所述数据集进行融合处理，得到所述目标外科护理数据。

本发明实施例中，相关性计算可以采用余弦相似度计算法，所述余弦相似度是从是所述数据集提取数据共性的一种方法，具体地，可以根据所述数据集中数据之间的关联值大小对所述数据进行分组处理，使得同组内数据相关性较高、不同组数据间的相关性较低。

本发明实施例中，所述根据所述数据集中数据对应的关联值对所述数据集进行支持度计算，得到支持度值，包括：利用下式对所述数据集进行支持度计算：

；

其中，

表示为所述数据集中的数据/>

与数据/>

之间的支持度值；/>

表示为所述数据集中数据/>

与数据/>

之间对应的关联值；/>

表示为常数；/>

表示为预设的支持度衰减因子。

本发明实施例中，融合处理是根据所述支持度值对所述数据集中的数据进行处理，例如，当所述数据集中的其中一个数据与另一个数据之间的支持度值越大，说明该数据与另一个数据之间的融合度越高，即越有可能进行相互融合；当其中一个数据与另一个数据之间的支持度值达到0.85时，说明这两个数据之间高度融合，这两个数据包含的外科护理信息是一致的。

S4、对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果。

请参阅图3所示，本发明实施例中，所述对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果，包括：S31、获取外科护理数据分类集，根据所述外科护理数据分类集对所述目标外科护理数据进行关系表示，得到模糊集合；S32、计算所述模糊集合中的数据模糊相似值；S33、根据所述数据模糊相似值对所述目标外科护理数据进行分类，得到外科护理数据的分类结果。

本发明实施例中，所述外科护理数据分类集将外科护理数据分为i类，例如，症状类、药品类、科室类等。

本发明实施例中，所述计算所述模糊集合中的数据模糊相似值，包括：利用下式计算所述模糊集合中的数据模糊相似值：

；

其中，

表示为所述模糊集合中数据/>

与数据/>

的数据模糊相似值；/>

表示为所述目标外科护理数据中数据/>

的隶属度；/>

表示为所述外科护理数据分类集中数据/>

的隶属度；/>

表示为所述目标外科护理数据；/>

表示为外科护理数据分类集。

本发明实施例中，所述隶属度表示所述模糊集合中的数据元素与所述模糊集合之间的关系，即为所述元素数据对所述模糊集合的归属程度；所述隶属度的取值通常在[0,1]之间，可以根据现有的隶属度函数获取所述模糊集合中的数据元素的隶属度函数，例如，半梯形函数，利用所述半梯形函数对所述数据元素进行区间划分，分别采用不同区间对应的隶属度计算公式进行计算得到所述隶属度。

本发明实施例中，在计算出所述目标外科护理数据中数据的数据模糊相似值后，对所述数据模糊相似值进行规范化处理，得到规范相似值，最后根据所述规范相似值对所述目标外科护理数据进行分类；其中，规范化处理可以采用最小—最大值规范化的方法，首先筛选出所述数据模糊相似值中的最大值与最小值，然后将所述数据模糊相似值与最大值作差的结果同最小值与所述数据模糊相似值作差的结果作比值计算，比值计算的结果即为所述规范相似值，规范化处理可以使得所述数据模糊相似值固定到一个小的特定区间，便于数据分析，所述特定区间为[0,1]；例如，其中两个数据的数据模糊相似值为1.49，经过规范化后的规范相似值为0.67，由于预设的规范化相似值区间为[0.86,1]，0.67不在该区间范围内，因此这两个数据包含的数据信息不属于同一类别。

本发明提出了一种基于外科护理的智能数据处理方法，通过对文本数据进行关系抽取，可以获取文本数据之间的逻辑关系，得到有效的文本信息，提高数据质量；对文本信息进行结构转化，得到标准数据，可以将非结构化的数据转化为结构化数据，便于后续对数据进行分类，提高数据处理的效率；通过计算目标外科护理数据之间的模糊相似值对目标外科护理数据进行模糊分类，可以提高数据处理的准确性。因此，本发明提出的一种基于外科护理的智能数据处理方法，可以解决外科护理的数据处理方法的准确性及效率较低的问题。

如图4所示，是本发明一实施例提供的基于外科护理的智能数据处理系统的功能模块图。

本发明所述基于外科护理的智能数据处理系统400可以安装于电子设备中。根据实现的功能，所述基于外科护理的智能数据处理系统400可以包括数据类型划分模块401、标准数据生成模块402、多源数据融合模块403及模糊分类模块404。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：所述数据类型划分模块401，用于获取外科护理数据，对所述外科护理数据进行数据类型划分，得到文本数据及数值数据；所述标准数据生成模块402，用于对所述文本数据进行关系抽取，得到文本信息，对所述文本信息进行结构转化，得到标准数据；所述多源数据融合模块403，用于对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据；所述模糊分类模块404，用于对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果。

详细地，本发明实施例中所述基于外科护理的智能数据处理系统400中所述的各模块在使用时采用与附图中所述的基于外科护理的智能数据处理方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

本发明一实施例还提供实现基于外科护理的智能数据处理方法的电子设备。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备中的所述存储器存储的基于外科护理的智能数据处理程序是多个指令的组合，在所述处理器中运行时，可以实现：获取外科护理数据，对所述外科护理数据进行数据类型划分，得到文本数据及数值数据；对所述文本数据进行关系抽取，得到文本信息，对所述文本信息进行结构转化，得到标准数据；对所述标准数据及所述数值数据进行多源数据融合，得到目标外科护理数据；对所述目标外科护理数据进行模糊分类，得到外科护理数据分类结果。

进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。