CN115440333B - 数据采集过程中的数据处理方法、装置、终端设备及介质 - Google Patents
数据采集过程中的数据处理方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN115440333B CN115440333B CN202211388369.5A CN202211388369A CN115440333B CN 115440333 B CN115440333 B CN 115440333B CN 202211388369 A CN202211388369 A CN 202211388369A CN 115440333 B CN115440333 B CN 115440333B
- Authority
- CN
- China
- Prior art keywords
- field
- data
- information entropy
- growth rate
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种数据采集过程中的数据处理方法、装置、终端设备及介质,通过调用基于计算医疗数据的字段间信息熵增长率进行训练得到的无监督学习模型;从而根据该无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;再然后,遍历数据采集过程中的待纠错数据得到验证参数;并根据该可信依据和该验证参数确定该待纠错数据是否存在错误字段;最后,在判定为是时根据该可信依据对错误字段进行纠错。采用本发明能够在医疗数据的采集阶段,自动的判别数据是否存在错误和针对错误数据进行纠错处理。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种数据采集过程中的数据处理方法、装置、终端设备以及计算机可读存储介质。
背景技术
随着医疗信息系统被越来越广泛地使用,医疗健康大数据的应用成为了行业热点。而在医疗健康大数据的应用中,数据本身的质量则是应用的关键问题之一,因为质量较差的数据对机器学习算法有很大影响,例如,质量较差的数据会极大的影响机器学习算法进行数据预测的准确性。所以,如何确保在数据采集阶段就获得真实准确的高质量医疗数据,就成为了行业内不可规避的研究方向。
目前,行业内主流的解决方案是在数据采集阶段设置大量规则对医疗数据进行校正和提示,如根据身份证号对性别、生日等数据进行纠正和补全。然而这种方式不仅需要对大量规则进行人工维护,而且还不能解决一些偶发的问题。此外,现有技术中也有引入机器学习来进行数据校正的手段,但现有的这种方式也需要进行大量人工标注,从而在具体实施中存在不小的困难,尤其是对于使用者也增添了不小的负担。
综上,现有在数据采集阶段对数据进行校准和提示的方式,在具体实施过程中需要耗费大量的人力资源,从而导致数据采集的整体效率低下。
发明内容
本发明的主要目的在于提供一种数据采集过程中的数据处理方法、装置、终端设备以及计算机可读存储介质。旨在实现在医疗数据的采集阶段,自动的判别数据是否存在错误和针对错误数据进行纠错处理,从而有效地避免传统方式中需要人工维护规则或者进行数据标注带来的大量人力资源浪费,进而在确保所采集数据真实准确的前提下,提高了数据采集的整体效率。
为了实现上述目的,本发明提供一种数据采集过程中的数据处理方法,所述数据采集过程中的数据处理方法包括:
调用预设的无监督学习模型,其中,所述无监督学习模型基于计算医疗数据的字段间信息熵增长率进行训练得到;
根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;
遍历数据采集过程中的待纠错数据得到验证参数;
根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段;
在判定为是时,根据所述可信依据对所述错误字段进行纠错。
可选地,所述数据处理方法还包括:
获取预设的医疗数据训练集;
根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率;
将所述医疗数据训练集作为参考数据集,并将所述参考数据集和基于所述字段间信息熵增长率得到的信息熵增长率矩阵保存为无监督学习模型。
可选地,所述字段间信息熵增长率为所述医疗数据训练集中第一字段和第二字段之间的信息熵增长率;
所述根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率的步骤,包括:
计算所述医疗数据训练集中所述第一字段的第一信息熵;
根据所述第一信息熵确定所述第一字段是否存在多种值,并在确定所述第一字段存在多种值时,计算所述医疗数据训练集中所述第二字段的第二信息熵;
根据所述第二信息熵确定所述第二字段是否存在多种值,并在确定所述第二字段存在多种值时,基于所述第一信息熵和所述第二信息熵计算所述第一字段和所述第二字段之间的信息熵增长率。
可选地,所述根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据的步骤,包括:
从所述无监督学习模型中提取所述信息熵增长率矩阵;
将所述信息熵增长率矩阵中大于预设的信息熵增长率可信阈值的目标信息熵增长率确定为可信依据。
可选地,所述根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段的步骤,包括:
遍历所述可信依据以确定所述验证参数是否与所述参考数据集中第一字段和第二字段的正确参数相等;
若确定相等,则确定所述待纠错数据正确;
若确定不相等,则确定所述待纠错数据中存在错误字段。
可选地,所述根据所述可信依据对所述错误字段进行纠错的步骤,包括:
根据所述可信依据在所述参考数据集中确定所述错误字段对应的正确结果;
按照所述正确结果对所述错误字段进行纠错。
可选地,所述待纠错数据包括的字段为具有有限值域的字段,所述字段包括医嘱名称、手术名称、术式、用法、规格和单价中的至少一种。
此外,为实现上述目的,本发明还提供一种数据采集过程中的数据处理装置,所述数据采集过程中的数据处理装置包括:
模型加载模块,通过调用预设的无监督学习模型,其中,所述无监督学习模型基于计算医疗数据的字段间信息熵增长率进行训练得到;
确定模块,用于根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;
数据加载模块,用于遍历数据采集过程中的待纠错数据得到验证参数;和,根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段;
纠错模块,用于在判定为是时,根据所述可信依据对所述错误字段进行纠错。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述终端设备的数据处理程序被所述处理器执行时实现如上所述的数据采集过程中的数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据采集过程中的数据处理方法的步骤。
本发明实施例提出的一种数据采集过程中的数据处理方法、装置、终端设备以及计算机可读存储介质,通过调用基于计算医疗数据的字段间信息熵增长率进行训练得到的无监督学习模型;从而根据该无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;再然后,遍历数据采集过程中的待纠错数据得到验证参数;并根据该可信依据和该验证参数确定该待纠错数据是否存在错误字段;最后,在判定为是时根据该可信依据对错误字段进行纠错。
如此,相比于传统在数据采集阶段对数据进行校准和提示的方式,本发明实施例基于计算医疗数据的字段间信息熵增长率进行训练得到无监督学习模型,从而基于该无监督学习模型和预设的信息熵增长率可信阈值来判定待纠错数据中是否存在错误字段和针对存在的错误字段进行纠错。
即,本发明实施例以无监督学习的方式学习数据模型属性之间的关系来对偶发和未知的数据错误进行纠错和补全,从而无需人工维护大量规则,且使用无监督学习的方式也可以避免大量人工标注工作的发生,进而,本发明实施例实现了在医疗数据的采集阶段,自动的判别数据是否存在错误和针对错误数据进行纠错处理,从而有效地避免传统方式中需要人工维护规则或者进行数据标注带来的大量人力资源浪费,进而在确保所采集数据真实准确的前提下,提高了数据采集的整体效率。
附图说明
图1是本发明实施例方案涉及的终端设备硬件运行环境的设备结构示意图;
图2为本发明数据采集过程中的数据处理方法第一实施例的步骤流程示意图;
图3为本发明数据采集过程中的数据处理方法的一实施例所涉及的模型使用流程示意图;
图4为本发明数据采集过程中的数据处理方法的一实施例所涉及的模型训练流程示意图;
图5为本发明数据采集过程中的数据处理装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及终端设备的硬件运行环境的设备结构示意图。
本发明实施例终端设备可以是应用于医疗健康大数据应用领域,具体针对数据采集过程中的待纠错数据进行自动纠错处理的终端设备。具体地,该终端设备可以是服务器、PC(PerSonal Computer,个人计算机)、便携计算机、平板电脑以及智能移动终端等等。
如图1所示,该终端设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(DiSplay)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端设备结构并不构成对上述终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。
在图1所示的终端设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序,并执行如下操作:
调用预设的无监督学习模型,其中,所述无监督学习模型基于计算医疗数据的字段间信息熵增长率进行训练得到;
根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;
遍历数据采集过程中的待纠错数据得到验证参数;
根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段;
在判定为是时,根据所述可信依据对所述错误字段进行纠错。
可选地,处理器1001还可以用于调用存储器1005中存储的数据处理程序,并执行如下操作:
获取预设的医疗数据训练集;
根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率;
将所述医疗数据训练集作为参考数据集,并将所述参考数据集和基于所述字段间信息熵增长率得到的信息熵增长率矩阵保存为无监督学习模型。
可选地,所述字段间信息熵增长率为所述医疗数据训练集中第一字段和第二字段之间的信息熵增长率;
处理器1001还可以用于调用存储器1005中存储的数据处理程序,并执行如下操作:
计算所述医疗数据训练集中所述第一字段的第一信息熵;
根据所述第一信息熵确定所述第一字段是否存在多种值,并在确定所述第一字段存在多种值时,计算所述医疗数据训练集中所述第二字段的第二信息熵;
根据所述第二信息熵确定所述第二字段是否存在多种值,并在确定所述第二字段存在多种值时,基于所述第一信息熵和所述第二信息熵计算所述第一字段和所述第二字段之间的信息熵增长率。
可选地,处理器1001还可以用于调用存储器1005中存储的数据处理程序,并执行如下操作:
从所述无监督学习模型中提取所述信息熵增长率矩阵;
将所述信息熵增长率矩阵中大于预设的信息熵增长率可信阈值的目标信息熵增长率确定为可信依据。
可选地,所述装船机所处码头的码头零点为所述装船机行走位置的参照零点,处理器1001还可以用于调用存储器1005中存储的数据处理程序,并执行如下操作:
遍历所述可信依据以确定所述验证参数是否与所述参考数据集中第一字段和第二字段的正确参数相等;
若确定相等,则确定所述待纠错数据正确;
若确定不相等,则确定所述待纠错数据中存在错误字段。
可选地,处理器1001还可以用于调用存储器1005中存储的数据处理程序,并执行如下操作:
根据所述可信依据在所述参考数据集中确定所述错误字段对应的正确结果;
按照所述正确结果对所述错误字段进行纠错。
可选地,所述待纠错数据包括的字段为具有有限值域的字段,所述字段包括医嘱名称、手术名称、术式、用法、规格和单价中的至少一种。
基于上述的终端设备,提出本发明数据采集过程中的数据处理方法的整体构思和各具体实施例。
需要说明的是,随着医疗信息系统被越来越广泛地使用,医疗健康大数据的应用成为了行业热点。而在医疗健康大数据的应用中,数据本身的质量则是应用的关键问题之一,因为质量较差的数据对机器学习算法有很大影响,例如,质量较差的数据会极大的影响机器学习算法进行数据预测的准确性。所以,如何确保在数据采集阶段就获得真实准确的高质量医疗数据,就成为了行业内不可规避的研究方向。
目前,行业内主流的解决方案是在数据采集阶段设置大量规则对医疗数据进行校正和提示,如根据身份证号对性别、生日等数据进行纠正和补全。然而这种方式不仅需要对大量规则进行人工维护,而且还不能解决一些偶发的问题。此外,现有技术中也有引入机器学习来进行数据校正的手段,但现有的这种方式也需要进行大量人工标注,从而在具体实施中存在不小的困难,尤其是对于使用者也增添了不小的负担。
综上,现有在数据采集阶段对数据进行校准和提示的方式,在具体实施过程中需要耗费大量的人力资源,从而导致数据采集的整体效率低下。
针对上述现象,本发明构想到:以无监督学习的方式学习数据模型属性之间的关系来对偶发和未知的数据错误进行纠错和补全,从而无需人工维护大量规则,且使用无监督学习的方式也可以避免大量人工标注工作的发生,进而,本发明实施例实现了在医疗数据的采集阶段,自动的判别数据是否存在错误和针对错误数据进行纠错处理,从而有效地避免传统方式中需要人工维护规则或者进行数据标注带来的大量人力资源浪费,进而在确保所采集数据真实准确的前提下,提高了数据采集的整体效率。
为便于理解,在基于上述本发明数据采集过程中的数据处理方法的整体构思提出各具体实施例之前,下文先针对本发明数据采集过程中的数据处理方法涉及到的专业术语进行解释。
首先,根据数据模型的定义可知,数据模型提供了表示实体类型、属性和联系的方法,是一种用来描述现实世界的概念模型。那么描述同一个概念的属性间一定存在联系(或者说是互相影响),如「病患的姓名与病案号」、「病患号与就诊号」、「检查项目与执行科室」等等。由于这种联系或者互相影响可以解释为字段A的变化是以字段B为条件的,于是在本发明中,可以将如何实现自动对数据进行纠错问题相应的转化为如何找到这种联系或者影响以基于该联系或者影响来判定错误和对错误进行纠正。
其次,信息熵是对不确定性的测量,熵越高,信息量越大,熵越低,信息量越少。字段的信息量和字段的值不确定性成正相关,值越多样,信息量越大,值越少样信息量越低。比如在一个数据表中,某个字段在所有的行中的值均相等,则信息量为0,如果该字段在每行中的值都不相同,则信息量最大。
再其次,条件熵描述了在已知第二个随机变量X的值的前提下,随机变量Y的信息熵还有多少。根据条件熵,我们可以得到当字段X等于x_i时,字段Y的信息熵是多少。字段Y的信息熵减去所有上述条件熵之和,再除以字段X的信息熵,可以得到字段X的情况下字段Y的信息熵增长率,其意义为以字段X的某值为条件查询字段Y,Y有唯一值的可能性是多少。如果可能性为100%就证明字段X中任意值都有字段Y中的唯一值对应,该模型即为当字段A发生错误时,其他字段做条件得到字段A真实值的可信度矩阵。
如此,在得到了可信度矩阵之后,就可以根据参考数据集的字段X的值查询出正确的字段Y的值并予以比对,如果采集到的数据字段Y值与取出的正确值不符,则判断为错误,可以进行补全和纠错,如病患的姓名与病案号、病患号与就诊号、检查项目与执行科室等不匹配的情况。
示例性地,以HIS(HospitalInformationSystem,医院信息系统)中的数据为例,“收据费用编码”与“医嘱”的双向可信度分别为100%和31%,即以“医嘱”为条件,“收据费用编码”有唯一值的可信度是100%,以“收据费用编码”为条件,“医嘱”有唯一值的可能性是31%。“收据费用编码”与“院内费用编码”的双向可信度分别为71%和100%,即以“收据费用编码”为条件,“院内费用编码”有唯一值的可能性是71%,以“院内费用编码”为条件,“收据费用编码”有唯一值的可能性是100%。以医嘱和院内费用为条件,在参考集中查询收据费用编码,如果费用编码和查询结果不想等,则判断为错误,可对费用编码进行纠错。
接下来提出本发明数据采集过程中的数据处理方法的各个具体实施例。
请参照图2,图2为本发明数据采集过程中的数据处理方法第一实施例的流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,本发明数据采集过程中的数据处理方法当然也可以以不同于此处的顺序执行所示出或描述的步骤。此外,下文中将以上述的终端设备作为执行主体来针对本发明数据采集过程中的数据处理方法的第一实施例进行说明。
如图2所示,在本发明数据采集过程中的数据处理方法的第一实施例中,本发明数据采集过程中的数据处理方法包括如下步骤:
步骤S10:调用预设的无监督学习模型,其中,所述无监督学习模型基于计算医疗数据的字段间信息熵增长率进行训练得到;
在本实施例中,终端设备在针对医疗健康数据进行采集的过程中,在开始进行数据采集时,即调用预先已经基于计算医疗数据的字段间信息熵增长率进行训练得到的无监督学习模型。
示例性地,如图3所示的应用流程,终端设备在开始进行数据采集时,通过调用预先训练好的无监督学习模型以进行模型加载,从而获取得到信息熵增长率矩阵和参考数据集(图示的参考值)。
进一步地,在一种可行的实施例中,在上述的步骤S10之前,本发明数据采集过程中的数据处理方法还可以包括如下步骤:
获取预设的医疗数据训练集;
根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率;
将所述医疗数据训练集作为参考数据集,并将所述参考数据集和基于所述字段间信息熵增长率得到的信息熵增长率矩阵保存为无监督学习模型。
在本实施例中,终端设备在开始采集医疗数据之前,还基于计算医疗数据的字段间信息熵增长率进行训练以得到无监督学习模型。即,终端设备通过获取预先确定好的医疗数据训练集,从而根据信息熵公式先计算该医疗数据训练集中医疗数据的字段间信息熵增长率,进而,终端设备通过将医疗数据训练集作为参考数据集,并将该参考数据集和基于全部的字段间信息熵增长率得到的信息熵增长率矩阵,一起保存为无监督学习模型。
示例性地,如图4所示的应用流程,终端设备通过读取预先采集得到的医疗数据训练集train_set,并根据信息熵公式来逐一计算该医疗数据训练集中各医疗数据的字段间信息熵增长率Gain_ratio(Y,X)(图示字段与字段间信息熵增长率)以得到信息熵增长率矩阵gain_ratio_mat。最后,终端设备将医疗数据训练集train_set作为参考数据集reference_set(参考数据集也可称作参考值)和该信息熵增长率矩阵gain_ratio_mat一起保存作为无监督学习模型。
需要说明的是,在本实施例中,终端设备获取的上述医疗数据训练集train_set,为数据采集时得到的,经过判读为字段全部正确,且关键字段为有限数据集的二维表形式的医疗数据。该医疗数据训练集train_set具体可以是一张表,也可以是一个视图。
进一步地,在一种可行的实施例中,上述的字段间信息熵增长率为医疗train_set数据训练集中各医疗数据的第一字段X和第二字段Y之间的信息熵增长率。基于此,上述“根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率”的步骤,具体可以包括:
计算所述医疗数据训练集中所述第一字段的第一信息熵;
根据所述第一信息熵确定所述第一字段是否存在多种值,并在确定所述第一字段存在多种值时,计算所述医疗数据训练集中所述第二字段的第二信息熵;
根据所述第二信息熵确定所述第二字段是否存在多种值,并在确定所述第二字段存在多种值时,基于所述第一信息熵和所述第二信息熵计算所述第一字段和所述第二字段之间的信息熵增长率。
在本实施例中,终端设备在根据信息熵公式计算医疗数据训练集中每一个医疗数据的字段间信息熵增长率时,首先基于该信息熵公式计算字段X的第一信息熵,之后,根据该第一信息熵是否等于0确定该第一字段X是否存在多种值,从而在确定第一字段X存在多种值时,进一步计算该医疗数据训练集中当前医疗数据的第二字段Y的第二信息熵。并且,终端设备同样也根据该第二信息熵是否等于0确定该第二字段X是否存在多种值,并在该第二字段Y同样也存在多种值时,计算除开该第二字段Y以外第一字段X的条件熵,如此,终端设备即可基于该条件熵和上述的第一信息熵和第二信息熵一起来计算得到该第一字段X和该第二字段Y之间的信息熵增长率。
示例性地,在本实施例中,终端设备在计算医疗数据第一字段X和第二字段Y之间的信息熵增长率时,首先按照如下所述的信息熵公式计算该第一字段X的第一信息熵H(X)。
之后,如果第一信息熵H(X)不等于0,既“第一字段X中存在多种值,而非单一值”,则终端设备即按照相同的信息熵计算公式计算第二字段Y的第二信息熵H(Y)。
进一步地,如果该第二信息熵H(Y)也不等于0,既“第二字段Y中存在多种值,而非单一值”,则终端设备即按照如下所示条件熵的公式依次计算除第二字段Y以外第一字段X的条件熵H(Y|X)。
这其中,P(yi,xi)表示:在X字段值为xi条件下,Y字段值为yi的概率,P(xi)表示:X字段值为xi的概率。
最后,终端设备即可进一步按照如下所示的公式,根据条件熵H(Y|X)和上述的第一信息熵H(X)和第二信息熵H(Y),计算得到第一字段X和第二字段Y之间的信息熵增长率Gain_ratio(Y,X)。
如此,终端设备按照上述计算过程得到医疗数据训练集train_set(假定具体为一个二维表)中所有属性和非己属性的信息熵增长率之后,即可形成信息熵增长率矩阵gain_ratio_mat。该信息熵增长率矩阵gain_ratio_mat中横轴纵轴都是该表字段名,矩阵中的值的意义是以横轴字段的某值为条件查询纵轴字段,纵轴字段能得到唯一值的可能性是多少。
步骤S20,根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;
在本实施例中,终端设备在调用上述的无监督学习模型之后,即可进一步基于该无监督学习模型,和预先设定的信息熵增长率可信阈值,确定出该矩阵中可用的可信依据。
需要说明的是,在本实施例中,信息熵增长率可信阈值可基于实际应用的不同设计需要,而具体设置为不同的大小。示例性地,在本实施例中,信息熵增长率可信阈值具体可以设定为0.9-1。
进一步地,在一种可行的实施例中,上述的步骤S20,具体可以包括:
从所述无监督学习模型中提取所述信息熵增长率矩阵;
将所述信息熵增长率矩阵中大于预设的信息熵增长率可信阈值的目标信息熵增长率确定为可信依据。
在本实施例中,终端设备在调用上述的无监督学习模型进行加载之后,即可从该无监督学习模型中提取得到上述的信息熵增长率矩阵gain_ratio_mat,和,提取得到上述的参考数据集reference_set。之后,终端设备即可进一步设定信息熵增长率可信阈值为0.9-1,并将该信息熵增长率矩阵gain_ratio_mat中值大于该阈值的判断为可用的可信依据。即,横轴字段X的某值为条件查询纵轴字段Y,纵轴字段Y能得到唯一值的可能性大于等于90%-100%时为可信依据。
步骤S30,遍历数据采集过程中的待纠错数据得到验证参数;
在本实施例中,终端设备在确定出上述信息熵增长率矩阵中可用的可信依据之后,即可进一步针对在当前数据采集过程中采集到的待纠错数据进行遍历以得到该待纠错数据的验证参数。
示例性地,如图2所示的应用流程,终端设备当前针对医疗健康数据进行采集的过程中,在每采集到一条或者多条医疗数据之后,即将当前拿到的该医疗数据作为待纠错数据,并加载该待纠错数据进行逐行遍历,从而得到该待纠错数据的验证参数validation_set_i。
步骤S40,根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段;
步骤S50,在判定为是时,根据所述可信依据对所述错误字段进行纠错。
在本实施例中,终端设备在通过遍历待纠错数据以得到验证参数之后,进一步基于该验证参数和从上述信息熵增长率矩阵中确定的可用的可信依据一起,判定当前遍历的该待纠错数据当中是否存在错误字段。
然后,终端设备在判断当前遍历的待纠错数据当中存在错误字段时,终端设备即立即基于上述的可信依据对应的参考数据集中的正确结果,来针对该错误字段进行纠错处理。
需要说明的是,在本实施例中,上述的待纠错数据中至少包括具有有限值域的字段,即,该待纠错数据中的字段包括医嘱名称、手术名称、术式、用法、规格和单价中的至少一种。
进一步地,在一种可行的实施例中,上述的步骤S40,具体可以包括:
遍历所述可信依据以确定所述验证参数是否与所述参考数据集中第一字段和第二字段的正确参数相等;
若确定相等,则确定所述待纠错数据正确;
若确定不相等,则确定所述待纠错数据中存在错误字段。
在本实施例中,终端设备在判定待纠错数据当中是否存在错误字段时,通过针对上述可用的可信依据进行变量,从而确定验证参数是否与参考数据集中第一字段和第二字段的正确参数相等,即,在该参考数据当中第一字段的值等于该验证参数中相同字段的值时,该参考数据中第二字段的值,是否同样的也是该验证参数中相同字段的值相等。如此,若均相等则表示当前的待纠错数据当中并不存在错误,而如果存在不相等的情况,则表示该待纠错数据中的第一字段和/或者第二字段为错误字段。
进一步地,在一种可行的实施例中,上述的步骤S50中,“根据所述可信依据对所述错误字段进行纠错”的步骤,具体可以包括:
根据所述可信依据在所述参考数据集中确定所述错误字段对应的正确结果;
按照所述正确结果对所述错误字段进行纠错。
在本实施例中,终端设备在通过遍历上述的可信依据以确定到当前的待纠错数据当中存在错误字段之后,终端设备即可将该可信依据在上述无监督学习模型中的参考数据集中对应的字段取值,确定为当前待纠错数据对应的正确结果,进而,终端设备即可按照该正确结果对该错误字段自动进行纠错。
示例性地,如图2所示的应用流程,终端设备通过对上述信息熵增长率矩阵gain_ratio_mat中的可信依据进行遍历,从而查询参考数据集reference_set中,当第一字段X的值为validation_set_i.X时,第二字段Y的值是否等于当前待纠错数据的验证参数中字段Y的值validation_set_i.Y,如果等于则说明该字段Y正确,而如果不等于,则说明该字段Y是错误字段,终端设备即标记该字段Y为错误字段,并将参考数据集reference_set中,可信依据对应的第二字段Y的值为正确结果,如此,终端设备即记录该第二字段Y的值,并基于该值对待纠错数据中错误字段Y的值进行纠错处理。
在本实施例中,本发明数据采集过程中的数据处理方法通过终端设备在针对医疗健康数据进行采集的过程中,在开始进行数据采集时,即调用预先已经基于计算医疗数据的字段间信息熵增长率进行训练得到的无监督学习模型。终端设备在调用上述的无监督学习模型之后,即可进一步基于该无监督学习模型,和预先设定的信息熵增长率可信阈值,确定出该矩阵中可用的可信依据。终端设备在确定出上述信息熵增长率矩阵中可用的可信依据之后,即可进一步针对在当前数据采集过程中采集到的待纠错数据进行遍历以得到该待纠错数据的验证参数。
终端设备在通过遍历待纠错数据以得到验证参数之后,进一步基于该验证参数和从上述信息熵增长率矩阵中确定的可用的可信依据一起,判定当前遍历的该待纠错数据当中是否存在错误字段。然后,终端设备在判断当前遍历的待纠错数据当中存在错误字段时,终端设备即立即基于上述的可信依据对应的参考数据集中的正确结果,来针对该错误字段进行纠错处理。
如此,本发明实施例以无监督学习的方式学习数据模型属性之间的关系来对偶发和未知的数据错误进行纠错和补全,从而无需人工维护大量规则,且使用无监督学习的方式也可以避免大量人工标注工作的发生,进而,本发明实施例实现了在医疗数据的采集阶段,自动的判别数据是否存在错误和针对错误数据进行纠错处理,从而有效地避免传统方式中需要人工维护规则或者进行数据标注带来的大量人力资源浪费,进而在确保所采集数据真实准确的前提下,提高了数据采集的整体效率。
此外,本发明实施例还提供一种数据采集过程中的数据处理装置。
请参照图5,图5为本发明数据采集过程中的数据处理装置一实施例的功能模块示意图,如图5所示,本发明数据采集过程中的数据处理装置包括:
模型加载模块10,通过调用预设的无监督学习模型,其中,所述无监督学习模型基于计算医疗数据的字段间信息熵增长率进行训练得到;
确定模块20,用于根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;
数据加载模块30,用于遍历数据采集过程中的待纠错数据得到验证参数;和,根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段;
纠错模块40,用于在判定为是时,根据所述可信依据对所述错误字段进行纠错。
可选地,本发明数据采集过程中的数据处理装置,还包括:
模型训练模块,用于获取预设的医疗数据训练集;根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率;以及,将所述医疗数据训练集作为参考数据集,并将所述参考数据集和基于所述字段间信息熵增长率得到的信息熵增长率矩阵保存为无监督学习模型。
可选地,所述字段间信息熵增长率为所述医疗数据训练集中第一字段和第二字段之间的信息熵增长率;
所述模型训练模块,还用于计算所述医疗数据训练集中所述第一字段的第一信息熵;根据所述第一信息熵确定所述第一字段是否存在多种值,并在确定所述第一字段存在多种值时,计算所述医疗数据训练集中所述第二字段的第二信息熵;以及,根据所述第二信息熵确定所述第二字段是否存在多种值,并在确定所述第二字段存在多种值时,基于所述第一信息熵和所述第二信息熵计算所述第一字段和所述第二字段之间的信息熵增长率。
可选地,确定模块,还用于从所述无监督学习模型中提取所述信息熵增长率矩阵;和,将所述信息熵增长率矩阵中大于预设的信息熵增长率可信阈值的目标信息熵增长率确定为可信依据。
可选地,数据加载模块,还用于遍历所述可信依据以确定所述验证参数是否与所述参考数据集中第一字段和第二字段的正确参数相等;若确定相等,则确定所述待纠错数据正确;以及,若确定不相等,则确定所述待纠错数据中存在错误字段。
可选地,纠错模块,还用于根据所述可信依据在所述参考数据集中确定所述错误字段对应的正确结果;和,按照所述正确结果对所述错误字段进行纠错。
可选地,所述待纠错数据包括的字段为具有有限值域的字段,所述字段包括医嘱名称、手术名称、术式、用法、规格和单价中的至少一种。
其中,本发明数据采集过程中的数据处理装置的具体实施例与上述本发明数据处理程序方法各实施例基本相同,在此不作赘述。
本发明还提供一种计算机存储介质,该计算机存储介质上存储有数据处理程序,上述数据处理程序被处理器执行时实现如以上任一项实施例所述的数据处理程序方法的步骤。
其中,本发明计算机存储介质的具体实施例与上述本发明数据处理程序方法各实施例基本相同,在此不作赘述。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如以上任一项实施例所述的本发明数据采集过程中的数据处理方法的步骤,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是TWS耳机等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种数据采集过程中的数据处理方法,其特征在于,所述数据采集过程中的数据处理方法包括:
调用预设的无监督学习模型,其中,所述无监督学习模型基于计算医疗数据的字段间信息熵增长率进行训练得到;
根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;
遍历数据采集过程中的待纠错数据得到验证参数;
根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段;
在判定为是时,根据所述可信依据对所述错误字段进行纠错;
其中,所述数据处理方法还包括:
获取预设的医疗数据训练集;
根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率;
将所述医疗数据训练集作为参考数据集,并将所述参考数据集和基于所述字段间信息熵增长率得到的信息熵增长率矩阵保存为无监督学习模型;
所述字段间信息熵增长率为所述医疗数据训练集中第一字段和第二字段之间的信息熵增长率,所述信息熵增长率为:以所述第一字段的值为条件查询所述第二字段时,所述第二字段具有唯一值的可能性,所述信息熵增长率等于100%即表示所述第一字段中的任意值都有所述第二字段中的唯一值对应;
所述根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据的步骤,包括:
从所述无监督学习模型中提取所述信息熵增长率矩阵;
将所述信息熵增长率矩阵中大于预设的信息熵增长率可信阈值的目标信息熵增长率确定为可信依据。
2.如权利要求1所述的数据处理方法,其特征在于,所述根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率的步骤,包括:
计算所述医疗数据训练集中所述第一字段的第一信息熵;
根据所述第一信息熵确定所述第一字段是否存在多种值,并在确定所述第一字段存在多种值时,计算所述医疗数据训练集中所述第二字段的第二信息熵;
根据所述第二信息熵确定所述第二字段是否存在多种值,并在确定所述第二字段存在多种值时,基于所述第一信息熵和所述第二信息熵计算所述第一字段和所述第二字段之间的信息熵增长率。
3.如权利要求1所述的数据处理方法,其特征在于,所述根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段的步骤,包括:
遍历所述可信依据以确定所述验证参数是否与所述参考数据集中第一字段和第二字段的正确参数相等;
若确定相等,则确定所述待纠错数据正确;
若确定不相等,则确定所述待纠错数据中存在错误字段。
4.如权利要求3所述的数据处理方法,其特征在于,所述根据所述可信依据对所述错误字段进行纠错的步骤,包括:
根据所述可信依据在所述参考数据集中确定所述错误字段对应的正确结果;
按照所述正确结果对所述错误字段进行纠错。
5.如权利要求1至4中任一项所述的数据处理方法,其特征在于,所述待纠错数据包括的字段为具有有限值域的字段,所述字段包括医嘱名称、手术名称、术式、用法、规格和单价中的至少一种。
6.一种数据采集过程中的数据处理装置,其特征在于,所述数据采集过程中的数据处理装置,包括:
模型加载模块,通过调用预设的无监督学习模型,其中,所述无监督学习模型基于计算医疗数据的字段间信息熵增长率进行训练得到;
确定模块,用于根据所述无监督学习模型和预设的信息熵增长率可信阈值确定可信依据;
数据加载模块,用于遍历数据采集过程中的待纠错数据得到验证参数;和,根据所述可信依据和所述验证参数确定所述待纠错数据是否存在错误字段;
纠错模块,用于在判定为是时,根据所述可信依据对所述错误字段进行纠错;
其中,所述数据采集过程中的数据处理装置,还包括:
模型训练模块,用于获取预设的医疗数据训练集;根据所述医疗数据训练集计算医疗数据的字段间信息熵增长率;以及,将所述医疗数据训练集作为参考数据集,并将所述参考数据集和基于所述字段间信息熵增长率得到的信息熵增长率矩阵保存为无监督学习模型;
所述字段间信息熵增长率为所述医疗数据训练集中第一字段和第二字段之间的信息熵增长率,所述信息熵增长率为:以所述第一字段的值为条件查询所述第二字段时,所述第二字段具有唯一值的可能性,所述信息熵增长率等于100%即表示所述第一字段中的任意值都有所述第二字段中的唯一值对应;
所述模型训练模块,还用于计算所述医疗数据训练集中所述第一字段的第一信息熵;根据所述第一信息熵确定所述第一字段是否存在多种值,并在确定所述第一字段存在多种值时,计算所述医疗数据训练集中所述第二字段的第二信息熵;以及,根据所述第二信息熵确定所述第二字段是否存在多种值,并在确定所述第二字段存在多种值时,基于所述第一信息熵和所述第二信息熵计算所述第一字段和所述第二字段之间的信息熵增长率。
7.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至5中任一项所述的数据采集过程中的数据处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至5中任一项所述的数据采集过程中的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211388369.5A CN115440333B (zh) | 2022-11-08 | 2022-11-08 | 数据采集过程中的数据处理方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211388369.5A CN115440333B (zh) | 2022-11-08 | 2022-11-08 | 数据采集过程中的数据处理方法、装置、终端设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115440333A CN115440333A (zh) | 2022-12-06 |
CN115440333B true CN115440333B (zh) | 2023-02-24 |
Family
ID=84252973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211388369.5A Active CN115440333B (zh) | 2022-11-08 | 2022-11-08 | 数据采集过程中的数据处理方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115440333B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753531A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN112185520A (zh) * | 2020-09-27 | 2021-01-05 | 志诺维思(北京)基因科技有限公司 | 一种医疗病理报告图片的文本结构化处理系统和方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11216766B2 (en) * | 2017-01-09 | 2022-01-04 | Kabushiki Kaisha Toshiba | System and method for generalized skill assessment using activity data |
CN110379521B (zh) * | 2019-06-24 | 2023-04-18 | 河南省新星科技有限公司 | 基于信息论的医疗数据集特征选择方法 |
CN111539199B (zh) * | 2020-04-17 | 2023-08-18 | 中移(杭州)信息技术有限公司 | 文本的纠错方法、装置、终端、及存储介质 |
-
2022
- 2022-11-08 CN CN202211388369.5A patent/CN115440333B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753531A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN112185520A (zh) * | 2020-09-27 | 2021-01-05 | 志诺维思(北京)基因科技有限公司 | 一种医疗病理报告图片的文本结构化处理系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115440333A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | A proportional likelihood ratio model | |
US20080148375A1 (en) | Authentication system, authentication device, and authentication method | |
CN110335667B (zh) | 医学影像管理方法、装置、系统及存储介质 | |
CN107766395B (zh) | 数据匹配方法和装置 | |
CN110362700B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN101310302A (zh) | 用于体积配准的方法、系统和计算机程序 | |
CN101192145A (zh) | 一种错误即时提示的方法及系统 | |
CN115440333B (zh) | 数据采集过程中的数据处理方法、装置、终端设备及介质 | |
CN111428029B (zh) | 一种手术名称标准化方法及装置 | |
CN111767543B (zh) | 重放攻击漏洞确定方法、装置、设备及可读存储介质 | |
WO2021036305A1 (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112215276A (zh) | 一种对抗网络的训练方法、装置、电子设备和存储介质 | |
CN116660563A (zh) | 样本处理方法、装置、样本分析仪及存储介质 | |
CN110232143A (zh) | 通过区块链的问答数据查询方法及其设备 | |
CN115458100A (zh) | 基于知识图谱的随访方法、装置、电子设备及存储介质 | |
US20240055104A1 (en) | Method for analyzing output of neural network, and system therefor | |
CN111651979A (zh) | 一种车辆属性的纠错方法、装置、存储介质及终端 | |
CN111311587A (zh) | 医学影像数据处理方法、装置、医学信息系统及介质 | |
CN113889214B (zh) | 一种获取目标文本的数据处理系统 | |
CN111477309B (zh) | 基于大数据分析的私有云接入方法及公共云和存储介质 | |
CN112545493B (zh) | 身高评价方法及终端设备 | |
CN109902428B (zh) | 椭圆锥面方程的模型识别方法、装置、终端设备及可读存储介质 | |
CN113821833A (zh) | 临床路径自动执行的方法、装置及电子设备 | |
CN113660201A (zh) | 一种高并发主键冲突的控制方法及控制装置 | |
CN116933258A (zh) | 一种恶意文件的检测方法、检测装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Data processing methods, devices, terminal devices, and media in the data collection process Effective date of registration: 20230728 Granted publication date: 20230224 Pledgee: Bank of Communications Limited Shenzhen Branch Pledgor: Shenzhen Dashi Qiyun Health Technology Co.,Ltd. Registration number: Y2023980050279 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |