CN110555472B - 基于主动学习的心电信号数据标注方法 - Google Patents
基于主动学习的心电信号数据标注方法 Download PDFInfo
- Publication number
- CN110555472B CN110555472B CN201910793589.8A CN201910793589A CN110555472B CN 110555472 B CN110555472 B CN 110555472B CN 201910793589 A CN201910793589 A CN 201910793589A CN 110555472 B CN110555472 B CN 110555472B
- Authority
- CN
- China
- Prior art keywords
- labeling
- model
- data
- probability
- electrocardiosignal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明提出的一种基于主动学习的心电信号数据标注方法,首先通过样本训练获得标注模型,然后通过标注模型对未人工标注的心电信号数据进行模型标注。本发明中,标注模型F通过简单的标注概率模型H和固定的标注函数组成,对标注模型F的训练实际上也是对标注概率模型H的训练。本发明中,在标注模型F训练过程中,通过对标注概率模型H的输出的不确定度的计算挑选评估数据,使得标注模型F的稳定度的计算更加准确可靠。本发明提出的一种基于主动学习的心电信号数据标注方法,通过评估数据的针对性选择,降低了标注模型F的训练过程中人工标注工作量,并提高了标注模型的训练效率和标注精确度。
Description
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种基于主动学习的心电信号数据标注方法。
背景技术
心电信号数据在病理诊断方面非常重要,但是绝大部分采集的心电信号是没有经过标注的。例如,重症监护病房ICU内对病人24小时不间断地采集心电信号数据,只有是医生查房的时候,或者出现非常紧急的情况,才有可能“标注”采集的数据,其他时候都被直接存放到了HIS系统中。心电科医生分析(也就是“标注”)一份60秒的心电信号的报告,花费在数十元人民币。标注10000例数据(这个数据量实际还远未达到深度学习方法的训练需求)就需要花费数十万元。一个心电科医生一天大约可以阅读200份报告,标注10000例数据需要50天。可见,心电信号数据进行人工标注的,人工成本和时间成本均居高不下。
随着人工智能的不断发展,基于数据的人工智能在心电信号分析领域取得了瞩目的初步成效。相关的人工智能产品也受到了医院、体检中心、心电设备供应厂商、智能硬件厂商等的高度关注。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于主动学习的心电信号数据标注方法。
本发明提出的一种基于主动学习的心电信号数据标注方法,首先通过样本训练获得标注模型,然后通过标注模型对未人工标注的心电信号数据进行模型标注;
通过样本训练获得标注模型的方法为:
首先建立标注概率模型H,用于标注每一条心电信号数据对应的预测概率,并建立用于根据预测概率计算标注结果的标注函数,然后结合标注概率模型H和标注函数建立标注模型F;
根据样本数据的人工标注对标注模型F进行训练更新,且同时更新标注概率模型H进行更新;
根据更新后的标注概率模型H计算所有未人工标注的心电信号数据的预测概率,并根据预测概率计算不确定度;获取对应的不确定度最大的nh个心电信号数据作为评估数据,根据更新后的标注模型F对评估数据进行人工标注,并对各评估数据进行人工标注;
根据人工标注与模型标注一致的评估数据占比评估标注模型F的稳定度p;通过补充样本对标注模型F和标注概率模型H进行更新,直至稳定度p达到预设阈值a。
优选的,通过补充样本对标注模型F和标注概率模型H进行更新的具体方式为:当稳定度p小于阈值a,则将评估数据作为补充样本,并通过补充样本和对应的人工标注对标注模型F和标注概率模型H进行更新。
优选的,通过样本训练获得标注模型的方法具体包括:
S2、构建标注概率模型H,其输入为心电信号数据xi,输出为心电信号数据xi对应的预测概率zi;设置标注函数,标注函数的输入为预测概率zi,其输出为标注结果yi;结合标注概率模型H和标注函数建立标注模型F,标注模型F的输入为心电信号数据xi,输出为标注结果yi;
S4、根据样本数据集合Xyes和样本标注集合Yyes对标注模型F进行更新,并根据更新后的标注模型F的参数对标注概率模型H进行更新;
S5、对初始数据集合X中未标注的心电信号数据xk,通过当前的标注模型F进行模型标注yk,并通过标注概率模型H标注预测概率zk;计算各预测概率zk的不确定度ek,获取不确定度最大的nh个不确定度对应的心电信号数据xk作为评估数据;
S6、对评估数据进行人工标注,并统计人工标注与模型标注一致的评估数据数量ne,计算ne与nh的比值作为标注模型F的稳定度P;判断稳定度P是否大于预设的阈值a,是,则保存标注模型F;
S7、否,则将评估数据和对应的人工标注分别补充到集合Xyes和样本标注集合Yyes,然后返回步骤S4。
优选的,步骤S2中,预测概率zj为由m个概率值组成的长度为m的行向量,且m个概率值之和为1;标注函数为:yi为与预测概率zi等长的行向量;yi有且仅有一个位置标注为1,其余位置为0,且yi中标注为1的位置为zi中最大值对应的位置。
优选的,c为自然常数,或者c=10。
优选的,步骤S3中,20≤nyes≤100≤n。
优选的,步骤5中,20≤nh≤100,nh≤n-nyes。
优选的,nh=nyes。
优选的,0.8≤a<1。
本发明提出的一种基于主动学习的心电信号数据标注方法,通过评估数据的针对性选择,降低了标注模型F的训练过程中人工标注工作量,并提高了标注模型的训练效率和标注精确度。通过本方法训练获得的标注模型可对心电信号数据进行自动标注,可对心电信号数据进行高精确度的自动标注,减少需要人工标注的数据量,加快标注过程,减少时间和人力成本。
本发明中,标注模型F通过简单的标注概率模型H和固定的标注函数组成,对标注模型F的训练实际上也是对标注概率模型H的训练。本发明中,在标注模型F训练过程中,通过对标注概率模型H的输出的不确定度的计算挑选评估数据,使得标注模型F的稳定度的计算更加准确可靠;同时还保证了对标注模型F进一步修正时,保证补充样本的针对性选择。
附图说明
图1为本发明提出的一种基于主动学习的心电信号数据标注方法流程图;
图2为本发明中通过样本训练获得标注模型的方法流程图。
具体实施方式
参照图1,本发明提出的一种基于主动学习的心电信号数据标注方法,首先通过样本训练获得标注模型,然后通过标注模型对未人工标注的心电信号数据进行模型标注。
本方法中,通过样本训练获得标注模型的方法为:首先建立标注概率模型H,用于标注每一条心电信号数据对应的预测概率,并建立用于根据预测概率计算标注结果的标注函数,然后结合标注概率模型H和标注函数建立标注模型F;根据样本数据的人工标注对标注模型F进行训练更新,且同时更新标注概率模型H进行更新;根据更新后的标注概率模型H计算所有未人工标注的心电信号数据的预测概率,并根据预测概率计算不确定度;获取对应的不确定度最大的nh个心电信号数据作为评估数据,根据更新后的标注模型F对评估数据进行人工标注,并对各评估数据进行人工标注;根据人工标注与模型标注一致的评估数据占比评估标注模型F的稳定度p;通过补充样本对标注模型F和标注概率模型H进行更新,直至稳定度p达到预设阈值a。
如此,本实施方式中,标注模型F通过简单的标注概率模型H和固定的标注函数组成,对标注模型F的训练实际上也是对标注概率模型H的训练。本实施方式中,在标注模型F训练过程中,通过对标注概率模型H的输出的不确定度的计算挑选评估数据,使得标注模型F的稳定度的计算更加准确可靠;同时还保证了对标注模型F进一步修正时,保证补充样本的针对性选择。
本实施方式中,通过评估数据的针对性选择,降低了标注模型F的训练过程中人工标注工作量,并提高了标注模型的训练效率和标注精确度。通过本方法训练获得的标注模型可对心电信号数据进行自动标注,可对心电信号数据进行高精确度的自动标注,减少需要人工标注的数据量,加快标注过程,减少时间和人力成本。
本实施方式中,通过补充样本对标注模型F和标注概率模型H进行更新的具体方式为:当稳定度p小于阈值a,则将评估数据作为补充样本,并通过补充样本和对应的人工标注对标注模型F和标注概率模型H进行更新。本实施方式中,0.8≤a<1。
具体的,本实施方式中,通过样本训练获得标注模型的方法具体包括:
具体的,本实施方式中,通过在数据预处理时,将心电信号数据长度统一,有利于提高模型训练效率和数据标注精确度。
S2、构建标注概率模型H,其输入为心电信号数据xi,输出为心电信号数据xi对应的预测概率zi;设置标注函数,标注函数的输入为预测概率zi,其输出为标注结果yi;结合标注概率模型H和标注函数建立标注模型F,标注模型F的输入为心电信号数据xi,输出为标注结果yi。
本实施方式中,标注函数为固定函数。具体的,本实施方式中,预测概率zi为由m个概率值组成的长度为m的行向量,记作且m个概率值之和为1,记作|zi|1=1。即,标注概率模型H对应每一条心电信号数据xi输出m个概率值,m个概率值组成行向量zi。
标注函数为:yi为与预测概率zi等长的行向量;yi有且仅有一个位置标注为1,其余位置为0,且yi中标注为1的位置为zi中最大值对应的位置,即:
yi[j]表示行向量yi中第j个值,zi[j]表示行向量zi中第j个值,max(zi[j])表示行向量zi中最大的概率值。
具体的,标注函数记作:yi=assign(zi);
标注模型F为:yi=F(xi)=assign(H(xi))。
S3、从X中随机选取部分心电信号数据作为样本数据进行人工标注,并建立样本数据集合获得样本数据集合Xyes中每一条样本数据xj的标注结果yj并建立样本标注集合Yyes。本实施方式中,20≤nyes≤100≤n。具体的,本实施方式中,设r1=nyes/n,可见,r1为取值大于0小于1的数值,具体实施时,r1的取值接近于0,以减少人工标注工作量。
S4、根据样本数据集合Xyes和样本标注集合Yyes对标注模型F进行更新,并根据更新后的标注模型F的参数对标注概率模型H进行更新。具体的,本实施方式中,由于标注函数确定,故而获得标注模型F的参数后,可直接根据标注模型F的参数获得标注概率模型H的参数,从而实现标注概率模型H与标注模型F的同步更新。
S5、对初始数据集合X中未标注的心电信号数据xk,通过当前的标注模型F进行模型标注yk,并通过标注概率模型H标注预测概率zk;计算各预测概率zk的不确定度ek,获取不确定度最大的nh个不确定度对应的心电信号数据xk作为评估数据。具体的,本实施方式中,20≤nh≤100,nh≤n-nyes。
现有技术中,在标注概率模型的训练过程中,有许多方法可根据预测概率计算不确定度。本实施方式中,使用熵值度量计算预测概率zk的不确定度ek,计算公式为:zk[j]表示预测概率zk中第j个概率值,其中c为计算常数,具体可选择自然常数或者10。
S6、对评估数据进行人工标注,并统计人工标注与模型标注一致的评估数据数量ne,计算ne与nh的比值作为标注模型F的稳定度P;判断稳定度P是否大于预设的阈值a,是,则保存标注模型F。
具体的,本实施方式中,考虑到标注概率模型H与标注模型F在工作上的独立性,对心电信号数据xk的标注结果yk和预测概率zk同时进行标注;具体实施时,也可先通过标注概率模型H计算心电信号数据xk的预测概率zk,然后挑选出评估数据后,仅对评估数据进行模型标注,以降低模型标注工作量。
S7、否,则将评估数据和对应的人工标注分别补充到集合Xyes和样本标注集合Yyes,然后返回步骤S4。
具体的,本实施方式中,nh=nyes,以保证每一次标注模型F更新时,样本数据的等数增加,进一步提高模型训练效率。
以上所述,仅为本发明涉及的较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种基于主动学习的心电信号数据标注方法,其特征在于,首先通过样本训练获得标注模型,然后通过标注模型F对未人工标注的心电信号数据进行模型标注;
通过样本训练获得标注模型的方法为:
首先建立标注概率模型H,用于标注每一条心电信号数据对应的预测概率,并建立用于根据预测概率计算标注结果的标注函数,然后结合标注概率模型H和标注函数建立标注模型F;
根据样本数据的人工标注对标注模型F进行训练更新,且同时更新标注概率模型H进行更新;
根据更新后的标注概率模型H计算所有未人工标注的心电信号数据的预测概率,并根据预测概率计算不确定度;获取对应的不确定度最大的nh个心电信号数据作为评估数据,根据更新后的标注模型F对评估数据进行人工标注,并对各评估数据进行人工标注;
根据人工标注与模型标注一致的评估数据占比评估标注模型F的稳定度p;通过补充样本对标注模型F和标注概率模型H进行更新,直至稳定度p达到预设阈值a;
通过补充样本对标注模型F和标注概率模型H进行更新的具体方式为:当稳定度p小于阈值a,则将评估数据作为补充样本,并通过补充样本和对应的人工标注对标注模型F和标注概率模型H进行更新;
通过样本训练获得标注模型的方法具体包括:
S2、构建标注概率模型H,其输入为心电信号数据xi,输出为心电信号数据xi对应的预测概率zi;设置标注函数,标注函数的输入为预测概率zi,其输出为标注结果yi;结合标注概率模型H和标注函数建立标注模型F,标注模型F的输入为心电信号数据xi,输出为标注结果yi;
S4、根据样本数据集合Xyes和样本标注集合Yyes对标注模型F进行更新,并根据更新后的标注模型F的参数对标注概率模型H进行更新;
S5、对初始数据集合X中未标注的心电信号数据xk,通过当前的标注模型F进行模型标注yk,并通过标注概率模型H标注预测概率zk;计算各预测概率zk的不确定度ek,获取不确定度最大的nh个不确定度对应的心电信号数据xk作为评估数据;
S6、对评估数据进行人工标注,并统计人工标注与模型标注一致的评估数据数量ne,计算ne与nh的比值作为标注模型F的稳定度P;判断稳定度P是否大于预设的阈值a,是,则保存标注模型F;
S7、否,则将评估数据和对应的人工标注分别补充到集合Xyes和样本标注集合Yyes,然后返回步骤S4。
2.如权利要求1所述的基于主动学习的心电信号数据标注方法,其特征在于,步骤S2中,预测概率zi为由m个概率值组成的长度为m的行向量,且m个概率值之和为1;标注函数为:yi为与预测概率zi等长的行向量;yi有且仅有一个位置标注为1,其余位置为0,且yi中标注为1的位置为zi中最大值对应的位置。
4.如权利要求3所述的基于主动学习的心电信号数据标注方法,其特征在于,c为自然常数,或者c=10。
5.如权利要求1所述的基于主动学习的心电信号数据标注方法,其特征在于,步骤S3中,20≦nyes≦100≦n。
6.如权利要求5所述的基于主动学习的心电信号数据标注方法,其特征在于,步骤5中,20≦nh≦100,nh≦n-nyes。
7.如权利要求6所述的基于主动学习的心电信号数据标注方法,其特征在于,nh=nyes。
8.如权利要求1所述的基于主动学习的心电信号数据标注方法,其特征在于,0.8≦a﹤1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910793589.8A CN110555472B (zh) | 2019-08-27 | 2019-08-27 | 基于主动学习的心电信号数据标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910793589.8A CN110555472B (zh) | 2019-08-27 | 2019-08-27 | 基于主动学习的心电信号数据标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110555472A CN110555472A (zh) | 2019-12-10 |
CN110555472B true CN110555472B (zh) | 2023-02-03 |
Family
ID=68738295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910793589.8A Active CN110555472B (zh) | 2019-08-27 | 2019-08-27 | 基于主动学习的心电信号数据标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555472B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111820890A (zh) * | 2020-07-24 | 2020-10-27 | 武汉中旗生物医疗电子有限公司 | 一种心电信号质量标注方法及装置 |
CN112115813A (zh) * | 2020-08-31 | 2020-12-22 | 深圳市联合视觉创新科技有限公司 | 人体肌电信号的标注方法、装置及计算设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
CN110009057A (zh) * | 2019-04-16 | 2019-07-12 | 四川大学 | 一种基于深度学习的图形验证码识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756800B2 (en) * | 2006-12-14 | 2010-07-13 | Xerox Corporation | Method for transforming data elements within a classification system based in part on input from a human annotator/expert |
-
2019
- 2019-08-27 CN CN201910793589.8A patent/CN110555472B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
CN110009057A (zh) * | 2019-04-16 | 2019-07-12 | 四川大学 | 一种基于深度学习的图形验证码识别方法 |
Non-Patent Citations (1)
Title |
---|
基于改进BP神经网络的心电信号分类方法;王莉等;《电子技术应用》;20190606(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110555472A (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161822A (zh) | 医学影像人工智能诊断数据管理系统及其管理方法 | |
CN110111886A (zh) | 一种基于XGBoost疾病预测的智能问诊系统及方法 | |
CN110555472B (zh) | 基于主动学习的心电信号数据标注方法 | |
CN115497616B (zh) | 一种感染性疾病辅助决策的方法、系统、设备及存储介质 | |
CN110767279A (zh) | 基于lstm的电子健康记录缺失数据补全方法及系统 | |
CN115271033B (zh) | 基于联邦知识蒸馏医学图像处理模型构建及其处理方法 | |
CN110993096B (zh) | 一种脓毒血症的预警装置、设备及存储介质 | |
CN114864088B (zh) | 一种基于医疗健康的数字孪生建立方法、装置和存储介质 | |
CN113538334A (zh) | 一种胶囊内窥镜图像病变识别装置及训练方法 | |
CN108229688A (zh) | 一种基于irt的信息处理方法及装置 | |
CN110456050B (zh) | 便携式智能数字化寄生虫体外诊断仪 | |
CN117497149A (zh) | 一种基于人工智能的医院管理方法及系统 | |
CN116350196A (zh) | 基于深度学习的无创血压值预测方法及系统 | |
CN117034142B (zh) | 一种不平衡医疗数据缺失值填充方法及系统 | |
JP2022076278A (ja) | モデル学習方法、モデル学習システム、サーバ装置、及びコンピュータプログラム | |
CN112669973B (zh) | 基于大数据深度学习的疾病协同递进预测方法和机器人 | |
CN114048320B (zh) | 一种基于课程学习的多标签国际疾病分类训练方法 | |
CN115153437A (zh) | 一种疼痛程度识别方法及系统 | |
WO2021103623A1 (zh) | 一种脓毒血症的预警装置、设备及存储介质 | |
CN110911011A (zh) | 一种脓毒血症的预警装置、设备及存储介质 | |
CN111462893A (zh) | 一种提供诊断依据的中文病历辅助诊断方法及系统 | |
Bruckers et al. | Cluster analysis for repeated data with dropout: Sensitivity analysis using a distal event | |
CN117727456B (zh) | 一种基于人工智能的产科心理评估模型塑造系统及方法 | |
CN113658713B (zh) | 传染趋势预测方法、装置、设备及存储介质 | |
CN112914774B (zh) | 一种基于云平台的数字化口腔咬合分析系统及分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |