CN117059283B - 一种基于肺结核预警的语音数据库分类和处理系统 - Google Patents
一种基于肺结核预警的语音数据库分类和处理系统Info
- Publication number
- CN117059283B CN117059283B CN202311026692.2A CN202311026692A CN117059283B CN 117059283 B CN117059283 B CN 117059283B CN 202311026692 A CN202311026692 A CN 202311026692A CN 117059283 B CN117059283 B CN 117059283B
- Authority
- CN
- China
- Prior art keywords
- voice
- database
- tuberculosis
- data
- voice database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 38
- 208000008128 pulmonary tuberculosis Diseases 0.000 title claims description 165
- 201000008827 tuberculosis Diseases 0.000 claims abstract description 114
- 206010011224 Cough Diseases 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000010801 machine learning Methods 0.000 claims abstract description 36
- 238000003058 natural language processing Methods 0.000 claims abstract description 19
- 238000003909 pattern recognition Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 32
- 208000024891 symptom Diseases 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 238000012300 Sequence Analysis Methods 0.000 claims description 10
- 230000002685 pulmonary effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 6
- 210000004072 lung Anatomy 0.000 claims description 6
- 238000012731 temporal analysis Methods 0.000 claims description 6
- 238000000700 time series analysis Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 238000012216 screening Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 208000000059 Dyspnea Diseases 0.000 description 3
- 206010013975 Dyspnoeas Diseases 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000193830 Bacillus <bacterium> Species 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- 208000000616 Hemoptysis Diseases 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000028709 inflammatory response Effects 0.000 description 1
- 230000007794 irritation Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Abstract
本发明公开了一种基于肺结核预警的语音数据库分类和处理系统,涉及语音数据库处理领域,系统涵盖了大众用户、肺结核患者及非肺结核患者的语音数据,采用三种机器学习模型,自然语言处理模型、咳嗽识别机器学习模型和语音模式识别机器学习模型,对数据库的语音数据进行分析并分类;每个模型都通过肺结核及非肺结核患者的语音数据库进行训练,确保准确性;数据库处理模块进一步对模型输出的数据进行并集和交集操作,提供更精确的筛选结果。本发明有效地实现了对大量语音数据的快速、准确的分类、处理,给肺结核的前期预警、筛查提供了帮助。
Description
技术领域
本发明涉及语音数据库处理领域,更具体地说,涉及一种基于肺结核预警的语音数据库分类和处理系统。
背景技术
肺结核是一种由结核杆菌引起的传染性疾病,其潜在性及高度的传染性使得它在全球范围内成为公共卫生的重要议题。尤其在高风险地区,肺结核的感染率相对较高,导致了巨大的医疗负担和公共健康隐患。
语音数据库在健康监测和疾病预警中有所潜力,由于肺结核患者的声带等会受到印象,且容易咳嗽,利用语音数据库进行前期筛查是可行的。然而,由于患者数量庞大,这些数据库的规模通常是巨大的。这使得对这些数据库进行有效的筛查和分类成为了一个技术挑战。若依赖人工操作,不仅效率低下,而且容易出错。但是,如果能够对于大众用户的语音数据库进行分类,将其分为肺结核相关的语音数据库,以及非肺结核相关的语音数据库,那么在前期,医疗团队便可以有针对性地优先审查肺结核相关的语音数据库中的语音数据,并且在判断患者可能患有肺结核后,对患者的其他症状,比如是否发烧、是否需要CT扫描、对于CT扫描结果的分析等,从而给出最终的诊断结果,在源头上可以节约人力物力。
发明内容
本发明要解决的技术问题是提供一种基于肺结核预警的语音数据库分类和处理系统,以解决背景技术中提到的问题。
为了达到上述目的,本发明采取以下技术方案:
一种基于肺结核预警的语音数据库分类和处理系统,包括:
大众用户语音数据库:包含用户ID以及用户的语音数据;
肺结核患者语音数据库:包含肺结核患者的语音数据,所述语音数据中包含自述有关肺结核症状的语音数据;
非肺结核患者语音数据库:包含非肺结核患者的语音数据,所述语音数据中包含非肺结核患者自述有关肺部状况的语音数据;
自然语言处理模型:用于输入语音数据,提取有关肺结核症状或肺部状况的语音数据并转化为文本文字,并输出两种判断结果:肺结核相关或非肺结核相关;所述自然语言处理模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:将数据库中的语音数据转化为文本文字,提取有关肺结核症状或肺部状况的语音数据并转化为文本文字,并利用该文本文字作为输入,以文本文字所来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述自然语言处理模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第一肺结核相关语音数据库,一类为第一非肺结核相关语音数据库;
咳嗽识别机器学习模型:用于输入语音数据,提取咳嗽音,并输出两种判断结果:肺结核相关或非肺结核相关;所述咳嗽识别机器学习模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的咳嗽音作为输入,以咳嗽音来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述咳嗽识别机器学习模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第二肺结核相关语音数据库,一类为第二非肺结核相关语音数据库;
语音模式识别机器学习模型:用于输入语音数据,提取语音模式特征,并输出两种判断结果:肺结核相关或非肺结核相关;所述语音模式识别机器学习模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的语音模式特征作为输入,以语音模式特征来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述语音模式识别机器学习模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第三肺结核相关语音数据库,一类为第三非肺结核相关语音数据库;
数据库处理模块:用于根据多种要求处理肺结核相关语音数据库,至少包括:
对第一肺结核相关语音数据库、第二肺结核相关语音数据库、第三肺结核相关语音数据库取并集,并集中包括用户ID和对应的语音数据;
对第一肺结核相关语音数据库、第二肺结核相关语音数据库、第三肺结核相关语音数据库取交集,交集中包括用户ID和对应的语音数据。
在一些实施例中,所述语音模式特征包括语调、音色及说话速率特征。
在一些实施例中:
所述自然语言处理模型被训练为输出肺结核相关的概率P1和非肺结核相关的概率1-P1;
所述咳嗽识别机器学习模型被训练为输出肺结核相关的概率P2和非肺结核相关的概率1-P2;
所述语音模式识别机器学习模型被训练为输出肺结核相关的概率P3和非肺结核相关的概率1-P3。
所述数据库处理模块还包括如下处理方式:
对同一语音数据对应的概率P1、P2、P3,计算综合概率P,所述综合概率计算公式为:
;
Pi中i=1~3,wi为对应于Pi的权重;若综合概率P大于预设的第二概率阈值Th,则将P对应的语音数据及其用户ID纳入一个新的肺结核相关语音数据库。
权重wi的计算公式为:
;
;
;
其中,Accuracyi是Pi对应模型在训练过程中通过测试集测试得到的准确率,更具体为:
;
其中TPi表示模型正确预测数据来源于肺结核患者语音数据库的数量,TNi表示模型正确预测数据来源于非肺结核患者语音数据库的数量,Ttotali表示在测试集上进行的总的测试数量;
其中,正确预测数据来源于肺结核患者语音数据库的含义是,模型对于输入的肺结核患者语音数据库进行判断输出其为肺结核相关的概率值大于预设的第一概率阈值Ts,Ts>50%;正确预测数据来源于非肺结核患者语音数据库的含义是,模型对于输入的非肺结核患者语音数据库中的语音数据进行判断输出其为非肺结核相关的概率值大于预设的第一概率阈值Ts;
Variancei是Pi对应模型预测的方差,其获得方式为:预先使用训练完成后的Pi对应模型对相同的输入数据进行多次预测,得到一组预测概率,计算这组预测概率的方差作为Variancei;
Scorei是Pi对应模型的可靠性得分;
TotalScore为三个模型的可靠性得分的总和。
在一些实施例中,所述大众用户语音数据库、所述肺结核患者语音数据库以及所述非肺结核患者语音数据库中的语音数据均对应标记有语音数据的产生时间;
所述系统还包括时间序列分析模型;所述时间序列分析模型用于输入语音数据,提取语音随时间的变化特征,并输出两种判断结果:肺结核相关或非肺结核相关;所述时间序列分析模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的某一个或多个语音特征随时间的变化作为输入,以语音特征来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述时间序列分析模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第四肺结核相关语音数据库,一类为第四非肺结核相关语音数据库。
在一些实施例中,所述大众用户语音数据库或所述肺结核患者语音数据库或所述非肺结核患者语音数据库中的语音数据来源于以下任意一种或多种:
流调、医疗机构收集的匿名化病例数据、公开可用的疾病数据库、用户自行上传的个人数据、医院的电子病历系统。
在一些实施例中,所述基于肺结核预警的语音数据库分类和处理系统被纳入于医院的自动化诊断系统;
所述自动化诊断系统收集医院中录取到的声音,包括医生和用户打电话的录音、在医院中的录音设备录制到的录音,并将其纳入大众用户语音数据库;
所述自动化诊断系统对大众用户语音数据库进行分类和处理得到一个或多个肺结核相关语音数据库,并将其中的一个或多个肺结核相关语音数据库反馈到医疗团队。
所述自动化诊断系统同时与医院的电子病历系统通讯。
所述自动化诊断系统根据医疗团队的设置每隔一段预设时间进行一次该预设时间段内收集的大众用户语音数据库中的语音数据的分类和处理。
本发明相对于现有技术的优点在于,本发明系统采用先进的自然语言处理和机器学习技术,对大众用户的语音数据进行精确分类和处理。通过与肺结核患者和非肺结核患者的语音数据库进行对比分析,系统能够自动区分并整理与肺结核相关和不相关的语音数据。进一步的数据库处理模块可以对这些分类数据进行并集和交集操作,以根据具体需要给出肺结核相关性强弱不同的语音数据库。这样的语音数据库的分类和处理,可以有助于医疗人员有针对性地优先选择其中要重点筛查有关肺结核的用户,从而节约人力物力。
附图说明
图1是本发明系统组成示意图。
图2是本发明自然语言处理模型的示意图;
图3是本发明咳嗽识别机器学习模型的示意图;
图4是本发明语音模式识别机器学习模型的示意图;
图5是本发明时间序列分析模型的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作描述。
如图1所示为本发明总体系统结构图。
本发明一种基于肺结核预警的语音数据库分类和处理系统,包括:
大众用户语音数据库:包含用户ID以及用户的语音数据;
肺结核患者语音数据库:包含肺结核患者的语音数据,语音数据中包含自述有关肺结核症状的语音数据;
非肺结核患者语音数据库:包含非肺结核患者的语音数据,语音数据中包含非肺结核患者自述有关肺部状况的语音数据;
自然语言处理模型:用于输入语音数据,提取有关肺结核症状或肺部状况的语音数据并转化为文本文字,并输出两种判断结果:肺结核相关或非肺结核相关;自然语言处理模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:将数据库中的语音数据转化为文本文字,提取有关肺结核症状或肺部状况的语音数据并转化为文本文字,并利用该文本文字作为输入,以文本文字所来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;自然语言处理模型连接于大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第一肺结核相关语音数据库,一类为第一非肺结核相关语音数据库;
咳嗽识别机器学习模型:用于输入语音数据,提取咳嗽音,并输出两种判断结果:肺结核相关或非肺结核相关;咳嗽识别机器学习模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的咳嗽音作为输入,以咳嗽音来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;咳嗽识别机器学习模型连接于大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第二肺结核相关语音数据库,一类为第二非肺结核相关语音数据库;
语音模式识别机器学习模型:用于输入语音数据,提取语音模式特征,并输出两种判断结果:肺结核相关或非肺结核相关;语音模式识别机器学习模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的语音模式特征作为输入,以语音模式特征来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;语音模式识别机器学习模型连接于大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第三肺结核相关语音数据库,一类为第三非肺结核相关语音数据库;
数据库处理模块:用于根据多种要求处理肺结核相关语音数据库,至少包括:
对第一肺结核相关语音数据库、第二肺结核相关语音数据库、第三肺结核相关语音数据库取并集,并集中包括用户ID和对应的语音数据;
对第一肺结核相关语音数据库、第二肺结核相关语音数据库、第三肺结核相关语音数据库取交集,交集中包括用户ID和对应的语音数据。
在一些实施例中,语音模式特征包括语调、音色及说话速率特征。
在一些实施例中:
自然语言处理模型被训练为输出肺结核相关的概率P1和非肺结核相关的概率1-P1;
咳嗽识别机器学习模型被训练为输出肺结核相关的概率P2和非肺结核相关的概率1-P2;
语音模式识别机器学习模型被训练为输出肺结核相关的概率P3和非肺结核相关的概率1-P3。
数据库处理模块还包括如下处理方式:
对同一语音数据对应的概率P1、P2、P3,计算综合概率P,综合概率计算公式为:
;
Pi中i=1~3,wi为对应于Pi的权重;若综合概率P大于预设的第二概率阈值Th,则将P对应的语音数据及其用户ID纳入一个新的肺结核相关语音数据库。
权重wi的计算公式为:
;
;
;
其中,Accuracyi是Pi对应模型在训练过程中通过测试集测试得到的准确率,更具体为:
;
其中TPi表示模型正确预测数据来源于肺结核患者语音数据库的数量,TNi表示模型正确预测数据来源于非肺结核患者语音数据库的数量,Ttotali表示在测试集上进行的总的测试数量;
其中,正确预测数据来源于肺结核患者语音数据库的含义是,模型对于输入的肺结核患者语音数据库进行判断输出其为肺结核相关的概率值大于预设的第一概率阈值Ts,Ts>50%;正确预测数据来源于非肺结核患者语音数据库的含义是,模型对于输入的非肺结核患者语音数据库中的语音数据进行判断输出其为非肺结核相关的概率值大于预设的第一概率阈值Ts;
Variancei是Pi对应模型预测的方差,其获得方式为:预先使用训练完成后的Pi对应模型对相同的输入数据进行多次预测,得到一组预测概率,计算这组预测概率的方差作为Variancei;
Scorei是Pi对应模型的可靠性得分;
TotalScore为三个模型的可靠性得分的总和。
在一些实施例中,大众用户语音数据库、肺结核患者语音数据库以及非肺结核患者语音数据库中的语音数据均对应标记有语音数据的产生时间;
系统还包括时间序列分析模型;时间序列分析模型用于输入语音数据,提取语音随时间的变化特征,并输出两种判断结果:肺结核相关或非肺结核相关;时间序列分析模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的某一个或多个语音特征随时间的变化作为输入,以语音特征来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;时间序列分析模型连接于大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第四肺结核相关语音数据库,一类为第四非肺结核相关语音数据库。
在一些实施例中,大众用户语音数据库或肺结核患者语音数据库或非肺结核患者语音数据库中的语音数据来源于以下任意一种或多种:
流调、医疗机构收集的匿名化病例数据、公开可用的疾病数据库、用户自行上传的个人数据、医院的电子病历系统。
在一些实施例中,基于肺结核预警的语音数据库分类和处理系统被纳入于医院的自动化诊断系统;
自动化诊断系统收集医院中录取到的声音,包括医生和用户打电话的录音、在医院中的录音设备录制到的录音,并将其纳入大众用户语音数据库;
自动化诊断系统对大众用户语音数据库进行分类和处理得到一个或多个肺结核相关语音数据库,并将其中的一个或多个肺结核相关语音数据库反馈到医疗团队。
自动化诊断系统同时与医院的电子病历系统通讯。
自动化诊断系统根据医疗团队的设置每隔一段预设时间进行一次该预设时间段内收集的大众用户语音数据库中的语音数据的分类和处理。
在一些实施例中,如图2所示,本发明自然语言处理模型采用是基于BERT(Bidirectional Encoder Representations from Transformers)的自然语言处理模型,模型设计包括:
输入层:模型的输入是语音数据中转换得到的文本。这些文本首先经过预处理,包括分词、标准化等步骤,然后转化为词向量(词嵌入)。此外,为了考虑词语在句子中的位置信息和所处的段落信息,还会添加位置嵌入和段落嵌入。而数据库中的语音转文本可以由很多现成的模型进行,市面上已经有许多模型可供选择,比如Google Speech-to-TextAPI、百度 Deep Speech、iFLYTEK 讯飞语音识别等。
BERT层:输入层的输出会被送入BERT层进行处理。在这里,我们使用了12个BERT层。BERT是一种预训练的深度双向转换器模型,可以理解语境中词语的含义。在这个模型中,前两个BERT层和最后一个BERT层被显式地表示出来,中间的BERT层由于数量多,因此在图中被简化表示。
Pooler:BERT层的输出会被送入Pooler进行处理。Pooler主要用于汇总各个BERT层的输出,通常只取最后一个BERT层的首个token(通常是'[CLS]'标记)的输出作为整个句子的表示,然后输入到Pooler中。
全连接层:Pooler的输出会被送入一个全连接层。全连接层是神经网络的最后一层,主要任务是对前面各层提取的特征进行整合,输出最终的结果。在这个模型中,全连接层的任务就是根据输入的特征计算出概率。
在实际的训练过程中,本发明将肺结核患者语音数据库和非肺结核患者语音数据库中的自述有关肺结核症状或者肺部症状状态的文本数据分为训练集、验证集和测试集,通过对比模型的预测结果和数据库来源,不断优化模型的参数,以提高模型对新数据的预测准确度。后面的模型训练过程也是如此,只是输入的内容有所不同,标签均为数据库来源。
如图3所示为本发明咳嗽识别机器学习模型的示意图;本发选择卷积神经网络CNN模型的设计。它包括:
输入层(Input):这是模型的输入,它接收咳嗽音频数据。
卷积层(Conv1,Conv2,Conv3):这些是模型的卷积层,它们是一种特殊的神经网络层,设计用来自动和适应性地学习空间层次结构中的模式。在音频处理中,卷积层可以学习咳嗽音频中的时间和频率特征。这里省略了激活函数层,实际中每个卷积层通常后接一个激活函数层,如ReLU。
最大池化层(Pool):池化层用于降低卷积层输出的空间维度,同时保留最重要的特征。这有助于减少计算量和参数数量,从而降低过拟合的风险。在这里使用的最大池化层返回每个特征图的最大值。
全连接层(FC1,FC2):全连接层是神经网络的常规层,每个神经元在这一层中都连接到上一层的所有神经元。全连接层主要用于学习卷积层和池化层提取的特征之间的非线性组合。
输出层(Output):这是模型的最后一层,用于输出肺结核相关的概率。通常在输出层后会使用一个激活函数,例如sigmoid函数,将输出值压缩到0和1之间,表示为概率。
从数据库的语音数据中提取咳嗽音,可以另外设置提取模型,或者将该提取模型集成到上面的咳嗽识别机器学习模型。提取模型可以包括:使用噪声降低技术,如谱减法、小波去噪等,清除背景噪声,使得声音更加明显。将语音信号分为短时间帧,一般每帧20-30ms,然后用窗函数(如汉明窗)处理每一帧。
特征提取可以包括:
梅尔频率倒谱系数 (MFCC)(虽然主要用于语音识别,但其能捕捉到音频中的一些重要特征,可能有助于咳嗽的检测);短时能量与短时过零率(咳嗽音往往具有较高的短时能量和过零率,这两个特征可以帮助区分咳嗽音和其他音);
频谱特征:(可以考虑计算频率的一阶、二阶差分特征,它们可以捕获到咳嗽音中的一些独特的模式)。
接下来,使用标记的数据集(包含咳嗽音和非咳嗽音)训练一个二分类器,如SVM、随机森林或深度学习模型(如CNN或RNN)。为了使模型更加鲁棒,可以进行数据增强,如调整音频的播放速度、添加噪声等。然后对模型的输出结果进行平滑处理,例如,如果一个非常短的时间段被标记为咳嗽,但其前后都没有咳嗽音,可以考虑将其视为误检。然后采用声学模型或统计模型进一步优化咳嗽事件的检测精度。最后使用交叉验证或留出法在一个单独的测试集上评估模型的性能。根据评估结果,优化模型的结构或参数,或者尝试不同的特征组合。在实际应用中,为了提高咳嗽音的识别率和减少误检,可能需要结合多种方法和技术,例如,除了上述方法,还可以结合深度学习模型,使用预先训练好的音频识别模型如SoundNet,或进行迁移学习等。
如图4所示为本发明语音模式识别机器学习模型的示意图。语音模式识别机器学习模型的目标是根据语音样本中的语调、音色及说话速率来计算肺结核相关的概率。
这里使用深度学习中的多模态模型来实现这个目标,比如使用3个独立的卷积神经网络(CNN)分别处理语调、音色和说话速率的特征,然后将这三个网络的输出特征进行融合,最后通过一个全连接层输出概率。这样做的好处是可以分别学习和提取语音中的这三种特征,而不是将它们混在一起处理,这样可以更好地保留每种特征的信息。在这个模型中,本发明首先对每种特征的输入使用一个卷积神经网络进行特征提取,然后将这三种特征在特征融合层进行融合,形成一个综合特征。特征融合层可以使用简单的方法,比如将三种特征按顺序连接(concatenate)起来,也可以使用更复杂的方法,比如使用注意力机制(attention mechanism)对不同的特征赋予不同的权重。最后,将融合后的特征输入到全连接层进行学习,输出为肺结核相关的概率。
每个卷积神经网络和全连接层之后通常会有激活函数,比如ReLU或者sigmoid,用于增加模型的非线性。在输出层,本发明使用sigmoid函数将输出值转化为0到1之间的概率值。另外,训练这个模型时,需要使用适合概率输出的损失函数,比如交叉熵损失函数(cross entropy loss)。
对于语调、音色及说话速率,这三个特征可以通过以下方式提取:
语调:语调可以通过音高提取算法来获取,这些算法试图在语音信号的复杂波形中识别出基频。常用的音高提取方法有自相关法,倒谱法等。
音色:音色通常可以通过梅尔频率倒谱系数(MFCCs)来描述。MFCCs 是一种在音频处理和语音识别中广泛使用的特征,它模仿了人耳的响应特性,可以捕捉到音频信号的音色特性。
说话速率:说话速率可以通过短时能量和过零率等特性来提取。具体来说,说话速率可以通过计算一段时间内(例如一秒)的语音帧数来得到,每个语音帧的边界可以通过短时能量的阈值或者过零率的阈值来确定。
这三种特征在提取后都可以被转化为一系列的数值,然后被输入到机器学习模型中。例如,对于一个1秒的音频,可能每10毫秒提取一次特征,这样就会得到100个特征值,形成一个100维的特征向量。对于更长的音频,可以将其分割成多个1秒的片段,然后分别提取特征。在模型训练阶段,特征向量作为输入,对应的标签(数据所来源的数据库)作为输出,训练模型学习特征和标签之间的映射关系。在模型推断阶段,给定一个新的音频,模型可以通过提取特征并输入到训练好的模型中,得到肺结核相关的概率。
针对时间序列分析模型,可以选择一种适合处理序列数据的模型,如循环神经网络(RNN),长短期记忆网络(LSTM)或门控循环单元(GRU)等。这些模型都具有记忆机制,能处理输入数据间的时间依赖关系,非常适合处理时间序列数据。本发明实施例中采用LSTM。
在本实施例中,需要考虑到自述症状文本、咳嗽音频和语音样本的时间序列数据。那么,首先,需要将这些不同的输入进行一定的预处理,以便输入到模型中。具体来说,需要:
使用自然语言处理技术(如BERT)将自述症状文本(大众用户语音数据库中的语音数据转化为的文本,其中可以主要提取出自述症状文本,尤其是有关肺结核或肺部的文本,文本提取可以使用一些已有的文本提取模型,比如百度发布的预训练模型ERNIE,结合肺结核相关症状关键词进行提取)转化为一系列的嵌入向量。
对咳嗽音频进行特征提取(例如MFCCs或其他适合咳嗽声音的特征),转化为一系列的数值。
对语音样本进行特征提取(例如提取语调、音色、说话速率等特征),也转化为一系列的数值。
这些在之前已有描述。
现在,得到了一系列的特征向量,它们表示了在一段时间内的自述症状、咳嗽和语音特征。接下来,将这些特征向量输入到时间序列模型中。
在训练阶段,特征向量作为输入,对应的标签(数据所来源的数据库)作为输出,训练模型学习特征和标签之间的映射关系。
在模型推断阶段,给定一个新的时间序列,模型可以通过提取特征并输入到训练好的模型中,得到肺结核相关的概率。
更具体的,如图5所示为本发明时间序列分析模型的示意图,在这个模型中:有三种不同类型的输入:自述症状文本、咳嗽音频数据和语音样本数据。每种输入都经过自己独立的处理流程,转化为一系列的特征向量。如上述,文本数据通过BERT模型进行嵌入;咳嗽音频数据通过音频特征提取过程;语音样本数据通过特征提取过程获取语调、音色和说话速率等特征。 每种输入的特征向量都被输入到一个LSTM模型中。这些LSTM模型可以学习输入特征的时间序列模式,并输出一个固定长度的特征向量。 LSTM模型的输出被合并到一起,形成一个包含所有信息的特征向量。这个特征向量被输入全连接层,这是神经网络的常规层,每个神经元在这一层中都连接到上一层的所有神经元。全连接层主要用于学习LSTM层提取的特征之间的非线性组合。输出层是模型的最后一层,用于输出用户患有肺结核的概率P4。在输出层后会使用一个激活函数,例如sigmoid函数,将输出值压缩到0和1之间,表示为概率。
由上可见,本发明通过四个模型分别得到概率,然后根据四个模型各自的准确率和可靠性获得对应概率相加的权重。要注意的是,之所以采取不同的四个模型,而不是把所有特征融合后进行训练,是因为不同特征和肺结核的关联程度不同,因此融合起来并非最佳方案,更具体的:
1)不同特征与肺结核的关联程度确实可能存在差异,因此将所有特征融合可能无法达到最优结果。在机器学习中,不同的模型对应不同的假设空间,每个模型可能都在其特定的假设空间中找到符合数据分布的解决方案,而这些解决方案可能在全局上并不是最优的。
2)每个模型处理的数据类型和特征不同,比如自然语言处理模型处理的是自述症状文本数据,咳嗽识别模型处理的是咳嗽音频数据,语音模式识别模型处理的是语音样本数据,时间序列分析模型处理的是在一段时间内的数据。这些模型的处理方式和特点不同,直接融合可能导致一些特征的丢失或者对某些特征的过度关注。
3)由于不确定哪个特征更重要的问题,采用不同模型分别预测,可以通过实验结果来观察哪个特征在预测中起到了主要作用,这对于后期的模型优化和特征选择也是很有帮助的。
本发明基于以下事实而特别设计:
肺结核有一些基本的症状,可以通过自述文本获取。肺结核患者的咳嗽通常会有一些特征,例如持续时间较长、咳嗽声音可能更为粗糙或者带有痰的声音,因为肺结核会导致肺部结构的损害,产生炎症反应,引起持久的咳嗽。肺结核主要影响肺部,但是在某些情况下,它可能影响到其他身体部位,包括喉部。当肺结核扩散到喉部时,可能会影响到声带,导致声音嘶哑或变化。肺结核病患者可能会出现持续性的咳嗽,这种强烈和频繁的咳嗽可能对声带产生物理性的刺激和损伤,使得声带发炎或肿胀,进而引起声音的改变。肺结核还可能导致呼吸困难,呼吸困难可能会影响到语音的发出。比如说,呼吸困难可能会导致说话时的断句、气短,甚至影响到说话的语调和节奏。肺结核的症状和体征可能会随着时间的推移而变化。在早期可能只有轻微的咳嗽或者疲劳等不明显的症状。随着病情的发展,症状可能会变得越来越明显,如咳嗽加重,出现咯血等。
基于上述多种维度的事实,本发明采用了多种模型,将大众用户的语音数据库从不同维度进行分类,分类后的数据库还可以采用不同的方式进行处理,自由度大,可以给医疗团队的选择多,给医疗团队后续进行诊断过程提供了帮助。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于肺结核预警的语音数据库分类和处理系统,其特征在于,包括:
大众用户语音数据库:包含用户ID以及用户的语音数据;
肺结核患者语音数据库:包含肺结核患者的语音数据,所述语音数据中包含自述有关肺结核症状的语音数据;
非肺结核患者语音数据库:包含非肺结核患者的语音数据,所述语音数据中包含非肺结核患者自述有关肺部状况的语音数据;
自然语言处理模型:用于输入语音数据,提取有关肺结核症状或肺部状况的语音数据并转化为文本文字,并输出两种判断结果:肺结核相关或非肺结核相关;所述自然语言处理模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:将数据库中的语音数据转化为文本文字,提取有关肺结核症状或肺部状况的语音数据并转化为文本文字,并利用该文本文字作为输入,以文本文字所来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述自然语言处理模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第一肺结核相关语音数据库,一类为第一非肺结核相关语音数据库;
咳嗽识别机器学习模型:用于输入语音数据,提取咳嗽音,并输出两种判断结果:肺结核相关或非肺结核相关;所述咳嗽识别机器学习模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的咳嗽音作为输入,以咳嗽音来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述咳嗽识别机器学习模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第二肺结核相关语音数据库,一类为第二非肺结核相关语音数据库;
语音模式识别机器学习模型:用于输入语音数据,提取语音模式特征,并输出两种判断结果:肺结核相关或非肺结核相关;所述语音模式识别机器学习模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的语音模式特征作为输入,以语音模式特征来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述语音模式识别机器学习模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第三肺结核相关语音数据库,一类为第三非肺结核相关语音数据库;
数据库处理模块:用于根据多种要求处理肺结核相关语音数据库,至少包括:
对第一肺结核相关语音数据库、第二肺结核相关语音数据库、第三肺结核相关语音数据库取并集,并集中包括用户ID和对应的语音数据;
对第一肺结核相关语音数据库、第二肺结核相关语音数据库、第三肺结核相关语音数据库取交集,交集中包括用户ID和对应的语音数据;
所述自然语言处理模型被训练为输出肺结核相关的概率P1和非肺结核相关的概率1-P1;
所述咳嗽识别机器学习模型被训练为输出肺结核相关的概率P2和非肺结核相关的概率1-P2;
所述语音模式识别机器学习模型被训练为输出肺结核相关的概率P3和非肺结核相关的概率1-P3;
从自述症状文本、咳嗽音频数据和语音样本数据分别提取特征向量,每种特征向量输入到一个LSTM模型,LSTM模型学习输入特征的时间序列模式并输出结果;将每个LSTM模型的输出结果合并到一起,形成一个包含所有信息的特征向量,将包含所有信息的特征向量输入全连接层,全连接层连接于输出层,输出层输出用户患有肺结核的概率P4;
所述数据库处理模块还包括如下处理方式:
计算综合概率P,所述综合概率计算公式为:
;
wi为对应于Pi的权重;若综合概率P大于预设的第二概率阈值Th,则将P对应的语音数据及其用户ID纳入一个新的肺结核相关语音数据库;
权重wi的计算公式为:
;
;
;
其中,Accuracyi是Pi对应模型在训练过程中通过测试集测试得到的准确率,更具体为:
;
其中TPi表示模型正确预测数据来源于肺结核患者语音数据库的数量,TNi表示模型正确预测数据来源于非肺结核患者语音数据库的数量,Ttotali表示在测试集上进行的总的测试数量;
其中,正确预测数据来源于肺结核患者语音数据库的含义是,模型对于输入的肺结核患者语音数据库进行判断输出其为肺结核相关的概率值大于预设的第一概率阈值Ts,Ts>50%;正确预测数据来源于非肺结核患者语音数据库的含义是,模型对于输入的非肺结核患者语音数据库中的语音数据进行判断输出其为非肺结核相关的概率值大于预设的第一概率阈值Ts;
Variancei是Pi对应模型预测的方差,其获得方式为:预先使用训练完成后的Pi对应模型对相同的输入数据进行多次预测,得到一组预测概率,计算这组预测概率的方差作为Variancei;
Scorei是Pi对应模型的可靠性得分;
TotalScore为四个模型的可靠性得分的总和。
2.根据权利要求1所述基于肺结核预警的语音数据库分类和处理系统,其特征在于,所述语音模式特征包括语调、音色及说话速率特征。
3.根据权利要求1所述基于肺结核预警的语音数据库分类和处理系统,其特征在于:
所述大众用户语音数据库、所述肺结核患者语音数据库以及所述非肺结核患者语音数据库中的语音数据均对应标记有语音数据的产生时间;
所述系统还包括时间序列分析模型;所述时间序列分析模型用于输入语音数据,提取语音随时间的变化特征,并输出两种判断结果:肺结核相关或非肺结核相关;所述时间序列分析模型通过肺结核患者语音数据库和非肺结核患者语音数据库中的数据进行训练获得,具体训练过程为:提取数据库中的某一个或多个语音特征随时间的变化作为输入,以语音特征来源的数据库为标签进行训练,其中,来源于肺结核患者语音数据库对应的标签为肺结核相关,来源于非肺结核患者语音数据库对应的标签为非肺结核相关;所述时间序列分析模型连接于所述大众用户语音数据库,用于输入大众用户语音数据库中的语音数据,根据输出结果,将大众用户语音数据库分割为两类,一类为第四肺结核相关语音数据库,一类为第四非肺结核相关语音数据库。
4.根据权利要求1所述系统,其特征在于,所述大众用户语音数据库或所述肺结核患者语音数据库或所述非肺结核患者语音数据库中的语音数据来源于以下任意一种或多种:
流调、医疗机构收集的匿名化病例数据、公开可用的疾病数据库、用户自行上传的个人数据、医院的电子病历系统。
5.根据权利要求1所述系统,其特征在于,所述基于肺结核预警的语音数据库分类和处理系统被纳入于医院的自动化诊断系统;
所述自动化诊断系统收集医院中录取到的声音,包括医生和用户打电话的录音、在医院中的录音设备录制到的录音,并将其纳入大众用户语音数据库;
所述自动化诊断系统对大众用户语音数据库进行分类和处理得到一个或多个肺结核相关语音数据库,并将其中的一个或多个肺结核相关语音数据库反馈到医疗团队。
6.根据权利要求5所述系统,其特征在于,所述自动化诊断系统同时与医院的电子病历系统通讯。
7.根据权利要求6所述系统,其特征在于,所述自动化诊断系统根据医疗团队的设置每隔一段预设时间进行一次该预设时间内收集的大众用户语音数据库中的语音数据的分类和处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311026692.2A CN117059283B (zh) | 2023-08-15 | 一种基于肺结核预警的语音数据库分类和处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311026692.2A CN117059283B (zh) | 2023-08-15 | 一种基于肺结核预警的语音数据库分类和处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117059283A CN117059283A (zh) | 2023-11-14 |
CN117059283B true CN117059283B (zh) | 2024-07-02 |
Family
ID=
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
CN115565655A (zh) * | 2022-10-10 | 2023-01-03 | 电子科技大学 | 一种增强的辅助问诊方法 |
KR20230050208A (ko) * | 2021-10-06 | 2023-04-14 | 주식회사 웨이센 | 시계열 기침음, 호흡음, 낭독음, 발성음 측정을 통한 호흡기 질환 예후 예측시스템 및 방법 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109431507A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于深度学习的咳嗽疾病识别方法及装置 |
KR20230050208A (ko) * | 2021-10-06 | 2023-04-14 | 주식회사 웨이센 | 시계열 기침음, 호흡음, 낭독음, 발성음 측정을 통한 호흡기 질환 예후 예측시스템 및 방법 |
CN115565655A (zh) * | 2022-10-10 | 2023-01-03 | 电子科技大学 | 一种增强的辅助问诊方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jahangir et al. | Deep learning approaches for speech emotion recognition: State of the art and research challenges | |
CN112750465B (zh) | 一种云端语言能力评测系统及可穿戴录音终端 | |
Alaie et al. | Cry-based infant pathology classification using GMMs | |
US20230255553A1 (en) | Speech analysis for monitoring or diagnosis of a health condition | |
CN111329494B (zh) | 抑郁症参考数据的获取方法及装置 | |
Qin et al. | Automatic assessment of speech impairment in cantonese-speaking people with aphasia | |
CN112329438B (zh) | 基于域对抗训练的自动谎言检测方法及系统 | |
Qin et al. | Automatic speech assessment for aphasic patients based on syllable-level embedding and supra-segmental duration features | |
Gupta et al. | Deep learning bidirectional LSTM based detection of prolongation and repetition in stuttered speech using weighted MFCC | |
WO2023139559A1 (en) | Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation | |
CN114188022A (zh) | 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN113111151A (zh) | 一种基于智能语音问答的跨模态抑郁症检测方法 | |
Lu et al. | Speech depression recognition based on attentional residual network | |
Chen et al. | Supervised and self-supervised pretraining based COVID-19 detection using acoustic breathing/cough/speech signals | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
CN117877660A (zh) | 基于语音识别的医学报告获取方法及系统 | |
CN113380418A (zh) | 一种通过对话文本分析识别抑郁症的系统 | |
Chee et al. | Overview of automatic stuttering recognition system | |
Feng | Toward knowledge-driven speech-based models of depression: Leveraging spectrotemporal variations in speech vowels | |
Deepa et al. | Speech technology in healthcare | |
CN117059283B (zh) | 一种基于肺结核预警的语音数据库分类和处理系统 | |
CN116570284A (zh) | 一种基于语音表征的抑郁症识别方法、系统 | |
Condron et al. | Non-Verbal Vocalisation and Laughter Detection Using Sequence-to-Sequence Models and Multi-Label Training. | |
CN116013371A (zh) | 一种神经退行性疾病监测方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |