CN111584065B

CN111584065B - 噪声性听力损失预测及易感人群筛选方法、装置、终端和介质

Info

Publication number: CN111584065B
Application number: CN202010265470.6A
Authority: CN
Inventors: 黄治物; 林新华; 吴皓; 汪琪璇; 李琛; 李进
Original assignee: Shanghai Jiaotong University; Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine
Current assignee: Shanghai Jiaotong University; Ninth Peoples Hospital Shanghai Jiaotong University School of Medicine
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-09-19
Anticipated expiration: 2040-04-07
Also published as: CN111584065A

Abstract

本申请提供噪声性听力损失预测及易感人群筛选方法、装置、终端和介质，包括：采集噪声暴露人群样本的多种听力特征数据并进行预处理；基于人群样本预处理数据定义高频听阈切迹听力特征数据，构建用于预测个体易感情况的高频听阈切迹面积预测模型；获取待测人群样本中的医学特征数据和听力阈值测量数据；比较所述预测切迹面积值和实际切迹面积值，据以判断待测人群样本的个体易感情况。本发明通过大数据预测和长期的临床经验，辅助判断听力损失情况和筛选易感抵抗个体，达到填补噪声性听力损失早期辅助诊断的空白效果，解决了当前各界对于噪声性听力损失早期诊断没有金标准，帮助患者早期预防，这是防治噪声性听力损失的关键。

Description

噪声性听力损失预测及易感人群筛选方法、装置、终端和介质

技术领域

本申请涉及生物统计学领域，特别是涉及噪声性听力损失预测及易感人群筛选方法、装置、终端和介质。

背景技术

听力损失是全球排名第四位的致残疾病，严重影响患者的言语交流，导致患者社会交际、认知和情感心理障碍，为家庭和社会带来沉重负担。噪声性听力损失(NoiseInduced Hearing loss,NIHL)是成年人最常见的一类听力损失，位列全球三大职业病之首。美国疾病控制中心(Centers for Disease Control,CDC)的数据显示，全球至少有11亿人口存在NIHL的风险，已经成为亟待解决的人群健康问题。

由于噪声性听力损失尚无有效的治疗和干预手段，发现易感人群并给予相应噪声防护指导是目前降低其发病率的关键。近年来的研究认为，噪声性听力损失是由遗传基因和环境因素(如噪声暴露、药物性聋、年龄相关性听力损失等)共同导致的复杂疾病，即使环境噪声暴露导致的听力障碍发病也具有高度个体遗传易感性，因此，针对听力障碍疾病开展大样本人群队列研究，建设听力及遗传信息大数据平台，建立听力障碍疾病的预测模型并进行个体化智能听力健康干预和管理，是听力障碍疾病防控的关键和瓶颈问题。

申请内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供噪声性听力损失预测及易感人群筛选方法、装置、终端和介质，用于解决现有技术无法针对听力障碍疾病开展大样本人群队列研究，建设听力及遗传信息大数据平台，建立听力障碍疾病的预测模型并进行个体化智能听力健康干预和管理的技术问题。

为实现上述目的及其他相关目的，本申请的第一方面提供一种基于机器学习的噪声性听力损失预测及易感人群筛选方法，包括：采集噪声暴露人群样本的多种听力特征数据并进行预处理；基于预处理数据，对人群样本进行高频听阈切迹定义；构建用于预测个体易感情况的切迹面积预测模型；获取待测人群样本中的医学特征数据和听力阈值测量数据；所述待测人群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算预测切迹面积值；所述待测人群样本中的听力阈值测量数据用于计算实际切迹面积值；比较所述预测切迹面积值和实际切迹面积值，据以判断待测人群样本的个体易感情况。

于本申请的第一方面的一些实施例中，对所述噪声暴露人群样本的多种听力特征数据进行预处理，包括如下预处理方式中的一种或多种：预处理方式1)将非数值型数据进行赋值处理；预处理方式2)剔除缺失特征较多的样本；预处理方式3)剔除包含极端异常值的样本；预处理方式4)补齐缺失特征较少的样本。

于本申请的第一方面的一些实施例中，所述听力特征数据包括非数值型数据和数值型数据；所述非数值型数据包括：性别数据、工种数据、HPD数据、听力困难数据、耳鸣数据、耳鸣性质数据、耳鸣音调数据、耳鸣周期数据、吸烟数据、饮酒数据、生活噪声接触数据以及娱乐噪声接触数据中的任一种或多种组合；所述数值型数据包括：年龄数据、工龄数据、各频率听力阈值数据。

于本申请的第一方面的一些实施例中，所述对人群样本进行高频听阈切迹定义，包括：将单耳符合切迹标准的样本归为切迹人群；以及，在双耳都符合切迹标准的情况下，采用切迹面积更大的耳朵进行统计；其中，所述切迹标准是指3,4和6kHz中任一听力阈值高于0.5kHz和1kHz听力阈值平均值至少15dB，且高于8kHz听力阈值至少5dB。

于本申请的第一方面的一些实施例中，所述切迹面积预测模型的构建方式包括：利用相关分析算法，从所述人群样本的听力特征数据中剔除与切迹面积相关度较低的特征数据，并保留相关度较高的特征数据；使用极度梯度提升算法进行回归拟合，并设定模型初始参数；使用十折交叉法随机匹配测试集和训练集训练模型，得到最小均方根误差模型；设定参数浮动范围，通过参数自适应调优得到切迹面积预测模型。

于本申请的第一方面的一些实施例中，所述待测人群样本中的医学特征数据包括：性别数据、年龄数据、工种数据、工龄数据、BMI数据、HPD数据、听力困难数据、耳鸣数据、吸烟数据、饮酒数据、生活噪声数据、娱乐噪声数据、佩戴耳机数据；所述听力阈值测量数据包括实际检测的双耳0.25,0.5,1,2,3,4,6和8kHz的检测听力阈值。

于本申请的第一方面的一些实施例中，所述判断待测人群样本的个体易感情况，包括：所述个体易感情况分为五个等级：极耐受，一般耐受，正常，一般易感，极易感；根据其面积和标准值的比值或按照面积大小进行易感等级的划分。

为实现上述目的及其他相关目的，本申请的第二方面提供一种基于机器学习的噪声性听力损失预测及易感人群筛选装置，包括：采集及预处理模块，用于采集噪声暴露人群样本的多种听力特征数据并进行预处理；高频听阈切迹定义模块，用于基于预处理数据，对人群样本进行高频听阈切迹定义；预测模型构建模块，构建用于预测个体易感情况的切迹面积预测模型；待测数据获取模块，用于获取待测人群样本中的医学特征数据和听力阈值测量数据；所述待测人群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算预测切迹面积值；所述待测人群样本中的听力阈值测量数据用于计算实际切迹面积值；比较及判断模块，用于比较所述预测切迹面积值和实际切迹面积值，据以判断待测人群样本的个体易感情况。

为实现上述目的及其他相关目的，本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于机器学习的噪声性听力损失预测及易感人群筛选方法。

为实现上述目的及其他相关目的，本申请的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述基于机器学习的噪声性听力损失预测及易感人群筛选方法。

如上所述，本申请的噪声性听力损失预测及易感人群筛选方法、装置、终端和介质，具有以下有益效果：本发明通过大数据预测和长期的临床经验，辅助判断听力损失情况和筛选易感抵抗个体，达到填补噪声性听力损失早期辅助诊断的空白效果，解决了当前各界对于噪声性听力损失早期诊断没有金标准，帮助患者早期预防，这是防治噪声性听力损失的关键。

附图说明

图1显示为本申请一实施例中的基于机器学习的噪声性听力损失预测及易感人群筛选方法的流程示意图。

图2显示为本申请一实施例中的基于机器学习的噪声性听力损失预测及易感人群筛选装置的结构示意图。

图3显示为本申请一实施例中电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在本申请中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

目前人工智能技术在医学领域的应用飞速发展，已有研究将计算机算法如人工神经网路、决策树、集成方法、SVM、基于径向基函数等成功应用于建立疾病预测模型。鉴于噪声性听力损失的遗传易感性并可能由多种基因和复杂环境因素共调控的特征，本专利从噪声性听力损失易感性以及受遗传与环境因素共同影响的共性入手，基于机器学习方法建立达到噪声性听力损失预测效果的模型，筛选遗传易感人群，实现个体化的听力损失智能诊断及预测，辅助医生决策，对噪声性听力损失的防控及时给出有效的健康指导意见，具有巨大的临床实用前景。应理解，降低噪声性听力损失发病率最经济有效的措施是早期发现高危易感人群和早期干预的一级和二级预防。

因此，本发明的目的是针对目前缺乏早期筛查噪声性听力损失高危易感人群的技术缺陷，开发了一种基于机器学习预测个体对噪声性听力损失易感性，早期检出高危易感人群的方法，有助于针对个体提出个性化的听力保护及干预建议，实现精准防控噪声性听力损失，帮助降低耳聋的发病率。本发明通过大数据预测和长期的临床经验，辅助判断听力损失情况和筛选易感抵抗个体，达到填补噪声性听力损失早期辅助诊断的空白效果，解决了当前各界对于NIHL失早期诊断没有金标准，帮助患者早期预防，这是防治噪声性听力损失的关键。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

实施例一：

如图1所示，展示了本发明一实施例中的基于机器学习的噪声性听力损失预测及易感人群筛选方法的流程示意图。

应理解，采用大样本噪声暴露相关人群听力数据及基本人口学、个体健康行为信息，通过机器学习建模的方法建立噪声性听力损失程度的预测模型，即其听力图中最典型的特征——切迹的面积来评估个体对噪声性听力损失的易感性，对个体的就业选择(尤其是噪声暴露相关职业)及听力防护具有指导价值。

有鉴于此，本发明针对噪声暴露人群，采集噪声暴露人群的医学相关数据，将噪声性听力损失的评判标准通过切迹面积进行表示，定义切迹和切迹面积，分析并获得切迹面积数据后设定易感抵抗评判标准，使用机器学习方法获得预测切迹面积值，使用算法计算实际切迹面积值，通过预测值与实际值的对比判断个体易感情况，用于辅助医学诊断。本实施例的基于机器学习的噪声性听力损失预测及易感人群筛选方法的各流程步骤说明如下。

步骤S11：采集噪声暴露人群样本的多种听力特征数据并进行预处理。

优选的，纳入分析的噪声暴露人群样本的资料详细至少包括基本人口学特征、职业噪声暴露史、个人行为方式以及听觉相关症状。由于现有技术缺乏大样本噪声暴露人群的流行病学调查，因此本实施例对高噪音工作环境(如造船厂等)下的大量职工进行了详细的听力健康问卷调查，通过严格的纳入标准和一般耳科学检查，排除了耳科疾病、外伤、大剂量娱乐噪声、先天性聋等因素对听力损失的影响。此外，为了确保采集数据的合理性和有效性，本实施例对不同工作环境进行了噪声暴露剂量测量和频谱分析，并分别对高噪音工作环境中不同岗位的职工进行了个人暴露剂量测量，以获得精确详细的噪声暴露数据。

需说明的是，在本实施例的采集噪声暴露人群样本的听力特征数据的过程中，听力检查在标准的隔音室内由专业听力师进行，包括简单询问耳科相关病史，用电耳镜检查外耳道情况，用中耳分析仪检测中耳功能，以及纯音气导测听等等。纯音测听按照ISO8253-1:2010标准操作，在远离交通和振动的背景噪声<30dB(A)隔音室中，由熟练的听力师对受试者进行每只耳朵0.25,0.5,1,2,3,4,6和8kHz的测试，采用5dB步进法。受试者在接受检查前16小时以内不接触职业噪声暴露环境。需说明的是，出于说明性目的而提供以上示例，并且以上示例不应被理解成是限制性的。同样的，该方法可以另外地或替代地包括其它特征或包括较少的特征，而未背离本申请的范围。

具体来说，本实施例涉及的听力特征数据包括非数值型数据和数值型数据；所述非数值型数据包括但不限于性别、工种、HPD、听力困难、耳鸣、耳鸣性质、耳鸣音调、耳鸣周期、吸烟、饮酒、生活噪声接触以及娱乐噪声接触等数据；所述数值型数据包括但不限于年龄、工龄、各频率听力阈值等数据。

在本实施例中，需对非数值型数据进行赋值处理，并对所有数据(包括数值型数据和赋值后的非数值型数据)进行筛查；筛查的目的是剔除特征值缺失个数较多的样本，例如剔除特征值缺失个数大于3的样本，使用KNN等分类算法检测包含极端异常值删除该样本，最后再使用KNN算法补齐其余缺失数据。

步骤S12：基于预处理数据，对人群样本进行高频听阈切迹定义。

在本实施例中，定义符合高频听阈切迹标准听力特征数据的方式是，单耳符合切迹标准归属于切迹听力特征数据，双耳都符合切迹标准的情况下采用切迹面积更大的耳朵进行统计。

需说明的是，所述切迹面积是由听力图中0.25,0.5和1kHz的听阈平均值，1和2kHz，2和3kHz，3和4kHz，4和6kHz，6和8kHz五组频率的听阈值相连的五条边，和1和8kHz听阈值分别到0.25,0.5和1kHz的听阈平均值的两条垂线共同围成的区域面积；所述听力图即声图，听力图横坐标表示声音的频率，纵坐标表示声音的强度(用分贝dB表示)，听力图是了解听力状况的最直接的依据，因听力图本身已是公知常识，故不再赘述。

本实施例涉及的高频听阈切迹听力特征数据，噪声性听力损失主要表现为高频(3,4和6kHz处)听力损失，在纯音听力阈值图上呈现出高频区域的阈值切迹，被认为是噪声损伤听力的特征。目前国际上还没有统一的高频听力阈值切迹定义，本发明采用的是美国疾病控制中心(Centers for Disease Control,CDC)提到的高频听力阈值切迹算法：3,4和6kHz处中任一听力阈值高于0.5kHz和1kHz听力阈值平均值至少15dB，且高于8kHz听力阈值至少5dB。

步骤S13：构建用于预测个体易感情况的切迹面积预测模型。所述切迹面积预测模型的构建步骤如下：

步骤S131：利用相关分析算法，从所述切迹人群样本的各听力特征数据中剔除与切迹面积相关度较低的特征数据，并保留相关度较高的特征数据。具体来说，选用步骤S11中预处理的听力特征数据，利用相关分析算法来检测切迹面积和各个听力特征数据之间的相关性，由此剔除掉和切迹面积的相关性较低的特征数据，而保留相关性较高的特征数据，例如保留相关性较高的如下多个听力特征数据：性别、年龄、工种、工龄、BMI(身体质量指数Body Mass Index)、HPD(听力保护工具)、听力困难、耳鸣、吸烟、饮酒、生活噪声、娱乐噪声、佩戴耳机等数据。

需说明的是，相关分析算法(Analysis of Correlation)是对不同特征或数据间的关系进行分析，发现其中的关键影响及驱动因素。相关分析的方法较多，例如初级方法可快速发现数据之间的正相关、负相关或不相关等关系；中级方法可以对数据间关系的强弱进行度量，如完全相关，不完全相关等；高级方法可以将数据间的关系转化为模型，并通过模型对未来的业务发展进行预测。本实施例涉及的相关分析算法不限于图表相关分析法、协方差及协方差矩阵法、相关系数法、一元回归及多元回归法、信息熵及互信息法等等。

步骤S132：使用极端梯度提升算法xgboost(eXtreme Gradient Boosting)，进行回归拟合，并设定初始参数。梯度提升算法是一个序列模型的集成学习算法，它通过把一系列弱学习器集成为强学习器来提升它的预测精度；梯度提升算法的初始参数包括决策树参数、提升算法参数、其它初始参数(如损失函数、随机数种子、学习率等)。需说明的是，梯度提升算法本身已是现有技术，因此不再赘述。

步骤S133：使用十折交叉法随机匹配测试集和训练集训练模型，得到最小均方根误差RMSE(root-mean-square error)模型。十折交叉法用来测试算法准确性，是常用的测试方法，将数据集分成10份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。

步骤S134：设定参数浮动范围，通过参数自适应调优得到切迹面积预测模型。

以上，对构建用于预测噪声性听力损失情况的预测模型的过程做了详细的解释说明，但应理解的是，出于说明性目的而提供以上的建模示例，并且以上的建模示例不应被理解成是限制性的。

步骤S14：获取待测人群样本中的医学特征数据和听力阈值测量数据；所述待测人群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算预测切迹面积值；所述待测人群样本中的听力阈值测量数据用于计算实际切迹面积值。

其中，所述医学特征数据用于输入所述切迹面积预测模型后计算预测切迹面积值，记为S_{predictive-Notch}；所述听力阈值测量数据用于计算实际切迹面积值，记为S_real-Notch。

优选的待测人群样本的医学特征数据包括但不限于：性别、年龄、工种、工龄、BMI(身体质量指数Body Mass Index)、HPD(听力保护工具)、听力困难、耳鸣、吸烟、饮酒、生活噪声、娱乐噪声、佩戴耳机等数据；这些数据被输入到切迹面积预测模型后输出对应的预测切迹面积值。

待测人群样本的听力阈值测量数据包括但不限于实际检测数据双耳0.25,0.5,1,2,3,4,6和8kHz的检测听力阈值。本专利提供一种切迹面积的计算方法，将上述切迹面积由1和2kHz，2和3kHz，3和4kHz，4和6kHz，6和8kHz五组频率分为五个区域，每个区域的子切迹面积分别为S1、S2、S3、S4、S5。在纵坐标轴上5dB视为1个单位长度，在横坐标轴上1个倍频程视为1个单位长度，S1在横坐标轴上视为1个单位长度，上底边长STR1为1kHz听阈值减0.25,0.5和1kHz的听阈平均值，下底边长STR2为2kHz听阈值减0.25,0.5和1kHz的听阈平均值，S1＝(STR1+STR2)×1×0.5。以此类推S2在横坐标轴上视为0.5个单位长度，上底边长STR2为1kHz听阈值减0.25,0.5和1kHz的听阈平均值，下底边长STR2为3kHz听阈值减0.25,0.5和1kHz的听阈平均值，同时可以求出S3、S4、S5的面积。实际切迹面积值S_real-Notch＝S1+S2+S3+S4+S5。

步骤S15：比较所述预测切迹面积值和实际切迹面积值，据以判断待测人群样本的个体易感情况。

可选的，所述易感抵抗评判标准是指：首先，统计样本的切迹面积值，根据切迹面积的定义，计算出样本双耳的切迹面积，比较个体双耳最大的切迹面积值；其次，通过概率密度统计和指数分布检验最终确定噪声暴露人群中切迹人群的切迹面积值服从指数分布，并由此定义易感抵抗评判标准：

S_real-Notch-S_{predictive-Notch}≤a为极耐受个体；

a<S_real-Notch-S_{predictive-Notch}≤b为一般耐受个体；

b<S_real-Notch-S_{predictive-Notch}≤c正常个体；

c<S_real-Notch-S_{predictive-Notch}≤d为一般易感个体；

S_real-Notch-S_{predictive-Notch}＜d为极易感个体。

对于不同实际切迹面积值的样本进行区分：

S_real-Notch∈(0,4.5]时，

a＝-2.5

b＝-1.0

c＝1.0

d＝3.0

S_real-Notch∈(4.5,7.67]时，

a＝-2.0

b＝-1.0

c＝1.5

d＝3.0

S_real-Notch∈(7.67,12]时，

a＝-3.0

b＝-1.5

c＝3.0

d＝4.0

S_real-Notch∈(12,+∞)时，

a＝-4.0

b＝-2.0

c＝2.0

d＝3.0。

由此可知，本发明通过大数据预测和长期的临床经验，辅助判断听力损失情况和筛选易感抵抗个体，达到填补噪声性听力损失早期辅助诊断的空白效果，解决了当前各界对于噪声性听力损失早期诊断没有金标准，帮助患者早期预防，这是防治噪声性听力损失的关键。

需说明的是，本实施例提供的方法可应用于多种类型的硬件设备；上述硬件设备例如是控制器，如ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable GateArray)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等；上述硬件设备也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant，简称PDA)等个人电脑。上述硬件设备还以是服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成，本实施例不作限定。

实施例二：

如图2所示，展示了本发明一实施例中的基于机器学习的噪声性听力损失预测及易感人群筛选装置的结构示意图。所述基于机器学习的噪声性听力损失预测及易感人群筛选装置主要包括：采集及预处理模块21、高频听阈切迹定义模块22、预测模型构建模块23、待测数据获取模块24、比较及判断模块25。

采集及预处理模块21用于采集噪声暴露人群样本的多种听力特征数据并进行预处；高频听阈切迹定义模块22用于基于预处理数据，对人群样本进行高频听阈切迹定义；预测模型构建模块23构建用于预测个体易感情况的切迹面积预测模型；待测数据获取模块24用于获取待测人群样本中的医学特征数据和听力阈值测量数据；所述待测人群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算预测切迹面积值；所述待测人群样本中的听力阈值测量数据用于计算实际切迹面积值；比较及判断模块25用于比较所述预测切迹面积值和实际切迹面积值，据以判断待测人群样本的个体易感情况。

需说明的是，本实施例提供的基于机器学习的噪声性听力损失预测及易感人群筛选装置，其实施方式与上文实施例提供的基于机器学习的噪声性听力损失预测及易感人群筛选方法类似，因此不再赘述。

应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，预测模型构建模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上预测模型构建模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

实施例三：

如图3所示，展示了本发明一实施例中的电子终端的结构示意图。本实施例提供的电子终端，包括：处理器31、存储器32、通信器33；存储器32通过系统总线与处理器31和通信器33连接并完成相互间的通信，存储器32用于存储计算机程序，通信器33用于和其他设备进行通信，处理器31用于运行计算机程序，使电子终端执行如上基于机器学习的噪声性听力损失预测及易感人群筛选方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例四：

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于机器学习的噪声性听力损失预测及易感人群筛选方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请提供噪声性听力损失预测及易感人群筛选方法、装置、终端和介质，本申请的噪声性听力损失预测及易感人群筛选方法、装置、终端和介质，具有以下有益效果：本发明通过大数据预测和长期的临床经验，辅助判断听力损失情况和筛选易感抵抗个体，达到填补噪声性听力损失早期辅助诊断的空白效果，解决了当前各界对于噪声性听力损失早期诊断没有金标准，帮助患者早期预防，这是防治噪声性听力损失的关键。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种基于机器学习的噪声性听力损失预测及易感人群筛选方法，其特征在于，包括：

采集噪声暴露人群样本的多种听力特征数据并进行预处理；

基于预处理数据，对人群样本进行高频听阈切迹定义；

构建用于预测个体易感情况的切迹面积预测模型；所述切迹面积是由听力图中0.25kHz，0.5kHz和1kHz的听阈平均值，1kHz和2kHz，2kHz和3kHz，3kHz和4kHz，

4kHz和6kHz，6kHz和8kHz五组频率的听阈值相连的五条边，以及1kHz和8kHz听阈值分别到0.25kHz，0.5kHz和1kHz的听阈平均值的两条垂线共同围成的区域面积；所述听力图为声图，听力图横坐标表示声音的频率，纵坐标表示声音的强度；

获取待测人群样本中的医学特征数据和听力阈值测量数据；所述待测人群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算预测切迹面积值；所述待测人群样本中的听力阈值测量数据用于计算实际切迹面积值；

比较所述预测切迹面积值和实际切迹面积值，据以判断待测人群样本的个体易感情况。

2.根据权利要求1所述的方法，其特征在于，对所述噪声暴露人群样本的多种听力特征数据进行预处理，包括如下预处理方式中的一种或多种：

预处理方式1)将非数值型数据进行赋值处理；

预处理方式2)剔除缺失特征较多的样本；

预处理方式3)剔除包含极端异常值的样本；

预处理方式4)补齐缺失特征较少的样本。

3.根据权利要求1所述的方法，其特征在于，所述听力特征数据包括非数值型数据和数值型数据；所述非数值型数据包括：性别数据、工种数据、HPD数据、听力困难数据、耳鸣数据、耳鸣性质数据、耳鸣音调数据、耳鸣周期数据、吸烟数据、饮酒数据、生活噪声接触数据以及娱乐噪声接触数据中的任一种或多种组合；所述数值型数据包括：年龄数据、工龄数据、各频率听力阈值数据。

4.根据权利要求1所述的方法，其特征在于，所述对人群样本进行高频听阈切迹定义，包括：

将单耳符合切迹标准的样本归为切迹人群；以及，在双耳都符合切迹标准的情况下，采用切迹面积更大的耳朵进行统计；其中，所述切迹标准是指3,4和6kHz中任一听力阈值高于0.5kHz和1kHz听力阈值平均值至少15dB，且高于8kHz听力阈值至少5dB。

5.根据权利要求1所述的方法，其特征在于，所述切迹面积预测模型的构建方式包括：

利用相关分析算法，从所述人群样本的各听力特征数据中剔除与切迹面积相关度较低的特征数据，并保留相关度较高的特征数据；

使用极度梯度提升算法进行回归拟合，并设定模型初始参数；

使用十折交叉法随机匹配测试集和训练集训练模型，得到最小均方根误差模型；

设定参数浮动范围，通过参数自适应调优得到切迹面积预测模型。

6.根据权利要求1所述的方法，其特征在于，所述待测人群样本中的医学特征数据包括：性别数据、年龄数据、工种数据、工龄数据、BMI数据、HPD数据、听力困难数据、耳鸣数据、吸烟数据、饮酒数据、生活噪声数据、娱乐噪声数据、佩戴耳机数据；所述听力阈值测量数据包括实际检测的双耳0.25,0.5,1,2,3,4,6和8kHz的检测听力阈值。

7.根据权利要求1所述的方法，其特征在于，所述判断待测人群样本的个体易感情况，包括：

所述个体易感情况分为五个等级：极耐受，一般耐受，正常，一般易感，极易感；根据其面积和标准值的比值或按照面积大小进行易感等级的划分。

8.一种基于机器学习的噪声性听力损失预测及易感人群筛选装置，其特征在于，包括：

采集及预处理模块，用于采集噪声暴露人群样本的多种听力特征数据并进行预处理；

听阈切迹定义模块，用于基于预处理数据，对人群样本进行高频听阈切迹定义；

预测模型构建模块，构建用于预测个体易感情况的切迹面积预测模型；所述切迹面积是由听力图中0.25kHz，0.5kHz和1kHz的听阈平均值，1kHz和2kHz，2kHz和3kHz，3kHz和4kHz，4kHz和6kHz，6kHz和8kHz五组频率的听阈值相连的五条边，以及1kHz和8kHz听阈值分别到0.25kHz，0.5kHz和1kHz的听阈平均值的两条垂线共同围成的区域面积；所述听力图为声图，听力图横坐标表示声音的频率，纵坐标表示声音的强度；

待测数据获取模块，用于获取待测人群样本中的医学特征数据和听力阈值测量数据；所述待测人群样本中的医学特征数据用于输入到所述切迹面积预测模型后计算预测切迹面积值；所述待测人群样本中的听力阈值测量数据用于计算实际切迹面积值；

比较及判断模块，用于比较所述预测切迹面积值和实际切迹面积值，据以判断待测人群样本的个体易感情况。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于机器学习的噪声性听力损失预测及易感人群筛选方法。

10.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至7中任一项所述的基于机器学习的噪声性听力损失预测及易感人群筛选方法。