CN111800720A - 基于大数据和云空间的数字助听器参数调整方法和装置 - Google Patents
基于大数据和云空间的数字助听器参数调整方法和装置 Download PDFInfo
- Publication number
- CN111800720A CN111800720A CN202010638675.4A CN202010638675A CN111800720A CN 111800720 A CN111800720 A CN 111800720A CN 202010638675 A CN202010638675 A CN 202010638675A CN 111800720 A CN111800720 A CN 111800720A
- Authority
- CN
- China
- Prior art keywords
- audio data
- sub
- characteristic
- hearing aid
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013145 classification model Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 208000016354 hearing loss disease Diseases 0.000 description 4
- 206010011878 Deafness Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010370 hearing loss Effects 0.000 description 3
- 231100000888 hearing loss Toxicity 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/55—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
- H04R25/558—Remote control, e.g. of amplification, frequency
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
- H04L67/125—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请涉及一种基于大数据和云空间的数字助听器参数调整方法和装置。所述方法包括:获取数字助听器发送的音频数据;将音频数据发送至服务器上的云空间;在云空间中,对音频数据采用预设的场景标签进行标记,得到音频数据样本;提取音频数据样本的样本特征,根据样本特征及其对应的场景标签,对预先设置的分类模型进行训练;根据位置信息和所述时间信息,对音频数据进行分组,建立位置信息和时间信息与场景标签的对应关系;接收发送的实时音频数据;根据对应关系,确定对应的场景标签,根据预先设置的场景标签对应的调节参数,对数字助听器进行参数调整。采用本方法能够提高参数调整的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于大数据和云空间的数字助听器参数调整方法和装置。
背景技术
随着全球人口老龄化的形式日趋严峻和社会环境的不断变化,由先天因素和环境因素的综合影响,使听力障碍患者人数在不断快速地增加。由于现阶段医疗水平与医疗条件的限制,佩戴助听器仍然是补偿听力损失,解决听力障碍这一难题最有效、最重要的办法。
助听器是一种供听力障碍人士使用的、补偿听力损失的小型扩音设备,它通过一个微型麦克风进行声音采集,然后将弱的声音信号变得强大,并通过一个扬声器送到人耳,以帮助患有听力损失的病人重新感知语音。助听器的发展历史可以按照七个时代划分:从手掌集音时代开始,历经炭精、真空管、晶体管、集成电路和微处理器时代,最终发展到如今的数字助听器时代。
随着助听器技术的不断发展,场景分类现已成为智能数字助听器中十分重要的一个功能,其算法在信号处理过程的前端实现,可以有效识别出助听器使用者所处的听力环境,自动选择合适的参数配置,完成对不同声场景信号的个性化处理。传统的声场景分类问题主要由两个过程所组成:特征提取和分类。常用的特征有时域的过零率、能量特征、频域和倒谱域的特征等。常用的分类方法有:简单的阈值判断方法、高斯混合模型方法、基于支持向量机的方法等。尽管这些特征提取和分类算法的效果较好,但其中均包含有复杂的计算过程,对于处理能力有限的数字助听器并不合适。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决数字助听器处理能力有限问题的基于大数据和云空间的数字助听器参数调整方法和装置。
一种基于大数据和云空间的数字助听器参数调整方法,所述方法包括:
获取数字助听器发送的音频数据;所述音频数据通过位置信息和时间信息进行标记;
将所述音频数据发送至服务器上的云空间;
在所述云空间中,对所述音频数据采用预设的场景标签进行标记,得到音频数据样本;
提取所述音频数据样本的样本特征,根据所述样本特征及其对应的所述场景标签,对预先设置的分类模型进行训练,得到训练好的分类模型;
根据所述位置信息和所述时间信息,对所述音频数据进行分组,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立所述位置信息和所述时间信息与场景标签的对应关系;
接收数字助听器发送的实时音频数据;所述实时音频数据通过实时位置信息和实时时间信息进行标记;
根据所述对应关系,确定所述实时位置信息和所述实时时间信息对应的场景标签,根据预先设置的所述场景标签对应的调节参数,对数字助听器进行参数调整。
在其中一个实施例中,还包括:与数字助听器建立蓝牙或WIFI通讯连接,通过蓝牙或WIFI通讯接收音频数据;所述数字助听器通过GPS生成位置信息对所述音频数据进行标记,所述数字助听器通过时钟单元产生的时间信息对所述音频数据进行标记。
在其中一个实施例中,还包括:获取数字助听器中的用户ID和初始验配参数。
在其中一个实施例中,所述样本特征包括:频域能量特征、频域能量变化特征、短时过零率特征、Mel倒谱系数特征、子带能量比例系数特征、分带谱熵特征以及子带融合特征;还包括:对所述音频数据样本进行傅里叶变换,得到频域数据;
根据所述频域数据,得到频域能量特征为:
其中,f1i,j表示频域能量特征,Yi,j(k)表示频域数据,h表示二分之一的采样频率,k表示频点,i表示所述音频数据样本对应的场景标签类别,j表示帧序号;
根据所述频域能量特征,得到频域能量变化特征为:
f2i,j=|f1i,j-1-f1i,j|+|f1i,j+1-f1i,j|+0.5×|f1i,j-1-f1i,j+1|
其中,f2i,j表示频域能量变化特征;
以及提取所述频域数据的短时过零率特征f3i,j和Mel倒谱系数特征f4i,j;
将所述频域数据分为多个子带,计算每个子带的子带能量为:
其中,Ei,j,c表示子带能量,c表示子带的序号,Ωc表示子带的频点的取值范围;
根据所述子带能量,得到子带能量比例系数特征为:
f5i,j(c)=Ei,j,c/Ei,j
根据所述子带能量比例系数特征,得到分带谱熵特征为:
其中,f6i,j表示分带谱熵特征;
根据所述分带谱熵特征和所述子带能量比例系数特征,得到子带融合特征为:
其中,f7i,j(c)表示子带融合特征。
在其中一个实施例中,还包括:将所述频域能量特征、频域能量变化特征、短时过零率特征、Mel倒谱系数特征、子带能量比例系数特征、分带谱熵特征以及子带融合特征拼接之后,输入预先设置的分类模型中。
在其中一个实施例中,还包括:设置所述位置信息和所述时间信息的阈值区间,根据阈值区间对所述音频数据进行分组。
在其中一个实施例中,还包括:各个分组中音频数据输入训练好的分类模型,得到分组中音频数据对应的场景标签;根据场景标签中数量最多的场景标签类别作为分组对应的场景标签,以此建立所述位置信息和所述时间信息与场景标签的对应关系。
一种基于大数据和云空间的数字助听器参数调整装置,所述装置包括:
数据获取模块,用于获取数字助听器发送的音频数据;所述音频数据通过位置信息和时间信息进行标记;将所述音频数据发送至服务器上的云空间;在所述云空间中,对所述音频数据采用预设的场景标签进行标记,得到音频数据样本;
训练模块,用于提取所述音频数据样本的样本特征,根据所述样本特征及其对应的所述场景标签,对预先设置的分类模型进行训练,得到训练好的分类模型;根据所述位置信息和所述时间信息,对所述音频数据进行分组,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立所述位置信息和所述时间信息与场景标签的对应关系;
调整模块,用于接收数字助听器发送的实时音频数据;所述实时音频数据通过实时位置信息和实时时间信息进行标记;根据所述对应关系,确定所述实时位置信息和所述实时时间信息对应的场景标签,根据预先设置的所述场景标签对应的调节参数,对数字助听器进行参数调整。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取数字助听器发送的音频数据;所述音频数据通过位置信息和时间信息进行标记;
将所述音频数据发送至服务器上的云空间;
在所述云空间中,对所述音频数据采用预设的场景标签进行标记,得到音频数据样本;
提取所述音频数据样本的样本特征,根据所述样本特征及其对应的所述场景标签,对预先设置的分类模型进行训练,得到训练好的分类模型;
根据所述位置信息和所述时间信息,对所述音频数据进行分组,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立所述位置信息和所述时间信息与场景标签的对应关系;
接收数字助听器发送的实时音频数据;所述实时音频数据通过实时位置信息和实时时间信息进行标记;
根据所述对应关系,确定所述实时位置信息和所述实时时间信息对应的场景标签,根据预先设置的所述场景标签对应的调节参数,对数字助听器进行参数调整。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取数字助听器发送的音频数据;所述音频数据通过位置信息和时间信息进行标记;
将所述音频数据发送至服务器上的云空间;
在所述云空间中,对所述音频数据采用预设的场景标签进行标记,得到音频数据样本;
提取所述音频数据样本的样本特征,根据所述样本特征及其对应的所述场景标签,对预先设置的分类模型进行训练,得到训练好的分类模型;
根据所述位置信息和所述时间信息,对所述音频数据进行分组,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立所述位置信息和所述时间信息与场景标签的对应关系;
接收数字助听器发送的实时音频数据;所述实时音频数据通过实时位置信息和实时时间信息进行标记;
根据所述对应关系,确定所述实时位置信息和所述实时时间信息对应的场景标签,根据预先设置的所述场景标签对应的调节参数,对数字助听器进行参数调整。
上述基于大数据和云空间的数字助听器参数调整方法、装置、计算机设备和存储介质,通过与数字助听器建立连接,然后接受数字助听器发送的音频数据,另外,音频数据被位置信息和时间信息进行标记。接收到音频数据之后,将音频数据上传至服务器上建立的云空间中,然后通过预先设置好的场景标签,对音频数据进行标记,得到音频数据样本,在云空间上,提取音频数据样本的样本特征,然后利用样本特征训练分类模型,针对全局数据,根据位置信息和时间信息对音频数据进行分组,通过训练好的分类模型,输出每个分组的场景标签,从而可以建立位置信息和时间信息与场景标签的对应关系,在进行实时参数调整时,只需要接受数字助听器的位置信息和时间信息,就可以确定场景标签对应的调节参数,从而进行数字助听器的参数调节。本发明实施例中,计算均在云空间上完成,既可以解决数字助听器处理能力有限的问题,又可以通过云空间上的大数据处理,提高参数调节的准确性。
附图说明
图1为一个实施例中基于大数据和云空间的数字助听器参数调整方法的流程示意图;
图2为一个实施例中基于大数据和云空间的数字助听器参数调整装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于大数据和云空间的数字助听器参数调整方法,包括以下步骤:
步骤102,获取数字助听器发送的音频数据。
音频数据通过位置信息和时间信息进行标记,可以通过数字助听器上安装的定位装置获取位置信息,定位设备可以是GPS、北斗、WiFi或者基站等方式定位,时间信息可以通过数字助听器的时钟单元获取。
终端可以与数字助听器建立通讯连接,然后获取数字助听器发送的音频数据。
步骤104,将音频数据发送至服务器上的云空间。
云空间具备强大的计算功能,因此,可以在云空间中进行大数据计算。
步骤106,在云空间中,对音频数据采用预设的场景标签进行标记,得到音频数据样本。
可以预先设置场景标签,场景标签可以是,公共场所、室内等,不同的场景标签设置有不同的调节参数,以满足场景的需求,提高数字助听器的助听体验。
步骤108,提取音频数据样本的样本特征,根据样本特征及其对应的场景标签,对预先设置的分类模型进行训练,得到训练好的分类模型。
样本特征可以是能量、频谱等特征,分类模型可以是贝叶斯、支持向量机等模型。
步骤110,根据位置信息和时间信息,对音频数据进行分组,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立位置信息和时间信息与场景标签的对应关系。
由于数字助听器使用的特点,一般而言,位置信息相近以及时间信息相近,其使用的场景也相近,因此,可以根据位置信息和时间信息对音频数据进行分组,从而建立位置信息和时间信息与场景标签的对应关系。
步骤112,接收数字助听器发送的实时音频数据;实时音频数据通过实时位置信息和实时时间信息进行标记。
步骤114,根据对应关系,确定实时位置信息和实时时间信息对应的场景标签,根据预先设置的场景标签对应的调节参数,对数字助听器进行参数调整。
上述基于大数据和云空间的数字助听器参数调整方法中,通过与数字助听器建立连接,然后接受数字助听器发送的音频数据,另外,音频数据被位置信息和时间信息进行标记。接收到音频数据之后,将音频数据上传至服务器上建立的云空间中,然后通过预先设置好的场景标签,对音频数据进行标记,得到音频数据样本,在云空间上,提取音频数据样本的样本特征,然后利用样本特征训练分类模型,针对全局数据,根据位置信息和时间信息对音频数据进行分组,通过训练好的分类模型,输出每个分组的场景标签,从而可以建立位置信息和时间信息与场景标签的对应关系,在进行实时参数调整时,只需要接受数字助听器的位置信息和时间信息,就可以确定场景标签对应的调节参数,从而进行数字助听器的参数调节。本发明实施例中,计算均在云空间上完成,既可以解决数字助听器处理能力有限的问题,又可以通过云空间上的大数据处理,提高参数调节的准确性。
在其中一个实施例中,与数字助听器建立蓝牙或WIFI通讯连接,通过蓝牙或WIFI通讯接收音频数据;数字助听器通过GPS生成位置信息对音频数据进行标记,数字助听器通过时钟单元产生的时间信息对音频数据进行标记。
本实施例中,使用者使用数字助听器,同时携带终端,终端可以是具备通讯功能的手机、可穿戴便携设备、平板电脑、手持PC等,终端中通过特定的应用程序触发获取数字助听器的音频数据,然后将音频数据上传至云空间。
具体的,终端上安装特定的APP,通过在APP上进行操作,完成音频数据接收以及将音频数据上传至云空间。
在其中一个实施例中,获取数字助听器中的用户ID和初始验配参数。本实施例中,通过用户ID可以再云空间建立用户的个性化云空间,从而提高针对特定用户大数据计算对模型训练的效率。初始验配参数可以便于生成特定的调节参数进行调节。
在其中一个实施例中,样本特征包括:频域能量特征、频域能量变化特征、短时过零率特征、Mel倒谱系数特征、子带能量比例系数特征、分带谱熵特征以及子带融合特征;对音频数据样本进行傅里叶变换,得到频域数据;
根据频域数据,得到频域能量特征为:
其中,f1i,j表示频域能量特征,Yi,j(k)表示频域数据,h表示二分之一的采样频率,k表示频点,i表示音频数据样本对应的场景标签类别,j表示帧序号;
根据频域能量特征,得到频域能量变化特征为:
f2i,j=|f1i,j-1-f1i,j|+|f1i,j+1-f1i,j|+0.5×|f1i,j-1-f1i,j+1|
其中,f2i,j表示频域能量变化特征;
以及提取频域数据的短时过零率特征f3i,j和Mel倒谱系数特征f4i,j;
将频域数据分为多个子带,计算每个子带的子带能量为:
其中,Ei,j,c表示子带能量,c表示子带的序号,Ωc表示子带的频点的取值范围;
根据子带能量,得到子带能量比例系数特征为:
f5i,j(c)=Ei,j,c/Ei,j
根据子带能量比例系数特征,得到分带谱熵特征为:
其中,f6i,j表示分带谱熵特征;
根据分带谱熵特征和子带能量比例系数特征,得到子带融合特征为:
其中,f7i,j(c)表示子带融合特征。
在一个具体实施例中,场景标签可以是交通工具内、交通干道旁、公共场所、安静的室内以及其他场所,对于音频数据样本,可以是采样频率8kHz、16bit量化的500帧连续声音信号。
在又一个实施例中,将频域能量特征、频域能量变化特征、短时过零率特征、Mel倒谱系数特征、子带能量比例系数特征、分带谱熵特征以及子带融合特征拼接之后,输入预先设置的分类模型中。
具体的,频域能量特征的维数是1,频域能量变化特征的维数是1,短时过零率特征的维数是1,Mel倒谱系数特征的维数是12,子带能量比例系数特征的维数是32,分带谱熵特征的维数是1,子带融合特征的维数是32,因此输入分类模型中是一个维度为80的融合向量。
具体的,分类模型可以选择支持向量机。
在其中一个实施例中,设置位置信息和所述时间信息的阈值区间,根据阈值区间对音频数据进行分组,阈值区间可以是设置的一定的误差范围。
在其中一个实施例中,将各个分组中音频数据输入训练好的分类模型,得到分组中音频数据对应的场景标签;根据场景标签中数量最多的场景标签类别作为分组对应的场景标签,以此建立位置信息和时间信息与场景标签的对应关系。本实施例中,分组中场景标签最多,即表明在当前分组的位置信息和时间信息中,使用者最可能处在数量最多的场景标签中。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于大数据和云空间的数字助听器参数调整装置,包括:数据获取模块202、训练模块204和调整模块206,其中:
数据获取模块202,用于获取数字助听器发送的音频数据;所述音频数据通过位置信息和时间信息进行标记;将所述音频数据发送至服务器上的云空间;在所述云空间中,对所述音频数据采用预设的场景标签进行标记,得到音频数据样本;
训练模块204,用于提取所述音频数据样本的样本特征,根据所述样本特征及其对应的所述场景标签,对预先设置的分类模型进行训练,得到训练好的分类模型;根据所述位置信息和所述时间信息,对所述音频数据进行分组,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立所述位置信息和所述时间信息与场景标签的对应关系;
调整模块206,用于接收数字助听器发送的实时音频数据;所述实时音频数据通过实时位置信息和实时时间信息进行标记;根据所述对应关系,确定所述实时位置信息和所述实时时间信息对应的场景标签,根据预先设置的所述场景标签对应的调节参数,对数字助听器进行参数调整。
在其中一个实施例中,数据获取模块202还用于与数字助听器建立蓝牙或WIFI通讯连接,通过蓝牙或WIFI通讯接收音频数据;所述数字助听器通过GPS生成位置信息对所述音频数据进行标记,所述数字助听器通过时钟单元产生的时间信息对所述音频数据进行标记。
在其中一个实施例中,数据获取模块202还用于获取数字助听器中的用户ID和初始验配参数。
在其中一个实施例中,所述样本特征包括:频域能量特征、频域能量变化特征、短时过零率特征、Mel倒谱系数特征、子带能量比例系数特征、分带谱熵特征以及子带融合特征;训练模块204还用于对所述音频数据样本进行傅里叶变换,得到频域数据;
根据所述频域数据,得到频域能量特征为:
其中,f1i,j表示频域能量特征,Yi,j(k)表示频域数据,h表示二分之一的采样频率,k表示频点,i表示所述音频数据样本对应的场景标签类别,j表示帧序号;
根据所述频域能量特征,得到频域能量变化特征为:
f2i,j=|f1i,j-1-f1i,j|+|f1i,j+1-f1i,j|+0.5×|f1i,j-1-f1i,j+1|
其中,f2i,j表示频域能量变化特征;
以及提取所述频域数据的短时过零率特征f3i,j和Mel倒谱系数特征f4i,j;
将所述频域数据分为多个子带,计算每个子带的子带能量为:
其中,Ei,j,c表示子带能量,c表示子带的序号,Ωc表示子带的频点的取值范围;
根据所述子带能量,得到子带能量比例系数特征为:
f5i,j(c)=Ei,j,c/Ei,j
根据所述子带能量比例系数特征,得到分带谱熵特征为:
其中,f6i,j表示分带谱熵特征;
根据所述分带谱熵特征和所述子带能量比例系数特征,得到子带融合特征为:
其中,f7i,j(c)表示子带融合特征。
在其中一个实施例中,训练模块204还用于将所述频域能量特征、频域能量变化特征、短时过零率特征、Mel倒谱系数特征、子带能量比例系数特征、分带谱熵特征以及子带融合特征拼接之后,输入预先设置的分类模型中。
在其中一个实施例中,训练模块204还用于设置所述位置信息和所述时间信息的阈值区间,根据阈值区间对所述音频数据进行分组。
在其中一个实施例中,训练模块204还用于将各个分组中音频数据输入训练好的分类模型,得到分组中音频数据对应的场景标签;根据场景标签中数量最多的场景标签类别作为分组对应的场景标签,以此建立所述位置信息和所述时间信息与场景标签的对应关系。
关于基于大数据和云空间的数字助听器参数调整装置的具体限定可以参见上文中对于基于大数据和云空间的数字助听器参数调整方法的限定,在此不再赘述。上述基于大数据和云空间的数字助听器参数调整装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据和云空间的数字助听器参数调整方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于大数据和云空间的数字助听器参数调整方法,所述方法包括:
获取数字助听器发送的音频数据;所述音频数据通过位置信息和时间信息进行标记;
将所述音频数据发送至服务器上的云空间;
在所述云空间中,对所述音频数据采用预设的场景标签进行标记,得到音频数据样本;
提取所述音频数据样本的样本特征,根据所述样本特征及其对应的所述场景标签,对预先设置的分类模型进行训练,得到训练好的分类模型;
根据所述位置信息和所述时间信息,对所述音频数据进行分组,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立所述位置信息和所述时间信息与场景标签的对应关系;
接收数字助听器发送的实时音频数据;所述实时音频数据通过实时位置信息和实时时间信息进行标记;
根据所述对应关系,确定所述实时位置信息和所述实时时间信息对应的场景标签,根据预先设置的所述场景标签对应的调节参数,对数字助听器进行参数调整。
2.根据权利要求1所述的方法,其特征在于,所述获取数字助听器发送的音频数据,包括:
与数字助听器建立蓝牙或WIFI通讯连接,通过蓝牙或WIFI通讯接收音频数据;所述数字助听器通过GPS生成位置信息对所述音频数据进行标记,所述数字助听器通过时钟单元产生的时间信息对所述音频数据进行标记。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取数字助听器中的用户ID和初始验配参数。
4.根据权利要求1所述的方法,其特征在于,所述样本特征包括:频域能量特征、频域能量变化特征、短时过零率特征、Mel倒谱系数特征、子带能量比例系数特征、分带谱熵特征以及子带融合特征;
所述提取所述音频数据样本的样本特征,包括:
对所述音频数据样本进行傅里叶变换,得到频域数据;
根据所述频域数据,得到频域能量特征为:
其中,f1i,j表示频域能量特征,Yi,j(k)表示频域数据,h表示二分之一的采样频率,k表示频点,i表示所述音频数据样本对应的场景标签类别,j表示帧序号;
根据所述频域能量特征,得到频域能量变化特征为:
f2i,j=|f1i,j-1-f1i,j|+|f1i,j+1-f1i,j|+0.5×|f1i,j-1-f1i,j+1|
其中,f2i,j表示频域能量变化特征;
以及提取所述频域数据的短时过零率特征f3i,j和Mel倒谱系数特征f4i,j;
将所述频域数据分为多个子带,计算每个子带的子带能量为:
其中,Ei,j,c表示子带能量,c表示子带的序号,Ωc表示子带的频点的取值范围;
根据所述子带能量,得到子带能量比例系数特征为:
f5i,j(c)=Ei,j,c/Ei,j
根据所述子带能量比例系数特征,得到分带谱熵特征为:
其中,f6i,j表示分带谱熵特征;
根据所述分带谱熵特征和所述子带能量比例系数特征,得到子带融合特征为:
其中,f7i,j(c)表示子带融合特征。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述频域能量特征、频域能量变化特征、短时过零率特征、Mel倒谱系数特征、子带能量比例系数特征、分带谱熵特征以及子带融合特征拼接之后,输入预先设置的分类模型中。
6.根据权利要求1至5任一项所述的方法,其特征在于,根据所述位置信息和所述时间信息,对所述音频数据进行分组,包括:
设置所述位置信息和所述时间信息的阈值区间,根据阈值区间对所述音频数据进行分组。
7.根据权利要求1至5任一项所述的方法,其特征在于,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立所述位置信息和所述时间信息与场景标签的对应关系,包括:
将各个分组中音频数据输入训练好的分类模型,得到分组中音频数据对应的场景标签;
根据场景标签中数量最多的场景标签类别作为分组对应的场景标签,以此建立所述位置信息和所述时间信息与场景标签的对应关系。
8.一种基于大数据和云空间的数字助听器参数调整装置,其特征在于,所述装置包括:
数据获取模块,用于获取数字助听器发送的音频数据;所述音频数据通过位置信息和时间信息进行标记;将所述音频数据发送至服务器上的云空间;在所述云空间中,对所述音频数据采用预设的场景标签进行标记,得到音频数据样本;
训练模块,用于提取所述音频数据样本的样本特征,根据所述样本特征及其对应的所述场景标签,对预先设置的分类模型进行训练,得到训练好的分类模型;根据所述位置信息和所述时间信息,对所述音频数据进行分组,根据各个分组中音频数据输入训练好的分类模型的输出结果,建立所述位置信息和所述时间信息与场景标签的对应关系;
调整模块,用于接收数字助听器发送的实时音频数据;所述实时音频数据通过实时位置信息和实时时间信息进行标记;根据所述对应关系,确定所述实时位置信息和所述实时时间信息对应的场景标签,根据预先设置的所述场景标签对应的调节参数,对数字助听器进行参数调整。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010638675.4A CN111800720B (zh) | 2020-07-06 | 2020-07-06 | 基于大数据和云空间的数字助听器参数调整方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010638675.4A CN111800720B (zh) | 2020-07-06 | 2020-07-06 | 基于大数据和云空间的数字助听器参数调整方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111800720A true CN111800720A (zh) | 2020-10-20 |
CN111800720B CN111800720B (zh) | 2021-11-19 |
Family
ID=72811176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010638675.4A Active CN111800720B (zh) | 2020-07-06 | 2020-07-06 | 基于大数据和云空间的数字助听器参数调整方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111800720B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487238A (zh) * | 2020-10-27 | 2021-03-12 | 百果园技术(新加坡)有限公司 | 一种音频处理方法、装置、终端及介质 |
CN114666706A (zh) * | 2021-11-30 | 2022-06-24 | 北京达佳互联信息技术有限公司 | 音效增强方法、装置及系统 |
EP4132010A2 (en) | 2021-08-06 | 2023-02-08 | Oticon A/s | A hearing system and a method for personalizing a hearing aid |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515454A (zh) * | 2008-02-22 | 2009-08-26 | 杨夙 | 一组用于语音、音乐、噪音自动分类的信号特征提取方法 |
CN110581918A (zh) * | 2018-06-11 | 2019-12-17 | 佛山市顺德区美的电热电器制造有限公司 | 一种语音设备及其控制方法、服务器和计算机存储介质 |
EP3585071A1 (de) * | 2018-06-18 | 2019-12-25 | Sivantos Pte. Ltd. | Verfahren zur steuerung der datenübertragung zwischen zumindest einem hörgerät und einem peripheriegerät eines hörgerätesystems sowie hörgerät |
CN111148271A (zh) * | 2018-11-05 | 2020-05-12 | 华为终端有限公司 | 一种控制助听器的方法及终端 |
-
2020
- 2020-07-06 CN CN202010638675.4A patent/CN111800720B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515454A (zh) * | 2008-02-22 | 2009-08-26 | 杨夙 | 一组用于语音、音乐、噪音自动分类的信号特征提取方法 |
CN110581918A (zh) * | 2018-06-11 | 2019-12-17 | 佛山市顺德区美的电热电器制造有限公司 | 一种语音设备及其控制方法、服务器和计算机存储介质 |
EP3585071A1 (de) * | 2018-06-18 | 2019-12-25 | Sivantos Pte. Ltd. | Verfahren zur steuerung der datenübertragung zwischen zumindest einem hörgerät und einem peripheriegerät eines hörgerätesystems sowie hörgerät |
CN111148271A (zh) * | 2018-11-05 | 2020-05-12 | 华为终端有限公司 | 一种控制助听器的方法及终端 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487238A (zh) * | 2020-10-27 | 2021-03-12 | 百果园技术(新加坡)有限公司 | 一种音频处理方法、装置、终端及介质 |
CN112487238B (zh) * | 2020-10-27 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 一种音频处理方法、装置、终端及介质 |
EP4132010A2 (en) | 2021-08-06 | 2023-02-08 | Oticon A/s | A hearing system and a method for personalizing a hearing aid |
EP4132010A3 (en) * | 2021-08-06 | 2023-02-22 | Oticon A/s | A hearing system and a method for personalizing a hearing aid |
CN114666706A (zh) * | 2021-11-30 | 2022-06-24 | 北京达佳互联信息技术有限公司 | 音效增强方法、装置及系统 |
CN114666706B (zh) * | 2021-11-30 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 音效增强方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111800720B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111800720B (zh) | 基于大数据和云空间的数字助听器参数调整方法和装置 | |
CN111667814B (zh) | 一种多语种的语音合成方法及装置 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN111261144B (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
CN112185352B (zh) | 语音识别方法、装置及电子设备 | |
CN111739539B (zh) | 确定说话人数量的方法、装置及存储介质 | |
CN110992963B (zh) | 网络通话方法、装置、计算机设备及存储介质 | |
CN105719659A (zh) | 基于声纹识别的录音文件分离方法及装置 | |
CN108538311A (zh) | 音频分类方法、装置及计算机可读存储介质 | |
CN105489221A (zh) | 一种语音识别方法及装置 | |
CN111508511A (zh) | 实时变声方法及装置 | |
CN108335694A (zh) | 远场环境噪声处理方法、装置、设备和存储介质 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
CN111182390B (zh) | 音量数据处理方法、装置、计算机设备及存储介质 | |
CN110931000B (zh) | 语音识别的方法和装置 | |
WO2019101099A1 (zh) | 视频节目识别方法、设备、终端、系统和存储介质 | |
CN109003607B (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN111899760A (zh) | 音频事件的检测方法、装置、电子设备及存储介质 | |
CN115691544A (zh) | 虚拟形象口型驱动模型的训练及其驱动方法、装置和设备 | |
CN108628813A (zh) | 处理方法和装置、用于处理的装置 | |
CN111081275B (zh) | 基于声音分析的终端处理方法、装置、存储介质及终端 | |
CN108364346B (zh) | 构建三维人脸模型的方法、装置和计算机可读存储介质 | |
CN108880815A (zh) | 身份验证方法、装置和系统 | |
CN109102813B (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
CN111209429B (zh) | 用于度量语音数据库覆盖性的无监督模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |