CN115831344A

CN115831344A - 听觉辅助方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115831344A
Application number: CN202111085866.3A
Authority: CN
Inventors: 肖玮; 武庭照; 史裕鹏; 王蒙; 商世东; 吴祖榕
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-03-21

Abstract

本申请提供了一种听觉辅助方法、装置、设备及计算机可读存储介质；该方法包括：响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，所述听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口；响应于针对所述第一功能入口的触发操作，呈现医生信息展示界面；响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标医生信息和第一预约时间；响应于接收到的预约操作指令，向医生客户端发送远程问诊请求，所述远程问诊请求中携带有所述第一预约时间和进行实时音视频通话的入口链接。通过本申请，能够实现与医生的远程交流，提升听觉辅助效率。

Description

听觉辅助方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及互联网技术，尤其涉及一种听觉辅助方法、装置、设备及计算机可读存储介质。

背景技术

目前，全球约五分之一的人口有听力损伤的问题。在这部分人口中，仅有少量会配置助听器或者人工耳蜗等专业设备。

听障用户配戴助听器或者人工耳蜗，内部的参数个性化，即需要根据用户双耳的实际听损情况，设置助听策略，才能获得理想的听觉体验。因此，一段时间后需要对设备进行调整，确保好的质量。一方面，在某些情况下医生和用户面对面的交流无法成行；另一方面，用户异地交通成本不可忽视。目前专用辅听App中，对于设备调整、与医生的交流等不能满足远程康复的业务需求。

发明内容

本申请实施例提供一种听觉辅助方法、装置及计算机可读存储介质，能够实现与医生的远程交流，提升听觉辅助效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种听觉辅助方法，包括：

响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，所述听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口；

响应于针对所述第一功能入口的触发操作，呈现医生信息展示界面；

响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标医生信息和第一预约时间；

响应于接收到的预约操作指令，向医生客户端发送远程问诊请求，所述远程问诊请求中携带有所述第一预约时间和进行实时音视频通话的入口链接。

本申请实施例提供一种听觉辅助装置，该装置包括：

第一呈现模块，用于响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，所述听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口；

第二呈现模块，用于响应于针对所述第一功能入口的触发操作，呈现医生信息展示界面；

第一确定模块，用于响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标医生信息和第一预约时间；

第一发送模块，用于响应于接收到的预约操作指令，向医生客户端发送远程问诊请求，所述远程问诊请求中携带有所述第一预约时间和进行实时音视频通话的入口链接。

在一些实施例中，该装置还包括：

第三呈现模块，用于响应于接收到的预约操作指令，呈现支付页面，所述支付页面呈现有所述目标医生信息对应的问诊金额和支付入口；

第四呈现模块，用于响应于针对所述支付入口的触发操作，呈现支付方式选择界面；

第二确定模块，用于响应于通过所述支付方式选择界面触发的选择操作，确定目标支付方式，并基于所述目标支付方式进行支付。

在一些实施例中，该装置还包括：

输出模块，用于确定当前时刻与所述第一预约时间之间的时间间隔小于间隔阈值时，输出提示消息，所述提示消息用于提示即将达到远程问诊的第一预约时间；

第五呈现模块，用于确定达到所述第一预约时间时，响应于针对所述入口链接的触发操作，呈现音视频通话界面；

第一获取模块，用于启动图像采集装置和语音采集装置，获取所述图像采集装置采集到的第一图像数据和所述语音采集装置采集到的第一语音数据；

第六呈现模块，用于在所述音视频通话界面呈现所述第一图像数据和获取到的医生客户端的第二图像数据；

第二发送模块，用于将所述第一语音数据发送至所述医生客户端，并播放所述医生客户端发送的第二语音数据。

在一些实施例中，该装置还包括：

第七呈现模块，用于当需要对助听设备进行参数调整时，响应于设备连接操作，建立用户终端与所述助听设备的通信连接，并呈现所述助听设备的设置界面；

第三确定模块，用于基于从医生客户端获取到的调整信息，确定调整参数和所述调整参数的目标值；

第一接收模块，用于通过所述设置界面，接收对所述调整参数的调整操作，以将所述调整参数调整至所述目标值。

在一些实施例中，该装置还包括：

第二接收模块，用于接收所述医生客户端发送的远程控制请求；

第八呈现模块，用于响应于所述远程控制请求，呈现远程控制提示信息；

第三发送模块，用于当接收到针对所述远程控制提示信息的正向反馈指令，向所述医生客户端发送允许远程控制的响应消息，以使得所述医生终端通过远程控制对所述助听设备的参数进行调整。

在一些实施例中，该装置还包括：

第三接收模块，用于接收医生客户端发送的第一远程问诊响应，所述第一远程问诊响应表征医生客户端未接受所述远程问诊请求，所述第一远程问诊响应中携带有第二预约时间；

第九呈现模块，用于响应于针对所述第一远程问诊响应的查看操作，呈现远程问诊响应界面，通过所述远程问诊响应界面呈现所述第二预约时间；

第四发送模块，用于当通过所述远程问诊响应界面接收到接受所述第二预设时间的触发操作时，向所述医生客户端发送第二远程问诊响应。

在一些实施例中，该装置还包括：

第四确定模块，用于响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标调试人员；

第五发送模块，用于响应于接收到的预约操作指令，向调机客户端发送调机请求，所述调机请求中携带有所述第一预约时间和进行实时音视频通话的入口链接；

第四接收模块，用于在达到所述第一预约时间开始实时音视频通话，且所述用户终端与所述助听设备建立通信连接后，接收所述调机客户端发送的第二远程控制请求；

第十呈现模块，用于响应于所述第二远程控制请求，呈现第二远程控制提示信息；

第六发送模块，用于当接收到针对所述第二远程控制提示信息的正向反馈指令，向所述调机客户端发送允许远程控制的第二响应消息，以使得所述调机终端基于所述医生终端的调整指令通过远程控制对所述助听设备的参数进行调整。

在一些实施例中，该装置还包括：

第十一呈现模块，用于响应于针对所述第二功能入口的触发操作，呈现近程辅听界面，所述近程辅听界面呈现有听力配置入口、第一辅听开关控件和第二辅听开关控件；

第三获取模块，用于响应于针对所述听力配置入口的触发操作，获取用户听力测试结果；

降噪模块，用于当基于针对所述第一辅听开关的触发操作确定开启第一辅听功能时，对采集到的语音数据进行降噪处理，得到降噪后的语音数据；

均衡处理模块，用于当基于针对所述第二辅听开关的触发操作确定开启第二辅听功能时，基于所述听力测试结果对所述降噪后的语音数据进行均衡处理，得到目标语音数据；

第二输出模块，用于输出所述目标语音数据。

在一些实施例中，该降噪模块，还用于：

对采集到的语音数据进行频域转换，得到频域语音数据，获取所述频域语音数据的相位信息和幅度信息；

获取训练好的语音增强模型，将所述幅度信息输入所述训练好的语音增强模型，得到增益信息；

基于所述幅度信息和所述增益信息，确定降噪后的幅度信息；

基于所述幅度信息和所述相位信息，确定降噪后的频域语音数据；

对所述降噪后的频域语音数据进行时域转换，得到降噪后的语音数据。

在一些实施例中，该装置还包括：

特征提取模块，用于提取所述采集到的语音数据的语音特征；

场景识别模块，用于将所述语音特征输入训练好的场景识别模型，得到识别出的场景信息；

对应地，该降噪模块，还用于：

基于所述场景信息，获取所述场景信息对应的训练好的语音增强模型。

在一些实施例中，该均衡处理模块，还用于：

基于采集到的语音数据确定声压级，并基于所述用户听力测试结果确定各个频带对应的听阈值；

基于所述声压级和所述各个频带对应的听阈值，确定各个频带对应的增益值；

基于所述各个频带对应的增益值确定均衡滤波器的参数；

利用所述均衡滤波器对所述降噪后的语音数据进行滤波处理，得到滤波后的语音数据；

对所述滤波后的语音数据进行动态范围控制，得到目标语言数据。

本申请实施例提供一种终端设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的听觉辅助方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的听觉辅助方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的方法。

本申请实施例具有以下有益效果：

用户终端响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，该听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口，当用户想要进行近程辅听时，可以针对第一功能入口触发点击或触控操作，响应于该点击或触控操作，呈现医生信息展示界面，通过该医生信息展示界面可以选择目标医生信息以及第一预约时间，在接收到预约操作指令后，通过服务器向医生客户端发送远程问诊请求，该远程问诊请求包括第一预约时间和进行实时音视频通话的入口链接，使得医生客户端和用户的听觉辅助客户端在达到第一预约时间时通过入口链接进行实时的音视频通话，从而实现远程问诊，不仅能够减少用户进行问诊时的时间成本和交通成本，还能够提高问诊效率。

附图说明

图1为本申请实施例提供的听觉辅助系统架构的结构示意图；

图2为本申请实施例提供的终端设备的结构示意图；

图3为本申请实施例提供的听觉辅助方法的一种实现流程示意图；

图4为本申请实施例提供的听觉辅助方法的另一种实现流程示意图；

图5为本申请实施例提供的听觉辅助方法的再一种实现流程示意图；

图6A为本申请实施例提供的近程辅听加远程康复App的界面示意图；

图6B为本申请实施例提供的近程辅听加远程康复App的另一个界面示意图；

图7A为本申请实施例提供的近程辅听界面示意图；

图7B为本申请实施例提供的远程康复界面示意图；

图7C为本申请实施例提供的听力测试界面示意图；

图8A为本申请实施例提供的个性化听力测试实现流程示意图；

图8B为本申请实施例提供的纯音听力测试结果示意图；

图9为本申请实施例提供的声音场景识别流程示意图；

图10为本申请实施例提供的声音场景识别的另一种实现流程示意图；

图11为本申请实施例提供的简化上升法进行测听的实现流程示意图；

图12为本申请实施例提供的AI语音增强的实现示意图；

图13为本申请实施例提供的AI语音增加的另一种实现流程示意图；

图14为本申请实施例提供的个性化均衡的实现流程示意图；

图15A为直接计算滤波器参数得到的滤波器组频率响应曲线示意图；

图15B为反向计算滤波器参数得到的滤波器组频率响应曲线示意图；

图16为本申请实施例提供的远程康复的实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)声压级(SPL，Sound Pressure Level)，用来描述声压大小的物理量。人耳可听的声压范围为2×10^-5Pa～20Pa，对应的声压级范围为0～120dB，引入声压级的概念易于描述线性变化很大的声压。

2)纯音听阈测定(也称为纯音听力测试)，是受检耳对不同频率的纯音恰能听到的最轻声音，是判断听敏度的标准。在测试时，分别对用户的左右耳进行测试；选择特定频率的纯音，测量用户可感知的最小声压级，获得左右耳听力状态(在本申请实施例中也称为个性化听力状态)。

3)语音增强(Speech Enhancement)，当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。也就是，从含噪语音中提取尽可能纯净的原始语音。

为了更好地理解本申请实施例提供的听力测试处理方法，对听障用户的技术需求和相关技术的现状及存在的缺陷进行说明。

听障用户的技术需求，可以归纳为：

第一，用户期望随时进行自主测试，了解当前的听力状态。此外，对于普通用户(比如，听力健康或者还未从临床上界定为听损)，基于轻量化的App，随时对自己的听力状态做一下检测，对普通用户的听力健康也是有益处的。

第二、针对用户个性化听力状态，进行针对性的辅听，包括：

①针对发生听损的频率进行辅听，效果更好。

②听损用户在噪声暴露时，语音可懂度极端下降。语音增强是必要的。

③针对用户在不同声学场景下，进行针对性辅听(比如：语音增强的强度或者策略等)。

第三、在不方便面对面交流时，用户可以通过远程接入的方式，与医生取得联系，完成基本的远程康复、调机等。

目前，业内基于纯音听力测试的辅听的方案是比较典型代表的方案。在实现时首先对用户进行纯音听力测试，获得个性化听力状态。然后基于个性化听力状态，对听力不足的特定频率进行增益(在一些实施例中也称为个性化均衡)，从而提升用户听感。

另外，环境噪声的干扰，会影响听障用户的可懂度。因此，部分助听器或者人工耳蜗产品中会集成降噪算法；同时，一些辅听软件也会集成相应的降噪算法。

在辅听方面，基于纯音听力测试的个性化均衡，比较容易实现。然而，对于降噪来说，目前在听障用户的方案还有以下不足：

第一，基于纯信号处理的方案，对于瞬态等非平稳噪声抑制效果一般；

第二，一些降噪算法的效果破坏了语音结构，导致用户更难于感知；

第三，受算力影响，集成到助听器或者人工耳蜗中的方案，都是轻量级降噪算法，效果一般。

在远程康复和调机方面，目前通行的方案是通过第三方音视频通话软件，实现医生和用户的实时交流。这些软件是给一般场景设计，并没有集成到专用辅听App中，一些流程并不符合远程康复的业务需求。

因此，在本申请实施例中的听力测试处理方法中，将近程辅听和远程康复集成到一个应用程序中，有利于用户的听觉体验提升。

下面说明本申请实施例提供的终端设备的示例性应用，本申请实施例提供的终端设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、车载终端、智能电视等各种类型的用户终端。

参见图1，图1是本申请实施例提供的听觉辅助系统100的架构示意图，如图1所示，该听觉辅助系统100包括：医生终端200、服务器300和用户终端400。其中，医生终端200和用户终端400可以通过网络(图1中未示出)建立通信连接，网络可以是广域网或者局域网，又或者是二者的组合。

用户终端400中可以安装有听觉辅助客户端，该听觉辅助客户端可以分有用户版和医生版，医生终端200中安装有听觉辅助医生版客户端(在下述称为医生客户端)。

该用户终端400的使用用户可以是存在听觉障碍的用户，该用户可以佩戴有助听器或人工耳蜗等助听设备。为了使得用户具有更好的听觉体验，可以启动听觉辅助客户端，用户终端400响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，该听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口，当用户想要进行近程辅听时，可以针对第一功能入口触发点击或触控操作，响应于该点击或触控操作，呈现医生信息展示界面，通过该医生信息展示界面可以选择目标医生信息以及第一预约时间，在接收到预约操作指令后，通过服务器向医生客户端发送远程问诊请求，服务器300在接收到远程问诊请求后，会分配进行实时音视频通话的入口链接，之后服务器300向医生客户端发送该远程问诊请求，所述远程问诊请求中携带有所述第一预约时间和进行实时音视频通话的入口链接。

在一些实施例中，医生终端200在接收到远程问诊请求后，如果接受远程问诊请求，则通过服务器300向用户终端返回接受远程问诊的响应消息。在达到第一预设时间时，医生和用户分别通过自身的听觉辅助客户端，点击入口链接，呈现视频通话界面，从而进行远程问诊。

在一些实施例中，服务器300可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端400及医生终端200可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图2，图2是本申请实施例提供的用户终端400的结构示意图，图2所示的用户终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。用户终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块453，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的听觉辅助装置454，其可以是程序和插件等形式的软件，包括以下软件模块：第一呈现模块4541、第二呈现模块4542、第一确定模块4543和第一发送模块4544，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

第一呈现模块4541、第二呈现模块4542及其他呈现模块，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的听觉辅助方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic De vice)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的权限发放方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如听觉辅助APP或者即时通信APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

为了更好地理解本申请实施例提供的方法，首先对人工智能、人工智能的各个分支，以及本申请实施例提供的方法所涉及的应用领域进行说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案主要涉及人工智能的机器学习技术，以下对该项技术进行说明。

机器学习(ML，Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

人工智能云服务，一般也被称作是AI即服务(AIaaS，AI as a Service)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务，在本申请实施例提供的听觉辅助方法中，可以通过人工智能云服务提供的AI框架和AI基础设施来部署和运维数据调度分发系统。

将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的听觉辅助方法。

本申请实施例提供一种听觉辅助方法，应用于用户终端，图3是本申请实施例提供的听觉辅助方法的一种实现流程示意图，将结合图3示出的步骤对本申请实施例提供的听觉辅助方法进行说明。

步骤S101，响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面。

用户终端可以安装有听觉辅助客户端，该针对听觉辅助客户端的触发操作可以是点击或者触控听觉辅助客户端图标的操作，还可以是打开听觉辅助客户端的语音指令或者打开听觉辅助客户端的手势操作。用户终端在接收到该触发操作后，呈现听觉辅助界面，该听觉辅助界面至少包括用于远程问诊的第一功能入口和用于近程辅听的第二功能入口。

步骤S102，响应于针对所述第一功能入口的触发操作，呈现医生信息展示界面。

该针对第一功能入口的触发操作可以是点击或触控该第一功能入口的操作，响应于该触发操作，呈现医生信息展示界面，该医生信息展示界面可以呈现有医生姓名、医生任职医院、职称以及医生擅长内容等信息，在该医生信息展示界面还可以包括有预设时间的选择入口，在点击或触控该选择入口后，可以呈现一个浮层，在该浮层中显示有医生的可预约时间。该可预约时间可以包括预约日期以及预约时刻。

步骤S103，响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标医生信息和第一预约时间。

在本申请实施例中，医生信息展示界面还可以包括针对每个医生的选择控件，当点击或者触控了某一医生的选择控件后，可以更新医生的选择状态，例如，当某一个医生当前的选择状态为未选中时，当接收到针对该选择控件的点击或触控操作之后，可以更新选择状态为选中。对应地，如果该医生当前的选择状态为选中，当接收到针对该选择控件的点击或触控操作后，更新选择状态为未选中。在医生更新后的选择状态为选中后，可以自动触发呈现预约时间选择界面，该预约时间选择界面可以以浮层的形式，加载于医生信息展示界面之上，然后用户终端基于通过预约时间选择界面接收到的选择操作，确定第一预约时间，该第一预约时间包括第一预约日期和第一预约时间段。

步骤S104，响应于接收到的预约操作指令，向医生客户端发送远程问诊请求。

在实际实现时，该远程问诊请求可以是通过服务器发送至医生客户端的，首先用户终端将远程问诊请求发送至服务器，该用户终端发送给服务器的远程问诊请求可以包括医生信息和第一预约时间，服务器在接收到该远程问诊请求后，如果确定该医生信息对应的第一预约时间是可预约的，那么生成进行实时音视频通话的入口链接，然后服务器向医生客户端(也即医生终端)发送远程问诊请求，该远程问诊请求中携带有所述第一预约时间和进行实时音视频通话的入口链接。

在一些实施例中，在达到该第一预约时间后，用户终端和医生终端通过该入口链接可以进行实时音视频通话，从而实现远程问诊。

在本申请实施例提供的听觉辅助方法中，用户终端响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，该听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口，当用户想要进行远程问诊时，可以针对第一功能入口触发点击或触控操作，响应于该点击或触控操作，呈现医生信息展示界面，通过该医生信息展示界面可以选择目标医生信息以及第一预约时间，在接收到预约操作指令后，通过服务器向医生客户端发送远程问诊请求，该远程问诊请求包括第一预约时间和进行实时音视频通话的入口链接，使得医生客户端和用户的听觉辅助客户端在达到第一预约时间时通过入口链接进行实时的音视频通话，从而实现远程问诊，不仅能够减少用户进行问诊时的时间成本和交通成本，还能够提高问诊效率。

在一些实施例中，在接收到预约操作指令之后，对于有偿问诊还可以执行以下步骤：

步骤S105，响应于接收到的预约操作指令，呈现支付页面。

其中，该支付页面呈现有所述目标医生信息对应的问诊金额和支付入口。

步骤S106，响应于针对所述支付入口的触发操作，呈现支付方式选择界面。

在该支付方式选择界面可以呈现有至少一种支付方式，例如可以是银行卡支付还可以是第三方电子商务支付，每种支付方式对应有一个选择控件，通过点击该选择控件可以选择或者取消选择对应的支付方式。

步骤S107，响应于通过所述支付方式选择界面触发的选择操作，确定目标支付方式，并基于所述目标支付方式进行支付。

由于远程问诊不同于现场就医，可以在医院现场进行挂号和缴费，因此通过上述步骤S105至步骤S107，在用户选择好预约的医生和时间之后，即可完成问诊费用的在线支付。

需要说明的是，上述步骤S105至步骤S107可以是在步骤S104之前执行，也可以是在步骤S104之后执行。

基于前述的实施例，本申请实施例再提供一种听觉辅助方法，应用于图1所示的听觉辅助系统，图4为本申请实施例提供的听觉辅助方法的再一种实现流程示意图，如图4所示，该流程包括：

步骤S201，用户终端响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面。

该听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口，在一些实施例中，该听觉辅助界面还包括用于进行听力测试的第三功能入口。

步骤S202，用户终端响应于针对所述第一功能入口的触发操作，呈现医生信息展示界面。

步骤S203，用户终端响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标医生信息和第一预约时间。

步骤S204，用户终端响应于接收到的预约操作指令，向服务器发送远程问诊请求。

在该远程问诊请求中携带有目标医生信息和第一预约时间。

步骤S205，服务器在接收到该远程问诊请求后获取为所述用户终端分配的用于实时音视频通话的入口链接。

在实现时，如果该服务器集成有实时音视频通话的SDK或者底层库时，可以是服务器自身为用户终端分配进行实时音视频通话的入口链接，如果该服务器未集成有实时音视频通话的SDK或者底层库时，该服务器会向第三方音视频通话服务器发送链接分配请求，由第三方音视频通话服务器为用户终端分配链接，并发送至该服务器。

步骤S206，服务器向医生客户端发送远程问诊请求。

其中，该远程问诊请求包括该入口链接和第一预约时间。

步骤S207，服务器向用户终端返回该入口链接。

用户终端在接收到该入口链接后，可以增加一条问诊记录，该问诊记录可以包括但不限于目标医生信息、第一预约时间和入口链接。

步骤S208，医生终端在接收到远程问诊请求后，响应于针对该远程问诊请求的查看操作，呈现远程问诊请求界面。

在该远程文件界面中至少呈现有第一预约时间，在一些实施例中，还可以呈现有入口链接。

步骤S209，医生终端在通过该远程问诊请求界面接收到接受该远程问诊请求的操作时，经由服务器将第三远程问诊响应发送至用户终端。

该第三远程问诊响应用于通知用户终端医生已接受预约。在一些实施例中，该第三远程问诊响应也可以只发送到服务器，由服务器进行可预约时间信息的更新即可。

步骤S210，服务器基于该第三远程问诊响应更新医生的可预约时间信息。

步骤S210在实现时，可以是服务器基于该第三远程问诊响应将该目标医生信息对应的可预约时间信息中的第一预约时间信息删除。

步骤S211，确定当前时刻与所述第一预约时间之间的时间间隔小于间隔阈值时，用户终端和医生终端输出提示消息。

该提示消息用于提示即将达到远程问诊的第一预约时间。该时间阈值可以是预先设置好的，比如可以是半小时、1小时、10分钟等。

判断当前时刻与第一预约时间之间的时间间隔是否小于间隔阈值在实现时可以是设定定时器，该定时器的定时时间是基于第一预约时间和该时间阈值确定的，例如第一预约时间为2021年9月10日17:00，时间阈值为半小时，那么定时时间为2021年9月10日16:31，在达到该定时时间时，医生终端和用户终端输出提示消息。

步骤S212，确定达到所述第一预约时间时，医生终端和用户终端响应于针对所述入口链接的触发操作，呈现音视频通话界面。

针对入口链接的触发操作可以是点击入口链接的操作，响应于该操作在用户终端和医生终端都会呈现音视频通话界面。

步骤S213，用户终端启动图像采集装置和语音采集装置，获取所述图像采集装置采集到的第一图像数据和所述语音采集装置采集到的第一语音数据。

该图像采集装置可以是摄像头，默认为前置摄像头，语音采集装置可以为麦克风。

步骤S214，医生终端启动图像采集装置和语音采集装置，获取所述图像采集装置采集到的第二图像数据和所述语音采集装置采集到的第二语音数据。

步骤S215，用户终端将第一图像数据和第一语音数据发送至医生终端。

在实现时，用户终端是首先将第一图像数据和第一语音数据发送至服务器，再由服务器将第一图像数据和第一语音数据发送至医生终端。

步骤S216，医生终端将第二图像数据和第二语音数据发送至用户终端。

在实现时，医生终端是首先将第二图像数据和第二语音数据发送至服务器，再由服务器将第二图像数据和第二语音数据发送至用户终端。

步骤S217，用户终端在所述音视频通话界面呈现所述第一图像数据和第二图像数据，并播放第二语音数据。

步骤S218，医生终端在音视频通话界面呈现第一图像数据和第二图像数据，并播放第一语音数据。

通过上述步骤S213至步骤S218，即可实现医生与患者的远程问诊，例如医生可以询问患者的情况以及存在的不适，也可以对患者进行实时的进行言语康复。医生可以进行相关字的朗读，比如“衣”等；用户通过屏幕中传来的音画同步的口形和声音，进行模仿等等。

步骤S219，当需要对助听设备进行参数调整时，用户终端响应于设备连接操作，建立用户终端与所述助听设备的通信连接，并呈现所述助听设备的设置界面。

在实现时，设备连接操作可以是将助听设备通过有线连接的方式插入用户终端的外接设备端口，还可以是将助听设备通过无线连接方式及用户终端建立通信连接的操作。

当确定用户终端与助听设备建立通信连接后，呈现助听设备的设置界面。该设置界面中可以呈现有可设置的参数，以及可设置的参数的当前参数值。

步骤S220，用户终端基于从医生客户端获取到的调整信息，确定调整参数和所述调整参数的目标值。

这里，用户终端可以在于医生终端的实时音视频通话中，基于医生发送过来的语音获取到调整信息，从而确定调整参数和调整参数的目标值。

步骤S221，用户终端通过所述设置界面，接收对所述调整参数的调整操作，以将所述调整参数调整至所述目标值。

在实际实现时，该调整操作可以是用户在用户终端触发的，在一些实施例中，如果用户觉着自身进行设备调整有困难时，可以与专业的调机师一同与医生进行音视频通话，由调机师基于获取到的调整信息，触发调整操作，从而将调整参数调整至目标值。

在本申请实施例提供的听觉辅助方法中，用户终端响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，该听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口，当用户想要进行远程问诊时，可以针对第一功能入口触发点击或触控操作，响应于该点击或触控操作，呈现医生信息展示界面，通过该医生信息展示界面可以选择目标医生信息以及第一预约时间，在接收到预约操作指令后，通过服务器向医生客户端发送远程问诊请求，该远程问诊请求包括第一预约时间和进行实时音视频通话的入口链接，医生终端在接收到远程问诊请求之后，如果接受该远程问诊请求可以向服务器返回第三远程问诊响应，以使得服务器更新医生的可预约时间信息；医生客户端和用户终端在达到第一预约时间时通过入口链接进行实时的音视频通话，从而实现远程问诊，不仅能够减少用户进行问诊时的时间成本和交通成本，还能够提高问诊效率；另外通过问诊确定需要对用户的助听设备进行调试时，可以通过实时音视频通话获取医生给出的调整信息，从而确定调整参数和该调整参数的目标值，基于该调整信息触发调整操作，最终将该调整参数调整至目标值，进而提高助听设备对用户的适合程度，提高助听设备对用户的听觉感受。

在一些实施例中，可以在需要对助听设备进行参数调整时，除了上述的步骤S220和步骤S221实现之外，还可以有以下两种实现方式：

第一、由医生通过远程控制用户终端，以对助听设备的参数进行调整。

第二、用户远程接入专业调机师，由调机师基于医生给出的参数进行调整。

第一种方式可以通过以下步骤实现：

步骤S231，用户终端接收所述医生客户端发送的远程控制请求。

该远程控制请求用于请求对用户终端进行远程控制，在本申请实施例中，为了保证用户的信息安全，医生终端仅能在用户的听觉辅助客户端内对用户终端进行远程控制，并不能执行其他的操作。

步骤S232，用户终端响应于所述远程控制请求，呈现第一远程控制提示信息。

该第一远程控制提示信息用于提醒用户医生将要远程控制其终端，在呈现该第一远程控制提示信息时，可以呈现有“接受远程控制”的选择控件以及“拒绝远程控制”的选择控件。

步骤S233，当用户终端接收到针对所述第一远程控制提示信息的正向反馈指令，向所述医生客户端发送允许远程控制的响应消息，以使得所述医生终端通过远程控制对所述助听设备的参数进行调整。

如果用户终端接收到针对“接受远程控制”的点击或触控操作，或者接收到接受远程控制的语音指令时，确定接收到针对所述第一远程控制提示信息的正向反馈指令，此时向所述医生客户端发送允许远程控制的响应消息。

步骤S234，医生终端呈现助听设备的设置界面，并根据通过该设置界面接收到的设置操作，对该助听设备的参数进行调整。

医生终端在获取到对用户终端的远程控制权限后，会呈现助听设备的设置界面，医生通过该设置界面，对该助听设备的参数进行调整，从而将需要调整的参数调整至目标值。

通过上述的步骤S231至步骤S234，在用户的助听设备需要进行参数调整或调试时，医生终端可以发出远程控制请求，从而在用户终端同意进行远程控制后，由医生通过远程控制，对助听设备进行调试，从而保证设备调试的准确性，并且能够免去用户的时间成本和交通成本，提高调试效率。

第二种实现方式可以通过以下步骤实现：

步骤S241，用户终端响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标调试人员。

在本申请实施例中，用户在请求远程问诊时，如果自身需要进行助听设备的调试，那么不仅可以通过医生信息展示界面选择就诊医生，还可以选择助听设备的调试人员，以由选择出的目标调试人员对助听设备进行调试。

步骤S242，用户终端响应于接收到的预约操作指令，向调机客户端发送调机请求。

所述调机请求中携带有所述第一预约时间和进行实时音视频通话的入口链接。在实现时，调机请求是经由服务器发送至调机客户端的。在一些实施例中，服务器在接收到调机请求后，获取为用户分配的入口链接，并将携带有第一预约时间和入口连接的调机请求发送至调机客户端，也即调机终端。

步骤S243，在达到所述第一预约时间开始实时音视频通话，且所述用户终端与所述助听设备建立通信连接后，用户终端接收所述调机客户端发送的第二远程控制请求。

在一些实施例中，在用户在与医生、调机人员进行音视频通话过程中，进展到设备调试阶段是，调机客户端可以向用户终端发起第二远程控制请求，在一些实施例中，该第二远程控制请求还可以是由用户终端发起的。

步骤S244，用户终端响应于所述第二远程控制请求，呈现第二远程控制提示信息。

该第二远程控制提示信息用于提醒用户调机员将要远程控制其终端，与第一远程控制提示信息类似，在呈现该第二远程控制提示信息时，可以呈现有“接受远程控制”的选择控件以及“拒绝远程控制”的选择控件。

步骤S245，当接收到针对所述第二远程控制提示信息的正向反馈指令，向所述调机客户端发送允许远程控制的第二响应消息，以使得所述调机终端基于所述医生终端的调整指令通过远程控制对所述助听设备的参数进行调整。

如果用户终端接收到针对“接受远程控制”的点击或触控操作，或者接收到接受远程控制的语音指令时，确定接收到针对所述第二远程控制提示信息的正向反馈指令，此时向所述调机客户端发送允许远程控制的响应消息。

步骤S246，调机终端呈现助听设备的设置界面，并根据通过该设置界面接收到的设置操作，对该助听设备的参数进行调整。

调机终端在获取到对用户终端的远程控制权限后，会呈现助听设备的设置界面，调机人员通过该设置界面，按照医生的指示对该助听设备的参数进行调整，从而将需要调整的参数调整至目标值。

在一些实施例中，在步骤S208医生终端呈现远程问诊请求界面之后，医生如果因为个人原因不能在第一预约时间接诊时，可以通过以下步骤拒绝该远程问诊请求，并且更新预约时间，下面结合各步骤对该场景进行说明。

步骤S301，医生终端接收到拒绝该远程问诊请求的操作时，呈现预约时间修改界面。

在该步骤中，如果医生因为自身的原因，不能在第一预约时间为该请求远程问诊的用户提供问诊服务时，可以拒绝该远程问诊请求，在接收到拒绝该远程问诊请求的操作时会呈现预约时间修改界面，在该语音时间修改界面中可以呈现有该医生的其他可预约时间，在一些实施例中，也可以支持医生自行输入可预约时间。

步骤S302，医生终端基于通过该预约时间修改界面接收到的修改操作，确定第二预约时间。

该修改操作可以是针对多个可预约时间的选择操作，可以是预约时间的输入操作。

步骤S303，医生终端通过服务器向用户终端发送第一问诊响应。

该第一远程问诊响应表征医生客户端未接受所述远程问诊请求，所述第一远程问诊响应中携带有第二预约时间。

步骤S304，用户终端响应于针对所述第一远程问诊响应的查看操作，呈现远程问诊响应界面，通过所述远程问诊响应界面呈现所述第二预约时间。

在该远程问诊响应界面可以呈现有第二预约时间，还可以呈现有“接受时间修改”的确认控件和“不接受时间修改”的取消控件，当用户确定可以在第二预约时间进行问诊时，可点击该确认控件，从而接受第二预约时间，如果用户不能在第二预约时间进行问诊时，可以点击该取消控件，从而拒绝第二预约时间。

步骤S305，当用户终端通过所述远程问诊响应界面接收到接受所述第二预设时间的触发操作时，通过服务器向所述医生客户端发送第二远程问诊响应。

该第二远程问诊响应用于表征用户接受第二预约时间。在步骤S305之后，可以执行步骤S210以及后续步骤，在实际实现时，可以是将步骤S210及其后续步骤中的第一预约时间修改为第二预约时间即可。

通过上述的步骤S301至步骤S305，在医生接收到用户发出的远程问诊请求时，如果因为自身原因需要修改用户选择的第一预约时间时，可以从其他可预约时间中进行重选，也支持医生自行输入合适的时间，在医生确定出第二预约时间后，经由服务器向用户终端发送第一远程问诊响应，以通知用户医生修改了预约时间，当用户终端接收到第一远程问诊响应，接受医生修改的第二预约时间时，可以向医生终端返回第二远程问诊响应，通知医生用户已接受第二预约时间，在后续过程中，医生和用户在第二预设时间通过进行实时音视频通话的入口链接进行远程问诊及设备调试，从而提高了远程问诊时间的灵活性和自由性。

基于上述实施例，本申请实施例再提供一种听觉辅助方法，应用于用户终端和服务器，图5为本申请实施例提供的一种听觉辅助方法的再一种实现流程示意图，如图5所示，该流程包括：

步骤S401，用户终端响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面。

在该听觉辅助界面至少包括用于远程问诊的第一功能入口和用于近程辅听的第二功能入口。在一些实施例中，该听觉辅助界面还包括用于进行听力测试的第三功能入口。

步骤S402，用户终端响应于针对所述第二功能入口的触发操作，呈现近程辅听界面。

其中，该近程辅听界面呈现有听力配置入口、第一辅听开关控件和第二辅听开关控件。其中，通过听力配置入口可以执行听力测试结果的导入操作；通过第一辅听开关控件可以开启或关闭第一辅听功能。第一辅听功能可以是降噪功能；通过第二辅听开关控件可以开启或关闭第二辅听功能，第二辅听功能可以是个性辅助功能。

步骤S403，用户终端响应于针对所述听力配置入口的触发操作，获取用户听力测试结果。

该听力测试结果可以是通过该听觉辅助客户端测试出的，还可以是用户在专业医疗机构进行听力测试得到的测试结果。该听力测试结果可以包括用户在多个预设频点的听阈值。

步骤S404，用户终端当基于针对所述第一辅听开关的触发操作确定开启第一辅听功能时，对采集到的语音数据进行降噪处理，得到降噪后的语音数据。

在本申请实施例中，可以利用训练好的语音增强模块对采集到的语音数据进行降噪处理，从而得到降噪后的语音数据，从而达到语音增加的效果。

该训练好的语音增强模型可以是一个通用的神经网络模型，在一些实施例中，该训练好的语音增强模型还可以是基于用户当前所在的实际场景确定出的，从而能够保证该训练好的语音增强模型对用户环境和场景的自适应性，提高语音增强的鲁棒性。

步骤S405，当基于针对所述第二辅听开关的触发操作确定开启第二辅听功能时，基于所述听力测试结果对所述降噪后的语音数据进行均衡处理，得到目标语音数据。

步骤S405在实现时，可以首先基于采集到的语音数据确定声压级，并基于所述用户听力测试结果确定各个频带对应的听阈值；从而利用声压级和各个频带对应的听阈值确定出各个频带的增益，利用各个频带的增益确定出均衡滤波器的参数，最后利用该均衡滤波器对降噪后的语音数据进行个性化均衡，得到目标语音数据。

由于增益信息是基于当前采集到语音的声压级和用户的个性化听力测试结果确定出来的，因此进行利用该增益确定出的均衡滤波器参数是与用户存在听损的频带对应的，从而能够很好的补偿用户听损部分，从而保证目标语言数据的听觉体验。

步骤S406，输出所述目标语音数据。

用户终端输出该目标语音数据可以是通过用户终端自身的语音输出装置输出目标语言数据，也可以是将目标语言数据发送至与用户终端建立有通信连接的助听设备上，该助听设备可以穿戴于用户的耳部。

在本申请实施例提供的听觉辅助方法中，当用户终端接收到针对听觉辅助客户端的触发操作，响应于该触发操作呈现听觉辅助界面，当通过该听觉辅助界面接收到针对所述第二功能入口的触发操作时，呈现近程辅听界面，并且可以跳过该进程辅听界面导入听力测试结果，打开第一辅听开关和第二辅听开关，使得该用户终端能够对采集到的语音数据进行降噪处理和个性化均衡处理，不仅能够有效提升语音可懂度，还能够有效抑制环境噪声，提升听觉体验。

在一些实施例中，上述步骤S404中的“对采集到的语音数据进行降噪处理，得到降噪后的语音数据”可以通过下述的步骤S4041至步骤S404：

步骤S4041，对采集到的语音数据进行频域转换，得到频域语音数据，获取所述频域语音数据的相位信息和幅度信息。

在该步骤中，首先对采集到的语音数据进行采样，得到多个采样点，然后再进行分帧处理，例如可以按照10000赫兹(Hz，Hertz)的采样频率进行采样，按照20ms进行分帧，那么得到每一帧有200个采样点。在进行分帧处理之后可以通过傅里叶变换进行时频转换，将时域的语音数据转换到频域，从而得到频域语音数据。例如可以利用快速傅里叶变换或者利用短时傅里叶变换对各个时域帧进行时频转换，从而得到各帧对应的频域语音数据。

获取所述频域语音数据的相位信息和幅度信息，在实现时是分别获取各个帧的相位信息和幅度信息。

步骤S4042，获取训练好的语音增强模型，将所述幅度信息输入所述训练好的语音增强模型，得到增益信息。

该训练好的语音增强模型可以是适用于各种场景的神经网络模型，还可以是基于识别出的场景信息匹配出的个性化的神经网络模型。

在实现时可以是将各个帧的幅度信息输入训练好的语音增强模型，从而得到各个帧的增益信息。在一些实施例中，考虑到语音的相关性，可以将历史帧的幅度信息和当前帧的幅度信息拼接成一个长的幅度信息，获得更好的预测效果。例如在计算第n帧的增益时，可以是将第n-2帧、第n-1帧和第n帧的幅度信息进行拼接，将拼接后的向量输入训练好的语音增强模型，得到第n帧的增益。

步骤S4043，基于所述幅度信息和所述增益信息，确定降噪后的幅度信息。

由于幅度信息和增益信息均为向量，且维度相同，因此该步骤在实现时，可以是将各帧的幅度信息和对应的增益信息进行点乘，从而得到降噪后的幅度信息。

步骤S4044，基于所述降噪后的幅度信息和所述相位信息，确定降噪后的频域语音数据。

在确定出降噪后的幅度信息和相位之后，即可确定出降噪后的频域语音数据。

步骤S4045，对所述降噪后的频域语音数据进行时域转换，得到降噪后的语音数据。

该步骤在实现时，通过逆傅里叶变换，将降噪后的频域语音数据进行转换，得到降噪后的语音数据。

在上述步骤S4041至步骤S4045中，是利用训练好的语音增强模型对采集到的语音数据进行降噪处理，相比于传统的降噪算法，计算效率更好，且降噪效果更好，通过AI语音增强后会滤除掉环境杂音，语音信号会听得更干净。因此，用户在噪声环境下，能够听到更为清晰的语音。

在一些实施例中，在步骤S4042之前，还可以通过下述的步骤S501至步骤S502基于采集到的语音数据进行场景识别，以下结合各步骤进行说明。

步骤S501，提取所述采集到的语音数据的语音特征。

该步骤在实现时，可以首先对采集到的语音数据进行采样和分帧处理，从而得到多个时域帧信号，然后对各个时域帧信号进行傅里叶变换，得到频域信息，继而根据频域信号S(ω)可以计算得到语音信号的梅尔频率倒谱系数(MF CC，Mel-frequency cepstralcoefficients)特征，MFCC计算过程包括梅尔滤波器组滤波、计算功率谱以及离散傅里叶变换等过程。

步骤S502，将所述语音特征输入训练好的场景识别模型，得到识别出的场景信息。

该场景识别模型为神经网络模型，例如可以是卷积神经网络模型、循环神经网络模型。该场景识别模型可以包括卷积层、池化层、长短期记忆(LSTM，Long Short-TermMemory)层以及全连接层。在本申请实施例中不对语音增强模型的层数以及各层参数进行限制，但是考虑到计算资源，采用3层卷积层与3层池化层，LSTM与全连接各一层。

在本申请实施例中，识别出的场景信息可以是室外环境、办公室、餐厅、家居环境四种类别中的一种，每个场景类别可分别对应不同的降噪策略，例如可以对应有不同的语音增强模型。这里不同的语音增强模型可以是模型结构是相同的，但是模型系数是不同的。在一些实施例中，将语音特征输入训练好的场景识别模型，还可以得到环境声压结果，环境声压结果分为相对安静与相对嘈杂两种类别，分别表示该环境是否符合测听对环境的要求。

对应地，在通过上述的步骤S501至步骤S502确定出场景信息之后，上述步骤S402中的“获取训练好的的语音增强模型”在实现时可以是：基于所述场景信息，获取所述场景信息对应的训练好的语音增强模型。也就是说，在识别出场景信息后，可以基于识别出的场景信息得到与场景更加匹配的语音增强模型，从而提高降噪效果。

在一些实施例中，如果训练好的语音增强模型是通用的，那么在识别出场景信息之后，还可以通过识别出的场景信息对语音增强模型输出的增益进行调整，例如可以是基于识别出的场景信息确定出该场景信息对应的权重，然后将语音增强模型计算出的增益乘以该权重，得到最终的增益。如果识别的声音场景为室内场景，信噪比比较高，则该场景信息对应的权值可以是一个小于1数比如可以是0.8，此时将语音增强模型输出的增益乘以该权值得到最终的增益，从而使得在高信噪比时语音增强处理策略缓和一点，避免削语音。

在一些实施例中，上述步骤S405中的“基于所述听力测试结果对所述降噪后的语音数据进行均衡处理，得到目标语音数据”可以通过下述步骤实现：

步骤S4051，基于采集到的语音数据确定声压级，并基于所述用户听力测试结果确定各个频带对应的听阈值。

该步骤在实现时，同样需要先对采集到的语音数据进行采样处理和分帧处理，得到多个帧的语音信号，然后对于第n帧语音信号来说，可以是将第n帧和第n-1帧进行拼接，进而将拼接后的语音数据输入声压级计算模块得到第n帧信号的声压级。

步骤S4052，基于所述声压级和所述各个频带对应的听阈值，确定各个频带对应的增益值。

步骤S4052在实现时，首先基于声压级确定增益区间，其中可以包括三个增益区间，分别为低强度声音增益区间、舒适域声音增益区间和高强度声音增益区间，并且每个增益区间对应一个声压级范围，当步骤S4051落入哪个增益区间对应的声压级范围，也就确定出了增益区间。

在本申请实施例中，不同的增益区间在确定增益值时的计算公式也是不同的，实际计算方式可以参考下述实施例中表1。在确定出增益区间后，即可通过该增益区间对应的增益计算公式和各个频带对应的听阈值确定各个频带对应的增益值。

为了保证均衡后的信号强度不会对用户的听力造成进一步损耗，在本申请实施例中，当输入的声压级与增益之和超过痛阈时，会将增益中超过痛阈的部分去除。例如声压级为80dB，增益为15dB，痛阈为90dB，那么80+15>90，因此，此时将增益降低为10dB。

步骤S4053，基于所述各个频带对应的增益值确定均衡滤波器的参数。

在本申请实施例中，采用“反向”滤波器参数计算的方式，先确定高频子带对应的滤波器参数，然后根据滤波之后的频响特性去计算低频子带的增益，逐级得到滤波器参数。

步骤S4054，利用所述均衡滤波器对所述降噪后的语音数据进行滤波处理，得到滤波后的语音数据。

在实现时，将待处理的语音信号从低频到高频依次经过多个滤波器，进行滤波处理，得到滤波后的语音数据。

步骤S4055，对所述滤波后的语音数据进行动态范围控制，得到目标语言数据。

动态范围控制(DRC，Dynamic Range Control)，是将输入音频信号的动态范围映射到指定的动态范围。通常映射后的动态范围小于映射前的动态范围，因此称之为动态范围压缩。音频信号可以进行整体的动态范围控制；也可以划分为若干子带分别进行动态范围控制。

通过上述步骤S4051至步骤S4055，能够通过环境的声压级和各个频带对应的听阈值确定出各个频带的增益，再基于所述各个频带对应的增益值确定均衡滤波器的参数，从而利用均衡滤波器，对输入的语音数据进行滤波，本申请实施例在确定均衡滤波器的参数时，是按照从高频子带到低频子带反向的方式计算的，能够更逼近期望的频响曲线，提高滤波器参数的准确性，并且为了防止输出信号出现“削波”现象，影响听感，在该步骤中，通过对滤波后的语音数据进行动态范围控制，保证音频信号完整性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供的听力数据处理方法，集成了近程辅听和远程康复方案。其中，远程康复定义为通过建立实时音视频通话，通过远程方式，医生和用户进行实时双向交流；其中，康复包括医生指导用户进行设备的调试(比如根据用户最新的听力状态，对内部参数进行调整，提升助听效果)、医生对用户进行相关的听力康复、言语指导。在本申请实施例中，将上述或相似功能统称为“远程康复”。

本申请实施例提供的听力测试处理方法至少可应用于近程辅听和远程康复两种场景。在实际应用中，近程辅听场景可以包括：

一、在室内或者室外场景，用户手持手机，朝向对面的说话人；打开App中的近程辅听，可以更好地进行面对面沟通。

二、用户可以将手机放在电视机或者收音机的音箱边，打开近程辅听，通过蓝牙或者有线连接，可以更好收听收看新闻等。

远程康复的应用场景可以包括：

一、进行言语康复。医生可以进行相关字的朗读，比如“衣”等；用户通过屏幕中传来的音画同步的口形和声音，进行模仿。通过远程康复平台，可以建立类似于面对面教学的效果。

二、远程调机。调机，就是将助听器或者人工耳蜗设备，连接电脑；调用设备制造厂提供的专业软件(调机软件)，调整助听器或者人工耳蜗的内部参数。在调机之前，需要由医生确认当前用户的听力状态，确定调机策略。一般地，调机这种专业性比较强的操作，用户没法单独实现；当前解方案需要调机师在用户身边，辅助调机。

本申请实施例提供三种远程调机的方案：

方案1、调机师在用户身边。通过本申请实施例提供的远程音视频通话系统，医生远程告知调机师的调机配置。调机师通过上述调机软件完成调机。

方案2、医生和调机师都接入远程音视频通话系统，医生通过该音视频通话系统告知调机师的调机配置，调机师通过音视频通话系统自带的远程桌面控制模块，访问用户侧的电脑，直接远程操作上述调机软件完成调机。

方案3、无需调机师帮助。通过本申请实施例提供的远程音视频通话系统，医生通过音视频通话系统自带的远程桌面控制模块，访问用户侧的电脑。医生直接远程操作上述调机软件完成调机。

图6A为本申请实施例提供的近程辅听加远程康复App的界面示意图，如图6A所示，按功能划分，App首页至少包含“近程辅听”601和“远程康复”602两个功能按钮。图6B为本申请实施例提供的近程辅听加远程康复App的另一个界面示意图，如图6B所示，单独添加一个“个性化测听”603功能按钮，方便用户高频次使用测听功能，获得最新的听力状态。

如果用户点击图6A或者图6B中的“近程辅听”601的功能按钮之后，系统会自动加载最新的个性化听力状态、或者用户自行选择任意个性化听力状态(比如，从专业医学机构获得的精确测量结果)，此时可以呈现如图7A所示的界面。在图7A中，包括听力配置按钮701、第一辅听开关按钮702和第二辅听开关按钮703，其中，通过听力配置按钮可以选择纯音听力图，该纯音听力图可以是通过该App中的“个性化测听”功能测试获得的，还可以是用户从专业医学机构获得并上传的精确测量结果。第一辅听开关对应AI降噪开/关(On/Off)；第二辅听开关表示个性化均衡On/Off。

如果用户觉得所处环境比较吵，可以点击第一辅听开关702的功能按钮，从而实现降噪功能。当用户通过点击第二辅听开关703开启第二辅听开关时，后台通过计算，可以获得当前的个性化均衡的参数，完成第二辅听功能。

在开启第一辅听功能后，用户可以选择两种或者两种以上的降噪模式。所述两种或者两种以上降噪模式，包括但不限于：降噪的强弱、户外或者室内降噪等。根据设置的降噪模式，后台调用不同降噪策略。在本申请实施例中，还可以前置一个声音场景识别模块，用于检测当前所处的环境或者环境噪声大小；将判决结果传给降噪模块，配置降噪算法的参数。

如果用户点击图6A或者图6B中的“远程康复”602的功能按钮之后，可以通过选择专家、选择专家可提供服务时间、选择支付、最终确认、呈现回执五个步骤，其中图7B为选择专家的界面示意图，该界面中可以呈现有多个医生信息，通过该界面用户可以选择需要咨询的医生。

在一些实施例中，该用户在选择好医生并完成支付后，将通过App集成的音视频会议系统，为用户分配一个预约的会议号；在预约的时间，进入会议系统，获得远程康复服务。

如果用户点击图6B中的“个性化测听”603功能按钮后，可以呈现图7C所示的界面，通过该界面中的当前测试耳721可以确定当前测听的是左耳还是右耳。在展示框722中显示当前的频率，可以是125Hz、250Hz、500Hz、1000Hz、2000Hz、4000Hz、8000Hz中的一个。测试进度可以是滚动条。当前音量显示723，会根据用户反馈上一轮的可感知和不可感知结论，进行图形化表示。在如图7C所示的界面中，当用户能够听到当前声压级的纯音时可以点击或触控可感知控件724；当用户听不到当前声压级的纯音时可以点击或触控不可感知控件725。

以下为本申请实施例提供的听力测试处理方法的技术实现过程进行说明，该听力测试处理方法包括个性化听力测试、近程辅听和远程康复三个部分。

个性化听力测试是指基于用户经常使用的移动便携设备，如：手机、平板电脑等，进行分频段听力测试，来获得用户的个性化听力曲线图，该个性化听力曲线图也称之为个性化听力状态。其中基于用户经常使用的设备进行测试的目的是保证测听和辅听的一致性。

在本申请实施例中设定以下常量：语音信号采样率为16000Hz；帧长为20毫秒(ms，millisecond)，即每帧样本数为320点；如果使用交叠时频变换，比如短时傅里叶变换(STFT，Short-Term Fourier Transform)，均为50％交叠；因此，两个相邻窗口之间错开的样本数(Hop-size)320点，执行640点离散傅里叶变换。

图8A为本申请实施例提供的个性化听力测试实现流程示意图，如图8A所示，该流程包括：

步骤S801，测前准备；

步骤S802，测听；

步骤S803，结果展示与记录。

如图8A所示，上述步骤S801在实现时，包括环境声检测、设备音量调节和佩戴耳机三个步骤。测前准备是为了尽量保证听力测试的准确性。专业级的气导纯音测听对测试环境以及测试设备的要求比较严格，但是本申请实施例的目标场景是常规设备以及日常环境，所以通过耳机播放的方式在一定程度上降低对环境的要求。

图8B为本申请实施例提供的纯音听力测试结果示意图。其中，横轴表示频率，包括了纯音听力测试的250-8000Hz共6个特定频率；纵轴是用户的听力阈值。从图8B可以看出，该测试结果中右耳在4000Hz和8000Hz的听力阈值比较大，因此有一定的听损问题。

在本申请实施例中，当一定时间内环境的平均声压级小于第一声压级阈值时，认为符合环境测试要求。在实现时，可以设置第一声压级阈值为40dB。

在本申请实施例中，环境声检测可以通过基于深度学习的声音场景识别实现。声音场景识别，是通过深度学习网络，对当前所属的声学环境进行识别和分类(这里的深度学习网络是一个分类器)。比如，输出当前环境是室内还是室外等。因此，环境声检测，除了输出当前环境声压级判断是否符合测试要求外，还会输出场景识别结果。

图9为本申请实施例提供的声音场景识别流程示意图，如图9所示，该流程包括：

步骤S901，特征提取。

音频信号具有多种特征，如频谱、相位、线性预测编码(LPC，Linear Pre dictiveCoding)系数以及梅尔倒谱MFCC等，不同的特征适用于不同的任务目标，特征提取也是影响模型性能的重要因素之一。在本申请实施例中，可以提取上述各个特征的一个或多个进行组合。

步骤S902，网络预测。

在该步骤中，将提取到的特征输入到场景识别模块，从而来识别音频场景。如图9所示，该场景识别模块包括卷积层、池化层、LSTM层以及全连接层，其中卷积层的目标是学习特征之间的互相关性并映射到高维空间；卷积层一般搭配池化层使用，池化层可以有效的缩小参数矩阵的尺寸，从而减少最后连接层的中的参数数量。加入池化层可以加快计算速度和防止过拟合的作用；并且引入LSTM层的目的是学习音频信号的帧间特征，可以对不同音频场景对应的音频结构特征进行区分，提升识别准确率；最后以全连接层作为输出层，识别结果。

步骤S903，识别输出。

即输出网络预测的结果。该结果将会参与到AI降噪模块中的模式选择以及降噪的程度，在不同的声音场景下都可以提供专业的降噪能力。

图10为本申请实施例提供的声音场景识别的另一种实现流程示意图，如图10所示包括以下步骤：

步骤S1001，将时域语音进行时频转换。

其中，s(n)表示第n帧时域语音信号。本申请实施例中，可以采用STFT进行视频转换，并且STFT采用50％overlap的方式，s(n)与s(n-1)拼成640点序列，调用STFT后，可以获得频域表示，S(ω)。考虑频域内的对称特点，只需取前321点。

步骤S1002，确定语音信号的MFCC特征。

根据频域信号S(ω)可以计算得到语音信号的MFCC特征，MFCC计算过程包括梅尔滤波器组滤波、计算功率谱以及DCT等过程。

步骤S1003，将得到的MFCC特征输入N帧特征缓存器。

N为大于1的整数。在实现时，通过步骤S1002得到当前帧的MFCC系数M(ω′)后，输入特征缓存器，与前面(N-1)帧的MFCC系数一起组成N维的MFCC特征。需要说明的是，本申请实施例用N帧特征作为输入是希望利用LSTM网络来学习到信号的帧间特性，提升识别准确率。另外，本申请实施例不对N的值进行限制，但是考虑到计算资源，N值可以设为30。

步骤S1004，将N帧特征输入场景识别模块。

场景识别模块根据输入的N维特征输出环境声压结果以及场景识别结果。考虑到本申请实施例的应用场景，环境声压结果分为相对安静与相对嘈杂两种类别，分别表示该环境是否符合测听对环境的要求；场景识别结果可以分为室外环境、办公室、餐厅、家居环境四种类别，四种类别可分别对应不同的降噪策略。另外，场景识别模块包含卷积层、池化层、LSTM层以及全连接层。本申请实施例不对网络模型的层数以及各层参数进行限制，但是考虑到计算资源，本申请实施例推荐采用3层卷积层与3层池化层，LSTM与全连接各一层；卷积层为32通道，卷积核为3*3；池化层采用最大池化(max pooling)，filter为2*2，步长为2；LSTM隐藏节点数为256；全连接输出维度为3，第一维为环境声压级，后两维为场景识别结果。

上述步骤S802“测听”，在实现时采用分频段式上升法对各个频段的听力进行测试。其中根据人耳对不同频率的响应特性，将频率范围划分为6个子带，中心频率分别为250Hz、500Hz、1000Hz、2000Hz、4000Hz，以及8000Hz。

本申请实施例中测听是利用简化的上升法分别对左、右的每个频带进行听力测试，即共计12组测试。完整的上升法需要受试者在同一声压级下做出5次反应，测试双耳完整的听力图耗时较长，因此本申请实施例的听力测试方法对上升法进行了简化来满足一般性用户的需求。图11为本申请实施例提供的简化上升法进行测听的实现流程示意图，如图11所示，该流程包括：

步骤S1101，将预置的第一声压级确定为初始声压。

承接上述举例，第一声压级为40dB，在该步骤中设置初始声压为40dB。

步骤S1102，输出初始声压对应的测试音。

步骤S1103，确定受试者是否听到测试音。

这里，当确定接收到针对App界面上的“可感知”控件的触发操作时，确定受试者能够听到测试音，此时进入步骤S1104；如果没有接收到针对App界面上的“可感知”控件的触发操作，或者如果接收到针对“不可感知”控件的触发操作时，确定受试者未听到测试音，此时进入步骤S1105。

步骤S1104，将初始声压降低10dB。

步骤S1105，将初始声压提高5dB。

步骤S1106，确定该声压级是否为第二次听到。

如果该声压级为第二次听到，进入步骤S1107；如果该声压级不是第二次听到，返回步骤S1105。

步骤S1107，记录当前频带听力阈值。

步骤S1108，进行下一个频带的测听。

也就是说，简化上升法是在每一组测听中，将测试音以预置的第一声压级给受试者，如受试者选择“不可感知”，则将测试声压加大5dB；如果用户选择“可感知”，则将测试声压降低10dB，如此反复，当用户在某一声压级下第二次选择“可感知”时，则记录当前声压级为当前受试耳在当前频段的听力值，然后跳转到下一组测试，直至完成双耳共计12组测试。

上述步骤S803“结果展示与记录”在实现时，是根据步骤S802测得的完整的听力图进行展示，画出全频带内的听力曲线。并会根据当前听力曲线，判断出该受试者的听力是否有损，并给出建议。另外，也会将当次测试的完整结果进行保存，用于制定个性化辅听方案。

所述个性化辅听是指根据用户的个性化听力状态制定个性化的均衡方案，并结合语音增强提供专业级的辅听效果。在实现时，是先进行语音增强，去除输入信号中的噪声部分；接下来，调用个性化的均衡方案，针对个性化听损状态，进一步提升听感。

在相关技术中基于信号处理的语音增加方法，比如谱减法，首先对信号进行分析，估计出噪声的能量；然后基于信号可加性，将估计出的噪声部分，从原始输入中去除，达到降噪的目的。这种方案虽然简单，但并不能处理复杂的噪声类型，比如键盘等瞬态噪声或者风噪等户外噪声。近年来，随着基于深度学习技术的发展，基于深度学习的AI语音增强更为流行和有效。因此，在本申请实施例中采用AI语音增强的方法，图12为本申请实施例提供的AI语音增强的实现示意图，如图12所示，该流程包括：

步骤S1201，对输入信号进行时频变换(比如STFT短时傅立叶变换)，获得带噪语谱信息。

步骤S1202，将带噪语谱输入一个特定的谱回归网络。

该谱回归网络包括但不限于多层的前向反馈(Feedforward网络)、多层LS TM、多层CNN等网络类型，或者上述网络类型的组合。谱回归网络输出一组增益G，对应于带噪语谱每一个频点的增益值。

步骤S1203，将G作用于带噪频谱，获得增强后的语谱。

步骤S1204，将增强后的语谱通过逆傅里叶变换到时域，输出增强后的语音信号。

本申请实施例不对特定的AI语音增强方案的实施做限制。通过AI语音增强后，语音信号会听得更干净。因此，用户在噪声环境下，通过语音增强可以听到更为清晰的语音。

图13为本申请实施例提供的AI语音增加的另一种实现流程示意图，如图13所示，该流程包括：

步骤S1301，将语音信号进行时域转换。

其中，s(n)表示第n帧的时域信号。在图13中以通过STFT进行时域转换为例示出。根据STFT特点，s(n)与s(n-1)拼成640点序列，调用STFT后，可以获得频域表示S(n)。考虑DFT特点，只需取前321点。

步骤S1302，基于S(n)确定幅度谱|S(n)|。

步骤S1303，基于S(n)确定相位谱P(n)。

步骤S1304，将|S(n)|输入第一增强模型，预测用于语音增强的增益值G(n)。

在本申请实施例中，考虑到|S(n)|是1*321维，第一增强神经网络模型输出G(n)也是1*321维。第一增强神经网络模型可以是卷积神经网络(CNN，Conv olutional NeuralNetwork)、LSTM、多层感知器(MLP，Multilayer Perceptron)等。本申请实施例建议采用4个隐层的前馈网络，每一层的隐层节点数均为1024点。然而，本申请实施例并不限制具体的网络算子或者每一层的节点数量。

步骤S1305，将增益G(n)输入增益处理模块，进行增益处理。

该步骤在实现时，将G(n)与|S(n)|按点做乘法，获得增强的幅度谱|S_e(n)|。

步骤S1306，基于增强的幅度谱|S_e(n)|和输入信号的相位谱，进行STFT逆变换，得到增强后的时域信号。

该步骤在实现时，首先基于输入信号的相位谱和增强的幅度谱，确定增强后的快速傅里叶变换(FFT，Fast Fourier Transform)系数；然后调用iSTFT得到增强后的时域信号。

在本申请实施例中，可以结合声音场景识别方案，从而进一步提升AI语音增强的效果。在实现时可以是根据声音场景的识别结果，对AI语音增强的策略进行细化。比如，如果识别的声音场景信噪比比较高，则可以将G值乘以一个小于1的数(比如，乘以0.8)；如此，在进行语音增强时在高信噪比时处理策略缓和一点，避免削语音。另一种实现方法，可以是针对声音场景识别结果，不同场景调用不同模型进行语音增强处理；这样，AI语音增强算法会根据场景，选择更匹配的数据训练出的模型，效果更好。

个性化的均衡方案是指根据用户的个性化听力状态来计算每个频段的增益，通过对每个频带的差异化增益来补偿用户在全频带范围内的听力损失，提高用户对听损频带的感知能力，进而可以提升用户对语音的可懂度，满足日常交流的需求。

图14为本申请实施例提供的个性化均衡的实现流程示意图，如图14所示，该流程包括：

步骤S1401，声压级计算。

在实现时，可以将第n帧的时域信号s(n)与s(n-1)拼成640维一起参与处理，将s(n)与s(n-1)输入声压级计算模块，通过公式(1-1)得到当前帧信号的声压级：

步骤S1402，基于声压级和个性化听力状态进行增益计算。

在该步骤中，可以首先加载用户纯音听力图，该纯音听力图可以是通过上述个性化听力测试所测得的结果，还可以是导入从第三方获得个性化听力状态(比如，从专业机构获得精确纯音听力图)。进而利用表1所示的增益计算公式确定增益值。

表1、增益计算公式

其中，TH表示各个频段对应的听阈值，G为计算得到的增益。

该步骤在实现时，根据步骤S1401得到的声压级确认声音强度，再基于声音强度确定表1公式的增益区间；在本申请实施例中，声压级在40dB SPL以下时为低强度声音；40dB至65dB SPL为舒适域声音；65dB至90dB SPL为高强度声音。

举例来说，通过公式(1-1)确定出声压级为60dB，左耳对应于6个频带的听阈值为pta_L＝[30 35 35 40 45 45]；首先，根据声压级确定增益区间，60dB的输入声压级对应的是舒适域声音，然后根据每个频带的听阈值和表1计算增益。此处以第1个频带为例，听阈值为30dB，则对应于舒适阈声音增益的公式(2)，代入计算得g[1]＝0.6×(30-20)＝6dB；依次计算其余5个子带的增益值分别得到g[2]＝9dB、g[3]＝9dB、g[4]＝12dB、g[5]＝15dB、g[16]＝15dB。

需要说明的是，本申请实施例中为了保证均衡后的信号强度不会对用户的听力造成进一步损耗，当输入声压与增益之和超过痛阈时，会将增益中超过痛阈的部分去除。

步骤S1403，根据增益进行均衡滤波器参数计算。

在该步骤中，将计算得到的6个子带增益值带入滤波器计算函数得到均衡滤波器组系数；其中，滤波器组是利用搁架滤波器(shelving filters)和峰值滤波器(peakingfilters)组成的，搁架滤波器又包括高架滤波器(high shelf filt er)和低架滤波器(lowshelf filter)，这三种滤波器的作用分别如下：

low shelf filter：高频部分直通，低频部分可调，可用于调节低频子带的增益。

high shelf filter：低频部分直通，高频部分可调，可用于调节高频子带的增益。

peaking filter：拉高中心频率响应，位于low shelf filter和high shelf filter之间，用于调节中间子带增益。

在本申请实施例中，根据增益进行均衡滤波器参数计算时，采用“反向”计算方式来逼近期望响应曲线。即首先根据g[6]来计算high shelf filter的参数，然后根据期望增益g[5]与该滤波器在第5个频带处的频率响应h_6[5]的差值g^'[5]来计算第5个频带滤波器的参数；以此类推即可得到整个滤波器组的参数。

与直接单独计算滤波器参数的方法相比，本申请实施例采用的“反向”计算方式可以更逼近期望的频响曲线。图15A为直接计算滤波器参数得到的滤波器组频率响应曲线示意图，图15B为反向计算滤波器参数得到的滤波器组频率响应曲线示意图，图15A中的虚线圆圈与×号分别为对应子带的期望增益，通过图15A和图15B可以看出，采用“反向”计算方式确定的滤波器组参数，在目标频带处的增益更接近期望值。

步骤S1404，语音信号均衡。

在该步骤中，将输入语音信号从低频到高频依次经过6个滤波器的处理，即可得到个性化均衡后的语音信号s'(n)。

步骤S1405，动态范围控制。

最后为了防止输出信号出现“削波”现象，影响听感，本申请实施例在均衡输出之后，通过增加动态范围控制模块来保护音频信号完整性。

在实际操作过程中，建议先进行AI语音增强，消除环境噪声；然后，调用个性化辅听，提升听感。最后，通过近程辅听处理的信号，通过蓝牙或者有线的方式，与终端设备进行连接。这些终端设备包括但不限于有线耳机、蓝牙耳机、助听器、人工耳蜗等。将近程辅听处理后的信号，传输到用户设备中，获得更好的听感。

在远程康复过程中，基于实时音视频通话建立医生和用户的联系，也即通过视频通话的方式，完成远程康复过程。其中，建立实时音视频通话，可以是通过App集成实时音视频通话的软件开发工具包(SDK，Software Developme nt Kit)或者底层库，还可以是App通过跳转直接到第三方的音视频通话App，本申请实施例对上述实现不做限制。

图16为本申请实施例提供的远程康复的实现流程示意图，如图16所示，该实现流程包括用户侧部分和医生侧部分。一般远程康复是由用户侧开始发起。下面结合图16对用户侧和医生侧的实现过程进行说明。

步骤S1601，基于用户在App中医生界面的选择操作，确定选择出的医生。

步骤S1602，咨询留言。

在实现时，在选择出医生后，可以进行咨询留言的医生，在界面中提供有进行咨询留言的入口控件，当用户点击或者触控该入口控件后，呈现留言界面，通过该留言界面可以输入留言，并点击或触控该留言界面中的“留言”控件后，可以将留言发送至对应的医生。

步骤S1603，预约会议。

步骤S1604，进入会议。

在选择了预约会议后，则可以呈现选择时间段的操作入口，在通过该操作入口接收到触控或点击操作后，显示该医生空闲的时间段供用户选择，用户在选择时间段后，点击确认，会向医生发出会议邀请。此外，本申请实施例不限制用户同时预约多方会议的情况。比如，用户可以同时预约一个听力科医生和一个调机师。

可能地，对于有偿的服务部分，比如远程康复，在预约会议后，会跳转到支付页面；用户按提示完成支付。

在用户完成支付之后，将在用户已预约康复服务的页面中，增加一个新的记录。该新记录，包括但不限于：预约服务时间、医生姓名、会议接入号、接入链接等。

医生侧的实现流程包括：

步骤S1611，如果是接收到留言提醒，回复留言。

根据App的提示消息，医生点击消息入口控件时，呈现留言界面，医生通过该留言界面读取留言信息，并通过该留言界面进行留言回复。

步骤S1612，如果是接收到会议预约提醒，医生通过客户端进行预约反馈。

该预约反馈可以是接受会议邀请，也可以是拒绝会议邀请。如果医生接受邀请后，后台支付系统执行转帐操作，医生帐户将收到咨询费用。同时，本申请实施例也不限制以下功能，即医生在时间不合适时，可以提出新的会议时间，发给用户进行二次确认。

步骤S1613，进入会议。

在医生接受会议邀请之后，将在待履行的康复服务的页面中增加一个新的记录。该新记录，包括但不限于：预约服务时间、用户姓名、会议接入号、接入链接等。

本申请实施例提供一种集成了近程辅听和远程听力康复和调机的系统，通过一个应用程序，用户可以随时进行测听，获得自己的个性化听力状态，对保护听力健康有帮助。进而通过个性化状态，可以完成近程辅听，有效提升语音可懂度。此外，近程辅听可以有效抑制环境噪声，提升听觉体验；另一方面，通过远程康复平台，用户可以实现与医生的远程交流，提升问诊效率。

下面继续说明本申请实施例提供的听觉辅助装置454的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器440的听觉辅助装置454中的软件模块可以包括：

第一呈现模块4541，用于响应于针对听觉辅助客户端的触发操作，呈现听觉辅助界面，所述听觉辅助界面至少包括用于远程问询的第一功能入口和用于近程辅听的第二功能入口；

第二呈现模块4542，用于响应于针对所述第一功能入口的触发操作，呈现医生信息展示界面；

第一确定模块4543，用于响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标医生信息和第一预约时间；

第一发送模块4544，用于响应于接收到的预约操作指令，向医生客户端发送远程问诊请求，所述远程问诊请求中携带有所述第一预约时间和进行实时音视频通话的入口链接。

在一些实施例中，该装置还包括：

第二输出模块，用于输出所述目标语音数据。

在一些实施例中，该降噪模块，还用于：

在一些实施例中，该装置还包括：

对应地，该降噪模块，还用于：

在一些实施例中，该均衡处理模块，还用于：

基于所述各个频带对应的增益值确定均衡滤波器的参数；

这里需要指出的是：以上听觉辅助装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果。对于本申请听觉辅助装置实施例中未披露的技术细节，本领域的技术人员请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的听觉辅助方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的听觉辅助方法，例如，如图3、图4和图5示出的听觉辅助方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种听觉辅助方法，其特征在于，所述方法包括：

2.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

响应于接收到的预约操作指令，呈现支付页面，所述支付页面呈现有所述目标医生信息对应的问诊金额和支付入口；

响应于针对所述支付入口的触发操作，呈现支付方式选择界面；

响应于通过所述支付方式选择界面触发的选择操作，确定目标支付方式，并基于所述目标支付方式进行支付。

3.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

确定当前时刻与所述第一预约时间之间的时间间隔小于间隔阈值时，输出提示消息，所述提示消息用于提示即将达到远程问诊的第一预约时间；

确定达到所述第一预约时间时，响应于针对所述入口链接的触发操作，呈现音视频通话界面；

启动图像采集装置和语音采集装置，获取所述图像采集装置采集到的第一图像数据和所述语音采集装置采集到的第一语音数据；

在所述音视频通话界面呈现所述第一图像数据和获取到的医生客户端的第二图像数据；

将所述第一语音数据发送至所述医生客户端，并播放所述医生客户端发送的第二语音数据。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

当需要对助听设备进行参数调整时，响应于设备连接操作，建立用户终端与所述助听设备的通信连接，并呈现所述助听设备的设置界面；

基于从医生客户端获取到的调整信息，确定调整参数和所述调整参数的目标值；

通过所述设置界面，接收对所述调整参数的调整操作，以将所述调整参数调整至所述目标值。

5.根据权利要求4中所述的方法，其特征在于，所述方法还包括：

接收所述医生客户端发送的远程控制请求；

响应于所述远程控制请求，呈现远程控制提示信息；

当接收到针对所述远程控制提示信息的正向反馈指令，向所述医生客户端发送允许远程控制的响应消息，以使得所述医生终端通过远程控制对所述助听设备的参数进行调整。

6.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

接收医生客户端发送的第一远程问诊响应，所述第一远程问诊响应表征医生客户端未接受所述远程问诊请求，所述第一远程问诊响应中携带有第二预约时间；

响应于针对所述第一远程问诊响应的查看操作，呈现远程问诊响应界面，通过所述远程问诊响应界面呈现所述第二预约时间；

当通过所述远程问诊响应界面接收到接受所述第二预设时间的触发操作时，向所述医生客户端发送第二远程问诊响应。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

响应于通过所述医生信息展示界面触发的选择操作，确定选择的目标调试人员；

响应于接收到的预约操作指令，向调机客户端发送调机请求，所述调机请求中携带有所述第一预约时间和进行实时音视频通话的入口链接；

在达到所述第一预约时间开始实时音视频通话，且所述用户终端与所述助听设备建立通信连接后，接收所述调机客户端发送的第二远程控制请求；

响应于所述第二远程控制请求，呈现第二远程控制提示信息；

当接收到针对所述第二远程控制提示信息的正向反馈指令，向所述调机客户端发送允许远程控制的第二响应消息，以使得所述调机终端基于所述医生终端的调整指令通过远程控制对所述助听设备的参数进行调整。

8.根据权利要求1至6任一项中所述的方法，其特征在于，所述方法还包括：

响应于针对所述第二功能入口的触发操作，呈现近程辅听界面，所述近程辅听界面呈现有听力配置入口、第一辅听开关控件和第二辅听开关控件；

响应于针对所述听力配置入口的触发操作，获取用户听力测试结果；

当基于针对所述第一辅听开关的触发操作确定开启第一辅听功能时，对采集到的语音数据进行降噪处理，得到降噪后的语音数据；

当基于针对所述第二辅听开关的触发操作确定开启第二辅听功能时，基于所述听力测试结果对所述降噪后的语音数据进行均衡处理，得到目标语音数据；

输出所述目标语音数据。

9.根据权利要求8中所述的方法，其特征在于，所述对采集到的语音数据进行降噪处理，得到降噪后的语音数据，包括：

10.根据权利要求9中所述的方法，其特征在于，所述方法还包括：

提取所述采集到的语音数据的语音特征；

将所述语音特征输入训练好的场景识别模型，得到识别出的场景信息；

对应地，所述获取训练好的的语音增强模型，包括：

11.根据权利要求8中所述的方法，其特征在于，所述基于所述听力测试结果对所述降噪后的语音数据进行均衡处理，得到目标语音数据，包括：

基于所述各个频带对应的增益值确定均衡滤波器的参数；

12.一种听觉辅助装置，其特征在于，所述装置包括：

13.一种终端设备，其特征在于，所述终端设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至11任一项所述的方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至11任一项所述的方法。