CN112908334A

CN112908334A - 一种基于定向拾音的助听方法、装置及设备

Info

Publication number: CN112908334A
Application number: CN202110132067.0A
Authority: CN
Inventors: 蒋莹; 李鹏; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-01-31
Filing date: 2021-01-31
Publication date: 2021-06-04

Abstract

本发明涉及一种基于定向拾音的助听方法、装置及设备。所述方法包括：获取预设范围内的环境图像；根据所述环境图像获取交互对象；获取所述交互对象的唇部信息，根据所述唇部信息确定所述交互对象的交互动作；在所述交互动作为说话的情况下，定向采集所述交互对象的语音信息；将所述语音信息转换为文字，并展示给用户。

Description

一种基于定向拾音的助听方法、装置及设备

技术领域

本发明涉及音频处理领域，具体涉及一种基于定向拾音的助听方法、装置及设备。

背景技术

目前市场上大多数助听器实际上只是一个小型扩音器，将原本听不到的声音扩大，利用听障者的残余听力，使声音送到大脑听觉中枢而感受到声音。但对于完全失聪的用户来说，这种助听器并不能解决交流上的障碍。

对于上述背景现有技术出现了采用语音识别的方式，但是其识别大多是通过手机等智能终端来实现，操作不便，且容易受到环境噪声的影响，识别精度不高。

发明内容

本发明提供一种基于定向拾音的助听方法、装置及设备，能够解决现有的助听方式和产品操作不便、识别精度不高的技术问题。

本发明解决上述技术问题的技术方案如下：

本发明的第一方面提供一种基于定向拾音的助听方法，所述方法包括：获取预设范围内的环境图像；根据所述环境图像获取交互对象；获取所述交互对象的唇部信息，根据所述唇部信息确定所述交互对象的交互动作；在所述交互动作为说话的情况下，定向采集所述交互对象的语音信息；将所述语音信息转换为文字，并展示给用户。

可选地，根据所述环境图像获取交互对象，包括：获取所述环境图像中的人脸信息，所述人脸信息包括面部数据和距离数据；根据所述人脸信息的距离数据获取与用户最近的面部数据，确定所述最近的面部数据对应的人物为预交互对象。

可选地，所述方法还包括：根据所述预交互对象的人脸信息判断所述预交互对象与用户之间的距离是否在预设距离内，以及，判断所述预交互对象与用户之间的角度是否在预设角度内；若是，则确定所述预交互对象为用户的交互对象。

可选地，根据所述唇部信息确定所述交互对象的交互动作，包括：获取连续多帧所述交互对象的面部图像信息；获取每张所述面部图像信息中交互对象的唇部关键点的位置信息；根据所述唇部关键点的位置信息的变化情况判断所述交互对象的交互动作。

可选地，定向采集所述交互对象的语音信息，包括：获取交互对象的位置信息和角度信息；根据所述交互对象的位置信息和角度信息对采集到的语音信号做定向增强，对周围噪音进行抑制。

本发明的第二方面提供一种基于定向拾音的助听装置，所述装置包括：图像采集模块，用于获取预设范围内的环境图像；对象检测模块，用于根据所述环境图像获取交互对象；交互动作检测模块，用于获取所述交互对象的唇部信息，根据所述唇部信息确定所述交互对象的交互动作；语音采集模块，用于在所述交互动作为说话的情况下，定向采集所述交互对象的语音信息；语音识别模块，用于将所述语音信息转换为文字，并展示给用户。

本发明的第三方面提供一种基于定向拾音的助听设备，所述设备包括：眼镜本体、麦克风阵列、摄像头和显示屏，所述摄像头设置于所述眼镜本体前侧面的中间位置，所述麦克风阵列均匀分布于眼镜本体上，所述显示屏设置于眼镜本体的镜框内。

可选地，所述设备还包括处理器和电源模块，所述处理器与电源模块电连接，所述处理器用于执行如权利要求1-5任一所述的方法，所述电源模块用于为所述麦克风阵列、摄像头和显示屏的运作提供电能。

本发明的有益效果是：本发明首先通过获取用户周围环境中的预交互对象，再根据该预交互对象进行初步搜寻，再通过对预交互对象进行交互对象的确认，能够精准识别交互对象，再通过对交互对象的唇部特征进行提取，判断其是否说话，从而触发语音采集动作，再将采集到的语音信息转换为文字信息实时展现给用户。使得完全失聪的用户也能正常与其他人交流，且对特定交互范围内的语音做定向增强及识别，大大降低了环境噪音给用户带来的干扰，还具有通用性，并不要求针对个体听力级别的不同、耳朵敏感性的不同而做适配。

附图说明

图1为本发明实施例提供的一种基于定向拾音的助听方法的流程图。

图2为本发明实施例提供的一种基于定向拾音的助听装置的结构示意图。

图3为本发明实施例提供的一种基于定向拾音的助听设备的结构示意图。

图中：图像采集模块201、对象检测模块202、交互动作检测模块203、语音采集模块204、语音识别模块205、眼镜本体300、麦克风阵列302、摄像头301、显示屏303、处理器304、电源开关305、充电口306。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明实施例提供的一种基于定向拾音的助听方法，参考图1，该方法包括如下步骤：

步骤S101：获取预设范围内的环境图像。

本实施例中，通过获取用户所处环境的图像来判断是否存在与用户交互的对象，本实施例的用户针对具有听力障碍的人群，但对特殊情况下正常人的使用不进行限制。具体地，可以通过摄像机等图像采集装置采集环境视频，根据环境视频获得环境图像，从而实现对环境图像进行的采集。预设范围可以是直径为2米的圆周内。

步骤S102：根据环境图像获取交互对象。

本实施例中，环境图像中可能包含多个人物，而与用户交流的人为交互对象，因此可以首先获取环境图像中的人脸信息，根据人脸信息来确定交互对象。

人脸信息包括面部数据和距离数据，面部数据可以是人物的脸部影像，通过对脸部影像进行特征提取，以便于获得交互对象的唇部信息。距离数据包括交互对象与用户的直线距离、角度数据等，用于更准确的确定交互对象。

本实施例中，考虑到当用户所处的环境比较拥挤的情况下，虽然环境中有很多人，但是并不是与用户交互的，所以首先通过人脸信息中的距离数据获取与用户最近的面部数据，将与用户距离最近的面部数据对应的人物设为预交互对象，该预交互对象可以是正在与用户沟通的对象，也可以是非沟通对象。

本实施例中，通过预设交互距离来对用户的交互对象进行精准确认，具体地，根据预交互对象的人脸信息判断预交互对象与用户之间的距离是否在预设距离内，以及，判断所述预交互对象与用户之间的角度是否在预设角度内；若是，则确定该预交互对象为用户的交互对象。也就是说在预交互对象在用户预设范围之内的情况下，确定该预交互对象为用户的交互对象。例如，预设范围可以是预设距离为1米，偏转角度30度以内。

若环境信息内不存在交互对象，则持续循环采集环境图像，直至检测到交互对象。

步骤S103：获取交互对象的唇部信息，根据唇部信息确定交互对象的交互动作。

具体地，获取连续多帧交互对象的面部图像信息；获取每张面部图像信息中交互对象的唇部关键点的位置信息；根据唇部关键点的位置信息的变化情况判断交互对象的交互动作。

例如，在一个1秒钟的环境视频中，连续获取10帧交互对象的面部图像信息，通过特征提取方法提取到交互对象的唇部信息，以及唇部关键点信息，对该唇部关键点进行位置追踪，检测到唇部关键点位置发生频繁的变化，则确定该交互对象在说话。能够精准的判断交互对象是否在说话，从而触发语音采集动作。

若通过唇部信息检测后，判断交互对象未说话，则持续采集环境图像，直至检测到交互动作。

步骤S104：在交互动作为说话的情况下，定向采集交互对象的语音信息；

本实施例中，当检测到交互对象在说话的情况下，说明二者在交流，则对交流的内容进行识别，具体地，获取交互对象的位置信息；根据交互对象的位置信息对采集到的语音信号做定向增强，对周围噪音进行抑制。

例如可以通过麦克风阵列增强技术来实现对语音信号的增强，通过获取到的交互对象的位置信息和角度信息从而对交互对象所在方向进行定向语音增强，抑制其他反向的声音，从而获取更好的语音采集效果。

步骤S105：将语音信息转换为文字，并展示给用户。

当采集到语音信号后，因为有听力问题的人不能识别语音信号，因此本实施例采用将语音转换为文字的方式，将文字信息直观的展现给用户，可以通过智能终端，眼镜可穿戴设备等来实现。

本实施例还提供一种基于定向拾音的助听装置，参考图2，该装置包括：

图像采集模块201，用于获取预设范围内的环境图像，该模块实现的功能如上述步骤S101所公开的内容，在此不再赘述；

对象检测模块202，用于根据所述环境图像获取交互对象，该模块实现的功能如上述步骤S102所公开的内容，在此不再赘述；

交互动作检测模块203，用于获取所述交互对象的唇部信息，根据所述唇部信息确定所述交互对象的交互动作，该模块实现的功能如上述步骤S103所公开的内容，在此不再赘述；

语音采集模块204，用于在所述交互动作为说话的情况下，定向采集所述交互对象的语音信息，该模块实现的功能如上述步骤S104所公开的内容，在此不再赘述；

语音识别模块205，用于将所述语音信息转换为文字，并展示给用户，该模块实现的功能如上述步骤S105所公开的内容，在此不再赘述。

本实施例还提供一种基于定向拾音的助听设备，参考图3，该设备包括：眼镜本体300、麦克风阵列302、摄像头301和显示屏303，摄像头301设置于眼镜本体前侧面的中间位置，用于采集环境图像；麦克风阵列302均匀分布于眼镜本体上，用于采集交互对象的语音信息，显示屏303设置于眼镜本体的镜框内，用于将文字信息展现给用户。

该设备还包括处理器304和电源模块，处理器与电源模块电连接，电源模块用于为所述麦克风阵列、摄像头和显示屏的运作提供电能。处理器用于执行上述一种基于定向拾音的助听方法，例如，根据麦克风阵列、摄像头等前端采集设备采集到的信息，执行获取预设范围内的环境图像、将语音信息转换为文字信息等一种基于定向拾音的助听方法。

该设备还可以包括电源开关305和充电口306，电源开关305用于控制设备运作，充电口306用于为电源模块充电。

本发明首先通过获取用户周围环境中的预交互对象，再根据该预交互对象进行初步搜寻，再通过对预交互对象进行交互对象的确认，能够精准识别交互对象，再通过对交互对象的唇部特征进行提取，判断其是否说话，从而触发语音采集动作，再将采集到的语音信息转换为文字信息实时展现给用户。使得完全失聪的用户也能正常与其他人交流，且对特定交互范围内的语音做定向增强及识别，大大降低了环境噪音给用户带来的干扰，还具有通用性，并不要求针对个体听力级别的不同、耳朵敏感性的不同而做适配。处理器可以设置在眼镜本体的镜腿处，可通过壳体与眼镜腿装配连接。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于定向拾音的助听方法，其特征在于，所述方法包括：

获取预设范围内的环境图像；

根据所述环境图像获取交互对象；

获取所述交互对象的唇部信息，根据所述唇部信息确定所述交互对象的交互动作；

在所述交互动作为说话的情况下，定向采集所述交互对象的语音信息；

将所述语音信息转换为文字，并展示给用户。

2.根据权利要求1所述的方法，其特征在于，根据所述环境图像获取交互对象，包括：

获取所述环境图像中的人脸信息，所述人脸信息包括面部数据和距离数据；

根据所述人脸信息的距离数据获取与用户最近的面部数据，确定所述最近的面部数据对应的人物为预交互对象。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据所述预交互对象的人脸信息判断所述预交互对象与用户之间的距离是否在预设距离内，以及，判断所述预交互对象与用户之间的角度是否在预设角度内；

若是，则确定所述预交互对象为用户的交互对象。

4.根据权利要求1所述的方法，其特征在于，根据所述唇部信息确定所述交互对象的交互动作，包括：

获取连续多帧所述交互对象的面部图像信息；

获取每张所述面部图像信息中交互对象的唇部关键点的位置信息；

根据所述唇部关键点的位置信息的变化情况判断所述交互对象的交互动作。

5.根据权利要求1所述的方法，其特征在于，定向采集所述交互对象的语音信息，包括：

获取交互对象的位置信息和角度信息；

根据所述交互对象的位置信息和角度信息对采集到的语音信号做定向增强，对周围噪音进行抑制。

6.一种基于定向拾音的助听装置，其特征在于，所述装置包括：

图像采集模块，用于获取预设范围内的环境图像；

对象检测模块，用于根据所述环境图像获取交互对象；

交互动作检测模块，用于获取所述交互对象的唇部信息，根据所述唇部信息确定所述交互对象的交互动作；

语音采集模块，用于在所述交互动作为说话的情况下，定向采集所述交互对象的语音信息；

语音识别模块，用于将所述语音信息转换为文字，并展示给用户。

7.一种基于定向拾音的助听设备，其特征在于，所述设备包括：眼镜本体、麦克风阵列、摄像头和显示屏，所述摄像头设置于所述眼镜本体前侧面的中间位置，所述麦克风阵列均匀分布于眼镜本体上，所述显示屏设置于眼镜本体的镜框内。

8.根据权利要求7所述的设备，其特征在于，所述设备还包括处理器和电源模块，所述处理器与电源模块电连接，所述处理器用于执行如权利要求1-5任一所述的方法，所述电源模块用于为所述麦克风阵列、摄像头和显示屏的运作提供电能。