CN109788423A

CN109788423A - 语音接收方法、装置及计算机可读存储介质

Info

Publication number: CN109788423A
Application number: CN201910066770.9A
Authority: CN
Inventors: 王蕾
Original assignee: Nubia Technology Co Ltd
Current assignee: Shenzhen Hanlin Xuntong Technology Co ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-05-21
Anticipated expiration: 2039-01-23
Also published as: CN109788423B

Abstract

本发明公开了一种语音接收方法，包括：在获得第一麦克风检测到的第一语音数据时，确定第一语音数据的第一语音强度，并基于用户的第一历史语音数据或预设语音强度阈值获得第二语音强度；将第一语音强度与预设的第二语音强度进行比较，基于比较结果确定两者是否匹配；若否，则获取第一语音数据的第一音色特征信息，以及历史语音数据或预设音色特征信息获得第二音色特征信息；将第一音色特征信息与第二音色特征信息进行对比，判断两者是否匹配；若否，则将第二麦克风设置为接收启用状态，以继续检测新的语音数据。本发明还公开一种装置以及计算机可读存储介质，本发明可以解决用户堵住接收启用状态的麦克风口时无法正常进行语音沟通的问题。

Description

语音接收方法、装置及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种语音接收方法、装置及计算机可读存储介质。

背景技术

竞技类游戏是当前用户最喜欢的一个类型，在实时对战时相互交流显得尤为重要，现在的实时语音交流在一场游戏胜利中起到很重要的作用，但现在手机硬件的设计，往往会让用户在游戏时不自觉的就堵住了麦克风口，无法将自己的声音传给队友，影响用户的正常语音沟通。

发明内容

本发明的主要目的在于提供一种语音接收方法，装置及计算机可读存储介质,旨在解决现有手机硬件的设计，往往会让用户在游戏时不自觉的就堵住了麦克风口，无法将自己的声音传给队友，影响用户的正常语音沟通的问题。

为实现上述目的，本发明提供一种语音接收方法，所述语音接收方法包括：

在获得所述第一麦克风检测到的第一语音数据时，确定所述第一语音数据的第一语音强度，并基于用户的第一历史语音数据或预设语音强度阈值获得第二语音强度；

将所述第一语音强度与预设的第二语音强度进行比较，基于比较结果确定所述第一语音强度是否与所述第二语音强度匹配；

若否，则获取所述第一语音数据的第一音色特征信息，并基于所述第一历史语音数据或预设音色特征信息获得第二音色特征信息；

将所述第一音色特征信息与第二音色特征信息进行对比，判断所述第一音色特征信息是否与所述第二音色特征信息匹配；

若否，则将所述第二麦克风设置为接收启用状态，以通过所述第二麦克风继续检测新的语音数据。

可选地，所述第一音色特征信息或第二音色特征信息至少包括回音特征信息或语音相位特征信息。

可选地，所述第一音色特征信息为预设时间内检测到的第一回音次数信息，所述第二音色特征信息为基于用户的历史语音数据或预设回音次数阈值确定的第二回音次数信息，所述将所述第一音色特征信息与第二音色特征信息进行对比，判断所述第一音色特征信息是否与所述第二音色特征信息匹配的步骤包括：

将所述第一回音次数信息与所述第二回音次数信息进行对比，根据对比结果判定所述第一回音次数信息是否与所述第二回音次数信息匹配。

可选地，所述基于用户的第一历史语音数据获得第二语音强度的步骤包括：

获取所述第一麦克风在预设历史时间段内检测到的一个或多个历史语音数据，并确定各个历史语音数据的第三语音强度；

从获得的第三语音强度中确定语音强度最大的目标第三语音强度，并将所述目标第三语音强度作为所述第二语音强度。

可选地，所述判断所述第一音色特征信息是否与所述第二音色特征信息匹配的步骤之后包括：

若是，则显示用于提示用户提高说话音量的提示信息，以提示用户提高说话音量。

可选地，所述将所述第二麦克风设置为接收启用状态的步骤之后包括：

在获得所述第二麦克风检测到的第二语音数据时，确定所述第二语音数据的第三语音强度，并基于用户的第二历史语音数据或预设语音强度阈值获得第四语音强度；

将所述第三语音强度与预存的第四语音强度进行比较，基于比较结果确定所述第三语音强度是否与所述第四语音强度匹配；

若否，则获取所述第二语音数据的第三音色特征信息，并基于所述第二历史语音数据或预设音色特征信息获得第四音色特征信息；

将所述第三音色特征信息与所述第四音色特征信息进行对比，判断所述第三音色特征信息是否与所述第四音色特征信息匹配；

若否，则显示用来提示两个麦克风均被遮挡的提示信息，以提示用户解除遮挡。

可选地，所述判断所述第三音色特征信息是否与所述第四音色特征信息匹配的步骤之后还包括：

若否，则基于用户操作显示常用语音对话的文字转换信息列表；

根据用户基于所述文字转换信息列表触发的文字转换信息选定指令确定用户选定的目标文字转换信息；

基于预存的常用语音对话数据与文字转换信息的关联信息确定所述目标文字转换信息关联的目标常用语音对话数据；

将所述目标常用语音对话数据发送至语音交互对端。

可选地，所述基于用户操作显示常用语音对话的文字转换信息列表的步骤之前包括：

在接收到用户触发的常用语音对话编辑指令时，利用处于接收启用状态的麦克风获取检测到的常用语音对话数据，并获取用户录入的文字转换信息；

将所述常用语音对话数据与所述文字转换信息进行关联，生成所述常用语音对话数据与所述文字转换信息的关联信息，以及包括一个或多个文字转换信息的文字转换信息列表。

此外，为实现上述目的，本发明还提供一种装置，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音接收程序，所述语音接收程序被所述处理器执行时实现如上所述语音接收方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音接收程序，所述语音接收程序被处理器执行时实现如上所述的语音接收方法的步骤。

本发明提供一种语音接收方法、装置及计算机可读存储介质，通过将实时获得的语音数据的语音强度和音色特征信息，分别与基于历史语音数据或预设参数或预设信息确定的正常状态下的语音强度和音色特征信息的对比匹配，基于声音传播原理，麦克风在正常状态下与端口被堵住的状态下检测的语音数据的语音强度或音色特征信息均存在区别，在语音强度以及音色特征信息均匹配失败时，可以获得麦克风被堵住的结论，则将处于接收禁用状态下的麦克风设置为接收启用状态，以通过该麦克风来检测新的语音数据，实现正常的语音沟通，提高用户体验。

附图说明

图1为实现本发明各个实施例的一种移动终端的硬件结构示意图；

图2为本发明实施例提供的一种通信网络系统架构图；

图3为本发明语音接收方法第一实施例的流程示意图；

图4为本发明语音接收方法第二实施例的流程示意图；

图5为本发明语音接收方法第三实施例的流程示意图；

图6为本发明语音接收方法第四实施例的流程示意图；

图7为本发明语音接收方法第五实施例的流程示意图；

图8为本发明语音接收方法第六实施例的流程示意图；

图9为本发明语音接收方法第七实施例的流程示意图；

图10为本发明语音接收方法实施例的第一场景示意图；

图11为本发明语音接收方法实施例的第二场景示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络系统进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等，此处不做限定。

如图1所示的终端结构中，处理器110可以调用存储器109中存储的语音接收程序，执行以下操作：

进一步地，处理器110可以调用存储器109中存储的语音接收程序，还执行以下操作：

将所述目标常用语音对话数据发送至语音交互对端。

基于上述硬件结构，提出本发明语音接收方法的实施例。

参照图3，本发明第一实施例提供一种语音接收方法，在本发明实施例中，该语音接收方法涉及通信技术领域。竞技类游戏是当前用户最喜欢的一个类型，在实时对战时相互交流显得尤为重要，现在的实时语音交流在一场游戏胜利中起到很重要的作用，但现在手机硬件的设计，往往会让用户在游戏时不自觉的就堵住了麦克风口，无法将自己的声音传给队友，影响用户的正常语音沟通。本实施例提出一种将检测到的语音数据与历史语音数据的强度或音色特征信息等特征信息，或与预设特征信息的比较来确定是否需要切换麦克风的状态，从而保证处于避免麦克风由于被堵住而无法实现正常语音沟通的情况。本发明语音接收方法的各个步骤可以由终端的处理器执行。

在本实施例中，所述语音接收方法应用于移动终端，所述移动终端至少包括处于接收启用状态的第一麦克风以及处于接收禁用状态的第二麦克风，所述语音接收方法包括：

步骤S10，在获得所述第一麦克风检测到的第一语音数据时，确定所述第一语音数据的第一语音强度，并基于用户的第一历史语音数据或预设语音强度阈值获得第二语音强度；

在本实施例中，移动终端可以包括手机或平板电脑等终端，在本实施例的移动终端上配置两个用于接收用户讲话时的语音数据的麦克风，两个麦克风均可以设置为接收启用状态或接收禁用状态。当麦克风处于接收启用状态时，可以检测用户讲话时的语音信号和语音数据，反之，当麦克风处于接收启用状态时，麦克风处于禁用状态，无法检测到用户讲话时的语音信号或语音数据。在本实施例中，第一麦克风或第二麦克风并不特指某个特定的麦克风，而是指的是在执行本发明的语音接收方法的步骤S10时处于接收启用状态的麦克风，第二麦克风指的是在执行本发明的语音接收方法的步骤S10时处于接收禁用状态的麦克风。在本发明中，可以基于语音接收方法的各个步骤定时地从步骤S10开始执行，对语音数据进行检测并确定是否切换麦克风的状态。

在本实施例中，在获得第一麦克风检测到的语音数据时，即第一语音数据，确定获取第一语音数据的语音强度，即第一语音强度。在本实施例中，语音强度可以指的是语音数据的幅值或音量，可以获取预设数量的语音幅值作为第一语音强度，或者获取语音数据中最小的幅值作为第一语音强度。在本实施例中，确定语音幅值或音量可以基于现有的技术来确定，在此不再赘述。第一历史语音数据指的是在执行步骤S10之前第一麦克风处于正常接收启用状态时接检测到的语音数据。在本实施例中，还可以设定一个特定的用来判定麦克风是否正常接收语音数据的最低强度阈值，即预设语音强度阈值，并将该,麦克风检测到语音数据的强度低于该预设语音强度阈值时，判定接收到语音数据为强度异常的语音数据；当麦克风检测到的语音数据的强度高于该预设语音强度阈值时，判定接收到的语音数据为强度正常的语音数据。在本实施例中，每次检测到用户的语音数据时，若数据为强度正常的语音数据，可以将该数据保存在预设保存位置，并标记保存时间，以根据保存时间进行数据的删减和更新，使得特定语音数据在预设保存位置中只保存特定的预设时间长度。对于强度异常的语音数据，不将其保存在预设保存位置，直接将其舍弃。在本实施例中，可以直接将预设语音强度阈值作为第二语音强度，也可以基于保存在预设保存位置中的历史语音数据确定第二语音强度，例如，以第二语音数据的最小强度作为第二语音强度，或以第二语音数据最小强度与最大强度的平均值作为第二语音强度。在本实施例中，若超过预设时间长度而未检测到新的语音数据，可以保留最后一次检测到的语音数据，作为第一历史语音数据。

步骤S20，将所述第一语音强度与预设的第二语音强度进行比较，基于比较结果确定所述第一语音强度是否与所述第二语音强度匹配；

在确定第一语音强度和第二语音强度后，将第一语音强度与第二语音强度进行比较，根据比较结果确定第一语音强度与第二语音强度是否匹配。在本实施例中，若在步骤S10中将预设语音强度阈值作为第二语音强度，则在第一语音强度大于或等于预设语音强度阈值时，判定第一语音强度与第二语音强度匹配；在第一语音强度阈值小于预设语音强度阈值时，判定第一语音强度与第二语音强度不匹配。若在步骤S10中，若基于第一历史语音数据确定第二语音强度，可以将第一语音强度与第二语音强度进行相减，若第一语音强度与第二语音强度的差值大于特定预设差值时，判定第一语音强度与第二语音强度匹配；若第一语音强度与第二语音强度的差值小于特定预设差值时，判定第一语音强度与第二语音强度不匹配。

步骤S30，若否，则获取所述第一语音数据的第一音色特征信息，并基于所述第一历史语音数据或预设音色特征信息获得第二音色特征信息，其中，所述第一音色特征信息或第二音色特征信息至少包括回音特征信息或语音相位特征信息；

基于步骤S20，若第一语音强度与第二语音强度不匹配，则可以将第一语音数据的音色特征信息(即第一音色特征信息)与基于上述第一历史语音数据或预设音色特征信息获得的第二音色特征信息进行对比，判断第一音色特征信息与第二音色特征信息是否匹配。语音数据进入移动终端后，在移动终端腔体内会与内部部件接触并反射，因此，麦克风会先后检测到包括源语音数据以及反射语音数据的多个相似语音数据。与非堵住的状态相比，堵住状态多了一个堵住的截面，相同时间内麦克风检测到的语音数据次数更多，并且对应更多不同相位数值。可以预先基于终端的内部部件的不同分布结构通过实验数据测量其预设时间内的单位语音数据的反射次数或不同相的数量或相位数值等音色特征信息，获得预设音色特征信息，也可以对基于上述方法获得的第一历史语音数据获取音色特征信息，将预设特征信息或第一历史语音数据的音色特征信息作为第二音色特征信息。

进一步地，在本实施例中，若第一语音强度与第二语音强度匹配，则可以直接确定第一麦克风不处于堵孔状态，可以忽略步骤S30之后的步骤，定时从步骤S10开始重新执行。

步骤S40，将所述第一音色特征信息与第二音色特征信息进行对比，判断所述第一音色特征信息是否与所述第二音色特征信息匹配；

基于上述步骤，在获得第一音色特征信息与第二音色特征信息后，将两者进行对比，确定两者是否匹配。基于步骤S30，若以预设时间内检测麦克风检测到的语音数据次数为音色特征信息，则可以将第一语音数据对应的第一语音数据检测次数与基于历史语音数据或预设次数阈值确定的第二语音数据检测次数相减，判断差值是否在预先设定的差值范围，若是，则判定第一音色特征信息与第二音色特征信息匹配，否则判定两者不匹配。若以相位参数为音色特征信息，则可以将第一语音数据对应的第一相位参数与基于历史语音数据或预设相位参数确定的第二相位参数进行对比，确定两者是否匹配，例如，若第一相位参数的数量与第二相位参数的数量之差在设定的范围，或第一相位参数的具体数值与第二相位参数的具体数值之差在设定的范围，则判定两者匹配，若两相位参数的数量或具体数值不在设定的范围，则判定两者不匹配。

步骤S50，若否，则将所述第二麦克风设置为接收启用状态，以通过所述第二麦克风继续检测新的语音数据。

基于上述步骤，若第一音色特征信息与第二音色特征信息不匹配，则开可以将第二麦克风设置的状态设置为接收启用状态，从而可以通过第二麦克风检测新的语音数据，并将通过第二麦克风检测的新语音数据发送至交互对端，实现正常的语音交互。进一步地，在本实施例中，当确定第一音色特征信息与第二音色特征信息不匹配，可以将第一麦克风的状态设置为接收禁用状态，避免两个麦克风同时采集语音数据造成资源浪费或数据的混淆。

进一步地，在本实施例中，若第一音色特征信息与第二音色特征信息匹配，则可以判定第一麦克风不存在被堵住的情况，语音强度不匹配的原因可能为用户的讲话声音减小了，可以显示用于提示用户增大讲话声音的提示信息。

在本实施例中，在获得所述第一麦克风检测到的第一语音数据时，确定所述第一语音数据的第一语音强度，并基于用户的第一历史语音数据或预设语音强度阈值获得第二语音强度；将所述第一语音强度与预设的第二语音强度进行比较，基于比较结果确定所述第一语音强度是否与所述第二语音强度匹配；若否，则获取所述第一语音数据的第一音色特征信息，并基于所述第一历史语音数据或预设音色特征信息获得第二音色特征信息；将所述第一音色特征信息与第二音色特征信息进行对比，判断所述第一音色特征信息是否与所述第二音色特征信息匹配；若否，则将所述第二麦克风设置为接收启用状态，以通过所述第二麦克风继续检测新的语音数据。通过上述方式，通过将实时获得的语音数据的语音强度和音色特征信息，分别与基于历史语音数据或预设参数或预设信息确定的正常状态下的语音强度和音色特征信息的对比匹配，基于声音传播原理，麦克风在正常状态下与端口被堵住的状态下检测的语音数据的语音强度或音色特征信息均存在区别，在语音强度以及音色特征信息均匹配失败时，可以获得麦克风被堵住的结论，则将处于接收禁用状态下的麦克风设置为接收启用状态，以通过该麦克风来检测新的语音数据，实现正常的语音沟通，提高用户体验。

在本实施例中，进一步的，参照图4，图4为本发明语音接收方法第二实施例的流程示意图。基于上述实施例，在本实施例中，步骤S40包括：

步骤S60，将所述第一回音次数信息与所述第二回音次数信息进行对比，根据对比结果判定所述第一回音次数信息是否与所述第二回音次数信息匹配。

基于上述实施例，在本实施例中，语音数据进入移动终端后，在移动终端腔体内会与内部部件接触并反射，因此，麦克风会先后检测到包括源语音数据以及反射语音数据的多个相似语音数据。与非堵住的状态相比，堵住状态多了一个堵住的截面，相同时间内麦克风检测到的语音数据次数更多。本实施例的第一回音次数即步骤S10中第一语音数据对应的回音次数。在本实施例中，在执行步骤S10检测到语音数据时，持续获取预设时间的语音数据，将持续预设时间获取的语音数据作为第一语音数据，确定完整语音数据的总数，将总数减去源语音数据的数量1，即可得到第一语音数据的回音次数。然后可以以同样的方法可以获得预设时间的历史语音数据的回音次数。则可以将第一语音数据对应的第一语音数据检测次数与基于历史语音数据或预设次数阈值确定的第二语音数据检测次数相减，判断差值是否在预先设定的差值范围，若是，则判定第一音色特征信息与第二音色特征信息匹配，否则判定两者不匹配。若两者不匹配，则基于上述实施例的语音接收方法执行步骤S50。

在本实施例中，所述第一音色特征信息为预设时间内检测到的第一回音次数信息，所述第二音色特征信息为基于用户的历史语音数据或预设回音次数阈值确定的第二回音次数信息，将所述第一回音次数信息与所述第二回音次数信息进行对比，根据对比结果判定所述第一回音次数信息是否与所述第二回音次数信息匹配。通过上述方式，实现基于语音数据的回应次数的特征信息确定是否需要进行麦克风的状态的切换设置。

进一步的，参照图5，图5为本发明语音接收方法第三实施例流程示意图。

基于上述实施例，在本实施例中，所述基于用户的第一历史语音数据获得第二语音强度的步骤包括：

步骤S70，获取所述第一麦克风在预设历史时间段内检测到的一个或多个历史语音数据，并确定各个历史语音数据的第三语音强度；

基于上述实施例，在本实施例中，可以设定一个特定的用来判定麦克风是否正常接收语音数据的最低强度阈值，即预设语音强度阈值，并将该当麦克风检测到语音数据的强度低于该预设语音强度阈值时，判定接收到语音数据为强度异常的语音数据；当麦克风检测到的语音数据的强度高于该预设语音强度阈值时，判定接收到的语音数据为强度正常的语音数据。在本实施例中，每次检测到用户的语音数据时，若数据为强度正常的语音数据，可以将该数据保存在预设保存位置，并标记保存时间，以根据保存时间进行数据的删减和更新，使得特定语音数据在预设保存位置中只保存特定的预设时间长度。在基于步骤S10获得第一语音强度后，从预设保存位置中提取所所有保存的历史语音数据，并获得各个历史语音数据的第三语音强度。在本实施例中，不同的历史语音数据可以指代不同对话语句对应的语音数据，例如，“前进”、“进攻”或“撤退”等不通对话语句。同个历史语音数据不同的字词可能对应不同的语音强度，可将最大的语音强度作为该历史语音数据的语音强度。

步骤S80，从获得的第三语音强度中确定语音强度最大的目标第三语音强度，并将所述目标第三语音强度作为所述第二语音强度。

基于步骤S70，在获得各个历史语音数据对应的第三语音强度时，可以将各个历史语音数据的第三语音强度进行两两比较，从而确定最大的目标第三语音强度，将该目标第三语音强度作为第二语音强度。并从步骤S20开始，执行本发明的语音接收方法的剩余步骤。

在本实施例中，获取所述第一麦克风在预设历史时间段内检测到的一个或多个历史语音数据，并确定各个历史语音数据的第三语音强度；从获得的第三语音强度中确定语音强度最大的目标第三语音强度，并将所述目标第三语音强度作为所述第二语音强度。通过上述方式，实现基于时语音数据确定用来作为对比对象的第二语音数据。

进一步地，参照图6，图6为本发明语音接收方法第四实施例流程示意图。

基于上述实施例，在本实施例中，步骤S40还包括：

步骤S90，若是，则显示用于提示用户提高说话音量的提示信息，以提示用户提高说话音量。

基于上述实施例，在本实施例中，若第一语音强度与第二语音强度匹配，则可以判定第一麦克风不存在被堵住的情况，语音强度不匹配的原因可能为用户的讲话声音减小了，可以显示用于提示用户增大讲话声音的提示信息。具体，如图10所示，显示的提示信息可以为：语音声音过小，请增大说话音量。

在本实施例中，若第一语音强度与第二语音强度匹配，则显示用于提示用户提高说话音量的提示信息，以提示用户提高说话音量，从而避免由于用户说话声音过小而无法进行正常的语音交互，确保语音交互的效果。

进一步地，参照图7，图7为本发明语音接收方法第五实施例流程示意图。

基于上述实施例，在本实施例中，步骤S50之后包括：

步骤S100，在获得所述第二麦克风检测到的第二语音数据时，确定所述第二语音数据的第三语音强度，并基于用户的第二历史语音数据或预设语音强度阈值获得第四语音强度；

基于上述实施例，在本实施例中，将第二麦克风切换至接收启用状态后，当接收到第二麦克风检测到的第二语音数据时，参考第一语音数据的处理方法，确定第二语音数据的语音强度，即第三语音强度。同时，获取当前保存在预设保存位置中的历史语音数据，即第二历史语音数据。本实施例的第二历史语音数据指的是第二麦克风对应的历史语音数据。参照第二语音强度的确定方法，可以基于第二厉害语音数据或预设语音强度阈值获得第四语音强度。

步骤S110，将所述第三语音强度与预存的第四语音强度进行比较，基于比较结果确定所述第三语音强度是否与所述第四语音强度匹配；基于上述步骤，在确定第三语音强度和第四语音强度后，将第三语音强度与第四语音强度进行比较，根据比较结果确定第三语音强度与第四语音强度是否匹配。在本实施例中，若在步骤S100中将预设语音强度阈值作为第四语音强度，则在第三语音强度大于或等于预设语音强度阈值时，判定第三语音强度与第四语音强度匹配；在第三语音强度阈值小于预设语音强度阈值时，判定第三语音强度与第四语音强度不匹配。若在步骤S100中，若基于第二历史语音数据确定第四语音强度，可以将第三语音强度与第四语音强度进行相减，若第三语音强度与第四语音强度的差值大于特定预设差值时，判定第三语音强度与第四语音强度匹配；若第三语音强度与第四语音强度的差值小于特定预设差值时，判定第三语音强度与第四语音强度不匹配。

步骤S120，若否，则获取所述第二语音数据的第三音色特征信息，并基于所述第二历史语音数据或预设音色特征信息获得第四音色特征信息；

基于步骤S110，若第三语音强度与第四语音强度不匹配，则可以将第二语音数据的音色特征信息(即第三音色特征信息)与基于上述第二历史语音数据或预设音色特征信息获得的第四音色特征信息进行对比，判断第三音色特征信息与第四音色特征信息是否匹配。语音数据进入移动终端后，在移动终端腔体内会与内部部件接触并反射，因此，麦克风会先后检测到包括源语音数据以及反射语音数据的多个相似语音数据。与非堵住的状态相比，堵住状态多了一个堵住的截面，相同时间内麦克风检测到的语音数据次数更多，并且对应更多不同相位数值。可以预先基于终端的内部部件的不同分布结构通过实验数据测量其预设时间内的单位语音数据的反射次数或不同相的数量或相位数值等音色特征信息，获得预设音色特征信息，也可以对基于上述方法获得的第二历史语音数据获取音色特征信息，将预设特征信息或第二历史语音数据的音色特征信息作为第四音色特征信息。

进一步地，在本实施例中，若第三语音强度与第四语音强度匹配，则可以直接确定第二麦克风不处于堵孔状态。

步骤S130，将所述第三音色特征信息与所述第四音色特征信息进行对比，判断所述第三音色特征信息是否与所述第四音色特征信息匹配；

基于上述步骤，在获得第三音色特征信息与第四音色特征信息后，将两者进行对比，确定两者是否匹配。基于步骤S120，若以预设时间内检测麦克风检测到的语音数据次数为音色特征信息，则可以将第二语音数据对应的第三检测次数与基于历史语音数据或预设次数阈值确定的第四检测次数相减，判断差值是否在预先设定的差值范围，若是，则判定第一音色特征信息与第二音色特征信息匹配，否则判定两者不匹配。若以相位参数为音色特征信息，则可以将第二语音数据对应的第三相位参数与基于历史语音数据或预设相位参数确定的第四相位参数进行对比，确定两者是否匹配，例如，若第三相位参数的数量与第四相位参数的数量之差在设定的范围，或第三相位参数的具体数值与第四相位参数的具体数值之差在设定的范围，则判定两者匹配，若两相位参数的数量或具体数值不在设定的范围，则判定两者不匹配。

步骤S140，若否，则显示用来提示两个麦克风均被遮挡的提示信息，以提示用户解除遮挡。

基于上述步骤，若判定第三特征信息与第四特征信息不匹配，则显示如图11所示的用来提示两个麦克风均已被遮挡的提示信息，从而提示用户通过改变手握终端的姿势，以解除对麦克风的遮挡，确保语音交互效果，避免给用户带来较差的语音交互体验。

在本实施例中，将所述第三语音强度与预存的第四语音强度进行比较，基于比较结果确定所述第三语音强度是否与所述第四语音强度匹配；若否，则获取所述第二语音数据的第三音色特征信息，并基于所述第二历史语音数据或预设音色特征信息获得第四音色特征信息；将所述第三音色特征信息与所述第四音色特征信息进行对比，判断所述第三音色特征信息是否与所述第四音色特征信息匹配；若否，则显示用来提示两个麦克风均被遮挡的提示信息，以提示用户解除遮挡。通过上述方式，当将第二麦克风的状态设置为接收启用状态，并通过第二麦克风检测语音数据时，对第二麦克风检测到的语音数据基于信号强度或音色特征信息进行分析处理，确定第二麦克风是否被遮挡，若第二麦克风被遮挡，则显示提示信息提示用户解除遮挡，确保语音交互效果，避免给用户带来较差的语音交互体验。

进一步地，参照图8，图8本发明语音接收方法第六实施例的流程示意图。

基于上述实施例，步骤S130之后包括：

步骤S150，若否，则基于用户操作显示常用语音对话的文字转换信息列表；

基于上述实施例，在本实施例中，若判定第三音色特征信息与第四音色特征信息不匹配时，则判定两个可用麦克风具备遮挡，则可以显示通过语音交互之外的其他交互方式进行交互的提示信息，例如常用对话列表交互。在本实施例中，可以预先构建常用语音对话的文字转换信息列表，并将列表中的各条文字转换信息与对应的语音对话进行关联。为了避免影响用户使用体验，可以在移动终端的使用页面上预置一触发使用常用语音对话功能指令的功能按钮，当判定第三音色特诊信息与第四音色特征信息不匹配时，可以将该功能按钮由灰暗状态转换为点亮状态，用户可以通过点亮后的该功能按钮触发使用常用语音对话功能指令，在检测到用户触发的使用常用语音对话功能指令时，显示常用语音对话的文字转换信息列表。

步骤S160，根据用户基于所述文字转换信息列表触发的文字转换信息选定指令确定用户选定的目标文字转换信息；

在文字转换信息列表中，用户可以选定需要发送的对话的目标文字转换信息，当用户点击了对应的目标文字转换信息时，用户终端接收到用户触发的文字转换信息选定指令，从该选定指令中获取用户选定的目标文字转换信息。

步骤S170，基于预存的常用语音对话数据与文字转换信息的关联信息确定所述目标文字转换信息关联的目标常用语音对话数据；

当确定用户选定的目标文字转换信息时，基于预先构建的语音对话与文字转换信息的关联关系确定目标文字转换信息对应的目标语音对话，即目标常用语音对话，并获取对应的目标常用语音对话数据。

步骤S180，将所述目标常用语音对话数据发送至语音交互对端。

在获得目标常用语音对话数据时，基于当前的交互对象的标识信息，例如手机号码、游戏身份ID等，并基于当期交互对象的标识信息将获得的目标常用语音对话数据发送至当前的语音交互对象的终端，即交互对端。

在本实施例中，基于用户操作显示常用语音对话的文字转换信息列表；根据用户基于所述文字转换信息列表触发的文字转换信息选定指令确定用户选定的目标文字转换信息；基于预存的常用语音对话数据与文字转换信息的关联信息确定所述目标文字转换信息关联的目标常用语音对话数据；将所述目标常用语音对话数据发送至语音交互对端。通过上述方式，在第二麦克风的语音数据验证失败时，基于用户操作显示语音信息的文字信息转换信息列表，以供用户基于文字转换信息列表进行语音交互，方便用户进行语音交互操作，提高用户体验。

进一步地，参照图9，图9本发明语音接收方法第七实施例的流程示意图。

基于上述实施例，在本实施例中，步骤S150之前包括：

步骤S190，在接收到用户触发的常用语音对话编辑指令时，利用处于接收启用状态的麦克风获取检测到的常用语音对话数据，并获取用户录入的文字转换信息；

基于上述实施例，在实施例中，可以预先在用户终端预置用于触发常用语音对话编辑功能按钮，用户可以通过该功能按钮触发常用语音对话编辑指令，并朗读需要录入的常用语音对话，在接收到用户触发的常用语音对话编辑指令时，通过处于接收启用状态的麦克风获取检测到用户朗读常用语音对话的数据，同时用户可以通过预置的功能按钮触发对该常用语音对话数据编辑文字转换信息的指令，在接收到用户触发的编辑文字信息指令时，显示文字转换信息编辑框，并获取用户在文字转换信息编辑框中录入的文字转换信息。

步骤S200，将所述常用语音对话数据与所述文字转换信息进行关联，生成所述常用语音对话数据与所述文字转换信息的关联信息，以及包括一个或多个文字转换信息的文字转换信息列表。

基于步骤S190获得常用语音对话数据与对应的文字转换信息时，将常用语音对话数据与对应的文字转换信息进行关联，生成常用语音对话数据与文字转换信息的关联信息，并包含包括一个或多个文字转换信息的文字转换信息列表。在本实施例中，若在用户触发常用语音对话编辑指令时，在预设位置已保存历史文字转换信息列表，则可以基于用户操作将基于步骤S200执行时生成的关联信息将新的文字转换信息添加到已有的历史文字转换信息列表中，获得更新后的文字转换信息列表。

在本实施例中，在接收到用户触发的常用语音对话编辑指令时，利用处于接收启用状态的麦克风获取检测到的常用语音对话数据，并获取用户录入的文字转换信息；将所述常用语音对话数据与所述文字转换信息进行关联，生成所述常用语音对话数据与所述文字转换信息的关联信息，以及包括一个或多个文字转换信息的文字转换信息列表。

进一步地，本发明还提供一种装置，所述装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音接收程序，所述语音接收程序被所述处理器执行时所被执行时所实现的方法可参照本发明语音接收方法的各个实施例，此处不再赘述。

进一步地，此外，本发明实施例还提出一种计算机可读存储介质。

本发明计算机可读存储介质上存储有语音接收程序，所述语音接收程序执行时实现如上所述的身份认证方法的步骤。

其中，在所述处理器上运行的语音接收程序被执行时所实现的方法可参照本发明语音接收方法各个实施例，此处不再赘述。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音接收方法，其特征在于，所述语音接收方法应用于移动终端，所述移动终端至少包括处于接收启用状态的第一麦克风以及处于接收禁用状态的第二麦克风，所述语音接收方法包括：

2.如权利要求1所述的语音接收方法，其特征在于，所述第一音色特征信息或第二音色特征信息至少包括回音特征信息或语音相位特征信息。

3.如权利要求1所述的语音接收方法，其特征在于，所述第一音色特征信息为预设时间内检测到的第一回音次数信息，所述第二音色特征信息为基于用户的历史语音数据或预设回音次数阈值确定的第二回音次数信息，所述将所述第一音色特征信息与第二音色特征信息进行对比，判断所述第一音色特征信息是否与所述第二音色特征信息匹配的步骤包括：

4.如权利要求1所述的语音接收方法，其特征在于，所述基于用户的第一历史语音数据获得第二语音强度的步骤包括：

5.如权利要求1所述的语音接收方法，其特征在于，所述判断所述第一音色特征信息是否与所述第二音色特征信息匹配的步骤之后包括：

6.如权利要求1所述的语音接收方法，其特征在于，所述将所述第二麦克风设置为接收启用状态的步骤之后包括：

7.如权利要求6所述的语音接收方法，其特征在于，所述判断所述第三音色特征信息是否与所述第四音色特征信息匹配的步骤之后还包括：

将所述目标常用语音对话数据发送至语音交互对端。

8.如权利要求7所述的语音接收方法，其特征在于，所述基于用户操作显示常用语音对话的文字转换信息列表的步骤之前包括：

9.一种装置，其特征在于，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音接收程序，所述语音接收程序被所述处理器执行时实现如权利要求1至8中的任一项所述的语音接收方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音接收程序，所述语音接收程序被处理器执行时实现如权利要求1至8中任一项所述的语音接收方法的步骤。