CN107705786A

CN107705786A - 一种语音处理方法、装置及计算机可读存储介质

Info

Publication number: CN107705786A
Application number: CN201710890251.5A
Authority: CN
Inventors: 于航
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-02-16

Abstract

本发明公开了一种语音处理方法，包括：接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。本发明实施例还提供实现上述方法的装置及计算机可读存储介质。本发明能够通过接收的语音信号判断出婴儿的哭闹模式，并根据哭闹模式确定出哭闹需求，精确判断婴儿的哭闹原因。

Description

一种语音处理方法、装置及计算机可读存储介质

技术领域

本发明涉及电子信息技术，尤其涉及一种语音处理方法、装置及计算机可读存储介质。

背景技术

由于婴儿没有语言表达能力，不会说话，只能通过哭来表达自己的需求，但婴儿哭的原因上百种，当婴儿哭的时候，家长尤其是新手爸妈分不清婴儿哭的原因是什么，不知道婴儿为什么哭，无法了解婴儿的需求。在育儿资料中，通常教家长通过逐一排查的方式来了解婴儿的需求，这样可能会造成当了解婴儿的真实需求时，婴儿已经哭了好久，并且，基于照顾婴儿的宝爸宝妈的经验有限，有时候通过排查的方式也无法了解婴儿哭的真实原因。

因此，亟需一种语音处理的技术方案，能够通过接收的语音信号判断出婴儿的哭闹模式，并根据哭闹模式确定出哭闹需求，精确判断婴儿的哭闹原因。

发明内容

有鉴于此，本发明实施例提供一种语音处理方法、装置和计算机可读存储介质，能够通过接收的语音信号判断出婴儿的哭闹模式，并根据哭闹模式确定出哭闹需求，精确判断婴儿的哭闹原因。

本发明实施例的技术方案是这样实现的：

一方面，提供一种语音处理方法，包括：接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

可选的，获取发出哭闹语音信号的哭闹主体的目标图像，通过所述目标图像检测所述哭闹主体的行为模式；

所述根据所述语音类型确定所述哭闹语音信号对应的哭闹模式的步骤包括：根据所述哭闹主体的行为模式和所述语音类型确定所述哭闹语音信号对应的哭闹模式。

可选的，所述根据所述语音类型确定所述哭闹语音信号对应的哭闹模式的步骤包括：

根据当前时间信息和所述语音类型确定所述哭闹语音信号对应的哭闹模式。

可选的，所述方法还包括：根据所述哭闹需求确定候选目标位置信息，根据所述候选目标位置信息和当前位置信息之间的距离确定目标位置信息，展示所述目标位置信息。

可选的，在根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求之前，所述方法还包括：将所述哭闹模式进行展示；接收到修改哭闹模式的修改操作，获取所述修改操作的修改后的哭闹模式，将修改后的哭闹模式作为所述哭闹模式。

另一方面，提供实现上述语音处理方法的语音处理装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序，以实现：接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

可选的，所述处理器执行所述计算机程序时，还实现：

获取发出哭闹语音信号的哭闹主体的目标图像，通过所述目标图像检测所述哭闹主体的行为模式；

可选的，所述处理器执行所述计算机程序时，还实现：根据所述哭闹需求确定候选目标位置信息，根据所述候选目标位置信息和当前位置信息之间的距离确定目标位置信息，展示所述目标位置信息。

可选的，所述处理器执行所述计算机程序时，在根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求之前，还实现：将所述哭闹模式进行展示；接收到修改哭闹模式的修改操作，获取所述修改操作的修改后的哭闹模式，将修改后的哭闹模式作为所述哭闹模式。

另一方面，提供一种实现上述语音处理方法的计算机可读存储介质。

本发明实施例提供的语音处理方法、装置和计算机可读存储介质，在确定接收到的语音信号为哭闹语音信号时，根据哭闹语音信号的语音类型判断哭闹语音信号对应的哭闹模式，在确定哭闹语音信号的哭闹模式后，确定哭闹模式的需求信息，其中，不同的哭闹模式表征不同的哭闹原因，不同哭闹模式对应的需求信息为该哭闹模式下安抚婴儿最有效的方法，从而及时的定位婴儿哭闹的原因，并根据婴儿哭闹的模式确定安抚婴儿的方法，避免照顾婴儿的家长在婴儿哭时，盲目的根据自己的猜测采用无用的方法来安抚婴儿。

附图说明

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图；

图2为如图1所示的移动终端的无线通信系统示意图；

图3为本发明实施例一中的语音处理方法的流程示意图；

图4为本发明实施例一中哭闹需求的界面显示示意图；

图5为本发明实施例二中语音处理方法的流程示意图；

图6为本发明实施例三中语音处理方法的流程示意图；

图7为本发明实施例三中目标位置的界面显示示意图；

图8为本发明实施例四中语音处理方法的流程示意图；

图9为本发明实施例四中修改哭闹模式的界面显示示意图；

图10为本发明实施例五中的一种语音处理装置的结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器、色温传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；色温传感器用于检测环境光的色温；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络系统进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等，此处不做限定。

基于上述移动终端硬件结构以及通信网络系统，提出本发明方法各个实施例。

实施例一

基于前述的实施例，本发明实施例提供一种语音处理方法，该方法应用于终端，该方法所实现的功能可以通过终端中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该终端至少包括处理器和存储介质。

图3为本发明实施例一中的语音处理方法的流程示意图，如图3所示，该方法包括：

S301、接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；

终端通过声音传感器比如：麦克风采集声音，采集语音信号，当采集到语音信号时，将采集到的语音信号以数据的形式发送给终端的处理器。当处理器接收到语音信号时，对接收的语音信号进行语音识别，具体的，可对接收到的语音信号进行频域转换，得待接收到的语音信号的频率、振幅等语音特征，根据语音参数确定语音信号是否为哭闹语音信号。

这里，根据语音参数确定语音信号是否为哭闹语音信号可将检测的语音参数与哭闹语音信号的语音参数进行比对，当接收到的语音信号的语音参数属于哭闹语音信号的对应的语音参数范围时，可确定接收的语音信号为哭闹语音信号。其中，哭闹语音信号的语音参数可通过对哭闹语音信号进行分析确定，并存储在终端中。

在本发明实施例中，也可通过低功耗的传感器中枢sensor hub控制语音传感器检测语音信号，在接收到语音信号后，对接收的语音信号进行处理，确定接收的语音信号为哭闹语音信号，从而在终端处于休眠状态不启动处理器的情况下，通过sensor hub实现语音信号的处理，降低终端功率消耗，提高终端的续航能力。

S302、对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；

当确定接收到的语音信号为哭闹语音信号时，对哭闹语音信号进行语音分析，具体的，可分析哭闹语音信号的持续时间、节奏、音节、音调以等表征哭闹情况的语音特征，确定接收到的哭闹语音信号的节奏变化、音节变化、音调变化等哭闹变化情况，根据分析的语音特征确定哭闹语音信号的语音类型。

哭闹语音信号的语音类型包括：有节奏的哭闹、无节奏的哭闹、声音由小变大的哭闹、声音由大变小的哭闹、声音低沉的哭闹、声音很大的哭闹、带有颤音的哭闹、间歇性哭闹等根据哭闹语音信号的持续时间、节奏、音节等语音特征确定的反映哭闹语音信号的变化的类型。这里，可针对不同的语音类型设置不同的类型标识，比如：有节奏的哭闹为类型1，无节奏的哭闹为类型2，声音由小变大的哭闹为类型3，声音由大变小的哭闹为类型4，声音低沉的哭闹为类型5等。

这里，可在接收到哭闹语音信号设定时长后，开始进行语音分析，设定的时长可为5秒、10秒等，具体的时长可由用户根据需求进行设定，以避免在检测到哭闹语音信号后立即对接收的哭闹语音信号进行语音分析，防止对误接收到的哭闹语音信号进行分析，从而提高检测的准确性。

哭闹语音信号的哭闹模式包括：正常哭闹、饥饿哭闹、困倦哭闹、口渴哭闹、吃的过多哭闹、尿布湿了哭闹、冷哭闹、热哭闹、抱抱哭闹、疼痛哭闹等生理性哭闹模式，还包括夜间惊哭、肠绞痛等病理性哭闹模式。其中，生理性哭闹模式的哭闹为婴儿健康状态下由于生理性的需求而引起的哭闹，病理性哭闹模式的哭闹为婴儿因为生病而导致的哭闹。对于不同的哭闹模式，可通过哭闹模式标识来标识不同的哭闹模式，具体的标识方式不进行限定。

在确定哭闹语音信号的语音类型后，可通过哭闹语音信号的语音类型确定哭闹语音信号的哭闹模式。比如：当哭闹语音信号为有节奏且声音持续在一个较小范围内的哭闹信号时，可确定当前哭闹语音信号对应的哭闹模式为正常哭闹；当哭声语音信号的声音由小到大且很有节奏时，可判断当前的哭闹语音信号对应的哭闹模式为饥饿性哭；当哭闹语音信号为一阵一阵的声音比较小的哭闹时，可确定当前哭闹语音信号对应的哭闹模式为困倦哭闹；当哭闹语音信号的哭声平和，带有颤音，很有节奏感时，可判断哭闹语音信号为抱抱哭闹。这里，仅给出部分根据语音类型确定哭闹模式的举例，具体的根据语音类型确定哭闹语音信号的哭闹模式可根据婴儿的不同模式哭闹的特征进行设定。

在本发明实施例中，还包括：获取当前时间信息。当获取当前时间信息时，

当检测到的哭闹语音信号时，所述根据所述语音类型确定所述哭闹语音信号对应的哭闹模式的步骤包括：根据当前时间信息和所述语音类型确定所述哭闹语音信号对应的哭闹模式。

这里，在根据哭闹语音信号的语音特征确定哭闹语音信号的语音类型后，结合当前时间的时间信息来确定当前的哭闹模式，比如：当哭闹语音信号的语音类型为声音由小到大且很有节奏时，当前的时间为16:56，根据哭闹语音信号的语音类型初步确定为饥饿哭闹或者饥渴哭闹，进一步根据当前时间和上一次吃奶的时间间隔确定是否达到吃奶时间，如果达到吃奶时间，则确定哭闹语音信号的哭闹模式为饥饿哭闹，否则判断该哭闹语音信号的饥渴哭闹。其中，可设定吃奶时间间隔为3小时30分钟到4小时30分钟，当当前时间为16:56，上一次吃奶时间为15:30分时，距离上一次吃奶时间的时间间隔为1小时26分钟，小于设定的吃奶时间间隔，则确定当前未达到吃奶时间，则确定该哭闹语音信号为饥渴模式，当上一次吃奶时间为13::10，距离上一次吃奶的时间间隔为3小时46分钟，大于设定的吃奶时间间隔，则确定哭闹语音信号为饥饿性哭闹。又比如：设定吃奶的时间为8:30-9:30、12:30-13:30、16:30-17:30、20:30-21:30，当哭闹语音信号的语音类型为声音由小到大且很有节奏时，当前的时间为16:56，根据哭闹语音信号的语音类型初步确定为饥饿哭闹或者饥渴哭闹，当前的时间为16:56时，当前时间16:56分在吃奶时间16:30-17:30之间，则确定哭闹语音信号的哭闹模式为饥饿哭闹，当前的时间为13:56时，当前时间13:56分不在吃奶时间范围内，则确定哭闹语音信号的哭闹模式为饥渴哭闹。

需要说明的是，在上述的确定饥饿哭闹的过程中，可针对不同月龄的婴儿设置不同的吃奶间隔或不同的吃奶时间，可在终端中录入婴儿的出生时间，根据婴儿的出生时间和当前的出生时间确定婴儿的月龄，根据婴儿的月龄自动确定吃奶间隔时长，或有用户根据需求设置吃奶间隔或吃奶时间。

S303、根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

在确定哭闹语音信号的哭闹模式后，根据哭闹模式确定发出哭闹语音信号的婴儿的哭闹需求。其中，可预先设置不同的哭闹模式与对应的哭闹需求的对应关系，根据哭闹模式与哭闹需求的对应关系确定婴儿的哭闹需求，比如：当确定哭闹模式为饥饿模式时，根据饥饿模式与对应的哭闹需求的对应关系确定当前的哭闹需求为喂奶；也可在确定哭闹语音信号的哭闹模式时，根据该哭闹模式的关键词在网络中查找该哭闹模式对应的哭闹需求，比如：当确定哭闹模式为肠绞痛哭闹时，肠绞痛哭闹模式对应的关键词为肠绞痛，可调用浏览器，在浏览器中搜索肠绞痛相关的资料，并将搜索出的资料显示在终端上。在确定出哭闹需求时，可将哭闹需求展示在终端上，也可控制设定的智能家居设备执行设定的操作，以对婴儿进行安抚，满足婴儿的需求。

比如：当确定哭闹模式为饥饿哭闹时，确定婴儿的需求为喂奶，如图4所示，在终端显示提醒“宝宝饿了，请喂奶！”，在显示界面上显示奶瓶，以形象的提醒用户当前的哭闹模式，同时控制打开温奶器的上盖，以使得用户方便取奶。又比如：当确定哭闹语音信号的哭闹模式为困倦模式时，在终端上播放摇篮曲。其中，在展示哭闹需求时，可通过如图4所示的显示界面进行显示，也可通过语音消息，或提醒消息进行展示。

又比如：当确定哭闹模式为肠绞痛引起的哭闹时，确定减轻肠绞痛的方法，并搜索附件的医院，使得用户自己在减轻婴儿的疼痛的同时，尽快到医院找医生。

在本发明实施例中，当确定哭闹语音信号的模式为正常哭闹、或困倦哭闹等可通过音乐的方式进行安抚的模式时，可基于不同的模式不同的音乐，在播放音乐的过程中，检测哭闹语音信号的变化情况，确定接收的哭闹语音信号为加重哭闹还是减轻哭闹，可根据哭闹的变化情况更换播放的音乐。

需要说明的是，针对不同的婴儿，可设置不同的用于判断哭闹语音信号的语音类型的判断准则，该准则可通过学习、用户设置等方式得到。

这里，本发明实施例提供的语音处理方法，在确定接收到的语音信号为哭闹语音信号时，根据哭闹语音信号的语音类型判断哭闹语音信号对应的哭闹模式，在确定哭闹语音信号的哭闹模式后，确定哭闹模式的需求信息，其中，不同的哭闹模式表征不同的哭闹原因，不同哭闹模式对应的需求信息为该哭闹模式下安抚婴儿最有效的方法，从而及时的定位婴儿哭闹的原因，并根据婴儿哭闹的模式确定安抚婴儿的方法，避免照顾婴儿的家长在婴儿哭时，盲目的根据自己的猜测采用无用的方法来安抚婴儿。进一步地，在判断哭闹语音信号的哭闹模式时，结合时间信息，根据时间信息和哭闹语音信号的语音类型精确地判断出哭闹语音信号的哭闹模式。

实施例二

图5为本发明实施例二中的语音处理方法的流程示意图，如图5所示，该方法包括：

S501、接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；

S502、对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型；

S503、获取发出哭闹语音信号的哭闹主体的目标图像，通过所述目标图像检测所述哭闹主体的行为模式；

这里，可在分析哭闹语音信号的语音类型时或在分析出哭闹语音信号的语音类型时开启图像采集装置，比如摄像头，通过图像采集装置拍摄发出哭闹语音信号的哭闹主体的目标图像，这里，图像采集装置可设置在终端上，也可与终端通过无线的方式进行连接。当图像采集装置与终端通过无线的方式进行连接时，终端与图形采集装置的位置不受限定，终端控制图像采集装置的拍摄位置，具体的，分析哭闹语音信号的哭闹主体所在的位置，分析出位置后，控制图像采集装置的拍摄目标为哭闹主体所在的位置，以采集哭闹主体的目标图像，图像采集装置采集到哭闹主体的目标图像后，将采集的目标图像以数据的形式发送给终端。

终端在接收到图像采集装置采集到的包括哭闹主体的目标图像后，可在后台对包括哭闹主体的图像进行图像分析，不在终端的显示界面上显示；也可在对包括哭闹主体的目标图像进行分析的同时，在终端的显示界面上显示包括哭闹主体的目标图像。其中，哭闹主体为发出哭闹语音信号的婴儿。

当终端从图像采集装置获取到包括哭闹主体的目标图像，对目标图像中的哭闹主体的行为进行分析，以确定哭闹主体的行为模式，其中，行为模式包括：摇头晃脑、张开小嘴、有眼泪、没有眼泪、闭眼睛、小腿乱蹬等行为模式，这里，可对应不同的行为模式设置不同的行为标识。比如：摇头晃脑的行为标识为1，张开小嘴的行为标识为2，有眼泪的行为标识为3，没有眼泪的行为标识为4，闭眼睛的行为标识为5，小腿乱蹬的行为标识为6。这里通过1、2、3、4、5、6对不同的行为模式对应的行为标识进行举例，也可通过其他的行为标识进行标识。

S504、根据所述哭闹主体的行为模式和所述语音类型确定所述哭闹语音信号对应的哭闹模式；

当获取哭闹主体的行为模式时，所述根据所述语音类型确定所述哭闹语音信号对应的哭闹模式的步骤包括：根据所述哭闹主体的行为模式和所述语音类型确定所述哭闹语音信号对应的哭闹模式。

在确定行为模式时，根据行为模式和S503中确定的语音类型确定哭闹语音信号对应的哭闹模式，这里，语音类型可通过不同的语音标识进行标识。

在确定哭闹语音信号对应的哭闹模式时，可根据行为模式、语音类型和哭闹模式对应的关系来确定哭闹模式。需要说明的时，对于一个哭闹模式，可对应多个不同的行为模式，比如：尿布湿了哭闹对应的行为模式包括没有眼泪和小腿乱蹬。同时，同一个行为模式可同时对应多个不同的哭闹模式，比如：尿布湿了哭闹对应的行为模式包括小腿乱蹬，热哭闹对应的行为模式也包括小腿乱蹬。

根据行为模式和语音类型确定哭闹模式可包括：

声音抑扬顿挫，很响亮，并有节奏感，哭而无泪，为正常哭闹；哭声带有乞求感，声音由小到大，很有节奏，宝宝张开小嘴做出找东西吃的样子，并有吸吮动作，为饥饿哭闹；宝宝嘴唇发干，时不时地小舌头舔嘴唇，而且显得很烦躁，为饥渴哭闹；大多发生在喂奶后，宝宝哭声尖，同时乱蹬两条小腿，为吃的过多哭闹；哭声不太大，且哭时没有眼泪，两条小腿一个劲地蹬被，为尿布湿了哭闹；哭声不太响，较低沉但有节奏，宝宝哭时不怎么动身体，为冷哭闹；宝宝哭声很大，神情不安，小胳膊和小腿直舞动，脖子上有很多汗，为热哭闹；宝宝一阵一阵地发出不耐烦的号叫，眼睛无神，眼睛也不太爱睁开，为困倦哭闹；哭升平和，带有颤音，很有节奏感，宝宝的头不停地转动，一幅“左顾右盼”样子，为抱抱哭闹；本来好好的宝宝，突然发生尖利的哭声，为疼痛哭闹；宝宝在夜间总醒，哭一会儿，睡一会儿，很不安宁，如同受了惊吓；哭时常呈睡状，闭着眼睛哭，同时肢体抖动，为夜间惊哭；宝宝突然剧烈地哭闹。这种哭闹非同寻常，一阵一阵的，为阵发性哭闹；宝宝发出尖叫般的哭声，脸阵阵青紫、四肢肌肉抖动，为突发尖叫哭闹；宝宝哭声大而高，在夜间更甚，哭时总晃动着头，或抓耳挠腮，为哭闹伴抓耳挠腮；宝宝连续短促的急哭，并口唇发紫，出气很费劲，有时还伴有发烧，为哭闹伴咳喘。

S505、根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

本发明实施例提供的语音处理方法中，在确定婴儿的哭闹模式时，结合哭闹语音信号的语音类型和获取到的婴儿的行为模式来确定婴儿的哭闹模式，以更准确的判断婴儿的哭闹原因。

实施例三

图6为本发明实施例三中的语音处理方法的流程示意图，如图6所示，具体包括：

S601、接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；

S602、对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；

S603、根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求；

S604、根据所述哭闹需求确定候选目标位置信息，根据所述候选目标位置信息和当前位置信息之间的距离确定目标位置信息，展示所述目标位置信息。

在S603中确定当前哭闹模式对应的哭闹需求后，根据哭闹需求确定候选目标位置信息，在确定候选目标位置信息后，根据获取的当前的位置信息计算当前位置信息和候选目标位置信息的距离，其中，将和当前位置信息之间的距离最短的候选目标位置信息作为目标位置信息。

这里，在确定位置候选目标位置信息和当前位置信息之间的距离时，该距离可为候选目标位置信息指示的位置和当前位置信息指示的位置之间的规划路径的长度，而非限制于直线距离。

比如：当哭闹模式为饥饿哭闹，哭闹需求为喂奶时，则查找母婴室的位置信息，查找出所有的母婴室的位置信息，其中，包括母婴室A、母婴室B、母婴室C和母婴室D。分别计算母婴室A、母婴室B、母婴室C、母婴室D和当前位置信息之间的距离，其中，计算得出的距离分别为距离A、距离B、距离C和距离D，其中，距离A<距离B<距离C<距离D，则目标位置信息为母婴室A的位置信息。这里，母婴室A和当前位置信息之间的直线距离为距离1，母婴室和当前位置信息之间的直线距离为距离2，且距离1>距离2，但距离A为母婴室A和当前位置信息之间的规划路径的长度，距离B为母婴室B和当前位置信息之间的规划路径之间的长度，距离A<距离B，则以规划路径的长度为标准，目标位置信息为母婴室A的位置信息。在确定出目标位置信息后，可如图7所示，在终端的显示界面上展示目标位置信息的具体位置，并给出导航指示。

又比如：在确定哭闹模式为病理性哭闹时，哭闹需求包括找带大夫时，查找医院的位置信息，并给出距离当前位置最近的医院的具体位置。

本发明实施例提供的语音处理方法，在确定出需求信息后，根据需求信息确定能够满足需求信息对应的需求的候选目标位置信息，并根据当前位置信息确定出距离当前位置信息最近的目标位置信息，以使得用户能够根据确定出的目标位置信息尽快的满足婴儿的哭闹需求。

实施例四

图8为本发明实施例四中的语音处理方法的流程示意图，如图8所示，具体包括：

S801、接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；

S802、对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；

S803、将所述哭闹模式进行展示；

在确定出哭闹模式时，将确定的哭闹模式进行展示，如图9所示，可通过显示界面显示当前的哭闹模式，在图9所示的显示界面中，除了显示当前的哭闹模式“饥饿模式”外，还包括控件“下一步”和“修改”。其中，“下一步”控件用于进入当前显示界面的下一个界面，即当前哭闹模式的需求信息，“修改”空间用于接收用户对应哭闹模式的修改操作。当终端接收到针对“下一步”控件的操作时，则确定当前的哭闹模式判断正确，则继续显示当前判断出的哭闹模式的哭闹需求的具体的需求信息。当终端接收到针对“修改”控件的操作时，则确定当前的哭闹模式判断不准确，接收用户输入的哭闹模式，这里在接收用户输入的哭闹模式，可通过图9中所示的选择操作选择修改后的哭闹模式，或通过选择操作中未命名的哭闹模式来编辑哭闹模式的名称。

S804、接收到修改哭闹模式的修改操作，获取所述修改操作的修改后的哭闹模式，将修改后的哭闹模式作为所述哭闹模式；

通过如图7所示的显示界面接收用户的修改哭闹模式的修改操作，并确定修改操作的哭闹模式，修改操作输入的哭闹模式为修改后的哭闹模式。这里，可通过显示界面接收修改操作，也可通过其他方式比如：语音输入、哭闹模式选择等方式接收用户的修改操作，并确定修改操作的修改后的哭闹模式。

将修改后的哭闹模式作为确定的正确的哭闹模式，这里，将接收到的哭闹语音信号的语音类型、时间信息、图像信息等判断哭闹模式的信息和修改后的哭闹模式进行绑定，以确定再次接收到同样的哭闹语音信号时，做出准确的判断。

S805、根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

本发明实施例提供的语音处理方法，判断出哭闹模式后，可提供修改机制接收用户对判断出的哭闹模式的更新，并将更新后的哭闹模式和接收到的哭闹语音信号进行绑定，从而在判断哭闹模式的同时学习哭闹语音信号和哭闹模式之间的关系，使得哭闹模式的判断具有可扩展性。

实施例五

基于前述的方法实施例，本发明实施例提供一种语音处理装置，如图10所示，所述装置包括：存储器1001、处理器1002及存储在存储器1002上并可在处理器1001上运行的计算机程序，处理器1002执行所述计算机程序，以实现：

接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

处理器1002执行所述计算机程序时，还实现：获取发出哭闹语音信号的哭闹主体的目标图像，通过所述目标图像检测所述哭闹主体的行为模式；

处理器1002执行所述计算机程序时，实现所述根据所述语音类型确定所述哭闹语音信号对应的哭闹模式的步骤包括：根据当前时间信息和所述语音类型确定所述哭闹语音信号对应的哭闹模式。

处理器1002执行所述计算机程序时，还实现：根据所述哭闹需求确定候选目标位置信息，根据所述候选目标位置信息和当前位置信息之间的距离确定目标位置信息，展示所述目标位置信息。

处理器1002执行所述计算机程序时，在根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求之前，还实现：将所述哭闹模式进行展示；接收到修改哭闹模式的修改操作，获取所述修改操作的修改后的哭闹模式，将修改后的哭闹模式作为所述哭闹模式。

需要说明的是，本发明实施例中的存储器1001对应图1中的存储器109，处理器1002对应图1中的处理器110。

实施例六

为实现上述方法，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现：接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

所述计算机程序被处理器执行时，还实现：获取发出哭闹语音信号的哭闹主体的目标图像，通过所述目标图像检测所述哭闹主体的行为模式；

所述计算机程序被处理器执行时，实现所述根据所述语音类型确定所述哭闹语音信号对应的哭闹模式的步骤包括：根据当前时间信息和所述语音类型确定所述哭闹语音信号对应的哭闹模式。

所述计算机程序被处理器执行时，还实现：根据所述哭闹需求确定候选目标位置信息，根据所述候选目标位置信息和当前位置信息之间的距离确定目标位置信息，展示所述目标位置信息。

所述计算机程序被处理器执行时，在根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求之前，还实现：将所述哭闹模式进行展示；接收到修改哭闹模式的修改操作，获取所述修改操作的修改后的哭闹模式，将修改后的哭闹模式作为所述哭闹模式。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

接收到语音信号，对所述语音信号进行语音识别，确定所述语音信号为哭闹语音信号；

对所述哭闹语音信号进行语音分析得到所述哭闹语音信号的语音类型，根据所述语音类型确定所述哭闹语音信号对应的哭闹模式；

根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述根据所述语音类型确定所述哭闹语音信号对应的哭闹模式的步骤包括：

根据所述哭闹主体的行为模式和所述语音类型确定所述哭闹语音信号对应的哭闹模式。

3.根据权利要求1所述的方法，其特征在于，所述根据所述语音类型确定所述哭闹语音信号对应的哭闹模式的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述哭闹需求确定候选目标位置信息，根据所述候选目标位置信息和当前位置信息之间的距离确定目标位置信息，展示所述目标位置信息。

5.根据权利要求1所述的方法，其特征在于，在根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求之前，所述方法还包括：

将所述哭闹模式进行展示；

接收到修改哭闹模式的修改操作，获取所述修改操作的修改后的哭闹模式，将修改后的哭闹模式作为所述哭闹模式。

6.一种语音处理装置，其特征在于，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序，以实现：

根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求。

7.根据权利要求6所述的装置，其特征在于，所述处理器执行所述计算机程序时，还实现：

8.根据权利要求6所述的装置，其特征在于，所述处理器执行所述计算机程序时，还实现：

9.根据权利要求6所述的装置，其特征在于，所述处理器执行所述计算机程序时，在根据所述哭闹模式确定所述哭闹语音信号对应的哭闹需求之前，还实现：

将所述哭闹模式进行展示；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音处理方法。