CN110278402A

CN110278402A - 一种双声道音频处理方法、设备及计算机可读存储介质

Info

Publication number: CN110278402A
Application number: CN201910549427.XA
Authority: CN
Inventors: 曹爱萍
Original assignee: Nubia Technology Co Ltd
Current assignee: Fangjianghu Shandong Technology Group Co ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2019-09-24
Anticipated expiration: 2039-06-24
Also published as: CN110278402B

Abstract

本发明公开了一种双声道音频处理方法、设备及计算机可读存储介质，其中，该方法包括：获取当前的视频通话状态，同时，识别当前的即时通信内容；然后，提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征；再然后，当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长；最后，在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音。实现了一种人性化的双声道音频处理方案，使得用户在视频通话过程中，在不挂断视频通话的情况下，即可对未读语音信息进行听取，提高了操作效率，增强了用户体验。

Description

一种双声道音频处理方法、设备及计算机可读存储介质

技术领域

本发明涉及移动通信领域，尤其涉及一种双声道音频处理方法、设备及计算机可读存储介质。

背景技术

现有技术中，随着智能终端设备的快速发展，越来越多的用户在使用智能终端设备时，为了提高操作效率，开始使用多任务功能或者分屏功能，例如，当用户在视频聊天时，也可以进行其它的聊天操作。而在现有技术中，当用户处于视频聊天时，无法正常播放其它聊天过程中的语音信息，或者，当播放该语音信息时，可能会对视频聊天过程中的语音造成干扰。因此，现有技术中，视频聊天过程中无法同时听取未读语音信息，给用户带来操作上的不便，降低了用户体验。

发明内容

为了解决现有技术中的上述技术缺陷，本发明提出了一种双声道音频处理方法，该方法包括：

获取当前的视频通话状态，同时，识别当前的即时通信内容；

提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征；

当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长；

在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音。

可选的，所述获取当前的视频通话状态，同时，识别当前的即时通信内容，包括：

获取所述视频通话状态，其中，所述视频通话状态包括本方的第一语音状态和对方的第二语音状态；

识别所述即时通信内容，其中，所述即时通信内容包括通信联系人和通信历史记录。

可选的，所述提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征，包括：

解析所述即时通信内容，提取与所述未读语音信息对应的通信联系人和通信历史记录；

根据所述通信联系人的联系人属性以及所述通信历史记录的关键信息得到所述未读语音信息的信息特征。

可选的，所述当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长，包括：

监测所述第一语音状态以及所述第二语音状态，当所述第一语音状态和或所述第二语音状态处于暂停状态时，确定所述视频通话状态处于所述空闲状态；

获取所述未读语音信息的语音时长，并根据所述语音时长以及所述空闲状态，确定所述延迟时长。

可选的，所述在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音，包括：

在所述第一声道中实时播放所述视频通话的视频语音；

在播放所述视频通话的视频语音的同时，若接收到所述未读语音信息的播放指令，则在接收到所述播放指令并延迟所述延迟时长后，在所述第二声道中播放所述未读语音信息的未读语音。

本发明还提出了一种双声道音频处理设备，该设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现：

可选的，所述计算机程序被所述处理器执行时实现：

获取所述未读语音信息的语音时长，并根据所述语音时长以及所述空闲状态，确定所述延迟时长；

在所述第一声道中实时播放所述视频通话的视频语音；

本发明还提出了一种计算机可读存储介质，该计算机可读存储介质上存储有双声道音频处理程序，双声道音频处理程序被处理器执行时实现如上述任一项所述的双声道音频处理方法的步骤。

实施本发明的双声道音频处理方法、设备及计算机可读存储介质，通过获取当前的视频通话状态，同时，识别当前的即时通信内容；然后，提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征；再然后，当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长；最后，在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音。实现了一种人性化的双声道音频处理方案，使得用户在视频通话过程中，在不挂断视频通话的情况下，即可对未读语音信息进行听取，提高了操作效率，增强了用户体验。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明涉及的一种移动终端的硬件结构示意图；

图2是本发明实施例提供的一种通信网络系统架构图；

图3是本发明双声道音频处理方法第一实施例的流程图；

图4是本发明双声道音频处理方法第二实施例的流程图；

图5是本发明双声道音频处理方法第三实施例的流程图；

图6是本发明双声道音频处理方法第四实施例的流程图；

图7是本发明双声道音频处理方法第五实施例的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System ofMobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络系统进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial RadioAccess Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(MobilityManagement Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等，此处不做限定。

基于上述移动终端硬件结构以及通信网络系统，提出本发明方法各个实施例。

实施例一

图3是本发明双声道音频处理方法第一实施例的流程图。一种双声道音频处理方法，该方法包括：

S1、获取当前的视频通话状态，同时，识别当前的即时通信内容；

S2、提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征；

S3、当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长；

S4、在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音。

在本实施例中，首先，获取当前的视频通话状态，同时，识别当前的即时通信内容；然后，提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征；再然后，当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长；最后，在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音。

具体的，在本实施例中，首先，获取当前的视频通话状态，同时，识别当前的即时通信内容。其中，以手机为例，当用户使用手机进行视频通话时，此次，若用户将视频通话界面切换至后台，然后将聊天应用程序的聊天界面切换至前台时，若发现该聊天应用程序的聊天界面内存在未读语音信息，则开始监测并获取处于后台的视频通话的视频通话状态，或者，当用户使用手机进行视频通话时，此次，若用户将手机进行分屏，其中一屏显示视频通话界面，然后将聊天应用程序的聊天界面切换另一屏进行分屏显示时，若发现该聊天应用程序的聊天界面内存在未读语音信息，则开始监测并获取处于后台的视频通话的视频通话状态。

具体的，在本实施例中，提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征，其中，为了帮助用户事先确定该未读语音信息的一些关键性因素，在本实施例中，将提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征，该信息特征用于事先确定该未读语音信息的联系人、语音时长，为了进一步提高本实施例针对未读语音信息的分析深度，便于后续确定更为准确的延迟时长，在本实施例，该信息特定还包括未读语音信息内的语音类别以及语音语义的初步识别结果，该初步识别结果包括语音关键词，例如，地点、人物、时间以及事件等。

具体的，在本实施例中，当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长。其中，为了避免收听未读语音信息时，对视频通话过程中的视频语音造成影响，在本实施例中，在播放未读语音信息之前，需要确定视频通话状态是否处于空闲状态，其中，该空闲状态并非视频通话过程中处于无声的状态，而是在视频通话过程中，双方或其中一方处于停顿的状态，在此状态下，双方或其中一方对视频通话过程中的视频语音需求不是特别高，因此，在本实施例中，将利用此间隙状态预备播放未读语音信息中的未读语音，同时，为了避免未读语音在开始播放时与上述视频语音造成混淆或干扰，在本实施例中，将结合所述信息特征中的语音时长，确定当前的延迟时长。

具体的，在本实施例中，在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音。将当前手机的扬声器或者耳机的双声道进行切分，也即，在在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音，从而便于用户在视频通话过程中，在不挂断视频通话的情况下，实现对未读语音信息的听取，提高了操作效率，增强了用户体验。

本实施例的有益效果在于，通过获取当前的视频通话状态，同时，识别当前的即时通信内容；然后，提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征；再然后，当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长；最后，在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音。实现了一种人性化的双声道音频处理方案，使得用户在视频通话过程中，在不挂断视频通话的情况下，即可对未读语音信息进行听取，提高了操作效率，增强了用户体验。

实施例二

图4是本发明双声道音频处理方法第二实施例的流程图，基于上述实施例，所述获取当前的视频通话状态，同时，识别当前的即时通信内容，包括：

S11、获取所述视频通话状态，其中，所述视频通话状态包括本方的第一语音状态和对方的第二语音状态；

S12、识别所述即时通信内容，其中，所述即时通信内容包括通信联系人和通信历史记录。

在本实施例中，首先，获取所述视频通话状态，其中，所述视频通话状态包括本方的第一语音状态和对方的第二语音状态；然后，识别所述即时通信内容，其中，所述即时通信内容包括通信联系人和通信历史记录。

可选的，获取所述视频通话状态，其中，所述视频通话状态包括本方的第一语音状态和对方的第二语音状态，具体来说，语音状态是指语音双发的发声状态，而并不包括环境音等其它音频，同时，该语音状态还包括特定的关键词信息，例如，“让我想一想先”、“您现在可以再考虑下”等具有延迟或等待含义的关键词；

可选的，识别所述即时通信内容，其中，所述即时通信内容包括通信联系人和通信历史记录，具体的，确定通信联系人是否为常用联系人或者关键联系人，同时，根据通信历史记录确定当前未读的语音信息是否为重要的语音信息等。

本实施例的有益效果在于，通过获取所述视频通话状态，其中，所述视频通话状态包括本方的第一语音状态和对方的第二语音状态；然后，识别所述即时通信内容，其中，所述即时通信内容包括通信联系人和通信历史记录。实现了一种更为人性化的双声道音频处理方案，使得用户在视频通话过程中，在不挂断视频通话的情况下，即可对未读语音信息进行听取，提高了操作效率，增强了用户体验。

实施例三

图5是本发明双声道音频处理方法第三实施例的流程图，基于上述实施例，所述提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征，包括：

S21、解析所述即时通信内容，提取与所述未读语音信息对应的通信联系人和通信历史记录；

S22、根据所述通信联系人的联系人属性以及所述通信历史记录的关键信息得到所述未读语音信息的信息特征。

在本实施例中，首先，解析所述即时通信内容，提取与所述未读语音信息对应的通信联系人和通信历史记录；然后，根据所述通信联系人的联系人属性以及所述通信历史记录的关键信息得到所述未读语音信息的信息特征。

可选的，解析所述即时通信内容，提取与所述未读语音信息对应的通信联系人和通信历史记录，其中，如上例所述，根据通信联系人和通信历史记录确定未读语音信息的权重；

可选的，根据所述通信联系人的联系人属性以及所述通信历史记录的关键信息得到所述未读语音信息的信息特征，其中，该信息特征包括未读语音信息内的语音类别以及语音语义的初步识别结果，该初步识别结果包括语音关键词，例如，地点、人物、时间以及事件等，而当分析得到未读语音信息对应的联系人即为当前视频通话的联系人时，则该特征信息还包括未读语音信息的关联词是否出现于视频聊天过程中，若是，则暂时性地标记为已读，若否，则保持未读标记。

本实施例的有益效果在于，通过解析所述即时通信内容，提取与所述未读语音信息对应的通信联系人和通信历史记录；然后，根据所述通信联系人的联系人属性以及所述通信历史记录的关键信息得到所述未读语音信息的信息特征。实现了一种更为人性化的双声道音频处理方案，使得用户在视频通话过程中，在不挂断视频通话的情况下，即可对未读语音信息进行听取，提高了操作效率，增强了用户体验。

实施例四

图6是本发明双声道音频处理方法第四实施例的流程图，基于上述实施例，所述当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长，包括：

S31、监测所述第一语音状态以及所述第二语音状态，当所述第一语音状态和或所述第二语音状态处于暂停状态时，确定所述视频通话状态处于所述空闲状态；

S32、获取所述未读语音信息的语音时长，并根据所述语音时长以及所述空闲状态，确定所述延迟时长。

在本实施例中，首先，监测所述第一语音状态以及所述第二语音状态，当所述第一语音状态和或所述第二语音状态处于暂停状态时，确定所述视频通话状态处于所述空闲状态；然后，获取所述未读语音信息的语音时长，并根据所述语音时长以及所述空闲状态，确定所述延迟时长。

可选的，监测所述第一语音状态以及所述第二语音状态，当所述第一语音状态和或所述第二语音状态处于暂停状态时，确定所述视频通话状态处于所述空闲状态，可以理解的是，该空闲状态并不能确定后续保持多久的“空闲”时间，在本实施例中，仅确定当前处于空闲状态时，即可开始准备接收未读语音信息的播放指令；

可选的，获取所述未读语音信息的语音时长，并根据所述语音时长以及所述空闲状态，确定所述延迟时长，可以理解的是，当两个声道的不同声音同时播放，或者，在其中一个声道在播放过程中，另一个声道开始播放时，这两种情况均可能给用户带来听觉上的干扰，因此，在本实施例中，避免两个声道的不同声音同时播放，而采用延迟后的相继播放的方式进行未读语音信息的未读语音播放操作。

本实施例的有益效果在于，通过监测所述第一语音状态以及所述第二语音状态，当所述第一语音状态和或所述第二语音状态处于暂停状态时，确定所述视频通话状态处于所述空闲状态；然后，获取所述未读语音信息的语音时长，并根据所述语音时长以及所述空闲状态，确定所述延迟时长。实现了一种更为人性化的双声道音频处理方案，使得用户在视频通话过程中，在不挂断视频通话的情况下，即可对未读语音信息进行听取，提高了操作效率，增强了用户体验。

实施例五

图7是本发明双声道音频处理方法第五实施例的流程图，基于上述实施例，所述在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音，包括：

S41、在所述第一声道中实时播放所述视频通话的视频语音；

S42、在播放所述视频通话的视频语音的同时，若接收到所述未读语音信息的播放指令，则在接收到所述播放指令并延迟所述延迟时长后，在所述第二声道中播放所述未读语音信息的未读语音。

在本实施例中，首先，在所述第一声道中实时播放所述视频通话的视频语音；然后，在播放所述视频通话的视频语音的同时，若接收到所述未读语音信息的播放指令，则在接收到所述播放指令并延迟所述延迟时长后，在所述第二声道中播放所述未读语音信息的未读语音。

可选的，在所述第一声道中实时播放所述视频通话的视频语音；

可选的，在播放所述视频通话的视频语音的同时，若接收到所述未读语音信息的播放指令，则在接收到所述播放指令并延迟所述延迟时长后，在所述第二声道中播放所述未读语音信息的未读语音；

可选的，当所述未读语音较长，且所述视频语音恢复正常通话状态时，暂停所述未读语音，当所述视频语音重新恢复空闲状态时，按上述实施例重新开始播放经暂停的未读语音。

本实施例的有益效果在于，通过在所述第一声道中实时播放所述视频通话的视频语音；然后，在播放所述视频通话的视频语音的同时，若接收到所述未读语音信息的播放指令，则在接收到所述播放指令并延迟所述延迟时长后，在所述第二声道中播放所述未读语音信息的未读语音。实现了一种更为人性化的双声道音频处理方案，使得用户在视频通话过程中，在不挂断视频通话的情况下，即可对未读语音信息进行听取，提高了操作效率，增强了用户体验。

实施例六

基于上述实施例，本发明还提出了一种双声道音频处理设备，该设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现：

实施例七

基于上述实施例，所述计算机程序被所述处理器执行时实现：

实施例八

实施例九

在所述第一声道中实时播放所述视频通话的视频语音；

在本实施例中，还包括，首先，在所述第一声道中实时播放所述视频通话的视频语音；然后，在播放所述视频通话的视频语音的同时，若接收到所述未读语音信息的播放指令，则在接收到所述播放指令并延迟所述延迟时长后，在所述第二声道中播放所述未读语音信息的未读语音。

实施例十

基于上述实施例，本发明还提出了一种计算机可读存储介质，该计算机可读存储介质上存储有双声道音频处理程序，双声道音频处理程序被处理器执行时实现如上述任一项所述的双声道音频处理方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种双声道音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的双声道音频处理方法，其特征在于，所述获取当前的视频通话状态，同时，识别当前的即时通信内容，包括：

3.根据权利要求2所述的双声道音频处理方法，其特征在于，所述提取所述即时通信内容中的未读语音信息，获取所述未读语音信息的信息特征，包括：

4.根据权利要求3所述的双声道音频处理方法，其特征在于，所述当所述视频通话状态处于空闲状态时，结合所述信息特征中的语音时长，确定当前的延迟时长，包括：

5.根据权利要求4所述的双声道音频处理方法，其特征在于，所述在第一声道中播放所述视频通话的视频语音，同时，在第二声道中延迟所述延迟时长后，播放所述未读语音信息的未读语音，包括：

在所述第一声道中实时播放所述视频通话的视频语音；

6.一种双声道音频处理设备，其特征在于，所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现：

7.根据权利要求6所述的双声道音频处理设备，其特征在于，所述计算机程序被所述处理器执行时实现：

8.根据权利要求7所述的双声道音频处理设备，其特征在于，所述计算机程序被所述处理器执行时实现：

9.根据权利要求8所述的双声道音频处理设备，其特征在于，所述计算机程序被所述处理器执行时实现：

在所述第一声道中实时播放所述视频通话的视频语音；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有双声道音频处理程序，所述双声道音频处理程序被处理器执行时实现如权利要求1至5中任一项所述的双声道音频处理方法的步骤。