CN110225213A

CN110225213A - 一种语音通话场景的识别方法以及音频策略服务端

Info

Publication number: CN110225213A
Application number: CN201910522205.9A
Authority: CN
Inventors: 余艳辉; 朱哮锋; 蔡学江; 谢小灵
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-09-10
Anticipated expiration: 2039-06-17
Also published as: CN110225213B

Abstract

本申请实施例公开了一种语音通话场景的识别方法，该方法包括音频策略服务端确定应用客户端进入录音；音频策略服务端检测通话状态的模式是否满足预设音频模式；若满足预设音频模式，则音频策略服务端在预设时长内判断下行流的评分结果是否满足预设音频阈值；若满足预设音频阈值，则音频策略服务端识别语音通话VoIP场景。本申请实施例还提供相应的音频策略服务端。本申请技术方案由于只要在预设时长内下行流的评分结果满足预设音频阈值，就能够准确识别出VoIP场景，有效提高识别的准确率，提升用户体验。

Description

一种语音通话场景的识别方法以及音频策略服务端

技术领域

本申请涉及语音通话技术领域，具体涉及一种语音通话场景的识别方法以及音频策略服务端。

背景技术

为了满足用户在生活或工作中的语音通话、视频通话以及录音等需求，终端设备等具备通话或录音功能，如：移动终端、平板电脑等；而且具备语音通话(voice overinternet protocol,VoIP)网络电话功能的第三方应用程序(application，APP)也越来越多，语音的清晰程度也成为了VoIP技术里最重要的用户体验。

现有技术中对于VoIP场景的识别，通常是通过判断APP的包名是否存在于通话类APP的白名单内，如果存在于白名单内，还要通过验证系统标记来确定当前该APP是否处在VoIP场景，即是否进行语音通话。但这种现有方式中如果APP不存在白名单内或者未设置系统标记，那么采用现有方法并不能识别出该APP处在VoIP场景或造成误识别。

发明内容

本申请实施例提供一种语音通话场景的识别方法以及音频策略服务端，能够实现对语音通话VoIP场景的准确识别。

第一方面，本申请实施例提供了一种语音通话场景的识别方法，该方法可以包括：音频策略服务端确定应用客户端进入录音；所述音频策略服务端检测通话状态的模式是否满足预设音频模式；若满足所述预设音频模式，则所述音频策略服务端在预设时长内判断下行流的评分结果是否满足预设音频阈值；若满足所述预设音频阈值，则音频策略服务端识别语音通话VoIP场景。

可选地，结合第一方面，在第一种可能的实现方式中，所述音频策略服务端在预设时长内判断下行流的评分结果是否满足预设音频阈值，可以包括：所述音频策略服务端划分所述预设时长为至少一个时长区间；所述音频策略服务端分别对每个时长区间中下行流的M个数据特征进行加权计算，以得到每个所述时长区间的评分结果，所述M为正整数；所述音频策略服务端判断至少一个时长区间的评分结果是否满足所述预设音频阈值。

可选地，结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述音频策略服务端确定应用客户端进入录音，可以包括：所述音频策略服务端监测所述应用客户端的录音行为，所述录音行为包括录音音频源、录音音频频道或录音采样率。

可选地，结合第一方面、第一方面的第一种或第二种可能的实现方式，在第三种可能的实现方式中，在所述音频策略服务端识别语音通话VoIP场景之后，还可以包括：所述音频策略服务端对所述VoIP场景中的语音通话进行降噪。

可选地，结合第一方面、第一方面的第一种或第二种可能的实现方式，在第四种可能的实现方式中，在所述音频策略服务端识别语音通话VoIP场景之后，还可以包括：所述音频策略服务端指示音频管理器进入所述VoIP场景。

可选地，结合上述第一方面的第四种可能的实现方式，在第五种可能的实现方式中，在所述音频策略服务端指示音频管理器进入所述VoIP场景之后，还可以包括：所述音频策略服务端监测所述下行流中是否有声音信息；若未监测到所述声音信息，则所述音频策略服务端确定所述应用客户端退出所述录音。

可选地，结合上述第一方面的第五种可能的实现方式，在第六种可能的实现方式中，在所述音频策略服务端确定所述应用客户端退出所述录音之后，还可以包括：所述音频策略服务端向所述音频管理器发送退出消息，所述退出消息用于指示所述音频管理器退出所述VoIP场景。

第二方面，本申请实施例提供了一种音频策略服务端，该音频策略服务端可以包括：确定模块，用于确定应用客户端进入录音；检测模块，用于端检测通话状态的模式是否满足预设音频模式；判断模块，用于在所述检测模块检测所述通话状态的模式满足所述预设音频模式时，在预设时长内判断下行流的评分结果是否满足预设音频阈值；识别模块，用于所述判断模块在预设时长内判断下行流的评分结果满足所述预设音频阈值，识别语音通话VoIP场景。

可选地，结合第二方面，在第一种可能的实现方式中，所述判断模块可以包括：划分单元，用于划分所述预设时长为至少一个时长区间；计算单元，用于分别对所述划分单元划分出的每个时长区间中下行流的M个数据特征进行加权计算，以得到每个所述时长区间的评分结果，所述M为正整数；判断单元，用于判断所述计算单元计算出的至少一个时长区间的评分结果是否满足所述预设音频阈值。

可选地，结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述确定模块，可以包括：监测单元，监测所述应用客户端的录音行为，所述录音行为包括录音音频源、录音音频频道或录音采样率。

可选地，结合第二方面、第二方面的第一种或第二种可能的实现方式，在第三种可能的实现方式中，所述音频策略服务端还可以包括：降噪模块，用于在所述识别模块识别出语音通话VoIP场景之后，对所述VoIP场景中的语音通话进行降噪。

可选地，结合第二方面、第二方面的第一种或第二种可能的实现方式，在第四种可能的实现方式中，所述音频策略服务端还可以包括：指示模块，用于在所述识别模块识别出语音通话VoIP场景之后，指示音频管理器进入所述VoIP场景。

可选地，结合上述第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述音频策略服务端还可以包括：监测模块，用于在所述指示模块指示音频管理器进入所述VoIP场景之后，监测所述下行流中是否有声音信息；所述确定模块，还用于在所述监测模块未监测到所述声音信息，确定所述应用客户端退出所述录音。

可选地，结合上述第二方面的第五种可能的实现方式，在第六种可能的实现方式中，所述音频策略服务端还可以包括：发送模块，用于在所述确定模块确定出所述应用客户端退出所述录音之后，向所述音频管理器发送退出消息，所述退出消息用于指示所述音频管理器退出所述VoIP场景。

第三方面，本申请实施例提供了一种计算机设备，其特征在于，所述计算机设备包括：输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；所述处理器用于执行存储器中存储的程序指令，以使该计算机设备执行如上述第一方面或第一方面中任一可能的实现方式的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得该计算机设备执行如上述第一方面或第一方面中任一可能的实现方式的方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得该计算机设备执行如上述第一方面或第一方面中任一可能的实现方式的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例采用通过在检测到通话状态的模式满足预设音频模式下，在预设时长内确定下行流的评分结果满足预设音频阈值，则识别出语音通话VoIP场景，因此只要在预设时长内下行流的评分结果满足预设音频阈值，就能够准确识别出VoIP场景，有效提高识别的准确率，提升用户体验。

附图说明

图1是本申请实施例提供的场景示意图；

图2是本实施例提供的一种语音通话场景的识别方法；

图3是本实施例提供的另一种语音通话场景的识别方法；

图4是本申请实施例提供的音频策略服务端的一个实施例示意图；

图5是本申请实施例提供的音频策略服务端的另一个实施例示意图；

图6是本申请实施例中的通信装置的硬件结构一个示意图。

具体实施方式

本申请实施例提供了一种语音通话场景的识别方法以及音频策略服务端，用于实现对语音通话VoIP场景的准确识别。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本申请实施例涉及的一些术语进行介绍：

下行流：指播放在创建VoIP通话的一个或多个用户传输过来的声音。例如：用户A与用户B之间创建VoIP通话时，那么用户A的下行流指的是用户B传输过来的声音，则用户B的下行流指的是用户A传输过来的声音。

网络通话(voice over internet protocol，VOIP)：基于互联网协议(internetprotocol,IP)的语音传输,VoIP是一种语音通话技术，经由IP来达成语音通话与多媒体会议，也就是经由互联网来进行通信。

下面对本申请实施例所适应的场景示意图进行介绍：

本申请实施例所提供的方法主要应用于使用应用客户端进行录音时识别出正在进入的是语音通话VoIP场景。如图1所示，为本申请实施例提供的场景示意图。当用户A使用某个应用客户端向用户B拨打VoIP电话时，首先用户A会在该应用客户端的联系人的界面上选中该用户B，从而通过该应用客户端发起语音通话，此时，在发起语音通话的过程中，用户A打开麦克风进行收音，并通过音频策略服务端确定该应用客户端进入录音，当用户A与用户B之间的语音通话接通后，应用客户端会建立下行流，该音频策略服务端会在预设时长内判断下行流的评分结果是否满足预设音频阈值，以此来识别且确定出此时进入的是VoIP场景使得用户A可以听到用户B的声音。

可以理解的是，应用客户端可以是微信应用客户端、QQ应用客户端等可以提供语音通话或者视频通话的应用客户端，也可以是王者荣耀游戏应用客户端、和平精英游戏应用客户端等提供语音通话或者视频通话的游戏应用客户端，或者是其他的应用客户端，具体此处不做限定。

本申请实施例中，预设音频模式可因终端设备装载的操作系统的不同而存在差异性，具体本申请不做限定。本申请主要以安卓Android操作系统为例进行说明。所提及的终端设备可以是可以经蜂窝网络、Wi-Fi进行通话以及发送短信。该终端设备可以包括用户设备(user equipment，UE)、无线终端设备、移动终端设备、智能手机、个人计算机、VoIP电话等，还包括折叠屏移动终端设备等。具体此处不做限定

为便于更好地理解本申请实施例所提出的方案，下面对本实施例中的具体流程进行介绍，如图2所示，是本实施例提供的一种语音通话场景的识别方法，该方法中的音频策略服务端执行如下步骤，包括：

201、音频策略服务端确定应用客户端进入录音。

本实施例中，只有当应用客户端使用麦克风进行收音进入录音时，音频策略服务端才会开始进入判断和识别VoIP场景的操作。

可选地，音频策略服务端可以通过监测该应用客户端的录音行为，从而确定该应用客户端已经进入录音。该录音行为比如可以是录音音频源、录音音频频道或是录音采样率等等，具体此处不做限定。

202、音频策略服务端检测通话状态的模式是否满足预设音频模式。

本实施例中，在应用客户端进入了录音后，该应用客户端会调用setmode接口设置通话状态，然后下发给音频策略服务端，因此该音频策略服务端在接收到该通话状态后会检测该通话状态的模式是否满足预设音频模式，若该音频策略服务端检测出该通话状态的模式满足预设音频模式，则执行步骤203；反之，若检测出该通话状态的模式不满足预设音频模式，则该音频策略服务端确定此时应用客户端进入录音后并不是在使用VoIP场景。

可以理解的是，通话状态可以是语音通话状态或视频通话状态，具体此处不做限定。所描述的预设音频模式为mode 3，可以理解成通信模式(MODE_IN_COMMUNICATION),即认为应用客户端进入通话状态。

203、若满足预设音频模式，则音频策略服务端在预设时长内判断下行流的评分结果是否满足预设音频阈值。

本实施例中，当音频策略服务端检测出该通话状态的模式满足预设音频模式后，会在预设时长内判断下行流的评分结果是否满足预设音频阈值，以此来识别出VoIP场景。

可选地，对于音频策略服务端在预设时长内判断下行流的评分结果是否满足预设音频阈值可以通过如下方式实现：首先，音频策略服务端划分该预设时长为至少一个时长区间；进而分别对每个时长区间中下行流的M个数据特征进行加权计算，以得到每个时长区间的评分结果，其中，M为正整数；最后，音频策略服务端判断至少一个时长区间的评分结果是否满足预设音频阈值。对于上述所描述的预设时长实际上指的是该应用客户端开始进入录音后一直到录音结束之间的某一段持续时间，对于该预设时长可以视情况而定，具体此处不做限定。另外，上述所描述的下行流的M个数据特征可以是播放对端用户的声音时所使用的采样率、数据底噪以及人声识别，不同的人在讲话时所使用的发生器官发出的声纹图谱会存在一定的差异，因此不同的人声声纹特征可以区分不同人讲话的声音，或者还可以是在进行视频通话时摄像头的调用、图层显示等等，具体数据特征可以视情况而定，此处不做限定。

204、若满足预设音频阈值，则音频策略服务端识别语音通话VoIP场景。

本实施例中，当音频策略服务端在预设时长内判断下行流的评分结果满足预设音频阈值，该音频策略服务端会识别出此时进入的是VoIP场景。

需要说明的是，若音频策略服务端在预设时长内判断下行流的评分结果不满足预设音频阈值时，该音频策略服务端并不能够识别出此时进入的是VoIP场景，而是重新开始进行下一次的识别。

可选地，在音频策略服务端识别语音通话VoIP场景之后，本申请实施例还可以包括：音频策略服务端对VoIP场景中的语音通话进行降噪。降噪的目的是为了使得用户可以更加清晰地听清楚对端用户的声音或者是对端用户听清楚本端用户的声音，例如：当在地铁或者马路上使用VoIP通话时，麦克风录制到的声音会非常嘈杂，如果不经过处理，对方将会难以听清楚本端的说话声，或者在玩游戏的过程中使用VoIP通话与游戏好友进行联系时，游戏背景音可能会盖过通话声音，本端用户可能会听不清楚游戏好友说话等等，因此都需要音频策略服务端对VoIP场景中的语音通话进行降噪。

可选地，在音频策略服务端识别语音通话VoIP场景之后，本申请实施例还可以进一步包括：音频策略服务端指示音频管理器进入VoIP场景。

可选地，在音频策略服务端指示音频管理器进入VoIP场景之后，本申请实施例还可以进一步包括：音频策略服务端监测下行流中是否有声纹信息；若未监测到声纹信息，则音频策略服务端确定应用客户端退出录音。例如：在录音后，用户B有一段时间内处于无声状态，即未发出任何声音时，可以通过音频策略服务端监听到下行流中并没有听到用户B说话时产生的声纹信息，因此音频策略服务端可以发出指令或是强制应用客户端退出录音，

可选地，在音频策略服务端确定应用客户端退出录音之后，还可以包括：音频策略服务端向音频管理器发送退出消息，退出消息用于指示音频管理器退出VoIP场景。

本申请实施例采用通过在检测到通话状态的模式满足预设音频模式下，在预设时长内确定下行流的评分结果满足预设音频阈值，则识别出语音通话VoIP场景，因此只要在预设时长内下行流的评分结果满足预设音频阈值，就能够准确识别出此时在进入VoIP场景，有效提高识别的准确率，提升用户体验。

请参阅图3，图3是本申请实施例提供的语音通话场景的识别方法的另一个实施例示意图。

如图3所示，本申请实施例提供的语音通话场景的识别方法的另一个实施例包括：

301、音频策略服务端确定应用客户端进入录音。

本实施例中，步骤301可以参照图2中的步骤201进行理解，具体此处不做赘述。

302、音频策略服务端检测通话状态的模式是否满足预设音频模式。

本实施例中，在应用客户端进入了录音后，该应用客户端会调用不同的接口设置通话状态，然后下发给音频策略服务端，例如：mode 3的设置是为了使音频策略服务端获知该应用客户端与外界的交互是通过语音通话方式进行，如果是采用蓝牙模式进行交互，还会调用startBluetoothSco接口，从而开启蓝牙sco通路进行数据交互，如果是在免提场景下，还会调用setSpeakerOn接口，控制喇叭出声等等。

因此，该音频策略服务端在接收到该通话状态后会检测该通话状态的模式是否满足预设音频模式，若该音频策略服务端检测出该通话状态的模式满足预设音频模式，例如：音频策略服务端会检测该通话状态的模式是否为mode 3，若该音频策略服务端检测出该通话状态的模式为mode 3，那么就说明此时应用客户端要开始与外界进行数据交互。

303、若满足预设音频模式，音频策略服务端划分预设时长为至少一个时长区间。

本实施例中，在通话状态的模式满足预设音频模式时，音频策略服务端会对预设时长进行时长区间的划分。例如：假设应用客户端从9:00am开始录音，该音频策略服务端从录音音频源、录音音频频道或录音采样率等监测到应用客户端从9:00am开始录音，具体地，该音频策略服务端可以判断录音音频源是否为AUDIO_SOURCE_MIC或者AUDIO_SOURCE_VOICE_COMMUNICATION；也可以判断录音音频频道是否为momo或者stereo；还可以是判断录音采样率是否大于16kHz且小于48kHz等等来监测应用客户端是否进入录音。假设在9:45am停止录音，那么该音频策略服务端会在应用客户端录音后取一段时间，比如：取9:00am至9:10am这段时间内的10分钟，还可以取9:03am至9:10am这段时间内的7分钟，或者取9:10am至9:15am这段时间内的5分钟等等，对于预设时长的获取此处根据实际情况而定，此处不做具体赘述。

假设就是取9:00am至9:10am这段时间内的10分钟，那么预设时长为10分钟，此时要把该10分钟等分分成至少一个时长区间，如分成5个时长区间，则每一个时长区间均为2分钟，如：时长区间1为9:00am至9:02am，时长区间2为9:02am至9:04am，时长区间3为9:04am至9:06am，时长区间4为9:06am至9:08am，时长区间5为9:08am至9:10am。

304、音频策略服务端分别对每个时长区间中下行流的M个数据特征进行加权计算，以得到每个时长区间的评分结果，M为正整数。

本实施例中，下行流的M个数据特征可以包括播放对端用户的声音时所使用的采样率、数据底噪以及人声识别，或者还可以是在进行视频通话时摄像头的调用、图层显示等等。假设音频策略服务端已经预先为播放对端用户的声音时所使用的采样率、数据底噪以及人声识别分别配置了权重，如权重分别为20％、35％、45％；那么音频策略服务端会在每个时长区间内分别计算各自下行流的评分结果。

例如：假设时长区间1的采样率为70分，数据底噪为65分，人声识别为85分，则该时长区间1的评分结果为70*20％+65*35％+85*45％＝75分；假设时长区间2的采样率为80分，数据底噪为80分，人声识别为80分，则该时长区间2的评分结果为80*20％+80*35％+80*45％＝80分；假设时长区间3的采样率为70分，数据底噪为85分，人声识别为80分，则该时长区间3的评分结果为70*20％+85*35％+80*45％＝79.75分；假设时长区间4的采样率为88分，数据底噪为78分，人声识别为90分，则该时长区间4的评分结果为88*20％+78*35％+90*45％＝85.4分；假设时长区间5的采样率为85分，数据底噪为80分，人声识别为95分，则该时长区间5的评分结果为85*20％+80*35％+95*45％＝87.75分。

倘若预设音频阈值为85分，那么音频策略服务端会从时长区间1开始判断评分结果是否满足85分，若是不满足则判断时长区间2，若时长区间2的评分结果也不满足，则继续判断时长区间3，以此类推直到最后一个时长区间判断完成，若此时的最后一个时长区间的评分结果还是不满足，则识别为非VoIP场景；若是从某一个时长区间开始评分结果均达到预设音频阈值时，则识别为VoIP场景。例如：从上述可以看出时长区间1至时长区间3的评分结果均不满足85分，而从时长区间4至时长区间5的评分结果均满足85分，因此可以识别出此时进入的是VoIP场景。

305、若满足预设音频阈值，则音频策略服务端识别语音通话VOIP场景。

本申请实施例采用通过在检测到通话状态的模式满足预设音频模式下，将预设时长划分为至少一个时长区间，从而分别计算出每个时长区间内中下行流的评分结果，并与预设音频阈值进行比较，以此比较结果来识别出语音通话VoIP场景，能够准确识别出VoIP场景，有效提高识别的准确率，提升用户体验。

上述主要对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对音频策略服务端进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图4是本申请实施例提供的音频策略服务端的一个实施例示意图。

如图4所示，本申请实施例提供的音频策略服务端40包括：

确定模块401，用于确定应用客户端进入录音；

检测模块402，用于检测通话状态的模式是否满足预设音频模式；

判断模块403，用于在检测模块402检测通话状态的模式满足预设音频模式时，在预设时长内判断下行流的评分结果是否满足预设音频阈值；

识别模块404，用于判断模块403在预设时长内判断下行流的评分结果满足预设音频阈值，识别语音通话VoIP场景。

本申请实施例采用通过在检测模块402检测到通话状态的模式满足预设音频模式下，在预设时长内由判断模块403确定下行流的评分结果满足预设音频阈值，则由识别模块404识别出语音通话VoIP场景，因此只要在预设时长内下行流的评分结果满足预设音频阈值，就能够准确识别出此时在进入VoIP场景，有效提高识别的准确率，提升用户体验。

为了便于理解，请参阅图5对本申请实施例中的音频策略服务端进行详细地理解，图5是本申请实施例提供的音频策略服务端的另一个实施例示意图包括：确定模块401、检测模块402、判断模块403以及识别模块404，具体可以参照上述图4所描述的内容进行理解，其中，在本申请的实施例中，该判断模块403可以包括：

划分单元4031，用于划分预设时长为至少一个时长区间；

计算单元4032，用于分别对划分单元4031划分出的每个时长区间中下行流的M个数据特征进行加权计算，以得到每个时长区间的评分结果，M为正整数；

判断单元4033，用于判断计算单元4032计算出的至少一个时长区间的评分结果是否满足预设音频阈值。

本申请实施例采用通过在检测模块402检测到通话状态的模式满足预设音频模式下，划分单元4031将预设时长划分为至少一个时长区间，从而使得计算单元4032分别计算出每个时长区间内中下行流的评分结果，并与预设音频阈值进行比较，以此比较结果来识别出语音通话VoIP场景，能够准确识别出VoIP场景，有效提高识别的准确率，提升用户体验。

在本申请的一些实施例中，该确定模块401可以包括：监测单元，监测应用客户端的录音行为，录音行为包括录音音频源、录音音频频道或录音采样率。

在本申请的一些实施例中，该音频策略服务端40还可以包括：降噪模块，用于在识别模块404识别出语音通话VoIP场景之后，对VoIP场景中的语音通话进行降噪。

在本申请的一些实施例中，该音频策略服务端40还可以包括：指示模块，用于在识别模块404识别出语音通话VoIP场景之后，指示音频管理器进入VoIP场景。

在本申请的一些实施例中，该音频策略服务端40还可以包括：监测模块，用于在指示模块指示音频管理器进入VoIP场景之后，监测下行流中是否有声音信息；确定模块401，还用于在监测模块未监测到声音信息，确定应用客户端退出录音。

在本申请的一些实施例中，该音频策略服务端40还可以包括：发送模块，用于在确定模块401确定出应用客户端退出录音之后，向音频管理器发送退出消息，退出消息用于指示音频管理器退出VoIP场景。

上面从模块化功能实体的角度对本申请实施例中的音频策略服务端进行描述，下面从硬件处理的角度对本申请实施例中的音频策略服务端进行描述。图6是本申请实施例中的通信装置的硬件结构一个示意图。如图6所示，该通信装置可以包括：

该通信装置包括至少一个处理器501，通信线路507，存储器503以及至少一个通信接口504。

处理器501可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路507可包括一通路，在上述组件之间传送信息。

通信接口504，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器503可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路507与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器503用于存储执行本申请方案的计算机执行指令，并由处理器501来控制执行。处理器501用于执行存储器503中存储的计算机执行指令，从而实现本申请上述实施例提供的语音通话场景的识别方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，通信装置可以包括多个处理器，例如图6中的处理器501和处理器502。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，通信装置还可以包括输出装置505和输入装置506。输出装置505和处理器501通信，可以以多种方式来显示信息。输入装置506和处理器501通信，可以以多种方式接收用户的输入。例如，输入装置506可以是鼠标、触摸屏装置或传感装置等。

上述的通信装置可以是一个通用装置或者是一个专用装置。在具体实现中，通信装置可以是台式机、便携式电脑、网络服务器、无线终端装置、嵌入式装置或有图6中类似结构的装置。本申请实施例不限定通信装置的类型。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的音频策略服务端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的音频策略服务端的实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音通话场景的识别方法，其特征在于，包括：

音频策略服务端确定应用客户端进入录音；

所述音频策略服务端检测通话状态的模式是否满足预设音频模式；

若满足所述预设音频模式，则所述音频策略服务端在预设时长内判断下行流的评分结果是否满足预设音频阈值；

若满足所述预设音频阈值，则音频策略服务端识别语音通话VoIP场景。

2.根据权利要求1所述的方法，其特征在于，所述音频策略服务端在预设时长内判断下行流的评分结果是否满足预设音频阈值，包括：

所述音频策略服务端划分所述预设时长为至少一个时长区间；

所述音频策略服务端分别对每个时长区间中下行流的M个数据特征进行加权计算，以得到每个所述时长区间的评分结果，所述M为正整数；

所述音频策略服务端判断至少一个时长区间的评分结果是否满足所述预设音频阈值。

3.根据权利要求1或2所述的方法，其特征在于，所述音频策略服务端确定应用客户端进入录音，包括：

所述音频策略服务端监测所述应用客户端的录音行为，所述录音行为包括录音音频源、录音音频频道或录音采样率。

4.根据权利要求1至3中任一所述的方法，其特征在于，在所述音频策略服务端识别语音通话VoIP场景之后，还包括：

所述音频策略服务端对所述VoIP场景中的语音通话进行降噪。

5.根据权利要求1至3中任一所述的方法，其特征在于，在所述音频策略服务端识别语音通话VoIP场景之后，还包括：

所述音频策略服务端指示音频管理器进入所述VoIP场景。

6.根据权利要求5所述的方法，其特征在于，在所述音频策略服务端指示音频管理器进入所述VoIP场景之后，还包括：

所述音频策略服务端监测所述下行流中是否有声音信息；

若未监测到所述声音信息，则所述音频策略服务端确定所述应用客户端退出所述录音。

7.根据权利要求6所述的方法，其特征在于，在所述音频策略服务端确定所述应用客户端退出所述录音之后，还包括：

所述音频策略服务端向所述音频管理器发送退出消息，所述退出消息用于指示所述音频管理器退出所述VoIP场景。

8.一种音频策略服务端，其特征在于，包括：

确定模块，用于确定应用客户端进入录音；

检测模块，用于检测通话状态的模式是否满足预设音频模式；

判断模块，用于在所述检测模块检测所述通话状态的模式满足所述预设音频模式时，在预设时长内判断下行流的评分结果是否满足预设音频阈值；

识别模块，用于所述判断模块在预设时长内判断下行流的评分结果满足所述预设音频阈值，识别语音通话VoIP场景。

9.根据权利要求8所述的音频策略服务端，其特征在于，所述判断模块包括：

划分单元，用于划分所述预设时长为至少一个时长区间；

计算单元，用于分别对所述划分单元划分出的每个时长区间中下行流的M个数据特征进行加权计算，以得到每个所述时长区间的评分结果，所述M为正整数；

判断单元，用于判断所述计算单元计算出的至少一个时长区间的评分结果是否满足所述预设音频阈值。

10.根据权利要求8或9所述的音频策略服务端，其特征在于，所述确定模块，包括：

监测单元，监测所述应用客户端的录音行为，所述录音行为包括录音音频源、录音音频频道或录音采样率。

11.根据权利要求8至10任一所述的音频策略服务端，其特征在于，所述音频策略服务端还包括：

降噪模块，用于在所述识别模块识别出语音通话VoIP场景之后，对所述VoIP场景中的语音通话进行降噪。

12.根据权利要求8至10任一所述的音频策略服务端，其特征在于，所述音频策略服务端还包括：

指示模块，用于在所述识别模块识别出语音通话VoIP场景之后，指示音频管理器进入所述VoIP场景。

13.根据权利要求12所述的音频策略服务端，其特征在于，所述音频策略服务端还包括：

监测模块，用于在所述指示模块指示音频管理器进入所述VoIP场景之后，监测所述下行流中是否有声音信息；

所述确定模块，还用于在所述监测模块未监测到所述声音信息，确定所述应用客户端退出所述录音。

14.根据权利要求13所述的音频策略服务端，所述音频策略服务端还包括：

发送模块，用于在所述确定模块确定出所述应用客户端退出所述录音之后，向所述音频管理器发送退出消息，所述退出消息用于指示所述音频管理器退出所述VoIP场景。

15.一种计算机设备，其特征在于，所述计算机设备包括：输入/输出(I/O)接口、处理器和存储器，

所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至7中任一所述的方法。

16.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至7中任一项所述的方法。