CN110225202A

CN110225202A - 音频流的处理方法、装置、移动终端及存储介质

Info

Publication number: CN110225202A
Application number: CN201910502095.XA
Authority: CN
Inventors: 姚坤
Original assignee: Realme Mobile Telecommunications Shenzhen Co Ltd
Current assignee: Realme Mobile Telecommunications Shenzhen Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-09-10
Also published as: WO2020249038A1

Abstract

本申请公开了一种音频流的处理方法、装置、移动终端及存储介质，该方法应用于移动终端，移动终端包括第一麦克风以及第二麦克风，该方法包括：通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流；获取第一音频流对应的第一能量值，并获取第二音频流对应的第二能量值；比较第一能量值和第二能量值获得比较结果，基于比较结果确定语音信息的音源方向；基于音源方向，确定移动终端的响应策略。当移动终端在进行音频活动时，本方法可根据双麦克风生成的音频流确定音源方向，以根据音源方向，自动执行对应的响应策略，简化用户操作。

Description

音频流的处理方法、装置、移动终端及存储介质

技术领域

本申请涉及移动终端技术领域，更具体地，涉及一种音频流的处理方法、装置、移动终端及存储介质。

背景技术

移动终端，例如手机，已经成为人们日常生活中最常用的消费型电子产品之一。且随着用户对便捷化和智能化的要求越来越高，更多的移动终端厂商开始对移动终端的多样化功能进行扩展。因此，如何提升移动终端的智能化水平(如通过移动终端实现自动识别语音进行翻译)是移动终端领域的重要研究方向。

发明内容

鉴于上述问题，本申请提出了一种音频流的处理方法、装置、移动终端及存储介质，能够在移动终端进行音频活动时，根据音源的不同方向，自动执行不同的响应策略，简化了用户操作。

第一方面，本申请实施例提供了一种音频流的处理方法，应用于移动终端，移动终端包括第一麦克风以及第二麦克风，方法包括：通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流；获取第一音频流对应的第一能量值，并获取第二音频流对应的第二能量值；比较第一能量值和第二能量值获得比较结果，基于比较结果确定语音信息的音源方向；基于音源方向，确定移动终端的响应策略。

第二方面，本申请实施例提供了一种音频流的处理装置，其特征在于，应用于移动终端，移动终端包括第一麦克风以及第二麦克风，装置包括：音频获取模块，用于通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流；音频分析模块，用于获取第一音频流对应的第一能量值，并获取第二音频流对应的第二能量值；音源确定模块，用于比较第一能量值和第二能量值获得比较结果，基于比较结果确定语音信息的音源方向；策略确定模块，用于基于音源方向，确定移动终端的响应策略。

第三方面，本申请实施例提供了一种移动终端，包括一个或多个处理器；存储器；一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述第一方面提供的音频流的处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的音频流的处理方法。

本申请实施例提供的一种音频流的处理方法、装置、移动终端及存储介质，通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流，然后获取第一音频流对应的第一能量值，以及第二音频流对应的第二能量值，通过比较第一能量值和第二能量值获得比较结果，并基于比较结果确定语音信息的音源方向，以基于音源方向，确定移动终端的响应策略，从而当移动终端在进行音频活动时，可根据双麦克风生成的音频流确定音源方向，并根据音源方向，自动执行对应的响应策略，简化了用户操作。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请一个实施例的音频流的处理方法流程图。

图2示出了一种适用于本申请实施例的应用环境示意图。

图3示出了根据本申请另一个实施例的音频流的处理方法流程图。

图4示出了根据本申请实施例的音频流的处理方法中步骤S240的流程图。

图5示出了一种适用于本申请实施例的移动终端的界面示意图。

图6示出了根据本申请再一个实施例的音频流的处理方法流程图。

图7示出了一种适用于本申请实施例的应用环境示意图。

图8示出了根据本申请又一个实施例的音频流的处理方法流程图。

图9示出了根据本申请还一个实施例的音频流的处理方法流程图。

图10示出了根据本申请一个实施例的音频流的处理装置的框图。

图11是本申请实施例的用于执行根据本申请实施例的音频流的处理方法的移动终端的框图。

图12是本申请实施例的用于保存或者携带实现根据本申请实施例的音频流的处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

目前使用手机上的翻译软件作为翻译助手时，需要不停切换翻译语言方向，以及需要手机在用户之间传来传去，屏幕转来转去，操作十分复杂。例如，手机上的翻译软件通常需要用户手动选择要翻译的语言，例如汉译英，然后按住录音键，说出汉语，等待软件将汉语翻译成英语显示在屏幕上后拿给对方看，然后再手动改变翻译语言的方向，让对方说英语，自己看翻译结果，达到交流和沟通的目的，操作十分繁琐。

针对上述问题，发明人经过研究，提出了本申请实施例中的音频流的处理方法、装置、移动终端及存储介质，当移动终端在进行音频活动时，能够根据双麦克风生成的音频流确定音源方向，以根据音源方向，自动切换翻译语言以及翻译结果显示方向，简化用户操作。

请参阅图1，本申请实施例提供了一种音频流的处理方法，可应用于移动终端，该移动终端包括第一麦克风以及第二麦克风，该方法可以包括：

步骤S110：通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流。

在本申请实施例中，移动终端可以同时启动第一麦克风和第二麦克风对语音信息进行采集，以通过不同的麦克风采集相同的语音信息，对应生成不同的音频流。其中，第一音频流对应第一麦克风采集到的语音信息，第二音频流对应第二麦克风采集的语音信息。

可以理解的是，为提高声音采集的范围，第一麦克风和第二麦克风通常处于移动终端的不同位置，从而在第一麦克风和第二麦克风同时采集同一音源对应语音信息时，由于与音源的距离不同，导致采集到的语音信息的音量也不同，对应生成的音频流也不同。其中，语音信息可以是使用移动终端的用户输入的语音信息，例如，请参阅图2，移动终端100为手机时，用户通过拿着手机从手机底部输入语音；也可以是移动终端所处环境的环境声音(如其他用户的声音)，在此不作限定。

在一些实施例中，上述第一音频流和第二音频流可以由数字形式的音频数据组成。例如，移动终端可通过脉冲编码调制(PCM，Pulse Code Modulation)分别将第一麦克风采集到语音信息和第二麦克风采集到语音信息数字化，对应生成第一音频流和第二音频流。

在一些实施例中，第一麦克风和第二麦克风采集语音信息，可以是移动终端在运行预设应用程序(如语音翻译软件)时自动触发采集，也可以是用户手动触发采集。其中，手动触发可以是按压实体按键或点击虚拟按键，也可以是摇晃移动终端，在此不作限定。例如，用户可通过移动终端的实体按键或虚拟按键启动录音功能。

在一些实施例中，由于移动终端所处环境可能存在环境噪音(如陌生人的声音)，导致麦克风采集的语音信息可能会包括该环境噪音，因此，可以对该语音信息进行声纹识别，以提取出用户的语音信息。在一些实施方式中，对该语音信息进行声纹识别，可以是获取语音信息中的所有声纹信息，然后将所有声纹信息与预先存储的用于匹配的声纹特征信息进行匹配，将匹配成功的声纹信息对应的语音信息提取出，即可获取到用户的语音信息。其中，声纹特征信息为用户的声纹信息。

步骤S120：获取第一音频流对应的第一能量值，并获取第二音频流对应的第二能量值。

在申请实施例中，移动终端在生成第一音频流和第二音频流后，可以获取第一音频流对应的第一能量值，以及第二音频流对应的第二能量值。其中，音频流的能量值可表征该音频流的音强，即声音的强弱，也可理解为音量的大小，即能量值越大，该音频流的音量越大。

在一些实施例中，获取第一音频流对应的第一能量值可以是获取第一音频流的平均能量值。作为一种实施方式，移动终端可以将第一音频流中的每个采样点的数值进行累加，除以采样个数，从而得到第一音频流的平均能量值。

在另一些实施例中，获取第一音频流对应的第一能量值也可以是获取第一音频流的总能量值。作为一种实施方式，移动终端可以将第一音频流中的每个采样点的数值直接进行累加，从而得到第一音频流的总能量值。作为另一种实施方式，移动终端可以获取第一音频流对应的频域能量谱，通过频域的能量谱确定该第一音频流的频域能量值。

在再一些实施例中，获取第一音频流对应的第一能量值还可以是获取第一音频流的RMS(Root Mean Square，均方根)统计能量值。作为一种实施方式，移动终端可以将第一音频流中的每个采样点的数值的平方进行累加，除以采样个数，并求平方根，从而得到第一音频流的RMS统计能量值。

当然，上述第一音频流对应的第一能量值的获取方式仅为举例，在本申请实施例中可以不作限定，仅需获取的能量值可表征音频流的音强即可。

在本申请实施例中，获取第二音频流对应的第二能量值可以参考上述第一音频流对应的第一能量值的获取，在此不再赘述。

步骤S130：比较第一能量值和第二能量值获得比较结果，基于比较结果确定语音信息的音源方向。

在本申请实施例中，移动终端得到第一音频流对应的第一能量值和第二音频流对应的第二能量值后，可以对第一能量值和第二能量值进行比较，并获取比较结果，以根据比较结果确定语音信息的音源方向。其中，音源指的是发出该语音信息的用户。

可以理解的是，通过比较第一能量值和第二能量值，可以确定第一麦克风采集的语音信息的音强与第二麦克风采集的语音信息的音强之间的强弱，从而可判断出音源方向是第一麦克风对应的方向，还是第二麦克风对应的方向。例如，当用户1靠近移动终端的第一麦克风，用户2靠近移动终端的第二麦克风，且用户1录入语音信息时，虽然第一麦克风和第二麦克风都能采集到该语音信息，但通过上述能量值对比的方式，移动终端可以确定该语音信息的音源方向为第一麦克风对应的方向，进而可确定音源为用户1。

在一些实施例中，获得的比较结果可以是第一能量值和第二能量值的差值，移动终端可通过判断差值的正负来确定语音信息的音源方向；获得的比较结果也可以是第一能量值和第二能量值中数值最大的能量值，移动终端可通过最大能量值为第一能量值或者第二能量值，确定语音信息的音源方向。

步骤S140：基于音源方向，确定移动终端的响应策略。

在本申请实施例中，移动终端确定语音信息的音源方向后，可基于音源方向，确定移动终端的响应策略，以自动执行对应的响应策略，简化用户操作。其中，该响应策略为移动终端根据不同的音源方向，对应进行的响应动作，可以是UI(User Interface，用户界面)显示策略、语音识别策略、语言翻译策略等，在此不作限定。

在一些实施例中，当响应策略为UI显示策略时，移动终端可以实现用视觉的方式描绘声音。例如，移动终端可根据不同的音源方向，控制UI显示不同的效果(静态效果或动态效果)。

在一些实施例中，当响应策略为语言翻译策略时，移动终端可实现面对面即时翻译功能。例如，双方使用语言分别为汉语和英语，移动终端可根据不同的音源方向(靠近哪一方)，自动确定语言翻译方向是汉语翻译为英语，还是英语翻译为汉语。无需用户手动选择语言翻译方向，简化了用户操作，提高了移动终端的智能化水平。

本申请提供的音频流的处理方法，通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流，然后获取第一音频流对应的第一能量值，以及第二音频流对应的第二能量值，通过比较第一能量值和第二能量值获得比较结果，并基于比较结果确定语音信息的音源方向，以基于音源方向，确定移动终端的响应策略，从而移动终端在进行音频活动时，无需在用户之间传来传去，而是根据双麦克风生成的音频流确定音源方向，以根据音源方向，自动执行对应的响应策略，简化了用户操作，增加了移动终端的易用性和卖点。

请参阅图3，本申请另一实施例提供了一种音频流的处理方法，可应用于移动终端，该移动终端包括第一麦克风以及第二麦克风，该方法可以包括：

步骤S210：通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流。

其中，步骤S210的具体描述可参阅步骤S110，在此不再赘述。

在一些实施例中，第一麦克风和第二麦克风可以分别处于移动终端的顶部和底部。当用户使用移动终端录入语音消息时，移动终端可通过顶部的第一麦克风和底部的第二麦克风采集该语音消息，以对应生成第一音频流和第二音频流。

步骤S220：获取第一音频流对应的第一能量值，并获取第二音频流对应的第二能量值。

步骤S230：比较第一能量值和第二能量值获得比较结果，基于比较结果确定语音信息的音源方向。

其中，步骤S220～步骤S230的具体描述可参阅步骤S120～步骤S130，在此不再赘述。

在一些实施例中，移动终端可以根据第一能量值和第二能量值的大小关系，确定语音信息的音频方向与第一麦克风和第二麦克风的位置关系。具体地，上述比较第一能量值和第二能量值获得比较结果，基于比较结果确定语音信息的音源方向，可以包括：当第一能量值大于第二能量值时，确定音源方向对应的音源靠近第一麦克风；当第一能量值小于第二能量值时，确定音源方向对应的音源靠近第二麦克风。

步骤S240：基于音源方向，确定移动终端的语言翻译策略，语言翻译策略包括本地语言翻译成外语以及外语翻译成本地语言。

在本申请实施例中，移动终端的响应策略可以为语言翻译策略，该语言翻译策略可以包括本地语言翻译成外语以及外语翻译成本地语言。移动终端可以根据不同的音源方向，确定语言翻译方向为本地语言翻译成外语，或者为外语翻译成本地语言。该本地语言可以理解为使用移动终端的用户使用的语言，可由用户进行设定，以便确认己方使用的语言。其中，本地语言可以为汉语，外语可以为英语、汉语、日语、法语等与本地语言不同的语种中的至少一种。当然，本地语言也可以设为英语，从而外语可以对应为汉语、日语等与英语不同的语种中的至少一种，在此不作限定。

进一步的，在一些应用场景中，己方和对方进行沟通时，移动终端的底部通常朝向已方，例如，请参见图2，移动终端100为手机，用户手持手机通过手机的底部输入语音信息。同时移动终端的顶部通常朝向对方，显示屏朝上以便双方查看翻译结果，因此可以通过判断音源是否靠近顶部和底部，来确定语言翻译策略。具体地，请参阅图4，上述基于音源方向，确定移动终端的语言翻译策略，可包括：

步骤S241：当比较结果指示音源方向对应的音源靠近移动终端的底部时，确定语言翻译策略为本地语言翻译成外语，并确定翻译结果的显示方式为倒置显示；

在一些实施方式中，当移动终端的底部朝向已方，顶部朝向对方时，若基于比较结果确定的音源方向对应的音源靠近移动终端的底部时，可以认为语音信息由己方说出，因此，移动终端可确定语言翻译策略为本地语言翻译成外语。

进一步的，翻译结果可由显示屏显示，也可以通过语音输出，在此不作限定。当显示屏显示有翻译结果时，由于移动终端的顶部朝向对方，导致对方查看到的翻译结果上下颠倒，且对方需要旋转手机，才能准确查看翻译结果。因此，移动终端的响应策略还可以包括翻译结果的显示策略，根据不同的音源方向，确定翻译结果的显示方式是倒置显示或正向显示。

具体地，当确定音源方向对应的音源靠近移动终端的底部时，可以认为语音信息由己方说出，翻译结果由对方查看，从而移动终端可以确定翻译结果的显示方式为倒置显示，避免用户需要旋转手机才能查看内容的情况。

步骤S242：当比较结果指示音源方向对应的音源靠近移动终端的顶部时，确定语言翻译策略为外语翻译成本地语言，并确定显示方式为正向显示。

基于上述内容，可以理解的是，当基于比较结果确定的音源方向对应的音源靠近移动终端的顶部时，可以认为语音信息由对方说出，翻译结果由己方查看，因此，移动终端可确定语言翻译策略为外语翻译成本地语言，定翻译结果的显示方式为正向显示。

进一步的，可以对移动终端的显示屏进行分屏处理操作，从而双方可同时查看翻译结果，也可查看历史翻译记录。

在一些实施例中，可以将移动终端的显示屏划分为第一显示区域以及第二显示区域。其中，划分方式可以上下分屏、左右分屏、大小分屏等，在此不作限定。作为一种实施方式，移动终端划分的第一显示区域可以靠近移动终端的顶部，划分的第二显示区域可以靠近移动终端的底部。

在一些实施例中，为便于己方和对方的查看，可以将倒置显示的翻译结果显示于第一显示区域，正向显示的翻译结果显示于第二显示区域。例如，请参阅图5，第一显示区域110为正向显示的对方的语音消息210的翻译结果，第二显示区域120为倒置显示的己方的语音消息220的翻译结果。当然，也可以将倒置显示的翻译结果显示于第二显示区域，正向显示的翻译结果显示于第一显示区域，在此不作限定。进一步的，也可以将双方输入的语音消息和翻译结果同时进行显示，以确认移动终端识别的语音消息是否正确，提高双方沟通效率。

步骤S250：基于语言翻译策略，对语音信息进行翻译，得到语音信息的翻译结果。

在本申请实施例中，移动终端基于音源方向，确定语言翻译策略后，可以对语音信息进行翻译，以得到语音信息的翻译结果。其中，对语音信息进行翻译可以是本地翻译引擎进行，也可以是通过云端翻译引擎进行，在此不作限定。

具体地，在一些实施例中，移动终端可根据第一能量值和第二能量值，从第一音频流和第二音频流中确定音强较大的音频流，以确定音源方向是第一麦克风对应的方向，还是第二麦克风对应的方向。当音强较大的音频流为第一音频流时，确定音源方向是第一麦克风对应的方向，从而移动终端可对第一麦克风采集的语音信息进行翻译；当音强较大的音频流为第二音频流时，确定音源方向是第二麦克风对应的方向，从而移动终端可对第二麦克风采集的语音信息进行翻译。

例如，在用户1(使用语言为汉语)与用户2(使用语言为英语)的实时翻译场景下，当用户1靠近移动终端的第一麦克风，用户2靠近移动终端的第二麦克风，且用户1录入语音信息1时，移动终端可确定音源方向为第一麦克风对应的方向，从而确定响应策略为汉语翻译为英语，以自动将第一麦克风采集的语音信息1进行汉译英翻译；同样，若用户2录入语音信息2，则移动终端可确定音源方向为第二麦克风对应的方向，从而确定响应策略为英语翻译为汉语，以自动将第二麦克风采集的语音信息2进行英译汉翻译，无需用户手动选择翻译方向，简化用户操作。

在一些实施例中，移动终端得到翻译结果后，可以根据上述翻译结果的显示策略，将翻译结果倒置显示于显示屏，或正向显示于显示屏。

本申请提供的音频流的处理方法，通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流，然后获取第一音频流对应的第一能量值，以及第二音频流对应的第二能量值，通过比较第一能量值和第二能量值获得比较结果，并基于比较结果确定语音信息的音源方向，以基于音源方向，确定移动终端的语言翻译策略，从而移动终端在进行音频活动时，无需在用户之间传来传去，而是可根据双麦克风生成的音频流确定音源方向，以根据音源方向，自动选择对应的语言翻译方向进行翻译，简化了用户操作，增加了移动终端的易用性和卖点。

请参阅图6，本申请再一实施例提供了一种音频流的处理方法，可应用于移动终端，该移动终端包括第一麦克风以及第二麦克风，该方法可以包括：

步骤S310：通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流。

步骤S320：获取第一音频流对应的第一能量值，并获取第二音频流对应的第二能量值。

步骤S330：当移动终端运行有指定应用程序时，在指定应用程序的运行过程中，持续获取第一能量值和第二能量值的多个比较结果。

其中，步骤S310～步骤S330的具体描述可参阅步骤S110～步骤S130，在此不再赘述。

在一些应用场景中，双方面对面查看移动终端的显示内容时，总会存在一方看到的内容为上下颠倒的，影响双方查看体验。例如，请参见图7，当用户320在手机上点餐时，坐在对面的用户310跟着用户320一起看查看图片或文字，十分不便。因此，在本申请实施例中，移动终端的响应策略可以为显示内容的分屏处理，即移动终端可以根据音源方向，自动触发分屏操作，以将当前的显示屏划分为两个显示区域进行显示，从而双方都可以查看到显示内容。

在一些实施例中，移动终端可以通过检测是否运行有指定应用程序，来确认用户是否有分屏查看该程序界面内容的需求。其中，指定应用程序可以是点餐APP(Application，应用程序)、视频APP等可以双人查看的APP，在此不作限定。

当检测到移动终端运行有指定应用程序时，可以进一步检测移动终端当前环境是否存在两个音源，以确定是否存在两人同时查看显示内容的需求。在本申请实施例中，检测当前环境是否存在两个音源，可以是通过持续获取上述第一能量值和上述第二能量值的多个比较结果，以根据多个比较结果确定是否存在两个音源。其中，比较结果的获取可以参阅前述实施例的内容，在此不再赘述。移动终端在获取到上述比较结果后，可以将比较结果记录到一个临时数据库，以便后续进行数据追溯。

进一步的，也可以是移动终端在检查到运行有指定应用程序时，才开始启动第一麦克风和第二麦克风进行语音信息的采集，并持续做判断。

步骤S340：基于多个比较结果确定语音信息的音源方向。

其中，基于比较结果确定语音信息的音源方向可以参阅前述实施例的内容，在此不再赘述。可以理解的是，如果当前环境存在两人的情况，则基于比较结果确定的音源方向可以是2个。

步骤S350：当多个比较结果指示音源方向对应的音源为两个，且分别靠近移动终端的顶部和底部时，同时在移动终端的显示屏的两个显示区域正向和倒置显示指定应用程序的当前界面内容。

在本申请实施例中，当多个比较结果指示音源方向对应的音源为两个，且分别靠近移动终端的顶部和底部时，可以认为当前环境存在两人需要同时使用移动终端，可确定用户有分屏的需求。因此，移动终端可以同时显示屏的两个显示区域正向和倒置显示指定应用程序的当前界面内容，以便双人同时查看指定应用程序的当前界面内容。其中，两个显示区域可以是上述第一显示区域和上述第二显示区域。

可以理解的是，在指定应用程序的运行过程中，若移动终端获取的多个比较结果中，存在第一能量值大于第二能量值的情况，也存在第一能量值小于第二能量值的情况，则可以通过上述音源方法的确定方法，判断出移动终端当前环境存在两个音源，且分别靠近移动终端的顶部和底部，从而移动终端可自动执行对应的响应策略，即显示内容的分屏处理。

在一些实施例中，移动终端可具体根据两个音源方向，进行分屏。例如，音源方向对应的音源靠近在移动终端的左侧和右侧时，移动终端将当前显示内容进行左右分屏处理；音源方向对应的音源靠近在移动终端顶部和底部时，移动终端将当前显示内容进行上下分屏处理。

本申请提供的音频流的处理方法，通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流，然后获取第一音频流对应的第一能量值，以及第二音频流对应的第二能量值，当移动终端运行有指定应用程序时，在指定应用程序的运行过程中，持续获取第一能量值和第二能量值的多个比较结果，基于多个比较结果确定语音信息的音源方向，当多个比较结果指示音源方向对应的音源为两个，且分别靠近移动终端的顶部和底部时，同时在移动终端的显示屏的两个显示区域正向和倒置显示指定应用程序的当前界面内容。从而移动终端在进行音频活动时，无需在用户之间传来传去，而是可根据双麦克风生成的音频流确定音源方向，以根据音源方向，自动执行对应的响应策略，简化了用户操作，增加了移动终端的易用性和卖点。

请参阅图8，本申请又一实施例提供了一种音频流的处理方法，可应用于移动终端，该移动终端包括第一麦克风、第二麦克风以及多个第三麦克风，该方法可以包括：

步骤S410：当移动终端连接有外设音频设备时，通过第一麦克风、第二麦克风以及多个第三麦克风采集语音信息，并获取语音信息的音源方向。

在本申请实施例中，移动终端上配置的麦克风可以是具有全向拾音响应的MEMS麦克风，可以均等地响应来自四面八方的声音。当移动终端配置3个以上的麦克风时，可以实现更准确的音源定位。其中，多个麦克风可以配置成阵列，形成定向响应或波束场型，以提高音源定位的准确性。

在一些应用场景中，当移动终端连接有外设音频设备(如蓝牙耳机、有线耳机等)时，使用移动终端的用户可能无法及时知晓当前所处环境的声音信息。因此，在本申请实施例中，移动终端可根据音源方向，确定移动终端的音源提示策略。具体地，移动终端可以根据第一麦克风、第二麦克风以及多个第三麦克风采集语音信息，并获取语音信息的音源方向，以对用户进行提示，从而用户在无法听到所处环境声音时，可以根据提示信息及时做出应对。

在一些实施例中，可以是移动终端在检测到有外设音频设备连入时，才启动第一麦克风、第二麦克风以及多个第三麦克风以采集语音信息；也可以是在检测到有外设音频设备连入时，且存在音频输出(如音乐播放、视频播放)时，才启动第一麦克风、第二麦克风以及多个第三麦克风以采集语音信息。

在一些实施例中，第一麦克风、第二麦克风以及多个第三麦克风采集语音信息并获取语音信息的音源方向的具体步骤可以参阅前述实施例确定音源方向的内容，在此不再赘述。也可以采用现有的音源定位方法，获取语音信息的音源方向，在此不作限定。可以理解的是，根据多个麦克风采集的语音信息确定的音源方向，可以提高音源定位的准确度。

步骤S420：基于音源方向，在移动终端上确定目标显示位置并生成提示信息，提示信息用于指示音源方向。

步骤S430：将提示信息显示在目标显示位置。

在本申请实施例中，上述目标显示位置为移动终端在显示屏上显示提示信息的位置，可与音源方向对应，以便用户可根据显示提示信息的位置，知晓音源方向。其中，提示信息可是高亮标记、图案显示、箭头指向等，在此不作限定。

在一些实施方式中，为不遮挡用户查看屏幕内容，目标显示位置可以是显示屏的边缘区域，具体可以是显示屏的左侧、右侧、上侧、下侧边缘区域。例如，若音源方向对应音源靠近移动终端的右侧时，移动终端可以高亮标记显示屏的整个右侧边缘区域。

本申请提供的音频流的处理方法，当移动终端连接有外设音频设备时，通过第一麦克风、第二麦克风以及多个第三麦克风采集语音信息，并获取语音信息的音源方向，然后基于音源方向，在移动终端上确定目标显示位置并生成提示信息，提示信息用于指示音源方向，并将提示信息显示在目标显示位置。从而移动终端在进行音频活动时，可根据多麦克风采集的语音信息确定音源方向，以根据音源方向，自动执行对应的音源提示策略，提到了移动终端的智能化水平，增加了移动终端的易用性和卖点。

请参阅图9，本申请还一实施例提供了一种音频流的处理方法，可应用于移动终端，该移动终端包括第一麦克风、第二麦克风以及多个第三麦克风，该方法可以包括：

步骤S510：通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流。

步骤S520：获取第一音频流对应的第一能量值，并获取第二音频流对应的第二能量值。

步骤S530：比较第一能量值和第二能量值获得比较结果，基于比较结果确定语音信息的音源方向。

在本申请实施例中，步骤S510～步骤S530可参阅前述实施例的内容，在此不再赘述。

步骤S540：基于音源方向，获取移动终端的显示屏上与音源方向对应的目标区域。

在本申请实施例中，移动终端基于音源方向，确定的响应策略可以是效果显示策略。具体地，移动终端可根据音源方向，获取移动终端的显示屏上与音源方向对应的目标区域，以确定需要进行效果显示的目标区域。

其中，与音源方向对应的目标区域可以是显示屏的屏幕一角或一边，例如，确定的音源方向在移动终端的右上角时，显示屏上与音源方向对应的目标区域可是屏幕的右上角。

步骤S550：控制目标区域以预设显示效果显示目标区域对应的内容，预设显示效果包括旋转、振动、抖动以及水波纹中的至少一种。

移动终端在获取到目标区域后，可以控制目标区域以预设显示效果显示目标区域对应的内容，其中，预设显示效果包括旋转、振动、抖动以及水波纹中的至少一种，从而实现通过实际的方式描绘声音，提高屏幕显示效果。其中，目标区域对应的内容可以是文字，也可以是图片，还可以是线条，在此不作限定。

在一些实施例中，预设显示效果为旋转时，可以是屏幕内容基于音源相对于移动终端的角度数据进行旋转。例如，若确定音源在移动终端的右上角45°，则移动终端可以将屏幕内容向右上角(逆时针方向)对应旋转45°。

本申请提供的音频流的处理方法，通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流，然后获取第一音频流对应的第一能量值，以及第二音频流对应的第二能量值，通过比较第一能量值和第二能量值获得比较结果，并基于比较结果确定语音信息的音源方向，以基于音源方向，获取移动终端的显示屏上与音源方向对应的目标区域，并控制目标区域以预设显示效果显示目标区域对应的内容。从而移动终端在进行音频活动时，可根据双麦克风生成的音频流确定音源方向，以根据音源方向，自动执行对应的效果显示策略，提高了移动终端的屏幕显示效果，增加了移动终端的易用性和卖点。

请参阅图10，其示出了本申请实施例提供的一种音频流的处理装置600的结构框图，应用于移动终端，该移动终端包括第一麦克风以及第二麦克风。该装置可以包括：音频获取模块610、音频分析模块620、音源确定模块630以及策略确定模块640。其中，音频获取模块610用于通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流；音频分析模块620用于获取第一音频流对应的第一能量值，并获取第二音频流对应的第二能量值；音源确定模块630用于比较第一能量值和第二能量值获得比较结果，基于比较结果确定语音信息的音源方向；策略确定模块640用于基于音源方向，确定移动终端的响应策略。

在一些实施例中，策略确定模块640可以包括：翻译策略确定单元以及翻译执行单元。其中，翻译策略确定单元用于基于音源方向，确定移动终端的语言翻译策略，语言翻译策略包括本地语言翻译成外语以及外语翻译成本地语言；翻译执行单元用于基于语言翻译策略，对语音信息进行翻译，得到语音信息的翻译结果。

在一些实施例中，上述翻译策略确定单元可以包括：外语翻译子单元以及本地翻译子单元。其中，外语翻译子单元用于当比较结果指示音源方向对应的音源靠近移动终端的底部时，确定语言翻译策略为本地语言翻译成外语，并确定翻译结果的显示方式为倒置显示；本地翻译子单元用于当比较结果指示音源方向对应的音源靠近移动终端的顶部时，确定语言翻译策略为外语翻译成本地语言，并确定显示方式为正向显示。

在一些具体实施方式中，移动终端的显示屏包括第一显示区域以及第二显示区域，第一显示区域靠近移动终端的顶部，第二显示区域靠近移动终端的底部，上述外语翻译子单元确定翻译结果的显示方式为倒置显示，可以包括：确定翻译结果的显示方式为倒置显示，并将翻译结果倒置显示于第一显示区域；上述本地翻译子单元确定显示方式为正向显示，可以包括：确定翻译结果的显示方式为正向显示，并将翻译结果正向显示于第二显示区域。

在一些实施例中，音源确定模块630可以包括：比较结果获取单元以及音源方向确定单元。其中，比较结果获取单元用于当移动终端运行有指定应用程序时，在指定应用程序的运行过程中，持续获取第一能量值和第二能量值的多个比较结果；音源方向确定单元用于基于多个比较结果确定语音信息的音源方向。策略确定模块640可以具体用于：当多个比较结果指示音源方向对应的音源为两个，且分别靠近移动终端的顶部和底部时，同时在移动终端的显示屏的两个显示区域正向和倒置显示指定应用程序的当前界面内容。

进一步的，移动终端还包括多个第三麦克风，该音频流的处理装置600还可以包括：音源方向获取模块。音源方向获取模块用于当移动终端连接有外设音频设备时，通过第一麦克风、第二麦克风以及多个第三麦克风采集语音信息，并获取语音信息的音源方向。策略确定模块640可以包括：提示生成单元以及提示显示单元。其中，提示生成单元用于基于音源方向，在移动终端上确定目标显示位置并生成提示信息，提示信息用于指示音源方向；提示显示单元用于将提示信息显示在目标显示位置。

在一些实施例中，策略确定模块640可以包括：目标区域获取单元以及显示控制单元。其中，目标区域获取单元用于基于音源方向，获取移动终端的显示屏上与音源方向对应的目标区域；显示控制单元用于控制目标区域以预设显示效果显示目标区域对应的内容，预设显示效果包括旋转、振动、抖动以及水波纹中的至少一种。

在一些实施例中，音频分析模块620可以具体用于：当第一能量值大于第二能量值时，确定音源方向对应的音源靠近第一麦克风；当第一能量值小于第二能量值时，确定音源方向对应的音源靠近第二麦克风。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上，本申请提供的音频流的处理方法及装置，通过第一麦克风采集语音信息生成第一音频流，同时通过第二麦克风采集语音信息生成第二音频流，然后获取第一音频流对应的第一能量值，以及第二音频流对应的第二能量值，通过比较第一能量值和第二能量值获得比较结果，并基于比较结果确定语音信息的音源方向，以基于音源方向，确定移动终端的响应策略，从而移动终端在进行音频活动时，无需在用户之间传来传去，而是可根据双麦克风生成的音频流确定音源方向，以根据音源方向，自动执行对应的响应策略，简化了用户操作，增加了移动终端的易用性和卖点。

请参考图11，其示出了本申请实施例提供的一种移动终端的结构框图。该移动终端100可以是智能手机、平板电脑、电子书等能够运行应用程序的移动终端。本申请中的移动终端100可以包括一个或多个如下部件：处理器110、存储器120、以及音频采集装置130一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个移动终端100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行移动终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储移动终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

音频采集装置130用于采集用户的语音。音频采集装置140可以为麦克风、话筒，也可以为拾音器等，具体地音频采集装置在本申请实施例中并不作为限定。

请参考图12，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频流的处理方法，其特征在于，应用于移动终端，所述移动终端包括第一麦克风以及第二麦克风，所述方法包括：

通过所述第一麦克风采集语音信息生成第一音频流，同时通过所述第二麦克风采集所述语音信息生成第二音频流；

获取所述第一音频流对应的第一能量值，并获取所述第二音频流对应的第二能量值；

比较所述第一能量值和所述第二能量值获得比较结果，基于所述比较结果确定所述语音信息的音源方向；

基于所述音源方向，确定所述移动终端的响应策略。

2.根据权利要求1所述的方法，其特征在于，所述基于所述音源方向，确定所述移动终端的响应策略，包括：

基于所述音源方向，确定所述移动终端的语言翻译策略，所述语言翻译策略包括本地语言翻译成外语以及外语翻译成本地语言；

基于所述语言翻译策略，对所述语音信息进行翻译，得到所述语音信息的翻译结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述音源方向，确定所述移动终端的语言翻译策略，包括：

当所述比较结果指示所述音源方向对应的音源靠近所述移动终端的底部时，确定所述语言翻译策略为本地语言翻译成外语，并确定所述翻译结果的显示方式为倒置显示；

当所述比较结果指示所述音源方向对应的音源靠近所述移动终端的顶部时，确定所述语言翻译策略为外语翻译成本地语言，并确定所述显示方式为正向显示。

4.根据权利要求3所述的方法，其特征在于，所述移动终端的显示屏包括第一显示区域以及第二显示区域，所述第一显示区域靠近所述移动终端的顶部，所述第二显示区域靠近所述移动终端的底部，所述确定所述翻译结果的显示方式为倒置显示，包括：

确定所述翻译结果的显示方式为倒置显示，并将所述翻译结果倒置显示于所述第一显示区域；

所述确定所述显示方式为正向显示，包括：

确定所述翻译结果的显示方式为正向显示，并将所述翻译结果正向显示于所述第二显示区域。

5.根据权利要求1所述的方法，其特征在于，所述比较所述第一能量值和所述第二能量值获得比较结果，基于所述比较结果确定所述语音信息的音源方向，包括：

当所述移动终端运行有指定应用程序时，在所述指定应用程序的运行过程中，持续获取所述第一能量值和所述第二能量值的多个比较结果；

基于所述多个比较结果确定所述语音信息的音源方向；

所述基于所述音源方向，确定所述移动终端的响应策略，包括：

当所述多个比较结果指示所述音源方向对应的音源为两个，且分别靠近所述移动终端的顶部和底部时，同时在所述移动终端的显示屏的两个显示区域正向和倒置显示所述指定应用程序的当前界面内容。

6.根据权利要求1所述的方法，其特征在于，所述移动终端还包括多个第三麦克风，所述方法还包括：

当所述移动终端连接有外设音频设备时，通过所述第一麦克风、所述第二麦克风以及所述多个第三麦克风采集语音信息，并获取所述语音信息的音源方向；

基于所述音源方向，在所述移动终端上确定目标显示位置并生成提示信息，所述提示信息用于指示所述音源方向；

将所述提示信息显示在所述目标显示位置。

7.根据权利要求1所述的方法，其特征在于，所述基于所述音源方向，确定所述移动终端的响应策略，包括：

基于所述音源方向，获取所述移动终端的显示屏上与所述音源方向对应的目标区域；

控制所述目标区域以预设显示效果显示所述目标区域对应的内容，所述预设显示效果包括旋转、振动、抖动以及水波纹中的至少一种。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述比较所述第一能量值和所述第二能量值获得比较结果，基于所述比较结果确定所述语音信息的音源方向，包括：

当所述第一能量值大于所述第二能量值时，确定所述音源方向对应的音源靠近所述第一麦克风；

当所述第一能量值小于所述第二能量值时，确定所述音源方向对应的音源靠近所述第二麦克风。

9.一种音频流的处理装置，其特征在于，应用于移动终端，所述移动终端包括第一麦克风以及第二麦克风，所述装置包括：

音频获取模块，用于通过所述第一麦克风采集语音信息生成第一音频流，同时通过所述第二麦克风采集所述语音信息生成第二音频流；

音频分析模块，用于获取所述第一音频流对应的第一能量值，并获取所述第二音频流对应的第二能量值；

音源确定模块，用于比较所述第一能量值和所述第二能量值获得比较结果，基于所述比较结果确定所述语音信息的音源方向；

策略确定模块，用于基于所述音源方向，确定所述移动终端的响应策略。

10.一种移动终端，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-8任一项所述的方法。

11.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。