CN113066504A - 音频传输方法、装置及计算机存储介质 - Google Patents

音频传输方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN113066504A
CN113066504A CN201911404049.2A CN201911404049A CN113066504A CN 113066504 A CN113066504 A CN 113066504A CN 201911404049 A CN201911404049 A CN 201911404049A CN 113066504 A CN113066504 A CN 113066504A
Authority
CN
China
Prior art keywords
target
voiceprint
audio data
sound
voiceprints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911404049.2A
Other languages
English (en)
Inventor
张宏升
吴丹
高瑞
苗伟斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SAIC Motor Corp Ltd
Original Assignee
SAIC Motor Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SAIC Motor Corp Ltd filed Critical SAIC Motor Corp Ltd
Priority to CN201911404049.2A priority Critical patent/CN113066504A/zh
Publication of CN113066504A publication Critical patent/CN113066504A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例提供一种音频传输方法、装置及计算机存储介质。该音频传输方法包括:对预设范围内n个音区的音频数据进行声纹提取,得到m个声纹,n为大于1的整数,m为大于0的整数,且m小于或等于n;在m个声纹中确定目标声纹,目标声纹用于指示目标通话人的声音特征;在n个音区中确定目标声纹对应的目标音区;传输目标音区的音频数据。本申请实施例对音频数据的声纹特征进行分析,确定目标声纹,进而确定与目标声纹对应的目标音区,将目标音区的音频数据传送给对方,使得当车内有多人同时说话时,传送给对方的音频数据是目标音区的音频数据,不会包含车内其他人的声音,提高用户体验。

Description

音频传输方法、装置及计算机存储介质
技术领域
本申请实施例涉及电子信息技术领域,尤其涉及一种音频传输方法、装置及计算机存储介质。
背景技术
随着终端技术的不断发展,终端所提供的语音通话、电话会议或视频通话的功能逐渐普及,例如,车载娱乐系统支持的蓝牙通话。
现有技术,车内设置麦克风,在语音通话过程中,麦克风收集车内的声音,并将收集到的声音发送到车载系统,车载系统将音频传送给对方。
然而,当车内有多人同时说话时,传送给对方的音频会包含车内其他人的声音,用户体验不佳。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供音频传输方法、装置及计算机存储介质,用以克服现有技术中当车内有多人同时说话时,传送给对方的音频会包含车内其他人的声音,用户体验不佳的缺陷。
第一方面,本申请实施例提供了一种音频传输方法,方法包括:
对预设范围内n个音区的音频数据进行声纹提取,得到m个声纹,n为大于1的整数,m为大于0的整数,且m小于或等于n;
在m个声纹中确定目标声纹,目标声纹用于指示目标通话人的声音特征;
在n个音区中确定目标声纹对应的目标音区;
传输目标音区的音频数据。
可选地,在本申请的一个实施例中,从m个声纹中确定目标声纹,包括:
将m个声纹与预设声纹进行比对;
将m个声纹中与预设声纹一致的声纹确定为目标声纹。
可选地,在本申请的一个实施例中,传输目标音区的音频数据,包括:
对目标音区的音频数据进行声纹提取,得到目标音区对应的声纹,如果目标音区对应的声纹与目标声纹一致,传输目标音区的音频数据。
可选地,在本申请的一个实施例中,方法还包括:
如果目标音区对应的声纹与目标声纹不一致,在n个音区中将目标声纹对应的音区确定为新的目标音区,传输新的目标音区的音频数据。
可选地,在本申请的一个实施例中,方法还包括:
生成并传输语音命令,并在预设范围内获取n个音区的音频数据,语音命令用于指示在预设范围内保持通话人的数量为1。
可选地,在本申请的一个实施例中,方法还包括:
接收切换请求信息后,在预设范围内获取n个音区的音频数据,切换请求信息用于指示更换通话人。
可选地,在本申请的一个实施例中,方法还包括:
通过麦克风阵列采集预设范围内n个音区的音频数据。
第二方面,本申请实施例提供了一种语音通话装置,装置包括:声纹分析模块、确定目标声纹模块、确定目标音区模块、传输模块;
声纹分析模块,用于对预设范围内n个音区的音频数据进行声纹提取,得到m个声纹,n为大于1的整数,m为大于0的整数,且m小于或等于n;
确定目标声纹模块,用于在m个声纹中确定目标声纹,目标声纹用于指示目标通话人的声音特征;
确定目标音区模块,用于在n个音区中确定目标声纹对应的目标音区;
传输模块,用于传输目标音区的音频数据。
第三方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;存储装置,用于存储至少一个程序;当至少一个程序被至少一个处理器执行时,使得至少一个处理器实现如第一方面或第一方面的任意一个实施例中所描述的方法。
可选地,在本申请的一个实施例中,电子设备还包括蓝牙通讯模块和显示屏;蓝牙通讯模块与处理器电连接,蓝牙通讯模块用于与终端蓝牙连接;显示屏与处理器电连接,显示屏用于显示通话界面。
第四方面,本申请实施例提供了一种计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第一方面的任意一个实施例中所描述的方法。
本申请实施例中,对n个音区的音频数据进行声纹提取,得到m个声纹,n为大于1的整数,m为大于0的整数,且m小于或等于n;在m个声纹中确定目标声纹,目标声纹用于指示目标通话人的声音特征;在n个音区中确定目标声纹对应的目标音区;传输目标音区的音频数据。本申请实施例对音频数据的声纹特征进行分析,确定目标声纹,进而确定与目标声纹对应的目标音区,将目标音区的音频数据传送给对方,使得当车内有多人同时说话时,传送给对方的音频数据是目标音区的音频数据,不会包含车内其他人的声音,提高用户体验。
附图说明
下文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比值绘制的。附图中:
图1为本申请实施例提供的一种音频传输方法的流程图;
图2为本申请实施例提供的一种麦克风阵列示意图;
图3为本申请实施例提供的一种音频传输方法的逻辑框图;
图4为本申请实施例提供的一种音频传输装置的示意图;
图5为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
本申请实施例一提供一种音频传输方法,图1为本申请实施例提供的一种音频传输方法的流程图,如图1所示,该音频传输方法包括以下步骤:
步骤101、对预设范围内n个音区的音频数据进行声纹提取,得到m个声纹。
其中,n为大于1的整数,m为大于0的整数,且m小于或等于n。
需要说明的是,可以将预设范围划分为n个区域,Zn表示第n个音区,n为大于1的整数。划分的区域数量可以根据预设范围的大小而定,示例的,预设范围可以是车内,例如,四座汽车,可以将车内音区划分为4个音区,该4个音区可以包括主驾驶音区、副驾驶音区、左后排音区、右后排音区,可以根据具体情况进行其他划分,对此本申请只做示例性说明,对此不作限制。预设范围也可以是一定范围内的空间,例如,会议室、办公室、演讲厅、指定范围的讨论区等,可以根据预设范围的空间大小和实际情况需求划分成不同数量的音区,对此,本申请实施例不做特别要求。
声纹与音区是相互对应关系,一个声纹对应一个音区,一个音区可以包括一个声纹,也可以没有声纹。当一个音区内没有声纹时,表示该音区内没有说话声音,该音区的声纹特征可以表示为0,也可以表示为无声纹特征,对此,本申请实施例不做限制。在本申请实施例中,一个有说话声音的音区得到一个声纹为例;例如,音区Z2有说话声音,对音区Z2的音频数据进行分析后得到一个声纹,音区Z4没有说话声音,对音区Z4的音频数据进行分析后没有得到声纹;再如,对6个音区的音频数据进行声纹提取,得到2个声纹,表示有4个音区内是没有说话人,没有音频数据,或音频数据显示为无声纹特征。
音频数据表示数字化的声音数据,声纹,是用电声学仪器显示的携带言语信息的声波频谱。成年以后,人的声音可保持长期相对稳定不变,因此人的声纹不仅具有特定性,而且有相对稳定性的特点。每一个人的声音都具有独特的特征,可以通过声纹特征将不同人的声音进行有效的识别与区分,可以通过声纹特征识别辨认说话人。对n个音区的音频数据进行声纹提取,并计算声纹的数量,得到m个声纹。
可选的,在本申请的一种实施例中,通过麦克风阵列采集预设范围内n个音区的音频数据。
示例的,麦克风都具有全向采集声音的功能,能够均等地响应来自四面八方的声音,多个麦克风可以配置成阵列,形成定向响应或波束成形,波束成形用于定向接收或传输信号,在本申请中波束成形麦克风阵列可以接收来自一个特定方向,也可以接收指定位置特定范围内的声音。
麦克风阵列可以是由多个麦克风组成,麦克风阵列用于采集不同位置的声音信号,可选的,如图2所示,图2为本申请实施例提供的一种麦克风阵列示意图,n个音区中每两个音区之间放置一个麦克风阵列,图2中的音区用区域Zn表示,n表示音区的数量,n为大于1的整数,麦克风阵列采集预设范围内n个音区的音频数据。示例的,预设空间为车内时,麦克风阵列可以设置在汽车车厢的顶部,也可以设置在汽车的车门上,也可以设置在座位上,也可以设置在座椅上方,麦克风阵列的形状可以是圆形,方形等不同的形状;预设空间是会议室或演讲厅时,麦克风阵列可以设置在座位的前面,方便采集说话人的声音。
示例的,支持蓝牙通话的车载系统已逐渐普及,用户可以将手机通过蓝牙连接至车载信息主机或智能座舱主机后,可以通过车内的屏幕操作并控制蓝牙电话功能。当用户主动发起或者收到语音通话请求时,通过麦克风阵列采集车内n个音区的音频数据。
需要说明的是,n个音区的音频数据可以是通过麦克风阵列采集得到的,也可以是接收其他设备采集的音频数据,对此,本申请实施例不做限制。
在根据步骤101得到m个声纹之后,还可以执行步骤102。
步骤102、在m个声纹中确定目标声纹。
其中,目标声纹用于指示目标通话人的声音特征。
示例的,预设范围为车内,当车内同时有5个人一起说话时,根据步骤101可以得到5个声纹,在5个声纹中确定出通话人的声纹,将通话人的声纹作为目标声纹。
可选的,在本申请的一种实施例中,将m个声纹与预设声纹进行比对;将m个声纹中与预设声纹一致的声纹确定为目标声纹。
在此,需要说明的是,在步骤101中,可以只对对预设范围内n个音区的音频数据进行声纹提取,并不得到具体的声纹数量,将n个音区中的音频数据与预设声纹进行对比,将n个音区中的音频数据中与预设声纹一致的声纹确定为目标声纹。
需要说明的是,预设声纹是已保存的默认声纹,可选的,预设声纹是已存储的某个声纹,可以是默认通话人的声音。在此列举一个示例进行说明,当车内有5个人一起说话时,根据步骤101可以得到5个声纹,将车内的5个声纹与默认通话人的声纹进行声纹比对,判断车内是否存在默认通话人,如果这5个声纹包含默认通话人的声纹,说明这5个人中存在默认通话人,将5个声纹中与默认通话人的声纹一致的声纹,确定为目标声纹。
在此,列举两个示例对将m个声纹中与预设声纹一致的声纹确定为目标声纹进行说明,第一个示例,当m个声纹中其中一个声纹的声波频谱与预设声纹的声波频谱相同时,将其确定为目标声纹;第二个示例,当m个声纹中其中一个声纹的主要声波频谱与预设声纹的声波频谱相同时,将其确定为目标声纹,例如主要声波频谱是默认通话人的声音,次要声波频谱是其他人的声音或噪音。
步骤103、在n个音区中确定目标声纹对应的目标音区。
需要说明的是,声纹与音区是相互对应关系,一个声纹对应一个音区,一个音区可以包括一个声纹,也可以没有声纹,或声纹的特征为0,或声纹的特征为无声纹特征,用于表示该音区内没有说话人,对此,本申请实施例不做限制。根据步骤102确定目标声纹后,可以根据目标声纹的特征,在n个音区中将包含有目标声纹的音区作为目标音区。
步骤104、传输目标音区的音频数据。
可选的,在本申请的一种实施例中,对目标音区的音频数据进行声纹提取,得到目标音区对应的声纹,如果目标音区对应的声纹与目标声纹一致,传输目标音区的音频数据。
在此,对多音区进行说明,在本申请中麦克风阵列可以接收一个特定方向的声音,也可以接收指定位置特定范围内的声音。对此,用多音区表示接收一个特定方向的声音,多音区通过音频声压处理或音频波束成形(Beam Forming)技术,本申请实施例的音频波束成形用于表示接收定向信号,多音区可以接收车内指定位置特定范围内的声音,而不受其余区域声音的影响。
示例的,在通话过程中,多音区接收多个特定方向的音频数据,例如接收n个音区的音频数据,n个音区的音频数据包括有目标音区的音频数据,对目标音区的音频数据进行声纹提取,得到目标音区对应的声纹,如果目标音区对应的声纹与目标声纹一致,说明通话人的位置没有发生变化,通话人在目标音区内,则传输目标音区的音频数据。通过将目标音区的声纹与目标声纹进行对比,可以避免将不是通话人的音频数据传输给对方。例如,在通话过程中,传输给对方的音频只包含指定的目标声纹所在音区的声音,不会包含车内其他人的声音,提高通话过程的抗干扰能力。
可选的,在本申请的一种实施例中,如果目标音区对应的声纹与目标声纹不一致,在n个音区中将目标声纹对应的音区确定为新的目标音区,传输新的目标音区的音频数据。
示例的,在通话过程中,多音区接收多个特定方向的音频数据,例如接收n个音区的音频数据,n个音区的音频数据包括有目标音区的音频数据,对目标音区的音频数据进行声纹提取,得到目标音区对应的声纹,如果目标音区对应的声纹与目标声纹不一致,说明通话人的位置发生变化,需要重新确定目标音区,示例的,可以在n个音区中将目标声纹对应的音区确定为新的目标音区,并传输新的目标音区的音频数据。通过将目标音区的声纹与目标声纹进行对比,可以避免将不是通话人的音频数据传输给对方,进而将包含有目标声纹的音区作为新的目标音区,将通话人的音频数据传输给对方,提高通话过程中传输音频数据的准确度。例如,当车内通话人的位置发生改变时,可以保证说话的权限保持在指定通话人那里,提高通话的灵活性。
在进入语音通话模式之后,在通话过程中,通过麦克风阵列不断采集预设范围内n个音区的音频数据,得到m个声纹,将m个声纹与预设声纹进行比对;将m个声纹中与预设声纹一致的声纹确定为目标声纹。当m个声纹不包括预设声纹时,说明n个音区中没有默认通话人的声纹,在此列举两个具体的应用场景对此进行说明。
第一个应用场景中,可选的,在本申请的一种实施例中,生成并传输语音命令,并在预设范围内获取n个音区的音频数据,语音命令用于指示在预设范围内保持通话人的数量为1。
当m个声纹不包括有默认通话人的声纹时,需要先确认声纹数量,如果声纹数量为1,则将该声纹确定为目标声纹,进而在n个音区中确定目标声纹对应的目标音区,传输目标音区的音频数据;如果声纹数量大于1,需要生成并传输语音命令,例如,通过语音或者人机界面(Human Machine Interface,简称HMI)的方式提示用户保持车内只有需要通话的人说话,其中,HMI是系统和用户之间进行交互和信息交换的媒介,当在预设范围内保持通话人的数量为1时,则将该声纹确定为目标声纹,进而在n个音区中确定目标声纹对应的目标音区,传输目标音区的音频数据。
在此,需要说明的是,在确定目标声纹时,一种可实现的方式中,根据将m个声纹与预设声纹进行比对确定目标声纹;另一种可实现的方式中,生成并传输语音命令,在预设范围内保持通话人的数量为1后,将该声纹确定为目标声纹。这两种确定目标声纹的方法不分先后顺序,可以应用在两个不同的应用场景中,这两种确定目标声纹的方法也可以以任意的顺序进行组合使用,具体方式可以根据实际情况进行组合,在此列举三个组合方式进行说明,一种组合方式中,先将m个声纹与预设声纹进行比对,m个声纹中没有包含预设声纹,判断声纹数量m是否为1,如果声纹数量大于1,生成并传输语音命令,在预设范围内保持通话人的数量为1后,将该声纹确定为目标声纹;另一种组合方式,先判断声纹数量m是否为1,如果声纹数量等于1,则将该声纹确定为目标声纹,如果声纹数量大于1,生成并传输语音命令,在预设范围内保持通话人的数量为1后,将该声纹确定为目标声纹;再一种组合方式中,先判断声纹数量m是否为1,如果声纹数量大于1,将m个声纹与预设声纹进行比对,将m个声纹中与预设声纹一致的声纹确定为目标声纹。在此本申请实施例对组合方式不做限制,只要能确定目标声纹的均在本申请的保护范围内。
第二应用场景中,可选的,在本申请的一种实施例中,接收切换请求信息后,在预设范围内获取n个音区的音频数据,切换请求信息用于指示更换通话人。
在通话过程中,如果没有收到切换通话人的请求,则保持当前通话人说话的权利,如果收到切换通话人的请求,则在接收切换请求信息后,通过语音或者HMI的方式提示用户保持车内只有待切换的通话人说话,保持通话人的数量为1,将该声纹确定为目标声纹,进而在n个音区中确定目标声纹对应的目标音区,传输目标音区的音频数据。
实施例二
进一步的,以具体的示例对如何进行音频数据传输进行举例说明,如图3所示,图3为本申请实施例提供的一种音频传输方法的逻辑框图。
当用户主动发起或者收到语音通话请求时,通过麦克风阵列采集车内n个音区的声音,并对采集到的n个音区的音频数据进行分析,在本申请实施例中,以一个有说话声音的音区可以得到一个声纹为例,例如,音区Z2有说话声音,对音区Z2的音频数据进行分析后得到一个声纹,音区Z4没有说话声音,对音区Z4的音频数据进行分析后没有得到声纹,对n个音区的音频数据进行分析,并与预设声纹进行比对,在本申请实施例中预设声纹可以是已保存的默认声纹,判断n个音区的声纹中是否包含有默认声纹,如果包含有默认声纹,则将与默认声纹一致的声纹确定为目标声纹,该目标声纹是通话人的声纹V0,并在n个音区中确定与目标声纹对应的目标音区,该目标音区是声纹V0对应的音区Z0;如果不包含有默认声纹,根据对n个音区的音频数据进行分析后得到的m个声纹,该m个声纹表示声纹数量为m,判断m是否等于1,如果m等于1,说明n个音区中只存在一个人说话,则根据多音区,确定通话人的声纹VR,将声纹VR确定为目标声纹,并在n个音区中确定与目标声纹对应的目标音区,该目标音区是声纹VR对应的音区ZR,如果m不等于1,则生成并传输语音命令,语音提示用户在预设范围内保持通话人的数量为1,也就是提示用户保持需要通话的人说话,重新通过麦克风阵列采集车内n个音区的声音,并对采集到的n个音区的音频数据进行分析。
在得到目标声纹及目标声纹对应的目标音区之后,进入语音通话模式,通过麦克风阵列采集车内n个音区的声音,根据多音区,对目标音区的音频数据进行声纹提取,得到目标音区对应的声纹,如果目标音区对应的声纹与目标声纹一致,则传输目标音区的音频数据,如果目标音区对应的声纹与目标声纹不一致,在n个音区中将目标声纹对应的音区确定为新的目标音区,传输新的目标音区的音频数据;在通话过程中,需要判断是否有切换通话人的请求,如果接收到切换请求信息,则重新通过麦克风阵列采集车内n个音区的声音,并对采集到的n个音区的音频数据进行分析。
在通话过程中,需要判断是否有通话结束指令,如果有通话结束指令,则结束通话,如果没有通话结束指令,则进入语音通话模式,通过麦克风阵列采集车内n个音区的声音,根据多音区,对目标音区的音频数据进行声纹提取,得到目标音区对应的声纹。
实施例三、
本申请实施例提供了一种语音通话装置,如图4所示,图4为本申请实施例提供的一种语音通话装置,装置包括:声纹分析模块401、确定目标声纹模块402、确定目标音区模块403、传输模块404;
声纹分析模块401,用于对n个音区的音频数据进行声纹提取,得到m个声纹,n为大于1的整数,m为大于0的整数,且m小于或等于n;可选的,声纹分析模块401可以对音频数据进行声纹分析,并计算声纹数量,也可以在多个声纹中区分已存储或记录的某个声纹特征。
确定目标声纹模块402,用于在m个声纹中确定目标声纹,目标声纹用于指示目标通话人的声音特征;
确定目标音区模块403,用于在n个音区中确定目标声纹对应的目标音区;
传输模块404,用于传输目标音区的音频数据。
实施例四、
基于上述实施例一描述的音频传输方法,本申请实施例提供了一种电子设备50,如图5所示,图5为本申请实施例提供的一种电子设备50的结构图,该电子设备50包括:至少一个处理器501;存储器502,存储器存储有至少一个程序512,处理器501和存储器502电连接,当至少一个程序被至少一个处理器501执行时,使得至少一个处理器501实现如实施例一所描述的方法。
可选地,在本申请的一个实施例中,该电子设备50还包括:总线503和通信接口504,至少一个处理器501、存储器502和通信接口504通过总线503相互通信。通信接口504可以是网络通信接口,网络通信接口与通话软件后台服务器通信,与通话对象建立网络连接,可以通过网络通信接口上传所采集的音频数据,也可以通过网络通信接口下载正在通话的音频数据,对此本申请不做限制。
可选的,在本申请的一个实施例中,电子设备50还包括语音通话模块,语音通话模块与处理器501电连接,语音通话模块可以用于生成并传输语音命令,语音命令用于指示在所述预设范围内保持通话人的数量为1,可以通过显示屏或语音控制指令调用语音通话模块;语音通话模块也可以用于接收并处理在通话过程中或者非通话过程中特定的语音控制指令;语音通话模块也可以用于将从网络通信接口上接收到的相关信息显示在显示屏上;语音通话模块也可以用于将音频数据发送到网络通信接口,对此本申请实施例不做限制。
可选地,在本申请的一个实施例中,电子设备50还包括麦克风阵列,麦克风阵列与处理器501电连接,麦克风阵列用于采集车辆空间内的声音,并将采集到的声音通过总线503发送至处理器501,电子设备50可以接收多路音频数据。需要说明的是,总线503可以是硬线或A2B总线,对此本申请实施例不做限制。示例的,A2B总线是一种仅需要使用一组非屏蔽双绞线就可以双向传输32个通道音频数据的汽车数字音频总线。
可选地,在本申请的一个实施例中,电子设备50还包括蓝牙通讯模块,蓝牙通讯模块与处理器501电连接,蓝牙通讯模块用于与终端蓝牙连接,示例的,用户通过手机蓝牙与电子设备50连接,进行相关数据的交互。
可选地,在本申请的一个实施例中,电子设备50还包括显示屏;显示屏与处理器501电连接,显示屏用于显示通话界面。示例的,显示屏为触摸屏,当接收语音通话请求或发起语音通话请求时,显示屏用于显示通话界面;当接收切换语音通话人的请求信息时,显示屏用于将通话界面显示为切换通话人开关;当接收到通话结束请求信息时,显示屏用于将通话界面显示为结束开关。
实施例五、
基于上述实施例一描述的音频传输方法,本申请实施例提供了一计算机存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现如实施例一所描述的方法。
本申请实施例的图像相似度计算装置以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子设备。
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用计算机存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用计算机存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种音频传输方法,其特征在于,所述方法包括:
对预设范围内n个音区的音频数据进行声纹提取,得到m个声纹,所述n为大于1的整数,所述m为大于0的整数,且m小于或等于n;
在所述m个声纹中确定目标声纹,所述目标声纹用于指示目标通话人的声音特征;
在所述n个音区中确定所述目标声纹对应的目标音区;
传输所述目标音区的音频数据。
2.根据权利要求1所述的方法,其特征在于,从所述m个声纹中确定目标声纹,包括:
将所述m个声纹与预设声纹进行比对;
将所述m个声纹中与所述预设声纹一致的声纹确定为目标声纹。
3.根据权利要求1所述的方法,其特征在于,传输所述目标音区的音频数据,包括:
对所述目标音区的音频数据进行声纹提取,得到所述目标音区对应的声纹,如果所述目标音区对应的声纹与所述目标声纹一致,传输所述目标音区的音频数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述目标音区对应的声纹与所述目标声纹不一致,在所述n个音区中将目标声纹对应的音区确定为新的目标音区,传输所述新的目标音区的音频数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
生成并传输语音命令,并在所述预设范围内获取所述n个音区的音频数据,所述语音命令用于指示在所述预设范围内保持通话人的数量为1。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收切换请求信息后,在所述预设范围内获取所述n个音区的音频数据,所述切换请求信息用于指示更换通话人。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过麦克风阵列采集所述预设范围内所述n个音区的音频数据。
8.一种语音通话装置,其特征在于,所述装置包括:声纹分析模块、确定目标声纹模块、确定目标音区模块、传输模块;
所述声纹分析模块,用于对预设范围内n个音区的音频数据进行声纹提取,得到m个声纹,所述n为大于1的整数,所述m为大于0的整数,且m小于或等于n;
所述确定目标声纹模块,用于在所述m个声纹中确定目标声纹,所述目标声纹用于指示目标通话人的声音特征;
所述确定目标音区模块,用于在所述n个音区中确定所述目标声纹对应的目标音区;
所述传输模块,用于传输所述目标音区的音频数据。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器上存储有计算机程序;所述处理器用于执行所述存储器中存储的计算机程序实现如权利要求1-7任一项所述的方法。
10.根据权利要求9所述的方法,其特征在于,所述电子设备还包括蓝牙通讯模块和显示屏;
所述蓝牙通讯模块与所述处理器电连接,所述蓝牙通讯模块用于与终端蓝牙连接;
所述显示屏与所述处理器电连接,所述显示屏用于显示通话界面。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,在处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的方法。
CN201911404049.2A 2019-12-31 2019-12-31 音频传输方法、装置及计算机存储介质 Pending CN113066504A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911404049.2A CN113066504A (zh) 2019-12-31 2019-12-31 音频传输方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911404049.2A CN113066504A (zh) 2019-12-31 2019-12-31 音频传输方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN113066504A true CN113066504A (zh) 2021-07-02

Family

ID=76558449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911404049.2A Pending CN113066504A (zh) 2019-12-31 2019-12-31 音频传输方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113066504A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571101A (zh) * 2021-09-10 2021-10-29 深圳市升迈电子有限公司 智能录音方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN109192203A (zh) * 2018-09-29 2019-01-11 百度在线网络技术(北京)有限公司 多音区语音识别方法、装置及存储介质
CN110010126A (zh) * 2019-03-11 2019-07-12 百度国际科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
CN209183264U (zh) * 2018-11-06 2019-07-30 东莞市华泽电子科技有限公司 语音处理系统
CN110310633A (zh) * 2019-05-23 2019-10-08 北京百度网讯科技有限公司 多音区语音识别方法、终端设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280183A (zh) * 2015-09-10 2016-01-27 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN109192203A (zh) * 2018-09-29 2019-01-11 百度在线网络技术(北京)有限公司 多音区语音识别方法、装置及存储介质
CN209183264U (zh) * 2018-11-06 2019-07-30 东莞市华泽电子科技有限公司 语音处理系统
CN110010126A (zh) * 2019-03-11 2019-07-12 百度国际科技(深圳)有限公司 语音识别方法、装置、设备和存储介质
CN110310633A (zh) * 2019-05-23 2019-10-08 北京百度网讯科技有限公司 多音区语音识别方法、终端设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571101A (zh) * 2021-09-10 2021-10-29 深圳市升迈电子有限公司 智能录音方法、装置、设备及存储介质
CN113571101B (zh) * 2021-09-10 2022-09-20 深圳市升迈电子有限公司 智能录音方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN102520391B (zh) 认知负荷减少
CN110113316B (zh) 会议接入方法、装置、设备及计算机可读存储介质
US20070263823A1 (en) Automatic participant placement in conferencing
US20160127827A1 (en) Systems and methods for selecting audio filtering schemes
CN103685783B (zh) 信息处理系统和存储介质
CN106790940B (zh) 录音方法、录音播放方法、装置及终端
US20140329511A1 (en) Audio conferencing
CN107301028B (zh) 一种基于多人远程通话的音频数据处理方法及装置
CN107004425A (zh) 共享声学空间中的增强型对话通信
CN108335701B (zh) 一种进行声音降噪的方法及设备
CN110336892B (zh) 一种多设备协作方法、装置
CN106067996A (zh) 语音再现方法、语音对话装置
CN111343410A (zh) 一种静音提示方法、装置、电子设备及存储介质
CN108449502A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN108449497A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN113066504A (zh) 音频传输方法、装置及计算机存储介质
CN110660403A (zh) 一种音频数据处理方法、装置、设备及可读存储介质
JP7020554B2 (ja) 会話サポートシステム、その方法、およびプログラム
EP3979609A1 (en) Evaluation device, evaluation method, and program
CN109195072B (zh) 基于汽车的音频播放控制系统及方法
US20230362571A1 (en) Information processing device, information processing terminal, information processing method, and program
CN114979344A (zh) 回声消除方法、装置、设备及存储介质
CN116114241A (zh) 信息处理装置、信息处理终端、信息处理方法和程序
CN115019826A (zh) 音频信号处理方法、设备、系统及存储介质
US10580410B2 (en) Transcription of communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination