CN112530447A - 一种语音数据处理方法及通信终端 - Google Patents

一种语音数据处理方法及通信终端 Download PDF

Info

Publication number
CN112530447A
CN112530447A CN201910818829.5A CN201910818829A CN112530447A CN 112530447 A CN112530447 A CN 112530447A CN 201910818829 A CN201910818829 A CN 201910818829A CN 112530447 A CN112530447 A CN 112530447A
Authority
CN
China
Prior art keywords
inflexion
voice data
voice
processing
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910818829.5A
Other languages
English (en)
Inventor
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Mobile Communications Technology Co Ltd
Original Assignee
Hisense Mobile Communications Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Mobile Communications Technology Co Ltd filed Critical Hisense Mobile Communications Technology Co Ltd
Priority to CN201910818829.5A priority Critical patent/CN112530447A/zh
Publication of CN112530447A publication Critical patent/CN112530447A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及信息通讯技术领域,特别涉及一种语音数据处理方法及通信终端,以至少解决现有技术中通过专门的音频处理芯片进行变音方式会增加手机的功耗的问题,本公开方法包括:接收用户在通话过程中输入的变音指令,根据所述变音指令对通话过程中采集到的语音数据进行变音处理,将变音处理后的语音数据流编码后发送给接收端。因为本发明实施例提供的语音数据处理方法,不需要在手机中增加额外的音频处理芯片,通过运行额外音频处理芯片进行语音数据的变音处理,降低了生产成本,很好的解决了通过专门的音频处理芯片进行变音方式会增加手机的功耗的问题。

Description

一种语音数据处理方法及通信终端
技术领域
本发明涉及信息通讯技术领域,特别涉及一种语音数据处理方法及通信终端。
背景技术
变音技术是一项音频调整技术,可以将用户原本的声音变为童音、女音、老年音等声音。采用变音技术后,能够增添音频的趣味性。
目前,手机在对采集到的音频进行变音时,可以通过专门的音频处理芯片进行变音处理,这就需要在手机中增加额外的音频处理芯片。这种通过专门的音频处理芯片进行的变音方式对手机的硬件结构改变较大,增加生产成本,并且由于手机需要运行额外的音频处理芯片,也会增加手机的功耗。
综上所述,现有技术中通过专门的音频处理芯片进行变音方式会增加手机的功耗。
发明内容
本发明提供一种语音数据处理方法及通信终端,用以解决现有技术中通过专门的音频处理芯片进行变音方式会增加手机的功耗的问题。
基于上述问题,第一方面,本发明实施例提供语音数据处理方法,包括:
接收用户在通话过程中输入的变音指令;
根据所述变音指令对通话过程中采集到的语音数据进行变音处理;
将变音处理后的语音数据流编码后发送给接收端。
第二方面,本发明实施例提供一种通信终端,包括至少一个存储单元和至少一个处理单元;
其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行下列过程:
接收用户在通话过程中输入的变音指令;
根据所述变音指令对通话过程中采集到的语音数据进行变音处理;
将变音处理后的语音数据流编码后发送给接收端。
第三方面,本发明实施例提供一种语音数据处理装置,包括:
接收模块,用于接收用户在通话过程中输入的变音指令;
处理模块,用于根据所述变音指令对通话过程中采集到的语音数据进行变音处理;
发送模块,用于将变音处理后的语音数据流编码后发送给接收端。
第四方面,本发明实施例提供一种计算机可存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述方法的步骤。
本发明实施例提供的语音数据处理方法,通信终端接收用户在通话过程中输入的变音指令,根据变音指令对通话过程中采集到的语音数据进行变音处理,并将变音处理后的语音数据流编码后发送给接收端,从而不需要在手机中增加额外的音频处理芯片,通过运行额外音频处理芯片进行语音数据的变音处理,降低了生产成本,很好的解决了通过专门的音频处理芯片进行变音方式会增加手机的功耗的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1为本发明实施例一种语音处理方法的流程图。
图2为本发明实施例终端之间变音后语音数据流传输示意图。
图3为本发明实施例一种通话时语音数据流向示意图。
图4为本发明实施例在通话界面增加变音菜单按钮示意图。
图5为本发明实施例在通话界面变音模式选项示意图。
图6为本发明实施例一种语音数据传输流程框图。
图7为本发明实施例一种语音数据处理的完整方法流程图。
图8为本发明实施例第一种通信终端的结构示意图。
图9为本发明实施例第二种通信终端的结构示意图。
图10为本发明实施例第三种通信终端的结构示意图。
图11为本发明实施例第一种通信装置的结构示意图。
图12为本发明实施例第二种通信装置的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
下面对文中出现的一些术语进行解释:
1、本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
2、本发明实施例中术语“DSP(Digital Signal Processing,数字信号处理)层”,是一种数字化的音频信号处理设备,它先将多通道输入的模拟信号转化为数字信号,然后对数字信号进行一系列可调谐的算法处理,满足改善音质、消噪、消回音等应用需求,再通过数模转换输出多通道的模拟信号。
3、本发明实施例中术语“AP(Application Processor,应用芯片)层”,AP层上面运行了通信终端的操作系统和以及应用软件,AP层搭配存储单元、LCD(Liquid CrystalDisplay,液晶显示器)、cmera(照相机)、Bluetooth(蓝牙)、WiFi(无线热点)、GPS(GlobalPosition System,全球定位系统)等外设模块,实现丰富的多媒体和短距离无线业务。
4、本发明实施例中术语“变音”,是对PCM(Pulse Code Modulation,脉冲编码调制)数据进行的处理,如果是其它格式(如:MP3)也需要先解压成PCM格式再进行处理。常用的变音,例如将男声变为女声、童音、老年音等,另外还有一些对声音的高级处理,如:混响(Reverb)、回声(Echo)、EQ(Equaliser,均衡器)、锯齿(Flange)等。
5、本发明实施例中术语“Sound Touch算法”,是一个开源的音频处理算法,用于改变音频流或音频文件的节奏、音调和播放速率,具有很高的可塑性,可以自由定制适用于各种应用。
6、本发明实施例中术语“回波”,是指通过不同于正常路径的其他途径而到达给定点上的信号。回波产生是由于信号经反射物反射后,被反射物吸收一部分能量,产生了具有衰减延迟的原信号,叠加上原信号形成。
7、本发明实施例中术语“通信终端”,为可以安装各类应用程序,并且能够将已安装的应用程序中提供的对象进行显示的设备,该终端设备可以是移动的,也可以是固定的。例如,手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personal digitalassistant,PDA)、销售终端(point of sales,POS)或其它能够实现上述功能的终端设备等。
现有的,手机在对采集到的音频进行变音的技术,是基于专门的音频处理芯片,这种音频处理芯片预先安装在手机的内部,在用户需要将音频进行变音时,手机会运行该额外增加的音频处理芯片进行音频的处理,这种通过专门的音频处理芯片进行变音的方式不仅对手机的硬件结构改变较大,增加生产成本,并且运行额外的音频处理芯片,也会增加手机的功耗。
另外,现有还可以采用的采用第三方应用程序进行变音处理,在采集到通话过程中的语音数据之后,AP层直接将该语音数据进行变音处理,将处理后的语音数据流进行打包编码,打包编码后的语音数据包通过网络传输发送给接收端。其中网络传输主要使用的UDP(User Datagram Protocol,用户数据报协议)协议进行,第三方应用程序进行变音处理的业务逻辑发生在AP层。例如,在操作系统为Android系统时,通过Android中Audio类进行音频管理,通过socket进行数据传输。但是目前这种通过第三方应用程序进行变音处理的方法,处理之后的语音可能会出现延迟、杂音的问题,还有可能出现严重的回音情况,不能满足用户需求,降低了用户体验。
基于上述问题,本发明实施例提出一种语音数据处理方法,如图1所示,该方法包括如下步骤:
步骤S101、接收用户在通话过程中输入的变音指令;
步骤S102、根据所述变音指令对通话过程中采集到的语音数据进行变音处理;
步骤S103、将变音处理后的语音数据流编码后发送给接收端。
需要说明的是,本发明实施例的语音数据处理方法适用于在两个通信终端通话过程中对采集到的语音数据进行变音处理。如图2所示的两个终端,在两个终端通话过程中,发送端将采集到的语音数据经过变音处理后发送给接收端,假设发送端用户选择的变音模式为大叔音,则发送端在采集到通话过程中的语音数据后,将采集到的语音数据转换为大叔音发送给接收端。
针对通话过程中的通信终端,通话时语音数据流向如图3所示,通话语音数据流是双向的,分上行和下行,在上行方向上,编码译码器芯片采集到通话过程中的语音数据并发送给DSP层,在DSP层中对接收到的语音数据经过重采样、前处理之后编码得到编码后的语音数据流,并将语音数据流发送给调制解调器处理,处理之后经过空口发送给接收方。在下行方向上,先从空口接收发送过来的编码后的语音数据流,并做网络侧处理,处理之后的语音数据流发送给DSP层,在DSP层接收到该语音数据流之后对数据流进行解码、后处理、重采样等操作,最终将处理完成的数据发送给编码译码器芯片播放出来。
在上述语音数据流向的基础上,本发明实施例在DSP层进行对语音数据的变音处理,具体的,本发明实施例中一种语音数据处理方法,接收用户在通话过程中输入的变音指令,DSP层根据所述变音指令对通话过程中采集到的语音数据进行变音处理,并将处理后的语音数据流编码后发送给接收端,由于在DSP层执行变音处理操作,从而不需要在手机中增加额外的音频处理芯片,通过运行额外音频处理芯片进行语音数据的变音处理,不仅降低了生产成本,还解决了通过专门的音频处理芯片进行变音的方式会增加手机的功耗的问题。
本发明实施例中,在获取通话过程中的语音数据时,一种可选的实施方式为,通过编码译码器(codec)芯片获取;
具体地,可以通过编码译码器芯片采集到通话过程中的语音数据之后,将该语音数据发送给DSP层进行处理,其中,通话过程中的语音数据为PCM采样格式的语音数据。
本发明实施例在DSP层接收到通过编码译码器采集到的通话过程中语音数据之后,还需要对该语音数据进行预处理,将预处理后的语音数据作为需要进行变音处理的语音数据。
具体的,对采集到的通话过程中的语音数据进行预处理的处理方式可以包括下列方式中的部分或者全部:
重采样处理、自动增益补偿处理、回声消除器处理、背景噪音抑制处理。
下面针对不同的预处理方式,分别说明在进行对应的预处理操作之后对语音数据的处理效果:
一、重采样处理。
语音数据重采样主要步骤是进行插值或抽取。由于抽取可能产生混叠,内插可能产生镜像,因此需要在抽取前进行抗混叠滤波,在内插后进行抗镜像滤波。抗混叠滤波和抗镜像滤波都是使用低通滤波器实现。即将语音数据采样频率变换为新的采样频率以适应不同采样率的要求。
二、自动增益补偿处理。
当语音弱信号输入时,线性放大电路工作,保证输出信号的强度,当输入信号达到一定强度时,启动压缩放大电路,使输出幅度降低,也就是说,自动增益补偿处理可以通过改变输入输出压缩比例自动控制语音信号增益的幅度。
三、回声消除器处理。
通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波,通过回声消除器处理之后的语音数据可以解决现有技术中,对语音数据进行变音处理之后产生回声的问题。
四、背景噪音抑制处理。
通过探测出背景固定频率的杂音,从而实现背景噪音的消除,使用户在使用变音技术通话时可以呈现出清晰的声音,达到用户所需要的变音效果,提高用户的体验。
因为在对语音数据进行变音处理之前,还需要对采集到的通话过程中的语音数据进行重采样、自动增益补偿、回声消除、背景噪音抑制等一系列预处理操作,很好的解决了目前变音技术中对采集到通话过程中的语音数据直接进行变音处理之后,语音容易出现延迟、杂音和回音等问题,提高了用户的使用体验。
本发明实施例DSP层对通话过程中采集到的语音数据进行变音处理过程中,DSP层对通话过程中采集到的语音数据进行预处理,并将预处理后的语音数据进行变音处理。
实施中,DSP层在对预处理后的语音数据进行变音处理之前,还需要获取变音处理所需的变音参数;
实施中,一种可选的实施方式为,AP层根据变音指令确定变音参数,将确定出的变音参数发送给DSP层。
本发明实施例可以根据用户触发的变音指令对语音数据进行不同的变音处理,因此在将变音参数发送给DSP层之前,AP层还需要确定用户触发的变音指令对应的变音参数,将确定出的变音参数发送给DSP层,使DSP层根据该变音参数处理之后的语音数据流能达到用户所需要的效果。
可选的,用户触发的变音指令中包括变音模式。
如图4所示的发起通话请求的显示界面,该显示界面中包含变音选项,在用户通过变音选项触发变音指令后,为用户提供多个可选的变音模式,如图5所示的变音模式,可选的变音模式包括老年音、中年音、童音、女音、男音。用户可以选择一个变音模式,AP层确定用户选择的变音模式下对应的变音参数。
本发明实施例提供一种可选的在将变音参数发送给DSP层之前,确定不同变音模式下对应参数的方法:
AP层根据变音模式与变音参数之间的对应关系,确定变音指令中包括的变音模式对应的变音参数。
在确定对应的变音参数之后,AP层再执行发送操作,将确定出的变音参数发送给DSP层。
以用户在通话时选择“老年音”模式为例,在AP层响应用户该变音指令之后,确定模式“老年音”对应的变音参数,并将对应的变音参数发送给DSP层。
需要说明的是,上述实施例中的变音模式可以包括老年音、中年音、童音、萝莉音、大叔音、女音等模式,在此不做限定。
上述发明实施例中,变音参数可以包括下列参数中的部分或全部:
节拍(Tempo)、音调(Pitch)、速度(Playback Rate);
下面针对不同的变音参数,分别说明DSP层在接收到变音参数之后,根据变音参数通过变音算法对预处理之后的语音数据的处理效果:
一、节拍(Tempo)。
改变Tempo参数可以实现语音的变速,以用户通话时为例,将用户的语音速度加快或者减慢,具体的,在DSP层接收到预处理后的语音数据之后,通过AP层传输的Tempo参数的值通过变音算法可以将该语音数据波形线性缩短或者延长,从而达到将语音速度加快或者减慢的目的,但是改变Tempo参数无法实现语音的变调。
二、音调(Pitch)。
在DSP层根据不同的Pitch参数的值通过变音算法对预处理之后的语音数据进行处理之后,可以达到将语音变调的效果,具体的,是通过结合采样率转换和时间拉伸实现的;例如,增高音调的处理过程是,DSP层根据接收的Pitch参数将原语音音频拉伸时长,再通过采样率转换,同时减少时长与增高音调变为原时长。其中,改变声音的音调是在保持节拍不变的前提下实现的,也就是说改变Pitch参数可以实现语音的变调不变速。
三、速度(Playback Rate)。
改变Playback Rete参数可以使语音既变调也变速,具体的,是将语音以不同的转率播放,在DSP层接收到的Playback Rate参数的值之后,通过变音算法对预处理后的语音数据进行采样率转换的处理,从而实现语音在变调的同时也改变语音的速度。
这里需要说明的是,每种模式对应的变音参数的值都是预先设定好的,其中,预先设定的变音参数的值,是本领域技术人员的经验数值或者本领域技术人员根据大量样本实验后得出的数值。也就是说,每种模式的对应的变音参数的值是预先设定的。例如,以变音模式“萝莉音”为例进行说明,“萝莉音”模式下变音参数的值由本领域技术人员预先设置,DSP层接收到该模式下变音参数的值之后,对预处理后的语音数据进行处理,固定将语音提高8个音调。又例如变音模式“大叔音”,DSP层在接收到该模式下对应的固定参数的值之后,对语音数据进行处理,固定将语音音调降到0.8。
在DSP层接收到AP层确定并发送的变音参数之后,具体地,对预处理后的语音数据进行变音处理的方法,主要是通过变音算法结合变音参数对预处理后的语音数据进行处理;其中,变音算法可以是开源变音算法SoundTouch,此变音算法可以很好的处理PCM格式的语音数据,并且具有很高的可塑性。
这里需要说明的是,变音算法不是本发明实施例的重点部分,本发明实施例中对于变音算法的选择不做限定,任何可以实现对预处理后的语音数据进行变音处理的变音算法都适用于本发明实施例。
如图6所示的语音传输流程,DSP层接收编码译码器模块采集的通话过程中的语音数据,DSP层对该语音数据进行预处理之后,将预处理后的语音数据进行变音处理;
AP层,响应用户的变音指令,根据变音模式与变音参数之间的对应关系,确定所述变音指令中包括的变音模式对应的变音参数,将确定出的变音参数发送给DSP层;
DSP层,根据变音参数通过变音算法对预处理后的语音数据进行变音处理,将变音处理后的语音数据流编码后发送给调制解调器;
调制解调器,接收编码后的语音数据流进行处理后通过空口传输给接收端。
图7根据一示例性实施例示出的一种语音数据处理的完整方法流程图,应用于通信终端,包括以下步骤:
S701、编码译码器芯片采集通话过程中的语音数据,并将该语音数据发送给DSP层;
S702、DSP层对接收到的语音数据进行预处理,得到预处理后的语音数据;
S703、AP层响应用户的变音指令,根据变音指令中包括的变音模式以及变音模式与变音参数之间的对应关系,将变音指令中包括的变音模式对应的变音参数发送给所述DSP层;
这里需要说明的是,步骤S702和步骤S703执行的先后顺序不作限定,可以先执行步骤S702后执行S703,或者先执行步骤S703后执行S702还可以同时执行步骤S702和S703;
S704、DSP层根据接收到的变音参数对预处理后的语音数据通过变音算法进行变音处理;
S705、DSP层将变音处理后的语音数据流编码后发送给接收端。
基于同一发明构思,本发明实施例中还提供了一种通信终端,由于该通信终端对于语音数据的处理原理与本发明实施例提供的语音处理方法相似,因此该通信终端的实施可以参见方法的实施,重复之处不再赘述。
如图8所示,本发明实施例一种通信终端,包括至少一个存储单元800和至少一个处理单元801;
其中,所述存储单元800存储有程序代码,当所述程序代码被所述处理单元801执行时,使得所述处理单元801执行下列过程:
接收用户在通话过程中输入的变音指令;
根据所述变音指令对通话过程中采集到的语音数据进行变音处理;
将变音处理后的语音数据流编码后发送给接收端。
可选地,如图9所示,所述处理单元801包括AP层8011和DSP层8012;
所述AP层8011具体用于:
根据所述变音指令确定变音参数,将确定出的变音参数发送给DSP层;
所述DSP层8012具体用于:
根据接收到的所述变音参数对通话过程中采集到的语音数据进行变音处理。
可选地,所述变音指令中包括变音模式;
所述AP层8011具体用于:
根据变音模式与变音参数之间的对应关系,确定所述变音指令中包括的变音模式对应的变音参数。
可选地,所述变音参数包括下列参数中的部分或全部:
节拍、音调、速度;
可选地,所述DSP层8012具体用于:
根据接收到的所述变音参数,通过Sound Touch算法对通话过程中采集到的语音数据进行变音处理。
可选地,所述DSP层8012具体用于:
对通话过程中采集到的语音数据进行预处理,并将预处理后的语音数据进行变音处理;
其中,所述预处理包括下列处理方式中的部分或全部:
重采样处理、自动增益补偿处理、回声消除器处理、背景噪音抑制处理。
如图10所示,本发明实施例给出另一种通信终端1000,包括:射频(RadioFrequency,RF)电路1010、电源1020、处理器1030、存储器1040、输入单元1050、显示单元1060、摄像头1070、通信接口1080、以及无线保真(Wireless Fidelity,WiFi)模块1090等部件。本领域技术人员可以理解,图10中示出的终端的结构并不构成对终端的限定,本申请实施例提供的终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对所述终端1000的各个构成部件进行具体的介绍:
所述RF电路1010可用于通信或通话过程中,数据的接收和发送。特别地,所述RF电路1010在接收到基站的下行数据后,发送给所述处理器1030处理;另外,将待发送的上行数据发送给基站。通常,所述RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。
此外,RF电路1010还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobilecommunication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
WiFi技术属于短距离无线传输技术,所述终端1000通过WiFi模块1090可以连接的接入点(Access Point,AP),从而实现数据网络的访问。所述WiFi模块1090可用于通信过程中,数据的接收和发送。
所述终端1000可以通过所述通信接口1080与其他终端实现物理连接。可选的,所述通信接口1080与所述其他终端的通信接口通过电缆连接,实现所述终端1000和其他终端之间的数据传输。
由于在本申请实施例中,所述终端1000能够实现通信业务,向其他联系人发送信息,因此所述终端1000需要具有数据传输功能,即所述终端1000内部需要包含通信模块。虽然图10示出了所述RF电路1010、所述WiFi模块1090、和所述通信接口1080等通信模块,但是可以理解的是,所述终端1000中存在上述部件中的至少一个或者其他用于实现通信的通信模块(如蓝牙模块),以进行数据传输。
例如,当所述终端1000为手机时,所述终端1000可以包含所述RF电路1010,还可以包含所述WiFi模块1090;当所述终端1000为计算机时,所述终端1000可以包含所述通信接口1080,还可以包含所述WiFi模块1090;当所述终端1000为平板电脑时,所述终端1000可以包含所述WiFi模块。
所述存储器1040可用于存储软件程序以及模块。所述处理器1030通过运行存储在所述存储器1040的软件程序以及模块,从而执行所述终端1000的各种功能应用以及数据处理,并且当处理器1030执行存储器1040中的程序代码后,可以实现本发明实施例图1、图2、图4~图7中的部分或全部过程。
可选的,所述存储器1040可以主要包括存储程序区和存储数据区。其中,存储程序区可存储操作系统、各种应用程序(比如通信应用)以及进行WLAN连接的各个模块等;存储数据区可存储根据所述终端的使用所创建的数据等。
此外,所述存储器1040可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述输入单元1050可用于接收用户输入的数字或字符信息,以及产生与所述终端1000的用户设置以及功能控制有关的键信号输入。
可选的,输入单元1050可包括触控面板1051以及其他输入终端1052。
其中,所述触控面板1051,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在所述触控面板1051上或在所述触控面板1051附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,所述触控面板1051可以包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给所述处理器1030,并能接收所述处理器1030发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现所述触控面板1051。
可选的,所述其他输入终端1052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
所述显示单元1060可用于显示由用户输入的信息或提供给用户的信息以及所述终端1000的各种菜单。所述显示单元1060即为所述终端1000的显示系统,用于呈现界面,实现人机交互。
所述显示单元1060可以包括显示面板1061。可选的,所述显示面板1061可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-EmittingDiode,OLED)等形式来配置。
进一步的,所述触控面板1051可覆盖所述显示面板1061,当所述触控面板1051检测到在其上或附近的触摸操作后,传送给所述处理器1030以确定触摸事件的类型,随后所述处理器1030根据触摸事件的类型在所述显示面板1061上提供相应的视觉输出。
虽然在图10中,所述触控面板1051与所述显示面板1061是作为两个独立的部件来实现所述终端1000的输入和输入功能,但是在某些实施例中,可以将所述触控面板1051与所述显示面板1061集成而实现所述终端1000的输入和输出功能。
所述处理器1030是所述终端1000的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在所述存储器1040内的软件程序和/或模块,以及调用存储在所述存储器1040内的数据,执行所述终端1000的各种功能和处理数据,从而实现基于所述终端的多种业务。
可选的,所述处理器1030可包括一个或多个处理单元。可选的,所述处理器1030可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到所述处理器1030中。
所述摄像头1070,用于实现所述终端1000的拍摄功能,拍摄图片或视频。
所述终端1000还包括用于给各个部件供电的电源1020(比如电池)。可选的,所述电源1020可以通过电源管理系统与所述处理器1030逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
尽管未示出,所述终端1000还可以包括至少一种传感器、音频电路等,在此不再赘述。
如图11所示,本发明实施例一种通信装置,包括:
接收模块1100,用于接收用户在通话过程中输入的变音指令;
处理模块1101,用于根据所述变音指令对通话过程中采集到的语音数据进行变音处理;
发送模块1102,用于将变音处理后的语音数据流编码后发送给接收端。
可选地,如图12,所述处理模块1101包括AP层1111和DSP层1112;
所述AP层1111具体用于:
根据所述变音指令确定变音参数,将确定出的变音参数发送给DSP层;
所述DSP层1112具体用于:
根据接收到的所述变音参数对通话过程中采集到的语音数据进行变音处理。
可选地,所述变音指令中包括变音模式;
所述AP层1111具体用于:
根据变音模式与变音参数之间的对应关系,确定所述变音指令中包括的变音模式对应的变音参数。
可选地,所述变音参数包括下列参数中的部分或全部:
节拍、音调、速度;
所述DSP层1112具体用于:
根据接收到的所述变音参数,通过Sound Touch算法对通话过程中采集到的语音数据进行变音处理。
可选地,所述DSP层1112具体用于:
对通话过程中采集到的语音数据进行预处理,并将预处理后的语音数据进行变音处理;
其中,所述预处理包括下列处理方式中的部分或全部:
重采样处理、自动增益补偿处理、回声消除器处理、背景噪音抑制处理。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种通信终端,其特征在于,包括至少一个存储单元和至少一个处理单元;
其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行下列过程:
接收用户在通话过程中输入的变音指令;
根据所述变音指令对通话过程中采集到的语音数据进行变音处理;
将变音处理后的语音数据流编码后发送给接收端。
2.如权利要求1所述的通信终端,其特征在于,所述处理单元包括AP层和DSP层:
所述AP层用于根据所述变音指令确定变音参数,将确定出的变音参数发送给DSP层;
所述DSP层用于根据接收到的所述变音参数对通话过程中采集到的语音数据进行变音处理。
3.如权利要求2所述的通信终端,其特征在于,所述变音指令中包括变音模式;
所述AP层具体用于:根据变音模式与变音参数之间的对应关系,确定所述变音指令中包括的变音模式对应的变音参数。
4.如权利要求2所述的通信终端,其特征在于,所述变音参数包括下列参数中的部分或全部:
节拍、音调、速度。
5.如权利要求2所述的通信终端,其特征在于,所述DSP层具体用于:根据接收到的所述变音参数,通过Sound Touch算法对通话过程中采集到的语音数据进行变音处理。
6.如权利要求1~5任一项所述的通信终端,其特征在于,所述DSP层具体用于:对通话过程中采集到的语音数据进行预处理,并将预处理后的语音数据进行变音处理;
其中,所述预处理包括下列处理方式中的部分或全部:
重采样处理、自动增益补偿处理、回声消除器处理、背景噪音抑制处理。
7.一种语音数据处理方法,其特征在于,该方法包括:
接收用户在通话过程中输入的变音指令;
根据所述变音指令对通话过程中采集到的语音数据进行变音处理;
将变音处理后的语音数据流编码后发送给接收端。
8.如权利要求7所述的方法,其特征在于,所述根据所述变音指令对通话过程中采集到的语音数据进行变音处理,包括:
AP层根据所述变音指令确定变音参数,将确定出的变音参数发送给DSP层;
DSP层根据接收到的所述变音参数对通话过程中采集到的语音数据进行变音处理。
9.如权利要求8所述的方法,其特征在于,所述变音指令中包括变音模式;
所述AP层根据所述变音指令确定变音参数,包括:
所述AP层根据变音模式与变音参数之间的对应关系,确定所述变音指令中包括的变音模式对应的变音参数。
10.种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求7-9中任一项所述的方法。
CN201910818829.5A 2019-08-30 2019-08-30 一种语音数据处理方法及通信终端 Pending CN112530447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910818829.5A CN112530447A (zh) 2019-08-30 2019-08-30 一种语音数据处理方法及通信终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910818829.5A CN112530447A (zh) 2019-08-30 2019-08-30 一种语音数据处理方法及通信终端

Publications (1)

Publication Number Publication Date
CN112530447A true CN112530447A (zh) 2021-03-19

Family

ID=74974057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910818829.5A Pending CN112530447A (zh) 2019-08-30 2019-08-30 一种语音数据处理方法及通信终端

Country Status (1)

Country Link
CN (1) CN112530447A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115695637A (zh) * 2021-07-30 2023-02-03 北京小米移动软件有限公司 音频处理方法、音频处理装置及计算机存储介质
CN115766929A (zh) * 2022-10-14 2023-03-07 合众新能源汽车有限公司 车载座舱的变声通话方法、装置、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154680A (ja) * 1999-11-25 2001-06-08 Matsushita Electric Ind Co Ltd 機能可変型音声処理装置
CN104575487A (zh) * 2014-12-11 2015-04-29 百度在线网络技术(北京)有限公司 一种语音信号的处理方法及装置
CN107508997A (zh) * 2017-09-29 2017-12-22 深圳市云中飞网络科技有限公司 通话控制方法、通话控制装置及移动终端
CN108259857A (zh) * 2018-04-10 2018-07-06 广州峰火电子股份有限公司 一种视频监控公共广播双向对讲一体化系统及其控制方法
CN109144464A (zh) * 2018-08-27 2019-01-04 歌尔科技有限公司 一种音频输出的方法、装置及Android设备
WO2019047861A1 (zh) * 2017-09-05 2019-03-14 惠州Tcl移动通信有限公司 多媒体文件的获取及播放方法以及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001154680A (ja) * 1999-11-25 2001-06-08 Matsushita Electric Ind Co Ltd 機能可変型音声処理装置
CN104575487A (zh) * 2014-12-11 2015-04-29 百度在线网络技术(北京)有限公司 一种语音信号的处理方法及装置
WO2019047861A1 (zh) * 2017-09-05 2019-03-14 惠州Tcl移动通信有限公司 多媒体文件的获取及播放方法以及装置
CN107508997A (zh) * 2017-09-29 2017-12-22 深圳市云中飞网络科技有限公司 通话控制方法、通话控制装置及移动终端
CN108259857A (zh) * 2018-04-10 2018-07-06 广州峰火电子股份有限公司 一种视频监控公共广播双向对讲一体化系统及其控制方法
CN109144464A (zh) * 2018-08-27 2019-01-04 歌尔科技有限公司 一种音频输出的方法、装置及Android设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚娃华著: "《视频会议培训教程》", 31 October 2017 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115695637A (zh) * 2021-07-30 2023-02-03 北京小米移动软件有限公司 音频处理方法、音频处理装置及计算机存储介质
US11894009B2 (en) 2021-07-30 2024-02-06 Beijing Xiaomi Mobile Software Co., Ltd. Audio processing method, audio processing apparatus and computer storage medium
CN115766929A (zh) * 2022-10-14 2023-03-07 合众新能源汽车有限公司 车载座舱的变声通话方法、装置、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN111713141B (zh) 一种蓝牙播放方法及电子设备
CN108141498B (zh) 一种翻译方法及终端
WO2015085959A1 (zh) 语音处理方法及装置
CN104218963A (zh) 执行控制操作的方法、可穿戴设备和终端
CN105007543B (zh) 对讲方法、装置、设备及系统
CN107481721A (zh) 用于可穿戴电子设备的语音交互方法和可穿戴电子设备
CN106126172B (zh) 一种音效处理方法及移动终端
CN111199743B (zh) 音频编码格式确定方法、装置、存储介质及电子设备
CN106982286B (zh) 一种录音方法、设备和计算机可读存储介质
CN107393548A (zh) 多个语音助手设备采集的语音信息的处理方法及装置
CN104935361A (zh) 用于蓝牙耳机与移动终端通信的方法以及装置
CN112530447A (zh) 一种语音数据处理方法及通信终端
CN106940997B (zh) 一种向语音识别系统发送语音信号的方法和装置
CN108833683B (zh) 动态天线调整实现方法及相关产品
CN107197090A (zh) 一种语音信号的接收方法及移动终端
CN104656905A (zh) 语音遥控器的语音启动方法和装置
CN106506834A (zh) 通话中添加背景音的方法、终端及系统
CN103677582A (zh) 一种控制电子设备的方法及一种电子设备
CN111739545B (zh) 音频处理方法、装置及存储介质
WO2015078349A1 (zh) 麦克风收音状态的切换方法和装置
CN104978165A (zh) 一种语音信息的处理方法、系统及电子设备
CN107454265A (zh) 基于通话模式变化记录通话信息的方法及装置
CN108391208B (zh) 信号切换方法、装置、终端、耳机及计算机可读存储介质
CN110706705A (zh) 一种语音控制方法、终端及计算机存储介质
CN101848259A (zh) 一种数字家庭固定电话的语音处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210319

RJ01 Rejection of invention patent application after publication