CN103198834B - 一种音频信号处理方法、装置及终端 - Google Patents

一种音频信号处理方法、装置及终端 Download PDF

Info

Publication number
CN103198834B
CN103198834B CN201210001235.3A CN201210001235A CN103198834B CN 103198834 B CN103198834 B CN 103198834B CN 201210001235 A CN201210001235 A CN 201210001235A CN 103198834 B CN103198834 B CN 103198834B
Authority
CN
China
Prior art keywords
video signal
signal
audio
received
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210001235.3A
Other languages
English (en)
Other versions
CN103198834A (zh
Inventor
刘玮哲
刘霖
黄健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201210001235.3A priority Critical patent/CN103198834B/zh
Priority to PCT/CN2012/086953 priority patent/WO2013102403A1/zh
Publication of CN103198834A publication Critical patent/CN103198834A/zh
Application granted granted Critical
Publication of CN103198834B publication Critical patent/CN103198834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例提供一种音频信号处理方法、装置及终端,包括:在对音频信号进行编码时,通过接收到的视频信号确定接收到的音频信号的种类,在确定接收到的音频信号为语音信号时,利用时域编码的方式对该音频信号进行编码,在确定接收到的音频信号为非语音信号时,利用频域编码的方式对该音频信号进行编码,从而对识别出的语音信号和非语音信号分别进行编码,并实现声音的传输。

Description

一种音频信号处理方法、装置及终端
技术领域
本发明涉及终端领域,尤其涉及一种音频信号处理方法、装置及终端。
背景技术
随着第三代移动通信技术(3G,3rd-generation)的快速发展,可视电话逐步在3G网络中得到了较多的应用。在目前的可视电话技术中,低码率音频编码技术是可视电话应用中的一个关键技术。
在低码率音频编码领域,存在2个主要的技术路线,一种是时域编码,一种是频域编码。
时域编码是针对音频信号的波形,进行编码。针对时域编码比较典型的有国际电信联盟(ITU,International Telecommunication Union)G.729、G.723.1和G.728等编码标准,这些编码标准广泛采用了码激励线性预测(CELP)技术,从原理上根据人类的发生机理建模,利用人类声门、声道固有的特性,去除音频信号里面的冗余信息,从而在保持较高的音频质量的同时,大幅度的降低了音频编码所需的比特率。
在这类音频编码方法中,最致命的缺陷在于该方法主要适用于人类发声(语音信号),对于杂乱无章(包括音乐、噪声以及其他声音)的音频信号(非语音信号),编码效果较差。
频域编码的原理在于,利用人耳对于声音的接受原理,在频域对于音频信号进行编码。重点编码人类关注的频段,而对于被其他频段掩蔽或是人类不易感知的频段,采用粗略量化或是不量化的策略。
频域编码的优势在于根据人耳的特性,去除了一定的冗余,因此对各种音频信号的编码效果几乎相当,尤其对于音乐等信号的编码质量要高于时域编码。但是在语音信号上,其编码时并未考虑人类发声机理,无法去除发声冗余,因此编码效果要远低于基于CELP技术的时域编码。
现有的可视电话技术中,由于语音信息相对重要,因此通常采用基于CELP技术的时域编码。基于时域编码的低码率音频编码可以在很低的码率上为可视电话应用提供较高质量的语音编码质量,确保可视电话中较为清晰、易懂的语音通信能力。但是,可视电话在进行语音通信的同时,经常会伴随其他的声音(非语音),比如通话方要让对方听音乐或是其他声音的情况,此时,采用基于时域编码的低码率音频编码导致编码质量很差,声音失真严重。
发明内容
本发明实施例提供一种音频信号处理方法、装置及终端,用于解决声音传输过程中采用单一编码导致声音传输质量较差的问题。
一种低码率音频编码方法,所述方法包括:
在接收音频信号的同时,接收视频信号;
根据接收到的视频信号,确定所述音频信号为语音信号或非语音信号;
在确定所述音频信号为语音信号时,利用基于时域编码的低码率音频编码对所述音频信号进行编码,否则,在确定所述音频信号为非语音信号时,利用基于频域编码的低码率音频编码对所述音频信号进行编码。
一种低码率音频编码装置,所述装置包括:
第一接收模块,用于接收音频信号;
第二接收模块,用于接收视频信号;
确定模块,用于根据接收到的视频信号,确定所述音频信号为语音信号或非语音信号;
第一编码模块,用于在确定模块确定所述音频信号为语音信号时,利用基于时域编码的低码率音频编码对所述音频信号进行编码;
第二编码模块,用于在确定模块确定所述音频信号为非语音信号时,利用基于频域编码的低码率音频编码对所述音频信号进行编码。
一种终端,所述终端包括上述低码率音频编码装置。
根据本发明实施例提供的方案,在对音频信号进行编码时,通过接收到的视频信号确定接收到的音频信号的种类,在确定接收到的音频信号为语音信号时,利用时域编码的方式对该音频信号进行编码,在确定接收到的音频信号为非语音信号时,利用频域编码的方式对该音频信号进行编码,从而对识别出的语音信号和非语音信号分别进行编码,并实现声音的传输。
附图说明
图1为本发明实施例一提供的音频信号处理方法的步骤流程图;
图2为本发明实施例一提供的码流示意图;
图3为本发明实施例二提供的音频信号处理装置的结构示意图;
图4为本发明实施例三提供的终端的结构示意图。
具体实施方式
本发明实施例中,在可视电话环境下,利用可视电话中的图像捕捉,根据图像的信息,判别音频是无规律音频还是语音,从而指导音频编码。实现在编码码率不变的情况下,提高音频编码质量。
下面结合说明书附图和各实施例对本发明方案进行说明。
实施例一、
本发明实施例一提供一种音频信号处理方法,该方法可以但不限于应用于可视电话音频编码领域,该方法的步骤如图1所示,包括:
步骤101、接收信号。
在本步骤中,不仅需要接收音频信号,还需要接收音频信号。因此,本步骤包括:在接收音频信号的同时,接收视频信号。所述视频信号可以是可视电话中配置的摄像头针对设定区域进行拍摄获得的。
步骤102、确定音频信号的种类。
在本步骤中,可以根据接收到的视频信号,确定所述音频信号为语音信号或非语音信号。
在本步骤中,可以确定当前接收到的视频信号(当前视频帧)中是否存在指定的图像,即确定摄像头当前拍摄的设定区域中是否包含指定的图像,具体的,可以根据像素信息,确定当前接收到的视频信号(当前视频帧)中是否存在指定的图像,若该视频信号中存在指定的图像,确定距离该视频信号时间最短的一个已接收的视频信号(上一视频帧):
若该已接收的视频信号中存在指定的图像,在该已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移的绝对值满足设定的阈值时,确定当前接收到的音频信号为语音信号,否则,确定当前接收到的音频信号为非语音信号。
所述当前接收到的音频信号可以是指在本次确定出音频信号种类的时刻到下次确定出音频信号种类的时刻之间接收到的音频信号。此时,由于在目前技术和设备硬件能力下,采集一帧视频帧的时间非常短,如20ms,对视频信号的处理速度非常快,且在利用可视电话进行通话过程中,一段音频信号的时间一般较长,因此可以对音频信号开始的一段延迟忽略不计。当然,也可以在利用可视电话进行的一次通话过程中,在利用视频信号初次确定音频信号种类的时间内,设定该时间内接收到的音频信号的种类为语音信号或非语音信号。
为了利用视频信号确定音频信号的种类,所述指定的图像可以但不限于是嘴唇、喉咙等发声器官。并可以在当前视频帧与上一视频帧中指定的图像的相对位移的绝对值满足设定的阈值时,具体的,所述指定的图像为嘴唇时,可以根据人类发声时,嘴唇面积(上嘴唇和下嘴唇围成的区域所占的面积)会发生变化的特点,判断嘴唇面积变化的绝对值是否满足设定的阈值,如大于第一阈值,确定当前音频信号是人类发出的语音信号,否则,确定当前音频信号不是人类发出的语音信号,属于非语音信号。当然,也可以根据人类发声时,上(下)嘴唇会发生上下移动的特点,判断上(或下)嘴唇移动的位移的绝对值是否满足设定的阈值,如是否大于第二阈值,并在判断上(或下)嘴唇移动的位移的绝对值满足设定的阈值时,确定当前音频信号是人类发出的语音信号,否则,确定当前音频信号不是人类发出的语音信号,属于非语音信号。
进一步的,若确定当前接收到的视频信号中不存在指定的图像,可以确定当前接收到的音频信号为非语音信号。若确定当前接收到的视频信号中存在指定的图像,且所述已接收的视频信号中不存在指定的图像,确定当前接收到的音频信号为语音信号。
当然,除了可以结合上一视频帧和当前视频帧来确定当前接收到的音频信号的种类,也可以仅根据当前接收到的视频信号来确定当前接收到的音频信号的种类,具体的,可以确定当前接收到的视频信号中是否存在指定的图像,若不存在,确定当前接收到的音频信号为非语音信号,否则,确定当前接收到的音频信号为语音信号。
可以采用现有的图像识别方法从视频帧中识别指定的图像。例如,在识别嘴唇时,可以根据嘴唇在色彩上与通话者皮肤及其他器官存在较大差异,在采集到的视频帧中,嘴唇图像像素中的红色分量(R分量)与绿色分量(G分量)的差异与其他区块有明显的不同的特点,利用R分量与G分量的差异作为从视频帧中识别嘴唇图像的方法。
具体的,可以通过如下公式(1)实现嘴唇图像的识别:
h ( x , y ) = R ( x , y ) G ( x , y ) + R ( x , y ) - - - ( 1 )
其中,R(x,y)表示在像素点(x,y)上的R分量值,G(x,y)表示在像素点(x,y)上的G分量值。h(x,y)表示像素点(x,y)上的红、绿分量的差异。
可以利用h(x,y)分量对图像进行二值化,二值化的门限值可以根据多人训练得到(可以以不同肤色,不同性别,不同年龄的人)二值化的最佳门限值。对二值化后的像素信息进行整理,去除零散的噪声点即可以得到嘴唇的估计区域(上嘴唇和下嘴唇围成的区域),实现对嘴唇图像的识别。
且进一步的,可以通过以下方法确定当前视频帧与上一视频帧中指定的图像的相对位移:
若在当前视频帧搜索到嘴唇区域(嘴唇图像)后,根据该区域的坐标点,裁切出该区域对应的二值化点阵,设嘴唇区域对应的二值化点阵用P表示,该点阵的面积可以用A(P)表示。对于点阵P中任意一个像素点(x,y),在上一视频帧二值化像素值为h′(x,y),在当前视频帧的二值化像素值为h(x,y),可以通过如下公式(2)计算上一视频帧和当前视频帧中嘴唇区域的差别,用D表示:
D = Σ p ( h ( x , y ) - h ′ ( x , y ) ) 2 A ( P ) - - - ( 2 )
并可以在确定D满足设定的阈值时,确定当前音频信号是人类发出的语音信号,否则,确定当前音频信号不是人类发出的语音信号,属于非语音信号。
步骤103、对音频信号进行编码。
在确定所述音频信号为语音信号时,利用基于时域编码的低码率音频编码对所述音频信号进行编码,具体的,可以采用现有的编码方式,如根据ITUG.729/728/723.1,3GPPAMR-NB/WB或是其他基于CELP技术的编码方式进行编码,否则,在确定所述音频信号为非语音信号时,利用基于频域编码的低码率音频编码对所述音频信号进行编码,具体的,可以采用现有的编码方式,如使用感知加权,在快速傅里叶变换(FFT,Fast Fourier Transform)域进行格型矢量量化的编码方式。
步骤104、对编码后的数据量化输出。
在对音频信号进行编码后,可以对编码后获得的数据进行量化,组织码流并输出。且可以在码流头设置标识位,对采用时域编码获得的码流和对采用频域编码获得的码流进行区分,用于后续的解码操作。具体的,如图2所示为带有标识位的码流,在对语音信号采用CELP编码(基于CELP技术的编码方式),对非语音信号采用变换域编码(基于频域编码的编码方式)时,在编码完成后,可以在码流头设置一个标识位,该标识位为0,标识该码流是CELP码流(语音码流),该标识位为1,标识该码流是变换域编码码流(非语音码流)。
在解码端,可以根据标识位,选择使用变换域解码器还是CELP解码器,从而得到正确的解码码流。
与本发明实施例一基于同一发明构思,提供以下的装置和终端。
实施例二、
本发明实施例二提供一种音频信号处理装置,该装置可以但不限于应用于可视电话音频编码领域,该装置的结构如图3所示,包括:
第一接收模块11用于接收音频信号;第二接收模块12用于接收视频信号;确定模块13用于根据接收到的视频信号,确定所述音频信号为语音信号或非语音信号;第一编码模块14用于在确定模块确定所述音频信号为语音信号时,利用基于时域编码的低码率音频编码对所述音频信号进行编码;第二编码模块15用于在确定模块确定所述音频信号为非语音信号时,利用基于频域编码的低码率音频编码对所述音频信号进行编码。
所述确定模块13具体用于确定当前接收到的视频信号中是否存在指定的图像,若该视频信号中存在指定的图像,确定距离该视频信号时间最短的一个已接收的视频信号:若该已接收的视频信号中存在指定的图像,在该已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移的绝对值满足设定的阈值时,确定当前接收到的音频信号为语音信号,否则,确定当前接收到的音频信号为非语音信号。
所述确定模块13还用于在确定当前接收到的视频信号中不存在指定的图像时,确定当前接收到的音频信号为非语音信号;以及,在确定当前接收到的视频信号中存在指定的图像,且所述已接收的视频信号中不存在指定的图像时,确定当前接收到的音频信号为语音信号。
所述确定模块13具体用于确定当前接收到的视频信号中是否存在指定的图像,若不存在,确定当前接收到的音频信号为非语音信号,否则,确定当前接收到的音频信号为语音信号。
所述装置还包括:
码流输出模块16用于对编码后获得的数据进行量化,并组织码流输出,所述码流中包括标识位,用于标识该码流对应的数据的编码方式。如,可以将标识位设置为0,标识该码流为采用时域编码获得的码流,将标识位设置为1,标识该码流为采用频域编码获得的码流。
实施例三、
本发明实施例三提供一种终端,该终端的结构可以如图4所示,该终端中可以集成有本发明实施例二提供的装置,且所述终端中还可以包括进一步包括视频信号采集模块21和音频信号采集模块22:
视频信号采集模块21用于向所述第二接收模块提供视频信号;
音频信号采集模块22用于向所述第一接收模块提供音频信号。
所述终端还可以包括音频信号输出模块23用于输出编码后的音频信号。当然,所述终端还可以进一步包括视频信号输出模块24用于输出视频信号。即所述终端可以仅传输编码后的音频信号,也可以在传输编码后的音频信号的同时,传输视频信号。
具体的,本发明实施例二提供的装置可以集成在可视电话中,该装置可以独立于可视电话的摄像头,且该装置的第二接收模块可以利用摄像头(可以作为视频信号采集模块)采集的视频信号来确定音频信号的种类。当然,可视电话的摄像头也可以作为第二接收模块集成在该装置中,用于采集视频信号来确定音频信号的种类。
根据本发明实施例一~和实施例三提供的方案,可以通过视频信号来确定音频信号的种类,从而确定对音频信号的编码方法,提高音频编码质量,减少声音失真。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种音频信号处理方法,其特征在于,所述方法包括:
在接收音频信号的同时,接收视频信号;
根据接收到的视频信号的像素信息确定接收到的视频信号中是否包含指定的图像以确定所述音频信号为语音信号或非语音信号,若该视频信号中存在指定的图像,确定距离该视频信号时间最短的一个已接收的视频信号;若该已接收的视频信号中存在指定的图像,在该已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移的绝对值满足设定的阈值时,确定当前接收到的音频信号为语音信号,否则,确定当前接收到的音频信号为非语音信号,其中,按照以下公式确定已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移:其中,D为已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移,P为指定的图像所在区域对应的二值化点阵,A(P)表示所述点阵的面积;(x,y)表示点阵P中任意一个像素点,h'(x,y)表示已接收的视频帧二值化像素值;h(x,y)表示当前接收到的视频帧的二值化像素值;
在确定所述音频信号为语音信号时,利用基于时域编码的低码率音频编码对所述音频信号进行编码,否则,在确定所述音频信号为非语音信号时,利用基于频域编码的低码率音频编码对所述音频信号进行编码;
对编码后获得的数据进行量化,并组织码流输出,所述码流中包括标识位,用于标识该码流对应的数据的编码方式。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若确定当前接收到的视频信号中不存在指定的图像,确定当前接收到的音频信号为非语音信号;
若确定当前接收到的视频信号中存在指定的图像,且所述已接收的视频信号中不存在指定的图像,确定当前接收到的音频信号为语音信号。
3.一种音频信号处理装置,其特征在于,所述装置包括:
第一接收模块,用于接收音频信号;
第二接收模块,用于接收视频信号;
确定模块,用于根据接收到的视频信号的像素信息确定接收到的视频信号中是否包含指定的图像以确定所述音频信号为语音信号或非语音信号,具体用于若该视频信号中存在指定的图像,确定距离该视频信号时间最短的一个已接收的视频信号;若该已接收的视频信号中存在指定的图像,在该已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移的绝对值满足设定的阈值时,确定当前接收到的音频信号为语音信号,否则,确定当前接收到的音频信号为非语音信号,其中,按照以下公式确定已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移:其中,D为已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移,P为指定的图像所在区域对应的二值化点阵,A(P)表示所述点阵的面积;(x,y)表示点阵P中任意一个像素点,h'(x,y)表示已接收的视频帧二值化像素值;h(x,y)表示当前接收到的视频帧的二值化像素值;
第一编码模块,用于在确定模块确定所述音频信号为语音信号时,利用基于时域编码的低码率音频编码对所述音频信号进行编码;
第二编码模块,用于在确定模块确定所述音频信号为非语音信号时,利用基于频域编码的低码率音频编码对所述音频信号进行编码;
码流输出模块,用于对编码后获得的数据进行量化,并组织码流输出,所述码流中包括标识位,用于标识该码流对应的数据的编码方式。
4.如权利要求3所述的装置,其特征在于,
所述确定模块,还用于在确定当前接收到的视频信号中不存在指定的图像时,确定当前接收到的音频信号为非语音信号;以及,在确定当前接收到的视频信号中存在指定的图像,且所述已接收的视频信号中不存在指定的图像时,确定当前接收到的音频信号为语音信号。
5.一种终端,其特征在于,所述终端包括如权利要求3或4任一所述的装置。
6.如权利要求5所述的终端,其特征在于,所述终端还包括视频信号采集模块和音频信号采集模块:
视频信号采集模块,用于向所述第二接收模块提供视频信号;
音频信号采集模块,用于向所述第一接收模块提供音频信号。
7.如权利要求5所述的终端,其特征在于,所述终端还包括音频信号输出模块,用于输出编码后的音频信号。
8.如权利要求7所述的终端,其特征在于,所述终端还包括视频信号输出模块,用于输出视频信号。
CN201210001235.3A 2012-01-04 2012-01-04 一种音频信号处理方法、装置及终端 Active CN103198834B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210001235.3A CN103198834B (zh) 2012-01-04 2012-01-04 一种音频信号处理方法、装置及终端
PCT/CN2012/086953 WO2013102403A1 (zh) 2012-01-04 2012-12-19 一种音频信号处理方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210001235.3A CN103198834B (zh) 2012-01-04 2012-01-04 一种音频信号处理方法、装置及终端

Publications (2)

Publication Number Publication Date
CN103198834A CN103198834A (zh) 2013-07-10
CN103198834B true CN103198834B (zh) 2016-12-14

Family

ID=48721308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210001235.3A Active CN103198834B (zh) 2012-01-04 2012-01-04 一种音频信号处理方法、装置及终端

Country Status (2)

Country Link
CN (1) CN103198834B (zh)
WO (1) WO2013102403A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280188B (zh) * 2014-06-30 2019-06-28 美的集团股份有限公司 基于终端运行环境的音频信号编码方法和系统
CN105979469B (zh) * 2016-06-29 2020-01-31 维沃移动通信有限公司 一种录音处理方法及终端
CN108831472B (zh) * 2018-06-27 2022-03-11 中山大学肿瘤防治中心 一种基于唇语识别的人工智能发声系统及发声方法
CN111081264B (zh) * 2019-12-06 2022-03-29 北京明略软件系统有限公司 一种语音信号处理方法、装置、设备及存储介质
CN115334349B (zh) * 2022-07-15 2024-01-02 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
CN101615393A (zh) * 2008-06-25 2009-12-30 汤姆森许可贸易公司 对语音和/或非语音音频输入信号编码或解码的方法和设备
CN101656070A (zh) * 2008-08-22 2010-02-24 展讯通信(上海)有限公司 一种语音检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
CN101615393A (zh) * 2008-06-25 2009-12-30 汤姆森许可贸易公司 对语音和/或非语音音频输入信号编码或解码的方法和设备
CN101656070A (zh) * 2008-08-22 2010-02-24 展讯通信(上海)有限公司 一种语音检测方法

Also Published As

Publication number Publication date
WO2013102403A1 (zh) 2013-07-11
CN103198834A (zh) 2013-07-10

Similar Documents

Publication Publication Date Title
CN103198834B (zh) 一种音频信号处理方法、装置及终端
US9048784B2 (en) Method for data communication via a voice channel of a wireless communication network using continuous signal modulation
US20120116758A1 (en) Systems and Methods for Enhancing Voice Quality in Mobile Device
TR201911006T4 (tr) Konuşma/ses sinyal işleme yöntemi ve cihazı.
CN101221766B (zh) 音频编码器切换的方法
CN105551512A (zh) 音频格式转换方法和装置
EP3750332B1 (en) Objective quality metrics for ambisonic spatial audio
WO2014099319A1 (en) Audio processing apparatus and audio processing method
EP2721610A1 (en) An apparatus and a method for encoding an input signal
EP1858006A1 (en) Sound encoding device and sound encoding method
CN104981870A (zh) 声音增强装置
JP5539446B2 (ja) 通信網を介して加入者端末機に送信されるオーディオ信号の出力品質改善のためのオーディオ信号の処理方法およびこの方法を採用したオーディオ信号処理装置
US9258429B2 (en) Encoder adaption in teleconferencing system
CN103915097A (zh) 一种语音信号处理方法、装置和系统
CN114363553A (zh) 视频会议中动态码流处理方法及装置
CN107391498B (zh) 语音翻译方法和装置
JP4437011B2 (ja) 音声符号化装置
CN103646647B (zh) 混合音频解码器中帧差错隐藏的谱参数代替方法及系统
CN102523329B (zh) 基于语音通信的录音方法以及录音系统、通信终端
RU2454737C2 (ru) Способ и средство для декодирования информации о фоновом шуме
EP4396814A1 (en) Silence descriptor using spatial parameters
KR20230070016A (ko) 공간 오디오 파라미터 인코딩 및 관련 디코딩
CN101211561A (zh) 音乐信号质量增强方法和装置
RU2394284C1 (ru) Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи
Lin A Synchronization Scheme for Hiding Information in Encoded Bitstream of Inactive Speech Signal.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant