CN101138020A - 声音处理方法和装置及存储媒体以及声音系统 - Google Patents

声音处理方法和装置及存储媒体以及声音系统 Download PDF

Info

Publication number
CN101138020A
CN101138020A CNA2006800066680A CN200680006668A CN101138020A CN 101138020 A CN101138020 A CN 101138020A CN A2006800066680 A CNA2006800066680 A CN A2006800066680A CN 200680006668 A CN200680006668 A CN 200680006668A CN 101138020 A CN101138020 A CN 101138020A
Authority
CN
China
Prior art keywords
mentioned
distortion
frequency spectrum
enveloping line
spectral enveloping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800066680A
Other languages
English (en)
Other versions
CN101138020B (zh
Inventor
赤木正人
太长根理会子
入江佳洋
柳内久和
田中良种
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Publication of CN101138020A publication Critical patent/CN101138020A/zh
Application granted granted Critical
Publication of CN101138020B publication Critical patent/CN101138020B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • G10K11/1754Speech masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)

Abstract

声音处理装置具有:抽出输入声音信号的频谱包络线的频谱包络线抽出部(14);为了生成变形频谱包络线而对频谱包络线实施变形的频谱包络线变形部(15);抽出输入声音信号的频谱细微构造的频谱细微构造抽出部(16);通过合成变形频谱包络线以及频谱细微构造,生成变形频谱的变形频谱生成部(17);基于变形频谱,生成输出声音信号的声音生成部(18),用输出声音信号发射用于不让第三者听到谈话声音的内容的干扰音。

Description

声音处理方法和装置及存储媒体以及声音系统
技术领域
本发明涉及在防止谈话声音的内容被第三者听到的声音系统以及在该声音系统中使用的声音处理方法和装置以及存储媒体。
背景技术
如果在公开的场所和隔音室以外的房间中进行谈话,则有时谈话声音向周围泄漏出现问题。例如,在银行内顾客和职员进行谈话,或者在医院内外来患者和接待人员或者医生进行谈话时,如果谈话被第三者听到,则有可能损害机密和个人隐私。
因而,提出了利用遮掩效果不让第三者听到谈话的方法(例如,参照佐伯徹郎、藤井键生、山口静马、老末建成(2003)“用于掩盖声音的无意义恒定杂音的选定”,电子信息通信学会论文志,J86-A,2,187-191.以及特开平5-22391号公报)。所谓遮掩效果是在能够听到某一声音时如果让其听到一定级别及以上的另一声音,则原来的声音一下被覆盖消失不能听见的现象。作为利用这种遮掩效果不让第三者听到原声音的技术,有把粉红噪声(pink noise)和背景音乐(background music)(BGM)等的声音作为遮掩音,在原来的声音上重叠的方法。如在佐伯徹郎、藤井键生、山口静马、老末建成(2003)“用于掩盖声音的无意义恒定杂音的选定”,电子信息通信学会论文志,J86-A,2,187-197中提出的那样,进行了频带限制后的粉红噪声作为遮掩音被认为最有效。
为了把粉红噪声和BGM这一恒定发出的声音作为遮掩音使用,需要大于等于原声音级别的级别。因而,这种遮掩音对于听的人来说都感觉是一种噪音,在银行和医院等中使用是困难的。另一方面,如果降低遮掩音的级别则遮掩效果差,特别是在遮掩效果小的频率区域中原来的声音会感知到。进而,即使适宜地调整了遮掩音的级别,因为粉红噪声和BGM那样的声音与原本的声音明确地分离能够听到,所以由于在许多音混合存在中能够只听取到特定的音的人的听觉特性,所谓的鸡尾酒会效应的作用,有可能原来的声音被听到。
本发明的目的在于不会令周围的人感到吵闹,并且不让第三者知道谈话声音的内容。
为了解决上述问题,根据本发明的一实施方式,抽出输入声音信号的频谱包络线和频谱细微构造,对频谱包络线实施变形生成变形频谱包络线,通过合成变形频谱包络线以及频谱细微构造生成变形频谱,基于变形频谱生成输出声音信号。
根据本发明的另一实施方式,抽出输入声音信号的频谱的高频成分,利用所抽出的高频成分置换包含在变形频谱中的高频成分,基于高频成分被置换的变形频谱,生成输出声音信号。
附图说明
图1是概略表示本发明的一种实施方式所涉及的声音系统的图。
图2A是表示在图1的声音系统中用微型麦克风收集声音的谈话声音的频谱的一个例子的图。
图2B是表示在图1的声音系统中从扬声器发射出的干扰音的频谱的图。
图2C是表示在图1的声音系统中干扰音和谈话声音的融合声音的频谱的一个例子的图。
图3是表示本发明的第1实施方式所涉及的声音处理装置的结构的方框图。
图4是表示频谱分析和在频谱分析中附带的处理的一个例子的流程图。
图5A是表示输入声音信号的声音频谱的一个例子的图。
图5B是表示图5A的声音频谱的频谱包络线的一个例子的图。
图5C是表示将图5B的频谱包络线进行变形后的变形频谱包络线的一个例子的图。
图5D是表示图5A的声音频谱的频谱细微结构的的一个例子的图。
图5E是表示通过合成图5C的变形频谱和图5D的频谱细微构造而生成的变形频谱的一个例子的图。
图6是表示在第1实施方式中的声音处理的全体流程的流程图。
图7A是声音频谱的频谱包络线的一个例子的图。
图7B是表示在第1实施方式中对频谱包络线实施振幅方向的频谱变形的方法的第1个例子的图。
图7C是说明在第1实施方式中对频谱包络线实施振幅方向的频谱变形的方法的第2个例子的图。
图7D是说明在第1实施方式中对频谱包络线实施振幅方向的频谱变形的方法的第3个例子的图。
图7E是说明在第1实施方式中对频谱包络线实施振幅方向的频谱变形的方法的第4个例子的图。
图8A是表示声音频谱的频谱包络线的一个例子的图。
图8B是说明在第1实施方式中对频谱包络线实施频率轴方向的频谱变形的方法的第1个例子的图。
图8C是说明在第1实施方式中对频谱包络线实施频率轴方向的频谱变形的方法的第2个例子的图。
图9A是表示摩擦音的频谱的一个例子的图。
图9B是表示摩擦音的频谱包络线的一个例子的图。
图9C是说明在第1实施方式中对摩擦音的频谱包络线实施振幅方向的频谱变形的方法的第1个例子的图。
图9D是说明在第1实施方式中对摩擦音的频谱包络线实施振幅方向的频谱变形的方法的第2个例子的图。
图10是表示本发明的第2实施方式所涉及的声音处理装置的结构的方框图。
图11是表示在第2实施方式中的频谱包络线变形部的处理和高频成分抽出部的处理的一部分的流程图。
图12A是表示低频成分强的输入声音信号的声音频谱的一个例子的图。
图12B是表示图12A的声音频谱的频谱包络线的图。
图12C是表示在第2实施方式中将图12A的声音频谱进行变形后的变形频谱的一个例子的图。
图12D是表示在第2实施方式中置换在图12C的变形频谱中的高频成分所生成的干扰音的频谱的一个例子的图。
图13A是表示高频成分强的输入声音信号的声音频谱的一个例子的图。
图13B是表示图13A的声音频谱的频谱包络线的图。
图13C是表示在第2实施方式中将图13A的声音频谱进行变形后的变形频谱的一个例子的图。
图13D是表示在第2实施方式中置换在图13C的变形频谱中的高频成分所生成的干扰音的频谱的一个例子的图。
图14是表示在第2实施方式中的声音处理的全体的流程的流程图。
具体实施方式
以下参照附图说明本发明的实施方式。
图1表示包含本发明的一种实施方式的声音处理装置10的声音系统的概念图。声音处理装置10,在图中用配置在多名人1和人2进行谈话的场所的附近的位置A上的微型麦克风11收集谈话声音,对所得到的输入声音信号进行处理生成输出声音信号。把从声音处理装置10输出的输出声音信号提供给配置在位置B上的扬声器20,从扬声器20发射声音。
此时在输出声音信号中,如果输入声音信号的音源信息得到维持而音韵性被破坏,则通过把从扬声器20发射的声音和谈话声音的声音进行融合,则在位置C上的人3不能听取人1和人2的谈话声音。因为从扬声器20发射的声音的目的就是妨碍第三者听取这样的谈话声音,所以以后称为干扰音。换句话说,因为从扬声器20发射的声音的目的在于防止谈话声音被第三者听见,所以也可以称为“防听音”。
声音处理装置10通过对输入声音信号实施处理,如上所示在维持输入声音信号的音源信息的同时生成破坏音韵性的输出声音信号。根据该输出声音信号,从扬声器20发射破坏了谈话声音的音韵性的干扰音。例如,如果把用微型麦克风11收集声音的谈话声音的频谱作为图2A,则经由声音处理装置10从扬声器20发射的干扰音的频谱例如变成图2B所示。在这种情况下,在图1的C位置上,第三者能够听见干扰音和谈话声音的直接音被融合后的具有如图2C所示那样的频谱的声音。
以下,详细说明声音处理装置10的实施方式。
(第1实施方式)
图3表示第1实施方式的声音处理装置的结构。把微型麦克风11例如设置在银行的窗口附近和医院的门诊挂号处等的场所,收集谈话声音输出声音信号。把来自微型麦克风11的声音信号输入到声音输入处理部12。声音输入处理部12例如具有放大器以及A/D变换器,在放大了来自微型麦克风11的声音信号(以后,称为输入声音信号)后,进行数字化并输出。把来自声音输入处理部12的经过数字化的输入声音信号输入到频谱分析部13。频谱分析部13例如用FFT对数倒频谱分析、自动语音合成方式的声音分析合成系统的处理进行输入声音信号的分析。
用图4说明在频谱分析部13中使用了对数倒频谱分析时的频谱分析的流程。首先,对于经过数字化的输入声音信号,例如在加上汉宁(hanning)窗或者汉明(hamming)窗等的时间窗后,采用高速傅立叶变换(FFT)进行短时间频谱分析(步骤S1~S2)。接着,取FFT结果的绝对值(振幅频谱)的对数(步骤S3),进而进行反FFT(IFFT)得到对数倒频谱系数(步骤S4)。以下,对对数倒频谱系数采用对数倒频谱窗进行滤波(liftering),把低倒频(quefrency)部和高倒频(quefrency)部作为对数倒频谱分析结果输出(步骤S5)。
在作为频谱分析部13的分析结果得到的对数倒频谱系数中,把低倒频部输入到频谱包络线抽出部14。把对数倒频谱系数中,高倒频部输入到频谱细微构造抽出部16。频谱包络线抽出部14抽出输入声音信号的声音频谱的频谱包络线。频谱包络线表示输入声音信号的音韵信息。例如,如果设输入声音信号的声音频谱为图5A,则频谱包络线表示为图5B。频谱包络线的抽出例如如图4中所示那样通过对对数倒频谱系数的低倒频部实施FFT(步骤S6)进行。
对于抽出的频谱包络线使用频谱包络线变形部15实施变形,生成变形频谱包络线。如果设抽出的频谱包络线为图5B,则在频谱包络线变形部15中,如图5C所示通过频谱包络线反转,对频谱包络线实施变形。例如,当在频谱分析部13中使用了FFT对数倒频谱分析的情况下,频谱包络线使用低次的对数倒频谱系数表现。频谱包络线变形部15对于这种低次的对数倒频谱系数进行符号反转。频谱包络线变形部15的更具体的例子以后详细说明。
另一方面,频谱细微构造抽出部16抽出输入声音信号的声音频谱的频谱细微构造。频谱细微构造表示输入声音信号的音源信息。例如,如果设输入声音信号的声音频谱为图5A,则频谱细微构造表示为图5D。频谱细微构造的抽出例如如图4中所示通过对对数倒频谱系数的高倒频部实施FFT(步骤S7)而实现。
把用频谱包络线变形部15生成的变形频谱包络线、用频谱细微构造抽出部16抽出的频谱细微构造输入到变形频谱生成部17。变形频谱生成部17通过合成变形频谱包络线和频谱细微构造,生成将输入声音信号的声音频谱变形后的频谱即变形频谱。例如,如果设变形频谱包络线为图5C,频谱细微构造为图5D,则通过合成它们生成的变形频谱表示为图5E。
把使用变形频谱生成部17生成的变形频谱输入到声音生成部18。声音生成部18生成根据变形频谱进行了数字化的输出声音信号。把经过数字化的输出声音信号输入到声音输出处理部19。声音输出处理部19用D/A变换器把输出声音信号变换为模拟信号,进一步用功率放大器放大并提供给扬声器20。由此,从扬声器20发射干扰音。
在图1以及图3中,虽然表示微型麦克风11以及扬声器20是各自1个的情况,但微型麦克风的数量以及扬声器的数量也可以是2个或者2个以上。在这种情况下,声音处理装置对于来自多个微型麦克风的多个通道的输入声音信号各自进行处理,只要从许多扬声器发射干扰音即可。
图3所示的声音处理装置10还能够通过数字信号处理装置(DSP)那样的硬件来实现,但使用计算机用程序实现也可以。以下,说明使用图6用计算机实现声音处理装置10的处理时的处理步骤。
对在步骤S101中输入的经过数字化的输入声音信号经过频谱分析(步骤S102)抽出频谱包络线(步骤S103),如上所述,进行频谱包络线的变形(步骤S104)以及频谱细微构造的抽出(步骤S105)。在此,步骤S103以及S104和S105的处理顺序是任意的。接着,还可以并行进行步骤S103及S104的处理和步骤S105的处理。以下,通过合成经由步骤S103以及S104生成的变形频谱包络线和通过步骤S105生成的频谱细微构造,生成变形频谱(步骤S106)。最后,从变形频谱中生成声音信号并输出(步骤S107~S108)。
以下,说明频谱包络线的变形方法的具体例子。频谱包络线的变形基本上通过改变频谱包络线的共振峰频率(即,频谱包络线的峰以及谷的位置)来实现。在此的频谱包络线的变形的目的是破坏音韵。因为在音韵的感知中频谱包络线的峰以及谷的位置关系重要,所以使这些峰以及谷的位置和变形前不同。具体地说,可以通过对频谱包络线在振幅方向以及频率轴方向的至少一个方向上实施变形来实现。
<频谱包络线的变形方法1>
图7A、图7B、图7C、图7D以及图7E表示通过对频谱包络线实施振幅方向的变形来改变峰和谷的位置的方法。频谱包络线变形部15因为在振幅方向上改变频谱包络线,所以对图7A所示的频谱包络线设定反转轴,以该反转轴作为中心使频谱包络线反转。作为反转轴能够使用各种近似函数。例如,图7B是用cos函数设定了反转轴的例子,图7C是用直线设定了反转轴的例子,此外图7D是用对数设定了反转轴的例子。另一方面,图7E是把反转轴设定为频谱包络线的振幅的平均,即设定为与频率轴平行的例子。在图7B、图7C、图7D、图7E的任何一个例子中,都可知相对图7A的原来的频谱包络线而言峰和谷的位置(频率)变化。
<频谱包络线的变形方法2>
图8A、图8B以及图8C表示通过对频谱包络线实施频率轴方向的变形改变峰和谷的位置的方法。为了在频率轴方向改变频谱包络线,使图8A所示的频谱包络线如图8B所示那样向低频一侧移位,或者如图8C所示那样向高频一侧移位。作为频谱包络线的频率轴方向的变形法,除此以外还考虑在频率轴上实施线性伸缩或者非线性伸缩的方法等。此外,为了在频率轴方向改变频谱包络线,还能够组合在频率轴上的移位或者伸缩。进而,无须对频谱包络线的全区域进行频率轴上的变形,可以局部进行。
<频谱包络线的变形方法3>
在上述的频谱包络线的变形方法1以及2中,因为进行改变输入声音信号的频谱的低频成分的处理,所以如母音那样在第1以及第2共振峰处于低频的音韵中有效。但是,变形方法1以及2是第2共振峰处于高频的/e/、/i/,和在高频有特征的摩擦音/s/、破裂音/k/等中效果不大。因此,希望把改变频谱包络线的对象的频带和反转轴与音韵的频谱形状一致地进行动态控制。
例如,当是在摩擦音那样的高频区域上有特征的音韵的情况下,即使改变频谱包络线的峰以及谷的位置,频谱包络线的特征也几乎不改变。图9A表示摩擦音的频谱,图9B表示摩擦音的频谱包络线。如果把图9B的频谱包络线例如和图7B一样以cos函数的反转轴为中心反转,则变成如图9C所示,频谱包络线的特征变化少。在这种情况下,例如如图9D所示,通过和图7E一样把设定为频谱包络线的振幅的平均的反转轴为中心使频谱包络线反转,能够使特征变化显著。这是一个例子,只要是频谱包络线的特征显著变化那样的变形即可。
如上所述,在第1实施方式中,改变输入声音信号的频谱包络线生成变形频谱包络线,把该变形频谱包络线与输入声音信号的频谱细微构造合成生成变形频谱,根据该变形频谱生成输出声音信号。
因而,如图1所示那样用配置在位置A上的微型麦克风11收集谈话声音,对得到的输入声音信号进行上述的处理生成输出声音信号,如果使用输出声音信号从配置在位置B上的扬声器20发射谈话声音的音韵性受到破坏的干扰音,则在位置C上对第三者而言因为干扰音和谈话音的直接音在感觉上融合,所以谈话声音变得不清楚。其结果,谈话声音的内容难以被第三者知道。
即,在干扰音中,一边维持由谈话声音产生的输入声音信号的频谱细微构造即音源信息,一边破坏用频谱包络线的形状决定的音韵性。因此,干扰音和谈话声音的直接音很好地融合。因而,如果使用这种干扰音,则不会如使用了粉红噪声和BGM这种遮掩音的情况那样让周围感到吵闹,且谈话声音的内容可以不被第三者知道。
(第2实施方式)
以下,说明本发明的第2实施方式。图10表示涉及第2实施方式的声音处理装置,对于图3所示的涉及第1实施方式的声音处理装置追加频谱高频成分抽出部21和高频成分置换部22。
频谱高频成分抽出部21经由频谱分析部13抽出输入声音信号的频谱的高频成分。频谱的高频成分表示个性信息,例如能够从图4中的步骤S2的FFT结果(输入声音信号的频谱)中抽出,抽出的高频成分被输入到高频成分置换部22。把高频成分置换部22插入到变形频谱生成部17的输出和声音生成部18的输入之间,进行用通过频谱高频成分抽出部21抽出的高频成分置换用变形频谱生成部17生成的变形频谱中的高频成分的处理。声音生成部18根据高频成分置换后的变形频谱生成输出声音信号。
图11表示频谱包络线变形部15进行图7B、图7C以及图7D所示的频谱包络线变形时的处理,和高频成分置换部22的处理的一部分。频谱包络线部15检测频谱包络线的斜率(步骤S201)。接着,频谱包络线变形部15根据在步骤S201中检测到的频谱包络线的斜率,决定例如cos函数、直线或者对数这样的近似函数(步骤S202),根据该近似函数进行频谱包络线的反转(步骤S203)。该频谱包络线变形部15的处理和第1实施方式一样。
另一方面,高频成分置换部22根据从步骤S201检测的频谱包络线的斜率决定置换区域,根据由频谱高频成分抽出部21抽出的高频成分置换该置换频带内的频谱成分即高频成分。
接着,用图12A~图12D以及图13A~图13D说明第2实施方式中的具体的处理的例子。例如,当如图12A所示那样输入声音信号如母音部那样是低频成分强的频谱的情况下,输入声音信号的频谱包络线如图12B所示那样表示负的斜率。在这种情况下,例如通过合成以例如按照上述的cos函数、直线或者对数这种近似函数的反转轴为中心进行了频谱包络线反转的变形频谱包络线,和输入声音信号的频谱构造,生成图12C所示的变形频谱。
接着,在图12C的变形频谱中,对于包含音韵信息的低频成分(例如,2.5~3kHz以下的频率成分)保持原样,把包含个性信息的高频成分(例如,大于等于3kHz的频率成分)用图12A的原本的声音频谱的高频成分进行置换,由此生成图12D所示那样的频谱的干扰音。在这种情况下,还考虑可以根据频谱包络线的谷位置改变置换频带的下限频率。于是,不管发言人的性别和音质如何都可以决定包含个性信息的频带。
另一方面,如图13A所示当输入声音信号是如摩擦音和破裂音那样的高频成分强的频谱的情况下,输入声音信号的频谱包络线如图13B所示那样表示正的斜率。在这种情况下,通过合成例如如上所述那样以设定为频谱包络线的振幅的平均的反转轴为中心使频谱包络线反转的变形频谱包络线,和输入声音信号的频谱细微构造,生成图13C所示的变形频谱。
以下,对在图13C的变形频谱中包含音韵信息的低频成分保持原样,通过用图13A的原本的声音频谱的高频成分置换包含个性信息的高频成分,生成如图12D所示那样的频谱的干扰音。但是,在摩擦音等的情况下,因为输入声音信号的频谱的高频成分特别强,所以把置换频带设置在更高频一侧,例如6kHz及以上的频带。在这种情况下,还可以根据频谱包络线的峰的位置改变置换频带的下限频率。于是,不管发言人的性别和音质都可以决定包含个性信息的频带。
对于图10所示的声音处理装置也能够用DSP那样的硬件实现,但也可以使用计算机用程序实现。进而,如果采用本发明则能够提供存储有该程序的存储媒体。
以下,如果用图14说明用计算机实现声音处理装置的处理时的处理步骤,则从步骤S101到步骤S106的处理和第1实施方式相同。在实施方式2中,在生成变形频谱的步骤S106之后,进行频谱高频成分的抽出(步骤S109)以及高频成分的置换(步骤S110)。接着,从高频成分置换后的变形频谱中生成声音信号并输出(步骤S107~S108)。在此,步骤S103~S105以及步骤S109的处理顺序是任意的,此外也可以并行进行步骤S103以及S104的处理和步骤S105的处理,或者并行进行步骤S109的处理。
如上所述,在第2实施方式中使用把通过变形频谱包络线和频谱细微构造的合成而生成的变形频谱的高频成分置换为输入声音信号的高频成分的变形频谱来生成输出声音信号。因而,在用频谱包络线的变形破坏谈话声音的音韵性的同时,能够生成保存了谈话声音的频谱的高频成分即个性信息的干扰音。即,不会因频谱包络线的反转而使干扰音的高频区域的功率增大使音质降低,此外不会因在干扰音中谈话声音的个性的信息也被破坏,使干扰音和谈话声音的融合效应不充分。由此周围不会感到吵闹,能够进一步显著发挥不让第三者听到谈话声音的内容的效果。
在第2实施方式中,是在生成将变形频谱包络线和频谱细微构造的合成而产生的变形频谱后,进行高频成分的置换,生成高频成分经过置换的变形频谱,但即使只对高频成分以外的频带(低频以及中频)有选择地进行频谱包络线的变形也能够得到同样的效果。
如上所述,如果采用本发明的形态,则能够从谈话声音产生的输入声音信号中生成通过频谱包络线的变形而破坏了音韵性的输出声音信号。因而,通过使用该输出声音信号发射干扰音,能够不让第三者听到谈话声音的内容,在保密性和隐私保护方面有效。
即,在本发明的形态中因为用在变形频谱包络线中合成了输入声音信号的频谱细微构造的变形频谱生成输出声音信号,所以维持发言人的音源信息,即使具有鸡尾酒会效应这种人的听觉特性,也把原本的谈话声音和干扰音在感觉上融合。由此,对第三者来说谈话声音变得不清楚,难以感知。因而,能够保护谈话的机密和隐私。
在这种情况下,因为无须如使用以往的遮掩音的方法那样提高干扰音的级别,所以不会让周围感到吵闹。进而,通过用输入声音信号的频谱的高频成分置换包含在变形频谱中的高频成分,所以能够在干扰音中保存谈话声音的个性的信息,谈话声音和干扰音的感知融合效应进一步提高。
本发明可以在防止谈话声音的内容,或者在手机及其他的电话机的通话人的谈话内容被第三者听到的技术中利用。

Claims (12)

1.一种声音处理方法,其特征在于包括:
抽出输入声音信号的频谱包络线;
抽出上述输入声音信号的频谱细微构造;
对上述频谱包络线实施变形,生成变形频谱包络线;
将上述变形频谱包络线以及上述频谱细微构造合成,生成变形频谱;以及
基于上述变形频谱,生成输出声音信号。
2.一种声音处理方法,其特征在于包括:
抽出输入声音信号的频谱包络线;
抽出上述输入声音信号的频谱细微构造;
对上述频谱包络线实施变形,生成变形频谱包络线;
将上述变形频谱包络线以及上述频谱细微构造合成,生成变形频谱;
抽出上述输入声音信号的频谱的高频成分;
利用所抽出的上述高频成分置换包含在上述变形频谱中的高频成分;
基于上述高频成分被置换后的变形频谱,生成输出声音信号。
3.一种声音处理装置,其特征在于包括:
频谱包络线抽出部,抽出输入声音信号的频谱包络线;
频谱细微构造抽出部,抽出上述输入声音信号的频谱细微构造;
频谱包络线变形部,为了生成变形频谱包络线,对上述频谱包络线实施变形;
变形频谱生成部,通过合成上述变形频谱包络线以及上述频谱细微构造,生成变形频谱;以及
声音生成部,基于上述变形频谱生成输出声音信号。
4.一种声音处理装置,其特征在于包括:
频谱包络线抽出部,抽出输入声音信号的频谱包络线;
频谱细微构造抽出部,抽出上述输入声音信号的频谱细微构造;
频谱包络线变形部,为了生成变形频谱包络线,对上述频谱包络线实施变形;
变形频谱生成部,通过合成上述变形频谱包络线以及上述频谱细微构造,生成变形频谱;
高频成分抽出部,抽出上述输入声音信号的频谱的高频成分;
高频成分置换部,用通过上述高频成分抽出部抽出的高频成分置换包含在上述变形频谱中的高频成分;以及
声音生成部,基于上述高频成分被置换后的变形频谱,生成输出声音信号。
5.如权利要求3或者4的任意一项所述的声音处理装置,其特征在于:
上述频谱包络线变形部的构成是,在上述频谱包络线上对振幅方向以及频率轴方向的至少一个方向实施上述变形。
6.如权利要求3或者4的任意一项所述的声音处理装置,其特征在于:
上述频谱包络线变形部通过改变上述频谱包络线的峰和谷的位置,实施上述变形。
7.如权利要求3或者4的任意一项所述的声音处理装置,其特征在于:
上述频谱包络线变形部的构成是,对上述频谱包络线设定反转轴,把该反转轴作为中心通过使上述频谱包络线反转来实施上述变形。
8.如权利要求3或者4的任意一项所述的声音处理装置,其特征在于:
上述频谱包络线变形部的构成是,通过在频率轴上使上述频谱包络线移位来实施上述变形。
9.如权利要求4所述的声音处理装置,其特征在于:
上述高频成分置换部对用上述高频成分抽出部抽出的高频成分设定置换频带,用上述置换频带内的高频成分置换包含在上述变形频谱中的高频成分。
10.一种声音系统,其特征在于包括:
麦克风,为了得到上述输入声音信号而收集谈话声音;
权利要求3或者4的任意1项所述的声音处理装置;以及
扬声器,根据上述输出声音信号,发射干扰音。
11.一种存储媒体,存储有用于让计算机执行以下声音处理的程序:
抽出输入声音信号的频谱包络线的处理;
抽出上述输入声音信号的频谱细微构造的处理;
为了生成变形频谱包络线对上述频谱包络线实施变形的处理;
通过合成上述变形频谱包络线以及上述频谱细微构造,生成变形频谱的处理;以及
基于上述变形频谱,生成输出声音信号的处理。
12.一种存储媒体,存储有用于让计算机执行以下声音处理的程序:
抽出输入声音信号的频谱包络线的处理;
抽出上述输入声音信号的频谱细微构造的处理;
对上述频谱包络线实施变形,生成变形频谱包络线的处理;
合成上述变形频谱包络线以及上述频谱细微构造,生成变形频谱的处理;
抽出上述输入声音信号的频谱的高频成分的处理;
用上述高频成分置换包含在上述变形频谱中的高频成分的处理;
基于上述高频成分被置换后的变形频谱,生成输出声音信号的处理。
CN2006800066680A 2005-03-01 2006-02-23 声音处理方法和装置及存储媒体以及声音系统 Expired - Fee Related CN101138020B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005056342A JP4761506B2 (ja) 2005-03-01 2005-03-01 音声処理方法と装置及びプログラム並びに音声システム
JP056342/2005 2005-03-01
PCT/JP2006/303290 WO2006093019A1 (ja) 2005-03-01 2006-02-23 音声処理方法と装置及び記憶媒体並びに音声システム

Publications (2)

Publication Number Publication Date
CN101138020A true CN101138020A (zh) 2008-03-05
CN101138020B CN101138020B (zh) 2010-10-13

Family

ID=36941053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800066680A Expired - Fee Related CN101138020B (zh) 2005-03-01 2006-02-23 声音处理方法和装置及存储媒体以及声音系统

Country Status (7)

Country Link
US (1) US8065138B2 (zh)
EP (1) EP1855269B1 (zh)
JP (1) JP4761506B2 (zh)
KR (1) KR100931419B1 (zh)
CN (1) CN101138020B (zh)
DE (1) DE602006014096D1 (zh)
WO (1) WO2006093019A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103238179A (zh) * 2010-11-25 2013-08-07 雅马哈株式会社 掩蔽声产生设备、存储有掩蔽声信号的存储介质、掩蔽声再现设备以及程序
CN103818290A (zh) * 2012-11-16 2014-05-28 黄金富 一种用于汽车司机与老板的隔声装置
CN103826176A (zh) * 2012-11-16 2014-05-28 黄金富 一种用于汽车司机与乘客之间的司机专用保密耳筒
CN108540680A (zh) * 2018-02-02 2018-09-14 广州视源电子科技股份有限公司 讲话状态的切换方法及装置、通话系统

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
US8229130B2 (en) * 2006-10-17 2012-07-24 Massachusetts Institute Of Technology Distributed acoustic conversation shielding system
JP5082541B2 (ja) * 2007-03-29 2012-11-28 ヤマハ株式会社 拡声装置
US8140326B2 (en) * 2008-06-06 2012-03-20 Fuji Xerox Co., Ltd. Systems and methods for reducing speech intelligibility while preserving environmental sounds
JP5511342B2 (ja) * 2009-12-09 2014-06-04 日本板硝子環境アメニティ株式会社 音声変更装置、音声変更方法および音声情報秘話システム
JP5489778B2 (ja) * 2010-02-25 2014-05-14 キヤノン株式会社 情報処理装置およびその処理方法
JP5605062B2 (ja) * 2010-08-03 2014-10-15 大日本印刷株式会社 騒音源の快音化方法および快音化装置
JP5569291B2 (ja) * 2010-09-17 2014-08-13 大日本印刷株式会社 騒音源の快音化方法および快音化装置
EP2689418B1 (en) 2011-03-21 2017-10-25 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for damping of dominant frequencies in an audio signal
JP2014513320A (ja) * 2011-03-21 2014-05-29 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオ信号におけるドミナント周波数を減衰する方法及び装置
US8972251B2 (en) 2011-06-07 2015-03-03 Qualcomm Incorporated Generating a masking signal on an electronic device
US8583425B2 (en) * 2011-06-21 2013-11-12 Genband Us Llc Methods, systems, and computer readable media for fricatives and high frequencies detection
WO2013012312A2 (en) * 2011-07-19 2013-01-24 Jin Hem Thong Wave modification method and system thereof
JP5849508B2 (ja) * 2011-08-09 2016-01-27 株式会社大林組 Bgmのマスキング効果評価方法及びbgmのマスキング効果評価装置
JP5925493B2 (ja) * 2012-01-11 2016-05-25 グローリー株式会社 会話保護システム及び会話保護方法
US20150154980A1 (en) * 2012-06-15 2015-06-04 Jemardator Ab Cepstral separation difference
US8670986B2 (en) 2012-10-04 2014-03-11 Medical Privacy Solutions, Llc Method and apparatus for masking speech in a private environment
JP2014130251A (ja) * 2012-12-28 2014-07-10 Glory Ltd 会話保護システム及び会話保護方法
JP5929786B2 (ja) * 2013-03-07 2016-06-08 ソニー株式会社 信号処理装置、信号処理方法及び記憶媒体
JP6371516B2 (ja) * 2013-11-15 2018-08-08 キヤノン株式会社 音響信号処理装置および方法
JP6098654B2 (ja) * 2014-03-10 2017-03-22 ヤマハ株式会社 マスキング音データ生成装置およびプログラム
JP7145596B2 (ja) 2017-09-15 2022-10-03 株式会社Lixil 擬音装置
US10757507B2 (en) * 2018-02-13 2020-08-25 Ppip, Llc Sound shaping apparatus
WO2019245916A1 (en) * 2018-06-19 2019-12-26 Georgetown University Method and system for parametric speech synthesis

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3681530A (en) * 1970-06-15 1972-08-01 Gte Sylvania Inc Method and apparatus for signal bandwidth compression utilizing the fourier transform of the logarithm of the frequency spectrum magnitude
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
JPH0522391A (ja) 1991-07-10 1993-01-29 Sony Corp 音声マスキング装置
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JPH09319389A (ja) * 1996-03-28 1997-12-12 Matsushita Electric Ind Co Ltd 環境音発生装置
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US6904404B1 (en) * 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6073100A (en) * 1997-03-31 2000-06-06 Goodridge, Jr.; Alan G Method and apparatus for synthesizing signals using transform-domain match-output extension
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3706249B2 (ja) * 1998-06-16 2005-10-12 ヤマハ株式会社 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
GB9927131D0 (en) * 1999-11-16 2000-01-12 Royal College Of Art Apparatus for acoustically improving an environment and related method
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP3590342B2 (ja) * 2000-10-18 2004-11-17 日本電信電話株式会社 信号符号化方法、装置及び信号符号化プログラムを記録した記録媒体
FR2819362A1 (fr) 2001-01-05 2002-07-12 Rene Travere Attenuateur, brouilleur, de conversation applique au telephone
JP3703394B2 (ja) * 2001-01-16 2005-10-05 シャープ株式会社 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2002251199A (ja) * 2001-02-27 2002-09-06 Ricoh Co Ltd 音声入力情報処理装置
EP1484841B1 (en) * 2002-03-08 2018-12-26 Nippon Telegraph And Telephone Corporation DIGITAL SIGNAL ENCODING METHOD, DECODING METHOD, ENCODING DEVICE, DECODING DEVICE and DIGITAL SIGNAL DECODING PROGRAM
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7143028B2 (en) * 2002-07-24 2006-11-28 Applied Minds, Inc. Method and system for masking speech
US7451082B2 (en) * 2003-08-27 2008-11-11 Texas Instruments Incorporated Noise-resistant utterance detector
JP4336552B2 (ja) * 2003-09-11 2009-09-30 グローリー株式会社 マスキング装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103238179A (zh) * 2010-11-25 2013-08-07 雅马哈株式会社 掩蔽声产生设备、存储有掩蔽声信号的存储介质、掩蔽声再现设备以及程序
CN103818290A (zh) * 2012-11-16 2014-05-28 黄金富 一种用于汽车司机与老板的隔声装置
CN103826176A (zh) * 2012-11-16 2014-05-28 黄金富 一种用于汽车司机与乘客之间的司机专用保密耳筒
CN108540680A (zh) * 2018-02-02 2018-09-14 广州视源电子科技股份有限公司 讲话状态的切换方法及装置、通话系统

Also Published As

Publication number Publication date
JP4761506B2 (ja) 2011-08-31
CN101138020B (zh) 2010-10-13
US8065138B2 (en) 2011-11-22
WO2006093019A1 (ja) 2006-09-08
EP1855269A4 (en) 2009-04-22
DE602006014096D1 (de) 2010-06-17
KR100931419B1 (ko) 2009-12-11
JP2006243178A (ja) 2006-09-14
EP1855269B1 (en) 2010-05-05
KR20070099681A (ko) 2007-10-09
US20080281588A1 (en) 2008-11-13
EP1855269A1 (en) 2007-11-14

Similar Documents

Publication Publication Date Title
CN101138020B (zh) 声音处理方法和装置及存储媒体以及声音系统
US7243060B2 (en) Single channel sound separation
JP4759052B2 (ja) 高周波数再生が強化された補聴器および音声信号処理方法
JP5955340B2 (ja) 音響システム
US7761292B2 (en) Method and apparatus for disturbing the radiated voice signal by attenuation and masking
JP3165044B2 (ja) ディジタル補聴器
EP3264799B1 (en) A method and a hearing device for improved separability of target sounds
EP1791393A1 (en) Sound processing apparatus
JP2003520469A (ja) 雑音低減装置及び方法
KR20070112848A (ko) 음성 품질 및 명료성을 개선하기 위한 시스템
Monson et al. The maximum audible low-pass cutoff frequency for speech
CN107452394A (zh) 一种基于频率特性降低噪音的方法和系统
CN108200492A (zh) 语音控制优化方法、装置以及集成入耳式麦克风的耳机和穿戴设备
JP2014130251A (ja) 会話保護システム及び会話保護方法
US8768406B2 (en) Background sound removal for privacy and personalization use
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
JP2007233284A (ja) 音声処理装置および音声処理方法
JP5046233B2 (ja) 音声強調処理装置
JP4185984B2 (ja) 音信号の加工装置および加工方法
JP5741175B2 (ja) 秘匿化データ生成装置、秘匿化データ生成方法、秘匿化装置、秘匿化方法及びプログラム
JPH06289896A (ja) 音声の特徴強調方式および装置
KR101058003B1 (ko) 소음 적응형 이동통신 단말장치 및 이 장치를 이용한통화음 합성방법
JP2011010246A (ja) 音声変調器および音声データ変調器
CN115580678A (zh) 一种数据处理方法、装置和设备
CN102341853A (zh) 用于分离信号路径的方法及用于改善电子喉语音的应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101013

Termination date: 20170223