JP2015161911A - 音声明瞭化装置及びそのためのコンピュータプログラム - Google Patents

音声明瞭化装置及びそのためのコンピュータプログラム Download PDF

Info

Publication number
JP2015161911A
JP2015161911A JP2014038786A JP2014038786A JP2015161911A JP 2015161911 A JP2015161911 A JP 2015161911A JP 2014038786 A JP2014038786 A JP 2014038786A JP 2014038786 A JP2014038786 A JP 2014038786A JP 2015161911 A JP2015161911 A JP 2015161911A
Authority
JP
Japan
Prior art keywords
spectrum
speech
envelope
peak
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014038786A
Other languages
English (en)
Other versions
JP6386237B2 (ja
Inventor
芳則 志賀
Yoshinori Shiga
芳則 志賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2014038786A priority Critical patent/JP6386237B2/ja
Priority to US15/118,687 priority patent/US9842607B2/en
Priority to EP15755932.9A priority patent/EP3113183B1/en
Priority to PCT/JP2015/053824 priority patent/WO2015129465A1/ja
Publication of JP2015161911A publication Critical patent/JP2015161911A/ja
Application granted granted Critical
Publication of JP6386237B2 publication Critical patent/JP6386237B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音量を不必要に上げることなく、様々な環境化でも聞き取りやすい音声を生成できる音声明瞭化装置を提供する。
【解決手段】音声明瞭化装置250は、対象とする音声信号254のスペクトルに対して、当該スペクトルのスペクトル包絡の局所的なピークに接する、又はそれらに沿った、スペクトル包絡のピークの概形を表す曲線を抽出する包絡面抽出部292と、該包絡面抽出部292が抽出した曲線に基づいて音声信号254のスペクトルを変形する雑音適応処理部300と、雑音適応処理部300によって変形されたスペクトルに基づいて明瞭化された音声のための変換後音声信号260を生成する正弦波音声合成処理部305とを含む。
【選択図】図7

Description

この発明は音声の明瞭化に関し、特に、雑音が存在する環境でも明瞭に聞こえるように音声信号を加工する技術に関する。
駅、地下街等の公共の場で何らかのアナウンスを行なう場合、生の声又は録音若しくは音声合成された声が伝送路を介する等してスピーカから放出される。こうした放送は公衆に何らかの情報を伝達するためのものであるから、そうした情報は確実に公衆に伝わることが望ましい。また、防災行政無線を利用して屋外拡声スピーカを介して、又は、市町村の広報車のスピーカを介して音声で情報を伝達しようとする場合もある。特に災害時にはそうした情報を公衆に間違いなく伝達する必要がある。
しかし、駅、地下街等の公共の場では、音声の内容が聞き取りづらいことがある。この原因は、周囲の騒音そしてスピーカからの音響伝達特性等である。特に屋外においては、ロングパスエコー及び風等の影響も音声による情報伝達を妨げる原因となる。公共の場に限らず、屋内でラジオ、テレビ等を聞く場合にも、外部から侵入してくる雑音及び生活音等により音声が聞き取りづらい場合はよく起こり得る。
こうした問題への対処法として最も簡単なものは、音量を大きく(増幅)することである。しかし、出力デバイスの性能には限界があるため、音量を十分に大きくすることができなかったり、音量を大きくするとかえって音声信号が歪んでしまったりするという問題がある。また大音量の音声は、近隣の住民又は通行者にとっては不必要に大きな音声となり騒音公害を招くという問題もある。
上記のような悪条件のもとで、音量を上げることなく音声の聞こえを明瞭化するための従来技術の典型例(非特許文献1)を図1に示す。図1を参照して、従来の音声明瞭化装置30は、音声信号32の入力を受けて、明瞭化された音声を表す変換音声信号34を出力する。音声明瞭化装置30は、音声の高域を強調するために、音声信号32の高周波数帯域を主に通過させるフィルタリング部(HPF)40と、フィルタリング部40が出力する信号の波形振幅のダイナミックレンジを圧縮することで、波形振幅を時間方向に均一化するダイナミックレンジ圧縮処理部(DRC)42とを含む。
フィルタリング部40による音声信号32の高域成分の強調は、人間が騒音下で話す際に用いる特有の発声(ロンバード声)の特徴を模擬しており明瞭性向上が期待できる。高域成分の強調の度合いは、入力音声の特性に応じて逐次調整される。一方、ダイナミックレンジ圧縮処理部42では、音声波形の振幅が均一になるよう、音量が局所的に小さい箇所では波形振幅を増幅し、反対に大きな箇所では減衰させる。こうすることで、全体の音量を上げることなく、不明瞭な音の少ない比較的聞き取りやすい音声を得ることができる。
T. Zorila, V. Kandia, and Y. Stylianou, "Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression," in Proc. Interspeech, Portland Oregon, USA, 2012. C.H. Taal, R.C. Hendriks, R. Heusdens, "A speech preprocessing strategy for intelligibility improvement in noise based on a perceptual distortion measure, in Proc. ICASSP, pp. 4061-4064, 2012.
しかし、図1に示す既存のシステムでは、フィルタリング部40及びダイナミックレンジ圧縮処理部42のいずれも、音声の処理において音声の知覚特性が考慮されていない。そのため、この従来技術に基づくシステムが、音声の明瞭化のための最適な方法用いているとは言えない。すなわち、音声の高周波域の強調は音声スペクトルの大局的傾きに、また、ダイナミックレンジ圧縮は音声波形の振幅に基づいているが、前者については音声知覚におけるフォルマント等のスペクトルのピークの重要性を考慮すべきであり、また後者については、波形振幅が音声パワーと必ずしも一致しないことに注意すべきである。
さらにこの従来法では、雑音に対して音声を適応する方法が含まれていないため、さまざまな雑音環境下において高い明瞭性を保持できるという保証はない。すなわち、音声に混入する周囲雑音の変化に必ずしも対応できないという問題がある。
この問題に対して、雑音特性にあわせて音声スペクトルを変形することにより、雑音下でも聞き取りやすい音声を発生させる試みもある(非特許文献2)。しかし、スペクトルの変形に対する制約が一般に緩く、音声スペクトルのこうした変形によって、音声の知覚にあたって重要な特徴までもが変形されてしまうことが起こりうる。そのようにして生じた過剰な変形により、多くの場合かえって音質が劣化し、不明瞭な音声しか得られないという問題が生じる。
本発明はこうした問題を鑑みてなされたものであり、その目的とするところは、音量を不必要に上げることなく、様々な環境化でも聞き取りやすい音声を合成できる音声明瞭化装置を提供することである。
本発明の第1の局面に係る、明瞭な音声を生成する音声明瞭化装置は、対象とする音声信号のスペクトルに対して、そのスペクトル包絡の複数個の局所的なピークに沿った曲線で表されるピーク概形を抽出するピーク概形抽出手段と、ピーク概形抽出手段が抽出したピーク概形に基づいて音声信号のスペクトルを変形するスペクトル変形手段と、スペクトル変形手段によって変形されたスペクトルに基づいて音声を生成する音声合成手段とを含む。
好ましくは、ピーク概形抽出手段は、対象とする音声信号のスペクトログラムに対して、時間・周波数領域においてスペクトログラムの包絡の複数個の局所的なピークに沿った曲面を抽出し、抽出した曲面から各時刻におけるピーク概形を得る。
より好ましくは、ピーク概形抽出手段は、周波数の知覚的又は音響心理学的な尺度に基づいてピーク概形を抽出する。
さらに好ましくは、スペクトル変形手段は、ピーク概形抽出手段が抽出したピーク概形に基づいて、音声信号のスペクトルのピークを強調するスペクトルピーク強調手段を含む。
スペクトル変形手段は、音声を送出する環境又はその類似環境で集音した環境音に対してそのスペクトルを抽出する環境音スペクトル抽出手段と、ピーク概形抽出手段が抽出したピーク概形と、環境音スペクトル抽出手段が抽出した環境音スペクトルとに基づいて音声信号のスペクトルを変形する手段とを含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの音声明瞭化装置の全ての手段として上記コンピュータを機能させる。
従来の音声明瞭化装置の構成を示すブロック図である。 音声のスペクトログラムと、本発明の一実施の形態で使用される、スペクトログラムの包絡面との関係を示すグラフである。 本発明の一実施の形態における音声信号のスペクトル分布の変形を説明するためのグラフである。 本発明の一実施の形態における、音声信号のスペクトログラムの特定周波数におけるパワー変動の変形を説明するためのグラフである。 本発明の一実施の形態における、音声信号のスペクトル分布の包絡を雑音に適応させて変形する方法を説明するためのグラフである。 本発明の一実施の形態において、音声信号のうち、不要な高調波成分のパワーを用いて重要な成分をブーストする方法を説明するためのグラフである。 本発明の一実施の形態に係る音声明瞭化装置の機能的ブロック図である。 図7に示す音声明瞭化装置を実現するコンピュータのハードウェアブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。以下の説明では、最初に実施の形態の基礎となる基本的考え方を述べ、その後に本実施の形態に係る音声明瞭化装置の構造及び動作を説明する。
[1.基本的考え方]
以下に説明する実施の形態は、音声明瞭化の技術として2つを採用している。1つは、スペクトルの包絡線に基づくスペクトル・シェーピングによる雑音特性への音声の適応技術である。他の1つは雑音中の音声の知覚にさして影響を与えない調波を間引き、間引かれた調波のエネルギを他の重要な成分に再配分する技術である。
なお、本明細書において、スペクトルの「包絡線」及びスペクトログラムの「包絡面」という言葉を使用するが、これは当該技術分野において通常用いられる「スペクトル包絡」とも、数学的な意味での「包絡線」及び「包絡面」とも異なる。スペクトル包絡は、音声スペクトルに含まれる高調波等の微細構造を取り除いたなだらかな周波数方向の変動を表し、一般に人間の声道特性を反映するとされる。一方、本発明における「包絡線」、又は「包絡面」の特定時刻の断面として表わされる曲線は、一般にいう「スペクトル包絡」のフォルマント等の複数個の局所ピークに接する、又は局所ピーク近くに局所ピークに沿って描かれる曲線であり、スペクトル包絡よりもなだらかな曲線で表される。その意味では、「スペクトル包絡の包絡」、又は「スペクトル包絡のピークの概形」と表現することもできる。ここではスペクトル包絡と本明細書における「包絡線」とを区別するために、一般にいう「スペクトル包絡」を「スペクトル包絡」、スペクトル包絡の局所的ピークに接して、又はそれらに沿って描かれた曲線を単に「(スペクトルの)包絡線」と呼ぶ。スペクトログラムの「包絡面」も同様である。スペクトログラムにおいて、各時刻でスペクトログラムを構成するスペクトルのスペクトル包絡により形成される面を「スペクトログラム包絡」と呼び、スペクトログラム包絡の局所的ピークに接する、又はそれらに沿って描かれる曲面を単に「(スペクトログラムの)包絡面」と呼ぶ。ただし、包絡線又は包絡面を抽出する際にスペクトル包絡を介する必要はない。本明細書でいう「包絡面」の特定周波数の断面として表わされる曲線(ある周波数におけるスペクトルの時間変化)もここでは包絡線と呼ぶ。なお、ここにいう「曲線」及び「曲面」が、それぞれ直線及び平面を含んでもよいことはいうまでもない。
<1.1 スペクトルの包絡線に基づくスペクトル・シェーピング>
スペクトルの包絡線に基づくスペクトル・シェーピングによる音声の明瞭化技術は、以下のようにして音声の明瞭化を行なう。
(1)音声のスペクトログラムの包絡面を抽出する。
(2)前記包絡面に基づいて、スペクトルにおけるフォルマント等のピークを強調するようスペクトルを変形する。
(3)スペクトログラムの包絡面にあわせて音声のスペクトル及びその時間変動の双方を変形するとともに、
(4)スペクトログラムの各フレームについて、雑音の平滑化スペクトルが音声スペクトルの包絡線と平行になるような変形を音声スペクトルに加える。
このように本実施の形態に係るスペクトル・シェーピング手法は、従来法とは異なり、音声知覚におけるフォルマント等の音声スペクトルのピークの重要性を考慮し、かつ、聴覚と関連が深いスペクトルの時間変動に対してダイナミックレンジの圧縮を行なっている。そして、音声の知覚において重要なフォルマント等のピークが、雑音スペクトルから突出するように処理している。
〈1.1.1 スペクトログラムの包絡面〉
図2に、音声のスペクトログラム60とその包絡面62との例を示す。図2では、両者を見やすくするために包絡面62を便宜上実際よりも80dB上方に描画している。実際には、両者は、スペクトログラム60のピークが包絡面62に下側から接するような関係にある。なお図2では、周波数軸はバーク尺度周波数で示され、縦軸は対数パワーを示してある。周波数軸にメル尺度やバルク尺度、ERB尺度といった知覚的又は音響心理学的尺度を用いることで、音声の明瞭性を左右する低周波域のスペクトルを重視した包絡面の抽出を行なうことができる。この包絡面62は、既に述べたようにスペクトログラム60の変化に対して比較的緩やかな包絡となるようにとってあり、以下に述べるように特に周波数方向よりも時間軸方法においてその変化が緩やかとなっている。
音声のスペクトログラム|Xk,m(kは対象スペクトログラムの周波数軸上の周波数範囲の位置を表し、mは対象スペクトログラムの時間軸上の位置すなわちフレーム番号である)、について、その局所ピークに接する包絡面 ̄Xk,mを求めることを考える(「 ̄」は、以下に記載する数式においてその直後の文字の上に描かれたバーを示す。)。ここでは、以下の逐次近似法を用いる。
包絡面のn回目の近似を ̄Xk,m (n),その対数の2次元離散フーリエ逆変換を ̄xu,v (n)とする。初期値 ̄xu,v (0)を次式で与える。
ここで、Lu,vは2次元ローパスフィルタで、1.1.2節で詳述する。
包絡面は次式で更新する。
ここで、αは収束を加速するための係数である。
所定の値ε>0に対して次式を用いて収束判定する。ただし次式においてM及びNはそれぞれ、スペクトルのデータポイント数及び総フレーム数を表す。
収束後、 ̄Xk,mは次のように与えられる。
ただし ̄Xminは予め定めた定数である。包絡面の下限 ̄Xminを設けることで、スペクトログラム変形時に、パワーが微小な無音部等が強調され異音が発生するという問題を回避できる。
〈1.1.2 包絡面平滑化2次元フィルタ〉
式(1)(2)及び(3)のLu,vには本実施の形態では次式を用いる。
sは音声のサンプリング周波数を表す。Tfは分析フレーム周期を表す。Nは音声区間の総フレーム数を表す。時間(ケフレンシ)領域及び周波数領域のカットオフγ、ηを調整することで、包絡面の周波数方向及び時間方向の平滑化の度合いをそれぞれ変えることができる。
このようにして得られたものが、例えば図2の包絡面62、図3の包絡線72、図4(A)の包絡線92等である。なお、図3及び図4の場合、図面に出ているのは包絡面のそれぞれ周波数方向及び時間方向の断面の曲線であるため、ここでは包絡線と呼んでいる。
なお、本実施の形態では、後述するように音声は合成音声であって既知であることを前提としている。したがってこうした包絡面を予め算出しておくことができる。音声が既知でなくリアルタイムで与えられる場合には、例えば以下のようにして上記と同等の包絡面を得ることができる。
(1)現在の分析フレームのスペクトルの包絡線を逐次計算する。
(2)計算により得られた包絡線時系列を、ローパスフィルタ等で時間軸方向に平滑化する。
〈1.1.3 雑音への適応〉
包絡面を雑音に対して適応化するためには、雑音スペクトルを得る必要がある。本実施の形態では、マイクにより周囲の雑音を収集し、そのパワースペクトル|Yk,m2を逐次計算し、ローパスフィルタに通す等して時間方向に平滑化したスペクトル ̄Yk,mを得る。本実施の形態では、次式を用いてこの平滑化を行なう。
 ̄Yk,mに応じて整形した(すなわち雑音に適応した)音声のスペクトログラム|X´k,m2を次式で与える。ここで、音声スペクトルの包絡線を利用したスペクトルピーク強調を同時に行なう。これによって、フォルマントが強調され明瞭性がさらに向上する。
式(7)の(a)は、スペクトルの包絡線が変化しないフォルマント強調(γ>1)であり、(b)は包絡線が平滑化雑音スペクトルに平行となるような音声スペクトルの変形操作に相当する。
式(7)の(a)についてより詳しく説明する。図3(A)を参照して、ある時間における音声のスペクトログラム(スペクトル)70に対し、その包絡線を包絡線72とする。式(7)の(a)は以下のように表せる。
この式の自然対数表現をとると以下のようになる。
この式の第2項のカッコの中は、対数領域において、スペクトルの値(対数パワー)から包絡線の値を減算することを意味する。この結果、包絡線がスペクトルに接しているフレームでは、例えば、図3(A)に示すスペクトル70は、図3(B)に示す曲線74に変形される。図3(B)において、曲線74のピークの対数パワー値はほぼ0となっている。
さらにこの値に対数領域でγ>1を乗算することにより、曲線74は図3(C)に示す曲線76のように変形される。この変形は、曲線74の谷部分を深くすることでピーク部分を強調することに相当する。
上記式の第1項は、対数領域において、図3(C)に示す曲線76に、ln ̄Xk,mを加算することを意味する。その結果、図3(C)の曲線76は対数パワー軸に沿って上方にln ̄Xk,mだけ移動する。その結果、図3(D)に示すスペクトル80が得られる。このスペクトル80のピークは、図3(A)に示す包絡線72と同じ包絡線に接している。
式(8)のDk,mは雑音の平滑化スペクトルと音声スペクトルの包絡線との比である。この値を式(7)の(b)に示すようにζm乗して(a)に乗算する(対数領域では雑音の平滑化スペクトルと音声スペクトルの包絡線との差をζm倍して図3(D)のスペクトル80に加える)ことにより、図3(D)に示すスペクトル80に対し、そのスペクトルの包絡線が雑音の平滑化スペクトルとなるような変形操作が行なわれる。例えばζm=1とすると、対数領域では、図3(C)のスペクトル80から包絡線72を減算し、雑音の平滑化スペクトル ̄Yk,mを加算することになる。ただし、極端な変形を避けるため、所定のξに対してζmを以下のように定める。
ここでRmはスペクトル変形の度合いを表す。本実施の形態ではRmを以下の式で与える。
上記した変形によって得られる音声のパワースペクトルの一例を図5に示す。図5において、雑音信号130が平滑化スペクトル134を持つものとする。発話のための合成音声信号に対して上記明瞭化処理を行なって得られたのが、音声信号132である。図5からまず、包絡面抽出時にバーク尺度周波数を用いたことによる効果が読みとれる。すなわち、比較的低い周波数域において重点的に音声スペクトルが雑音スペクトルに適応し、特に明瞭性に影響する周波数4000ヘルツ以下の帯域において、発話の音声信号132のフォルマント等のピークのパワーが雑音スペクトルより大きくなっている。次に、この帯域において音声信号のスペクトルの包絡線136は、雑音信号の平滑化スペクトル134と平行した形でかつ平滑化スペクトル134より上に位置しているのがわかる。これによって、明瞭性に大きな影響を与える音声のフォルマント部分(スペクトルのピーク)が雑音スペクトルから突出するように音声が合成されるため、雑音中でも聞き取り易い明瞭な音声が生成可能となる。
このようなスペクトルの(周波数領域における)変形に伴い、(7)式では、音声のスペクトログラムの時間方向の変動に対して図4に示すような変形を行なっている。図4(A)を参照して、上記した変形前のスペクトログラムのある周波数における断面90に対し、そのスペクトログラムの包絡面の同周波数における断面が包絡線92により表されるものとする。断面90のうちパワーの比較的低い部分に子音から母音への過渡部94が存在するものとする。
雑音がほぼ定常でそのパワースペクトルが時間経過に対して大きく変化しないときには、スペクトログラム時間方向の断面90に対し、包絡線92を雑音に合わせて平坦にする変形を行なうことになる。図4(B)に示すように、時間軸方向で包絡線102が平坦になるようスペクトログラムが変形される。変形後の時間変動100では、図4(A)に示す子音から母音への過渡部94に対応する過渡部分104は、包絡線102に下から接するように持ち上げられた形となる。この結果、変形後の時間変動100に基づいて音声を合成すれば、子音の知覚において重要な手掛かりとなる過渡区間が相対的に増幅・強調され、音声を明瞭化することができる。
一方数5に示す式(5)の係数は例えば次のように設定する。周波数方向については包絡線が緩やかにスペクトルピークだけに接するようにτ=125μsとする。これは、16kHzサンプリングの音声で、各フレームの包絡線を2次までのケプストラムを用いてそれぞれ表現することに相当する。一方、時間方向については、図4(A)のように包絡線を起伏に追従させ、同図(B)のように子音・母音間の過渡部等が強調されるように、η=20〜40Hz程度に設定する。また、γ=1.3程度に設定してフォルマントを強調する。
<1.2 調波の間引きとエネルギの再配分>
上記したスペクトル・シェーピングにより、雑音環境下でも音声を明瞭化できる。しかし本実施の形態では、音声の合成時に、音声の明瞭性に対する影響が小さい調波を間引き、間引かれた調波のエネルギを、残された調波に集中することで知覚音量を増大させ、さらなる明瞭性向上をねらう。このとき、残される調波の数は一定数以下に制限する。この目的のため、音声合成には正弦波合成を用いる。
まず、音声が雑音に埋もれている周波数帯域における調波の有無は、音声の聞こえには大きく影響しない。そこで、本実施の形態では、所定の定数θに対して次の式(12)が成り立つ時間周波数では調波は間引き合成しない。
この定数θが0のときには、変換後の音声信号のうち、雑音信号の平滑化スペクトルよりレベルが上になる調波成分のみ合成し、それ以外の調波成分は合成しない。定数θが正のときには、音声信号のうち雑音信号の平滑化スペクトルより対数パワーでθだけ上のレベルを上回る調波成分のみ合成し、それ以外を合成しない。定数θが負のときには、音声信号のうち雑音信号の平滑化スペクトルより対数パワーでθの絶対値だけ下のレベルを上回る調波成分のみ合成し、それ以外は合成しない。
さらに、本実施の形態では、音声が雑音に埋もれていなくても、各フォルマント周波数の最も近くに位置する調波の両隣の調波のうち、一方は間引いて合成しない。これは、いわゆるマスキングと同様の原理で、フォルマント周波数の最も近くに位置する調波に隣接する調波は聞こえにはさして影響しないためである。合成しない調波を一方のみとし、他方を合成するのは、調波成分があまりまばらになってしまうと、音声のピッチの知覚が困難になるため、それを回避するためである。
例えば、図6(A)に示す例で、雑音の平滑化スペクトルがスペクトル160である場合を考える。定数θ<0とすると、図6に示す調波成分のうち、調波成分170、172、190、174、176、178、180、及び182のみが式(12)を満たす。そこで、これらのみが合成の対象となり、それ以外の調波成分については合成しない。また、調波成分190,180については、本来であれば合成の対象であるが、フォルマントを形成する調波成分172、178にそれぞれ隣接しているので、やはり合成しない。他方の調波成分170、176はそれぞれ残す。
さらに、このようにして合成しないと決定された調波成分については、それらのエネルギを残った調波成分に再配分する。その結果、図6(A)に示す調波成分170,172,174,176、178及び182にそれらエネルギ200が再配分され、図6(B)に示すように、パワーのレベルが上昇した調波成分210,212,214,216,218及び222が得られる。この結果、残った調波成分のパワーは雑音スペクトルよりもさらに上に出ることになり、フォルマント近辺でSN比が改善して音声が明瞭になる。ここで、音声信号のエネルギの総和は変化しないので、物理的な音量は変化しない。
[2.構成]
以上の原理に基づく本実施の形態に係る音声明瞭化装置の構成について説明する。図7を参照して、この実施の形態に係る音声明瞭化装置250は、音声合成処理部252により合成された合成音声信号254と、マイク258により集音された周囲の雑音を示す雑音信号256とを入力とし、合成音声信号254を雑音信号256に対して適応化することにより、合成音声信号254による音声よりも明瞭な変換後音声信号260を出力するためのものである。
音声明瞭化装置250は、合成音声信号254を受けてそのスペクトログラム|Xk,m2を抽出するスペクトログラム抽出部290と、スペクトログラム抽出部290の抽出したスペクトログラム|Xk,m2に基づき、その包絡面| ̄Xk,m|を抽出する包絡面抽出部292とを含む。スペクトログラム抽出部290によるスペクトログラム抽出は慣用の技術により実現できる。包絡面抽出部292による包絡面の抽出には、1.1.1及び1.1.2に述べた技術を用いる。この処理は、コンピュータハードウェアとソフトウェアとによっても実現できるし、専用のハードウェアにより実現することもできる。ここでは、コンピュータハードウェアとソフトウェアとにより実現する。なお、この実施の形態のように音声合成処理部252による合成音声を変換の対象とする場合には、予め音声信号が分かっているので、スペクトログラムの抽出及び包絡面の抽出はいずれも予め計算できる場合が大部分である。
音声明瞭化装置250はさらに、マイク258から受信した雑音信号256に対し、デジタル化、フレーム化等の前処理を施して一連のフレームからなる雑音信号を出力する前処理部294と、前処理部294が出力するフレーム化された雑音信号からそのパワースペクトルを抽出するパワースペクトル計算処理部296と、パワースペクトル計算処理部296により抽出された雑音信号のパワースペクトルに対して、その時間変動を平滑化して雑音信号の時刻mT(m番目のフレーム)における平滑化スペクトル ̄Yk,mを出力する平滑化処理部298と、スペクトログラム抽出部290の出力する合成音声のスペクトログラム|Xk,m2、包絡面抽出部292が出力する合成音声の包絡面| ̄Xk,m|、及び平滑化処理部298が出力する雑音信号の平滑化スペクトル ̄Yk,mとに基づいて、上記1.1.3で説明した雑音への適応処理を行ない、適応化後の音声信号の時刻mTにおけるスペクトル|X´k,m2を音声の基本周波数の間隔でサンプルして得られる調波成分を出力する雑音適応処理部300と、雑音適応処理部300から出力される各調波について雑音の平滑化スペクトル ̄Yk,mとのレベル比較を行なって、式(12)に従って所定レベル(すなわちSN比)を下回る調波を間引くとともに、各フォルマント周波数の最も近くに位置する調波に隣接する調波の片方を間引く調波間引き処理部302と、調波間引き処理部302により間引かれた後の残された各調波成分に、間引かれた調波成分のパワーを均等に再配分するパワー再配分処理部304と、パワー再配分処理部304においてパワー再配分を受けた残った調波から音声を合成する正弦波音声合成処理部305とを含む。正弦波音声合成処理部305の出力が、雑音に対して適応化され、明瞭化された変換後音声信号260である。なお、雑音適応処理部300において、上述のスペクトル|X´k,m2を音声の基本周波数の間隔でサンプルする処理、及び、調波間引き処理部302において、雑音中の音声の知覚にさして影響のない調波を間引く処理は、音声が調波成分を持つ有声区間においてのみ適応されることは言うまでもない。
[3.動作]
音声明瞭化装置250は以下のように動作する。音声合成処理部252は図示しない音声発生の指示を受けて音声合成を行ない、合成音声信号254を出力しスペクトログラム抽出部290に与える。スペクトログラム抽出部290は、この合成音声信号254からスペクトログラムを抽出し包絡面抽出部292と雑音適応処理部300とに与える。包絡面抽出部292は、スペクトログラム抽出部290から与えられたスペクトログラムからその包絡面を抽出し雑音適応処理部300に与える。
マイク258は、周囲の雑音を集音し、電気信号である雑音信号256に変換して前処理部294に与える。前処理部294は、マイク258から受信した雑音信号256を所定フレーム長で所定シフト長のフレームごとにデジタル化し、一連のフレーム化された信号としてパワースペクトル計算処理部296に与える。パワースペクトル計算処理部296は、前処理部294から受けた雑音信号からパワースペクトルを抽出し、平滑化処理部298に与える。平滑化処理部298は、このスペクトルの時系列をフィルタリングにより平滑化することで雑音の平滑化スペクトルを算出し雑音適応処理部300に与える。
雑音適応処理部300は、前述した手法により、スペクトログラム抽出部290から与えられるスペクトログラムに、包絡面抽出部292から与えられる合成音声信号254のスペクトログラムの包絡面、及び、平滑化処理部298から与えられる雑音信号の平滑化スペクトルを用いた雑音適応化処理を行ない、適応化後の各時刻における音声信号のスペクトル|X´k,m2を、音声の基本周波数間隔でサンプルして得る調波成分を出力し、調波間引き処理部302に与える。
調波間引き処理部302は、雑音適応処理部300の出力する各調波について、平滑化処理部298の出力する雑音信号の平滑化スペクトルとの比較を行ない、前述した調波の間引き操作を行なって残された調波のみを出力する。パワー再配分処理部304は、間引き処理部302が出力する間引き後のスペクトログラムの各調波に、間引きされた調波のパワーを再配分し、残っている調波のレベルを引き上げることにより、変換後音声信号260を出力する。
前述した原理により、雑音適応処理部300により雑音に適応化された合成音声は、スペクトルのピークが強調され、音声過渡部のスペクトル特徴が強調されたものとなっている。また、そのピークは雑音レベルに適応しており、雑音環境下でも聞き取りやすい音声を生成できる。さらに、調波間引き処理部302により明瞭性に影響しない調波を間引き、パワー再配分処理部304により、残っている調波にそのパワーを再配分している。その結果、音声パワーの総量を変化させることなく、音声のうち明瞭性に影響する部分のパワーのみを高めることができる。その結果、音量を不必要にあげることなく、聞き取りやすい音声を発生させることができる。
[4.コンピュータによる実現]
上記した音声明瞭化装置250は、実質的には、コンピュータハードウェアと、コンピュータハードウェアと協働するコンピュータプログラムとにより実現できる。ここで、包絡面抽出部292、雑音適応処理部300を実現するプログラムは、それぞれ1.1.1〜1.1.2、及び1.1.3に説明した処理を実行するものを利用できる。
<ハードウェア構成>
図8は、上記した音声明瞭化装置250を実現するコンピュータシステム330の内部構成を示す。
図8を参照して、このコンピュータシステム330は、コンピュータ340と、このコンピュータ340に接続されるマイク258及びスピーカ344とを含む。
コンピュータ340は、CPU(中央演算処理装置)356と、CPU356に接続されたバス354と、ブートアッププログラム等を記憶する、書換え可能な読出専用メモリ(ROM)358と、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360と、メンテナンスの作業者等が用いる操作盤362と、無線により他の端末との通信を可能とする無線通信装置364と、リムーバブルメモリ346が装着可能なメモリポート366と、マイク258及びスピーカ344が接続され、マイク258からの音声信号をデジタル化したり、RAM360から読出したデジタルの音声信号をアナログ変換しスピーカ344に与えたりする処理を行なうための音声処理回路368とを含む。
コンピュータシステム330を上記した実施の形態に係る音声明瞭化装置250の各機能部として機能させるためのコンピュータプログラムは、予めリムーバブルメモリ346に記憶され、リムーバブルメモリ346をメモリポート366に装着した後に操作盤362を操作してROM358の書換えプログラムを起動することによりROM358に転送され記憶される。又は、プログラムを、無線通信装置364を介した無線通信によりRAM360に転送し、その後にROM358に書き込むようにしてもよい。プログラムは実行の際にROM358から読出され、RAM360にロードされる。
このプログラムは、コンピュータ340を、上記実施の形態に係る音声明瞭化装置250の各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム又はサードパーティのプログラム、若しくは、コンピュータ340にインストールされている各種プログラミングツールキット又はプログラムライブラリにより実行時に動的に提供されることがある。したがって、このプログラム自体はこの実施の形態に係る音声明瞭化装置250を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールをコンピュータ340の記憶装置内から動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供するようにしてもよい。
図2〜図7に示す本実施の形態では、音声信号等は、マイク258から音声処理回路368に与えられ、音声処理回路368でデジタル化されてRAM360に蓄積され、CPU356により処理される。CPU356による処理の結果得られた変換後の音声信号はRAM360に格納される。CPU356が音声処理回路368に音声の発生を指示することにより、音声処理回路368がRAM360から音声信号を読出し、アナログ変換してスピーカ344に与え音声を発生させる。
コンピュータプログラムを実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細については繰返さない。
以上のように、上記実施の形態に係る音声明瞭化装置250によれば、雑音環境下で音声を発生する時に、雑音の音響特性に基づいて発生すべき音声を示す音声信号を時間軸及び周波数軸の双方について同時に変換し、雑音下でも音声が明瞭に聞こえるようにできる。この音声信号の変換時に、フォルマントのピークを強調したりする際にも、聞こえに影響する部分のみを強調することで、音量を不必要に増大させることがない。
また、本実施の形態のスペクトル・シェーピング技術は、音声知覚におけるフォルマント等の音声スペクトルのピークの重要性を考慮しており、かつ、音声の知覚と関連が深いスペクトルの時間変動に対してダイナミックレンジの圧縮を行なう点で従来法とは大きく異なる。
なお上記実施の形態は、合成音声を雑音下で発生させるための装置に関するものである。しかし本発明はそのような実施の形態には限定されない。生の音声をスピーカ等から発生させる際に、雑音に対して聞こえがよくなるように音声を変換する場合にも適用できることはいうまでもない。この場合、事情が許せば、生の音声を全くリアルタイムでなく一時遅延させると、音声のスペクトログラムの包絡面をより長い時間にわたって得ることができ、音声の変換をより効果的に行なうことができる。
また上記実施の形態では、音声信号のうち、雑音に埋もれてしまう部分のパワーを聞こえに影響する部分に再配分する際に、フォルマント等のピークの最も近くに位置する調波に対して両側から隣接する2つの調波のうち一方を削除の対象としている。しかし本発明はそのような実施の形態には限定されず、両方を削除するようにしてもよいし、又は双方をいずれも削除しないようにしてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30、250 音声明瞭化装置
32、132 音声信号
34 変換音声信号
40 フィルタリング部
42 ダイナミックレンジ圧縮処理部
60 スペクトログラム
62 包絡面
70、80 スペクトル(スペクトログラム)
72、92、102、136、134 包絡線
130 雑音信号
256 雑音信号
258 マイク
260 変換後音声信号
290 スペクトログラム抽出部
296 パワースペクトル計算処理部
292 包絡面抽出部
298 平滑化処理部
300 雑音適応処理部
302 調波間引き処理部
304 パワー再配分処理部
305 正弦波音声合成処理部
330 コンピュータシステム
340 コンピュータ
344 スピーカ

Claims (6)

  1. 明瞭な音声を生成する音声明瞭化装置であって、
    対象とする音声信号のスペクトルに対して、当該スペクトルのスペクトル包絡の複数個の局所的なピークに沿った曲線で表されるピーク概形を抽出するピーク概形抽出手段と、
    該ピーク概形抽出手段が抽出したピーク概形に基づいて前記音声信号のスペクトルを変形するスペクトル変形手段と、
    該スペクトル変形手段によって変形されたスペクトルに基づいて音声を生成する音声合成手段とを含む音声明瞭化装置。
  2. 前記ピーク概形抽出手段は、対象とする音声信号のスペクトログラムに対して、時間・周波数領域において当該スペクトログラムの包絡の複数個の局所的なピークに沿った曲面を抽出し、抽出した曲面から各時刻における前記ピーク概形を得ることを特徴とする、請求項1に記載の音声明瞭化装置。
  3. 前記ピーク概形抽出手段は、周波数の知覚的又は音響心理学的な尺度に基づいて前記ピーク概形を抽出することを特徴とする、請求項1または2に記載の音声明瞭化装置。
  4. 前記スペクトル変形手段は、前記ピーク概形抽出手段が抽出した前記ピーク概形に基づいて、前記音声信号のスペクトルのピークを強調するスペクトルピーク強調手段を含むことを特徴とする、請求項1に記載の音声明瞭化装置。
  5. 前記スペクトル変形手段は、
    音声を送出する環境又はその類似環境で集音した環境音に対してそのスペクトルを抽出する環境音スペクトル抽出手段と、
    前記ピーク概形抽出手段が抽出した前記ピーク概形と、前記環境音スペクトル抽出手段が抽出した環境音スペクトルとに基づいて前記音声信号のスペクトルを変形する手段とを含むことを特徴とする請求項1又は4に記載の音声明瞭化装置。
  6. コンピュータにより実行されると、請求項1〜請求項5のいずれかに記載の全ての手段として当該コンピュータを機能させる、コンピュータプログラム。
JP2014038786A 2014-02-28 2014-02-28 音声明瞭化装置及びそのためのコンピュータプログラム Active JP6386237B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014038786A JP6386237B2 (ja) 2014-02-28 2014-02-28 音声明瞭化装置及びそのためのコンピュータプログラム
US15/118,687 US9842607B2 (en) 2014-02-28 2015-02-12 Speech intelligibility improving apparatus and computer program therefor
EP15755932.9A EP3113183B1 (en) 2014-02-28 2015-02-12 Speech intelligibility improving apparatus and computer program therefor
PCT/JP2015/053824 WO2015129465A1 (ja) 2014-02-28 2015-02-12 音声明瞭化装置及びそのためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014038786A JP6386237B2 (ja) 2014-02-28 2014-02-28 音声明瞭化装置及びそのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015161911A true JP2015161911A (ja) 2015-09-07
JP6386237B2 JP6386237B2 (ja) 2018-09-05

Family

ID=54008788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014038786A Active JP6386237B2 (ja) 2014-02-28 2014-02-28 音声明瞭化装置及びそのためのコンピュータプログラム

Country Status (4)

Country Link
US (1) US9842607B2 (ja)
EP (1) EP3113183B1 (ja)
JP (1) JP6386237B2 (ja)
WO (1) WO2015129465A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI622978B (zh) * 2017-02-08 2018-05-01 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法
US10939862B2 (en) 2017-07-05 2021-03-09 Yusuf Ozgur Cakmak System for monitoring auditory startle response
US11883155B2 (en) 2017-07-05 2024-01-30 Yusuf Ozgur Cakmak System for monitoring auditory startle response
US11141089B2 (en) 2017-07-05 2021-10-12 Yusuf Ozgur Cakmak System for monitoring auditory startle response
JP6849978B2 (ja) * 2017-08-04 2021-03-31 日本電信電話株式会社 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム
EP3573059B1 (en) * 2018-05-25 2021-03-31 Dolby Laboratories Licensing Corporation Dialogue enhancement based on synthesized speech
US11172294B2 (en) * 2019-12-27 2021-11-09 Bose Corporation Audio device with speech-based audio signal processing
EP4134954B1 (de) * 2021-08-09 2023-08-02 OPTImic GmbH Verfahren und vorrichtung zur audiosignalverbesserung

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61286900A (ja) * 1985-06-14 1986-12-17 ソニー株式会社 信号処理装置
JPH09244694A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JP2010055002A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 信号帯域拡張装置
US20120265534A1 (en) * 2009-09-04 2012-10-18 Svox Ag Speech Enhancement Techniques on the Power Spectrum

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE9415T1 (de) * 1980-12-09 1984-09-15 The Secretary Of State For Industry In Her Britannic Majesty's Government Of The United Kingdom Of Great Britain And Spracherkennungssystem.
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
FR2715755B1 (fr) * 1994-01-28 1996-04-12 France Telecom Procédé et dispositif de reconnaissance de la parole.
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
JP3770204B2 (ja) * 2002-05-22 2006-04-26 株式会社デンソー 脈波解析装置及び生体状態監視装置
EP1850328A1 (en) 2006-04-26 2007-10-31 Honda Research Institute Europe GmbH Enhancement and extraction of formants of voice signals
US20080312916A1 (en) 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US9336785B2 (en) * 2008-05-12 2016-05-10 Broadcom Corporation Compression for speech intelligibility enhancement
US9117455B2 (en) * 2011-07-29 2015-08-25 Dts Llc Adaptive voice intelligibility processor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61286900A (ja) * 1985-06-14 1986-12-17 ソニー株式会社 信号処理装置
JPH09244694A (ja) * 1996-03-05 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 声質変換方法
JP2010055002A (ja) * 2008-08-29 2010-03-11 Toshiba Corp 信号帯域拡張装置
US20120265534A1 (en) * 2009-09-04 2012-10-18 Svox Ag Speech Enhancement Techniques on the Power Spectrum

Also Published As

Publication number Publication date
EP3113183B1 (en) 2019-07-03
US20170047080A1 (en) 2017-02-16
JP6386237B2 (ja) 2018-09-05
EP3113183A1 (en) 2017-01-04
EP3113183A4 (en) 2017-07-26
US9842607B2 (en) 2017-12-12
WO2015129465A1 (ja) 2015-09-03

Similar Documents

Publication Publication Date Title
JP6386237B2 (ja) 音声明瞭化装置及びそのためのコンピュータプログラム
Ma et al. Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions
RU2552184C2 (ru) Устройство для расширения полосы частот
Li et al. An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP5127754B2 (ja) 信号処理装置
US8359195B2 (en) Method and apparatus for processing audio and speech signals
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
US10636433B2 (en) Speech processing system for enhancing speech to be outputted in a noisy environment
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
TW201308316A (zh) 適應性聲音清晰度處理器
JP2007523374A (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
US10176824B2 (en) Method and system for consonant-vowel ratio modification for improving speech perception
Alam et al. Robust feature extraction based on an asymmetric level-dependent auditory filterbank and a subband spectrum enhancement technique
Ngo et al. Increasing speech intelligibility and naturalness in noise based on concepts of modulation spectrum and modulation transfer function
JP2012181561A (ja) 信号処理装置
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
CN114333874B (zh) 处理音频信号的方法
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
Nasreen et al. Speech analysis for automatic speech recognition
Wu et al. Robust target feature extraction based on modified cochlear filter analysis model
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
JPH07146700A (ja) ピッチ強調方法および装置ならびに聴力補償装置
JP2013117556A (ja) 韻律変換装置およびそのプログラム
CN112908351A (zh) 一种音频变调方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180809

R150 Certificate of patent or registration of utility model

Ref document number: 6386237

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250