JP5644359B2

JP5644359B2 - 音声処理装置

Info

Publication number: JP5644359B2
Application number: JP2010236019A
Authority: JP
Inventors: 小林　詠子; 詠子小林; 利晃石橋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-10-21
Filing date: 2010-10-21
Publication date: 2014-12-24
Anticipated expiration: 2030-10-21
Also published as: WO2012053629A1; CN103189912A; US20130182866A1; US9117436B2; JP2012088577A

Description

この発明は、周囲で発生している音声を収音し、収音した音声に基づいて出力する音声を変化させる音声処理装置に関するものである。

従来、周囲で発生している音声を収音して加工し、収音した音声とミキシングしてスピーカから出力することにより、周囲で発生している音声とは異なる音声を聴取者に聞かせるものが提案されている（例えば、特許文献１参照）。これにより、周囲で発生している音声（例えば話者の音声）を聞き取り難くし、話者の音声をマスクすることが可能となる。

特開２００９−１１８０６２号公報

しかし、スピーカから出力された音声が再び収音されると、収音された音声のある周波数成分が増幅されて出力される可能性もあり、ハウリングが発生するおそれがある。また、話者の音声とは異なる音声が収音されると、目的の話者の音声を適切にマスクするマスカ音を出力することができない場合がある。

そこで、本発明は、ハウリングを防止しつつ、適切なマスカ音を生成する音声処理装置を提供することを目的とする。

この発明の音声処理装置は、音声信号を入力する入力部と、入力した音声信号を解析する解析部と、汎用マスカ音を記憶する記憶部と、マスカ音生成部と、マスカ音生成部が生成した出力用マスカ音を出力する出力部と、を備えている。

汎用マスカ音とは、どの様な話者であってもある程度マスク効果が期待できるものである。例えば、男性および女性を含む複数人の音声を録音したものであり、語彙的には何ら意味をなさない（会話内容が理解できない）撹乱音が含まれている。聴取者は、このような撹乱音を話者の音声と同時に聞くことで、話者の発言内容を理解することが困難となる。ただし、本人の音声を加工して撹乱音として出力する場合に比べ、マスク効果は低くなる。

そこで、本発明のマスカ音生成部は、解析部の解析結果、および前記記憶部に記憶されている汎用マスカ音に基づいて、出力用マスカ音を生成する。例えば、解析部は、入力した音声信号に含まれている話者の音声特徴量（ピッチやフォルマント等）を抽出し、マスカ音生成部は、抽出した話者の音声特徴量に基づいて記憶部に記憶されている汎用マスカ音を加工して出力用マスカ音を生成する。具体的には、記憶部に記憶されている汎用マスカ音のピッチを入力音声信号のピッチに変換したり、汎用マスカ音のフォルマントを入力音声信号のフォルマントに変換（中心周波数を合わせる、帯域幅を合わせる、等）したりする。これにより、実際の話者の声質に近似した声質の撹乱音が出力されるため、汎用マスカ音よりもマスク効果が高くなり、話者の音声を適切にマスクすることができる。また、入力された話者の音声は、解析に用いられるだけであり、話者の音声が増幅等されて出力されることはなく、出力された音声が再び収音されて増幅されることがない（ループ系が形成されない）ため、ハウリングが発生するおそれはない。

さらに、入力した音声信号から出力用マスカ音を削減する削減部を備えると、出力された出力用マスカ音が再び収音された場合であっても、話者の音声だけを適切に解析することができる。

また、解析結果を所定時間保持する解析結果保持部を備え、マスカ音生成部は、解析部の解析結果と、解析結果保持部に保持されている解析結果を比較し、異なる解析結果が算出された場合に解析部の解析結果に基づく出力用マスカ音の生成を停止する態様としてもよい。

この場合、話者の音声とは異なる音声が突発的に入力された場合であっても、出力用マスカ音が大きく変化しない（誤った解析結果が出力用マスク音に反映されない）ため、マスキング効果を安定させることができる。

この発明によれば、ハウリングを防止しつつ、適切なマスカ音を生成することができる。

サウンドマスキングシステムの構成を示すブロック図である。音声信号の周波数特性を示す図である。変形例１に係る音声処理装置の構成を示すブロック図である。変形例２に係る音声処理装置の構成を示すブロック図である。撹乱音と背景音、演出音の対応付けテーブルを示した図である。

図１は、本発明の音声処理装置を備えたサウンドマスキングシステムの構成を示すブロック図である。サウンドマスキングシステムは、音声処理装置１、話者２、および聴取者３からなる。音声処理装置１は、話者２の音声を収音し、聴取者３に対して話者２の音声をマスクするマスカ音を放音する。

図１において、音声処理装置１は、マイク１１、Ａ／Ｄ変換部１２、音声解析部１３、マスカ音生成部１４、データベース１５、Ｄ／Ａ変換部１６、およびスピーカ１７を備えている。

マイク１１は、装置周囲で発生する音声（この例では主に話者２の発話音声）を収音する。収音された音声は、Ａ／Ｄ変換部１２でデジタル音声信号に変換され、音声解析部１３に入力される。なお、Ａ／Ｄ変換部１２におけるサンプリングレートＦｓは、人の声の主成分が含まれる帯域（例えば１０ｋＨｚ以下）に対応する周波数（例えばＦｓ＝２０ｋＨｚ）とすれば十分である。

音声解析部１３は、入力された音声信号を解析し、音声特徴量を抽出する。音声特徴量は、話者を識別するための指標となる物理パラメータであり、例えばフォルマントやピッチ等からなる。フォルマントは、音声の周波数スペクトル上の複数のピークを示したものであり、声質に影響を与える物理パラメータである。ピッチは、音高（基本周波数）を表す物理パラメータである。聴取者は、２つの音声を聴取したとき、これら２つの音声の声質や音高が近似していれば、これら２つの音声を区別することが困難となる。したがって、スピーカ１７から話者２の音声に近似し、かつ異なる内容の音声（例えば語彙的に意味をなさないもの）を撹乱音としてマスカ音に含めて出力すれば、聴取者３は、話者２の発言内容を理解することが困難となり、高いマスク効果が期待できる。

そこで、音声解析部１３は、まず入力音声信号からピッチを算出する。ピッチは、例えば時間軸上のゼロクロス点（振幅が０となる点）から算出する。また、音声解析部１３は、入力音声信号の周波数解析（例えばＦＦＴ：高速フーリエ変換）を行い、周波数スペクトルを算出する。そして、音声解析部１３は、周波数スペクトルから周波数ピークを検出する。周波数ピークは、周波数スペクトルのなかで、前後の周波数成分よりもレベルが高くなっている周波数成分であり、複数が検出される。ただし、図２（Ａ）に示すように、人の声には非常に微細な周波数ピークが多数含まれるため、包絡成分の周波数ピークだけを抽出する。この周波数ピークがフォルマントとなる。各フォルマントを表すパラメータとしては、中心周波数やレベル、帯域幅（半値幅）等が抽出される。なお、音声特徴量としては、スペクトルの傾斜度等、他の物理パラメータを抽出してもよい。

音声解析部１３は、以上のようにして抽出した音声特徴量をマスカ音生成部１４に出力する。

マスカ音生成部１４は、入力された音声特徴量、およびデータベース１５に記憶されている音源（汎用マスカ音）に基づいて、出力用マスカ音を生成する。具体的には以下の処理を行う。

まず、マスカ音生成部１４は、データベース１５から汎用マスカ音の音声データを読み出す。汎用マスカ音とは、どの様な話者であってもある程度のマスク効果が期待できる汎用的なものである。例えば、男性および女性を含む複数人の音声を録音したものであり、語彙的には何ら意味をなさない（会話内容が理解できない）撹乱音が含まれる。なお、後述のように、汎用マスカ音には、撹乱音の他にも、聴取者の不快感を緩和させるための背景音（川のせせらぎ等）や演出音（鳥の鳴き声等）が含まれていてもよい。データベース１５には、汎用マスカ音の音声データとして、撹乱音や背景音、演出音等の周波数軸上の音声信号（または時間軸上の音声信号でもよい。）が記憶されている。

マスカ音生成部１４は、音声解析部１３から入力された音声特徴量に基づいて、読み出した汎用マスカ音のうち、撹乱音に係る音声データを加工する。例えば、読み出した撹乱音のピッチを、入力音声信号のピッチに変換する。この場合、撹乱音の基本周波数成分を、入力音声信号の基本周波数成分に一致させるように周波数シフトする。

また、図２（Ｂ）に示すように、撹乱音の各フォルマント成分を、入力音声信号のフォルマント成分に一致させる。例えば同図（Ｂ）において、撹乱音の第１フォルマント、第２フォルマントおよび第３フォルマントは、入力音声信号の第１フォルマント、第２フォルマントおよび第３フォルマントよりもそれぞれ中心周波数が低いため、高域側にシフトする処理を行う。また、第２フォルマントについては、入力音声信号のレベルよりも高いレベルを有するため、レベルを下げる処理を行う。さらに、第３フォルマントについては、入力音声信号のレベルよりも低いレベルを有するため、レベルを上げる処理を行うとともに、入力音声信号のレベルよりも帯域幅が広いため、帯域幅を狭くする処理も行う。また、第４フォルマントについては低域側にシフトする処理を行うとともに、帯域幅を広くする処理も行う。なお、同図の例では第１フォルマント乃至第４フォルマントについて加工する処理を示したが、加工するフォルマントの次数はこの例に限るものではない。例えば、さらに高次のフォルマント成分を加工してもよい。

なお、音声特徴量にスペクトルの傾斜度等の他のパラメータが含まれる場合には、これらのパラメータに基づいてさらに撹乱音の音声データを加工する。

マスカ音生成部１４は、以上のようにして撹乱音を加工することで出力用マスカ音を生成する。生成された出力用マスカ音は、Ｄ／Ａ変換部１６でアナログ音声信号に変換され、スピーカ１７から放音され、聴取者３に聴取される。

このようにしてスピーカ１７から放音されたマスカ音は、語彙的には何ら意味をなさないものであり、かつ声質や音高は話者２と近似した撹乱音が含まれているため、聴取者３は、話者２の音声とともに同じような声質や音高で意味の理解できない音声を聞くことになり、実際の話者２の発言内容を抽出して理解することが困難となる。

また、このような撹乱音は、声質や音高が話者２に近似しているため、低い音量であってもマスク効果が高く、聴取者３がマスカ音を聞くことによる不快感を低減することができる。さらに、上述のように、背景音（川のせせらぎ等）や演出音（鳥の鳴き声等）の音声データをデータベース１５に記憶しておき、出力用マスカ音に含めて出力することにより、より不快感を低減するような態様も可能である。

さらに、上記のマスカ音は、入力音声信号に基づいて新たに生成された音声であるため、入力音声信号が増幅して出力されたものではなく、スピーカから放音された音声がマイクに入力され、再び放音されるようなループ系が形成されることはなく、ハウリングが発生するおそれはない。したがって、本実施形態に示すサウンドマスキングシステムでは、マイクやスピーカの配置関係を考慮する必要なく、どの様な設置環境においても安定したマスカ音を出力することができる。

また、音声解析部１３において抽出されるフォルマント等の音声特徴量は、人の声に特有の物理パラメータであるため、人の声以外の音から抽出することはほとんどない。したがって、装置周囲で発生する環境音（例えばエアコンのノイズ等）によってマスカ音が変化するおそれは低く、安定して適切なマスカ音を生成することができる。

なお、上記実施形態においては、データベース１５に１種類の撹乱音を記憶しておく例を示したが、フォルマントやピッチの異なる複数種類の撹乱音をデータベース１５に記憶しておく態様も可能である。この場合、入力音声信号の音声特徴量に最も近い撹乱音を選択して読み出し、加工して（あるいは加工しないで）出力用マスカ音を生成することにより、演算量を抑えることもできる。

また、上記実施形態においては、撹乱音が常に出力される例として説明したが、撹乱音は常に出力される必要はない。例えば話者２が発話していない状態においては撹乱音を出力する必要がないため、音声解析部１３において音声特徴量を抽出できなかったときは撹乱音の出力を停止してもよい。

また、マスカ音は、連続的に発生する音声と、断続的に発生する音声とを組み合わせてもよい。例えば、話者２が発話していない状態で、音声解析部１３において音声特徴量を抽出できなかったときは、データベース１５に記憶されている撹乱音をそのまま出力用マスカ音として出力し、話者２が発話し、音声解析部１３において音声特徴量を抽出できたときには、撹乱音を加工した出力用マスカ音を出力する。これにより、聴取者３がマスカ音に慣れ、実際の話者２の音声を聞き分けてしまう状態（いわゆるカクテルパーティ効果）を防止することができる。

また、連続的に発生する音声として撹乱音と小川のせせらぎ等の背景音とを用い、断続的に発生する音声として鳥の鳴き声等の演出音を用いる態様であってもよい。例えば、撹乱音と背景音については連続的に出力し、演出音については所定のタイミングで断続的に出力する。このとき、背景音については、所定時間分の録音データ（実際の小川のせせらぎを録音したもの等）を繰り返し連続再生し、演出音については、同じく所定時間分の録音データ（実際の鳥の鳴き声を録音したもの等）をランダムあるいは一定時間毎（環境音の繰り返しタイミングに合わせる等）に再生する。この場合も、聴取者３に聞こえる音が常時同じ音にならないため、カクテルパーティ効果を防止することができる。さらに、連続的に発生する音声と断続的に発生する音声の組み合わせは、以下のような応用例も可能である。

図５は、撹乱音と背景音、演出音の対応付けテーブルを示した図である。このテーブルは、データベース１５に記憶され、マスカ音生成部１４が読み出すものである。同図の例では、フォルマントやピッチの異なる複数種類の撹乱音をデータベース１５に記憶しておく態様として説明する。

同図（Ａ）に示すように、対応付けテーブルには、データベース１５に記憶されている各撹乱音と背景音、演出音の組み合わせが記載されている。例えば、撹乱音Ａには、背景音Ａ（例えば小川のせせらぎとする。）、演出音Ａ（例えば鳥の鳴き声とする。）が対応づけられている。各撹乱音には、マスク効果が高い背景音や演出音が対応づけられていることが望ましい。

この場合、マスカ音生成部１４は、入力音声信号の音声特徴量に最も近い撹乱音（例えば撹乱音Ａ）を選択して読み出すとともに、さらにテーブルを参照して、対応づけられている背景音（例えば背景音Ａ）と演出音（例えば演出音Ａ）を選択して読み出す。これにより、入力音声信号に適した撹乱音と背景音が連続的に再生され、演出音が断続的に再生される。

さらに、同図（Ｂ）に示すように、各撹乱音に対応付けられる背景音や演出音は１つに限るものではない。例えば、同図（Ｂ）のように、撹乱音Ａについては、背景音Ａおよび演出音Ａの組み合わせの他にも、背景音Ａおよび演出音Ｂの組み合わせや、背景音Ｂおよび演出音Ｂの組み合わせが対応付けテーブルに記載されている。撹乱音Ｂについては、背景音Ｂおよび演出音Ｂの組み合わせの他にも、背景音Ｃおよび演出音Ｃの組み合わせが対応付けテーブルに記載されている。

この場合、音声処理装置１にユーザ操作用のインタフェースを設け、マスカ音生成部１４は、ユーザによる手動選択を受け付け、受け付けた背景音と演出音の組み合わせを選択して読み出す態様とすればよい。また、時間帯、季節、場所等によって自動選択される態様であってもよい。例えば午前中は背景音Ａおよび演出音Ａ（川のせせらぎ＋鳥の鳴き声）が選択される態様や、夏の午後は背景音Ａおよび演出音Ｂ（川のせせらぎ＋セミの鳴き声）が選択される態様、海に近い場所では背景音Ｂ（さざ波音等）が選択される態様、等である。この場合、音の変化がさらに多様化するため、より適切にカクテルパーティ効果を防止することができる。

また、同図（Ｃ）に示すように、各音の音量比についてもテーブルに記載されていてもよい。なお、同図に示す音量比の数値は、相対的な値を示したものであり、実際の音量値（ｄＢ）を表したものではない。

例えば、撹乱音Ａについては、音量１００に対し、背景音Ａが音量５０、演出音Ａが音量１０の音量比として記載されている。したがって、マスカ音生成部１４は、背景音Ａを撹乱音Ａの半分程度の音量とし、演出音Ａを撹乱音Ａの１／１０程度の音量としたマスカ音を出力する。また、同図（Ｃ）に示す撹乱音Ａ、背景音Ｂ、演出音Ｂの組み合わせのように、演出音の音量を０とし、演出音を出力しない、という態様も可能である。このように、入力音声信号によって発生する背景音や演出音が変化する態様に加え、音量も変化させることができる。

また、上述のように、音声処理装置１にユーザ操作用のインタフェースを設ける場合、ユーザから組み合わせの内容や音量比の指定を受け付け、テーブルの記載内容を変更できるようにしてもよい。

さらに、本実施形態に示した音声処理装置は、以下のような変形例も可能である。

図３は、変形例１に係る音声処理装置の構成を示すブロック図である。なお、同図においては、図１に示した音声処理装置と同一の構成については、同一の符号を付し、その説明を省略する。

図３に示す変形例１に係る音声処理装置１は、図１に示した音声処理装置と同様の構成に加えて、削減部１８を備えている。

削減部１８は、いわゆるエコーキャンセラであり、マイク１１から入力された音声信号（Ａ／Ｄ変換後の信号）のエコー成分を削減する処理を行う。これにより、音声解析部１３には、装置周囲で発生する音声（話者の音声）だけが入力されることになり、音声特徴量の抽出精度を向上することができる。

削減部１８のエコーキャンセルの態様はどの様な態様であってもよいが、例えばスピーカ１７からマイク１１に至る音響伝達系の伝達特性を模擬した適応型フィルタを用いて出力用マスカ音をフィルタ処理し、マイク１１から減算処理することでエコー成分を削減する。

ただし、本実施形態では、上述したように、入力音声信号がループしてマイクに入力される系が存在しないため、音声解析部１３において、単に出力用マスカ音の成分を除去（無視）して音声特徴量を抽出すればよい。この場合、適応型フィルタは不要である。

図４は、変形例２に係る音声処理装置の構成を示すブロック図である。同図においても、図１に示した音声処理装置と同一の構成については、同一の符号を付し、その説明を省略する。

図４に示す音声処理装置１は、バッファ１９を備えている。バッファ１９は、音声解析部１３からマスカ音生成部１４に入力された音声特徴量を所定時間保持する解析結果保持部に相当する。

マスカ音生成部１４は、音声解析部１３から入力される最新の音声特徴量と、バッファ１９に保持されている過去の音声特徴量とを比較し、異なる音声特徴量が算出された場合には、最新の音声特徴量に基づく出力用マスカ音の生成処理を停止し、バッファ１９に保持されている過去の音声特徴量に基づいて出力用マスカ音を生成する。この場合、突発的に話者２以外の発話音声が入力された場合であっても、出力用マスカ音が大きく変化しない（誤った音声特徴量が出力用マスク音に反映されない）ため、マスキング効果を安定させることができる。

なお、実際の話者が変わって異なる音声特徴量が抽出された場合、所定時間が経過した後も新たな話者の音声特徴量が抽出されるため、バッファ１９に保持される音声特徴量が新たな話者の音声特徴量に更新され、再び音声解析部１３から入力される最新の音声特徴量と、バッファ１９に保持されている過去の音声特徴量と、が一致することになる。そのため、所定時間経過後は、適切なマスカ音を生成することができる。

１…音声処理装置
２…話者
３…聴取者
１１…マイク
１２…Ａ／Ｄ変換部
１３…音声解析部
１４…マスカ音生成部
１５…データベース
１７…スピーカ

Claims

音声信号を入力する入力部と、
入力した音声信号を解析する解析部と、
汎用マスカ音を記憶する記憶部と、
前記解析部の解析結果、および前記記憶部に記憶されている汎用マスカ音に基づいて、出力用マスカ音を生成するマスカ音生成部と、
前記出力用マスカ音を出力する出力部と、
前記解析結果を所定時間保持する解析結果保持部と、を備え、
前記マスカ音生成部は、前記解析部の解析結果と、前記解析結果保持部に保持されている解析結果を比較し、異なる解析結果が算出された場合に、前記解析部の解析結果に基づく前記出力用マスカ音の生成を停止する音声処理装置。
前記解析部は、前記入力した音声信号の音声特徴量を抽出し、
前記マスカ音生成部は、前記音声特徴量に基づいて前記記憶部に記憶されている汎用マスカ音を加工して前記出力用マスカ音を生成する請求項１に記載の音声処理装置。
前記入力した音声信号から前記出力用マスカ音を削減する削減部を備えた請求項１または請求項２に記載の音声処理装置。
前記出力用マスカ音は、連続的に発生する音声と断続的に発生する音声との組み合わせからなる請求項１乃至請求項３のいずれかに記載の音声処理装置。