JP6349112B2 - サウンドマスキング装置、方法及びプログラム - Google Patents
サウンドマスキング装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6349112B2 JP6349112B2 JP2014048187A JP2014048187A JP6349112B2 JP 6349112 B2 JP6349112 B2 JP 6349112B2 JP 2014048187 A JP2014048187 A JP 2014048187A JP 2014048187 A JP2014048187 A JP 2014048187A JP 6349112 B2 JP6349112 B2 JP 6349112B2
- Authority
- JP
- Japan
- Prior art keywords
- sound data
- masking
- sound
- parameter value
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
この発明は、スピーチプライバシを保護する手法の1つとして用いられるサウンドマスキング装置と、このサウンドマスキング装置が実行するサウンドマスキング方法及びプログラムに関する。
対象音が聞こえている状態で同一空間に当該対象音に近い音響特性を持つ別の音が存在すると対象音が聞こえにくくなるという現象が一般に知られている。この現象はマスキング効果と呼ばれ、別の音として使用されるマスキング音の周波数が対象音の周波数に近いほど、またマスキング音の音量レベルが対象音の音量レベルに対して相対的に高いほど顕著になる。
そこで、このマスキング効果を利用し、役所や病院、薬局の受付等において話者のスピーチプライバシを保護するために、話者の話し声をマスキングして周囲にいる第三者に聞かれないようにするサウンドマスキングシステムが種々提案されている。例えば、特許文献1には、先ず言語としての意味が判別できないように処理されたスクランブル音信号をその音響特性を表す情報と共に事前にテーブルに格納しておき、音響空間における音を表す音信号を受け取ると、この音信号の音響特性を分析し、当該分析された音響特性と特性が最も類似するスクランブル音信号を上記テーブルから選択してその音を音響空間へ出力する技術が記載されている。
ところが、特許文献1に記載された技術では、マスキング対象となるユーザが入力した音声信号をスクランブル処理した音信号と、このスクランブル音信号から抽出した音響特性情報をただ単にテーブルに格納するようにしている。このため、不特定ユーザの音声をマスキングしようとすると、ユーザが持つ声の癖等によっては期待するマスキング効果が得られない。また、不特定ユーザに対し漏れなく高いマスキング効果を得るためには、マスキング対象のユーザが変わるごとにデータベースを構築し直さなければならず、その処理負荷がきわめて大きくなる。また、公共の場所に適用することができない。
この発明は上記事情に着目してなされたもので、その目的とするところは、マスキング対象の音声が変化した場合でも、音響特性の条件を満たすマスキング音を出力できるようにし、これにより特定ユーザの音が変化した場合や不特定ユーザに対しても高いマスキング効果が得られるようにしたサウンドマスキング装置、方法及びプログラムを提供することにある。
上記目的を達成するためにこの発明の第1の観点は、複数のマスキング用の音データをその音響特性を表す情報と共にデータベースに格納しておき、マスキング対象の音データの音響特性との間で予め設定した関係条件を満たすマスキング用の音データを上記データベースから選択して当該音データに対応する音を出力するサウンドマスキング装置にあって、先ず標本音声の入力を受付けて、この入力された標本音声を予め定めたフレーム長で複数のフレームに分割する。次に、上記分割されたフレーム毎に当該音データの音響特性を分析して当該音響特性を表すパラメータ値を計算し、この計算されたパラメータ値を予め設定した間隔で段階的に変化させて異なる複数の新たなパラメータ値を算出し、上記フレームの音データを、そのパラメータ値が上記算出された複数の新たなパラメータ値となるように変換する。そして、この変換された複数の音データをマスキング用音データとして、当該音データと対応するパラメータ値と共に上記データベースに格納するようにしたものである。
この発明の第2の観点は、上記第1の観点に加えて、さらに以下の処理を行うようにしたものである。すなわち、マスキング対象の音データの入力を受付けると、先ずこの入力された音データを前記フレーム長で複数のフレームに分割して、この分割されたフレーム毎に当該マスキング対象の音データの音響特性を分析して当該音響特性を表すパラメータ値を計算する。次に、この計算されたマスキング対象音データのパラメータ値を前記データベースに格納されている複数のパラメータ値と比較し、前記計算されたマスキング対象の音データとの間でパラメータ値が予め設定した関係条件を満たすマスキング用音データを選択する。さらに、上記選択されたマスキング用音データを、その対応するパラメータ値と前記計算されたマスキング対象の音データのパラメータ値との関係が前記関係条件の中の最良の条件を満たすように調整し、この調整されたマスキング用音データに対応する音をスピーカから出力させるようにしたものである。
この発明の第3の観点は、上記第2の観点に加えて、さらに以下の処理機能を備えるようにしたものである。すなわち、上記計算されたマスキング対象の音データのパラメータ値をバッファに保存しておき、上記計算された現フレームにおけるマスキング対象音データのパラメータ値と、上記バッファに保存されている過去のフレームにおけるマスキング対象音データのパラメータ値をもとに、後続フレームにおけるパラメータ値を予測する。そして、この予測されたパラメータ値を、上記計算された現フレームにおけるマスキング対象音データのパラメータ値に代えて上記比較処理に供するようにしたものである。
この発明の第4の観点は、上記第1の制御ユニットが以下のような処理機能を備えたものである。すなわち、先ず前記第1の分割手段により、標本音声として日本語の単音節音声を複数個選択し、それぞれの単音節音声からそのフォルマント遷移部を中心に子音部の末尾部分と母音部の冒頭部分とを含む1フレーム長の音データを抽出する。次に、前記第1の分析手段により、前記単音節音声毎に、前記抽出された1フレーム長の音データの音響特性を分析して当該音響特性を表すパラメータ値を算出し、前記算出されたパラメータ値をもとに当該パラメータ値と関連する複数の新たなパラメータ値を算出する。そして、前記変換手段により、前記単音節音声毎に抽出された1フレーム長の音データを、そのパラメータ値が前記算出された複数の新たなパラメータ値となるようにそれぞれ変換し、前記記憶制御手段により、前記単音節音声毎に抽出された1フレーム長の音データを親エントリとし、かつ前記変換された複数の音データを子エントリとして、これらの音データを前記マスキング用音データとして、当該音データと対応する各パラメータ値と関連付けて前記データベースに格納するようにしたものである。
この発明の第5の観点は、前記第1の制御ユニットにより、基本周波数が第1の周波数帯域に含まれる標本音声に基づいて第1のマスキング用音データを生成して、当該第1のマスキング用音データを当該音データと対応するパラメータ値に関連付けて前記データベースに格納すると共に、基本周波数が前記第1の周波数帯域とは異なる第2の周波数帯域に含まれる標本音声に基づいて第2のマスキング用音データを生成して、当該第2のマスキング用音データを当該音データと対応するパラメータ値に関連付けて前記データベースに格納する。そして、マスキング対象の音データが入力された場合に、前記第2の制御ユニットにより、当該入力された音データの音響特性を表すパラメータ値に含まれる基本周波数をもとに、前記データベースから前記第1及び第2のマスキング用音データの一方を選択的に読み出すようにしたものである。
この発明の第6の観点は、上記標本音声又はマスキング対象の音声の音響特性を表す情報として、音データの基本周波数を計算するものである。
この発明の第1の観点によれば、データベースには、標本音声データをもとにその音パラメータ値を段階的に変化させることによりそれぞれ作成された複数の変換音データが格納されることになる。このため、不特定多数のユーザの音声がマスキング対象として入力された場合でも、当該入力された音声データとの間で音声パラメータ値が予め設定した関係条件を満たすマスキング用音データをデータベースから選択できる確率が高くなり、これにより上記マスキング対象の音声を効果的にマスキングすることが可能となる。
この発明の第2の観点によれば、マスキング対象音声の音パラメータ値との間で最良の関係条件を満たすマスキング用音データをデータベースから選択できなかった場合でも、当該マスキング用音データが上記最良の関係条件を満たすように調整されるため、マスキング対象の音声をさらに効果的にマスキングすることが可能となる。また、上記のようにマスキング用音データが調整されることにより、データベースへのマスキング用音データのエントリ数を減らすことができ、これによりデータベースの記憶容量を削減すると共に、データベースからマスキング用音データを選択する際のアクセス所用時間を短縮して、マスキング音の出力遅延を減少させることが可能となる。
この発明の第3の観点によれば、マスキング音の遅延量をさらに減らす必要がある場合に、過去に予測しておいたパラメータ値をもとにデータベースからマスキング音データが選択されるので、マスキング対象音声の分析処理等による遅延が発生する場合でも、高いマスキング効果を得ることが可能となる。
この発明の第4の観点によれば、日本語の単音節音声、例えば清音、濁音、半濁音、拗音の各々からそのフォルマント遷移部を中心に子音部の末尾部分と母音部の冒頭部分とを含む1フレーム長の音データが抽出され、この単音節毎に抽出された音声フレームが親エントリとして、また上記単音節毎に抽出された音声フレームから変換された複数の新たな音声データが子エントリとしてデータベースに格納される。すなわち、単音節ごとにフォルマント遷移部を中心に子音部の末尾部分と母音部の冒頭部分とを含む領域のみについて、マスキング用音データのエントリデータ群が生成されてデータベースに格納される。
したがって、単音節毎にその全領域を複数のフレームに分割し、これらのフレーム毎にマスキング用音データのエントリデータ群生成してデータベースにエントリする場合に比べ、データベースへのエントリデータ量とエントリに必要な処理時間を大幅に減らすことができ、さらにデータベースからマスキング対象の音データに適したマスキング用音データを選択するために必要な時間を短縮して、マスキング処理の応答性を高めることができる。
この発明の第5の観点によれば、周波数特性が互いに異なる2つの標本音声をもとにそれぞれマスキング用音データのエントリデータ群が生成されてデータベースに格納され、マスキング対象の音データの基本周波数に応じて上記データベースから当該マスキング対象の音データに適したマスキング用音データがデータベースから選択されその音が出力される。このため、例えば男性と女性に対しそれぞれ適切なマスキング用音データを自動的に選択してマスキングを行うことが可能となる。
この発明の第6の観点によれば、入力音声の音パラメータとして入力音の基本周波数が算出され、この基本周波数をもとにマスキング用音データの作成処理、及びマスキング対象音声と類似するマスキング音の生成処理が行われる。このため、音パラメータとしてスペクトル包絡等を用いる場合に比べ、高いマスキング効果が期待できる。
すなわちこの発明によれば、マスキング対象の音声が変化した場合でも、音響特性の条件を満たすマスキング音を出力できるようにし、これにより特定ユーザの音が変化した場合や不特定ユーザに対しても高いマスキング効果が得られるようにしたサウンドマスキング装置、方法及びプログラムを提供することができる。
以下、図面を参照してこの発明に係わる実施形態を説明する。
(構成)
図1は、この発明の第1の実施形態に係るサウンドマスキング装置の機能構成を示すブロック図であり、図中10がサウンドマスキング装置を示している。
サウンドマスキング装置10には、音響空間に設置されたマイクロホン1及びスピーカ7がそれぞれ音声入力インタフェース(音声入力I/F)2及び音声出力インタフェース(音声出力I/F)6を介して接続されている。音声入力I/F2は、マイクロホン1から出力されたアナログ音声信号をディジタル音声信号に変換してサウンドマスキング装置10に入力する機能を有する。音声出力I/F6は、サウンドマスキング装置10から出力されたマスキング用の音データをアナログのマスキング音信号に変換したのち、増幅してスピーカ7から拡声出力させる機能を有する。
(構成)
図1は、この発明の第1の実施形態に係るサウンドマスキング装置の機能構成を示すブロック図であり、図中10がサウンドマスキング装置を示している。
サウンドマスキング装置10には、音響空間に設置されたマイクロホン1及びスピーカ7がそれぞれ音声入力インタフェース(音声入力I/F)2及び音声出力インタフェース(音声出力I/F)6を介して接続されている。音声入力I/F2は、マイクロホン1から出力されたアナログ音声信号をディジタル音声信号に変換してサウンドマスキング装置10に入力する機能を有する。音声出力I/F6は、サウンドマスキング装置10から出力されたマスキング用の音データをアナログのマスキング音信号に変換したのち、増幅してスピーカ7から拡声出力させる機能を有する。
サウンドマスキング装置10は、例えばパーソナル・コンピュータからなり、第1の制御ユニット3と、第2の制御ユニット4と、記憶ユニット5を備えている。
記憶ユニット5は、記憶媒体としてHDD(Hard Disk Drive)又はSSD(Solid State Drive)を備え、この実施形態を実施する上で必要な記憶領域として、データベース51と、音声フレームバッファ部52と、特徴量バッファ部53を有している。
記憶ユニット5は、記憶媒体としてHDD(Hard Disk Drive)又はSSD(Solid State Drive)を備え、この実施形態を実施する上で必要な記憶領域として、データベース51と、音声フレームバッファ部52と、特徴量バッファ部53を有している。
データベース51は、後述する第1の制御ユニット3により作成されたマスキング用の音データとその音響特性を表す音声パラメータとからなるエントリを、複数個格納するために用いられる。音声フレームバッファ部52は、フレーム化された入力音声データを一時保存するために使用される。特徴量バッファ部53は、音声フレーム毎に分析され得られた音声パラメータの特徴量を表すデータを、後述する予測部43による特徴量予測処理のために保存する。
第1及び第2の制御ユニット3,4はいずれもCPU(Central Processing Unit)及びDSP(Digital Signal Processor)を備える。なお、これらのCPU及びDSPは、第1の制御ユニット3と第2の制御ユニット4に対し共通に設けてもよく、また別々に設けてもよい。
第1の制御ユニット3は、データベース51に格納するエントリ群を作成するためのもので、音声入力処理部31と、エントリ用分析部32と、変換部33を有している。なお、図1中の実線の矢印は音声データの流れを示し、また破線の矢印は音声パラメータの流れを示す。
音声入力処理部31は、上記音声入力I/F2から標本用のディジタル音声信号を受け取り、この受け取ったディジタル入力音声信号を予め設定された時間長で複数の音声フレームに分割して、上記音声フレームバッファ部52に保存させる。1フレーム長は例えば100msに設定されるが、その他の長さに設定してもよい。
エントリ用分析部32は、上記音声フレームバッファ部52から入力音声データを1フレームずつ読み込み、この読み込んだ音声フレームから音声パラメータを抽出する計算を行う。抽出対象となる音声パラメータには、例えば基本周波数F0と、スペクトル特性と、強度(例えば音量レベル)がある。エントリ用分析部32はさらに、上記音声フレーム毎に抽出されたパラメータについてそれぞれフレーム内の平均値を算出する。
変換部33は、上記算出された各音声パラメータのフレーム内平均値をそれぞれ段階的に変化させ、この変化後のパラメータ値に対応するように上記音声フレームのデータを変換する。そして、この変換後の音声フレームデータとこれに対応する上記変化後のパラメータ値との対を1つのエントリデータとしてデータベース51に格納する処理を行う。
第2の制御ユニット4は、マスキング対象となる音声が入力された場合にマスキング用の音データを生成するもので、音声入力処理部41と、マスキング用分析部42と、予測部43と、比較部44と、調整部45と、音声出力処理部46を有している。なお、ここでも図中の実線の矢印は音声データの流れを示し、また破線の矢印は音声パラメータの流れを示す。
音声入力処理部41は、上記音声入力I/F2からマスキング対象のディジタル音声信号を受け取り、この受け取ったディジタル入力音声信号を上記標本用のディジタル音声信号のフレーム長と同一のフレーム長で分割して、上記音声フレームバッファ部52に保存させる。
マスキング用分析部42は、上記音声フレームバッファ部52からマスキング対象のディジタル音声データを1フレームずつ読み込み、この読み込んだ音声フレームから音声パラメータを抽出する計算を行う。抽出対象となる音声パラメータは、先に述べたエントリ用分析部32と同様に、基本周波数F0と、スペクトル特性と、強度からなる。エントリ用分析部32はさらに、上記音声フレーム毎に抽出されたパラメータについてそれぞれフレーム内の平均値を算出し、この算出された各パラメータのフレーム内平均値を特徴量バッファ部53に一時保存させる処理を行う。
予測部43は、上記マスキング用分析部42により算出された現フレームの音声パラメータ値と、上記特徴量バッファ部53に記憶された過去の複数のフレームの音声パラメータ値をもとに、数フレーム先の音声パラメータのフレーム内平均値を予測する処理を行う。
比較部44は、上記マスキング用分析部42により算出された現フレームの音声パラメータのフレーム内平均値と、上記予測部43により予測された各音声パラメータのフレーム内平均値とのいずれか一方を、データベース51に格納されている各エントリデータの音声パラメータのフレーム内平均値と順次比較する。そして、データベース51に格納されている各エントリデータの中で、上記入力音声データから算出した音声パラメータのフレーム内平均値、或いはその予測値に対し、音声パラメータの条件を満たすエントリデータを選択する処理を行う。
なお、現フレームの音声パラメータのフレーム内平均値と、予測された音声パラメータのフレーム内平均値とのいずれを使用するかは、装置の管理者が手動で設定する。また他の選択手法として、例えばマスキング対象となる音データの音量レベルに応じて自動的に選択するようにしてもよい。例えば、当該音量レベルが閾値以上の場合には、マスキング対象音声に対しパラメータ値がより近いマスキング用音声を使用する必要があると考えられるため、予測された音声パラメータのフレーム内平均値を選択する。これに対しマスキング対象の音声の音量レベルが閾値未満の場合には、マスキング対象音声に対しパラメータ値がそれほど近くなくても一定のマスキング効果が得られると考えられるので、この場合には現フレームの音声パラメータのフレーム内平均値を選択する。また、マスキング対象の音声の音響特性によらず、常に、予測された音声パラメータのフレーム内平均値を選択するようにしてもよい。
調整部45は、上記比較部44により選択されたエントリデータの音声フレームを、当該エントリデータの音声パラメータ値が上記マスキング用分析部42により算出された現フレームの音声パラメータ値と一致するように調整する処理を行う。
音声出力処理部46は、上記調整部45により調整された音声フレームを接続して連続する音声データを生成し、この生成された音声データを音声出力I/F6へ出力する処理を行う。
なお、上記第1及び第2の制御ユニット3,4が備える各制御機能は、何れも図示しないプログラム・メモリに格納されたアプリケーション・プログラムを上記CPU又はDSPに実行させることにより実現される。
(動作)
次に、以上のように構成されたサウンドマスキング装置10の動作を説明する。
(1)データベースの作成
先ず、標本として任意に選んだ人が発声を開始し、その音声がマイクロホン1に入力されると、この入力音声に対応する音声信号がマイクロホン1から出力され、音声入力I/F2でディジタル信号に変換されたのちサウンドマスキング装置10に入力される。なお、上記標本となる音声を発する人は一人でもよいが複数でもよい。
次に、以上のように構成されたサウンドマスキング装置10の動作を説明する。
(1)データベースの作成
先ず、標本として任意に選んだ人が発声を開始し、その音声がマイクロホン1に入力されると、この入力音声に対応する音声信号がマイクロホン1から出力され、音声入力I/F2でディジタル信号に変換されたのちサウンドマスキング装置10に入力される。なお、上記標本となる音声を発する人は一人でもよいが複数でもよい。
サウンドマスキング装置10では、上記入力されたディジタル音声信号が第1の制御ユニット3の音声入力処理部31に所定のフレーム長(例えば100ms)ずつ取り込まれ、この取り込まれた音声フレームが時系列に従い音声フレームバッファ部52に一時保存される。すなわち、この処理により入力ディジタル音声信号は100msのフレーム長に分割される。
なお、音声フレームの長さは100ms以外に設定してもよく、さらに要求されるマスキング効果の高さや遅延量に応じて可変設定するようにしてもよい。また、上記入力された一定長分のディジタル音声信号を一旦バッファメモリに蓄積し、しかるのち当該ディジタル音声信号を読み出して一定フレーム長に分割するようにしてもよい。
次に第1の制御ユニット3では、エントリ用分析部32及び変換部33により、音声フレームに対し以下のような分析処理及び変換処理が実行される。図2はその処理手順と処理内容を示すフローチャートである。
すなわち、先ずステップS11において、エントリ用分析部32の制御の下、上記音声フレームバッファ部52から入力音声データSが1フレームずつ読み込まれ、この読み込まれた音声フレームから音声パラメータPi を抽出する計算が行われる。なお、ここでは音声パラメータPi として、例えば基本周波数F0と、スペクトル特性と、音量レベルが抽出される。そして、この抽出された3種類の音声パラメータPi (3種類なのでi=1,2,3)についてそれぞれフレーム内平均値が算出される。
すなわち、先ずステップS11において、エントリ用分析部32の制御の下、上記音声フレームバッファ部52から入力音声データSが1フレームずつ読み込まれ、この読み込まれた音声フレームから音声パラメータPi を抽出する計算が行われる。なお、ここでは音声パラメータPi として、例えば基本周波数F0と、スペクトル特性と、音量レベルが抽出される。そして、この抽出された3種類の音声パラメータPi (3種類なのでi=1,2,3)についてそれぞれフレーム内平均値が算出される。
次に変換部33の制御の下で、上記算出された各音声パラメータPi のフレーム内平均値をそれぞれ複数段階に変化させ、この変化後の各パラメータ値に対応するように上記音声フレームデータSを変換する処理が行われる。
すなわち、段階数がm(mはインデックスで整数値(m=−M〜M))であるとき、先ずステップS12においてmが初期値−Mに設定される。次にステップS13において、上記段階−Mにおける音声パラメータPi,m が
Pi,m=Pi+m×ΔPi
として計算される。なお、ΔPi は音声パラメータPi を段階的に変化させるときのステップ幅である。
すなわち、段階数がm(mはインデックスで整数値(m=−M〜M))であるとき、先ずステップS12においてmが初期値−Mに設定される。次にステップS13において、上記段階−Mにおける音声パラメータPi,m が
Pi,m=Pi+m×ΔPi
として計算される。なお、ΔPi は音声パラメータPi を段階的に変化させるときのステップ幅である。
次にステップS14において、上記音声フレームデータSが、その音声パラメータPi が上記計算された段階−Mにおける音声パラメータPi,m となるように変換される。そして、ステップS15において、上記変換された音声フレームデータSi,mと上記音声パラメータPi,mとの対が1個のエントリデータとしてデータベース51に格納される。
続いてステップS16により、段階数がm=Mに達したか否かが判定される。そして、m=Mに達していなければ、ステップS17によりmの値がインクリメント(m=m+1)された後、ステップS13に戻って上記ステップS13〜S15による音声フレームデータの変換処理及びデータベース51へのエントリデータの登録処理が行われる。以後同様に、m=Mに達するまで各段階数mにおける上記ステップS13〜S15による音声フレームデータの変換処理及びデータベース51へのエントリデータの登録処理が繰り返し実行される。
例えば、段階数mとして、上記算出された音声フレームの基本周波数F0の平均値に対し±25Hz、±50Hz、±75Hzの6段階を設定したとする。この場合、先ず上記音声フレームデータSが、その基本周波数F0が上記−75Hzのときの音声フレームデータに変換される。そして、この変換された音声フレームデータとF0−75Hzの周波数値との対が1個のエントリデータとしてデータベース51に格納される。次に、上記音声フレームデータSが、その基本周波数F0が上記−50Hzのときの音声フレームデータに変換され、F0−50Hzの周波数値と共にデータベース51に格納される。同様に、上記音声フレームデータSが、その基本周波数F0が上記−25Hz、+25Hz、+50Hz、+75Hzのときの音声フレームデータにそれぞれ変換され、対応する周波数値と共にデータベース51に格納される。
以下同様に、スペクトル特性及び強度(例えば音量レベル)についても、それぞれm段階に変化させたときのパラメータ値となるように入力音声フレームデータが変換され、この変換された音声フレームデータが対応する変化後のパラメータ値と共にデータベース51に格納される。
かくして、データベース51には、段階数mの1段階ごとに、入力音声フレームデータの音声パラメータPi の変化後の値の全ての組み合わせについてそれぞれ変換された音声フレームデータSi,mがそれぞれエントリデータとして登録される。
例えば、音声パラメータPi が先に述べた3種類(i=1,2,3)の場合であれば、m(−M〜M)の各段階ごとに、基本周波数F0、フォルマント及び音量レベルをそれぞれ単独で変化させたときの変換後の音声フレームデータと、基本周波数F0とフォルマントを変化させたときの変換後の音声フレームデータと、基本周波数F0と音量レベルを変化させたときの変換後の音声フレームデータと、フォルマントと音量レベルを変化させたときの変換後の音声フレームデータと、基本周波数F0、フォルマント及び音量レベルを全て同時に変化させたときの変換後の音声フレームデータとからなる、合計7個のエントリデータが登録される。そして、段階数mが6であれば、7×6=42個のエントリデータが登録される。なお、mを変化させないときの変換前の音声フレームデータもエントリデータの1つとして登録される。
なお、以上述べたデータベース51へのエントリデータの登録処理は、予め設定された時間長の入力音声データに対し行われ、当該時間長分の入力音声データに基づくエントリデータの登録処理が終了すると、登録処理は終了となる。
上記データベースの作成方法として、具体的には以下の手法が挙げられる。この手法はWholeデータベースを用いたもので、日本語の単音節音声(清音・濁音・半濁音・拗音)を複数個(例えば100種類)選択し、それぞれの単音節音声の先頭からフレーム長間隔(例えば100ms)で分割する。そして、この分割されたフレームを親エントリとしてデータベースに記憶させる。すなわち、1音節につき複数個(親エントリの個数は単音節音声の長さや分割するフレーム長に依存)の親エントリが生成され、データベースに記憶される。
次に、上記親エントリのそれぞれについて所定の変換処理が行われて新たな複数の音声データのエントリが生成され、この新たな音声データのエントリ群が子エントリとしてデータベースに記憶される。なお、上記子エントリを生成するための変換処理としては、例えば基本周波数のピッチ変換が用いられる。ピッチ変換は、例えばそれぞれのフレームの平均基本周波数を操作(原音を−50Hz,−48Hz,…,−2Hz,+2Hz,+4Hz,…,+100Hz)することにより行う。なお、ピッチ変換を行う原音の周波数間隔は上記間隔に限定されるものではなく、任意に設定できる。また、上記子エントリを生成するための変換処理には、基本周波数のピッチ変換以外にスペクトル変換等を用いてもよい。
(2)オンラインにおけるマスキング用音データの生成処理
マスキング対象となるユーザが会話を開始し、その音声がマイクロホン1に入力されると、この入力音声に対応する音声信号がマイクロホン1から出力され、音声入力I/F2でディジタル信号に変換されたのちサウンドマスキング装置10に入力される。
マスキング対象となるユーザが会話を開始し、その音声がマイクロホン1に入力されると、この入力音声に対応する音声信号がマイクロホン1から出力され、音声入力I/F2でディジタル信号に変換されたのちサウンドマスキング装置10に入力される。
サウンドマスキング装置10では、第2の制御ユニット4の音声入力処理部41において、上記入力されたディジタル音声信号が前記第1の制御ユニット3において設定されたフレーム長(例えば100ms)で分割され、この分割された音声フレームが時系列に従い音声フレームバッファ部52に一時保存される。
次に第2の制御ユニット4では、マスキング用分析部42、予測部43、比較部44、調整部45及び音声出力処理部46により、マスキング音データを生成するために以下のような処理が実行される。図3はその処理手順と処理内容を示すフローチャートである。
すなわち、先ずステップS21において、上記音声フレームバッファ部52から入力音声データSk が1フレームずつ読み込まれる。そしてステップS22において、上記読み込まれた音声フレームデータから音声パラメータPinput を抽出する計算が行われる。なお、ここでも前記エントリ用分析部32と同様に、音声パラメータPinput として、基本周波数F0、スペクトル特性及び音量レベルが抽出される。そして、この抽出された3種類の音声パラメータPi (3種類なのでi=1,2,3)についてそれぞれフレーム内平均値が算出される。なお、音声パラメータPinput としては、基本周波数F0、スペクトル特性及び音量レベルのうちのいずれか1つ又は2つを選択的に抽出するようにしてもよい。
また、ステップS22において予測部43では、上記マスキング用分析部42から上記算出された現フレームの音声パラメータPinput のフレーム内平均値を受け取り、この現フレームの音声パラメータPinput のフレーム内平均値と、上記特徴量バッファ部53に記憶されている過去の一定数分のフレームの音声パラメータのフレーム内平均値とをもとに、数フレーム先の音声パラメータP^inputのフレーム内平均値が予測される。
次にステップS23において、比較部44の制御の下、上記マスキング用分析部42で算出された現フレームの音声パラメータPinput のフレーム内平均値、または上記予測部43により予測された音声パラメータP^input のフレーム内平均値が、データベース51に格納されている各エントリデータの音声パラメータPi,m のフレーム内平均値と順次比較される。
そして、音声パラメータが例えば基本周波数F0の場合或いは音量レベルの場合には、データベース51に格納されている各エントリデータの中で、上記現フレームの音声パラメータPinput のフレーム内平均値、又は上記予測された音声パラメータP^input のフレーム内平均値と最も類似する音声パラメータPk のフレーム内平均値が選択される。
一方、音声パラメータがスペクトル特性の場合には、データベース51に格納されている各エントリデータの中で、上記現フレームの音声パラメータPinput のフレーム内平均値、又は上記予測された音声パラメータP^input のフレーム内平均値に対し値が適度に離れている音声パラメータPk のフレーム内平均値が選択される。
一方、音声パラメータがスペクトル特性の場合には、データベース51に格納されている各エントリデータの中で、上記現フレームの音声パラメータPinput のフレーム内平均値、又は上記予測された音声パラメータP^input のフレーム内平均値に対し値が適度に離れている音声パラメータPk のフレーム内平均値が選択される。
ところで、上記予測部43による予測処理は、例えば以下のように行われる。図6に予測部43を使用してサウンドマスキングを行うときの概念を示す。すなわち、マスキング用分析部42では、一定間隔(例えば20ms)で音声フレームの特徴量(例えば基本周波数及びフォルマント周波数)が分析され、特徴量バッファ部53に格納される。予測部43では、特徴量バッファ部53に格納された最新の一定数のサンプル(例えば5サンプル)を用いて外挿予測が行われ、この処理により得られた特徴量が、未来のマスキング対象音に対するマスキング用音データの選択に使用される。具体的には、音声入力処理部41から音声出力処理部46までの各処理により発生する処理遅延の合計に相当する時間経過後に入力されるマスキング対象音のマスキングのために用いられる。
比較部44では、上記予測処理により得られた未来のマスキング対象音に対しマスキングが最適に行われるようにするためのマスキング用音データが選択される。例えば、予測された音声パラメータが基本周波数であった場合、一般にマスキング対象の音声とマスキング音との間で基本周波数は近接していた方が好ましい。そこで、比較部44では、予測部43により予測された未来のマスキング対象音声の基本周波数に近い値を持ったパラメータ値が選択される。
続いてステップS24において、調整部45の制御の下で、上記選択された音声パラメータPk のフレーム内平均値に対応する音声フレームデータSk がデータベース51から読み出される。そして、この読み出された音声フレームデータSk が、その音声パラメータPk のフレーム内平均値が上記現フレームの音声パラメータPinput のフレーム内平均値、または上記予測された音声パラメータP^input のフレーム内平均値と一致するように調整される。
最後にステップS25において、音声出力処理部46の制御の下、上記調整部45により調整された音声フレームデータSk が時系列に従い接続されて連続するディジタル音声信号が生成され、音声出力I/F6へ出力される。このディジタル音声信号は、音声出力I/F6によりアナログ音声信号に変換され、スピーカ7からマスキング音として拡声出力される。
かくして、マスキング対象のユーザの音声は上記スピーカ7から出力されるマスキング音によりマスキングされ、ユーザの音声のスピーチプライバシは保護される。
かくして、マスキング対象のユーザの音声は上記スピーカ7から出力されるマスキング音によりマスキングされ、ユーザの音声のスピーチプライバシは保護される。
図4に、マスキング対象(ターゲット)の音声とマスキング音との音圧レベル比(TMR;target-to-Masker Ratio)(dB)に対する単語了解度(%)の関係をロジスティック関数による回帰分析によって求めたものである。これによると、基本周波数F0をターゲットと類似させることで作成したマスキング音と、スペクトラム包絡をターゲットと類似させることで作成したSPECマスキング音と、基本周波数及びスペクトラム包絡の何れも考慮せずにデータベース51内のエントリデータを無作為に選択したRANDOMマスキング音とを比較すると、基本周波数F0を類似させたマスキング音を発生させたときの単語了解度が最も低くなり、マスキング効果が最も高いことが確認できた。
また図5には、TMRと単語了解度との関係をロジスティック関数による回帰分析によって求めたものである。これによると、基本周波数F0をターゲットと類似させることにより作成したマスキング音と、基本周波数F0及びスペクトラム包絡の両方を考慮して作成したF0_SPECマスキング音と、白色雑音の低域が強調されたマスキング音Pinkとを比較すると、Pinkのマスキング音に比べ基本周波数F0を類似させたマスキング音、またはF0_SPECマスキング音の方が単語了解度が低く抑えられ、マスキング効果が高いことが確認できた。
(効果)
以上詳述したようにこの発明の第1の実施形態では、データベース51にエントリデータを登録するための第1の制御ユニット3に、音声入力処理部31及び分析部32に加え変換部33を設けている。そしてこの変換部33において、分析部32により入力音声データの音声フレーム毎に算出された音声パラメータのフレーム内平均値を、複数段階に変化させ、この変化後の各パラメータ値に対応するように上記音声フレームデータを変換し、この変換された音声フレームデータと対応する音声パラメータ値との対をデータベース51に格納するようにしている。
以上詳述したようにこの発明の第1の実施形態では、データベース51にエントリデータを登録するための第1の制御ユニット3に、音声入力処理部31及び分析部32に加え変換部33を設けている。そしてこの変換部33において、分析部32により入力音声データの音声フレーム毎に算出された音声パラメータのフレーム内平均値を、複数段階に変化させ、この変化後の各パラメータ値に対応するように上記音声フレームデータを変換し、この変換された音声フレームデータと対応する音声パラメータ値との対をデータベース51に格納するようにしている。
したがって、データベース51には、任意ユーザの入力音声データをもとにその音声パラメータ値を段階的に変化させることによりそれぞれ作成された複数の変換音声データがエントリデータとして格納されることになる。このため、上記任意ユーザの声がマスキング対象として入力された場合でその音の高さ(ピッチ)等が変化した場合でも、また不特定多数のユーザの音声がマスキング対象として入力された場合でも、当該入力された音声データとの間で音声パラメータの関係条件を最も満足するエントリデータをデータベース51から発見できる確率が高くなり、これにより上記マスキング対象の音声を効果的にマスキングすることが可能となる。
また本実施形態では、マスキング音を生成する第2の制御ユニット4に、音声入力処理部41、マスキング用分析部42及び比較部44に加え、調整部45を設けている。そしてこの調整部45において、比較部44によりデータベース51から選択された音声フレームデータを、その音声パラメータ値が上記分析部42より抽出されたマスキング対象音声の音声パラメータ値と一致するように、または近付けるべく調整し、この調整後の音声データをマスキング音としてスピーカ7から拡声出力するようにしている。
したがって、マスキング対象音声と音声パラメータ値が所定の差の範囲内で一致するエントリデータをデータベース51から発見できなかった場合でも、当該エントリデータの音声データが、マスキング対象音声と音声パラメータ値ができる限り近づくように調整されるため、マスキング対象の音声をさらに効果的にマスキングすることが可能となる。また、このようにマスキング音を生成する第2の制御ユニット4に調整部45を設けたことにより、先に述べた変換部33における段階数を減らしてエントリデータ数を削減することができ、これによりデータベース51の記憶容量を削減すると共に、データベース51からエントリデータを選択する際のアクセス時間を短縮して、マスキング音の出力遅延を減少させることが可能となる。
さらに本実施形態では、マスキング音を生成する第2の制御ユニット4に予測部43を備え、この予測部43において、マスキング用分析部42により算出された現フレームの音声パラメータのフレーム内平均値と、特徴量バッファ部53に記憶されている過去のフレームの音声パラメータのフレーム内平均値とをもとに、数フレーム先の音声パラメータのフレーム内平均値を予測する。そして、上記マスキング用分析部42より算出された現フレームの音声パラメータのフレーム内平均値の代わりに、上記予測された数フレーム先の音声パラメータのフレーム内平均値を比較部44に供給することも可能にしている。
したがって、例えばマスキング音の遅延量をさらに少なくすることが要求される場合には、上記予測された数フレーム先の音声パラメータのフレーム内平均値を選択することで、マスキング音の遅延量を減少させて、マスキング効果をさらに向上させることが可能となる。
図7は、Wholeデータベースを用いて現フレームの音声パラメータPinput のフレーム内平均値をそのまま使用してマスキングを行った場合と、上記予測部43により予測された音声パラメータP^input のフレーム内平均値を用いてマスキングを行った場合とで、ターゲット音とマスキング音との比(TMR)に対する単語了解度を計測した結果の一例を示したものである。
同図から明らかなように、上記二つのマスキング音を比較した場合、それぞれのTMRにおける単語了解度に約20%の差が見られた。また、単語了解度が40%となるマスキング音の呈示レベルを比較した(単語了解度40%という値は、サウンドマスキングシステムのマスキング音を評価する際に頻繁に使用される)ところ、約3dBの差が見られた。この数値は,遅延を想定したマスキング音が遅延を伴わない理想的なマスキング音と同等の性能(同等の単語了解度)を持つために、マスキング音に約1.4倍の音量が必要なことを意味する。以上のことから、予測部43を使用することで、マスキング音作成処理に伴う遅延によるサウンドマスキングシステムの性能悪化を緩和することができる。
[第2の実施形態]
この発明の第2の実施形態は、データベースに男性話者音声データベースと女性話者音声データベースを設け、マスキング対象の音声に適合するマスキング用音データを上記データベースから読み出す際に、マスキング対象の音データから抽出した基本周波数に応じて上記各データベースを切り替えるようにしたものである。
この発明の第2の実施形態は、データベースに男性話者音声データベースと女性話者音声データベースを設け、マスキング対象の音声に適合するマスキング用音データを上記データベースから読み出す際に、マスキング対象の音データから抽出した基本周波数に応じて上記各データベースを切り替えるようにしたものである。
図8はこの発明の第2の実施形態に係るサウンドマスキング装置の要部構成を示すブロック図である。なお、同図において図1と同一部分には同一符号を付して詳しい説明は省略する。
図8に示すようにデータベース510には、男性話者音声データベース511と、女性話者音声データベース512が設けられている。男性話者音声データベース511には、基本周波数が平均的な男性話者の基本周波数範囲に含まれる標本音声に基づいて、第1の制御ユニット3により生成されたマスキング用の音データ群と、当該音データに対応するパラメータ値が、エントリデータとして記憶される。
女性話者音声データベース512には、同様に、基本周波数が平均的な女性話者の基本周波数範囲に含まれる標本音声に基づいて、第1の制御ユニット3により生成されたマスキング用の音データ群と、当該音データに対応するパラメータ値が、エントリデータとして記憶される。
なお、標本音声の音声パラメータの分析処理、マスキング用の音データ群の生成処理、及び変換部330による変換処理の各手順と内容については、第1の実施形態で述べたWholeデータベースの作成方法が適用される。なお、男性話者音声データベース511と、女性話者音声データベース512は、別々のデータベースにする必要はなく、1個のデータベースとして構成するようにしてもよい。また反対に、男女それぞれ複数のデータベースを用意してもよい。
一方、第2の制御ユニット4の比較部440は、マスキング用分析部42又は予測部43から与えられたパラメータのうち、マスキング対象の音データの基本周波数を予め設定した閾値と比較することにより、上記マスキング対象の音データが男性話者のものか或いは女性話者のものかを判定する。
そして、この判定の結果、上記マスキング対象の音データが男性話者であれば、上記男性話者音声データベース511を選択し、当該男性話者音声データベース511からエントリデータを順次読み出す。そして、パラメータが基本周波数であれば上記マスキング対象音のパラメータ値と最も近いものを選択する。また、パラメータがフォルマントであれば上記マスキング対象音のパラメータ値に対し最も遠いものを選択する。そして、この選択したパラメータ値を調整部450に通知する。
調整部450は、上記通知されたパラメータ値に関連付けられたマスキング用の音声フレームデータを上記男性話者音声データベース511から読み出し、この読み出された音声フレームデータを、その音声パラメータのフレーム内平均値が上記現フレームの音声パラメータのフレーム内平均値、または上記予測された音声パラメータのフレーム内平均値と一致するように調整し、音声出力処理部46へ出力する。
これに対し、マスキング対象の音データが女性話者と判定されたとする。この場合、上記女性話者音声データベース512を選択し、当該女性話者音声データベース512からエントリデータを順次読み出す。そして、先に述べた男性話者の場合と同様に、パラメータが基本周波数であれば上記マスキング対象音のパラメータ値と最も近いものを選択する。また、パラメータがフォルマントであれば上記マスキング対象音のパラメータ値に対し最も遠いものを選択する。そして、この選択したパラメータ値を調整部450に通知する。
調整部450は、上記通知されたパラメータ値に関連付けられたマスキング用の音声フレームデータを上記女性話者音声データベース512から読み出し、この読み出された音声フレームデータを、その音声パラメータのフレーム内平均値が上記現フレームの音声パラメータのフレーム内平均値、または上記予測された音声パラメータのフレーム内平均値と一致するように調整し、音声出力処理部46へ出力する。
このような構成であるから、マスキング対象話者が男性であっても、また女性であっても、それぞれの発話音声の音響特性によりマッチしたマスキング用音データを選択し、マスキングを行うことができる。
[第3の実施形態]
この発明の第3の実施形態は、データベースとして第1の制御ユニット3によりMiddleデータベースを作成し、この作成されたMiddleデータベースを用いてマスキング対象の音データに対しパラメータ値が最適なものを選択し、この選択されたパラメータに対応するマスキング用の音データを出力するようにしたものである。
この発明の第3の実施形態は、データベースとして第1の制御ユニット3によりMiddleデータベースを作成し、この作成されたMiddleデータベースを用いてマスキング対象の音データに対しパラメータ値が最適なものを選択し、この選択されたパラメータに対応するマスキング用の音データを出力するようにしたものである。
以下にMiddleデータベースの作成処理手順と処理内容を説明する。なお、この実施形態においても図1に示した構成を用いて説明を行う。
先ず音声入力処理部31は、標本音声として日本語の単音節音声(清音、濁音、半濁音、拗音)を複数個(例えば100種類)選択し、それぞれの単音節音声からそのフォルマント遷移部を中心に子音部の末尾部分と母音部の冒頭部分とを含む1フレーム長の音データを抽出する。この抽出された音声フレームを親エントリと呼ぶ。すなわち、親エントリは1音節につき1個生成される。続いてエントリ用分析部32が、上記単音節音声毎に、上記抽出された1フレーム長の音データの音響特性を分析して当該音響特性を表すパラメータ値、例えば基本周波数の平均値を算出する。
先ず音声入力処理部31は、標本音声として日本語の単音節音声(清音、濁音、半濁音、拗音)を複数個(例えば100種類)選択し、それぞれの単音節音声からそのフォルマント遷移部を中心に子音部の末尾部分と母音部の冒頭部分とを含む1フレーム長の音データを抽出する。この抽出された音声フレームを親エントリと呼ぶ。すなわち、親エントリは1音節につき1個生成される。続いてエントリ用分析部32が、上記単音節音声毎に、上記抽出された1フレーム長の音データの音響特性を分析して当該音響特性を表すパラメータ値、例えば基本周波数の平均値を算出する。
次に、変換部33が、上記親エントリのそれぞれに対し、所定の変換処理を行って新たな複数の音データを生成し、この新たに生成した複数の音データを子エントリとする。例えば、各親エントリのそれぞれについてそのフレームの平均基本周波数を、−50Hz、−48Hz、…、−2Hz、+2Hz、+4Hz、…、+100Hzのように変換することにより、複数の子エントリを生成する。そして、上記音節毎に上記親エントリと上記生成された複数の子エントリをデータベース51に記憶させる。なお、上記子エントリを生成するための変換処理は、基本周波数のピッチ変換に限らず、スペクトル変換等を用いてもよい。
一方、上記Middleデータベースを用いたマスキング用音データの選択処理は以下のように行われる。なお、この実施形態においても図1に示した構成を用いて説明を行う。
すなわち、先ず入力されたマスキング対象の音データ(ターゲット)をリアルタイムに先頭から100msec長ずつ音声入力処理部41に取り込み、これによりターゲットの入力音データを複数のフレームに分割する。次にエントリ用分析部42により、上記分割された各フレームに対して平均基本周波数を計算し、さらにFFT(First Fourier Transform)ケプストラムの低ケフレンシ部(1次〜30次の項)も合わせて計算する。
すなわち、先ず入力されたマスキング対象の音データ(ターゲット)をリアルタイムに先頭から100msec長ずつ音声入力処理部41に取り込み、これによりターゲットの入力音データを複数のフレームに分割する。次にエントリ用分析部42により、上記分割された各フレームに対して平均基本周波数を計算し、さらにFFT(First Fourier Transform)ケプストラムの低ケフレンシ部(1次〜30次の項)も合わせて計算する。
続いて比較部44により、上記計算されたターゲットの各フレームにおける平均基本周波数と、データベース51に記憶された全てのエントリにおける平均基本周波数との差を計算し、ターゲット内の注目するフレームにおける平均基本周波数が近接しているエントリ、例えば差が許容範囲±1Hz以内のものを候補としてすべて選択する。そして、この選択された候補の中から、ターゲットの当該フレームとのスペクトル距離(実際はケプストラム距離、つまりFFTケプストラムの低ケフレンシ部における各次元の差の和)が最も大きいエントリを、そのフレームに対するマスキング用音データとして選択する。
なお、このとき第2の実施形態で述べたように、男性話者音声データベース511と女性話者音声データベース512が別々に設けられている場合には、マスキング用音データを、男性話者音声のターゲットに対しては男性話者音声データベース511から、女性話者音声のターゲットに対しては女性話者音声データベース512からそれぞれ選択する。以後、フレーム毎に上記処理を繰り返す。
次に、調整部45により、上記処理を繰り返すことにより選択された各エントリを順次連結して信号Aを生成する。なお、上記選択されたエントリを順次連結する際に、ターゲットのレベルにマスキング音のレベルを追従させる。実際には、ターゲットの各フレームと対応するエントリの実効値が等しくなるようにレベルを調節する。
また、上記信号Aとは別に、上記ターゲットを1/2フレーム遅延させた時点から上記一連の処理を繰り返し行い、これにより信号Bを生成する。そして、この作成された信号Bと上記作成された信号Aとを加算し、この加算された信号A+Bをマスキング用の音データとする。このように信号Aに、位相を1/2フレーム遅延させた信号Bを足し合わせたことにより、マスキング音のレベルが下がる区間を減少させることができる。
図9は、上記Middleデータベースに記憶されたマスキング用音データを用いて単語了解度試験を行った結果を、Wholeデータベースに記憶されたマスキング用音データを用いて同様の試験を行った結果と対比して示したものである。同図から明らかなように、WholeとMiddleとの間には性能の差が見られなかった。
以上述べたように第3の実施形態によれば、単音節ごとにフォルマント遷移部を中心に子音部の末尾部分と母音部の冒頭部分とを含む領域のみについて、マスキング用音データのエントリデータ群を生成してMiddleデータベースを作成したことにより、単音節毎にその全領域を複数のフレームに分割し、これらのフレーム毎にマスキング用音データのエントリデータ群を生成してデータベースにエントリする場合に比べ、データベースへのエントリデータ量とエントリに必要な処理時間を大幅に減らすことができ、さらにデータベースからマスキング対象の音データに適したマスキング用音データを選択するために必要な時間を短縮して、マスキング処理の応答性を高めることができる。
[その他の実施形態]
前記実施形態では、データベースにエントリデータを登録する際に、変換部において任意の一人の音声をもとにその音声パラメータ値の異なる複数のマスキング用の音データを作成し登録するようにした。しかし、それに限らず複数の人の音声をもとにそれぞれパラメータ値の異なる複数のマスキング用の音データを作成し登録するようにしてもよく、それに加えて環境音や定常雑音等をもとにパラメータ値の異なる複数のマスキング用の音データを作成し登録するようにしてもよい。
前記実施形態では、データベースにエントリデータを登録する際に、変換部において任意の一人の音声をもとにその音声パラメータ値の異なる複数のマスキング用の音データを作成し登録するようにした。しかし、それに限らず複数の人の音声をもとにそれぞれパラメータ値の異なる複数のマスキング用の音データを作成し登録するようにしてもよく、それに加えて環境音や定常雑音等をもとにパラメータ値の異なる複数のマスキング用の音データを作成し登録するようにしてもよい。
また、前記実施形態では音声パラメータのフレーム内平均値を算出し、このフレーム内平均値を段階的に変化させてマスキング用の音データを作成したが、フレーム内平均値に限定されることなく、フレーム内のピーク値や中央値を段階的に変化させてマスキング用の音データを作成するようにしてもよい。
さらに、マスキング用の音データを作成する際に、時間反転処理を含むその他の処理を施したマスキング用の音データを作成するようにしてもよい。
さらに、マスキング用の音データを作成する際に、時間反転処理を含むその他の処理を施したマスキング用の音データを作成するようにしてもよい。
また、第1の制御ユニット、第2の制御ユニット及び記憶ユニットを1つの装置内に設けずに、それぞれ別の装置として独立して設けてもよい。また、第1の制御ユニットと記憶ユニットとを1つの装置とし第2の制御ユニットを別の装置として設けたり、第2の制御ユニットと記憶ユニットとを1つの装置とし第1の制御ユニットを別の装置として設けてもよい。何れも場合も、各装置間の接続は、通信回線や信号ケーブルを介して行われる。
さらに、記憶ユニットについてはクラウドコンピュータ上に設けるようにし、別々の場所に設けられた複数の第1及び第2の制御ユニットがインターネット等のネットワークを介して上記記憶ユニットにアクセスするようにしてもよい。このようにすると1台の記憶ユニットを複数の第1及び第2の制御ユニットにより共有することができる。
その他、サウンドマスキング装置の構成や、エントリデータの作成処理、オンラインにおけるマスキング音の選択・生成処理の手順及び処理内容、入力音声のフレーム長等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…マイクロホン、2…音声入力インタフェース(音声入力I/F)、3…第1の制御ユニット、4…第2の制御ユニット、5…記憶ユニット、6…音声出力インタフェース(音声出力I/F)、7…スピーカ、10…サウンドマスキング装置、31…音声入力処理部、32…エントリ用分析部、33,330…変換部、41…音声入力処理部、42…マスキング用分析部、43…予測部、44,440…比較部、45,450…調整部、46…音声出力処理部、51,510…データベース、52…音声フレームバッファ部、53…特徴量バッファ部、511…男性話者音声データベース、512…女性話者音声データベース。
Claims (13)
- 複数のマスキング用の音データがその音響特性を表す情報と共に格納されたデータベースとの間でデータ伝送が可能であり、マスキング対象の音データの音響特性との間で予め設定した関係条件を満たすマスキング用音データを前記データベースから選択して当該音データに対応する音を出力するサウンドマスキング装置であって、
前記マスキング用音データを生成して前記データベースに格納するための第1の制御ユニットを具備し、
前記第1の制御ユニットは、
標本音声の入力を受付け、この入力された標本音声を予め定めたフレーム長で複数のフレームに分割する第1の分割手段と、
前記分割されたフレーム毎に当該音データの音響特性を分析して当該音響特性を表すパラメータ値を計算する第1の分析手段と、
前記第1の分析手段により計算されたパラメータ値を予め設定した間隔で段階的に変化させて異なる複数の新たなパラメータ値を算出し、前記フレームの音データを、そのパラメータ値が前記算出された複数の新たなパラメータ値となるように変換する変換手段と、
前記変換手段により変換された複数の音データを前記マスキング用音データとして、当該音データと対応するパラメータ値と関連付けて前記データベースに格納する記憶制御手段と
を具備するサウンドマスキング装置。 - 前記データベースからマスキング用音データを選択して当該音データに対応する音を出力する第2の制御ユニットを、さらに具備し、
前記第2の制御ユニットは、
マスキング対象の音データの入力を受付け、この入力された音データを前記フレーム長で複数のフレームに分割する第2の分割手段と、
前記分割されたフレーム毎に当該マスキング対象の音データの音響特性を分析して当該音響特性を表すパラメータ値を計算する第2の分析手段と、
前記第2の分析手段により計算されたマスキング対象の音データのパラメータ値を前記データベースに格納されている複数のパラメータ値と比較し、前記計算されたマスキング対象の音データとの間でパラメータ値が予め設定した関係条件を満たすマスキング用音データを選択する比較手段と、
前記選択されたマスキング用音データを、その対応するパラメータ値と前記計算されたマスキング対象の音データのパラメータ値との関係が前記関係条件の中の最良の条件を満たすように調整する調整手段と、
前記調整手段により調整されたマスキング用音データに対応する音をスピーカから出力させる手段と
を備えることを特徴とする請求項1記載のサウンドマスキング装置。 - 前記第2の制御ユニットは、
前記第2の分析手段により計算されたマスキング対象の音データのパラメータ値をバッファに保存させる手段と、
前記第2の分析手段により計算された現フレームにおけるマスキング対象音データのパラメータ値と、前記バッファに保存されている過去のフレームにおけるマスキング対象音データのパラメータ値をもとに、後続フレームにおけるパラメータ値を予測し、この予測されたパラメータ値を、前記第2の分析手段により計算された現フレームにおけるマスキング対象音データのパラメータ値に代えて前記比較手段に与える予測手段と
を、さらに具備することを特徴とする請求項2記載のサウンドマスキング装置。 - 前記第1の分割手段は、標本音声として日本語の単音節音声を複数個選択し、それぞれの単音節音声からそのフォルマント遷移部を中心に子音部の末尾部分と母音部の冒頭部分とを含む1フレーム長の音データを抽出し、
前記第1の分析手段は、
前記単音節音声毎に、前記抽出された1フレーム長の音データの音響特性を分析して当該音響特性を表すパラメータ値を算出する手段と、
前記算出されたパラメータ値をもとに、当該パラメータ値と関連する複数の新たなパラメータ値を算出する手段と
を備え、
前記変換手段は、前記単音節音声毎に抽出された1フレーム長の音データを、そのパラメータ値が前記算出された複数の新たなパラメータ値となるようにそれぞれ変換し、
前記記憶制御手段は、前記単音節音声毎に抽出された1フレーム長の音データを親エントリとし、かつ前記変換された複数の音データを子エントリとして、これらの音データを前記マスキング用音データとして、当該音データと対応する各パラメータ値と関連付けて前記データベースに格納する
ことを特徴とする請求項1記載のサウンドマスキング装置。 - 前記第1の制御ユニットは、
基本周波数が第1の周波数帯域に含まれる標本音声に基づいて第1のマスキング用音データを生成して、当該第1のマスキング用音データを当該音データと対応するパラメータ値に関連付けて前記データベースに格納する処理機能と、
基本周波数が前記第1の周波数帯域とは異なる第2の周波数帯域に含まれる標本音声に基づいて第2のマスキング用音データを生成して、当該第2のマスキング用音データを当該音データと対応するパラメータ値に関連付けて前記データベースに格納する処理機能と
を備え、
前記第2の制御ユニットは、マスキング対象の音データが入力された場合に、当該入力された音データの音響特性を表すパラメータ値に含まれる基本周波数をもとに、前記データベースから前記第1及び第2のマスキング用音データの一方を選択的に読み出すことを特徴とする請求項2記載のサウンドマスキング装置。 - 前記第1又は第2の分析手段は、前記パラメータ値として音データの基本周波数を計算することを特徴とする請求項1乃至5のいずれかに記載のサウンドマスキング装置。
- 複数のマスキング用の音データがその音響特性を表す情報と共に格納されたデータベースとの間でデータ伝送が可能であり、マスキング対象の音データの音響特性との間で予め設定した関係条件を満たすマスキング用音データを前記データベースから選択して当該音データに対応する音を出力するサウンドマスキング装置であって、
マスキング対象の音データの入力を受付け、この入力された標本音声を前記フレーム長で複数のフレームに分割する手段と、
前記分割されたフレーム毎に当該マスキング対象の音データの音響特性を分析して当該音響特性を表すパラメータ値を計算する分析手段と、
前記分析手段により計算されたマスキング対象音データのパラメータ値を前記データベースに格納されている複数のパラメータ値と比較し、前記計算されたマスキング対象の音データとの間でパラメータ値が予め設定した関係条件を満たすマスキング用音データを選択する比較手段と、
前記選択されたマスキング用音データを、その対応するパラメータ値と前記計算されたマスキング対象の音データのパラメータ値との関係が前記関係条件の中の最良の条件を持たすように調整する調整手段と、
前記調整手段により調整されたマスキング用音データに対応する音をスピーカから出力させる手段と
を具備することを特徴とするサウンドマスキング装置。 - 前記分析手段により計算されたマスキング対象の音データのパラメータ値をバッファに保存させる手段と、
前記分析手段により計算された現フレームにおけるマスキング対象音データのパラメータ値と、前記バッファに保存されている過去のフレームにおけるマスキング対象音データのパラメータ値をもとに、後続フレームにおけるパラメータ値を予測し、この予測されたパラメータ値を、前記分析手段により計算された現フレームにおけるマスキング対象音データのパラメータ値に代えて前記比較手段に与える予測手段と
を、さらに具備することを特徴とする請求項7記載のサウンドマスキング装置。 - 複数のマスキング用の音データがその音響特性を表す情報と共に格納されたデータベースとの間でデータ伝送が可能であり、マスキング対象の音データの音響特性との間で予め設定した関係条件を満たすマスキング用音データを前記データベースから選択して当該音データに対応する音を出力するサウンドマスキング装置が実行するデータベース作成方法であって、
標本音声の入力を受付け、この入力された標本音声を予め定めたフレーム長で複数のフレームに分割する過程と、
前記分割されたフレーム毎に当該音データの音響特性を分析して当該音響特性を表すパラメータ値を計算する過程と、
前記計算されたパラメータ値を予め設定した間隔で段階的に変化させて異なる複数のパラメータ値を算出し、前記フレームの音データを、そのパラメータ値が前記算出された複数のパラメータ値となるように変換する過程と、
前記変換された複数の音データを前記マスキング用音データとして、当該音データと対応するパラメータ値と関連付けて前記データベースに格納する過程と
を具備するサウンドマスキング方法。 - マスキング対象の音データの入力を受付け、この入力された音データを前記フレーム長で複数のフレームに分割する過程と、
前記分割されたフレーム毎に当該マスキング対象の音データの音響特性を分析して当該音響特性を表すパラメータ値を計算する過程と、
前記計算されたマスキング対象音データのパラメータ値を前記データベースに格納されている複数のパラメータ値と比較処理し、前記計算されたマスキング対象の音データとの間でパラメータ値が予め設定した関係条件を満たすマスキング用音データを選択する過程と、
前記選択されたマスキング用音データを、その対応するパラメータ値と前記計算されたマスキング対象の音データのパラメータ値との関係が前記関係条件の中の最良の条件を満たすように調整する過程と、
前記調整されたマスキング用音データに対応する音をスピーカから出力させる過程と
を、さらに具備することを特徴とする請求項9記載のサウンドマスキング方法。 - 前記計算されたマスキング対象の音データのパラメータ値をバッファに保存させる過程と、
前記計算された現フレームにおけるマスキング対象音データのパラメータ値と、前記バッファに保存されている過去のフレームにおけるマスキング対象音データのパラメータ値をもとに、後続フレームにおけるパラメータ値を予測し、この予測されたパラメータ値を、前記計算された現フレームにおけるマスキング対象音データのパラメータ値に代えて前記比較処理に供する過程と
を、さらに具備することを特徴とする請求項10記載のサウンドマスキング方法。 - 複数のマスキング用の音データがその音響特性を表す情報と共に格納されたデータベースとの間でデータ伝送が可能であり、マスキング対象の音データの音響特性との間で予め設定した関係条件を満たすマスキング用音データを前記データベースから選択して当該音データに対応する音を出力するサウンドマスキング装置が実行するサウンドマスキング方法であって、
マスキング対象の音データの入力を受付け、この入力された音データを前記フレーム長で複数のフレームに分割する過程と、
前記分割されたフレーム毎に当該マスキング対象の音データの音響特性を分析して当該音響特性を表すパラメータ値を計算する過程と、
前記計算されたマスキング対象音データのパラメータ値を前記データベースに格納されている複数のパラメータ値と比較し、前記計算されたマスキング対象の音データとの間でパラメータ値が予め設定した関係条件を満たすマスキング用音データを選択する過程と、
前記選択されたマスキング用音データを、その対応するパラメータ値と前記計算されたマスキング対象の音データのパラメータ値との関係が前記関係条件の中の最良の条件を持たすように調整する過程と、
前記調整されたマスキング用音データに対応する音をスピーカから出力させる過程と
を具備することを特徴とするサウンドマスキング方法。 - 請求項1乃至8のいずれかに記載のサウンドマスキング装置が具備する各手段による処理を、当該サウンドマスキング装置が備えるコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014048187A JP6349112B2 (ja) | 2013-03-11 | 2014-03-11 | サウンドマスキング装置、方法及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013048473 | 2013-03-11 | ||
JP2013048473 | 2013-03-11 | ||
JP2014048187A JP6349112B2 (ja) | 2013-03-11 | 2014-03-11 | サウンドマスキング装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014199445A JP2014199445A (ja) | 2014-10-23 |
JP6349112B2 true JP6349112B2 (ja) | 2018-06-27 |
Family
ID=52356344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014048187A Active JP6349112B2 (ja) | 2013-03-11 | 2014-03-11 | サウンドマスキング装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6349112B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120821B2 (en) * | 2016-08-08 | 2021-09-14 | Plantronics, Inc. | Vowel sensing voice activity detector |
JP2020056907A (ja) * | 2018-10-02 | 2020-04-09 | 株式会社Tarvo | クラウド音声変換システム |
JP7283743B2 (ja) | 2019-05-23 | 2023-05-30 | インターマン株式会社 | マスキング機能を備えた携帯端末用ブース |
JP7450909B2 (ja) * | 2019-10-24 | 2024-03-18 | インターマン株式会社 | マスキング音発生方法 |
JP7532791B2 (ja) * | 2020-02-07 | 2024-08-14 | 沖電気工業株式会社 | 音響処理装置、音響処理プログラム及び音響処理方法 |
JP7552034B2 (ja) * | 2020-02-26 | 2024-09-18 | 沖電気工業株式会社 | 音響処理装置、音響処理プログラム及び音響処理方法 |
JP2021135361A (ja) * | 2020-02-26 | 2021-09-13 | 沖電気工業株式会社 | 音響処理装置、音響処理プログラム及び音響処理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3841596B2 (ja) * | 1999-09-08 | 2006-11-01 | パイオニア株式会社 | 音素データの生成方法及び音声合成装置 |
JP5103974B2 (ja) * | 2007-03-22 | 2012-12-19 | ヤマハ株式会社 | マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム |
-
2014
- 2014-03-11 JP JP2014048187A patent/JP6349112B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014199445A (ja) | 2014-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6349112B2 (ja) | サウンドマスキング装置、方法及びプログラム | |
JP5127754B2 (ja) | 信号処理装置 | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
JP5103974B2 (ja) | マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム | |
CN112420026B (zh) | 优化关键词检索系统 | |
EP2919229A1 (en) | Masking sound data generating device , method for generating masking sound data, and masking sound data generating system | |
US9129609B2 (en) | Speech speed conversion factor determining device, speech speed conversion device, program, and storage medium | |
US20210225383A1 (en) | Signal processing apparatus and method, training apparatus and method, and program | |
JP2010055000A (ja) | 信号帯域拡張装置 | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN105719640B (zh) | 声音合成装置及声音合成方法 | |
JP6599828B2 (ja) | 音処理方法、音処理装置、及びプログラム | |
JP5443547B2 (ja) | 信号処理装置 | |
JP4785563B2 (ja) | 音声処理装置および音声処理方法 | |
JP7276438B2 (ja) | 評価装置、訓練装置、それらの方法、およびプログラム | |
KR101593672B1 (ko) | 음향 분리 방법 및 장치 | |
JP5830364B2 (ja) | 韻律変換装置およびそのプログラム | |
JP5412204B2 (ja) | 適応的な話速変換装置及びプログラム | |
JP2007240654A (ja) | 体内伝導通常音声変換学習装置、体内伝導通常音声変換装置、携帯電話機、体内伝導通常音声変換学習方法、体内伝導通常音声変換方法 | |
JP2007033804A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
GB2516208A (en) | Noise reduction in voice communications | |
Goli et al. | Speech intelligibility improvement in noisy environments based on energy correlation in frequency bands | |
Wen et al. | Multi-Stage Progressive Audio Bandwidth Extension | |
KR102455709B1 (ko) | 인공지능 기반 합성음성의 평가 자동화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180604 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6349112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |