JP5991115B2 - 音声マスキングのための方法、装置およびプログラム - Google Patents

音声マスキングのための方法、装置およびプログラム Download PDF

Info

Publication number
JP5991115B2
JP5991115B2 JP2012210957A JP2012210957A JP5991115B2 JP 5991115 B2 JP5991115 B2 JP 5991115B2 JP 2012210957 A JP2012210957 A JP 2012210957A JP 2012210957 A JP2012210957 A JP 2012210957A JP 5991115 B2 JP5991115 B2 JP 5991115B2
Authority
JP
Japan
Prior art keywords
sound signal
sound
index value
masker
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012210957A
Other languages
English (en)
Other versions
JP2014066804A (ja
Inventor
訓史 鵜飼
訓史 鵜飼
高史 山川
高史 山川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012210957A priority Critical patent/JP5991115B2/ja
Priority to EP13840790.3A priority patent/EP2903002A4/en
Priority to CN201380050049.1A priority patent/CN104685560A/zh
Priority to PCT/JP2013/075806 priority patent/WO2014050842A1/ja
Publication of JP2014066804A publication Critical patent/JP2014066804A/ja
Priority to US14/668,918 priority patent/US20150199954A1/en
Application granted granted Critical
Publication of JP5991115B2 publication Critical patent/JP5991115B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • G10K11/1754Speech masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/43Jamming having variable characteristics characterized by the control of the jamming power, signal-to-noise ratio or geographic coverage area
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/94Jamming or countermeasure characterized by its function related to allowing or preventing testing or assessing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/42Jamming having variable characteristics characterized by the control of the jamming frequency or wavelength

Description

本発明は、話者により発声された音声の内容が、他人に漏れ聞こえることを防止するための音声マスキングの技術に関する。
公共の場で行われる会話の内容を他人に聞かれたくない場合がある。そのため、公共の場に音を放音することにより、他人が会話の内容を聞き取りにくくする音声マスキング(以下、単に「マスキング」と呼ぶ)と呼ばれる技術がある。本願においては、マスキングする音をマスカー音、マスカー音を表す信号をマスカー音信号、マスキングされる音をターゲット音、ターゲット音を表す信号をターゲット音信号、とそれぞれ呼ぶこととする。また、マスカー音信号の生成において素材として用いる音信号をソース音信号と呼ぶこととする。
例えば、ホワイトノイズのようにターゲット音との間に周波数特性の相関性が低い音をマスカー音として用いる場合は、ターゲット音との間に周波数特性の相関性が高い音をマスカー音として用いる場合と比較して、小さい音圧レベルで同等のマスキング効果が得られることが知られている。従って、人の音声をマスキングするために、人の音声を示す音信号を用いてマスカー音信号の生成を行う技術が提案されている。
例えば、特許文献1には、人の音声を表す音信号の配列順を変更してマスカー音信号を生成する過程において、マスカー音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行する技術が提案されている。特許文献1の技術によれば、ノーマライズ処理を施さないマスカー音よりも聴者にとって不自然なアクセントが感じ難いマスカー音が得られる。
特開2011−154140号公報
人の音声を表す音信号は、例えばホワイトノイズと比較し振幅の変化が大きい。従って、人の音声を表す音信号をソース音信号として用いて生成されたマスカー音信号に従いマスカー音が放音される場合、特段の対策が講じられなければ、マスカー音の音量レベルがターゲット音のマスキングに必要な音量レベルに達しない期間(以下、この期間を「隙間期間」と呼ぶ)が生じ得る。隙間期間においては会話の内容が他人に漏れ聞こえる可能性があるため、マスカー音には隙間期間が少ない方が望ましい。
隙間期間の少ないマスカー音を生成する方法として、人の音声を表すソース音信号を複数、加算する方法がある。複数のソース音信号が加算されたマスカー音信号においては、全てのソース音信号の隙間期間が偶然に同じタイミングで重ならない限り、隙間期間は生じにくい。従って、加算するソース音信号の数をある程度以上に増加させることで、実質的に隙間期間を持たないマスカー音信号を生成可能である。
複数のソース音信号を加算してマスカー音信号を生成する場合、加算するソース音信号の数を増やす程、マスカー音信号における隙間期間の発生確率が低下すると同時に、マスカー音信号の非定常性も低下する。マスカー音信号の非定常性が低下すると、マスカ−音から音声のような非定常性の大きいターゲット音を聞き取りやすくなるため、ターゲット音に対して同等のマスキング効果を得るために必要な音圧レベルが大きくなる。マスカー音の音圧レベルが大きいと聴者にとって耳障りとなるので、聴者の快適性の観点からは、マスカー音信号の生成において加算するソース音信号の数は少ない方が望ましい。
また、隙間期間の少ないマスカー音信号を生成する他の方法として、人の音声を表すソース音信号を音節の長さより短い時間長のセグメントに分割し、パワーが一定の範囲にあるセグメントを選択して、これら選択したセグメントの順序を入れ替えて連結することによりマスカー音信号を生成する方法がある。この場合、セグメントの長さを短くする程、マスカー音信号の所定時間内における平均的な音圧レベルが一定値以上となる確率が高まり、隙間期間の少ないマスカー音信号が得られる。
ソース音信号を音節の長さ以下の短時間のセグメントに分割し順序を入れ替えて連結して生成されたマスカー音信号が表す音は、通常の音声よりも短時間で次々と音節が変化する音と似た音となり、聴者には話速の速い音声のように聞こえ耳障りとなるので、聴者の快適性の観点からは望ましくない。
このような事情に鑑み、本発明は、従来技術による場合と比較して、聴者にとっての快適性を損なうことなく、隙間期間の発生確率が低いマスカー音の提供を目的とする。
上述した課題を解決するために本発明は、マスキングされる音に対応するモデル音信号を取得するモデル音信号取得手段と、前記モデル音信号の大きさの指標値を算出するモデル音指標値算出手段と、マスキングする音を表すマスカー音信号を生成するためのソース音信号を取得するソース音信号取得手段と、前記ソース音信号を所定の時間長の複数のフレームに分割し、当該複数のフレーム毎の音信号の大きさの指標値を算出するソース音指標値算出手段と、前記モデル音指標値算出手段が算出した指標値と前記ソース音指標値算出手段が算出した指標値とを用いて、前記ソース音信号の1以上のフレームが表す音がマスキングする性能の指標値を算出するマスキング性能算出手段と、前記マスキング性能算出手段が算出した指標値に基づき、前記ソース音信号の複数のフレームの中から複数のフレームを選択するフレーム選択手段と、前記フレーム選択手段が選択した複数のフレームを時間軸上で連結して、前記マスカー音信号を生成するフレーム連結手段とを備えるマスカー音信号の生成装置を提供する。
上記のマスカー音信号の生成装置において、前記モデル音指標値算出手段は、前記モデル音信号を所定の時間長の複数のフレームに分割し、当該複数のフレーム毎の音信号の大きさの指標値を算出し、当該算出した指標値のうち最大値を前記モデル音信号の大きさの指標値とする、という構成にしてもよい。
また、上記のマスカー音信号の生成装置において、前記モデル音指標値算出手段は、2以上の周波数帯域の各々に関し、前記モデル音信号の大きさの指標値を算出し、前記ソース音指標値算出手段は、前記2以上の周波数帯域の各々に関し、前記複数のフレーム毎の音信号の大きさの指標値を算出し、前記マスキング性能算出手段は、前記2以上の周波数帯域の各々に関し、前記モデル音指標値算出手段が算出した指標値と前記ソース音指標値算出手段が算出した指標値とを用いて、当該周波数帯域に関する前記性能の指標値を算出する、という構成にしてもよい。
また、上記のマスカー音信号の生成装置において、前記マスキング性能算出手段は、前記2以上の周波数帯域の各々に関し、所定の閾値を超えないように前記性能の指標値を算出する、という構成にしてもよい。
また、上記のマスカー音信号の生成装置において、前記ソース音信号の複数のフレームの中から選択された複数のフレームを加算し加算フレームを生成する加算手段を備え、
前記マスキング性能算出手段は、前記加算手段が生成する加算フレームが表す音がマスキングする性能を示す前記性能の指標値を算出する、という構成にしてもよい。
また、上記のマスカー音信号の生成装置において、前記ソース音信号の複数のフレームのうちの1以上のフレームの音量レベルを増減する増減手段を備え、前記マスキング性能算出手段は、前記増減手段により音量レベルの増減の行われたフレームが表す音がマスキングする性能を示す前記性能の指標値を算出する、という構成にしてもよい。
また、上記のマスカー音信号の生成装置において、前記フレーム連結手段が生成したマスカー音信号に従い放音を行う放音手段を備える、という構成にしてもよい。
また、本発明は、マスキングされる音に対応するモデル音信号を取得するステップと、前記モデル音信号の大きさの指標値を算出するステップと、マスキングする音を表すマスカー音信号を生成するためのソース音信号を取得するステップと、前記ソース音信号を所定の時間長の複数のフレームに分割し、当該複数のフレーム毎の音信号の大きさの指標値を算出するステップと、前記モデル音信号の大きさの指標値と、前記ソース音信号の前記複数のフレーム毎の音信号の大きさの指標値とを用いて、前記ソース音信号の1以上のフレームが表す音がマスキングする性能の指標値を算出するステップと、前記性能の指標値に基づき、前記ソース音信号の複数のフレームの中から複数のフレームを選択するステップと、前記選択した複数のフレームを時間軸上で連結して、前記マスカー音信号を生成するステップとを備えるマスカー音信号の生成方法を提供する。
また、本発明は、上記の生成方法により生成されたマスカー音信号に従い放音を行う放音手段を備えるマスカー音の放音装置を提供する。
また、本発明は、コンピュータに、マスキングされる音に対応するモデル音信号を取得する処理と、前記モデル音信号の大きさの指標値を算出する処理と、マスキングする音を表すマスカー音信号を生成するためのソース音信号を取得する処理と、前記ソース音信号を所定の時間長の複数のフレームに分割し、当該複数のフレーム毎の音信号の大きさの指標値を算出する処理と、前記モデル音信号の大きさの指標値と、前記ソース音信号の前記複数のフレーム毎の音信号の大きさの指標値とを用いて、前記ソース音信号の1以上のフレームが表す音がマスキングする性能の指標値を算出する処理と、前記性能の指標値に基づき、前記ソース音信号の複数のフレームの中から複数のフレームを選択する処理と、前記選択した複数のフレームを時間軸上で連結して、マスカー音信号を生成する処理とを実行させるマスカー音信号の生成のためのプログラムを提供する。
本発明によれば、ソース音信号を所定の時間長に分割した複数のフレームが時間軸上で連結されてマスカー音信号が生成される。その際、モデル音信号の大きさの指標値とソース音信号のフレームの大きさの指標値とを用いて、当該フレームが表す音がモデル音をマスキングする性能を示す指標値が算出され、当該性能の指標値に基づき決定されたフレームがマスカー音信号の生成に用いられる。その結果、従来技術による場合と比較して、マスキング性能の優れたマスカー音が提供される。
本発明の第1実施形態にかかるマスカー音放音装置が使用される状況を模式的に示した図である。 本発明の第1実施形態にかかるマスカー音放音装置のハードウェア構成を模式的に示した図である。 本発明の第1実施形態にかかるマスカー音放音装置の機能構成を模式的に示した図である。 本発明の第1実施形態にかかるマスカー音信号生成装置がマスカー音信号を生成する際の処理フローの概要を示す図である。 本発明の第1実施形態にかかるマスカー音信号生成装置の機能構成を模式的に示した図である。 本発明の第1実施形態にかかるマスカー音信号生成装置がモデル音指標値を算出する処理を示したフロー図である。 本発明の第1実施形態にかかるマスカー音信号生成装置がモデル音信号からフレームを生成する様子を示した図である。 本発明の第1実施形態にかかるマスカー音信号生成装置が生成するデータを模式的に示した図である。 本発明の第1実施形態にかかるマスカー音信号生成装置がソース音指標値を算出する処理を示したフロー図である。 本発明の第1実施形態にかかるマスカー音信号生成装置が採用ブロックを決定する処理を示したフロー図である。 本発明の第1実施形態にかかるマスカー音信号生成装置が算出する性能指標値の概念を模式的に示した図である。 本発明の第1実施形態にかかるマスカー音信号生成装置が採用ブロックを決定する処理を示したフロー図である。 本発明の第1実施形態にかかるマスカー音信号生成装置が算出する性能指標値の概念を模式的に示した図である。 本発明の第1実施形態にかかるマスカー音信号生成装置が採用ブロックを決定する処理を示したフロー図である。 本発明の第1実施形態にかかるマスカー音信号生成装置が採用ブロックを決定する処理を示したフロー図である。 本発明の第1実施形態にかかるマスカー音信号生成装置がマスカー音信号を生成を示したフロー図である。 本発明の第2実施形態にかかるマスカー音放音装置が使用される状況を模式的に示した図である。 本発明の第2実施形態にかかるマスカー音放音装置の機能構成を模式的に示した図である。 本発明の第2実施形態にかかるマスカー音放音装置がマスカー音信号の生成に際し集音信号のいずれの部分をモデル音信号およびソース音信号として用いるかを説明するための図である。 本発明の第3実施形態にかかるマスカー音信号生成装置が使用される状況を模式的に示した図である。 本発明の第3実施形態にかかるマスカー音信号生成装置の機能構成を模式的に示した図である。
[第1実施形態]
図1は、本発明の第1実施形態にかかるマスカー音放音装置11が使用される状況を模式的に示した図である。音空間SPは例えば医療機関のロビーであり、受付デスクDKを挟んで医療スタッフAと患者Bが会話している。音空間SPには患者Bと無関係な来院者Cがいる。医療スタッフAと患者Bとの間の会話には秘匿すべき個人情報が含まれる場合があるため、その会話の内容が来院者Cに漏れ聞こえることは望ましくない。そのような会話の漏れ聞こえを防止するために、音空間SP内にはマスカー音を放音するマスカー音放音装置11が配置されている。
図2は、マスカー音放音装置11のハードウェア構成を模式的に示した図である。マスカー音放音装置11は、各種制御処理を行うCPU101、CPU101に対する処理を指示するプログラムやマスカー音信号などを記憶するROM102、CPU101がワーキングエリアとして一時的に各種データを記憶するために用いるRAM103、デジタルデータとしてROM102に記憶されているマスカー音信号をアナログ信号に変換するD/Aコンバータ104、アナログ信号に変換されたマスカー音信号をスピーカ駆動レベルまで増幅するアンプ105、スピーカ駆動レベルまで増幅されたマスカー音信号に従いマスカー音を放音するスピーカ106を備えている。
図3は、マスカー音放音装置11の機能構成を模式的に示した図である。すなわち、図2に示したマスカー音放音装置11のハードウェア構成は、ROM102に記憶されたプログラムに従うCPU101の制御の下で動作する結果、図3に示す構成部を備える装置として機能する。具体的には、マスカー音放音装置11はその機能構成部として、マスカー音信号を記憶する記憶手段111と、記憶手段111に記憶されているマスカー音信号に従いマスカー音を放音する放音手段112を備えている。マスカー音放音装置11の記憶手段111に記憶されているマスカー音信号は、本実施形態にかかるマスカー音信号生成装置12によって生成される。
図4は、マスカー音放音装置11に記憶されているマスカー音信号をマスカー音信号生成装置12が生成する際の処理フローの概要を示す図である。まず、マスカー音信号生成装置12は、ターゲット音に対応する音であるモデル音を表すモデル音信号Mの大きさの指標値であるモデル音指標値を算出する(ステップS001)。モデル音は、マスカー音信号生成装置12がマスカー音信号を生成する際、生成するマスカー音信号が表すマスカー音がターゲット音をマスキングする性能を評価するために、ターゲット音とみなして用いる音である。
なお、モデル音を表すモデル音信号Mの具体的な内容は後述するが、本実施形態においては、属性の異なる複数の人が各々文章を読み上げた音を収音し予め記憶したものが、モデル音信号Mとして用いられる。一方、第2実施形態及び第3実施形態においては、マスカー音信号の生成時に音空間SPで実際に会話される音(ターゲット音)をリアルタイムに収音したものが、モデル音信号Mとして用いられる。
次に、マスカー音信号生成装置12は、4つの異なるソース音信号であるソース音信号S1〜S4の各々に関し、ソース音信号を所定の時間長(例えば、170ms)で分割して得られる複数のフレームの各々の大きさの指標値であるソース音指標値を算出する(ステップS002−1〜S002−4)。なお、ソース音信号S1〜S4の各々に関するソース音指標値の算出の処理であるステップS002−1〜S002−4はいずれも同じ処理であるので、これらを区別しない場合は単にステップS002という。また、ソース音信号S1〜S4の各々を区別しない場合は単にソース音信号Sという。
続いて、マスカー音信号生成装置12は、ソース音信号S1から連続する所定数(例えば、8個)のフレームを1つのブロックとして、先頭から1フレームずつずらしながら、マスカー音信号の生成に用いる候補のブロックとして順次複数取り出す(以下、このようにマスカー音信号の生成に用いる候補としてソース音信号Sから取り出されるブロックを「候補ブロック」という)。そして、順次複数取り出したこれらの候補ブロックの各々に関し、候補ブロックに含まれるフレームの各々に関し、ソース音指標値を算出する。次に、算出したソース音指標値とモデル音指標値とを用いて、後述する所定の算出式に従い性能指標値を算出する。ここで、性能指標値とは、候補ブロックを用いて生成される音信号が表す音が、モデル音(マスカー音信号の生成時にターゲット音とみなして用いられる音)をマスキングする性能の指標値であって、具体的には、音声の周波数帯域の全域に渡るモデル音とソース音のパワーの差の指標値である。従って、本実施形態における性能指標値は、その数値が小さい程、ソース音のパワーの特性がモデル音のパワーの特性に近似し、マスキングの性能が高いことを示す。マスカー音信号生成装置12は、この性能指標値が最小となる1つの候補ブロックをソース音信号S1からマスカー音信号の生成に採用するブロックとして決定する(以下、マスカー音信号の生成に採用するブロックとして決定されたブロックを「採用ブロック」という)(ステップS003)。
続いて、マスカー音信号生成装置12はソース音信号S1に関して行なったステップS003と同様の処理を、ソース音信号S2に関して行なう(ステップS004)。すなわち、ソース音信号S2から連続する8個のフレームを先頭から1フレームずつずらしながら候補ブロックとして順次複数取り出し、それらの候補ブロックの各々に関し、候補ブロックに含まれるフレームの各々のソース音指標値を算出する。次に、算出した候補ブロックに含まれるフレームの各々のソース音指標値と、ステップS003において決定したソース音信号S1からの採用ブロックに含まれるフレームの各々のソース音指標値と、モデル音指標値とを用いて、後述する所定の算出式に従い性能指標値を算出する。マスカー音信号生成装置12は、算出した性能指標値が最小となる1つの候補ブロックをソース音信号S2からの採用ブロックとして決定する。
続いて、マスカー音信号生成装置12はステップS003において決定したソース音信号S1からの採用ブロックと、ステップS004において決定したソース音信号S2からの採用ブロックを加算して加算ブロック(以下、「2ソースの加算ブロック」という)を生成し、この2ソースの加算ブロックに含まれるフレームの各々に関し大きさの指標値を算出する(ステップS005)。以下、加算ブロックに含まれるフレームの大きさの指標値もソース音指標値というものとする。
続いて、マスカー音信号生成装置12はソース音信号S2に関して行なったステップS004と同様の処理を、ソース音信号S3に関して行なう(ステップS006)。すなわち、ソース音信号S3から連続する8個のフレームを先頭から1フレームずつずらしながら候補ブロックとして順次複数取り出し、それらの候補ブロックの各々に関し、候補ブロックに含まれるフレームの各々のソース音指標値を算出する。次に、算出した候補ブロックに含まれるフレームの各々のソース音指標値と、ステップS005において生成した2ソースの加算ブロックに含まれるフレームの各々のソース音指標値と、モデル音指標値とを用いて、後述する所定の算出式に従い性能指標値を算出する。マスカー音信号生成装置12は算出した性能指標値が最小となる候補ブロックをソース音信号S3からの採用ブロックとして決定する。
続いて、マスカー音信号生成装置12はステップS005において生成した2ソースの加算ブロックと、ステップS006において決定したソース音信号S3からの採用ブロックを加算して新たな加算ブロック(以下、「3ソースの加算ブロック」という)を生成し、この3ソースの加算ブロックに含まれるフレームの各々のソース音指標値を算出する(ステップS007)。
続いて、マスカー音信号生成装置12はソース音信号S3に関し行なったステップS006と同様の処理を、ソース音信号S4に関し行なう(ステップS008)。すなわち、ソース音信号S4から連続する8個のフレームを先頭から1フレームずつずらしながら候補ブロックとして順次複数取り出し、それらの候補ブロックの各々に関し、候補ブロックに含まれるフレームの各々のソース音指標値を算出する。次に、算出した候補ブロックに含まれるフレームの各々のソース音指標値と、ステップS007において生成した3ソースの加算ブロックに含まれるフレームの各々のソース音指標値と、モデル音指標値とを用いて、後述する所定の算出式に従い性能指標値を算出する。マスカー音信号生成装置12は算出した性能指標値が最小となる候補ブロックをソース音信号S4からの採用ブロックとして決定する。
続いて、マスカー音信号生成装置12はステップS007において生成した3ソースの加算ブロックと、ステップS008において決定したソース音信号S4からの採用ブロックを加算して新たな加算ブロック(以下、「4ソースの加算ブロック」という)を生成する(ステップS009)。
続いて、マスカー音信号生成装置12は過去のステップS009において生成した4ソースの加算ブロックの数が所定数に達したか否かを判定する(ステップS010)。4ソースの加算ブロックの数が所定数(例えば、126個)に達していない場合(ステップS010;No)、マスカー音信号生成装置12は処理をステップS003に戻し、ステップS003以降の処理を繰り返す。
その際、マスカー音信号生成装置12は過去の一定期間内に採用ブロックとして決定したブロックに含まれるフレームを含む候補ブロックを、ステップS003、S004、S006、S008における採用ブロックの選択肢から除外する。従って、これらのステップにおいて、過去の一定期間内に採用ブロックとして決定された候補ブロックが再度重複して採用ブロックとして決定されることはない。
過去のステップS009において生成した4ソースの加算ブロックの数が所定数に達した場合(ステップS010;Yes)、マスカー音信号生成装置12はこれらの所定数の4ソースの加算ブロックの各々に対しリバース処理を施し、リバース処理を施した所定数の4ソースの加算ブロックを、時間軸方向に並べて連結する(ステップS011)。本実施形態におけるリバース処理とは、4ソースの加算ブロックに含まれる音信号を表すサンプルデータを時間軸方向に逆の順序で並び替える処理である。ステップS011の処理により生成される音信号が、マスカー音放音装置11において用いられるマスカー音信号である。
次に、マスカー音信号生成装置12の機能構成について説明する。図5は、マスカー音信号生成装置12の機能構成を模式的に示した図である。本実施形態において、マスカー音信号生成装置12は一般的なコンピュータが本実施形態にかかるプログラムに従った処理を実行することにより実現される。
マスカー音信号生成装置12は、モデル音信号Mおよびソース音信号Sを記憶する記憶手段120、モデル音信号Mおよびソース音信号Sを所定の時間長(例えば、170ms)で分割して複数のフレームを生成するフレーム生成手段121、各フレームが表す音のパワースペクトルを算出するパワースペクトル算出手段122、モデル音指標値を算出するモデル音指標値算出手段123、ソース音指標値を算出するソース音指標値算出手段124を備えている。なお、モデル音指標値算出手段123、フレーム生成手段121およびパワースペクトル算出手段122は、本願請求項のモデル音指標値算出手段を構成し、ソース音指標値算出手段124、フレーム生成手段121およびパワースペクトル算出手段122は、本願請求項のソース音指標値算出手段を構成する。
更に、マスカー音信号生成装置12は、モデル音指標値とソース音指標値とから性能指標値を算出するマスキング性能算出手段125、候補ブロックから採用ブロックを決定することでソース音信号の生成に用いるフレームを選択するフレーム選択手段126、ソース音信号S1〜S4の各々から決定された採用ブロックを加算して加算ブロックを生成する加算手段127、4ソースの加算ブロックの各々に対しリバース処理を施すリバース処理手段128、リバース処理が施された複数の4ソースの加算ブロックを時間軸方向に並べて連結するフレーム連結手段129を備えている。
以下にマスカー音信号生成装置12がマスカー音信号を生成する処理の詳細を説明する。
(モデル音指標値を算出する処理)
図6は、マスカー音信号生成装置12がモデル音指標値を算出する処理(図4のステップS001)の詳細を示したフロー図である。モデル音指標値の算出に際し、まずフレーム生成手段121が記憶手段120からモデル音信号Mを読み出す(ステップS101)。
本実施形態において、モデル音信号Mは、4つのソース音信号S1〜S4をソース音信号S1、S2、S3、S4の順序で時間軸方向に並べて、1つに連結したものが用いられる。ソース音信号S1〜S4は、例えば低音の声の人と高音の声の人、男性と女性、大人と子ども等のように各々属性の異なる人が、母音および子音を概ね均等に網羅する標準的な日本語の文章を読み上げた音声を示す音信号である。ソース音信号S1〜S4の長さは各々約1分である。従って、モデル音信号Mの長さは約4分である。なお、本実施形態においてはマスカー音信号生成装置12が生成するマスカー音信号が日本において用いられることを想定し、日本語の文章を読み上げた音声を示す音信号をソース音信号S1〜S4として用いるものとするが、マスカー音信号が用いられる場所の言語に応じて、日本語以外の言語の文章を読み上げた音声を示す音信号をソース音信号S1〜S4として用いてもよい。
なお、モデル音信号Mとして、ソース音信号S1〜S4を連結したものではなく、ソース音信号S1〜S4とは別途準備された音信号が用いられてもよい。その場合も、モデル音信号Mは各々属性の異なる人が母音および子音を概ね均等に網羅する標準的な日本語の文章を読み上げた音声を示す音信号であることが望ましい。
フレーム生成手段121は記憶手段120から読み出したモデル音信号Mを所定の時間長で分割して複数のフレームを生成する(ステップS102)。具体的には、図7に示すように、フレーム生成手段121はモデル音信号Mの先頭から順に170msの時間長の音信号を、隣接するフレームとの間に21msの重複する区間を設けながら切り出すことでフレームを生成する。以下、モデル音信号Mから切り出されたフレームをフレームFm(i)(ただし、iは先頭からのフレームの番号を示す自然数)とする。なお、フレーム生成手段121が生成するフレームの数は約1610個である。
続いて、パワースペクトル算出手段122は既知の方法に従いフレームFm(i)の各々のパワースペクトルを算出する(ステップS103)。図8は、ステップS103〜ステップS105の各ステップで処理されるデータを模式的に示した図である。図8(a)は、ステップS103においてパワースペクトル算出手段122が算出するパワースペクトルを示している。
続いて、モデル音指標値算出手段123はフレームFm(i)の各々に関し、パワースペクトルの周波数帯域毎の平均値を、指標値Xm(i,f)(ただし、fは周波数帯域を示す1〜19のいずれかの自然数)として算出する(ステップS104)。図8(b)はモデル音指標値算出手段123が算出する指標値Xm(i,f)を示している。本実施形態において、モデル音指標値算出手段123は、音声の周波数帯域(例えば100Hz〜6300Hz)を1/3オクターブバンド幅で分割して得られる19個の周波数帯域A(f)の各々に関し指標値Xm(i,f)を算出する。
続いて、モデル音指標値算出手段123は周波数帯域A(f)の各々に関し、全てのフレームFm(i)における指標値Xm(i,f)の最大値を、モデル音指標値P(f)として算出する(ステップS105)。すなわち、モデル音指標値P(f)は以下の式1で示される値である。
Figure 0005991115
モデル音指標値P(f)は、モデル音信号Mの周波数帯域A(f)のパワースペクトルのフレーム毎の平均値が、モデル音信号Mの時間軸方向の全区間においてそれを超えることがない、という値である。以上が、マスカー音信号生成装置12により行われるモデル音指標値を算出する処理の詳細である。
(ソース音指標値を算出する処理)
図9はマスカー音信号生成装置12がソース音指標値を算出する処理(図4のステップS002)の詳細を示したフロー図である。マスカー音信号生成装置12がソース音指標値を算出する処理は、マスカー音信号生成装置12がモデル音指標値を算出する際に行うステップS101〜S104の処理と類似の処理である。
ソース音指標値の算出に際し、フレーム生成手段121は記憶手段120からソース音信号Sを読み出し(ステップS201)、ソース音信号Sからフレームを生成する(ステップS202)。フレーム生成手段121がステップS202においてソース音信号Sのフレームを生成する方法はステップS102においてモデル音信号Mのフレームを生成する方法(図7参照)と同様である。なお、ソース音信号Sはモデル音信号Mの約1/4の時間長なので、フレーム生成手段121がソース音信号S1〜S4の各々から生成するフレームの数は約402個である。
以下、フレーム生成手段121がソース音信号Sから切り出すフレームをフレームFp(i)(ただし、pはソース音信号S1〜S4の各々に応じた番号を示す1〜4のいずれかの自然数、iは先頭からのフレームの番号を示す自然数)とする。
続いて、パワースペクトル算出手段122はフレームFp(i)の各々のパワースペクトルを算出する(ステップS203)。ソース音指標値算出手段124はフレームFp(i)の各々に関し、パワースペクトルの周波数帯域毎の平均値をソース音指標値Xp(i,f)として算出する(ステップS204)。以上が、マスカー音信号生成装置12により行われるソース音指標値を算出する処理の詳細である。
(ソース音信号S1からの採用ブロックを決定する処理)
図10はマスカー音信号生成装置12がソース音信号S1からの採用ブロックを決定する処理(図4のステップS003)の詳細を示したフロー図である。ソース音信号S1からの採用ブロックを決定するに際し、まずマスキング性能算出手段125は、ソース音信号S1の複数のフレーム(約402個)の中から、後述するステップS305において採用済みマークの付されていない連続するフレームをソース音信号S1の先頭から順に8個、候補ブロックB1(k)として選択する(ステップS301)。ただし、kは候補ブロックの先頭のフレームがソース音信号Sの先頭から何番目のフレームであるかを示す自然数であり、下付文字「1」はこの候補ブロックがソース音信号S1から選択されたフレームで形成されていることを示す。例えば、最初に実行されるステップS301において、マスキング性能算出手段125はソース音信号S1の第1〜第8のフレーム、すなわちF1(1)〜F1(8)を候補ブロックB1(1)として選択する。
続いて、マスキング性能算出手段125は、ステップS301で選択した候補ブロックB1(k)が表す音が、モデル音信号Mが表すモデル音をマスキングする性能の指標値である性能指標値c1(k)(ただし、下付文字「1」はこの性能指標値がソース音信号S1から形成された候補ブロックに関する性能指標値であることを示す)を、以下の式2に従い算出する(ステップS302)。
Figure 0005991115
ただし、jは候補ブロックB1(k)に含まれるフレームの候補ブロックB1(k)内における番号を示す1〜8の自然数であり、X1(k+j−1,f)は候補ブロックB1(k)に含まれるj番目のフレームのf番目の周波数帯域のソース音指標値である。図11は、性能指標値c1(k)の概念を模式的に示した図である。図11において、斜線の付された領域の面積の合計値が性能指標値c1(k)である。すなわち、性能指標値c1(k)はモデル音信号Mのモデル音指標値P(f)の対数換算値から、候補ブロックB1(k)に含まれる8個のフレームの各々のソース音指標値X1(k+j−1,f)の対数換算値を周波数帯域毎に差し引いた値を合計した値である。従って、性能指標値c1(k)は、モデル音のパワースペクトルとソース音(候補ブロック)のパワースペクトルとの差分の全周波数帯域に渡る累積値の大小を示す指標値である。
この性能指標値c1(k)が小さい程、周波数帯域A(1)〜A(19)の各々において、モデル音のパワースペクトルに対し、ソース音(候補ブロック)のパワースペクトルが近似することになる。すなわち、性能指標値c1(k)は、モデル音とソース音(候補ブロック)のパワースペクトルの周波数毎の分布における近似度を示す。従って、性能指標値c1(k)が小さい程、候補ブロックB1(k)に含まれる8個のフレームのソース音指標値X1(k+j−1,f)がモデル音信号Mのモデル音指標値P(f)を下回る程度が小さくなる確率が高まる。その結果、性能指標値c1(k)が小さい程、候補ブロックB1(k)が表す音がモデル音をマスキングするために要する音圧レベルが小さくて済み、候補ブロックB1(k)が表す音のマスカー音としての性能が高いことになる。
続いて、マスキング性能算出手段125は直近のステップS301において選択した候補ブロックB1(k)が、ソース音信号S1から選択可能な最後の候補ブロック、すなわちソース音信号S1において採用済みマークが付されていない末尾の8個の連続するフレームで形成された候補ブロックであるか否かの判定を行なう(ステップS303)。直近のステップS301において選択した候補ブロックB1(k)がソース音信号S1から選択可能な最後の候補ブロックではない場合(ステップS303;No)、マスキング性能算出手段125は処理をステップS301に戻し、直近のステップS301において選択した連続する8個のフレームよりソース音信号S1の末尾側に位置する採用済みマークの付されていないフレームの中から、最も先頭側の連続する8個のフレームを新たな候補ブロックB1(k)として選択する。例えば、2度目に実行されるステップS301において、マスキング性能算出手段125はソース音信号S1の第2〜第9のフレーム、すなわちF1(2)〜F1(9)を候補ブロックB1(2)として選択する。
続いて、マスキング性能算出手段125はステップS301において選択した新たな候補ブロックB1(k)に関し、ステップS302およびS303の処理を繰り返す。その後、マスキング性能算出手段125は、ステップS303の判定において、直近のステップS301において選択した候補ブロックがソース音信号S1から選択可能な最後の候補ブロックである、と判定するまでステップS301からS303の処理を繰り返す。その結果、採用済みマークの付されたフレームがない場合、約395個の候補ブロックB1(k)に関し、性能指標値c1(k)が算出されることになる。
マスキング性能算出手段125がステップS303の判定において、直近のステップS301において選択した候補ブロックB1(k)がソース音信号S1から選択可能な最後の候補ブロックである、と判定した場合(ステップS303;Yes)、フレーム選択手段126は算出済みの性能指標値c1(k)のうち最小値に対応する候補ブロックB1(k)を採用ブロックD1(h)として決定する(ステップS304)。ただし、hは採用ブロックが何番目に決定されたかを示す自然数であり、下付文字「1」はこの採用ブロックがソース音信号S1のフレームで形成されていることを示す。
続いて、フレーム選択手段126はソース音信号Sのフレームのうち、直近のステップS304において決定した採用ブロックD1(h)に含まれるフレームに採用済みマークを付すとともに、採用済みマークの付されたフレームの数が所定の閾値(例えば、約10秒分のフレーム数である59個)を超える場合、採用済みマークの付されたフレームの数がその閾値以下となるように、採用済みマークが付されたタイミングが古いフレームから順に、付されている採用済みマークを削除する(ステップS305)。ステップS305において採用済みマークが付されたフレームは、それ以降のステップS301の処理において候補ブロックB1(k)の形成のために選択されるフレームから除外される。
このように、所定期間(例えば、約10秒間)、採用済みマークの付されたフレームは候補ブロックB1(k)の形成に利用されないため、所定期間内に同じ候補ブロックB1(k)が繰り返し採用ブロックD1(h)として決定されることはない。従って、以下に引き続き説明する一連の処理により生成されるマスカー音信号は、所定期間内に類似する波形を繰り返すマスカー音を表すものとはならない。仮にマスカー音信号が数秒程度の期間内に類似する波形を繰り返すと、マスカー音信号が表すマスカー音は単調な音となり、聴者がマスカー音に慣れてマスカー音とターゲット音とを判別できてしまう可能性が高まり望ましくないが、マスカー音信号生成装置12が生成するマスカー音信号はそのような不都合を生じない。なお、前記の所定期間を超える場合は、過去に採用ブロックD1(h)として決定された候補ブロックB1(k)が再度、採用ブロックD1(h)として決定され得る。従って、マスカー音信号生成装置12が生成するマスカー音信号は類似する波形を含み得るが、それらの互いに類似する波形は聴者がその音に慣れてしまう程は時間的に近くにないため、マスカー音の性能の低下をもたらすことはない。本実施形態においては、上記のようにマスカー音の性能の低下が生じない範囲で候補ブロックの再利用を許可することにより、マスカー音信号の生成に要するソース音信号Sのデータサイズを小さく抑えている。以上が、マスカー音信号生成装置12が行う、ソース音信号S1からの採用ブロックを決定する処理の詳細である。
(ソース音信号S2からの採用ブロックを決定する処理)
図12はマスカー音信号生成装置12がソース音信号S2からの採用ブロックを決定する処理(図4のステップS004〜S005)の詳細を示したフロー図である。図12に示されるステップのうち前半のステップS401〜S405は、ソース音信号S1からの採用ブロックD1(h)を決定する処理のステップS301〜S305と比較し、ソース音信号S1の代わりにソース音信号S2が用いられる点と性能指標値の算出式が異なっている点を除き同様である。
マスキング性能算出手段125がステップS402において性能指標値c2(k)を算出するために用いる算出式は以下の式3である。
Figure 0005991115
ただし、Y1(j,f)は、マスキング性能算出手段125が直近のステップS304において決定した採用ブロックD1(h)に含まれる8個のフレームの各々のソース音指標値であり、ソース音指標値算出手段124がソース音信号S1に関するステップS104(図6)において算出したものが用いられる。
図13は、性能指標値c2(k)の概念を模式的に示した図である。図13において、斜線の付された領域の面積の合計値が性能指標値c2(k)である。すなわち、性能指標値c2(k)はモデル音信号Mのモデル音指標値P(f)の対数換算値から、採用ブロックD1(h)に含まれる8個のフレームの各々のソース音指標値Y1(j,f)の対数換算値と候補ブロックB2(k)に含まれる8個のフレームの各々のソース音指標値X1(k+j−1,f)の合計値の対数換算値を、周波数帯域毎に差し引いた値を合計した値である。
この性能指標値c2(k)が小さい程、周波数帯域A(1)〜A(19)の各々において、採用ブロックD1(h)と候補ブロックB2(k)を加算して得られる2ソースの加算ブロックに含まれる8個のフレームのソース音指標値がモデル音信号Mのモデル音指標値P(f)を下回る程度が小さくなる確率が高まる。従って、性能指標値c2(k)が小さい程、2ソースの加算ブロックが表す音がモデル音をマスキングするために要する音圧レベルが小さくて済み、2ソースの加算ブロックが表す音のマスカー音としての性能が高いことになる。
フレーム選択手段126がステップS405において最小の性能指標値c2(k)に応じた候補ブロックB2(k)を採用ブロックD2(h)として決定すると、加算手段127は直近のステップ304においてフレーム選択手段126が決定した採用ブロックD1(h)と直近のステップS404においてフレーム選択手段126が決定した採用ブロックD2(h)を加算し、2ソースの加算ブロックE2(h)を生成する(ステップS406)。なお、「加算ブロックE2(h)」の下付文字「2」は、この加算ブロックが2ソースの加算ブロックであることを示す。
続いて、ソース音指標値算出手段124は加算ブロックE2(h)に含まれる8個のフレームの各々に関し、それらのフレームのソース音指標値Y2(j,f)を算出する(ステップS407)。なお、「ソース音指標値Y2(j,f)」の下付文字「2」は、このソース音指標値が2ソースの加算ブロックに含まれるフレームのソース音指標値であることを示す。ソース音指標値算出手段124がステップS407において行なう処理は、ソース音指標値Xp(i,f)を算出するステップS203〜S204(図9)において行う処理と同様である。以上が、マスカー音信号生成装置12が行う、ソース音信号S2からの採用ブロックを決定する処理の詳細である。
(ソース音信号S3からの採用ブロックを決定する処理)
図14はマスカー音信号生成装置12がソース音信号S3からの採用ブロックを決定する処理(図4のステップS006〜S007)の詳細を示したフロー図である。図14に示されるステップS501〜S507は、ソース音信号S2からの採用ブロックD2(h)を決定する処理のステップS401〜S407と比較し、ソース音信号S2の代わりにソース音信号S3が用いられる点と性能指標値の算出式が異なっている点を除き同様である。
マスキング性能算出手段125がステップS502において性能指標値c3(k)を算出するために用いる算出式は以下の式4である。
Figure 0005991115
性能指標値c3(k)はモデル音信号Mのモデル音指標値P(f)の対数換算値から、加算手段127が直近のステップS501で生成した2ソースの加算ブロックE2(h)に含まれる8個のフレームの各々のソース音指標値Y2(j,f)の対数換算値と候補ブロックB3(k)に含まれる8個のフレームの各々のソース音指標値X3(k+j−1,f)の合計値の対数換算値を、周波数帯域毎に差し引いた値を合計した値である。
この性能指標値c3(k)が小さい程、周波数帯域A(1)〜A(19)の各々において、2ソースの加算ブロックE2(h)と候補ブロックB3(k)を加算して得られる3ソースの加算ブロックに含まれる8個のフレームのソース音指標値がモデル音信号Mのモデル音指標値P(f)を下回る程度が小さくなる確率が高まる。従って、性能指標値c3(k)が小さい程、3ソースの加算ブロックが表す音がモデル音をマスキングするために要する音圧レベルが小さくて済み、3ソースの加算ブロックが表す音のマスカー音としての性能が高いことになる。以上が、マスカー音信号生成装置12が行う、ソース音信号S3からの採用ブロックを決定する処理の詳細である。
(ソース音信号S4からの採用ブロックを決定する処理)
図15はマスカー音信号生成装置12がソース音信号S4からの採用ブロックを決定する処理(図4のステップS008〜S010)の詳細を示したフロー図である。図15に示されるステップのうちステップS601〜S606は、ソース音信号S3からの採用ブロックD3(h)を決定する処理のステップS501〜S506と比較し、ソース音信号S3の代わりにソース音信号S4が用いられる点と性能指標値の算出式が異なっている点を除き同様である。なお、ソース音信号S3からの採用ブロックD3(h)を決定する処理のステップS507(3ソースの加算ブロックの性能指標値の算出)に対応する処理は不要であるため行われない。
マスキング性能算出手段125がステップS602において性能指標値c4(k)を算出するために用いる算出式は以下の式5である。
Figure 0005991115
性能指標値c4(k)はモデル音信号Mのモデル音指標値P(f)の対数換算値から、加算手段127が直近のステップS601で生成した3ソースの加算ブロックE3(h)に含まれる8個のフレームの各々のソース音指標値Y3(j,f)の対数換算値と候補ブロックB4(k)に含まれる8個のフレームの各々のソース音指標値X4(k+j−1,f)の合計値の対数換算値を、周波数帯域毎に差し引いた値を合計した値である。
この性能指標値c4(k)が小さい程、周波数帯域A(1)〜A(19)の各々において、3ソースの加算ブロックE3(h)と候補ブロックB4(k)を加算して得られる4ソースの加算ブロックに含まれる8個のフレームのソース音指標値がモデル音信号Mのモデル音指標値P(f)を下回る程度が小さくなる確率が高まる。従って、性能指標値c4(k)が小さい程、4ソースの加算ブロックが表す音がモデル音をマスキングするために要する音圧レベルが小さくて済み、4ソースの加算ブロックが表す音のマスカー音としての性能が高いことになる。
加算手段127は、ステップ606において4ソースの加算ブロックE4(h)を生成すると、過去に生成した4ソースの加算ブロックE4(h)の数が所定時間に相当する個数(例えば、約2分30秒分に相当する126個)に達したか否かの判定を行う(ステップS607)。4ソースの加算ブロックE4(h)の数が前記個数(126個)に達していない場合(ステップS607;No)、上述したステップS301〜S305、S401〜S407、S501〜、S601〜S607が繰り返される。以上が、マスカー音信号生成装置12が行う、ソース音信号S4からの採用ブロックを決定する処理の詳細である。
(マスカー音信号を生成する処理)
図16はマスカー音信号生成装置12がマスカー音信号を生成する処理(図4のステップS011)の詳細を示したフロー図である。加算手段127が生成した4ソースの加算ブロックE4(h)の数が所定数(126個)に達した場合(ステップS607;Yes)、リバース処理手段128はそれらの4ソースの加算ブロックE4(h)、すなわち加算ブロックE4(1)〜E4(126)の各々に対しリバース処理を施す(ステップS701)。
続いて、フレーム連結手段129は、リバース処理の施された加算ブロックE4(1)〜E4(126)を時間軸方向に並べ、隣接する加算ブロックE4(h)間に21msの重複する区間を設けて連結し、マスカー音信号を生成する(ステップS702)。フレーム連結手段129は、生成したマスカー音信号を記憶手段120に書き込む。以上が、マスカー音信号生成装置12により行われるマスカー音信号を生成する処理の詳細である。
上記のようにマスカー音信号生成装置12によって生成されるマスカー音信号は、周波数帯域A(1)〜A(19)のいずれの帯域でも、ターゲット音に対応するモデル音をマスキングする性能が高くなるように、前述の性能指標値に基づきソース音信号S1〜S4の各々から順次決定されたブロック、すなわち、そのパワーがモデル音のパワーを下回る程度が小さくなる確率が高いブロックを合成した音信号である。従って、マスカー音信号生成装置12によって生成されるマスカー音信号は、例えばソース音信号からランダムに決定されたブロックを合成した音信号と比べ、いずれの期間においても、また、いずれの周波数帯域においても、ターゲット音に対する隙間期間を生じる確率が低いマスカー音信号となる。
また、マスカー音信号生成装置12はマスカー音信号の生成においてソース音信号Sから8個の連続するフレームを1つのブロックとして選択して用いる。この1つのブロックの時間長は1213msであり、通常の話速の音声における平均的な音節の時間長よりも十分に長い。従って、マスカー音信号生成装置12によって生成されるマスカー音信号は、ソース音信号を、通常の話速の音節の時間長程度あるいはこれよりも短いセグメントに分割し、順序を入れ替えて連結して生成されたマスカー音信号が聴者にもたらすような、話速の速い音声のように聞こえる不快感をもたらさないマスカー音信号となる。
マスカー音信号生成装置12によって生成されたマスカー音信号は、既述のようにマスカー音放音装置11の記憶手段111(例えば、ROM102)に書き込まれ、放音手段112により記憶手段111から読み出されて、音空間SPに対するマスカー音の放音に用いられる。
[第2実施形態]
以下に本発明の第2実施形態にかかるマスカー音放音装置21を説明する。第2実施形態にかかるマスカー音放音装置21は、第1実施形態にかかるマスカー音信号生成装置12と多くの点で共通している。従って、以下にマスカー音放音装置21がマスカー音信号生成装置12と異なる点を中心に説明する。また、マスカー音放音装置21がマスカー音信号生成装置12と共通して備える構成部には第1実施形態の説明において用いた符号と同じ符号を用いる。
図17は、マスカー音放音装置21が使用される状況を模式的に示した図である。マスカー音放音装置21は音空間SPにマスカー音を放音し、例えば図17における人物Aおよび人物Bの間の会話をマスキングする。また、マスカー音放音装置21にはマスカー音が放音される音空間SP内に配置された収音装置であるマイク22が無線もしくは有線で接続されている。
図18は、マスカー音放音装置21の機能構成を模式的に示した図である。マスカー音放音装置21は、第1実施形態のマスカー音信号生成装置12と共通して備える機能構成部として、フレーム生成手段121、パワースペクトル算出手段122、モデル音指標値算出手段123、ソース音指標値算出手段124、マスキング性能算出手段125、フレーム選択手段126、加算手段127、リバース処理手段128、フレーム連結手段129を備えている。以下、上記のフレーム生成手段121〜フレーム連結手段129を総称してマスカー音信号生成手段210と呼ぶ。
また、マスカー音放音装置21は、マイク22により収音された音を表す収音信号をマイク22から受け取る収音信号取得手段211と、収音信号取得手段211がマイク22から受け取った収音信号を順次記憶し、またマスカー音信号生成手段210が生成するマスカー音信号を順次記憶する記憶手段212と、記憶手段212が記憶しているマスカー音信号に従いマスカー音を放音する放音手段213を備えている。
マスカー音信号生成手段210は、記憶手段212に記憶されている過去の所定時間(例えば、4分間)の収音信号をモデル音信号Mとして用いるとともに、ソース音信号Sとしても用いて、マスカー音信号を生成する。図19は、マスカー音信号生成手段210がマスカー音信号の生成に際し、いずれの期間に記憶された収音信号をモデル音信号Mおよびソース音信号Sとして用いるかを説明するための図である。図19の右方向は時間の経過を示し、期間T(n)〜T(n+9)(ただし、nは任意の自然数)は各々30秒単位の期間を示している。
マスカー音信号生成手段210は、期間T(n+8)(ただし、nは任意の自然数)において、記憶手段212が期間T(n)〜T(n+7)に記憶した収音信号をモデル音信号M、期間T(n)〜T(n+1)に記憶した収音信号をソース音信号S1、期間T(n+2)〜T(n+3)に記憶した収音信号をソース音信号S2、期間T(n+4)〜T(n+5)に記憶した収音信号をソース音信号S3、期間T(n+6)〜T(n+7)に記憶した収音信号をソース音信号S4、として各々用いて、マスカー音信号を生成する。以下、マスカー音信号生成手段210が期間T(n+8)に生成したマスカー音信号をマスカー信号Q(n)とする。記憶手段212は、マスカー音信号生成手段210が生成したマスカー音信号Q(n)を期間T(n+8)内に記憶する。放音手段213は、マスカー音信号Q(n)を記憶手段212から読み出し、期間T(n+9)において、読み出したマスカー音信号Q(n)が表す音をマスカー音として放音する。
このように、マスカー音放音装置21は、音空間SP内で現在から5分前までの期間内において、話者により行われた会話を示す4分間の収音信号をモデル音信号Mとして用いてマスカー音信号を生成する。従って、過去5分間程度の期間内に音空間SP内の話者が変化しなければ、ターゲット音とモデル音は同じ話者の音声となる。
ターゲット音とモデル音が同じ話者の音声である場合、ターゲット音とモデル音が異なる話者の音声である場合と比較して、ターゲット音とモデル音のパワーに関する特性の相関性が高い。従って、マスカー音放音装置21が生成するマスカー音信号は、ターゲット音と異なる話者の音声をモデル音として用いて生成されたマスカー音信号と比較して、同程度のマスキング効果を得るために要する音圧レベルが更に小さいマスカー音信号となる。
また、マスカー音放音装置21は、音空間SP内で現在から5分前までの期間内において、話者により行われた会話を示す4分間の収音信号をソース音信号Sとして用いてマスカー音信号を生成する。従って、過去5分間程度の期間内に音空間SP内の話者が変化しなければ、ターゲット音とソース音は同じ話者の音声となる。
ターゲット音とソース音が同じ話者の音声である場合、ターゲット音とソース音が異なる話者の音声である場合と比較し、ターゲット音とソース音のパワーに関する特性の相関性が高い。従って、マスカー音放音装置21が生成するマスカー音信号は、ターゲット音と異なる話者の音声をソース音として用いて生成されたマスカー音信号と比較して、同程度のマスキング効果を得るために要する音圧レベルが更に小さいマスカー音信号となる。
上述のように、マスカー音放音装置21が提供するマスカー音は、ターゲット音と同一の話者の音声を表す可能性の高い収音信号をモデル音信号およびソース音信号として用いて生成されるため、同程度のマスキング効果を得るために要する音圧レベルが更に小さいマスカー音である。また、マスカー音放音装置21により提供されるマスカー音は、第1実施形態のマスカー音信号生成装置12により生成されるマスカー音信号が表すマスカー音と同様に、全ての周波数帯域において隙間期間を生じる確率が低く、話速の速い音声のように聞こえる不快感をもたらさない。
[第3実施形態]
以下に本発明の第3実施形態にかかるマスカー音信号生成装置32を説明する。第3実施形態にかかるマスカー音信号生成装置32は第2実施形態にかかるマスカー音放音装置21と多くの点で共通している。従って、以下にマスカー音信号生成装置32がマスカー音放音装置21と異なる点を中心に説明する。また、マスカー音信号生成装置32がマスカー音放音装置21と共通して備える構成部には第2実施形態の説明において用いた符号と同じ符号を用いる。
図20は、マスカー音信号生成装置32が使用される状況を模式的に示した図である。マスカー音信号生成装置32にはマスカー音が放音される音空間SP内に配置された収音装置であるマイク22が無線もしくは有線で接続されている。また、マスカー音信号生成装置32には、音空間SPにマスカー音を放音する放音装置であるスピーカ31が無線もしくは有線で接続されている。
図21は、マスカー音信号生成装置32の機能構成を模式的に示した図である。マスカー音信号生成装置32は、第2実施形態のマスカー音放音装置21と共通して備える機能構成部として、フレーム生成手段121、パワースペクトル算出手段122、モデル音指標値算出手段123、ソース音指標値算出手段124、マスキング性能算出手段125、フレーム選択手段126、加算手段127、リバース処理手段128、フレーム連結手段129、収音信号取得手段211、記憶手段212を備えている。なお、第2実施形態の説明における場合と同様に、以下、上記のフレーム生成手段121〜フレーム連結手段129を総称してマスカー音信号生成手段210と呼ぶ。
また、マスカー音信号生成装置32は、第2実施形態のマスカー音放音装置21が備えている放音手段213を備えず、放音手段213の代わりに、マスカー音信号生成手段210により生成されたマスカー音信号をスピーカ31に対し出力するマスカー音信号出力手段321を備えている。
マスカー音信号生成装置32のマスカー音信号生成手段210はマイク22から入力される収音信号をモデル音信号Mおよびソース音信号Sとして用いてマスカー音信号を生成し、マスカー音信号出力手段321を介してスピーカ31に出力する。スピーカ31はマスカー音信号生成装置32から入力されるマスカー音信号に従いマスカー音を音空間SP内に放音する。
上記の構成のマスカー音信号生成装置32によっても、マスカー音放音装置21と同様に、全ての周波数帯域において隙間期間を生じる確率が低く、話速の速い音声のように聞こえる不快感をもたらさない上に、音圧レベルを従来技術と比べ大きくすることを要さず聴者の快適性を損ない難いマスカー音が提供される。
[変形例]
上述した実施形態は本発明の技術的思想の範囲内において様々に変形可能である。以下にこれらの変形の例を示す。
(1)上述した実施形態において採用されている具体的な数値は一例であって、様々に変更可能である。例えば、フレームの長さは170msに限られない。また、モデル音信号もしくはソース音信号からフレームを切り出す際や、4ソースの加算ブロックを連結する際において設ける重複区間は21msに限られず任意の時間長でよい。また、マスカー音信号の生成に際し加算するソース音信号の数は4つに限られない。さらに、ソース音信号から決定された採用ブロックを加算することなく時間軸方向に並べて連結してマスカー音信号を生成する構成としてもよい。また、周波数帯域の数は19個に限られない。さらに、周波数帯域の数は1個でもよい。また、周波数帯域のバンド幅は1/3オクターブバンド幅に限られない。また、候補ブロック、採用ブロックおよび加算ブロックを形成するフレームの数は8個に限られない。さらに、これらのブロックを形成するフレームは1個でもよい。すなわち、フレームをそのままブロックとして用いてもよい。また、モデル音信号の長さは4分間に限られない。また、ソース音信号の数は4個に限られず、また各々のソース音信号の長さは1分間に限られない。
(2)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32はマスカー音信号の生成において、同じ音信号をモデル音信号およびソース音信号の両方に用いる構成とした。これに代えて、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、モデル音信号に用いる音信号と異なる音信号をソース音信号として用いる構成としてもよい。
(3)上述した第2実施形態および第3実施形態において、マスカー音放音装置21もしくはマスカー音信号生成装置32はマスカー音信号の生成において、モデル音信号とソース音信号の両方に関し収音信号を用いる構成とした。これに代えて、マスカー音放音装置21もしくはマスカー音信号生成装置32が、モデル音信号に関しては収音信号を用い、ソース音信号に関しては予め記憶手段212に記憶している音信号(収音信号とは異なる音信号)を用いる構成としてもよい。また、マスカー音放音装置21もしくはマスカー音信号生成装置32が、ソース音信号に関しては収音信号を用い、モデル音信号に関しては予め記憶手段212に記憶している音信号(収音信号とは異なる音信号)を用いる構成としてもよい。
(4)上述した変形例(3)のうち、マスカー音放音装置21もしくはマスカー音信号生成装置32が、モデル音信号に関しては収音信号を用い、ソース音信号に関しては予め記憶手段212に記憶している音信号(収音信号とは異なる音信号)を用いる構成とする場合、これらの装置が、予め記憶手段212に記憶されている複数のソース音信号の中から収音信号のパワーに関する特性に基づき1以上のソース音信号を選択する手段を備え、当該手段により選択した1以上のソース音信号を用いてマスカー音信号を生成する構成としてもよい。
(5)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、ソース音信号のフレームから候補ブロックを形成する際、採用済みマークの付されたフレームが全く含まれないように連続した8個のフレームを選択する構成とした。これに代えて、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、所定の上限数以下であれば採用済みマークの付されたフレームを含むことを許容しつつ、連続した8個のフレームを選択する構成としてもよい。
(6)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、候補ブロックの形成において、ソース音信号から連続する8個のフレームを先頭から1フレームずつずらしながら候補ブロックとして順次取り出す構成とした。ソース音信号のフレームから候補ブロックを形成するフレームを選択する方法は、これに限られない。例えば、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、ソース音信号から連続する8個のフレームを先頭から2以上の所定数のフレームずつずらしながら候補ブロックとして順次取り出す構成としてもよい。また、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、ソース音信号のフレームの中からランダムに連続する8個のフレームを候補ブロックとして取り出す構成としてもよい。
(7)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、マスカー音信号の生成において4ソースの加算ブロックに対しリバース処理を施す構成としたが、リバース処理を行わない構成としてもよい。
(8)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、まずソース音信号S1からの採用ブロックを決定し、ソース音信号S1からの採用ブロックのソース音指標値を用いて算出される性能指標値に基づきソース音信号S2からの採用ブロックを決定し、2ソースの加算ブロックのソース音指標値を用いて算出される性能指標値に基づきソース音信号S3からの採用ブロックを決定し、3ソースの加算ブロックのソース音指標値を用いて算出される性能指標値に基づきソース音信号S4からの採用ブロックを決定する構成とした。マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が行う採用ブロックの決定の処理の内容と加算の処理の順序はこれに限られない。
例えば、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、ソース音信号S1〜S4の各々からランダムに、もしくは所定の規則に従い選択した4つのフレームを加算して4ソースの加算ブロックを多数生成し、これらの多数の4ソースの加算ブロックの各々に関し算出した性能指標値に基づき、マスカー音信号の生成に用いる4ソースの加算ブロックを決定する構成としてもよい。
また、計算の負荷が許容範囲内であれば、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、ソース音信号S1〜S4の各々から任意に取り出した候補ブロックの組み合わせの全てに関し、4ソースの加算ブロックの性能評価値を算出し、算出した性能評価値に従い、採用する加算ブロックを決定する構成としてもよい。
(9)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、マスカー音信号の生成において、まず4ソースの加算ブロックを複数生成し、生成した複数の4ソースの加算ブロックを連結する構成とした。マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が行う採用ブロックの加算処理と連結処理の順序はこれに限られない。例えば、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、ソース音信号S1〜S4の各々に関し決定した採用ブロックを、まずソース音信号毎に連結して4つの音信号を生成し、これらの4つの音信号を加算することにより、マスカー音信号を生成する構成としてもよい。
(10)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、モデル音指標値の算出に用いる指標値Xm(i,f)、ソース音指標値、性能指標値を、音声の周波数帯域(例えば100Hz〜6300Hz)を1/3オクターブバンド幅で分割して得られる19個の周波数帯域A(f)の各々に関し算出する構成とした。マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32がこれらの指標値を算出する周波数帯域の数は19に限られず、また周波数帯域のバンド幅は1/3オクターブバンド幅に限られない点は既に述べたとおりである。さらに、周波数帯域が複数である場合、それらのバンド幅が互いに異なってもよい。また、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、音声の周波数帯域のうち一部のみをカバーする1以上の周波数帯域の各々に関しモデル音指標値の算出に用いる指標値Xm(i,f)、ソース音指標値および性能指標値を算出する構成としてもよい。
(11)上述した第1実施形態においては、マスカー音信号生成装置12はマスカー音信号の生成に際し、4人の異なる人物の音声を各々表す4つのソース音信号の各々から取り出したフレームで形成されるブロックを加算する構成とした。マスカー音信号生成装置12がマスカー音信号の生成の際し加算するブロックを形成するフレームは各々異なる人物の音声を表す必要はない。すなわち、マスカー音信号生成装置12が加算するブロックのうち2以上のブロックが、同じ人物の音声を表すソース音信号から取り出されたフレームで形成されたブロックであってもよい。
(12)上述した第1実施形態においては、マスカー音信号生成装置12がマスカー音信号の生成に用いるソース音信号は、音声の高低および性別という2つの属性の組み合わせが異なる4つの音声信号であるものとした。マスカー音信号生成装置12がマスカー音信号の生成に用いる複数のソース音信号は、音声の高低および性別という属性に着目した異なる音声信号に限られず、例えば言語、年齢層、話速など、音声の高低および性別以外の属性に着目した異なる音声信号であってもよい。
(13)上述した第2実施形態および第3実施形態においては、マスカー音放音装置21もしくはマスカー音信号生成装置32はマスカー音信号の生成に際し、収音信号から取り出したフレームで形成されるブロックを加算するものとした。マスカー音放音装置21もしくはマスカー音信号生成装置32がマスカー音信号の生成の際し加算するブロックは、その全てが収音信号から取り出されたフレームで形成される必要はない。すなわち、マスカー音放音装置21もしくはマスカー音信号生成装置32が加算するブロックの一部が、予め記憶手段212に記憶されているソース音信号など、収音信号とは異なる音信号から取り出されたフレームで形成されたブロックであってもよい。
(14)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、ソース音信号として人の音声を表す音声信号を用いる。マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、ソース音信号として人の音声を表す音声信号に加え、せせらぎの音などの人の音声以外の音を表す音信号をソース音信号として用いる構成としてもよい。
(15)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、ソース音信号から取り出した候補ブロックの音量レベルを増減する増減手段を備え、同じ波形を示す異なる音量レベルの候補ブロックを生成する構成としてもよい。例えば、ソース音信号から取り出したフレームにより形成した候補ブロックをオリジナルの候補ブロックとする場合、増減手段がこのオリジナルの候補ブロックに対して音量レベルを例えば20%増加させた新たな候補ブロック、及び20%減少させた新たな候補ブロックを生成し、オリジナルの候補ブロックに加え、これらの音量レベルを増減させた候補ブロックを採用ブロックの選択肢として用いる構成としてもよい。
この変形例において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32が、オリジナルの候補ブロック、音量レベルを増減させた候補ブロックの各々に関する性能指標値を、上述した式2〜式4の各々に代えて、以下の式6〜式9に従い算出してもよい。
Figure 0005991115
Figure 0005991115
Figure 0005991115
Figure 0005991115
ただし、sは音量レベルの増減率を示す係数である。上記の式6〜式9に従った性能指標値の算出の際、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、同じ候補ブロックに関し、異なる係数sの値(例えば、「1.2」、「1.0」、「0.8」)を用いて、複数の性能指標値を算出する。例えば係数s=1.2として算出される性能指標値は、オリジナルの候補ブロックに対して音量レベルを20%増加させた候補ブロックの性能指標値であり、係数s=1.0として算出される性能指標値は、オリジナルの候補ブロックの性能指標値であり、係数s=0.8として算出される性能指標値は、オリジナルの候補ブロックに対して音量レベルを20%減少させた候補ブロックの性能指標値である。式6〜式9に従えば、オリジナルの候補ブロックに対し実際に音量レベルの増減を行うことなく、音量レベルの増減後の候補ブロックに関する性能指標値が算出される。マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、式6〜式9に従って算出した性能指標値のなかから最小値をとる性能指標値を特定すると、特定した性能指標値に応じたオリジナルの候補ブロックの音量レベルを、特定した性能指標値の算出に用いた係数sに従い増減手段により増減して、採用ブロックを生成する。従って、増減手段は採用ブロックの生成に際し必要に応じてオリジナルの候補ブロックの音量レベルを増減すればよく、全ての候補ブロックに関し音量レベルの増減を行う必要はない。
上記のように、オリジナルの候補ブロックの音量レベルを増減したものを新たな候補ブロックとして用いる場合、音量レベルの増減により得られる候補ブロックに関する性能指標値が算出される限り、その算出方法は限定されない。
また、増減手段が音量レベルを増減する対象の候補ブロックは、ソース音信号Sから取り出されたブロックに限られず、複数の候補ブロックが加算された加算ブロックであってもよい。また、加算手段127が増減手段と一体に設けられてもよい。すなわち、複数のブロックが加算される際に、加算対象のブロックの音量レベルが増減される構成としてもよい。また、上述した第1実施形態において、予めマスカー音信号生成装置12の記憶手段120に、同じ形状の波形を示し音量レベルが互いに異なる複数のソース音信号を記憶しておき、マスカー音信号の生成に用いる構成としてもよい。
(16)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は上述した式2〜式5に示した算出式に従い性能指標値を算出したが、これらの算出式はあくまで例示であり、他の算出式を用いてもよい。以下に、式2〜式6と代替され得る算出式の例を示す。
例えば、式3〜式5の代替として以下の式10〜式12が採用可能である。ただし、max(A,B)は、AとBの中の最大値を表す関数である。
Figure 0005991115
Figure 0005991115
Figure 0005991115
上記の式10〜式12は、各周波数帯域に関し、既に決定されている選択ブロックを加算して得られる加算ブロックのソース音指標値と候補ブロックのソース音指標値のうち大きい方を性能指標値の算出に反映させることにより、候補ブロックが加算ブロックの周波数特性を改善しない周波数帯域に関しては候補ブロックのソース音指標値を性能指標値に反映させないようにした算出式である。
また、式2〜式5の代替として以下の式13〜式16が採用可能である。
Figure 0005991115
Figure 0005991115
Figure 0005991115
Figure 0005991115
上記の式13〜式16は、対数変換したパワースペクトル(いわゆるdB値)に代えて、対数変換しないパワースペクトル(いわゆるエネルギー値)を用いて性能指標値を算出する算出式である。
また、式2〜式5の代替として以下の式17〜式20が採用可能である。ただし、min(A,B)は、AとBの中の最小値を表す関数である。
Figure 0005991115
Figure 0005991115
Figure 0005991115
Figure 0005991115
上記の式17〜式20は、各周波数帯域に関する候補ブロックのモデル音をマスキングする性能の指標値の算出において閾値(上記の式では20)を設け、この閾値を超えないように算出した各周波数帯域に関する指標値を合算することで性能指標値を算出するようにした算出式である。これらの算出式によれば、下記に説明するように、特定の周波数帯域における指標値が他の周波数帯域における指標値を相殺して、各周波数帯域の指標値の合算により算出される性能指標値が、候補ブロックのマスキング性能を正しく反映しない場合が生じ得るという不都合が回避される。
例えば、ソース音信号S1の候補ブロックから採用ブロックを決定する際、第1の候補ブロックのソース音指標値は、周波数帯域A(1)に関してモデル音指標値に対し−50dBのパワーを示し、周波数帯域A(2)に関してモデル音指標値に対し−5dBのパワーを示したとする。また、第2の候補ブロックのソース音指標値は、周波数帯域A(1)に関してモデル音指標値に対し−30dBのパワーを示し、周波数帯域A(2)に関してモデル音指標値に対し−10dBのパワーを示したとする。そして、周波数帯域A(3)〜A(19)に関しては、第1の候補ブロックと第2の候補ブロックのソース音指標値は各々同じパワーを示したとする。
この場合、周波数帯域A(1)に関しては、第1の候補ブロックも第2の候補ブロックもパワーが小さく、結果としてマスキング性能には差はほとんどない。一方、周波数帯域A(2)に関しては、第1の候補ブロックの方が第2の候補ブロックよりも、ソース音指標値がモデル音指標値を下回る程度が小さいので、第1の候補ブロックのマスキング性能が優れている。また、周波数帯域A(3)〜A(19)に関しては、第1の候補ブロックと第2の候補ブロックのソース音指標値に差はないので、これらの周波数帯域に関して、第1の候補ブロックと第2の候補ブロックの間にマスキング性能の差はない。従って、全周波数帯域に関するマスキング性能は、第1の候補ブロックが第2の候補ブロックより優れている。
しかしながら、式2に従う場合、第1の候補ブロックに関し算出される性能評価値の方が第2の候補ブロックに関し算出される性能評価値よりも大きくなり、マスキング性能が低いと評価されてしまう。なぜなら、周波数帯域A(1)に関する第1の候補ブロックのソース音指標値は第2の候補ブロックのソース音指標値に対し−30dBであり、周波数帯域A(2)に関する第1の候補ブロックのソース音指標値は第2の候補ブロックのソース音指標値に対し+5dBであり、マスキング性能の差がほとんどない周波数帯域A(1)における評価が、マスキング性能の差が大きい周波数帯域A(2)における評価を相殺してしまうためである。
以上の不都合を回避するために、式17〜式20を提示した。すなわち、例えば式17においては、第1の候補ブロックも第2の候補ブロックも、周波数帯域A(1)に関し、ソース音指標値の対数変換値がモデル音指標値の対数変換値よりも−20dBを下回り、それらの差が閾値の20dBより大きくなるため、差の値そのものではなく、閾値の20dB(一定値)が性能指標値に反映される。その結果、第1の候補ブロックの性能指標値が第2の候補ブロックの性能指標値よりも小さくなり、第1の候補ブロックの方が第2の候補ブロックよりも高いマスキング性能を示す、と正しく評価されることとなる。なぜなら、周波数帯域A(1)におけるマスキング性能に対する寄与はいずれの候補ブロックも同等であり、周波数帯域A(2)におけるマスキング性能に対する寄与は第1の候補ブロックの方が第2の候補ブロックよりも大きいと評価されるためである。
上記の変形例は、各周波数帯域に関する候補ブロックのモデル音をマスキングする性能の指標値の算出において、上限の閾値(上記の式では20)を設けた例であるが、これに代えて、もしくは加えて、下限の閾値を設ける構成としてもよい。以下の式21〜24は、上限と下限の両方の閾値を設けた場合に、式2〜式5の代替として採用可能な式の例である。ただし、min(A,B)は、AとBの中の最小値を表す関数であり、max(A,B)は、AとBの中の最大値を表す関数である。
Figure 0005991115
Figure 0005991115
Figure 0005991115
Figure 0005991115
式21〜24においては、上限の閾値(上記の式では20)に加え、下限の閾値(上記の式では−10)が設けられており、この下限の閾値を下方に超えないように(つまり、下回らないように)、各周波数帯域に関する候補ブロックのモデル音をマスキングする性能の指標値が算出され、それらが合計されて全周波数帯域に関する性能指標値が算出される。
例えば、3ソースの加算ブロックに対し加算するための採用ブロックを、ソース音信号S1の候補ブロックから採用ブロックを決定する際、3ソースの加算ブロックのソース音指標値と第1の候補ブロックのソース音指標値の合計値は、周波数帯域A(1)に関してモデル音指標値に対し15dBのパワーを示し、周波数帯域A(2)に関してモデル音指標値に対し5dBのパワーを示したとする。また、3ソースの加算ブロックのソース音指標値と第2の候補ブロックのソース音指標値の合計値は、周波数帯域A(1)に関してモデル音指標値に対し30dBのパワーを示し、周波数帯域A(2)に関してモデル音指標値に対し−5dBのパワーを示したとする。そして、周波数帯域A(3)〜A(19)に関しては、第1の候補ブロックと第2の候補ブロックのソース音指標値は各々同じパワーを示したとする。すなわち、3ソースの加算ブロックのソース音指標値と第1の候補ブロックのソース音指標値の合計値と、3ソースの加算ブロックのソース音指標値と第2の候補ブロックのソース音指標値の合計値とは、周波数帯域A(3)〜A(19)の各々に関して差がないものとする。
この場合、周波数帯域A(1)に関しては、3ソースの加算ブロックに第1の候補ブロックを加算したものも、3ソースの加算ブロックに第2の候補ブロックを加算したものも、モデル音のパワーを十分に上回っているとみなせるので、マスキング性能の差はほとんどない。一方、周波数帯域A(2)に関しては、3ソースの加算ブロックに第1の候補ブロックを加算したものの方が、3ソースの加算ブロックに第2の候補ブロックを加算したものよりも、マスキング性能が優れている。また、周波数帯域A(3)〜A(19)に関しては、第1の候補ブロックと第2の候補ブロックの間にマスキング性能の差はない。従って、第1の候補ブロックを採用ブロックとして決定すれば、第2の候補ブロックを採用ブロックとして決定するよりも、より優れたマスキング性能を示す4ソースの加算ブロックを生成することができる。
この場合、下限の閾値(上記の式では−10)が設けられなければ、マスキング性能の差がほとんどない周波数帯域A(1)における評価が、マスキング性能の差が大きい周波数帯域A(2)における評価を相殺してしまうため、第1の候補ブロックに関し算出される性能評価値の方が第2の候補ブロックに関し算出される性能評価値よりも大きくなり、マスキング性能が低いと評価されてしまう。下限の閾値を設けることで、このような不都合が回避される。
なお、上記の変形例においては、全ての周波数帯域において上限もしくは下限の閾値が同じ値としているが、これらの閾値を周波数帯域毎に異ならせてもよい。
(17)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32は、モデル音指標値およびソース音指標値の算出に際し、フレームの各周波数帯域のパワースペクトルの算術平均値をフレームが示す音信号のパワーに関する特性を示す指標値として算出する。マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32がフレームの各周波数帯域のパワーに関する特性を示す指標値はパワースペクトルの算術平均値に限られず、例えばパワースペクトルの相乗平均値やパワースペクトルの最大値など、他の値をフレームの各周波数帯域のパワーに関する特性を示す指標値として算出する構成としてもよい。
さらに、マスカー音信号生成装置12、マスカー音放音装置21もしくはマスカー音信号生成装置32がモデル音指標値およびソース音指標値の算出に用いる音信号の指標値は、音信号の大きさを示す指標値であれば、様々なものが採用され得る。例えば、モデル音信号又はソース音信号が示す音の強さを示す音圧(Pa)や音圧レベル(dB)、音響エネルギー(音響インテンシティ(W/m2))等や、モデル音信号又はソース音信号が示す音の大きさを示す周波数重み特性を付加した特性(例えば、A特性音圧レベル(dB))等が、モデル音指標値およびソース音指標値の算出に用いられてもよい。この場合、モデル音指標値およびソース音指標値は、音信号のパワーを示す指標値に限られず、広く音信号の大きさを示す指標値と位置付けられる。
(18)上述した第1実施形態において、マスカー音信号生成装置12は記憶手段120に予め記憶されているモデル音信号およびソース音信号を用いてマスカー音信号を生成する。マスカー音信号生成装置12がモデル音信号およびソース音信号を取得する方法はこれに限られず、例えばマスカー音信号生成装置12がインターネットなどのネットワークを介して外部の装置から音信号を受信する受信手段を備え、受信手段によりモデル音信号およびソース音信号の少なくとも一方を外部の装置から取得する構成としてもよい。
(19)上述した第1実施形態において、マスカー音信号生成装置12は、マスカー音放音装置11のROM102等に予め記憶され、マスカー音の放音に際し、ROM102等から読み出されて利用される構成とした。これに代えて、マスカー音信号生成装置12とマスカー音放音装置11とを互いにネットワーク等を介してデータ通信可能とし、マスカー音放音装置11がマスカー音を放音する際にマスカー音信号をマスカー音信号生成装置12から受信して放音に用いる構成としてもよい。
(20)上述した第1実施形態において、ソース音信号S1及びS2は男性のみの音声を示し、ソース音信号S3及びS4は女性のみの音声を示す等、ソース音信号S1〜S4の少なくとも1つは男性のみの音声を示し、ソース音信号S1〜S4の他の少なくとも1つは女性のみの音声を示す構成としてもよい。この場合、マスカー音信号生成装置12により生成されるマスカー音信号は、全ての時間区間に必ず男女の音声を含むものとなる。一般的に、男性の音声のみから生成されたマスカー音からは女性が発声したターゲット音が分離しやすく、女性の音声のみから生成されたマスカー音からは男性が発声したターゲット音が分離しやすい。本変形例にかかるマスカー音信号生成装置12により生成されるマスカー音信号は、全ての時間区間に必ず男女の音声を含むため、男性、女性のいずれが発声したターゲット音も分離し難いマスカー音信号となる。
(21)上述した第1実施形態において、ソース音信号S1〜S4の各々は、1人の話者の声を表す音信号であってもよいし、複数の話者の声を同時に表す音信号であってもよい。ソース音信号S1〜S4が複数の話者の声を同時に表す音信号である場合、当該音信号は、複数の話者が同じ空間内で同時に発した声を収音した音信号であってもよいし、複数の話者の各々が個別に発した声を収音した音信号を加算して生成された音信号であってもよい。
(22)上述した実施形態において、性能指標値の算出に際し、複数の周波数帯域の各々に関し算出されるモデル音指標値とソース音指標値との差は単純に合計される構成とした。これに代えて、複数の周波数帯域の各々に関し算出されるモデル音指標値とソース音指標値との差を所定のウェイトにより重み付けを行って合計することで、性能指標値を算出する構成としてもよい。周波数帯域によって音声の明瞭度への寄与が異なることが報告されているため、例えばこの変形例において、音声の明瞭度がより高く、マスキング性能により大きな影響を与える周波数帯域に対し、より大きなウェイトで重み付けを行うことが考えられる。その結果、算出される性能指標値がより正確にマスキング性能を示すものとなり、性能指標値に従い生成されるマスカー音信号のマスキング性能がより高いものとなる。
(23)上述した実施形態において、マスカー音信号生成装置12、マスカー音放音装置21およびマスカー音信号生成装置32は、一般的なコンピュータが本実施形態にかかるプログラムに従った処理を実行することにより実現されるものとしたが、これらの装置が、いわゆる専用機として実現されてもよい。
なお、上述した実施形態および変形例は適宜組み合わされてもよい。
11…マスカー音放音装置、12…マスカー音信号生成装置、21…マスカー音放音装置、22…マイク、31…スピーカ、32…マスカー音信号生成装置、101…CPU、102…ROM、103…RAM、104…D/Aコンバータ、105…アンプ、106…スピーカ、111…記憶手段、112…放音手段、120…記憶手段、121…フレーム生成手段、122…パワースペクトル算出手段、123…モデル音指標値算出手段、124…ソース音指標値算出手段、125…マスキング性能算出手段、126…フレーム選択手段、127…加算手段、128…リバース処理手段、129…フレーム連結手段、210…マスカー音信号生成手段、211…収音信号取得手段、212…記憶手段、213…放音手段、321…マスカー音信号出力手段

Claims (10)

  1. マスキングされる音に対応するモデル音信号を取得するモデル音信号取得手段と、
    前記モデル音信号の大きさの指標値を算出するモデル音指標値算出手段と、
    マスキングする音を表すマスカー音信号を生成するためのソース音信号を取得するソース音信号取得手段と、
    前記ソース音信号を所定の時間長の複数のフレームに分割し、当該複数のフレーム毎の音信号の大きさの指標値を算出するソース音指標値算出手段と、
    前記モデル音指標値算出手段が算出した指標値と前記ソース音指標値算出手段が算出した指標値とを用いて、前記ソース音信号の1以上のフレームが表す音がマスキングする性能の指標値を算出するマスキング性能算出手段と、
    前記マスキング性能算出手段が算出した指標値に基づき、前記ソース音信号の複数のフレームの中から複数のフレームを選択するフレーム選択手段と、
    前記フレーム選択手段が選択した複数のフレームを時間軸上で連結して、前記マスカー音信号を生成するフレーム連結手段と
    を備えるマスカー音信号の生成装置。
  2. 前記モデル音指標値算出手段は、前記モデル音信号を所定の時間長の複数のフレームに分割し、当該複数のフレーム毎の音信号の大きさの指標値を算出し、当該算出した指標値のうち最大値を前記モデル音信号の大きさの指標値とする
    請求項1に記載のマスカー音信号の生成装置。
  3. 前記モデル音指標値算出手段は、2以上の周波数帯域の各々に関し、前記モデル音信号の大きさの指標値を算出し、
    前記ソース音指標値算出手段は、前記2以上の周波数帯域の各々に関し、前記複数のフレーム毎の音信号の大きさの指標値を算出し、
    前記マスキング性能算出手段は、前記2以上の周波数帯域の各々に関し、前記モデル音指標値算出手段が算出した指標値と前記ソース音指標値算出手段が算出した指標値とを用いて、当該周波数帯域に関する前記性能の指標値を算出する
    請求項1または2に記載のマスカー音信号の生成装置。
  4. 前記マスキング性能算出手段は、前記2以上の周波数帯域の各々に関し、所定の閾値を超えないように前記性能の指標値を算出する
    請求項3に記載のマスカー音信号の生成装置。
  5. 前記ソース音信号の複数のフレームの中から選択された複数のフレームを加算し加算フレームを生成する加算手段を備え、
    前記マスキング性能算出手段は、前記加算手段が生成する加算フレームが表す音がマスキングする性能を示す前記性能の指標値を算出する
    請求項1乃至4のいずれか1項に記載のマスカー音信号の生成装置。
  6. 前記ソース音信号の複数のフレームのうちの1以上のフレームの音量レベルを増減する増減手段を備え、
    前記マスキング性能算出手段は、前記増減手段により音量レベルの増減の行われたフレームが表す音がマスキングする性能を示す前記性能の指標値を算出する
    請求項1乃至5のいずれか1項に記載のマスカー音信号の生成装置。
  7. 前記フレーム連結手段が生成したマスカー音信号に従い放音を行う放音手段を備える
    請求項1乃至6のいずれか1項に記載のマスカー音信号の生成装置。
  8. マスキングされる音に対応するモデル音信号を取得するステップと、
    前記モデル音信号の大きさの指標値を算出するステップと、
    マスキングする音を表すマスカー音信号を生成するためのソース音信号を取得するステップと、
    前記ソース音信号を所定の時間長の複数のフレームに分割し、当該複数のフレーム毎の音信号の大きさの指標値を算出するステップと、
    前記モデル音信号の大きさの指標値と、前記ソース音信号の前記複数のフレーム毎の音信号の大きさの指標値とを用いて、前記ソース音信号の1以上のフレームが表す音がマスキングする性能の指標値を算出するステップと、
    前記性能の指標値に基づき、前記ソース音信号の複数のフレームの中から複数のフレームを選択するステップと、
    前記選択した複数のフレームを時間軸上で連結して、前記マスカー音信号を生成するステップと
    を備えるマスカー音信号の生成方法。
  9. 請求項8に記載の生成方法により生成されたマスカー音信号に従い放音を行う放音手段を備えるマスカー音の放音装置。
  10. コンピュータに、
    マスキングされる音に対応するモデル音信号を取得する処理と、
    前記モデル音信号の大きさの指標値を算出する処理と、
    マスキングする音を表すマスカー音信号を生成するためのソース音信号を取得する処理と、
    前記ソース音信号を所定の時間長の複数のフレームに分割し、当該複数のフレーム毎の音信号の大きさの指標値を算出する処理と、
    前記モデル音信号の大きさの指標値と、前記ソース音信号の前記複数のフレーム毎の音信号の大きさの指標値とを用いて、前記ソース音信号の1以上のフレームが表す音がマスキングする性能の指標値を算出する処理と、
    前記性能の指標値に基づき、前記ソース音信号の複数のフレームの中から複数のフレームを選択する処理と、
    前記選択した複数のフレームを時間軸上で連結して、マスカー音信号を生成する処理と
    を実行させるマスカー音信号の生成のためのプログラム。
JP2012210957A 2012-09-25 2012-09-25 音声マスキングのための方法、装置およびプログラム Active JP5991115B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012210957A JP5991115B2 (ja) 2012-09-25 2012-09-25 音声マスキングのための方法、装置およびプログラム
EP13840790.3A EP2903002A4 (en) 2012-09-25 2013-09-25 METHOD, DEVICE AND PROGRAM FOR VOICE MASKING
CN201380050049.1A CN104685560A (zh) 2012-09-25 2013-09-25 用于声掩蔽的方法、设备和计算机程序
PCT/JP2013/075806 WO2014050842A1 (ja) 2012-09-25 2013-09-25 音声マスキングのための方法、装置およびプログラム
US14/668,918 US20150199954A1 (en) 2012-09-25 2015-03-25 Method, apparatus and storage medium for sound masking

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012210957A JP5991115B2 (ja) 2012-09-25 2012-09-25 音声マスキングのための方法、装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2014066804A JP2014066804A (ja) 2014-04-17
JP5991115B2 true JP5991115B2 (ja) 2016-09-14

Family

ID=50388239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012210957A Active JP5991115B2 (ja) 2012-09-25 2012-09-25 音声マスキングのための方法、装置およびプログラム

Country Status (5)

Country Link
US (1) US20150199954A1 (ja)
EP (1) EP2903002A4 (ja)
JP (1) JP5991115B2 (ja)
CN (1) CN104685560A (ja)
WO (1) WO2014050842A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361903B2 (en) * 2013-08-22 2016-06-07 Microsoft Technology Licensing, Llc Preserving privacy of a conversation from surrounding environment using a counter signal
JP6098654B2 (ja) * 2014-03-10 2017-03-22 ヤマハ株式会社 マスキング音データ生成装置およびプログラム
WO2016185668A1 (ja) * 2015-05-18 2016-11-24 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法
CN105185370B (zh) * 2015-08-10 2019-02-12 电子科技大学 一种声掩蔽门
US10460727B2 (en) * 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
JP6976804B2 (ja) * 2017-10-16 2021-12-08 株式会社日立製作所 音源分離方法および音源分離装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363227B2 (en) * 2005-01-10 2008-04-22 Herman Miller, Inc. Disruption of speech understanding by adding a privacy sound thereto
JP2006215206A (ja) * 2005-02-02 2006-08-17 Canon Inc 音声処理装置およびその制御方法
JP4734627B2 (ja) * 2005-03-22 2011-07-27 国立大学法人山口大学 スピーチプライバシー保護装置
JP4910765B2 (ja) * 2007-02-27 2012-04-04 ヤマハ株式会社 サウンドマスキングシステム及びマスキングサウンド生成装置
JP4245060B2 (ja) * 2007-03-22 2009-03-25 ヤマハ株式会社 サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
EP2221803A2 (en) * 2009-02-19 2010-08-25 Yamaha Corporation Masking sound generating apparatus, masking system, masking sound generating method, and program
JP5446927B2 (ja) * 2010-01-26 2014-03-19 ヤマハ株式会社 マスカ音生成装置およびプログラム
US8861742B2 (en) * 2010-01-26 2014-10-14 Yamaha Corporation Masker sound generation apparatus and program
JP5857418B2 (ja) * 2011-03-02 2016-02-10 大日本印刷株式会社 聴覚マスキングデータの作成方法および装置
JP6098654B2 (ja) * 2014-03-10 2017-03-22 ヤマハ株式会社 マスキング音データ生成装置およびプログラム

Also Published As

Publication number Publication date
EP2903002A4 (en) 2016-07-20
CN104685560A (zh) 2015-06-03
EP2903002A1 (en) 2015-08-05
WO2014050842A1 (ja) 2014-04-03
US20150199954A1 (en) 2015-07-16
JP2014066804A (ja) 2014-04-17

Similar Documents

Publication Publication Date Title
JP5991115B2 (ja) 音声マスキングのための方法、装置およびプログラム
ES2775799T3 (es) Método y aparato para la mejora multisensorial del habla en un dispositivo móvil
JP5740575B2 (ja) 音声処理装置および音声処理方法
JP4649546B2 (ja) 補聴器
JP6098654B2 (ja) マスキング音データ生成装置およびプログラム
WO2010073492A1 (ja) 補聴器
JPWO2011152056A1 (ja) 聴覚測定装置及びその方法
WO2009087968A1 (ja) 補聴処理装置、調整装置、補聴処理システム、補聴処理方法、プログラム、及び集積回路
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
JP2018050847A (ja) 認知機能評価装置、認知機能評価方法、およびプログラム
US20090326952A1 (en) Speech processing method, speech processing program, and speech processing device
KR101156648B1 (ko) 디지털 보청기의 신호처리 방법
JP6162254B2 (ja) 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
JP6349112B2 (ja) サウンドマスキング装置、方法及びプログラム
KR101850693B1 (ko) 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법
JP4785563B2 (ja) 音声処理装置および音声処理方法
CN112037759B (zh) 抗噪感知敏感度曲线建立及语音合成方法
JP6567479B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP6519102B2 (ja) 複数者間干渉音声雑音を回避した音声入力処理装置
US20120250917A1 (en) Method for improving the comprehensibility of speech with a hearing aid, together with a hearing aid
US11967334B2 (en) Method for operating a hearing device based on a speech signal, and hearing device
JP5277355B1 (ja) 信号処理装置及び補聴器並びに信号処理方法
WO2020149175A1 (ja) 情報処理装置、装着型機器、情報処理方法及び記憶媒体
KR100632236B1 (ko) 보청기의 증폭도 맞춤 방법
JP2014202777A (ja) マスカー音信号の生成装置、生成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160801

R151 Written notification of patent or utility model registration

Ref document number: 5991115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151