JP2014202777A - マスカー音信号の生成装置、生成方法およびプログラム - Google Patents

マスカー音信号の生成装置、生成方法およびプログラム Download PDF

Info

Publication number
JP2014202777A
JP2014202777A JP2013075882A JP2013075882A JP2014202777A JP 2014202777 A JP2014202777 A JP 2014202777A JP 2013075882 A JP2013075882 A JP 2013075882A JP 2013075882 A JP2013075882 A JP 2013075882A JP 2014202777 A JP2014202777 A JP 2014202777A
Authority
JP
Japan
Prior art keywords
sound signal
sound
masker
fine structure
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013075882A
Other languages
English (en)
Inventor
訓史 鵜飼
Norifumi Ukai
訓史 鵜飼
高史 山川
Takashi Yamakawa
高史 山川
利晃 石橋
Toshiaki Ishibashi
利晃 石橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013075882A priority Critical patent/JP2014202777A/ja
Publication of JP2014202777A publication Critical patent/JP2014202777A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

【課題】マスキング性能の高いマスカー音信号を生成する手段を提供する。【解決手段】微細構造データ記憶手段110は、特定の音声のスペクトル微細構造および位相スペクトルを示す微細構造・位相データセットを複数、予め記憶している。包絡データ生成手段112は、マイク12から順次取得されるターゲット音信号が表すターゲット音のスペクトル包絡を示す包絡データを順次生成する。ソース音信号生成部1143は、微細構造データ選択部1141により選択された微細構造・位相データセットと、包絡データ選択部1142により選択された包絡データとを用いて、ソース音信号を生成する。マスカー音信号生成部1144はソース音信号を用いてマスカー音信号を生成し、放音手段116はマスカー音信号に従いマスカー音の放音を行なう。【選択図】図3

Description

本発明は、話者により発声された音声の内容が、他人に漏れ聞こえることを防止するための音声マスキングの技術に関する。
公共の場で行われる会話の内容を他人に聞かれたくない場合がある。そのため、公共の場に音を放音することにより、他人が会話の内容を聞き取りにくくする音声マスキング(以下、単に「マスキング」と呼ぶ)と呼ばれる技術がある。本願においては、マスキングする音をマスカー音、マスカー音を表す信号をマスカー音信号、マスキングされる音をターゲット音、ターゲット音を表す信号をターゲット音信号、とそれぞれ呼ぶこととする。また、マスカー音信号の生成において素材として用いる音信号をソース音信号と呼ぶこととする。
例えば、ターゲット音との間に周波数特性の相関性が高い音をマスカー音として用いる場合は、ホワイトノイズのようにターゲット音との間に周波数特性の相関性が低い音をマスカー音として用いる場合と比較して、小さい音圧レベルで同等のマスキング効果が得られることが知られている。従って、人の音声をマスキングするために、人の音声を示す音信号を用いてマスカー音信号の生成を行う技術が提案されている。
例えば、特許文献1には、スペクトル包絡データベースに記憶された複数のスペクトル包絡に係るデータの中から選択したデータと、話者の音声信号から抽出したスペクトル微細構造とを合成してマスカー音のスペクトルを生成する装置が提案されている。
特開2007−233284号公報
上述した特許文献1において提案されているマスキングの技術においては、話者の音声(ターゲット音)から抽出したスペクトル微細構造に含まれる音高の変動が、マスカー音の音高の変動に反映されるため、マスカー音の音高の変動を聞き取ることで会話の内容が他人に推測されてしまう場合があった。また、特許文献1において用いられる話者の音声から抽出したスペクトル微細構造は、データ量が多いため、処理に多くの時間と多くのバッファメモリを要する。処理に多くの時間を要すると、話者の音声の特徴に適したマスカー音を動的に素早く生成することは難しい。また、処理に多くのバッファメモリを要すると、コスト高となる。
このような事情に鑑み、本発明は、上述した従来技術の不具合を持たないマスキング性能の高いマスカー音信号を生成する手段を提供することを目的とする。
上述した課題を解決するために本発明は、特定の音のスペクトルの微細構造を表す微細構造データを取得する微細構造データ取得手段と、マスキングされる音であるターゲット音を表すターゲット音信号を取得するターゲット音信号取得手段と、前記ターゲット音信号取得手段により取得されるターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成する包絡データ生成手段と、前記微細構造データ取得手段により取得される微
細構造データと前記包絡データ生成手段により生成される包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成するマスカー音信号生成手段とを備えるマスカー音信号の生成装置を提供する。
また、上記のマスカー音信号の生成装置において、前記マスカー音信号生成手段は、前記包絡データ生成手段により生成される母音の包絡データを用いて前記包絡データの生成を行なう構成としてもよい。
また、上記のマスカー音信号の生成装置において、前記マスカー音信号生成手段により生成されたマスカー音信号に従い放音を行う放音手段を備える構成としてもよい。
また、本発明は、特定の音のスペクトルの微細構造を表す微細構造データを取得するステップと、マスキングされる音であるターゲット音を表すターゲット音信号を取得するステップと、前記取得したターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成するステップと、前記取得した微細構造データと前記生成した包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成ステップとを備えるマスカー音信号の生成方法を提供する。
また、本発明は、コンピュータに、特定の音のスペクトルの微細構造を表す微細構造データを取得する処理と、マスキングされる音であるターゲット音を表すターゲット音信号を取得する処理と、前記取得したターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成する処理と、前記取得した微細構造データと前記生成した包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成する処理とを実行させるマスカー音信号の生成のためのプログラムを提供する。
本発明にかかるマスカー音信号の生成技術によれば、音信号のスペクトル包絡を示す包絡データと、音信号のスペクトル微細構造を示す微細構造データとを用いて、ソース音信号が生成される。その際、音高の情報を持たずデータ量が少ない包絡データに関してはターゲット音を表すターゲット音信号から生成されるものが用いられ、音高の情報を持ちデータ量が多い微細構造データに関しては例えば予め記憶されている特定の音声のものが用いられる。そのため、スペクトル微細構造に含まれる音高の変化がマスカー音に現れることはなく、マスカー音から会話の内容が推測される危険性が低い。また、話者の音声の特徴に対応するマスカー音の特徴が早く更新されることによってマスキング性能が向上するとともに、処理に要するバッファメモリも少なくて済む。
本発明の一実施形態にかかるマスカー音放音装置が使用される状況を模式的に示した図である。 本発明の一実施形態にかかるマスカー音放音装置のハードウェア構成を模式的に示した図である。 本発明の一実施形態にかかるマスカー音放音装置の機能構成を模式的に示した図である。 本発明の一実施形態にかかるマスカー音放音装置が記憶している微細構造データと位相データの生成手順を例示した図である。 本発明の一実施形態にかかるマスカー音放音装置の包絡データ生成手段が包絡データを生成する手順を例示した図である。 本発明の一実施形態にかかるマスカー音放音装置の包絡データ生成手段が生成する包絡データが示すスペクトル包絡の例を示した図である。 本発明の一実施形態にかかるマスカー音放音装置の微細構造データ選択手段が微細構造・位相データセットを選択する規則を説明するための図である。 本発明の一実施形態にかかるマスカー音放音装置のソース音信号生成部がソース音信号を生成する手順を例示した図である。 本発明の一実施形態にかかるマスカー音放音装置のマスカー音信号生成手段が生成するマスカー音信号の構成を示した図である。
[実施形態]
図1は、本発明の実施形態にかかるマスカー音放音装置11が使用される状況を模式的に示した図である。音空間SPは例えば医療機関のロビーであり、受付デスクDKを挟んで医療スタッフAと患者Bが会話している。音空間SPには患者Bと無関係な来院者Cがいる。医療スタッフAと患者Bとの間の会話には秘匿すべき個人情報が含まれる可能性があるため、その会話の内容が来院者Cに漏れ聞こえることは望ましくない。そのような漏れ聞こえを防止するために、音空間SP内にはマスカー音を放音するマスカー音放音装置11が配置されている。
また、受付デスクDK上には、音空間SP内の音を収音する収音装置であるマイク12が配置されている。マイク12は主に音空間SP内で話者から発音される音声(図1においては、主に医療スタッフAと患者Bの音声)を収音し、当該音声(ターゲット音)を示すデジタル信号をターゲット音信号として順次生成する。マイク12は生成したターゲット音信号を無線によりマスカー音放音装置11に順次送信する。マイク12から送信されるターゲット音信号は、マスカー音放音装置11においてマスカー音信号の生成に用いられる。
図2は、マスカー音放音装置11のハードウェア構成を模式的に示した図である。マスカー音放音装置11は、各種制御処理を行うCPU101、CPU101に対する処理を指示するプログラムや後述する微細構造データなどの各種データを予め記憶するROM102、CPU101がワーキングエリアとして一時的に各種データ(後述する包絡データなど)を記憶するために用いるRAM103、マイク12から送信されてくるターゲット音信号を受信するインタフェースである音信号入力I/F104、CPU101がデジタル信号として生成するマスカー音信号をアナログ信号に変換するD/Aコンバータ105、アナログ信号に変換されたマスカー音信号をスピーカ駆動レベルまで増幅するアンプ106、スピーカ駆動レベルまで増幅されたマスカー音信号に従いマスカー音を放音するスピーカ107を備えている。
図3は、マスカー音放音装置11の機能構成を模式的に示した図である。すなわち、図2に示したマスカー音放音装置11のハードウェア構成は、ROM102に記憶された本実施形態にかかるプログラムに従うCPU101の制御の下で動作する結果、図3に示す構成部を備える装置として機能する。
マスカー音放音装置11はその機能構成部として、まず、モデルとなる人の音声のスペクトル微細構造を各々示す複数の微細構造データを同じ音声の位相を示す位相データとともに予め記憶する微細構造データ記憶手段110を備えている。
微細構造データ記憶手段110に予め記憶されている微細構造データおよび位相データは、マスカー音放音装置11とは異なる装置であるスペクトル分析装置により、特定の音声を示す音声信号から生成されたデータである。従って、微細構造データ記憶手段110に予め記憶されている微細構造データおよび位相データと、ターゲット音(この場合、音空間SPにおける医療スタッフAと患者Bの音声)の微細構造データおよび位相データとの間には、少なくとも音高の変化に関し相関性はない。図4は、スペクトル分析装置が微
細構造データ記憶手段110に記憶されている微細構造データと位相データを生成する手順を例示した図である。
スペクトル分析装置は、人の音声を表す時間波形信号である音声信号から順次所定の時間長(例えば、通常の話速の音声における音素の平均的な長さである100〜200ms程度の所定の時間長が望ましいが、それに限られない)で取り出した音声信号D1の各々に関し、まず、ハニング窓等の所定の窓関数を掛けた音声信号をフーリエ変換し(ステップS001)、短時間スペクトルD2を生成する。続いて、スペクトル分析装置は、短時間スペクトルD2の絶対値を対数変換し(ステップS002)、対数振幅スペクトルD3を生成する。
続いて、スペクトル分析装置は、対数振幅スペクトルD3を逆フーリエ変換し(ステップS003)、ケプストラムD4を生成する。ケプストラムD4の低次成分は対数振幅スペクトルD3の包絡であるスペクトル包絡に応じた成分であり、ケプストラムD4の高次成分は対数振幅スペクトルD3からスペクトル包絡の成分を差し引いた成分であるスペクトル微細構造に応じた成分である。
続いて、スペクトル分析装置は、ケプストラムD4の低次成分をカットするリフタリングを行なった後、フーリエ変換を行ない(ステップS004)、スペクトル微細構造を示す微細構造データFSを生成する。
また、スペクトル分析装置は、上記のステップS001により生成した短時間スペクトルD2の偏角を位相スペクトルとして算出し(ステップS101)、算出した位相スペクトルを示す位相データPHを生成する。
スペクトル分析装置が、音声信号から順次取り出した複数のフレームの各々に関し上記の手順に従い生成した複数の微細構造データFSおよび位相データPHが、微細構造データ記憶手段110に記憶されている微細構造データおよび位相データである。以下、同じ音声信号のフレームから生成された微細構造データFSと位相データPHの組を、微細構造・位相データセットFPと呼ぶ。
図3に戻り、マスカー音放音装置11の機能構成の説明を続ける。マスカー音放音装置11は、マイク12から送信されてくるターゲット音信号を順次取得するターゲット音信号取得手段111と、ターゲット音信号取得手段111により取得されたターゲット音信号が表す音のスペクトルの包絡を示す包絡データを順次生成する包絡データ生成手段112と、包絡データ生成手段112により生成された包絡データを順次記憶する包絡データ記憶手段113を備えている。
図5は、包絡データ生成手段112が包絡データを生成する手順を例示した図である。包絡データ生成手段112は、ターゲット音信号取得手段111により取得されたターゲット音信号から順次所定の時間長(例えば、通常の話速の音声における音素の平均的な長さである100〜200ms程度の所定の時間長が望ましいが、それに限られない)で取り出したターゲット音信号D11の各々に関し、上述したスペクトル分析装置が行なうステップS001〜S003と同様の処理を、ステップS201〜S203として行なう。包絡データ生成手段112は、ステップS201〜S203の処理により、上述したスペクトル分析装置が音声信号D1に関し生成する短時間スペクトルD2、対数振幅スペクトルD3およびケプストラムD4と同様のデータを、ターゲット音信号D11に関し短時間スペクトルD12、対数振幅スペクトルD13およびケプストラムD14として生成する。
包絡データ生成手段112が生成するケプストラムD14の低次成分は対数振幅スペクトルD13の包絡であるスペクトル包絡に応じた成分である。従って、包絡データ生成手段112は、ケプストラムD14の高次成分をカットするリフタリングを行なった後、フーリエ変換を行ない(ステップS204)、スペクトル包絡を示す包絡データD15を生成する。
図6は、包絡データ生成手段112が生成する包絡データD15が示すスペクトル包絡の例を示した図である。図6(a)は「ア」の音声のスペクトル包絡を、図6(b)は「イ」の音声のスペクトル包絡を示している。図6(a)(b)の各々に関し、スペクトル包絡がピークを示す点はフォルマントと呼ばれ、周波数が低い方から順に、第1フォルマント(図6におけるF1)、第2フォルマント(図6におけるF2)、・・・のように呼ばれる。なお、各母音の第1フォルマント、第2フォルマント、・・・の相対的な位置関係は発声者の如何に関わらず概ね定まっている。一方、子音は明確な基本周波数がなく、発音中、安定したフォルマントが現れない。
包絡データ生成手段112は、上記のような母音と子音のスペクトル包絡が持つ特性を利用し、ステップS204において生成した包絡データD15のうち、母音のスペクトル包絡を示す包絡データのみを包絡データEVとして選択する(図5、ステップS205)。具体的には、包絡データ生成手段112は母音が示す所定の位置関係のフォルマントを示す包絡データD15を母音のスペクトル包絡を示す包絡データEVとして選択する。
包絡データ記憶手段113は、上記のように包絡データ生成手段112が生成する母音の包絡データEVを順次記憶するとともに、記憶している包絡データEVが所定数を超えないように、古いものから順に包絡データEVを削除する。
再び図3に戻り、マスカー音放音装置11の機能構成の説明を続ける。マスカー音放音装置11は、微細構造データ記憶手段110に記憶されている微細構造・位相データセットFPと、包絡データ記憶手段113に記憶されている包絡データEVを用いてマスカー音信号を生成するマスカー音信号生成手段114を備えている。
マスカー音信号生成手段114は、まず、微細構造データ記憶手段110に記憶されている複数の微細構造・位相データセットFPの中から所定の規則に従い微細構造・位相データセットFPを4つずつ順次選択する微細構造データ選択部1141(微細構造データ取得手段の一例)を備えている。
図7は、微細構造データ選択部1141が微細構造・位相データセットFPを選択する規則を説明するための図である。図7に示すように、微細構造データ記憶手段110に記憶されている微細構造・位相データセットFPの数は4n個(ただし、nは所定の自然数)であり、そのそれぞれを微細構造・位相データセットFP(1)〜FP(4n)とする。
微細構造データ選択部1141は、所定時間毎(以下、149ms毎とする)に、微細構造・位相データセットFP(k)、FP(n+k)、FP(2n+k)、FP(3n+k)(ただし、kは1≦k≦nである自然数)を、kを1からnの範囲内で1ずつ増加させながら(kがnに達した後はkを1に戻した後、1ずつ増加させながら)、選択する。
再び図3に戻り、マスカー音放音装置11の機能構成の説明を続ける。マスカー音信号生成手段114は、包絡データ記憶手段113に記憶されている複数の包絡データEVの中からランダムに包絡データEVを4つずつ順次選択する包絡データ選択部1142を備えている。包絡データ選択部1142は、包絡データ記憶手段113に記憶されている包
絡データEVの中から、所定時間毎(以下、149ms毎とする)に、4つの包絡データEV1、EV2、EV3、EV4を選択する。
また、マスカー音信号生成手段114は、微細構造データ選択部1141により選択された微細構造・位相データセットFPと包絡データ選択部1142により選択された包絡データEVと用いて、所定時間長(以下、170msとする)のソース音信号を生成するソース音信号生成部1143を備えている。
ソース音信号生成部1143は、微細構造データ選択部1141により149ms毎に選択される4つの微細構造・位相データセットFPと、包絡データ選択部1142により149ms毎に選択される4つの包絡データEVとを以下のように組み合わせる。
(1)微細構造・位相データセットFP(k)と包絡データEV1
(2)微細構造・位相データセットFP(n+k)と包絡データEV2
(3)微細構造・位相データセットFP(2n+k)と包絡データEV3
(4)微細構造・位相データセットFP(3n+k)と包絡データEV4
続いて、ソース音信号生成部1143は、例えば図8に示す手順に従い、ソース音信号を生成する。まず、ソース音信号生成部1143は、上記の4つの組み合わせの各々に関し、微細構造・位相データセットFP((i−1)n+k)(ただし、iは1≦i≦4の任意の自然数)に含まれる微細構造データFS((i−1)n+k)と包絡データEViとを加算して対数振幅スペクトルD21を生成する(ステップS301)。続いて、ソース音信号生成部1143は、対数振幅スペクトルD21を指数演算して短時間スペクトルD22を生成し(ステップS302)、さらに微細構造・位相データセットFP((i−1)n+k)に含まれる位相データPH((i−1)n+k)と乗算して複素信号D23を生成する(ステップS303)。続いて、ソース音信号生成部1143は、複素信号D23に逆フーリエ変換を行なって、時間波形信号であるソース音信号を生成する(ステップS304)。その際、ソース音信号生成部1143が生成するソース音信号の時間長は170msである。
以下、ソース音信号生成部1143がタイミングtにおいて生成する4つのソース音信号を各々、ソース音信号SS1(t)、SS2(t)、SS3(t)、SS4(t)とする。なお、ソース音信号SS1(t)は微細構造・位相データセットFP(k)と包絡データEV1から生成されたソース音信号、ソース音信号SS2(t)は微細構造・位相データセットFP(n+k)と包絡データEV2から生成されたソース音信号、ソース音信号SS3(t)は微細構造・位相データセットFP(2n+k)と包絡データEV3から生成されたソース音信号、ソース音信号SS4(t)は微細構造・位相データセットFP(3n+k)と包絡データEV4から生成されたソース音信号である。
マスカー音信号生成手段114は、ソース音信号生成部1143により生成されたソース音信号を用いてマスカー音信号を生成するマスカー音信号生成部1144を備えている。マスカー音信号生成部1144は、まず、ソース音信号生成部1143により149ms毎に生成される4つのソース音信号SS1(t)、SS2(t)、SS3(t)、SS4(t)をミキシングした後、ミキシングされたソース音信号にリバース処理を施してマスカー音信号MS(t)を生成する。本実施形態におけるリバース処理とは、170msのミキシングされたソース音信号を構成するサンプルデータを時間軸方向に逆の順序で並び替える処理である。マスカー音信号生成部1144は上記のように生成した170msのマスカー音信号MS(t)を、過去に生成してマスカー音信号記憶手段115に記憶されている約1.5秒のマスカー音信号の時間軸方向の末尾に連結する。
図9は、マスカー音信号生成部1144が生成するマスカー音信号が、149ms毎に
順次連結される複数のマスカー音信号により構成されている様子を示した図である。タイミングtにおいて、マスカー音信号記憶手段115は、時間軸方向の末尾から順に、マスカー音信号MS(t−1)、MS(t−2)、・・・、MS(t−10)を順次、21msのオーバーラップ期間を伴い連結した約1.5秒の音信号をマスカー音信号として記憶している。なお、タイミングtにおいて、放音手段116はマスカー音信号記憶手段115に記憶されているマスカー音信号のうち、例えばマスカー音信号MS(t−9)の部分に従いマスカー音の放音を行なっている。
その後、マスカー音信号生成部1144は、例えばタイミング(t+1)において新たにマスカー音信号MS(t)を生成すると、マスカー音信号記憶手段115に記憶されているマスカー音信号の末尾に、新たに生成したマスカー音信号MS(t)を21msのオーバーラップ期間を設けて連結することで、マスカー音信号の更新を行なう。その際、マスカー音信号生成部1144は、マスカー音信号のうち既に放音に用いられた部分であるマスカー音信号MS(t−10)をマスカー音信号記憶手段115から削除する。その結果、タイミング(t+1)においては、マスカー音信号記憶手段115には、時間軸方向の末尾から順に、マスカー音信号MS(t)、MS(t−1)、・・・、MS(t−9)を順次、21msのオーバーラップ期間を伴い連結した約1.5秒の音信号がマスカー音信号として記憶されることになる。
再び図3に戻り、マスカー音放音装置11の機能構成の説明を続ける。マスカー音放音装置11は、マスカー音信号生成手段114により生成されたマスカー音信号を記憶するマスカー音信号記憶手段115と、マスカー音信号記憶手段115に記憶されているマスカー音信号に従い音空間SPにマスカー音を放音する放音手段116を備えている。
放音手段116は、上記のようにマスカー音信号記憶手段115に記憶され、マスカー音信号生成部1144により149ms毎に更新されるマスカー音信号に従い、順次音空間SPに対するマスカー音の放音を行なう。
上記の構成を備えるマスカー音放音装置11が音空間SPに放音するマスカー音は、マイク12により順次収音され生成されるターゲット音を示すターゲット音信号から生成された包絡データと、ターゲット音とは異なる音声信号から生成され予め記憶されている微細構造データおよび位相データとを用いて生成された音である。
包絡データが示すスペクトル包絡には、発声者の声道や鼻腔における共振、反共振の特性等が反映されているため、発声者の個人の特徴(声道や鼻腔の形状の個人差)が反映されている。一方、微細構造データが示すスペクトル微細構造には、発声者の個人の特徴ではなく、発声された音声の音高(ピッチ)の変動が反映される。従って、スペクトル包絡はスペクトル微細構造と比較し、発声者の音声の個人の特徴をより強く反映したデータであると言える。
マスカー音放音装置11が放音するマスカー音は、ターゲット音のスペクトル包絡を用いて生成されているため、ターゲット音の発声者の特徴を備えた音である。そのため、マスカー音放音装置11から放音されるマスカー音をターゲット音と同時に耳にする聴者にとって、それらの音を分離することは容易ではなく、高いマスキング効果が得られる。
また、マスカー音放音装置11が放音するマスカー音は、ターゲット音とは異なる音声のスペクトル微細構造を用いて生成されているため、マスカー音の音高の変化には、ターゲット音の音高の変化との関連性はない。従って、マスカー音放音装置11から放音されるマスカー音の音高の変化によって、聴者がターゲット音の会話の内容を推測することはできない。
また、マスカー音放音装置11がマスカー音信号を生成するにあたり、ターゲット音信号のスペクトルの微細構造は用いられないため、包絡データよりデータ量が多い微細構造データを用いた処理方式と比較し、本願の処理方式は、ターゲット音の特徴に適したマスカー音を動的に素早く生成できるとともに、データ処理に要するバッファメモリも少なくてよく、低コストでマスカー音信号の生成が可能である。
[変形例]
上述した実施形態は本発明の技術的思想の範囲内において様々に変形可能である。以下にこれらの変形の例を示す。
(1)上述したマスカー音放音装置11は放音手段116を備えるが、マスカー音放音装置11は放音手段を備えず、マスカー音信号生成手段114により生成されたマスカー音信号を外部のスピーカ等の放音装置に出力する信号出力手段を備える構成が採用されてもよい。この変形例においては、マスカー音放音装置11から出力されるマスカー音信号に従い、外部の放音装置により音空間SPに対するマスカー音の放音が行なわれる。
(2)上述したマスカー音放音装置11はマスカー音信号生成部1144を備えるが、マスカー音放音装置11はマスカー音信号生成部1144を備えず、ソース音信号生成部1143により生成されたソース音信号を外部の音信号処理装置に出力する信号出力手段を備える構成が採用されてもよい。この変形例においては、マスカー音放音装置11から出力されるソース音信号を用いて、外部の音信号処理装置によりマスカー音信号の生成が行なわれる。
(3)上述したマスカー音放音装置11はソース音信号生成部1143を備えるが、マスカー音放音装置11はソース音信号生成部1143を備えず、微細構造データ選択部1141により選択された微細構造・位相データセットFPと、包絡データ選択部1142により選択された包絡データEVとにより特定されるソース音信号のスペクトルを示すデータを外部の音信号処理装置に出力する信号出力手段を備える構成が採用されてもよい。この変形例においては、マスカー音放音装置11から出力されるスペクトルを示すデータを用いて、外部の音信号処理装置によりソース音信号の生成が行なわれる。
(4)上述したマスカー音放音装置11はマイク12からターゲット音信号をデジタル信号として取得する構成が採用されているが、マスカー音放音装置11がマイク12から取得するターゲット音信号はアナログ信号であってもよい。この場合、マスカー音放音装置11はターゲット音信号をアナログ信号からデジタル信号に変換するA/Dコンバータを備えることで、デジタル信号処理によるマスカー音信号の生成を行なうことができる。
(5)上述したマスカー音放音装置11はマイク12からターゲット音信号を無線により受信する構成が採用されているが、マスカー音放音装置11がマイク12から有線によりターゲット音信号を受信する構成が採用されてもよい。また、マスカー音放音装置11がマイク12を内蔵する構成が採用されてもよい。
(6)上述したマスカー音放音装置11は、マイク12が収音する音のうち、スピーカ107から放音されるマスカー音の成分を除去するキャンセラを備える構成が採用されてもよい。キャンセラを備えることにより、包絡データ生成手段112が生成する包絡データは、発声者の音声のスペクトル包絡をより正しく表すものとなる。
(7)上述したマスカー音放音装置11の微細構造データ選択部1141による微細構造・位相データセットFPの選択の方法および包絡データ選択部1142による包絡データ
EVの選択の方法はあくまで一例であって、包絡データEVが生成された順序と異なる順序で選択されれば、他の方法でもよい。例えば、微細構造データ選択部1141が微細構造・位相データセットFPをランダムに選択してもよいし、包絡データ選択部1142が包絡データEVを所定の規則に従い選択してもよい。
(8)上述したマスカー音放音装置11がマイク12からターゲット音信号を取得するタイミングから、当該ターゲット音信号を用いて生成したマスカー音信号に従い放音を行なうタイミングまでには、音信号処理に要する時間(以下、この時間を「遅延時間DL」と呼ぶ)の遅れが伴う。従って、音空間SP内で誰も発声をしていない状態から誰かが発声を開始した場合、遅延時間DLの間は無音を表すターゲット音信号を用いてマスカー音信号が生成されるため、マスカー音放音装置11から放音されるマスカー音は無音となってしまう。
この無音の間をなくすために、マスカー音放音装置11が予めターゲット音の周波数特性によらず一定以上のマスキング効果をもたらすマスカー音信号をROM102等に記憶しておき、例えばターゲット音信号の振幅レベルが所定の閾値以上であり、マスカー音信号の振幅レベルが所定の閾値以下である間は、マスカー音信号生成手段114により生成されるマスカー音信号に代えて、予め記憶しておいたマスカー音信号に従いマスカー音の放音を行なう構成が採用されてもよい。
また、音空間SP内における発声者が変わった場合、上述したマスカー音放音装置11は、遅延時間DLの間、現在の発声者の音を表すターゲット音信号ではなく、過去の発声者の音を表すターゲット音信号を用いて生成したマスカー音信号に従いマスカー音の放音を行なうため、マスキングの性能がその間、やや低下する可能性がある。
このマスキングの性能の低下の程度を少なくするために、マスカー音放音装置11が予めターゲット音の周波数特性によらず一定以上のマスキング効果をもたらすマスカー音信号をROM102等に記憶しておき、音空間SP内の発話者が変わったことを判定する判定手段を備え、発話者が変わったと判定した後の遅延時間DLの間は、マスカー音信号生成手段114により生成されるマスカー音信号に代えて、予め記憶しておいたマスカー音信号に従いマスカー音の放音を行なう構成が採用されてもよい。なお、判定手段が音空間SP内の発話者が変わったことを判定する条件としては、例えば、ターゲット音信号が表す現在の音声と所定時間前の音声との周波数特性の相関性が閾値以下である、といった条件が考えられる。
(9)上述したマスカー音放音装置11のマスカー音信号生成部1144はマスカー音信号の生成にあたり、ソース音信号生成部1143により生成された4つのソース音信号をミキシングする。マスカー音放音装置11がマスカー音信号の生成のためにミキシングするソース音信号の数は4つに限られず、4つ以外の数のソース音信号がミキシングされてマスカー音信号の生成に用いられる構成が採用されてもよい。また、マスカー音放音装置11はマスカー音信号の生成にあたり、ソース音信号のミキシングを行なわなくてもよい。
(10)上述したマスカー音放音装置11のマスカー音信号生成部1144はマスカー音信号の生成にあたり、ソース音信号(ソース音信号生成部1143により生成された4つのソース音信号をミキシングして生成したソース音信号)に対しリバース処理を施すが、マスカー音放音装置11はマスカー音信号の生成にあたり、ソース音信号に対しリバース処理を施さなくてもよい。
(11)上述したマスカー音放音装置11が用いる微細構造データおよび位相データの生
成方法は一例であって、マスカー音放音装置11がマスカー音信号の生成に用いる微細構造データおよび位相データは、既知の如何なる方法によって生成されたスペクトル微細構造および位相スペクトルを示すデータであってもよい。同様に、上述したマスカー音放音装置11の包絡データ生成手段112が行なう包絡データの生成方法は一例であって、包絡データ生成手段112が包絡データを生成する方法は、スペクトル包絡を示すデータを生成する既知の如何なる方法であってもよい。例えば、ケプストラムを用いる方法に代えて、線形予測法によりスペクトル微細構造とスペクトル包絡とを分離する方法が採用されてもよい。
(12)上述したマスカー音放音装置11は、微細構造・位相データセットFPを予めROM102等に記憶している。マスカー音放音装置11が微細構造・位相データセットFPを取得する方法はこれに限られず、例えばマスカー音放音装置11がインターネットなどのネットワークや記憶媒体を介して、外部の装置から微細構造・位相データセットFPを取得する構成が採用されてもよい。
(13)上述したマスカー音放音装置11が行なう処理の順序は、同様の結果が得られる限り変更されてもよい。例えば、マスカー音信号生成部1144はマスカー音信号の生成にあたり、4つのソース音信号をミキシングした後にリバース処理する代わりに、4つのソース音信号の各々をリバース処理した後にミキシングしてもよい。
(14)上述したマスカー音放音装置11は、マイク12により収音したターゲット音を表すターゲット音信号の取得と当該取得したターゲット音信号を用いたマスカー音信号の生成の処理を同時並行して行う。これに代えて、例えばマスカー音放音装置11が、予め生成されている話者の音声を表す音信号を記憶手段もしくは外部の装置から取得して、ターゲット音信号に代えてマスカー音信号の生成に用いる構成としてもよい。例えば、概ね同じ話者が同じ会議室で繰り返し会議を行うような場合、マイク12から取得するターゲット音信号に代えて過去に当該会議室において収音により生成されたそれらの話者の音声を表す音信号が用いられても、同様の効果が得られる。
(15)上述した実施形態において、マスカー音放音装置11は一般的なコンピュータが本実施形態にかかるプログラムに従った処理を実行することにより実現されるものとしたが、これらの装置がいわゆる専用機として実現されてもよい。
(16)なお、上述した実施形態において説明に用いた具体的な数値はあくまで例示であって、他の数値が採用されてもよい。また、上述した実施形態および変形例は適宜組み合わされてもよい。
11…マスカー音放音装置、12…マイク、101…CPU、102…ROM、103…RAM、104…音信号入力I/F、105…D/Aコンバータ、106…アンプ、107…スピーカ、110…微細構造データ記憶手段、111…ターゲット音信号取得手段、112…包絡データ生成手段、113…包絡データ記憶手段、114…マスカー音信号生成手段、115…マスカー音信号記憶手段、116…放音手段、1141…微細構造データ選択部、1142…包絡データ選択部、1143…ソース音信号生成部、1144…マスカー音信号生成部。

Claims (5)

  1. 特定の音のスペクトルの微細構造を表す微細構造データを取得する微細構造データ取得手段と、
    マスキングされる音であるターゲット音を表すターゲット音信号を取得するターゲット音信号取得手段と、
    前記ターゲット音信号取得手段により取得されるターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成する包絡データ生成手段と、
    前記微細構造データ取得手段により取得される微細構造データと前記包絡データ生成手段により生成される包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成するマスカー音信号生成手段と
    を備えるマスカー音信号の生成装置。
  2. 前記マスカー音信号生成手段は、前記包絡データ生成手段により生成される母音の包絡データを用いて前記包絡データの生成を行なう
    請求項1に記載のマスカー音信号の生成装置。
  3. 前記マスカー音信号生成手段により生成されたマスカー音信号に従い放音を行う放音手段を備える
    請求項1または2に記載のマスカー音信号の生成装置。
  4. 特定の音のスペクトルの微細構造を表す微細構造データを取得するステップと、
    マスキングされる音であるターゲット音を表すターゲット音信号を取得するステップと、
    前記取得したターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成するステップと、
    前記取得した微細構造データと前記生成した包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成ステップと
    を備えるマスカー音信号の生成方法。
  5. コンピュータに、
    特定の音のスペクトルの微細構造を表す微細構造データを取得する処理と、
    マスキングされる音であるターゲット音を表すターゲット音信号を取得する処理と、
    前記取得したターゲット音信号が表す音のスペクトルの包絡を表す包絡データを生成する処理と、
    前記取得した微細構造データと前記生成した包絡データとを用いて、マスキングする音であるマスカー音を表すマスカー音信号を生成する処理と
    を実行させるマスカー音信号の生成のためのプログラム。
JP2013075882A 2013-04-01 2013-04-01 マスカー音信号の生成装置、生成方法およびプログラム Pending JP2014202777A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013075882A JP2014202777A (ja) 2013-04-01 2013-04-01 マスカー音信号の生成装置、生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013075882A JP2014202777A (ja) 2013-04-01 2013-04-01 マスカー音信号の生成装置、生成方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2014202777A true JP2014202777A (ja) 2014-10-27

Family

ID=52353280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013075882A Pending JP2014202777A (ja) 2013-04-01 2013-04-01 マスカー音信号の生成装置、生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2014202777A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097092A (ja) * 2016-12-09 2018-06-21 パナソニックIpマネジメント株式会社 騒音マスキング装置、車両、及び、騒音マスキング方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097092A (ja) * 2016-12-09 2018-06-21 パナソニックIpマネジメント株式会社 騒音マスキング装置、車両、及び、騒音マスキング方法

Similar Documents

Publication Publication Date Title
KR102514990B1 (ko) 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성
EP2363852B1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
EP3065130B1 (en) Voice synthesis
CN107871499B (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
WO2012043597A1 (ja) マスカ音出力装置及びマスカ音出力方法
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
Gordon-Salant et al. Recognition of time-compressed speech does not predict recognition of natural fast-rate speech by older listeners
US20230206897A1 (en) Electronic apparatus and method for controlling thereof
JP5027127B2 (ja) 背景雑音に応じてバイブレータの動作を制御することによる移動通信装置の音声了解度の向上
Mandel et al. Audio super-resolution using concatenative resynthesis
JP6373621B2 (ja) 話し方評価装置、話し方評価方法、プログラム
JP2014202777A (ja) マスカー音信号の生成装置、生成方法およびプログラム
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
Chen et al. CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application
JP2008040431A (ja) 音声加工装置
JP2013117556A (ja) 韻律変換装置およびそのプログラム
CN112164387A (zh) 音频合成方法、装置及电子设备和计算机可读存储介质
JP2008139573A (ja) 声質変換方法、声質変換プログラム、声質変換装置
CN111179943A (zh) 一种对话辅助设备及获取信息的方法
JP2015064480A (ja) 音声合成装置およびプログラム
JP7296214B2 (ja) 音声認識システム
WO2024024122A1 (ja) 音声処理方法、プログラム、及び音声処理システム
JP5745453B2 (ja) 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP2012252026A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP7110057B2 (ja) 音声認識システム