JP2006119647A

JP2006119647A - ささやき声を通常の有声音声に擬似的に変換する装置

Info

Publication number: JP2006119647A
Application number: JP2005303629A
Authority: JP
Inventors: Yasuto Takeuchi; 康人竹内
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-09-16
Filing date: 2005-09-16
Publication date: 2006-05-11

Abstract

【課題】ささやき声を普通の声に模擬的に変換するため主としてソフトウエアにより実現した音声信号システムを提供する。
【解決手段】話者のささやき声すなわち故意に声帯を振動させないで語り掛ける発声を観測し、これを通常通り声帯を振動させて声を出していたら得られた筈の音声信号に近似的に変換し、通信回線を介して送出する装置が実現できる。信号処理技術上の特徴点としては入力されたささやき声の母音に該当する区間をスペクトラム領域もしくは相関関数領域にて一定のルールに従って自動的に処理、変換する物で、これは音声の認識と認識結果からの電子朗読による物ではない。典型的には自己相関型の可変ピッチボコーダーよりこの機能が実現される。この発明がさらに発展し携帯電話器などに実装されればその用途ないし使用モードに１つの革命をもたらすことが期待される。
【選択図】図７

Description

発明の詳細な説明

主旨と背景。
この発明ないしこの発明に成る装置は発声を必要としない音声通話装置、特に話者の発するべき送信音声信号を話者に具体的な有声発声行為をせしめずに推定、合成し、送話の用に供する装置システムに関する。
携帯電話器の使用が旅客列車の客車の中などの“逃げ出す事の出来ない”閉鎖空間において嫌われ、または管理者により禁止される理由の一つに、周囲の者に通話者の発する声が“うるさい”もしくは“奇異な印象を与える”という事が挙げられる。また携帯電話に限らず有線電話であっても、会議中に出席者が静寂を守らなければならないにもかかわらず別な所と通話せねばならなくなった時などに、通話者の有声発声音声が邪魔になるという事態は多々あり得る。

目的とする装置。
そこで本件開発は、話者が故意に声帯を振動させないで語り掛ける行為を観測し、その観測情報に基づいて話者が通用通り声帯を振動させていたら得られた筈の音声信号を近似的に合成し、これを電気的手段による通話の用に供するために通信回線を介して送出する装置を実現せんとするものである。
この装置は、話者の口に近接して置かれるマイクロフォンを有し、このマイクロフォンにより話者の囁き声の音響信号を採取し、かくして採取された音響信号の分析結果から該話者が通常通り声帯を振動させていたら得られた筈であろう所の音声信号を近似的に合成し、このようにして合成された音声信号を電気的手段による通話の用に供するために通信回線を介して送出する。
またこの装置は、近接マイクロフォンの捕える囁き声の信号を分析して第一および第二のフォルマントなどを推定し、この推定された各フォルマントの情報を用いて送出用合成音声信号を合成する如く構成された装置である事が期待される。
しかしまたこの装置は、近接マイクロフォンの捕える囁き声の信号を分析して声帯の緊張度を推定し、この推定された声帯緊張度に関する情報を用いて送出用合成音声信号のピッチを決定する如く構成された装置である事が期待される。
しかしながらこの装置に関し最も期待される特徴は、近接マイクロフォンの捕える囁き声の信号を分析しはするものの、その結果をあえて認識や分類に付すことなく即その場で加工再利用する形でもって、受け入れた囁き声の音響信号を比較的簡素で単純な処理アルゴリズムにより通常の声に近似できる音響信号に変換する装置であることが期待される。このような技術概念は、既に姑息的な物が同じ発明者により特許申請され、またそれは既に公開されている（１）。しかしながら本発明においてははより具体的かつ実用的な手法として、再生ないし合成される疑似有声音声にピッチ周波数の情報を織り込み、言葉らしい、特に日本語の場合は日本語らしい、抑揚のある結果を得る様にした事が特徴である。

先行技術と一般的知見。
囁き声の音響学的研究は、その主観評価も含め、歴史的にさほど新しいものではない。例えば古くも１９５７年に萌芽的研究が見られる（２）。また最近では囁き声の音響構造の詳細な評価（３）、また囁き声そのものを音声認識にかける努力（４）等がいくつかの研究陣によりなされている。本件の課題は一種のいわゆる声質変換（５）の特殊な例と捉える事もできるであろう。
しかしながらこのような装置への社会的要求はくだんの携帯電話の問題のみならず、例えば医原性声帯喪失者、呼吸困難患者などへの支援策としても有益であり得るものである。すなわち一般的知見として有声音においてはスペクトラム上基本周波数の数倍までの低域のエネルギーが高く、またピッチ（基本波）周期の縞模様が顕著に見られる。囁き声はこれらを除く高域が主体である。
ささやき声を普通の音声のような物に変換しようとする、もしくはさもなくともその了解度を向上させようとする信号処理上の工夫としては、例えば特開平０７−２１９５６７、特開平０９−０９０９９３ないし特開２００１−１４２４７７等が見られる。これらを講評すると以下のごとくである。
特開平０７−２１９５６７においては個々のささやき声の音素ないし刻々の分析結果のデータから対応する有声音のデータを巨大な対応表（写像関数）を引く形で求めて所望の変換を行っているので、この対応表を作る、特に個人個人に合わせて作る段階が非常に手数が掛り、実用的とは言えない。
特開平０９−０９０９９３においてはＬＰＣ分析合成を援用しているが、分析後の段階における有声音への変換に必須となるピッチ周期（ないし周波数）情報（基本波周波数情報、すなわち音の高さ）をＬＰＣ処理系を含む入力信号依存の情報からではなく事前に登録した固定的な情報から得ている点が特徴である。このため再生ないし疑似発生される模擬有声音は抑揚のない、一本調子の、坊さんがお経を読む様な物になってしまう。
また特開２００１−１４２４７７においては分析合成系を援用する煩雑を避けるために遅延加算回路を用いた櫛の歯フィルタを用いているが、この周期が一義的に再生ないし疑似発生される模擬有声音のピッチ周期（ないし周波数）を決めてしまい、これを可変ないし適応させる手がないので、やはり“お経”になってしまう。
本発明はこのような困難を以下の様にして実用的に克服した。

あまり理想的でない所の、ＦＦＴ−ｉＦＦＴ型ボコーダーの思想と実現。
囁き声に関しては、これは通常の発声に特徴的な声帯（声門）のインパルス駆動入力がなくなり、その代りに声道周辺の構造物に呼気があたって生ずる白色雑音様の信号が系の駆動原として効果している物である、と単純化して考える事ができる。もちろん厳密には声帯を周期的に閉じている時と、あけっ放しにしてただ呼気が通過するに任せている時とでは、この系の共振器としての特性は僅かながら有意に異なる。が、実用的見地から大雑把に言って、声道の可変寸法音響管共振器としての特性は母音のどれを発声しているかのみに応じて決り、駆動入力がパルスか白色雑音かには由らないと考えて良い。しからば囁き声を周波数分析して得られたスペクトラム像をそのフィルタパラメーターの代用として用いて、これに入力としてそれらしき声帯の駆動パルスを与えて再合成してやればこれを有発声音声に変換できると期待される。さらに別な研究家からは、声道の可変寸法音響管共振器としての特性の観測には呼気さえも不要で、ただ口元から極小寸法のスピーカーとマイクロホンを用いて音響学的に能動計測すれば足りる、旨の主張がなされている。が、ここでは、そこ迄は深入りせず、呼気を以て駆動される囁き声の発声過程を受動的なマイクロホンにより観測する事から出発する。故にこのモデルは以下のごとく要約される。
（１）囁き声音声信号を通常のマイクロホンで受けて処理すべき音声信号を得る
（２）Ａ／Ｄ変換すると同時に前後で適当なフィルタ、自動レベル調整などを行う。
（３）処理の単位のフレーム（例えば２０〜３０ｍＳｅｃ程度）に区切る。隣接するフレームをオーバーラップさせて設定する事も可。
（４）フレーム毎にＦＦＴする。以下周波数ドメインで処理を行う。
（５）信号レベルなどから発声区間となるべき区間をフレーム単位で同定する。
（６）上記発声区間フレームについてはピッチ周波数相当のビン群に修飾加工を行う。ここで修飾加工とはビンの数値（複素数）の間引き、追加、消去、反転など。
（７）上記発声区間フレーム以外のフレームについては、修飾は行わない。
（８）上記（６），（７）で得られた加工済みのＦＦＴデータをｉＦＦＴに付しつつまたもとの時間軸になる様に繋ぎ、また並べ直しをする。
（９）事後処理フィルタで聴感を改良しつつＤ／Ａ変換して変換音声信号を得る。
この工程の特徴とする所は、修飾加工されないフレームのデータはそのまま元の信号と同じ物に戻る点で、子音やアタックの部分の自然性は比較的良く保たれるという点である。が、欠点は、音声の機動性を維持するためにはフレーム長は数十ｍＳｅｃ程度以上には出来ない事と、周波数ドメインでピッチパルスを埋め込む手続きがフレーム長の整数分一を単位としてしか出来ない事から、発生させ得るピッチ（周波数）の候補が非常に限られる事で、ピッチの制御情報は別途創出ないし入手するとしても、結果として自由な抑揚を埋め込む事が出来ない事である。固定ピッチでの復元信号は丸でお経を読み上げている様に聴こえ、また声の質としても何やら金属的なキンキン声になり、決して好ましい印象とは言い難い。しかしこのようにして復元ないし代用された疑似音声信号は、処理の緒元パラメーターが適切に設定されさえすれば、不自然さはあっても耳にとってはかなり理解力がある信号となり、この限りにおいては“認識分類行程を経由しない”と言う本件開発の主旨には大変良く適っていると言える。

好ましい実施例である自己相関型ボコーダーの思想と実現。
音声の今一つの重要な性質として、聴覚は一種のスペアナであって、信号の位相には感じない、とされる点である。この事に関連して、音声信号それ自身に代えてその部分ないし偏自己相関を繰り返し再生しても同じ様に聞こえる事が知られ、この点はＰａｒｃｏｒ系の音声圧伸技術に大幅に取り入れられている。囁き声の有声復元に関してもこの思想が有益かと思われるため、先ず入力された囁き声音声信号を短時間形式の実時間自己相関に付し、その時系列変化を保ったまま繰り返し再生に付す事、またその間に必要な所はピッチパルス相当の信号を添加する事を試みた。ここで用いるＦａｎｏ型の短時間（実時間）自己相関はあらゆるサンプル点の時刻においてその前後一定の時間枠（窓枠）分の自己相関が得られる物で、その演算手法は後に示す。即ちこのプロセスは以下の如くになる。
（１）（２）データ取り込みおよび前処理に関しては先と同様。
（３）信号を、今度はセグメント化せずに垂れ流し式にＦａｎｏ型の短時間（実時間）自己相関に付す。
（４）有声区間の検出に関しては先と同様。
（５）ピッチパルスの時刻の情報を別途用意し、該当する時間（サンプルの番号）においてはその都度その時出来ていた相関関数の像を適宜フィルタないし重みづけして出力バッファの該当時刻の位置に足し込む。
（６）この足し込みの時、それが発声区間に該当したら足し込まれる自己相関像の原点近傍を持ち上げて強調する加工を施した上で足し込む。
（７）発声区間でなければそのまま足し込む。
（８）全てのピッチパルス時刻に関して上記の足し込みが完了したら、出力バッファの内容は出力すべき変換された音声になっているので、これを事後処理用の聴感改良フィルタ（コンプロマイズフィルタ）で聴感を改良しつつＤ／Ａ変換して目的の変換音声信号を得る。
この行程の特徴とする所は処理の流れがＦＦＴ−ｉＦＦＴ式よりかえって簡素である点であるが、自己（相互）相関の演算はＦＦＴ，ｉＦＦＴと異なり一括高速アルゴリズムが存在せず、演算対象区間内の全てのサンプルにその都度総当たりする、いわゆる八つ当たりプロセスでしか出来ないため、このような自己相関ボコーダーの処理速度はＦＦＴ−ｉＦＦＴ式ボコーダーより大略２桁遅い。しかし任意のピッチパルス列に従って再生出来る点は大きな特徴であり、これ故に本件発明の主旨に必須の要件を満たしている。

ピッチ周波数（声の音の高さ）情報の抽出と織り込み。
囁き声の母音相当区間にも声の高さすなわち音高（これを単純にピッチというと音楽用語だが、音声研究家はこれをピッチ周波数ないしピッチ周期という）を示唆する情報がある事は、主観的にはほぼ自明、また同主旨の古い研究もある（６）。自験例によると、同じ“あ”と聞こえる囁き母音にも、特にそのフォルマントＦ１，Ｆ２あたりに“つもり”のピッチ周波数情報がある。確かに高い声を出した積りで囁くと目を吊り上げ耳を引っ張り上げられた様な印象の囁き声になる。これが何に由来するかは完全に明らかではないが、振動はしないものの引っ張り上げられた声帯の所を呼気が通過する場合、引っ張り上げの力の程度に応じて、そのあたりの構造が変化するのか、声帯自体の緊張度が自由振動成分に貢献するのか、何らかの、しかし明らかな効果が認められる。他の母音に関しては確たる情報がないが、押して推察する事は許されよう。これを予定された一律の、もしくは場面適応的なルールに従って導出する事でもって“つもり”のピッチが姑息的ながら復元する。典型的にはこの段階はフォルマント構造の“ゆがみ”を検出して声帯やその周辺の緊張度の推定を行う事になるが、このゆがみとは周波数軸上でのＦ１，Ｆ２の一方または両方のピークの位置のずれ、特に高まり（うわずる事）と理解すれば大極的には大間違いでない。そこでこの推定はＦ１，Ｆ２の一方または両方のピークの位置を検出した結果にもとづき、単純に比例でも、また表を引く事でも良い。ただしこの推定は母音の種類別に（つまりあいうえお別に）最低五手法別々に必要である。
しかしながらより簡素ながら姑息的な手法として、与えられた信号からより簡単なポリシーでもって簡便に抽出できるピッチ類似の観測値をピッチコントロール信号に採用する事も好ましい実施例である。一例として単に入力信号のレベル情報をピッチ周波数情報に一義的に援用してみた。ややすなわち一例として入力レベルが平均値あるいはプリセット値よ小さい場合は設定値を、大きい場合には設定値プラス余剰分の対数関数または４乗根に比例増強で、ピッチ周波数を（ないし自己相関の再生周期を）決定して見た所、おかしな感じの語り口ないし声色（こわいろ）もしくは聴き慣れないどこの地方の方言ともつかぬ方言の様にになったが、一定ピッチの機械的お経より遥かに感触が良い、日本語らしい疑似有声音声を得る事が出来た。けだし日本語では声の抑揚は声の強弱と非常に良い相関を有し、つもりでしゃべった囁き声にもその性質が非常に忠実に反映されているので、レベルをピッチに援用してしまう事はあながち的外れではない。
一方さらに別な考えとして、ピッチ周波数情報を入力信号から検出せんとする事を廃し、単純にこれを外部入力として受け入れる事でも実現可能である。即ち本発明のある姑息的実施例においては握りレバーに反発バネとともに結合された可変抵抗器などにより、手動ないし手技として入力する事ができる。これはしゃべりながらでも十分可能であり、マイクロフォンとともに抑揚入力にぎりレバーが、好ましくはマイクロフォン自体の匡体上にそういうレバーが、配置され、声を高らめたい時にはそのレバーを強く握るのである。

自然性への配慮。
この研究のどの段階でも問題化した特徴的な問題は、合成音声がどうしても金属的なキンキン声になってしまう点で、これは原因を追求するより姑息的ながらいわゆる妥協フィルタ（コンプロマイズフィルタ）を事後フィルタとして適用する事でもって改良する事ができる。

実時間動作への考慮
最終的に実用的だろうと思われる本件開発の結果の自己相関ボコーダー型の囁き声変換システムは、実験的構築と試行錯誤の場ではＭａｃ版のＭａｔｌａｂを用い、信号の入出力もＭａｃ固有のあてがい扶持の物を用いた。が、如何にＭａｔｌａｂが科学技術計算のための超高速インタープリタとして実績、定評のある証明済みの物であるとは言え、この体制で即実時間動作ができる物ではない。しかし処理量を見積ると、少なくともコンパイラレベルにて専用のプログラムを書き起こせば汎用のＰＣでもって実時間動作が十分可能という推察を得る。この場合、必須の処理時間は高々２ないし数フレーム以内、つまり数十ｍＳｅｃ以内と試算される。

好ましい実施例の１つにおける自己相関ボコーダーの要点。
音声信号の特徴として、ないしは聴覚の特徴として、（聴覚は位相を感じないという性質に基づき（勿論これには反論が多々あるが））原信号のかわりにその自己相関を聞かせても同じ様に聞こえる（フレーム間の編集の仕方如何ではあるが）という特徴がある。ＰＡＲＣＯＲ系はこれを巧みに用いている。そこで囁き声の自己相関をピッチ周期に合せて繰り返し再生する事でも主旨目的が達成される可能性が大である。またピッチパルスの強制挿入は再生に付す自己相関関数の原点周辺のピークを強調してやる事で簡単に実現できる。これが本手法の主旨であり、本発明ではこの方式がＦＦＴボコーダーより優れているという結論に至った。
処理のあらましは文章で述べた方が分かりやすいので以下に説明する。先ず原信号を自己忘却型の短時間自己相関の処理に付す。これはいわゆるＦａｎｏ型と言われる、のべつまくなし垂れ流し演算方式の実時間自己相関演算で、数式表現を借りると以下の様な形をしている。

ここで、Ｆ＝相関関数、ｆ＝源信号、ｔ＝実時間の進行、ｔ０＝現在時刻、τ＝時間差軸、α＝減衰時定数要因。
連続信号をサンプリングしたサンプル点列にこの関数の離散表現を適用するには、新しいサンプルが得られる都度、以下の演算を行う。

ここでＰ＝積の項、Ｄ＝源信号、Ｃ＝相関関数、ｎ＝実時間の進行、ｋ＝時間差軸。
ここで（１）式のα、また（２）式のＮは現時点から過去に向けての等価的な観測ウインドウ幅を決める所の減衰時定数、ないし俗に自己忘却時定数と言われる設定値を支配するパラメーターである。数式表現の詳細は別の機会に譲るとして、今回は演算区間長２５６サンプル、自己忘却時定数６４サンプル相当を採用している。が、この辺はとみに主観的ないしカットアンドドライ的に決めるのが正解だろう。
ここで、この様に常時ｕｐｄａｔｅされて得られてるＦａｎｏ型短時間自己相関関数は、それ自身を再度セグメントを解いて連続信号に見える様に重みづけ再接続の編集をして再生聴音にかけると、既にあたかも声帯パルスが添加されて有声音になったかのごとく聞こえる。これは自己相関は必ず原点にピークが発生するからで、その原点のピークが編集作業上発生する擬似的な周期をピッチとして“聞こえる”からである。プロトタイプの場合、自己相関を２対１のハニング窓オーバーラッピングで重みづけ再接続の編集をして再生しているので、ベースとなるピッチ周波数は１２８サンプル相当、約１４０Ｈｚとなっている。この最接続編集の周期を前述の姑息的代替え手法により作られたピッチコントロール信号により相関フレーム毎に修正して再生音声の抑揚を実現している。
しかし自然発生的な原点ピークを含めて再生するだけでは細声キンキン声の程度は従前の例より更に悪い。これより、有声音らしさを増すために、有声区間となるべき区間において自己相関の原点を太らせて持ち上げる人工的な処理を追加する。有声区間となるべき区間の決定には前回同様囁き声自体のレベルを用いた。即ちこの情報（信号の電力）は自己相関の原点のピークの高さそれ自身（もちろん上記の持ち上げ太らせ処理以前の）にあらわされているので、これが山勘で決めた閾値より大な場合において選択的に上記の持ち上げ太らせ処理を実施する。

可変ピッチ自己相関ボコーダーによる変換の例（自験例）。
写真１：源囁き声信号のスペクトラム（オーイ、ハヤクメシモッテコイ）
写真２：本手法により変換されて得られた疑似発声音声のスペクトラム（おーい、はやくめしもってこい）

まとめ。
以上より、本発明は、ささやき声を入力して通常の有声音声に擬似的に変換する装置であって、フィルタされた入力信号の時変性短時間自己相関を別途手動入力された時変的なピッチ制御情報に基づいて繰り返し再生する形の自己相関ボコーダーである事を特徴とする該装置である事ができる。
また本発明は、ささやき声を入力して通常の有声音声に擬似的に変換する装置であって、フィルタされた入力信号の時変性短時間自己相関を繰り返し再生する形の自己相関ボコーダーであり、有声区間に該当する場合には該繰り返し再生に付す自己相関の原点近傍を太らせて持ち上げる事を特徴とする該装置である事ができる。

参考文献
（１）竹内、特開２０００−２７６１９０（特願平１１−１２４６８５）
（２）Ｗ．Ｍｅｙｅｒ−Ｅｐｐｌｅｒ，ＲｅａｌｉｚａｔｉｏｎｏｆＰｒｏｓｏｄｉｃＦｅａｔｕｒｅｓｉｎＷｈｉｓｐｅｒｅｄＳｐｅｅｃｈ，Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，２９，ｐｐ．１０４−１０６．（１９５７）
（３）松田、粕屋、ささやき声の音響特性と音声合成法、信学技報ＳＰ９９−６（１９９９）
（４）伊藤、武田、板倉、“囁き声の音声認識のための音響分析に関する検討”２００１年日音秋期大会演題１−Ｑ−３３．
（５）（例えば）ｈｔｔｐ：／／ｗｗｗ．ｋｌａｂ．ｅｅ．ｕｔｓｕｎｏｍｉｙａ−ｕ．ａｃ．ｊｐ／〜ｔａｋａｈｉｒｏ／ｒｅｓｅａｒｃｈ．ｈｔｍｌ．
（６）Ｊ．Ｂ．Ｔｈｏｍａｓ，ＦｅｒｃｅｉｖｅｄＰｉｔｃｈｏｆＷｈｉｓｐｅｒｅｄＶｏｗｅｌｓ，Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．，４６，ｐｐ．４６８−４７０，（１９６９）

本発明の背景事情を説明するための囁き声の周波数スペクトラム写真であり、特に高いピッチの声を出したつもりの囁き声には周波数スペクトラム上特徴的な変化がある事を示す。横軸は時間、縦軸は周波数、輝度（ないし白さ）が信号強度を意味する。本発明の１つの好ましい実施例におけるピッチ制御関数の例を示す。横軸は時間、縦軸はピッチ周波数を意味する。本発明の１つの好ましい実施例における出力調整用のコンプロマイズフィルタの一例を示す周波数特性図である。横軸は周波数であり、フルスケールはサンプリングレートの半分である。縦軸は振幅（伝送量）である。本発明の１つの好ましい実施例における囁き声入力の周波数スペクトラム写真である。横軸はサンプル番号すなわち時刻、縦軸は周波数、濃度が信号振幅を意味する。これは本文の中で写真１として説明されている。本発明の１つの好ましい実施例における囁き声入力を可変ピッチ自己相関ボコーダーにより変換して得られた疑似有声音声の周波数スペクトログラムの写真である。これは本文中に写真２として説明されている。本発明の１つの好ましい実施例におけるＦＦＴ−ｉＦＦＴ型のボコーダーの要点を示す処理ブロック図である。本発明の１つの好ましい実施例における自己相関型ボコーダーの要点を示す処理ブロック図である。

Claims

ささやき声を入力して通常の有声音声に擬似的に変換する装置であって、フィルタされた入力信号の時変性短時間自己相関を別途抑揚入力握りレバーなどにより手動入力された抑揚の制御情報すなわち時変的なピッチ制御情報に基づいて繰り返し再生する形の自己相関ボコーダーである事を特徴とする、該装置。
ささやき声を入力して通常の有声音声に擬似的に変換する装置であって、フィルタされた入力信号の時変性短時間自己相関を繰り返し再生する形の自己相関ボコーダーであり、有声区間に該当する時間帯には該繰り返し再生に付す自己相関の原点近傍を太らせて持ち上げる事を特徴とする、該装置。