JP2012194510A

JP2012194510A - 音声処理装置

Info

Publication number: JP2012194510A
Application number: JP2011060345A
Authority: JP
Inventors: Hiroomi Shidoji; 広臣四童子; Susumu Sawabei; 進澤米
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-03-18
Filing date: 2011-03-18
Publication date: 2012-10-11

Abstract

【課題】発話音声の低音を豊かにして聞きやすい音声にするとともに、内容を聞き取りやすい音色にすることが可能な音声処理装置を提供する。
【解決手段】発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部、口唇から耳介へ音声が回り込む経路の伝達特性を持つ第１フィルタ、口唇の放射特性の逆特性を持つ第２フィルタ、口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つ第３フィルタを備え、第２フィルタと第３フィルタを直列に接続して第２処理部を形成し、入力された発話音声を第１フィルタおよび前記第２処理部に入力し、出力された音声信号を加算して出力する。
【選択図】図２

Description

この発明は、話者が発話した音声を処理する音声処理装置に関する。

発話音声を聞き取りやすくするため、音声の特徴を強調する処理が種々提案されている。たとえば、子音は母音に比べてエネルギが小さく聞き取り難いため、子音の周波数帯域を強調し、子音のエネルギを増やすという手法が提案されている（たとえば特許文献１参照）。

また、特許文献１の装置では、母音のフォルマント構造のピークとディップの差を広げることにより、聴取者に母音を知覚しやすくする処理も行っている。

特開平０７−１５３１８８号公報

上記手法は、主として高音域を持ち上げる手法であるため、シャープな音色になり明瞭度は高くなるが、チリチリした耳障りな音になるうえ、軽くいわゆる安っぽい音色になるという問題点があった。

この発明は、発話音声の低音を豊かにして聞きやすい音声にするとともに、内容を聞き取りやすい音色にすることが可能な音声処理装置を提供することを目的とする。

請求項１の発明は、発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部と、口唇から耳介へ音声が回り込む空間経路の伝達特性を持つ第１フィルタと、口唇の放射特性の逆特性を持つ第２フィルタと、口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つ第３フィルタと、を備え、
前記第１フィルタは第１処理部を形成し、前記第２フィルタと前記第３フィルタは直列に接続されて第２処理部を形成し、前記音声入力部から入力された発話音声は、前記第１処理部および前記第２処理部に入力され、さらに、前記第１処理部から出力された音声信号および前記第２処理部から出力された音声信号を加算して出力する加算器を備えたことを特徴とする。

請求項２の発明は、前記第１処理部から出力された音声信号、および、前記第２処理部から出力された音声信号のゲインを調整するゲイン調整部を備えたことを特徴とする。

請求項３の発明は、前記加算器から出力された音声信号に、さらに前記音声入力部から入力された発話音声を加算する第２の加算器を備えたことを特徴とする。

請求項４の発明は、前記第１フィルタは、前記発話者の口唇から耳介へ音声が回り込む空間経路の伝達特性を持つものであり、前記第２フィルタは、前記発話者の口唇の放射特性の逆特性を持つものであり、前記第３フィルタは、前記発話者の口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つものであることを特徴とする。

請求項５の発明は、発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部と、前記発話音声が入力され、口唇の放射特性の逆特性を持つフィルタと、前記フィルタから出力された音声信号に前記発話音声を加算する加算器と、を備えたことを特徴とする。

この発明によれば、発話時に発話者自身に聴こえるような音声に処理することにより、低音が豊かな聞きやすい音声であり且つ内容を聞き取りやすい音声にすることができる。

この発明によって模擬される人の発声の原理を説明する図この発明の実施形態である音声処理装置のブロック図同音声処理装置の変形例を示す図同音声処理装置の変形例を示す図同音声処理装置の変形例を示す図

まず、本発明によって模擬される人の発声の原理について説明する。話者１００の肺から吐き出された息が声門（声帯）１０１を振動させて音（空気振動）を生起し、この音が、口腔を含む声道１０２で共鳴して音声（口腔内音声）となる。この口腔内音声が口唇１０３を介して空気中に放射された音声（音声１）が、話し相手が聴いたりマイクで収音される音声である。音声１は、口唇１０３通過時の伝達特性Ｈ１（口唇放射特性）により、口腔内音声とは異なる周波数特性を持つ。なお、口唇放射特性は話者の固体的特徴にそれほど影響されず、一般的に＋６ｄＢ／ｏｃｔの周波数特性の傾斜で模擬される。

一方、話者１００自身は、この音声１とは異なる周波数特性の音声を聴いている。話者１００は、音声１が自己の頭蓋１０４に沿って回り込んで耳介１０５へ到達した音声（音声２）、および、口腔を含む声道１０２から頭蓋１０４内の骨や肉を伝達して直接内耳１０６へ到達した音声（音声３）を合成したものを聴いている。このように、話者１００が自分自身で聴く音声（音声２＋音声３）と空気中に放射された音声（音声１）すなわち他者が聴く音声とは、周波数特性すなわち声質が相当程度異なっている。録音された自分の声を再生すると、自分の声と全く異なるような印象を受けるのはこのためである。

一般的に、話者１００自身に聴こえる自分の音声は、空気中に放射される音声よりも、低音域が豊かで良く響く、いわゆるマイルドな声である場合が多い。一般的に良い声と言われるものである。

そこで、この発明では、空気中に放射された音声を、話者１００自身に聴こえている「良い声」に変換する装置を実現する。

図２はこの発明の実施形態である音声処理装置１のブロック図である。入力部ＩＮＰＵＴからは音声１が入力される。この音声１は、話者１００が発声したものをマイクで収音して直接入力してもよく、一旦録音されたものを再生して入力してもよい。入力した音声１は２つの処理部で並列に処理される。第１処理部１１１は、図１の伝達経路２を模擬したものであり、話者１００の頭蓋１０４に沿って口唇１０３から耳介１０５へ至る空間経路の伝達特性Ｈ２を持つフィルタ１０が設けられている。第２処理部１１２は、図１の伝達経路３を模擬したものであり、口唇１０３による音声の放射特性Ｈ１の逆特性Ｈ−１を持つフィルタ１１、および、口腔を含む声道１０２から頭蓋１０４内の骨や肉を介して内耳１０６に至る経路の伝達特性Ｈ３を模した特性を有するフィルタ１２が直列に接続された構造を有している。フィルタ１１は、口唇放射特性Ｈ１の逆特性にされていることにより、空気中に放射された音声１を口腔内音声に戻す機能を有する。なお、フィルタ１１およびフィルタ１２は、伝達特性が合成された１つのフィルタで構成されていてもよい。

そして、これらの２つの処理部で処理され加算器１３で加算されたた音声Ｓが音声出力部ＯＵＴＰＵＴから出力される。この音声Ｓが、話者１００が発話したときに自分自身に聴こえる音声に近いものになっている。音声Ｓは、話者１００が自分自身で聴いて違和感がなく、また、他者が聴いても低音の周波数帯域が豊かでよく響き、聞きやすく言語の了解度も高いものになっている。

また、図２の実施形態では、第１処理部１１１と第２処理部１１２の音量比を調整するため、加算器１３の手前に各処理部ごとのゲインを調整するゲイン調整部１４（１４Ａ，１４Ｂ）が設けられている。また、加算後の音量を調整するために加算器１３の後段にゲイン調整部１５が設けられている。ゲイン調整部１４は、第１処理部１１１で処理した音声と第２処理部１１２で処理した音声の混合比率を調整することで音質を調整する。また、フィルタ１０、１１、１２の設計によっては、入力信号（音声１）と出力信号（音声Ｓ）との音量差が大きくなり違和感を生じる場合がある。この場合にゲイン調整部１５で入力信号と出力信号とのレベル差を補償する。

音声処理装置１で特定の話者１００の発話音声（音声１）を変換する場合には、フィルタ１０、１１、１２の伝達特性として、その話者１００の口唇１０３および頭蓋１０４の伝達特性を設定するのが最良である。特定の話者１００の伝達経路２の伝達特性の測定は、たとえば以下のような方法で測定することができる。マイクロフォンを２つ用意し、一方は話者１００の外耳道内に入れ、もう一方は口唇１０３から１メートルほど前方に設置する。話者１００に母音を発話させて２つのマイクロフォンで収音し、両者の周波数特性の差を求める。この差が伝達経路２の伝達特性である。

特定の話者１００の発話音声を変換する場合には、上記のように、その話者１００にパーソナライズしたフィルタ特性を設定することが理想的であるが、実際に測定するのは面倒または困難であるため、その顔形状から伝達特性を推定してフィルタを設定してもよい。たとえば、「太っていて丸顔であれば、顔の肉厚が厚いと推定できるので、高域の減衰量を増やし、第２処理部１１２の出力ゲインが小さくなるように設定する。また、口唇放射特性の逆特性はおおよそ−６ｄＢ／ｏｃｔで減衰する周波数特性のフィルタで近似されることが多いが、話者１００の口唇１０３の分厚さに応じてカットオフ周波数を変更する。」などである。

以上の説明では、実施形態の音声処理装置１を、特定の話者１００の発話音声（音声１）を、発話時に話者１００自身に聴こえている音声に変換する装置として説明したが、標準的な頭蓋モデルの伝達特性をフィルタ１０、１１、１２に設定して、音声処理装置１を任意の話者の音声を処理する装置として使用することも可能である。

任意の話者の発話音声を上記設定の音声処理装置１で処理することにより、その話者自身に聴こえる音声に完全に似るとは限らないが、自分自身に聴こえる音声に類似した低音が豊かでまろやかな音声にすることが可能である。

この場合には、処理する音声に応じて第１処理部１１１および第２処理部１１２のゲインを調整する。たとえば、熟練したアナウンサの音声のように、元々低音域の量感が豊かな音声については、過剰に処理すると却って悪影響を与える可能性があるため、第２処理部１１２のゲインを絞るようにすればよい。

また、このような場合に備え、図３に示すように、入力される音声（音声１）の低音域のエネルギを随時測定するエネルギ測定部１６を設け、エネルギ測定部１６の検出値に応じてゲイン調整部１４を制御して第２処理部１１２のゲインを調整するようにしてもよい。

また、図４に示すように、図２に示した音声処理装置１を音声処理部２０として設け、処理された音声Ｓと原音（音声１）とをさらに加算混合する加算器２１、および、原音と音声Ｓのゲインを調整するゲイン調整部２２（２２Ａ、２２Ｂ）を設けた構成にしてもよい。

また、図２に示した第１処理部１１１、第２処理部１１２の処理を全て行うことが理想的であるが、音声１を口唇放射特性の逆特性Ｈ−１のフィルタ１１で処理するのみでも、口唇１０３によって削られた低音域が再現された豊かでまろやかな音声にすることが可能である。そこで、図５に示すように、原音（音声１）をフィルタ１１で処理し、この処理された音声と原音（音声１）とを加算混合する加算器２５、および、両音声のゲインを調整するゲイン調整部２６（２６Ａ、２６Ｂ）を設けた構成にすることも可能である。

また、第２処理部１１２に耳介から内耳に至る経路の伝達特性の逆特性を持つフィルタを直列に接続してもよい。これは、頭蓋１０４の肉や骨を伝搬して直接内耳１０６に到達する音声は、耳介から内耳の経路を通過しないが、音声処理装置１で処理された音声を聴く聴取者は、この音声を耳介から取り込んで鼓膜を介して聴くからである。

この音声処理装置は、以下の適用例に示すように種々の機器に適用が可能である。

テレビ：オーディオ信号の処理回路にこの音声処理装置１を組み込んでおき、アナウンスなどの人声を検出したとき、その音声を音声処理装置１に通して聞き取りやすい音声に変換する。これにより、音声が理解しやすくなるとともに、カリカリしたいわゆるヒステリックな音がまろやかになる。

カラオケ：歌唱音声をこの音声処理装置１で処理することにより、低音域が豊かな、いわゆる「良い声」に加工することができる。これにより、歌唱者が歌いやすくなるとともに、声が加工されているため聴いていて楽しく、歌唱を盛り上げることができる。

携帯電話を含む電話：周波数帯域が高音域、低音域ともにカットされている通話音声を聞き取りやすくするとともに、狭い周波数帯域のなかで自分の声らしい音質にして伝送することが可能になる。

１音声処理装置
１０、１１、１２フィルタ

Claims

発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部と、
口唇から耳介へ音声が回り込む空間経路の伝達特性を持つ第１フィルタと、
口唇の放射特性の逆特性を持つ第２フィルタと、
口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つ第３フィルタと、
を備え、
前記第１フィルタは第１処理部を形成し、前記第２フィルタと前記第３フィルタは直列に接続されて第２処理部を形成し、
前記音声入力部から入力された発話音声は、前記第１処理部および前記第２処理部に入力され、
さらに、前記第１処理部から出力された音声信号および前記第２処理部から出力された音声信号を加算して出力する加算器を備えた音声処理装置。
前記第１処理部から出力された音声信号、および、前記第２処理部から出力された音声信号のゲインを調整するゲイン調整部を備えた請求項１に記載の音声処理装置。
前記加算器から出力された音声信号に、さらに前記音声入力部から入力された発話音声を加算する第２の加算器を備えた請求項１または請求項２に記載の音声処理装置。
前記第１フィルタは、前記発話者の口唇から耳介へ音声が回り込む空間経路の伝達特性を持つものであり、
前記第２フィルタは、前記発話者の口唇の放射特性の逆特性を持つものであり、
前記第３フィルタは、前記発話者の口唇内部の口腔から頭蓋の骨肉を介して内耳に到達する経路の伝達特性を持つものである
請求項１、請求項２または請求項３に記載の音声処理装置。
発話者の口腔から口唇を介して空間に放射された発話音声を入力する音声入力部と、
前記発話音声が入力され、口唇の放射特性の逆特性を持つフィルタと、
前記フィルタから出力された音声信号に前記発話音声を加算する加算器と、
を備えた音声処理装置。