JP2019035894A

JP2019035894A - 音声処理装置および音声処理方法

Info

Publication number: JP2019035894A
Application number: JP2017158012A
Authority: JP
Inventors: 宏祐菅原; Hirosuke Sugawara
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2019-03-07

Abstract

【課題】本発明は、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能な音声処理装置および音声処理方法に関する。
【解決手段】本発明による音声処理装置１は、発話音声に対応する合成音声を生成する合成音声生成部２と、発話音声に含まれるノイズを除去するノイズ除去部３と、合成音声生成部２が生成した合成音声と、ノイズ除去部３がノイズを除去した発話音声とを重ね合わせる音声重ね合わせ部４とを備える。
【選択図】図１

Description

本発明は、通信回線を介して話者間で通話する際に音声処理を行う音声処理装置および音声処理方法に関する。

通信回線を介して話者間で通話する際に、発話音声にノイズが含まれることがある。特に、走行中の自動車の車内で通話する際には、自動車の走行音、自動車のエンジン音、および車内の空調音など、発生するタイミングまたは音量が不安定なノイズが発話音声に含まれることが多い。このようなノイズが発話音声に含まれると、話者が発話音声を聞き辛くなるという問題がある。

従来、発話音声に含まれるノイズを低減する技術としてノイズリダクションがある。また、発話音声の一部を合成音声に置き換える技術が開示されている（例えば、特許文献１，２，３参照）。

特開２０１１−２４２６３７号公報特開２００９−２０２６４号公報特開２００４−２７２１２８号公報

ノイズリダクションは、発話音声に含まれるノイズの周波数成分を除去しているが、このとき本来必要な音声の周波数成分も一部除去されてしまう。従って、ノイズリダクションを行った後の発話音声は音質が低下し、こもった音声または聞き辛い音声になってしまうという問題がある。また、発話音声の一部を合成音声に置き換えた場合、合成音声の部分では話者のニュアンスが失われてしまい自然な会話ができないという問題がある。

本発明は、このような問題を解決するためになされたものであり、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能な音声処理装置および音声処理方法を提供することを目的とする。

上記の課題を解決するために、本発明による音声処理装置は、発話音声に対応する合成音声を生成する合成音声生成部と、発話音声に含まれるノイズを除去するノイズ除去部と、合成音声生成部が生成した合成音声と、ノイズ除去部がノイズを除去した発話音声とを重ね合わせる音声重ね合わせ部とを備える。

また、本発明による音声処理方法は、発話音声に対応する合成音声を生成し、発話音声に含まれるノイズを除去し、生成した合成音声と、ノイズを除去した発話音声とを重ね合わせる。

本発明によれば、音声処理装置は、発話音声に対応する合成音声を生成する合成音声生成部と、発話音声に含まれるノイズを除去するノイズ除去部と、合成音声生成部が生成した合成音声と、ノイズ除去部がノイズを除去した発話音声とを重ね合わせる音声重ね合わせ部とを備えるため、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能となる。

また、音声処理方法は、発話音声に対応する合成音声を生成し、発話音声に含まれるノイズを除去し、生成した合成音声と、ノイズを除去した発話音声とを重ね合わせるため、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能となる。

本発明の実施の形態による音声処理装置の構成の一例を示すブロック図である。本発明の実施の形態による音声処理装置の構成の一例を示すブロック図である。本発明の実施の形態による音声処理装置をナビゲーション装置に適用した場合の一例を示すブロック図である。本発明の実施の形態による音声処理装置の動作の一例を示すフローチャートである。本発明の実施の形態による音声処理装置の動作を説明するための図である。本発明の実施の形態による音声処理装置の動作を説明するための図である。本発明の実施の形態による音声処理システムの構成の一例を示すブロック図である。

本発明の実施の形態について、図面に基づいて以下に説明する。

＜実施の形態＞
＜構成＞
図１は、本発明の実施の形態による音声処理装置１の構成の一例を示すブロック図である。なお、図１では、本実施の形態による音声処理装置を構成する必要最小限の構成を示している。

図１に示すように、音声処理装置１は、合成音声生成部２と、ノイズ除去部３と、音声重ね合わせ部４とを備えている。合成音声生成部２は、発話音声に対応する合成音声を生成する。ノイズ除去部３は、発話音声に含まれるノイズを除去する。音声重ね合わせ部４は、合成音声生成部２が生成した合成音声と、ノイズ除去部３がノイズを除去した発話音声とを重ね合わせる。

次に、図１に示す音声処理装置１を含む音声処理装置の他の構成について説明する。

図２は、他の構成に係る音声処理装置５の構成の一例を示すブロック図である。

図２に示すように、音声処理装置５は、合成音声生成部２と、ノイズ除去部３と、音声重ね合わせ部４と、音声取得部６と、音声解析部７と、通信処理部８とを備えている。音声取得部６は、マイク９に接続されている。通信処理部８は、通信回線を介して外部装置１０と通信可能に接続されている。

音声取得部６は、マイク９を介して話者が発した音声を発話音声として取得する。ノイズ除去部３は、音声取得部６が取得した発話音声に含まれるノイズを除去する。このとき、ノイズ除去部３は、発話音声に含まれるノイズの量を測定する。なお、発話音声に含まれるノイズの除去、および発話音声に含まれるノイズの量の測定は、一般的なノイズリダクションを用いて行えばよい。

音声解析部７は、音声取得部６が取得した発話音声を解析し、音構成データとテキストデータとを抽出する。音構成データは、話者が発した音声の成分を示す音構成データであり、音声の周波数成分、音量、およびタイミングのデータを含んでいる。なお、音声の周波数成分および音量のデータは、時系列の変化量を含んでいる。テキストデータは、話者が発した言葉を文字列化したテキストデータであり、単語および文脈の意味を含んでいる。

合成音声生成部２は、音声解析部７が抽出した音構成データとテキストデータとを合成する。合成音声生成部２が生成した合成音声には、ノイズが含まれていない。なお、音構成データとテキストデータとの合成は、周知の技術（例えば、特開２００２−１０８３７８号公報を参照）を用いて行えばよい。

音声重ね合わせ部４は、合成音声生成部２が生成した合成音声と、ノイズ除去部３がノイズを除去した発話音声とを重ね合わせる。具体的には、音声重ね合わせ部４は、ノイズ除去部３が測定したノイズの量に応じて、合成音声と、ノイズを除去した発話音声との重ね合わせを調整する。詳細については後述する。

通信処理部８は、音声重ね合わせ部４で重ね合わされた音声を、通信回線を介して外部装置１０に送信する処理を行う。外部装置１０では、音声処理装置５から受信した音声をスピーカ１１から出力する。なお、外部装置１０としては、携帯通信端末、または通話機能を有するナビゲーション装置などが挙げられる。

図３は、音声処理装置５をナビゲーション装置１２に適用した場合の一例を示すブロック図である。なお、音声処理装置１についても同様である。ナビゲーション装置１２は、外部装置１０との間で通話することが可能な機能を有している。図３では、音声処理装置５をナビゲーション装置１２に適用した場合を一例として示しているが、これに限るものではない。例えば、音声処理装置５を携帯通信端末に適用することも可能である。

ナビゲーション装置１２は、ＣＰＵ（Central Processing Unit）１３と、メモリ１４と、映像プロセッサ１５と、ディスプレイ１６と、音声プロセッサ１７と、マイク１８と、スピーカ１９と、通信モジュール２０とを備えている。これらは、図３中において破線で囲まれており、ナビゲーション装置１２のハードウェア構成である。

また、ナビゲーション装置１２は、音声処理部２１と、通信処理部２２と、映像処理部２３と、その他機能処理部２４と、制御部２５とを備えている。これらは、ナビゲーション装置１２のソフトウェア構成である。

音声処理装置５における合成音声生成部２、ノイズ除去部３、音声重ね合わせ部４、音声取得部６、および音声解析部７は、ナビゲーション装置１２における音声処理部２１に含まれている。音声処理装置５における通信処理部８は、ナビゲーション装置１２における通信処理部２２に含まれている。音声処理装置５に接続されているマイク９は、ナビゲーション装置１２におけるマイク１８に対応している。

メモリ１４には、映像プロセッサ１５、音声プロセッサ１７、および通信モジュール２０を制御するためのプログラムを記憶している。ＣＰＵ１３は、メモリ１４に記憶されたプログラムを読み出して、映像プロセッサ１５、音声プロセッサ１７、または通信モジュール２０を制御する。ここで、ＣＰＵ１３は、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）ともいう。メモリ１４は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等、または、今後使用されるあらゆる記憶媒体であってもよい。

映像プロセッサ１５は、ＣＰＵ１３の指示に従って、映像処理部２３で処理された映像をディスプレイ１６に出力する。音声プロセッサ１７は、ＣＰＵ１３の指示に従って、マイク１８から入力された発話音声を音声処理部２１に出力する。また、音声プロセッサ１７は、ＣＰＵ１３の指示に従って、音声処理部２１で処理された音声をスピーカ１９から外部に出力する。通信モジュール２０は、ＣＰＵ１３の指示に従って、通信処理部２２で処理された音声を外部装置１０に送信する。また、通信モジュール２０は、ＣＰＵ１３の指示に従って、外部装置１０から受信した音声を通信処理部２２に出力する。

また、メモリ１４には、音声処理部２１、通信処理部２２、映像処理部２３、その他機能処理部２４、および制御部２５の各機能を実行するプログラムを記憶している。ＣＰＵ１３は、メモリ１４に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。音声処理部２１は、制御部２５の制御によって、音声処理装置５における合成音声生成部２、ノイズ除去部３、音声重ね合わせ部４、音声取得部６、および音声解析部７と同様の処理を行う。また、音声処理部２１は、制御部２５の制御によって、外部装置１０から受信した音声に対して受信処理を行う。通信処理部２２は、制御部２５の制御によって、音声処理部２１で処理された音声を外部装置１０に送信する処理を行う。また、通信処理部２２は、制御部２５の制御によって、外部装置１０から受信した音声を音声処理部２１に出力する。映像処理部２３は、制御部２５の制御によって、映像をディスプレイ１６に表示する処理を行う。その他機能処理部２４は、制御部２５の制御によって、映像処理、音声処理、および通信処理以外の処理を行う。例えば、その他機能処理部２４は、現在位置から目的地までの経路を探索する経路探索処理を行う機能、探索した経路に沿って現在位置から目的地まで案内する経路案内処理を行う機能を含んでいる。制御部２５は、ＣＰＵ１３の指示に従って、音声処理部２１、通信処理部２２、映像処理部２３、およびその他機能処理部２４の制御を行う。

なお、ディスプレイ１６、マイク１８、およびスピーカ１９は、ナビゲーション装置１２が備えるのではなく、ナビゲーション装置１２の外部に設けてもよい。

＜動作＞
図４は、音声処理装置５の動作の一例を示すフローチャートである。

ステップＳ１において、音声取得部６は、マイク９を介して話者が発した音声を発話音声として取得する。ステップＳ２において、音声解析部７は、ステップＳ１で音声取得部６が取得した発話音声から音構成データおよびテキストデータを抽出する。ステップＳ３において、合成音声生成部２は、ステップＳ２で音声解析部７が抽出した音構成データおよびテキストデータを合成して合成音声を生成する。

ステップＳ４において、ノイズ除去部３は、ステップＳ１で音声取得部６が取得した発話音声に含まれるノイズの量を測定する。ここで、ノイズの量とは、発話音声に含まれる必要な音声の周波数成分以外の周波数成分、すなわちノイズの周波数成分のことをいう。

ステップＳ５において、ノイズ除去部３は、発話音声に含まれるノイズを除去する。具体的には、ノイズ除去部３が発話音声からノイズを除去する際における、目標となるノイズの量を予め設定しておく。ノイズ除去部３は、ステップＳ４で測定したノイズの量が、予め設定した目標のノイズの量となるようにノイズの除去を行う。

ステップＳ６において、ノイズ除去部３は、発話音声から除去したノイズの量が予め定められた閾値以下であるか否かを判断する。発話音声から除去したノイズの量は、ステップＳ４で測定した発話音声に含まれるノイズの量と、予め設定した目標のノイズの量との差である。除去したノイズの量が閾値以下である場合は、ステップＳ７に移行する。一方、除去したノイズの量が閾値よりも多い場合は、ステップＳ８に移行する。

ステップＳ７において、音声重ね合わせ部４は、ステップＳ５でノイズ除去部３がノイズを除去した発話音声の方が、ステップＳ３で合成音声生成部２が生成した合成音声よりも割合が多くなるように、合成音声と、ノイズを除去した発話音声とを重ね合わせる。すなわち、音声重ね合わせ部４は、ステップＳ５でノイズ除去部３が除去したノイズの量に応じて、合成音声と、ノイズを除去した発話音声との重ね合わせを調整する。

具体的には、図５に示すように、ステップＳ１で音声取得部６が取得した発話音声に含まれるノイズの量が少ない場合、ノイズ除去部３で除去されるノイズの量が少ないため、ノイズを除去した発話音声の音質はあまり低下していない。従って、音声重ね合わせ部４は、ノイズを除去した発話音声の方が、合成音声よりも割合が多くなるように両者を重ね合わせる。これにより、音声重ね合わせ部４で重ね合わされた出力音声は、ノイズが少なく、かつ話者のニュアンスが失われない自然な発話音声となる。

ステップＳ８において、音声重ね合わせ部４は、ステップＳ３で合成音声生成部２が生成した合成音声の方が、ステップＳ５でノイズ除去部３がノイズを除去した発話音声よりも割合が多くなるように、合成音声と、ノイズを除去した発話音声とを重ね合わせる。すなわち、ステップＳ７の処理と同様、音声重ね合わせ部４は、ステップＳ５でノイズ除去部３が除去したノイズの量に応じて、合成音声と、ノイズを除去した発話音声との重ね合わせを調整する。

具体的には、図６に示すように、ステップＳ１で音声取得部６が取得した発話音声に含まれるノイズの量が多い場合、ノイズ除去部３で除去されるノイズの量が多いため、ノイズを除去した発話音声は、ノイズは少なくなるが音質が低下して聞き辛くなる。従って、音声重ね合わせ部４は、合成音声の方が、ノイズを除去した発話音声よりも割合が多くなるように両者を重ね合わせる。これにより、音声重ね合わせ部４で重ね合わされた出力音声は、ノイズが少なく、かつ音声重ね合わせ部４によって重ね合わされた出力音声ほどの話者のニュアンスはないが、聞き取りやすく自然な発話音声となる。

ステップＳ９において、通信処理部８は、ステップＳ７またはステップＳ８で音声重ね合わせ部４によって重ね合わされた出力音声を、外部装置１０に送信する。外部装置１０では、音声処理装置５から受信した出力音声をスピーカ１１から出力する。これにより、外部装置１０のユーザは、音声処理装置５のユーザが発した音声を聞くことができる。

なお、ステップＳ７およびステップＳ８において、合成音声と、ノイズを除去した発話音声との重ね合わせの調整は、予め任意に設定しておくことができる。例えば、ノイズ除去部３が除去したノイズの量に応じて、合成音声と、ノイズを除去した発話音声とを重ね合わせる割合を段階的に設定してもよく、連続的に設定してもよい。

ステップＳ６における閾値は、ユーザが任意に設定してもよい。例えば、発話音声に含まれるノイズの量が多少多くても話者のニュアンスを重視する場合は、閾値を高く設定する。話者のニュアンスが多少失われても発話内容を重視する場合は、閾値を低く設定する。また、言語に応じて閾値を設定してもよい。

ステップＳ７およびステップＳ８において、音声重ね合わせ部４で重ね合わせる合成音声と、ノイズを除去した発話音声とを同期させる必要がある。従って、音声解析部７および合成音声生成部２で要する処理時間と、ノイズ除去部３で要する処理時間とに差がある場合は、いずれか速い方の処理に対して遅延処理を行い、音声重ね合わせ部４で重ね合わせる合成音声と、ノイズを除去した発話音声とを同期させるようにしておいてもよい。また、音声解析部７が抽出した音構成データに含まれるタイミングのデータを用いて、合成音声と、ノイズを除去した発話音声とを同期するようにしてもよい。

以上のことから、本実施の形態によれば、発話音声に含まれるノイズの量が少ない場合はノイズを除去した発話音声の割合が多くなるように重ね合わせ、発話音声に含まれるノイズの量が多い場合は合成音声の割合が多くなるように重ね合わせる。これにより、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能となる。

以上で説明した音声処理装置は、車載用ナビゲーション装置、すなわちカーナビゲーション装置だけでなく、車両に搭載可能なＰＮＤ（Portable Navigation Device）および携帯通信端末（例えば、携帯電話、スマートフォン、およびタブレット端末など）、並びに車両の外部に設けられるサーバなどを適宜に組み合わせてシステムとして構築されるナビゲーション装置あるいはナビゲーション装置以外の装置にも適用することができる。この場合、音声処理装置の各機能あるいは各構成要素は、上記システムを構築する各機能に分散して配置される。

具体的には、一例として、音声処理装置の機能をサーバに配置することができる。例えば、図７に示すように、ユーザ側は、マイク９を備えている。サーバ２６は、合成音声生成部２、ノイズ除去部３、音声重ね合わせ部４、音声取得部６、音声解析部７、および通信処理部８を備えている。このような構成とすることによって、音声処理システムを構築することができる。

このように、音声処理装置の各機能を、システムを構築する各機能に分散して配置した構成であっても、上記の実施の形態と同様の効果が得られる。

また、上記の実施の形態における動作を実行するソフトウェアを、例えばサーバに組み込んでもよい。このソフトウェアをサーバが実行することにより実現される音声処理方法は、発話音声に対応する合成音声を生成し、発話音声に含まれるノイズを除去し、生成した合成音声と、ノイズを除去した発話音声とを重ね合わせる。

このように、上記の実施の形態における動作を実行するソフトウェアをサーバに組み込んで動作させることによって、上記の実施の形態と同様の効果が得られる。

なお、本発明は、その発明の範囲内において、実施の形態を適宜、変形、省略することが可能である。

１音声処理装置、２合成音声生成部、３ノイズ除去部、４音声重ね合わせ部、５音声処理装置、６音声取得部、７音声解析部、８通信処理部、９マイク、１０外部装置、１１スピーカ、１２ナビゲーション装置、１３ＣＰＵ、１４メモリ、１５映像プロセッサ、１６ディスプレイ、１７音声プロセッサ、１８マイク、１９スピーカ、２０通信モジュール、２１音声処理部、２２通信処理部、２３映像処理部、２４その他機能処理部、２５制御部、２６サーバ。

Claims

発話音声に対応する合成音声を生成する合成音声生成部と、
前記発話音声に含まれるノイズを除去するノイズ除去部と、
前記合成音声生成部が生成した前記合成音声と、前記ノイズ除去部が前記ノイズを除去した前記発話音声とを重ね合わせる音声重ね合わせ部と、
を備える、音声処理装置。
前記発話音声を解析し、発話した音声の成分を示す音構成データと、発話した言葉を文字列化したテキストデータとを抽出する音声解析部をさらに備え、
前記合成音声生成部は、前記音声解析部が抽出した前記音構成データと前記テキストデータとを合成して前記合成音声を生成することを特徴とする、請求項１に記載の音声処理装置。
前記音声重ね合わせ部は、前記ノイズ除去部が除去したノイズの量に応じて前記重ね合わせを調整することを特徴とする、請求項１または２に記載の音声処理装置。
前記ノイズ除去部が除去したノイズの量が予め定められた閾値以下である場合、
前記音声重ね合わせ部は、前記ノイズを除去した前記発話音声の方が、前記合成音声よりも割合が多くなるように前記重ね合わせを調整することを特徴とする、請求項３に記載の音声処理装置。
前記ノイズ除去部が除去したノイズの量が予め定められた閾値よりも大きい場合、
前記音声重ね合わせ部は、前記合成音声の方が、前記ノイズを除去した前記発話音声よりも割合が多くなるように前記重ね合わせを調整することを特徴とする、請求項３または４に記載の音声処理装置。
発話音声に対応する合成音声を生成し、
前記発話音声に含まれるノイズを除去し、
前記生成した前記合成音声と、前記ノイズを除去した前記発話音声とを重ね合わせる、音声処理方法。