JP2019035894A - 音声処理装置および音声処理方法 - Google Patents
音声処理装置および音声処理方法 Download PDFInfo
- Publication number
- JP2019035894A JP2019035894A JP2017158012A JP2017158012A JP2019035894A JP 2019035894 A JP2019035894 A JP 2019035894A JP 2017158012 A JP2017158012 A JP 2017158012A JP 2017158012 A JP2017158012 A JP 2017158012A JP 2019035894 A JP2019035894 A JP 2019035894A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- noise
- unit
- uttered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】本発明は、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能な音声処理装置および音声処理方法に関する。
【解決手段】本発明による音声処理装置1は、発話音声に対応する合成音声を生成する合成音声生成部2と、発話音声に含まれるノイズを除去するノイズ除去部3と、合成音声生成部2が生成した合成音声と、ノイズ除去部3がノイズを除去した発話音声とを重ね合わせる音声重ね合わせ部4とを備える。
【選択図】図1
【解決手段】本発明による音声処理装置1は、発話音声に対応する合成音声を生成する合成音声生成部2と、発話音声に含まれるノイズを除去するノイズ除去部3と、合成音声生成部2が生成した合成音声と、ノイズ除去部3がノイズを除去した発話音声とを重ね合わせる音声重ね合わせ部4とを備える。
【選択図】図1
Description
本発明は、通信回線を介して話者間で通話する際に音声処理を行う音声処理装置および音声処理方法に関する。
通信回線を介して話者間で通話する際に、発話音声にノイズが含まれることがある。特に、走行中の自動車の車内で通話する際には、自動車の走行音、自動車のエンジン音、および車内の空調音など、発生するタイミングまたは音量が不安定なノイズが発話音声に含まれることが多い。このようなノイズが発話音声に含まれると、話者が発話音声を聞き辛くなるという問題がある。
従来、発話音声に含まれるノイズを低減する技術としてノイズリダクションがある。また、発話音声の一部を合成音声に置き換える技術が開示されている(例えば、特許文献1,2,3参照)。
ノイズリダクションは、発話音声に含まれるノイズの周波数成分を除去しているが、このとき本来必要な音声の周波数成分も一部除去されてしまう。従って、ノイズリダクションを行った後の発話音声は音質が低下し、こもった音声または聞き辛い音声になってしまうという問題がある。また、発話音声の一部を合成音声に置き換えた場合、合成音声の部分では話者のニュアンスが失われてしまい自然な会話ができないという問題がある。
本発明は、このような問題を解決するためになされたものであり、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能な音声処理装置および音声処理方法を提供することを目的とする。
上記の課題を解決するために、本発明による音声処理装置は、発話音声に対応する合成音声を生成する合成音声生成部と、発話音声に含まれるノイズを除去するノイズ除去部と、合成音声生成部が生成した合成音声と、ノイズ除去部がノイズを除去した発話音声とを重ね合わせる音声重ね合わせ部とを備える。
また、本発明による音声処理方法は、発話音声に対応する合成音声を生成し、発話音声に含まれるノイズを除去し、生成した合成音声と、ノイズを除去した発話音声とを重ね合わせる。
本発明によれば、音声処理装置は、発話音声に対応する合成音声を生成する合成音声生成部と、発話音声に含まれるノイズを除去するノイズ除去部と、合成音声生成部が生成した合成音声と、ノイズ除去部がノイズを除去した発話音声とを重ね合わせる音声重ね合わせ部とを備えるため、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能となる。
また、音声処理方法は、発話音声に対応する合成音声を生成し、発話音声に含まれるノイズを除去し、生成した合成音声と、ノイズを除去した発話音声とを重ね合わせるため、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能となる。
本発明の実施の形態について、図面に基づいて以下に説明する。
<実施の形態>
<構成>
図1は、本発明の実施の形態による音声処理装置1の構成の一例を示すブロック図である。なお、図1では、本実施の形態による音声処理装置を構成する必要最小限の構成を示している。
<構成>
図1は、本発明の実施の形態による音声処理装置1の構成の一例を示すブロック図である。なお、図1では、本実施の形態による音声処理装置を構成する必要最小限の構成を示している。
図1に示すように、音声処理装置1は、合成音声生成部2と、ノイズ除去部3と、音声重ね合わせ部4とを備えている。合成音声生成部2は、発話音声に対応する合成音声を生成する。ノイズ除去部3は、発話音声に含まれるノイズを除去する。音声重ね合わせ部4は、合成音声生成部2が生成した合成音声と、ノイズ除去部3がノイズを除去した発話音声とを重ね合わせる。
次に、図1に示す音声処理装置1を含む音声処理装置の他の構成について説明する。
図2は、他の構成に係る音声処理装置5の構成の一例を示すブロック図である。
図2に示すように、音声処理装置5は、合成音声生成部2と、ノイズ除去部3と、音声重ね合わせ部4と、音声取得部6と、音声解析部7と、通信処理部8とを備えている。音声取得部6は、マイク9に接続されている。通信処理部8は、通信回線を介して外部装置10と通信可能に接続されている。
音声取得部6は、マイク9を介して話者が発した音声を発話音声として取得する。ノイズ除去部3は、音声取得部6が取得した発話音声に含まれるノイズを除去する。このとき、ノイズ除去部3は、発話音声に含まれるノイズの量を測定する。なお、発話音声に含まれるノイズの除去、および発話音声に含まれるノイズの量の測定は、一般的なノイズリダクションを用いて行えばよい。
音声解析部7は、音声取得部6が取得した発話音声を解析し、音構成データとテキストデータとを抽出する。音構成データは、話者が発した音声の成分を示す音構成データであり、音声の周波数成分、音量、およびタイミングのデータを含んでいる。なお、音声の周波数成分および音量のデータは、時系列の変化量を含んでいる。テキストデータは、話者が発した言葉を文字列化したテキストデータであり、単語および文脈の意味を含んでいる。
合成音声生成部2は、音声解析部7が抽出した音構成データとテキストデータとを合成する。合成音声生成部2が生成した合成音声には、ノイズが含まれていない。なお、音構成データとテキストデータとの合成は、周知の技術(例えば、特開2002−108378号公報を参照)を用いて行えばよい。
音声重ね合わせ部4は、合成音声生成部2が生成した合成音声と、ノイズ除去部3がノイズを除去した発話音声とを重ね合わせる。具体的には、音声重ね合わせ部4は、ノイズ除去部3が測定したノイズの量に応じて、合成音声と、ノイズを除去した発話音声との重ね合わせを調整する。詳細については後述する。
通信処理部8は、音声重ね合わせ部4で重ね合わされた音声を、通信回線を介して外部装置10に送信する処理を行う。外部装置10では、音声処理装置5から受信した音声をスピーカ11から出力する。なお、外部装置10としては、携帯通信端末、または通話機能を有するナビゲーション装置などが挙げられる。
図3は、音声処理装置5をナビゲーション装置12に適用した場合の一例を示すブロック図である。なお、音声処理装置1についても同様である。ナビゲーション装置12は、外部装置10との間で通話することが可能な機能を有している。図3では、音声処理装置5をナビゲーション装置12に適用した場合を一例として示しているが、これに限るものではない。例えば、音声処理装置5を携帯通信端末に適用することも可能である。
ナビゲーション装置12は、CPU(Central Processing Unit)13と、メモリ14と、映像プロセッサ15と、ディスプレイ16と、音声プロセッサ17と、マイク18と、スピーカ19と、通信モジュール20とを備えている。これらは、図3中において破線で囲まれており、ナビゲーション装置12のハードウェア構成である。
また、ナビゲーション装置12は、音声処理部21と、通信処理部22と、映像処理部23と、その他機能処理部24と、制御部25とを備えている。これらは、ナビゲーション装置12のソフトウェア構成である。
音声処理装置5における合成音声生成部2、ノイズ除去部3、音声重ね合わせ部4、音声取得部6、および音声解析部7は、ナビゲーション装置12における音声処理部21に含まれている。音声処理装置5における通信処理部8は、ナビゲーション装置12における通信処理部22に含まれている。音声処理装置5に接続されているマイク9は、ナビゲーション装置12におけるマイク18に対応している。
メモリ14には、映像プロセッサ15、音声プロセッサ17、および通信モジュール20を制御するためのプログラムを記憶している。CPU13は、メモリ14に記憶されたプログラムを読み出して、映像プロセッサ15、音声プロセッサ17、または通信モジュール20を制御する。ここで、CPU13は、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)ともいう。メモリ14は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等、または、今後使用されるあらゆる記憶媒体であってもよい。
映像プロセッサ15は、CPU13の指示に従って、映像処理部23で処理された映像をディスプレイ16に出力する。音声プロセッサ17は、CPU13の指示に従って、マイク18から入力された発話音声を音声処理部21に出力する。また、音声プロセッサ17は、CPU13の指示に従って、音声処理部21で処理された音声をスピーカ19から外部に出力する。通信モジュール20は、CPU13の指示に従って、通信処理部22で処理された音声を外部装置10に送信する。また、通信モジュール20は、CPU13の指示に従って、外部装置10から受信した音声を通信処理部22に出力する。
また、メモリ14には、音声処理部21、通信処理部22、映像処理部23、その他機能処理部24、および制御部25の各機能を実行するプログラムを記憶している。CPU13は、メモリ14に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。音声処理部21は、制御部25の制御によって、音声処理装置5における合成音声生成部2、ノイズ除去部3、音声重ね合わせ部4、音声取得部6、および音声解析部7と同様の処理を行う。また、音声処理部21は、制御部25の制御によって、外部装置10から受信した音声に対して受信処理を行う。通信処理部22は、制御部25の制御によって、音声処理部21で処理された音声を外部装置10に送信する処理を行う。また、通信処理部22は、制御部25の制御によって、外部装置10から受信した音声を音声処理部21に出力する。映像処理部23は、制御部25の制御によって、映像をディスプレイ16に表示する処理を行う。その他機能処理部24は、制御部25の制御によって、映像処理、音声処理、および通信処理以外の処理を行う。例えば、その他機能処理部24は、現在位置から目的地までの経路を探索する経路探索処理を行う機能、探索した経路に沿って現在位置から目的地まで案内する経路案内処理を行う機能を含んでいる。制御部25は、CPU13の指示に従って、音声処理部21、通信処理部22、映像処理部23、およびその他機能処理部24の制御を行う。
なお、ディスプレイ16、マイク18、およびスピーカ19は、ナビゲーション装置12が備えるのではなく、ナビゲーション装置12の外部に設けてもよい。
<動作>
図4は、音声処理装置5の動作の一例を示すフローチャートである。
図4は、音声処理装置5の動作の一例を示すフローチャートである。
ステップS1において、音声取得部6は、マイク9を介して話者が発した音声を発話音声として取得する。ステップS2において、音声解析部7は、ステップS1で音声取得部6が取得した発話音声から音構成データおよびテキストデータを抽出する。ステップS3において、合成音声生成部2は、ステップS2で音声解析部7が抽出した音構成データおよびテキストデータを合成して合成音声を生成する。
ステップS4において、ノイズ除去部3は、ステップS1で音声取得部6が取得した発話音声に含まれるノイズの量を測定する。ここで、ノイズの量とは、発話音声に含まれる必要な音声の周波数成分以外の周波数成分、すなわちノイズの周波数成分のことをいう。
ステップS5において、ノイズ除去部3は、発話音声に含まれるノイズを除去する。具体的には、ノイズ除去部3が発話音声からノイズを除去する際における、目標となるノイズの量を予め設定しておく。ノイズ除去部3は、ステップS4で測定したノイズの量が、予め設定した目標のノイズの量となるようにノイズの除去を行う。
ステップS6において、ノイズ除去部3は、発話音声から除去したノイズの量が予め定められた閾値以下であるか否かを判断する。発話音声から除去したノイズの量は、ステップS4で測定した発話音声に含まれるノイズの量と、予め設定した目標のノイズの量との差である。除去したノイズの量が閾値以下である場合は、ステップS7に移行する。一方、除去したノイズの量が閾値よりも多い場合は、ステップS8に移行する。
ステップS7において、音声重ね合わせ部4は、ステップS5でノイズ除去部3がノイズを除去した発話音声の方が、ステップS3で合成音声生成部2が生成した合成音声よりも割合が多くなるように、合成音声と、ノイズを除去した発話音声とを重ね合わせる。すなわち、音声重ね合わせ部4は、ステップS5でノイズ除去部3が除去したノイズの量に応じて、合成音声と、ノイズを除去した発話音声との重ね合わせを調整する。
具体的には、図5に示すように、ステップS1で音声取得部6が取得した発話音声に含まれるノイズの量が少ない場合、ノイズ除去部3で除去されるノイズの量が少ないため、ノイズを除去した発話音声の音質はあまり低下していない。従って、音声重ね合わせ部4は、ノイズを除去した発話音声の方が、合成音声よりも割合が多くなるように両者を重ね合わせる。これにより、音声重ね合わせ部4で重ね合わされた出力音声は、ノイズが少なく、かつ話者のニュアンスが失われない自然な発話音声となる。
ステップS8において、音声重ね合わせ部4は、ステップS3で合成音声生成部2が生成した合成音声の方が、ステップS5でノイズ除去部3がノイズを除去した発話音声よりも割合が多くなるように、合成音声と、ノイズを除去した発話音声とを重ね合わせる。すなわち、ステップS7の処理と同様、音声重ね合わせ部4は、ステップS5でノイズ除去部3が除去したノイズの量に応じて、合成音声と、ノイズを除去した発話音声との重ね合わせを調整する。
具体的には、図6に示すように、ステップS1で音声取得部6が取得した発話音声に含まれるノイズの量が多い場合、ノイズ除去部3で除去されるノイズの量が多いため、ノイズを除去した発話音声は、ノイズは少なくなるが音質が低下して聞き辛くなる。従って、音声重ね合わせ部4は、合成音声の方が、ノイズを除去した発話音声よりも割合が多くなるように両者を重ね合わせる。これにより、音声重ね合わせ部4で重ね合わされた出力音声は、ノイズが少なく、かつ音声重ね合わせ部4によって重ね合わされた出力音声ほどの話者のニュアンスはないが、聞き取りやすく自然な発話音声となる。
ステップS9において、通信処理部8は、ステップS7またはステップS8で音声重ね合わせ部4によって重ね合わされた出力音声を、外部装置10に送信する。外部装置10では、音声処理装置5から受信した出力音声をスピーカ11から出力する。これにより、外部装置10のユーザは、音声処理装置5のユーザが発した音声を聞くことができる。
なお、ステップS7およびステップS8において、合成音声と、ノイズを除去した発話音声との重ね合わせの調整は、予め任意に設定しておくことができる。例えば、ノイズ除去部3が除去したノイズの量に応じて、合成音声と、ノイズを除去した発話音声とを重ね合わせる割合を段階的に設定してもよく、連続的に設定してもよい。
ステップS6における閾値は、ユーザが任意に設定してもよい。例えば、発話音声に含まれるノイズの量が多少多くても話者のニュアンスを重視する場合は、閾値を高く設定する。話者のニュアンスが多少失われても発話内容を重視する場合は、閾値を低く設定する。また、言語に応じて閾値を設定してもよい。
ステップS7およびステップS8において、音声重ね合わせ部4で重ね合わせる合成音声と、ノイズを除去した発話音声とを同期させる必要がある。従って、音声解析部7および合成音声生成部2で要する処理時間と、ノイズ除去部3で要する処理時間とに差がある場合は、いずれか速い方の処理に対して遅延処理を行い、音声重ね合わせ部4で重ね合わせる合成音声と、ノイズを除去した発話音声とを同期させるようにしておいてもよい。また、音声解析部7が抽出した音構成データに含まれるタイミングのデータを用いて、合成音声と、ノイズを除去した発話音声とを同期するようにしてもよい。
以上のことから、本実施の形態によれば、発話音声に含まれるノイズの量が少ない場合はノイズを除去した発話音声の割合が多くなるように重ね合わせ、発話音声に含まれるノイズの量が多い場合は合成音声の割合が多くなるように重ね合わせる。これにより、通信回線を介して話者間で通話する際にノイズが少なくかつ自然な発話音声を生成する処理を行うことが可能となる。
以上で説明した音声処理装置は、車載用ナビゲーション装置、すなわちカーナビゲーション装置だけでなく、車両に搭載可能なPND(Portable Navigation Device)および携帯通信端末(例えば、携帯電話、スマートフォン、およびタブレット端末など)、並びに車両の外部に設けられるサーバなどを適宜に組み合わせてシステムとして構築されるナビゲーション装置あるいはナビゲーション装置以外の装置にも適用することができる。この場合、音声処理装置の各機能あるいは各構成要素は、上記システムを構築する各機能に分散して配置される。
具体的には、一例として、音声処理装置の機能をサーバに配置することができる。例えば、図7に示すように、ユーザ側は、マイク9を備えている。サーバ26は、合成音声生成部2、ノイズ除去部3、音声重ね合わせ部4、音声取得部6、音声解析部7、および通信処理部8を備えている。このような構成とすることによって、音声処理システムを構築することができる。
このように、音声処理装置の各機能を、システムを構築する各機能に分散して配置した構成であっても、上記の実施の形態と同様の効果が得られる。
また、上記の実施の形態における動作を実行するソフトウェアを、例えばサーバに組み込んでもよい。このソフトウェアをサーバが実行することにより実現される音声処理方法は、発話音声に対応する合成音声を生成し、発話音声に含まれるノイズを除去し、生成した合成音声と、ノイズを除去した発話音声とを重ね合わせる。
このように、上記の実施の形態における動作を実行するソフトウェアをサーバに組み込んで動作させることによって、上記の実施の形態と同様の効果が得られる。
なお、本発明は、その発明の範囲内において、実施の形態を適宜、変形、省略することが可能である。
1 音声処理装置、2 合成音声生成部、3 ノイズ除去部、4 音声重ね合わせ部、5 音声処理装置、6 音声取得部、7 音声解析部、8 通信処理部、9 マイク、10 外部装置、11 スピーカ、12 ナビゲーション装置、13 CPU、14 メモリ、15 映像プロセッサ、16 ディスプレイ、17 音声プロセッサ、18 マイク、19 スピーカ、20 通信モジュール、21 音声処理部、22 通信処理部、23 映像処理部、24 その他機能処理部、25 制御部、26 サーバ。
Claims (6)
- 発話音声に対応する合成音声を生成する合成音声生成部と、
前記発話音声に含まれるノイズを除去するノイズ除去部と、
前記合成音声生成部が生成した前記合成音声と、前記ノイズ除去部が前記ノイズを除去した前記発話音声とを重ね合わせる音声重ね合わせ部と、
を備える、音声処理装置。 - 前記発話音声を解析し、発話した音声の成分を示す音構成データと、発話した言葉を文字列化したテキストデータとを抽出する音声解析部をさらに備え、
前記合成音声生成部は、前記音声解析部が抽出した前記音構成データと前記テキストデータとを合成して前記合成音声を生成することを特徴とする、請求項1に記載の音声処理装置。 - 前記音声重ね合わせ部は、前記ノイズ除去部が除去したノイズの量に応じて前記重ね合わせを調整することを特徴とする、請求項1または2に記載の音声処理装置。
- 前記ノイズ除去部が除去したノイズの量が予め定められた閾値以下である場合、
前記音声重ね合わせ部は、前記ノイズを除去した前記発話音声の方が、前記合成音声よりも割合が多くなるように前記重ね合わせを調整することを特徴とする、請求項3に記載の音声処理装置。 - 前記ノイズ除去部が除去したノイズの量が予め定められた閾値よりも大きい場合、
前記音声重ね合わせ部は、前記合成音声の方が、前記ノイズを除去した前記発話音声よりも割合が多くなるように前記重ね合わせを調整することを特徴とする、請求項3または4に記載の音声処理装置。 - 発話音声に対応する合成音声を生成し、
前記発話音声に含まれるノイズを除去し、
前記生成した前記合成音声と、前記ノイズを除去した前記発話音声とを重ね合わせる、音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017158012A JP2019035894A (ja) | 2017-08-18 | 2017-08-18 | 音声処理装置および音声処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017158012A JP2019035894A (ja) | 2017-08-18 | 2017-08-18 | 音声処理装置および音声処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019035894A true JP2019035894A (ja) | 2019-03-07 |
Family
ID=65637560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017158012A Pending JP2019035894A (ja) | 2017-08-18 | 2017-08-18 | 音声処理装置および音声処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019035894A (ja) |
-
2017
- 2017-08-18 JP JP2017158012A patent/JP2019035894A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7427723B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
EP3002754A1 (en) | System and method for processing an audio signal captured from a microphone | |
JP2018054790A (ja) | 音声対話システムおよび音声対話方法 | |
JP2016535305A (ja) | 自閉症における言語処理向上のための装置 | |
CN113571047B (zh) | 一种音频数据的处理方法、装置及设备 | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
US11367457B2 (en) | Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof | |
JP4752516B2 (ja) | 音声対話装置および音声対話方法 | |
JP2019113636A (ja) | 音声認識システム | |
KR101850693B1 (ko) | 인-이어 마이크로폰을 갖는 이어셋의 대역폭 확장 장치 및 방법 | |
CN113409756B (zh) | 语音合成方法、系统、设备及存储介质 | |
JP4564416B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2019117324A (ja) | 音声出力装置、音声出力方法、及び音声出力プログラム | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
JP2019035894A (ja) | 音声処理装置および音声処理方法 | |
JP2019110447A (ja) | 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム | |
JP2011180416A (ja) | 音声合成装置、音声合成方法およびカーナビゲーションシステム | |
CN111916095B (zh) | 语音增强方法、装置、存储介质及电子设备 | |
JP2013186428A (ja) | 音声合成装置 | |
JP6044490B2 (ja) | 情報処理装置、話速データ生成方法、及びプログラム | |
JP2009210868A (ja) | 音声処理装置、及び音声処理方法等 | |
WO2016088241A1 (ja) | 音声処理システム及び音声処理方法 | |
ES2953623T3 (es) | Asistente de voz virtual con precisión de reconocimiento mejorada | |
JP2014197072A (ja) | 音声合成システム、及び音声合成方法 | |
JP6786018B2 (ja) | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |