JP6730651B1

JP6730651B1 - 音声変換装置、音声変換システム及びプログラム

Info

Publication number: JP6730651B1
Application number: JP2019037889A
Authority: JP
Inventors: 靖士藪内
Original assignee: Fujitsu Client Computing Ltd
Current assignee: Fujitsu Client Computing Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2020-07-29
Anticipated expiration: 2039-03-01
Also published as: US20200279550A1; JP2020140178A

Abstract

【課題】咽頭摘出者等であっても、健常者に近い声質で音声出力を行うことにより聞き取り性を向上する。【解決手段】音声変換装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、音声変換と並行して入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、テキストデータを記憶する記憶部と、テキストデータの指定及び出力指示の入力がなされる入力操作部と、指定されたテキストデータに基づく音声合成信号を出力する音声合成部と、音声変換信号に基づいて音声出力を行うとともに、テキストデータが指定され、出力が指示された場合に、音声合成信号に基づく音声出力を行う音声出力部と、を備える。【選択図】図１

Description

本発明は、音声変換装置、音声変換システム及びプログラムに関する。

ささやき声や騒音下における音声は、周囲音と比較して音声のレベルが相対的に低くなるため、話し相手にとって聞き取り難い状態となる。
これは、電話やトランシーバにおいても音声を入力するためのマイクに入力される音声レベルが周囲音のレベルと比較して小さいため、聞き取り難い状態は同様であった。

また、咽頭摘出者の場合には、電気式人工咽頭（Electro artificial Larynx：以下、ＥＬ）や、食道発声法等の声帯を使用しない発声で会話を行うが、健常者との声質に大きな差があり、聞き取り相手に違和感をもたれることが多く、コミュニケーションに支障がでる虞があった。

特開２０００−９９１００号公報

これらを解決するための仕組みとして、従来音声を変換する音声変換装置（いわゆる、ボイスチェンジャ）という方法がある。
現在のコンピュータを用いたボイスチェンジャにおいては、音声変換対象の人物の本来の音声に近づけることが可能となっているが、ささやき声や、ＥＬによる変換音声は、通常の音声とは、音程や声色が異なるため、聞き取り性を向上させるのが難しいという問題点があった。

そこで、本発明は、咽頭摘出者等であっても、健常者に近い声質で音声出力を行うことにより聞き取り性を向上することが可能な音声変換装置、音声変換システム及びプログラムを提供することを目的としている。

上記課題を解決するため、本発明の第１態様にかかる音声変換装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、前記テキストデータを記憶する記憶部と、前記テキストデータの指定及び出力指示の入力がなされる入力操作部と、指定された前記テキストデータに基づく音声合成信号を出力する音声合成部と、前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う音声出力部と、を備える。

また、上記構成において、前記入力音声の音声分析を行い、前記音声合成用のパラメータを前記音声合成部に出力する音声分析部を備えるようにしてもよい。

また、前記入力音声の話者に対応する人物の表情を撮影した撮影画像の画像認識を行う画像認識部と、前記画像認識の結果に基づいて感情を推定し、前記音声合成用の第２のパラメータを前記音声合成部に出力する感情推定部と、を備えるようにしてもよい。

また、複数の前記テキストデータをリスト表示可能な表示部と、前記表示部に表示されているテキストデータを指定して、発話を指示する操作部と、を備えるようにしてもよい。

本発明の第２態様にかかる音声変換システムは、携帯端末装置と、前記携帯端末装置と通信ネットワークを介して接続された音声処理サーバと、を備えた音声変換システムであって、前記携帯端末装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、前記入力音声を前記通信ネットワークを介して送信するとともに、前記音声処理サーバから音声合成データを受信する第１通信部と、前記音声変換信号に基づいて音声出力を行うとともに、入力された音声合成データに基づいて音声出力を行う音声出力部と、を備え、前記音声処理サーバは、前記通信ネットワークを介して前記入力音声の受信及び前記音声合成データを送信する第２通信部と、受信した前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、前記テキストデータを記憶する記憶部と、指定された前記テキストデータに基づき前記音声合成データを生成する音声合成部と、を備える。

本発明の第３態様に係るプログラムは、入力音声を変換して出力する音声変換装置をコンピュータにより制御するためのプログラムであって、コンピュータを、入力音声の音声変換を行って音声変換信号を出力する手段と、前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する手段と、前記テキストデータを記憶する手段と、前記テキストデータの指定及び出力指示の入力がなされる手段と、指定された前記テキストデータに基づく音声合成信号を出力する手段と、前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う手段と、して機能させる。

本発明の上記態様によれば、健常者に近い声質で音声出力を行うことにより聞き取り性を向上することができる。

図１は、第１実施形態の音声変換装置の概要構成ブロック図である。図２は、実施形態の概要動作説明図である。図３は、音声変換装置の外観正面図の一例の説明図である。図４は、第２実施形態の音声変換システムの概要構成ブロック図である。

以下、図面を参照して本中継装置および情報処理システムに係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

［１］第１実施形態
図１は、第１実施形態の音声変換装置の概要構成ブロック図である。
音声変換装置１０は、大別すると、音声入力部１１と、音声変換部１２と、音声認識部１３と、テキスト化部１４と、音声分析部１５と、表情撮影部１６と、画像認識部１７と、感情推定部１８と、音声合成部１９と、音声出力部２０と、操作部２１と、表示部２２と、制御部２３と、を備えている。

ここで、音声変換装置１０は、実体的には、ＣＰＵなどの制御装置と、ＲＯＭ（Read Only Memory）やＲＡＭなどの記憶装置と、ＳＤＤなどの外部記憶装置と、ディスプレイ装置などの表示装置と、タッチパネル、メカニカルボタンなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっており、当該ハードウェア上で実行されるプログラムにより、上記各部（各手段）の機能を実現している。

音声入力部１１は、マイク及びマイクアンプを備え、発話者であるユーザの入力音声（例えば、ＥＬを用いて生成した音声）を入力音声信号に変換して出力する。
音声変換部１２は、入力音声信号に対応する音声の音声変換（音程変更及びフォルマント変更）を行って音声変換信号を出力する。

音声認識部１３は、入力音声信号に対応する音声の音声認識を行って音声認識データを出力する。
テキスト化部１４は、音声認識データに基づいて音声のテキスト化を行い、テキストデータとして記憶する。

音声分析部１５は、入力音声信号に対応する音声の音声分析（速さ、音程、大きさ等）を行って、第１音声合成用パラメータを生成し、出力する。
表情撮影部１６は、カメラを備え、発話者であるユーザの表情を推定可能な画像を含む撮像画像（顔画像等）を取得し、出力する。

画像認識部１７は、入力された撮像画像の画像認識を行い、感情推定に必要とされる各部（眼、口等）の画像を抽出する。
感情推定部１８は、画像認識部１７により抽出された画像に基づいて、撮像対象であり、発話者であるユーザの感情（喜怒哀楽等）を推定し、推定した感情に基づいて、第２音声合成用パラメータを生成し、出力する。

音声合成部１９は、入力されたテキストデータ、対応する第１音声合成用パラメータ及び第２音声合成用パラメータに基づいて音声合成データを生成し、記憶するとともに、音声合成データに基づき、音声合成を行い音声合成信号を出力する。

音声出力部２０は、音声変換部１２が出力した音声変換信号及び音声合成部１９が出力した音声合成信号に基づいて音声出力（発話）を行う。
操作部２１は、ユーザが各種操作を行う操作子が配置された操作パネル等として構成され、所望の音声出力を行わせるための選択操作等をふくむ各種操作をユーザが行う。

表示部２２は、ユーザに各種操作情報を提示（表示）するとともに、音声合成出力対象の候補情報等を提示する。
制御部２３は、音声変換装置１０を構成する各部の制御並びに音声変換装置１０全体の制御を行う。

上記構成において、音声変換部１２は、入力音声に対し、リアルタイムで出力可能であるが、音声合成部１９は、入力音声に対し、処理に要する時間の経過後以降に出力可能であり、入力音声に対し、若干の遅れが発生する。

次に実施形態の動作を説明する。
まず実施形態の概要動作を説明する。
図２は、実施形態の概要動作説明図である。
以下の説明においては、理解の容易のため、音声変換装置のユーザであるととともに、ＥＬの利用者である人物Ａが、人物Ｂと二人で会話している場合を想定するものとする。

人物Ｂが時刻ｔ０から発話を開始し、何らかの質問（例えば、「これは、○○ですか？」）を時刻ｔ１までの期間行ったとすると、人物Ａは、その間、人物Ｂの発話を傾聴する。
そして、時刻ｔ１から回答思案を行い、時刻ｔ２からＥＬを利用して発話を行い音声Ｃ２１（例えば、「これは、△△です。」）が出力されると、音声変換装置１０は、音声入力手段として機能し、音声入力処理を実行して、時刻ｔ３から音声変換による声質変換後の音声Ｃ２２（上述の例の場合、「これは、△△です。」）が、リアルタイムで生成されて出力される。

この音声変換による音声Ｃ２２の出力と並行して、音声変換装置１０は、音声認識手段、音声分析手段及び画像認識手段として機能し、時刻ｔ４から音声認識処理、音声分析処理及び画像認識処理を行うとともに、音声変換装置１０は、テキスト化手段、音声分析手段としても機能し、時刻ｔ５から発話準備処理を行う。
この発話準備処理は、入力音声のテキスト化、声の高さ、速さ、大きさ等に対応する音声合成に用いられる各種パラメータの調整等の音声合成の準備を行う。

その後、時刻ｔ６において、人物Ｂが音声Ｃ２１あるいは音声Ｃ２２による回答が聞き取れずに時刻ｔ０においてした質問の再質問を行った場合には、時刻ｔ７において、音声変換装置１０に対して、音声合成による発話指示を行うと、音声変換装置１０は、音声合成手段として機能し、発話準備が完了する時刻ｔ８において音声合成処理を開始し、時刻ｔ９から音声合成出力Ｃ２３を行う。

このような構成とすることにより、常時音声合成に必要な処理を行いつつ、音声Ｃ２１あるいは音声Ｃ２２による発話により意思疎通が図れた場合には、リアルタイムで会話を行えるとともに、聞き返された場合には、音声合成出力Ｃ２３による発話を行うことで、聞き取り性を向上させることができる。

このように必要性及び時間的に余裕があると考えられる場合についてのみ音声合成出力を会話に用いることにより、スムーズなコミュニケーションを図りつつ、複雑な会話も可能となるとともに、危険回避要求などの緊急性の高い発話等に関しては、リアルタイム性を確保することも可能となる。

さらには音声認識結果に基づいて機械操作、翻訳、情報提示（情報検索）等の補助的な動作を行わせることも可能となり、よりレベルの高いコミュニケーションを図ることも可能となる。

次に第１実施形態のより具体的な動作について説明する。
ユーザにより（例えば、ＥＬを利用した）発話が開始されると、音声変換装置１０の音声入力部１１は、ユーザの入力音声信号を入力音声信号に変換して音声変換部１２、音声認識部１３及び音声分析部１５に出力する。
これにより音声変換部１２は、入力音声信号に対応する音声の音声変換（音程変更及びフォルマント変更）を行ってリアルタイムに音声変換信号を音声出力部２０に出力する。
この結果、音声出力部２０からは、音声変換がなされた音声が出力される。

これと並行して音声認識部１３は、入力音声信号に対応する音声の音声認識を開始し、音声認識結果としての音声認識データをテキスト化部１４に出力する。
テキスト化部１４は、入力された音声認識データに基づいて音声のテキスト化を行い、テキストデータとして入力音声信号の入力タイミングに対応するタイムスタンプととともに記憶する。

また、音声認識部１３の処理と並行して、音声分析部１５は、入力音声信号に対応する音声の音声分析（速さ、音程、大きさ等）を行って、第１音声合成用パラメータ（発話速度、音程、発話音量等の音声合成基本パラメータ）を生成し、入力音声信号の入力タイミングに対応するタイムスタンプととともに音声合成部１９に出力する。

一方、表情撮影部１６は、カメラにより、発話者であるユーザの顔画像を含む撮像画像を取得し、撮像画像の取得タイミングに対応するタイムスタンプとともに画像認識部１７に出力する。
画像認識部１７は、入力された撮像画像の画像認識を行い、感情推定に必要とされる各部（眼、口等）の画像を抽出して、感情推定部１８に出力する。

これらの結果、感情推定部１８は、画像認識部１７により抽出された画像に基づいて、撮像対象であり、発話者であるユーザの感情（喜怒哀楽等）を推定し、推定した感情に基づいて、対応する撮像画像の取得タイミングに対応するタイムスタンプとともに第２音声合成用パラメータ（感情に応じた声質、発話速度、発話音量等の音声合成補正用パラメータ）を生成し音声合成部１９に出力する。

音声合成部１９は、それぞれのタイムスタンプに基づいて、入力されたテキストデータ、このテキストデータに対応する第１音声合成用パラメータ及び第２音声合成用パラメータを取得して音声合成データを生成し、記憶する。

さらに制御部２３は、ユーザにより操作部２１を介して音声合成対象の所望の音声出力の選択操作及び音声出力指示操作がなされると、当該選択操作に対応する音声合成を音声合成部１９に指示する。

ここで、音声合成対象の所望の音声出力の選択操作及び音声出力指示操作について詳細に説明する。
図３は、音声変換装置の外観正面図の一例の説明図である。
音声変換装置１０の筐体には、操作部２１及び表示部２２として機能するタッチパネルディスプレイＴＰと、音声入力部１１を構成するマイクＭＣと、表情撮影部１６を構成するカメラらＣＭと、音声出力部２０を構成するスピーカＳＰと、が設けられている。

図３の例では、タッチパネルディスプレイＴＰの上部には、表示部２２として、音声合成処理済みの発話履歴、すなわち、音声合成出力が可能な発話履歴のテキスト情報一覧がリストＬＳＴとして表示されている。

リストＬＳＴとしては、前々回の音声合成処理結果である「こんにちは」がテキスト情報Ｌ１として表示され、前回の音声合成処理結果である「こちらこそよろしくお願いします。」がテキスト情報Ｌ２として表示され、今回の音声合成処理結果である「はい。それは、○○です。」がテキスト情報Ｌ３として表示されている。

さらに、現在選択している音声合成処理結果がテキスト情報Ｌ３に対応するものであることを示すための選択マークＣＲ（図中、右向き黒三角で表示）及び選択フレームＳＦＬ（図中、太線枠で表示）が表示されている。

また、図３の例では、タッチパネルディスプレイＴＰの下部には、操作部としての操作ボタンＢ１〜Ｂ５が表示され、タッチ操作により操作可能となっている。

操作ボタンＢ１は、選択マークＣＲ及び選択フレームＳＦＬをリストＬＳＴの上方側に移動させるための操作子である。

操作ボタンＢ２は、選択マークＣＲ及び選択フレームＳＦＬをリストＬＳＴの下方側に移動させるための操作子である。

操作ボタンＢ３は、選択マークＣＲ及び選択フレームＳＦＬの表示に対応するテキスト情報を音声合成対象として選択確定するための選択確定ボタンとして機能する操作子である。

操作ボタンＢ４は、選択マークＣＲ及び選択フレームＳＦＬの表示に対応するテキスト情報を音声合成対象から解除するための選択解除ボタンとして機能する操作子である。

操作ボタンＢ５は、選択マークＣＲ及び選択フレームＳＦＬの表示に対応するテキスト情報に対応する音声合成を行わせて発話を行う発話ボタンとして機能する操作子である。

したがって、リストＬＳＴ上で、操作ボタンＢ１及び操作ボタンＢ２を操作して、所望のテキスト情報に対応する位置に選択マークＣＲ及び選択フレームＳＦＬを表示させた状態で、選択確定ボタンとしての操作ボタンＢ３を押圧し、さらに発話ボタンとしての操作ボタンＢ５を押圧することで、音声合成部１９は、当該選択操作に対応する音声合成データ（図３の例の場合、「はい。それは、○○です。」に対応）に基づき、音声合成を行い音声合成信号を音声出力部２０に出力する。

これにより、音声出力部２０は、音声合成部１９が出力した音声合成信号に基づいて音声出力（発話）を行う。

以上の説明のように、本第１実施形態によれば、リアルタイムで音声変換処理を行いつつ、常時音声合成に必要な処理を行い、リアルタイムの発話により意思疎通が図れた場合には、音声合成を行うことはないので、迅速な会話が可能であるとともに、聞き返された場合には、音声合成による発話を行うことで、聞き取り性を向上させることができる。

このように必要性及び時間的に余裕があると考えられる場合についてのみ音声合成出力を会話に用いることにより、コミュニケーションが滞ること無く、より理解を深めた会話を行うことができる。

［２］第２実施形態
図４は、第２実施形態の音声変換システムの概要構成ブロック図である。
図４において、図１と同様の部分には、同一の符号を付すものとする。
音声変換システム１００は、大別すると、音声変換装置１００Ａと、音声変換装置１００Ａと通信ネットワークを介して接続された音声変換サーバ１００Ｂと、を備えている。
音声変換装置１００Ａは、大別すると、音声入力部１１と、音声変換部１２と、表情撮影部１６と、音声合成部１９と、音声出力部２０と、操作部２１と、表示部２２と、制御部２３と、通信処理部３１と、を備えている。
上記構成において、音声入力部１１、音声変換部１２、表情撮影部１６、音声合成部１９、音声出力部２０、操作部２１、表示部２２及び制御部２３の構成については、第１実施形態と同様であるので、詳細な説明を援用する。

音声変換装置１００Ａの通信処理部３１は、音声入力部１１を介して入力された入力音声信号のアナログ／デジタル変換した入力音声データ及び表情撮影部１６が出力した撮像画像データを音声変換サーバ１００Ｂに送信するとともに、音声変換サーバ１００Ｂから受信した音声合成データを音声合成部１９に出力する。

音声変換サーバ１００Ｂは、音声認識手段としても音声認識部１３Ａと、テキスト化手段としてのテキスト化部１４Ａと、音声分析手段としての音声分析部１５Ａと、画像認識手段としての画像認識部１７Ａと、感情推定部１８Ａと、通信処理部４１と、制御部４２と、データ格納部４３と、を備えている。

ここで、音声変換装置１００Ａ及び音声変換サーバ（音声処理サーバ）１００Ｂは、実体的には、ＣＰＵなどの制御装置と、ＲＯＭ（Read Only Memory）やＲＡＭなどの記憶装置と、ＳＤＤ、ＨＤＤなどの外部記憶装置と、ディスプレイ装置などの表示装置と、タッチパネル、メカニカルボタン、キーボード、マウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっており、当該ハードウェア上で実行されるプログラムにより、上記各部（各手段）の機能を実現している。

上記構成において、音声認識部１３Ａ、テキスト化部１４Ａ、音声分析部１５Ａ、画像認識部１７Ａ及び感情推定部１８Ａは、第１実施携帯の音声変換装置１０における音声認識部１３、テキスト化部１４、音声分析部１５、画像認識部１７及び感情推定部１８と処理能力が複数の音声変換装置１００Ａに対応するものとなっているだけで、処理内容は同様であるので、その詳細な説明を援用するものとする。

音声変換サーバ１００Ｂの通信処理部４１は、音声変換装置１００Ａの通信処理部３１から受信した入力音声データのデジタル／アナログ変換を行って音声認識部１３Ａ及び音声分析部１５Ａに出力し、受信した撮像画像データを画像認識部１７Ａに出力するとともに、データ格納部４３に格納された音声合成用データを音声変換装置１００Ａの通信処理部３１に送信する。

制御部４２は、音声変換サーバ１００Ｂ全体を制御する。
データ格納部４３は、テキスト化部１４Ａ、音声分析部１５Ａ及び感情推定部１８Ａの処理結果に対応する音声合成用データを格納する。

次に第２実施形態の動作について説明する。
ユーザにより（ＥＬを利用した）発話が開始されると、音声変換装置１０の音声入力部１１は、ユーザの入力音声信号を入力音声信号に変換して音声変換部１２及び通信処理部３１に出力する。

これにより音声変換部１２は、入力音声信号に対応する音声の音声変換（音程変更及びフォルマント変更）を行ってリアルタイムに音声変換信号を音声出力部２０に出力する。
この結果、音声出力部２０からは、音声変換がなされた音声が出力される。

また、表情撮影部１６は、カメラにより、発話者であるユーザの顔画像を含む撮像画像を取得し、撮像画像の取得タイミングに対応するタイムスタンプとともに通信処理部３１に出力する。

通信処理部３１は、入力された入力音声信号のアナログ／デジタル変換した入力音声データ及び表情撮影部１６が出力した撮像画像データを音声変換サーバ１００Ｂに送信する。

これにより、音声変換サーバ１００Ｂの通信処理部４１は、音声変換装置１００Ａの通信処理部３１から受信した入力音声データのデジタル／アナログ変換を行って入力音声信号として音声認識部１３Ａ及び音声分析部１５Ａに出力し、受信した撮像画像データを画像認識部１７Ａに出力する。

これにより音声認識部１３Ａは、入力音声信号に対応する音声の音声認識を開始し、音声認識結果としての音声認識データをテキスト化部１４Ａに出力する。

テキスト化部１４Ａは、入力された音声認識データに基づいて音声のテキスト化を行い、テキストデータとして入力音声信号の入力タイミングに対応するタイムスタンプととともにデータ格納部４３に記憶する。

また、音声認識部１３Ａの処理と並行して、音声分析部１５は、入力音声信号に対応する音声の音声分析（速さ、音程、大きさ等）を行って、第１音声合成用パラメータ（発話速度、音程、発話音量等の音声合成基本パラメータ）を生成し、入力音声信号の入力タイミングに対応するタイムスタンプととともにデータ格納部４３に記憶する。

画像認識部１７Ａは、入力された撮像画像の画像認識を行い、感情推定に必要とされる各部（眼、口等）の画像を抽出して、感情推定部１８Ａに出力する。

これらの結果、感情推定部１８Ａは、画像認識部１７により抽出された画像に基づいて、撮像対象であり、発話者であるユーザの感情（喜怒哀楽等）を推定し、推定した感情に基づいて、対応する撮像画像の取得タイミングに対応するタイムスタンプとともに第２音声合成用パラメータ（感情に応じた声質、発話速度、発話音量等の音声合成補正用パラメータ）を生成しデータ格納部４３に記憶する。

これにより、音声変換サーバ１００Ｂの制御部４２は、音声合成の対象となるデータをデータ格納記憶部４３に格納している旨をテキストデータとともに、通信処理部４１を介して、音声変換装置１００Ａに通知する。

この結果、音声変換装置１００Ａの制御部２３は、表示部２３に図３に示した様な画面を表示させ、ユーザにより操作部２１を介して音声合成対象の所望の音声出力の選択操作及び音声出力指示操作がなされると、当該選択操作に対応する音声合成データ（＝テキストデータ、このテキストデータに対応する第１音声合成用パラメータ及び第２音声合成用パラメータ）を音声変換サーバ１００Ｂから受信する。なお、通信能力及び音声変換装置１００Ａの記憶容量に余裕があるのであれば、当該音声変換装置１００Ａに対応する全ての音声合成データを音声変換装置１００Ａに予めダウンロードしておくようにすることも可能である。

通信処理部３１を介して音声合成データを受信した音声合成部１９は、それぞれのタイムスタンプに基づいて、入力されたテキストデータ、このテキストデータに対応する第１音声合成用パラメータ及び第２音声合成用パラメータを取得して音声合成を行い音声合成信号を音声出力部２０に出力する。

以上の説明のように、本第２実施形態によれば、第１実施形態の効果に加えて、音声変換装置１００Ａの処理負荷を低減することができ、装置の小型化及び製造コストの低減を図ることが可能となる。

以上の各実施形態の説明においては、入力音声として、ＥＬを用いて生成した音声を例として説明したが、入力音声としては、食道発声法等により生成した音声、健常者による通常音声（囁き声、騒音環境下の音声を含む）等任意に適用が可能である。
本実施形態の音声変換装置あるいは音声処理サーバで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、ＵＳＢメモリ、メモリカード等の半導体記憶装置、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態の音声変換装置あるいは音声処理サーバで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の音声変換装置あるいは音声処理サーバで実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の音声変換装置あるいは音声処理サーバで実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

［３］実施形態の他の態様
以上の実施形態に関し、さらに他の態様について記載する。
［３．１］第１の他の態様
実施形態の第１の他の態様の音声変換装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、前記テキストデータを記憶する記憶部と、前記テキストデータの指定及び出力指示の入力がなされる入力操作部と、指定された前記テキストデータに基づく音声合成信号を出力する音声合成部と、前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う音声出力部と、を備える。
上記構成によれば、リアルタイムで音声変換処理を行いつつ、常時音声合成に必要な処理を行い、リアルタイムの発話により意思疎通が図れた場合には、音声合成を行うことはないので、迅速な会話が可能である。さらに実際のユーザの発話あるいは音声変換処理による発話では、理解が不十分であった場合などには、音声合成による発話を行うことで、聞き取り性を向上させることができる。
［３．２］第２の他の態様
実施形態の第２の他の態様の音声変換装置は、前記入力音声の音声分析を行い、前記音声合成用のパラメータを前記音声合成部に出力する音声分析部を備える。
上記構成によれば、音声分析結果を音声合成に用いることで、より自然な発話が行える。
［３．３］第３の他の態様
実施形態の第３の他の態様の音声変換装置は、前記入力音声の話者に対応する人物の表情を撮影した撮影画像の画像認識を行う画像認識部と、前記画像認識の結果に基づいて感情を推定し、前記音声合成用の第２のパラメータを前記音声合成部に出力する感情推定部と、を備える。
上記構成によれば、話者の表情から得られる感情状態を音声合成に反映することができ、話者の感情も含めたより自然な発話が行える。
［３．４］第４の他の態様
実施形態の第４の他の態様の音声変換装置は、複数の前記テキストデータをリスト表示可能な表示部と、前記表示部に表示されているテキストデータを指定して、発話を指示する操作部と、を備える。
上記構成によれば、繰り返し同一の発話を行ったり、必要な発話のみを行うことで、よりスムーズなコミュニケーションを図ることができる。
［３．５］第５の他の態様
実施形態の第５の他の態様の音声変換システムは、携帯端末装置と、前記携帯端末装置と通信ネットワークを介して接続された音声処理サーバと、を備えた音声変換システムであって、前記携帯端末装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、前記入力音声を前記通信ネットワークを介して送信するとともに、前記音声処理サーバから音声合成データを受信する第１通信部と、前記音声変換信号に基づいて音声出力を行うとともに、入力された音声合成データに基づいて音声出力を行う音声出力部と、を備え、前記音声処理サーバは、前記通信ネットワークを介して前記入力音声の受信及び前記音声合成データを送信する第２通信部と、受信した前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、前記テキストデータを記憶する記憶部と、指定された前記テキストデータに基づき前記音声合成データを生成する音声合成部と、を備えた音声変換システムである。
上記構成によれば、リアルタイムで音声変換処理を行いつつ、常時音声合成に必要な処理を行い、リアルタイムの発話により意思疎通が図れた場合には、音声合成を行うことはないので、迅速な会話が可能である。さらに実際のユーザの発話あるいは音声変換処理による発話では、理解が不十分であった場合などには、音声合成による発話を行うことで、聞き取り性を向上させることができるとともに、携帯端末装置側の処理負荷を低減して容易にシステム構築及び運用が行える。
［３．６］第６の他の態様
実施形態の第５の他の態様のプログラムは、入力音声を変換して出力する音声変換装置をコンピュータにより制御するためのプログラムであって、前記コンピュータを、入力音声の音声変換を行って音声変換信号を出力する手段と、前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する手段と、前記テキストデータを記憶する手段と、前記テキストデータの指定及び出力指示の入力がなされる手段と、指定された前記テキストデータに基づく音声合成信号を出力する手段と、前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う手段と、して機能させるプログラムである。
上記構成によれば、リアルタイムで音声変換処理を行いつつ、常時音声合成に必要な処理を行い、リアルタイムの発話により意思疎通が図れた場合には、音声合成を行うことはないので、迅速な会話が可能である。さらに実際のユーザの発話あるいは音声変換処理による発話では、理解が不十分であった場合などには、音声合成による発話を行うことで、聞き取り性を向上させることができる。

１０音声変換装置
１１音声入力部
１２音声変換部
１３、１３Ａ音声認識部
１４、１４Ａテキスト化部
１５、１５Ａ音声分析部
１６表情撮影部
１７、１７Ａ画像認識部
１８、１８Ａ感情推定部
１９音声合成部
２０音声出力部
２１操作部
２２表示部
２３、４２制御部
３１通信処理部（第１通信部）
４１通信処理部（第２通信部）
４３データ格納部

Claims

入力音声の音声変換を行って音声変換信号を出力する音声変換部と、
前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、
前記テキストデータを記憶する記憶部と、
前記テキストデータの指定及び出力指示の入力がなされる入力操作部と、
指定された前記テキストデータに基づく音声合成信号を出力する音声合成部と、
前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う音声出力部と、
を備えた音声変換装置。
前記入力音声の音声分析を行い、前記音声合成用のパラメータを前記音声合成部に出力する音声分析部を備えた、
請求項１記載の音声変換装置。
前記入力音声の話者に対応する人物の表情を撮影した撮影画像の画像認識を行う画像認識部と、
前記画像認識の結果に基づいて感情を推定し、前記音声合成用の第２のパラメータを前記音声合成部に出力する感情推定部と、
を備えた請求項１又は請求項２記載の音声変換装置。
複数の前記テキストデータをリスト表示可能な表示部と、
前記表示部に表示されているテキストデータを指定して、発話を指示する操作部と、
を備えた請求項１乃至請求項３のいずれか一項記載の音声変換装置。
携帯端末装置と、前記携帯端末装置と通信ネットワークを介して接続された音声処理サーバと、を備えた音声変換システムであって、
前記携帯端末装置は、入力音声の音声変換を行って音声変換信号を出力する音声変換部と、
前記入力音声を前記通信ネットワークを介して送信するとともに、前記音声処理サーバから音声合成データを受信する第１通信部と、
前記音声変換信号に基づいて音声出力を行うとともに、入力された音声合成データに基づいて音声出力を行う音声出力部と、を備え、
前記音声処理サーバは、
前記通信ネットワークを介して前記入力音声の受信及び前記音声合成データを送信する第２通信部と、
受信した前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する音声処理部と、
前記テキストデータを記憶する記憶部と、
指定された前記テキストデータに基づき前記音声合成データを生成する音声合成部と、
を備えた音声変換システム。
入力音声を変換して出力する音声変換装置をコンピュータにより制御するためのプログラムであって、
前記コンピュータを、
入力音声の音声変換を行って音声変換信号を出力する手段と、
前記音声変換と並行して前記入力音声の音声認識を行い、音声合成用のテキストデータを順次出力する手段と、
前記テキストデータを記憶する手段と、
前記テキストデータの指定及び出力指示の入力がなされる手段と、
指定された前記テキストデータに基づく音声合成信号を出力する手段と、
前記音声変換信号に基づいて音声出力を行うとともに、前記テキストデータが指定され、出力が指示された場合に、前記音声合成信号に基づく音声出力を行う手段と、
して機能させるプログラム。