JP6277597B2

JP6277597B2 - 音声翻訳装置、音声翻訳方法及びプログラム

Info

Publication number: JP6277597B2
Application number: JP2013089358A
Authority: JP
Inventors: 宮地　徹; 徹宮地; 出嶌　達也; 達也出嶌
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2013-04-22
Filing date: 2013-04-22
Publication date: 2018-02-14
Anticipated expiration: 2033-04-22
Also published as: JP2014215302A

Description

本発明は、音声翻訳装置、音声翻訳方法及びプログラムに関する。

従来、入力された音声を認識して得られる文字データに対して機械翻訳を実行し、機械翻訳された文字データを音声に変換して出力する音声翻訳装置が知られている（例えば、特許文献１参照）。

特開２００１−１１７９２２号公報

しかしながら、特許文献１に記載された音声翻訳装置では、機械翻訳された文字データが違和感のない音声に変換されて出力されるため、出力された音声が面白みに欠けるという問題があった。

本発明は、このような事情に鑑みてなされたもので、機械翻訳された文字データに基づいて出力された音声に面白みを持たせる音声翻訳装置を提供することを目的とする。

上記目的を達成するため、本発明の一態様の音声翻訳装置は、
第１言語で発声された音声のデータに基づいて、前記音声のピッチの時系列の変化を示すピッチエンベロープである第１ピッチエンベロープを検出するピッチ検出手段と、
前記第１言語で発声された音声のデータを音声認識するとともに、前記音声認識した内容を表わした前記第１言語に属する文字データを生成する文字データ生成手段と、
前記文字データ生成手段により生成された前記文字データを、前記第１言語とは異なる第２言語に翻訳するとともに、前記翻訳された内容を前記第２言語に属する文字のデータに変換する文字データ変換手段と、
前記文字データ変換手段により変換された、前記第２言語に属する前記文字のデータに対応する前記ピッチエンベロープである第２ピッチエンベロープを取得するピッチ取得手段と、
前記ピッチ取得手段により取得された前記第２ピッチエンベロープの時系列の変化を平滑化するピッチ平滑化手段と、
前記ピッチ検出手段により検出された前記第１ピッチエンベロープで示される各時刻でのピッチの値と、前記ピッチ平滑化手段により時系列の変化が平滑化された前記第２ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに補正値を掛け合わせることで、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たな第３ピッチエンベロープを算出するピッチ算出手段と、
前記ピッチ算出手段により算出された前記第３ピッチエンベロープのデータに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記第３ピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する音声生成手段と、
を備える。

本発明によれば、機械翻訳された文字データに基づいて出力された音声に面白みを持たせる音声翻訳装置を提供できる。

本発明の音声翻訳システムを示す図である。上記音声翻訳装置のハードウェア構成を示すブロック図である。本実施形態に係る音声翻訳装置において実行されるメインフローを示すフローチャートである。本実施形態に係る音声翻訳装置において実行される発話取込処理を示すフローチャートである。本実施形態に係る音声翻訳装置において実行されるスイッチ処理を示すフローチャートである。本実施形態に係る音声翻訳装置において実行される発話抽出処理を示すフローチャートである。本実施形態に係る音声翻訳装置において実行される翻訳処理を示すフローチャートである。本実施形態に係る音声翻訳装置において実行される平滑ピッチ化処理を示すフローチャートである。本実施形態に係る音声翻訳装置において実行されるピッチエンベロープ反映処理を示すフローチャートである。本実施形態に係る翻訳前ピッチエンベロープを示す図である。本実施形態に係る翻訳後ピッチエンベロープを示す図である。本実施形態に係るピッチデータテーブルを示すである。本実施形態に係るピッチデータテーブルを示すである。本実施形態に係る平滑化された翻訳後ピッチエンベロープを示す図である。本実施形態に係る翻訳後ピッチエンベロープに、翻訳前ピッチエンベロープが足し合わされたピッチエンベロープを示す図である。本実施形態に係る平滑化された翻訳後ピッチエンベロープに、翻訳前ピッチエンベロープが足し合わされたピッチエンベロープを示す図である。

以下、本発明の実施形態について、図面を用いて説明する。

［音声翻訳システムＳの概要］
初めに、図１を参照して、本発明の一実施形態としての音声翻訳システムＳの概要について説明する。
図１に示すように、本実施形態の音声翻訳システムＳは、複数の音声翻訳装置１、を含んで構成される。また、音声翻訳システムＳは、音声翻訳装置１が様々な国に存在するように構成される。複数の音声翻訳装置１は、通信ネットワークＮを介して接続されて、互いにデータの送受信を行う。即ち、複数の音声翻訳装置１は、いずれも、送信側及び受信側の両方の処理を実行することができる。

具体的には、音声翻訳システムＳにおいて、ユーザにより発話された音声のデータが送信側の音声翻訳装置１を介して他の言語に翻訳され、翻訳された音声のデータが、受信側の音声翻訳装置１に送信される。これにより、受信側の音声翻訳装置１において、翻訳された音声を再生することが可能となる。
その際、図９を参照して後述するピッチエンベロープ反映処理により、送信側の音声翻訳装置１は、翻訳前の音声のピッチのニュアンスが付加された翻訳後の音声のデータを、受信側の音声翻訳装置１に送信する。
したがって、様々な国の人間とのコミュニケーションがより面白みのあるものになる。

図２は、音声翻訳装置１のハードウェア構成を示すブロック図である。音声翻訳装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、表示部１４と、スイッチ１５と、Ｉ／Ｆ（インターフェース）１６と、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）１７と、Ａ／Ｄ（アナログデジタルコンバータ）１８と、Ｄ／Ａ（デジタルアナログコンバータ）１９と、がバス２０を介して接続されている。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、又は、記憶部（図示せず）からＲＡＭ１３にロードされたプログラム及びデータに従って各種の処理を実行する。
ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

表示部１４は、ディスプレイ等で構成され、画像が表示される。
スイッチ１５は、各種釦等で構成され、ユーザの指示操作に応じて各種情報が入力される。
Ｉ／Ｆ１６は、音声翻訳装置１の外部の通信ネットワークＮと接続されており、音声翻訳装置１で生成された音声のデータを、通信ネットワークＮを介して他の音声翻訳装置１に送信する。また、Ｉ／Ｆ１６は、通信ネットワークＮを介して他の音声翻訳装置１から送信されてきた音声のデータを受信する。

ＤＳＰ１７は、音声翻訳装置１にて生成された音声のデータのピッチを変更する。
Ａ／Ｄ１８は、音声翻訳装置１の外部のマイクロフォン３１と接続されており、マイクロフォン３１により集音された、ユーザにより発話された音声のデータを、アナログからデジタルに変換する。
Ｄ／Ａ１９は、音声翻訳装置１にて生成された音声のデータを、デジタルからアナログに変換する。更に、Ｄ／Ａ１９は、音声翻訳装置１の外部のオーディオ装置２１と接続されている。なお、オーディオ装置２１は、Ｄ／Ａ１９から出力されたアナログ信号を増幅して出力するアンプ回路（図示せず）と、アンプ回路から出力されたオーディオ信号に基づいて音声を放音するスピーカ（図示せず）と、を備える。

［メインフロー］
図３は、本実施形態に係る音声翻訳装置１において実行されるメインフローを示すフローチャートである。

まず、ステップＳ１では、ＣＰＵ１１は、電源の投入に応じてイニシャライズを実行する。ステップＳ２では、ＣＰＵ１１は、発話取込処理（図４で後述する）を実行する。発話取込処理では、ユーザにより発話された音声が、ＲＡＭ１３に記憶される。
ステップＳ３では、ＣＰＵ１１は、スイッチ処理（図５で後述する）を実行する。スイッチ処理では、後述する第１の反映データ又は第２の反映データの選択するためのフラグのセット、及び、翻訳先の言語の種類の入力が実行される。
ステップＳ４では、ＣＰＵ１１は、発話抽出処理（図６で後述する）を実行する。発話抽出処理では、ユーザにより発話された音声のデータのピッチを抽出するとともに、音声認識により、当該発話された音声を表わす所定の言語、例えば日本語の文字データが取得される。
ステップＳ５では、ＣＰＵ１１は、翻訳処理（図７で後述する）を実行する。翻訳処理では、ユーザにより発話された音声を認識して取得された文字データが翻訳先の言語、例えば英語に翻訳され、この翻訳後の文字データに対応する音声のデータを生成する。
ステップＳ６では、ＣＰＵ１１は、ピッチエンベロープ反映処理（図９で後述する）を実行する。本実施形態のピッチエンベロープ反映処理では、他の音声翻訳装置１への送信対象となる翻訳された音声データのピッチに対して、２種類のピッチエンベロープの変化を反映させた音声データが、後述する第１の反映データ及び第２の反映データとして作成される。
ステップＳ７では、ＣＰＵ１１は、ステップＳ３においてセットされたフラグに基づいて、詳しくは、図５で後述する送信フラグの値に基づいて、後述する第１の反映データ又は第２の反映データのいずれかを選択して、他の音声翻訳装置１へ送信する。
ステップＳ８では、ＣＰＵ１１は、ステップＳ２〜Ｓ７の処理においてＲＡＭ１３に記憶されたデータを消去する。ステップＳ８の処理が終了すると、ＣＰＵ１１は、処理をステップＳ２に戻して、ステップＳ２〜Ｓ８の処理を繰り返す。

［発話取込処理］
図４は、本実施形態に係る音声翻訳装置１において実行される発話取込処理を示すフローチャートである。

ステップＳ１１では、ＣＰＵ１１は、マイクロフォン３１により集音された、ユーザにより発話された音声のデータ（以下、「発話音声データ」と呼ぶ）を、Ａ／Ｄ１８を介してＲＡＭ１３に記憶する。

［スイッチ処理］
図５は、本実施形態に係る音声翻訳装置１において実行されるスイッチ処理を示すフローチャートである。

まず、ステップＳ２１では、ＣＰＵ１１は、後述する第１の反映データ又は第２の反映データを選択するための情報（以下、「反映データ選択情報」）の入力を、スイッチ１５を介して受け付ける。
ステップＳ２２では、ＣＰＵ１１は、ステップＳ２１で受け付けられた反映データ選択情報が「１」であるか「２」であるかを判定する。「１」であると判定された場合、ＣＰＵ１１は、処理をステップＳ２３に移し、送信フラグを１にセットする。一方、「２」であると判定された場合、ＣＰＵ１１は、処理をステップＳ２４に移し、送信フラグを２にセットする。送信フラグが１の場合、後述する第１の反映データがステップＳ７（図３）において選択され、他の音声翻訳装置１に送信される。送信フラグが２の場合、後述する第２の反映データがステップＳ７（図３）において選択され、他の音声翻訳装置１に送信される。
ステップＳ２５において、ＣＰＵ１１は、翻訳先となる言語の種類の入力を、スイッチ１５を介して受け付ける。翻訳先となる言語の種類として、例えば、英語、中国語、ロシア語など、様々な言語の種類が入力可能である。ステップＳ２５の処理が終了すると、ＣＰＵ１１は、スイッチ処理を終了する。

［発話抽出処理］
図６は、本実施形態に係る音声翻訳装置１において実行される発話抽出処理を示すフローチャートである。

まず、ステップＳ３１では、ＣＰＵ１１は、ステップＳ１１（図４）でＲＡＭ１３に記憶された、発話音声データのピッチを検出する。具体的には、ＣＰＵ１１は、当該発話音声データのピッチ（周波数）を時系列に検出し、ＲＡＭ１３に記憶する。ピッチの時系列の変化を示すグラフは、ピッチエンベロープと呼ばれる。例えば、ユーザにより「こんにちは」と、日本語で発話された場合、ＣＰＵ１１は、図１０に示されるようなピッチエンベロープを検出し、ＲＡＭ１３に記憶する。ステップＳ３１においてＲＡＭ１３に記憶されたピッチエンベロープを、以下、「翻訳前ピッチエンベロープ」と呼ぶ。
ステップＳ３２では、ＣＰＵ１１は、発話音声データに公知の音声認識技術を適用して、文字データを検出し、ＲＡＭ１３に記憶する。例えば、ユーザにより「こんにちは」と、日本語で発話された場合、ＣＰＵ１１は、「こんにちは」という文字データをＲＡＭ１３に記憶する。ステップＳ３２の処理が終了すると、ＣＰＵ１１は、発話抽出処理を終了する。

［翻訳処理］
図７は、本実施形態に係る音声翻訳装置１において実行される翻訳処理を示すフローチャートである。

まず、ステップＳ４１では、ＣＰＵ１１は、ＲＡＭ１３に記憶された「こんにちは」という文字データに、公知の機械翻訳技術を適用して、ステップＳ２５（図５）で入力された翻訳先の言語に当該文字データを変換する。例えば、当該翻訳先の言語が英語の場合、「こんにちは」という文字データは、「Ｈｅｌｌｏ」という文字データに変換される。
ステップＳ４２では、ＣＰＵ１１は、ステップＳ４１において変換された「Ｈｅｌｌｏ」という文字データに対応するピッチエンベロープをＲＯＭ１２から取得する。ＲＯＭ１２には、予め、各種言語の各文字データに対応するピッチエンベロープが格納されている。具体的には、ＣＰＵ１１は、言語の種類である「英語」と、文字データ「Ｈｅｌｌｏ」を検索キーとして、ＲＯＭ１２から、対応するピッチエンベロープを取得し、ＲＡＭ１３に記憶する。例えば、ＣＰＵ１１は、図１１に示されるようなピッチエンベロープを取得し、ＲＡＭ１３に記憶する。ステップＳ４２においてＲＡＭ１３に記憶されたピッチエンベロープを、以下、「翻訳後ピッチエンベロープ」と呼ぶ。
ステップＳ４３では、ＣＰＵ１１は、図８を参照して後述する平滑ピッチ化処理を実行する。平滑ピッチ化処理とは、翻訳後ピッチエンベロープを平滑化する処理である。ステップＳ４３の処理が終了すると、ＣＰＵ１１は、翻訳処理を終了する。
なお、ステップＳ４２の処理は、上記に限られず、ＣＰＵ１１は、ステップＳ４１において変換された「Ｈｅｌｌｏ」という文字データと、言語の種類である「英語」とに基づいて、音声データを生成して、当該音声データのピッチエンベロープを検出してもよい。

［平滑ピッチ化処理］
図８は、本実施形態に係る音声翻訳装置１において実行される平滑ピッチ化処理を示すフローチャートである。

まず、ステップＳ５１において、ＣＰＵ１１は、ステップＳ４２において記憶された、翻訳後ピッチエンベロープをＲＡＭ１３から読み出す。更に、ＣＰＵ１１は、翻訳後ピッチエンベロープに基づくピッチのデータを（Ｎ＋１）個（Ｎは０以上の整数）取得する。例えば、ＣＰＵ１１は、図１１に示される、翻訳後ピッチエンベロープから、時刻ｔ_０〜ｔ_Ｎの夫々に対応するピッチデータＰ_０〜Ｐ_Ｎを取得する。ここで、時刻ｔ_０〜ｔ_Ｎは所定の時間間隔で区切られている。取得されたピッチデータＰ_０〜Ｐ_Ｎは、図１２に示される、ＲＡＭ１３の所定領域に存在するピッチデータテーブルに夫々格納される。
ステップＳ５２において、ＣＰＵ１１は、ステップＳ５１で取得された（Ｎ＋１）個のピッチのデータの平均値Ｐｈを算出する。
ステップＳ５３において、ＣＰＵ１１は、カウンタＣに０を代入して、初期化する。

ステップＳ５４において、ＣＰＵ１１は、平滑用補正量ΔＰを算出する。平滑用補正量ΔＰは、以下の式（１）で算出される。
ΔＰ＝Ｐ_Ｃ−Ｐｈ（Ｃ＝０〜Ｎ）（１）
ステップＳ５５において、ＣＰＵ１１は、Ｐ_Ｃ−ΔＰ（＝Ｐｈ）を算出して、Ｐ_ＣをＰｈに更新する。即ち、上述したピッチデータテーブルのＰ_Ｃの値がＰｈに更新される。
ステップＳ５６において、ＣＰＵ１１は、カウンタＣを１インクリメントする。
ステップＳ５７において、ＣＰＵ１１は、ＣがＮより大きいか否かを判定する。ＣがＮ以下と判定された場合、ＣＰＵ１１は、処理をステップＳ５４に戻す。一方、ＣがＮより大きいと判定された場合、ＣＰＵ１１は、平滑ピッチ化処理を終了する。
このように、ステップＳ５４〜Ｓ５７の処理が（Ｎ＋１）回繰り返されることにより、上述したピッチデータテーブルに格納されたピッチデータＰ_０〜Ｐ_Ｎの値は、図１３に示すように、夫々Ｐｈに更新される。これにより、図１４に示されるように、翻訳後ピッチエンベロープが平滑化される。

［ピッチエンベロープ反映処理］
図９は、本実施形態に係る音声翻訳装置１において実行されるピッチエンベロープ反映処理を示すフローチャートである。

まず、ステップＳ６１において、ＣＰＵ１１は、第１の反映データを作成する。第１の反映データとは、図１０に示した翻訳前ピッチエンベロープで示される各時刻でのピッチの値と、図１１に示した翻訳後ピッチエンベロープで示される各時刻でのピッチの値と、を足し合わせて、更に、予め求められた補正値Ｋを掛け合わせたピッチエンベロープのデータである。当該ピッチエンベロープを図１５に示す。
この第１の反映データによれば、英語の「Ｈｅｌｌｏ」のピッチエンベロープに、日本語の「こんにちは」のピッチエンベロープが混ぜ合わされることで、日本語のイントネーションが混ざった、面白みのある英語の「Ｈｅｌｌｏ」が発話されるためのピッチエンベロープが作成される。

次に、ステップＳ６２において、ＣＰＵ１１は、第２の反映データを作成する。第２の反映データとは、図１０に示した翻訳前ピッチエンベロープで示される各時刻でのピッチの値と、図１４に示した、平滑化された翻訳後ピッチエンベロープで示される各時刻でのピッチの値と、を足し合わせて、更に、予め求められた補正値Ｋを掛け合わせたピッチエンベロープのデータである。当該グラフを図１６に示す。
この第２の反映データによれば、平滑化された英語の「Ｈｅｌｌｏ」のピッチエンベロープに、日本語の「こんにちは」のピッチエンベロープが混ぜ合わされることで、日本語の「こんにちは」のピッチエンベロープで英語の「Ｈｅｌｌｏ」が発話されるためのピッチエンベロープのグラフが作成される。ステップＳ６２の処理が終了すると、ＣＰＵ１１は、ピッチエンベロープ反映処理を終了する。

以上、本実施形態の音声翻訳装置１の構成及び処理について説明した。
本実施形態において、音声翻訳装置１は、通信ネットワークＮにより他の音声翻訳装置１と接続され、ユーザにより発声された言語の音声を集音するマイクロフォン３１を備えている。ＣＰＵ１１は、集音された音声のデータを録音し、録音された音声のデータに基づいて、音声の翻訳前ピッチエンベロープを検出し、録音された音声のデータに基づいて、音声の文字のデータを検出し、検出された文字のデータを、当該文字が属する第１言語（日本語）とは異なる第２言語（英語）に属する文字のデータに変換し、第２言語に属する文字のデータに対応する翻訳後ピッチエンベロープを取得する。更に、ＣＰＵ１１は、翻訳前ピッチエンベロープと、翻訳後ピッチエンベロープとに基づいて、新たなピッチエンベロープを作成し、第２言語に属する文字のデータに対応する音声データを生成する際、この音声データのピッチに対して、この新たなピッチエンベロープの変化を反映させる。こうして生成された第２言語の音声データを第１の反映データとして、他の音声翻訳装置１に送信する。
したがって、音声翻訳装置において、英語の「Ｈｅｌｌｏ」のピッチの変化を表わすピッチエンベロープに対して、日本語の「こんにちは」のピッチ変化を表わすピッチエンベロープを反映させることにより、日本語のイントネーションが混ざった、面白みのある英語の「Ｈｅｌｌｏ」が発話される。
また、逆に、第１言語が英語、第２言語が日本語である場合、音声翻訳装置において、日本語の「こんにちは」のピッチエンベロープに、英語の「Ｈｅｌｌｏ」のピッチエンベロープが混ぜ合わされることで、英語のイントネーションが混ざった、面白みのある日本語の「こんにちは」が発話されるためのピッチエンベロープを他の音声翻訳装置に提供できる。
よって、他の言語を話す人間とのコミュニケーションにより面白みを持たせることができる。

また、本実施形態において、ＣＰＵ１１は、取得された翻訳後ピッチエンベロープを時系列に平滑化し、翻訳前ピッチエンベロープと、平滑化された翻訳後ピッチエンベロープとに基づいて、新たなピッチエンベロープを作成し、第２言語に属する文字のデータに対応する音声データを生成する際のピッチに対して、この新たなピッチエンベロープの変化を反映させる。こうして生成された第２言語の音声データを第２の反映データとして、他の音声翻訳装置１に送信する。
したがって、音声翻訳装置において、平滑化された英語の「Ｈｅｌｌｏ」のピッチの変化を表わすピッチエンベロープに、日本語の「こんにちは」のピッチの変化を表わすピッチエンベロープを反映させることで、日本語の「こんにちは」のピッチエンベロープで英語の「Ｈｅｌｌｏ」が発話されるためのピッチエンベロープを他の音声翻訳装置に提供できる。
また、逆に、第１言語が英語、第２言語が日本語である場合、音声翻訳装置において、平滑化された日本語の「こんにちは」のピッチ変化を表わすピッチエンベロープに、英語の「Ｈｅｌｌｏ」のピッチ変化を表わすピッチエンベロープを反映させることで、英語の「Ｈｅｌｌｏ」のピッチエンベロープで日本語の「こんにちは」が発話されるためのピッチエンベロープを他の音声翻訳装置に提供できる。
よって、他の言語を話す人間とのコミュニケーションにより面白みを持たせることができる。

また、本実施形態において、ＣＰＵ１１は、スイッチ１５により出力された信号に基づいて、第１の反映データ、又は、第２の反映データ、を他の音声翻訳装置１に送信する。
したがって、ユーザは、第１の反映データ又は第２の反映データを選択することができる。よって、更に、他の言語を話す人間とのコミュニケーションにより面白みを持たせることができる。

また、本実施形態において、ＣＰＵ１１は、ユーザからの、第２言語としての言語の種類の入力を受け付けて、当該入力に応じた信号を出力するスイッチ１５と、を更に備えている。またＣＰＵ１１は、スイッチ１５により出力された信号に基づいて、第２言語としての言語の種類を決定する。
したがって、ユーザは、送信先の音声翻訳装置１のユーザの母国語を選択できるので、利便性の高い音声翻訳装置が提供される。

以上、本発明の実施形態について説明したが、実施形態は例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、更に、本発明の要旨を逸脱しない範囲で、省略や置換など種々の変更を行うことができる。これら実施形態やその変形は、本明細書などに記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

例えば、上述した実施形態では、翻訳後ピッチエンベロープを平滑化した例について説明したがこれに限られず、ＣＰＵ１１は、翻訳後ピッチエンベロープで示される各ピッチの値を２倍にしたり、（１／２）倍にしたり等の周波数変調を実行してもよい。これにより、他の音声翻訳装置に送信するピッチエンベロープのバリエーションが増える。

以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
［付記１］
発声された音声のデータに基づいて、前記音声の第１ピッチを検出するピッチ検出手段と、
前記音声のデータを認識して、第１言語に属する文字のデータを生成する文字データ生成手段と、
前記文字データ生成手段により生成された前記文字のデータを、前記文字が属する第１言語とは異なる第２言語に属する文字のデータに変換する文字データ変換手段と、
前記ピッチ検出手段により検出された前記第１ピッチに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出する第１ピッチ算出手段と、
前記第１ピッチ算出手段により算出された新たなピッチのデータに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声を生成する音声生成手段と、
を備える音声翻訳装置。
［付記２］
前記音声翻訳装置はさらに、前記文字データ変換手段により変換された、前記第２言語に属する前記文字のデータに対応する第２ピッチを取得するピッチ取得手段を有し、
前記第１ピッチ算出手段は、前記ピッチ検出手段により検出された前記第１ピッチと、前記ピッチ取得手段により取得された前記第２ピッチとに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出する付記１に記載の音声翻訳装置。
［付記３］
前記音声翻訳装置はさらに、
前記ピッチ取得手段により取得された前記第２ピッチを時系列に平滑化するピッチ平滑化手段と、
前記ピッチ検出手段により検出された前記第１ピッチと、前記ピッチ平滑化手段により時系列に平滑化された前記第２ピッチとに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出する第２ピッチ算出手段と、を備えた
付記２に記載の音声翻訳装置。
［付記４］
前記音声生成手段は、前記第１ピッチ算出手段により算出された新たなピッチのデータ、又は、前記第２ピッチ算出手段により算出された新たなピッチのデータのいずれかに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声を生成する、付記３に記載の音声翻訳装置。
［付記５］
前記音声翻訳装置はさらに、前記第２言語としての言語の種類を決定する言語決定手段を備える、付記１から４のいずれかに記載の音声翻訳装置。
［付記６］
発声された音声のデータに基づいて、前記音声の第１ピッチを検出し、
前記音声のデータを認識して、第１言語に属する文字のデータを生成し、
前記生成された前記文字のデータを、前記文字が属する第１言語とは異なる第２言語に属する文字のデータに変換し、
前記検出された前記第１ピッチに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出し、
前記算出された新たなピッチのデータに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声を生成する、音声翻訳方法。
［付記７］
発声された音声のデータに基づいて、前記音声の第１ピッチを検出するピッチ検出ステップと、
前記音声のデータを認識して、第１言語に属する文字のデータを生成する文字データ生成ステップと、
前記生成された前記文字のデータを、前記文字が属する第１言語とは異なる第２言語に属する文字のデータに変換する文字データ変換ステップと、
前記検出された前記第１ピッチに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出する第１ピッチ算出ステップと、
前記算出された新たなピッチのデータに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声を生成する音声生成ステップと、
をコンピュータに実行させるプログラム。

Ｓ・・・音声翻訳システム、Ｎ・・・通信ネットワーク、１・・・音声翻訳装置、１１・・・ＣＰＵ、１２・・・ＲＯＭ、１３・・・ＲＡＭ、１４・・・表示部、１５・・・スイッチ、１６・・・Ｉ／Ｆ、１７・・・ＤＳＰ、１８・・・Ａ／Ｄ、１９・・・Ｄ／Ａ、２０・・・バス、２１・・・オーディオ装置、３１・・・マイクロフォン

Claims

第１言語で発声された音声のデータに基づいて、前記音声のピッチの時系列の変化を示すピッチエンベロープである第１ピッチエンベロープを検出するピッチ検出手段と、
前記第１言語で発声された音声のデータを音声認識するとともに、前記音声認識した内容を表わした前記第１言語に属する文字データを生成する文字データ生成手段と、
前記文字データ生成手段により生成された前記文字データを、前記第１言語とは異なる第２言語に翻訳するとともに、前記翻訳された内容を前記第２言語に属する文字のデータに変換する文字データ変換手段と、
前記文字データ変換手段により変換された、前記第２言語に属する前記文字のデータに対応する前記ピッチエンベロープである第２ピッチエンベロープを取得するピッチ取得手段と、
前記ピッチ取得手段により取得された前記第２ピッチエンベロープの時系列の変化を平滑化するピッチ平滑化手段と、
前記ピッチ検出手段により検出された前記第１ピッチエンベロープで示される各時刻でのピッチの値と、前記ピッチ平滑化手段により時系列の変化が平滑化された前記第２ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに補正値を掛け合わせることで、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たな第３ピッチエンベロープを算出するピッチ算出手段と、
前記ピッチ算出手段により算出された前記第３ピッチエンベロープのデータに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記第３ピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する音声生成手段と、
を備える音声翻訳装置。
前記ピッチ取得手段は、前記文字データ変換手段により変換された、前記第２言語に属する前記文字のデータに対応して予め記憶手段に記憶されている前記第２ピッチエンベロープを取得する
請求項１に記載の音声翻訳装置。
前記ピッチ算出手段は更に、前記ピッチ検出手段により検出された前記第１ピッチエンベロープで示される各時刻でのピッチの値と、前記ピッチ平滑化手段による時系列の変化の平滑化がなされていない前記第２ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに、補正値を掛け合わせることで、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たな第４ピッチエンベロープを算出し、
前記音声生成手段は、前記第３ピッチエンベロープのデータと前記第４ピッチエンベロープのデータのいずれかを選択し、選択されたピッチエンベロープのデータに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記選択されたピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する、請求項１または２に記載の音声翻訳装置。
前記音声翻訳装置はさらに、複数の言語の種類の中から前記第２言語としての言語の種類を選択する言語決定手段を備える、請求項１乃至３のいずれかに記載の音声翻訳装置。
第１言語で発声された音声のデータに基づいて、前記音声のピッチの時系列の変化を示すピッチエンベロープである第１ピッチエンベロープを検出し、
前記第１言語で発声された音声のデータを音声認識するとともに、前記音声認識した内容を表わした前記第１言語に属する文字データを生成し、
前記生成された前記文字データを、前記第１言語とは異なる第２言語に翻訳するとともに、前記翻訳された内容を前記第２言語に属する文字のデータに変換し、
前記変換された、前記第２言語に属する前記文字のデータに対応する前記ピッチエンベロープである第２ピッチエンベロープを取得し、
前記取得された前記第２ピッチエンベロープの時系列の変化を平滑化し、
前記第１ピッチエンベロープで示される各時刻でのピッチの値と、前記時系列の変化が平滑化された前記第２ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに補正値を掛け合わせることで、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たな第３ピッチエンベロープを算出し、
前記算出された前記第３ピッチエンベロープのデータに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記第３ピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する、音声翻訳方法。
第１言語で発声された音声のデータに基づいて、前記音声のピッチの時系列の変化を示すピッチエンベロープである第１ピッチエンベロープを検出するピッチ検出ステップと、
前記第１言語で発声された音声のデータを音声認識するとともに、前記音声認識した内容を表わした前記第１言語に属する文字データを生成する文字データ生成ステップと、
前記生成された前記文字データを、前記第１言語とは異なる第２言語に翻訳するとともに、前記翻訳された内容を前記第２言語に属する文字のデータに変換する文字データ変換ステップと、
前記変換された、前記第２言語に属する前記文字のデータに対応する前記ピッチエンベロープである第２ピッチエンベロープを取得するピッチ取得ステップと、
前記取得された前記第２ピッチエンベロープの時系列の変化を平滑化するピッチ平滑化前記第１ピッチエンベロープで示される各時刻でのピッチの値と、前記時系列の変化が平滑化された前記第２ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに補正値を掛け合わせることで、前記第２言語に属する前記文字のデータに対応する文字を発声するための新たな第３ピッチエンベロープを算出するピッチ算出ステップと、
前記算出された前記第３ピッチエンベロープのデータに基づいて、前記第２言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記第３ピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する音声生成ステップと、
をコンピュータに実行させるプログラム。