JP6277597B2 - 音声翻訳装置、音声翻訳方法及びプログラム - Google Patents

音声翻訳装置、音声翻訳方法及びプログラム Download PDF

Info

Publication number
JP6277597B2
JP6277597B2 JP2013089358A JP2013089358A JP6277597B2 JP 6277597 B2 JP6277597 B2 JP 6277597B2 JP 2013089358 A JP2013089358 A JP 2013089358A JP 2013089358 A JP2013089358 A JP 2013089358A JP 6277597 B2 JP6277597 B2 JP 6277597B2
Authority
JP
Japan
Prior art keywords
pitch
language
envelope
character data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013089358A
Other languages
English (en)
Other versions
JP2014215302A (ja
JP2014215302A5 (ja
Inventor
宮地 徹
徹 宮地
出嶌 達也
達也 出嶌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2013089358A priority Critical patent/JP6277597B2/ja
Publication of JP2014215302A publication Critical patent/JP2014215302A/ja
Publication of JP2014215302A5 publication Critical patent/JP2014215302A5/ja
Application granted granted Critical
Publication of JP6277597B2 publication Critical patent/JP6277597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声翻訳装置、音声翻訳方法及びプログラムに関する。
従来、入力された音声を認識して得られる文字データに対して機械翻訳を実行し、機械翻訳された文字データを音声に変換して出力する音声翻訳装置が知られている(例えば、特許文献1参照)。
特開2001−117922号公報
しかしながら、特許文献1に記載された音声翻訳装置では、機械翻訳された文字データが違和感のない音声に変換されて出力されるため、出力された音声が面白みに欠けるという問題があった。
本発明は、このような事情に鑑みてなされたもので、機械翻訳された文字データに基づいて出力された音声に面白みを持たせる音声翻訳装置を提供することを目的とする。
上記目的を達成するため、本発明の一態様の音声翻訳装置は、
第1言語で発声された音声のデータに基づいて、前記音声のピッチの時系列の変化を示すピッチエンベロープである第1ピッチエンベロープを検出するピッチ検出手段と、
前記第1言語で発声された音声のデータを音声認識するとともに、前記音声認識した内容を表わした前記第1言語に属する文字データを生成する文字データ生成手段と、
前記文字データ生成手段により生成された前記文字データを、前記第1言語とは異なる第2言語に翻訳するとともに、前記翻訳された内容を前記第2言語に属する文字のデータに変換する文字データ変換手段と、
前記文字データ変換手段により変換された、前記第2言語に属する前記文字のデータに対応する前記ピッチエンベロープである第2ピッチエンベロープを取得するピッチ取得手段と、
前記ピッチ取得手段により取得された前記第2ピッチエンベロープの時系列の変化を平滑化するピッチ平滑化手段と、
前記ピッチ検出手段により検出された前記第1ピッチエンベロープで示される各時刻でのピッチの値と、前記ピッチ平滑化手段により時系列の変化が平滑化された前記第2ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに補正値を掛け合わせることで、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たな第3ピッチエンベロープを算出するピッチ算出手段と、
前記ピッチ算出手段により算出された前記第3ピッチエンベロープのデータに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記第3ピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する音声生成手段と、
を備える。
本発明によれば、機械翻訳された文字データに基づいて出力された音声に面白みを持たせる音声翻訳装置を提供できる。
本発明の音声翻訳システムを示す図である。 上記音声翻訳装置のハードウェア構成を示すブロック図である。 本実施形態に係る音声翻訳装置において実行されるメインフローを示すフローチャートである。 本実施形態に係る音声翻訳装置において実行される発話取込処理を示すフローチャートである。 本実施形態に係る音声翻訳装置において実行されるスイッチ処理を示すフローチャートである。 本実施形態に係る音声翻訳装置において実行される発話抽出処理を示すフローチャートである。 本実施形態に係る音声翻訳装置において実行される翻訳処理を示すフローチャートである。 本実施形態に係る音声翻訳装置において実行される平滑ピッチ化処理を示すフローチャートである。 本実施形態に係る音声翻訳装置において実行されるピッチエンベロープ反映処理を示すフローチャートである。 本実施形態に係る翻訳前ピッチエンベロープを示す図である。 本実施形態に係る翻訳後ピッチエンベロープを示す図である。 本実施形態に係るピッチデータテーブルを示すである。 本実施形態に係るピッチデータテーブルを示すである。 本実施形態に係る平滑化された翻訳後ピッチエンベロープを示す図である。 本実施形態に係る翻訳後ピッチエンベロープに、翻訳前ピッチエンベロープが足し合わされたピッチエンベロープを示す図である。 本実施形態に係る平滑化された翻訳後ピッチエンベロープに、翻訳前ピッチエンベロープが足し合わされたピッチエンベロープを示す図である。
以下、本発明の実施形態について、図面を用いて説明する。
[音声翻訳システムSの概要]
初めに、図1を参照して、本発明の一実施形態としての音声翻訳システムSの概要について説明する。
図1に示すように、本実施形態の音声翻訳システムSは、複数の音声翻訳装置1、を含んで構成される。また、音声翻訳システムSは、音声翻訳装置1が様々な国に存在するように構成される。複数の音声翻訳装置1は、通信ネットワークNを介して接続されて、互いにデータの送受信を行う。即ち、複数の音声翻訳装置1は、いずれも、送信側及び受信側の両方の処理を実行することができる。
具体的には、音声翻訳システムSにおいて、ユーザにより発話された音声のデータが送信側の音声翻訳装置1を介して他の言語に翻訳され、翻訳された音声のデータが、受信側の音声翻訳装置1に送信される。これにより、受信側の音声翻訳装置1において、翻訳された音声を再生することが可能となる。
その際、図9を参照して後述するピッチエンベロープ反映処理により、送信側の音声翻訳装置1は、翻訳前の音声のピッチのニュアンスが付加された翻訳後の音声のデータを、受信側の音声翻訳装置1に送信する。
したがって、様々な国の人間とのコミュニケーションがより面白みのあるものになる。
図2は、音声翻訳装置1のハードウェア構成を示すブロック図である。音声翻訳装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、表示部14と、スイッチ15と、I/F(インターフェース)16と、DSP(Digital Signal Processor)17と、A/D(アナログデジタルコンバータ)18と、D/A(デジタルアナログコンバータ)19と、がバス20を介して接続されている。
CPU11は、ROM12に記録されているプログラム、又は、記憶部(図示せず)からRAM13にロードされたプログラム及びデータに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
表示部14は、ディスプレイ等で構成され、画像が表示される。
スイッチ15は、各種釦等で構成され、ユーザの指示操作に応じて各種情報が入力される。
I/F16は、音声翻訳装置1の外部の通信ネットワークNと接続されており、音声翻訳装置1で生成された音声のデータを、通信ネットワークNを介して他の音声翻訳装置1に送信する。また、I/F16は、通信ネットワークNを介して他の音声翻訳装置1から送信されてきた音声のデータを受信する。
DSP17は、音声翻訳装置1にて生成された音声のデータのピッチを変更する。
A/D18は、音声翻訳装置1の外部のマイクロフォン31と接続されており、マイクロフォン31により集音された、ユーザにより発話された音声のデータを、アナログからデジタルに変換する。
D/A19は、音声翻訳装置1にて生成された音声のデータを、デジタルからアナログに変換する。更に、D/A19は、音声翻訳装置1の外部のオーディオ装置21と接続されている。なお、オーディオ装置21は、D/A19から出力されたアナログ信号を増幅して出力するアンプ回路(図示せず)と、アンプ回路から出力されたオーディオ信号に基づいて音声を放音するスピーカ(図示せず)と、を備える。
[メインフロー]
図3は、本実施形態に係る音声翻訳装置1において実行されるメインフローを示すフローチャートである。
まず、ステップS1では、CPU11は、電源の投入に応じてイニシャライズを実行する。ステップS2では、CPU11は、発話取込処理(図4で後述する)を実行する。発話取込処理では、ユーザにより発話された音声が、RAM13に記憶される。
ステップS3では、CPU11は、スイッチ処理(図5で後述する)を実行する。スイッチ処理では、後述する第1の反映データ又は第2の反映データの選択するためのフラグのセット、及び、翻訳先の言語の種類の入力が実行される。
ステップS4では、CPU11は、発話抽出処理(図6で後述する)を実行する。発話抽出処理では、ユーザにより発話された音声のデータのピッチを抽出するとともに、音声認識により、当該発話された音声を表わす所定の言語、例えば日本語の文字データが取得される。
ステップS5では、CPU11は、翻訳処理(図7で後述する)を実行する。翻訳処理では、ユーザにより発話された音声を認識して取得された文字データが翻訳先の言語、例えば英語に翻訳され、この翻訳後の文字データに対応する音声のデータを生成する。
ステップS6では、CPU11は、ピッチエンベロープ反映処理(図9で後述する)を実行する。本実施形態のピッチエンベロープ反映処理では、他の音声翻訳装置1への送信対象となる翻訳された音声データのピッチに対して、2種類のピッチエンベロープの変化を反映させた音声データが、後述する第1の反映データ及び第2の反映データとして作成される。
ステップS7では、CPU11は、ステップS3においてセットされたフラグに基づいて、詳しくは、図5で後述する送信フラグの値に基づいて、後述する第1の反映データ又は第2の反映データのいずれかを選択して、他の音声翻訳装置1へ送信する。
ステップS8では、CPU11は、ステップS2〜S7の処理においてRAM13に記憶されたデータを消去する。ステップS8の処理が終了すると、CPU11は、処理をステップS2に戻して、ステップS2〜S8の処理を繰り返す。
[発話取込処理]
図4は、本実施形態に係る音声翻訳装置1において実行される発話取込処理を示すフローチャートである。
ステップS11では、CPU11は、マイクロフォン31により集音された、ユーザにより発話された音声のデータ(以下、「発話音声データ」と呼ぶ)を、A/D18を介してRAM13に記憶する。
[スイッチ処理]
図5は、本実施形態に係る音声翻訳装置1において実行されるスイッチ処理を示すフローチャートである。
まず、ステップS21では、CPU11は、後述する第1の反映データ又は第2の反映データを選択するための情報(以下、「反映データ選択情報」)の入力を、スイッチ15を介して受け付ける。
ステップS22では、CPU11は、ステップS21で受け付けられた反映データ選択情報が「1」であるか「2」であるかを判定する。「1」であると判定された場合、CPU11は、処理をステップS23に移し、送信フラグを1にセットする。一方、「2」であると判定された場合、CPU11は、処理をステップS24に移し、送信フラグを2にセットする。送信フラグが1の場合、後述する第1の反映データがステップS7(図3)において選択され、他の音声翻訳装置1に送信される。送信フラグが2の場合、後述する第2の反映データがステップS7(図3)において選択され、他の音声翻訳装置1に送信される。
ステップS25において、CPU11は、翻訳先となる言語の種類の入力を、スイッチ15を介して受け付ける。翻訳先となる言語の種類として、例えば、英語、中国語、ロシア語など、様々な言語の種類が入力可能である。ステップS25の処理が終了すると、CPU11は、スイッチ処理を終了する。
[発話抽出処理]
図6は、本実施形態に係る音声翻訳装置1において実行される発話抽出処理を示すフローチャートである。
まず、ステップS31では、CPU11は、ステップS11(図4)でRAM13に記憶された、発話音声データのピッチを検出する。具体的には、CPU11は、当該発話音声データのピッチ(周波数)を時系列に検出し、RAM13に記憶する。ピッチの時系列の変化を示すグラフは、ピッチエンベロープと呼ばれる。例えば、ユーザにより「こんにちは」と、日本語で発話された場合、CPU11は、図10に示されるようなピッチエンベロープを検出し、RAM13に記憶する。ステップS31においてRAM13に記憶されたピッチエンベロープを、以下、「翻訳前ピッチエンベロープ」と呼ぶ。
ステップS32では、CPU11は、発話音声データに公知の音声認識技術を適用して、文字データを検出し、RAM13に記憶する。例えば、ユーザにより「こんにちは」と、日本語で発話された場合、CPU11は、「こんにちは」という文字データをRAM13に記憶する。ステップS32の処理が終了すると、CPU11は、発話抽出処理を終了する。
[翻訳処理]
図7は、本実施形態に係る音声翻訳装置1において実行される翻訳処理を示すフローチャートである。
まず、ステップS41では、CPU11は、RAM13に記憶された「こんにちは」という文字データに、公知の機械翻訳技術を適用して、ステップS25(図5)で入力された翻訳先の言語に当該文字データを変換する。例えば、当該翻訳先の言語が英語の場合、「こんにちは」という文字データは、「Hello」という文字データに変換される。
ステップS42では、CPU11は、ステップS41において変換された「Hello」という文字データに対応するピッチエンベロープをROM12から取得する。ROM12には、予め、各種言語の各文字データに対応するピッチエンベロープが格納されている。具体的には、CPU11は、言語の種類である「英語」と、文字データ「Hello」を検索キーとして、ROM12から、対応するピッチエンベロープを取得し、RAM13に記憶する。例えば、CPU11は、図11に示されるようなピッチエンベロープを取得し、RAM13に記憶する。ステップS42においてRAM13に記憶されたピッチエンベロープを、以下、「翻訳後ピッチエンベロープ」と呼ぶ。
ステップS43では、CPU11は、図8を参照して後述する平滑ピッチ化処理を実行する。平滑ピッチ化処理とは、翻訳後ピッチエンベロープを平滑化する処理である。ステップS43の処理が終了すると、CPU11は、翻訳処理を終了する。
なお、ステップS42の処理は、上記に限られず、CPU11は、ステップS41において変換された「Hello」という文字データと、言語の種類である「英語」とに基づいて、音声データを生成して、当該音声データのピッチエンベロープを検出してもよい。
[平滑ピッチ化処理]
図8は、本実施形態に係る音声翻訳装置1において実行される平滑ピッチ化処理を示すフローチャートである。
まず、ステップS51において、CPU11は、ステップS42において記憶された、翻訳後ピッチエンベロープをRAM13から読み出す。更に、CPU11は、翻訳後ピッチエンベロープに基づくピッチのデータを(N+1)個(Nは0以上の整数)取得する。例えば、CPU11は、図11に示される、翻訳後ピッチエンベロープから、時刻t〜tの夫々に対応するピッチデータP〜Pを取得する。ここで、時刻t〜tは所定の時間間隔で区切られている。取得されたピッチデータP〜Pは、図12に示される、RAM13の所定領域に存在するピッチデータテーブルに夫々格納される。
ステップS52において、CPU11は、ステップS51で取得された(N+1)個のピッチのデータの平均値Phを算出する。
ステップS53において、CPU11は、カウンタCに0を代入して、初期化する。
ステップS54において、CPU11は、平滑用補正量ΔPを算出する。平滑用補正量ΔPは、以下の式(1)で算出される。
ΔP=P−Ph(C=0〜N) (1)
ステップS55において、CPU11は、P−ΔP(=Ph)を算出して、PをPhに更新する。即ち、上述したピッチデータテーブルのPの値がPhに更新される。
ステップS56において、CPU11は、カウンタCを1インクリメントする。
ステップS57において、CPU11は、CがNより大きいか否かを判定する。CがN以下と判定された場合、CPU11は、処理をステップS54に戻す。一方、CがNより大きいと判定された場合、CPU11は、平滑ピッチ化処理を終了する。
このように、ステップS54〜S57の処理が(N+1)回繰り返されることにより、上述したピッチデータテーブルに格納されたピッチデータP〜Pの値は、図13に示すように、夫々Phに更新される。これにより、図14に示されるように、翻訳後ピッチエンベロープが平滑化される。
[ピッチエンベロープ反映処理]
図9は、本実施形態に係る音声翻訳装置1において実行されるピッチエンベロープ反映処理を示すフローチャートである。
まず、ステップS61において、CPU11は、第1の反映データを作成する。第1の反映データとは、図10に示した翻訳前ピッチエンベロープで示される各時刻でのピッチの値と、図11に示した翻訳後ピッチエンベロープで示される各時刻でのピッチの値と、を足し合わせて、更に、予め求められた補正値Kを掛け合わせたピッチエンベロープのデータである。当該ピッチエンベロープを図15に示す。
この第1の反映データによれば、英語の「Hello」のピッチエンベロープに、日本語の「こんにちは」のピッチエンベロープが混ぜ合わされることで、日本語のイントネーションが混ざった、面白みのある英語の「Hello」が発話されるためのピッチエンベロープが作成される。
次に、ステップS62において、CPU11は、第2の反映データを作成する。第2の反映データとは、図10に示した翻訳前ピッチエンベロープで示される各時刻でのピッチの値と、図14に示した、平滑化された翻訳後ピッチエンベロープで示される各時刻でのピッチの値と、を足し合わせて、更に、予め求められた補正値Kを掛け合わせたピッチエンベロープのデータである。当該グラフを図16に示す。
この第2の反映データによれば、平滑化された英語の「Hello」のピッチエンベロープに、日本語の「こんにちは」のピッチエンベロープが混ぜ合わされることで、日本語の「こんにちは」のピッチエンベロープで英語の「Hello」が発話されるためのピッチエンベロープのグラフが作成される。ステップS62の処理が終了すると、CPU11は、ピッチエンベロープ反映処理を終了する。
以上、本実施形態の音声翻訳装置1の構成及び処理について説明した。
本実施形態において、音声翻訳装置1は、通信ネットワークNにより他の音声翻訳装置1と接続され、ユーザにより発声された言語の音声を集音するマイクロフォン31を備えている。CPU11は、集音された音声のデータを録音し、録音された音声のデータに基づいて、音声の翻訳前ピッチエンベロープを検出し、録音された音声のデータに基づいて、音声の文字のデータを検出し、検出された文字のデータを、当該文字が属する第1言語(日本語)とは異なる第2言語(英語)に属する文字のデータに変換し、第2言語に属する文字のデータに対応する翻訳後ピッチエンベロープを取得する。更に、CPU11は、翻訳前ピッチエンベロープと、翻訳後ピッチエンベロープとに基づいて、新たなピッチエンベロープを作成し、第2言語に属する文字のデータに対応する音声データを生成する際、この音声データのピッチに対して、この新たなピッチエンベロープの変化を反映させる。こうして生成された第2言語の音声データを第1の反映データとして、他の音声翻訳装置1に送信する。
したがって、音声翻訳装置において、英語の「Hello」のピッチの変化を表わすピッチエンベロープに対して、日本語の「こんにちは」のピッチ変化を表わすピッチエンベロープを反映させることにより、日本語のイントネーションが混ざった、面白みのある英語の「Hello」が発話される。
また、逆に、第1言語が英語、第2言語が日本語である場合、音声翻訳装置において、日本語の「こんにちは」のピッチエンベロープに、英語の「Hello」のピッチエンベロープが混ぜ合わされることで、英語のイントネーションが混ざった、面白みのある日本語の「こんにちは」が発話されるためのピッチエンベロープを他の音声翻訳装置に提供できる。
よって、他の言語を話す人間とのコミュニケーションにより面白みを持たせることができる。
また、本実施形態において、CPU11は、取得された翻訳後ピッチエンベロープを時系列に平滑化し、翻訳前ピッチエンベロープと、平滑化された翻訳後ピッチエンベロープとに基づいて、新たなピッチエンベロープを作成し、第2言語に属する文字のデータに対応する音声データを生成する際のピッチに対して、この新たなピッチエンベロープの変化を反映させる。こうして生成された第2言語の音声データを第2の反映データとして、他の音声翻訳装置1に送信する。
したがって、音声翻訳装置において、平滑化された英語の「Hello」のピッチの変化を表わすピッチエンベロープに、日本語の「こんにちは」のピッチの変化を表わすピッチエンベロープを反映させることで、日本語の「こんにちは」のピッチエンベロープで英語の「Hello」が発話されるためのピッチエンベロープを他の音声翻訳装置に提供できる。
また、逆に、第1言語が英語、第2言語が日本語である場合、音声翻訳装置において、平滑化された日本語の「こんにちは」のピッチ変化を表わすピッチエンベロープに、英語の「Hello」のピッチ変化を表わすピッチエンベロープを反映させることで、英語の「Hello」のピッチエンベロープで日本語の「こんにちは」が発話されるためのピッチエンベロープを他の音声翻訳装置に提供できる。
よって、他の言語を話す人間とのコミュニケーションにより面白みを持たせることができる。
また、本実施形態において、CPU11は、スイッチ15により出力された信号に基づいて、第1の反映データ、又は、第2の反映データ、を他の音声翻訳装置1に送信する。
したがって、ユーザは、第1の反映データ又は第2の反映データを選択することができる。よって、更に、他の言語を話す人間とのコミュニケーションにより面白みを持たせることができる。
また、本実施形態において、CPU11は、ユーザからの、第2言語としての言語の種類の入力を受け付けて、当該入力に応じた信号を出力するスイッチ15と、を更に備えている。またCPU11は、スイッチ15により出力された信号に基づいて、第2言語としての言語の種類を決定する。
したがって、ユーザは、送信先の音声翻訳装置1のユーザの母国語を選択できるので、利便性の高い音声翻訳装置が提供される。
以上、本発明の実施形態について説明したが、実施形態は例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、更に、本発明の要旨を逸脱しない範囲で、省略や置換など種々の変更を行うことができる。これら実施形態やその変形は、本明細書などに記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
例えば、上述した実施形態では、翻訳後ピッチエンベロープを平滑化した例について説明したがこれに限られず、CPU11は、翻訳後ピッチエンベロープで示される各ピッチの値を2倍にしたり、(1/2)倍にしたり等の周波数変調を実行してもよい。これにより、他の音声翻訳装置に送信するピッチエンベロープのバリエーションが増える。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[付記1]
発声された音声のデータに基づいて、前記音声の第1ピッチを検出するピッチ検出手段と、
前記音声のデータを認識して、第1言語に属する文字のデータを生成する文字データ生成手段と、
前記文字データ生成手段により生成された前記文字のデータを、前記文字が属する第1言語とは異なる第2言語に属する文字のデータに変換する文字データ変換手段と、
前記ピッチ検出手段により検出された前記第1ピッチに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出する第1ピッチ算出手段と、
前記第1ピッチ算出手段により算出された新たなピッチのデータに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声を生成する音声生成手段と、
を備える音声翻訳装置。
[付記2]
前記音声翻訳装置はさらに、前記文字データ変換手段により変換された、前記第2言語に属する前記文字のデータに対応する第2ピッチを取得するピッチ取得手段を有し、
前記第1ピッチ算出手段は、前記ピッチ検出手段により検出された前記第1ピッチと、前記ピッチ取得手段により取得された前記第2ピッチとに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出する付記1に記載の音声翻訳装置。
[付記3]
前記音声翻訳装置はさらに、
前記ピッチ取得手段により取得された前記第2ピッチを時系列に平滑化するピッチ平滑化手段と、
前記ピッチ検出手段により検出された前記第1ピッチと、前記ピッチ平滑化手段により時系列に平滑化された前記第2ピッチとに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出する第2ピッチ算出手段と、を備えた
付記2に記載の音声翻訳装置。
[付記4]
前記音声生成手段は、前記第1ピッチ算出手段により算出された新たなピッチのデータ、又は、前記第2ピッチ算出手段により算出された新たなピッチのデータのいずれかに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声を生成する、付記3に記載の音声翻訳装置。
[付記5]
前記音声翻訳装置はさらに、前記第2言語としての言語の種類を決定する言語決定手段を備える、付記1から4のいずれかに記載の音声翻訳装置。
[付記6]
発声された音声のデータに基づいて、前記音声の第1ピッチを検出し、
前記音声のデータを認識して、第1言語に属する文字のデータを生成し、
前記生成された前記文字のデータを、前記文字が属する第1言語とは異なる第2言語に属する文字のデータに変換し、
前記検出された前記第1ピッチに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出し、
前記算出された新たなピッチのデータに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声を生成する、音声翻訳方法。
[付記7]
発声された音声のデータに基づいて、前記音声の第1ピッチを検出するピッチ検出ステップと、
前記音声のデータを認識して、第1言語に属する文字のデータを生成する文字データ生成ステップと、
前記生成された前記文字のデータを、前記文字が属する第1言語とは異なる第2言語に属する文字のデータに変換する文字データ変換ステップと、
前記検出された前記第1ピッチに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たなピッチを算出する第1ピッチ算出ステップと、
前記算出された新たなピッチのデータに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声を生成する音声生成ステップと、
をコンピュータに実行させるプログラム。
S・・・音声翻訳システム、N・・・通信ネットワーク、1・・・音声翻訳装置、11・・・CPU、12・・・ROM、13・・・RAM、14・・・表示部、15・・・スイッチ、16・・・I/F、17・・・DSP、18・・・A/D、19・・・D/A、20・・・バス、21・・・オーディオ装置、31・・・マイクロフォン

Claims (6)

  1. 第1言語で発声された音声のデータに基づいて、前記音声のピッチの時系列の変化を示すピッチエンベロープである第1ピッチエンベロープを検出するピッチ検出手段と、
    前記第1言語で発声された音声のデータを音声認識するとともに、前記音声認識した内容を表わした前記第1言語に属する文字データを生成する文字データ生成手段と、
    前記文字データ生成手段により生成された前記文字データを、前記第1言語とは異なる第2言語に翻訳するとともに、前記翻訳された内容を前記第2言語に属する文字のデータに変換する文字データ変換手段と、
    前記文字データ変換手段により変換された、前記第2言語に属する前記文字のデータに対応する前記ピッチエンベロープである第2ピッチエンベロープを取得するピッチ取得手段と、
    前記ピッチ取得手段により取得された前記第2ピッチエンベロープの時系列の変化を平滑化するピッチ平滑化手段と、
    前記ピッチ検出手段により検出された前記第1ピッチエンベロープで示される各時刻でのピッチの値と、前記ピッチ平滑化手段により時系列の変化が平滑化された前記第2ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに補正値を掛け合わせることで、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たな第3ピッチエンベロープを算出するピッチ算出手段と、
    前記ピッチ算出手段により算出された前記第3ピッチエンベロープのデータに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記第3ピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する音声生成手段と、
    を備える音声翻訳装置。
  2. 前記ピッチ取得手段は、前記文字データ変換手段により変換された、前記第2言語に属する前記文字のデータに対応して予め記憶手段に記憶されている前記第2ピッチエンベロープを取得する
    請求項1に記載の音声翻訳装置。
  3. 前記ピッチ算出手段は更に、前記ピッチ検出手段により検出された前記第1ピッチエンベロープで示される各時刻でのピッチの値と、前記ピッチ平滑化手段による時系列の変化の平滑化がなされていない前記第2ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに、補正値を掛け合わせることで、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たな第4ピッチエンベロープを算出し、
    前記音声生成手段は、前記第3ピッチエンベロープのデータと前記第4ピッチエンベロープのデータのいずれかを選択し、選択されたピッチエンベロープのデータに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記選択されたピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する、請求項1または2に記載の音声翻訳装置。
  4. 前記音声翻訳装置はさらに、複数の言語の種類の中から前記第2言語としての言語の種類を選択する言語決定手段を備える、請求項1乃至3のいずれかに記載の音声翻訳装置。
  5. 第1言語で発声された音声のデータに基づいて、前記音声のピッチの時系列の変化を示すピッチエンベロープである第1ピッチエンベロープを検出し、
    前記第1言語で発声された音声のデータを音声認識するとともに、前記音声認識した内容を表わした前記第1言語に属する文字データを生成し、
    前記生成された前記文字データを、前記第1言語とは異なる第2言語に翻訳するとともに、前記翻訳された内容を前記第2言語に属する文字のデータに変換し、
    前記変換された、前記第2言語に属する前記文字のデータに対応する前記ピッチエンベロープである第2ピッチエンベロープを取得し、
    前記取得された前記第2ピッチエンベロープの時系列の変化を平滑化し、
    前記第1ピッチエンベロープで示される各時刻でのピッチの値と、前記時系列の変化が平滑化された前記第2ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに補正値を掛け合わせることで、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たな第3ピッチエンベロープを算出し、
    前記算出された前記第3ピッチエンベロープのデータに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記第3ピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する、音声翻訳方法。
  6. 第1言語で発声された音声のデータに基づいて、前記音声のピッチの時系列の変化を示すピッチエンベロープである第1ピッチエンベロープを検出するピッチ検出ステップと、
    前記第1言語で発声された音声のデータを音声認識するとともに、前記音声認識した内容を表わした前記第1言語に属する文字データを生成する文字データ生成ステップと、
    前記生成された前記文字データを、前記第1言語とは異なる第2言語に翻訳するとともに、前記翻訳された内容を前記第2言語に属する文字のデータに変換する文字データ変換ステップと、
    前記変換された、前記第2言語に属する前記文字のデータに対応する前記ピッチエンベロープである第2ピッチエンベロープを取得するピッチ取得ステップと、
    前記取得された前記第2ピッチエンベロープの時系列の変化を平滑化するピッチ平滑化 前記第1ピッチエンベロープで示される各時刻でのピッチの値と、前記時系列の変化が平滑化された前記第2ピッチエンベロープで示される各時刻でのピッチの値とを足し合わせるとともに補正値を掛け合わせることで、前記第2言語に属する前記文字のデータに対応する文字を発声するための新たな第3ピッチエンベロープを算出するピッチ算出ステップと、
    前記算出された前記第3ピッチエンベロープのデータに基づいて、前記第2言語に属する前記文字のデータに対応する文字を発声させて得られる音声であって、前記第3ピッチエンベロープで示されるようにピッチが時系列で変化する音声を生成する音声生成ステップと、
    をコンピュータに実行させるプログラム。
JP2013089358A 2013-04-22 2013-04-22 音声翻訳装置、音声翻訳方法及びプログラム Active JP6277597B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013089358A JP6277597B2 (ja) 2013-04-22 2013-04-22 音声翻訳装置、音声翻訳方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013089358A JP6277597B2 (ja) 2013-04-22 2013-04-22 音声翻訳装置、音声翻訳方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2014215302A JP2014215302A (ja) 2014-11-17
JP2014215302A5 JP2014215302A5 (ja) 2016-06-16
JP6277597B2 true JP6277597B2 (ja) 2018-02-14

Family

ID=51941137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013089358A Active JP6277597B2 (ja) 2013-04-22 2013-04-22 音声翻訳装置、音声翻訳方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6277597B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010581A (ja) * 1998-06-19 2000-01-14 Nec Corp 音声合成装置
JP2006189544A (ja) * 2005-01-05 2006-07-20 Matsushita Electric Ind Co Ltd 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム
JP2009186820A (ja) * 2008-02-07 2009-08-20 Hitachi Ltd 音声処理システム、音声処理プログラム及び音声処理方法

Also Published As

Publication number Publication date
JP2014215302A (ja) 2014-11-17

Similar Documents

Publication Publication Date Title
CN108447486B (zh) 一种语音翻译方法及装置
TW201513099A (zh) 基於聽覺場景分析及語音模型化之語音信號分離及合成
US9190048B2 (en) Speech dialogue system, terminal apparatus, and data center apparatus
Quené Longitudinal trends in speech tempo: The case of Queen Beatrix
JPWO2013027360A1 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
CN113066511B (zh) 一种语音转换方法、装置、电子设备和存储介质
KR102296878B1 (ko) 외국어 학습평가장치
US8793128B2 (en) Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point
US10269349B2 (en) Voice interactive device and voice interaction method
KR20200013907A (ko) 비디오 특성에 부합하는 오디오 합성 방법
JP5402089B2 (ja) 音響信号変換装置、方法、及びプログラム
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP6277597B2 (ja) 音声翻訳装置、音声翻訳方法及びプログラム
JP2019045831A (ja) 音声処理装置、方法およびプログラム
JP6827004B2 (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JP6233103B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP2020197629A (ja) 音声テキスト変換システムおよび音声テキスト変換装置
JPWO2019021953A1 (ja) 音声操作装置及びその制御方法
JP7296214B2 (ja) 音声認識システム
CN112542159B (zh) 一种数据处理方法以及设备
JP2014235263A (ja) 音声認識装置およびプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160422

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180101

R150 Certificate of patent or registration of utility model

Ref document number: 6277597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150