JP2007052329A - 音声作成方法および音声作成装置 - Google Patents

音声作成方法および音声作成装置 Download PDF

Info

Publication number
JP2007052329A
JP2007052329A JP2005238446A JP2005238446A JP2007052329A JP 2007052329 A JP2007052329 A JP 2007052329A JP 2005238446 A JP2005238446 A JP 2005238446A JP 2005238446 A JP2005238446 A JP 2005238446A JP 2007052329 A JP2007052329 A JP 2007052329A
Authority
JP
Japan
Prior art keywords
language
speech
voice
phrase
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005238446A
Other languages
English (en)
Inventor
Takashi Kaneda
隆志 金田
Hiroki Miyake
洋樹 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pentax Corp
Original Assignee
Pentax Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pentax Corp filed Critical Pentax Corp
Priority to JP2005238446A priority Critical patent/JP2007052329A/ja
Publication of JP2007052329A publication Critical patent/JP2007052329A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 正確な翻訳処理のみならず、従来と比してより品質の高い、音声合成、音声出力を実現する音声作成方法を提供する。
【解決手段】 ユーザーインターフェースへの入力操作に基づいて実行される、第一の言語で記述された複数の例文と、第一の言語で記述された複数の例文のそれぞれに対応する第二の言語で記述された複数の例文とを保持しているデータベースから、第一の言語で記述された例文を少なくとも一つ選択する選択ステップと、選択ステップにより選択された例文に対し所定のパラメータを付与しつつ編集を行う編集ステップと、編集ステップにより編集が行われた第一の言語で記述された例文を第二の言語に変換する変換ステップと、変換ステップにより変換された第二の言語で記述された例文を、第二の言語に対応する音声合成手段により音声合成する音声合成ステップとを有する音声作成方法を提供する。
【選択図】 図4a

Description

本発明は、複数の言語にそれぞれ対応する複数の音声合成手段を用いる音声作成方法および装置に関する。
従来の音声合成ソフトウエアでは、キーボードからまたはテキストファイルからテキストを入力し、出力結果である音声ファイルを作成するのが一般的であった。入力した言語と異なる言語の音声出力を行う場合は、まず、音声合成ソフトウエアに搭載されている翻訳エンジンまたは外部の翻訳ソフトウエアを使って入力された言語(例えば、日本語)を他国の言語(例えば英語や中国語)に翻訳し、多国語のテキストを作成する。そして、作成された他国語テキストを使って音声合成が行われる。上述の翻訳ソフトを用いる方式では、テキスト入力→翻訳→音声合成という複数のプロセスを経ないと合成結果が得られなかったため、非常に手間がかかっていた。また、翻訳精度の低い翻訳エンジン等を使った場合は、正確な翻訳結果を得られない場合が多く、さらに音声合成の精度とも相まって、意図した合成結果が得られないこということがあった。
そこで、例えば特許文献1に記載の構成のように、翻訳精度の向上、さらには所望の音声合成結果が得られることを目的とした電子翻訳機が提案されている。特許文献1には、中央処理装置と、第1の言語による会話文及び/又は語句、およびこれに対応する複数の第2言語による会話文及び/又は語句に対して同一の参照番号を付して格納した記憶装置と、第1及び第2の表示装置と、タッチパネルによるデータ選択入力装置と、表示装置、選択入力装置、を中央処理装置に選択的に接続する入出力制御装置を備え、タッチパネルによるデータ選択入力装置により、複数の第2言語による会話文及び/又は語句から志望する第2言語を選択する指令を実行する機能と、指令により記憶装置から読み出した第1及び第2の言語による操作案内文を、表示装置の画面に表示する手段と、操作案内文の指示に従って選択入力装置の操作により選択された言語の組から、第1及び第2の言語による第1ステップの会話文及び/又は語句を表示装置の画面に表示する制御手段と、いずれか一方の画面の質問に応じて他方の画面の操作者により操作されるデータ選択入力装置からのデータに応じて第2ステップの会話文及び/又は語句を記憶装置から読み出して、表示装置の画面に表示する制御手段と、同様の操作を繰り返して会話の目的を達した段階で、会話終了文の選択、所定時間の経過のいずれかを検出して操作案内文の表示ステップに移行する機能と、翻訳操作実行中の会話文及び/又は語句に付した参照番号の記憶装置を備え、選択して実行中の第1及び第2の言語の組とは異なる言語の組を途中変更した際には、記憶装置に記憶されている参照番号を読み出して以前に選択実行されていたステップの会話文及び/又は語句に対応する途中選択の言語の組の会話文及び/又は語句を表示装置の画面に表示することを特徴とする電子翻訳機が開示されている。特許文献1に記載の電子翻訳機によれば、タッチパネル等の操作により入力の手間が省け、さらに第1の言語の語句と、該第1の言語の語句に対応する第2の言語の語句とに対して同一の参照番号を付して関連づけを行うことにより、翻訳の精度の向上も図ろうとしている。
特許2811518号公報
ここで、特許文献1に記載の電子翻訳機は、本来簡易的な文字によるコミュニケーションを図る装置であるため、翻訳結果としてのテキストの出力形式は画面への表示が前提となっており、音声出力は、副次的に取り扱われる。そのため、音声出力しようとする場合には、該テキストに対して音声合成処理を行うこととなるが、高い品質での音声合成は求められていなかった。したがって、音声のみで内容を他人に通知しなければならないアナウンス等を主目的とした音声合成、あるいは音声出力を提供するためには、さらなる装置あるいは方法のさらなる改善が求められていた。
そこで本発明は、上述した従来技術の問題点に鑑みてなされたものであり、正確な翻訳処理のみならず、従来と比してより品質の高い、音声合成、音声出力を実現する音声作成方法および音声作成装置を提供することを目的とする。
上記の課題を解決するため、本発明では、少なくとも第一の言語と第二の言語に対して適用され、入力された第一の言語を、第二の言語に変換して前記第二の言語に対応する音声合成手段により音声合成を行う音声作成方法であって、ユーザーインターフェースへの入力操作に基づいて実行される、前記第一の言語で記述された複数の例文と、前記第一の言語で記述された複数の例文のそれぞれに対応する前記第二の言語で記述された複数の例文とを保持しているデータベースから、前記第一の言語で記述された例文を少なくとも一つ選択する選択ステップと、前記選択ステップにより選択された例文に対し所定のパラメータを付与しつつ編集を行う編集ステップと、前記編集ステップにより編集が行われた前記第一の言語で記述された例文を前記第二の言語に変換する変換ステップと、前記変換ステップにより変換された前記第二の言語で記述された例文を、前記第二の言語に対応する音声合成手段により音声合成する音声合成ステップと、を有することを特徴とする音声作成方法を提供する。
本発明の音声作成方法では、第一の言語の例文と第二の言語の例文とがデータベース中において一対一に関連付けられており、また、それらの例文に所定の編集を行ったとしても内容の同一性を保つことができるため、正確な翻訳を行うことができる。また、翻訳を行うと共に音声合成の品質に寄与する所定のパラメータを付与することができるので、品質の高い音声合成を行うことができる。
また、本発明の音声作成方法では、編集ステップが行われると同時に変換ステップが行われることを特徴とする。また、前記データベースに保持されている例文は、所定の文節で区切られていることを特徴とし、さらに、前記データベースに保持されている例文は、語句が未定の文節を含むことを特徴とする。
また、前記編集ステップは、前記語句が未定の文節に語句を入力することを含むことを特徴とし、さらに、前記語句が未定の文節に語句を入力することは、予め用意されている選択肢から選択することにより入力することを特徴とする。
また、前記所定のパラメータは、文節ごとに設定可能であることを特徴とする。そして、前記所定のパラメータは、合成される音声の話す速度を調整するための値を含む。さらに、前記所定のパラメータは、合成される音声の音程を調整するための値を含めることができる。さらに、前記所定のパラメータは、合成される音声の音量を調整するための値を含めることができる。また、前記所定のパラメータは、振り仮名に関する情報を含んでもよい。
また、前記編集ステップは、前記第一の言語で記述された複数の単語と、前記第一の言語で記述された複数の単語のそれぞれに対応する前記第二の言語で記述された複数の単語とを保持している単語データベースから、前記第一の言語で記述された単語を選択する単語選択ステップを含むことを特徴とする。
また、変換ステップは、前記データベースから前記選択ステップにより選択された例文に対応する前記第二の言語で記述された例文を抽出し、該抽出された例文に対し前記編集ステップに相当する処理を行うことを特徴とし、さらに、前記編集ステップに相当する処理を行うことは、前記単語選択ステップにおいて選択された単語に対応する前記第二の言語で記述された単語を、前記単語データベースから選択することを含むことを特徴とする。
また、本発明の音声作成装置は、少なくとも第一の言語と第二の言語に対して適用可能な、第一の言語を入力する入力手段と、第二の言語に変換する変換手段と、前記第二の言語に対し音声合成を行う音声合成手段とを有する音声作成装置であって、種々の入力操作を行うためのユーザーインターフェースと、前記第一の言語で記述された複数の例文と、前記第一の言語で記述された複数の例文のそれぞれに対応する前記第二の言語で記述された複数の例文とを保持するデータベースと、前記ユーザーインターフェースへの入力操作に基づいて実行される、前記第一の言語で記述された複数の例文と、前記第一の言語で記述された複数の例文のそれぞれに対応する前記第二の言語で記述された複数の例文とを保持しているデータベースから、前記第一の言語で記述された例文を少なくとも一つ選択する選択ステップと、前記選択ステップにより選択された例文に対し所定のパラメータを付与しつつ編集を行う編集ステップと、前記編集ステップにより編集が行われた前記第一の言語で記述された例文を前記第二の言語に変換する変換ステップと、前記変換ステップにより変換された前記第二の言語で記述された例文を、前記第二の言語に対応する音声合成手段により音声合成する音声合成ステップと、を実行するためのプログラムを記憶した記憶手段と、を有することを特徴とする。
したがって、本発明は上記の構成により、正確な翻訳処理のみならず、従来と比してより品質の高い、音声合成、音声出力を実現する音声作成方法および音声作成装置を提供することができる。
以下、本発明に係る音声作成方法および装置の具体的な実施形態を図を参照して説明する。
図1は、本発明の音声作成方法を実現する端末機器1の機能ブロック図である。端末機器1は、CPU11と、記憶部12と、データベース部13と、表示部14と、音声出力部15と、スピーカ16と、入力部17と、を有する。
CPU11は端末機器1の各機能を制御する。記憶部12は、ソフトウエアを格納するROMや、一時的にデータを格納しておくRAMや、その他フラッシュメモリ等の不揮発メモリ等を備えている。本発明の音声作成方法を実行するためのソフトウエアである音声作成ツールも記憶部12に格納されている。本発明に用いられる音声作成ツールは、複数の言語(例えば日本語、英語、中国語、韓国語等)に対応するTTS(Text to Speech)エンジンを有すると共に、入力した言語を他の国の言語に変換(翻訳)して、音声出力するソフトウエアである。
データベース部13は、各言語に対応した定型文を有するデータベースや、各言語に対応した単語を有するデータベース等を保持している。日本語の定型文を有するデータベースと、他の国の言語の定型文を有するデータベースとは関連付けられている(各国間で同じ内容を示す定型文が記憶されている)。すなわち、例えば、日本語の定型文のそれぞれにインデックス番号が付されており、中国語の定型文のうち、同じインデックス番号が付されているものを参照することにより、日本語と中国語を対応させることができる。単語に関するデータベースも同様である。
表示部14は、例えば、CRTや液晶ディスプレイ等の表示装置であって、例えば、記憶部12に格納されているOSやソフトウエア等の指示によって入力操作画面等を表示させる機能を有する。
音声出力部15は、音声出力を行うためのインターフェースでありスピーカ16に音声信号を出力する機能を有する。スピーカ16は、端末機器1に備えられていてもよいし、音声出力部15を介して接続可能な構成であってもよい。
入力部17は、ユーザが入力操作を行うことができる機器をインターフェースを介して接続している。入力部14としては、キーボードやマウス、その他タッチパネル等様々な入力手段が例示される。
なお、端末機器1は、例えばPCやPDA等、本発明に係る音声作成方法を実現するためのソフトウエアである音声作成ツールを実行して音声出力を行うことができる機器を想定している。しかし、PCやPDAに限定されるものではない。
図2は、本発明に係る音声作成方法を実行するためのソフトウエアである音声作成ツールの機能を説明するための図である。音声作成ツール20は、データベース部13に保持されている各言語に対応した定型文を有するデータベースや、各言語に対応した単語を有するデータベース等を参照、抽出等を行い、言語を翻訳して音声出力することができる。
音声作成ツール20は、入力部17の操作に基づいて指定された言語の定型文を選択し、編集等を行う機能を有する(F01)。また、データベース部13の各言語に対応した定型文を有するデータベースや各言語に対応した単語を有するデータベース等を参照して、TTSエンジンに入力するためのテキストデータを生成することができる(F02)。その生成されるテキストデータは、各言語ごとに同一内容の文章を有しており、各言語ごとに参照可能としたテーブルデータとして記憶部12(図1)に記憶される。その生成されたテキストデータから指定された言語のデータがTTSエンジンに入力され、その指定された言語に対応するTTSエンジンにより、音声合成が行われる(F03)。音声合成された定型文は音声処理化されてデータとしてのファイル出力や音声としてのスピーカ出力がなされる(F04)。
また、音声作成ツール20を使用する際の各種操作画面は表示部14により表示される。ユーザは、表示部14に表示されるユーザーインターフェースにより、キーボードやマウス等により入力操作を行うことができる。
音声作成ツール20により実行される処理を図3に示すフローチャートを用いて説明する。図3に示す一連の処理は、ユーザが日本語を入力してそれを日本語或いは他国語(日本語以外の言語)として出力させる場合を示すものである。
図3のフローチャートに示す一連の処理は、端末機器1において音声作成ツール20が起動された後、入力テキストの作成開始の指示と共に開始する。ステップS101では、データベース部13に記憶されている日本語定型文データベースから日本語定型文を選択して入力テキストを作成するか(定型文モード)、非定型文(すなわち、テキストを任意に入力)で入力テキストを作成するか(非定型文モード)が判定される。非定型文モードが選択された場合は(ステップS101:NO)、ステップS102へ進む。定型文モードが選択された場合は(ステップS101:YES)、ステップS105へ進む。
ステップS102では、日本語非定型文直接入力フォームを表示部14に表示する。ユーザは入力部14に備えられたキーボード等により日本語の文章を直接入力することができる。ステップS103では、表示部14の表示画面上にユーザーインターフェースとして備えられた音声化ボタンがマウス等によりクリックされたかどうかが判定される。なお、音声化ボタンは、表示画面上に備えられたクリック可能なボタンでなくとも、キーボード上の指定されたキー等であってもよい。音声化ボタンがクリックされていなければ(ステップS103:NO)、ステップS102へ戻る。すなわち、音声化ボタンがクリックされるまでは、ユーザは日本語非定型文直接入力フォームに入力を行うことが可能である。音声化ボタンがクリックされれば(ステップS103:YES)、ステップS104へ進み、TTSエンジン(F03)中の日本語TTSエンジンに作成された文章がテキストデータとして入力され、日本語音声化処理が実行される。その後、ステップS116へ進み、ファイル出力或いはスピーカ出力がなされる。
ステップS105では、日本語定型文選択フォーム(ユーザが複数の日本語定型文から所望の定型文を選択できるようなユーザーインターフェース)を表示部14に表示し、さらにユーザによりデータベース部13に保持されている日本語定型文データベースから日本語定型文が選択されるとそれを表示してステップS106へ進む。なお、日本語定型文は、一つのみ選択してもよいし、複数選択も可能である。音声作成ツール20は、定型文を複数選択する場合に定型文の並び順を編集することができるようなユーザーインターフェースを備えていてもよい。
図4(a)は、S105において、表示された日本語定型文を示す画面の一例である(すなわち、定型文の編集・各種設定が可能なインターフェース)。なお、この図は、表示部14の表示画面上の一部(画面100)を模式的に示す図である。画面100は、文章表示領域101、話者アイコン102、言語アイコン103、設定値表示領域104を有する。文章表示領域101には、文節ごとに区切られた文章(或いは単語)が上から順番に配列されている。文章表示領域101において、網掛けされた領域は変更することができない固定領域である。また、空欄101aのようにテキストが表示されていない領域はユーザによる任意入力が可能な領域である。図4(a)では、<商品名>及び<サービス名>の項目が空欄101aとされている。なお、図4(a)に例示する定型文は、空欄101aのある定型文であるが、空欄101aがない全く変更不可能な定型文もある。
話者アイコン102は、TTSエンジンF03から出力される合成音声が、男声であるか女声であるかを示すものであり、この場合女声が選択されている。入力部17を用いた所定の操作により男声/女声を切り替えることができる。言語アイコン103は、現在ユーザによっていずれの言語のTTSエンジンが選択されているのかを国旗の別により示している。ここでは日本が選択されている。
設定値表示領域104には、音程を調整するためのピッチ(Pitch)や、話す速さを調整するためのスピード(Speed)や、音量を調整するためのボリューム(Volume)等の設定値が表示されている。これらの設定値は、TTSエンジンにおいてテキストを音声合成する際に考慮されるパラメータである。すなわち、Pitchの値が大きければ大きい程、高い音に合成され、Speedの値が大きいほど、話すスピードが速くなり、Volumeの値が大きければ大きいほど、音量が大きくなる。これらの設定値は、各文節ごとに指定することが可能である。したがって、音声作成ツール20では、入力テキスト中の重要だと思われる部分のみの音量を大きくするといったような調整を行うことができる。これらの機能は音声のみで情報を伝えるアナウンス等に用いる場合には効果的である。なお、設定値が表示されていない文節には、デフォルト値(例えば、図4に示す例では110)が設定される。
図3のステップS106では、ユーザが空欄101aの編集操作、及びPitch等の設定値の設定を行うことにより画面100の表示が一部変更される(すなわち、日本語定型文のテキストデータが編集される)。また、ユーザは話者アイコン102の操作も行うことができる。図4(b)は、ユーザが文章表示領域101中の商品名の項目に「電話機が」、サービス名の項目に「音声自動応答」をそれぞれ入力した後の画面100を示す図である。空欄101aに文章或いは単語を入力する場合、例えば、ユーザがマウス等によるカーソル操作により、リスト表示ボタン101bにカーソルを合わせてクリックすることにより、商品名(或いはサービス名)の選択肢を表示させ、その選択肢の中からテキストを選択することができる。この場合、それらの選択肢は、データベース部13中の単語データベースに含まれるものが表示される。すなわち、単語データベースは、例えば<商品名>等の項目ごとに整理されているとともに、定型文の種類(分野、用途等)にも基づいて整理されている。また、リスト表示ボタン101bにより表示させる場合には、使用頻度の高いもの、最近使用したもの等を上位に表示させることもできる。また、リスト表示ボタン101bを備えずにテキストをキーボードから直接入力することも可能である。また、図4(b)に示す例では、「同時に行う事が」の文節に対して、Volumeを150とする設定が行われている。この設定は、例えば、設定値表示領域104上で変更したい文節の設定値が表示される位置にカーソルを合わせてクリック等を行うことにより変更表示画面を表示させて変更を行うことができる。編集作業終了後、ステップS107へ進む。
ステップS107では、ステップS106により編集された定型文と、データベース部13に保持されている他の言語の定型文データベース及び単語データベースとから、入力テキストデータ200が生成される。
図5に、入力テキストデータ200の内容を示す。入力テキストデータ200は、日本語データ領域210と、中国語データ領域220と、英語データ領域230と、韓国語データ領域240とを有する。各データ領域中の要素はコンマ「,」により区切られて配列されている。また、各文節はダブルクォーテーション「“ ”」で囲まれている(例えば、“これらのお申し込みは、”等)。ステップS105において選択された日本語定型文のインデックス番号と、中国語、英語、韓国語の定型文データベース中の同一のインデックス番号が付された定型文をそれぞれ抽出し、入力テキストデータ200として呼び出す。そして、日本語定型文の空欄101aに入力された単語(例えば、<select name=”<商品名>” select item=”0001-000001-000001.sif” value=”電話機が”>等)のインデックス番号を参照して、単語データベース中の同一インデックス番号が付された各言語の単語を呼び出し、それぞれの言語に対応させて入力テキストデータ200に合成する。なお、日本語定型文の空欄101aに入力された単語が数値(金額や日付等)であれば、単語データベースを参照することなくそのまま入力テキストデータ200に用いる。図6にデータベース部13に含まれる単語データベースの内容を記載する。例えば、インデックス番号1が付されたものは、日本語では“電車”、英語では“train”、中国語・韓国語においてもそれぞれ対応する単語である。日本語定型文の空欄101aに“電車”が入力されると、それぞれの言語の定型文の対応する空欄にインデックス番号1が付された単語が入力される。すなわち、日本語定型文の空欄101aに入力された単語と同一のものが単語データベース中にあればそのインデックス番号を参照し、同一のインデックス番号が付された各言語の単語が入力テキストデータ200に抽出される。なお、図5及び図6の各テーブル中の<000>は韓国語、<100>は英語、<200>は中国語、<300>は日本語を参照するために使用される識別子であるが、これらの識別子の形式は特にその表記に限定されるものではない。
また、入力テキストデータ200中において、<vt_volume=150>と</vt_volume>のタグは音量の設定値を示すものであり、それらに囲まれた文節(日本語では「同時に行う事が」)は、音量が150に設定される。他の設定値(PitchやSpeed)においても同様に設定することができる。なお、入力テキストデータ200中にそれらのタグがない文節はデフォルトの値が採用されるものとする。TTSエンジンは、入力テキストデータ200中のこれらの各要素を解釈して音声合成を行うことができる。すなわち、文節ごとに各種設定値を考慮した音声を作成することができる。なお、ステップS107の処理は、音声作成ツール20の文章生成機能(F02)により行われるものである。また、ステップS107における処理は、ステップS106における画面100中の表示の変更とともにリアルタイムに行われてもよい。例えば、図4(a)の空欄101aの<商品名>に“電話機が”が入力されると同時に、図5の入力テキストデータ200の日本語データ領域210中の要素<select name=”<商品名>” select item=”0001-000001-000001.sif” value=”電話機が”>が生成される。そして、日本語データ領域210の要素が生成(或いは変更)されると共に、中国語データ領域220、英語データ領域230、韓国語データ領域240中の対応する要素も単語データベースから対応する単語が抽出されて生成(或いは変更)される。また、図4(a)の文節“同時に行う事が」のボリュームの値を150に変更すると同時に、図5の入力テキストデータ200の日本語データ領域210中の要素<vt_volume=150>と</vt_volume>とが付加される。そして、日本語データ領域210中に要素が生成されると共に、中国語データ領域220、英語データ領域230、韓国語データ領域240中の対応する要素もそれぞれ対応する位置に付加される。つまり、図4に示す定型文の編集が行われると共に、入力テキストデータ200中の対応する要素が順次更新或いは上書きされていく。ステップS106とステップS107とが連動していることにより、画面100には表示されていないが、日本語の定型文が作成されると同時に、他国語の定型文が自動的に作成される。
ステップS108では、日本語定型文の表示から他国語への表示に変更されるかどうかが判定される。他国語への変換指示がない場合、すなわち日本語のまま出力したい場合は(ステップS108:NO)、ステップS109へ進む。他国語への変換指示があった場合は(ステップS108:YES)、ステップS111へ進む。他国語への変換指示は、例えば、言語アイコン103をクリック等の操作により切り替える所定の操作により実行することができる。
ステップS109では、音声化ボタンがクリックされたかどうかが判定される。音声化ボタンがクリックされていなければ(ステップS109:NO)、ステップS106へ戻る。音声化ボタンがクリックされれば(ステップS109:YES)、ステップS110へ進み、TTSエンジン中の日本語TTSエンジンにより、入力テキストデータ200の日本語データ領域210のデータに基づいて日本語音声化処理が実行される。その後、ステップS116へ進み、ファイル出力或いはスピーカ出力がなされる。
ステップS111では、入力テキストデータ200中の各言語のデータを参照して、表示部14に、他国語を表示させる。なお、ステップS108において、日本語以外のどの言語を表示させるかの指定があったものとする。例えば、韓国語を表示させる場合は、入力テキストデータ200の韓国語データ領域240のデータに基づいて画面100に図7(a)のような表示をさせる。同様に、英語を表示させる場合は、入力テキストデータ200の英語データ領域230のデータに基づいて画面100に図7(b)のような表示をさせ、中国語を表示させる場合は、中国語データ領域220のデータに基づいて画面100に図7(c)のような表示をさせる。これらの他国語定型文(図7(a)〜(c))においても日本語定型文の空欄101aに対応する部分はさらに編集することができる。なお、日本語定型文において、空欄101aにキーボード等によりテキストを任意に入力した場合は、単語データベースに対応する他国語があれば、変換されたテキストが表示されるが、対応する他国語がなければ、空白となる。
ステップS112では、ユーザが空欄111a(或いは121a、131a)の編集操作、及びPitch等の値の設定を行うことにより画面100の表示が一部変更される(ステップS112の処理は、ステップS106の処理において日本語を他国語に置き換えれば同等であるので説明は省略する)。ステップS113では、入力テキストデータ200が更新される(ステップS112において変更があった場合)。その後、ステップS114では、音声化ボタンがクリックされたかどうかが判定される。音声化ボタンがクリックされていなければ(ステップS114:NO)、ステップS112へ戻る。音声化ボタンがクリックされれば(ステップS114:YES)、ステップS115へ進み、TTSエンジン中の対応する他国語TTSエンジンにより、入力テキストデータ200中の対応する他国語のデータ領域のデータに基づいて他国語音声化処理が実行される。その後、ステップS116へ進み、ファイル出力或いはスピーカ出力がなされる。なお、ステップS114において音声化ボタンがクリックされていない場合(ステップS114:NO)、ステップS108まで戻ってもよい。すなわち、音声化ボタンがクリックされるまでは、言語アイコンを切り替えることにより、自由に定型文の言語を切り替えることができる。
なお、図5に示す入力テキストデータ200の要素として、空欄101aに入力される項目が例えば<固有名詞>等である場合には、いわゆる振り仮名に関する情報を付加的な要素として含めることができる。振り仮名に関する情報を含めることにより、日本語TTSエンジンにデータを入力した際に固有名詞の読み間違いをなくすことができる。
以上、図3のフローチャートで示す処理により、日本語入力から日本語又は他国語の音声出力がなされる。なお、日本語以外の他国語を入力して音声出力を行うことも可能である。例えば、ステップS105において中国語定型文が選択されるものとすると、中国語定型文データベースから定型文が選択される。その後の処理は、日本語を中国語に置き換えて処理を実行することができる。
本発明では、入力テキストデータ200上に作成された各言語のデータがTTSエンジンに入力される。すべての定型文は、予め文節(或いは単語)ごとに区切られている。各文節ごとにスピード、ピッチ、ボリューム等の値を設定することができる。したがって、単なる連続した文章をTTSエンジンに入力させるよりも、TTSエンジンは、その文構造を解釈しやすいため、読み間違いや、イントネーション不正が発生する確率を低減させることができる。また、強調したい部分のボリュームを大きくしたり、速度を遅くしたりすることにより、アナウンスとしての機能、すなわち、必要事項を他人に伝達するということに効果的である。したがって、単なるテキストを用いるよりも、本発明の定型文を用いるほうが、音声合成の品質がよい。
また、データベース部13に保持されている定型文は業界別に使用頻度を考慮して用意することができる。定型文が十分にあれば、また、単語データベースも十分に満足するものであれば、選択肢を選択するのみで文章の作成が可能である。その場合、他国語は全て入力テキストデータ上において完成されているので、翻訳の精度が劣化してしまうことがない(翻訳エンジンを使用する場合は翻訳の精度が十分でない場合が多い)。したがって、入力が容易で、翻訳精度がよく、且つ、品質のよい合成音声を作成することができる。
なお、上述のフローチャートに示す処理では、作成される文章は一つ(或いは一種類)のみであったが、複数の定型文や非定型文を、任意に組み合わせて文章を作成することが可能である。また、音声ファイルを組み込むことも可能である。その場合、画面100上に、非定型文、定型文、音声ファイルを任意に並べて表示させ、音声化ボタンクリック時には、それらを並び順に或いはそれぞれチェックボックスを設けてチェックがあるもののみを音声化することができる。これにより、長い文章も作ることができると共に、複数言語を一続きとして再生することも可能となる。例えば、飛行機や新幹線等のアナウンスのような日本語→英語等の連続再生音声も容易に作成が可能となる。
端末機器の機能ブロック図である。 音声作成ツールの機能を示す図である。 音声作成ツールによりおこなわれる処理を示すフローチャートである。 日本語定型文の表示画面を示す図である。 日本語定型文の表示画面を示す図である。 作成されたテキストデータを示す図である。 単語データベースを示す図である。 他国語の定型文の表示画面を示す図である。 他国語の定型文の表示画面を示す図である。 他国語の定型文の表示画面を示す図である。
符号の説明
1 端末機器
11 CPU
12 記憶部
13 データベース部
14 表示部
15 音声出力部
16 スピーカ
17 入力部
20 音声作成ツール
100 画面
101 文章表示領域
102 話者アイコン
103 言語アイコン
104 各種設定値表示領域
200 入力テキストデータ

Claims (15)

  1. 少なくとも第一の言語と第二の言語に対して適用され、入力された第一の言語を、第二の言語に変換して前記第二の言語に対応する音声合成手段により音声合成を行う音声作成方法であって、
    ユーザーインターフェースへの入力操作に基づいて実行される、前記第一の言語で記述された複数の例文と、前記第一の言語で記述された複数の例文のそれぞれに対応する前記第二の言語で記述された複数の例文とを保持しているデータベースから、前記第一の言語で記述された例文を少なくとも一つ選択する選択ステップと、前記選択ステップにより選択された例文に対し所定のパラメータを付与しつつ編集を行う編集ステップと、
    前記編集ステップにより編集が行われた前記第一の言語で記述された例文を前記第二の言語に変換する変換ステップと、
    前記変換ステップにより変換された前記第二の言語で記述された例文を、前記第二の言語に対応する音声合成手段により音声合成する音声合成ステップと、を有することを特徴とする音声作成方法。
  2. 前記編集ステップが行われると同時に前記変換ステップが行われることを特徴とする請求項1に記載の音声作成方法。
  3. 前記データベースに保持されている例文は、所定の文節で区切られていることを特徴とする請求項1または2に記載の音声作成方法。
  4. 前記データベースに保持されている例文は、語句が未定の文節を含むことを特徴とする請求項3に記載の音声作成方法。
  5. 前記編集ステップは、前記語句が未定の文節に語句を入力することを含むことを特徴とする請求項4に記載の音声作成方法。
  6. 前記語句が未定の文節に語句を入力することは、予め用意されている選択肢から選択することにより入力することを特徴とする請求項5に記載の音声作成方法。
  7. 前記所定のパラメータは、文節ごとに設定可能であることを特徴とする請求項3から6のいずれかに記載の音声作成方法。
  8. 前記所定のパラメータは、合成される音声の話す速度を調整するための値を含むことを特徴とする請求項1から7のいずれかに記載の音声作成方法。
  9. 前記所定のパラメータは、合成される音声の音程を調整するための値を含むことを特徴とする請求項1から8のいずれかに記載の音声作成方法。
  10. 前記所定のパラメータは、合成される音声の音量を調整するための値を含むことを特徴とする請求項1から9のいずれかに記載の音声作成方法。
  11. 前記所定のパラメータは、振り仮名に関する情報を含むことを特徴とする請求項1から10のいずれかに記載の音声作成方法。
  12. 前記編集ステップは、前記第一の言語で記述された複数の単語と、前記第一の言語で記述された複数の単語のそれぞれに対応する前記第二の言語で記述された複数の単語とを保持している単語データベースから、前記第一の言語で記述された単語を選択する単語選択ステップを含むことを特徴とする請求項1から11のいずれかに記載の音声作成方法。
  13. 前記変換ステップは、前記データベースから前記選択ステップにより選択された例文に対応する前記第二の言語で記述された例文を抽出し、該抽出された例文に対し前記編集ステップに相当する処理を行うことを特徴とする請求項1から12のいずれかに記載の音声作成方法。
  14. 前記変換ステップは、前記データベースから前記選択ステップにより選択された例文に対応する前記第二の言語で記述された例文を抽出し、該抽出された例文に対し前記編集ステップに相当する処理を行うことであり、前記編集ステップに相当する処理を行うことは、前記単語選択ステップにおいて選択された単語に対応する前記第二の言語で記述された単語を、前記単語データベースから選択することを含むことを特徴とする請求項12に記載の音声作成方法。
  15. 少なくとも第一の言語と第二の言語に対して適用可能な、第一の言語を入力する入力手段と、第二の言語に変換する変換手段と、前記第二の言語に対し音声合成を行う音声合成手段とを有する音声作成装置であって、
    種々の入力操作を行うためのユーザーインターフェースと、
    前記第一の言語で記述された複数の例文と、前記第一の言語で記述された複数の例文のそれぞれに対応する前記第二の言語で記述された複数の例文とを保持するデータベースと、
    前記ユーザーインターフェースへの入力操作に基づいて実行される、前記第一の言語で記述された複数の例文と、前記第一の言語で記述された複数の例文のそれぞれに対応する前記第二の言語で記述された複数の例文とを保持しているデータベースから、前記第一の言語で記述された例文を少なくとも一つ選択する選択ステップと、前記選択ステップにより選択された例文に対し所定のパラメータを付与しつつ編集を行う編集ステップと、前記編集ステップにより編集が行われた前記第一の言語で記述された例文を前記第二の言語に変換する変換ステップと、前記変換ステップにより変換された前記第二の言語で記述された例文を、前記第二の言語に対応する音声合成手段により音声合成する音声合成ステップと、を実行するためのプログラムを記憶した記憶手段と、
    を有することを特徴とする音声作成装置。
JP2005238446A 2005-08-19 2005-08-19 音声作成方法および音声作成装置 Pending JP2007052329A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005238446A JP2007052329A (ja) 2005-08-19 2005-08-19 音声作成方法および音声作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005238446A JP2007052329A (ja) 2005-08-19 2005-08-19 音声作成方法および音声作成装置

Publications (1)

Publication Number Publication Date
JP2007052329A true JP2007052329A (ja) 2007-03-01

Family

ID=37916814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005238446A Pending JP2007052329A (ja) 2005-08-19 2005-08-19 音声作成方法および音声作成装置

Country Status (1)

Country Link
JP (1) JP2007052329A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012064059A (ja) * 2010-09-16 2012-03-29 Ntt Communications Kk 翻訳装置、翻訳方法、及び翻訳プログラム
WO2018051570A1 (ja) * 2016-09-13 2018-03-22 パナソニックIpマネジメント株式会社 音声提示方法、音声提示プログラム、音声提示システム及び端末装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012064059A (ja) * 2010-09-16 2012-03-29 Ntt Communications Kk 翻訳装置、翻訳方法、及び翻訳プログラム
WO2018051570A1 (ja) * 2016-09-13 2018-03-22 パナソニックIpマネジメント株式会社 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
CN108093653A (zh) * 2016-09-13 2018-05-29 松下知识产权经营株式会社 语音提示方法、语音提示程序、语音提示系统及终端装置
JPWO2018051570A1 (ja) * 2016-09-13 2019-11-07 パナソニックIpマネジメント株式会社 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
US10726845B2 (en) 2016-09-13 2020-07-28 Panasonic Intellectual Property Management Co., Ltd. Method for presenting sound, non-transitory recording medium, sound presentation system, and terminal apparatus
CN108093653B (zh) * 2016-09-13 2023-03-28 松下知识产权经营株式会社 语音提示方法、记录介质及语音提示系统

Similar Documents

Publication Publication Date Title
US8160881B2 (en) Human-assisted pronunciation generation
KR100378898B1 (ko) 발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템
JP2007011358A (ja) 複合文字の音声認識によって支援された自動補完
JP4872323B2 (ja) Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体
KR20110036846A (ko) 정보 처리 장치 및 정보 처리 방법
JP2008039928A (ja) 音声対話装置および音声対話プログラム
US7912696B1 (en) Natural language processing apparatus and natural language processing method
CN114023302A (zh) 文本语音处理装置及文本读音处理方法
US20110022378A1 (en) Translation system using phonetic symbol input and method and interface thereof
JP2007052329A (ja) 音声作成方法および音声作成装置
JP2006030326A (ja) 音声合成装置
JP3483230B2 (ja) 発声情報作成装置
JP2008146019A (ja) 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JPH08272388A (ja) 音声合成装置及びその方法
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2006011842A (ja) 翻訳装置および翻訳プログラム
JP5688884B2 (ja) 情報処理装置、訳文接続方法、およびプログラム
JP4581778B2 (ja) 情報表示制御装置及びプログラム
JP2005266009A (ja) データ変換プログラムおよびデータ変換装置
JP3280729B2 (ja) 発音記号作成装置
JP2024007651A (ja) 音声合成向けエディタ提供装置
JP2006012188A (ja) 文書処理方法及び装置
CN116956826A (zh) 一种数据处理方法、装置、电子设备和存储介质
KR100464019B1 (ko) 음성 인식기의 발음 사전 편집시 발음열 디스플레이 방법

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20080501