JP2005326811A - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP2005326811A
JP2005326811A JP2005007417A JP2005007417A JP2005326811A JP 2005326811 A JP2005326811 A JP 2005326811A JP 2005007417 A JP2005007417 A JP 2005007417A JP 2005007417 A JP2005007417 A JP 2005007417A JP 2005326811 A JP2005326811 A JP 2005326811A
Authority
JP
Japan
Prior art keywords
file
speech
text
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005007417A
Other languages
English (en)
Inventor
Toshihiro Takeuchi
利啓 武内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005007417A priority Critical patent/JP2005326811A/ja
Publication of JP2005326811A publication Critical patent/JP2005326811A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】音声合成により生成される音声ファイルの取扱い及び認識性を向上させる。
【解決手段】音声合成を行なうためのテキストを入力するテキスト入力部111と、入力されたテキストを音声データに変換する音声合成変換部120と、入力されたテキストを少なくとも部分的に保存する管理ファイル記憶部130と、音声合成変換によって得られたファイルを保存するデータファイル記憶部101と、保存されたデータファイルを再生するデータファイル再生部102と、管理ファイル記憶部130に保存したデータを表示する管理ファイル情報表示部104とを備える。再生するデータファイルの音声メッセージと、管理ファイル情報表示部104で表示させるメッセージ(タイトル名)とが、ユーザーが一般的に認識可能な関連情報とすることで、データファイルの選択性および認識性が向上する。
【選択図】図1

Description

本発明は、任意のテキスト文を音声に変換して記録/再生を行なう音声合成装置および音声合成方法に関する。
近年、任意のテキスト文を音声に変換する音声合成技術を使用したアプリケーションや、予め組み込まれたテキストを再生する組込み機器が普及し始めている。例えば、パーソナルコンピュータにインストールされた音声合成ソフトウェアや、予め設定した指定の文章に対応した音声を再生する電子辞書などである。
パーソナルコンピュータにインストールした音声合成ソフトウェアの場合、任意の文章を入力すれば、その文章を音声ファイルとして再生できる。しかしながら、その音声ファイルを保存する場合、ファイルの内容をユーザーに一般的に認識可能な表示を行なうには、ユーザーがファイルごとにファイル名を別途設定する必要があり、手間であった。また、ファイルの内容として、その設定したテキストデータの音声と関連する情報を、複数保存することができないため、語学学習(その音声の表示とその言語翻訳の表示)などで利用するには不便であった。
一方、電子辞書の場合、予め組み込まれた文章に対しては、音声の再生と表示とが複数組み込まれた商品も市販されているが、ユーザーが任意に設定した文章には対応しておらず、ユーザーが自由に文章を設定できないため、利用用途は限られていた。
特許文献1に、従来の音声メッセージを生成する方法が公開されている。従来の音声メッセージを作成する方法によれば、テキストベースのメッセージを生成し、そのテキストメッセージからユーザーに一般的に認識できる音声メッセージを生成することができる。また、同時に、音声メッセージを多重ボイスで発生し、各ボイスを異なる文字から生成して、ユーザーに一般的に認識できる音声メッセージを生成する方法が開示されている。従って、ユーザーは、任意のテキスト文章から、ユーザーにとって、実用的な音声メッセージを作成することが可能である。
特表2003−521750号公報
しかしながら、従来の音声メッセージの作成方法では、音声メッセージそのものはユーザーに一般的に認識できる音声メッセージとする工夫がいろいろ明示されているものの、その音声メッセージを再生する時の音声メッセージの表示方法は何も言及されておらず、そのため、ユーザーが作成した音声メッセージを管理するには、その音声メッセージを別途ファイル名としてその名称を入力する必要があり、ユーザーにとって煩わしいことであった。
また、多重ボイスによって音声メッセージを作成する方法も開示されているが、前記と同様、音声メッセージとしては、複数の音声メッセージが多重構成で、ユーザーに一般的に認識できる音声メッセージとすることができるが、その音声メッセージを管理するには、前記と同様別途ファイル名としてその名称を入力する必要があり、手間であった。この場合、特に、異なる文字から生成した多重ボイスのファイルであるにも係わらず、生成された音声メッセージのファイル名をひとつしか設定できたいため、語学学習などで、ユーザーが利用するのに、不便であった。すなわち、語学学習などでは、多重ボイスを再生する場合、再生しているボイスの文字や内容をコンピュータのディスプレイや、組込み機器の画面に表示すれば、学習効果が期待できるが、これらは、従来の方法では実現できなかった。
本発明は上記従来の課題を解決するもので、ユーザーが任意に設定した少なくともひとつのテキスト文から音声合成によって音声ファイルを作成し、その音声ファイルを複数の表示方法で表示することのできる音声合成装置および音声合成方法を提供することを目的とする。
上記課題を解決するため本発明は、少なくともひとつの音声合成を行なうためのテキストを入力するテキスト入力部と、入力されたテキストを音声データに変換する音声合成変換部と、入力されたテキストを少なくとも部分的に保存する管理ファイル記憶部と、音声合成変換によって得られたファイルを保存するデータファイル記憶部と、保存されたデータファイルを再生するデータファイル再生部と、管理ファイル記憶部に保存したデータを表示する管理ファイル表示部とを備え、再生するデータファイルの音声メッセージと、管理ファイル表示部で表示させるメッセージとが、ユーザーが一般的に認識可能な関連情報であることを特徴とする音声合成装置である。
本発明の音声合成装置および音声合成方法によれば、ユーザーが任意に設定したテキスト文から音声合成によって作成された音声ファイルを複数の表示方法(識別方法)で表示することができ、音声ファイルに対して所望の関連情報を選択的に表示させることで、音声ファイルの識別性および操作性が向上する。
本発明の請求項1に記載の発明は、少なくともひとつの音声合成を行なうためのテキストを入力するテキスト入力部と、入力されたテキストを音声データに変換する音声合成変換部と、前記入力されたテキストを少なくとも部分的に保存する管理ファイル記憶部と、前記音声合成変換によって得られたファイルを保存するデータファイル記憶部と、保存されたデータファイルを再生するデータファイル再生部と、前記管理ファイル記憶部に保存したデータを表示する管理ファイル表示部とを備え、再生するデータファイルの音声メッセージと、前記管理ファイル表示部で表示させるメッセージとが、ユーザーが一般的に認識可能な関連情報であることを特徴とする音声合成装置である。これにより、管理ファイルは、ユーザーが設定したテキストデータを基に生成され、音声合成によって得られたデータファイルとは別に生成されるので、一つのデータファイルに複数の表示情報を付与することができる。
請求項2に記載の発明は、請求項1に係る発明において、前記管理ファイル記憶部に保存するテキストデータが、ひとつの音声合成ファイルに対して複数の情報を保存し、これらの複数の情報を切り換えて表示するものである。これにより、ユーザーは、ひとつの音声合成ファイルに対して、複数の識別情報の表示が可能となるため、関連情報を切り換えて表示することで、辞書的な活用が可能になる。
請求項3に記載の発明は、請求項1に係る発明において、前記管理ファイル記憶部に保存するテキストデータが、音声合成を行なうテキスト文の言語翻訳情報を含むことを特徴とする。これにより、ユーザーは音声合成によって作成した音声ファイルの再生時に、翻訳情報を切り換えて表示できるので、語学学習などに有効である。
請求項4に記載の発明は、請求項1に係る発明において、前記音声合成を行なうためのテキスト入力部を複数備え、複数のテキスト入力部に入力した相互に関連するテキストを、前記音声合成変換部により複数の音声信号として生成し、生成した音声信号データを前記データファイル記憶部に音声多重形式で保存したことを特徴とする。これにより、音声多重により、ひとつの音声ファイルに複数の音声合成による音声データを設定することができ、再生時は、管理ファイルの対応する情報を表示することでユーザーは効率的な活用が可能となる。
請求項5に記載の発明は、請求項4に係る発明において、前記音声多重により生成した音声ファイルの音声信号が、少なくとも言語翻訳情報の音声信号を含むことを特徴とする。これにより、例えば、ステレオ録音で、L(左)に英語の音声合成の音声ファイルを、R(右)に日本語の音声合成の音声ファイルを設定することができ、ユーザーは、LとRを個別に聞いたり、同時に聞いたりすることが可能となり、語学学習で有効な手段をとることができる。
請求項6に記載の発明は、請求項1ないし5のいずれかに係る発明において、前記管理ファイル記憶部に保存されたテキストデータと、前記音声合成によって得られたデータファイル記憶部に保存された音声データが、さらにひとつのファイルに統合されたことを特徴とする。これによれば、音声合成による音声データとしてのデータファイルと、そのファイルの識別情報を保存する管理ファイルをさらに、ひとつの同じファイルに統合することで、ユーザーは管理が容易になる。
請求項7に記載の発明は、請求項1ないし6のいずれかに係る発明において、前記管理ファイル表示部に表示するファイル情報が、前記テキスト入力部で入力した所定の特定部分であることを特徴とする。これによれば、音声合成によって生成される音声ファイルが比較的長いテキスト文からのファイルである場合、特定の文字を抽出すること、例えば、先頭から20文字を抽出することにより、ユーザーがファイルを識別するための不要な情報を取り除き、より使いやすくすることが可能になる。
請求項8に記載の発明は、請求項1ないし3のいずれかに係る発明において、前記テキスト入力部に入力されたテキストを音声合成変換部により変換した音声データは、相互に関連する複数の音声データが、ひとつの音声データファイルとして、少なくとも前記データファイル記憶部に保存されたことを特徴とする。これによれば、例えば、英語の音声合成の音声ファイルと、日本語の音声合成ファイルをひとつのファイルに統合することで、ユーザーは学習したい言語を連続して聞くことが可能となり、学習効果が上がる。
請求項9に記載の発明は、請求項1ないし8のいずれかに係る発明において、前記テキスト入力部は、一度に表示できる複数のテキスト入力領域と、当該テキスト入力領域に表示できないテキスト入力領域を表示するためのページ送り用操作ボタンとを有し、このページ送り用操作ボタンによりページ送りを可能としたことを特徴とする。これによれば、音声合成を行なうためのテキスト入力のための入力画面の数に制限がなくなり、より使いやすいテキスト入力操作が可能になる。
請求項10に記載の発明は、請求項1ないし9のいずれかに係る発明において、前記テキスト入力部は、第1のテキスト入力部と第2のテキスト入力部と、一方から他方又は他方から一方への翻訳指示操作ボタンを有し、入力したテキストを翻訳可能に構成したことを特徴とする。これによれば、ユーザーは、例えば英語と日本語のテキストを入力する際、いずれか一方の言語テキストを入力するだけで、他方の言語のテキストは翻訳機能で自動入力とすることができるようになり、入力する手間を省くことが可能になる。
請求項11に記載の発明は、請求項1ないし10のいずれかに係る発明において、前記テキスト入力部に入力した複数のテキストを、音声合成変換部により変換した音声データを連続再生する際、各音声データ間の再生を一定間隔の時間を置いて順次連続再生することを特徴とする。これにより、ユーザーは、例えば語学学習を行なう場合、入力したテキスト文ごとに、個別に再生ボタンを押すといった操作を行なう必要がなくなるとともに、一定間隔の時間を置いて順次連続再生することにより、この間に音声合成で読み上げた文章を復唱することが可能となり、より語学学習での効果を発揮することができる。
請求項12に記載の発明は、請求項1ないし11のいずれかに係る発明において、前記テキスト入力部が、外部プログラムであり、外部プログラムで作成したファイルを取り込み、そのファイル情報を用いて前記管理ファイルを構成したことを特徴とする。これにより、ユーザーは、使い慣れたプログラムでテキスト入力が可能となり、ユーザーはより効率的な活用が可能となる。

以下、本発明を実施するための最良の形態を具体的に示した実施の形態について、図面とともに記載する。
(実施の形態1)
図1〜図7を用いて、本発明の実施の形態1による音声合成装置および音声合成方法を説明する。
図1は、本発明の実施の形態1による音声合成装置の構成を示すブロック図である。
図1において、100は、音声合成装置としての、パーソナルコンピュータであり、音声合成ファイル生成装置や音声再生装置として用いることができる。パーソナルコンピュータ100は、ファイル情報入力部110、音声合成変換部120、管理ファイル記憶部130、データファイル記憶部101、データファイル再生部102、操作入出力部103、管理ファイル情報表示部104、音声コーデック変換部105、制御部106、およびバスライン107を有する。ファイル情報入力部110は、音声合成ファイルに変換するテキスト入力部111、音声合成ファイルの関連情報入力部112を有する。音声合成変換部120は、発生言語と人の選択部121、音声合成ファイル作成部122を有する。管理ファイル記憶部130は、管理ファイル131を有する。
パーソナルコンピュータ100のCPU(図示せず)は、プログラムを実行して、ファイル情報入力部110に入力したテキストデータを用いて、音声合成変換部120によりテキストデータを音声ファイルに変換しデータファイル記憶部101に記録すると共に、管理ファイル記憶部130に音声ファイルの識別情報を登録し、データファイル再生部102により、音声合成された音声を再生し、管理ファイル情報表示部104により、画面に識別情報を表示する。
制御部106は、バスライン107を介して、これらの機能、並びに、音声コーデック変換部105、操作入出力部103を制御する。
図3は、ファイル情報入力部110にテキストデータを入力するためのグラフィカルユーザーインターフェース400の一例である。ここでは、5つの音声ファイルを作成する場合を示している。音声合成により音声に変換するテキスト文(ここでは英文)を入力・表示領域401〜405に入力し、これらのテキストの関連情報(ここでは、その入力・表示領域401〜405に入力されたテキストの日本語訳)を入力・表示領域411〜415に入力する。
また、音声合成変換部120で必要となる発生言語と人の選択部121を選択するインタフェースとして、421のコンボBOXを備えている。ここでは、音声合成を行なう言語として英語(English)であり、声の種類として男性(Man)を選択している。さらに、音声合成された音声ファイルの再生を制御するボタン群430を設けており、この中に停止ボタン431、再生ボタン432、一時停止ボタン433、前の音声ファイルへの移動ボタン434、次の音声ファイルへの移動ボタン435を有している。これらの音声ファイルの再生を制御するボタン群430は、実際に音声合成によって得られる音声ファイルを生成する前に、一時的に作成した音声ファイルの試し聞きとして利用する。以上のように、テキストを入力した後、保存ボタン441を押下すると、領域401〜405に入力したテキストを音声合成によって音声ファイルに変換したデータファイルをデータファイル記憶部101に保存する。この時、音声コーデックを変換して保存する場合は、音声コーデック変換部105が動作して、コーデック変換されたデータファイルを作成する。また、データファイルの作成と同時に、領域401〜405のテキストデータと、領域411〜425のテキストデータを管理ファイル131として、管理ファイル記憶部130に保存する。
図4は、前記データファイルの一例である。D601〜D605の5つの音声ファイルが生成される。ここでは、これらのファイルを識別するファイル情報は、特に設定されておらず、ファイル名は、No_Title001.dat〜No_Title005.datとしている。
図5は、入力し記憶された管理ファイル131の一例である。グラフィカルユーザーインターフェース400で入力したテキストデータを管理情報ファイル700として保存している。
図6は、パーソナルコンピュータ100などで実行するプログラムによる管理ファイル情報表示部104の一例であり、また、データファイル再生部102による出力音声の一例を示している。図6の(a)は、図5に保存したタイトル1を表示した例である。タイトル名が、音声合成ファイルを生成するために入力したテキスト文になっている。この図で、“Good morning”の音声ファイルを選択し、データファイル再生部102により、その音声ファイルを再生すると、ユーザーには、“Good morning”と聞こえる。また、同図(b)は、前記図5に保存したタイトル2を表示した例である。タイトル名は、前記タイトル1に表示するテキストの日本語訳を表示している。ここで、“おはよう”の音声ファイルを選択し、その音声ファイルを再生すると、ユーザーには、“Good morning”と聞こえる。このようにして、語学学習に適した音声ファイルの表示と再生が可能である。尚、(a)と(b)は、操作入出力部103により、表示の切り替えを行なうことができる。
図7は、音声ファイル再生装置1001による管理ファイル情報表示部104の一例である。同図(a)では、音声ファイル記憶装置1001の表示画面のタイトル情報は、“Good morning”になっており、再生を行なうと、ユーザーには、“Good morning”と聞こえる。同様に、同図(b)では、音声ファイル再生装置1002の表示画面のタイトル情報は、“おはよう”になっており、再生を行なうと、ユーザーには、“Good morning”と聞こえる。尚、これら(a)、(b)の音声ファイル再生装置は、同一の装置で切り替え表示とすることもできるし、それぞれ単独の表示のみとすることもできる。音声ファイル再生装置への表示方法は、装置に搭載のメモリーサイズやコストを考慮して選択される。以上のようにして、ユーザーは、音声合成によって得られた音声ファイルを語学学習に適した装置として、持ち出して活用することができる。
次に、図2を用いて、本発明の実施の形態1による音声合成方法について説明する。
図2は、本発明の実施の形態1による音声合成方法の処理を示すフローチャートである。まず、音声合成を行なうためのテキスト文の入力(S201)がテキスト入力部111から行なわれ、引き続いて音声合成の関連テキスト文の入力(S202)が関連情報入力部112から行なわれる。これらの例は、図3で示したグラフィカルユーザーインターフェース画面400の「読み上げるテキスト」の入力部の入力・表示領域401〜405への入力、「Textのタイトル名」の入力部の入力・表示領域411〜415への入力である。次に、これらのテキスト文が確定される(図3で保存ボタン441を押下する)と、前記テキスト文を管理ファイル131に保存する処理と、音声合成ファイル作成部122で音声合成により音声ファイルに変換する処理が同時に実行される。管理ファイル131に保存する処理は、入力したテキストデータから管理ファイル作成(S203)処理を行ない、その管理ファイル情報を保存する処理(S204)が実行される。また、音声合成により音声ファイルに変換する処理は、入力したテキストデータから音声合成処理(S205)が実行され、作成された音声ファイルを必要に応じて音声コーデック変換(S206)を行ない、音声データファイルとしてデータファイル記憶部101に保存する(S207)。
以上の処理で、音声合成により得られたファイルの識別情報と、その音声データファイルが得られたので、その再生を適宜行なう(S210)。音声ファイルの再生時、識別情報としては前記管理ファイルに保存した管理ファイル情報を表示(S211)し、音声データの再生には、前記保存したデータファイルを再生する(S212)。また、この管理ファイル情報の表示は、管理ファイル情報切り替えステップ(S213)により、S201、S202で入力したテキスト文の表示に切り換えることができる。以上のステップにより、ユーザーは、任意のテキスト文から、複数の識別情報を持った表示にて、音声合成によって得られたファイルを再生し、聞くことができるようになる。
(実施の形態2)
次に、図8〜図11を用いて、本発明の実施の形態2による音声合成装置および音声合成方法を説明する。なお、音声合成装置としての構成は、図1に示したパーソナルコンピュータ100と同様である。
図9は、本発明の実施の形態2による音声合成装置(音声合成ファイル生成機能と記録再生機能を有する)におけるテキストデータを入力するためのグラフィカルユーザーインターフェース500の一例である。
前記図3で示した実施の形態1との違いは、相互に関連する発音するテキストが、1つのファイルに対して音声多重形式で、各のテキスト文が音声合成による発音が可能、且つ再生時に各の音声データが個別に再生可能に、2種類保存されていることである。ここでは、音声多重形式として、R(右)、L(左)の2チャンネルのステレオファイルとして「読み上げるText(L)」と「読み上げるText(R)」を設定している。Text(L)の入力部には、領域501〜505に、英語で音声合成するテキスト文を、Text(R)の入力部には、領域511〜515に、日本語で音声合成するテキスト文を設定している。また、これらの対になる文章は、それぞれ入力したテキスト文の翻訳になるように設定している。その他の動作は、実施の形態1と同じであるため、説明を省略する。
図10は、前記図9で設定し作成したステレオの音声ファイルをパーソナルコンピュータ100などで実行するプログラムによる管理ファイル情報表示部104の一例である。
前記図6で示した実施の形態1との違いは、図10の(b)に示す動作にある。図6の(b)の実施の形態1では、“おはよう”の音声ファイルを再生すると、“Good morning”と聞こえるように設定していたが、実施の形態2における図10の(b)では、“おはよう”と聞こえる点である。このように、実施の形態2では、英語で設定したテキスト文からの音声合成ファイルと、日本語で設定したテキスト文からの音声合成ファイルを別々に設定し、ステレオファイルとしたことにより、ステレオのL側だけを再生すれば、図10の(a)のように、英語表示で英語の音声が再生され、ステレオのR側だけを再生すれば、図10の(b)のように、日本語表示で日本語の音声を再生ができるようになる。また、ステレオにおけるL側とR側を同時に再生すれば、英語と日本語の多重音声を再生することも可能である。特に、L側とR側の音量バランスを適度に調整すれば、より語学学習などに適した再生が可能となる。その他の動作は、実施の形態1と同じであるため、説明を省略する。
図11は、音声ファイル再生装置1101による管理ファイル情報表示部104の一例である。
前記図7で示した実施の形態1との違いは、図11の(b)に示す動作にある。図7の(b)に示した実施の形態1では、“おはよう”の音声ファイルを再生すると、“Good morning”と聞こえるように設定していたが、実施の形態2における図11の(b)では、“おはよう”と聞こえる点である。また、前記図7での動作と同様、これら(a)、(b)の音声ファイル再生装置は、同一の装置で切り替え表示とすることもできるし、それぞれ単独の表示のみとすることもできる。音声ファイル再生装置への表示方法は、装置に搭載のメモリーサイズやコストを考慮して選択される。以上のようにして、ユーザーは、音声合成によって得られた音声ファイルを語学学習に適した装置として、持ち出して活用することができる。その他の動作は、実施の形態1と同じであるため、説明を省略する。
次に、図8を用いて、本発明の実施の形態2による音声合成方法を説明する。
図8は、本発明の実施の形態2による音声合成方法のフローチャートである。前記図2で示した実施の形態1のフローチャートとの違いは、音声合成を行なうテキスト文が2種類あるので、音声合成を行なう2つ目のテキスト文の入力を行なうステップ(S302)が追加され、2つ目の音声合成を行なうステップ(S306)が追加され、作成された2つの音声合成ファイルをステレオファイルに結合するステップ(S307)が追加された点である。また、これに伴い、データファイルの再生においては、L側を再生するステップ(S322)とR側を再生するステップ(S323)になっている。以上のステップにより、ユーザーは、2つの任意のテキスト文から、2つの音声合成ファイルを、言語を変えて作成し、それぞれの識別情報の表示にて、作成した音声合成ファイルを再生し、聞くことができるようになる。その他の動作は、実施の形態1と同じであるため、説明を省略する。
尚、本発明による実施の形態2では、2種類のテキスト文からステレオファイルとして音声合成された音声データのファイルを生成したが、この音声多重の種類数は、2種類に限ったことではなく、任意の数のテキスト文から音声多重により、ファイルを構成しても良い。複数の音声データのファイルを音声多重形式で保存するよう構成すれば、多言語対応の表示といった活用も可能である。
(実施の形態3)
次に、図12〜図14を用いて、本発明の実施の形態3による音声合成装置を説明する。なお、音声合成装置としての構成は、図1に示したパーソナルコンピュータ100と同様である。
図12は、本発明の実施の形態3による音声合成装置(音声合成ファイル生成機能と記録再生機能を有する)におけるテキストデータを入力するためのグラフィカルユーザーインターフェース1200の一例である。
前記実施の形態1ならびに2との違いは、テキスト入力部における読み上げるテキストが、1つの音声データファイルに対して、「前半に読み上げるテキスト」と「後半に読み上げるテキスト」の2種類設定されていることである。前半に読み上げる英語のTextには、テキスト入力部の入力・表示領域1201〜1205に英語のテキストを、後半に読み上げる日本語のTextには、入力・表示領域1211〜1215に、日本語のテキスト文を設定している。また、これらの対になる文章は、それぞれ入力したテキスト文の翻訳になるように設定している。その他の動作は、実施の形態1ならびに2と同じであるため、説明を省略する。
図13は、前記図12で設定し作成した音声データファイルをパーソナルコンピュータ100などで実行するプログラムによる管理ファイル情報表示部104の一例である。
前記図10で示した実施の形態2との違いは、図13に示す動作にある。実施の形態3における図13では、2つのテキスト文を統合してひとつの音声データファイルとして形成しているため、“Good morning”のあとすぐに“おはよう”と聞こえる点である。このように、実施の形態3では、英語で設定したテキスト文からの音声合成ファイルと、日本語で設定したテキスト文からの音声合成ファイルを別々に設定し、そのファイルをひとつのファイルに統合することにより、英語と日本語の音声を連続して再生することができる。その他の動作は、実施の形態1ならびに2と同じであるため、説明を省略する。
図14は、音声ファイル再生装置1401による管理ファイル情報表示部104の一例である。
前記実施の形態1ならびに2との違いは、図14に示す動作にある。実施の形態3における図14では、Good morning”のあとすぐに“おはよう”と聞こえる点である。以上のようにして、ユーザーは、音声合成によって得られた音声ファイルを語学学習に適した装置として、持ち出して活用することができる。その他の動作は、実施の形態1ならびに2と同じであるため、説明を省略する。
尚、本発明による実施の形態3では、2種類のテキスト文を統合して音声合成ファイルを生成したが、この合成する音声ファイルの種類数は、2種類に限ったことではなく、任意の数のテキスト文から音声合成ににより、組み合わせてファイルを構成しても良い。複数の音声ファイルを統合した構成とすれば、多言語対応の連続再生といった活用も可能である。

(実施の形態4)
次に、図15を用いて、本発明の実施の形態4による音声合成装置を説明する。なお、音声合成装置としての構成は、図1に示したパーソナルコンピュータ100と同様である。
図15は、本発明の実施の形態4による音声合成装置(音声合成ファイル生成機能と記録再生機能を有する)におけるテキストデータを入力するためのグラフィカルユーザーインターフェース1500の一例である。
前記実施の形態1ないし実施の形態3との違いは、図15に示したページ送り機能としての操作ボタン1550〜1553と共に、ページ数表示部1554を有していることである。この図のページ表示部1554の「1/3」は、テキストを入力したページが全部で3ページあり、その内の1ページ目を表示していることを示している。また、操作ボタン1550は最初のページへ移動、操作ボタン1551は一つ前のページに移動、操作ボタン1552は次のページへ移動、操作ボタン1553は最後のページへ移動を行なうものである。このようにして、ユーザーは、ひとつのページで入力可能なテキスト文をページを変えることで、入力数の制限がなくなる。その他の動作は、実施の形態1ないし3と同じであるため、説明を省略する。
(実施の形態5)
次に、図16を用いて、本発明の実施の形態5による音声合成装置を説明する。なお、音声合成装置としての構成は、図1に示したパーソナルコンピュータ100と同様であるが、この実施形態では、翻訳エンジンを有するものを必要としており、適宜有しているものとし、その具体例は省略する。。
図16は、本発明の実施の形態6による音声合成装置(音声合成ファイル生成機能と記録再生機能を有する)におけるテキストデータを入力するためのグラフィカルユーザーインターフェース1600の一例である。
前記実施の形態1ないし実施の形態4との違いは、図16に示した翻訳指示用の操作ボタン1650、1651を有していることである。操作ボタン1650は日本語から英語への翻訳、操作ボタン1651は英語から日本語への翻訳を実行する。また、翻訳を実行するテキスト文を領域1601〜1605又は領域1611〜1615から選択し、操作ボタン1650又は1651を押下することで、その選択したテキスト文だけの翻訳を行ない、翻訳結果を反映する。例えば、領域1602の“Good morning”と領域1604の“friend”を選択し、操作ボタン1651を押すと、装置内に有する翻訳エンジンによって、領域1612の“おはよう”と、領域1614の“友人”が自動入力される。日本語から英語の場合も同様である。このようにして、ユーザーは、語学学習などでテキストの一方を入力し、翻訳指示の操作ボタン1650又は1651を押すことで他方の翻訳が実行され、入力の手間を省くことができる。その他の動作は、実施の形態1ないし4と同じであるため、説明を省略する。
(実施の形態6)
次に、図17を用いて、本発明の実施の形態6による音声合成装置を説明する。なお、音声合成装置としての構成は、図1に示したパーソナルコンピュータ100と同様である。
図17は、本発明の実施の形態7による音声合成装置(音声合成ファイル生成機能と記録再生機能を有する)におけるテキストデータを入力するためのグラフィカルユーザーインターフェース1700の一例である。
前記実施の形態1ないし実施の形態5との違いは、図17に示した再生ボタン1732を押下して入力したテキスト文を音声合成によって再生中に、読み上げるテキスト文が連続再生することである。本実施例では、領域1702の“Good morning”を再生中であるとすれば、この領域1702の“Good morning”を再生したあと、領域1703の“Thank you”が自動的に再生されることとなる。ここで、続けて再生する場合、次の再生が始まるまでに一定間隔の時間を置いて再生するようにしている。このようにすることにより、ユーザーは、語学学習などでの復唱を容易行うことができることとなるが、その一定間隔の時間は個人レベルや好みによって任意に可変可能に構成してもよい。その他の動作は、実施の形態1ないし5と同じであるため、説明を省略する。
(実施の形態7)
次に、図18〜図20を用いて、本発明の実施の形態7による音声合成装置を説明する。なお、音声合成装置としての構成は、図1に示したパーソナルコンピュータ100と同様である。
図18は、本発明の実施の形態7による音声合成装置(音声合成ファイル生成機能と記録再生機能を有する)におけるテキストデータを入力するためのグラフィカルユーザーインターフェース1800の一例である。
前記実施の形態1ないし実施の形態6との違いは、グラフィカルユーザーインターフェースにテキスト入力部がなく、外部プログラムで作成したファイルを取り込む構成としている点である。本実施例では、メールメッセージ、Word文書、テキスト文書を外部で作成し、作成した文書を取り込んでいる。取り込んだファイルは、再生ボタン1832を押下することでそのファイルの内容を音声合成によって読み上げる。また、図19、図20は、本実施例による管理情報ファイルの一例である。図19の例では、タイトル1として、外部プログラムで作成したファイルの拡張子と作成日を文字列結合したもの、タイトル2に外部プログラムで作成したファイル名を設定している。図20の例では、タイトル1に、ファイルの内容の一部(先頭部分)、タイトル2に外部プログラムで作成したファイル名を設定している。このようにして、ユーザーは、使い慣れた外部プログラムを用いてテキスト入力を行い音声合成機能を用いて音声ファイルを作成することができ、より効率的うに操作を行なうことが可能になる。その他の動作は、実施の形態1ないし6と同じであるため、説明を省略する。
以上のように本発明によれば、音声合成を行なうテキストから生成されるデータファイルとその識別情報を管理ファイルとして分離して管理することで、語学学習などで、ユーザーにとって使い易い装置を提供することができる。
尚、本発明の実施の形態では、語学学習を例に説明したが、これは語学学習に限ったことではなく、管理情報に登録するデータが関連情報であれば良い。例えば、4字熟語とその意味を表示するという利用方法や、技術用語とその解説を表示するという利用方法等の活用方法がある。
また、音声合成によって作成する音声データは、音声データを含むファイルであれば良く、音声データの他に画像データ又はテキストデータおよびリアルタイムで伝送されてくる音声データストリームなどを含んでいても良く、動画データの音声部分であっても良い。
さらに、実施の形態1及び実施の形態2において、一つのデータファイルにタイトル1とタイトル2を付与したが、一つのデータファイルに付与するタイトルの数は、一つ又は3つ以上であっても良い。また、データファイルと異なるファイル(管理ファイル)にタイトルが書き込まれるので、複数のデータファイルに同一のタイトルを付与できる。
全く同じファイルの複製を存在させたい時に、有用である。これは、従来のファイルの管理方法では、同じ名称のファイル名が、同じディレクトリ内に存在できなかった点からも本発明による別の効果である。
また、実施の形態1及び実施の形態2において、入力したテキスト文をそのまま管理情報に保存し、そのまま表示していたが、表示する情報は、全てのテキスト情報ではなく、先頭からの所定の文字数であってもよく、先頭以外から部分的に文字列を抽出して表示しても良い。また、入力したテキスト文以外の任意の文字列と文字列を連結して表示しても良く、表示時に別途設定したデータベースから関連情報を呼び出して、入れ替え表示を行なったり、結合表示を行なったり、所定の文字を削除して表示しても良い。さらに、管理情報に保存する情報は、必ずしも入力したテキスト文の全てを保存する必要はなく、部分的に保存しても良く、入力したテキスト文の内容と関連する情報を別途設定したデータベースから抽出して保存したり、データベースデータに置き換えて保存したり、上記これらの文字列と連結したり、一部の文字列を削除するなど各種文字列操作を行なってから保存しても良い。また、管理ファイルに登録する情報は、テキストデータだけに限ったことではなく、音声データや画像データ、動画データなどを含んだ情報であっても良い。
また、本発明による音声合成方法の少なくとも一部をソフトウェアとしてコンピュータで実行することができ、プログラムとして構成することがきる。また、このプログラムをコンピュータで読み取り可能な記録媒体に記録することもできる。
また、上記の方法を実行するプログラムの全て又は一部を、例えばICレコーダ、オーディオ装置、ホームビジュアルシステム装置、ネットワークを利用した音響再生装置やビデオカメラ、及び音声データファイルを取り扱うPCアプリケーションに読み込み実行させることにより、これらの装置やPCアプリケーションを音声合成生成装置および再生装置として機能させることができる。
本発明の音声合成方法および音声合成装置は、ユーザーが任意に設定したテキスト文から音声合成によって作成された音声ファイルを複数の表示方法(識別方法)で表示することができ、音声ファイルに対して所望の関連情報を選択的に表示させることで、音声ファイルの識別性および操作性を向上させることができるという効果を有し、任意のテキスト文を音声に変換して記録/再生を行なう音声合成装置、コンピュータ機器、各種電子機器、プログラム等として有用である。
本発明の実施の形態による音声合成装置の構成を示すブロック図 同実施の形態1による音声合成装置の動作を示すフローチャート 同実施の形態1による音声合成装置におけるグラフィカルユーザーインターフェースの表示例を示す概念図 同実施の形態1による音声合成装置のデータファイル記憶部に格納されているデータファイルの一例を示す概念図 同実施の形態1による音声合成装置における管理ファイルの内容の一例を示す概念図 同実施の形態1による音声合成装置における再生動作時の表示例を示す概念図 同実施の形態1による音声合成装置における再生動作の様子を示す概念図 同実施の形態2による音声合成装置の動作を示すフローチャート 同実施の形態2による音声合成装置におけるグラフィカルユーザーインターフェースの表示例を示す概念図 同実施の形態2による音声合成装置における再生動作時の表示例を示す概念図 同実施の形態2による音声合成装置における再生動作の様子を示す概念図 同実施の形態3による音声合成装置におけるグラフィカルユーザーインターフェースの表示例を示す概念図 同実施の形態3による音声合成装置における再生動作時の表示例を示す概念図 同実施の形態3による音声合成装置における再生動作の様子を示す概念図 同実施の形態4による音声合成装置におけるグラフィカルユーザーインターフェースの表示例を示す概念図 同実施の形態5による音声合成装置におけるグラフィカルユーザーインターフェースの表示例を示す概念図 同実施の形態6による音声合成装置におけるグラフィカルユーザーインターフェースの表示例を示す概念図 同実施の形態7による音声合成装置におけるグラフィカルユーザーインターフェースの表示例を示す概念図 同実施の形態7による音声合成装置における管理ファイルの内容の一例を示す概念図 同実施の形態7による音声合成装置における管理ファイルの内容の一例を示す概念図
符号の説明
100 パーソナルコンピュータ
101 データファイル記憶部
102 データファイル再生部
103 操作入出力部
104 管理ファイル情報表示部
105 音声コーデック変換部
106 制御部
107 バスライン
110 ファイル情報入力部
111 音声合成ファイルに変換するテキスト入力部
112 音声合成ファイルの関連情報入力部
120 音声合成変換部
121 発生言語と人の選択部
122 音声合成ファイル作成部
130 管理ファイル記憶部
131 管理ファイル

Claims (26)

  1. 少なくともひとつの音声合成を行なうためのテキストを入力するテキスト入力部と、入力されたテキストを音声データに変換する音声合成変換部と、前記入力されたテキストを少なくとも部分的に保存する管理ファイル記憶部と、前記音声合成変換によって得られたファイルを保存するデータファイル記憶部と、保存されたデータファイルを再生するデータファイル再生部と、前記管理ファイル記憶部に保存したデータを表示する管理ファイル表示部とを備え、
    再生するデータファイルの音声メッセージと、前記管理ファイル表示部で表示させるメッセージとが、ユーザーが一般的に認識可能な関連情報であることを特徴とする音声合成装置。
  2. 前記管理ファイル記憶部に保存するテキストデータが、ひとつの音声合成ファイルに対して複数の情報を保存し、これらの複数の情報を切り換えて表示することを特徴とする請求項1に記載の音声合成装置。
  3. 前記管理ファイル記憶部に保存するテキストデータが、音声合成を行なうテキスト文の言語翻訳情報を含むことを特徴とする請求項1に記載の音声合成装置。
  4. 前記音声合成を行なうためのテキスト入力部を複数備え、複数のテキスト入力部に入力した相互に関連するテキストを、前記音声合成変換部により複数の音声信号として生成し、生成した音声信号データを前記データファイル記憶部に音声多重形式で保存したことを特徴とする請求項1に記載の音声合成装置。
  5. 前記音声多重により生成した音声ファイルの音声信号が、少なくとも言語翻訳情報の音声信号を含むことを特徴とする請求項4に記載の音声合成装置。
  6. 前記管理ファイル記憶部に保存されたテキストデータと、前記音声合成によって得られたデータファイル記憶部に保存された音声データが、さらにひとつのファイルに統合されたことを特徴とする請求項1ないし5のいずれかに記載の音声合成装置。
  7. 前記管理ファイル表示部に表示するファイル情報が、前記テキスト入力部で入力した所定の特定部分であることを特徴とする請求項1ないし6のいずれかに記載の音声合成装置。
  8. 前記テキスト入力部に入力されたテキストを音声合成変換部により変換した音声データは、相互に関連する複数の音声データが、ひとつの音声データファイルとして、少なくとも前記データファイル記憶部に保存されたことを特徴とする請求項1ないし3のいずれかに記載の音声合成装置。
  9. 前記テキスト入力部は、一度に表示できる複数のテキスト入力領域と、当該テキスト入力領域に表示できないテキスト入力領域を表示するためのページ送り用操作ボタンとを有し、このページ送り用操作ボタンによりページ送りを可能としたことを特徴とする請求項1ないし8のいずれかに記載の音声合成装置。
  10. 前記テキスト入力部は、第1のテキスト入力部と第2のテキスト入力部と、一方から他方又は他方から一方への翻訳指示操作ボタンを有したことを特徴とする請求項1ないし9のいずれかに記載の音声合成装置。
  11. 前記テキスト入力部に入力した複数のテキストを、音声合成変換部により変換した音声データを連続再生する際、各音声データ間の再生を一定間隔の時間を置いて順次連続再生することを特徴とする請求項1ないし10のいずれかに記載の音声合成装置。
  12. 前記テキスト入力部が、外部プログラムであり、外部プログラムで作成したファイルを取り込み、そのファイル情報を用いて前記管理ファイルを構成したことを特徴とする請求項1ないし11のいずれかに記載の音声合成装置。
  13. 少なくともひとつの音声合成を行なうためのテキストを入力するテキスト入力ステップと、入力されたテキストを音声データに変換する音声合成変換ステップと、前記入力されたテキストを少なくとも部分的に保存する管理ファイル記憶ステップと、前記音声合成変換ステップによって得られたファイルを保存するデータファイル記憶ステップと、保存されたデータファイルを再生するデータファイルステップと、前記管理ファイル記憶ステップで保存したデータを表示する管理ファイル表示ステップとを備え、
    再生するデータファイルの音声メッセージと、前記管理ファイル表示ステップで表示させるメッセージとが、ユーザーが一般的に認識可能な関連情報であることを特徴とする音声合成方法。
  14. 前記管理ファイルに保存するテキストデータが、ひとつの音声合成ファイルに対して複数の情報を保存し、これらの複数の情報を切り換えて表示するステップを有することを特徴とする請求項13に記載の音声合成方法。
  15. 前記管理ファイルに保存するテキストデータが、音声合成を行なうテキスト文の言語翻訳情報を登録するステップを有することを特徴とする請求項13に記載の音声合成方法。
  16. 前記音声合成を行なうためのテキスト入力ステップを複数備え、複数のテキスト入力ステップで入力した相互に関連するテキストを、音声合成により複数の音声信号として生成し、生成した音声信号データを音声多重形式でひとつの音声ファイルとして生成するステップを有することを特徴とする請求項13に記載の音声合成方法。
  17. 前記音声多重により生成した音声ファイルの音声信号が、少なくとも言語翻訳情報の音声信号とするステップを有することを特徴とする請求項16に記載の音声合成方法。
  18. 前記管理ファイルに保存されたテキストデータと、前記音声合成によって得られたデータファイル保存された音声データを、さらにひとつのファイルに統合するステップを有することを特徴とする請求項13ないし17のいずれかに記載の音声合成方法。
  19. 前記管理ファイル表示ステップに表示するファイル情報が、前記テキスト入力ステップで入力した所定の特定部分とするステップを有することを特徴とする請求項13ないし18のいずれかに記載の音声合成方法。
  20. 前記テキスト入力ステップで入力されたテキストを音声合成により変換して得られた複数の音声データを、相互に関連するひとつの音声データファイルとして保存するステップを有することを特徴とする請求項13ないし15のいずれかに記載の音声合成方法。
  21. 前記テキスト入力ステップに、ページ送りステップを設けたことを特徴とする請求項13ないし20のいずれかに記載の音声合成方法。
  22. 前記テキスト入力ステップに、翻訳ステップを設けたことを特徴とする請求項13ないし21のいずれかに記載の音声合成方法。
  23. 前記テキスト入力ステップにより入力した複数のテキストを、音声合成により再生する際、一定間隔の時間を置いて順次連続再生するステップを有することを特徴とする請求項13ないし22のいずれかに記載の音声合成方法。
  24. 前記テキスト入力ステップが、外部プログラムであり、外部プログラムで作成したファイルを取り込むステップを有し、そのファイル情報を用いて前記管理ファイルを構成するステップを有することを特徴とする請求項13ないし24のいずれかに記載の音声合成装置。
  25. 請求項13ないし請求項24のいずれか1項に記載の音声合成方法の少なくとも一部をコンピュータにより実行するためのプログラム。
  26. 請求項13ないし請求項24のいずれか1項に記載の音声合成方法の少なくとも一部をコンピュータにより実行可能なプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005007417A 2004-04-14 2005-01-14 音声合成装置および音声合成方法 Pending JP2005326811A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005007417A JP2005326811A (ja) 2004-04-14 2005-01-14 音声合成装置および音声合成方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004118596 2004-04-14
JP2005007417A JP2005326811A (ja) 2004-04-14 2005-01-14 音声合成装置および音声合成方法

Publications (1)

Publication Number Publication Date
JP2005326811A true JP2005326811A (ja) 2005-11-24

Family

ID=35473174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005007417A Pending JP2005326811A (ja) 2004-04-14 2005-01-14 音声合成装置および音声合成方法

Country Status (1)

Country Link
JP (1) JP2005326811A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083434A (ja) * 2006-09-28 2008-04-10 Casio Comput Co Ltd 音声学習支援装置及び音声学習支援プログラム
CN110781344A (zh) * 2018-07-12 2020-02-11 上海掌门科技有限公司 一种语音消息合成的方法、设备和计算机存储介质
CN114071177A (zh) * 2021-11-16 2022-02-18 网易(杭州)网络有限公司 虚拟礼物的发送方法、装置及终端设备
JP7383325B1 (ja) 2023-05-17 2023-11-20 尚樹 西巻 英語学習システム、英語教授方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083434A (ja) * 2006-09-28 2008-04-10 Casio Comput Co Ltd 音声学習支援装置及び音声学習支援プログラム
CN110781344A (zh) * 2018-07-12 2020-02-11 上海掌门科技有限公司 一种语音消息合成的方法、设备和计算机存储介质
CN114071177A (zh) * 2021-11-16 2022-02-18 网易(杭州)网络有限公司 虚拟礼物的发送方法、装置及终端设备
CN114071177B (zh) * 2021-11-16 2023-09-26 网易(杭州)网络有限公司 虚拟礼物的发送方法、装置及终端设备
JP7383325B1 (ja) 2023-05-17 2023-11-20 尚樹 西巻 英語学習システム、英語教授方法及びプログラム

Similar Documents

Publication Publication Date Title
US9601029B2 (en) Method of presenting a piece of music to a user of an electronic device
JP2001014306A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
JP2005326811A (ja) 音声合成装置および音声合成方法
KR101042585B1 (ko) 음악 재생 장치 및 음악 재생 방법
JP2010002787A (ja) 学習システム、学習端末、学習プログラム
JP2010002788A (ja) 学習端末、学習プログラム
KR101124798B1 (ko) 전자 그림책 편집 장치 및 방법
KR20180078197A (ko) 이 보이스북 편집장치 및 재생장치
JP2018146961A (ja) 音声再生装置及び音楽再生プログラム
JP3548900B2 (ja) マルチメディア情報処理装置
JP2008032788A (ja) 語学教材データ作成用プログラム
JP4407119B2 (ja) 命令コード作成装置
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
JP2008134686A (ja) 作画プログラム、プログラマブル表示器、並びに、表示システム
JP2020154057A (ja) 音声データのテキスト編集装置及び音声データのテキスト編集方法
KR20010076136A (ko) 휴대용 독서기
JP4161714B2 (ja) カラオケ装置
JP2001006295A (ja) 情報再生装置及び方法、並びに情報提供媒体
JP2010008714A (ja) 録音再生装置及び方法
KR20170018281A (ko) 이 보이스북 편집장치 및 재생장치
JP2010072057A (ja) 音声の録音と再生方法及び該方法を用いる電子辞書
JP6269771B1 (ja) 翻訳装置、拡声装置、およびその制御方法
JP2002197488A (ja) リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法
KR20000072678A (ko) 미디어 파일 재생 방법