JP2005004100A - 聴取システムおよび音声合成装置 - Google Patents
聴取システムおよび音声合成装置 Download PDFInfo
- Publication number
- JP2005004100A JP2005004100A JP2003169933A JP2003169933A JP2005004100A JP 2005004100 A JP2005004100 A JP 2005004100A JP 2003169933 A JP2003169933 A JP 2003169933A JP 2003169933 A JP2003169933 A JP 2003169933A JP 2005004100 A JP2005004100 A JP 2005004100A
- Authority
- JP
- Japan
- Prior art keywords
- word
- difficulty level
- text data
- speech
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】音声情報の聴取時に、システム主導でその理解を支援するための情報提示を行う構成とし、それによりユーザの利便性を高めること。
【解決手段】供給された音声データを認識してテキストデータに変換する(ステップS1)。次に、そのテキストデータを解析して、音声認識によって得られたテキストデータにおける各単語が所定レベル以上の難易度であるか否かを、単語とその難易度レベルとを対応づけて登録した単語辞書に照らして検査する(ステップS3)。そして、当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示装置に表示する(ステップS5)
【選択図】 図4
【解決手段】供給された音声データを認識してテキストデータに変換する(ステップS1)。次に、そのテキストデータを解析して、音声認識によって得られたテキストデータにおける各単語が所定レベル以上の難易度であるか否かを、単語とその難易度レベルとを対応づけて登録した単語辞書に照らして検査する(ステップS3)。そして、当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示装置に表示する(ステップS5)
【選択図】 図4
Description
【0001】
【発明の属する技術分野】
本発明は、入力された音声情報の聴取時における情報提示技術に関する。
【0002】
【従来の技術】
音声合成などにより音声出力している途中で、単語が分からなかった場合、ユーザが音声でその単語を指定し、その用例や説明を検索するシステムが提案されている(例えば特許文献1を参照。)。
【0003】
【特許文献1】
特開平9−294253号公報
【0004】
【発明が解決しようとする課題】
上記した従来例は、ユーザがシステムに検索の指示を与えるいわゆるユーザ主導型のシステムであり、これには次のような問題点がある。
【0005】
まず、専門用語などの難しい単語が出現した場合、その単語を検索しようとユーザが発声しようとしても単語の発声が難しい場合が多いし、そもそも聞き取れなければ発声することもできない。また、聞き取れたとしてもその単語を忘れてしまう場合もある。このようなことを考えれば、ユーザ主導で単語の検索等の操作を行うのは困難である。
【0006】
また、難解な単語はユーザによって異なる。システムが画一的に難解と判断した単語すべてに説明文などを表示する場合には特定のユーザは邪魔と感じるであろう。さらに、アナウンサーなどがしゃべった内容が全文表示されている場合、注意して見ていないと知りたい単語を見逃したり、単語に対する印象が薄れやすくなってしまう。
【0007】
そこで、本発明は、音声情報の聴取時に、システム主導でその理解を支援するための情報提示を行う構成とし、それによりユーザの利便性を高めることを目的とする。
【0008】
【課題を解決するための手段】
本発明の一側面によれば、供給された音声データを聴取するための聴取システムであって、単語とその難易度レベルとを対応づけて登録した単語辞書と、前記音声データを認識してテキストデータに変換する音声認識手段と、前記音声認識手段により得られた前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを前記単語辞書に照らして検査する検査手段と、当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示する表示手段とを有することを特徴とする聴取システムが提供される。
【0009】
また、本発明の別の側面によれば、供給されたテキストデータの音声合成を行う音声合成装置であって、単語とその難易度レベルとを対応づけて登録した単語辞書と、前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを前記単語辞書に照らして検査する検査手段と、当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示する表示手段とを有することを特徴とする音声合成装置が提供される。
【0010】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
【0011】
(第1の実施形態)
図1は、本実施形態における聴取システムの構成を示すブロック図である。
【0012】
聴取システム10は例えばパーソナルコンピュータで実現され、装置全体の制御をつかさどるCPU1、ブートプログラム等を記憶しているROM2、主記憶装置として機能するRAM3をはじめ、以下の構成を備える。
【0013】
HDD4はハードディスク装置であって、ここにOSのほか、ブラウザソフトウェア、後述する情報提示プログラム100および単語辞書107などが格納されている。また、VRAM5は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することで表示装置としてのCRT6に表示させることができる。7および8はそれぞれ、ユーザからの指示を入力するためのキーボードおよびマウスである。9はインターネット40に接続するためのインタフェース(I/F)である。具体的には、インターネット40には例えばADSLモデム20、スプリッタ21から、電話局30を介して接続される。
【0014】
このような構成により、聴取システム(パーソナルコンピュータ)10は音声データの供給を受けることができる。具体的には例えば、聴取システム10はブラウザソフトウェアを用いてインターネット上のコンテンツ配信サーバにアクセスし、ストリーミング映像/音声データの配信を受け、これにより音声データの供給を受けることが可能である。あるいは、図2に示すように、インタフェース9aを介してテレビジョン受像機15と接続し、テレビ放送またはラジオ放送からの音声データを取り込む構成としてもよい。また、図示はしないが、DVDやCD−ROMなどの記録メディアに格納された映像/音声データを再生することで音声データの供給を受けるようにしてもよい。
【0015】
図3は、情報提示プログラム100の機能構成(モジュール構成)を示す図である。
【0016】
本実施形態における情報提示プログラム100は、供給された映像/音声データに含まれる音声の認識を行い、テキストデータに変換する音声認識部101を有する。また、102は、得られたテキストデータの言語解析処理を行う言語処理部で、具体的には例えばテキストデータを単語毎に区分するための形態素解析を行う。103は区分された各単語を単語辞書107より検索する単語検索部、104は対象単語の難易度レベルとユーザの難易度レベルの判定を行う難易度判定部、105は単語の説明等の付加情報を作成する付加情報作成部、106は単語や付加情報の表示を行う表示処理部である。
【0017】
また、単語辞書107は、例えば図4に示すような構造でHDD4に記憶されている。単語辞書107には、少なくとも、単語とその難易度レベルとが相互に対応づけられて登録されている。難易度とは、ユーザにとってどの程度難解であるかを表す指標値であり、その数値が大きいほど難しい単語であることを示している。また、図示のように、各単語の付加情報として用語説明が、オプションとして登録されていることが好ましい。これは、付加情報作成部105により作成されうる。
【0018】
図5は、本実施形態における単語表示処理を示すフローチャートである。このフローチャートに対応するプログラムは情報提示プログラム100に含まれ、RAM3にロードされてCPU1により実行されるものである。
【0019】
まず、音声認識部101により、入力された音声の音声認識を行う(ステップS1)。ここでの音声認識処理はいわゆる大語彙連続音声認識であり、入力されてくる音声に対し順次テキストデータを出力するものである。次に、言語処理部102で、出力されたテキストデータの形態素解析等を行って単語に分割し、難易度判定対象単語を抽出する(ステップS2)。
【0020】
次に、単語検索部103により、抽出した単語を単語辞書107から検索する(ステップS3)。単語辞書107は上記したような構成であるから、検索された単語の難易度も判明する。ここで、難易度判定部104により、その単語が所定レベル(例えば、ユーザがあらかじめ設定した難易度レベル)以上の難易度であるかどうかを判定する(ステップS4)。その単語がその所定レベル以上の難易度である場合には、その単語を難解な単語であると判断して、表示処理部106により、その単語表記をCRT6に表示する(ステップS5)。その単語が所定レベル以上の難易度でなければ、表示せずにそのまま認識処理を続ける。
【0021】
以上の処理について、アナウンサーによるニュースの読上げを例にとり、具体的に説明する。
【0022】
アナウンサーがある文を読上げて、ユーザはそれを聴いているとする。例えば、「このパソコンのCPUは・・・」という文章をアナウンサーがしゃべったと仮定する。本システムではこの文を音声認識してテキストデータ「このパソコンのCPUは」に変換する(ステップS1)。次に、そのテキストの解析によって、例えば「この・パソコン・の・CPU・は」という単語に分けられる(ステップS2)。ここで、助詞や代名詞などの語の多くは難易度が低く用語説明が不要であると考えられるため、探索説明対象外フラグなどをあらかじめ設けておき、難易度検索の対象外としておくことが好ましい。
【0023】
これらの処理を行った後、単語として抽出された「パソコン」の難易度を単語辞書107に照らして検査する。単語辞書内には、「パソコン」という単語の難易度レベルが1に設定してあると仮定する(図4を参照)。単語辞書内の単語すべてに難易度レベル値が設定されている。ここでは、1、2、・・・と値が大きいものほど難易度が高いものとする。ユーザの難易度レベルが2と設定されていたとすると、この単語はユーザにとって既知の単語であると判定し、ステップS5の表示は行わない。また、「CPU」の単語の難易度レベルが3に設定してあるとすると、ユーザのレベル値が2であるため、この単語はユーザにとって難しい単語であると判断され、ステップS5で、「CPU」という単語が表示される。
【0024】
このような処理によれば、音声データの聴取中に専門用語など難しい単語などが出てきたときにその単語が表示されるため、視覚的にその単語が何であるかを理解することができる。音声認識により聴取中のすべての音声をテキスト表示することも可能であるが、専門用語などの場合は聞き逃すことが多く、すべて表示するよりも、難解な単語のみを表示したほうが印象が残りやすく理解の助けになる。
【0025】
ところで、ステップS4における難易度の上記「所定レベル」はユーザの操作によって調整することが可能である。例えば、図6に示すようなユーザインタフェースを用いて設定を行うことができる。図示のようなスクロールバーを動かすとそれに応じてレベル値が変化し、難易度レベル値を上げたり下げたりすることができる。また例えば、ユーザの単語習熟度に合わせ、子供、学生、大人などわかりすいレベル表示を設けておいてもよい。子供ならレベル1としたり、学生ならレベル3であったり、大人ならレベル5などというように設定しておく。もちろん各ユーザが直接レベル値を指定する方法でもよいし、上記幼児、中学生、高校生、大学生などといったようにさらにレベルを細かく分けてもよい。
【0026】
くわえて、ユーザは表示された単語についての付加情報を知りたければ、それらの単語を、例えばマウス8でクリックすることにより、指定する。ユーザによる指定があれば、付加情報作成部105によって作成されたその単語に対応する付加情報を追加的に表示することができる。
【0027】
アナウンサーが説明している音声をリアルタイムで音声認識し、難易度に応じて表示されるので、難しい単語であるがゆえに聞き逃した単語などがすぐに画面に表示される。画面上での単語の表示は、テレビなどでは映像が写っている画面に重ねて表示させる。前に単語が表示されていれば、その単語を消して表示させる。当然、ユーザの難易度レベル設定が低ければ、単語の表示は頻繁に行われることになる。
【0028】
単語の表示態様は次のようにしてもよい。図7のように表示結果をログのようにして残しておき、一定期間は単語表示を維持する。ここで、表示する期間の設定はユーザが設定できるようにしてもよい。また、図7のように表示した時刻の情報も合わせて履歴として表示することが好ましい。
【0029】
また、図7のように別のウインドウとして出すだけではなく、テレビ画面など映像が写っている中に複数個を画面上に表示してもよい。1度に何個表示させるかという設定は、ユーザインタフェースなどを用いて設定してもよいであろう。
【0030】
次に、付加情報作成部105の処理について説明する。図8は、付加情報作成部105による処理を示すフローチャートである。
【0031】
ユーザからの入力があれば、付加情報を作成する。ユーザの難易度レベルに合わせ、「CPU」などの単語を知らなかった場合、その単語を文字表示する。また、単語表示に加えて付加情報も表示する場合に備え、情報としてそれらの単語の説明も合わせて単語辞書内に登録しておく。ユーザからマウス操作等によりその単語の説明文が見たいという指示があった場合は、単語辞書内から「CPU」の単語を検索する(ステップS81、S82)。検索対象の単語が単語辞書内にあり、また単語の説明や用語例など付加情報があるならそれを合わせて表示する(ステップS83、S84)。「コンピュータの中で、各装置の制御やデータの計算・加工を行う中枢部分」のような説明文が付加されていればそれを合わせて表示する。もし、すでにこの単語が新しい単語で上書きされていれば、現在表示されている単語に加え、説明文加えた単語を表示させる。既に何らかの説明文と単語が表示されていれば、これらを上書きする。
【0032】
ここで、単語辞書内に単語の付加情報として登録を行っていない場合や、単語辞書内に単語情報がない場合など必要な付加情報が存在しなければ、WWWの検索サイトを利用し、その単語をキーワードに含めて検索する(ステップS85)。検索することによりその単語を含む複数のサイトが見つかった場合、検索した結果より一致する上位のURL等を表示する。また、用語辞書や専門用語のサイトなど、単語に対する説明文が特定できるサイトを指定して検索した場合は、説明文を取り出して表示する(ステップS86)。また、いくつか専門用語や用語辞書などの説明文つきサイトを登録できるようにしておいてもよい。ここで、検索した結果、その単語を含むサイトが見つからなかった場合はその旨を表示する。また、複数見つかった場合における表示結果として、いくつのサイトを表示するか設定できるようなユーザインタフェースを備えていてもよい。使用する検索サイトはあらかじめユーザが良く使う検索サイトを登録しておけばよい。また、ユーザが検索サイトを登録していなければ、任意のサイトを選んで登録しておく。
【0033】
(第2の実施形態)
本実施形態では、上述した処理により難解だと判定された同一単語が複数回登場した場合の表示方法を示す。
【0034】
アナウンサーが話す言葉は、同じ単語が複数回登場する可能性が高い。そのような単語がユーザにとって難しい単語だと判断された場合、その単語が何度も表示されてしまうことになる。例えば、「このパソコンのCPUは・・・で・・・・また、このパソコンのCPUは・・・」などと言った文章をアナウンサーがしゃべった場合、「CPU」という単語がユーザにとって難しいと判定される単語だとすると複数回表示されることとなる。このような表示が繰り返されるとユーザは鬱陶しく感じることにもなる。本実施形態はこのような場合の問題を回避しようとするものである。
【0035】
図8は、本実施形態における単語表示処理を示すフローチャートである。
【0036】
まず、音声認識部101により、入力された音声の音声認識を行う(ステップS91)。ここでの音声認識処理はいわゆる大語彙連続音声認識であり、入力されてくる音声に対し順次テキストデータを出力するものである。次に、言語処理部102で、出力されたテキストデータの形態素解析等を行って単語に分割し、難易度判定対象単語を抽出する(ステップS92)。
【0037】
次に、単語検索部103により、抽出した単語を単語辞書107から検索する(ステップS93)。単語辞書107は上記したような構成であるから、検索された単語の難易度も判明する。ここで、難易度判定部104により、その単語が所定レベル(例えば、ユーザがあらかじめ設定した難易度レベル)以上の難易度であるかどうかを判定する(ステップS94)。その単語が所定レベル以上の難易度でなければ、そのまま認識処理を続けるが、その単語がその所定レベル以上の難易度である場合には、ステップS95に進む。
【0038】
ステップS95では、その単語がすでに表示された単語かどうかをログを見て調べる。ログ内にその単語が存在していればその単語を表示せずそのまま認識処理を続ける。一方、ログ内にその単語がなければ、ステップS96に進み、表示処理部106により、その単語表記をCRT6に表示する。その後、ログに表示した単語を保存する(ステップS97)。ここで、ログには単語が表示された時間も保存しておき、一定期間経てば、その単語をログから消すことが好ましい。ログに保存しておく期間はユーザが設定できるようにしておいてもよい。
【0039】
このような処理により、いったん難解な単語として表示された単語が所定期間内に繰り返し表示されることが回避される。
【0040】
(第3の実施形態)
前述の実施形態は、供給された音声データを聴取するための聴取システムに係るものであったが、本発明は、テキストデータを入力しそのテキストの音声合成を行う音声合成装置にも適用することができる。そこで、本実施形態は本発明が適用される音声合成処理について説明する。
【0041】
本実施形態における音声合成装置も、図1に示したようなパーソナルコンピュータ10によって実現できるものである。ただし、情報提示プログラム100の機能構成(モジュール構成)は、図10に示すようなものである。この図10を参照して、本実施形態の構成および処理の流れを説明する。
【0042】
同図において、403は入力されたテキスト401の言語解析処理を行う言語処理部で、具体的には例えばテキストデータを単語毎に区分するための形態素解析を行う。404は区分された各単語を単語辞書107より検索する単語検索部、405は対象単語の難易度レベルとユーザの難易度レベルの判定を行う難易度判定部、406は単語の説明等の付加情報を作成する付加情報作成部、402はテキスト情報を音声に変換し音声出力する音声合成部、407は単語や付加情報の表示を行う表示処理部である。
【0043】
入力されたテキスト401はまず、言語処理部403に送られる。言語処理部403は、入力テキスト401を基に、形態素解析等を行い、単語に分割し難易度判定対象単語を抽出する。単語検索部404は、抽出した単語を単語辞書107から検索する。難易度判定部405は、その単語が所定レベル(例えば、ユーザがあらかじめ設定した難易度レベル)以上の難易度であるかどうかを判定する。その単語がその所定レベル以上の難易度である場合には、その単語を難解な単語であると判断して、表示処理部407により、その単語表記をCRT6に表示する。表示方法としては第1の実施形態と同様である。その単語が所定レベル以上の難易度でなければ、表示はしない。
【0044】
音声合成部402は、難易度レベルの判定の条件を満たす満たさないにかかわらず、音声合成によるテキスト読上げを行う。音声合成部402と表示処理部407ではお互いの情報の同期がとれるように信号等のやり取りをしておく。
【0045】
第1の実施形態の場合と同様に、ユーザは表示された単語についての付加情報を知りたければ、それらの単語を指定する。ユーザによる指定があれば、第1の実施形態と同様に付加情報作成部406より作成された情報を合わせて表示する。
【0046】
このような処理によれば、音声合成による読み上げの聴取中に難しい単語が出現したときに、音声合成音にあわせその単語が表示されるので、視覚的にその単語が何であるかを理解することができる。また、その単語を読上げる際に、話者やイントネーションなど音声合成による音声情報も併せて変化させてもよい。
【0047】
このように、音声合成装置にも第1の実施形態に示した本発明の内容を実現することが可能である。この他、第1の実施形態において説明した種々の変形例や、第2の実施形態の内容も同様に適用可能であることはいうまでもない。
【0048】
以上、本発明の各種実施形態を詳しく説明したが、これらの実施形態によれば、アナウンサーや音声合成による読上げなどを聞いている際に専門用語など難しい単語などが出てきた場合に、その単語を表示することにより視覚的にその単語が何であるか理解することができる。
【0049】
このように実施形態によれば、システム主導で専門用語など各ユーザにとって難しい単語のみが表示されるので、ユーザの視覚に訴えて理解を深めることができる。また、ユーザが表示された単語を指示することによりユーザに合わせてその単語の説明や関連するWebページのURLを合わせて表示することによりユーザの単語に対する理解をさらに深める効果もある。
【0050】
なお、上述の各実施形態は日本語を前提に説明したが、他の言語にも同様に適用可能である。
【0051】
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、例えばシステム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。また、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【0052】
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
【0053】
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0054】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0055】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
【0056】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
【0057】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0058】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0059】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【0060】
【発明の効果】
本発明によれば、音声情報の聴取時に、システム主導でその理解を支援するための情報提示を行う構成が実現され、それによりユーザの利便性を高めることができる。
【図面の簡単な説明】
【図1】実施形態における聴取システムの構成を示すブロック図である。
【図2】テレビジョン受像機を接続した聴取システムの構成を示すブロック図である。
【図3】第1の実施形態における情報提示プログラムの機能構成を示す図である。
【図4】実施形態における単語辞書の構造例を示す図である。
【図5】第1の実施形態における単語表示処理を示すフローチャートである。
【図6】ユーザの難易度レベルを調整するユーザインタフェースの一例を示す図である。
【図7】単語の表示態様の一例を示す図である。
【図8】付加情報作成部による処理を示すフローチャートである。
【図9】第2の実施形態における単語表示処理を示すフローチャートである。
【図10】第3の実施形態における情報提示プログラムの機能構成を示す図である。
【発明の属する技術分野】
本発明は、入力された音声情報の聴取時における情報提示技術に関する。
【0002】
【従来の技術】
音声合成などにより音声出力している途中で、単語が分からなかった場合、ユーザが音声でその単語を指定し、その用例や説明を検索するシステムが提案されている(例えば特許文献1を参照。)。
【0003】
【特許文献1】
特開平9−294253号公報
【0004】
【発明が解決しようとする課題】
上記した従来例は、ユーザがシステムに検索の指示を与えるいわゆるユーザ主導型のシステムであり、これには次のような問題点がある。
【0005】
まず、専門用語などの難しい単語が出現した場合、その単語を検索しようとユーザが発声しようとしても単語の発声が難しい場合が多いし、そもそも聞き取れなければ発声することもできない。また、聞き取れたとしてもその単語を忘れてしまう場合もある。このようなことを考えれば、ユーザ主導で単語の検索等の操作を行うのは困難である。
【0006】
また、難解な単語はユーザによって異なる。システムが画一的に難解と判断した単語すべてに説明文などを表示する場合には特定のユーザは邪魔と感じるであろう。さらに、アナウンサーなどがしゃべった内容が全文表示されている場合、注意して見ていないと知りたい単語を見逃したり、単語に対する印象が薄れやすくなってしまう。
【0007】
そこで、本発明は、音声情報の聴取時に、システム主導でその理解を支援するための情報提示を行う構成とし、それによりユーザの利便性を高めることを目的とする。
【0008】
【課題を解決するための手段】
本発明の一側面によれば、供給された音声データを聴取するための聴取システムであって、単語とその難易度レベルとを対応づけて登録した単語辞書と、前記音声データを認識してテキストデータに変換する音声認識手段と、前記音声認識手段により得られた前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを前記単語辞書に照らして検査する検査手段と、当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示する表示手段とを有することを特徴とする聴取システムが提供される。
【0009】
また、本発明の別の側面によれば、供給されたテキストデータの音声合成を行う音声合成装置であって、単語とその難易度レベルとを対応づけて登録した単語辞書と、前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを前記単語辞書に照らして検査する検査手段と、当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示する表示手段とを有することを特徴とする音声合成装置が提供される。
【0010】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
【0011】
(第1の実施形態)
図1は、本実施形態における聴取システムの構成を示すブロック図である。
【0012】
聴取システム10は例えばパーソナルコンピュータで実現され、装置全体の制御をつかさどるCPU1、ブートプログラム等を記憶しているROM2、主記憶装置として機能するRAM3をはじめ、以下の構成を備える。
【0013】
HDD4はハードディスク装置であって、ここにOSのほか、ブラウザソフトウェア、後述する情報提示プログラム100および単語辞書107などが格納されている。また、VRAM5は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することで表示装置としてのCRT6に表示させることができる。7および8はそれぞれ、ユーザからの指示を入力するためのキーボードおよびマウスである。9はインターネット40に接続するためのインタフェース(I/F)である。具体的には、インターネット40には例えばADSLモデム20、スプリッタ21から、電話局30を介して接続される。
【0014】
このような構成により、聴取システム(パーソナルコンピュータ)10は音声データの供給を受けることができる。具体的には例えば、聴取システム10はブラウザソフトウェアを用いてインターネット上のコンテンツ配信サーバにアクセスし、ストリーミング映像/音声データの配信を受け、これにより音声データの供給を受けることが可能である。あるいは、図2に示すように、インタフェース9aを介してテレビジョン受像機15と接続し、テレビ放送またはラジオ放送からの音声データを取り込む構成としてもよい。また、図示はしないが、DVDやCD−ROMなどの記録メディアに格納された映像/音声データを再生することで音声データの供給を受けるようにしてもよい。
【0015】
図3は、情報提示プログラム100の機能構成(モジュール構成)を示す図である。
【0016】
本実施形態における情報提示プログラム100は、供給された映像/音声データに含まれる音声の認識を行い、テキストデータに変換する音声認識部101を有する。また、102は、得られたテキストデータの言語解析処理を行う言語処理部で、具体的には例えばテキストデータを単語毎に区分するための形態素解析を行う。103は区分された各単語を単語辞書107より検索する単語検索部、104は対象単語の難易度レベルとユーザの難易度レベルの判定を行う難易度判定部、105は単語の説明等の付加情報を作成する付加情報作成部、106は単語や付加情報の表示を行う表示処理部である。
【0017】
また、単語辞書107は、例えば図4に示すような構造でHDD4に記憶されている。単語辞書107には、少なくとも、単語とその難易度レベルとが相互に対応づけられて登録されている。難易度とは、ユーザにとってどの程度難解であるかを表す指標値であり、その数値が大きいほど難しい単語であることを示している。また、図示のように、各単語の付加情報として用語説明が、オプションとして登録されていることが好ましい。これは、付加情報作成部105により作成されうる。
【0018】
図5は、本実施形態における単語表示処理を示すフローチャートである。このフローチャートに対応するプログラムは情報提示プログラム100に含まれ、RAM3にロードされてCPU1により実行されるものである。
【0019】
まず、音声認識部101により、入力された音声の音声認識を行う(ステップS1)。ここでの音声認識処理はいわゆる大語彙連続音声認識であり、入力されてくる音声に対し順次テキストデータを出力するものである。次に、言語処理部102で、出力されたテキストデータの形態素解析等を行って単語に分割し、難易度判定対象単語を抽出する(ステップS2)。
【0020】
次に、単語検索部103により、抽出した単語を単語辞書107から検索する(ステップS3)。単語辞書107は上記したような構成であるから、検索された単語の難易度も判明する。ここで、難易度判定部104により、その単語が所定レベル(例えば、ユーザがあらかじめ設定した難易度レベル)以上の難易度であるかどうかを判定する(ステップS4)。その単語がその所定レベル以上の難易度である場合には、その単語を難解な単語であると判断して、表示処理部106により、その単語表記をCRT6に表示する(ステップS5)。その単語が所定レベル以上の難易度でなければ、表示せずにそのまま認識処理を続ける。
【0021】
以上の処理について、アナウンサーによるニュースの読上げを例にとり、具体的に説明する。
【0022】
アナウンサーがある文を読上げて、ユーザはそれを聴いているとする。例えば、「このパソコンのCPUは・・・」という文章をアナウンサーがしゃべったと仮定する。本システムではこの文を音声認識してテキストデータ「このパソコンのCPUは」に変換する(ステップS1)。次に、そのテキストの解析によって、例えば「この・パソコン・の・CPU・は」という単語に分けられる(ステップS2)。ここで、助詞や代名詞などの語の多くは難易度が低く用語説明が不要であると考えられるため、探索説明対象外フラグなどをあらかじめ設けておき、難易度検索の対象外としておくことが好ましい。
【0023】
これらの処理を行った後、単語として抽出された「パソコン」の難易度を単語辞書107に照らして検査する。単語辞書内には、「パソコン」という単語の難易度レベルが1に設定してあると仮定する(図4を参照)。単語辞書内の単語すべてに難易度レベル値が設定されている。ここでは、1、2、・・・と値が大きいものほど難易度が高いものとする。ユーザの難易度レベルが2と設定されていたとすると、この単語はユーザにとって既知の単語であると判定し、ステップS5の表示は行わない。また、「CPU」の単語の難易度レベルが3に設定してあるとすると、ユーザのレベル値が2であるため、この単語はユーザにとって難しい単語であると判断され、ステップS5で、「CPU」という単語が表示される。
【0024】
このような処理によれば、音声データの聴取中に専門用語など難しい単語などが出てきたときにその単語が表示されるため、視覚的にその単語が何であるかを理解することができる。音声認識により聴取中のすべての音声をテキスト表示することも可能であるが、専門用語などの場合は聞き逃すことが多く、すべて表示するよりも、難解な単語のみを表示したほうが印象が残りやすく理解の助けになる。
【0025】
ところで、ステップS4における難易度の上記「所定レベル」はユーザの操作によって調整することが可能である。例えば、図6に示すようなユーザインタフェースを用いて設定を行うことができる。図示のようなスクロールバーを動かすとそれに応じてレベル値が変化し、難易度レベル値を上げたり下げたりすることができる。また例えば、ユーザの単語習熟度に合わせ、子供、学生、大人などわかりすいレベル表示を設けておいてもよい。子供ならレベル1としたり、学生ならレベル3であったり、大人ならレベル5などというように設定しておく。もちろん各ユーザが直接レベル値を指定する方法でもよいし、上記幼児、中学生、高校生、大学生などといったようにさらにレベルを細かく分けてもよい。
【0026】
くわえて、ユーザは表示された単語についての付加情報を知りたければ、それらの単語を、例えばマウス8でクリックすることにより、指定する。ユーザによる指定があれば、付加情報作成部105によって作成されたその単語に対応する付加情報を追加的に表示することができる。
【0027】
アナウンサーが説明している音声をリアルタイムで音声認識し、難易度に応じて表示されるので、難しい単語であるがゆえに聞き逃した単語などがすぐに画面に表示される。画面上での単語の表示は、テレビなどでは映像が写っている画面に重ねて表示させる。前に単語が表示されていれば、その単語を消して表示させる。当然、ユーザの難易度レベル設定が低ければ、単語の表示は頻繁に行われることになる。
【0028】
単語の表示態様は次のようにしてもよい。図7のように表示結果をログのようにして残しておき、一定期間は単語表示を維持する。ここで、表示する期間の設定はユーザが設定できるようにしてもよい。また、図7のように表示した時刻の情報も合わせて履歴として表示することが好ましい。
【0029】
また、図7のように別のウインドウとして出すだけではなく、テレビ画面など映像が写っている中に複数個を画面上に表示してもよい。1度に何個表示させるかという設定は、ユーザインタフェースなどを用いて設定してもよいであろう。
【0030】
次に、付加情報作成部105の処理について説明する。図8は、付加情報作成部105による処理を示すフローチャートである。
【0031】
ユーザからの入力があれば、付加情報を作成する。ユーザの難易度レベルに合わせ、「CPU」などの単語を知らなかった場合、その単語を文字表示する。また、単語表示に加えて付加情報も表示する場合に備え、情報としてそれらの単語の説明も合わせて単語辞書内に登録しておく。ユーザからマウス操作等によりその単語の説明文が見たいという指示があった場合は、単語辞書内から「CPU」の単語を検索する(ステップS81、S82)。検索対象の単語が単語辞書内にあり、また単語の説明や用語例など付加情報があるならそれを合わせて表示する(ステップS83、S84)。「コンピュータの中で、各装置の制御やデータの計算・加工を行う中枢部分」のような説明文が付加されていればそれを合わせて表示する。もし、すでにこの単語が新しい単語で上書きされていれば、現在表示されている単語に加え、説明文加えた単語を表示させる。既に何らかの説明文と単語が表示されていれば、これらを上書きする。
【0032】
ここで、単語辞書内に単語の付加情報として登録を行っていない場合や、単語辞書内に単語情報がない場合など必要な付加情報が存在しなければ、WWWの検索サイトを利用し、その単語をキーワードに含めて検索する(ステップS85)。検索することによりその単語を含む複数のサイトが見つかった場合、検索した結果より一致する上位のURL等を表示する。また、用語辞書や専門用語のサイトなど、単語に対する説明文が特定できるサイトを指定して検索した場合は、説明文を取り出して表示する(ステップS86)。また、いくつか専門用語や用語辞書などの説明文つきサイトを登録できるようにしておいてもよい。ここで、検索した結果、その単語を含むサイトが見つからなかった場合はその旨を表示する。また、複数見つかった場合における表示結果として、いくつのサイトを表示するか設定できるようなユーザインタフェースを備えていてもよい。使用する検索サイトはあらかじめユーザが良く使う検索サイトを登録しておけばよい。また、ユーザが検索サイトを登録していなければ、任意のサイトを選んで登録しておく。
【0033】
(第2の実施形態)
本実施形態では、上述した処理により難解だと判定された同一単語が複数回登場した場合の表示方法を示す。
【0034】
アナウンサーが話す言葉は、同じ単語が複数回登場する可能性が高い。そのような単語がユーザにとって難しい単語だと判断された場合、その単語が何度も表示されてしまうことになる。例えば、「このパソコンのCPUは・・・で・・・・また、このパソコンのCPUは・・・」などと言った文章をアナウンサーがしゃべった場合、「CPU」という単語がユーザにとって難しいと判定される単語だとすると複数回表示されることとなる。このような表示が繰り返されるとユーザは鬱陶しく感じることにもなる。本実施形態はこのような場合の問題を回避しようとするものである。
【0035】
図8は、本実施形態における単語表示処理を示すフローチャートである。
【0036】
まず、音声認識部101により、入力された音声の音声認識を行う(ステップS91)。ここでの音声認識処理はいわゆる大語彙連続音声認識であり、入力されてくる音声に対し順次テキストデータを出力するものである。次に、言語処理部102で、出力されたテキストデータの形態素解析等を行って単語に分割し、難易度判定対象単語を抽出する(ステップS92)。
【0037】
次に、単語検索部103により、抽出した単語を単語辞書107から検索する(ステップS93)。単語辞書107は上記したような構成であるから、検索された単語の難易度も判明する。ここで、難易度判定部104により、その単語が所定レベル(例えば、ユーザがあらかじめ設定した難易度レベル)以上の難易度であるかどうかを判定する(ステップS94)。その単語が所定レベル以上の難易度でなければ、そのまま認識処理を続けるが、その単語がその所定レベル以上の難易度である場合には、ステップS95に進む。
【0038】
ステップS95では、その単語がすでに表示された単語かどうかをログを見て調べる。ログ内にその単語が存在していればその単語を表示せずそのまま認識処理を続ける。一方、ログ内にその単語がなければ、ステップS96に進み、表示処理部106により、その単語表記をCRT6に表示する。その後、ログに表示した単語を保存する(ステップS97)。ここで、ログには単語が表示された時間も保存しておき、一定期間経てば、その単語をログから消すことが好ましい。ログに保存しておく期間はユーザが設定できるようにしておいてもよい。
【0039】
このような処理により、いったん難解な単語として表示された単語が所定期間内に繰り返し表示されることが回避される。
【0040】
(第3の実施形態)
前述の実施形態は、供給された音声データを聴取するための聴取システムに係るものであったが、本発明は、テキストデータを入力しそのテキストの音声合成を行う音声合成装置にも適用することができる。そこで、本実施形態は本発明が適用される音声合成処理について説明する。
【0041】
本実施形態における音声合成装置も、図1に示したようなパーソナルコンピュータ10によって実現できるものである。ただし、情報提示プログラム100の機能構成(モジュール構成)は、図10に示すようなものである。この図10を参照して、本実施形態の構成および処理の流れを説明する。
【0042】
同図において、403は入力されたテキスト401の言語解析処理を行う言語処理部で、具体的には例えばテキストデータを単語毎に区分するための形態素解析を行う。404は区分された各単語を単語辞書107より検索する単語検索部、405は対象単語の難易度レベルとユーザの難易度レベルの判定を行う難易度判定部、406は単語の説明等の付加情報を作成する付加情報作成部、402はテキスト情報を音声に変換し音声出力する音声合成部、407は単語や付加情報の表示を行う表示処理部である。
【0043】
入力されたテキスト401はまず、言語処理部403に送られる。言語処理部403は、入力テキスト401を基に、形態素解析等を行い、単語に分割し難易度判定対象単語を抽出する。単語検索部404は、抽出した単語を単語辞書107から検索する。難易度判定部405は、その単語が所定レベル(例えば、ユーザがあらかじめ設定した難易度レベル)以上の難易度であるかどうかを判定する。その単語がその所定レベル以上の難易度である場合には、その単語を難解な単語であると判断して、表示処理部407により、その単語表記をCRT6に表示する。表示方法としては第1の実施形態と同様である。その単語が所定レベル以上の難易度でなければ、表示はしない。
【0044】
音声合成部402は、難易度レベルの判定の条件を満たす満たさないにかかわらず、音声合成によるテキスト読上げを行う。音声合成部402と表示処理部407ではお互いの情報の同期がとれるように信号等のやり取りをしておく。
【0045】
第1の実施形態の場合と同様に、ユーザは表示された単語についての付加情報を知りたければ、それらの単語を指定する。ユーザによる指定があれば、第1の実施形態と同様に付加情報作成部406より作成された情報を合わせて表示する。
【0046】
このような処理によれば、音声合成による読み上げの聴取中に難しい単語が出現したときに、音声合成音にあわせその単語が表示されるので、視覚的にその単語が何であるかを理解することができる。また、その単語を読上げる際に、話者やイントネーションなど音声合成による音声情報も併せて変化させてもよい。
【0047】
このように、音声合成装置にも第1の実施形態に示した本発明の内容を実現することが可能である。この他、第1の実施形態において説明した種々の変形例や、第2の実施形態の内容も同様に適用可能であることはいうまでもない。
【0048】
以上、本発明の各種実施形態を詳しく説明したが、これらの実施形態によれば、アナウンサーや音声合成による読上げなどを聞いている際に専門用語など難しい単語などが出てきた場合に、その単語を表示することにより視覚的にその単語が何であるか理解することができる。
【0049】
このように実施形態によれば、システム主導で専門用語など各ユーザにとって難しい単語のみが表示されるので、ユーザの視覚に訴えて理解を深めることができる。また、ユーザが表示された単語を指示することによりユーザに合わせてその単語の説明や関連するWebページのURLを合わせて表示することによりユーザの単語に対する理解をさらに深める効果もある。
【0050】
なお、上述の各実施形態は日本語を前提に説明したが、他の言語にも同様に適用可能である。
【0051】
(他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、例えばシステム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。また、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
【0052】
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
【0053】
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0054】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0055】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
【0056】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
【0057】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0058】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0059】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【0060】
【発明の効果】
本発明によれば、音声情報の聴取時に、システム主導でその理解を支援するための情報提示を行う構成が実現され、それによりユーザの利便性を高めることができる。
【図面の簡単な説明】
【図1】実施形態における聴取システムの構成を示すブロック図である。
【図2】テレビジョン受像機を接続した聴取システムの構成を示すブロック図である。
【図3】第1の実施形態における情報提示プログラムの機能構成を示す図である。
【図4】実施形態における単語辞書の構造例を示す図である。
【図5】第1の実施形態における単語表示処理を示すフローチャートである。
【図6】ユーザの難易度レベルを調整するユーザインタフェースの一例を示す図である。
【図7】単語の表示態様の一例を示す図である。
【図8】付加情報作成部による処理を示すフローチャートである。
【図9】第2の実施形態における単語表示処理を示すフローチャートである。
【図10】第3の実施形態における情報提示プログラムの機能構成を示す図である。
Claims (14)
- 供給された音声データを聴取するための聴取システムであって、
単語とその難易度レベルとを対応づけて登録した単語辞書と、
前記音声データを認識してテキストデータに変換する音声認識手段と、
前記音声認識手段により得られた前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを前記単語辞書に照らして検査する検査手段と、
当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示する表示手段と
を有することを特徴とする聴取システム。 - 前記単語辞書は、所定の単語に対する付加情報を含み、
前記表示手段は、表示した単語に対しユーザから指示があったときに、前記単語辞書からその単語に対応する付加情報を抽出して追加的に表示することを特徴とする請求項1に記載の聴取システム。 - ユーザからの前記指示に基づいて抽出すべき付加情報が前記単語辞書に登録されていないときに、その単語に関連する情報を外部のサイトから検索する検索手段を更に有することを特徴とする請求項2に記載の聴取システム。
- 前記所定レベルを調整する調整手段を更に有することを特徴とする請求項1から3までのいずれかに記載の聴取システム。
- 前記表示手段は、過去所定時間内に表示した単語が難解な単語として再度出現したときは、その単語を表示しないことを特徴とする請求項1から4までのいずれかに記載の聴取システム。
- 供給された音声データを聴取するための聴取システムの制御方法であって、
前記音声データを認識してテキストデータに変換する音声認識ステップと、
前記音声認識ステップにより得られた前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを、単語とその難易度レベルとを対応づけて登録した単語辞書に照らして検査する検査ステップと、
当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示装置に表示する表示ステップと
を有することを特徴とする聴取システムの制御方法。 - コンピュータに、
供給された音声データを認識してテキストデータに変換する音声認識ステップ、
前記音声認識ステップにより得られた前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを、単語とその難易度レベルとを対応づけて登録した単語辞書に照らして検査する検査ステップ、
当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示装置に表示する表示ステップ、
を実行させるためのプログラム。 - 供給されたテキストデータの音声合成を行う音声合成装置であって、
単語とその難易度レベルとを対応づけて登録した単語辞書と、
前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを前記単語辞書に照らして検査する検査手段と、
当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示する表示手段と
を有することを特徴とする音声合成装置。 - 前記単語辞書は、所定の単語に対する付加情報を含み、
前記表示手段は、表示した単語に対しユーザから指示があったときに、前記単語辞書からその単語に対応する付加情報を抽出して追加的に表示することを特徴とする請求項8に記載の音声合成装置。 - ユーザからの前記指示に基づいて抽出すべき付加情報が前記単語辞書に登録されていないときに、その単語に関連する情報を外部のサイトから検索する検索手段を更に有することを特徴とする請求項9に記載の音声合成装置。
- 前記所定レベルを調整する調整手段を更に有することを特徴とする請求項8から10までのいずれかに記載の音声合成装置。
- 前記表示手段は、過去所定時間内に表示した単語が難解な単語として再度出現したときは、その単語を表示しないことを特徴とする請求項8から11までのいずれかに記載の音声合成装置。
- 供給されたテキストデータの音声合成を行う音声合成装置の制御方法であって、
前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを、単語とその難易度レベルとを対応づけて登録した単語辞書に照らして検査する検査ステップと、
当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示する表示ステップと
を有することを特徴とする音声合成装置の制御方法。 - コンピュータに、
供給されたテキストデータの音声合成を行う音声合成ステップ、
前記テキストデータにおける各単語が所定レベル以上の難易度であるか否かを、単語とその難易度レベルとを対応づけて登録した単語辞書に照らして検査する検査ステップ、
当該単語が前記所定レベル以上の難易度のときは、当該単語を難解な単語としてその単語表記を表示する表示ステップ、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003169933A JP2005004100A (ja) | 2003-06-13 | 2003-06-13 | 聴取システムおよび音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003169933A JP2005004100A (ja) | 2003-06-13 | 2003-06-13 | 聴取システムおよび音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005004100A true JP2005004100A (ja) | 2005-01-06 |
Family
ID=34094922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003169933A Withdrawn JP2005004100A (ja) | 2003-06-13 | 2003-06-13 | 聴取システムおよび音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005004100A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010266716A (ja) * | 2009-05-15 | 2010-11-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2011203434A (ja) * | 2010-03-25 | 2011-10-13 | Fujitsu Ltd | 音声認識装置及び音声認識方法 |
JP2011221237A (ja) * | 2010-04-08 | 2011-11-04 | Nec Corp | 音声出力装置、そのコンピュータプログラムおよびデータ処理方法 |
JP2014174307A (ja) * | 2013-03-08 | 2014-09-22 | Kikuichi Nishi | 話し言葉表示処理装置 |
JP2015004756A (ja) * | 2013-06-19 | 2015-01-08 | ヤフー株式会社 | 判定装置、判定方法及び判定プログラム |
JP2016042158A (ja) * | 2014-08-18 | 2016-03-31 | 公立大学法人秋田県立大学 | 外国語の難易度判定装置 |
JP2016191741A (ja) * | 2015-03-30 | 2016-11-10 | 株式会社エヌ・ティ・ティ・データ | 音声処理装置、音声処理方法およびプログラム |
-
2003
- 2003-06-13 JP JP2003169933A patent/JP2005004100A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010266716A (ja) * | 2009-05-15 | 2010-11-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2011203434A (ja) * | 2010-03-25 | 2011-10-13 | Fujitsu Ltd | 音声認識装置及び音声認識方法 |
JP2011221237A (ja) * | 2010-04-08 | 2011-11-04 | Nec Corp | 音声出力装置、そのコンピュータプログラムおよびデータ処理方法 |
JP2014174307A (ja) * | 2013-03-08 | 2014-09-22 | Kikuichi Nishi | 話し言葉表示処理装置 |
JP2015004756A (ja) * | 2013-06-19 | 2015-01-08 | ヤフー株式会社 | 判定装置、判定方法及び判定プログラム |
JP2016042158A (ja) * | 2014-08-18 | 2016-03-31 | 公立大学法人秋田県立大学 | 外国語の難易度判定装置 |
JP2016191741A (ja) * | 2015-03-30 | 2016-11-10 | 株式会社エヌ・ティ・ティ・データ | 音声処理装置、音声処理方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2016202974B2 (en) | Automatically creating a mapping between text data and audio data | |
US8396714B2 (en) | Systems and methods for concatenation of words in text to speech synthesis | |
US8352268B2 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
US8712776B2 (en) | Systems and methods for selective text to speech synthesis | |
US8355919B2 (en) | Systems and methods for text normalization for text to speech synthesis | |
US8352272B2 (en) | Systems and methods for text to speech synthesis | |
US8583418B2 (en) | Systems and methods of detecting language and natural language strings for text to speech synthesis | |
CN101630448B (zh) | 语言学习客户端及系统 | |
US20100082328A1 (en) | Systems and methods for speech preprocessing in text to speech synthesis | |
US20100082327A1 (en) | Systems and methods for mapping phonemes for text to speech synthesis | |
US20130196292A1 (en) | Method and system for multimedia-based language-learning, and computer program therefor | |
JP2001014319A (ja) | ハイパーテキストアクセス装置 | |
JP2000081892A (ja) | 効果音付加装置および効果音付加方法 | |
JP2013072957A (ja) | 文書読み上げ支援装置、方法及びプログラム | |
JP2009042968A (ja) | 情報選別システム、情報選別方法及び情報選別用プログラム | |
GB2532174A (en) | Information processing device, control method therefor, and computer program | |
US20080243510A1 (en) | Overlapping screen reading of non-sequential text | |
JP2004334409A (ja) | データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム | |
JP2005004100A (ja) | 聴取システムおよび音声合成装置 | |
US7353175B2 (en) | Apparatus, method, and program for speech synthesis with capability of providing word meaning immediately upon request by a user | |
WO2020121638A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
KR102295826B1 (ko) | 음향효과를 제공하는 전자책 서비스 방법 및 장치 | |
WO2021161908A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2006047866A (ja) | 電子辞書装置およびその制御方法 | |
JP2008158630A (ja) | 画像出力装置及び画像出力方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060905 |