JP4036741B2 - テキスト読み上げシステム及び方法 - Google Patents
テキスト読み上げシステム及び方法 Download PDFInfo
- Publication number
- JP4036741B2 JP4036741B2 JP2002368651A JP2002368651A JP4036741B2 JP 4036741 B2 JP4036741 B2 JP 4036741B2 JP 2002368651 A JP2002368651 A JP 2002368651A JP 2002368651 A JP2002368651 A JP 2002368651A JP 4036741 B2 JP4036741 B2 JP 4036741B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- text
- information
- input
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、複数行にまたがった絵文字や記号あるいは文字列が存在するテキストデータであっても違和感の無い合成音に変換することができるテキスト読み上げシステム及び方法に関する。
【0002】
【従来の技術】
昨今のコンピュータ技術の急速な進展によって、音声を用いたアプリケーションが多々開発されるようになっており、特にテキストデータを合成音声等を用いて読み上げるテキスト読み上げシステムは、様々なアプリケーションに汎用的に用いられるようになってきている。
【0003】
そして、従来のテキスト読み上げシステムにおいては、(特許文献1)に開示されているように、同じ記号文字列が連続して表記されている場合、連続した記号文字列については、別の読みや音等を規定している読み上げデータに変換して、合成音として出力される、あるいは無音化することによって音声出力されないようにしている。
【0004】
図1に従来のテキスト読み上げシステムの構成図を示す。図1において、テキストデータ入力部1から記号や文字が混在しているテキストデータが入力されると、読み上げデータ生成部2へと渡される。
【0005】
読み上げデータ生成部2においては、まずテキストデータ解析部4によって入力されたテキストデータのデータ種別が順次解析される。次に、切出部5によって、入力されたテキストデータから、行方向に同一種別のデータが連続しているテキストデータ部分が切り出される。切り出されたテキストデータ部分は、変換部6において、通常とは異なる別の読み情報を有する読み上げデータや、特定の音として出力するためのWAVファイル等の音データ、あるいは無音データ等に変換される。
【0006】
そして、変換部6において変換された各種の読み上げデータは、音声出力部3において、従来の言語処理や波形処理を行うことによって合成音声が生成され、音声出力として出力される。
【0007】
しかし、上述したような従来の方法では、順次、同一のデータ種別である複数個連続したテキストデータがある場合、すなわち行方向に連続して文字列が存在する場合には正確な読み上げを行うことができるものの、以下のような問題点も内在していた。
【0008】
例えば、「===== おわり =====」というように、横書きのテキストデータではあるものの、横方向に5つ連続した記号データ「=」がある場合、「=」を「イコール」と変換するだけでは、5回連続して「イコール」と音声出力され、その後に本題である「おわり」と音声出力され、さらにその後5回連続して「イコール」と音声出力される。これでは、音声出力を聞く利用者にとっても非常に聞きづらく、内容によっては本題部分を聞き逃してしまうおそれもあった。
【0009】
そこで、(特許文献1)では、記号データが連続している部分を切り出して、例えば「=」を全て無音に変換して、「おわり」だけ読ませたり、あるいは「=====」を「=」に変換して、「イコール、おわり、イコール」と読ませたり、「=====」をビープ音に変換して、ビープ音の後に「おわり」と読ませ、最後にビープ音を出力する等の処理を行うことによって、利用者にとっての利便性を確保している。
【0010】
また、最近のようにインターネット環境を用いた電子メールが普及すると、メール文章の中に「(-v-)」等の顔文字を挿入することも多い。かかる場合に対応するために、例えば(特許文献2)、(特許文献3)においては、顔文字を感情表現用の記号として使用し、読み上げの方法等を変化させるトリガとしてのみ用いることで、読み上げの対象から外す方法が開示されている。また(特許文献4)では、顔文字の特徴を検出することによって、メール内容に含まれている顔文字が、単なる記号であるのか意味を有する顔文字であるのかを判断し、顔文字である場合には当該意味内容に応じた音声出力を行い、単なる記号である場合には音声出力の対象から外す方法が開示されている。
【0011】
【特許文献1】
特開平9−16196号公報
【0012】
【特許文献2】
特開2002−91891号公報
【0013】
【特許文献3】
特開2002−268665号公報
【0014】
【特許文献4】
特開2001−337688号公報
【0015】
【発明が解決しようとする課題】
しかし、上述したテキスト読み上げ方法においては、基本的に行方向におけるテキストデータの配列性向に基づいた制御を行っていることから、複数行にわたって多種多様な記号データを組み合わせた場合、例えば行方向のみならず列方向における配置をも考えて1つの大きな絵文字を形成する場合や、引用あるいは強調を示すために記号データでテキストデータを囲んでいるような場合については、以下のような問題点が生じていた。
【0016】
例えば図2に示すように、テキストデータの前に、複数行にまたがった記号データを組み合わせて1つのクリスマスツリーの図形を表す記号として用いている場合については、1行目の星形記号(★)や、2行目のセミコロン(;)についても読み上げの対象になってしまうだけでなく、テキストデータ読み上げの途中において、すなわちテキストデータが改行している部分において、セミコロン等の記号データに対する読み上げが挿入されてしまうという問題点があった。また、たとえ当該記号データを無音データとした場合であっても、聞き手にとっては意味的に不自然な部分において無音区間が生じることから、出力される音声が聞き取りにくいという問題点もあった。
【0017】
また、図3に示すように、テキストデータの周囲が、記載内容を強調するために記号データで囲んで表記されている場合についても、同様に各記号データについて記号ごとに読み上げてしまう。また、これらの記号データを無音データに変換した場合であっても、同様に意味的に不自然な部分において無音区間が生じてしまい、聞き手にとっては聞き難い音声出力となってしまうという問題点が残されていた。
【0018】
本発明は、上記問題点を解決するために、記号データを含む複数行のテキストデータが入力された場合であっても、文字データで表記された内容を正確に読み上げることができるテキスト読み上げシステム及び方法を提供することを目的とする。
【0019】
【課題を解決するための手段】
上記目的を達成するために本発明にかかるテキスト読み上げシステムは、複数行を有するテキストデータを入力するテキストデータ入力部と、入力されたテキストデータに関する読み上げデータを生成する読み上げデータ生成部と、読み上げデータを用いて音声出力する音声出力部とを含むテキスト読み上げシステムであって、読み上げデータ生成部において、入力されたテキストデータを解析して、データ種別を判別するテキストデータ解析部と、判別されたデータ種別ごとに、入力されたテキストデータにおける行方向及び列方向における相対的な位置に関する情報を生成する位置情報生成部と、生成された位置に関する情報を保存するデータ種別位置情報保存部、データ種別位置情報保存部に保存されている位置に関する情報に基づいて、音声出力の対象となるテキストデータの位置に関する情報を検出する音声出力対象検出部と、音声出力の対象となるテキストデータの位置に関する情報に基づいて、入力されたテキストデータを音声出力部において音声出力可能なデータ形式を有する読み上げデータへと変換する変換部を含むことを特徴とする。
【0020】
かかる構成により、複数行を有するテキストデータが入力された場合であっても、行方向だけでなく列方向における連続した文字データや一連の形態を有する記号データ群等を検出することができ、聴取者に分かりやすく、かつ聞き取りやすい合成音声としてテキストデータを読み上げることが可能となる。
【0021】
また、本発明にかかるテキスト読み上げシステムは、音声出力対象検出部において、行方向又は列方向に同一のデータ種別が連続している部分の位置に関する情報を検出することが好ましい。列方向に連続している文字データや記号データについても読み上げ対象として認識することができるからである。
【0022】
また、本発明にかかるテキスト読み上げシステムは、データ種別に関する相対的な位置関係を定義する所定の位置情報パターンを、読み上げデータあるいは音データと対応付けて登録する位置情報パターン保存部をさらに含み、音声出力対象検出部において、位置情報パターン保存部を照合して、登録されている位置情報パターンと一致する部分の位置に関する情報を検出し、変換部において、検出された位置情報パターンを、位置情報パターン保存部において対応付けられている読み上げデータあるいは音データに変換することが好ましい。特定の位置情報パターンに合致する部分については、1つの意味を有する読み上げデータとして変換する方が、ユーザにとって聞き取りやすいからである。
【0023】
また、本発明にかかるテキスト読み上げシステムは、変換部において、複数行にまたがって連続しているデータ種別が文字データであるテキストデータを、連続した読み上げデータに変換することが好ましい。
【0024】
また、本発明にかかるテキスト読み上げシステムは、変換部において、複数行にまたがって連続しているデータ種別が文字データ以外であるテキストデータを削除することが好ましい。
【0025】
また、本発明にかかるテキスト読み上げシステムは、音声出力対象検出部において、データ種別が文字データ以外である所定の個数以上のテキストデータで囲まれた文字データを、データ種別が文字データ以外のテキストデータであると認識することが好ましい。全体として1つの意味を有するデータ群として読み上げデータに変換した方がユーザにとって理解しやすいからである。
【0026】
また、本発明にかかるテキスト読み上げシステムは、変換部において、位置情報パターンと一致する部分の位置に関する情報に基づいて、位置情報パターンと一致する部分の開始位置の前、あるいは終了位置の後において位置情報パターンと一致する部分を一組の音発生コマンド又は一組の読み上げデータに変換することが好ましい。位置情報パターン以外の部分における文字データの読み上げが不自然にならないようにできるからである。
【0027】
また、本発明にかかるテキスト読み上げシステムは、読み上げデータの内容を指定できる読み上げデータ指定部と、指定された読み上げデータの内容を保存する読み上げデータ保存部とをさらに含むことが好ましい。ユーザの意向を確実に反映させて読み上げデータに変換することができるからである。
【0028】
また、本発明は、上記のようなテキスト読み上げシステムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、入力手段において複数行を有するテキストデータを入力する工程と、入力されたテキストデータに関する読み上げデータを生成する工程と、読み上げデータを用いて音声出力する工程とを含むテキスト読み上げ方法であって、読み上げデータを生成する工程において、入力されたテキストデータを解析して、データ種別を判別する工程と、判別されたデータ種別ごとに、入力されたテキストデータにおける行方向及び列方向における相対的な位置に関する情報を生成して記憶手段に保存する工程と、記憶手段に保存されている位置に関する情報に基づいて、音声出力の対象となるテキストデータの位置に関する情報を検出する工程と、音声出力の対象となるテキストデータの位置に関する情報に基づいて、入力手段において入力されたテキストデータを音声出力可能なデータ形式を有する読み上げデータへと変換する工程を含むテキスト読み上げ方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【0029】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、複数行を有するテキストデータが入力された場合であっても、行方向だけでなく列方向における連続した文字データや一連の形態を有する記号データ群等を検出することができ、聴取者に分かりやすく、かつ聞き取りやすい合成音声としてテキストデータを読み上げることができるテキスト読み上げシステムを実現することが可能となる。
【0030】
【発明の実施の形態】
以下、本発明の実施の形態にかかるテキスト読み上げシステムについて、図面を参照しながら説明する。図4は本発明の実施の形態にかかるテキスト読み上げシステムの構成図である。図4において、11はテキストデータ入力部であり、一行のテキストデータだけでなく、複数行のテキストデータについても入力できるようになっている。
【0031】
また、12は入力されたテキストデータに関する読み上げデータを生成する読み上げデータ生成部を示しており、入力されたテキストデータの状況に応じて音声出力用の読み上げデータを生成する。
【0032】
具体的には、まずテキストデータ解析部41において、テキストデータ入力部11において入力されたテキストデータを解析して、データの種別を判別する。判別するデータの種別としては、文字データとしての仮名/漢字データや英数字データ、それ以外のデータとして記号データ、空白(スペース)データ等が考えられる。もちろん、判別するデータ種別として、これに限定されるものではない。
【0033】
本実施の形態においては、データ種別として、記号データ(種別:1)、空白データ(種別:2)、文字データ(種別:3)、Nullデータ(種別:4)の4つに分類し、入力されたテキストデータがそれぞれどのデータ種別に相当するのか解析する。
【0034】
データ種別を判別するためには、使用するコンピュータ上における表示コードを表示コード保存部42へ保存しておき、入力されたテキストデータについて表示コード保存部42に保存されている表示コードと照合することによってデータ種別を判断する。ここで、表示コードとは、ホストコンピュータにおけるEBCDICコードや、パーソナルコンピュータにおけるASCIIコード等を意味している。
【0035】
次に、位置情報生成部43においては、テキストデータ解析部41において判別されたデータ種別ごとに、入力されたテキストデータにおける画面上での各データに関する位置情報を生成する。位置情報としては、基準点を定め、当該基準点からの、行方向及び列方向における相対的な位置に関する情報を生成する。生成されたデータ種別ごとの位置情報はデータ種別位置情報保存部44に保存される。
【0036】
具体的には以下のようにして位置情報を求める。通常、表示装置には、一行に表示される文字数制限がある。したがって、かかる制限文字数と改行コードの存在を検出することによって、表示画面左上を基準点とした画面上の位置座標を決定することができる。
【0037】
そして、かかる位置座標とデータ種別を対応させてデータ種別位置情報保存部44に保存するために、本実施の形態においては位置情報に相当するm×nのマトリックスデータを用いることで、画面表示イメージそのままの形式で保存している。
【0038】
例えば、図5(a)に示すような複数行のテキストデータが入力されてきた場合には、データ種別位置情報保存部44には、図5(b)のような形式でデータ種別ごとの位置情報が保存される。
【0039】
例えば、図5(a)に示す複数行のテキストデータにおいては、1行目の最初の半角文字が「空白」であることから、図5(b)のようにデータ種別‘2’を左上端に記録し、図5(a)に示すテキストデータの1行目の2つ目の半角文字「#」が記号データであることから、図5(b)の1行目の2番目にデータ種別‘1’を記録する。
【0040】
以下同様に、画面上の表示位置に対応する位置にデータ種別を記録していく。なお、2バイト系のテキストデータについては、データ種別を区別する符号を2つ並べる。例えば図5(a)に示すテキストデータの2行目の最初の文字データ「こ」については、図5(b)の2行目に示すように、データ種別‘33’を2行目の対応する位置に記録する。
【0041】
また、入力されるテキストデータによっては、半角文字、全角文字だけではなく、タブ等のように文字数により位置が制御される制御文字が混在している場合も考えられる。
【0042】
例えば、図6(a)に示すような複数行のテキストデータが入力されてきた場合には、データ種別位置情報保存部44には、図6(b)のような形式でデータ種別ごとの位置情報が保存される。
【0043】
すなわち、図6(a)に示す複数行のテキストデータにおいては、行の開始位置から何文字目にカーソルが移動するかを示すタブ「|」が設定されている。例えば1行目の最後の文字データ「は」から記号データ「#」までの間は、半角空白データとタブによる空白区間とが存在している。
【0044】
この例では、当該タブによる文字数情報は全角8文字であることから、図6(b)に示すようにデータ種別位置情報保存部44には、文字データ「は」の直後の半角空白データと併せて、データ種別‘4’が17(=8×2+1)個、文字データ「は」に対応するデータ種別‘33’の直後から記録される。
【0045】
次に、音声出力対象検出部45では、データ種別位置情報保存部44に保存されている位置に関する情報に基づいて、音声出力の対象となるテキストデータ部分に関する情報を検出する。音声出力の対象となるテキストデータ部分に関する情報を検出する方法としては、様々な方法が考えられる。
【0046】
例えば、音声出力対象検出部45において、データ種別位置情報保存部44に保存されている位置に関する情報に基づいて、行方向及び列方向にデータ種別が同一であるテキストデータが連続していることを検出する方法が考えられる。
【0047】
すなわち、データ種別位置情報保存部44に保存されている位置に関する情報が、図6(b)に示すようなm×nのマトリックスデータであった場合、音声出力の対象となる可能性があるのは、データ種別が記号データ‘11’であるテキストデータが連続している部分、あるいはデータ種別が文字データ‘33’であるテキストデータが連続している部分であると考えられる。
【0048】
図6(b)の例では、データ種別が文字データ‘33’であるテキストデータが連続している部分は行方向及び列方向に連続している。したがって、かかる部分は横書きの文字列あるいは縦書きの文字列であるものとして音声出力の対象となるテキストデータ部分であるとして検出され、その位置に関する情報を抽出する。
【0049】
一方、データ種別が記号データ‘11’であるテキストデータが連続している部分は、縦方向にのみ5つ連続していることが検出される。かかる部分は、一体として何らかの意味を有していることも多く、後述する変換部47において、適切な読み上げデータに変換することで、ユーザにとって聞き易く、意味のある音声出力を行うことができる。また、意味を有さない場合であっても、一体として変換部47において無音データに変換し、かかる部分の開始位置あるいは終了位置に配置することによって、通常の文字データの読み上げ途上に意味のない無音区間が生じることを未然に回避することが可能となる。
【0050】
また、音声出力対象検出部45において、データ種別に関する相対的な位置関係を定義する所定の位置情報パターンを登録する位置情報パターン保存部46を設けておき、位置情報パターン保存部46を照合することによって、登録されている位置情報パターンと一致する部分の位置に関する情報を検出することも考えられる。
【0051】
例えば、意味を有する図形等を作画する場合において、通常は長方形で閉じられた二次元空間内で作成する場合が多いことから、行方向に一定個数、列方向に一定個数分の一辺を有する長方形で閉じられた空間内に、記号データや空白データ、場合によっては文字データも含めた位置情報パターンを形成することが多い。したがって、かかる長方形で閉じられた空間内におけるデータ種別の位置情報パターンを位置情報パターン保存部46に登録しておき、入力されたテキストデータに当該パターンが存在するか否かを照合する。そして、当該位置情報パターンに対応させた通常とは異なる読み上げデータや音を出力するための音データ等についても位置情報パターン保存部46に登録しておくことによって、当該位置情報パターンが検出された部分についての後述する変換部47における変換方法を指示することが可能となる。
【0052】
この際、一定個数以上の記号もしくはスペースで囲まれた漢字、ひらがな、英数字等の文字データについても、一体となった意味を有する記号における構成要素の1つと判断するべく、データ種別を記号データ‘1’に変換することも考えられる。
【0053】
例えば、図7に示すようなクリスマスツリーを意味する絵文字において、当該絵文字に用いられている文字データ「P」については、文字データとして読み上げの対象とする必要が無く、絵文字一体として何らかの意味を持たせる方が自然である。そこで、このような位置に存在する文字データについては、データ種別を文字データ‘3’から記号データ‘1’へと変換することによって、不要な文字読み上げを回避することが可能となる。
【0054】
次に、変換部47では、音声出力の対象となるテキストデータの位置に関する情報に基づいて、入力されたテキストデータを音声出力部13において音声出力可能なデータ形式を有する読み上げデータへと変換する。また、行方向あるいは列方向に連続して存在する記号データについても、位置情報パターン保存部46を照会することによって、一致する位置情報パターンに対応するビープ音のような他の音データ、さらには特別の意味を表す読み上げデータ、あるいは無音データへと変換する。
【0055】
図8に、本発明の実施の形態にかかるテキスト読み上げシステムにおける変換部47の構成図を示す。図8に示すように、変換部47は、少なくとも変換開始終了位置確定部81、及び読み上げデータ変換部82を含んでいる。
【0056】
まず変換開始終了位置確定部81においては、音声出力対象検出部45で検出された音声出力の対象となるテキストデータの開始位置及び終了位置を決定する。例えば、図9に示すようなテキストデータが入力されている場合、検出された音声出力の対象となるテキストデータとしては、「ここは本文1です。」、「次回の配信予定…一般の方」、「からのデザイン…応募ください。」、「締め切りは12月1日です。」、及び「ここは本文2です。」の文字データに対応する部分と、記号データ「★」から開始されるクリスマスツリーの図形を表す記号データ部分となる。
【0057】
したがって、各文字データについては、文字データの起点及び終点が、読み上げデータの開始位置及び終了位置となる。また、クリスマスツリーの図形を表す記号データ部分については位置情報パターンの始点及び終点が、読み上げデータの開始位置及び終了位置となる。
【0058】
そして、読み上げデータ変換部82において、確定した開始位置から終了位置までの間のテキストデータを指示されている読み上げデータへと変換する。例えば、文字データについては、そのまま連続して読み上げデータへと変換する。また、記号データについては位置情報パターン全体を1つのデータとして、ビープ音等のような他の音を発生する音データ、別の読みに相当する読み上げデータ、あるいは無音データへと変換し、テキストデータから削除する等の変換処理を行う。
【0059】
例えば、図9の例においては、クリスマスツリーの図形を表す記号データ部分についてはテキストデータから削除されることから、読み上げデータは、「ここは本文1です。」、「次回の配信予定は、12月のクリスマスの時期を予定しております。一般の方からのデザインも多数募集しておりますので、どしどしご応募ください。応募締切りは12月1日です。」、「ここは本文2です。」となり、「次回の〜12月1日です。」の間に、不要な無音区間が生じることがなく、聞き手にとっても聞きやすい読み上げデータとして出力することができる。
【0060】
一般に、位置情報パターンで1つの意味を表すものと認識されている記号データ部分については、変換されたビープ音等のような他の音を発生する音データ、あるいは別の読みに相当する読み上げデータを、全体のテキストデータ読み上げ開始前あるいは読み上げ終了後に出力する。もちろん、記号データの内容によっては、連続するテキストデータの中途にビープ音等のような他の音を発生する音データ、あるいは別の読みに相当する読み上げデータを挿入するものであっても良い。
【0061】
例えば、図9に示すように、横書きで書かれたテキストデータの左側に記号データの一群が存在し、これら一群の記号データを1まとまりとしてベルの音として音データを出力する場合、記号データ群全体を音データファイル“bell.wav”に変換して対応するテキストデータを削除し、文字データ「次回配信予定…12月1日です。」の終了位置に、“bell.wav”を挿入することも可能である。この場合、「ここは本文1です。」、「次回配信予定…12月1日です。」と読み上げられた後に、音データファイル“bell.wav”が再生され、最後に「ここは本文2です。」と読み上げられる。
【0062】
そして、変換部47で変換された読み上げデータが音声出力部13に入力され、文字データに対応する読み上げデータについては言語処理を行った後に波形処理を行い、適切な合成音声として出力される。また、ビープ音等の音データが指定されている場合には、当該音データをそのまま出力する。
【0063】
また、読み上げデータとしてどのようなデータに変換するのかをユーザが指定できるようにしても良い。この場合、図10に示すように、変換部47に対して、変換するべき読み上げデータの内容を指定することができる読み上げデータ指定部101と、指定された読み上げデータの内容を保存する読み上げデータ保存部102とをさらに設ける。
【0064】
すなわち、読み上げデータ指定部101においては、音声出力対象検出部45において検出された音声出力の対象となる部分に対応する文字データや記号データ等を変換する読み上げデータや音データ等を指定し、読み上げデータ指定部101で指定されたデータは読み上げデータ保存部102に保存される。
【0065】
変換部47では、あらかじめ位置情報パターン保存部46等で保存されているテキストデータの位置情報パターンに対応した読み上げデータや音データ等と、読み上げデータ保存部102に保存されている指定された読み上げデータや音データ等を用い、重複する場合には読み上げデータ保存部102に保存されている指定された読み上げデータや音データ等を優先して用いる。このようにすることで、特殊なパターンを有し、かつ事前に位置情報パターン保存部46に保存しておくことができなかった場合であっても、ユーザの意図に沿ったテキストデータの読み上げを行うことが可能となる。
【0066】
さらに複雑な処理を行う場合として、図11(a)に示すように、行方向に連続した文字列ではあるが、文字の修飾として、各文字の周囲を囲むように記号データが存在する場合も考えられる。この場合、音声出力対象検出部45において、行方向にデータ種別が文字データ‘33’と記号データ‘11’が交互に表れている部分が検出できる。したがって、このような位置に関する情報を検出した場合には、交互に出現している文字データを一連のデータと解釈して、変換部47において読み上げデータに変換する。かかる処理を行うことによって、「新」、「年」、「特」、「集」という独立した文字としてではなく、「新年特集」という1つの文字列として音声出力を行うことが可能となる。
【0067】
また、意味のない文字の集合である場合も考えられることから、新たに言語処理部(図示せず)を設けて、形態素解析等を行い、品詞情報を確認した上で読み上げデータに変換することが好ましい。
【0068】
例えば図11(b)に示すように、記号データの一部として文字データ「の」が用いられている行については、「のの」という文字列が言語処理部において形態素解析され、助詞「の」が連続していると解釈される。したがって、意味のある単語とは認識されないことから、変換部47において読み上げデータに変換されることはない。
【0069】
このような処理は、図12に示すように列方向に連続した文字列が形成されている場合についても同様の処理となる。
【0070】
次に、本発明の実施の形態にかかるテキスト読み上げシステムを実現するプログラムの処理の流れについて説明する。図13に本発明の実施の形態にかかるテキスト読み上げシステムを実現するプログラムの処理の流れ図を示す。
【0071】
図13において、まず読み上げの対象となる複数行を有するテキストデータが入力されると(ステップS1301)、入力されたテキストデータについてデータ種別を解析する(ステップS1302)。
【0072】
次に、テキストデータに含まれている文字データや記号データ、あるいは空白データ等のデータ種別ごとに、表示画面のどの位置において表示されているのかを位置に関する情報として生成して保存する(ステップS1303)。そして、当該位置に関する情報に基づいて、行方向及び列方向にデータ種別が文字データであるテキストデータが連続している部分を検出する(ステップS1304)。
【0073】
また、データ種別に関する相対的な位置関係が定義された所定の位置情報パターンを照会し、事前に登録されている位置情報パターンと一致する部分の位置に関する情報を検出する(ステップS1305)。
【0074】
そして、行方向及び列方向にデータ種別が文字データであるテキストデータが連続している部分については、音声出力可能なデータ形式を有する読み上げデータへと変換する(ステップS1306)。また、位置情報パターンと一致している部分については、指定されているビープ音のような他の音データ、さらには特別の意味を表す読み上げデータ、あるいは無音データへと変換する(ステップS1307)。
【0075】
そして、変換された読み上げデータについては言語処理を行った後に波形処理を行い、適切な合成音声として出力される。また、ビープ音等の音データが指定されている場合には、当該音データをそのまま出力する(ステップS1308)。
【0076】
以上のように本実施の形態によれば、複数行を有するテキストデータが入力された場合であっても、行方向だけでなく列方向における連続した文字データや一連の形態を有する記号データ群等を検出することができ、聴取者に分かりやすく、かつ聞き取りやすい合成音声としてテキストデータを読み上げることが可能となる。
【0077】
本発明の実施の形態にかかるテキスト読み上げシステムを実現するプログラムは、図14に示すように、CD−ROM142−1やフレキシブルディスク142−2等の可搬型記録媒体142だけでなく、通信回線の先に備えられた他の記憶装置141や、コンピュータ143のハードディスクやRAM等の記録媒体144のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0078】
また、本発明の実施の形態にかかるテキスト読み上げシステムにより生成されたデータ種別位置情報等についても、図14に示すように、CD−ROM142−1やフレキシブルディスク142−2等の可搬型記録媒体142だけでなく、通信回線の先に備えられた他の記憶装置141や、コンピュータ143のハードディスクやRAM等の記録媒体144のいずれに記憶されるものであっても良く、例えば本発明にかかるテキスト読み上げシステムを利用する際にコンピュータ143により読み取られる。
【0079】
(付記1) 複数行を有するテキストデータを入力するテキストデータ入力部と、
入力された前記テキストデータに関する読み上げデータを生成する読み上げデータ生成部と、
前記読み上げデータを用いて音声出力する音声出力部とを含むテキスト読み上げシステムであって、
前記読み上げデータ生成部は、
入力された前記テキストデータを解析して、データ種別を判別するテキストデータ解析部と、
判別された前記データ種別ごとに、入力された前記テキストデータにおける行方向及び列方向における相対的な位置に関する情報を生成する位置情報生成部と、
生成された位置に関する情報を保存するデータ種別位置情報保存部と、
前記データ種別位置情報保存部に保存されている位置に関する情報に基づいて、音声出力の対象となるテキストデータの前記位置に関する情報を検出する音声出力対象検出部と、
前記音声出力の対象となるテキストデータの前記位置に関する情報に基づいて、入力された前記テキストデータを前記音声出力部において音声出力可能なデータ形式を有する前記読み上げデータへと変換する変換部を含むことを特徴とするテキスト読み上げシステム。
【0080】
(付記2) 前記音声出力対象検出部において、行方向又は列方向に同一の前記データ種別が連続している部分の位置に関する情報を検出する付記1に記載のテキスト読み上げシステム。
【0081】
(付記3) 前記データ種別に関する相対的な位置関係を定義する所定の位置情報パターンを、読み上げデータあるいは音データと対応付けて登録する位置情報パターン保存部をさらに含み、
前記音声出力対象検出部において、前記位置情報パターン保存部を照合して、登録されている前記位置情報パターンと一致する部分の位置に関する情報を検出し、
前記変換部において、検出された前記位置情報パターンを、前記位置情報パターン保存部において対応付けられている前記読み上げデータあるいは音データに変換する付記1又は2に記載のテキスト読み上げシステム。
【0082】
(付記4) 前記変換部において、複数行にまたがって連続している前記データ種別が文字データであるテキストデータを、連続した前記読み上げデータに変換する付記1から3のいずれか一項に記載のテキスト読み上げシステム。
【0083】
(付記5) 前記変換部において、複数行にまたがって連続している前記データ種別が文字データ以外であるテキストデータを削除する付記1から3のいずれか一項に記載のテキスト読み上げシステム。
【0084】
(付記6) 前記音声出力対象検出部において、前記データ種別が文字データ以外である所定の個数以上のテキストデータで囲まれた文字データを、前記データ種別が文字データ以外のテキストデータであると認識する付記4又は5に記載のテキスト読み上げシステム。
【0085】
(付記7) 前記変換部において、前記位置情報パターンと一致する部分の位置に関する情報に基づいて、前記位置情報パターンと一致する部分の開始位置の前、あるいは終了位置の後において前記位置情報パターンと一致する部分を一組の音発生コマンド又は一組の読み上げデータに変換する付記3に記載のテキスト読み上げシステム。
【0086】
(付記8) 前記読み上げデータの内容を指定できる読み上げデータ指定部と、指定された前記読み上げデータの内容を保存する読み上げデータ保存部とをさらに含む付記1に記載のテキスト読み上げシステム。
【0087】
(付記9) 入力手段において複数行を有するテキストデータを入力する工程と、
入力された前記テキストデータに関する読み上げデータを生成する工程と、
前記読み上げデータを用いて音声出力する工程とを含むテキスト読み上げ方法であって、
前記読み上げデータを生成する工程が、
入力された前記テキストデータを解析して、データ種別を判別する工程と、
判別された前記データ種別ごとに、入力された前記テキストデータにおける行方向及び列方向における相対的な位置に関する情報を生成して記憶手段に保存する工程と、
前記記憶手段に保存されている位置に関する情報に基づいて、音声出力の対象となるテキストデータの前記位置に関する情報を検出する工程と、
前記音声出力の対象となるテキストデータの前記位置に関する情報に基づいて、前記入力手段において入力された前記テキストデータを音声出力可能なデータ形式を有する前記読み上げデータへと変換する工程を含むことを特徴とするテキスト読み上げ方法。
【0088】
(付記10) 複数行を有するテキストデータを入力するステップと、
入力された前記テキストデータに関する読み上げデータを生成するステップと、
前記読み上げデータを用いて音声出力するステップとを含むテキスト読み上げ方法を具現化する、少なくとも入力手段、記憶手段、演算手段、出力手段を含むコンピュータで実行可能なプログラムであって、
前記読み上げデータを生成するステップが、
前記入力手段において入力された前記テキストデータを解析して、データ種別を判別するステップと、
判別された前記データ種別ごとに、入力された前記テキストデータにおける行方向及び列方向における相対的な位置に関する情報を生成して前記記憶手段に保存するステップと、
前記記憶手段に保存されている位置に関する情報に基づいて、音声出力の対象となるテキストデータの前記位置に関する情報を検出するステップと、
前記音声出力の対象となるテキストデータの前記位置に関する情報に基づいて、前記入力手段において入力された前記テキストデータを音声出力可能なデータ形式を有する前記読み上げデータへと変換するステップを含むことを特徴とする前記コンピュータで実行可能なプログラム。
【0089】
【発明の効果】
以上のように本発明にかかるテキスト読み上げシステムによれば、複数行を有するテキストデータが入力された場合であっても、行方向だけでなく列方向における連続した文字データや一連の形態を有する記号データ群等を検出することができ、聴取者に分かりやすく、かつ聞き取りやすい合成音声としてテキストデータを読み上げることが可能となる。
【図面の簡単な説明】
【図1】 従来のテキスト読み上げシステムの構成図
【図2】 従来のテキスト読み上げシステムにおける読み上げ状態の説明図
【図3】 従来のテキスト読み上げシステムにおける読み上げ状態の説明図
【図4】 本発明の実施の形態にかかるテキスト読み上げシステムの構成図
【図5】 本発明の実施の形態にかかるテキスト読み上げシステムにおける入力テキストデータ及びデータ種別位置情報保存部におけるデータ構成の例示図
【図6】 本発明の実施の形態にかかるテキスト読み上げシステムにおける入力テキストデータ及びデータ種別位置情報保存部におけるデータ構成の例示図
【図7】 本発明の実施の形態にかかるテキスト読み上げシステムにおける入力テキストデータの例示図
【図8】 本発明の実施の形態にかかるテキスト読み上げシステムにおける変換部の構成例示図
【図9】 本発明の実施の形態にかかるテキスト読み上げシステムにおける入力テキストデータ及び変換部でのデータ変換状況の説明の例示図
【図10】 本発明の実施の形態にかかるテキスト読み上げシステムの他の構成図
【図11】 本発明の実施の形態にかかるテキスト読み上げシステムにおける入力テキストデータの例示図
【図12】 本発明の実施の形態にかかるテキスト読み上げシステムにおける入力テキストデータの例示図
【図13】 本発明の実施の形態にかかるテキスト読み上げシステムにおける処理の流れ図
【図14】 コンピュータ環境の例示図
【符号の説明】
1、11 テキストデータ入力部
2、12 読み上げデータ生成部
3、13 音声出力部
4、41 テキストデータ解析部
5 切出部
6、47 変換部
42 表示コード保存部
43 位置情報生成部
44 データ種別位置情報保存部
45 音声出力対象検出部
46 位置情報パターン保存部
81 変換開始終了位置確定部
82 読み上げデータ変換部
101 読み上げデータ指定部
102 読み上げデータ保存部
141 回線先の記憶装置
142 CD−ROMやフレキシブルディスク等の可搬型記録媒体
142−1 CD−ROM
142−2 フレキシブルディスク
143 コンピュータ
144 コンピュータ上のRAM/ハードディスク等の記録媒体
Claims (6)
- 複数行を有するテキストデータを入力するテキストデータ入力部と、
入力された前記テキストデータに関する読み上げデータを生成する読み上げデータ生成部と、
前記読み上げデータを用いて音声出力する音声出力部とを含むテキスト読み上げシステムであって、
前記読み上げデータ生成部は、
入力された前記テキストデータを解析して、データ種別を判別するテキストデータ解析部と、
判別された前記データ種別ごとに、入力された前記テキストデータにおける画面上での行方向及び列方向における相対的な位置に関する情報を生成する位置情報生成部と、
前記位置情報生成部によって生成された位置に関する情報に基づいて、前記テキストデータ解析部で判別されたデータ種別を表すコードをm×nのマトリックスデータとして保存するデータ種別位置情報保存部と、
前記データ種別位置情報保存部に保存されているマトリックスデータにおいて、行方向又は列方向に音声出力の対象となる同一のデータ種別を表すコードが連続している部分の位置に関する情報を検出する音声出力対象検出部と、
前記音声出力対象検出部により検出された位置に関する情報に基づいて、入力された前記テキストデータを前記音声出力部において音声出力可能なデータ形式を有する前記読み上げデータへと変換する変換部を含むことを特徴とするテキスト読み上げシステム。 - 前記データ種別に関する相対的な位置関係を定義する所定の位置情報パターンを、読み上げデータあるいは音データと対応付けて登録する位置情報パターン保存部をさらに含み、
前記音声出力対象検出部において、前記位置情報パターン保存部を照合して、登録されている前記位置情報パターンと一致する部分の位置に関する情報を検出し、
前記変換部において、検出された前記位置情報パターンを、前記位置情報パターン保存部において対応付けられている前記読み上げデータあるいは音データに変換する請求項1に記載のテキスト読み上げシステム。 - 前記変換部において、前記位置情報パターンと一致する部分の位置に関する情報に基づいて、前記位置情報パターンと一致する部分の開始位置の前、あるいは終了位置の後において前記位置情報パターンと一致する部分を一組の音発生コマンド又は一組の読み上げデータに変換する請求項2に記載のテキスト読み上げシステム。
- 前記音声出力対象検出部において、前記データ種別が文字データ以外である所定の個数以上のテキストデータで囲まれた文字データを、前記データ種別が文字データ以外のテキストデータであると認識する請求項1〜3のいずれか一項に記載のテキスト読み上げシステム。
- 入力手段において複数行を有するテキストデータを入力する工程と、
入力された前記テキストデータに関する読み上げデータを生成する工程と、
前記読み上げデータを用いて音声出力する工程とを含むテキスト読み上げ方法であって、
前記読み上げデータを生成する工程が、
入力された前記テキストデータを解析して、データ種別を判別する工程と、
判別された前記データ種別ごとに、入力された前記テキストデータにおける画面上での行方向及び列方向における相対的な位置に関する情報を生成し、生成された位置に関する情報に基づいて、前記データ種別を判別する工程で判別されたデータ種別を表すコードをm×nのマトリックスデータとして記憶手段に保存する工程と、
前記記憶手段に保存されているマトリックスデータにおいて、行方向又は列方向に音声出力の対象となる同一のデータ種別を表すコードが連続している部分の位置に関する情報を検出する工程と、
前記位置に関する情報を検出する工程により検出された位置に関する情報に基づいて、前記入力手段において入力された前記テキストデータを音声出力可能なデータ形式を有する前記読み上げデータへと変換する工程を含むことを特徴とするテキスト読み上げ方法。 - 複数行を有するテキストデータを入力するステップと、
入力された前記テキストデータに関する読み上げデータを生成するステップと、
前記読み上げデータを用いて音声出力するステップとを含むテキスト読み上げ方法を具現化する、少なくとも入力手段、記憶手段、演算手段、出力手段を含むコンピュータで実行可能なプログラムであって、
前記読み上げデータを生成するステップが、
前記入力手段において入力された前記テキストデータを解析して、データ種別を判別するステップと、
判別された前記データ種別ごとに、入力された前記テキストデータにおける画面上での行方向及び列方向における相対的な位置に関する情報を生成し、生成された位置に関する情報に基づいて、前記データ種別を判別するステップで判別されたデータ種別を表すコードをm×nのマトリックスデータとして記憶手段に保存するステップと、
前記記憶手段に保存されているマトリックスデータにおいて、行方向又は列方向に音声出力の対象となる同一のデータ種別を表すコードが連続している部分の位置に関する情報を検出するステップと、
前記位置に関する情報を検出するステップにより検出された位置に関する情報に基づいて、前記入力手段において入力された前記テキストデータを音声出力可能なデータ形式を有する前記読み上げデータへと変換するステップを含むことを特徴とする前記コンピュータで実行可能なプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002368651A JP4036741B2 (ja) | 2002-12-19 | 2002-12-19 | テキスト読み上げシステム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002368651A JP4036741B2 (ja) | 2002-12-19 | 2002-12-19 | テキスト読み上げシステム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004198830A JP2004198830A (ja) | 2004-07-15 |
JP4036741B2 true JP4036741B2 (ja) | 2008-01-23 |
Family
ID=32765165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002368651A Expired - Fee Related JP4036741B2 (ja) | 2002-12-19 | 2002-12-19 | テキスト読み上げシステム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4036741B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9128486B2 (en) | 2002-01-24 | 2015-09-08 | Irobot Corporation | Navigational control system for a robotic device |
JP4930584B2 (ja) * | 2007-03-20 | 2012-05-16 | 富士通株式会社 | 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム |
-
2002
- 2002-12-19 JP JP2002368651A patent/JP4036741B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004198830A (ja) | 2004-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100523892B1 (ko) | 디지털 펜을 사용하여 상용 악보 표기(cmn)를 기록하기위한 방법 및 시스템 | |
JP5257330B2 (ja) | 発言記録装置、発言記録方法、プログラム及び記録媒体 | |
US7793233B1 (en) | System and method for customizing note flags | |
US6199042B1 (en) | Reading system | |
EP1345394B1 (en) | Voice message processing system and method | |
US11657725B2 (en) | E-reader interface system with audio and highlighting synchronization for digital books | |
US20060194181A1 (en) | Method and apparatus for electronic books with enhanced educational features | |
US20060129387A1 (en) | Method and apparatus for processing the output of a speech recognition engine | |
JP4036741B2 (ja) | テキスト読み上げシステム及び方法 | |
JP2001216311A (ja) | イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置 | |
JP3094896B2 (ja) | 文章読み上げ方式 | |
JP4311710B2 (ja) | 音声合成制御装置 | |
US6456274B1 (en) | Multi-media editing system for edting at least two types of information | |
JP2003233825A (ja) | 文書処理装置 | |
JPH0883092A (ja) | 情報入力装置及び情報入力方法 | |
JP2020197957A (ja) | 発想支援装置、発想支援システム及びプログラム | |
JP3958908B2 (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 | |
JP4407510B2 (ja) | 音声合成装置及び音声合成プログラム | |
KR102403077B1 (ko) | 영어 문장 학습을 위한 이미지 구조화 시스템 | |
JP2001052013A (ja) | 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体 | |
JPS6160167A (ja) | 日本語ワ−ドプロセツサ | |
JPH09146934A (ja) | 仮名漢字変換装置 | |
JP2004013850A (ja) | ユーザ固有の表意文字に対応したテキスト表示/読上げ装置及び方法 | |
JP3949245B2 (ja) | 文字処理装置および文節位置変更方法 | |
JPH11272662A (ja) | 音声情報処理装置及び方法並びにその制御プログラムを記憶した媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071030 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101109 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121109 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131109 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |