JP2013174958A - テキスト読み上げ装置およびテキスト読み上げ方法 - Google Patents

テキスト読み上げ装置およびテキスト読み上げ方法 Download PDF

Info

Publication number
JP2013174958A
JP2013174958A JP2012037801A JP2012037801A JP2013174958A JP 2013174958 A JP2013174958 A JP 2013174958A JP 2012037801 A JP2012037801 A JP 2012037801A JP 2012037801 A JP2012037801 A JP 2012037801A JP 2013174958 A JP2013174958 A JP 2013174958A
Authority
JP
Japan
Prior art keywords
text
character
speech synthesis
speech
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012037801A
Other languages
English (en)
Inventor
Michio Aizawa
道雄 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2012037801A priority Critical patent/JP2013174958A/ja
Publication of JP2013174958A publication Critical patent/JP2013174958A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】表示されたテキストを音声合成エンジンを用いて読み上げる際に、読み上げ音声とユーザが予測した読みが異なると、読み上げ音声が聞き取りにくくなってしまう。この聞き取りにくさを軽減する。
【解決手段】設定されたUI言語をユーザの母国語であるとし、これが音声合成エンジンの主言語と同じでなければ、ユーザを非母国語話者と判定する(S701,S702)。非母国語話者である場合、テキストに含まれる文字について、音声合成エンジンで読み上げ不可能な第1種類の文字であれば(S710)、該文字が目立たないように表示を変更する(S711)。また、聞き取りやすさに影響する第2種類の文字であれば(S706)、該文字が目立つように表示を変更する(S707)。
【選択図】 図7

Description

本発明は、音声合成エンジンを用いてテキストを音声で読み上げるテキスト読み上げ装置およびテキスト読み上げ方法に関する。
近年の電子辞書は音声合成エンジンを搭載し、コンテンツに含まれるテキストを音声で読み上げる機能を有する。この読み上げ機能は、外国語(以下、非母国語)の学習に利用されることも多く、例えば、英語のリスニング練習に利用される。また例えば、読み方が分からない外国語(ハングル文字等)の読みを確認するために利用される。
一般に、日頃から母国語を用いて生活しているユーザにとって、非母国語の読み上げ音声は、母国語の場合に比べて聞き取りにくい。これに対し、非母国語の音声合成エンジンを用いる場合、その読み上げ速度を母国語の場合よりも遅くすることで、聞き取りにくさの軽減をはかる技術が開示されている(例えば、特許文献1参照)。
特開2005-31150号公報
非母国語の音声合成エンジンを用いた読み上げは、以下の場合に非常に聞き取りにくくなる。まず、音声合成エンジンが読み上げ不可能な文字がテキストに含まれる場合。また、記号がテキストに含まれる場合。また、音声合成エンジンが英単語をアルファベット読みする場合、である。
このような場合における読み上げの聞き取りにくさは、以下の理由による。すなわち、一般にユーザはテキストに含まれる文字や単語の読みを予測しながら、読み上げ音声を聞く。ところが上記のような場合には、読みを予測できなかったり、予測した読みと読み上げ音声とが大きく異なったりすることがあるため、ユーザによって聞き取りにくくなる。
上記特許文献1に記載された技術のように、読み上げ速度を遅くするだけでは、この聞き取りにくさを軽減することは難しい。また、例えば外国語の読み上げ速度を遅くすることは、その外国語の学習を目的とするユーザとっては必ずしも歓迎されず、学習効果を考慮すれば、自然な速度の読み上げが望ましいと考えられる。
本発明は上述した問題を解決するためになされたものであり、表示されたテキストを音声合成エンジンを用いて読み上げるテキスト読み上げ装置において、以下の機能を実現することを目的とする。すなわち、表示されたテキストに対し、読み上げ音声と、ユーザが予測した読みとが異なることに起因する聞き取りにくさを軽減する。
上記目的を達成するための一手段として、本発明のテキスト読み上げ装置は以下の構成を備える。
すなわち、テキストを表示する表示手段と、音声合成エンジンを用いて前記テキストを読み上げる読み上げ手段と、前記テキストに含まれる文字ごとの特性を示す特性情報を保持する保持手段と、母国語とする言語を設定する設定手段と、前記音声合成エンジンが処理可能とする主言語が、前記母国語と同じであるか否かを判定する判定手段と、前記判定手段において前記主言語が前記母国語と同じでないと判定された場合に、前記テキストに含まれる文字ごとに、前記特性情報に応じて前記表示手段における表示方法を制御する表示制御手段と、を有し、前記読み上げ手段は、前記表示制御手段で前記テキストに対する表示制御が行われた後に、該テキストを読み上げることを特徴とする。
本発明によれば、表示されたテキストを音声合成エンジンを用いて読み上げる際に、読み上げ音声と、ユーザが予測した読みとが異なることに起因する聞き取りにくさを軽減することができる。
第1実施形態におけるテキスト読み上げ装置の構成を示すブロック図、 本装置の機能構成を示すブロック図、 音声合成エンジンのプロパティ表の具体例を示す図、 音声合成エンジンの読み上げ可能文字表の具体例を示す図、 本実施形態における各種設定画面例を示す図、 読み上げテキストの表示例を示す図、 テキスト読み上げ処理を示すフローチャート、 非母国語話者の判定処理を示すフローチャート、 文字分類処理を示すフローチャート、である。
以下、本発明に係る実施形態について、図面を参照して説明する。なお、以下の実施の形態は特許請求の範囲に関る本発明を限定するものではなく、また、本実施の形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
<第1実施形態>
●装置構成
本実施形態では、本発明のテキスト読み上げ装置によって電子辞書機能を実現した例を示す。図1(a)は、本実施形態にかかるテキスト読み上げ装置のハードウェア構成を示すブロック図である。同図において101はCPU(中央処理装置)であり、システム制御部として本装置全体の動作を制御する。102はRAMであり、CPU101のワークエリアを提供する。103はROMであり、辞書コンテンツや、後述するテキスト読み上げ処理を行うプログラムを格納する。104は入力部であり、辞書コンテンツの中からユーザが所望する情報を検索するための検索キーを入力する際に用いられる。また、テキスト読み上げ装置に対する各種設定を行う際に用いられる。105は表示部であり、入力された検索キーに対する検索結果を表示する。また、テキスト読み上げ装置に対する各種設定用の画面を表示する。106は音声出力部であり、音声合成エンジンが辞書コンテンツを読み上げた音声を出力する。
なお、入力部104の具体例としてはタッチパネルやキーボードが考えられるが、本実施形態では入力部104をキーボードであるとし、少なくとも以下のキーを有するとする。まず、メニュー画面の表示指示を入力するメニューキーを備える。また、表示部105上に表示されたカーソルに対する上下左右の移動指示を入力する、上、下、左、右、それぞれのカーソルキーを有する。さらに、表示部105の表示画面上での領域を指定する範囲指定キー、指示入力を決定するOKキー、音声出力部106による音声出力指示を入力する読み上げキーを有する。
図2は、本実施形態にかかるテキスト読み上げ装置の機能構成を示す図である。以下、図2に示す各機能構成について、詳細に説明する。
●辞書コンテンツ
本実施形態のテキスト読み上げ装置においては、辞書コンテンツ保持部209に複数のコンテンツを保持する。コンテンツとしては、英和辞典、和英辞典、英々辞典、韓日辞典、日韓事典、中日辞典、日中辞典、英中辞典、等の辞書コンテンツを保持することができる。さらに、英文法、韓国語文法、中国語文法、旅行会話などの語学書のコンテンツや、歴史、地理、物理、化学などの学習書のコンテンツを保持することも可能である。本実施形態では、日本語、韓国語、中国語、英語の4言語のテキストがコンテンツに含まれるとし、これら多言語のテキストを音声出力部106による読み上げ対象とする。
●辞書コンテンツ検索部
辞書コンテンツ検索部201は、辞書コンテンツ保持部209が保持する複数のコンテンツの中からユーザが所望する情報を検索し、該検察結果を表示部105に表示する。例えばユーザが、入力部104により検索キーとして「school」を入力したとする。すると辞書コンテンツ検索部201は、「school」の和訳や、「school」を用いた例文などを、辞書コンテンツ保持部209に保持されたコンテンツから検索して表示部105に表示する。この場合、検索対象のコンテンツとしては、辞書コンテンツ保持部209に保持された全てのコンテンツとしても良いし、例えば英和辞典に限定する等、ユーザが予め指定しても良い。
●音声合成エンジン
本実施形態のテキスト読み上げ装置においては多言語のテキストを読み上げるために、複数の音声合成エンジンを有する。図2では4つの音声合成エンジン210〜213を有する例を示す。これらの音声合成エンジン210〜213の機能は、音声合成エンジンのプロパティ表214と読み上げ可能文字表215で管理される。プロパティ表214は、「主言語」、「アルファベット文字列の読み方」、「選択中」、の3つのプロパティを管理し、音声合成エンジンごとに異なるプロパティを有する。
ここで図3に、プロパティ表214の具体例を示す。プロパティ表214は、音声合成エンジン210〜213のそれぞれに対するプロパティを保持する。図3において「主言語」は、音声合成エンジン210〜213のそれぞれにおいて処理を可能とする、すなわち音声出力可能な言語である。一般に音声合成エンジンは、まず入力されたテキストから、読みとイントネーションの情報を生成し(言語処理)、該読みとイントネーションの情報から音声波形を生成する(音響処理)。この言語処理と音響処理はいずれも言語依存が大きいため、1つの音声合成エンジンは通常、1言語にしか対応できない。図3に示す例では、音声合成エンジン210が日本語に対応し、音声合成エンジン211が韓国語、音声合成エンジン212が中国語、音声合成エンジン213が英語に対応する。以下、日本語に対応する音声合成エンジン210を、日本語音声合成エンジンと称する。同様に、音声合成エンジン211〜213をそれぞれ、韓国語音声合成エンジン、中国語音声合成エンジン、英語音性合成エンジン、と称する。なお、テキスト読み上げ装置が複数の言語を処理可能な音声合成エンジンを備えていた場合には、プロパティ表214の「主言語」において複数の言語を示す設定値が保持される。例えば、中国語と英語のバイリンガルの音声合成エンジンの場合、「主言語」の値は「中国語、英語」となり、このような音声合成エンジンを中英バイリンガル音声合成エンジンと称する。
また、図3において「アルファベット文字列の読み方」は、それぞれの音声合成エンジンに対するアルファベット文字列(英単語)の読み方のモードを示す。具体的には、「英単語読み」と「アルファベット読み」のいずれかのモードが設定される。
「英単語読み」は、英単語を単語として読むモードであり、例えば、「school」を「スクール」と読む。日本語音声合成エンジンの場合は、英単語の発音をカタカナで近似する。また韓国語音声合成エンジンはハングルで近似し、中国語音声合成エンジンはピンイン(pinyin)で近似する。なお、英語音声合成エンジンでは「英単語読み」である。
一方、「アルファベット読み」は、アルファベット文字列を1文字ずつ区切ってアルファベットとして読むモードであり、例えば、「school」を「エス、シー、エッチ、オー、オー、エル」と読む。「英単語読み」と同様、それぞれの音声合成エンジンにおいてカタカナ、ハングル、ピンインを用いて発音を近似する。
日本語、韓国語、中国語のテキストでは、テキスト中に英単語が挿入されることが多いため、基本的には「英単語読み」が望ましい。しかしながら「英単語読み」を実現するには英単語辞書などを別途用意する必要があるため、コスト的な面から「アルファベット読み」を採用することも多い。図3に示す例では、音声合成エンジン210と213が「英単語読み」、211と212が「アルファベット読み」である。
また、図3において「選択中」は、それぞれの音声合成エンジンが選択中であるか否かを示す。同時に選択可能な音声合成エンジンの数は0または1である。0とはすなわち、音声合成の機能がOFFである場合を示す。この選択は、音声合成エンジン選択部203によって行われる。図3の例では、音声合成エンジン213が選択中である旨を示す。
また、読み上げ可能文字表215は、表示部105においてテキストとして表示可能な全ての文字のうち、それぞれの音声合成エンジンが読み上げ可能な文字を示す表である。ここで図4に、読み上げ可能文字表215の具体例を示す。図4に示すように本実施形態では、「文字コード」を用いて文字を区別する。「文字コード」は、16進で0000〜FFFFの66536個の値をとる。すなわち本実施形態では、65536種類の文字を処理対象とする。また「字形」は、当該文字を表示部105に表示する際の具体的な形を示すが、表示不可能な文字については「None」を設定する。「文字種」は、以下の11種類の文字種のいずれかを示す。文字種情報はすなわち、半角記号、全角記号、半角数字、全角数字、半角アルファベット、全角アルファベット、ひらがな、カタカナ、漢字、ハングル、その他、のいずれかを示す。本実施形態で処理される文字は、これら11種類の文字種のいずれかに属する。
読み上げ可能文字表215では、文字ごとに、音声合成エンジンを用いた読み上げが可能であるか否か、すなわち音声合成エンジンによる音声合成処理が可能であるか否かを示す対応可否情報を有する。対応可否情報は音声合成エンジンごとに「○」か「×」で示され、「○」が音声合成可能、「×」が音声合成不可能を示す。対応可能な文字は音声合成エンジンごとに異なり、例えば、「文字コード」が「002F」の文字は全ての音声合成エンジン210〜213で音声合成可能であるが、「FF5E」の文字は音声合成エンジン210のみで音声合成可能である。
このように読み上げ可能文字表215は、テキストとして表示可能な全ての文字について、それぞれの属性を示す属性情報(対応可否情報と文字種情報)を保持しており、後述する文字分類処理の際に参照される。
●UI言語選択部・音声合成エンジン選択部
ユーザが入力部104であるキーボードからメニューキーを押下すると、表示部105にメニュー画面が表示される。ここで図5(a)に、メニュー画面の例を示す。このメニュー画面を操作していくことで、ユーザが各種の設定を変更することができる。なお、表示部105におけるメッセージ表示等、ユーザインタフェース(UI)画面に表示される言語については、UI言語選択部202によって以下のように設定される。まず図5(a)に示すメニュー画面において、ユーザが上下のカーソルキーを用いて「2.環境設定」の項目を選択する。この状態でユーザが不図示のOKキーを押下すると、図5(b)に示す環境設定画面が表示部105に表示される。環境設定画面において、ユーザが上下のカーソルキーを用いて「言語」の項目を選択した上で、さらに左右のカーソルキーを用いてUI言語を選択する。本実施形態で選択可能な言語は日本語/韓国語/中国語/英語であり、図5(b)の例ではUI言語として「日本語」を選択した状態を示す。ここで「韓国語」を選択すると、環境設定画面は図5(c)のように韓国語で表示される。このようにUI言語を選択可能とすることで、日本語を母国語とするユーザが日本語のUIを選び、韓国語を母国語とするユーザが韓国語のUIを選ぶ等、ユーザに応じたUIを提供することができる。
図5(a)に示すメニュー画面から、読み上げ部208がテキストの読み上げに用いる音声合成エンジンを選択することができる。この選択は、音声合成エンジン選択部203によって以下のように制御される。まずメニュー画面において、ユーザが上下のカーソルキーを用いて「3.音声合成エンジンの設定」の項目を選択する。この状態でユーザがOKキーを押下すると、図5(d)に示す音声合成エンジンの設定画面が表示部105に表示される。音声合成エンジンの設定画面において、ユーザが上下左右のカーソルキーを用いて、音声合成エンジンの言語を選択する。ここで選択可能な言語は装置内に備える音声合成エンジンに依存し、本実施形態では上述したように、日本語/韓国語/中国語/英語が選択対象となる。音声合成エンジンとして選択可能な言語群は、UI言語として選択可能な言語群と一致することが望ましい。図5(d)に示すように、音声合成エンジンとして「韓国語」が選択された場合、すなわち韓国語用の音声合成エンジン211が選択中となる。このとき、図3に示す音声合成エンジンのプロパティ表214における「選択中」の項目について、音声合成エンジン211には「○」を設定し、その他の音声合成エンジンには「×」を設定する。なお、図5(d)に示す音声合成エンジンの設定画面において、「OFF」が選択されると、読み上げ部208によるテキスト読み上げの機能を無効化する。すなわち、図3に示す音声合成エンジンのプロパティ表214における「選択中」の項目を、全ての音声合成エンジンについて「×」を設定する。
●読み上げテキスト指定部
読み上げテキスト指定部204は、表示部105に表示された情報の中から、読み上げ部208へ入力される読み上げテキストを、以下のように指定する。まず、辞書コンテンツ検索部201が検索結果を表示部105に表示した後、ユーザが入力部104において範囲指定キーを押下する。すると、表示部105の表示画面上にカーソルが表示されるため、ユーザは上下左右のカーソルキーを用いて、カーソルを所望の位置に移動する。そして再度、範囲指定キーを押下すると、図6(a)に示すように現在のカーソルの位置601が読み上げテキストの先頭になる。次に、ユーザは左右のカーソルキーを用いてカーソルを所望の位置に移動し、範囲指定キーを押下する。これにより図6(b)に示すように、先に指定した読み上げテキストの先頭(601)から現在のカーソルの位置602までの範囲が、読み上げテキスト603として指定される。このように指定された読み上げテキスト603には、識別を容易にするために下線が付される。
●非母国語話者判定部
非母国語話者判定部205は、選択中の音声合成エンジンの主言語がユーザにとって母国語であるか否かを、以下のように判定する。まず、選択中の音声合成エンジンの主言語を、音声合成エンジンのプロパティ表214から取得する。図3に示す例では、まず「選択中」の項目を調べることで、現在、音声合成エンジン213が選択中であることが分かる。次に、音声合成エンジン213の「主言語」項目を調べることで、その主言語が「英語」であることが分かる。ここで、ユーザの母国語は、UI言語選択部202において選択されたUI言語に一致することが想定される。例えばUI言語として「日本語」が選択されている場合には、ユーザの母国語は「日本語」であると推定される。そこで非母国語話者判定部205においては、プロパティ表214から取得した、現在選択中である音声合成エンジンの「主言語」と、UI言語から推定したユーザの母国語が等しい場合、ユーザが母国語話者であると判定する。逆に、音声合成エンジンの「主言語」と、推定したユーザの母国語が異なる場合には、ユーザが非母国語話者であると判定する。
●文字分類部
文字分類部206は、読み上げテキスト指定部204で指定された読み上げテキストに含まれる各文字を、以下の3種類に分類する。まず第1種類は、選択中の音声合成エンジンで処理不可能な、すなわち読み上げ不可能な文字である。第2種類は、音声合成エンジンでの読み上げ時に、聞き取りやすさに影響する文字である。そして第3種類は、聞き取りやすさに特に影響しない文字である。本実施形態では、読み上げ不可能な第1種類の文字については、より目立たないように表示を変更することでユーザの注目を逸らす。逆に、聞き取りやすさに影響する第2種類の文字については、より目立つように強調表示することで、ユーザの注目を促す。
文字分類部206ではまず、読み上げテキストに含まれる各文字について、読み上げの可否を判定する。具体的には、文字コードと、選択中の音声合成エンジンをキーとして、読み上げ可能文字表215を参照する。ここで、韓国語の音声合成エンジン211が選択中である場合に、図4に示す読み上げ可能文字表215において文字コード「002F」を参照すると、この文字は音声合成エンジン211で読み上げ可能であると判定される。同様に、文字コード「FF5E」の文字については、読み上げ不可能であると判定される。このように、読み上げ不可能と判定される文字を、上記第1種類の読み上げ不可能な文字に分類する。
次に、第1種類に分類されなかった文字について、読み上げ時に聞き取りやすさに影響する第2種類の文字であるか否かを判定する。具体的には、読み上げ可能文字表215から、それぞれの文字の「文字種」を取得する。なお「文字種」において、「半角記号」または「全角記号」については、これらをまとめて「記号」として扱う。また、「半角アルファベット」または「全角アルファベット」については、これらをまとめて「アルファベット」として扱う。
「文字種」が「記号」である場合、その文字は聞き取りやすさに影響する文字として第2種類に分類する。つまり、選択中の音声合成エンジンで読み上げ可能であり、「文字種」が「記号」である文字を、第2種類に分類する。
「文字種」が「アルファベット」である場合には、以下のような処理を行う。すなわち、音声合成エンジンのプロパティ表214から、現在「選択中」である音声合成エンジンについての、「アルファベット文字の読み方」を取得する。そして、これが「アルファベット読み」であれば、その文字を聞き取りやすさに影響する文字として第2種類に分類する。つまり、選択中の音声合成エンジンが「アルファベット読み」を行う場合に、該音声合成エンジンで読み上げ可能であり、「文字種」が「アルファベット」である文字を、第2種類に分類する。
そして、以上の処理によって第1種類、第2種類のいずれにも分類されなかった文字を、聞き取りやすさに影響しない文字として第3種類に分類する。例えば、選択中の音声合成エンジンが「英単語読み」を行う場合に、読み上げテキストに含まれる「文字種」が「アルファベット」である文字が第3種類に分類される。また、「文字種」が「記号」と「アルファベット」以外で、選択中の音声合成エンジンで読み上げ可能である文字が第3種類に分類される。
●表示制御部
表示制御部207は、文字分類部206による読み上げテキストの各文字の分類結果に応じて、表示部105における読み上げテキストの表示を変更する。この表示制御の具体例について、図6を用いて説明する。なお、ここでは韓国語の音声合成エンジン211が選択中であるとする。
まず、第1種類に分類された読み上げ不可能な文字については、ユーザの注目を逸らすために、表示画面上でより目立たなくなるように表示を変更する。例えば、その文字の色を該テキスト内の背景の色と同色に変更する。このように背景色への変更を行った場合、ユーザが当該文字をはっきりと識別することはできなくなるが、その表示箇所に何か文字が存在するであろう程度には識別できる。図6(c)は、読み上げテキスト指定部204により、先頭に文字コード「FF5E」の文字605を含む読み上げテキスト604が指定された状態を示す。この場合、図4に示す読み上げ可能文字表215から、選択中の音声合成エンジン211では文字605が読み上げ不可能であることが分かる。したがって文字605は、文字分類部206で読み上げ不可能な文字として第1種類に分類され、表示制御部207は、図6(d)に示すように、文字605の表示を背景と同色(白色)にする。
このように、読み上げ不可能な文字についてはより目立たないように表示することで、以下のような効果が得られる。一般に、読み上げ不可能な文字が通常通りに表示されていると、ユーザは音声合成エンジンがその文字を読み上げることを予測する。ところが音声合成エンジンではその文字については読み上げ不可能であるため、これをスキップして次の文字を読み上げることになる。このような読み上げはユーザの予測と異なるため、ユーザは読み上げ音声が聞き取りにくくなる。本実施形態では、読み上げ不可能な文字については目立たないように表示を変更することで、ユーザがその文字に注目せず、読み上げの予測を行わないため、聞き取りにくさが軽減される。
一方、第2種類に分類された、聞き取りやすさに影響する文字については、ユーザの注目を促すために、表示画面上でより目立つように表示を変更する。例えば、その文字について反転表示を行う。
図6(e)は、読み上げテキスト指定部204により、文字コード「002F」の、「記号」である文字607を含む読み上げテキスト606が指定された状態を示す。この場合、図4に示す読み上げ可能文字表215から、選択中の音声合成エンジン211が文字607を読み上げ可能であることが分かる。また、文字607の「文字種」は「記号」であるから、聞き取りやすさに影響する文字として第2種類に分類され、表示制御部207は図6(f)に示すように、文字607を反転表示する。
このように、第2種類の文字(記号)についてより目立つように強調表示することで、以下のような効果が得られる。すなわち、ユーザは記号についてはその読み方を意識しないことが多いため、その読みを事前に予測することはほぼない。このように予測していなかった読みが音声出力されると、ユーザはその読み上げ音声が聞き取りにくくなる。そこで本実施形態では、聞き取りやすさに影響する「記号」文字について、より注目されるように表示を変更することで、ユーザはその文字に事前に注意を向けるようになり、聞き取りにくさが軽減される。
また図6(g)は、読み上げテキスト指定部204により、全て半角アルファベットである文字群609を含む読み上げテキスト608が指定された状態を示す。この文字群609は、選択中の音声合成エンジン211で全て読み上げ可能である。なお、図4に示す読み上げ可能文字表215では、これらの文字群609に対する設定値を省略している。このとき、図3に示すプロパティ表214から、選択中の音声合成エンジン211が「アルファベット読み」であるため、文字群609は、文字分類部206で聞き取りやすさに影響する文字として第2種類に分類される。この場合、表示制御部207は図6(h)に示すように、文字群609を目立たせるため反転表示する。
このように、第2種類の文字(アルファベット)についてより目立つように強調表示することで、以下のような効果が得られる。すなわち、ユーザは英単語等のアルファベット文字列については、英単語読みで読み上げられると予測するが、音声合成エンジン211はアルファベット読みを行う。したがって、ユーザが予測していなかった読みが音声出力され、そもそもアルファベット読み自体が聞き取りにくい読み方であることに加えて、より聞き取りにくいものとなる。そこで本実施形態では、聞き取りやすさに影響する「アルファベット」文字について、より注目されるように表示を変更することで、ユーザはその文字に事前に注意を向けるようになり、聞き取りにくさが軽減される。
なお、第3種類に分類された聞き取りやすさに影響しない文字については、特に表示の変更は行わない。
●読み上げ部
読み上げ部208は、読み上げテキスト指定部204で指定された読み上げテキストを、選択中の音声合成エンジンを用いて読み上げる。まず、選択中の音声合成エンジンに読み上げテキストを送り、該エンジンで生成された音声波形を取得する。次に、取得した音声波形をD/A変換し、音声出力部106のスピーカーから出力する。
●テキスト読み上げ処理
以下、本実施形態におけるテキスト読み上げ処理について、図7のフローチャートを用いて説明する。なお図7に示すテキスト読み上げ処理は、読み上げテキスト指定部204で読み上げテキストが指定された後に、ユーザが読み上げキーを押下することで開始される。
まずS701で、ユーザが非母国語話者であるか否かの判定処理を行うが、その詳細については後述する。
S702では、S701の判定結果に応じて処理を分岐する。すなわち、ユーザが非母国語話者であれば、テキスト表示の変更制御を行うためにS703へ進むが、ユーザが母国語話者であればテキスト表示を変更することなくS712へ進む。このように本実施形態では、非母国語話者に対してテキスト表示の変更制御を行う。これは、本実施形態で課題とする、音声合成エンジンによる読み上げ音声がユーザの予測と異なることに起因する聞き取りにくさの度合いが、母国語の読み上げ音声の場合には問題にならない程度に小さいと考えられるためである。
S703〜S709では、テキスト表示の変更制御を行う。まずS703で、指定された読み上げテキストを取得し、S704で該読み上げテキストの先頭の文字を処理対象の文字(以下、ターゲット文字)として設定する。
S705では、ターゲット文字を、読み上げ不可能な第1種類、聞き取りやすさに影響する第2種類、聞き取りやすさに影響しない第3種類のいずれかに分類する。この分類処理の詳細については後述する。
次にS706で、ターゲット文字が聞き取りやすさに影響する第2種類に分類されたか否かを判定する。第2種類に分類された場合はS707へ進み、ユーザに注目されるよう、ターゲット文字を反転表示する。一方、S706で第2種類に分類されない場合はS710へ進み、ターゲット文字が読み上げ不可能な第1種類に分類されたか否かを判定する。第1種類に分類された場合はS711へ進み、ユーザから注目されないよう、ターゲット文字の色を背景色に変更する。一方、S710で第1種類に分類されない場合、すなわち第3種類に分類される文字については、表示の変更を行わずにS708へ進む。
S708では、ターゲット文字が読み上げテキストの最後の文字であるか否かを判定する。ターゲット文字が最後の文字でなく、すなわち読み上げ対象として処理すべき文字がまだ残っている場合にはS709へ進む。S709では、現在のターゲット文字の次の文字を、新たなターゲット文字に設定する。例えば、読み上げテキストの先頭から数えてN番目の文字がターゲット文字であれば、N+1番目の文字を新たなターゲット文字とする。
一方、S708でターゲット文字が最後の文字であると判定されるとS712へ進み、読み上げ部208が選択中の音声合成エンジンを用いて指定された読み上げテキストを読み上げる。すなわち本実施形態では、テキスト表示の変更制御がなされた後に、当該テキストが読み上げられる。
ここで図8に、上記S701に示した非母国語話者の判定処理についてのフローチャートを示し、説明する。
まずS801で、音声合成エンジンのプロパティ表214から、選択中の音声合成エンジンの主言語を取得し、S802で、UI言語選択部202が選択したUI言語を取得する。そしてS803で、S801,S802で取得した音声合成エンジンの主言語とUI言語を比較し、これらが等しい場合はS804へ進み、本装置のユーザは、選択中の音声合成エンジンに対して母国語話者である、と判定して処理を終了する。一方、主言語とUI言語が等しくない場合はS805へ進み、本装置のユーザは、選択中の音声合成エンジンに対して非母国語話者である、と判定して処理を終了する。
なお、ユーザが非母国語話者であるか否かの判定については上記UI言語を参照する例に限らず、例えばユーザが自身の母国語を直接入力するようにしても良いことは言うでもない。
また図9に、上記S705の文字分類処理についてのフローチャートを示し、以下に説明する。
まずS901で、読み上げ可能文字表215を参照して、選択中の音声合成エンジンがターゲット文字を読み上げ可能であるか否かを判定し、読み上げ可能な場合はS902へ、読み上げ不可能な場合はS909へ進む。
S902では、読み上げ可能文字表215を参照して、ターゲット文字の「文字種」を取得し、S903で、該「文字種」が記号(「半角記号」または「全角記号」)を示すか否かを判定する。記号を示す場合はS904へ進み、そうでない場合はS905へ進む。S904では、ターゲット文字を、聞き取りやすさに影響する文字として第2種類に分類し、処理を終了する。
S905では、ターゲット文字の「文字種」がアルファベット(「半角アルファベット」または「全角アルファベット」)を示すか否かを判定する。アルファベットを示す場合はS906へ進み、そうでない場合は908へ進む。S906では、音声合成エンジンのプロパティ表214を参照し、選択中の音声合成エンジンについての「アルファベット文字列の読み方」を取得し、S907でこれが「アルファベット読み」を示すか否かを判定する。「アルファベット読み」を示す場合はS904へ進み、ターゲット文字を聞き取りやすさに影響する文字として第2種類に分類して、処理を終了する。一方、S907で「アルファベット読み」を示さない場合、つまり「英単語読み」を示す場合はS908へ進む。
S908では、ターゲット文字を、聞き取りやすさに影響しない文字として第3種類に分類し、処理を終了する。
またS909では、ターゲット文字を、読み上げ不可能な文字として第1種類に分類し、処理を終了する。
以上説明したように第1実施形態によれば、ユーザが母国語話者である場合に、音声合成エンジンの出力がユーザの予測と反するであろう箇所について注意を促すような表示を行う。これにより、音声合成エンジンが出力する読み上げ音声と、ユーザが予測した読みとが異なることに起因する聞き取りにくさを軽減することができる。
<変形例>
上述した実施形態におけるテキスト表示の変更制御を、さらに以下のように変形することも有効である。
●読み上げ不可能文字率による制御
第1実施形態においては、テキスト表示の変更制御を行うのは、ユーザが非母国語話者の場合に限定し、ユーザが母国語話者である場合には、表示を変更せずに読み上げを行う例を示した。これは、母国語による読み上げの場合は、たとえ予測と異なる音声が出力されても、ユーザにとって聞き取りにくさへの影響が小さいと考えられるためである。
ここで、日本語の音声合成エンジン210が選択されており、読み上げテキストとして図6(a)に表示されている全てのテキストが指定された場合について考える。この場合、音声合成エンジン210にとって、指定された読み上げテキストの約半分が読み上げ不可能な文字である。このような場合には、ユーザの母国語が日本語である、すなわち母国語話者であっても、読み上げ音声が聞き取りにくくなる。
このような場合に対応するため、指定されたテキストに読み上げ不可能な文字が所定の割合以上含まれる場合に限って、テキスト表示を変更するようにしても良い。これより、ユーザが母国語話者であっても、読み上げ不可能な文字が読み上げテキストに大量に含まれた場合の聞き取りにくさを軽減するという効果が得られる。
●読み上げテキスト長の制限
本発明のテキスト読み上げ装置を、例えば日本語を母国語とする話者が、韓国語(以下、ハングル)の読みを確認するために利用することも考えられる。ここで、読み上げテキストとして所望のハングル1文字が指定された場合を考える。このとき、誤って英語の音声合成エンジン213が選択されていると、指定されたハングル文字は読み上げ不可能な文字であるから、より目立たないように表示される。すると、読み上げテキストはそのハングル1文字からなるため、読み上げテキスト全体が識別しにくく表示される。ユーザにとっては、指定した読み上げテキストが意に反して見えなくなるため、また別の混乱を招いてしまう。
このような場合に対応するため、指定された読み上げテキストが例えば2文字以上の複数文字を含む場合に限り、テキスト表示を変更するようにしても良い。これにより、読み上げテキストが1文字である場合には表示が変更されず、読み上げテキスト全体が識別しにくくなることを回避することができる。
●強調表示
第1実施形態では、読み上げテキストに下線を付し、読み上げ不可能な第1種類の文字を背景と同色とし、聞き取りやすさに影響する第2種類の文字を反転表示する例を示した。しかしながら、表示の変更方法はこの例に限らないことはもちろんである。例えば、指定された読み上げテキストを反転表示しても良い。その場合、例えば通常表示において背景が白、文字が灰色であるとすると、反転によって背景が灰色、文字が白色の表示となる。このとき、第2種類の文字については、より目立つように例えば赤色とし、その背景は灰色のままとする。そして、読み上げ不可能な第1種類の文字については、背景と同じ灰色とする。なお、聞き取りやすさに影響しない第3種類の文字については表示の変更は行わずに反転表示のまま、つまり背景が灰色、文字が白色の表示とする。
<他の実施形態>
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のプロセッサやコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (12)

  1. テキストを表示する表示手段と、
    音声合成エンジンを用いて前記テキストを読み上げる読み上げ手段と、
    文字ごとの属性を示す属性情報を保持する保持手段と、
    母国語とする言語を設定する設定手段と、
    前記音声合成エンジンが処理可能とする主言語が、前記母国語と同じであるか否かを判定する判定手段と、
    前記判定手段において前記主言語が前記母国語と同じでないと判定された場合に、前記テキストに含まれる文字ごとに、前記属性情報に応じて前記表示手段における文字の表示方法を制御する表示制御手段と、
    を有することを特徴とするテキスト読み上げ装置。
  2. 前記読み上げ手段は、前記表示制御手段で前記テキストに対する表示制御が行われた後に、該テキストを読み上げることを特徴とする請求項1に記載のテキスト読み上げ装置。
  3. さらに、前記テキストに含まれる文字を、前記属性情報に応じて、前記音声合成エンジンで処理不可能な第1種類、強調表示すべき第2種類、および前記第1種類および前記第2種類のいずれでもない第3種類、のいずれかに分類する分類手段を有し、
    前記表示制御手段は、前記テキストに含まれる文字ごとに、前記第1種類であれば該文字が目立たなくなるように表示を変更し、前記第2種類であれば該文字が目立つように表示を変更し、前記第3種類であれば表示を変更しないことを特徴とする請求項1または2に記載のテキスト読み上げ装置。
  4. 前記属性情報は、当該文字が前記音声合成エンジンによる音声合成が可能であるか否かを示す対応可否情報と、当該該文字の種類を示す文字種情報を含むことを特徴とする請求項3に記載のテキスト読み上げ装置。
  5. 前記分類手段は、
    前記対応可否情報が前記音声合成エンジンによる音声合成不可を示す文字を前記第1種類に分類し、
    前記対応可否情報が前記音声合成エンジンによる音声合成可を示し、かつ前記文字種情報が記号を示す文字を前記第2種類に分類する
    ことを特徴とする請求項4に記載のテキスト読み上げ装置。
  6. 前記分類手段はさらに、前記対応可否情報が前記音声合成エンジンによる音声合成可を示し、かつ前記音声合成エンジンにおけるアルファベットの読み方が文字列を1文字ずつ区切って読み上げるモードであり、かつ前記文字種情報がアルファベットを示す場合に、該文字を前記第2種類に分類する
    ことを特徴とする請求項5に記載のテキスト読み上げ装置。
  7. 前記設定手段は、当該テキスト読み上げ装置のユーザインタフェースに用いられる言語を、前記母国語として設定することを特徴とする請求項1乃至6のいずれか1項に記載のテキスト読み上げ装置。
  8. さらに、前記音声合成エンジンを、互いに異なる言語に対応する複数の音声合成エンジンから選択する選択手段を有することを特徴とする、請求項1乃至7のいずれか1項に記載のテキスト読み上げ装置。
  9. さらに、前記テキストにおいて読み上げ対象となる範囲を読み上げテキストとして指定する指定手段を有し、
    前記表示制御手段は、前記読み上げテキストに含まれる文字ごとに、前記表示手段における表示方法を制御することを特徴とする請求項1乃至8のいずれか1項に記載のテキスト読み上げ装置。
  10. 前記保持手段は、前記表示手段において前記テキストとして表示可能な全ての文字について、前記属性情報を保持することを特徴とする請求項9に記載のテキスト読み上げ装置。
  11. 表示手段、読み上げ手段、保持手段、設定手段、判定手段、および表示制御手段、を有し、前記表示手段に表示されたテキストを、前記読み上げ手段が音声合成エンジンを用いて読み上げるテキスト読み上げ装置におけるテキスト読み上げ方法であって、
    前記保持手段が、文字ごとの属性を示す属性情報を保持し、
    前記設定手段が、母国語とする言語を設定し、
    前記判定手段が、前記音声合成エンジンが処理可能とする主言語が、前記母国語と同じであるか否かを判定し、
    前記表示制御手段が、前記主言語が前記母国語と同じでないと判定された場合に、前記テキストに含まれる文字ごとに、前記属性情報に応じて前記表示手段における文字の表示方法を制御する
    ことを特徴とするテキスト読み上げ方法。
  12. コンピュータ装置で実行されることにより、該コンピュータ装置を請求項1乃至10のいずれか1項に記載のテキスト読み上げ装置の各手段として機能させるためのプログラム。
JP2012037801A 2012-02-23 2012-02-23 テキスト読み上げ装置およびテキスト読み上げ方法 Pending JP2013174958A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012037801A JP2013174958A (ja) 2012-02-23 2012-02-23 テキスト読み上げ装置およびテキスト読み上げ方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012037801A JP2013174958A (ja) 2012-02-23 2012-02-23 テキスト読み上げ装置およびテキスト読み上げ方法

Publications (1)

Publication Number Publication Date
JP2013174958A true JP2013174958A (ja) 2013-09-05

Family

ID=49267823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012037801A Pending JP2013174958A (ja) 2012-02-23 2012-02-23 テキスト読み上げ装置およびテキスト読み上げ方法

Country Status (1)

Country Link
JP (1) JP2013174958A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7048141B1 (ja) 2022-01-05 2022-04-05 株式会社Airobo プログラム、ファイル生成方法、情報処理装置、及び情報処理システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7048141B1 (ja) 2022-01-05 2022-04-05 株式会社Airobo プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
WO2023132140A1 (ja) * 2022-01-05 2023-07-13 株式会社アーティスソリューションズ プログラム、ファイル生成方法、情報処理装置、及び情報処理システム
JP2023100149A (ja) * 2022-01-05 2023-07-18 株式会社Airobo プログラム、ファイル生成方法、情報処理装置、及び情報処理システム

Similar Documents

Publication Publication Date Title
JP6033326B2 (ja) コンテンツベースの自動的な入力プロトコルの選択
JP2010033160A (ja) 情報処理装置および情報処理方法
US20150169537A1 (en) Using statistical language models to improve text input
JP2010033154A (ja) 情報処理装置および情報処理方法
JP2005508031A (ja) 部首に基づいた、適合化可能な画の書き順システム
US20200285324A1 (en) Character inputting device, and non-transitory computer readable recording medium storing character inputting program
TWI475405B (zh) 電子裝置及其文字輸入介面顯示方法
US9384191B2 (en) Written language learning using an enhanced input method editor (IME)
JP2011076384A (ja) 情報出力装置及び情報出力プログラム
JP2018010532A (ja) 情報処理装置、プログラム及び情報処理方法
WO2020036011A1 (ja) 情報処理装置、情報処理方法、および、プログラム
JP2013174958A (ja) テキスト読み上げ装置およびテキスト読み上げ方法
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP2017204064A (ja) 読解支援装置及びプログラム
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP5511161B2 (ja) 情報処理装置および情報処理方法
JPH0683812A (ja) 文書入力装置のかな漢字変換装置
JP2020057213A (ja) 電子辞書装置、電子辞書の検索方法及び制御プログラム
JP2015064543A (ja) テキスト読み上げ装置
JP7384196B2 (ja) 電子機器、情報処理方法及びプログラム
US11947580B2 (en) Book search apparatus, book search database generation apparatus, book search method, book search database generation method, and program
JP2018036684A (ja) コンテンツ表示装置および制御方法
KR20050036945A (ko) 키패드에서의 알파벳 입력장치 및 그 방법
JP2021168020A (ja) 音声入力装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法