JP2014021565A

JP2014021565A - 電子機器及びその制御方法

Info

Publication number: JP2014021565A
Application number: JP2012156925A
Authority: JP
Inventors: Tomonori Tanaka; 友範田中
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-07-12
Filing date: 2012-07-12
Publication date: 2014-02-03
Anticipated expiration: 2032-07-12
Also published as: US9257114B2; US20140019136A1; JP5963584B2

Abstract

【課題】視認文字位置に応じて音声出力文字位置を視認文字位置に応じるものの、その過度に反応せず、自然な音声再生を可能にする技術を提供する。
【解決手段】テキストを表示画面に表示するための表示部、テキストを音声として出力する音声出力部、更には、ユーザの視線方向を検出する視線検出部を有する電気機器において、制御部は、音声出力部が音声出力している現在の文字位置を現出力文字位置、視線検出部で検出したユーザの視線方向に存在するテキストにおける文字位置を現視認文字位置としたとき、現出力文字位置と現視認文字位置との距離が予め設定された閾値以上になった場合に音声出力部の音声出力の開始位置を変更する。
【選択図】図４

Description

本発明は、テキストの表示と、その表示されるテキストの音声出力の技術に関するものである。

従来、電子書籍コンテンツを音声出力させる技術が知られている。また、ユーザが読んでいる部分を見失いにくくするため、ユーザの視線を検出し、そのユーザが視認している電子書籍コンテンツ上での文字（視認文字）を特定し、その視認文字を強調表示する方法も知られている（例えば、特許文献１）。

特開２００７―１０２３６０号公報

しかしながら、従来技術では、視認している文字に追従して音声出力する位置が変更されるので、頻繁に音声出力位置が変更され、自然な音声再生の妨げになっている。

本発明は、このような課題に鑑みてなされたものであり、視認文字位置に応じて音声出力文字位置を視認文字位置に応じるものの、その過度に反応せず、自然な音声再生を可能にする技術を提供しようとするものである。

この課題を解決するため、例えば本発明の電子機器は以下の構成を備える。すなわち、
テキストを表示画面に表示するための表示手段、及び、前記テキストを音声として出力する音声出力手段を有する電子機器であって、
ユーザの視線方向を検出する視線検出手段と、
前記音声出力手段が音声出力している現在の文字位置を現出力文字位置、前記視線検出手段で検出したユーザの視線方向に存在する前記テキストにおける文字位置を現視認文字位置としたとき、前記現出力文字位置と前記現視認文字位置との距離に応じて、前記音声出力手段の音声出力の開始位置を変更する制御手段とを有し、
該制御手段は、
前記現出力文字位置と、前記現視認文字位置との距離が、予め設定された閾値以上になったか否かを判定する判定手段と、
該判定手段で前記距離が前記閾値以上にあったと判定した場合、前記現視認文字位置を前記音声出力手段の音声出力の開始位置に設定する設定手段とを備える。

本発明によれば、視認文字位置に応じて音声出力文字位置を視認文字位置に応じるものの、その過度に反応せず、自然な音声再生が可能になる。

本発明に係る情報処理装置を示す図。情報処理装置１０１の機能ブロック図。情報処理装置１０１のハードウェア構成図。情報処理装置１０１が行う処理のフローチャート。タッチパネル画面１０２の表示例を示す図。音声出力中文字記憶部２１２が管理する情報の構成例を示す図。視認文字特定部２１３が管理する情報の構成例を示す図。距離特定部２０４が管理する情報の構成例を示す図。情報処理装置１０１が行う処理のフローチャート。情報処理装置１０１が行う処理のフローチャート。情報処理装置１０１が行う処理のフローチャート。情報処理装置１０１が行う処理のフローチャート。情報処理装置１０１が行う処理のフローチャート。情報処理装置１０１が行う処理のフローチャート。タッチパネル画面１０２上に設定したＸＹ軸を示す図。電子書籍コンテンツの領域と文字領域を示す図。情報処理装置１０１が行う処理のフローチャート。情報処理装置１０１が行う処理のフローチャート。

以下、図面を参照しながら本発明を実施するための形態について説明する。

［第１の実施形態］
先ず、本実施形態に係る情報処理装置の外観構成を図１を用いて説明する。図１に示した情報処理装置１０１は、タッチパネル画面１０２、スピーカ１０３、音声出力ボタン１０４、カメラ１０５が備わった携帯型電子機器である。なお、この装置は、図１に示した外観に限るものではなく、様々な外観が適用可能であり、例えば、タッチパネル画面１０２、スピーカ１０３、音声出力ボタン１０４、カメラ１０５のそれぞれの配置は、図１に示した配置に限るものではない。また、ボタンやスピーカやカメラなどはその用途に応じて適宜増減させても良い。

タッチパネル画面１０２は、画像や文字などを表示するための表示画面（例えば液晶表示器）と、その表示画面の前面に配置された透明なフィルム状の座標検出のためのタッチパネルで構成され、各種メニューや電子コンテンツの表示と、ユーザのタッチ位置検出機能を合わせ持つ。また、ユーザは、自身の指などでもって音声出力ボタン１０４を押下することで、音声出力指示を情報処理装置１０１に入力することができる。情報処理装置１０１はこの音声出力指示を検知すると、スピーカ１０３から音声（例えば、２２．０５ＫＨｚでサンプリングされたＰＣＭ方式のＷＡＶＥデータに基づく音声）を出力する。カメラ１０５は、撮像した映像情報から、視線認識（or視線検出）の技術を用いてユーザの視線方向を検出し、タッチパネル画面１０２上のどの位置を視認（or注視）しているかを特定する。従って、電子書籍等のコンテンツを表示している場合には、視線方向の表示画面上に存在する文字を特定することもできる。以下、この視線上にある表示文（或いは文字列）を視認文字という。本実施形態では、カメラ１０５から赤外線を照射することでユーザの瞳孔の中心点を検出し、該中心点を追跡することで、水平方向に対する視線方向の傾きを求める。同時に、赤外線の照射を利用してカメラ１０５と瞳孔との距離を算出し、該距離と該傾きから、タッチパネル画面１０２上での視線の差す位置（視線位置）を特定する。そして、所定期間の間における視線位置の重心の位置を視認位置とする。タッチパネル画面１０２に表示される各文字には、それぞれ該文字に対する文字領域が定められており、視認位置が属する文字領域の文字が視認文字として特定される。なお、視線認識の技術については公知なのでこれに係る説明は省略する。

本実施形態では、電子書籍のデータ（電子書籍コンテンツ、電子テキストコンテンツ）、該電子書籍を朗読した音声波形のデータ（音声波形データ）、は、予め情報処理装置１０１内にダウンロードされているものとする。しかし、これに限るものではなく、これらのデータを外部の装置に格納しておき、必要に応じて適宜ダウンロードするようにしても良い。

本実施形態における電子書籍は、W3CのXMLに準拠したマークアップ言語であるSMIL (Synchronized Multimedia Integration Language)により記述されているものとする。電子書籍中の各ページにおける各文字と、音声波形データにおいて該文字を発声している音声波形の位置（音声出力位置）と、は関連づけられている（同期がとられている）。即ち、音声波形データにおいて、電子書籍における任意のページ中の任意の文字の音声波形のデータは、一意に特定することができるようになっている。また、例えば、ＳＭＩＬの記述情報から、ページ番号、行数、行の先頭からの文字数等の情報も取得できるものとする。また、ページ番号、行数、行の先頭からの文字数等の情報を、ＳＭＩＬの記述情報と照会することにより、音声波形データ上の音声出力位置および音声出力位置が属する文章を特定できるものとする。ＳＭＩＬの技術については公知なのでこれに係る説明は省略する。

図２は、情報処理装置１０１の機能構成を示す機能ブロック図である。なお、図２に示した構成は一例であり、下記の各部のうちいくつかを統合しても良いし、以下に説明する各処理を実現可能な構成であれば、如何なる構成を採用しても良い。

情報処理装置１０１は、入力部２０１、表示部２０２、音声出力部２０３、距離特定部２０４、制御部２０５、視線認識部２０６を有する。また、情報処理装置１０１は、更に、時間特定部２０７、視認方向判定部２０８、視認文字の移動速度検出手段として機能する視線速度特定部２０９、スクロール操作部２１０、ページ遷移部２１１、音声出力中文字記憶部２１２、視認文字特定部２１３をも有する。

入力部２０１は、タッチパネル画面１０２に対するタッチ操作を検出したり、音声出力ボタン１０４の押下を検出したりする。例えば、入力部２０１は、タッチパネル画面１０２に対するユーザのフリック操作（上下左右のいずれの方向へ、タッチしたままスライドさせる操作）を特定する。

表示部２０２は、スクロール操作部２１０とページ遷移部２１１、から供給された映像信号に基づく映像（即ちページの画面）の信号を、該タッチパネル画面１０２に対して供給するものである。本実施形態では、電子書籍における各ページのうち、スクロール操作部２１０とページ遷移部２１１によって特定されたページの映像信号をタッチパネル画面１０２に供給する。また、視認文字特定部２１３が特定した視認文字に対するフィードバック情報を表示する。例えば、視認文字を強調表示する。

音声出力部２０３は、制御部２０５が決定した音声出力開始文字からの音声波形データに基づく音声信号を、順次スピーカ１０３に供給する。

距離特定部２０４は、音声出力中文字記憶部２１２が特定した音声出力中文字と、視認文字特定部２１３が特定した視認文字との距離を特定する。本実施形態における距離は、視認文字から音声出力中文字までの文字数（距離間文字数）とする。距離間文字数は、視認文字を特定するＳＭＩＬの情報と、音声出力中文字を特定するＳＭＩＬの情報をもとに文字数をカウントする。例えば、５ページの２行目の先頭からの文字数が３に音声出力中文字があり、５ページの２行目の先頭からの文字数が５に視認文字があると、距離間文字数は２となる。カウントの方法については自明なので省略する。

制御部２０５は、音声出力を開始する文字（音声出力開始文字）を、入力部２０１、距離特定部２０４、時間特定部２０７、視認方向判定部２０８、スクロール操作部２１０、ページ遷移部２１１の結果等に応じて変更する。また、視認速度特定部２０９の結果に応じて、音声出力する速度を変更する。

視線認識部２０６は、カメラ１０６が撮像した映像をもとにユーザの視線位置を特定する。本実施形態では、図１５（ａ）のように、タッチパネル画面１０２の左下を原点とし、右方向をＸ軸、上方向をＹ軸とする。尚、タッチパネル画面１０２以外の平面上には、実際の平面はないが、仮想的にＸＹ平面が広がっていると仮定する。そして、所定期間Ａの間に、ＸＹ平面上を動いた視線位置の重心座標を視認位置とする。図１５（ｂ）のように、所定期間の間に描いた軌跡Ｃの重心の座標が視認位置となる。また、視線位置がタッチパネル画面１０２の電子書籍コンテンツ上にあるか否かについても判定する。本実施形態では、図１６のように、電子書籍コンテンツの領域が定められており、この域に視認位置があるか否かを判定する。

時間特定部２０７は、距離特定部２０４が特定した距離が所定距離以上となったことに応じてタイマを０にリセットして時間（離脱時間）の計測を開始する。また、現在の視認文字と一つ前の視認文字（前視認文字）の順に隣り合っていない時（視認文字が文字の並び順に従って移動しなかったこと）に、タイマを０にリセットして時間（視認連続時間）の計測を開始する。

視認方向判定部２０８は、文字の並び順に沿って移動した視認文字の文字数（視認連続文字数）をカウントする。そして、視認連続文字数が所定視認連続文字数以上である場合には、視認文字が文字の並び順に沿って移動したと判定する。視認速度特定部２０９は、視認方向判定部２０８がカウントした視認連続文字数と時間特定部２０７が計測した視認連続時間から、視認文字が移動した速度（視認速度）を特定する。

スクロール操作部２１０は、入力部２０１が検出したフリック操作に基づき、タッチパネル画面１０２に表示する電子書籍コンテンツがスクロール移動される表示領域の特定を行う。例えば、入力部２０１が下方向のフリック操作を検知すると、現在タッチパネル画面１０２に表示している電子書籍コンテンツの下部にある表示領域をタッチパネル画面１０２への表示対象として特定する。そしてスクロール操作部２１０は、上記の電子書籍コンテンツの表示領域の映像信号を表示部２０２にスクロール移動順に供給する。表示領域のスクロール移動は、フリック操作の速度、ユーザ自身の指とタッチパネル画面１０２との接地時間などにより特定されるものとする。

ページ遷移部２１１は、入力部２０１が検出したフリック操作に基づき、タッチパネル画面１０２に表示するページの特定を行う。例えば、入力部２０１が右方向のフリック操作を検知すると、現在タッチパネル画面１０２に表示しているページの次のページをタッチパネル画面１０２への表示対象として特定する。そしてページ遷移部２１１は、上記の電子書籍コンテンツの各ページのうち特定したページの映像信号を表示部２０２に供給する。本実施形態では、１つのフリック操作で１ページ移動するものとする。

音声出力中文字記憶部２１２は、SMILの記述情報と照会し、音声出力中の文字（音声出力中文字）を特定する為の情報（ページ番号、行数、行の先頭からの文字数の情報）を音声出力中文字としてメモリに記憶する。例えば、５ページにある３行目の２文字目に音声出力中文字においては、ページ番号が５、行数が３、行の先頭からの文字数が２となる。

視認文字特定部２１３は、視線認識部２０６が特定した視認位置が属する視認文字を特定する。本実施形態では、文字毎に文字領域が定められており、視認位置が属する文字領域の文字を、視認文字と特定する。例えば、図１６のように、「今」の文字領域が定められており、視認位置がこの領域にあれば、「今」が視認文字となる。本実施形態では、同じページ上における全ての文字領域を組み合わせると、電子書籍コンテンツの領域となる。ＳＭＩＬの情報と文字領域は関連付けられており、視認文字を特定する為の情報（ページ番号、行数、行の先頭からの文字数の情報）を特定する。特定された視認文字はメモリに記憶される。

図２に示した各部は何れもハードウェアで構成しても良いが、例えば、音声出力中文字記憶部２１２をメモリで構成し、それ以外の各部の全て、或いは一部をソフトウェア（コンピュータプログラム）で構成しても良い。このような場合に、情報処理装置１０１に適用可能なコンピュータのハードウェア構成例について、図３のブロック図を用いて説明する。図示におけるＣＰＵ３０１は、ＲＡＭ３０２やＲＯＭ３０３に格納されているコンピュータプログラムやデータを用いて、コンピュータ全体の動作制御を行うと共に、情報処理装置１０１が行うものとして上述した各処理を実行する。ＲＡＭ３０２は、ＨＤＤ（ハードディスクドライブ）等の外部メモリ３０４からロードされたコンピュータプログラムやデータを一時的に記憶するためのエリアや、ＣＰＵ３０１が各種の処理を実行する際に用いるワークエリアを有する。即ち、ＲＡＭ３０２は、各種のエリアを適宜提供することができる。ＲＯＭ３０３には、コンピュータの設定データやブートプログラムなどが格納されている。入力部３０５は、上記の音声出力ボタン１０４や、タッチパネル画面１０２におけるタッチセンサに相当し、上記の通り、各種の指示をＣＰＵ３０１に対して入力することができる。表示部３０６は、上記のタッチパネル画面１０２に相当する。音声出力部３０７は、上記のスピーカ１０３に相当する。外部メモリ３０４には、ＯＳ（オペレーティングシステム）や、上記の実施形態で説明した各種の処理をＣＰＵ３０１に実行させるためのコンピュータプログラムやデータが保存されている。このコンピュータプログラムは、図１において音声出力中文字記憶部２１２を除く各部に相当するコンピュータプログラムを含む。また、このデータは、電子書籍コンテンツのデータや、上記の処理で既知のものとして説明したデータを含む。外部メモリ３０４に保存されているコンピュータプログラムやデータは、ＣＰＵ３０１による制御に従って適宜ＲＡＭ３０２にロードされ、ＣＰＵ３０１による処理対象となる。上記の各部は共通のバス３０８に接続されている。なお、上記の音声出力中文字記憶部２１２は、外部メモリ３０４やＲＡＭ３０２に相当する。また、図１に示した機能構成を有する情報処理装置は、図３に示した構成を有する１台のコンピュータで実装しても良いが、複数台の装置によってこの情報処理装置を構成するようにしても良い。なお、図１に示した各部を全部ハードウェア／ソフトウェアで構成せずに、一部をハードウェア／ソフトウェアで構成するようにしても良い。この場合であっても、このソフトウェアはメモリに格納し、このソフトウェアは、ＣＰＵ３０１により実行される。

次に、本実施形態に係る情報処理装置１０１が行う処理について、同処理のフローチャートを示す図４を用いて説明する。なお、以下の説明では、タッチパネル画面１０２には、電子書籍コンテンツにおいてＮ（Ｎ≧１）ページ目のページ（ページＮと呼称する）が表示されており、且つ、このＮページ目のページについてはまだ音声出力を行っていないものとする。そしてこの状態においてユーザが音声出力ボタン１０４を押下すると、ステップＳ４０１以降の処理が開始されることになる。

ステップＳ４０１において、入力部２０１が音声出力ボタン１０４の押下を検知すると、制御部２０５は、音声出力開始文字をページＮの先頭文字とする。これにより音声出力部２０３は、ページＮの先頭文字以降の各文字について、該文字の音声波形データから音声信号を生成してスピーカ１０３に供給する。即ち本ステップでは、音声出力ボタン１０４の押下により音声出力指示が入力されると、該入力の時点でタッチパネル画面１０２が表示しているページＮを音声出力ページとし、該音声出力ページ中の各文字に対応する音声を該文字の並び順に従って順次出力する。

ステップＳ４０２において、音声出力中文字記憶部２１２は、ページＮにおいて、音声出力部２０３の音声出力中文字を特定する為の情報（表示中のページにおける視認文字の位置）を記憶する。即ち、本ステップでは、音声出力ページにおいて音声出力部２０３の音声出力中文字を特定するための情報をメモリ（音声出力中文字記憶部２１２）内で管理する。

ステップＳ４０３において、視線認識部２０６は、カメラ１０６が撮像した映像をもとにユーザの視線位置を認識する。ここで、ステップＳ４０３の処理を開始した時点で、視線位置の認識を開始する。そして、所定期間Ａだけ視線位置の認識を行う。所定期間Ａだけ経過した時点で、所定期間Ａの間に動いた視線位置の重心の座標を求める。そして、この重心の座標が視認位置となる。所定期間Ａの経過後、ステップＳ４０４の処理を行う。

ステップＳ４０４において、視線認識部２０６は、ステップＳ４０３で認識された視線位置が、タッチパネル画面１０２の電子書籍コンテンツ上にあるか否かを判定する。電子書籍コンテンツ上にある場合は、ステップＳ４０５の処理を行う。電子書籍コンテンツ上にない場合は、ステップＳ４０１の処理に戻る。

ステップＳ４０５に処理が進むと、視線認識部２０６は、ステップＳ４０３で認識された視線位置から視認位置を特定する。そして、視認文字特定部２１３は、視認位置から視認文字（ユーザが注視している文字）を特定し、それをメモリ（ＲＡＭ）に記憶する。この時、表示部２０２は、判定視認文字を強調表示する。実施形態では、視認文字を太文字にするものとするが、他の文字と色を異ならせるものでも良いし、その手法は如何なるものでも良い。

ステップＳ４０６において、距離特定部２０４は、音声出力中文字と視認文字との距離間文字数Ｍを特定する。

ステップＳ４０７において、制御部２０５は、求めた距離間文字数Ｍが所定距離間文字数以上であるか否かを判定する。所定距離間文字数以上である場合は、処理をステップＳ４０８に進める。一方、所定距離間文字数以上（下回る）でない場合は、ユーザは、音声出力中文字を追って読んでいるものと見なして良いので、ステップＳ４０１の処理に戻る。

ステップＳ４０８において、音声出力部２０３は、音声出力を停止する。そして、ステップＳ４０９において、制御部２０５は、メモリに記憶されている視認文字を音声出力開始文字と特定する。そして、音声出力部２０３は、特定された音声出力開始文字に対応する音声波形データに基づく音声信号を文字の並び順に従ってスピーカ１０３に供給する。

ここで、Ｎ＝５の場合の具体例を説明する。図５は、タッチパネル画面１０２におけるページＮの表示例である。

ステップＳ４０１において、音声出力部２０３が、この音声出力中文字記憶部２１２内の情報をＳＭＩＬの記述情報と照会し、「今年の電子書籍コンテンツの増加率は目覚ましいものがありました」の先頭から音声波形データを音声出力することになる。

この時、ステップＳ４０２で音声出力中文字記憶部２１２に登録される情報の構成例を図６（ａ）に示す。上記のとおり、ページ５についてはまだ音声出力は行っていないので、音声出力中文字記憶部２１２には、ページ番号「５」、ページ５の先頭文字の位置（行数「１」、行の先頭の文字からの文字数「１」）、が音声出力中文字として登録される。そして、この時、ユーザが「今」の文字を視認していると、ステップＳ４０３とステップＳ４０４を経て、ステップＳ４０５で視認文字特定部２１３は図７（ａ）に示す情報を登録する。また、ステップＳ４０５では距離間文字数Ｍは０となり、図８（ａ）に示す情報が特定される。音声出力が文字の並び順に従って進むと、音声出力中文字も同期して更新される。

この後、「加」の文字を音声出力されている時に、ユーザが「以」の文字を視認したと判定されたとする。この時、ステップＳ４０２では、図６（ｂ）に示す情報に更新される。ステップＳ４０５では、図７（ｂ）に示す情報に更新される。ステップＳ４０６では、図８（ｂ）に示す情報に更新される。ステップＳ４０７では、距離間文字数Ｍが１９文字なので、第１の閾値としての所定距離間文字数以上（例えば、１５文字）と判定される。ステップＳ４０８では、音声出力部２０３が音声出力を停止させる。ステップＳ４０９では、制御部２０５が音声出力開始文字を視認文字である「以」に変更する。そして、音声出力部２０３は変更された音声出力開始文字である「以」から音声波形データを音声出力する。

以上の結果、現在視認している文字の位置（現視認文字位置）と音声出力中の文字の位置（現出力文字位置）との距離が、予め設定された第１の閾値より小さい状態が続く限りは、その間で視認文字位置が多少揺らいだとしても、それに応じて音声出力するシーケンスに影響を与えることがなくなる。そして、距離が閾値以上になった場合には、その視認位置から音声出力を再開することで、ユーザの視認位置に合せた自然な音声再生が可能になる。

［変形例１］
上記実施形態では、ステップＳ４０７で距離間文字数が第１の閾値以上となった場合に音声出力を停止していた。しかしながら、これに限らず、距離間文字数が第１の閾値以上となる前に、音声出力を停止しても良い。この変形例を、図１４のフローチャートを用いて説明する。図１４において、図４と同じ処理ステップには同じステップ番号を付しており、その説明は省略する。ステップＳ１４０１とステップＳ１４０２の処理が図１４のフローチャートの処理に加えられている。

ステップＳ１４０１において、制御部２０５は、距離間文字数Ｍが第２の閾値としての停止距離間文字数以上であるか否かを判定する。停止距離間文字数以上である場合は、ステップＳ１４０２の処理を行う。停止距離間文字数以上でない場合は、ステップＳ４０７の処理を行う。ここで、「第２の閾値＜第１の閾値」の関係が成り立っているものとする。ステップＳ１４０２において、音声出力部２０３は、音声出力を停止する。

上記処理の結果、距離間文字数が第１の閾値以上となる前に、距離間文字数が第２の閾値以上となれば、音声出力を停止させることが可能となる。この結果、ユーザは、視認文字を移動させている最中は音声出力を停止させ、且つ、視認文字を定めることに集中することが可能となる。

［変形例２］
上記では、距離間文字数に応じて、音声出力開始文字を変更した。しかしながら、ユーザが集中力の低下などを起こし、視認文字が動いて距離間文字数が所定距離間文字数以上となった場合には、音声出力開始文字が変更される問題が生じる。この課題を解決する為、本変形例２では、現在の音声出力文字位置と現在の視認文字位置との距離が、設定した閾値以上の状態が、所定期間以上継続している場合に、その音声出力文字位置を変更する。以下、図９のフローチャートを用いて説明する。なお、以下の説明では、タッチパネル画面１０２には、電子書籍コンテンツにおいてＮ（Ｎ≧１）ページ目のページ（ページＮと呼称する）が表示されており、且つこのＮページ目のページについてはまだ音声出力を行っていない点は同じである。図９において、図４と同じ処理ステップには同じステップ番号を付しており、その説明は省略する。ステップＳ９０１とステップＳ９０２の処理が図９のフローチャートの処理に加えられている。

ステップＳ９０１において、時間特定部２０７は、時間（離脱時間）の計測を開始する（Ｔ＝０）。ステップＳ９０２において、時間特定部２０７は、離脱時間Ｔが所定離脱時間（所定時間）以上であるか否かを判定する。所定離脱時間以上である場合には、ステップＳ４０９の処理を行う。所定離脱時間以上でない場合には、ステップＳ４０１の処理を行う。ただし、所定期間Ａ＜所定離脱時間の関係が成り立っているとする。

例えば、「率」の文字を音声出力されている時に、ユーザが「降」の文字を視認したとする。この時、ステップＳ４０２では、図６（ｃ）に示す情報に更新される。ステップＳ４０５では、図７（ｃ）に示す情報に更新される。ステップＳ４０６では、図８（ｃ）に示す情報に更新される。ステップＳ４０７では、距離間文字数Ｍが１９文字なので、所定距離間文字数以上（例えば、１５文字）と判定される。この時、ステップＳ９０１では、離脱時間Ｔの計測が開始されており、Ｔ＝０(msec)となっている。続いて、音声出力が文字の並び順に従って進み、「来」の文字を音声出力されている時に、ユーザが「貢」の文字を視認したとする。この時、ステップＳ４０２では、図６（ｄ）に示す情報に更新される。ステップＳ４０５では、図７（ｄ）に示す情報に更新される。ステップＳ４０６では、図８（ｄ）に示す情報に更新される。ステップＳ４０７では、距離間文字数Ｍが６０文字なので、所定距離間文字数以上（例えば、１５文字）と判定される。ただし、「来」から「貢」に視認文字が移動する際は、視認文字は、「来」から「貢」までの文字の間のいずれかの文字にあるとする。また、この間、距離間文字数Ｍは所定距離間文字数以上となっており、離脱時間Ｔの計測はリセットされないこととする。この時、ステップＳ９０２において離脱時間Ｔは、Ｔ＝３８００(msec)を計測し、所定離脱時間（例えば、４０００msec）以下となる。そして、ステップＳ４０８では、音声出力部２０３が音声出力を停止させる。ステップＳ４０９では、制御部２０５が音声出力開始文字を視認文字である「貢」に変更する。そして、音声出力部２０３は変更された音声出力開始文字である「貢」から音声波形データを音声出力する。

上記の如く、距離間文字数が所定距離間文字数以上である離脱時間が、所定離脱時間以上続いた場合に、音声出力開始文字を変更することが可能となる。換言すれば、所定離脱時間以内であれば、音声出力開始位置が変更されず、それ以前の音声出力が継続させることができる。従って、ユーザが集中力の低下などを起こして視線が動いた場合に、音声出力開始文字が変更されることを防ぐことができる。

[変形例３]
上記実施形態では、距離間文字数と離脱時間に応じて、音声出力開始文字を変更した。しかしながら、ユーザが飛ばし読みを行った場合、その都度、音声出力開始位置が変更されることになり、音声再生が不自然になる。そこで、本変形例３では、ユーザが注視している視認文字位置が文章の文字の沿って連続して所定文字数以上移動した場合に、ユーザが目で文章を読んでいると見なし、その場合に、その読んでいる文字位置から音声出力開始位置を変更する例を説明する。

この場合の処理の一例を図１０のフローチャートに示す。なお、以下の説明では、タッチパネル画面１０２には、電子書籍コンテンツにおいてＮ（Ｎ≧１）ページ目のページ（ページＮと呼称する）が表示されており、且つこのＮページ目のページについてはまだ音声出力を行っていない点は同じである。図１０において、図４、９と同じ処理ステップには同じステップ番号を付しており、その説明は省略する。ステップＳ１００１からステップＳ１００９の処理が図９のフローチャートの処理に加えられている。

ステップＳ１００１において、視認方向判定部２０８は、前視認文字としてページＮの先頭の文字をセットする。ステップＳ１００２において、視認方向判定部２０８は、視認連続文字数Ｌのカウントを開始する（Ｌ＝０）。ステップＳ１００３では、前視認文字を現在の視認文字位置で更新しておく。

ステップＳ１００３において、視認方向判定部２０８は、前視認文字が視認文字と同じであるか否かを判定する。視認文字と同じである場合には、ステップＳ４０１の処理を行う。視認文字と同じでない場合には、ステップＳ１００４の処理を行う。

ステップＳ１００３において、視認方向判定部２０８は、前視認文字の次の文字が、ステップＳ４０５で特定された視認文字と同じであるか否かを判定する。ステップＳ４０５で特定された視認文字と同じである場合は、ステップＳ１００５の処理を行う。ステップＳ４０５で特定された視認文字と同じでない場合は、ステップＳ１００８の処理を行う。ステップＳ１００５において、視認方向判定部２０８は、視認連続文字数Ｌに１を加算する（Ｌ＝Ｌ＋１）。これは、文章中の連続する文字を１文字ずつ順番に視認しており、その際の文字数をカウントしていることになる。ステップＳ１００６において、視認方向判定部２０８は、前視認文字をステップＳ４０５で特定された視認文字とする。

ステップＳ１００７において、視認方向判定部２０８は、視認連続文字数Ｌが所定視認連続文字数以上であるか否かを判定する。つまり、ユーザが、現在の音声出力位置から閾値以上離れた箇所を順番に読んでいると見なして良いかどうかを判定している、と言える。所定視認連続文字数以上である場合には、ステップＳ４０８の処理を行う。所定視認連続文字数以上でない場合には、ステップＳ４０１の処理を行う。

ステップＳ１００８では、視認方向判定部２０８は、視認連続文字数Ｌをリセットする（Ｌ＝０）。ステップＳ１００１からステップＳ１００８の処理により、視認連続文字数Ｌが所定視認連続文字数以上でとなれば、ユーザは、視認文字が定まって電子書籍コンテンツを読み始めたと判断される。

例えば、変形例２と同様に、図５の表示例における「率」の文字を音声出力されている時に、ユーザが「降」の文字を視認したとする。続いて、音声出力が文字の並び順に従って進み、「来」の文字を音声出力されている時に、ユーザが「貢」の文字を視認したとする。また、この間、距離間文字数Ｍは所定距離間文字数以上となっており、離脱時間Ｔの計測はリセットされないこととする。そして、「貢」の文字を視認する直前に、「発展に大きく」を文字の並び順に沿って視認していたとする。ただし、「登」の文字を視認した後に、「発」の文字から視認したとする。この場合、ステップＳ１００３では、「発」と「登」の文字は異なるため、ステップＳ１００４の処理を行う。ステップＳ１００４では、「発」の前視認文字は「登」でないため、ステップＳ１００８の処理を行う。ステップＳ１００８で、視認連続文字数Ｌがリセットされることになる。よって、「発」を視認した時点では、視認連続文字数Ｌがリセットされた状態からカウントが開始される。ステップＳ１００１からステップＳ１００６とステップＳ１００８の処理により、視認連続文字数ＬがＬ＝５とカウントされる。この時、ステップＳ１００７では、視認連続文字数Ｌが所定視認連続文字数（例えば、４）以上と判定される。そして、ステップＳ４０８では、音声出力部２０３が音声出力を停止させる。ステップＳ４０９では、制御部２０５が音声出力開始文字を視認文字である「貢」に変更する。そして、音声出力部２０３は変更された音声出力開始文字である「貢」から音声波形データを音声出力する。

上記の如く、ユーザが飛ばし読みなどにより視認文字が定まる前に、離脱時間が所定離脱時間以上となった場合に、音声出力開始文字が変更されることを防ぐことができる。ユーザの視認文字が定まって電子書籍コンテンツを読み始めた（視認文字が文字の並び順に従って移動した）と判断された場合に、音声出力開始文字を変更することが可能となる。

[変形例４]
上記実施形態では、距離間文字数と離脱時間と視認連続文字数に応じて、音声出力開始文字を変更した。しかしながら、音声出力開始文字を変更後、音声出力速度と視認速度が異なれば、視認文字に沿って音声出力がなされない。この課題を解決する為、本閉経例４では視認文字位置の移動速度を検出し、その移動速度に応じて音声出力速度を設定する。以下、図１１のフローチャートを用いて説明する。なお、以下の説明では、タッチパネル画面１０２には、電子書籍コンテンツにおいてＮ（Ｎ≧１）ページ目のページ（ページＮと呼称する）が表示されており、且つこのＮページ目のページについてはまだ音声出力を行っていない点は同じである。図１１において、図４、９、１０と同じ処理ステップには同じステップ番号を付しており、その説明は省略する。ステップＳ１１０１からステップＳ１１０５の処理が図９のフローチャートの処理に加えられている。

ステップＳ１１０１において、時間特定部２０７は、時間（視認連続時間）の計測を開始する（Ｓ＝０）。

ステップＳ１１０２において、視認速度特定部２０９は、視認速度Ａを特定する。本実施形態では、視認速度Ａ＝視認連続文字数Ｌ/視認連続時間Ｓの式で導出される。つまり、１msecあたりに音声出力される文字数で表わされる。音声出力開始文字が変更される直前の視認速度を求めることになる。

ステップＳ１１０３において、視認速度特定部２０９は、視認速度Ａが所定視認速度（所定速度）の範囲内であるか否かを判定する。範囲内である場合には、ステップＳ１１０４の処理を行う。範囲内でない場合には、ステップＳ１１０５の処理を行う。

ステップＳ１１０４において、制御部２０５は、音声出力部２０３の音声出力速度を視認速度Ａに変更する命令情報を音声出力部２０３に伝送する。そして、音声出力部２０３は、該命令情報に基づき音声出力速度を変更する。

ステップＳ１１０５において、時間特定部２０７は、視認連続時間Ｓをリセットする（Ｓ＝０）。

例えば、変形例３と同様に、図５の画面で、「率」の文字を音声出力されている時に、ユーザが「降」の文字を視認したとする。続いて、音声出力が文字の並び順に従って進み、「来」の文字を音声出力されている時に、ユーザが「貢」の文字を視認したとする。また、この間、距離間文字数Ｍは所定距離間文字数以上となっており、離脱時間Ｔの計測はリセットされないこととする。そして、「貢」の文字を視認する直前に、「発展に大きく」を文字の並び順に沿って視認していたとする。ただし、「登」の文字を視認した後に、「発」の文字から視認している。ステップＳ１００３では、「発」と「登」の文字は異なるため、ステップＳ１００４の処理を行う。ステップＳ１００４では、「発」の一つ前の文字は「登」でないため、ステップＳ１１０５の処理を行う。ステップＳ１１０５では、視認連続時間Ｓがリセットされる。ステップＳ１００８で、視認連続文字数Ｌがリセットされることになる。よって、「発」を視認した時点では、視認連続時間Ｓと視認連続文字数Ｌがリセットされた状態から計測とカウントが開始される。ステップＳ１００１からステップＳ１００６とステップＳ１００８の処理により、視認連続文字数ＬがＬ＝５とカウントされる。この時、ステップＳ１００７では、視認連続文字数Ｌが所定視認連続文字数（例えば、４）以上と判定される。また、ステップＳ１１０２では、視認連続時間Ｓは、Ｓ＝１６００を計測したとする。視認速度Ａ＝４/１４００＝０．００２５となる。そして、ステップＳ４０８では、音声出力部２０３が音声出力を停止させる。ステップＳ４０９では、制御部２０５が音声出力開始文字を視認文字である「貢」に変更する。また、制御部２０５が音声出力する速度を０．００２５に変更する。そして、音声出力部２０３は変更された音声出力開始文字である「貢」から音声波形データを音声出力する。

上記の結果、音声出力開始文字を変更後、音声出力速度と視認速度が異なり、視認文字に沿って音声出力がなされないことを防ぐことができる。音声出力開始文字が変更される直前の視認速度で音声出力される。また、該直前の視認速度が所定視認速度の範囲外の時は停止させることができる。例えば、ユーザが速すぎて聞き取れないような音声出力速度になる場合は、音声出力を停止させることができる。

ここで、図１１のフローチャートの処理では、距離間文字数と離脱時間に応じて、音声出力開始文字を変更していた。しかしながら、これに限らず、図１８のフローチャートのように、距離間文字数の増大と離脱時間の経過を待たずに、音声出力速度と音声出力開始文字を変更してもよい。なお、タッチパネル画面１０２には、電子書籍コンテンツにおいてＮ（Ｎ≧１）ページ目のページ（ページＮと呼称する）が表示されており、且つこのＮページ目のページについてはまだ音声出力を行っていない点は同じである。図１８において、図４、９、１０、１１と同じ処理ステップには同じステップ番号を付しており、その説明は省略する。図１８では、ステップＳ９０１とステップＳ９０２とステップＳ４０６とステップＳ４０７の処理が行われない点が、図１１と異なる点である。

ただし、ステップＳ４０９において、音声出力開始文字を視認文字に変更する際は、視認文字よりも所定文字数先の文字に変更しても良いであろう。例えば、「今年の電子書籍コンテンツの増加率は目覚ましいものがありました。」の文章において、「電」が視認文字であれば、４文字先の「コ」から音声出力される。

即ち、距離間文字数の増大と離脱時間の経過を待たずに、音声出力速度と音声出力開始文字が変更される。ユーザにとっては、視認文字に合わせて、音声出力開始文字と音声出力速度がリアルタイムでなされることになる。

[変形例５]
ここで、タッチパネル画面１０２に対してページ遷移指示を検出した場合の変形例を、図１３のフローチャートを用いて説明する。なお、以下の説明では、タッチパネル画面１０２には、電子書籍コンテンツにおいてＮ（Ｎ≧１）ページ目のページ（ページＮと呼称する）が表示されており、且つこのＮページ目のページについてはまだ音声出力を行っていない点は同じである。図１３において、図４、９、１０、１１と同じ処理ステップには同じステップ番号を付しており、その説明は省略する。ステップＳ１３０１からステップＳ１３０３の処理が図４、９、１０、１１のフローチャートの処理に加えられている。

ステップＳ１３０１において、ページ遷移部２１１は、入力部２０１の左若しくは右のフリック操作を検知した場合、タッチパネル画面１０２への表示対象ページを特定し、特定したページの映像信号を順に表示部２０２に供給する。フリック操作を検知した場合は、ステップＳ１３０２の処理を行う。フリック操作を検知しなかった場合は、ステップＳ９０２の処理を行う。

ステップＳ１３０２において、ページ遷移部２１１は、所定の時間の間に左若しくは右のフリック操作を検知したか否かを判定する。フリック操作を検知した場合は、タッチパネル画面１０２への表示対象ページを特定し、特定したページの映像信号を順に表示部２０２に供給する。そして、ステップＳ１３０２の処理を行う。フリック操作を検知せずにページ遷移が終了したと判定された場合は、ステップＳ１３０３の処理を行う。

ステップＳ１３０３において、制御部２０５は、期間変更を行う。すなわち、制御部２０５は所定離脱時間を変更する。例えば、所定離脱時間を３０００msecから２０００msecに変更する。

ページ遷移をする場合、ユーザは視認文字を変更する可能性が極めて高い。よって、スクロール操作をする場合は、離脱時間の経過を待たずに、視認連続文字数と視認連続時間に応じて音声出力開始文字を変更すればよい。即ち、図１３では、ページ遷移をする場合は、所定離脱時間を下げることにより、離脱時間の経過を無視することが可能となる。

なお、ページ遷移が確定した場合のステップＳ１３０３では、遷移前のページと遷移後のページが異なる場合には、音声出力開始位置を無条件にページ先頭に設定するようにしても構わない。

[変形例６]
ここで、タッチパネル画面１０２に対してスクロール指示を検出した場合の変形例を、図１２のフローチャートを用いて説明する。なお、以下の説明では、タッチパネル画面１０２には、電子書籍コンテンツにおいてＮ（Ｎ≧１）ページ目のページ（ページＮと呼称する）が表示されており、且つこのＮページ目のページについてはまだ音声出力を行っていない点は同じである。図１２において、図４、９、１０、１１と同じ処理ステップには同じステップ番号を付しており、その説明は省略する。ステップＳ１２０１からステップＳ１２０３の処理が図４、９、１０、１１のフローチャートの処理に加えられている。

ステップＳ１２０１において、スクロール操作部２１０は、入力部２０１の上若しくは左のフリック操作を検知した場合、タッチパネル画面１０２への表示対象ページを特定し、特定したページの映像信号を順に表示部２０２に供給する。フリック操作を検知した場合は、ステップＳ１２０２の処理を行う。フリック操作を検知しなかった場合は、ステップＳ９０２の処理を行う。

ステップＳ１２０２において、ページ遷移部２１１は、所定時間の間に左若しくは右のフリック操作を検知したか否かを判定する。フリック操作を検知した場合は、タッチパネル画面１０２への表示領域を特定し、特定した表示領域の映像信号をスクロール移動順に表示部２０２に供給する。そして、ステップＳ１２０２の処理を行う。フリック操作を検知せずにページ遷移が終了したと判定された場合は、ステップＳ１２０３の処理を行う。

ステップＳ１２０３において、制御部２０５は、所定離脱時間を変更する。例えば、所定離脱時間を３０００msecから２０００msecに変更する。

スクロール操作をする場合、ユーザは視認文字を変更する可能性が極めて高い。よって、スクロール操作をする場合は、離脱時間の経過を待たずに、視認連続文字数と視認連続時間に応じて音声出力開始文字を変更すればよい。即ち、図１２では、スクロール操作をする場合は、所定離脱時間を下げることにより、離脱時間の経過を無視することが可能となる。

[変形例７]
以上、図４では、距離間文字数（文章としての文字列の並び順に沿った距離）に応じて、音声出力開始文字を変更していたがこれに限るものではない。音声出力中文字と視認位置との表示画面という２次元空間内での距離（２点間距離）に応じて、音声出力開始文字を変更してもよい。この為の変形例を、図１７のフローチャートを用いて説明する。なお、以下の説明では、タッチパネル画面１０２には、電子書籍コンテンツにおいてＮ（Ｎ≧１）ページ目のページ（ページＮと呼称する）が表示されており、且つこのＮページ目のページについてはまだ音声出力を行っていない点は同じである。図１７において、図４と同じ処理ステップには同じステップ番号を付しており、その説明は省略する。ステップＳ４０２、ステップＳ４０６、ステップＳ４０７の処理が、ステップＳ１７０１からステップＳ１７０３の処理に置き換わる。

ステップＳ１７０１において、音声出力中文字記憶部２１２は、先ず、図４のステップＳ４０２と同様の処理を行う。そして、同時に、音声出力中文字の座標（音声出力中座標）を記憶する。本実施形態では、音声出力中座標は文字領域の中心点とする。

ステップＳ１７０２において、距離特定部２０４は、音声出力中座標と視認位置の座標との距離（２点間距離Ｋ）の特定を行う。２点間距離の特定の方法については、公知なのでここでは省略する。

ステップＳ１７０３において、制御部２０５は、２点間距離Ｋが所定２点間距離以上であるか否かを判定する。所定２点間距離以上である場合は、ステップＳ４０８の処理を行う。所定２点間距離以上でない場合は、ステップＳ４０１の処理を行う。

ここで、本実施形態では、ステップＳ４０１では、ページの先頭から音声出力を行っていたが、これに限るものではない。タッチ操作で音声出力開始文字を指定した後に、音声出力ボタン１０４を押下することで、指定された音声出力開始文字から音声出力してもよい。また、電子書籍コンテンツを朗読した音声波形データを音声出力しているが、電子書籍コンテンツを音声合成の技術により音声出力してもよい。ただし、音声合成の技術を用いる場合、ステップＳ４０７において、音声出力位置制御部２０５は、音声出力開始文字以降に並んでいる文字の音声波形データに基づく音声信号を、スピーカ１０３に供給する。例えば、「今年の電子書籍コンテンツの増加率は目覚ましいものがありました。」の文章の「子」が音声出力開始文字になったとする。音声合成技術を用いた場合、「ししょせき」と読み上げられずに、「こしょせき」のように誤った読みになる場合がある。よって、音声出力開始文字の付近の文字にある、文章の先頭や文章中の区切りの良い文字から、音声合成により音声出力される。例えば、文章の先頭の「来年・・・」、もしくは、文章中の「電子・・・」や「ますます・・・」から音声出力される。音声合成技術については、公知なのでここでは省略する。

（その他の実施形態）
以上の実施形態では、テキストの音声出力制御について説明したが、テキストの代わりに、画像やアイコンを含むコンテンツに対して、音声出力制御を行ってもよい。その場合、文字と音声が対応付けられる代わりに、画像データやアイコンボタンなどに音声を対応付ければよい。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

テキストを表示画面に表示するための表示手段、及び、前記テキストを音声として出力する音声出力手段を有する電子機器であって、
ユーザの視線方向を検出する視線検出手段と、
前記音声出力手段が音声出力している現在の文字位置を現出力文字位置、前記視線検出手段で検出したユーザの視線方向に存在する前記テキストにおける文字位置を現視認文字位置としたとき、前記現出力文字位置と前記現視認文字位置との距離に応じて、前記音声出力手段の音声出力の開始位置を変更する制御手段とを有し、
該制御手段は、
前記現出力文字位置と、前記現視認文字位置との距離が、予め設定された閾値以上になったか否かを判定する判定手段と、
該判定手段で前記距離が前記閾値以上にあったと判定した場合、前記現視認文字位置を前記音声出力手段の音声出力の開始位置に設定する設定手段とを備える
ことを特徴とする電子機器。
前記閾値を第１の閾値とし、当該第１の閾値よりも小さい閾値を第２の閾値としたとき、
前記制御手段は、前記距離が、前記第２の閾値以上であって、前記第１の閾値を下回る場合には、前記音声出力手段を制御して音声出力を停止することを特徴とする請求項１に記載の電子機器。
前記設定手段は、前記距離が前記閾値以上になっている状態が所定期間以上継続した場合に、前記視認文字位置を前記音声出力手段の音声出力の開始位置に設定することを特徴とする請求項１に記載の電子機器。
前記設定手段は、前記視線検出手段で検出した視線方向に存在する視認文字の位置が、文章の文字に沿って連続して所定文字数以上移動したことを更なる条件として、前記音声出力手段の音声出力の開始位置に設定することを特徴とする請求項１乃至３のいずれか１項に記載の電子機器。
前記制御手段は、前記視線検出手段で検出した視線方向に存在する視認文字位置の移動する速度を検出する速度検出手段を更に有し、
前記設定手段は、前記音声出力手段の音声出力の開始位置に設定すると共に、前記速度検出手段が検出した速度に応じた音声出力速度を設定することを特徴とする請求項１乃至４のいずれか１項に記載の電子機器。
前記制御手段は、前記表示画面に表示れるテキストに対して、ページ遷移指示もしくはスクロール指示があった場合、前記所定期間を変更する期間変更手段を有することを特徴とする請求項３に記載の電子機器。
前記判定手段の判定に用いる距離は、前記テキストにおける文字列の並びに沿った、前記現出力文字位置と前記現視認文字位置との文字数とすることを特徴とする請求項１乃至６のいずれか１項に記載の電子機器。
前記判定手段の判定に用いる距離は、前記現出力文字位置と前記現視認文字位置の前記表示画面上の２次元空間における距離とすることを特徴とする請求項１乃至６のいずれか１項に記載の電子機器。
コンピュータに読み込ませ実行させることで、前記コンピュータを、請求項１乃至８のいずれか１項に記載の電子機器として機能させるためのプログラム。
請求項９に記載のプログラムを格納したことを特徴とするコンピュータが読み込み可能な記憶媒体。
テキストを表示画面に表示するための表示手段、前記テキストを音声として出力する音声出力手段、ユーザの視線方向を検出する視線検出手段とを有する電子機器の制御方法であって、
制御手段が、前記音声出力手段が音声出力している現在の文字位置を現出力文字位置、前記視線検出手段で検出したユーザの視線方向に存在する前記テキストにおける文字位置を現視認文字位置としたとき、前記現出力文字位置と前記現視認文字位置との距離に応じて、前記音声出力手段の音声出力の開始位置を変更する制御工程を有し、
該制御工程は、
前記現出力文字位置と、前記現視認文字位置との距離が、予め設定された閾値以上になったか否かを判定する判定工程と、
該判定工程で前記距離が前記閾値以上にあったと判定した場合、前記現視認文字位置を前記音声出力手段の音声出力の開始位置に設定する設定工程とを備える
ことを特徴とする電子機器の制御方法。