JP2010102302A - 文書ナビゲーションのシステム、方法およびプログラム - Google Patents

文書ナビゲーションのシステム、方法およびプログラム Download PDF

Info

Publication number
JP2010102302A
JP2010102302A JP2009167651A JP2009167651A JP2010102302A JP 2010102302 A JP2010102302 A JP 2010102302A JP 2009167651 A JP2009167651 A JP 2009167651A JP 2009167651 A JP2009167651 A JP 2009167651A JP 2010102302 A JP2010102302 A JP 2010102302A
Authority
JP
Japan
Prior art keywords
text
document
interest
region
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009167651A
Other languages
English (en)
Inventor
Scott Carter
カーター スコット
Laurent Denoue
ドゥヌ ローラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2010102302A publication Critical patent/JP2010102302A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Abstract

【課題】テキスト音声変換手段を用いてユーザが文書を理解することを支援する。
【解決手段】ユーザにテキスト文書を表示し、前記テキスト文書のテキストを少なくとも1つの可聴音に変換し、前記少なくとも1つの可聴音を前記ユーザに提示し、前記可聴音に対応する前記テキスト文書の部分を表示する。関心領域を示すリンクを含む前記テキスト文書の部分を表示するときに、前記文書ナビゲーション手段が該リンクによって示される該関心領域を表示する。前記テキスト文書のテキストの少なくとも1つの部分から少なくとも1つの関心領域への、少なくとも1つのリンクを生成することができる。
【選択図】図1

Description

本発明は、テキスト音声変換エンジンによる文書ナビゲーションシステムおよび文書ナビゲーション方法に関し、詳細には、テキスト音声変換エンジンにおいて音声テキストの内容に基づいて視覚的表示装置上の画像を変更することに関する。より詳細には、関心領域を示すリンクを含む文書のセクションを表示するときに、文書ナビゲーションアプリケーションが該リンクによって示された該関心領域を表示することに関する。
移動装置上で人々が文書を拾い読みする、流し読みする、および読むことを支援するために開発された幾つかの技術が存在するが、これらのアプリケーションはユーザが必然的に小さな画面上に表示された情報を利用(消費)することを必要とする。聴覚チャネルを使用することは、ユーザが「視覚資源を解放することによってユーザの環境をより容易に効果的に処理してナビゲートすること」を可能にし得る(非特許文献1)。特徴を読み取ってズームする自動化された画面を含む、視覚障害の人々が移動装置と対話することを支援するように設計された多くの音声ベースのアプリケーションは存在するが、視覚および聴覚チャネルの両者を利用する、移動(装置上の)文書を読む健常者のユーザを支援する取り組みはほとんど行われていない。
ヴァダスら(Vadas, et al.)、「簡易読取り:オーディオおよびハンドヘルド表示装置の比較(Reading on−the−go: a comparison of audio and hand−held displays)」、CHI2006、頁219〜226 チウら(Chiu, et al.)、「コンテンツベースの自動ズーミング:小型表示装置での文書の観察(Content Based Automatic Zooming: Viewing Documents Small Displays)」、ACMマルチメディア2008抄録(ACM Multimedia 2008) インターネット<URL:http://www.neospeech.com>、[2008年10月20日検索]
本発明の課題は、文書をその完全な文脈においてユーザが理解するためにユーザの能力を補助する、視覚的表示を備えたテキスト音声変換アプリケーションを用いたシステムおよび方法を提供することである。
本発明の一態様は、ユーザに聴覚的に提示されている文書のテキストに関連する関心領域の視覚的表示を提示するために、テキスト音声変換(「TTS」)エンジンと連携して文書を視覚的にナビゲートするシステムおよび方法に関する。TTSエンジンがテキストを音声に変換し、その音声をユーザに提示するとき、システムはテキストの対応部分を表示装置上に提示する。この提示のときに、システムがテキストのリンクされた部分に遭遇した場合には、視覚的表示はテキストのそのリンクされた部分に対応するリンクされた関心領域を表示するように変化する。
本発明の第1の態様は文書ナビゲーションシステムであって、ユーザにテキスト文書を表示する表示手段と、前記テキスト文書のテキストを少なくとも1つの可聴音に変換するテキスト音声変換手段と、前記少なくとも1つの可聴音を前記ユーザに提示する音声手段と、前記可聴音に対応する前記テキスト文書の部分を表示する文書ナビゲーション手段と、を備え、関心領域を示すリンクを含む前記テキスト文書の部分を表示するときに、前記文書ナビゲーション手段が該リンクによって示される該関心領域を表示する。
本発明の第2の態様は、第1の態様の文書ナビゲーションシステムであって、前記テキスト文書のテキストの少なくとも1つの部分から少なくとも1つの関心領域への、少なくとも1つのリンクを生成するリンキング手段をさらに備える。
本発明の第3の態様は、第2の態様の文書ナビゲーションシステムであって、前記リンキング手段は、関心領域にリンクするテキストの部分を決定するために予め記憶されたリンク候補となり得るテキスト情報を使用する。
第1の態様の文書ナビゲーションシステムにおいて、前記関心領域は前記テキスト文書の中にあってもよい。
第1の態様の文書ナビゲーションシステムにおいて、前記関心領域は前記テキスト文書とは別個であってもよい。
本発明の第4の態様は、第1の態様の文書ナビゲーションシステムであって、前記関心領域は非テキストオブジェクトを含む。
本発明の第5の態様は、第1の態様の文書ナビゲーションシステムであって、前記関心領域はテキストの部分を含む。
本発明の第6の態様は、第1の態様の文書ナビゲーションシステムであって、前記リンクはハイパーリンクを含む。
本発明の第7の態様は、第1の態様の文書ナビゲーションシステムであって、前記リンクはマクロを含む。
本発明の第8の態様は、第1の態様の文書ナビゲーションシステムであって、前記テキスト音声変換手段が前記テキスト文書のテキストの部分を的確な音声に変換できるか否かを前記ユーザに報知する報知手段をさらに備える。
本発明の第9の態様は、第1の態様の文書ナビゲーションシステムであって、関心領域が前記リンク先から前記表示手段に完全にロードされた場合、前記ユーザに報知する報知手段をさらに備える。
本発明の第10の態様はテキスト音声変換手段を用いた文書ナビゲーション方法であって、テキスト文書をユーザに表示し、テキスト音声変換手段によって前記テキスト文書のテキストを少なくとも1つの可聴音に変換し、少なくとも1つの前記可聴音を前記ユーザに提示し、前記可聴音に対応する前記テキスト文書の部分を表示し、関心領域を示すリンクを含む前記テキスト文書の部分が表示されるとき、該リンクによって示される該関心領域をさらに表示する。
本発明の第11の態様は、第10の態様の文書ナビゲーション方法であって、前記テキスト文書のテキストの少なくとも1つの部分から少なくとも1つの関心領域への少なくとも1つのリンクを生成することをさらに含む。
本発明の第12の態様は、第11の態様の文書ナビゲーション方法であって、関心領域にリンクするテキストの部分を決定するために予め記憶されたリンク候補となり得るテキスト情報を使用する、ことをさらに含む。
第10の態様の文書ナビゲーション方法は、前記テキスト文書の中から前記関心領域を選択することをさらに含んでもよい。
第10の態様の文書ナビゲーション方法は、前記テキスト文書の外部から前記関心領域を選択することをさらに含んでもよい。
本発明の第13の態様は、第10の態様の文書ナビゲーション方法であって、前記関心領域として非テキストオブジェクトを選択することをさらに含む。
本発明の第14の態様は、第10の態様の文書ナビゲーション方法であって、前記関心領域としてテキストの部分を選択することをさらに含む。
本発明の第15の態様は、第10の態様の文書ナビゲーション方法であって、テキスト文書のテキストの少なくとも1つの前記部分を少なくとも1つの前記関心領域にリンクするためにハイパーリンクを用いることをさらに含む。
本発明の第16の態様は、第10の態様の文書ナビゲーション方法であって、テキスト文書のテキストの少なくとも1つの前記部分を少なくとも1つの前記関心領域にリンクするためにマクロを用いることをさらに含む。
本発明の第17の態様は、第10の態様の文書ナビゲーション方法であって、前記テキスト音声変換手段が前記テキスト文書のテキストの部分を的確な音声に変換できるか否かを前記ユーザに報知することをさらに含む。
本発明の第18の態様は、第10の態様の文書ナビゲーション方法であって、関心領域が前記リンク先から前記表示手段に完全にロードされた場合、前記ユーザに報知することをさらに含む。
本発明の第19の態様は、文書ナビゲーションプログラムであって、テキスト文書をユーザに表示する機能と、テキスト音声変換手段によって前記テキスト文書のテキストを少なくとも1つの可聴音に変換する機能と、少なくとも1つの前記可聴音を前記ユーザに提示する機能と、前記可聴音に対応する前記テキスト文書の部分を表示する機能と、を含み、関心領域を示すリンクを含む前記テキスト文書の部分が表示されるとき、該リンクによって示される該関心領域をさらに表示する。
本発明に関連する別の態様は、一部は下記の説明に述べられ、また、一部は下記の説明から明らかになるか、あるいは本発明の実施によって知ることができる。本発明の態様は、下記の詳細な説明と添付の請求項に特に指摘された要素によって、また種々の要素と態様との組合せによって実現され達成され得る。
上記および下記の説明の両者とも単に例示的で説明的なものであって、如何なる仕方においても、請求された本発明またはその出願を限定するように意図されていないことは理解されるべきである。
本明細書に組み込まれて本明細書の一部を構成する付属図面は、本発明の実施形態を例示するものであり、またこの説明と共に、本発明の技法の原理を説明し例示する働きをするものである。
本発明の一実施形態による、テキスト音声変換(「TTS」)エンジンと連携して文書を視覚的にナビゲートするシステムの概要を示す。 本発明の一実施形態による、文書ナビゲーションアプリケーションがテキストのリンクされたセクションを識別してリンクされた関心領域を表示するために表示を変更するときの視覚的表示の説明図を示す。 本発明の一実施形態による、文書ナビゲーションアプリケーションがテキストのリンクされたセクションを識別してリンクされた関心領域を表示するために表示を変更するときの視覚的表示の説明図を示す。 本発明の一実施形態による、文書ナビゲーションアプリケーションがテキストのリンクされたセクションを識別してリンクされた関心領域を表示するために表示を変更するときの視覚的表示の説明図を示す。 本発明の一実施形態による、TTSエンジンと連携して文書を視覚的にナビゲートする方法を示す。 本発明のシステムが実現され得るコンピュータプラットフォームの一例示的実施形態を示す。 TTSエンジンを用いて文書を視覚的にナビゲートするシステムがどのようにコンピュータプラットフォームに関係するかを示す機能図の一実施形態を示す。
下記の詳細な説明では、同じ機能要素が同様な数字で示される付属図面への参照が行われるであろう。前述の付属図面は、本発明の原理に一致する特定の実施形態および実現形態を、限定としてではなく例示として示している。これらの実現形態は当業者が本発明を実施するのを可能にするために十分詳細に説明されるが、また他の実現形態も利用可能であって本発明の範囲と精神から逸脱せずに種々の要素の構造的変更および/または代用が行われ得ることは理解されるべきである。したがって下記の詳細説明は、限定の意味で解釈されるべきではない。更に、説明される本発明の種々の実施形態は、汎用コンピュータ上で動作するソフトウエアの形で、あるいは専用のハードウエアの形で、またはソフトウエアとハードウエアの組合せの形で実現可能である。
本発明の一態様は、ユーザに音声で提示されている文書のテキストに関連する関心領域の視覚的表示を提示するためにテキスト音声変換(「TTS」)エンジン(テキスト音声変換手段)と連携して文書を視覚的にナビゲートするためのシステムおよび方法に関する。このシステムは先ず文書を走査し、テキストのセクション(部分)から文書のもう1つの部分または文書の外部の関心領域へのリンクを生成する。TTSエンジンがテキストを音声に変換してその音声をユーザに提示するとき、システムはテキストの対応するセクションを表示装置上に提示する。この提示のときに、システムがテキストのリンクされたセクションに遭遇した場合には視覚的表示はテキストのそのリンクされたセクションに対応するリンクされた関心領域を表示するように変化する。
ここで説明されるシステムは、文書の視覚的表示をTTSエンジンに結び付けるアプリケーションツールである。一実施形態ではこのツールは、話されたテキストの内容に依存して視覚的表示を関心領域に自動的にパンおよびズームする。例えばTTSエンジンが「図15に示されるように」という文書内のテキストを読んでいるとき、視覚的表示はこの文書の図15を自動的に表示するであろう。そのときこの特定の実施形態では文書の図15が関心領域である。これは文書の図にとって最も有用であるが、如何なるテキスト参照でも関心領域としてラベル付けでき、脚注や他の節(セクション)、章または付録への参照といったものであっても視覚的表示の変更を起こす合図として使用され得る。
更にこの技術は、ディジタル文書、走査文書およびウェブページを含む一連の文書タイプに適用され得る。元の文書が走査される一態様では本システムは、例えば公知の光学文字認識(「OCR」)ソフトウエアを使用して文書をディジタルテキストに変換する。あるページの領域に自動的にパンおよびズームするためにテキスト内で参照を使用することに加えてこの技術は、ウェブページへのリンクを追尾する、または埋め込まれたマクロを起動するといった他のサービスを自動的に提供することができる。
図1に示された本発明の概念の一実施形態では本発明のシステムは、携帯電話またはラップトップといった(視覚的(画像))表示装置104を有する移動装置100にインストールされた文書ナビゲーション(ADN)アプリケーション102(文書ナビゲーション手段)と、電話のスピーカ108またはこの移動装置100に接続されたヘッドフォンといったオーディオモジュール106(音声手段)と、を含む。一実施形態ではアプリケーション102は、メモリからアプリケーション102を実行するためのプロセッサ112を更に含む移動装置100のメモリ110上に常駐するであろう。代替実施形態は、図4、5に関して下記に論じられる。文書が与えられると、メモリ内に常駐するリンキングモジュール114(リンキング手段)は先ず、文書内のテキストの少なくとも1つのセクションをこのテキストの少なくとも1つのセクションの外側の関心領域にリンクする。例えばリンキングモジュール114は、「図15に示されるように」といった特定のフレーズ(語句)を識別して、この図が同じ文書内にあるにせよ、またはもう1つの文書内にあるにせよ、言及されている実際の図15にリンクし得る。
リンキングモジュール114内で動作するアルゴリズムは、文書内でリンクを生成する場所を決定するために種々の方法を使用する。一実施形態ではこれらのリンクは、ハイパーリンクまたはマクロといった多くのディジタル文書に既に埋め込まれているものである。もしウェブ文書へのハイパーリンクといったリンクが文書自身に埋め込まれているならば、追加のリンクが所望されなければリンキングモジュール114は必要でない。もし追加のリンクが所望されれば、アルゴリズムは発見的方法(heuristics)のセットを頼りにすることができる。リンクが埋め込まれていないもう1つの実施形態ではリンキングモジュール114は、先ず関連する関心領域を抽出するためと、それからテキストをこの関心領域にリンクするための文書を通しての2つのパスを作る必要がある。少なくとも3つのタイプの関心領域:すなわち1)図と表、2)セクション、および3)引用文が存在し、これらは以下で別々に論じられる。
図と表に関しては文書を通しての第1のパスにおいてリンキングモジュール114は、図と表を分割してそれらの対応するキャプション(図表近辺に付される図表番号や簡単な説明文)を発見することができる(例えば本文テキストとは僅かに異なるフォントサイズを有する近接したテキスト領域を探すことによって)。それから第2のパスにおいてリンキングモジュール114は、本文テキストのセグメントにリンクさせるため、キャプションに対して例えばnグラム方式と用いてリンクさせるセグメントを探索することができる(大体の場合は、「図2(Figure 2)」のようなものを探しているので、おおよそは2-グラムである)。
セクションに関してリンキングモジュール114は、第1のパスにおいてセクション見出しを識別して、また第2のパスにおいて本文テキストのセグメントを探索してこれにリンクする必要がある。セクションヘッダ識別は、再び一実施形態においてフォントサイズ推定を使用して達成され得るであろう。
引用文に関してリンキングモジュール114は、第1のパスにおいて引用文と参照セクションとを識別する必要がある。引用文は本文テキストにおける幾つかの単純な正規表現探索を介して識別され得る(例えば、大抵の科学論文に関する”[\d+]”。これは括弧付けされた1つ以上の文字列を求めるものである)。参照セクションは、上記のセクション識別技法を使用して適当なテキスト(「参照文」、「引用文」、またはより一般的な単語である「参考文献目録」)を照合することによって識別され得るであろう。
非限定的一例では、セクションヘッダを参照するときアルゴリズムは、フォントサイズとレタリングとを考慮することを必要とするだけである。スキャン入力された文書に関するアルゴリズムは、非特許文献2に記載されているように、本文テキストからキャプションテキストを区別するために、文書に対して事前処理されたセグメンテーション(文書構造解析により決定される領域)に依存する。
代替実施形態ではリンキングモジュール114は、外部サーバ(図示せず)に配置され、この場合、文書ナビゲーションアプリケーション102は、リンキングモジュール114がリンクを作成したとき、サーバから文書とリンクとをダウンロードするであろう。
TTSエンジン124は、ユーザが文書内のテキストを代表する音声(スピーチ)を聞くように、文書のテキストを可聴音に変換する。移動装置上のスピーカ108といったオーディオモジュール106はユーザに可聴音を提示する。代替実施形態ではTTSエンジン124は外部サーバ(図示せず)に配置され、この場合、文書ナビゲーションアプリケーション102はTTSエンジン124が文書をオーディオに変換した後に文書のオーディオストリームをダウンロードするであろう。文書ナビゲーションアプリケーション102はTTSエンジン124からオーディオ信号を取り入れて、同じセクションからの音声(スピーチ)がユーザに可聴音で提示されているときに文書からのテキストの関連部分が表示装置104上に表示されるように、このオーディオ信号を同期化する。一実施形態では表示モジュール116(表示手段)は表示装置104上にインタフェースを提示する。表示インタフェースの一実施形態は図2Aに示されており、これはマーク付けされた現在カーソル位置120を有する文書概要118とメインビュー(主要表示域)122におけるカーソル位置120に近接したテキストに最も関連のある視覚情報との両者を示している。任意のリンクされたテキストの代わりに文書ナビゲーションアプリケーション102は単に、非特許文献2等に参照され、図2Aに示されたコンテンツベースの自動ズーミング(「CBAZ」)を使用してメインビュー(主要表示)内のカーソル120を取り囲む近似的にズームされた領域を提示する。TTSエンジンの一実施形態は、非特許文献3で入手可能なNeoSpeech(登録商標)TTS Softwareである。文書ナビゲーションアプリケーション102がリンクされたフレーズに遭遇すると、文書ナビゲーションアプリケーション102は、ある予め指定された時間の間、表示装置において、リンクされた関心領域に自動的にパンおよびズームする。特に図2Aに示されるように文書ナビゲーションアプリケーション102は、文書内のリンクされた領域間でメインビューが動くとき、視覚的表示のメインビュー122を適合させる。最初のうちリンクされた関心領域によらずに表示装置はメインビュー122にテキスト126だけを表示する。それから文書ナビゲーションアプリケーション102は、図2Bのウェブページ128へのリンク(図示せず)と図2Cの人物像130へのリンクとに遭遇する。それから文書ナビゲーションアプリケーション102は、それぞれのリンクされた関心領域を表示するためにメインビュー122を適合させる。TTSエンジン124からのオーディオ信号が文書の音声(スピーチ)を提示するので、カーソル位置120は右下の概要表示118上で更新されることにも留意されたい。
別の実施形態ではユーザは、ボタンを押してテキストのオーディオ信号を停止および開始することができる。またユーザはいつでも、文書の異なる部分を見るために、またはカーソル位置120を変更するためにメインビュー122を直接操作できる(異なるジェスチャ(身振り)が2つの行動を区別する)。前者の場合、システムは、ユーザ対話のタイムアウト後にメインビューをリセットするであろう。
TTSエンジンを使用することと連携して文書を視覚的にナビゲートする方法の一実施形態が図3に示されている。第1のステップ302で、TTSエンジンを使用する変換のためにテキストを有する文書が取得される。次にステップ304でリンキングモジュールは文書を処理して、フレーズおよび単語といったテキストのセクションを適当な関心領域にリンクする。ステップ306でTTSエンジンは、テキストを音声(スピーチ)に変換し、オーディオモジュールを使用して可聴音をユーザに提示する。ステップ308で文書ナビゲーションアプリケーションは、CBAZを使用してユーザに可聴音で提示される音声のセクションに対応する表示されている文書の特定のセクションを有するリンクされた文書を表示装置上でユーザに表示する。ユーザは、可聴音スピーチの提示を意のままに停止および開始することによって、あるいは提示されるオーディオ信号のセグメントも変化するように文書内のカーソル位置を変化させることによって、文書ナビゲーションアプリケーション上での制御を行うことができる。ステップ310で文書ナビゲーションアプリケーションは、リンクされたテキストに遭遇する可能性があり、この場合、視覚的表示はステップ312でリンクされた関心領域をメインビュー上に表示するために変化するであろう。もしリンクされたテキストに遭遇しなければ、ステップ314のようにメインテキストビューは提示され続けるであろう。
更なる実施形態でシステムは、ユーザに提示されているオーディオストリームに有用な情報をインターリーブするために図1に示されるような報知モジュール132(報知手段)を組み込んでいる。例えば走査された文書に関して公知のOCRツールは、走査されたテキストをディジタルテキストに変換し、更に認識精度を報告する。それから報知モジュール132は、認識誤りがテキスト音声変換を使用不能にしそうであるときに、オーディオストリーム内で指示すべき文書のディジタルテキストに(短いブリップ(語の存在を示す…のような文字列)または説明を用いて)注釈を入れる、精度があまりにも低いセクションを識別することができる。報知モジュール132は、テキストの特定のセクションが読取り不能であるかどうかに関してリンキングモジュール114から指示を受けるであろうが、この場合、報知モジュール132はTTSエンジン124によって作り出されたオーディオストリームに報知が差し挟まれる。これらの指示は、対応するテキストを読むために、ユーザがよく聞き取れない音声(スピーチ)を聴くことを避けてその代わりにユーザの注意を視覚的表示に向けることを可能にするように、前もって提示され得る。
ここで説明されるシステムが文書精読を支援するために他の最新技術と共に使用され得ることは留意されるべきである。例えば一実施形態ではユーザは、カーソル位置120を変更するために表示装置104と対話できる。概要表示118は、図2A〜2Cに示されるように、ユーザが常に文書における現在カーソル位置120を知っているようにメインビューポート(主要表示域)122に連結され得る。
図4は、本発明の方法論の一実施形態が実現され得るコンピュータ/サーバシステム400の一実施形態を示すブロック図である。システム400は、コンピュータ/サーバプラットフォーム401と周辺装置402とネットワーク資源403とを含む。
コンピュータプラットフォーム401は、コンピュータプラットフォーム401の種々の部分に亘って、または種々の部分の間で情報通信するためのデータバス404または他の通信機構と、情報を処理して他のコンピューティングおよび制御タスクを実行するための、バス404と接続されたプロセッサ(CPU)405とを含み得る。コンピュータプラットフォーム401はまた、種々の情報ならびにプロセッサ405によって実行されるべき命令を記憶するための、バス404に接続されたランダムアクセスメモリ(RAM)または他の動的記憶装置といった揮発性記憶装置406を含む。揮発性記憶装置406はまた、プロセッサ405による命令の実行時に一時的変数または他の中間情報を記憶するために使用され得る。コンピュータプラットフォーム401はまた更に、基本入出力システム(BIOS)といったプロセッサ405のための静的情報および命令、ならびに種々のシステム構成パラメータを記憶するための、バス404に接続された読取り専用メモリ(ROMまたはEPROM)407または他の静的記憶装置を含み得る。情報と命令とを記憶するために、磁気ディスク、光ディスク、または固体フラッシュメモリ装置といった固定(永続)記憶装置408が設けられてバス404に接続される。
コンピュータプラットフォーム401は、システム管理者またはコンピュータプラットフォーム401のユーザに情報を表示するために、陰極線管(CRT)、プラズマ表示装置、または液晶表示装置(LCD)といった表示装置409にバス404を介して接続され得る。プロセッサ405に情報およびコマンド選択を伝達するために英数字および他のキーを含む(キーボードなどの)入力装置410がバス404に接続される。もう1つのタイプのユーザ入力装置は、プロセッサ405に方向情報およびコマンド選択を伝達するための、また表示装置409上でのカーソルの動きを制御するためのマウス、トラックボールまたはカーソル方向キーといったカーソル制御装置411である。この入力装置は一般的には、第1の軸(例えばx)と第2の軸(例えばy)という2つの軸方向に2つの自由度を持っており、この装置が平面内の位置を指定することを可能にしている。
コンピュータプラットフォーム401に追加の、または取外し可能な記憶容量を与えるために、外部記憶装置412がバス404を介してコンピュータプラットフォーム401に接続され得る。コンピュータシステム400の一実施形態では外部取外し可能記憶装置412は、他のコンピュータシステムとのデータ交換を容易にするために使用され得る。
本発明は、ここで説明される技法を実現するためのコンピュータシステム400の使用法に関連している。一実施形態では本発明のシステムは、コンピュータプラットフォーム401といった機械上に常駐できる。本発明の一実施形態によればここで説明される技法は、揮発性メモリ406に含まれた1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ405に応じてコンピュータシステム400によって実行される。このような命令は、固定(永続)記憶装置408といった他のコンピュータ可読媒体から揮発性メモリ406に読み込まれ得る。揮発性メモリ406に含まれた命令のシーケンスの実行は、ここで説明されるプロセスステップをプロセッサ405に実行させる。代替実施形態では、本発明を実現するために、配線接続回路がソフトウエア命令の代わりに、またはソフトウエア命令と組み合わせて使用され得る。したがって本発明の実施形態は、ハードウエア回路とソフトウエアとの如何なる特定の組合せにも限定されない。
ここで使用される用語「コンピュータ可読媒体」は、実行のためにプロセッサ405に命令を与えることに関与する任意の媒体を指している。コンピュータ可読媒体は、ここで説明される方法および/または技法のいずれかを実現するための命令を保持し得る機械可読媒体の単なる一例である。このような媒体は、不揮発性媒体と揮発性媒体とを含むがこれらに限定されない多くの形態を採り得る。不揮発性媒体は、例えば記憶装置408といった光または磁気ディスクを含む。揮発性媒体は、揮発性記憶装置406といった動的メモリを含む。伝送媒体は、データバス404を備えるワイヤを含む同軸ケーブル、銅ワイヤおよび光ファイバを含む。
コンピュータ可読媒体の一般的な形態は、例えばフロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープまたは他の任意の磁気媒体、CD−ROM、他の任意の光媒体、パンチカード、紙テープ、孔のパターンを有する他の任意の物理媒体、RAM、PROM、EPROM、FLASH−EPROM、フラッシュドライブ、メモリカード、他の任意のメモリチップまたはカートリッジ、後述される搬送波、またはコンピュータが読み取ることのできる他の任意の媒体を含む。
コンピュータ可読媒体の種々の形態は、実行のためにプロセッサ405に1つ以上の命令の1つ以上のシーケンスを搬送することに含まれ得る。例えばこれらの命令は、最初にリモートコンピュータから磁気ディスク上に搬送され得る。代替としてリモートコンピュータは、命令をその動的メモリにロードし、モデムを使用して電話線でこれらの命令を送信できる。ローカルなモデムは、電話線でコンピュータシステム400にデータを受信でき、また赤外線送信機を使用してデータを赤外線信号に変換できる。赤外線信号で搬送されたデータを赤外線検出器が受信し、適当な回路がこのデータをデータバス404上に置くことができる。バス404はデータを揮発性メモリ406に搬送し、このメモリからプロセッサ405は命令を検索して実行する。揮発性メモリ406によって受信された命令は任意選択的に、プロセッサ405による実行の前または後に固定記憶装置408に記憶され得る。これらの命令はまた、当分野では周知の種々のネットワークデータ通信プロトコルを使用してインターネットを介してコンピュータプラットフォーム401にダウンロードされ得る。
コンピュータプラットフォーム401はまた、データバス404に接続されたネットワークインタフェースカード413といった通信インタフェースを含む。通信インタフェース413は、ローカルネットワーク415に接続されたネットワークリンク414に双方向データ通信接続を与える。例えば通信インタフェース413は、対応するタイプの電話線にデータ通信接続を与えるための総合ディジタル通信網サービス(ISDN)カードまたはモデムであり得る。もう1つの例として通信インタフェース413は、互換性のあるLANにデータ通信接続を与えるためのローカルエリアネットワーク・インタフェースカード(LAN NIC)であり得る。周知の802.11a、802.11b、892.11gおよびブルートゥース(Bluetooth)といった無線リンクもまたネットワーク実現のために使用され得る。このようないずれの実現形態においても通信インタフェース413は、種々のタイプの情報を表すディジタルデータストリームを搬送する電気信号、電磁気信号または光信号を送受信する。
ネットワークリンク413は一般的には、1つ以上のネットワークを経由するデータ通信を他のネットワーク資源に与える。例えばネットワークリンク414は、ローカルネットワーク415を経由する接続をホストコンピュータ416またはネットワーク記憶装置/サーバ422に与え得る。更に、あるいは代替としてネットワークリンク414は、ゲートウェイ/ファイアウォール417を介してインターネットといったワイドエリアまたはグローバルネットワーク418に接続し得る。こうしてコンピュータプラットフォーム401は、リモートネットワーク記憶装置/サーバ419といった、インターネット418上のどこにでも配置されるネットワーク資源にアクセスできる。他方ではコンピュータプラットフォーム401はまた、ローカルエリアネットワーク415および/またはインターネット418上のどこにでも位置するクライアントによってアクセスされ得る。ネットワーククライアント420、421はそれら自身、プラットフォーム401に類似のコンピュータプラットフォームに基づいて実現され得る。
ローカルエリアネットワーク415とインターネット418は両者とも、ディジタルデータストリームを搬送する電気信号、電磁気信号または光信号を使用する。ディジタルデータをコンピュータプラットフォーム401に、またコンピュータプラットフォーム401から搬送する、種々のネットワークを経由する信号および通信インタフェース413を経由するネットワークリンク414上の信号は、情報を搬送する搬送波の一般的な形態である。
コンピュータプラットフォーム401は、インターネット418とLAN415、ネットワークリンク414と通信インタフェース413を含む種々のネットワーク(単数または複数)を経由してメッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例ではシステム401がネットワークサーバとして機能するとき、このシステムはインターネット418、ゲートウェイ/ファイアウォール417、ローカルエリアネットワーク415および通信インタフェース413を経由してクライアント(単数または複数)420および/または421上で動作するアプリケーションプログラムのために要求されたコードまたはデータを送信する可能性がある。同様にシステムは、他のネットワーク資源からコードを受信し得る。
受信されたコードは、それが受信されたときにプロセッサ405によって実行され得る、および/または後刻の実行のために固定記憶装置408または揮発性記憶装置406にそれぞれ、あるいは他の不揮発性記憶装置に記憶され得る。この仕方でコンピュータシステム401は、搬送波の形態でアプリケーションコードを取得できる。
図5は、どのようにコンピュータプラットフォーム401がテキスト音声変換(「TTS」)エンジンと連携して文書を視覚的にナビゲートするためのシステムに関係するかを示す。ここで図5は、図2Aで説明された表示装置104のメインビュー(主要表示域)122を示す。入力情報が表示装置104を介して与えられると、感知ユニット502は入力を感知してこれを処理ユニット504に転送する。それから処理ユニット504は、接続されたRAMまたはROM506に記憶された文書ナビゲーションアプリケーションと連携して情報を処理し、表示装置104を介してユーザが入力したコマンドを解釈する。例えば、ユーザがズーム領域実施形態を駆動するためのコマンドを入力したのであれば、処理ユニット504はTTSエンジン508の使用を介して文書テキストを可聴音に変換してこれをオーディオ出力ユニット510に転送し、それからこのオーディオ出力ユニット510はユーザのためにこの変換された可聴音を出力し始める。可聴音が出力されているとき処理ユニット504はまた、文書内のリンクされた領域の間でカーソルが動くときに、可視表示装置104のメインビュー122を調整するように表示コントローラ512に命令を転送する。この例のコンピュータプラットフォームによって本発明の他の実施形態も可能である。更にこのコンピュータプラットフォームは、表示装置を介してコマンドを受信することに限定されない。処理ユニットのためのコマンドを入力するために、前述のような他の入出力(I/O)装置514がコンピュータプラットフォームに取り付けられ得る。
最後に、ここで説明されたプロセスおよび技法が如何なる特定の装置にも本質的に関連付けられず、また構成要素の如何なる適当な組合せによってでも実現され得ることは理解されるべきである。さらにここで説明された教示にしたがって種々のタイプの汎用装置が使用され得る。ここで説明された方法ステップを実行するために専用の装置を構成することが好ましい可能性もある。本発明は、すべての点で限定的ではなく、例示的であるように意図された特定の例に関連して説明されてきた。当業者は、テキスト音声変換エンジンを用いた文書ナビゲーションのためのシステムおよび方法を実行するためにハードウエア、ソフトウエアおよびファームウエアの多くの異なる組合せが適当であることを認めるであろう。例えば、説明されたソフトウエアは、アセンブラ、C/C++、パール(perl)、シェル(shell)、PHP、ジャバ(Java(登録商標))などといった種々のプログラミング言語またはスクリプト言語で実現され得る。
本発明の種々の代表的実施形態が、ある程度の特殊性をもって上記に説明されてきたが、当業者は、本明細書と請求項とに記載された本発明の主題の精神または範囲から逸脱せずに、開示された実施形態に多数の修正を行うことができるであろう。ここで直接または間接的に述べられた方法論では種々のステップと動作が1つの可能な動作順序で説明されているが、当業者は、本発明の精神と範囲から必ずしも逸脱せずにステップおよび動作が再配列、交換または省略され得ることを認めるであろう。また説明された実施形態の種々の態様および/または構成要素は、文書表示およびナビゲーションシステムにおいて、単独に、あるいは任意の組合せにおいて使用され得る。上記の説明に含まれた、あるいは付属図面に示されたすべての事項は単に例示的であって限定的ではないと解釈されるべきであることが意図されている。
100 移動装置
102 文書ナビゲーションアプリケーション
104 表示装置
106 オーディオモジュール
108 スピーカ
114 リンキングモジュール
116 表示モジュール
124 TTSエンジン
132 報知モジュール

Claims (19)

  1. ユーザにテキスト文書を表示する表示手段と、
    前記テキスト文書のテキストを少なくとも1つの可聴音に変換するテキスト音声変換手段と、
    前記少なくとも1つの可聴音を前記ユーザに提示する音声手段と、
    前記可聴音に対応する前記テキスト文書の部分を表示する文書ナビゲーション手段と、
    を備える文書ナビゲーションシステムであって、
    関心領域を示すリンクを含む前記テキスト文書の部分を表示するときに、前記文書ナビゲーション手段が該リンクによって示される該関心領域を表示する、
    文書ナビゲーションシステム。
  2. 前記テキスト文書のテキストの少なくとも1つの部分から少なくとも1つの関心領域への、少なくとも1つのリンクを生成するリンキング手段をさらに備える、請求項1に記載の文書ナビゲーションシステム。
  3. 前記リンキング手段は、関心領域にリンクするテキストの部分を決定するために予め記憶されたリンク候補となり得るテキスト情報を使用する、請求項2に記載の文書ナビゲーションシステム。
  4. 前記関心領域は非テキストオブジェクトを含む、請求項1に記載の文書ナビゲーションシステム。
  5. 前記関心領域はテキストの部分を含む、請求項1に記載の文書ナビゲーションシステム。
  6. 前記リンクはハイパーリンクを含む、請求項1に記載の文書ナビゲーションシステム。
  7. 前記リンクはマクロを含む、請求項1に記載の文書ナビゲーションシステム。
  8. 前記テキスト音声変換手段が前記テキスト文書のテキストの部分を的確な音声に変換できるか否かを前記ユーザに報知する報知手段をさらに備える請求項1に記載の文書ナビゲーションシステム。
  9. 関心領域が前記リンク先から前記表示手段に完全にロードされた場合、前記ユーザに報知する報知手段をさらに備える請求項1に記載の文書ナビゲーションシステム。
  10. テキスト文書をユーザに表示し、
    テキスト音声変換手段によって前記テキスト文書のテキストを少なくとも1つの可聴音に変換し、
    少なくとも1つの前記可聴音を前記ユーザに提示し、
    前記可聴音に対応する前記テキスト文書の部分を表示する、
    テキスト音声変換手段を用いた文書ナビゲーション方法であって、
    関心領域を示すリンクを含む前記テキスト文書の部分が表示されるとき、該リンクによって示される該関心領域をさらに表示する、
    文書ナビゲーション方法。
  11. 前記テキスト文書のテキストの少なくとも1つの部分から少なくとも1つの関心領域への少なくとも1つのリンクを生成することをさらに含む、請求項10に記載の文書ナビゲーション方法。
  12. 関心領域にリンクするテキストの部分を決定するために予め記憶されたリンク候補となり得るテキスト情報を使用する、ことをさらに含む、請求項11に記載の文書ナビゲーション方法。
  13. 前記関心領域として非テキストオブジェクトを選択することをさらに含む、請求項10に記載の文書ナビゲーション方法。
  14. 前記関心領域としてテキストの部分を選択することをさらに含む、請求項10に記載の文書ナビゲーション方法。
  15. テキスト文書のテキストの少なくとも1つの前記部分を少なくとも1つの前記関心領域にリンクするためにハイパーリンクを用いることをさらに含む、請求項10に記載の文書ナビゲーション方法。
  16. テキスト文書のテキストの少なくとも1つの前記部分を少なくとも1つの前記関心領域にリンクするためにマクロを用いることをさらに含む、請求項10に記載の文書ナビゲーション方法。
  17. 前記テキスト音声変換手段が前記テキスト文書のテキストの部分を的確な音声に変換できるか否かを前記ユーザに報知することをさらに含む、請求項10に記載の文書ナビゲーション方法。
  18. 関心領域が前記リンク先から前記表示手段に完全にロードされた場合、前記ユーザに報知することをさらに含む、請求項10に記載の文書ナビゲーション方法。
  19. テキスト文書を表示する機能と、
    前記テキスト文書のテキストを少なくとも1つの可聴音に変換する機能と、
    少なくとも1つの前記可聴音を前記ユーザに提示する機能と、
    前記可聴音に対応する前記テキスト文書の部分を表示する機能と、
    をコンピュータに実現させる文書ナビゲーションプログラムであって、
    関心領域を示すリンクを含む前記テキスト文書の部分が表示されるとき、該リンクによって示される該関心領域をさらに表示する、
    文書ナビゲーションプログラム。
JP2009167651A 2008-10-24 2009-07-16 文書ナビゲーションのシステム、方法およびプログラム Pending JP2010102302A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/258,303 US8484028B2 (en) 2008-10-24 2008-10-24 Systems and methods for document navigation with a text-to-speech engine

Publications (1)

Publication Number Publication Date
JP2010102302A true JP2010102302A (ja) 2010-05-06

Family

ID=42118357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009167651A Pending JP2010102302A (ja) 2008-10-24 2009-07-16 文書ナビゲーションのシステム、方法およびプログラム

Country Status (2)

Country Link
US (1) US8484028B2 (ja)
JP (1) JP2010102302A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014163902A1 (en) * 2013-03-11 2014-10-09 Dunn Randy Audible content delivery system
JP2019149101A (ja) * 2018-02-28 2019-09-05 シナノケンシ株式会社 電子図書閲覧プログラム及び電子図書閲覧装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5899743B2 (ja) * 2011-09-21 2016-04-06 富士ゼロックス株式会社 画像表示装置及び画像表示プログラム
CN104966084A (zh) * 2015-07-07 2015-10-07 北京奥美达科技有限公司 一种基于ocr和tts的低视力阅读助视系统
US9864925B2 (en) * 2016-02-15 2018-01-09 Ebay Inc. Digital image presentation
US11393451B1 (en) * 2017-03-29 2022-07-19 Amazon Technologies, Inc. Linked content in voice user interface
CN110858895B (zh) * 2018-08-22 2023-01-24 虹软科技股份有限公司 一种图像处理方法和装置
CN112000495B (zh) * 2020-10-27 2021-02-12 博泰车联网(南京)有限公司 用于兴趣点信息管理的方法、电子设备和存储介质
CN114513527B (zh) * 2020-10-28 2023-06-06 华为技术有限公司 信息处理方法、终端设备及分布式网络

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832432A (en) * 1996-01-09 1998-11-03 Us West, Inc. Method for converting a text classified ad to a natural sounding audio ad
US20020002458A1 (en) * 1997-10-22 2002-01-03 David E. Owen System and method for representing complex information auditorially
US6085161A (en) * 1998-10-21 2000-07-04 Sonicon, Inc. System and method for auditorially representing pages of HTML data
US6466909B1 (en) * 1999-06-28 2002-10-15 Avaya Technology Corp. Shared text-to-speech resource
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
AU2002228750A1 (en) * 2000-11-06 2002-05-15 Invention Machine Corporation Computer based integrated text and graphic document analysis
US6728681B2 (en) * 2001-01-05 2004-04-27 Charles L. Whitham Interactive multimedia book
US7194411B2 (en) * 2001-02-26 2007-03-20 Benjamin Slotznick Method of displaying web pages to enable user access to text information that the user has difficulty reading
US6941509B2 (en) * 2001-04-27 2005-09-06 International Business Machines Corporation Editing HTML DOM elements in web browsers with non-visual capabilities
JP2003016008A (ja) * 2001-07-03 2003-01-17 Sony Corp 情報処理装置および情報処理方法、並びにプログラム
US8826137B2 (en) * 2003-08-14 2014-09-02 Freedom Scientific, Inc. Screen reader having concurrent communication of non-textual information
US20050197837A1 (en) * 2004-03-08 2005-09-08 Janne Suontausta Enhanced multilingual speech recognition system
US20060271366A1 (en) * 2005-05-31 2006-11-30 Bruckman Ronald S Synthesized speech based testing
WO2007007193A2 (en) * 2005-06-06 2007-01-18 Texthelp Systems Ltd. A system and method for converting electronic text to a digital multimedia electronic book
US20090157407A1 (en) * 2007-12-12 2009-06-18 Nokia Corporation Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files
US20090204243A1 (en) * 2008-01-09 2009-08-13 8 Figure, Llc Method and apparatus for creating customized text-to-speech podcasts and videos incorporating associated media
US8996376B2 (en) * 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014163902A1 (en) * 2013-03-11 2014-10-09 Dunn Randy Audible content delivery system
JP2019149101A (ja) * 2018-02-28 2019-09-05 シナノケンシ株式会社 電子図書閲覧プログラム及び電子図書閲覧装置

Also Published As

Publication number Publication date
US8484028B2 (en) 2013-07-09
US20100106506A1 (en) 2010-04-29

Similar Documents

Publication Publication Date Title
JP2010102302A (ja) 文書ナビゲーションのシステム、方法およびプログラム
AU2004218693B2 (en) Sequential multimodal input
JP5956725B2 (ja) コンテキスト認識型ヘルプ・コンテンツを提供する方法、デバイス、及びコンピュータ・プログラム製品
KR101716013B1 (ko) 다수의 언어들에 대한 콘텐츠의 음성 합성 처리
US7212971B2 (en) Control apparatus for enabling a user to communicate by speech with a processor-controlled apparatus
JP4006395B2 (ja) 情報処理装置及びその制御方法、プログラム
JP5556911B2 (ja) コンテンツ表現を作成する、方法、プログラム、及びシステム
JP5653392B2 (ja) 音声翻訳装置、方法およびプログラム
EP3226159A1 (en) System and method for managing browsing histories of web browser
US20110214056A1 (en) Accessory Protocol For Touch Screen Device Accessibility
JP2004310748A (ja) ユーザ入力に基づくデータの提示
KR20170014353A (ko) 음성 기반의 화면 내비게이션 장치 및 방법
JP2011165182A (ja) ハイパーリンク選択方法及び装置
JP2005149485A (ja) 逐次的なマルチモーダル入力
US20040044523A1 (en) Information processing apparatus and method, and program
EP1569142A2 (en) Hypertext navigation for shared displays
US20080201666A1 (en) Webpage presentation method for mobile phone
JP2014049140A (ja) 使用者デバイスで入力文字を利用した知能型サービス提供方法及び装置
US8370131B2 (en) Method and system for providing convenient dictionary services
JP2003157167A (ja) マルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラム
JP2013097535A (ja) 電子機器および表示制御方法
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
KR100491613B1 (ko) 웹문서의 클로즈업 기능을 구비한 정보통신기기와 이것을 이용한 웹문서의 디스플레이 방법 및 그 방법을 기록한 기록매체
JP2008040373A (ja) 音声ガイダンスシステム
JP2001075968A (ja) 情報検索方法及びそれを記録した記録媒体