JPH0644325A - A−v知覚可能情報セグメントのアクセス方法 - Google Patents

A−v知覚可能情報セグメントのアクセス方法

Info

Publication number
JPH0644325A
JPH0644325A JP4309723A JP30972392A JPH0644325A JP H0644325 A JPH0644325 A JP H0644325A JP 4309723 A JP4309723 A JP 4309723A JP 30972392 A JP30972392 A JP 30972392A JP H0644325 A JPH0644325 A JP H0644325A
Authority
JP
Japan
Prior art keywords
information
representation
segment
perceptible
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4309723A
Other languages
English (en)
Other versions
JP3298676B2 (ja
Inventor
David S Fox
エス.フォックス デヴィッド
Hosagrahar V Jagadish
ヴィ.ジャガディシュ ホサグラハー
Lawrence O'gorman
オゴーマン ローレンス
Guy A Story
エー.ストーリー ガイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=25127343&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JPH0644325(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPH0644325A publication Critical patent/JPH0644325A/ja
Application granted granted Critical
Publication of JP3298676B2 publication Critical patent/JP3298676B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【目的】 従来の物理的ライブラリーの対話機能を忠実
に真似る電子ライブラリーを提供する。 【構成】 本発明の電子ライブラリーは、電子ユーザー
インタフェースとユーザーとのやりとりを処理し、ユー
ザーの要求に答えるプロセッサとデータ記憶装置とから
なる。記憶されたデータは、このシステムにより走査処
理され、記憶される情報セグメントから導かれる。要求
されたときにユーザーに情報の走査セグメントが提供さ
れる。これらのセグメントは、ビジュアルイメージの他
に、オーディオ源のデジタル化セグメントでもある。要
求によりユーザーに表示される記憶情報セグメントに加
えて、同じデータの翻訳バージョンもデータ記憶装置に
格納される。翻訳バージョンは、表示可能情報の瞬時に
翻訳可能なバージョンと、表示可能情報の様々なバージ
ョンを形成する加工情報とを含む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は電子ライブラリーに関す
る。更に詳細には、本発明は情報を電子的に記憶し、検
索することに関する。一層具体的には、本発明は、コン
ピュータ内にドキュメントおよびその他のオーディオビ
ジュアル情報セグメントを記憶し、そして、ユーザーの
質問に答えてこれらのドキュメントを検索することに関
する。
【0002】
【従来の技術】この10年ほどの間、電子ライブラリー
は思慮深い図書館員、記者およびコンピュータ科学者に
とって長年の念願であった。例えば、ワールドブレイン
(WorldBrain)のエッチ・ジー・ウエルズ(H.G.Wells) に
より1936年に上演された“世界情報独占(world inf
ormation monopoly)”、バネバー・ブッシュ(Vannervar
Bush) の傑作記事「アズ ウイ メイ シンク(As We M
ay Think) 」で彼が1945年に記述した「メメックス
(MEMEX) 」などである。
【0003】ネクシース(NEXIS) およびニュースネット
(NEWSNET) のようなフルテキストデータベースを現在利
用できる。これらはテキスト情報を提供するので、NE
XISおよびNEWSNETは“ライブラリー”と見做
すことができる。例えば、NEXISの場合、大量の情
報を極めて短時間に集めることができることは驚異的で
ある。従って、このようなデータベースは極めて強力で
あるばかりか、貴重な資源である。しかし、このような
データベースはピクチャ、グラフなどを記憶、サーチ、
検索および表示することができない。このため、これら
のデータベースは拾い読みのための快適な環境を提供し
ない。
【0004】NEXISで見られるような、テキストの
アスキー(ASCII) 表示は、オリジナルプリントテキスト
が開示した情報の全部を伝達できない。起こり得る転写
エラーを無視すれば、オリジナルプリントテキストが廃
棄された場合、若干の情報は伝達できない。前記のピク
チャの他に、アクセント符号および強調符号も失われ、
更に数式でしか使用されない記号が表示できないので、
数式を完全に理解することは殆ど不可能である。
【0005】また、かなりの量の情報が所定の頁のテキ
ストの適所(例えば、ビジネスレター)に含まれている
が、このような情報はNEXISのようなシステムでは
失われてしまう。成文語は数世紀もの間使用されてきて
おり、読者により簡単に認識され、理解される書式フォ
ーマットが何年にもわたって採用されてきた。これらの
フォーマットは情報を効率的に伝達するのに改善され続
けてきた。
【0006】従って、僅かなスペースであっても、或る
情況では、判読不能な走り書きまたは全文のような多量
の情報を伝達することができる。例えば、行頭および文
の前のかなりのスペースはパラグラフの区切りとして認
識され、このスペースは読者に新たな思考を向けるよう
に呼びかけている。レターの末尾の走り書きは、たとえ
この走り書きの文字のうちの一部が判読できなかったと
しても、このレターの送り主の署名がなされていること
を示す。
【0007】更に、読者が規則正しく読める特定のタイ
プのドキュメントは、単に情報の位置に基づいて、また
は、他の何らかの印(例えば、メモの最も大きなパラグ
ラフ、メモの最も短いパラグラフ、または下線の引かれ
た文章など)により、ドキュメントの最も重要な部分に
簡単に飛ぶことができる。NEXISのようなシステム
ではこのような便利な機能は殆ど失われてしまう。
【0008】最後に、読者は新聞、雑誌および本のあり
ふれたフォーマットに非常に満足しているという事実を
過小評価すべきではない。このような親しみはNEXI
Sのようなデータベースでは殆ど失われている。
【0009】最近、UMIにより導入されたようなCD
−ROMによる市販のイメージデータベースは、記憶さ
れた頁のイメージを提供できる点で、電子ライブラリー
に非常に近い。このCD−ROMは記憶イメージにテキ
ストと画像の両方を包含させることができる。しかし、
このシステムは、キーワードサーチ能力を付与するため
に記憶イメージのマニュアル要約化および索引付けが必
要なので、サーチおよび検索能力が極めて低い。
【0010】光学式文字認識(OCR)技術では、テキ
ストの頁を走査し、頁内に含まれる印刷アスキー(ASCI
I) 文字を識別し、更に、これらの文字のフォントおよ
びサイズを識別することができるOCRシステムを現在
購入することができる。一般的に、このOCRシステム
はプロセッサによりコントロールされ、OCR認識アル
ゴリズムを実行する(かなり進んだ)プログラムは、文
字が認識困難な場合に、辞書を調べる。このOCRシス
テムの最終結果は、プログラムができる最良の形態とし
て、テキストの走査頁をアスキー形態に変換することで
ある。そして、このアスキー形態はシステムのメモリに
記憶される。要求されたときに、アスキーテキスト(良
いものは良いなりに、あるいは、悪いものは悪いなり
に)はユーザーに表示される。走査イメージはキープさ
れない。
【0011】
【発明が解決しようとする課題】これらの様々な能力の
全てを利用できるとしても、従来のライブラリーの機能
にほぼ等しい単一のシステムは未だ開発されていない。
【0012】従って、本発明の目的は従来の物理的ライ
ブラリーの対話機能を忠実に真似る電子ライブラリーを
提供することである。
【0013】
【課題を解決するための手段】本発明は物理的ライブラ
リーの対話モードを忠実に真似る電子ライブラリーを実
現するための手段を提供する。特に、本発明の電子ライ
ブラリーは電子的に走査可能なイメージ情報を維持し、
ユーザーの要求に答えてオーディオビジュアルイメージ
をユーザーに配送する。
【0014】本発明によれば、電子ライブラリーは電子
ユーザーインタフェース(例えば、コンピュータスクリ
ーン、スピーカー、マウスおよび/またはキーボー
ド);ユーザーとのやりとりを処理し、ユーザーの要求
に答えるためのプロセッサ;およびデータ記憶装置から
なる。記憶されたデータは、このシステムにより走査さ
れ、処理され、そして、記憶される情報セグメントから
導かれる。要求されたときにユーザーに提供されるもの
は情報(またはその一部)の走査セグメントである。
【0015】これらのセグメントは、定期刊行物、新
聞、レター、雑誌、地図、グラフなどのイメージであ
り、また、これらのセグメントはスピーチ、音楽および
その他のオーディオ源のデジタル化セグメントであるこ
ともできる。要求によりユーザーに表示される記憶情報
セグメントに加えて、同じデータの翻訳バージョンもデ
ータ記憶装置に格納される。翻訳バージョンは、表示可
能情報の瞬時に翻訳可能なバージョンと、表示可能情報
の様々なバージョンを形成する加工情報とを含む。この
加工は、表示可能情報に構文的論理構造を賦課する。そ
れは、電子的にサーチすることができるデータ源を形成
する、データの翻訳バージョンである。
【0016】
【実施例】以下、図面を参照しながら本発明を更に詳細
に説明する。
【0017】図1は本発明による電子ライブラリーシス
テムの全体図である。要素100はユーザーインタフェ
ースを形成する、コンピュータスクリーン/キーボード
/スピーカー/プリンタ集成装置である。ユーザーはキ
ーボード(またはマウス)を介して、システムに直接指
示を出し、質問事項をサーチすることができる。そし
て、このシステムは、(データが視覚的なものであれ
ば)スクリーン上に情報を表示するか、またはプリンタ
ーで印刷して打ち出し、(情報が音声的なものであれ
ば)スピーカを通して情報を出力することにより応答す
る。
【0018】要素100はプロセッサ101に接続され
ている。プロセッサ101はメモリ102と相互作用す
る。メモリ102は走査され、デジタル化されたセグメ
ントのデータベースを1個以上含有している。ブロック
103および104はメモリ102内に記憶された2個
のセグメントを示す。
【0019】メモリ102内に記憶される情報のタイプ
は多種多様である。情報は、NEXISデータベースに
記憶された情報に類似する全てのテキストであることも
でき、雑誌類のような、ピクチャが一緒に混載されたテ
キストであることもでき、チャート、グラフ、写真など
のような、主にピクチャからなる情報であることもで
き、また、スピーチまたは音楽であってもかまわない。
メモリ102内に記憶されるデータベースは2個以上で
あることもでき、このデータベースは類似のタイプの情
報を記憶する必要はない。
【0020】図1はデジタル化セグメント103と10
4の2個だけを示している。このセグメントは互いに近
くに並べて示されている。これは複数個のセグメントが
メモリ102内に記憶されていることを示唆している
が、メモリ内にセグメントを記憶させる方法あるいはど
のような情報を示すかについては記載していない。
【0021】特定のデータベースに記憶される情報は階
層構造に記憶させることが好ましい。例えば、特定の関
心分野の技術定期刊行物のデータベースを形成すること
ができる。このようなデータベースの場合、最高階層レ
ベルで特定の定期刊行物が識別される。次の(低い)レ
ベルで、選択された定期刊行物の種々の発行物が識別さ
れる。その次のレベルで、選択された発行物の種々の記
事が識別される。更に低いレベルで、選択された記事の
種々の頁が識別される。最低レベルで、恐らく、種々の
パラグラフが識別される。
【0022】本明細書における“セグメント”という用
語は、この用語が使用されている文脈に適合するように
使い分けられる。例えば、記事のコレクションから特定
の記事を選択するためにシークする場合、記事が“セグ
メント”である。記事内の特定の頁をサーチする場合、
頁が“セグメント”である。しかし、大抵の場合、“セ
グメント”という用語は、メモリ102内に記憶されて
いる情報量およびブロックとしてユーザーに提供できる
(または提供しようとする)情報量を意味する。情報が
画像である場合、“セグメント”という用語は集成装置
100のスクリーン上にぴったりと収まる情報を意味す
る。
【0023】図1に示されるように、情報の3枚の面が
各デジタル化セグメントに付属している。第1面は走査
セグメント自体(例えば、ブロック103および10
4)のデジタル化表示を含む。第2面はデジタル化イメ
ージで見いだされる基本情報(ブロック113および1
14で示されている)を含む。第3面は基本情報群を識
別するマクロ情報(ブロック123および124で示さ
れている)を含む。
【0024】デジタル化および走査セグメントが雑誌か
らの画像である場合、第2面の基本情報エンティティは
文字、線、記号などである。第3面のマクロ要素は表
題、作者名、日付け、ピクチャブロックなどのような論
理群である。第2面および第3面の“情報”は一組の翻
訳情報を形成する。すなわち、ブロック113および1
23の情報はブロック102の情報の翻訳または変換を
含む。
【0025】図2は、図1について記載したようなデー
タベースから情報を誘導する、情報検索処理の一般的な
流れ図である。ブロック200において、ユーザーはシ
ステムに質問を入力する。このような質問はコンピュー
タスクリーン上でアイコンを選択するか、または、質問
を実際にタイプすることにより定式化することができ
る。この工程は全く従来通りである。
【0026】サーチ要求を受信すると、サーチ要求に適
合する情報セグメントについて、ブロック102は翻訳
面内を(例えば、ブロック113,114,123およ
び124内の情報により)サーチする。サーチされるセ
グメントのタイプはサーチ質問の一部としてユーザーに
より特定化することができる。あるいは、質問内で特定
されたサーチタイプに応じた何らかのデフォルトセグメ
ントタイプであることもできる。
【0027】サーチ質問を定式化することができる別の
方法は、イメージを表示するスクリーン上の領域を指摘
し、強調することからなる。領域を識別する機構は周知
である。例えば、市販されている多数のワードプロセッ
サプログラム中に見いだすことができる。すなわち、カ
ーソルをテキストのラインに合わせ、カーソルを“引い
て”ラインの一部分または複数のラインを強調する。
【0028】しかし、違いは、スクリーン上に示された
イメージは記憶情報の翻訳であり、“強調”されてい
る、またはリンクされているものは記憶情報である、と
いうことである。本発明によれば、走査イメージは表示
されているものであり、強調されているのは走査イメー
ジ部分であり、そして、翻訳イメージに対するリンクが
識別される。質問は翻訳イメージが含有するものについ
て実行される。
【0029】ブロック201により行われるサーチは或
る数の“ヒット”を生じる。このヒット数が1以上であ
る場合、ブロック202は第1面の識別セグメントおよ
び第2面および第3面の翻訳セグメントに対してポイン
タを記憶する。その後、ブロック204および205に
より表示工程を実施する。特に、ブロック202が2個
以上の“ヒット”を含む場合、ブロック204はブロッ
ク202により指摘されたデジタル化セグメントのうち
の一つを表示し、そして、ユーザーの入力を待つ。ブロ
ック205はユーザーの指示に応答する。ユーザーが次
のサーチ結果の表示を指示する場合、制御信号はライン
206によりブロック204に通され、もう一つの指摘
デジタル化セグメントを表示する。ユーザーが新たなサ
ーチを要求する場合、制御信号はライン207を介して
ブロック200に戻される。
【0030】図3は例えば、ノートブックからの頁のビ
デオ情報の3枚の面の一例を示す。フレーム105とし
て示される第1面は、この頁上のテキストである、文字
“ABC”と、“ABC”の少し下の右側に2本の対角
線と、この対角線の下で、頁の中央の“E=mc2 ”の
方程式と、最後に、この方程式の下のグレースケールピ
クチャを含む。図3のフレーム105は人間の目で認識
可能に図示されているが、実際には、情報は、特定の暗
さレベルの個別画素のブロックとしてメモリ102内に
記憶されている。(別法として、記憶を減らすために、
画素は周知の方法により符号化することができる。)
【0031】ブロック105のデータに関連するデータ
を有し、106でマークされた第2面は、105のデジ
タル化イメージ内に含まれる情報を、イメージが含まれ
る基本情報エンティティの形で記憶させることができる
方法の一例を例証する。基本情報エンティティのうちの
一つは“非認識ボックス”である。このエンティティは
ピクチャばかりでなく、頁上のその他のマーク類(例え
ば、非認識文字、記号、走り書き、いたずら書き等)も
含むことができる。或る実施例では、この基本情報エン
ティティは全ての手書き文字(例えば、署名)も含むこ
とができる。
【0032】第1面および第2面に関連するデータを有
し、107でマークされる第3面はイメージ内に存在す
るマクロ要素またはブロックを含む。図3において、フ
レーム107は4個の項目しか有しない。一つはテキス
ト用であり、一つは対角線用であり、一つは方程式用で
あり、一つはピクチャ用である。テーブル108はポイ
ンタのテーブルである。このポインタテーブルは、フレ
ーム107の論理頁ブロックをフレーム106の基本情
報エンティティおよびフレーム105のデジタル化セグ
メントへ結び付ける。
【0033】図2および図3に関連して前記に述べたサ
ーチスキーマを実現するための実際のプログラムは完全
に常用技術である。市販のデータベース管理プログラム
の殆どのものは、翻訳セグメントを識別し、そして、翻
訳セグメントに付随するデジタル化セグメントを表示す
る本発明のこの機能を組み込ませるために増大させるこ
とができる。例えば、適当なプログラムモジュールを付
加することにより増大させることができる。
【0034】一層挑戦的なタスクは、翻訳された面を生
の走査データから作成することである。この方法の概要
を図4に示す。この方法は、ブロック301の走査イメ
ージ出力から分岐する2本の平行なパスからなる。この
うちの1本のパスはブロック302と303を含み、他
のパスはブロック304を含む。
【0035】イメージ区分化ブロック302は、常用の
光学式文字認識装置(OCR)では認識出来ないブロッ
ク301の走査イメージ出力内のエリアを識別する。ブ
ロック302の目的は、OCRブロックにより識別でき
る情報を含んでいないイメージエリアを次のOCRブロ
ック(303)による考慮から除去することである。ど
のような方法によっても、このようなエリアを発見する
必要がある。成果の無い分析のためにOCRブロックを
煩わせるのは無意味である。
【0036】図3のケースでは、ブロック302のタス
クは第1面105内の線およびグレースケールピクチャ
を識別することである。これはイメージのテクスチャー
分析により行われる。この分析により、領域のタイプを
決定し、そして、それを、空白、テキスト、線、図、方
程式(または非アスキー要素の記号的な線)、ラインセ
グメンター、バイナリーピクチャ、乱雑なピクチャ、グ
レースケールピクチャおよび彩色ピクチャとして分類す
る。
【0037】テクスチャー分析は図5に示されるよう
に、グレースケールイメージ上で行うことができる。ブ
ロック400では、イメージは、最も普遍的に表れる文
字サイズよりも若干大きなサイズの、連続的で非重複的
なウインドウに分割される。ブロック410では、各ウ
インドウ内の画素を試験し、ウインドウ内のエントロピ
ー(無秩序または変動の尺度)を決定する。エントロピ
ー尺度が低い領域はバイナリーウインドウとしてラベル
される(このウインドウは文字または線図の一部分のう
ちの何方かを有することを示唆する)。
【0038】エントロピー尺度が高い領域はグレースケ
ールピクチャウインドウとしてラベルされる。ブロック
420では、ブロック410により各ウインドウに付さ
れたラベルを、各ウインドウの最も近い8個の隣接部に
基づいて再検討し、必要に応じて訂正する。個々のウイ
ンドウを訂正し、同じラベルを有する隣接のウインドウ
が、領域情報により優先的に知られる、分析中の特定の
頁に適当な予想形状(通常は矩形)およびサイズを有す
る領域を形成する。
【0039】バイナリーラベルの付されたウインドウ
(および領域)はブロック430に向けられる。ここ
で、入力は2値化される。すなわち、高および底グレー
スケール値の範囲内の中間値に関する閾値により1また
は0にセットされる。
【0040】ブロック430の出力はブロック440に
入力される。ここで、バイナリーラベルは次のようにし
て精密化される。
【0041】・ウインドウ内の1値画素の割合が高く、
8個の隣接部が0値である場合、ウインドウは乱雑なウ
インドウとしてラベルされる。 ・1値の接合(隣接)ウインドウが1個または数個しか
なく、1〜0値画素の割合が約1/16〜1/8である
場合、ウインドウはテキストウインドウとしてラベルさ
れる。 ・1値の接合(隣接)ウインドウが1個または数個しか
なく、1〜0値画素の割合が約1/16未満である場
合、ウインドウは線図ウインドウとしてラベルされる。 ・1値画素がウインドウ内に存在しない場合、ウインド
ウは空ウインドウとしてラベルされる。 ・1値画素しか存在しない場合、ウインドウはバイナリ
ーピクチャウインドウ(黒)としてラベルされる。
【0042】ブロック440の出力はブロック450に
入力される。ここで、ブロック440により各ウインド
ウに付されたラベルを、各ウインドウの最も近い8個の
隣接部に基づいて再検討し、必要に応じて訂正する。ブ
ロック420における場合と同様に、個々のウインドウ
を訂正し、同じラベルを有する隣接のウインドウが、領
域情報により優先的に知られる、分析中の特定の頁に適
当な予想形状(通常は矩形)およびサイズを有する領域
を形成する。最後に、ブロック420のグレースケール
出力およびブロック440の出力を合わせ、ブロック4
60においてフォマット化し、ブロック302の“第2
面”出力を発生し、そして、ブロック470において、
OCRブロック303用のマスクを形成する。
【0043】従って、ブロック302は走査イメージ中
の非認識セグメントを識別し、イメージの特定領域を4
視するようにOCRブロック303に指示するテンプレ
ートを創出する。
【0044】ブロック302に続くブロック303は常
用のOCRブロック(例えば、セレラ(Celera)RS−9
000)であり、フレーム105の文字を識別する。イ
メージ区分化ブロック302とOCRブロック303の
結合出力はフレーム106を構成する。ブロック303
の出力は第2面情報である。
【0045】図6は図3のブロック304で行われる処
理の一層詳細な流れ図である。ブロック305はブロッ
ク301の走査イメージ情報を受取り、その情報を分析
し、結合成分を識別する。ブロック305により創出さ
れた結合成分のセットはブロック306に出力され、各
ブロックのK−最接近隣接部を決定する。ブロック30
6で行われ、そして、ブロック307に供給される分析
の結果は、イメージ成分を併合させ、論理ブロックを作
成する。
【0046】最後に、ブロック307により創出された
論理ブロックは、ブロック308内の構文解析処理によ
り分析され、走査イメージ内に含まれる情報の構文区分
化が得られる。構文区分化は、ブロック309により供
給された情報によりガイドされる。これは走査イメージ
のフォーマットの先行知識から導かれる。
【0047】走査イメージにおける結合成分を決定する
タスク(例えば、ブロック305のタスク)は次のよう
にして実行できる。第1に、イメージ内の全ての画素を
検討する。そして、“ON”値を有する全ての画素(す
なわち、予め選択された暗さレベルよりも暗い画素)に
ついて、その最も近い8個の画素(N,S,E,W,N
W,NE,SW,SE)のうちの1個以上の画素が“O
FF“値を有するか否かを決定する。
【0048】もし有するならば、中心画素を“輪郭”画
素としてラベルする。この後、発見された輪郭画素の隣
を別の輪郭画素が発見されるまで、任意の順序(行−列
または列−行)でイメージ画素を最初にサーチすること
により、輪郭を鎖にリンクする。輪郭画素が発見された
ら、一つの輪郭画素から隣の輪郭画素まで輪郭をたど
り、このような各画素を消去(すなわち、非輪郭値にセ
ット)し、明確な結合成分数(インデックス)によりラ
ベルされるベクトル内の各輪郭画素の位置を記憶する。
このベクトルは結合成分(例えば、文字)を明示する。
【0049】隣接輪郭画素がゼロになるまでベクトルの
占拠を続けさせる。その後、別の輪郭画素を発見し、新
たな結合成分を識別する。輪郭画素がゼロになるまで結
合成分の識別処理を繰り返す。最後に、各結合成分の重
心を決定し、各結合成分の重心の位置(xおよびy位
置)を記憶する。重心のx位置は、結合成分内の全ての
輪郭画素の水平位置を加え、そして、このような画素の
数で前記合計値を割ることにより決定される。同様に、
重心のy位置は結合成分内の全ての輪郭画素の垂直位置
を加え、そして、このような画素の数で前記合計値を割
ることにより決定される。
【0050】K−再接近隣接部分析(ブロック306)
は、K(一般的に、3,4または5)および各結合成分
に関する値を選択し、結合成分の重心から他の各成分の
重心までの最小ユークリッド距離を見つけ出すことによ
り実行できる。再接近K隣接部は識別され、そのインッ
デクスは、結合成分に関連して、各々の距離および角度
と共に記憶される。この処理の結果を下記の表1に要約
して示す。
【0051】
【表1】
【0052】結合成分を併合し、セグメントブロック
(ブロック307)を作成するために、先ず最初に、イ
メージのスキュー角度、文字間間隔、単語間間隔および
行間間隔を決定しなければならない。
【0053】スキュー角度は、全ての隣接対の角度のヒ
ストグラムから、これら全ての隣接対のピーク角度を見
つけ出すことにより決定される。
【0054】文字間間隔は距離範囲群内の対をグループ
化することにより決定される。隣の文字に対応する対
は、或る範囲内で小さな距離を有する。これらの対は最
も稠密な群を形成する。この群内の距離を平均化すると
名目文字間間隔が得られる。僅かに大きな平均距離の範
囲内の対群は或る単語の末尾と次の単語の頭部との文字
対である。この群の距離を平均化すると名目単語間間隔
が得られる。
【0055】行間間隔は、スキュー角度に対する角度が
45°よりも大きい全ての対を識別し、そして、このよ
うな対の全てについて、最も頻度の高い平均距離を見つ
け出すことにより決定される。最も頻度の高い平均距離
を見つけ出すとは、対距離を距離範囲内にグループ化す
ることができることを観察し、最大数の対を含む群を識
別し、そして、この群について平均対距離を演算するこ
とを意味する。これが行間間隔である。
【0056】前記の説明から、“単語”は、角度がスキ
ュー角度の45°の範囲内であり、対距離が文字間間隔
の選択公差の範囲内である結合成分対の群であることが
容易に理解できる。テキストの“行”は、角度がスキュ
ー角度の45°の範囲内であり、距離が単語間間隔の選
択公差の範囲内である結合成分対の群である。“テキス
トのブロック”は、平均行間間隔が行間間隔の選択公差
の範囲内であるテキストの複数行である。
【0057】図3に示されているように、“単語”、
“行”および“ブロック”は、結合成分および空間的な
同等の情報に対するポインタと共に、翻訳された第3面
に記憶される。
【0058】ブロック307内で識別されたセグメント
ブロックはブロック308内で構文解析され、セグメン
トの論理ブロックを作成する。ブロック308内で行わ
れる処理は、「イメージを解剖する方法および装置」と
いう名称で米国特許出願第07/720318号明細書
に詳細に開示されている。この構文解析を行うために、
ブロック308はブロック309により供給される“定
義域−依存性”情報を使用する。
【0059】ブロック309の情報はユーザーにより提
供される。この情報は例えば、「日付は頁の上部から約
2インチのところに見いだされ、これは2インチよりも
短いテキストブロックであり、その左側に対して少なく
とも4インチの余白を有する」と述べることができる。
また同様に、「主題はインデントされたテキストブロッ
クであり、“Dear”で始まる行の下にあり、“R
e”で書き始められる」などのように述べることもでき
る。これは、“往復文書(コレスポンデンスレター)”
を形成する頁の特徴を記載する情報である。
【0060】情報が構文解析され、そして、図3のブロ
ック107が論理ブロックを特定する情報で占められた
ら、情報の3枚の面の異なる要素間でリンクを起こさせ
なければならない。これは下記に説明するように簡単な
方法により行われ、結果は表108内に配置される。
【0061】最初の情報は:第1面上の各画素の調整;
結合成分のボックスまたは輪郭の境界の調整(これは、
前記で説明した第2面の基本エンティティである);お
よび、第3面のブロックの調整である。従って、第2面
および第3面は第1面にリンクされる。第2面および第
3面をリンクするためには、基本エンティティボックス
と第3面内のブロックとの間の重複について第2面内の
各基本エンティティをテストするだけでよい。基本エン
ティティがブロックと重複している場合、ポインタは基
本エンティティからブロックまで作成される。逆もまた
同じである。これらのポインタは図3の表108に示さ
れている。
【0062】前記のように、サーチを行う機構の観点か
ら、図1の集成装置で特定の情報をサーチすることはか
なり当たり前のことである。すなわち、ブロック106
および/または107内でサーチを行うために、様々な
データベース管理プログラムを簡単に注文通りに作るこ
とができる。しかし、図1の集成装置の特別な構造のた
めに、全体の効果は極めて強力である。
【0063】例えば、データベースの階層構造により利
用可能になる能力は別として、ブロック308の処理に
より行われる構文解析は、サーチおよび検索セッション
の最中に使用される情報の価値を創造する。例えば、往
復文書のデータベースでは、ブロック309における定
義域−依存性情報はレターの宛先、レターの日付、レタ
ーの“Re”行、送り主、およびおそらくは送り主の会
社名などをを容易に識別することができる。従って、サ
ーチはこれらのカテゴリーのうちの何れか一つについて
行うこともできる。
【0064】実際、カテゴリーの識別は構文解析処理に
より自動化され、サーチカテゴリーは自然に到来する。
すなわち、選択可能(サーチ可能)なカテゴリーはブロ
ック309の定義域−依存性情報から生じ、或るデータ
ベースから別のデータベースに容易に変更することがで
きる。これらのカテゴリーはアイコン配列によりスクリ
ーン上に容易に表示させることができ、そして、カテゴ
リーのサーチはアイコンを単に指示するだけで特定させ
ることができる。カテゴリーのサーチは、NEXISデ
ータベースにおけるサーチの仕様書と同様な方法でサー
チを特定することにより、サーチウインドウ(図1の要
素100参照)を介して行うこともできる。
【0065】下記の3例の具体例は本発明のサーチおよ
び表示能力を例証するものである。
【0066】第1の具体例として、全く同じ頁に見いだ
されない情報に対する参照を含むことは、技術論文にお
けるテキストの頁にとって極めて普通である。一つの例
は、直ぐ使えるように主題に関連するように著者により
識別された資料の参照(“参照文献”)である。多くの
雑誌では、参照が識別されるインジケータ用のフォーマ
ットは極めて特殊である(例えば、[JPM88]のよ
うに、著者の頭文字と番号からなる)。このフォーマッ
トはブロック309に含めることのできる情報片を構成
する。定義域情報はこのフォーマットを特定し、そし
て、フォーマットの例はブロック308により走査頁内
で発見される。
【0067】本発明によれば、ストリング(例えば、
[JPM88])および[JPM88]により識別され
る参照の詳細内容を含むイメージセグメントとの間でリ
ンクが形成される。適所にこのリンクを有することによ
り、ユーザーが[JPM88]を有するテキストを表示
させ、そして、ユーザーがこのストリングを強調する場
合、参照の詳細内容を有するイメージセグメントはデー
タベースから検索され、そして、コンピュータディスプ
レイ上に表示される。好ましくは、第2ウインドウ内に
表示させる。
【0068】表示頁内に含まれない情報に対する別の参
照例は、図、プロット、表、ピクチャなどに関する参照
にしばしば見られる。本発明によれば、定義域情報は、
“図3”のような参照を、図3を示すコンピュータ内に
記憶された別のイメージセグメント(すなわち、“図
3”というストリングからなる“タイトル”を有する)
と連合させるリンクを形成することができる。
【0069】前記の能力はコンピュータ化された拾い読
みのための極めて強力な道具をもたらす。このような道
具は従来のコンピュータ化システムには存在せず、ユー
ザーが論文の印刷バージョンを読む際に容易に実現さ
れ、そして、使用される。
【0070】第2の具体例として、“図3”および
“[JPM88]”のような印で参照される同じ論文の
特定部分を引用する能力を有することに加えて、図1の
集成装置は、指摘文献(すなわち、[JPM88]で略
記された文献)またはユーザーがコンピュータスクリー
ンの同じウインドウまたは別のウインドウで即座に(ま
たは同時に)見たいと欲するその他の文献を実際に呼び
出す能力を付与する。
【0071】第3の具体例として、OCRおよび付随処
理が走査イメージを忠実に変換または翻訳しなかった場
合であっても、若干信頼できないキーワードに基づいて
項目を識別し、次いで、ユーザーが翻訳を訂正すること
ができる。また、図1の集成装置によれば、ユーザーは
入力単語が不完全に走査されるか、または、オリジナル
の単語に対して綴り間違いがあることを観察し、それを
訂正することもできる。訂正は選択したイメージ部分を
ユーザーが強調することにより行われ、強調された部分
の翻訳版は別のスクリーン上に示される。このような翻
訳部分はその後、将来の参照および使用のために編集す
ることもできる。
【0072】OCR処理(303)の記載において、使
用される特定のOCR処理のやり方については何も述べ
なかったが、示唆された以外の常用のやり方を使用する
ことができる。実際、本発明では、文字を決定するため
にユニグラムおよびダイグラム確率を利用するOCR処
理を使用する。すなわち、文字を決定する場合、次の点
について審理する:
【0073】*提案文字が出現する確率, *観察される文字が与えれた場合に、提案文字が出現す
る確率, *提案文字(既に決定されている)に先立って文字が与
えられる場合に、提案文字が出現する確率,および、お
そらく、 *提案文字に先立って文字が与えられる場合に、提案文
字が出現する確率。
【0074】認識処理に加えて、本発明によれば、例え
ば、前記の方程式から得られる全ての確率尺度が事前に
選択された閾値以下であると決定された場合、文字を
“非認識ボックス”として残す余地が依然として存在す
る。このような場合、OCR処理303はこのような文
字を多数の“可能性のある”文字に翻訳することができ
る。このような“可能性のある”文字はこの文字に付随
する可能性尺度を有する。そして、その情報はこのサー
チ処理で使用される。例えば、“London”のよう
な単語は不明瞭な場合があり、認識装置は次のように返
答してくる。
【0075】“L” “o” “n”70%,“m”23% “c”46%,“o”68%,“e”18% “n”50%,“m”33%
【0076】適度な総合的可能性尺度の単語を決定する
よりもむしろ、訂正の可能性を維持することにより、例
えば、“Lomdem”という名称をサーチしたいユー
ザーには、このシステムが、多分、質問の単語は“Lo
ndon”または実際に“Lomdem”であると知ら
せる機会が与えられるであろう。
【0077】本発明の利点の一つは、多分認識されるは
ずであった文字の認識がOCRブロックにより失敗した
としても、ユーザーに対する表示はこのような失敗によ
り邪魔されない。ユーザーは走査イメージを目視し、そ
して、ユーザーが知るかまたは注意する限りは、全ての
文字がOCRブロックにより適正に認識され続ける。
【0078】本発明の別の利点は、表示されたイメージ
の分析が劣悪でも、記憶される完全な走査イメージであ
り、その結果、出力(スクリーンおよび/またはプリン
タの両方)は走査イメージの完全な解像度で得られる。
縮小はスクリーンまたはプリンタの解像度まで解像度を
低下させる。拡大は、常用の補間技術を使用し、高めら
れた解像度をもたらすことができる。(時々、高解像度
の認知しかされないことがあるが、紛れもなく、本発明
の利点である。)
【0079】本発明の主要な利点は、本発明の第2面お
よび第3面でサーチが行われることである。これによ
り、元のイメージとして出現すべきものついて効果的な
サーチメカニズムが提供される。
【0080】ユーザーに知られていない、サーチ処理を
妨害する“非認識ボックス”の事例が存在するが、本発
明の別の利点によれば、このサーチアルゴリズムはデー
タ部分(例えば、単語)が適合する確率を評価する。こ
の確率が予め選択された閾値よりも高い場合、ユーザー
は蓋然適合が生じたことを知らされ、蓋然適合を有する
データセグメントが表示され、非認識部分は強調され、
そして、ユーザーは適合決定の確認を求められる。ユー
ザーが確認したら、“非認識ボックス”エンティティは
適当な文字で置換される。ユーザーが強調データ部分
(例えば、単語)が適合に対応しないと決定したら、ユ
ーザーはデータ部分がどうであるべきか特定する機会を
与えられる。
【0081】前記の手順は元来、OCR処理における両
義性を解決するために、データ生成処理を迂回せずに進
めることができる。ユーザーは両義性の解決が当面の関
心事である場合に限って助言を求められる。これは本発
明の利点である。なぜなら、これにより比較的迅速な手
段で情報を有するデータベースを占拠できるからであ
る。
【0082】本発明の別の利点は、認識処理(文脈およ
びその他の両方)の改善を、後の時点であっても、図1
のシステム内のデータに適用できることである。この可
能性は、元の走査データが廃棄されないという事実に直
接由来する。従って、これは再度加工処理することがで
きる。
【0083】本発明の主目標の一つは電子ライブラリー
用のフレームワークを作成することである。この目的の
ために、本発明が完成される過程で、多数の技術定期刊
行物が本発明の試験システムで走査された。このような
システムのユーザーは特定の定期刊行物を指定するか、
または、データベース内に含まれている全ての定期刊行
物を単一イメージで見るのか何れかを選択する機会を与
えられる。単一イメージで見るオプションを選択する場
合、刊行物の最後の号の最初の頁の走査イメージの縮小
複製が配列され、ユーザーに表示される。
【0084】これらの刊行物の第1頁は刊行物のロゴ、
日付、およびその他の情報(例えば、その号の主な特集
記事に関する表示)などを含む。特定の刊行物の縮小イ
メージを指摘することにより、ユーザーは刊行物を選択
し、そして、特定の号を選択する。この時点で、刊行物
の第1頁の非縮小イメージが出現し、次いで、ユーザー
はこの号に関するその他の情報(例えば、この号の目次
(第1頁にこの目次が既に含まれていない場合)または
特定の記事など)を要求することができる。この技術定
期刊行物のその他の号のサーチも行うことができる。
【0085】本発明の多用性を実証するために、本発明
の試験機で数件の特許を走査した。特許明細書はその全
体が走査され、ユーザーに全ての頁のイメージを表示で
きる完全サーチ可能なデータベースを形成した。このシ
ステムはまた、各特許明細書の第1頁だけを表示するこ
ともできる。これは極めて強力な能力である。なぜな
ら、新規性調査を行おうとする者は一般的に、特定のキ
ーワードがテキスト中に存在する特許だけを識別したい
からである。多数の特許が識別されたら、調査者は一般
的に、これら特許の第1頁を先ず見たいと思うものであ
る。なぜなら、これが、入念に検討しなければならない
特許の件数を減らす効果的なやり方だからである。
【0086】本発明の重要な用途の一つは、訴訟に関連
して見いだされる。訴訟の開示処理はしばしば、当事者
から相手方に渡されたかなり多数の証拠資料を生じる。
これらの証拠資料が受領方のニーズに役立つ場合、これ
らの証拠資料を分析し、索引を付ける必要がある。OC
Rシステムを使ってこれら証拠資料を走査し、そして、
そのイメージを記憶することは極めて有用であろう。し
かし、これらの証拠資料はしばしば、OCRシステムで
は処理できない手書きの情報を含んでいる。本発明を使
用することにより、真性な証拠資料イメージを記憶し、
可能な程度まで、OCRが認識可能なエンティティが翻
訳されたイメージで記憶され、その後、サーチすること
ができる。
【0087】存在する証拠資料開示の別の問題は情報カ
テゴリーの識別に関する。“フォームレター”などによ
り、定義域依存性情報を得たり、または演繹したりする
ことができるが、多くのその他の書類ではこのようなこ
とはできない。本発明による解決策の一つは、異なる透
明着色を有する市販の幅広のフエルトチップペンで着色
強調ブロックを作ることにより、疑似定義域依存性情報
を作成することである。データの周囲の領域は例えば、
赤の強調色でマークすることができ、著者名の周囲の領
域は例えば、黄色の強調色でマークすることができる。
これには勿論、色に対して感受性を有する走査装置が必
要である。しかし、この能力は市販のスキャナーで利用
できる。
【0088】以上、本発明の能力をテキストの内容につ
いて説明してきたが、同じ原理を音声のようなその他の
記憶情報にも直接応用することができる。視覚情報およ
び音声情報に共通することは、両方ともコンピュータに
より示すことができ、人間の感覚により知覚することが
できる情報であるということである。ビデオ情報、オー
ディオ情報またはオーディオおよびビデオ情報の両方を
示すために、本明細書では、この両方を含めた“A−V
知覚可能情報”という用語を使用する。
【0089】オーディオ用途に関連して、例えば、重要
な演説を録音し、デジタル化し、そして記憶することが
できる。これは“第1面”情報を形成する。翻訳情報で
ある“第2面”情報はアスキー文字で記載された音素
と、音素の集合体から形成される単語からなる。
【0090】
【発明の効果】以上説明したように、本発明によれば、
従来の物理的ライブラリーの対話機能を忠実に真似る電
子ライブラリーが得られる。
【図面の簡単な説明】
【図1】電子ライブラリーを実現するハードウエア構成
を示す概念図であり、メモリ102内のデータ構造を合
わせ示す。
【図2】本発明によるサーチ、検索および表示処理の流
れ図である。
【図3】各表示セグメントに付随する情報の3枚の面の
内容を詳細に示す拡大模式図である。
【図4】第2面および第3面に情報を創出する処理工程
を示す流れ図である。
【図5】テクスチャー分析の流れ図である。
【図6】情報の第3面に付随する処理工程の内容を更に
詳細に示す流れ図である。
【符号の説明】
100 コンピュータスクリーン/キーボード/スピー
カー/プリンタ集成装置 101 プロセッサ 102 メモリ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 デヴィッド エス.フォックス アメリカ合衆国 07901 ニュージャージ ー サミット、フェアビュー アヴェニュ ー 14 (72)発明者 ホサグラハー ヴィ.ジャガディシュ アメリカ合衆国 07922 ニュージャージ ー バークレーハイツ、ビーチ アヴェニ ュー 16 (72)発明者 ローレンス オゴーマン アメリカ合衆国 07041 ニュージャージ ー ミルバーン、アパートメント 1シ ー、メイル ストリート 195 (72)発明者 ガイ エー.ストーリー アメリカ合衆国 10012 ニューヨーク ニューヨーク、スプリング ストリート 151

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 走査され、そして、デジタル化されたA
    −V知覚可能情報セグメント(103,104)のデジ
    タル化表現をコンピュータ(102)内に維持する工
    程;前記各デジタル化表現の翻訳表現(113,12
    3,114,124)を維持する工程;および、 アクセスし、そして、ユーザーの要求に応答してセグメ
    ントのデジタル化表現の少なくとも一部分をユーザーに
    提供するために、前記翻訳表現を使ってユーザーの要求
    (図2)を処理する工程;からなることを特徴とするコ
    ンピュータ内に記憶されたセグメントからA−V知覚可
    能情報セグメントにアクセスする方法。
  2. 【請求項2】 複数個のA−V知覚可能情報セグメント
    の各々のデジタル化表現をコンピュータ記憶媒体に維持
    する工程;前記複数個のA−V知覚可能情報セグメント
    の各々の少なくとも一つの対応する翻訳表現をコンピュ
    ータ記憶媒体に維持する工程;各A−V知覚可能情報セ
    グメントの対応するデジタル化表現の部分により各A−
    V知覚可能情報セグメントの各翻訳表現の要素を連想す
    る結合情報を前記コンピュータ記憶媒体に維持する工
    程;ユーザーの要求に応じて、前記コンピュータ内に維
    持されているA−V知覚可能情報セグメントのうちの一
    つを選択する工程;および、 選択されたA−V知覚可能情報セグメントのデジタル表
    現をユーザーに提供する工程;からなることを特徴とす
    るコンピュータ記憶媒体内に記憶されている複数個のA
    −V知覚可能情報セグメントからA−V知覚可能情報セ
    グメントにアクセスする方法。
  3. 【請求項3】 前記選択工程は、ユーザーの要求に基づ
    いて、前記複数個のA−V知覚可能情報セグメントのう
    ちの少なくとも幾つかの翻訳表現を隅々までサーチし、
    前記一つのA−V知覚可能情報セグメントを選択するこ
    とからなる請求項2の方法。
  4. 【請求項4】 A−V知覚可能情報セグメントの前記翻
    訳表現は、前記A−V知覚可能情報セグメントの対応す
    るデジタル化表現の第1の分析処理により導かれた前記
    A−V知覚可能情報セグメントの基本情報エンティティ
    を含む請求項2の方法。
  5. 【請求項5】 A−V知覚可能情報セグメントの前記翻
    訳表現は、基本エンティティの分析処理から導かれる前
    記A−V知覚可能情報セグメントの一層高いオーダの情
    報を更に含む請求項2の方法。
  6. 【請求項6】 前記結合情報は、所定のA−V知覚可能
    情報セグメントの翻訳表現内の基本情報エンティティを
    所定のA−V知覚可能情報セグメントのデジタル化表現
    のサブセグメントと相関させる請求項4の方法。
  7. 【請求項7】 ユーザーの要求は、選択されたA−V知
    覚可能情報セグメント内の選択高オーダ情報エンティテ
    ィの存在を特定する請求項5の方法。
  8. 【請求項8】 前記結合情報は、所定のA−V知覚可能
    情報セグメントの翻訳表現内の情報エンティティ群を所
    定のA−V知覚可能情報セグメントのデジタル化表現の
    スーパーサブセグメントと相関させ、前記群は所定のA
    −V知覚可能情報セグメント内に論理ブロックを形成す
    る請求項6の方法。
  9. 【請求項9】 各翻訳表現は、対応するデジタル化表現
    を基本情報エンティティの集まりに翻訳する処理工程の
    成果であり、前記処理工程は、デジタル化表現の前記基
    本情報エンティティの集まりへの翻訳を改善する目的の
    ために、人間からの相互作用的助力なしに行われる請求
    項5の方法。
  10. 【請求項10】 ドキュメントの頁を走査し、前記頁の
    イメージの走査表現を創出する工程;前記走査表現を第
    1の分析処理により分析し、前記頁内に含まれる基本情
    報エンティティのデジタル化表現を創出する工程;前記
    走査表現および前記基本情報エンティティの前記表現を
    第2の分析処理により分析し、前記頁の情報内容の高レ
    ベル表現を創出する工程;および、 前記走査表現、前記基本情報エンティティの前記表現お
    よび前記頁の情報内容の前記高レベル表現を、これらを
    相関させる情報と共に、単一のデータ構造体として記憶
    する工程;からなることを特徴とするドキュメントの記
    憶方法。
JP30972392A 1991-10-24 1992-10-26 知覚可能情報セグメントのアクセス方法 Expired - Lifetime JP3298676B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/782,842 US5350303A (en) 1991-10-24 1991-10-24 Method for accessing information in a computer
US782842 1991-10-24

Publications (2)

Publication Number Publication Date
JPH0644325A true JPH0644325A (ja) 1994-02-18
JP3298676B2 JP3298676B2 (ja) 2002-07-02

Family

ID=25127343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30972392A Expired - Lifetime JP3298676B2 (ja) 1991-10-24 1992-10-26 知覚可能情報セグメントのアクセス方法

Country Status (5)

Country Link
US (1) US5350303A (ja)
EP (1) EP0539106B1 (ja)
JP (1) JP3298676B2 (ja)
CA (1) CA2080552C (ja)
FI (1) FI924811A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012014918A1 (ja) * 2010-07-28 2012-02-02 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US8793277B2 (en) 2010-03-29 2014-07-29 Ubic, Inc. Forensic system, forensic method, and forensic program
US8799317B2 (en) 2010-03-29 2014-08-05 Ubic, Inc. Forensic system, forensic method, and forensic program
JP2017084012A (ja) * 2015-10-26 2017-05-18 シャープ株式会社 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5546572A (en) * 1991-08-28 1996-08-13 Hitachi, Ltd. Method for retrieving database of image information
US5659350A (en) 1992-12-09 1997-08-19 Discovery Communications, Inc. Operations center for a television program packaging and delivery system
US7835989B1 (en) 1992-12-09 2010-11-16 Discovery Communications, Inc. Electronic book alternative delivery systems
US6181335B1 (en) 1992-12-09 2001-01-30 Discovery Communications, Inc. Card for a set top terminal
US7509270B1 (en) 1992-12-09 2009-03-24 Discovery Communications, Inc. Electronic Book having electronic commerce features
US8073695B1 (en) 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
KR100289174B1 (ko) 1992-12-09 2001-05-02 마크 홀린저 케이블 텔레비젼 전달 시스템을 위한 세트 탑 터미날
US7849393B1 (en) 1992-12-09 2010-12-07 Discovery Communications, Inc. Electronic book connection to world watch live
JPH0728689A (ja) 1993-07-09 1995-01-31 Hitachi Ltd 情報処理装置
US5903867A (en) * 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
US7865567B1 (en) 1993-12-02 2011-01-04 Discovery Patent Holdings, Llc Virtual on-demand electronic book
US8095949B1 (en) 1993-12-02 2012-01-10 Adrea, LLC Electronic book with restricted access features
US7861166B1 (en) 1993-12-02 2010-12-28 Discovery Patent Holding, Llc Resizing document pages to fit available hardware screens
US9053640B1 (en) 1993-12-02 2015-06-09 Adrea, LLC Interactive electronic book
DE69519323T2 (de) * 1994-04-15 2001-04-12 Canon Kk System zur Seitensegmentierung und Zeichenerkennung
US5625711A (en) 1994-08-31 1997-04-29 Adobe Systems Incorporated Method and apparatus for producing a hybrid data structure for displaying a raster image
US6075665A (en) * 1994-09-28 2000-06-13 International Business Machines Corporation Optimization of multimedia magnetic disk storage devices
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US6164973A (en) * 1995-01-20 2000-12-26 Vincent J. Macri Processing system method to provide users with user controllable image for use in interactive simulated physical movements
AU4429396A (en) * 1995-02-01 1996-08-21 Ferag Ag Process and system for producing and distributing printed information
US5749736A (en) * 1995-03-22 1998-05-12 Taras Development Method and system for computerized learning, response, and evaluation
US20020042041A1 (en) * 1995-03-22 2002-04-11 Owens Terry S. Systems and methods for organizing data relationships
US6315572B1 (en) * 1995-03-22 2001-11-13 William M. Bancroft Method and system for computerized authoring, learning, and evaluation
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US5815407A (en) * 1995-12-14 1998-09-29 Motorola Inc. Method and device for inhibiting the operation of an electronic device during take-off and landing of an aircraft
US5661635A (en) * 1995-12-14 1997-08-26 Motorola, Inc. Reusable housing and memory card therefor
US5663748A (en) * 1995-12-14 1997-09-02 Motorola, Inc. Electronic book having highlighting feature
US5761682A (en) * 1995-12-14 1998-06-02 Motorola, Inc. Electronic book and method of capturing and storing a quote therein
US5893132A (en) * 1995-12-14 1999-04-06 Motorola, Inc. Method and system for encoding a book for reading using an electronic book
US5697793A (en) * 1995-12-14 1997-12-16 Motorola, Inc. Electronic book and method of displaying at least one reading metric therefor
US5761681A (en) * 1995-12-14 1998-06-02 Motorola, Inc. Method of substituting names in an electronic book
US5758181A (en) * 1996-01-22 1998-05-26 International Business Machines Corporation Method and system for accelerated presentation of segmented data
WO1997030397A1 (en) * 1996-02-16 1997-08-21 Cyber Marketing, Inc. Remote interactive multimedia preview and data collection kiosk system
US6292176B1 (en) * 1996-02-26 2001-09-18 Motorola, Inc. Method and system for displaying textual information
US5754977A (en) * 1996-03-06 1998-05-19 Intervoice Limited Partnership System and method for preventing enrollment of confusable patterns in a reference database
US6340978B1 (en) 1997-01-31 2002-01-22 Making Everlasting Memories, Ltd. Method and apparatus for recording and presenting life stories
US7657835B2 (en) * 1997-01-31 2010-02-02 Making Everlasting Memories, L.L.C. Method and system for creating a commemorative presentation
US5848404A (en) * 1997-03-24 1998-12-08 International Business Machines Corporation Fast query search in large dimension database
US6259890B1 (en) * 1997-03-27 2001-07-10 Educational Testing Service System and method for computer based test creation
US5970483A (en) * 1997-07-25 1999-10-19 Claritech Corporation Apparatus and methodology for submitting search queries
IL125389A (en) * 1998-07-16 2002-07-25 Aprion Digital Ltd A sales machine for making and delivering books
WO2000045588A1 (en) * 1999-01-27 2000-08-03 Discovery Communications, Inc. Electronic book having library catalog menu and searching features
AU7060500A (en) * 1999-08-17 2001-03-13 Ptfs, Inc. Word searchable database from high volume scanning of newspaper data
US7421432B1 (en) * 1999-12-15 2008-09-02 Google Inc. Hypertext browser assistant
AU2001253069A1 (en) * 2000-03-31 2001-10-15 Discovery Communications, Inc. Electronic book home networking system and method
ATE306102T1 (de) 2001-01-03 2005-10-15 Nice Systems Ltd Auf inhalt basierende speicherungsverwaltung
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8065277B1 (en) 2003-01-17 2011-11-22 Daniel John Gardner System and method for a data extraction and backup database
US8630984B1 (en) 2003-01-17 2014-01-14 Renew Data Corp. System and method for data extraction from email files
US20040161728A1 (en) * 2003-02-14 2004-08-19 Benevento Francis A. Distance learning system
US7310769B1 (en) 2003-03-12 2007-12-18 Adobe Systems Incorporated Text encoding using dummy font
US20050058978A1 (en) * 2003-09-12 2005-03-17 Benevento Francis A. Individualized learning system
US20050122537A1 (en) * 2003-12-05 2005-06-09 Shin Dong-Hyup Combination machine having an image data conversion function and image data conversion method therefor
US20060112131A1 (en) * 2004-07-14 2006-05-25 Strike Friday, Inc. Story rewriting system
US8069151B1 (en) 2004-12-08 2011-11-29 Chris Crafford System and method for detecting incongruous or incorrect media in a data recovery process
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US20060246409A1 (en) * 2005-04-06 2006-11-02 Aram Akopian ScreenXbook publishing method
US20070136093A1 (en) * 2005-10-11 2007-06-14 Rankin Innovations, Inc. Methods, systems, and programs for health and wellness management
US8150827B2 (en) * 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
JP2009054018A (ja) * 2007-08-28 2009-03-12 Ricoh Co Ltd 画像検索装置、画像検索方法及びプログラム
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
WO2011075610A1 (en) 2009-12-16 2011-06-23 Renew Data Corp. System and method for creating a de-duplicated data set
US8837830B2 (en) * 2012-06-12 2014-09-16 Xerox Corporation Finding text in natural scenes

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6244878A (ja) * 1985-08-23 1987-02-26 Hitachi Ltd 文書フアイリングシステム
JPH0314184A (ja) * 1989-06-13 1991-01-22 Fuji Xerox Co Ltd 文書画像再配置ファイリング装置
JPH0327471A (ja) * 1989-06-26 1991-02-05 Hitachi Ltd 画像登録方式
JPH03132874A (ja) * 1989-10-19 1991-06-06 Fuji Facom Corp 文書のファイリング方法
JPH03161866A (ja) * 1989-11-20 1991-07-11 Seiko Epson Corp 目次認識装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4196453A (en) * 1978-12-01 1980-04-01 Xerox Corporation Image screening system
JPS60148279A (ja) * 1983-12-28 1985-08-05 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 画像処理システム
JPS63106080A (ja) * 1986-06-27 1988-05-11 Hitachi Ltd 画像表示方式
JPS63155386A (ja) * 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
US4935879A (en) * 1987-08-05 1990-06-19 Daikin Industries, Ltd. Texture mapping apparatus and method
US4914709A (en) * 1989-06-02 1990-04-03 Eastman Kodak Company Method for identifying unrecognizable characters in optical character recognition machines
JP2959473B2 (ja) * 1989-06-09 1999-10-06 カシオ計算機株式会社 文書処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6244878A (ja) * 1985-08-23 1987-02-26 Hitachi Ltd 文書フアイリングシステム
JPH0314184A (ja) * 1989-06-13 1991-01-22 Fuji Xerox Co Ltd 文書画像再配置ファイリング装置
JPH0327471A (ja) * 1989-06-26 1991-02-05 Hitachi Ltd 画像登録方式
JPH03132874A (ja) * 1989-10-19 1991-06-06 Fuji Facom Corp 文書のファイリング方法
JPH03161866A (ja) * 1989-11-20 1991-07-11 Seiko Epson Corp 目次認識装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793277B2 (en) 2010-03-29 2014-07-29 Ubic, Inc. Forensic system, forensic method, and forensic program
US8799317B2 (en) 2010-03-29 2014-08-05 Ubic, Inc. Forensic system, forensic method, and forensic program
US9244920B2 (en) 2010-03-29 2016-01-26 Ubic, Inc. Forensic system, forensic method, and forensic program
WO2012014918A1 (ja) * 2010-07-28 2012-02-02 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012032859A (ja) * 2010-07-28 2012-02-16 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US8549037B2 (en) 2010-07-28 2013-10-01 Ubic, Inc. Forensic system, forensic method, and forensic program
JP2017084012A (ja) * 2015-10-26 2017-05-18 シャープ株式会社 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体

Also Published As

Publication number Publication date
CA2080552C (en) 1999-03-09
US5350303A (en) 1994-09-27
FI924811A (fi) 1993-04-25
FI924811A0 (fi) 1992-10-23
EP0539106B1 (en) 2002-08-21
CA2080552A1 (en) 1993-04-25
JP3298676B2 (ja) 2002-07-02
EP0539106A2 (en) 1993-04-28
EP0539106A3 (en) 1994-10-19

Similar Documents

Publication Publication Date Title
JP3298676B2 (ja) 知覚可能情報セグメントのアクセス方法
US10528650B2 (en) User interface for presentation of a document
US5903904A (en) Iconic paper for alphabetic, japanese and graphic documents
US5860075A (en) Document data filing apparatus for generating visual attribute values of document data to be filed
US5850490A (en) Analyzing an image of a document using alternative positionings of a class of segments
US6182090B1 (en) Method and apparatus for pointing to documents electronically using features extracted from a scanned icon representing a destination
JP5018459B2 (ja) インタラクティブシステムおよび画像検索性能を高めるプログラム
JP4577931B2 (ja) ドキュメント処理システム及びインデックス情報獲得方法
US20110197121A1 (en) Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
US20070098263A1 (en) Data entry apparatus and program therefor
En et al. New public dataset for spotting patterns in medieval document images
Ramel et al. AGORA: the interactive document image analysis tool of the BVH project
JP2009098763A (ja) 手書き注釈管理装置およびインタフェース
Yurtsever et al. Figure search by text in large scale digital document collections
Worring et al. Content based internet access to paper documents
JP7086424B1 (ja) 特許用文章生成装置、特許用文章生成方法、および特許用文章生成プログラム
US20030069895A1 (en) Visual indexing of displayable digital documents
Ishihara et al. Analyzing visual layout for a non-visual presentation-document interface
JP3841318B2 (ja) アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー
Chen et al. Genre identification for office document search and browsing
JPH06348758A (ja) 文書情報検索装置及び方法
JP2006134079A (ja) 画像処理装置及びプログラム
Peairs Iconic paper
JP2023032461A (ja) 領域属性特定方法、領域属性特定装置、記載物検知方法、記載物検知装置及びプログラム
Eichenberger et al. DivaDesk: a holistic digital workspace for analyzing historical document images

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080419

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100419

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110419

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110419

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120419

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120419

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130419

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130419

Year of fee payment: 11