JP4926004B2 - 文書処理装置、文書処理方法及び文書処理プログラム - Google Patents

文書処理装置、文書処理方法及び文書処理プログラム Download PDF

Info

Publication number
JP4926004B2
JP4926004B2 JP2007293394A JP2007293394A JP4926004B2 JP 4926004 B2 JP4926004 B2 JP 4926004B2 JP 2007293394 A JP2007293394 A JP 2007293394A JP 2007293394 A JP2007293394 A JP 2007293394A JP 4926004 B2 JP4926004 B2 JP 4926004B2
Authority
JP
Japan
Prior art keywords
document
information
character
character information
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007293394A
Other languages
English (en)
Other versions
JP2009122760A (ja
Inventor
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007293394A priority Critical patent/JP4926004B2/ja
Priority to US12/245,851 priority patent/US8107727B2/en
Publication of JP2009122760A publication Critical patent/JP2009122760A/ja
Application granted granted Critical
Publication of JP4926004B2 publication Critical patent/JP4926004B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、文書処理装置、文書処理方法及び文書処理プログラムに関するものである。
近年、コンピュータ関連技術の向上、ネットワーク環境が整備によって文書の電子化が進んでいる。これによりオフィスのペーパレス化が促進されている。
そして、文書の電子化が進むにつれ、電子化された文書データを一括管理し、検索を行えるようにしたいという要求がある。
そこで、特許文献1は、描画コードから、テキスト情報、すなわち文字コードを抽出し、抽出したテキスト情報と、描画コードから生成された文書画像データとを対応付けている。この描画コードから文書画像データを生成している以上、文字コード等を含む中間データであると考えられる。このため、描画コードから容易に文字コードを抽出している。
特開平8−212331号公報
ところで、文書データに画像データとして図や表を入れたりする場合も多い。このような図や表は画像データ等で貼り付けられている。また、図や表に限らず、HTMLで表現されるWebのページの場合には見栄えを重視して文字も画像として入れる場合が頻繁に見受けられる。
しかしながら、引用文献1に記載された技術では、描画コードから文字コードを抽出するのでは、図や表を示す画像データが埋め込まれている場合に抽出できないという問題がある。
一方で、文書データから生成した文書画像データに対して、文字認識を掛けて、図や表から画像データを抽出するのでは文字の抽出精度が落ちるという問題がある。
本発明は、上記に鑑みてなされたものであって、文字の抽出精度を向上させた文書処理装置、文書処理方法及び文書処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、少なくとも2以上のアプリケーションで作成された文書情報を取得する文書情報取得手段と、取得した前記文書情報から、文書画像を生成する画像生成手段と、取得した前記文書情報を、アプリケーション別に領域として分割する領域分割手段と、前記領域分割手段により分割された領域毎に、当該領域を読み込み可能なアプリケーションを特定するための種別を判別する種別判別手段と、分割された前記領域毎に、文字コードを抽出可能であるか否か判断する判断手段と、前記文字コードを抽出可能と判断された前記領域から、第1の文字情報を抽出する第1の文字情報抽出手段と、前記文字コードが抽出できないと判断された場合、前記文書画像に対して文字認識処理を施して得られた文字コードを第2の文字情報として抽出する第2の文字情報抽出手段と、前記第1の文字情報と、前記第2の文字情報と、前記文書情報及び前記文書画像の少なくともいずれか一方と、を対応付けて記憶する記憶手段と、前記領域分割手段により分割された領域毎に、前記種別を示す種別情報を対応付けて記憶する領域記憶手段と、前記記憶手段に記憶された前記第1の文字情報又は前記第2の文字情報を検索する検索手段と、を備えることを特徴とする。
また、請求項2にかかる発明は、請求項1にかかる発明において、前記検索手段で検索された、前記第1の文字情報及び前記第2の文字情報のいずれか一つ以上と、前記記憶手段で対応付けられている前記文書情報及び前記文書画像の少なくともいずれか一方を出力する出力手段と、をさらに備えることを特徴とする。
また、請求項3にかかる発明は、請求項1又は2にかかる発明において、前記第1の文字情報抽出手段は、さらに前記第1の文字情報の位置を示す第1の位置情報を抽出し、前記記憶手段は、さらに前記第1の位置情報を対応付けて記憶すること、を特徴とする。
また、請求項4にかかる発明は、請求項3にかかる発明において、前記出力処理手段は、前記第1の文字情報を、前記記憶手段で対応付けられた前記第1の位置情報に配置して出力すること、を特徴とする。
また、請求項5にかかる発明は、請求項1乃至4のいずれか一つにかかる発明において、前記第2の文字情報抽出手段は、さらに前記第2の文字情報の位置を示す第2の位置情報を抽出し、前記記憶手段は、さらに前記第2の位置情報を対応付けて記憶すること、を特徴とする。
また、請求項6にかかる発明は、請求項5にかかる発明において、前記表示処理手段は、前記第2の文字情報を、前記記憶手段で対応付けられた前記第2の位置情報に配置して出力すること、を特徴とする。
また、請求項7にかかる発明は、請求項1乃至6のいずれか一つにかかる発明において、前記取得した文書情報を読み込むアプリケーションをさらに備え、前記画像生成手段は、前記文書処理装置内の印刷ドライバ内に含まれ、前記文書情報を読み込んだアプリケーションによる出力命令に従って前記文書画像データを生成すること、を特徴とする。
また、請求項8にかかる発明は、文書情報取得手段が、少なくとも2以上のアプリケーションで作成された文書情報を取得する文書情報取得ステップと、画像生成手段が、取得した前記文書情報から、文書画像を生成する画像生成ステップと、領域分割手段が、取得した前記文書情報を、アプリケーション別に領域として分割する領域分割ステップと、種別判別手段が、前記領域分割ステップにより分割された領域毎に、当該領域を読み込み可能なアプリケーションを特定するための種別を判別する種別判別ステップと、判断手段が、分割された前記領域毎に、文字コードを抽出可能であるか否か判断する判断ステップと、第1の文字情報抽出手段が、前記文字コードを抽出可能と判断された前記領域から、第1の文字情報を抽出する第1の文字情報抽出ステップと、第2の文字情報抽出手段が、前記文字コードが抽出できないと判断された場合、前記文書画像に対して文字認識処理を施して得られた文字コードを第2の文字情報として抽出する第2の文字情報抽出ステップと、前記第1の文字情報と、前記第2の文字情報と、前記文書情報及び前記文書画像の少なくともいずれか一方と、を対応付けて記憶手段に記憶する記憶ステップと、前記領域分割ステップにより分割された領域毎に、前記種別を示す種別情報を対応付けて領域記憶手段に記憶する領域記憶ステップと、検索手段が、前記記憶手段に記憶された前記第1の文字情報又は前記第2の文字情報を検索する検索ステップと、を有することを特徴とする。
また、請求項9にかかる発明は、請求項8にかかる発明において、力手段が、前記検索ステップで検索された、前記第1の文字情報及び前記第2の文字情報のいずれか一つ以上と、前記記憶手段で対応付けられている前記文書情報及び前記文書画像の少なくともいずれか一方を出力する出力ステップと、をさらに有することを特徴とする。
また、請求項10にかかる発明は、請求項8又は9にかかる発明において、前記第1の文字情報抽出ステップは、さらに前記第1の文字情報の位置を示す第1の位置情報を抽出し、前記記憶ステップは、さらに前記第1の位置情報を対応付けて記憶すること、を特徴とする。
また、請求項11にかかる発明は、請求項10にかかる発明において、前記出力処理ステップは、前記第1の文字情報を、前記記憶手段で対応付けられた前記第1の位置情報に配置して出力すること、を特徴とする。
また、請求項12にかかる発明は、請求項8乃至11のいずれか一つにかかる発明において、前記第2の文字情報抽出ステップは、さらに前記第2の文字情報の位置を示す第2の位置情報を抽出し、前記記憶ステップは、さらに前記第2の位置情報を対応付けて記憶すること、を特徴とする。
また、請求項13にかかる発明は、請求項12にかかる発明において、前記表示処理ステップは、前記第2の文字情報を、前記記憶手段で対応付けられた前記第2の位置情報に配置して出力すること、を特徴とする。
また、請求項14にかかる発明は、請求項8乃至13のいずれか一つにかかる発明において、アプリケーションが、前記取得した文書情報を読み込む読込ステップをさらに有し、前記画像生成ステップは、前記文書処理装置内の印刷ドライバ内に含まれた前記画像生成手段が、前記文書情報を読み込んだアプリケーションによる出力命令に従って前記文書画像データを生成すること、を特徴とする。
また、請求項15にかかる発明は、コンピュータを、少なくとも2以上のアプリケーションで作成された文書情報を取得する文書情報取得手段と、取得した前記文書情報から、文書画像を生成する画像生成手段と、取得した前記文書情報を、アプリケーション別に領域として分割する領域分割手段と、前記領域分割手段により分割された領域毎に、当該領域を読み込み可能なアプリケーションを特定するための種別を判別する種別判別手段と、分割された前記領域毎に、文字コードを抽出可能であるか否か判断する判断手段と、前記文字コードを抽出可能と判断された前記領域から、第1の文字情報を抽出する第1の文字情報抽出手段と、前記文字コードが抽出できないと判断された場合、前記文書画像に対して文字認識処理を施して得られた文字コードを第2の文字情報として抽出する第2の文字情報抽出手段と、前記第1の文字情報と、前記第2の文字情報と、前記文書情報及び前記文書画像の少なくともいずれか一方と、を対応付けて記憶手段に記憶させる第1の登録手段と、前記領域分割手段により分割された領域毎に、前記種別を示す種別情報を対応付けて領域記憶手段に記憶させる第2の登録手段と、前記記憶手段に記憶された前記第1の文字情報又は前記第2の文字情報を検索する検索手段と、として機能させることを特徴とする。
また、請求項16にかかる発明は、請求項15にかかる発明において、前記検索手段で検索された、前記第1の文字情報及び前記第2の文字情報のいずれか一つ以上と、前記記憶手段で対応付けられている前記文書情報及び前記文書画像の少なくともいずれか一方を出力する出力手段と、をさらに機能させることを特徴とする。
本願発明によれば、文書情報を作成したアプリケーションに拘わらず、当該文書情報に含まれる文字情報を検索可能にすると共に、フォーマット形式をユーザに意識させることを抑止するという効果を奏する。
以下に添付図面を参照して、この発明にかかる文書処理装置、文書処理方法及び文書処理プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、第1の実施の形態にかかる文書処理装置100の構成を示すブロック図である。本図に示すように文書処理装置100の内部は、文書メタDB101と、データ格納部102と、文書取得部103と、出力部104と、表示処理部105と、検索部106と、文書アプリケーション107と、データ参照アプリケーション108と、判断部109と、テキスト情報抽出部110と、プリンタドライバ111と、文字認識テキスト情報抽出部112と、登録部113と、入力受付部115と、種別判別部116と、領域分割部117と、を備え、取得した文書データを解析した後、当該文書データの管理を行う。また、当該文書データの検索を可能とする。
文書データとは、任意のアプリケーションで作成された、文字コード等を含む電子文書と、ページ毎に画像として表されている文書画像データとを含むものとする。文書画像データとしては、例えば紙文書をスキャナで読み込んだデータ等とする。本実施の形態にかかる文書データは、特に、画像データやオブジェクトを含む文書データとし、換言すれば文書作成用アプリケーション(例えば、文書アプリケーション107)、並びに画像作成アプリケーション及び表作成アプリケーションの少なくとも一方という、複数のアプリケーションで作成されたデータを意味する。
データ格納部102は、取得した文書データや、当該文書データから生成されたページ画像データを格納する。当該文書データに関する詳細な情報は、後述する文書メタデータベース101で管理されている。
文書メタデータベース101は、文書管理テーブルと、ページ管理テーブルと、領域管理テーブルと、テキスト管理テーブルとを有している。
図2は、文書管理テーブルのテーブル構造を示した図である。本図に示すように、文書管理テーブルは、文書IDと、タイトルと、作成更新日と、ページ数と、ファイルフォーマットと、ファイルパスと、ファイル名とを対応付けて保持する。
文書IDは、文書データ毎に付与されたユニークなIDであり、これにより文書データを特定できる。タイトルは文書データのタイトルである。作成更新日は、文書データの作成日又は最終更新日を保持する。ページ数は文書データのページ数を保持している。ファイルフォーマットは、文書データ毎のフォーマットを保持している。これにより、管理している文書データが、アプリケーションで作成された電子文書、Webページ及び文書画像データ等のうちいずれかのフォーマットであるか特定することができる。
ファイルパスは、文書データが格納された場所を示している。そして、ファイル名は、文書データのファイル名を示している。
図3は、ページ管理テーブルのテーブル構造を示した図である。本図に示すように、ページ管理テーブルは、ページIDと、文書IDと、ページ番号と、ページ画像データパスとを対応付けて保持している。次に各フィールドについて説明する。
ページIDは、文書データを構成するページ毎に付与されたユニークなIDであり、このIDにより、文書データのページを一意に特定できる。文書IDは、当該ページを含んでいる文書データを特定するIDとする。ページ番号は、当該ページを含んでいる文書データ中における、当該ページのページ番号とする。ページ画像データパスは、当該ページを表したページ画像データが格納されている場所を保持する。
図4は、領域管理テーブルのテーブル構造を示した図である。本図に示すように、領域管理テーブルは、領域IDと、文書IDと、ページIDと、領域座標と、種別と、タイトルと、テキストと、を対応付けて保持している。次に各フィールドについて説明する。
領域管理テーブルの領域IDは、文書データに含まれるページを分割した領域毎に付与されたユニークなIDであり、このIDにより、文書データの各ページに含まれている領域を特定できる。文書IDとページIDは、当該領域を含んでいる文書データ及びページを特定するIDとする。領域座標は、当該領域を特定する座標を保持し、本実施の形態では左上の頂点座標と右下の頂点座標を保持することで当該領域を特定する。
領域管理テーブルの種別は、当該領域のデータの種別を特定する情報を保持する。データの種別としては、例えばテキスト、画像(画像作成アプリケーションで作成された画像データ)、図(組織図、フローチャート、ガントチャート等の図作成用アプリケーションで作成されたオブジェクト等も含む)、写真、表(例えば表作成アプリケーションで作成されたオブジェクト等も含む)、グラフ(円グラフ、棒グラフなど表計算アプリケーションで作成されたオブジェクト等も含む)等とする。これら種別を、文書データを構成する文書構成要素とする。
タイトルは、当該領域を示すタイトルを保持する。テキストは、当該領域に含まれていたテキスト情報を保持する。このテキスト情報は、当該領域の種別がテキストの場合に限るものではなく、画像等であっても文字認識処理を実行して抽出したテキスト情報を保持する。当該フィールドに対して文字列を検索キーとして検索を行うことで、当該文字列を含む領域を特定できる。
図5は、テキスト管理テーブルのテーブル構造を示した図である。本図に示すように、テキスト管理テーブルは、文書IDと、ページIDと、領域IDと、文字情報と、開始位置座標と、字間と、行間と、文字揃えと、文字組と、フォントサイズとを、を対応付けて保持している。文書ID、ページID及び領域IDにより、どの文書のどのページのどの領域のテキストを管理しているか特定できる。文字情報は、当該領域から抽出された一つ又は複数の文字コードを格納している。開始位置座標は、抽出元の領域内において、抽出された文字コードの位置座標(例えば左上の頂点座標)を表している。フォントサイズは抽出された文字コードのフォントサイズを示している。
上述したデータ格納部102及び文書メタデータベース101は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶装置により構成することができる。
文書取得部103は、文書データを取得する。図6は、本実施の形態で処理対象となる文書データを示す図である。図6に示すように、文書データは、表601が画像データとして含むとともに、縦組みの文章603も画像として含むものとする。これら表601、文章603は、文書処理装置100においてそれぞれ別領域として扱われる。つまり、文書データに含まれる画像データやオブジェクトはこれらを作成したアプリケーションに応じて分割される。
また、テキストの領域についても、領域602など破線で分けられた領域毎に別領域として扱われる。取得した文書データは、フォーマット形式に応じて適切なアプリケーション、又は当該アプリケーションのAPIを呼び出して、読み込みが行われるものとする。以下にアプリケーションの例について説明する。
文書アプリケーション107は、第1のフォーマット形式の文書データを読み込み可能なアプリケーションとする。当該文書アプリケーション107では、第1のフォーマット形式の文書データの参照、編集が可能とする。
データ参照アプリケーション108は、第2のフォーマット形式の文書データを読み込み可能なアプリケーションとする。データ参照アプリケーション108では、第2のフォーマット形式の文書データを参照のみ可能とする。
なお、文書アプリケーション107では、第2のフォーマット形式の文書データを認識できず、データ参照アプリケーション108では、第1のフォーマット形式の文書データを認識できないものとする。
プリンタドライバ111は、画像生成部114を備え、文書データの出力命令を受け付ける。本実施の形態においては、出力命令を受け付けた場合、画像生成部114を呼び出して、ページ画像データの生成を行う。
画像生成部114は、プリンタドライバ111が文書データの出力命令を受け付けた場合に、当該文書データの全表示領域を表すページ画像データを生成する。本実施の形態にかかる画像生成部114は、文書データのページ毎にページ画像データを生成する。
領域分割部117は、文書データの各ページを、当該ページに含まれるオブジェクト及び画像データ別(つまりデータを作成したアプリケーション別)、並びに文書に含まれる段落若しくはコラム別に、領域として分割する。ページに含まれる領域を分割する手法については、周知の手法を問わず、どのような手法を用いても良い。
種別判別部116は、文書データを構成する各領域に対して、当該領域を表す種別を判別する。本実施の形態にかかる種別判別部116は、種別判別の対象となる領域から特徴量を抽出し、抽出された特徴量に基づいてパターン認識処理を行うことで、領域の種別を判断する。その際に用いるパターン認識手法としては、どのような手法を用いても良いが、例えばニューラルネットやサポートベクターマシン手法を用いてもよい。これらニューラルネットやサポートベクターマシン手法を用いることで、学習用のデータセットを作成し学習させることで、より精度の高い領域の識別の判断を行うことができる。
判断部109は、文書データのページ毎に画像データのみ含むページであるか否か判断する。また、判断部109は、当該ページが画像データ以外の文書構成要素を含むページと判断した場合、当該ページを構成する領域毎に、判別された種別が文字コードを抽出可能な種別であるか否か判断する。文字コードが抽出可能な種別としては、テキスト要素の他に、例えば表計算アプリケーションで作成されたオブジェクトを表す文書構成要素などが考えられる。
テキスト情報抽出部110は、種別がテキスト要素等の文字コードが抽出可能と判断された領域から、テキスト情報、すなわち文字コード群を抽出する。なお、本実施の形態は、テキスト情報抽出部110がテキスト情報を抽出する領域として、テキスト要素以外で文字コードが抽出可能な種別としては、文字コードが抽出可能なデータ、例えば任意のアプリケーションで作成されたオブジェクトデータ等が考えられる。
文字認識テキスト情報抽出部112は、画像生成部114により生成されたページ画像データの範囲のうち、判断部109により種別がテキスト要素等ではないと判断された領域に対応する範囲に対して文字認識処理を実行して得られた文字コードを、当該領域のテキスト情報として抽出する。この文字認識処理は、OCR(Optical Character Recognition)に用いられている文字認識処理とする。
このように、文字認識テキスト情報抽出部112は、上述した文字認識処理を行う前に、予め文書データの領域と、生成されたページ画像データの範囲とを対応付けておく。これにより、文字コードを抽出できない領域から、テキスト情報を抽出することが可能となる。なお、範囲と領域とを対応付ける手法については、周知の手法を問わず、どのような手法を用いても良い。
つまり、本実施の形態にかかる文書処理装置100では、テキスト情報抽出部110でテキスト情報を抽出すると共に、当該テキスト情報抽出部110で抽出できない領域については、当該領域に対応するページ画像データの表示領域に対して文字認識処理を実行して、テキスト情報を抽出する。これにより、文書データに含まれるテキスト情報は全て抽出できる。ところで、文字認識処理によるテキスト情報の抽出は、文字認識に誤りが生じる可能性がある。そこで、本実施の形態では、文字コードを抽出可能な領域については、文字認識処理を実行せずに、テキスト情報を抽出することとした。これにより、文書データから生成された画像データの全領域に文字認識処理を実行してテキスト情報を抽出した場合より、テキスト情報の抽出精度を向上させることができる。
登録部113は、文書メタデータベース101に対して、文書データ、当該文書データのページ及び領域に関する情報の登録、並びに文書データ及び画像データをデータ格納部102に格納する処理を行う。なお、詳細な登録手順については後述する。
また、上述した種別判別部116、判断部109、文字認識テキスト情報抽出部112、テキスト情報抽出部110、登録部113は、文書アプリケーション107やデータ参照アプリケーション108に組み込まれるプラグイン形式のプログラムでも良いし、別アプリケーションとして作成しても良い。
入力受付部115は、図示しない入力デバイスから情報の入力を受け付ける。例えば、入力受付部115は、文書データの検索要求や、その際の文書データの検索条件等の入力を受け付ける。
検索部106は、入力された検索条件に従って、文書管理テーブル、ページ管理テーブル、領域管理テーブル及びテキスト管理テーブルに対して検索を行う。また、検索部106は、領域管理テーブル及びテキスト管理テーブルに対して検索を行うことで、テキスト情報抽出部110により抽出されたテキスト情報、及び文字認識テキスト情報抽出部112により抽出されたテキスト情報のいずれか一つ以上に検索を行うことができる。
表示処理部105は、図示しない表示装置に対して、任意の情報の表示処理を行う。例えば、例えば、表示処理部105は、検索部106の検索結果として、検索条件に一致するテキスト情報を含むページ画像データ等の一覧の表示処理を行う。なお、本実施の形態とは異なるが、表示処理部105が、検索条件に一致するテキスト情報を含む文書データを表示しても良い。この後、入力受付部115が、表示されたページ画像データの一覧から、利用したい文書データのページ画像データの選択を受け付ける。
出力部104は、利用者により選択されたページ画像データを含む文書データを、当該文書データの読み込み可能なアプリケーション(例えば文書アプリケーション107)に出力する。例えば、入力受付部115が、表示処理部105により表示処理されたページの画像データに対する選択を受け付けた場合に、出力部104が、選択を受け付けた画像データをページとして含む文書データの出力を行う等が考えられる。これにより、利用者は選択した文書を利用することができる。
次に、以上のように構成された本実施の形態にかかる文書処理装置100における文書を取得してから文書メタデータベース101に登録するまでの処理について説明する。図7は、本実施の形態にかかる文書処理装置100における上述した処理の手順を示すフローチャートである。なお、当該フローチャートでは、一般的となっている文書画像認識技術を最大限利用しているものとする。
まず、文書取得部103が、スキャナ151や外部記憶装置150等の外部環境から、文書データを取得する(ステップS701)。
そして、文書取得部103が、取得した文書データを認識可能なアプリケーション(例えば、文書アプリケーション107など)のAPIを呼び出して、当該文書データの読み込み処理を行う(ステップS702)。これにより、文書データの内容を把握することができる。
次に、登録部113が、取得した文書データを、データ格納部102に格納すると共に、文書管理テーブルに文書データに関する情報の登録を行う(ステップS703)。文書データに関する情報としては、文書管理テーブルの各フィールドに示されたタイトル、作成更新日、ページ数、ファイルフォーマット、当該文書データの格納先となるファイルパス、当該文書データのファイル名とする。
そして、判断部109が、当該文書データに含まれるページにおいて、全領域が画像データであるか否か判断する(ステップS704)。なお、ステップS703は、最初は1ページ目について判断を行い、当該ステップが繰り返される度に次ページを判断するように処理を行う。
次に、当該ページの全領域が画像データと判断された場合(ステップS704:Yes)、登録部113が、当該ページを表す画像データと共に、当該ページの関する情報を対応付けて、ページ管理テーブルに登録する(ステップS705)。ページに関する情報としては、当該ページを含む文書の文書IDと、当該ページのページ番号、当該ページを著す画像の格納先の画像データパスとする。なお、当該ページを表す画像データは、登録部113により、データ格納部に格納されるものとする。
そして、領域分割部117が、当該ページ画像を領域毎に分割する(ステップS706)。なお、ページに含まれる領域の分割は、空白領域の幅に基づいて分割するなどの周知の手法を問わず、あらゆる手法で分割することができる。当該分割により、領域毎の領域座標を特定できる。
次に、種別判別部116が、当該ページの分割された領域毎に、当該領域から抽出された特徴量に基づいて、当該領域の種別を判別する(ステップS707)。この領域からの特徴量の抽出は、種別判別部116が行うものとする。
そして、種別の判別が行われた後、文字認識テキスト情報抽出部112は、画像データの当該領域に対して文字認識処理を実行して、当該領域に含まれているテキスト情報、すなわち文字コード群を抽出する(ステップS708)。なお、文字認識テキスト情報抽出部112は、文字認識処理により文字コードを抽出する際、各文字コードの位置座標も取得する。なお、位置座標のみならず、適切なフォントサイズも取得する。なお、複数文字を一レコードに登録する場合、字間、行間、文字揃え等も取得する。
次に、登録部113が、当該領域に関する情報を領域管理テーブルに登録すると共に、当該領域から抽出されたテキストに関する情報を、テキスト管理テーブルに登録する(ステップS709)。当該領域に関する情報としては、当該領域を含むページのページID、当該ページを含む文書ID、当該領域の領域座標、当該領域の種別、テキストなどが考えられる。
なお、テキスト管理テーブルに文字コードを登録する場合、テキストに関する情報として、抽出先の文書ID、ページID及び領域IDと共に、当該領域IDから抽出された文字コード(文字情報)と、当該文字コードの開始位置座標と、フォントサイズとを対応付けて登録する。開始位置座標とは、当該文字コードを含む矩形の左上座標とする。また、テキスト管理テーブルには、一文字単位でレコードとして登録しても良いし、複数の文字列をレコードに登録しても良い。複数の文字列をレコードに格納する場合、それぞれの文字列の位置座標を特定するための情報、例えば字間、行間、文字揃え、文字組などを対応付けて登録する。これにより、領域に対して文字の配置を再現することが可能となる。
次に、判断部109が、当該ページに含まれる全ての領域についてステップS706〜S708の処理を行ったか否か判断する(ステップS710)。処理を行っていない領域があると判断した場合(ステップS710:No)、処理を行っていない領域に対する種別の判別から開始する(ステップS707)。
そして、判断部109が、処理を行ったと判断した場合(ステップS710:Yes)、ステップS720へと処理を進ませる。
一方、判断部109が、当該文書データに含まれるページにおいて、全領域が画像データではないと判断した場合(ステップS704:No)、文書データを読み込んだアプリケーションのAPIが、プリンタドライバ111に対して、当該ページの出力命令を行う。
そして、プリンタドライバ111は、当該出力命令に従って、画像生成部114が、当該ページの画像データを生成する(ステップS711)。
次に、登録部113が、生成された当該ページを表す画像データと共に、当該ページの関する情報を対応付けて、ページ管理テーブルに登録する(ステップS712)。
領域分割部117が、当該ページを領域毎に分割する(ステップS713)。なお、ページに含まれる領域の分割は、空白領域の幅に基づいて分割するなどの周知の手法を問わず、あらゆる手法で分割することができる。当該分割により、領域毎の領域座標を特定できる。
その後、種別判別部116が、分割された領域毎に、当該領域から抽出された特徴量に基づいて、当該領域の種別を判別する(ステップS714)。
次に、判断部109が、判別された種別に基づいて、当該領域がテキスト要素又は文字コードが抽出可能なオブジェクトであるか否か判断する(ステップS715)。
そして、判断部109が、当該領域がテキスト要素又は文字コードが抽出可能なオブジェクトであると判断した場合(ステップS714:Yes)、テキスト情報抽出部110が、当該領域に含まれているテキスト情報、すなわち文字コードと文字コードの位置座標を抽出する(ステップS716)。なお、文字コードの位置座標とは、当該領域を含むページが印刷された場合に位置する当該文字コードの位置座標とする。この位置座標は、例えば、生成されたページ画像データから特定することができる。
一方、判断部109が、当該領域がテキスト要素又は文字コードが抽出可能なオブジェクトではないと判断した場合(ステップS714:No)、文字認識テキスト情報抽出部112が、画像データの当該領域に対して文字認識処理を実行して、当該領域に含まれているテキスト情報、すなわち文字コード群を抽出する(ステップS717)。なお、文字認識テキスト情報抽出部112は、文字認識処理を実行して文字コードを抽出する際、各文字コードの位置座標も取得する。
その後、登録部113が、当該領域に関する情報を領域管理テーブルに登録すると共に、当該領域から抽出されたテキスト情報を、テキスト管理テーブルに登録する(ステップS718)。
そして、判断部109が、当該ページに含まれる全領域について、ステップS715〜S718までの処理を行ったか否か判断する(ステップS719)。処理を行っていない領域があると判断した場合(ステップS719:No)、処理を行っていない領域に対する種別の判別から開始する(ステップS714)。
一方、判断部109が、ページの全領域に対して処理を行ったと判断した場合(ステップS719:Yes)、ステップS720へと処理を進ませる。
次に、判断部109は、文書データに含まれる全ページに対して、ステップS704〜S719までの処理を行ったか否か判断する(ステップS720)。行っていないと判断した場合(ステップS720:No)、再びステップS704から処理を開始する(ステップS704)。
一方、判断部109は、文書データに含まれる全ページに対して、ステップS704〜S719までの処理を行ったと判断した場合(ステップS720:Yes)、処理を終了する。
上述した処理手順では、電子文書を処理する場合について具体的に説明したが、文書画像データの場合も同様に処理することができる。この場合、ステップS704で常にYesと判断される。
上述した処理手順により、文書データに関する情報が文書管理テーブルに登録されると共に、当該文書データに含まれる各ページ、各領域に関する情報が、ページ管理テーブル及び領域管理テーブルに登録される。さらには、各領域に含まれているテキスト情報が、テキスト管理テーブルに、位置座標と対応付けて登録されることになる。このように、当該領域がテキスト要素であるか否かにかかわらず登録されることになる。
上述した処理手順では、画像データの解析手法と、文書データの解析手法を組み合わせることで容易に精度よく、当該文書データに含まれているテキスト情報を抽出することができる。
また、現在、文書データのフォーマット形式は、アプリケーション毎に様々な形式のフォーマットがある。そして、これら様々な形式のフォーマットに対応するために、本実施の形態では、上述した文書メタデータベース101に、フォーマット形式によらず全ての文書データの画像データ及びテキスト情報を登録することとした。これにより、文書フォーマットに関係なく、文書データの検索を行うことができる。
また、文書データの画像データを生成する際に、プリンタドライバ内の画像生成部114を用いることとした。これにより、文書データのフォーマット形式にかかわらず、文書データの画像データを生成できる。
次に、以上のように構成された本実施の形態にかかる文書処理装置100における文書データの検索処理について説明する。図8は、本実施の形態にかかる文書処理装置100における上述した処理の手順を示すフローチャートである。
まず、入力受付部115が、利用者が操作する入力デバイスによる、検索条件の入力を受け付ける(ステップS801)。
次に、検索部106が、入力された検索条件に従って、文書メタデータベース101に対して検索を行う(ステップS802)。この検索としては、例えば、利用者により入力された文字列を検索キーとして、領域管理テーブルのテキストフィールドや、テキスト管理テーブルの文字情報フィールドに対して検索を行うことが考えられる。または、ページ管理テーブルや、文書管理テーブルに対して検索条件を設定して検索を行ってもよい。そして、検出された領域、テキスト情報等からページID、文書ID等を特定できる。
そこで、表示処理部105が、検索条件を満足する領域やテキスト情報を含むページ画像データの一覧を、表示装置に表示する(ステップS803)。なお、当該一覧に表示されたページ画像データ毎に、ページIDが対応付けられているものとする。これにより、利用者が、ページ画像データを選択した場合に、ページIDが入力されることになる。
次に、入力受付部115が、表示されたページ画像データの一覧から、利用者が選択したページ画像データを示すページIDの入力を受け付ける(ステップS804)。
そして、出力部104が、利用者が選択したページ画像データを示すページIDから、当該ページを含む文書データを特定し、当該文書データを読み込み可能なアプリケーションに出力する(ステップS805)。
上述した処理手順により、利用者は検索条件に該当する文書データを利用することが可能となる。また、文書メタデータベース101のテーブル群に対して検索を行うので、文書データのフォーマット形式を意識することなく、検索を行うことを可能としている。
また、本実施の形態においては、検索終了後に検索条件に一致するページ画像データを表示したが、ページ画像データに制限するものではなく、文書データを表示しても良い。
ところで、従来、任意のアプリケーションで作成された文書データに画像データが埋め込まれている場合、当該画像データに含まれている文字列を検索できないという問題が生じていた。そこで本実施の形態にかかる文書処理装置100では、文書データに画像データが含まれている場合であっても適切に抽出して、文書メタデータベース101に登録するので、検索可能となる。
上述した実施の形態にかかる文書処理装置100によれば、文書データの各ページの領域に応じて、テキストの抽出処理を変更しているので、解析精度を向上させることができる。また、一般的な文字認識処理(OCR)と、文書データのテキスト要素又はオブジェクトからの文字コードの抽出を組み合わせることで、簡易に精度よい解析が可能となる。
また、本実施の形態にかかる文書処理装置100によれば、文書データの画像データで表現された図や表に対して、文字認識処理を実行することで、テキスト情報を抽出している。これにより、文書データに図や表が画像データとして貼り付けられている場合でも、解析が可能となる。さらに図や表に含まれているテキスト情報で検索することが可能となる。
さらに、文書処理装置100では、文書画像データであっても、テキスト情報の抽出が可能である。このように文書画像データ、文書データを問わず検索対象とすることが可能となる。
上述した文書処理装置100では、画像データを生成し、当該画像データからテキスト情報を抽出することで、当該領域に含まれているオブジェクトのフォーマットと依存せず解析が可能である。
上述した文書処理装置100では、文書管理テーブル、ページ管理テーブル、領域管理テーブル及びテキスト管理テーブルに対して検索を行うことができるので、文書、ページ領域、テキスト情報単位での検索が可能となる。
(変形例)
また、上述した各実施の形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
上述した第1の実施の形態にかかる文書処理装置100では、検索結果としてページ画像データの一覧を表示していた。しかしながら、ページ画像データの一覧の表示に制限するものではない。
例えば、表示処理部105が、ページ画像データの代わりに、領域管理テーブル及びテキスト管理テーブルが保持する情報を利用して各ページを再現して表示しても良い。具体的には、領域管理テーブル及びテキスト管理テーブルが保持する情報を取得して、検索された領域を含むページについて、当該ページを構成する文字コードを、当該文字コードと対応付けられた位置座標に配置することで、当該ページを再現できる。
上述した処理手順により、文書データのフォーマット形式にかかわらず、当該文書データのページを再現して表示することができる。さらに、ページ画像データではなく文字コードを用いてページを再現するので、文書処理装置100の処理負担を軽減させることができる。
図9は、文書処理装置100の機能を実現するためのプログラムを実行したPCのハードウェア構成を示した図である。本実施の形態の文書処理装置100は、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902やRAM(Random Access Memory)903と、HDD(Hard Disk Drive)、CD(Compact Disk)ドライブ装置等の外部記憶装置905と、ディスプレイ装置等の表示装置906と、キーボードやマウス等の入力デバイス907と、通信I/F904と、これらを接続するバス908を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態の文書処理装置100で実行される文書処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の文書処理装置100で実行される文書処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の文書処理装置100で実行される文書処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の文書処理装置100で実行される文書処理プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
上述した実施の形態の文書処理装置100で実行される文書処理プログラムは、文書処理装置100において上記記録媒体から読み出して実行することによりRAM902上にロードされ、上記ソフトウェア構成で説明した各部がRAM903上に生成されるようになっている。
以上のように、本発明にかかる文書処理装置、文書処理方法及び文書処理プログラムは、文書データの処理に有用であり、特に、画像を含む文書データを検索可能に格納する技術に適している。
実施の形態にかかる文書処理装置の構成を示すブロック図である。 文書管理テーブルのテーブル構造を示した図である。 ページ管理テーブルのテーブル構造を示した図である。 領域管理テーブルのテーブル構造を示した図である。 テキスト管理テーブルのテーブル構造を示した図である。 実施の形態で処理対象となる文書データを示す図である。 実施の形態にかかる文書処理装置における、文書を取得してから文書メタデータベースに登録するまでの処理の手順を示すフローチャートである。 本実施の形態にかかる文書処理装置における、文書データの検索処理の手順を示すフローチャートである。 本実施の形態にかかる文書処理装置の機能を実現するためのプログラムを実行したPCのハードウェア構成を示した図である。
符号の説明
100 文書処理装置
101 文書メタデータベース
102 データ格納部
103 文書取得部
104 出力部
105 表示処理部
106 検索部
107 文書アプリケーション
108 データ参照アプリケーション
109 判断部
110 テキスト情報抽出部
111 プリンタドライバ
112 文字認識テキスト情報抽出部
113 登録部
114 画像生成部
115 入力受付部
116 種別判別部
150 外部記憶装置
151 スキャナ
901 CPU
902 ROM
903 RAM
904 通信I/F
905 外部記憶装置
906 表示装置
907 入力デバイス
908 バス

Claims (16)

  1. 少なくとも2以上のアプリケーションで作成された文書情報を取得する文書情報取得手段と、
    取得した前記文書情報から、文書画像を生成する画像生成手段と、
    取得した前記文書情報を、アプリケーション別に領域として分割する領域分割手段と、
    前記領域分割手段により分割された領域毎に、当該領域を読み込み可能なアプリケーションを特定するための種別を判別する種別判別手段と、
    分割された前記領域毎に、文字コードを抽出可能であるか否か判断する判断手段と、
    前記文字コードを抽出可能と判断された前記領域から、第1の文字情報を抽出する第1の文字情報抽出手段と、
    前記文字コードが抽出できないと判断された場合、前記文書画像に対して文字認識処理を施して得られた文字コードを第2の文字情報として抽出する第2の文字情報抽出手段と、
    前記第1の文字情報と、前記第2の文字情報と、前記文書情報及び前記文書画像の少なくともいずれか一方と、を対応付けて記憶する記憶手段と、
    前記領域分割手段により分割された領域毎に、前記種別を示す種別情報を対応付けて記憶する領域記憶手段と、
    前記記憶手段に記憶された前記第1の文字情報又は前記第2の文字情報を検索する検索手段と、
    を備えることを特徴とする文書処理装置。
  2. 前記検索手段で検索された、前記第1の文字情報及び前記第2の文字情報のいずれか一つ以上と、前記記憶手段で対応付けられている前記文書情報及び前記文書画像の少なくともいずれか一方を出力する出力手段と、
    をさらに備えることを特徴とする請求項1に記載の文書処理装置。
  3. 前記第1の文字情報抽出手段は、さらに前記第1の文字情報の位置を示す第1の位置情報を抽出し、
    前記記憶手段は、さらに前記第1の位置情報を対応付けて記憶すること、
    を特徴とする請求項1又は2に記載の文書処理装置。
  4. 前記出力処理手段は、前記第1の文字情報を、前記記憶手段で対応付けられた前記第1の位置情報に配置して出力すること、
    を特徴とする請求項3に記載の文書処理装置。
  5. 前記第2の文字情報抽出手段は、さらに前記第2の文字情報の位置を示す第2の位置情報を抽出し、
    前記記憶手段は、さらに前記第2の位置情報を対応付けて記憶すること、
    を特徴とする請求項1乃至4のいずれか一つに記載の文書処理装置。
  6. 前記表示処理手段は、前記第2の文字情報を、前記記憶手段で対応付けられた前記第2の位置情報に配置して出力すること、
    を特徴とする請求項5に記載の文書処理装置。
  7. 前記取得した文書情報を読み込むアプリケーションをさらに備え、
    前記画像生成手段は、前記文書処理装置内の印刷ドライバ内に含まれ、前記文書情報を読み込んだアプリケーションによる出力命令に従って前記文書画像データを生成すること、
    を特徴とする請求項1乃至6のいずれか一つに記載の文書処理装置。
  8. 文書情報取得手段が、少なくとも2以上のアプリケーションで作成された文書情報を取得する文書情報取得ステップと、
    画像生成手段が、取得した前記文書情報から、文書画像を生成する画像生成ステップと、
    領域分割手段が、取得した前記文書情報を、アプリケーション別に領域として分割する領域分割ステップと、
    種別判別手段が、前記領域分割ステップにより分割された領域毎に、当該領域を読み込み可能なアプリケーションを特定するための種別を判別する種別判別ステップと、
    判断手段が、分割された前記領域毎に、文字コードを抽出可能であるか否か判断する判断ステップと、
    第1の文字情報抽出手段が、前記文字コードを抽出可能と判断された前記領域から、第1の文字情報を抽出する第1の文字情報抽出ステップと、
    第2の文字情報抽出手段が、前記文字コードが抽出できないと判断された場合、前記文書画像に対して文字認識処理を施して得られた文字コードを第2の文字情報として抽出する第2の文字情報抽出ステップと、
    前記第1の文字情報と、前記第2の文字情報と、前記文書情報及び前記文書画像の少なくともいずれか一方と、を対応付けて記憶手段に記憶する記憶ステップと、
    前記領域分割ステップにより分割された領域毎に、前記種別を示す種別情報を対応付けて領域記憶手段に記憶する領域記憶ステップと、
    検索手段が、前記記憶手段に記憶された前記第1の文字情報又は前記第2の文字情報を検索する検索ステップと、
    を有することを特徴とする文書処理方法。
  9. 力手段が、前記検索ステップで検索された、前記第1の文字情報及び前記第2の文字情報のいずれか一つ以上と、前記記憶手段で対応付けられている前記文書情報及び前記文書画像の少なくともいずれか一方を出力する出力ステップと、
    をさらに有することを特徴とする請求項8に記載の文書処理方法。
  10. 前記第1の文字情報抽出ステップは、さらに前記第1の文字情報の位置を示す第1の位置情報を抽出し、
    前記記憶ステップは、さらに前記第1の位置情報を対応付けて記憶すること、
    を特徴とする請求項8又は9に記載の文書処理方法。
  11. 前記出力処理ステップは、前記第1の文字情報を、前記記憶手段で対応付けられた前記第1の位置情報に配置して出力すること、
    を特徴とする請求項10に記載の文書処理方法。
  12. 前記第2の文字情報抽出ステップは、さらに前記第2の文字情報の位置を示す第2の位置情報を抽出し、
    前記記憶ステップは、さらに前記第2の位置情報を対応付けて記憶すること、
    を特徴とする請求項8乃至11のいずれか一つに記載の文書処理方法。
  13. 前記表示処理ステップは、前記第2の文字情報を、前記記憶手段で対応付けられた前記第2の位置情報に配置して出力すること、
    を特徴とする請求項12に記載の文書処理方法。
  14. 記画像生成ステップは、前記文書処理装置内の印刷ドライバ内に含まれた前記画像生成手段が、前記文書情報を読み込んだアプリケーションによる出力命令に従って前記文書画像データを生成すること、
    を特徴とする請求項8乃至13のいずれか一つに記載の文書処理方法。
  15. コンピュータを、
    少なくとも2以上のアプリケーションで作成された文書情報を取得する文書情報取得手段と、
    取得した前記文書情報から、文書画像を生成する画像生成手段と、
    取得した前記文書情報を、アプリケーション別に領域として分割する領域分割手段と、
    前記領域分割手段により分割された領域毎に、当該領域を読み込み可能なアプリケーションを特定するための種別を判別する種別判別手段と、
    分割された前記領域毎に、文字コードを抽出可能であるか否か判断する判断手段と、
    前記文字コードを抽出可能と判断された前記領域から、第1の文字情報を抽出する第1の文字情報抽出手段と、
    前記文字コードが抽出できないと判断された場合、前記文書画像に対して文字認識処理を施して得られた文字コードを第2の文字情報として抽出する第2の文字情報抽出手段と、
    前記第1の文字情報と、前記第2の文字情報と、前記文書情報及び前記文書画像の少なくともいずれか一方と、を対応付けて記憶手段に記憶させる第1の登録手段と、
    前記領域分割手段により分割された領域毎に、前記種別を示す種別情報を対応付けて領域記憶手段に記憶させる第2の登録手段と、
    前記記憶手段に記憶された前記第1の文字情報又は前記第2の文字情報を検索する検索手段と、
    として機能させることを特徴とする文書処理プログラム。
  16. 前記検索手段で検索された、前記第1の文字情報及び前記第2の文字情報のいずれか一つ以上と、前記記憶手段で対応付けられている前記文書情報及び前記文書画像の少なくともいずれか一方を出力する出力手段と、
    をさらに機能させることを特徴とする請求項15に記載の文書処理プログラム。
JP2007293394A 2007-11-12 2007-11-12 文書処理装置、文書処理方法及び文書処理プログラム Expired - Fee Related JP4926004B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007293394A JP4926004B2 (ja) 2007-11-12 2007-11-12 文書処理装置、文書処理方法及び文書処理プログラム
US12/245,851 US8107727B2 (en) 2007-11-12 2008-10-06 Document processing apparatus, document processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007293394A JP4926004B2 (ja) 2007-11-12 2007-11-12 文書処理装置、文書処理方法及び文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2009122760A JP2009122760A (ja) 2009-06-04
JP4926004B2 true JP4926004B2 (ja) 2012-05-09

Family

ID=40623759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007293394A Expired - Fee Related JP4926004B2 (ja) 2007-11-12 2007-11-12 文書処理装置、文書処理方法及び文書処理プログラム

Country Status (2)

Country Link
US (1) US8107727B2 (ja)
JP (1) JP4926004B2 (ja)

Families Citing this family (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20090049104A1 (en) * 2005-06-08 2009-02-19 William Pan Method and system for configuring a variety of medical information
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8144988B2 (en) * 2007-09-06 2012-03-27 Ricoh Company, Ltd. Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
US8194982B2 (en) * 2007-09-18 2012-06-05 Ricoh Company, Ltd. Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP4941331B2 (ja) * 2008-01-28 2012-05-30 セイコーエプソン株式会社 印刷方法、印刷装置、対応テーブル生成方法、およびプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN102081594B (zh) * 2009-11-27 2014-02-05 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5743443B2 (ja) * 2010-07-08 2015-07-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8989492B2 (en) * 2011-06-03 2015-03-24 Apple Inc. Multi-resolution spatial feature extraction for automatic handwriting recognition
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
CN104423900B (zh) * 2013-08-27 2018-04-27 北大方正集团有限公司 图像打印方法和打印机
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6403417B2 (ja) * 2014-04-23 2018-10-10 株式会社キーエンス 携帯型光学式読取装置、該携帯型光学式読取装置を用いる光学式読取方法、及びコンピュータプログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
AU2018237196B2 (en) * 2017-03-22 2021-03-25 Enverus, Inc. Extracting data from electronic documents
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
GB2589780B (en) * 2018-07-05 2022-09-28 Schlumberger Technology Bv Drilling fluid activation correction via neutron generator modulation
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
JP2021149841A (ja) * 2020-03-23 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11701914B2 (en) * 2020-06-15 2023-07-18 Edward Riley Using indexing targets to index textual and/or graphical visual content manually created in a book

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3696915B2 (ja) 1995-01-31 2005-09-21 キヤノン株式会社 電子ファイリング方法及び電子ファイリング装置
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP4742404B2 (ja) * 2000-05-17 2011-08-10 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2003091525A (ja) * 2001-09-14 2003-03-28 Canon Inc 情報処理装置および方法
JP4546291B2 (ja) * 2005-03-01 2010-09-15 キヤノン株式会社 画像処理装置およびその制御方法
JP4700452B2 (ja) * 2005-09-16 2011-06-15 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体
JP2007174270A (ja) * 2005-12-22 2007-07-05 Canon Inc 画像処理装置、画像処理方法、記憶媒体、プログラム
JP4977452B2 (ja) * 2006-01-24 2012-07-18 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
JP2007200014A (ja) 2006-01-26 2007-08-09 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2007286961A (ja) * 2006-04-18 2007-11-01 Mitsubishi Electric Corp 文書属性抽出装置及び文書属性抽出プログラム

Also Published As

Publication number Publication date
US8107727B2 (en) 2012-01-31
JP2009122760A (ja) 2009-06-04
US20090123071A1 (en) 2009-05-14

Similar Documents

Publication Publication Date Title
JP4926004B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
JP2008146605A (ja) 画像処理装置及びその制御方法
JP2011070558A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP2005151127A5 (ja)
JP2006065477A (ja) 文字認識装置
JP5565130B2 (ja) 縮小画像生成装置及びプログラム
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2008282094A (ja) 文字認識処理装置
JP2007041709A (ja) 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
US7844138B2 (en) History control apparatus
JP4518212B2 (ja) 画像処理装置及びプログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP4823049B2 (ja) 文書画像検索装置及びプログラム
JP5724286B2 (ja) 帳票作成装置、帳票作成方法、プログラム
JP5310206B2 (ja) 文書処理装置、文書処理方法および文書処理プログラム
JP2005208934A (ja) 文書配信処理装置及び文書配信処理プログラム
JP2009223391A (ja) 画像処理装置及び画像処理プログラム
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP4822882B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6541936B2 (ja) 情報処理装置、帳票読取方法、及びプログラム
JP2022045559A (ja) 文書検索システム、文書検索方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4926004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees