JP4332356B2 - 情報検索装置及び方法並びに制御プログラム - Google Patents

情報検索装置及び方法並びに制御プログラム Download PDF

Info

Publication number
JP4332356B2
JP4332356B2 JP2003013428A JP2003013428A JP4332356B2 JP 4332356 B2 JP4332356 B2 JP 4332356B2 JP 2003013428 A JP2003013428 A JP 2003013428A JP 2003013428 A JP2003013428 A JP 2003013428A JP 4332356 B2 JP4332356 B2 JP 4332356B2
Authority
JP
Japan
Prior art keywords
document data
document
character
word
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003013428A
Other languages
English (en)
Other versions
JP2004227227A5 (ja
JP2004227227A (ja
Inventor
雄二 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003013428A priority Critical patent/JP4332356B2/ja
Priority to US10/762,126 priority patent/US7305382B2/en
Publication of JP2004227227A publication Critical patent/JP2004227227A/ja
Publication of JP2004227227A5 publication Critical patent/JP2004227227A5/ja
Application granted granted Critical
Publication of JP4332356B2 publication Critical patent/JP4332356B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • Y10S707/915Image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術の分野】
本発明は、文字、画像等のマルチメディア情報を含んだ文書から所望の文書を検索する情報検索装置及び方法並びに制御プログラムに関する。
【0002】
【従来の技術】
従来、マルチメディア情報を含んだ文書から所望の文書を検索するため全文検索と呼ばれる手法を適用した情報検索装置が知られている。この装置では、例えば、所望の検索用情報を表す検索語あるいは文等を入力し、蓄積された文書群から、入力された語あるいは文と一致する語あるいは文を有している文書を得るようにしている。
【0003】
また、文書画像であっても文書の内容に基づく情報検索を可能にするために、文書画像に含まれている文字画像部分を文字認識し、文字認識結果得られる文字情報をもとに全文検索を適用可能なように構成した装置が考案されている。
【0004】
しかし、文字認識結果得られた文字コードを含んだ文書(以下、「文字認識処理済み文書」と称する)には、誤認識された文字が含まれる可能性があるため、文字認識を経ないテキスト等の文書と同様の手法によって全文検索を行なった場合、検索漏れの増大や、本来の文書内容と異なる文字との思いがけない一致による誤検索が生じることがある。
【0005】
そのため、文字認識処理済み文書に全文検索を適用する前に、検索対象となる文字認識処理済み文書の誤認識箇所をひとつひとつユーザが目視して修正することが通常行われる。
【0006】
そしてこの目視修正を不要とするために、下記特許文献1では、文字認識の候補となる複数の文字をその確からしさの推定値とともに用いることで、誤認識が含まれる文字認識処理済み文書であっても、複数の候補文字を選択して検索漏れを低減させる手法が開示されている。すなわち、複数の文字認識候補文字を含めて検索することで検索漏れを低減させることができる。
【0007】
【特許文献1】
特許第2586372号
【0008】
【発明が解決しようとする課題】
しかしながら、例えば、図5に示される誤認識文字列「モルール」に対して、たまたま誤認識文字列と一致してしまう「ルール」と照合することを回避できないため、文字列「ルール」で検索すると、本来は「モノレール」であるこの誤認識文字列「モルール」と一致し、誤検索されてしまう等のように、精度の低下を招く恐れがある。
【0009】
また、文字認識により得られた文字コードのみで構成される文字認識処理済み文書の場合は、上記特許文献1の手法を用いたとしても、文字認識過程における他の候補文字の情報が必要であるため、その効果を期待できず、検索漏れの増大や誤検索の問題が残る。
【0010】
一方で、単に文字単位の索引情報のみならず、実際に存在する単語との照合を行う形態素解析を行って、抽出された単語を文書検索用の索引情報として登録する、単語索引による情報検索装置も提案されている。この単語検索による情報検索装置では、文字単位の索引による情報検索装置と比べ、単語の境界をまたいだ一致等を避けることができるため、検索精度を向上させることができる。ところが、この単語索引による情報検索においても、すべての単語を単語辞書に収録することは事実上不可能であるため、辞書に存在しない単語について検索することができず、検索漏れが起こり得る。
【0011】
本発明は上記従来技術の問題を解決するためになされたものであり、その目的は、検索漏れ及び誤検索の少ない適切な検索を行うことができる情報検索装置及び方法並びに制御プログラムを提供することにある。
【0013】
【課題を解決するための手段】
上記第1の目的を達成するために本発明の請求項1の情報検索装置は、文書データから抽出された単語を前記文書データと対応付けて登録した索引情報を参照して、要求された検索条件に対応する文書データを検索する情報検索装置であって、前記文書データから未知単語を抽出する未知単語抽出手段と、前記未知単語抽出手段によって未知単語が抽出された文書データの種別が文字認識処理済み文書であるか否かを判別する文書データ種別判別手段と、種別が文字認識処理済み文書である文書データについて、前記未知単語抽出手段により抽出された未知単語の前記索引情報としての登録の可否の、ユーザの意思に基づ指定を記憶する未知語検索指定保持手段と、前記文書データ種別判別手段により、前記文書データの種別が文字認識処理済み文書であると判別され、且つ、該文書データに対する前記未知語検索指定保持手段に記憶されている登録の可否の指定が可である場合は、該文書データについて前記未知単語抽出手段により抽出された未知単語の前記索引情報としての登録を許可するよう決定する一方、前記文書データ種別判別手段により、前記文書データの種別が文字認識処理済み文書であると判別され、且つ、該文書データに対する前記未知語検索指定保持手段に記憶されている登録の可否の指定が否である場合は、該文書データについて前記未知単語抽出手段により抽出された未知単語の前記索引情報としての登録を禁止するよう決定する登録可否決定手段とを備えることを特徴とする。
また、本発明の請求項6の情報検索方法は、文書データから抽出された単語を前記文書データと対応付けて登録した索引情報を参照して、要求された検索条件に対応する文書データを検索する情報検索方法であって、前記文書データから未知単語を抽出する未知単語抽出工程と、前記未知単語抽出工程で未知単語が抽出された文書データの種別が文字認識処理済み文書であるか否かを判別する文書データ種別判別工程と、種別が文字認識処理済み文書である文書データについて、前記未知単語抽出工程で抽出された未知単語の前記索引情報としての登録の可否の、ユーザの意思に基づ指定を未知語検索指定保持部に記憶させる未知語検索指定保持工程と、前記文書データ種別判別工程で、前記文書データの種別が文字認識処理済み文書であると判別され、且つ、該文書データに対する前記未知語検索指定保持部に記憶されている登録の可否の指定が可である場合は、該文書データについて前記未知単語抽出工程で抽出された未知単語の前記索引情報としての登録を許可するよう決定する一方、前記文書データ種別判別工程で、前記文書データの種別が文字認識処理済み文書であると判別され、且つ、該文書データに対する前記未知語検索指定保持部に記憶されている登録の可否の指定が否である場合は、該文書データについて前記未知単語抽出工程で抽出された未知単語の前記索引情報としての登録を禁止するよう決定する登録可否決定工程とを備えることを特徴とする。
また、本発明の請求項7の制御プログラムは、請求項6に記載の情報検索方法をコンピュータに実行させることを特徴とする。
【0015】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
【0016】
図1は、本発明の一実施の形態に係る情報検索装置の全体構成を示すブロック図である。
【0017】
図1において、11はマイクロプロセッサ(CPU)(索引情報登録手段、文書検索手段、未知単語抽出手段、単語抽出手段、文書種別判別手段、文字認識処理手段、登録可否決定手段、文字校正手段)であり、情報検索のための演算、論理判断等を行い、アドレスバスAB、コントロールバスCB、データバスDBを介して、それらのバスに接続された各構成要素を制御する。
【0018】
アドレスバスABはCPU11が制御の対象とする構成要素を指示するアドレス信号を転送する。コントロールバスCBはCPU11が制御の対象とする各構成要素のコントロール信号を転送して印加する。データバスDBは各構成要素相互間のデータ転送を行う。
【0019】
12は読出し専用の固定メモリ(ROM)であり、本実施の形態で実行される処理プログラム等の制御プログラムコードを記憶する。13は書込み可能なランダムアクセスメモリ(RAM)であり、各構成要素からの各種データの一時記憶に用いられる。RAM13はまた、図2において後述する検索語保持部202、検索結果保持部204、未知語検索指定保持部208(可否指定手段)、文書タイプ保持部214を記憶する。
【0020】
14は外部メモリ(DISK)であり、図2において後述する単語インデックス205、単語抽出辞書207(単語辞書)、文字校正用辞書210、抽出テキスト212、文書登録処理部215に入力された登録文書が格納される。また、図2において後述する検索要求入力処理部201、検索処理部203(文書検索手段)、単語抽出処理部206(未知単語抽出手段、単語抽出手段)、文字校正処理部209(文字校正手段)、文字認識処理部211(文字認識処理手段)、登録文書タイプ判定部213(文書種別判別手段)の各処理部を実行するプログラムコードが格納される。また、これらのデータ及びプログラムを格納する記憶媒体としては、固定磁気ディスク、ROM、フロッピー(登録商標)ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−R、メモリカード、光磁気ディスク、磁気テープ等を用いることができる。
【0021】
15はキーボード(KB)であり、アルファベットキー、ひらがなキー、カタカナキー、句点等の文字記号入力キー、検索を指示する検索キー及び、カーソル移動を指示するカーソル移動キー等のような各種の機能キーを備えている。16は表示用ビデオメモリ(VRAM)であり、表示すべきデータのパターンを蓄える。17はCRTコントローラ(CRTC)であり、表示用ビデオメモリVRAM16に蓄えられた内容を後述する表示器CRT18に表示する役割を担う。
【0022】
表示器CRT18は、陰極線管、液晶パネル等の表示装置であり、表示装置CRT18におけるドット構成の表示パターン及びカーソルの表示は、CRTコントローラ17により制御される。19はネットワークコントローラ(NIC)であり、Ethernet(登録商標)等のネットワークに接続する役割を担う。
【0023】
かかる各構成要素からなる情報検索装置は、キーボードKB15からの各種の入力及びネットワークコントローラ19から供給されるネットワーク経由の各種入力に応じて作動し、キーボードKB15からの入力及びネットワークコントローラ19からの入力が供給されると、まず、インタラプト信号がCPU11に送られ、CPU11がDISK14内に記憶されている各種の制御信号を読み出し、それらの制御信号に従って、各種の制御を行う。
【0024】
図2は、本発明の実施の形態の情報検索装置の機能構成を示すブロック図である。
【0025】
同図において、201は所望の検索対象に関する要求事項(検索文や検索語等の検索用情報であって、本実施の形態では、検索語を用いることとする)を入力する検索要求入力処理部である。202は検索要求入力処理部201によって入力された検索語を記憶する検索語保持部である。203は検索語保持部202に記憶された検索語に基づいて、登録された文書を対象として検索する検索処理部である。204は、検索処理部203の処理結果を保持する検索結果保持部である。
【0026】
205は、文書登録処理部215で登録された文書から抽出された単語と、その単語の出現する文書の文書情報とを対応させて記憶した単語インデックスである(後述)。206は、文書登録処理部215で登録された文書から検索対象とする単語(検索語との照合対象となる単語)を抽出する単語抽出処理部である。207は、単語抽出処理部206で参照される単語を定義した単語抽出辞書である。
【0027】
208は、文書登録処理部215で登録された文書において出現した単語のうち単語抽出辞書207において定義されていない「未知語」であると判定された単語に対して、これを単語インデックス205に、文書検索用の索引情報として登録する否かを指定する未知語検索指定保持部である。この未知語検索指定保持部208では、文字認識処理を経た結果であるテキスト文書(すなわち、文字認識の結果得られた文字コードを含んだ文書であり、以下、「文字認識処理済み文書」とも称する)の登録の際に、単語抽出辞書207に収録されていない未知語であっても検索可能なように登録する(インデックスを作成する)か、あるいは未知語については検索対象とならないように登録を禁止するかが、ユーザの意思で指定される。すなわち、未知語検索指定保持部208は、文字認識処理済み文書から抽出された未知語を索引情報として登録することを許可するか否かの指定を記憶するものである。
【0028】
209は、文字認識処理部211において文書画像から得られた認識文字よりなる抽出テキスト212に対して、文字校正用辞書210及び単語抽出辞書207を参照して文字認識の誤りを校正する文字校正処理部である。211は、文書登録処理部215で登録された文書が画像文書である場合に、その画像情報を文字認識処理により文字情報に変換する文字認識処理部である。212は、文字認識処理部211の処理結果である認識文字(文字認識処理済み文書を構成する文字コード)を格納する抽出テキストである。
【0029】
213は、文書登録処理部215で登録された文書の文書タイプ(画像文書であるか、文字認識結果を格納した抽出テキストであるか、一般テキストであるか)を判定する登録文書タイプ判定部である。登録文書タイプ判定部213では、与えられた登録文書のファイル名の拡張子が"bmp"、 "jpg"、 "gif"、 "tif"等の画像フォーマットをあらわす場合には、文書タイプ保持部214に「画像タイプ」であることを格納し、登録文書のファイル名の拡張子が"txt"等、テキストをあらわす場合には、文書タイプ保持部214に「テキストタイプ」であることを格納する。また、テキスト文書でも特に文字認識処理の結果得られた抽出テキストである場合には、特別な拡張子として"ocr"を使用するものとし、拡張子が"ocr"であった場合は、文書タイプ保持部214に「認識結果テキストタイプ」であることを格納する。215は文書の登録を行う文書登録処理部である。
【0030】
次に、検索要求入力処理部201において、文書検索の検索要求のための検索語を操作者が指示する場合における操作パネルの表示例について、図3を用いて説明する。
【0031】
図3は、検索語を指示する場合において、表示器CRT18に画面表示される操作パネルの例を示す図である。
【0032】
図3において、301は検索要求入力操作を行う表示ウインドウである。302は検索語等の検索用情報を入力する検索文入力領域である。303は入力中の検索用情報(検索要求文)の一例を示しており、同図においては、「カラープリンタの売上」と入力されている。304は検索文入力領域302における入力位置を示す入力カーソルである。
【0033】
308は検索処理の実行を指定する検索実行ボタンであり、検索実行ボタン308を押下することで、指定した検索処理が実行される。309は検索処理の終了あるいは中止を指定するキャンセルボタンであり、キャンセルボタン309を押下すると、ただちに検索処理が終了し、表示ウインドウ301が閉じられて終了する。310は検索ボタン308の押下によって検索処理を行った結果を表示する検索結果表示領域であり、同図においては検索処理がなされていない状態であるので、何も表示されていない。
【0034】
図4は、検索要求入力処理部201による検索処理実行後の検索結果の表示例を示す図である。同図には、検索用情報303に示された「カラープリンタの売上」に対して、文書検索を行った検索結果が表示されている。
【0035】
図4において、402は、検索結果の順位を示すランク表示領域である。検索結果は検索要求に適合している順にランク付けされ、ランク順に表示される。図4の表示例においては、ランク25位から30位までの検索結果が表示されている。403は、検索された文書の表題であり、404は文書のファイル名である。405は、検索された文書の大意が掴める程度の内容を表示する文書内容表示である。文書内容表示405には、あらかじめ文書の書誌的属性として与えられた要約文、あるいは文書内容を自動的に要約した要約文、あるいは文書の一部を大意として抽出した大意文等を表示することができる。
【0036】
406は、表示位置を指定するために同種のウインドウ表示装置において用いられているエレベータバーであり、検索結果表示領域310に表示しきれない場合に、検索結果表示領域310内において検索結果を部分表示しながら、表示されていない他の部分を表示するために用いられる。
【0037】
次に、文字認識処理を施した認識結果である抽出テキスト212について、図5を用いて説明する。
【0038】
図5は、文字を表す画像に対して文字認識処理を施した結果得られた抽出テキストを示す図である。抽出テキストは、文字認識処理部211において抽出される場合と、あらかじめ文字認識処理が施されて文書登録処理部215に与えられている場合がありえる。
【0039】
一般に、文字認識処理においては、認識誤りを含むことがありえる。例えば、同図に示すように、「モノク口」の4文字目「口」がカタカナの「ロ」(ろ)であるべきところ、漢字の「口」(くち)と誤認識され、文字認識処理の対象とされた元画像では「モノレール」と書かれていた部分が「モルール」と誤認識されている。
【0040】
次に、文字認識結果である抽出テキストに対して、文字校正処理を行った処理結果の例について図6を用いて説明する。
【0041】
図6は、図5に例示された文字認識誤りを含んでいる抽出テキストに対して文字校正処理を行った場合の結果を示す図である。文字校正処理部209では、後述する文字校正用辞書210と単語抽出辞書207を参照することにより、図5における誤認識である「モノク口」(「口」は漢字の「くち」)を「モノクロ」(「ロ」はカタカナ)と校正している。
【0042】
図7は、文字校正用辞書210の構成を示す概念図である。文字校正用辞書210は、文字認識処理において誤認識の発生しやすい、似通った字形の文字を対応付けて格納したものである。同図において、1つの行に表されている文字同士が、互いに誤認識されやすいことを表している。
【0043】
図8は、単語抽出辞書207の構成を示す概念図である。同図において、801は単語の見出し語、802は単語の品詞を示す。品詞802は、抽出された単語と前置される単語との接続可能性を判定するために用いられる。
【0044】
図9は、単語インデックス205の構成を示す概念図である。単語インデックス205は、登録文書中に出現するすべての単語について、文書中における出現頻度とその文書との対応をとって格納するテーブルである。単語インデックス205におけるテーブルの第1列情報である901は、検索見出しとなる単語(インデックス見出し語)である。テーブルの第2列情報は、インデックス見出し語901が出現する文書と、その文書においてインデックス見出し語901が何回出現するかを対応づけた文書情報であり、インデックス見出し語901が出現するすべての文書について格納される。その際、文書は一意化された文書識別番号で記録される。
【0045】
例えば、インデックス見出し語901「カラー」に対応して、文書情報902において(1000、15)、(1200、5)等と記録されており、これによれば、「カラー」は、文書識別番号「1000」で表される文書に15回出現し、文書識別番号「1200」で表される文書に5回出現していることが示される。
【0046】
図10は、文字校正処理で用いられる文字候補ラティスの構成を示す概念図である。
【0047】
文字候補ラティスは、文字校正処理部209での文字校正処理において、誤認識の発生する可能性のある文字について、他の候補文字を格子状に配したものである。文字校正処理対象の抽出テキストの各文字について、図7に示す文字校正用辞書210に格納された文字のいずれかと一致したならば、対応している他の文字が置換候補文字として追加される。
【0048】
図10においては、図5に示す文字認識結果の抽出テキストに対して作成された文字候補ラティスの一部が例示されており、「このモノク口の写真に写っているモルールは当時の重要な交通手段であった」という文字列に対して、図7の文字校正用辞書210に出現する「口」と「−」に対して、候補文字を追加したラティスが作成されている。
【0049】
図11は、本実施の形態における文書検索処理のフローチャートを示す図である。
【0050】
まず、ステップS1001では、検索要求入力処理部201の動作を行う処理モジュールによって、検索要求入力処理を行う。検索要求入力処理では、図3に示す操作パネル中の検索文入力領域302に入力された検索用情報(本実施の形態では検索語)を取り出し、単語抽出辞書207を参照して、入力検索用情報から単語を抽出し、抽出した検索語を検索語保持部202に格納する。
【0051】
次に、ステップS1002では、検索語保持部202に格納された検索語が含まれる文書を単語インデックス205を参照して検索する。すなわち、検索語保持部202より検索語を取り出し、取り出された検索語と一致するインデックス見出し語901を検索し、見つかった見出し語に対応する文書情報902を取り出す。そして、取り出された文書情報902中の文書識別番号と出現頻度とを検索結果保持部204に格納する。なお、既に同一の文書識別番号をもつ文書情報が検索結果保持部204に格納済みであった場合は、その出現頻度を更新する。検索語保持部202に格納されたすべての検索語についてこの処理を行い、処理が終わったならば、検索語保持部202に記憶された検索結果を出現頻度の大きい順にソートする。
【0052】
次に、ステップS1003では、前記ステップS1002で検索された検索結果を、検索結果保持部204より取り出して表示する。なお、この処理は同種の情報検索装置において広く行われている公知の処理と同様になされる。その後、本処理を終了する。
【0053】
図12は、本実施の形態における文書登録処理のフローチャートを示す図である。
【0054】
まず、ステップS3001では、文書登録処理部215に入力された文書の文書タイプを判定する。文書タイプの判定は、文書登録処理部215に入力された文書ファイル名の拡張子で行い、拡張子が"bmp"、 "jpg"、 "gif"、 "tif"等である場合は、「文書画像」であるので、文書タイプ保持部214に「画像タイプ」であることを格納するとともに、ステップS3002へ進む。また、拡張子が"ocr"であれば、文字認識処理の結果得られた抽出テキストであるので、文書タイプ保持部214に「文字認識抽出テキストタイプ」であることを格納すると共に、抽出テキスト212にその内容を格納して、ステップS3003へ進む。一方、拡張子が"txt"や"html"等である場合は、一般テキストであるので、文書タイプ保持部214に「テキストタイプ」であることを格納するとともに、ステップS3004へ進む。
【0055】
ステップS3002では、画像タイプと判定された文書に対して、その画像中の文字部分について文字認識処理を行う。この場合、文書タイプが画像タイプから文字認識抽出テキストタイプに変わったので、認識文字の抽出テキストを抽出テキスト212に作成し、文書タイプ保持部214に「文字認識抽出テキストタイプ」であることを格納して、ステップS3003に進む。なお、画像情報から文字画像と照合を行い、文字コード化を行う文字認識処理は公知の手法でなされる。
【0056】
ステップS3003では、抽出テキスト212に対して、文字認識の誤り訂正を行うために、後述する図13の文字校正処理を行う。ここでは、前記ステップS3002の文字認識処理の結果得られた認識文字抽出テキスト、あるいは前記ステップS3001において、「文字認識抽出テキストタイプ」と判定された文書である抽出テキストに対して文字校正処理がなされる。
【0057】
続くステップS3004では、後述する図14の単語抽出処理を実行する。すなわち、文字認識結果ではない一般の文書(一般テキスト)、及び前記ステップS3003において文字校正処理の施された文書(文字認識抽出テキスト)から、単語を抽出し、文書検索のための単語インデックス206を作成する。
【0058】
図13は、図12のステップS3003で実行される文字校正処理のフローチャートを示す図である。
【0059】
まず、ステップS2001では、文書校正処理で用いる文字候補ラティスを作成する。文字候補ラティスは、前述のように、文字認識結果の抽出テキストのうち、誤認識の起こりやすい文字について候補文字を加えて、ラティス上に構成したものである(図10参照)。文字候補ラティス作成処理では、対象となる抽出テキスト212より文字を取り出し、文字校正用辞書210を参照し、取り出した文字が文字校正用辞書210に登録されている文字であった場合は、その文字を含む、似た字形のグループの各文字を候補文字として文字候補ラティスに追加する。その際、ラティスの各格子点の候補文字の1番目の文字としては元の抽出テキストの文字を配するものとする。
【0060】
次に、ステップS2002では、文字候補ラティスの各格子点の1番目の文字に従って単語抽出辞書207を検索する。すなわち、ラティスを構成する各格子に位置する1番目の文字列と一致する見出し語があるかどうかを検索する。
【0061】
次に、ステップS2003では、前記ステップS2002での単語検索の結果、単語が検索されたかどうか判別する。単語が検索された場合は、ステップS2008へ進む一方、単語が検索されなかった場合は、ステップS2004へ進む。
【0062】
ステップS2004では、文字候補ラティスにまだ単語検索していない候補文字列があるかを判別し、未検索の候補文字列がなかったならば前記ステップS2008へ進む一方、未検索の候補文字列があったならばステップS2005へ進む。
【0063】
ステップS2005では、文字候補を変更して、未検索の候補文字列の単語検索を行う。次に、ステップS2006では、前記ステップS2005での単語検索の結果、一致する単語が検索されたか否かを判別し、単語が検索されなかったならば、再び前記ステップS2004へ戻って、未検索の候補文字列があるかの判別を繰り返す。
【0064】
一方、単語が検索されたならばステップS2007へ進んで、前記ステップS2005において検索された単語と一致する候補文字列を構成する文字に、抽出テキストの文字を置き換える。例えば、図10の文字候補ラティスに対して、図8の単語抽出辞書207を検索した場合、候補文字列「モノクロ」と一致するため、抽出テキスト中の「モノク口」の「口」(漢字の「口」)を「ロ」(カタカナの「ロ」)に置換する。
【0065】
次に、ステップS2008では、次の単語検索位置を取得する。すなわち、単語抽出辞書207との照合の終わった文字候補列をスキップし、未照合の候補文字列開始位置を取得する。ここで、前記ステップS2004から分岐してきた場合は、文字候補ラティス中の候補文字列と単語との照合がとれなかった場合であるので、最後に照合のとれた文字位置以降の最初の助詞の次の位置を、次の候補文字列開始位置とする。
【0066】
次に、ステップS2009では、前記ステップS2008で得られた候補文字列開始位置が文書末尾に達したか、すなわち、抽出テキストのすべての文字列について単語抽出辞書207との照合による文字校正処理を終えたかどうかを判別し、文書末尾に達していなければ前記ステップS2002へ戻って未処理の文字列について処理を繰り返す一方、文書末尾に達していたならば本処理を終了する。
【0067】
図14は、図12のステップS3004で実行される単語抽出処理のフローチャートを示す図である。
【0068】
まず、ステップS4001では、単語検索、すなわち、単語抽出処理対象のテキストの文字列と、単語抽出辞書207との照合を行う。そして、ステップS4002では、単語が検索されたか否かを判別する。その判別の結果、単語が検索されなかった場合は、ステップS4004に進む一方、単語が検索された場合は、ステップS4003へ進む。
【0069】
ステップS4003では、検索された単語と、既に抽出済みの直前の単語(前接語)が接続可能か否かを、単語抽出辞書207の品詞情報に基づき接続判定表(不図示)を用いて判別する。前接語との接続可能性の判定手法、及び接続可能性判定に用いる接続判定表の構成については公知であるため、詳細な説明を省略する。
【0070】
その判別の結果、抽出済みの単語と検索された単語とが接続可能である場合は、ステップS4007へ進む一方、接続不可能である場合は、ステップS4004へ進む。
【0071】
ステップS4004では、前記ステップS4001での単語検索の結果、単語が検索されなかったか、あるいは、前接語と接続可能な単語が検索されなかった場合であるので、その検索の照合開始位置から、辞書登録されていない未知語の抽出処理を行う。
【0072】
未知語の抽出処理は、例えば、連続するカタカナをひとつの未知語として抽出する、あるいは、照合開始位置の文字から頻度の高い助詞の出現する直前の文字までをひとつの未知語として抽出する等の公知の手法を適用可能である。この未知語抽出手法を、図6に示される文字校正処理を行ったテキストに対して適用することで、図8に示される単語抽出辞書207には未登録である「モルール」が未知語として抽出される。なお、上述のように、図6における「モルール」は、本来は「モノレール」であるべきところ、誤認識されたものである。
【0073】
次に、ステップS4005では、単語抽出処理対象文書が文字認識結果文書、すなわち、文字認識処理済み文書であるか否かを判定する。文字認識結果文書であるかどうかは文書タイプ保持部214に記憶された文書タイプを参照することにより行われる。例えば、図12のステップS3001またはステップS3002において、文書タイプ保持部214に「文字認識抽出テキストタイプ」と記憶されていれば、文字認識結果文書であると判別される。
【0074】
その判別の結果、単語抽出処理対象文書が文字認識結果文書(文字認識処理済み文書)でない場合は、ステップS4007に進む一方、単語抽出処理対象文書が文字認識結果文書(文字認識処理済み文書)である場合は、ステップS4006へ進み、文字認識結果文書に対する未知語検索指定の有無を判定する。未知語検索指定の有無の判別は、未知語検索指定保持部208を参照することにより行われる。ここで、「未知語検索指定有り」は、文字認識処理済み文書から抽出された未知語を単語インデックス205に索引情報として登録することを許可する指定であり、「未知語検索指定無し」は禁止する指定である。
【0075】
その判別の結果、「未知語検索指定有り」である場合は、前記ステップS4007へ進む。
【0076】
ステップS4007では、前記ステップS4001で検索された(既知の)単語、あるいは前記ステップS4004で抽出された未知語を、単語インデックス205に索引情報として登録する。その際、登録しようとする単語が単語インデックス205のインデックス見出し語901に既に存在している場合において、インデックス見出し語901に対応する文書情報902に、当該文書の文書識別番号が存在するときは、その文書識別番号に対応する出現回数を1だけ加算する。また、登録しようとする単語が単語インデックス205のインデックス見出し語901に既に存在している場合において、インデックス見出し語901に対応する文書情報902に、当該文書の文書識別番号が存在しないときは、抽出テキストの文書識別番号を新たに登録し、出現回数を1とする。その後、ステップS4008に進む。
【0077】
一方、前記ステップS4006の判別の結果、「未知語検索指定無し」である場合は、抽出された未知語を単語インデックス205に索引情報として登録することなく、ステップS4008へ進む。
【0078】
ステップS4008では、単語抽出処理対象の文書(テキスト)のすべての文字列に対する処理を終えたか否かを、文書末尾に達したかどうかで判別する。その判別の結果、文書末尾に達していなければ前記ステップS4001へ戻って、未処理の文字列について上述の処理を繰り返す一方、文書末尾に達していれば本処理を終了する。
【0079】
本実施の形態によれば、文字認識処理済み文書から抽出した未知語について、単語インデックス205に索引情報として登録するか否かを、未知語検索指定保持部208で指定できるようにしたので、検索漏れの抑制と検索精度の向上のいずれに重点を置くかという、検索者の意図を反映させて未知語の索引登録可否を決定することで、使い勝手がよく、検索漏れ及び誤検索の少ない適切な検索を行うことができる。
【0080】
また、文書が文字認識処理済み文書でない場合、該文書から抽出された単語については、索引情報としての登録を一律に許可するようにしたので、高速な索引登録処理を実現することができる。
【0081】
また、文字認識処理を経た文書について単語抽出処理を行う場合は、事前に文字校正処理を施すようにしたので、情報検索の精度を向上させることができる。
【0082】
なお、本実施の形態では、文字認識処理済み文書から抽出した未知語については、「未知語検索指定有り」の場合にのみ、単語インデックス205に索引情報として登録されるようにしたが(図14のステップS4006、S4007)、これに限るものでなく、文字認識処理済み文書から抽出した未知語については、一律に、単語インデックス205への索引情報としての登録を禁止するように構成してもよい。その場合は、図14のステップS4006の処理を省略すると共に、ステップS4005の判別の結果、単語抽出処理対象文書が文字認識結果文書(文字認識処理済み文書)である場合は、直ちに前記ステップS4008に進むように処理すればよい。
【0083】
このようにすれば、単語抽出の対象となった文書の種別によって、単語インデックス205への索引情報としての登録の可否が決定されるので、例えば、文字認識処理済み文書から抽出した未知語については無駄で不適切な索引登録を抑制でき、索引登録処理時間の短縮化、索引サイズの縮小という効果が得られる。また、文字認識誤りの含まれ得る文書であっても、認識誤りに由来する不適切な索引登録を回避して、不適切な検索結果を抑制することができ、操作性に優れた、精度の高い情報検索が可能となる。一方では、文字認識誤りのない文書から抽出された単語については一律に登録可能とすることで、高速な索引登録処理を実現することができる。よって、文書の種別に応じて未知単語の索引登録の可否を決定することで、検索漏れ及び誤検索の少ない適切な検索を行うことができる。
【0084】
なお、本実施の形態では、単語インデックス205、単語抽出辞書207、文字校正用辞書210を単一の装置を構成するDISK14に配置するものとして説明したが、これらの構成要素を異なる装置に分散配置し、NIC19を介してネットワーク上で処理を行うようにすることも可能である。
【0085】
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、リーダ、プリンタ等)から構成されるシステムに適用しても、ひとつの機器からなる装置(例えば、複写機、ファクシミリ装置等)に適用してもよい。
【0086】
また、本発明の目的は、実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。
【0087】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0088】
又、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0089】
また、コンピュータが読み出したプログラムコードを実行することにより、上記実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【0090】
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれる。
【0091】
本発明の様々な例と実施例が示され説明されたが、当業者であれば、本発明の趣旨と範囲は本明細書の特定の説明と図に限定されるのではなく、本願特許請求の範囲にすべて述べられた様々の修正と変更に及ぶことが理解されるであろう。
【0109】
【発明の効果】
以上説明したように、本発明によれば、検索漏れ及び誤検索の少ない適切な検索を行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る情報検索装置の全体構成を示すブロック図である。
【図2】本発明の実施の形態の情報検索装置の機能構成を示すブロック図である。
【図3】検索語を指示する場合において、表示器CRTに画面表示される操作パネルの例を示す図である。
【図4】検索要求入力処理部による検索処理実行後の検索結果の表示例を示す図である。
【図5】文字を表す画像に対して文字認識処理を施した結果得られた抽出テキストを示す図である。
【図6】図5に例示された文字認識誤りを含んでいる抽出テキストに対して文字校正処理を行った場合の結果を示す図である。
【図7】文字校正用辞書の構成を示す概念図である。
【図8】単語抽出辞書の構成を示す概念図である。
【図9】単語インデックスの構成を示す概念図である。
【図10】文字校正処理で用いられる文字候補ラティスの構成を示す概念図である。
【図11】本実施の形態における文書検索処理のフローチャートを示す図である。
【図12】本実施の形態における文書登録処理のフローチャートを示す図である。
【図13】図12のステップS3003で実行される文字校正処理のフローチャートを示す図である。
【図14】図12のステップS3004で実行される単語抽出処理のフローチャートを示す図である。
【符号の説明】
11 CPU(索引情報登録手段、文書検索手段、未知単語抽出手段、単語抽出手段、文書種別判別手段、文字認識処理手段、登録可否決定手段、文字校正手段)
201 検索要求入力処理部
202 検索語保持部
203 検索処理部(文書検索手段)
204 検索結果保持部
205 単語インデックス
206 単語抽出処理部(未知単語抽出手段、単語抽出手段)
207 単語抽出辞書(単語辞書)
208 未知語検索指定保持部(可否指定手段)
209 文字校正処理部(文字校正手段)
210 文字校正用辞書
211 文字認識処理部(文字認識処理手段)
212 抽出テキスト
213 登録文書タイプ判定部(文書種別判別手段)
214 文書タイプ保持部
215 文書登録処理部

Claims (7)

  1. 文書データから抽出された単語を前記文書データと対応付けて登録した索引情報を参照して、要求された検索条件に対応する文書データを検索する情報検索装置であって、
    前記文書データから未知単語を抽出する未知単語抽出手段と、
    前記未知単語抽出手段によって未知単語が抽出された文書データの種別が文字認識処理済み文書であるか否かを判別する文書データ種別判別手段と、
    種別が文字認識処理済み文書である文書データについて、前記未知単語抽出手段により抽出された未知単語の前記索引情報としての登録の可否の、ユーザの意思に基づ指定を記憶する未知語検索指定保持手段と、
    前記文書データ種別判別手段により、前記文書データの種別が文字認識処理済み文書であると判別され、且つ、該文書データに対する前記未知語検索指定保持手段に記憶されている登録の可否の指定が可である場合は、該文書データについて前記未知単語抽出手段により抽出された未知単語の前記索引情報としての登録を許可するよう決定する一方、前記文書データ種別判別手段により、前記文書データの種別が文字認識処理済み文書であると判別され、且つ、該文書データに対する前記未知語検索指定保持手段に記憶されている登録の可否の指定が否である場合は、該文書データについて前記未知単語抽出手段により抽出された未知単語の前記索引情報としての登録を禁止するよう決定する登録可否決定手段とを備えることを特徴とする情報検索装置。
  2. 前記文書データ種別判別手段は、前記文書データが文字認識処理により得られた文字コードを含んだ文字認識処理済み文書であるか否かを判別するものであり、さらに、前記文書データが前記文字認識処理済み文書である場合に、それに含まれている文字コードの誤りを校正する文字校正手段を有し、前記未知単語抽出手段は、前記文字校正手段により校正された後の文書データから未知単語を抽出することを特徴とする請求項1記載の情報検索装置。
  3. 前記文書データ種別判別手段は、前記文書データが画像文書データであるか否かを判別するものであり、さらに、前記文書データが画像文書データである場合は、該画像文書データから文字認識処理により文字コードを得る文字認識処理手段と、該文字認識処理手段により文字認識処理された文書データに含まれている文字コードの誤りを校正する文字校正手段とを有し、前記未知単語抽出手段は、前記文字校正手段により校正された後の文書データから未知単語を抽出することを特徴とする請求項1記載の情報検索装置。
  4. 前記文字校正手段は、類似の文字パターンを有する文字同士を対応付けて記憶した文字校正辞書と文字列照合のための単語辞書とを参照し、文字認識処理された文書データに含まれている文字コードに前記文字校正辞書中の文字パターンを追加した文字候補列の中で、前記単語辞書に含まれる単語と一致する文字候補列を構成する文字に前記文字コードを変更することで、校正を行うことを特徴とする請求項2記載の情報検索装置。
  5. 前記文書データ種別判別手段は、前記文書データのファイル名の拡張子及び前記文書データに予め付与された属性情報の少なくとも一方に基づき文書データの種別を判別することを特徴とする請求項1記載の情報検索装置。
  6. 文書データから抽出された単語を前記文書データと対応付けて登録した索引情報を参照して、要求された検索条件に対応する文書データを検索する情報検索方法であって、
    前記文書データから未知単語を抽出する未知単語抽出工程と、
    前記未知単語抽出工程で未知単語が抽出された文書データの種別が文字認識処理済み文書であるか否かを判別する文書データ種別判別工程と、
    種別が文字認識処理済み文書である文書データについて、前記未知単語抽出工程で抽出された未知単語の前記索引情報としての登録の可否の、ユーザの意思に基づ指定を未知語検索指定保持部に記憶させる未知語検索指定保持工程と、
    前記文書データ種別判別工程で、前記文書データの種別が文字認識処理済み文書であると判別され、且つ、該文書データに対する前記未知語検索指定保持部に記憶されている登録の可否の指定が可である場合は、該文書データについて前記未知単語抽出工程で抽出された未知単語の前記索引情報としての登録を許可するよう決定する一方、前記文書データ種別判別工程で、前記文書データの種別が文字認識処理済み文書であると判別され、且つ、該文書データに対する前記未知語検索指定保持部に記憶されている登録の可否の指定が否である場合は、該文書データについて前記未知単語抽出工程で抽出された未知単語の前記索引情報としての登録を禁止するよう決定する登録可否決定工程とを備えることを特徴とする情報検索方法。
  7. 請求項6に記載の情報検索方法をコンピュータに実行させるための制御プログラム。
JP2003013428A 2003-01-22 2003-01-22 情報検索装置及び方法並びに制御プログラム Expired - Fee Related JP4332356B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003013428A JP4332356B2 (ja) 2003-01-22 2003-01-22 情報検索装置及び方法並びに制御プログラム
US10/762,126 US7305382B2 (en) 2003-01-22 2004-01-21 Information searching apparatus and method, information searching program, and storage medium storing the information searching program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003013428A JP4332356B2 (ja) 2003-01-22 2003-01-22 情報検索装置及び方法並びに制御プログラム

Publications (3)

Publication Number Publication Date
JP2004227227A JP2004227227A (ja) 2004-08-12
JP2004227227A5 JP2004227227A5 (ja) 2006-01-26
JP4332356B2 true JP4332356B2 (ja) 2009-09-16

Family

ID=32901763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003013428A Expired - Fee Related JP4332356B2 (ja) 2003-01-22 2003-01-22 情報検索装置及び方法並びに制御プログラム

Country Status (2)

Country Link
US (1) US7305382B2 (ja)
JP (1) JP4332356B2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
JP2005309727A (ja) * 2004-04-21 2005-11-04 Hitachi Ltd ファイルシステム
JP4347264B2 (ja) * 2005-05-20 2009-10-21 キヤノン株式会社 文書管理システム
JP4750476B2 (ja) * 2005-06-07 2011-08-17 キヤノン株式会社 文書検索装置及び方法と記憶媒体
US20070016545A1 (en) * 2005-07-14 2007-01-18 International Business Machines Corporation Detection of missing content in a searchable repository
US10853570B2 (en) * 2005-10-06 2020-12-01 TeraDact Solutions, Inc. Redaction engine for electronic documents with multiple types, formats and/or categories
US10089287B2 (en) 2005-10-06 2018-10-02 TeraDact Solutions, Inc. Redaction with classification and archiving for format independence
US11769010B2 (en) * 2005-10-06 2023-09-26 Celcorp, Inc. Document management workflow for redacted documents
JP2007272872A (ja) * 2006-03-08 2007-10-18 Ricoh Co Ltd 情報検索方法、情報検索装置、情報検索システム、及び情報検索プログラム
US7873625B2 (en) * 2006-09-18 2011-01-18 International Business Machines Corporation File indexing framework and symbolic name maintenance framework
US20080243485A1 (en) * 2007-03-29 2008-10-02 Nokia Corporation Method, apparatus, system, user interface and computer program product for use with managing content
CN101493896B (zh) * 2008-01-24 2013-02-06 夏普株式会社 文档图像处理装置及文档图像处理方法
JP5125573B2 (ja) * 2008-02-12 2013-01-23 富士通株式会社 領域抽出プログラム、文字認識プログラム、および文字認識装置
JP5038939B2 (ja) * 2008-03-03 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索システム、方法及びプログラム
US8014604B2 (en) * 2008-04-16 2011-09-06 International Business Machines Corporation OCR of books by word recognition
KR100978693B1 (ko) * 2008-05-20 2010-08-30 야후! 인크. 전자사전 서비스를 제공하는 시스템 및 방법
US8745022B2 (en) * 2011-11-22 2014-06-03 Navteq B.V. Full text search based on interwoven string tokens
US8738595B2 (en) 2011-11-22 2014-05-27 Navteq B.V. Location based full text search
US8700661B2 (en) 2012-04-12 2014-04-15 Navteq B.V. Full text search using R-trees
JP6003263B2 (ja) * 2012-06-12 2016-10-05 株式会社リコー 議事録作成支援装置、議事録作成支援システム、議事録作成支援方法、及びプログラム
US10146979B2 (en) * 2015-06-03 2018-12-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Processing visual cues to improve device understanding of user input
US11163959B2 (en) * 2018-11-30 2021-11-02 International Business Machines Corporation Cognitive predictive assistance for word meanings
CN109885659B (zh) * 2019-02-20 2022-12-16 安徽省泰岳祥升软件有限公司 一种对文本内时间信息归一化的方法及装置
US10984279B2 (en) * 2019-06-13 2021-04-20 Wipro Limited System and method for machine translation of text
CN110704719B (zh) * 2019-09-29 2022-03-08 北京金堤科技有限公司 企业搜索文本分词方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4944022A (en) * 1986-12-19 1990-07-24 Ricoh Company, Ltd. Method of creating dictionary for character recognition
JP2586372B2 (ja) 1993-01-22 1997-02-26 日本電気株式会社 情報検索装置及び情報検索方法
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
JP4235411B2 (ja) * 2001-09-11 2009-03-11 キヤノン株式会社 文書登録システム、方法、プログラム及び記憶媒体

Also Published As

Publication number Publication date
US7305382B2 (en) 2007-12-04
US20040220919A1 (en) 2004-11-04
JP2004227227A (ja) 2004-08-12

Similar Documents

Publication Publication Date Title
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
JP2713622B2 (ja) 表形式文書読取装置
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP2004348591A (ja) 文書検索方法及び装置
JPH05250408A (ja) 取り込んだ情報で文書画像を復号することなく選択した文書の重要な部分を補完するための方法
JPH11316800A (ja) 文字認識方法及び装置
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
US20060217959A1 (en) Translation processing method, document processing device and storage medium storing program
JPH05282488A (ja) 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法
JP2005135041A (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US6535652B2 (en) Image retrieval apparatus and method, and computer-readable memory therefor
JPH08263587A (ja) 文書入力方法および文書入力装置
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JP3159087B2 (ja) 文書照合装置および方法
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JPH0757040A (ja) Ocr付きファイリング装置
JP2000259847A (ja) 情報検索方法、装置および記録媒体
JP4517821B2 (ja) 画像処理装置及びプログラム
JP2024003769A (ja) 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム
JP2005208687A (ja) 多言語文書処理装置及びプログラム
JP3743252B2 (ja) アルファベット表記法人名検索システムと方法およびその処理プログラムを記録した記録媒体
JP2002245470A (ja) 言語特定装置及び翻訳装置及び言語特定方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051128

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051128

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060417

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090616

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090622

R150 Certificate of patent or registration of utility model

Ref document number: 4332356

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130626

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees