JP2006085582A - 文書処理装置およびプログラム - Google Patents

文書処理装置およびプログラム Download PDF

Info

Publication number
JP2006085582A
JP2006085582A JP2004271734A JP2004271734A JP2006085582A JP 2006085582 A JP2006085582 A JP 2006085582A JP 2004271734 A JP2004271734 A JP 2004271734A JP 2004271734 A JP2004271734 A JP 2004271734A JP 2006085582 A JP2006085582 A JP 2006085582A
Authority
JP
Japan
Prior art keywords
character string
document
data
syntax
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004271734A
Other languages
English (en)
Inventor
Hiroshi Masuichi
博 増市
Tsuguaki Ryu
紹明 劉
Michihiro Tamune
道弘 田宗
Masatoshi Tagawa
昌俊 田川
Kiyoshi Tashiro
潔 田代
Atsushi Ito
篤 伊藤
Kyosuke Ishikawa
恭輔 石川
Naoko Sato
直子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004271734A priority Critical patent/JP2006085582A/ja
Priority to US11/080,924 priority patent/US20060062492A1/en
Priority to CNB2005100559257A priority patent/CN100447805C/zh
Publication of JP2006085582A publication Critical patent/JP2006085582A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 文書を電子化した文書データに基づいてその文書の表題を特定する際の特定精度を向上させる。
【解決手段】 文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表す構文データが記憶された記憶手段と、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段とを有する文書処理装置を提供する。
【選択図】 図7

Description

紙文書を電子化する技術に関し、特に、その紙文書の記載内容に基づいてその表題を特定する技術に関する。
紙文書(以下、単に「文書」ともいう)は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するために書庫などのスペースが必要になる、といった問題点がある。また、情報を紙文書に記録して保存している場合、後にその紙文書に記録された情報が必要になったときには、書庫などに収納されている多くの紙文書のなかから目的とする情報が記録された紙文書を探し出さなければならない。つまり、情報を紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。
このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、スキャナ装置などによって紙文書の各ページに対応する画像を読み取り、その画像に対応する画像データ(以下、「文書画像データ」と呼ぶ)を紙文書毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われるようになってきている。
ところで、上記ファイルをハードディスクなどに保存するに際し、各ファイル毎に固有の名称を付与して格納したり、電子化対象の文書をその種類毎に分類してファイル化し格納するようにしておくと便利であるが、このようなことを実現するためには、文書の表題を正確に特定することが必要である。何故ならば、上記名称としては文書の表題を含む文字列が用いられることが一般的であり、また、文書の表題はその文書の種類を正確に反映していることが一般的だからである。このため、上記文書画像データに基づいてその文書画像データに対応する文書の表題を特定する技術が種々提案されており、その一例としては特許文献1に開示された技術が挙げられる。より詳細に説明すると、特許文献1には、文字列の周囲の画像情報(文字列に付与されている下線を表す画像情報やその文字列とその上下に位置する文字列との間隔を表す画像情報)に基づいて文書の表題を特定する技術が開示されている。
特開平9−134406号公報
しかしながら、特許文献1に開示された技術では、電子化対象の紙文書に記載されている各文字列の意味内容とは無関係に下線などの修飾の有無や、他の文字列との位置関係に基づいて文書の表題を特定しているため、誤判断が発生し易く実用に耐え得るほどの特定精度を得ることができない、といった問題点がある。
本発明は、上記課題に鑑みて為されたものであり、文書を電子化した文書データに基づいてその文書の表題を特定する際の特定精度を向上させることを可能にする技術を提供することを目的としている。
上記課題を解決するために、本発明は、文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表す構文データが記憶された記憶手段と、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段とを有する文書処理装置を提供する。このような文書処理装置およびプログラムによれば、処理対象の文書に記載されている各文字列の構文に基づいて、その文書の表題が特定される。
より好ましい態様にあっては、前記記憶手段に記憶された構文データには、その構文データの表す構文を有する文字列が文書の表題となる可能性の度合いを表す重みデータが対応付けられており、前記特定手段は、前記構文解析手段により特定された構文を表す構文データに対応付けて前記記憶手段に記憶されている重みデータに基づいて、前記文書の表題を表す文字列データを特定する、ことを特徴とする。このような態様にあっては、文書の表題となる可能性が最も高い構文を有する文字列を処理対象の文書の表題として特定することが可能になる。
より好ましい態様にあっては、前記特定手段は、前記抽出手段により抽出された文字列データのうちから、文書の表題となる可能性が高い文字列データを前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて絞り込んでユーザへ提示し、ユーザによって選択された文字列データを前記文書の表題を表す文字列データとして特定する、ことを特徴とする。このような態様にあっては、上記文書に記載されている文字列をその構文に基づいて絞り込んだ表題候補のうちから上記文書の表題が特定される。このような態様は、文書の表題となる可能性が高い構文を有する文字列が複数あり、かつ、その可能性の度合いに大差がない場合に特に好適である。
また、別の好ましい態様にあっては、前記特定手段は、前記抽出手段により抽出された文字列データのうちから、文書の表題となる可能性が低い文字列データを前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて削除し、その残りの文字列データをユーザへ提示して、ユーザによって選択された文字列データを前記文書の表題を表す文字列データとして特定する、ことを特徴とする。このような態様にあっては、文書の表題となる可能性が低い文字列が排除された表題候補のうちから上記文書の表題が特定される。
より好ましい態様にあっては、前記抽出手段は、前記入力手段へ入力された文書データを解析して得られた文字列データのうちで、該文字列データに対応する文字列についての修飾の有無またはその文字列の上下に位置する文字列との間隔に基づいて、該文書データに対応する文書の表題となる可能性が高い文字列を表す文字列データのみを抽出する、ことを特徴とする。このような態様にあっては、各文字列に修飾が施されているか否かや、その上下に位置する文字列との間隔に基づいて絞り込まれた表題候補のうちから、更に、その構文に基づいて文書の表題が絞り込まれる。
また、上記課題を解決するために、本発明は、コンピュータ装置を、文書を電子化した文書データが入力された場合に、該文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表すデータとして該コンピュータ装置に予め記憶されている構文データと前記構文解析手段による特定結果とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段として機能させるプログラムを提供する。また、本発明の別の態様にあっては、コンピュータ装置読み取り可能な記録媒体に上記プログラムを記録して提供するとしても良い。このようなプログラムによれば、処理対象の文書に記載されている各文字列の構文に基づいて、その文書の表題が特定される。
本発明によれば、電子化対象の文書に記載されている各文字列の構文、すなわち、各文字列の構造の文法上の特徴に基づいて、その文書の表題となる文字列が特定される。このため、修飾の有無や他の文字列ととの位置関係などに基づいて表題を特定する従来の技術に比較して、その特定精度を向上させることが可能になる、といった効果を奏する。
以下、図面を参照しつつ本発明を実施する際の最良の形態について説明する。
(A:構成)
図1は、本発明の1実施形態に係る文書処理装置110を有する文書電子化システム10の構成例を示すブロック図である。図1の画像読取装置120は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ読み取り、読み取った画像に対応する文書画像データをLAN(Local Area Network)などの通信線130を介して文書処理装置110へ引渡すものである。なお、本実施形態では、通信線130がLANである場合について説明するが、WAN(Wide Area Network)やインターネットなどを含んでいても良いことは勿論である。また、本実施形態では、文書処理装置110と画像読取装置120とを夫々個別のハードウェアとして構成する場合について説明するが、両者を一体のハードウェアで構成するとしても良いことは勿論である。このような態様にあっては、通信線130は、係るハードウェア内で文書処理装置110と画像読取装置120とを接続する内部バスである。
図1の文書処理装置110は、画像読取装置120から引渡された文書画像データをファイル化して記憶し蓄積するものであり、図2に示す構成を有している。図2に示されているように、文書処理装置110は、制御部200と、通信インターフェイス(以下、IF)部210と、記憶部220と、これら各構成要素間のデータ授受を仲介するバス230と、を備えている。
制御部200は、例えばCPU(Central Processing Unit)であり、後述する記憶部220に記憶されている各種ソフトウェアを実行することによって、文書処理装置110の各部を制御するものである。通信IF部210は、通信線130を介して画像読取装置120に接続されており、この通信線130を介して画像読取装置120から送られてくる文書画像データを受取り、制御部200へ引渡すものである。つまり、この通信IF部210は、画像読取装置120から送られてくる文書画像データが入力される入力手段として機能する。
記憶部220は、図2に示されているように、揮発性記憶部220aと不揮発性記憶部220bとを含んでいる。揮発性記憶部220aは、例えばRAM(Random Access Memory)であり、後述する各種ソフトウェアにしたがって作動している制御部200によってワークエリアとして利用される。一方、不揮発性記憶部220bは、例えば、ハードディスクであり、上記文書画像データをファイル化して記憶し蓄積するためのものである。また、この不揮発性記憶部220bには、文書処理装置110に特有な機能を制御部200に実現させるためのデータやソフトウェアが格納されている。以下、不揮発性記憶部220bに格納されているデータおよびソフトウェアについて説明する。
不揮発性記憶部220bに格納されているデータの一例としては、図3に示す構文テーブルに格納されたデータが挙げられる。この構文テーブルには、文字列の構文を表すデータ(以下、構文データ)に対応付けてその構文を有する文字列が文書の表題となる可能性を表す重みデータが格納されている。この構文テーブルの格納内容(すなわち、構文データとその構文データに対応付けられている重みデータ)は、上記通信IF部210を介して入力された文書画像データに対応する文書の表題をその文書画像データに基づいて特定する際に利用される。以下、構文データおよび重みデータについて説明する。
本実施形態では、上記構文データは、図4や図5または図6に示すような木構造を表すデータである。ここで、図4は、文書の表題となる可能性が低い文字列の構文を表す木構造の一例を示す図であり、図5と図6とは、夫々、文書の表題となる可能性が高い文字列の構文を表す木構造の一例を示す図である。具体的には、図4に示す木構造は、「押印および見積申請処理を必要とする書類は稟議決済書」という文字列の構文を表すものである。図4の木構造の示す構文は、名詞節(NP)および名詞からなる述部(Vnoun)によって全体が構成されている。この構文を有する文字列は、その末尾が名詞であるため、一見すると表題のように思われるが、実際には文書の表題となる可能性が低い(但し、新聞記事などにおいては表題となる可能性がある)ことが一般に知られている。これに対して、図5に示す木構造は、「押印および見積申請処理を必要とする稟議決済書」という文字列の構文を表すものであり、図6に示す木構造は、「押印および見積申請処理を必要とする稟議決済書について」という文字列の構文を表すものである。図5に示す木構造は、名詞(Nzero)を関係詞節(Srel)で修飾し全体として名詞句(Nadj)で構成された構文を表すものであり、図6に示す木構造は、名詞句に各助詞相当語(PPadjunct)が後続し全体として名詞節で構成された構文を表すものである。これら図5または図6に示す木構造の表す構文は、文書の表題となる可能性が高いことが一般に知られている。なお、本実施形態では、文字列の構文を木構造で表すデータを上記構文データとして用いる場合について説明するが、その構文を一意に表すことができるデータであれば他の形式のデータであっても勿論良い。
一方、上記構文データに対応付けて構文テーブルに格納されている重みデータは、本実施形態では以下のようにして算出されるデータである。すなわち、予め定められた複数個の文字列(例えば、10万個の文字列)の各々について、その文字列が文書の表題である場合には“1”、逆に、文書の表題ではない場合には“0”の値を割り当て、その値を各構文毎に集計して算出されるデータである。このように、本実施形態では、上記重みデータとして、上記予め定められた複数の文字列のうちで、文書の表題である文字列の数をその構文毎に集計した値を用いる場合について説明するが、要は、各構文データの表す構文を有する文字列が文書の表題となる可能性の度合いを表すデータであれば、どの様なデータであっても良い。
一方、不揮発性記憶部220bに格納されているソフトウェアの一例をしては、オペレーティングシステム(Operating System 以下、「OS」)を制御部200に実現させるためのOSソフトウェアや、紙文書電子化ソフトウェアとが挙げられる。ここで、紙文書電子化ソフトウェアとは、上記文書画像データをファイル化して不揮発性記憶部220bへ格納する際に、その文書画像データに対応する文書の表題に応じたファイル名を付与して格納する処理を制御部200に実行させるためのソフトウェアである。以下、これらソフトウェアを実行することによって制御部200に付与される機能について説明する。
文書処理装置110の電源(図示省略)が投入されると、制御部200は、まず、OSソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。OSソフトウェアにしたがって作動しOSを実現している状態の制御部200には、文書処理装置110の各部を制御する機能や、他のソフトウェアを不揮発性記憶部220bから読み出し実行する機能が付与される。本実施形態では、上記OSソフトウェアの実行を完了し、OSを実現している状態の制御部200は、即座に、上記紙文書電子化ソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。図7は、紙文書電子化ソフトウェアにしたがって作動している制御部200が行う紙文書電子化処理の流れを示すフローチャートである。図7に示されているように、上記紙文書電子化ソフトウェアにしたがって作動している制御部200には、以下に述べる3つの機能が付与される。
第1に、通信IF部210を介して文書画像データ(すなわち、処理対象の紙文書に対応する文書画像データ)が入力された場合に、その文書画像データを解析し、文字列を表す文字列データを抽出する抽出機能である。詳細については後述するが、本実施形態では、この抽出機能により、下線の有無や他の文字列との記載位置に基づいて(すなわち、従来技術に基づいて)、表題となる可能性があると判断される文字列に対応する文字列データが抽出される。第2に、上記抽出機能により抽出された文字列データの各々を解析し、上記文書画像データに対応する紙文書に記載されている文字列の構文を各文字列毎に特定する構文解析機能である。そして、第3に、上記構文解析機能によって特定した各文字列の構文と上記構文テーブルの格納内容とに基づいて、前記抽出機能により抽出された文字列データのうちから、上記文書の表題を表す文字列データを特定する特定機能である。
以上に説明したように、本実施形態に係る文書処理装置110のハードウェア構成は一般的なコンピュータ装置と同一であり、不揮発性記憶部220bに格納されている各種ソフトウェアにしたがって制御部200を作動させることによって、本発明に係る文書処理装置に特有な機能が実現される。このように、本実施形態では、本発明に係る文書処理装置に特有な機能をソフトウェアモジュールで実現する場合について説明したが、これらの機能を担っているハードウェアモジュールで本発明に係る文書処理装置を構成するとしても良いことは勿論である。具体的には、画像読取装置120から文書画像データが入力される入力手段と、上記構文テーブルが記憶されている記憶手段とを有している文書処理装置に、上記抽出機能を担っている抽出手段と、上記構文解析機能を担っている構文解析手段と、上記特定機能を担っている特定手段とを夫々ハードウェアモジュールで設け、これらハードウェアモジュールを図7に示すフローチャートにしたがって連携作動させるように組み合わせて、本発明に係る文書処理装置を構成するとしても良い。
(B:動作)
次いで、文書処理装置110が行う動作のうち、その特徴を顕著に示す動作について図面を参照しつつ説明する。
まず、ユーザが画像読取装置120のADFに紙文書をセットし、所定の操作(例えば、画像読取装置120の操作部に設けられている起動ボタンの押下など)を行うと、その紙文書の各ページに対応する画像が画像読取装置120によって読み取られ、各ページの画像に対応する文書画像データが通信線130を介して画像読取装置120から文書処理装置110へ送られる。
一方、文書処理装置110の制御部200は、通信IF部210を介して上記文書画像データが入力されると、その文書画像データを揮発性記憶部220aへ書き込み蓄積する。そして、制御部200は、揮発性記憶部220aに蓄積された文書画像データに対して図7に示すフローチャートにしたがった紙文書電子化処理を施してその文書画像データに対応する紙文書の表題を特定し、その表題を含むファイル名と対応付けて不揮発性記憶部220bへ書き込み、電子化処理を完了する。以下、制御部200が行う動作について、図7を参照しつつ説明する。
図7は、制御部200が行う紙文書電子化処理の流れを示すフローチャートである。図7に示されているように、制御部200は、まず、揮発性記憶部220aに蓄積された文書画像データを解析し、その文書画像データに対応する文書に記載されている文字列を表す文字列データとその文字列に下線が付与されているか否かおよびその文字列の上下に位置する文字列との間隔を表す属性データとを各文字列毎に全て抽出する(ステップSA1)。具体的には、制御部200は、上記文書画像データから文字列が記載された領域の画像に対応するデータブロックを抽出し、そのデータブロックに対応する画像にOCR(Optical Character Recognition)を用いて上記文字列データや属性データを抽出する。
次いで、制御部200は、ステップSA1にて抽出した文字列データのうちから、各文字列データに対応する属性データに基づいて従来の技術により表題候補となる文字列の文字列データを抽出する(ステップSA2)。具体的には、制御部200は、ステップSA1にて抽出した属性データに基づいて、その属性データに対応する文字列データの表す文字列に下線が付与されているか否かを特定するとともに、その文字列とその文字列の上下に位置する文字列との間隔を特定する。そして、制御部200は、下線が付与されており、かつ、上記間隔が所定の値よりも大きい文字列に対応する文字列データを表題候補として抽出する。
ステップSA2に後続するステップSA3では、制御部200は、上記ステップSA2にて抽出した表題候補の文字列データの各々について構文解析を施し、その文字列データに対応する文字列の構文を特定する。具体的には、制御部200は、上記ステップSA2にて絞り込んだ表題候補の文字列データの各々について構文解析を施し、前述した構文データを生成してその文字列データの表す文字列の構文を特定する。次いで、制御部200は、ステップSA3の特定結果と構文テーブルの格納内容とに基づいて、上記ステップSA2にて抽出した表題候補の文字列データに、表題となる可能性が高い文字列に対応する文字列データが含まれているか否かを判定する(ステップSA4)。より詳細に説明すると、制御部200は、上記ステップSA2にて抽出した文字列データの各々について、その文字列データについて上記ステップSA3にて生成した構文データと同一の構文データに対応付けて構文テーブルに格納されている重みデータの値が所定の第1の閾値よりも大きいか否かを判定する。そして、制御部200は、その判定結果が“Yes”である文字列データが1つでもある場合に、上記ステップSA2にて絞り込んだ表題候補に表題となる可能性が高い文字列に対応する文字列データが含まれていると判定する。
ステップSA4の判定結果が“Yes”である場合には、制御部200は、上記ステップSA4にて表題となる可能性が高いと判定された文字列に対応する文字列データを、上記文書画像データに対応する文書の表題の最終候補とする(ステップSA5)。逆に、ステップSA4の判定結果が“No”である場合には、制御部200は、ステップSA3の特定結果と構文テーブルの格納内容とに基づいて、上記ステップSA2にて抽出した表題候補に、表題となる可能性が低い文字列に対応する文字列データが含まれているか否かを判定する(ステップSA6)。より詳細に説明すると、制御部200は、上記ステップSA2にて抽出した文字列データの各々について、その文字列データについて上記ステップSA3にて生成した構文データと同一の構文データに対応付けて構文テーブルに格納されている重みデータの値が所定の第2の閾値よりも小さいか否かを判定する。そして、制御部200は、その判定結果が“Yes”である文字列データが1つでもあった場合には、表題になる可能性が低い文字列データが含まれていると判定する。なお、上記第2の閾値としては、上記第1の閾値と等しい値、または、上記第1の閾値よりも小さい値であれば何れであっても良い。
ステップSA6の判定結果が“Yes”である場合には、制御部200は、上記ステップSA2にて絞り込んだ文字列データのうちから、上記ステップSA6にて表題となる可能性が低いと判定された文字列に対応する文字列データを削除し、その残りの文字列データを上記文書の表題を表す文字列の最終候補とする(ステップSA7)。逆に、ステップSA6の判定結果が“No”である場合には、制御部200は、上記ステップSA2にて抽出した表題候補の文字列データの全てを、上記文書の表題を表す文字列の最終候補とする(ステップSA8)。
上記ステップSA5、ステップSA7またはステップSA8の何れかに後続して実行されるステップSA9では、制御部200は、上記最終候補の文字列データのうちから上記文書の表題とする文字列を表す文字列データを特定する(ステップSA9)。具体的には、上記最終候補の文字列データが1個しかない場合には、制御部200は、その文字列データの表す文字列を上記表題として特定し、上記最終候補の文字列データが複数ある場合には、表題となる可能性が最も高い文字列データ(すなわち、最も大きな値を有する重みデータを対応付けられた構文データの表す構文を有する文字列データ)の表す文字列を上記文書の表題として特定する。なお、最終候補の文字列データが複数ある場合には、それら複数の文字列をユーザに提示し、ユーザによって選択された文字列を上記文書の表題として特定するとしても勿論良い。以降、制御部200は、上記ステップSA9にて特定された表題に応じた名称を付与して上記文書画像データを不揮発性記憶部220bへ書き込み、紙文書電子化処理を終了する。
以上に説明したように、本実施形態に係る文書処理装置110によれば、電子化対象の文書の表題を特定する際に、その文書に記載されている文字列のうちから表題候補の文字列を従来技術に基づいて絞り込んだ後に、更に、それら文字列の構文に基づいて絞り込み、その文書の表題となる文字列が特定される。これにより、従来よりも精度良く表題を特定することが可能になるといった効果を奏する。なお、本実施形態では、文書処理装置110へ入力された文書画像データについてその文書画像データに対応する文書の表題を特定し、その表題に応じたファイル名を付与して文書処理装置110に備えられている記憶部へ書き込む場合について説明したが、この文書処理装置110とは別体の記憶装置に上記文書画像データと上記ファイル名を表す名称データとを対応付けて送信し、両者を対応付けて上記記憶装置に記憶させるようにしても勿論良い。
(C.変形)
以上、本発明を実施する際の最良の形態について説明したが、以下に述べるような変形を加えても良いことは勿論である。
(C−1:変形例1)
上述した実施形態では、紙文書の画像に対応する文書画像データに基づいてその紙文書の表題を特定する場合について説明した。しかしながら、ワードプロセッサなどにより作成された文書に対応するデータ(その文書に記載されている文字の文字コードや改行コードなどがその記載順に配列されたデータ:以下、コードデータという)に基づいて、その文書の表題を特定するとしても良いことは勿論である。要は、紙文書に対応する文書データであれば、画像データであるかコードデータであるかは問わない。
(C−2:変形例2)
上述した実施形態では、文書画像データから読み取った文字列データについて、従来技術(その文字列データの表す文字列に下線が付与されているか否か、および、その文字列の上下に位置する文字列との間隔に基づいて表題となる文字列を特定する技術)により表題候補となる文字列を絞り込んだ後に、その絞り込まれた文字列の各々についてその構文を解析し、その解析結果と構文テーブルの格納内容とに基づいて上記文書画像データに対応する文書の表題となる文字列を更に絞り込む場合について説明した。しかしながら、構文に基づいて文字列データの絞り込みを行った後に、上記従来技術による絞り込みを行って最終候補を絞り込むとしても勿論良い。なお、上述した実施形態では、従来技術による絞り込みの一例として、下線の有無および上下に位置する文字列との間隔に基づいて表題候補の絞り込みを行う場合について説明したが、その一方にのみ基づいて絞り込みを行うとしても良く、また、各文字列のフォント種別やフォントの大きさに基づいて絞り込みを行うとしても勿論良い。また、このような従来技術による絞り込みを一切行わずに、文書画像データから読み取った全ての文字列データについて、各文字列データの表す文字列の構文を解析し、その解析結果と構文テーブルの格納内容とに基づいてその文書画像データに対応する文書の表題候補を絞り込む(すなわち、図7に示すステップSA2を行わずに、ステップSA1の直後にステップSA3を行う)としても勿論良い。
(C−3:変形例3)
上述した実施形態では、文字列の構文を表す構文データにその構文を有する文字列が文書の表題となる可能性を表す重みデータを対応付け、表題となる可能性が高い構文を表す構文データと、表題となる可能性が低い構文を表す構文データとを構文テーブルに格納しておく場合について説明した。しかしながら、文書の表題となる可能性が高い構文を表す構文データのみを上記構文テーブルに格納しておくとしても良く、逆に、文書の表題となる可能性が低い構文を表す構文データのみを上記構文テーブルに格納しておくとしても良い。また、文書の表題となる可能性が高い(または低い)構文を表す構文データのみを構文テーブルに格納しておく場合には、各構文データに上記重みデータを対応付けておく必要はない。
例えば、文書の表題となる可能性が高い構文を表す構文データのみを上記構文テーブルに格納しておく場合には、図7に示す紙文書電子化処理に替えて図8に示す紙文書電子化処理を実行させるようにすれば良い。図8に示す紙文書電子化処理が図7に示す紙文書電子化処理と異なっている点は、ステップSA4の判定結果が“No”である場合には無条件にステップSA8の処理を行うようにした点のみである。また、文書の表題となる可能性が低い構文を表す構文データのみを上記構文テーブルに格納しておく場合には、図7に示す紙文書電子化処理に替えて図9に示す紙文書電子化処理を実行させるようにすれば良い。図9に示す紙文書電子化処理が図7に示す紙文書電子化処理と異なっている点は、ステップSA3に後続してステップSA6の処理を行うようにした点のみである。
(C−4:変形例4)
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部200に実現させるためのソフトウェアを不揮発性記憶部220bに予め記憶させておく場合について説明した。しかしながら、例えばCD−ROM(Compact Disk- Read Only Memory)やDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に、上記ソフトウェアを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記ソフトウェアをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。
本発明の1実施形態に係る文書処理装置110を有する文書電子化システムの全体構成の一例を示す図である。 同文書処理装置110のハードウェア構成の一例を示す図である。 同文書処理装置110の不揮発性記憶部220bに格納されている構文テーブルのテーブルフォーマットの一例を示す図である。 文書の表題となる可能性が低い文字列の構文の一例を示す図である。 文書の表題となる可能性が高い文字列の構文の一例を示す図である。 文書の表題となる可能性が高い文字列の構文の一例を示す図である。 同文書処理装置110の制御部200が紙文書電子化ソフトウェアにしたがって行う紙文書電子化処理の流れを示すフローチャートである。 変形例3に係る紙文書電子化処理の流れを示すフローチャートである。 同変形例3に係る紙文書電子化処理の流れを示すフローチャートである。
符号の説明
10…文書電子化システム、110…文書処理装置、120…画像読取装置、130…通信線、200…制御部、210…通信IF部、220…記憶部、220a…揮発性記憶部、220b…不揮発性記憶部。

Claims (6)

  1. 文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表す構文データが記憶された記憶手段と、
    文書を電子化した文書データが入力される入力手段と、
    前記入力手段へ入力された文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、
    前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、
    前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段と
    を有する文書処理装置。
  2. 前記記憶手段に記憶された構文データには、その構文データの表す構文を有する文字列が文書の表題となる可能性の度合いを表す重みデータが対応付けられており、
    前記特定手段は、
    前記構文解析手段により特定された構文を表す構文データに対応付けて前記記憶手段に記憶されている重みデータに基づいて、前記文書の表題を表す文字列データを特定する
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 前記特定手段は、
    前記抽出手段により抽出された文字列データのうちから、文書の表題となる可能性が高い文字列データを前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて絞り込んでユーザへ提示し、ユーザによって選択された文字列データを前記文書の表題を表す文字列データとして特定する
    ことを特徴とする請求項2に記載の文書処理装置。
  4. 前記特定手段は、
    前記抽出手段により抽出された文字列データのうちから、文書の表題となる可能性が低い文字列データを前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて削除し、その残りの文字列データをユーザへ提示して、ユーザによって選択された文字列データを前記文書の表題を表す文字列データとして特定する
    ことを特徴とする請求項2に記載の文書処理装置。
  5. 前記抽出手段は、
    前記入力手段へ入力された文書データを解析して得られた文字列データのうちで、該文字列データに対応する文字列についての修飾の有無またはその文字列の上下に位置する文字列との間隔に基づいて、該文書データに対応する文書の表題となる可能性が高い文字列を表す文字列データのみを抽出する
    ことを特徴とする請求項1乃至4の何れか1に記載の文書処理装置。
  6. コンピュータ装置を、
    文書を電子化した文書データが入力された場合に、該文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、
    前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を各文字列毎に特定する構文解析手段と、
    文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表すデータとして該コンピュータ装置に予め記憶されている構文データと前記構文解析手段による特定結果とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段
    として機能させるプログラム。
JP2004271734A 2004-09-17 2004-09-17 文書処理装置およびプログラム Pending JP2006085582A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004271734A JP2006085582A (ja) 2004-09-17 2004-09-17 文書処理装置およびプログラム
US11/080,924 US20060062492A1 (en) 2004-09-17 2005-03-16 Document processing device, document processing method, and storage medium recording program therefor
CNB2005100559257A CN100447805C (zh) 2004-09-17 2005-03-18 文档处理装置和文档处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004271734A JP2006085582A (ja) 2004-09-17 2004-09-17 文書処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2006085582A true JP2006085582A (ja) 2006-03-30

Family

ID=36074077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004271734A Pending JP2006085582A (ja) 2004-09-17 2004-09-17 文書処理装置およびプログラム

Country Status (3)

Country Link
US (1) US20060062492A1 (ja)
JP (1) JP2006085582A (ja)
CN (1) CN100447805C (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US9641715B2 (en) 2015-01-30 2017-05-02 Pfu Limited Information processing device, method, and medium
JP2020013541A (ja) * 2018-07-17 2020-01-23 富士ゼロックス株式会社 会話型の文書を要約するために表題を生成するためのシステム及び方法、文書用に表題を生成する方法、プログラム、演算装置、及びコンピュータ機器

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169536A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
US8504567B2 (en) * 2010-08-23 2013-08-06 Yahoo! Inc. Automatically constructing titles
US9082037B2 (en) * 2013-05-22 2015-07-14 Xerox Corporation Method and system for automatically determining the issuing state of a license plate
US10176500B1 (en) * 2013-05-29 2019-01-08 A9.Com, Inc. Content classification based on data recognition
CN104463155B (zh) * 2013-09-18 2018-05-11 株式会社东芝 文件管理装置以及文件管理方法
US10572528B2 (en) 2016-08-11 2020-02-25 International Business Machines Corporation System and method for automatic detection and clustering of articles using multimedia information

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5635272A (en) * 1995-07-03 1997-06-03 The United States Of America As Represented By The Secretary Of The Army Composite structure for transmitting high shear loads
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5776582A (en) * 1996-08-05 1998-07-07 Polyplus, Inc. Load-bearing structures with interlockable edges
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
JPH10214194A (ja) * 1997-01-29 1998-08-11 Nec Corp クラス定義取り込み方式
JPH11282844A (ja) * 1998-03-26 1999-10-15 Toshiba Corp 文書作成方法および情報処理装置および記録媒体
JP3579264B2 (ja) * 1998-10-13 2004-10-20 株式会社リコー 文縮約方法、文書縮約装置及び文書抄録装置
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
US7099507B2 (en) * 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
US7035463B1 (en) * 1999-03-01 2006-04-25 Matsushita Electric Industrial Co., Ltd. Document image processor, method for extracting document title, and method for imparting document tag information
JP3913985B2 (ja) * 1999-04-14 2007-05-09 富士通株式会社 文書画像中の基本成分に基づく文字列抽出装置および方法
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
JP4566510B2 (ja) * 2002-12-20 2010-10-20 富士通株式会社 帳票認識装置および帳票認識方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP4533920B2 (ja) * 2007-07-23 2010-09-01 シャープ株式会社 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US9641715B2 (en) 2015-01-30 2017-05-02 Pfu Limited Information processing device, method, and medium
JP2020013541A (ja) * 2018-07-17 2020-01-23 富士ゼロックス株式会社 会話型の文書を要約するために表題を生成するためのシステム及び方法、文書用に表題を生成する方法、プログラム、演算装置、及びコンピュータ機器
JP7314538B2 (ja) 2018-07-17 2023-07-26 富士フイルムビジネスイノベーション株式会社 会話型の文書を要約するために表題を生成するためのシステム及び方法、文書用に表題を生成する方法、プログラム、演算装置、及びコンピュータ機器

Also Published As

Publication number Publication date
CN100447805C (zh) 2008-12-31
US20060062492A1 (en) 2006-03-23
CN1750018A (zh) 2006-03-22

Similar Documents

Publication Publication Date Title
US8139870B2 (en) Image processing apparatus, recording medium, computer data signal, and image processing method
US7756871B2 (en) Article extraction
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
JP2006276911A (ja) 電子機器およびプログラム
US20060062492A1 (en) Document processing device, document processing method, and storage medium recording program therefor
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2006059075A (ja) 文書処理装置およびプログラム
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
CN112084748A (zh) 一种文本比对方法
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2006065477A (ja) 文字認識装置
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
US20110033114A1 (en) Image processing apparatus and computer readable medium
JP2006072512A (ja) 文書処理装置およびプログラム
JPH0883280A (ja) 文書処理装置
JP2006004050A (ja) 画像処理装置、画像読み取り装置およびプログラム
JP2007148925A (ja) 情報処理装置及び情報処理方法
Partanen et al. Processing MA Castr\'en's Materials: Multilingual Typed and Handwritten Manuscripts
JP4710417B2 (ja) 情報処理装置