JP2014013534A - 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム - Google Patents

文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム Download PDF

Info

Publication number
JP2014013534A
JP2014013534A JP2012151256A JP2012151256A JP2014013534A JP 2014013534 A JP2014013534 A JP 2014013534A JP 2012151256 A JP2012151256 A JP 2012151256A JP 2012151256 A JP2012151256 A JP 2012151256A JP 2014013534 A JP2014013534 A JP 2014013534A
Authority
JP
Japan
Prior art keywords
document
character string
document name
character
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012151256A
Other languages
English (en)
Inventor
Yoshihisa Oguro
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2012151256A priority Critical patent/JP2014013534A/ja
Priority to US13/915,764 priority patent/US20140013220A1/en
Priority to EP13172935.2A priority patent/EP2682881A3/en
Publication of JP2014013534A publication Critical patent/JP2014013534A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)

Abstract

【課題】本発明は、文書画像データから文書内容の分かり易い文書名を生成する。
【解決手段】文書処理装置1は、文書読み取り部12が紙文書を読み取った文書画像データからOCR部13が文字情報を抽出して、タイトル作成部14が、OCR部13の抽出した文字情報から該文書画像データの特徴を示す所定数の文字列をタイトル文字列として抽出し、文書名作成部15が、タイトル作成部14の抽出したタイトル文字列から予め設定されている出力条件に適した文字列を文書名として作成する。
【選択図】 図1

Description

本発明は、文書処理装置、画像処理装置、文書処理方法及び文書処理プログラムに関し、詳細には、文書画像データに対して、文書内容の分かり易い文書名を作成する文書処理装置、画像処理装置、文書処理方法及び文書処理プログラムに関する。
外部から取り込んだ文書画像データには、文書名が付与されていない文書画像データがあり、特に、スキャナ装置によって紙文書から取り込んだ文書画像データには、該文書データを有効に利用するために、文書名を付与して保管管理する必要がある。
このような取り込んだ文書画像データに対して文書名を付与する方法としては、従来、取り込んだ日付や所定の連番等を自動作成して付与する方法が用いられていたが、日付や連番のみでは、文書画像データの文書内容が分からず、文書画像データの利用性が悪いという問題があった。
そして、ユーザが、取り込んだ文書画像データに対して、該文書画像データの内容に応じた文書名を操作入力することも従来から行われているが、この場合、文書名から文書画像データの内容を理解することができ、利用性は向上されるが、文書画像データの数が多いときには、作業性が悪く、改良の必要があった。
そこで、従来、文書画像データから文書画像データの内容に応じたタイトルを抽出する技術が種々提案されている。例えば、文書画像データにOCR(Optical Character Reader:光学式文字読取装置)処理を施して認識した文書に対して、タイトル候補文の各々の特徴量を抽出し、該特徴量が、タイトル候補文と文書中の複数の文との類似度の関数である類似度情報を含むようにして、タイトルを抽出する方法(特許文献1参照)、文書画像データの、文字領域の属性、行領域のレイアウト的特徴からレイアウトらしさを抽出してタイトルを抽出する方法(特許文献2参照)、及び、タイトル文字列の近傍に記載されるキーワード文字列とタイトル文字列の相対位置等の情報からタイトルを抽出する方法(特許文献3参照)等がある。
しかしながら、上記従来技術にあっては、いずれも、文書画像データからタイトル(文書名)として文書画像データの内容に適した文字列を抽出技術であるが、抽出した文書名の利用性については、考慮されておらず、改良の必要があった。
すなわち、文書画像データに文書名を付与するのは、不揮発性メモリ等に保管されている該文書画像データを、該文書名によって特定して再利用する際の文書画像データの検索における利便性を向上させるためであり、このような文書名に基づく文書画像データの検索においては、文書名を表示部に表示させる等の出力を行うことで検索を行う。
ところが、文書名の出力においては、例えば、文書名の表示欄は、その表示文字数や行数が限られている場合が一般的であり、表示欄に収まらない長い文書名は、一部のみが表示されるか、その文書画像データを保管している装置のシステムとして、該長い文書名が許可されないことがあったり、出力文字が付与した文字から文字化けする等が発生して、文書名の作成において、改良の必要があった。
そこで、本発明は、文書画像データの内容を表現する文書名を出力条件に応じて作成することを目的としている。
上記目的を達成するために、請求項1記載の文書処理装置は、文書画像データから文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段の抽出した前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出手段と、前記特徴文字列抽出手段の抽出した前記文書名候補文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成手段と、を備えていることを特徴としている。
本発明によれば、文書画像データの内容を表現する文書名を出力条件に応じて作成することができる。
本発明の一実施例を適用した文書処理装置の要部ブロック構成図。 文書処理を示すフローチャート。 文書画像データの一例を示す図。 限界文字数まで文書名として文字列を採用する文書名作成処理を示すフローチャート。 文書処理を行なうコンピュータ装置の要部ブロック構成図。 複数の装置で分担して文書処理を行う文書処理システムの概略構成図。 第2実施例の文書処理装置の文書名作成部のブロック構成図。 ASCII文字の文書名を作成する文書名作成部のブロック構成図。
以下、本発明の好適な実施例を添付図面に基づいて詳細に説明する。なお、以下に述べる実施例は、本発明の好適な実施例であるので、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明によって不当に限定されるものではなく、また、本実施の形態で説明される構成の全てが本発明の必須の構成要件ではない。
図1〜図6は、本発明の文書処理装置、画像処理装置、文書処理方法及び文書処理プログラムの第1実施例を示す図であり、図1は、本発明の文書処理装置、画像処理装置、文書処理方法及び文書処理プログラムの第1実施例を適用した文書処理装置1の要部ブロック構成図である。
図1において、文書処理装置1は、文書画像データを取り扱う種々の装置、例えば、複写装置、複合装置、スキャナ装置、コンピュータ装置、ブックリーダ等に適用され、少なくとも、本発明の文書処理方法を実行する文書処理プログラムが、不揮発性メモリに導入されることで、文書給紙部11、文書読み取り部12、OCR部13、タイトル作成部14、文書名作成部15及び文書蓄積部16等が構築されている。
すなわち、文書処理装置1は、ROM、EEPROM(Electrically Erasable and Programmable Read Only Memory )、EPROM、フラッシュメモリ、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory )、CD−RW(Compact Disc Rewritable )、DVD(Digital Versatile Disk)、SD(Secure Digital)カード、MO(Magneto-Optical Disc)等のコンピュータが読み取り可能な記録媒体に記録されている本発明の文書処理方法を実行する文書処理プログラムを読み込んでROMやハードディスク等の不揮発性メモリに導入することで、後述する取り込んだ文書画像データの内容を表現する文書名を出力条件に応じて作成する文書処理方法を実行する文書処理装置として構築されている。この文書処理プログラムは、アセンブラ、C、C++、C#、Java(登録商標)等のレガシープログラミング言語やオブジェクト指向ブログラミング言語等で記述されたコンピュータ実行可能なプログラムであり、上記記録媒体に格納して頒布することができる。
文書給紙部11は、複数枚の紙文書が載置可能であり、載置された紙文書を1枚ずつ分離して文書読み取り部12に送り出す。
文書読み取り部12は、例えば、CCD(Charge Coupled Device )やCMOS(Complementary Metal Oxide Semiconductor )を利用したイメージスキャナ等が利用されており、文書給紙部11から送り込まれてきた紙文書を、主走査及び副走査して、該紙文書の画像を所定の解像度で読み取って、2値化して、文書蓄積部16及びOCR部13に出力する。
OCR部13は、文書読み取り部12の読み取った紙文書の画像データから文字データを読み出すとともに、該文字データの対応する文字画像位置や文字認識スコア及び言語処理結果(文字が所属する単語の位置や品詞等の文法上の情報)等の付加情報を付加してタイトル作成部14に出力する。すなわち、OCR部13は、文書読み取り部12の取り込んだ文書画像データから文字情報を抽出する文字情報抽出手段として機能している。
なお、本実施例の文書処理装置1は、紙文書を文書読み取り部12で読み取ることで、文書画像データを取り込んでいるが、文書画像データの取り込み方法としては、上記方法に限るものではなく、例えば、紙文書を読み取るスキャナ装置や文書画像データを保存する複写装置、複合装置、コンピュータ装置等からネットワークとネットワークI/Fを介して受信することで取り込む等の方法であってもよい。
タイトル作成部14は、OCR部13から入力される文字データ及び付加情報から文書画像データのページ毎に、該ページの内容を特徴的に表現するテキスト(以下、タイトル文字列という。)を抽出して、文書名作成部15に出力する。すなわち、タイトル作成部14は、OCR部13の抽出した文字情報である文字データ及び付加情報から文書画像データの特徴を示す所定数の文字列をタイトル文字列(文書名候補文字列)として抽出する特徴文字列抽出手段として機能している。
タイトル作成部14によるタイトルの抽出は、上述した特許文献に記載の方法等の既存のタイトル抽出方法を用いることができ、例えば、ページのタイトルや見出し語が、大きな文字で横書きの場合、ページ上部、縦書きの場合、ページ右側に存在することに注目して、OCR部13からの付加情報のテキスト存在位置情報を参照してタイトルらしさや見出し語らしさを判定する方法、無意味な文字列ではなく、意味のある単語を含むテキストの方が有用である場合が多いことから、OCR結果のテキストを、その付属情報を用いて文法的に解析して、文法的な逸脱の少ないテキストの方を採用する方法、さらには、テキスト位置情報や文法的解析結果等の複数の要素を総合的に評価してページを端的に表現する短いテキストを作成する方法等を用いることができる。タイトル作成部14は、この特徴文字列抽出処理を、文書画像データのページ毎に実行する。
文書名作成部15は、タイトル作成部14が作成したタイトル文字列から予め設定されている出力条件に適した文字列を文書名として作成して、文書蓄積部16に出力する。すなわち、文書名作成部15は、タイトル作成部14の抽出したタイトル文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成手段として機能している。
文書蓄積部16は、ハードディスク等の大容量の不揮発性メモリを備えており、文書読み取り部12から入力される文書画像データと文書名作成部15で作成された文書名を関連付けて不揮発性メモリに保管して管理する。
そして、この文書処理装置1は、上述のように、スキャナ装置、複写装置、複合装置等の画像処理装置に適用され、該画像処理装置の操作表示部のユーザによる操作に応じて、文書蓄積部16に保管されている文書画像データの文書名を、操作表示部のディスプレイに、表示出力する。
ユーザが、該ディスプレイの表示される文書名から文書画像データの内容を把握して、意図する文書名の文書画像データを操作表示部の操作で選択操作すると、画像処理装置が、選択された該文書画像データを操作表示部の操作に応じて出力形式、例えば、表示出力、プリント出力、他の装置への転送出力等を行う。
次に、本実施例の作用を説明する。本実施例の文書処理装置1は、取り込んだ文書画像データの内容を表現する文書名を出力条件に応じて作成する。
すなわち、文書処理装置1は、文書給紙部11に読み取り対象の紙文書があるかチェックし(ステップS101)、読み取り対象の紙文書が文書給紙部11にあるとき(ステップS101で、YESのとき)には、文書給紙部11から1枚だけ紙文書を文書読み取り部12に送給して、文書読み取り部12が、該紙文書を主走査及び副走査して、該紙文書の画像を所定の解像度で読み取って、2値化して、文書蓄積部16及びOCR部13に出力する文書取り込み処理を行う(ステップS102)。
OCR部13は、文書読み取り部12の読み取った紙文書の画像データから文字データを読み出すとともに、該文字データの対応する文字画像位置や文字認識スコア及び言語処理結果(文字が所属する単語の位置や品詞等の文法上の情報)等の付加情報を付加してタイトル作成部14に出力する文字情報抽出処理(OCR処理)を行う(ステップS103)。
タイトル作成部14は、OCR部13から入力される文字データ及び付加情報から文書画像データの該ページの内容を特徴的に表現するテキストであるタイトル文字列を抽出して、文書名作成部15に出力する特徴文字列抽出処理を行なう(ステップS104)。
文書処理装置1は、1ページ分の文書取り込み処理、文字情報抽出処理及び特徴文字列抽出処理を行うと、ステップS101に戻って、読み取り対象の紙文書が文書給紙部22にあるかチェックして(ステップS101)、読み取り対象の紙文書があるときには、同様に、次の紙文書の文書取り込み処理、文字情報抽出処理及び特徴文字列抽出処理を行う処理を、読み取り対象の紙文書がある限り順次繰り返し行う(ステップS101〜S104)。
文書処理装置1は、ステップS101で、読み取り対象の紙文書がないとき(ステップS101で、NOのとき)には、文書名作成部15が、タイトル作成部14が作成したタイトル文字列から予め設定されている出力条件に適した文字列、例えば、文書名を表示出力するディスプレイの文書名表示領域の大きさ等に適した長さの文字列等、を文書名として作成して、文書蓄積部16に出力する文書名作成処理を行なう(ステップS105)。
文書蓄積部16は、文書読み取り部12から入力される文書画像データ(複数ページからなるときには、該複数のページをまとめた文書画像データ)と文書名作成部15で作成された文書名を関連付けて不揮発性メモリに保管して管理する。
そして、文書処理装置1は、文書名作成部15によるステップS105の文書名作成処理において、文書画像データが複数ページからなる場合、全てのページの特徴文字列抽出結果を利用して、より適切な文書名を作成する。
すなわち、複数ページからなる文書画像データの文書名の作成を行なう場合、通常、先頭ページが表紙と予想されるため、先頭ページのタイトル文字列が文書全体を表現していると考えることができるが、表紙は本文ページとは傾向が異なり、飾り文字で文書名が書かれていたり、文字のない全面写真ページ等のように、OCR部13による文字情報抽出処理では、適切にテキスト処理することのできないページであると、先頭ページからタイトル文字列を取得することができない。また、文書区切りとして白紙が挿入されている場合には、OCR部13は、タイトル文字を取得することができない。
そして、タイトル作成部14は、文字情報抽出処理結果の信頼度や文字サイズ、文字の存在位置等の要素から総合的に評価して、タイトルの順位付けを行なっている。
そのため、OCR部13による文字情報抽出処理の信頼度が低いときには、タイトル作成部14による特徴文字列抽出結果の評価値も低くなる。
そこで、文書名作成部15は、複数のページからなる文書画像データに対しては、全ページの特徴文字列抽出結果を利用して、例えば、各ページの特徴文字列抽出結果の評価値を求め、先頭ページから、該評価値を所定の閾値と比較して、評価値が該閾値よりも低い場合には、次のページに対する特徴文字列抽出結果の評価値を該閾値と比較する処理を順次行う。文書名作成部15は、ページの特徴文字列抽出結果の評価値が該閾値を越えるページがあると、該ページでのタイトル文字列を文書名として用いる。
このようにすると、文字情報抽出処理機能が低い場合にも、適切な文書名を作成することができる。
例えば、タイトル作成部14は、図3に示すように、図3(a)の報告書の文書画像データGa、図3(b)の議事録の文書画像データGb及び図3(c)の報告書の文書画像データGcが存在した場合、上述のように、タイトル文字列が、ページ上部に、大きな文字で配置される傾向があるので、この傾向を利用して、各文書に対して、内容を顕著に表す文字列であるタイトル文字列として、文書画像データGaに対して、「報告書]、文書画像データGbに対して、「議事録]、文書画像データGcに対して、「報告書]を抽出することとなる。
ところが、文書画像データGaと文書画像データGcに対して抽出したタイトル文字列が同じ「報告書]となるため、このタイトル文字列を文書名とすると、文書画像データGaと文書画像データGcを区別することができない。
そこで、文書名作成部15は、図4に示すように、上記評価値に基づいて評価した評価順を利用して、表示領域に表示可能な文字数(設定文字数)分まで、すなわち、文書名として許可されている文字数まで順位の低いタイトル文字列を文書名として採用してもよい。この場合、文書名作成部15は、タイトル作成部14の抽出した複数のタイトル文字列に対して文書画像データの内容を表現する顕著らしさを評価して順序付ける評価部(評価手段)と、該評価部の評価順序に従ってタイトル文字列を前記設定文字数分まで連結した文字列を文書名として作成する文字連結部(文字列連結手段)と、を備えたものとなる。
すなわち、文書名作成部15は、まず、文書名として採用可能な文字数である表示文字数を設定する(ステップS201)。この表示文字数は、例えば、文書処理装置1の適用装置が決まっていて、該装置の表示部の文書名として表示可能な文字数等が設定される。
文書名作成部15は、使用候補順位に「1」をセットして(ステップS202)、現在の文書名の文字数(文書名文字数)が表示文字数未満(表示文字数>文書名文字数)であるかチェックする(ステップS203)。
文書名作成部15は、ステップS203で、文書名文字数が表示文字数未満であるとき(ステップS203で、YESのとき)には、使用候補順位にセットされている評価順位のタイトル文字列を取得して(ステップS204)、該タイトル文字列を文書名に追加し(ステップS205)、使用候補順位を「1」だけインクリメント(増分)して(ステップS206)、ステップS203に戻って、上記同様に、文書名文字数が表示文字数未満であるかのチェックから上記同様に処理する(ステップS203〜S206)。
文書名作成部15は、ステップS203からステップS206までの処理を順次繰り返し行なって、ステップS203で、文書名文字数が表示文字数以上になると(ステップS203で、NOのとき)、文書名として最後に追加した文字列に対して、全体の文書名文字数が表示文字数になるように、制限して、文書名作成処理を終了する(ステップS207)。
このようにすると、上記図3の場合、図3(a)の文書画像データGaの場合、「報告書」に対して、「報告書_A社の売り上げ分析」等を、図3(b)の文書画像データGbの場合、「議事録」に対して、「議事録_日時○月○日○時〜○時」等を、図3(c)のぶん書画像データGcの場合、「報告書」に対して、「報告書_製品Bの販売経費推移」等を、それぞれ文書名として採用することができ、より一層文書画像データの内容の分かり易い文書名とすることができる。
そして、タイトル作成部14が、タイトル文字列として優先順位の高い文字列として採用するのは、上述のように、ページ内においてサイズの大きな文字の文字列であることが多く、この場合、文字サイズが大きいということは、文書画像データのページの1行内に収まる文字数が少なくなることを意味し、ひいては、タイトル文字列として採用する文字数が少なくなる傾向にある。したがって、タイトル文字列の評価順位が1位のタイトル文字列のみを文書名として用いると、短い文字列の文書名になって、多数の文書画像データから所望の文書画像データを文書名に基づいて選択するのには、不十分な文書名となるおそれがある。
ところが、上述のように、文書名として採用可能な文字数まで、タイトル文字列を、その優先順位(使用候補順位)に基づいて、繋げて文書名として採用すると、文書画像データの内容をより一層特徴的に表現する文書名を採用することができ、文書名の利用性を向上させることができる。
なお、上記説明においては、文書画像データの取り込みから文書名作成及び文書蓄積までの処理を、1つの文書処理装置1で行なっているが、文書処理としては、1つの文書処理装置1内での処理に限定されるものではなく、例えば、文書読み取り部12の取り込んだ文書画像データを、図5に示すようなコンピュータ装置20に送信して、コンピュータ装置20が、ソフトウェア処理することで、文字情報抽出処理、特徴文字列抽出処理及び文書名作成処理等の文書処理を行ってもよい。また、この場合、文書蓄積処理も、コンピュータ装置20で行なってもよい。
すなわち、コンピュータ装置20は、CPU21、メモリ22、通信部23、表示部24、ハードディスク25、キーボード26、CD−ROMドライブ27及びFD(フレキシブルディスク)ドライブ28等を備えており、上記各部は、バス29によって接続されている。コンピュータ装置20は、ハードディスク25等に本発明の文書処理プログラムが導入されることで、上記OCR部、タイトル作成部、文書名作成部、文書蓄積も行う場合には、文書蓄積部が構築される。
コンピュータ装置20は、通信部23がLAN(Local Area Network)やインターネット等の通信回線を介して、スキャナ装置等から取り込んだ文書画像データに対して、CPU21が、ハードディスク25等に導入された文書処理プログラムに基づいて、文字情報抽出処理、特徴文字列抽出処理及び文書名作成処理等の文書処理を行なって文書名を作成し、作成した文書名を該文書画像データに関連付けて、ハードディスク25に保管したり、CD−ROMドライブ27に挿入されているCD−ROM、または、FDドライブ28に挿入されているFDに保管する。
また、文書処理は、1つの装置で行う場合に限るものではなく、例えば、図6に示すように、インターネットやLAN等の通信回線NWに接続された複数の装置S1から装置S3を用いて文書処理システムBSを構築して、該文書処理システムBSを構築する装置S1〜S3を用いて実行してもよい。
この場合、例えば、装置S1が、文字情報抽出処理用の文書処理プログラムを搭載して、他の装置または図示しないスキャナ装置等から取り込んだり、自装置がスキャナ処理して取り込んだ文書画像データに対して文字情報抽出処理を実行して、装置S2に、少なくとも文字情報抽出処理結果を、通信回線NWを介して送信する。
装置S2は、タイトル作成用の文書処理プログラムを搭載して、装置S1から送られてきた文字情報抽出処理結果に基づいて、特徴文字列抽出処理を行ない、抽出結果のタイトル文字列を、通信回線NWを介して装置S3に送信する。
装置S3は、文書名作成用の文書処理プログラムを搭載して、装置S2から送信されてきたタイトル文字列から文書名を作成し、装置S1から送られてきた文書画像データまたは装置S2から送られてきた文書画像データと該文書名を関連付けて、自装置内の不揮発性メモリまたは通信回線NW上の記憶装置に保管する。
このように、本実施例の文書処理装置1は、文書画像データから文字情報を抽出するOCR部(文字情報抽出手段)13と、OCR部13の抽出した前記文字情報から前記文書画像データの特徴を示す所定数の文字列をタイトル文字列(文書名候補文字列)として抽出するタイトル作成部(特徴文字列抽出手段)14と、タイトル作成部14の抽出したタイトル文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成部(文書名作成手段)15と、を備えている。
したがって、文書画像データの特徴を示す所定数の文字列からなるタイトル文字列のうち、出力条件に適した文字列のみを文書名とすることができ、文書画像データの内容を表現する文書名を出力条件に応じて作成することができる。
また、本実施例の文書処理装置1は、文書画像データを取り込んで、該文書画像データに対して、文書処理部が、文書名を付与して保管し、該保管されている該文書画像データの該文書名を所定の操作表示部のディスプレイ(表示手段)に表示して、該ディスプレイへ表示している文書に対する出力要求に応じて該文書画像データの出力を行う複合装置、複写装置、スキャナ装置等の画像処理装置において、前記文書処理部として、上記文書処理装置1を搭載している。
したがって、画像処理装置に取り込んで蓄積するおける文書画像データの特徴を示す所定数の文字列からなるタイトル文字列のうち、出力条件に適した文字列のみを文書名とすることができ、文書画像データの内容を表現する文書名を出力条件に応じて作成することができる。
さらに、本実施例の文書処理装置1は、文書画像データから文字情報を抽出する文字情報抽出処理ステップと、前記文字情報抽出処理ステップで抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列をタイトル文字列として抽出する特徴文字列抽出処理ステップと、前記特徴文字列抽出処理ステップで抽出したタイトル文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成処理ステップと、を有している文書処理方法を実行している。
したがって、文書画像データの特徴を示す所定数の文字列からなるタイトル文字列のうち、出力条件に適した文字列のみを文書名とすることができ、文書画像データの内容を表現する文書名を出力条件に応じて作成することができる。
また、本実施例の文書処理装置1は、コンピュータに、文書画像データから文字情報を抽出する文字情報抽出処理と、前記文字情報抽出処理で抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列をタイトル文字列として抽出する特徴文字列抽出処理と、前記特徴文字列抽出処理で抽出したタイトル文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成処理と、を実行させる文書処理プログラムを搭載している。
したがって、文書画像データの特徴を示す所定数の文字列からなるタイトル文字列のうち、出力条件に適した文字列のみを文書名とすることができ、文書画像データの内容を表現する文書名を出力条件に応じて作成することができる。
さらに、本実施例の文書処理装置1は、前記文書名作成部15ガ、タイトル作成部14の抽出した複数のタイトル文字列に対して前記文書画像データの内容を表現する顕著らしさを評価して順序付ける図示しない評価部(評価手段)と、該評価順序に従ってタイトル文字列を前記設定文字数分まで連結した文字列を前記文書名として作成する図示しない文字列連結部(文字列連結手段)と、を備えている。
したがって、文書画像データの特徴を示す所定数の文字列からなるタイトル文字列のうち、出力条件により一層適した文字列のみを文書名とすることができ、文書画像データの内容をより一層適切に表現する文書名を出力条件に応じて作成することができる。
また、本実施例の文書処理装置1は、タイトル作成部14が、前記文書画像データが複数ページから構成されていると、ページ毎に該ページの文書画像データの特徴を表す文字列を抽出し、文書名作成部15が、タイトル作成部14の抽出した前記文字列に対して文書名としての評価を行なう評価部(評価手段)と、該評価部が評価した評価結果が所定の閾値を越える文字列が前記設定文字数分になるまで前記文書画像データの先頭ページから最終ページに向かって前記評価部に評価させて、該閾値を超える該設定文字数分の文字列を前記文書名として作成する評価制御部(評価制御手段)と、を備えている。
したがって、文書画像データ全体の内容を特徴的に表した文字列を文書名として作成することができ、文書名による文書画像データの選択をより一層適切に行えるようにすることができる。
図7は、本発明の文書処理装置、画像処理装置、文書処理方法及び文書処理プログラムの第2実施例を適用した文書処理装置の文書名作成部30の要部ブロック構成図である。
なお、本実施例は、上記第1実施例の文書処理装置1と同様の文書処理装置に適用したものであり、本実施例の説明においては、第1実施例の文書処理装置1と同様の構成部分については、第1実施例の説明で用いた符号をそのまま用いて説明する。
本実施例の文書処理装置1は、第1実施例の文書処理装置1と同様の文書給紙部11、文書読み取り部12、OCR部13、タイトル作成部14、文書蓄積部16を備えているとともに、図7に示す文書名作成部30を備えており、文書名作成部(文書名作成手段)30は、タイトル候補入力部31、文書名文字列決定部32、文字列整形部33及び文書名文字列出力部34等を備えている。
タイトル候補入力部31は、タイトル作成部14からタイトル文字列が入力され、該タイトル文字列を文書名文字列決定部32に入力する。
文書名文字列決定部32は、タイトル候補入力部31から入力されるタイトル文字列から、文書画像データの内容を顕著に表現する文書名候補文字列を選択して文字列整形部33に入力する。
文字列整形部33は、全角半角変換部33aとファイル名禁則適用部33bを備えており、同じ意味の文字をより少ないバイト数で表現可能な文字に整形する。
全角半角変換部(文字選択手段)33aは、同じ意味の文字を異なるバイト数で表現可能な文字が、そのバイト数とともに登録されている文字−バイト対応テーブルとして、全角/半角テーブルを有しており、全角/半角テーブルには、全角文字のうち、半角文字の存在する全角文字に対して半角文字が対応させて登録されている。すなわち、全角文字は、2バイトで構成される文字であり、半角文字は1バイトで構成されていて、表示に全角文字の半分の領域で住む。したがって、文書名の表示領域が制限されている場合に、同じ表示領域に対して半角文字の方が多くの文字を表示することができ、文書名としても多くの情報を盛り込んで、より分かり易い文書名とすることができる。
そして、全角半角変換部33aは、全角文字を全角/半角テーブルを参照して、半角に変換するだけでなく、表示領域に対して、半角文字にすることによって表示可能な文字数が増加した分だけ文書名文字決定部32から文書名候補文字列を取得して文書名とする文字数を、該表示領域に表示可能な文字数まで選択して連結する。すなわち、全角半角変換部33aは、同じ意味の文字を異なるバイト数で表現可能な文字を、そのバイト数とともに登録されている文字−バイト対応テーブルとして、全角/半角テーブルを備えて、文字名候補文字列のうち、全角/半角テーブルに登録されている文字(全角文字)に対してより少ないバイト数の文字(半角文字)を文書名の文字列として選択する文字選択手段として機能している。例えば、横書き全角文字で、10文字を表示することのできる表示領域の場合、半角文字では、20文字表示することができる。また、全角の英数記号文字のうち、多くは対応する半角文字が存在する。例えば、「A」と「A」、「?」と「?」等である。
そこで、全角半角変換部33aは、例えば、「本件に関するQ&A」、「1776年7月4日アメリカ独立宣言」という文書名の場合、半角で表示可能な文字を半角に変換して、「本件に関するQ&A」、「1776年7月4日アメリカ独立宣言」とすることで、文字列の長さを短くすることができ、より多くの文字数の文字列を文書名とすることができる。その結果、文書名を、より一層ページの内容を理解し易い文書名とすることができる。
そして、ファイル名禁則適用部33bは、文書名を表示する装置等においては、その文字数が制限されていたり、使用が禁止されている文字が存在する等の禁則が設けられていることがあるため、文書名をこのような禁則に適合させる。
具体的には、Microsoft Windows(登録商標)では、システムが別用途に既に規定している文字、例えば、「\、/、:、*、?、"、<、>、|」を含むファイル名を作成することが禁じられており、また、ファイル名の長さにも上限がある。
そこで、ファイル名禁則適用部33bは、使用の禁止されている文字が、文書名に含まれているときには、該禁止文字を適当な文字に置換し、ファイル名長さを越える文書名については、後端側からその文字列をファイル名長さ以下の長さまで切り捨てる。
そして、文書名文字列出力部34は、文字列整形部33が作成した文書名を、文書蓄積部16に出力する。
すなわち、本実施例の文書名作成部30は、タイトル候補入力部31がタイトル作成部14からタイトル文字列を受け取って文書名文字列決定部32に渡し、文書名文字列決定部32が、入力されるタイトル文字列から、文書画像データの内容を顕著に表現する文書名候補文字列を選択して文字列整形部33に入力する。
文字列整形部33は、その全角半角変換部33aが、全角/半角テーブルを参照して、文書名文字列決定部32が選択した文書名候補文字列の文字のうち、半角に変換可能な全角文字を半角に変換し、ファイル名禁則適用部33bが、文書名の付与された文書画像データの出力先等の適用装置において禁止文字や長さ制限等の禁則が存在する場合に、その禁則を適用した文書名を作成する。
このように、本実施例の文書処理装置1は、文書名作成部30が、同じ意味の文字を異なるバイト数で表現可能な文字を、そのバイト数とともに登録されている全角/半角テーブル(文字−バイト対応テーブル)と、前記タイトル文字列のうち、該全角/半角テーブルに登録されている文字に対してより少ないバイト数の文字を前記文書名の文字列として選択する全角半角変換部(文字選択手段)33aと、を備えている。
したがって、同じ出力条件である表示領域に対してより多くの文字数の文書名を作成することができ、文書画像データの内容をより一層適切に表現する文書名を出力条件に応じて作成することができる。
なお、文書名の文字列は、文書名によって保管されている文書画像データを選択する上で、文書処理装置1で作成した文書名を出力する出力先装置において正確に出力される文字列である必要がある。
そこで、本実施例の文書処理装置1は、上記作成した文書名が出力先装置で出力不可能な文字であるときには、出力先装置の如何にかかわらず出力可能なASCIIコードのみからなる文字列に文書名を変換して出力する。
この場合、図8に示すように、文書名作成部(文書名作成手段)40は、図7に示した文書名作成部30に対して、文字列整形部41に、印刷可能ASCII限定部42を追加することで、文書名を、出力先装置の如何にかかわらず、出力可能なASCIIコードのみからなる文字列に文書名を変換して出力する。
すなわち、文書名作成部40は、図7の文書名作成部30と同様のタイトル候補入力部31、文書名文字列決定部32及び文書名文字列出力部34を、備えているとともに、文字列整形部41を備えており、文字列成形部41は、図7の文字列成形部33と同様の全角半角変換部33aとファイル名禁則適用部33bを備えているとともに、出力可能ASCII限定部41aを備えている。
出力可能ASCII限定部(文字列削除手段、文字列連結手段、文字置換手段)41aは、ASCIIコードテーブルを備えており、このASCIIコードテーブルには、例えば、ASCIIコードのうち、制御コードを除いた文字集合、具体的には、ASCII 32(10進数)である空白文字と、ASCII 33(10進数)〜126(10進数)の半角英数の数字、句読点及び記号のコードテーブルである。
出力可能ASCII限定部41aには、全角半角変換部33aで半角変換され、さらに、ファイル名禁則適用部33bで禁則処理された文書名文字列の文字コードと、文書名文字列が入力され、出力可能ASCII限定部41aは、該文書名文字列の文字コードに基づいてASCIIコードテーブルを参照して、ASCIIコードの存在する文書名文字列のみを文書名として採用して、ASCII文字以外の文字を削除する。
例えば、全角半角変換部33aが、半角に変換した上記SJIS文字列からなる文書名「1776年7月4日アメリカ独立宣言」に対して、出力可能ASCII限定部41aは、ASCIIコードのみを文書名に採用して、ASCIIコード以外を切り捨てて、「Q&A」「177674」を文書名とするとともに、出力可能(表示可能等)な文字数までASCII文字を連結して文書名とする。
そして、印字可能ASCIIコード文字は、世界中で使用される文字コードのうち、最も基本的で共通の集合であって、印字可能ASCIIコード文字のみで作成された文書名は、多く種類の装置で表示等の出力が可能である。
さらに、文書名として、ASCII文字のみを用いると、元々のタイトル文字列の一部だけしか使用しないため、文書内容の把握する効果は少なくなるが、日付連番文字列のように、文書内容とは無関係に機械的に作成される文書名よりも、文書内容を反映した文字列になる。
また、ドイツ語等におけるウムラウト等のアクセント記号付き文字を用いる言語においても印字可能ASCII文字に限定することで、当該アクセント付き記号文字の表示に対応していない装置での文書名の表示の出力における文字化けを防止することができる。
さらに、言語によっては、ASCIIコードにない文字をASCII文字によって代用文字が規定されている場合もあり、このような場合、出力可能ASCII限定部41aは、印字可能ASCII文字以外については、該文字を、削除するだけでなく、代用文字に置換可能な文字については、代用文字に置換して、連結する文字置換手段、文字連結手段として機能している。
例えば、ドイツ語の場合、アクセント記号付き文字は、以下のように、印字可能ASCII文字による代用が認められている。
エスツェット ss
アー・ウムラウト(小文字) ae
アー・ウムラウト(大文字) Ae
オー・ウムラウト(小文字) oe
オー・ウムラウト(大文字) Oe
ウー・ウムラウト(小文字) ue
ウー・ウムラウト(大文字) Ue
また、出力可能ASCII限定部41aは、代用文字が規定されていない場合であっても、印字可能ASCII文字以外の文字を削除する代わりに、適当なASCII文字、例えば、「_」等に置換する。
なお、上記説明においては、文書名作成に際して、文書画像データから取得したタイトル文字列のみから文書名を作成しているが、文書名の作成においては、タイトル文字列のみを用いる場合に限定されるものではなく、例えば、日付や所定の連番文字列をタイトル文字列に組み合わせて文書名としてもよい。
このように、本実施例の文書処理装置1は、その文書名作成部30が、同じ意味の文字を異なるバイト数で表現可能な文字を、そのバイト数とともに登録されている文字−バイト対応テーブルである全角/半角テーブルと、タイトル文字列のうち、該全角/半角テーブルに登録されている文字に対してより少ないバイト数の文字である半角文字を文書名の文字列として選択する全角半角変換部(文字選択手段)33aと、を備えている。
したがって、文書画像データの内容を表現する文書名を出力条件に応じて作成しつつ、文書名の文字数を増やして、文書画像データの内容を特徴的に表す文字列をより多く文書名として使用することができ、利用性をより一層向上させることができる。
また、本実施例の文書処理装置1は、その文書名作成部40が、タイトル文字列のうち、ASCII文字列以外の文字列を削除する文字列削除部(文字列削除手段)と、該文字列削除部によって削除されたタイトル文字列を前記設定文字数分まで連結した文字列を前記文書名として作成する文字列連結部(文字列連結手段)と、を有する出力可能ASCII限定部41aを備えている。
したがって、文書名を出力する出力先装置で文字化けや出力不能となることのないASCII文字列のみで文書名を作成することができ、文書名を出力する装置如何にかかわらず、文書名による文書画像データの選択を適切に行えるようにすることができる。
また、本実施例の文書処理装置1は、その文書名作成部40が、タイトル文字列のうち、ASCII文字以外の文字を所定のASCII文字に置換する文字置換部(文字置換手段と、タイトル文字列のASCII文字と該文字置換部によって置換されたASCII文字を連結した文字列を前記文書名として作成する文字列連結部(文字列連結手段)と、有する出力可能ASCII限定部41aを備えている。
したがって、ASCII文字以外の文字を削除することなく、特定のASCII文字に置換して、文書名を出力する出力先装置で文字化けや出力不能となることのないASCII文字列のみで文書名を作成することができ、文書名を出力する装置如何にかかわらず、文書名による文書画像データの選択をより一層適切に行えるようにすることができる。
以上、本発明者によってなされた発明を好適な実施例に基づき具体的に説明したが、本発明は上記実施例で説明したものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
1 文書処理装置
11 文書給紙部
12 文書読み取り部
13 OCR部
14 タイトル作成部
15 文書名作成部
16 文書蓄積部
20 コンピュータ装置
21 CPU
22 メモリ
23 通信部
24 表示部
25 ハードディスク
26 キーボード
27 CD−ROMドライブ
28 FDドライブ
29 バス
NW 通信回線
S1〜S3 装置
30 文書名作成部
31 タイトル候補入力部
32 文書名文字列決定部
33 文字列整形部
33a 全角半角変換部
33b ファイル名禁則適用部
34 文書名文字列出力部
40 文書名作成部
41 文字列整形部
41a 出力可能ASCII限定部
42 印刷可能ASCII限定部
特開2007−122403号公報 特開2002−297629号公報 特開2008−077454号公報

Claims (9)

  1. 文書画像データから文字情報を抽出する文字情報抽出手段と、
    前記文字情報抽出手段の抽出した前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出手段と、
    前記特徴文字列抽出手段の抽出した前記文書名候補文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成手段と、
    を備えていることを特徴とする文書処理装置。
  2. 前記文書名作成手段は、
    同じ意味の文字を異なるバイト数で表現可能な文字を、そのバイト数とともに登録されている文字−バイト対応テーブルと、
    前記文書名候補文字列のうち、前記文字−バイト対応テーブルに登録されている文字に対してより少ないバイト数の文字を前記文書名の文字列として選択する文字選択手段と、
    を備えていることを特徴とする請求項1記載の文書処理装置。
  3. 前記文書名作成手段は、
    前記特徴文字列抽出手段の抽出した複数の前記文書名候補文字列に対して前記文書画像データの内容を表現する顕著らしさを評価して順序付ける評価手段と、
    前記評価手段の評価順序に従って前記文書名候補文字列を前記設定文字数分まで連結した文字列を前記文書名として作成する文字列連結手段と、
    を備えていることを特徴とする請求項1または請求項2記載の文書処理装置。
  4. 前記文書名作成手段は、
    前記文書名候補文字列のうち、ASCII文字列以外の文字列を削除する文字列削除手段と、
    前記文字列削除手段によって削除された前記文書名候補文字列を前記設定文字数分まで連結した文字列を前記文書名として作成する文字列連結手段と、
    を備えていることを特徴とする請求項1から請求項3のいずれかに記載の文書処理装置。
  5. 前記文書名作成手段は、
    前記文書名候補文字列のうち、ASCII文字以外の文字を所定のASCII文字に置換する文字置換手段と、
    前記文書名候補文字列のASCII文字と前記文字置換手段によって置換されたASCII文字を連結した文字列を前記文書名として作成する文字列連結手段と、
    を備えていることを特徴とする請求項1から請求項3のいずれかに記載の文書処理装置。
  6. 前記特徴文字列抽出手段は、
    前記文書画像データが複数ページから構成されていると、ページ毎に該ページの文書画像データの特徴を表す文字列を抽出し、
    前記文書名作成手段は、
    前記特徴文字列抽出手段の抽出した前記文字列に対して文書名としての評価を行なう評価手段と、
    前記評価手段が評価した評価結果が所定の閾値を越える文字列が前記設定文字数分になるまで前記文書画像データの先頭ページから最終ページに向かって前記評価手段に評価させて、該閾値を超える該設定文字数分の文字列を前記文書名として作成する評価制御手段と、
    を備えていることを特徴とする文書処理装置。
  7. 文書画像データを取り込んで、該文書画像データに対して、文書処理部が、文書名を付与して保管し、該保管されている該文書画像データの該文書名を所定の表示手段に表示して、該表示手段へ表示している文書に対する出力要求に応じて該文書画像データの出力を行う画像処理装置において、
    前記文書処理部として、請求項1から請求項6のいずれかに記載の文書処理装置を搭載していることを特徴とする画像処理装置。
  8. 文書画像データから文字情報を抽出する文字情報抽出処理ステップと、
    前記文字情報抽出処理ステップで抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出処理ステップと、
    前記特徴文字列抽出処理ステップで抽出した前記文書名候補文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成処理ステップと、
    を有していることを特徴とする文書処理方法。
  9. コンピュータに、
    文書画像データから文字情報を抽出する文字情報抽出処理と、
    前記文字情報抽出処理で抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出処理と、
    前記特徴文字列抽出処理で抽出した前記文書名候補文字列から予め設定されている出力条件に適した文字列を文書名として作成する文書名作成処理と、
    を実行させることを特徴とする文書処理プログラム。
JP2012151256A 2012-07-05 2012-07-05 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム Pending JP2014013534A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012151256A JP2014013534A (ja) 2012-07-05 2012-07-05 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
US13/915,764 US20140013220A1 (en) 2012-07-05 2013-06-12 Document processing apparatus, image processing apparatus, document processing method, and medium
EP13172935.2A EP2682881A3 (en) 2012-07-05 2013-06-20 Document Processing Apparatus, Image Processing Apparatus, Document Processing Method, and Medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012151256A JP2014013534A (ja) 2012-07-05 2012-07-05 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム

Publications (1)

Publication Number Publication Date
JP2014013534A true JP2014013534A (ja) 2014-01-23

Family

ID=48793869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012151256A Pending JP2014013534A (ja) 2012-07-05 2012-07-05 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム

Country Status (3)

Country Link
US (1) US20140013220A1 (ja)
EP (1) EP2682881A3 (ja)
JP (1) JP2014013534A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016165059A (ja) * 2015-03-06 2016-09-08 シャープ株式会社 画像処理装置
JP2018190063A (ja) * 2017-04-28 2018-11-29 京セラドキュメントソリューションズ株式会社 情報処理装置
JP2020133470A (ja) * 2019-02-18 2020-08-31 株式会社東芝 車室半体の上下反転方法、それに用いる回転シャフトブラケット及び反転用架台

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6051827B2 (ja) * 2012-12-07 2016-12-27 株式会社リコー 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
US9400833B2 (en) * 2013-11-15 2016-07-26 Citrix Systems, Inc. Generating electronic summaries of online meetings
US9342561B2 (en) * 2014-01-08 2016-05-17 International Business Machines Corporation Creating and using titles in untitled documents to answer questions
CN103870939B (zh) * 2014-04-01 2017-08-29 北京中电普华信息技术有限公司 一种对象名称生成方法及系统
US9542136B2 (en) 2015-03-19 2017-01-10 Ricoh Company, Ltd. Communication control system, communication control apparatus, and communication control method
AU2017320475B2 (en) 2016-09-02 2022-02-10 FutureVault Inc. Automated document filing and processing methods and systems
US10289963B2 (en) * 2017-02-27 2019-05-14 International Business Machines Corporation Unified text analytics annotator development life cycle combining rule-based and machine learning based techniques
JP2024010503A (ja) * 2022-07-12 2024-01-24 京セラドキュメントソリューションズ株式会社 画像読取装置及び画像形成装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08289057A (ja) * 1995-04-17 1996-11-01 Brother Ind Ltd ファクシミリ装置
US20020143804A1 (en) * 2001-04-02 2002-10-03 Dowdy Jacklyn M. Electronic filer
JP2003016076A (ja) * 2001-06-28 2003-01-17 Ricoh Co Ltd 文書画像からのタイトル抽出方法
JP2005202714A (ja) * 2004-01-16 2005-07-28 Giken Shoji International Co Ltd 文書検索システム
JP2006211261A (ja) * 2005-01-27 2006-08-10 Kyocera Mita Corp 画像読取り装置および画像読取りプログラム
US20080170786A1 (en) * 2007-01-17 2008-07-17 Kabushiki Kaisha Toshiba Image processing system, image processing method, and image processing program
JP2008176764A (ja) * 2007-01-17 2008-07-31 Toshiba Corp 画像処理システム、画像処理方法、画像処理プログラム
JP2009027648A (ja) * 2007-07-23 2009-02-05 Murata Mach Ltd 画像処理装置
JP2010113735A (ja) * 2010-01-21 2010-05-20 Omron Corp データ名決定装置
JP2010238159A (ja) * 2009-03-31 2010-10-21 Hitachi Software Eng Co Ltd 認識パラメータチューニング方法
JP2011155548A (ja) * 2010-01-28 2011-08-11 Kyocera Mita Corp ファイル作成装置、ファイル作成プログラム、及びファイル作成方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
AU2782799A (en) * 1998-02-24 1999-09-06 Gateway 2000, Inc. Software management system
US7099507B2 (en) * 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
US20020078069A1 (en) * 2000-12-15 2002-06-20 International Business Machines Corporation Automatic file name/attribute generator for object oriented desktop shells
JP2004070523A (ja) * 2002-08-02 2004-03-04 Canon Inc 情報処理装置およびその方法
GB0327694D0 (en) * 2003-11-28 2003-12-31 Ibm A system for distributed communications
JP2007122403A (ja) * 2005-10-28 2007-05-17 Fuji Xerox Co Ltd 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
US8583419B2 (en) * 2007-04-02 2013-11-12 Syed Yasin Latent metonymical analysis and indexing (LMAI)

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08289057A (ja) * 1995-04-17 1996-11-01 Brother Ind Ltd ファクシミリ装置
US20020143804A1 (en) * 2001-04-02 2002-10-03 Dowdy Jacklyn M. Electronic filer
JP2003016076A (ja) * 2001-06-28 2003-01-17 Ricoh Co Ltd 文書画像からのタイトル抽出方法
JP2005202714A (ja) * 2004-01-16 2005-07-28 Giken Shoji International Co Ltd 文書検索システム
JP2006211261A (ja) * 2005-01-27 2006-08-10 Kyocera Mita Corp 画像読取り装置および画像読取りプログラム
US20080170786A1 (en) * 2007-01-17 2008-07-17 Kabushiki Kaisha Toshiba Image processing system, image processing method, and image processing program
JP2008176764A (ja) * 2007-01-17 2008-07-31 Toshiba Corp 画像処理システム、画像処理方法、画像処理プログラム
JP2009027648A (ja) * 2007-07-23 2009-02-05 Murata Mach Ltd 画像処理装置
JP2010238159A (ja) * 2009-03-31 2010-10-21 Hitachi Software Eng Co Ltd 認識パラメータチューニング方法
JP2010113735A (ja) * 2010-01-21 2010-05-20 Omron Corp データ名決定装置
JP2011155548A (ja) * 2010-01-28 2011-08-11 Kyocera Mita Corp ファイル作成装置、ファイル作成プログラム、及びファイル作成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016165059A (ja) * 2015-03-06 2016-09-08 シャープ株式会社 画像処理装置
JP2018190063A (ja) * 2017-04-28 2018-11-29 京セラドキュメントソリューションズ株式会社 情報処理装置
JP2020133470A (ja) * 2019-02-18 2020-08-31 株式会社東芝 車室半体の上下反転方法、それに用いる回転シャフトブラケット及び反転用架台
JP7129357B2 (ja) 2019-02-18 2022-09-01 株式会社東芝 車室半体の上下反転方法、それに用いる回転シャフトブラケット及び反転用架台

Also Published As

Publication number Publication date
US20140013220A1 (en) 2014-01-09
EP2682881A2 (en) 2014-01-08
EP2682881A3 (en) 2016-10-26

Similar Documents

Publication Publication Date Title
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
JP6051827B2 (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
RU2437152C2 (ru) Устройство обработки изображений, способ и компьютерная программа обработки изображений
EP2779613B1 (en) Document processing apparatus, document processing method, and document processing computer program product
CN101458699B (zh) 图像处理装置和图像处理方法
JP2006059075A (ja) 文書処理装置およびプログラム
US20060062492A1 (en) Document processing device, document processing method, and storage medium recording program therefor
JP4934124B2 (ja) 画像形成装置
JP4991407B2 (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
US8634112B2 (en) Document processing apparatus for generating an electronic document
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
US7505903B2 (en) Speech recognition dictionary creation method and speech recognition dictionary creating device
JP2012015896A (ja) 画像処理装置
JP2020204905A (ja) 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP2007011683A (ja) 文書管理支援装置
CN112905733A (zh) 一种基于ocr识别技术的图书保存方法、系统及装置
JP2006276904A (ja) ファックス装置
JP2010170525A (ja) 付加画像処理システム、画像形成装置及び付加画像追加方法
JP2017091024A (ja) 入力支援装置
JP2005267057A (ja) テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム
JP2007323317A (ja) 変換装置、変換方法及びプログラム
JP2006004050A (ja) 画像処理装置、画像読み取り装置およびプログラム
KR100544375B1 (ko) 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체
JP2004287992A (ja) 文書情報処理装置並びにプログラム
CN116167340A (zh) 一种文档处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150616

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160301

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160906