JP2006277104A - Image reading device, extraction method for dictionary registration object word/phrase and program - Google Patents
Image reading device, extraction method for dictionary registration object word/phrase and program Download PDFInfo
- Publication number
- JP2006277104A JP2006277104A JP2005092626A JP2005092626A JP2006277104A JP 2006277104 A JP2006277104 A JP 2006277104A JP 2005092626 A JP2005092626 A JP 2005092626A JP 2005092626 A JP2005092626 A JP 2005092626A JP 2006277104 A JP2006277104 A JP 2006277104A
- Authority
- JP
- Japan
- Prior art keywords
- information
- image
- character string
- layout
- small area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Abstract
Description
本発明は、文書から単語・熟語を抽出して辞書を生成・更新する技術に関する。 The present invention relates to a technique for generating and updating a dictionary by extracting words and idioms from a document.
近年のグローバルな情報流通、経済活動など、国境を越えた活動の広がりにより、ある言語(例えば、英語)から別の言語(例えば、日本語)への翻訳の需要が高まっている。しかし、翻訳を業者(翻訳者)に依頼すると、一般に価格が高く、また時間もかかるため、コンピュータなどの機械を用いて自動的に翻訳する自動翻訳(機械翻訳)装置の需要が高まっている。 With the spread of activities across borders such as global information distribution and economic activities in recent years, the demand for translation from one language (for example, English) to another language (for example, Japanese) is increasing. However, when a translation is requested from a trader (translator), the price is generally high and it takes time. Therefore, the demand for an automatic translation (machine translation) apparatus that automatically translates using a machine such as a computer is increasing.
文章中に存在する企業名、個人名、製品名などの固有名詞や、特定の技術分野の専門用語を正確に翻訳するためには、固有名詞辞書や専門用語辞書といった専用の辞書が使用されるのが一般的である。これらの辞書は人間の手により作成されることが多い。また、特に固有名詞など情報が常に更新されるものに対しては、辞書の更新(メンテナンス)が必要であるが、これも人間の手により行われるのが一般的であった。 Dedicated dictionaries such as proper noun dictionaries and technical term dictionaries are used to accurately translate proper nouns such as company names, personal names, and product names in the text, as well as technical terms in specific technical fields. It is common. These dictionaries are often created by human hands. Also, especially for information that is constantly updated, such as proper nouns, it is necessary to update the dictionary (maintenance), but this is also generally done manually.
ところで、会社情報が記載された本や、各企業が所有するある種の帳票など、情報が所定のレイアウトに従って配置された文書が存在する場合がある。このような文書から情報を抽出し、辞書の更新に活用できれば便利である。このように所定のレイアウトを有する書類から情報を抽出する技術として、特許文献1に記載の技術がある。特許文献1は、申込書のレイアウトに基づき、配送伝票作成に必要な情報を取得し、伝票の作成あるいは顧客データベースの更新を行う技術が開示されている。
しかし、特許文献1に記載の技術によれば、文書から単語を抽出することはできても、付加的な属性情報の抽出を行うことは困難であるという問題があった。
本発明は上述の事情に鑑みてなされたものであり、文書から単語に加え、付加的な属性情報を抽出することができる画像読み取り装置を提供することを目的とする。
However, according to the technique described in
The present invention has been made in view of the above circumstances, and an object thereof is to provide an image reading apparatus that can extract additional attribute information in addition to words from a document.
上述の課題を解決するため、本発明は、原稿の画像を読み取り、入力画像データを生成する画像読み取り手段と、前記画像読み取り手段により生成された入力画像データに対しレイアウト解析処理を行い、レイアウト情報を生成するレイアウト解析手段と、前記レイアウト解析手段により生成されたレイアウト情報に基づいて、前記入力画像データを複数の小領域に分割する画像分割手段と、前記複数の小領域のうち、見出し文字列または見出し画像を有する小領域を特定する第1の識別子およびその見出し文字列または見出し画像と、情報文字列または情報画像を有する小領域を特定する第2の識別子およびその情報文字列および情報画像とを対応付けて記憶したレイアウトデータベースと、前記レイアウトデータベースに記憶された第1の識別子で特定される小領域から登録対象語句を、前記レイアウトデータベースに記憶された第2の識別子で特定される小領域からその辞書登録対象語句の属性情報を抽出する情報抽出手段と、前記情報抽出手段により抽出された辞書登録対象語句を出力する出力手段とを有する画像読み取り装置を提供する。
この画像読み取り装置によれば、文書から、その文書のレイアウトに基づいて自動的に辞書の更新に必要な情報(登録対象語句およびその属性情報)が出力される。
In order to solve the above problems, the present invention provides an image reading unit that reads an image of a document and generates input image data, a layout analysis process for the input image data generated by the image reading unit, and layout information Layout analyzing means for generating the image, image dividing means for dividing the input image data into a plurality of small areas based on the layout information generated by the layout analyzing means, and a heading character string among the plurality of small areas Alternatively, a first identifier that identifies a small area having a heading image and its heading character string or heading image, and a second identifier that identifies a small area having an information character string or information image, and its information character string and information image And a layout database stored in association with each other and a first stored in the layout database Information extracting means for extracting a registration target phrase from a small area specified by an identifier, and attribute information of the dictionary registration target phrase from a small area specified by a second identifier stored in the layout database; and the information extraction An image reading apparatus having output means for outputting a dictionary registration target phrase extracted by the means is provided.
According to this image reading apparatus, information (registration target words and their attribute information) necessary for automatically updating a dictionary is automatically output from a document based on the layout of the document.
好ましい態様において、この画像読み取り装置は、見出し文字列または見出し画像と、情報文字列または情報画像との定義を記憶した定義記憶手段と、前記定義記憶手段に記憶された定義に従って、前記複数の小領域のうち、見出し文字列または見出し画像を有する小領域と、情報文字列または情報画像を有する小領域とを特定する小領域特定手段と、前記小領域特定手段により特定された小領域の情報に基づいて、前記レイアウトデータベースの内容を更新するデータベース更新手段とをさらに有してもよい。
この画像読み取り装置によれば、レイアウトデータベースが自動的に更新されるので、処理対象文書のレイアウトに応じたレイアウトデータベースを自動的に作成することができる。
In a preferred aspect, the image reading apparatus includes a definition storage unit that stores definitions of a heading character string or heading image, an information character string or an information image, and the plurality of small subordinates according to the definitions stored in the definition storage unit. Among the regions, small region specifying means for specifying a small region having a heading character string or a heading image, and a small region having an information character string or an information image, and information on the small region specified by the small region specifying unit And a database updating means for updating the contents of the layout database.
According to this image reading apparatus, since the layout database is automatically updated, a layout database corresponding to the layout of the document to be processed can be automatically created.
また、本発明は、原稿の画像を読み取り、入力画像データを生成する画像読み取りステップと、前記入力画像データに対しレイアウト解析処理を行い、レイアウト情報を生成するレイアウト解析ステップと、前記レイアウト情報に基づいて、前記入力画像データを複数の小領域に分割する画像分割ステップと、前記複数の小領域のうち、見出し文字列または見出し画像を有する小領域を特定する第1の識別子およびその見出し文字列または見出し画像と、情報文字列または情報画像を有する小領域を特定する第2の識別子およびその情報文字列および情報画像とを対応付けて記憶したレイアウトデータベースに記憶された第1の識別子で特定される小領域から登録対象語句を、前記レイアウトデータベースに記憶された第2の識別子で特定される小領域からその辞書登録対象語句の属性情報を抽出する情報抽出ステップと、前記情報抽出ステップにおいて抽出された辞書登録対象語句を出力する出力ステップとを有する辞書登録対象語句の抽出方法を提供する。
また、本発明は、コンピュータ装置に上述の辞書登録対象語句の抽出方法を実行させるプログラムを提供する。
Further, the present invention provides an image reading step for reading an image of a document and generating input image data, a layout analysis step for performing layout analysis processing on the input image data to generate layout information, and the layout information. An image dividing step of dividing the input image data into a plurality of small areas, and a first identifier for identifying a small area having a heading character string or a heading image and the heading character string or It is specified by the first identifier stored in the layout database that stores the header image, the information character string or the small identifier having the information image, and the information identifier and the information image stored in association with each other. The registration target word / phrase is specified from the small area by the second identifier stored in the layout database. There is provided a method for extracting a dictionary registration target phrase including an information extraction step of extracting attribute information of the dictionary registration target phrase from a small area and an output step of outputting the dictionary registration target phrase extracted in the information extraction step. .
The present invention also provides a program for causing a computer device to execute the above-described dictionary registration target phrase extraction method.
以下、図面を参照して本発明の一実施形態について説明する。
図1は、本発明の一実施形態に係る辞書更新システム1の機能構成を示すブロック図である。画像読み取り部10は、文書DOCの画像を読み取り、入力画像データを生成する。レイアウト解析部20は、画像データのレイアウト解析を行い、レイアウト情報を抽出する。領域分割部30は、レイアウト情報に基づいて入力画像データを小領域の画像データに分割する。また、領域分割部30は、レイアウトデータベースの情報に基づいて小領域のうち、属性情報に対応するものと、辞書登録対象語句に対応するものとを抽出する。属性情報抽出部40は、属性情報に対応すると特定された小領域から属性情報を抽出する。登録対象語句抽出部60は、辞書登録対象語句に対応すると特定された小領域から辞書登録対象語句を抽出する。辞書データ登録部50は、抽出された辞書登録対象語句および属性情報を辞書DICに登録する。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a functional configuration of a
図2は、辞書更新システム1の構成を示す図である。辞書更新システム1は、複合機100と、サーバ200とから構成される。複合機100とサーバ200とは、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等のネットワーク300を介して接続されている。図2においては図面が煩雑となるのを避けるため複合機100およびサーバ200はそれぞれ1台ずつしか図示していないが、辞書更新システム1は、複数台の複合機100あるいは複数台のサーバ200を含んでもよい。
FIG. 2 is a diagram illustrating a configuration of the
図3は、複合機100のハードウェア構成を示す図である。複合機100は主に、CPU(Central Processing Unit)110等からなる制御系、原稿の画像を読み取る画像読み取り系160、用紙(記録材)上に画像形成を行う画像形成系170から構成される。CPU110は、記憶部120に記憶されている制御プログラムを読み出して実行することにより、複合機100の各構成要素を制御する機能を有する。記憶部120は、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)等から構成され、制御プログラムや翻訳プログラム等の各種プログラムおよび、画像データやテキストデータ等の各種データを記憶する。表示部130および操作部140は、ユーザインターフェースである。表示部130は、例えば液晶ディスプレイで構成され、CPU110からの制御信号に従ってユーザへのメッセージや作業状況を示す画像などを表示する。操作部140は、テンキー、スタートボタン、ストップボタン、液晶ディスプレイ上に設置されたタッチパネル等で構成され、ユーザの操作入力およびその時の表示画面に応じた信号を出力する。ユーザは表示部130に表示された画像やメッセージを見ながら操作部140を操作することにより、複合機100に対して指示入力を行うことができる。
FIG. 3 is a diagram illustrating a hardware configuration of the multifunction peripheral 100. The multifunction peripheral 100 mainly includes a control system including a CPU (Central Processing Unit) 110 and the like, an
I/F150は、他の装置との間で制御信号やデータの送受信を行うためのインターフェースである。I/F150を介して、例えば公衆電話回線に接続することにより、複合機100はFAXの送受信を行うことができる。あるいは、I/F150を介してインターネット等のネットワークに接続することにより、複合機100は電子メールメッセージの送受信を行うこともできる。あるいは、ネットワークを介して接続されたコンピュータ装置から画像データを受信し、用紙に画像形成を行うことでプリンタとして機能する。
The I / F 150 is an interface for transmitting and receiving control signals and data to and from other devices. By connecting to a public telephone line, for example, via the I /
画像読み取り系160は、原稿を読み取り位置まで搬送する原稿搬送部161と、読み取り位置にある原稿を光学的に読み取りアナログ画像信号を生成する画像読み取り部162と、アナログ画像信号をデジタル画像データに変換し、必要な画像処理を行う画像処理部163とを有する。原稿搬送部161は、例えばADF(Automatic Document Feeder)等の原稿搬送装置である。画像読み取り部162は、原稿を載置するプラテンガラス、光源やCCD(Charge Coupled Device)センサ等の光デバイス、レンズやミラー等の光学系を有する(いずれも図示略)。画像処理部163は、デジタル/アナログ変換を行うA/D変換回路や、シェーディング補正や色空間変換等の処理を行う画像処理回路を有する(いずれも図示略)。
The
画像形成系170は、用紙を画像形成位置まで搬送する用紙搬送部171と、搬送された用紙上に画像形成を行う画像形成部172とを有する。用紙搬送部171は、用紙を収納する用紙トレイ、用紙トレイから用紙を1枚ずつ所定の位置まで搬送する搬送ローラ等を有する(いずれも図示略)。画像形成部172は、例えばYMCK各色のトナー像が作像される感光体ドラム、感光体ドラムを帯電させる帯電器、帯電した感光体ドラムに静電画像を形成する露光装置、感光体ドラムにYMCK各色のトナー像を形成する現像器等を有する(いずれも図示略)。
The
以上の各構成要素は、バス190で相互に接続されている。例えば、画像読み取り系160で原稿から画像データを生成し、生成した画像データに従って画像形成系170で用紙上に画像形成を行うと、複合機100は複写機として機能する。画像読み取り系160で原稿から画像データを生成し、生成した画像データをI/F150を介して他の装置に出力すると、複合機100はスキャナとして機能する。I/F150を介して受信した画像データに従って、画像形成系170で用紙上に画像形成を行うと、複合機100はプリンタとして機能する。画像読み取り系160で原稿からFAXデータを生成し、生成したFAXデータをI/F150および公衆電話回線を介してFAX受信装置に送信すると、複合機100はFAX送信機として機能する。あるいは、画像読み取り系160で原稿から画像データを生成し、さらに、文字認識処理により画像データからテキストデータを生成し、翻訳プログラムを実行することによりテキストデータの翻訳文を生成すると、複合機100はスキャン翻訳機として機能する。なお、図示は省略したが、複合機100には、I/F150を介して複数のコンピュータ装置が接続されている。これらの複数のコンピュータ装置のユーザは、自分のコンピュータ装置を介して複合機100との間でデータを送受信することにより、複合機100をプリンタ、FAX送受信機等として使用することができる。あるいは、複合機100に直接原稿をセットすることにより、複合機100を複写機、FAX送受信機等として使用することができる。
The above components are connected to each other by a
図4は、サーバ200のハードウェア構成を示す図である。CPU210は、RAM230を作業エリアとして、ROM220あるいはHDD250に記憶されているプログラムを実行する。HDD250は、各種プログラムやデータを記憶する記憶装置である。ユーザは、キーボード260、マウス270を操作することにより、サーバ200に対してデータ入力等を行うことができる。サーバ200はI/F240を介して複合機100に接続されており、複合機100とデータの送受信を行うことができる。ディスプレイ280は、CPU210の制御下でプログラムの実行結果等を示す画像やメッセージを表示する。これらの構成要素はバス290で相互に接続されている。HDD250は、翻訳プログラムおよび辞書DICを記憶しており、翻訳を行う機能を有する翻訳サーバである。
FIG. 4 is a diagram illustrating a hardware configuration of the
図5は、辞書更新システム1の動作を示すフローチャートである。電源(図示略)を投入すると、複合機100のCPU110は、記憶部120から制御プログラムを読み出して実行する。制御プログラムを実行すると、CPU110は表示部130を制御してメニュー画面を表示させる。このとき、複合機100はユーザの操作入力待ち状態となる。同様にサーバ200においても、電源(図示略)を投入すると、CPU210はHDD250から制御プログラムを読み出して実行する。制御プログラムを実行すると、CPU210はデータの受信待ち状態となる。複合機100のCPU110およびサーバ200のCPU210が制御プログラムを実行することにより、辞書更新システム1は図1に示される各機能を具備する。
FIG. 5 is a flowchart showing the operation of the
図6は、本実施形態において辞書更新処理の際に使用される文書DOCを例示する図である。文書DOCは、例えば会社案内であり、会社名、業種、本社所在地、URL、証券コード等の各種情報が所定のレイアウトに従って配置されている。文書DOCは、例えば罫線によって複数の小領域に区分されている。各章領域には、その小領域に記載されている情報の種類を特定する文字列(以下、「見出し文字列」という。例えば、[業種]、[会社名]、[本社]、[URL]、[証券コード]等)と、情報の内容(以下、「情報文字列」という。例えば、製造業、ABC工業株式会社、100−0000東京都xx区yy1−1、http://www.xxx.yyy.co.jp/、0000)とが記載されている。 FIG. 6 is a diagram illustrating a document DOC used in dictionary update processing in the present embodiment. The document DOC is, for example, company information, and various information such as a company name, a business type, a head office location, a URL, and a securities code are arranged according to a predetermined layout. The document DOC is divided into a plurality of small areas by ruled lines, for example. In each chapter area, a character string (hereinafter referred to as “headline character string”) that specifies the type of information described in the small area. For example, [business type], [company name], [head office], [URL] , [Securities code], etc.) and information content (hereinafter referred to as "information character string". For example, manufacturing industry, ABC Industrial Co., Ltd., 100-0000 Tokyo xx ward yy1-1, http://www.xxx .yyy.co.jp /, 0000).
再び図5を参照して説明する。ユーザは、文書DOCをADFあるいはプラテンガラスにセットし、サーバ200のキーボード260およびマウス270を操作して、辞書更新処理の実行を指示する操作入力を行う。辞書更新処理の実行指示は、複合機100を特定する情報を含んでいる。辞書更新処理の実行が指示されると、サーバ200のCPU210は、辞書更新処理の実行指示により特定される複合機100に対し、画像の読み取りを指示する信号を出力する。
A description will be given with reference to FIG. 5 again. The user sets the document DOC on the ADF or the platen glass, and operates the
画像の読み取りを指示する信号を受け取ると、複合機100のCPU110は、画像読み取り系160を制御して文書DOCの画像を読み取り、入力画像データを生成させる(ステップS110)。CPU110は、生成した入力画像データを記憶部120に記憶する。文書DOCが複数ページからなる場合には、複数ページの画像データをそれぞれ、ページ番号を示す情報を付加して記憶部120に記憶する。
Upon receiving a signal for instructing image reading, the
次に、CPU110は、入力画像データに対し周知のレイアウト解析処理を行い、レイアウト情報を抽出する(ステップS120)。レイアウト解析処理により、入力画像データは、複数の小領域に分割される。レイアウト情報は、例えば、各小領域の2次元直交座標系における小領域の頂点の座標、各小領域における文字サイズ等の情報を含んでいる。CPU110は、抽出したレイアウト情報を記憶部120に記憶する。
Next, the
次に、CPU110は、レイアウト情報に基づいて入力画像データを複数の小領域の画像データに分割する(ステップS130)。小領域には、他の小領域と区別するための識別子が与えられる。CPU110は、小領域の画像データとレイアウト情報と識別子とを対応付けて記憶部120に記憶する。
Next, the
次に、CPU110は、各小領域から見出し文字列を検索する(ステップS140)。この処理は次のように行われる。まず、CPU110は、小領域の画像データの各々に文字認識処理を行い、テキストデータを生成する。CPU110は、生成したテキストデータを記憶部120に記憶する。CPU110は、各小領域のテキストデータから見出し文字列を検索する。検索対象となる見出し文字列は、辞書更新処理の指示を入力する際にユーザが入力してもよいし、記憶部120あるいはHDD250に検索対象となる見出し文字列を定義するデータベース、テーブル、関数等をあらかじめ記憶しておいてもよい。ここでは、検索対象の見出し文字列として“[会社名]”、“[業種]”という文字列が定義されている。
Next, the
次に、CPU110は、レイアウトデータベースの更新を行う(ステップS150)。すなわち、CPU110は、検索により発見した見出し文字列と、その文字列が発見された小領域を特定する識別子と、その見出し文字列が辞書登録対象語句(例えば、固有名詞や専門用語)に対応するか属性情報に対応するか示すフラグとを対応付けて、レイアウトデータベースとして記憶部120に記憶する。見出し文字列と、その見出し文字列が辞書登録対象語句に対応するか属性情報に対応するかという関係の定義は、辞書更新処理の指示を入力する際にユーザが入力してもよいし、記憶部120あるいはHDD250にこの関係を定義するデータベース、テーブル、関数等をあらかじめ記憶しておいてもよい。ここでは、[会社名]=辞書登録対象語句、[業種]=属性情報という関係が定義されている。
Next, the
次に、CPU110は、辞書登録対象語句情報および属性情報の抽出を行う(ステップS160)。CPU110は、レイアウトデータベースを参照して辞書登録対象語句に対応する小領域のテキストデータから辞書登録対象語句を、属性情報に対応する小領域から属性情報を抽出する。CPU110は、抽出した辞書登録対象語句と属性情報とを対応付けて記憶部120に記憶する。次に、CPU110は、文書DOCの全ページについて辞書登録対象語句情報および属性情報の抽出が完了したか判断する(ステップS170)。全ページについて処理が完了していない場合(ステップS170:NO)、CPU110は、全頁について処理が完了するまでステップS160〜S170の処理を繰り返し実行する。
Next, the
全ページについて処理が完了した場合(ステップS170:YES)、CPU110は、辞書の更新を行う(ステップS180)。すなわち、CPU110は、記憶部120に記憶された辞書登録対象語句および属性情報を、辞書更新処理の実行指示の送信元であるサーバ200に送信する。サーバ200のCPU210は、受信した情報をHDD250に記憶された辞書DICに追加する。HDD250に辞書DICが記憶されていない場合、CPU210は、受信した情報を基に新たに辞書DICを生成する。
When processing has been completed for all pages (step S170: YES), the
図7は、辞書DICの内容を例示する図である。この例では、辞書登録対象語句として「日本語社名」が、その属性情報として「英語社名」および「業種」が記録されている例が示されている。このように、本実施形態によれば、辞書登録対象語句とその属性情報とが対応付けられた辞書を自動的に作成、更新することができる。 FIG. 7 is a diagram illustrating the contents of the dictionary DIC. In this example, “Japanese company name” is recorded as a dictionary registration target phrase, and “English company name” and “business type” are recorded as attribute information thereof. Thus, according to the present embodiment, a dictionary in which dictionary registration target words and their attribute information are associated can be automatically created and updated.
<変形例>
本発明は上述の実施形態に限定されるものではなく、種々の変形実施が可能である。
上述の実施形態においては、小領域から見出し文字列および情報文字列を検索する態様について説明したが、文字列の代わりに一定のパターンを有する画像(バーコードやカルラコード等、一定のルールに基づいて作成された図形)を検索する態様としてもよい。すなわち、見出し文字列および情報文字列の代わりに見出し図形および情報図形を用いてもよい。
<Modification>
The present invention is not limited to the above-described embodiment, and various modifications can be made.
In the above-described embodiment, the mode of searching for a heading character string and an information character string from a small area has been described. It is also possible to search for graphics created in this manner. That is, a heading graphic and an information graphic may be used instead of the heading character string and the information character string.
上述の実施形態においては、サーバ200が辞書の更新指示を出力し、複合機100が辞書の更新に必要な情報を抽出し、サーバ200にその情報を送信する態様について説明した。しかし、複合機100とサーバ200との機能の分担は上述の実施形態で説明したものに限定されない。上述の実施形態で複合機100の機能として説明したものの一部または全部をサーバ200に実行させてもよい。逆に、上述の実施形態でサーバ200の機能として説明したものの一部または全部を複合機100に実行させてもよい。例えば、複合機100が上述の実施形態で説明した辞書更新システム1のすべての機能を有していてもよい。これは、複合機100自身が翻訳プログラムおよび辞書を記憶部120に記憶し、翻訳機としての機能を有する場合に有効である。
In the above-described embodiment, a mode has been described in which the
また、上述の実施形態においては、複合機100が上述の各機能を有する態様について説明したが、複合機の代わりに、画像形成機能を有しないスキャナ等の画像読み取り装置を用いてもよい。 In the above-described embodiments, the aspect in which the multifunction peripheral 100 has the above-described functions has been described. However, instead of the multifunction peripheral, an image reading device such as a scanner having no image forming function may be used.
また、上述の実施形態においては、複合機100が自動的にレイアウトデータベースの更新を行う態様について説明したが、複合機100は自動的にレイアウトデータベースの更新を行わなくてもよい。すなわち、レイアウトデータベースはあらかじめ決められており不変のものであってもよい。あるいは、ユーザが辞書更新処理の実行を指示する際にレイアウトデータベースを入力することとしてもよい。
In the above-described embodiment, the aspect in which the
1…辞書更新システム、10…画像読み取り部、20…レイアウト解析部、30…領域分割部、40…属性情報抽出部、50…辞書データ登録部、60…登録対象語句抽出部、100…複合機、110…CPU、120…記憶部、130…表示部、140…操作部、150…I/F、160…画像読み取り系、161…原稿搬送部、162…画像読み取り部、163…画像処理部、170…画像形成系、171…用紙搬送部、172…画像形成部、190…バス、200…サーバ、210…CPU、220…ROM、230…RAM、240…I/F、250…HDD、260…キーボード、270…マウス、280…ディスプレイ、290…バス、300…ネットワーク
DESCRIPTION OF
Claims (4)
前記画像読み取り手段により生成された入力画像データに対しレイアウト解析処理を行い、レイアウト情報を生成するレイアウト解析手段と、
前記レイアウト解析手段により生成されたレイアウト情報に基づいて、前記入力画像データを複数の小領域に分割する画像分割手段と、
前記複数の小領域のうち、見出し文字列または見出し画像を有する小領域を特定する第1の識別子およびその見出し文字列または見出し画像と、情報文字列または情報画像を有する小領域を特定する第2の識別子およびその情報文字列および情報画像とを対応付けて記憶したレイアウトデータベースと、
前記レイアウトデータベースに記憶された第1の識別子で特定される小領域から登録対象語句を、前記レイアウトデータベースに記憶された第2の識別子で特定される小領域からその辞書登録対象語句の属性情報を抽出する情報抽出手段と、
前記情報抽出手段により抽出された辞書登録対象語句を出力する出力手段と
を有する画像読み取り装置。 Image reading means for reading an image of a document and generating input image data;
Layout analysis means for performing layout analysis processing on the input image data generated by the image reading means and generating layout information;
Image dividing means for dividing the input image data into a plurality of small regions based on layout information generated by the layout analyzing means;
Among the plurality of small areas, a first identifier for identifying a small area having a heading character string or a heading image and a second area for identifying the small area having the heading character string or heading image and an information character string or information image A layout database that stores the identifiers and their information character strings and information images in association with each other;
The registration target word / phrase from the small area specified by the first identifier stored in the layout database, and the attribute information of the dictionary registration target word / phrase from the small area specified by the second identifier stored in the layout database. Information extracting means for extracting;
An image reading apparatus comprising: output means for outputting a dictionary registration target phrase extracted by the information extraction means.
前記定義記憶手段に記憶された定義に従って、前記複数の小領域のうち、見出し文字列または見出し画像を有する小領域と、情報文字列または情報画像を有する小領域とを特定する小領域特定手段と、
前記小領域特定手段により特定された小領域の情報に基づいて、前記レイアウトデータベースの内容を更新するデータベース更新手段と
をさらに有する請求項1に記載の画像読み取り装置。 Definition storage means for storing definitions of a heading character string or heading image and an information character string or information image;
A small area specifying means for specifying a small area having a heading character string or a heading image and a small area having an information character string or an information image among the plurality of small areas according to the definition stored in the definition storage means; ,
The image reading apparatus according to claim 1, further comprising database update means for updating contents of the layout database based on information on the small area specified by the small area specifying means.
前記入力画像データに対しレイアウト解析処理を行い、レイアウト情報を生成するレイアウト解析ステップと、
前記レイアウト情報に基づいて、前記入力画像データを複数の小領域に分割する画像分割ステップと、
前記複数の小領域のうち、見出し文字列または見出し画像を有する小領域を特定する第1の識別子およびその見出し文字列または見出し画像と、情報文字列または情報画像を有する小領域を特定する第2の識別子およびその情報文字列および情報画像とを対応付けて記憶したレイアウトデータベースに記憶された第1の識別子で特定される小領域から登録対象語句を、前記レイアウトデータベースに記憶された第2の識別子で特定される小領域からその辞書登録対象語句の属性情報を抽出する情報抽出ステップと、
前記情報抽出ステップにおいて抽出された辞書登録対象語句を出力する出力ステップと
を有する辞書登録対象語句の抽出方法。 An image reading step for reading an image of a document and generating input image data;
A layout analysis step of performing layout analysis processing on the input image data and generating layout information;
An image dividing step of dividing the input image data into a plurality of small regions based on the layout information;
Among the plurality of small areas, a first identifier for identifying a small area having a heading character string or a heading image and a second area for identifying the small area having the heading character string or heading image and an information character string or information image And the second identifier stored in the layout database from the small area specified by the first identifier stored in the layout database that stores the identifier and its information character string and information image in association with each other. An information extraction step of extracting attribute information of the dictionary registration target phrase from the small area specified by
A dictionary registration target word / phrase extraction method comprising: an output step of outputting the dictionary registration target word / phrase extracted in the information extraction step.
原稿の画像を読み取り、入力画像データを生成する画像読み取りステップと、
前記入力画像データに対しレイアウト解析処理を行い、レイアウト情報を生成するレイアウト解析ステップと、
前記レイアウト情報に基づいて、前記入力画像データを複数の小領域に分割する画像分割ステップと、
前記複数の小領域のうち、見出し文字列または見出し画像を有する小領域を特定する第1の識別子およびその見出し文字列または見出し画像と、情報文字列または情報画像を有する小領域を特定する第2の識別子およびその情報文字列および情報画像とを対応付けて記憶したレイアウトデータベースに記憶された第1の識別子で特定される小領域から登録対象語句を、前記レイアウトデータベースに記憶された第2の識別子で特定される小領域からその辞書登録対象語句の属性情報を抽出する情報抽出ステップと、
前記情報抽出ステップにおいて抽出された辞書登録対象語句を出力する出力ステップと
を実行させるプログラム。 Computer equipment,
An image reading step for reading an image of a document and generating input image data;
A layout analysis step of performing layout analysis processing on the input image data and generating layout information;
An image dividing step of dividing the input image data into a plurality of small regions based on the layout information;
Among the plurality of small areas, a first identifier for identifying a small area having a heading character string or a heading image and a second area for identifying the small area having the heading character string or heading image and an information character string or information image And the second identifier stored in the layout database from the small area specified by the first identifier stored in the layout database that stores the identifier and its information character string and information image in association with each other. An information extraction step of extracting attribute information of the dictionary registration target phrase from the small area specified by
An output step of outputting the dictionary registration target phrase extracted in the information extraction step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005092626A JP2006277104A (en) | 2005-03-28 | 2005-03-28 | Image reading device, extraction method for dictionary registration object word/phrase and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005092626A JP2006277104A (en) | 2005-03-28 | 2005-03-28 | Image reading device, extraction method for dictionary registration object word/phrase and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006277104A true JP2006277104A (en) | 2006-10-12 |
Family
ID=37211831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005092626A Pending JP2006277104A (en) | 2005-03-28 | 2005-03-28 | Image reading device, extraction method for dictionary registration object word/phrase and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006277104A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014120032A (en) * | 2012-12-18 | 2014-06-30 | Fujitsu Ltd | Character recognition device, character recognition method and character recognition program |
-
2005
- 2005-03-28 JP JP2005092626A patent/JP2006277104A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014120032A (en) * | 2012-12-18 | 2014-06-30 | Fujitsu Ltd | Character recognition device, character recognition method and character recognition program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7797150B2 (en) | Translation system using a translation database, translation using a translation database, method using a translation database, and program for translation using a translation database | |
JP4438656B2 (en) | Image processing apparatus, image processing system, and program | |
JP2006350551A (en) | Document conversion device, document conversion method, document conversion system, document processor and information processor | |
US10992831B2 (en) | Information processing system for setting dependency relationships for input items on a screen related to a process flow | |
US10810383B2 (en) | Image processing apparatus for comparing documents in different languages | |
CN1881955A (en) | Data processing apparatus connectable to network, and control method therefor | |
JP2020024303A (en) | Image processing apparatus and method for controlling the same, and program | |
US20140344747A1 (en) | Input device and image processing apparatus | |
JP2007280223A (en) | Image forming apparatus and image processing method | |
JP2006261821A (en) | Image forming apparatus and image apparatus | |
US10902223B2 (en) | Image processing apparatus | |
JP6601143B2 (en) | Printing device | |
JP2006277104A (en) | Image reading device, extraction method for dictionary registration object word/phrase and program | |
US11475213B2 (en) | Information processing apparatus and image forming apparatus that add modification history to modified source image, according to modification made | |
JP5173566B2 (en) | Image processing apparatus, control method therefor, and program | |
JP2018005427A (en) | Electronic equipment | |
US11769494B2 (en) | Information processing apparatus and destination search method | |
US11743400B2 (en) | Electronic apparatus that causes display device to display information corresponding to keyword and interrogative in inputted character string for questioning a location, and image forming apparatus | |
US11928171B2 (en) | Providing shortened URL and information related contents corresponding to original URL | |
JP2018136659A (en) | Electronic apparatus, display language control method, and display language control program | |
US20160147483A1 (en) | Image processing system, image forming apparatus, and image processing method | |
JP6702047B2 (en) | Translation device, translation system and program | |
US20050179945A1 (en) | System and method for variable text overlay | |
JP2006172178A (en) | Program, image forming apparatus, and image forming method | |
JP2022131466A (en) | Information processing apparatus and information processing program |