JP2005208687A - 多言語文書処理装置及びプログラム - Google Patents

多言語文書処理装置及びプログラム Download PDF

Info

Publication number
JP2005208687A
JP2005208687A JP2004011217A JP2004011217A JP2005208687A JP 2005208687 A JP2005208687 A JP 2005208687A JP 2004011217 A JP2004011217 A JP 2004011217A JP 2004011217 A JP2004011217 A JP 2004011217A JP 2005208687 A JP2005208687 A JP 2005208687A
Authority
JP
Japan
Prior art keywords
language
character
region
area
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004011217A
Other languages
English (en)
Inventor
Yasuhiro Ii
泰洋 伊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004011217A priority Critical patent/JP2005208687A/ja
Publication of JP2005208687A publication Critical patent/JP2005208687A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 複数言語文書の文字領域の利用性をよくする。
【解決手段】 多言語文書処理装置は、同一ページに複数言語の文章等が記載された文書を読取り(S1)、領域識別を行い(S2)、図領域か否か判断する(S3)。図領域のときは言語識別の対象外とし(S4)、図領域でないときは、表領域か否かを判断する(S5)。表領域のときは、文字領域を抽出する(S6)。表領域でないときは、文字領域と判断して言語識別を行い(S7)、文字領域毎にOCR処理してコード化文字を取得する(S8)。本処理装置には言語コードセットが備えられており、コード化文字のフォント表示が可能なときは、コード化文字をフォント表示する(S13)。言語コードセットが備えられておらず、コード化文字のフォント表示が不可能なときは、表示不可のマーキングを行い(S11)、取得領域のイメージ文字とフォント表示不可を表示する(S12)。
【選択図】 図2

Description

本発明は、文書のページ毎に文字領域を抽出し抽出した文字領域毎に言語属性を取得する多言語文書処理装置及びプログラム関する。
近年、商品説明を英語、フランス語、ドイツ語、イタリア語の4言語で記載した化粧品の説明書、ライセンス条件を日本語、中国語、英語、ロシア語等の言語で記載した電気製品の保証書など同一ページに複数言語で記載した文書が多く使用されている。この文書の記載領域毎に特別に言語知識がない者でも言語の種別を判別できるようにしたいことがある。
従来、複数言語の文書から所定言語の文書を検索できるようにした多言語文書処理装置においては、複数の言語の文字を含む多言語文書データの言語を識別する手段と、多言語文書データに関する索引を言語別に作成する手段と、索引を言語毎に格納する手段と、言語毎の索引を使用して多言語文書データの検索を行う手段とを備えることにより、多言語文書に関する情報を言語毎に区別して管理し、各言語の情報を検索できるようにしている(特許文献1参照)。又、文書画像の日本語英語判定方法においては、画像入力手段で入力した文書画像を画像縮小手段で縮小し、連結成分抽出手段で黒画素連結成分を抽出する。抽出した黒画素連結成分を領域生成手段で統合して文字領域を生成し、この文字領域について日英判別手段で連結成分の長さを基に成分を分類し、分類結果の集計値から日本語領域及び英語領域を判別している(特許文献2参照)。
特開2000-67368号公報 特開平11-191135号公報
しかしながら特許文献1に記載の発明は、検索の最初から特定の言語の文書を検索することを目的としているため検索結果の文書に何語の文書であるか判別できるようにする必要がないものであり、また、特許文献2に記載の発明は、日本語領域と英語領域の判別を可能にしているが2カ国語間の判別であるため、判別した結果の領域部分に日本語又は英語の表示をすることは行われていない。上述のように同一ページに複数言語で記載した文書が多く使用される状況下において、所定言語の記載部分について当該部分を電子的に切出し、或いはコピーして加工処理するような場合、当該部分の言語種別が簡単に判別できない、従って当該部分の利用性が悪いという事情がある。
本発明は、このような事情に鑑みてなされたものであり、その第1の目的は、複数言語文書の文字領域の利用性を良くすることであり、また第2の目的は、その文書領域が電子加工処理に利用可能か否かを判別できるようにすることである。
請求項1の発明は、文書のページ毎に文字領域を抽出し抽出した文字領域毎に言語属性を取得する多言語文書処理装置において、抽出した文字領域の文字を当該言語属性の言語でコード化する手段と、前記文字領域のコード化された文字及び該文字の言語属性を表示する手段と、を備えたことを特徴とする多言語文書処理装置である。
請求項2の発明は、請求項1記載の多言語文書処理装置において、前記文字領域のコード化された文字及び該文字の言語属性を表示する手段は、抽出した文字領域の文字のコード化が不可能なとき、その旨を表示する表示手段を更に有することを特徴とする多言語文書処理装置である。
請求項3の発明は、請求項1又は2記載の多言語文書処理装置において、前記抽出した文字領域の文字を所定の言語属性の言語に翻訳する手段を備え、前記前記文字領域のコード化された文字及び該文字の言語属性を表示する手段は、翻訳した文字の言語属性を表示することを特徴とする多言語文書処理装置である。
請求項4の発明は、多言語文書処理装置のコンピュータを、文書のページ毎に文字領域を抽出する手段、抽出した文字領域毎に言語属性を取得する手段、抽出した文字領域の文字を当該言語属性の言語でコード化する手段、前記文字領域のコード化された文字及び該文字の言語属性を表示する手段、として機能させるためのプログラムである。
本発明によれば、文字領域の文字がコード化された文字か否かの表示と共に言語種別が表示されるので、複数言語文書の文字領域の利用性が良くなる。また、汎用の多言語文書処理装置を、複数言語文書の文字領域の利用性が良くなる多言語文書処理装置として機能させることができる。
以下、本発明の実施形態を図面を参照して説明する。
本発明の実施形態では、言語識別された各言語について、コード化可能な言語はコード化された言語を、コード化不可能な言語は言語識別された言語をそのまま、それぞれ識別された言語属性と共に表示する。
図1は、本発明が実施される文書管理システム(多言語処理装置)のブロック構成図である。図1において、文書管理エンジン1はデータベース機能を有し、スキャナで読み取られたイメージファイル及び文書作成、表計算ソフトで作成されたアプリケーションファイルをページ単位の文書画像データとして作成し不図示の画像メモリに格納して管理、登録、検索する。
領域識別モジュール2は、ページを領域に分割し、文字領域、表領域、画像領域の識別を行う。表領域については罫線除去機能により罫線除去を行い、文字領域として抽出する。これらの領域識別や表領域から文字領域を抽出する技術は公知の技術を使用することができる。
言語識別モジュール3は、文字領域内或いは表領域から抽出した文字領域に対して文字認識(OCR)処理を行い、OCR処理結果の確信度から最も近いと思われる言語属性を判定する。
OCRモジュール4は、文字領域内の文字データを言語辞書データと比較し、文字コードを出力する。言語辞書データは、各言語の辞書データを有し、辞書データを指定すればより正確な文字認識が可能になる。認識結果には確信度と呼ばれる付加情報を出力する。確信度が高いほど文字データとの正確な整合が図られたことになり精度の高い文字コードを出力することができる。
表示制御モジュール5は文字領域毎の言語について、コード化可能な言語はコード化された言語を、コード化不可能な言語は取得した文字領域の言語をそのまま、それぞれの言語属性と共に表示する。
翻訳モジュール6は文字領域毎の言語をユーザーが指定した言語に翻訳する。
図2は、本発明の実施形態に係る言語識別された各言語をそれぞれその属性と共に表示する処理のフロー図である。フロー図を参照して処理手順を説明する。
同一ページに複数言語の文章等が記載された文書をスキャナで読み取り(S1)、領域識別を行い(S2)、まずその領域が図領域か否か判断する(S3)。図領域のときは言語識別の対象外とし(S4)、図領域でないときは、更に表領域か否かを判断する(S5)。表領域のときは、表の罫線を除去処理して文字領域を抽出する(S6)。表領域でないときは、文字領域と判断して言語識別を行い、前記表の文字領域についても言語識別を行い(S7)、文字領域毎にOCR処理して言語情報(コード化文字)を取得する(S8)。
続いて言語情報をフォント表示するためOSの言語コードセットの取得を試み(S10)、コード化文字のフォント表示が可能か否かを判断する(S10)。
コード化文字を表示するにはフォントを表示しなけらばならないので、フォントの有無による表示の制約を受ける。これは言語毎に異なるコードセット(文字コード体系)によるもので、日本語ではShift-JIS、中国語ではBig5、欧州言語ではLatin1、Latin2等、言語毎に異ったコードセットを持つためである。ある2バイト文字コードが日本語OS上でと、中国語OS上でとで同じように表示されない。また1バイト文字コードでもアルファベットは各国共通であるがドイツ語のウムラウトのような文字はポーランド語のようなLatin2コードセットの言語OSでは別の文字が表示されるという問題がある。意図する文字とは別の文字が表示されることを防止するために、コンピュータが扱える言語コードセットが存在するか調べて表示できない文字があることをユーザーに通知する必要がある。
言語コードセットが備えられており、コード化文字のフォント表示が可能なときは、コード化文字をフォント表示する(S13)。言語コードセットが備えられておらず、コード化文字のフォント表示が不可能なときは、表示不可のマーキングを行い(S11)、取得領域のイメージ文字とフォント表示不可を表示する(S12)。
図3は、取得領域の文字情報と文字情報の言語属性を表示する画面の例を示す図である。図3において、11は文字領域のコード化された文字、11aはこのコード化された文字が日本語であることを示す表示であり、12は11と同じコード化された文字、12aはこのコード化された文字が英語であることを示す表示である。13は文字領域に斜線が付与されることによりコード化されていない、つまりスキャナで読取られたイメージ文字であることを示し、13aはこのこの文字が中国語であることとフォント表示が不可能であることを示す。14は文字の記載が省略されているが表領域の表示であり、14aはこの領域の文字が英語であることを示す。15は言語識別対象外の画像領域を示す。
以上述べた取得領域の文字情報と文字情報の言語属性を表示する処理を実行させるために、前記処理手順を汎用のプログラム言語によりコンピュータプログラムとして記述し、かつ、このプログラムをフレキシブルディスク、CD−ROM、DVD-ROM、MO等の任意の記録媒体に記録し、これを読取らせることで本発明に係る表示処理を容易に実施することができる。本プログラムは、記録媒体に記録する以外に、インターネット、イントラネット等の任意のネットワークを介して、多言語文書処理装置のコンピュータに直接読取らせることも可能である。
本実施形態に係る多言語文書処理装置は、翻訳モジュールにより文字領域の文章を自動翻訳する。ユーザーは不図示のメニュー表示から自動翻訳をクリックし、図3の文字領域の自動翻訳したい文字領域、例えば日本語領域をマウス操作の囲み処理により選択する。すると画面上の言語情報変更のダイアログが表示される。
図4は言語情報変更のダイアログの表示例を示す。前記囲み処理により選択した日本語領域をフランス語に翻訳したいときは、フランス語をチェックし(図4の黒印)、実行をチェックすることにより日本語をフランス語に変更することができる。
前記図2により説明した文字領域の表示を文字コードにより表示することなくイメージ表示のまま言語属性と共に表示することもできる。
図5は、文字領域をイメージ表示する処理のフロー図である。図5を参照して説明すると、同一ページに複数言語の文章等が記載された文書をスキャナで読み取り(S21)、領域識別を行い(S22)、まずその領域が図領域か否か判断する(S23)。図領域のときは言語識別の対象外とし(S24)、図領域でないときは、更に表領域か否かを判断する(S25)。表領域のときは、表の罫線を除去処理して文字領域を抽出する(S26)。表領域でないときは、文字領域と判断して言語識別を行い、前記表の文字領域についても言語識別を行う(S27)。そして文字領域毎に言語情報(イメージ情報)を言語識別により得られた言語属性と共に表示する(28)。
図6は、取得領域の文字情報と文字情報の言語属性を表示する画面の例を示す図である。図6において、21は文字領域の取得された文字、21aはこの取得された文字が日本語であることを示す表示であり、22は21と同じ取得化された文字、22aはこの取得された文字が英語であることを示す表示である。23は文字領域の取得された文字を示し、23aはこのこの文字が中国語であることを表示する。24は文字の記載が省略されているが表領域の表示であり、24aはこの領域の文字が英語であることを示す。25は言語識別対象外の画像領域を示す。
上述の実施形態では、同一ページに複数言語の文章等が記載された文書をスキャナで読み取りOCR処理を行い、或いはOCR処理行うことなく言語属性と共に表示する例を述べているが、本実施形態では、多言語文書処理装置の公知の検索機能により文書検索を行い、検索文書に言語種別(言語属性)を表示する。
図7は、検索文書の一覧画面の例を示す図である。この画面は検索結果のヒットした文書の一覧を示す。この画面は、文書の属性を表示してユーザーに文書の判別を容易にするものであり、文書属性には、文書名、登録者、登録日等がある。これらの文書属性のほかに言語の属性情報を言語種別として付加する。そして例えば文書名欄の特許出願届出書には言語種別欄にそれが日本語で記載されていることを示す日本語を表示する。また文書名欄のOCR操作マニュアル翻訳には言語種別欄にそれが複数の言語で作成されていることを示す混在を表示する。
本多言語文書処理装置は、複数言語の文書から所定言語の記載部分を切出して加工処理するような場合の本多言語文書処理装置として有用である。
本発明が実施される文書管理システム(多言語処理装置)のブロック構成図である。 本発明の実施形態に係る言語識別された各言語をそれぞれその属性と共に表示する処理のフロー図である。 取得領域の文字情報と文字情報の言語属性を表示する画面の例を示す図である。 言語情報変更のダイアログの表示例を示す図である。 文字領域をイメージ表示する処理のフロー図である。 取得領域の文字情報と文字情報の言語属性を表示する画面の例を示す図である。 検索文書の一覧画面の例を示す図である。
符号の説明
1・・文書管理エンジン、2・・領域識別モジュール、3・・言語識別モジュール、4・・OCRモジュール、5・・表示制御モジュール、6・・翻訳モジュール

Claims (4)

  1. 文書のページ毎に文字領域を抽出し抽出した文字領域毎に言語属性を取得する多言語文書処理装置において、
    抽出した文字領域の文字を当該言語属性の言語でコード化する手段と、
    前記文字領域のコード化された文字及び該文字の言語属性を表示する手段と、
    を備えたことを特徴とする多言語文書処理装置。
  2. 請求項1記載の多言語文書処理装置において、前記文字領域のコード化された文字及び該文字の言語属性を表示する手段は、抽出した文字領域の文字のコード化が不可能なとき、その旨を表示する表示手段を更に有することを特徴とする多言語文書処理装置。
  3. 請求項1又は2記載の多言語文書処理装置において、前記抽出した文字領域の文字を所定の言語属性の言語に翻訳する手段を備え、前記前記文字領域のコード化された文字及び該文字の言語属性を表示する手段は、翻訳した文字の言語属性を表示することを特徴とする多言語文書処理装置。
  4. 多言語文書処理装置のコンピュータを、
    文書のページ毎に文字領域を抽出する手段、
    抽出した文字領域毎に言語属性を取得する手段、
    抽出した文字領域の文字を当該言語属性の言語でコード化する手段、
    前記文字領域のコード化された文字及び該文字の言語属性を表示させる手段、
    として機能させるためのプログラム。
JP2004011217A 2004-01-19 2004-01-19 多言語文書処理装置及びプログラム Pending JP2005208687A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004011217A JP2005208687A (ja) 2004-01-19 2004-01-19 多言語文書処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004011217A JP2005208687A (ja) 2004-01-19 2004-01-19 多言語文書処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2005208687A true JP2005208687A (ja) 2005-08-04

Family

ID=34897971

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004011217A Pending JP2005208687A (ja) 2004-01-19 2004-01-19 多言語文書処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2005208687A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522067A (zh) * 2011-10-19 2012-06-27 长安大学 基于ra8870控制器的液晶模块自定义符号和图形的显示方法
US20140035928A1 (en) * 2012-07-31 2014-02-06 Mitsuru Ohgake Image display apparatus
JP2019079347A (ja) * 2017-10-25 2019-05-23 ネットスマイル株式会社 文字種推定システム、文字種推定方法、および文字種推定プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522067A (zh) * 2011-10-19 2012-06-27 长安大学 基于ra8870控制器的液晶模块自定义符号和图形的显示方法
US20140035928A1 (en) * 2012-07-31 2014-02-06 Mitsuru Ohgake Image display apparatus
JP2019079347A (ja) * 2017-10-25 2019-05-23 ネットスマイル株式会社 文字種推定システム、文字種推定方法、および文字種推定プログラム

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
US20040268243A1 (en) Document processing apparatus and document processing method
JP2004348591A (ja) 文書検索方法及び装置
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP2005135041A (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP2006065477A (ja) 文字認識装置
JP2005107931A (ja) 画像検索装置
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JP3711636B2 (ja) 情報検索装置および方法
JP2005208687A (ja) 多言語文書処理装置及びプログラム
CN106250354B (zh) 处理文书的信息处理装置、信息处理方法以及程序
JPH0696288A (ja) 文字認識装置及び機械翻訳装置
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2001101197A (ja) 電子文書の付加情報検索方法およびシステム
JP4294386B2 (ja) 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体
JP2023047133A (ja) 情報処理装置、情報処理システム、及びプログラム
JP2002245470A (ja) 言語特定装置及び翻訳装置及び言語特定方法