JP2005208687A

JP2005208687A - 多言語文書処理装置及びプログラム

Info

Publication number: JP2005208687A
Application number: JP2004011217A
Authority: JP
Inventors: Yasuhiro Ii; 泰洋伊井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2004-01-19
Filing date: 2004-01-19
Publication date: 2005-08-04

Abstract

【課題】複数言語文書の文字領域の利用性をよくする。
【解決手段】多言語文書処理装置は、同一ページに複数言語の文章等が記載された文書を読取り（S1）、領域識別を行い（S2）、図領域か否か判断する（S3）。図領域のときは言語識別の対象外とし（S4）、図領域でないときは、表領域か否かを判断する（S5）。表領域のときは、文字領域を抽出する（S6）。表領域でないときは、文字領域と判断して言語識別を行い（S7）、文字領域毎にＯＣＲ処理してコード化文字を取得する（S8）。本処理装置には言語コードセットが備えられており、コード化文字のフォント表示が可能なときは、コード化文字をフォント表示する（S13）。言語コードセットが備えられておらず、コード化文字のフォント表示が不可能なときは、表示不可のマーキングを行い（S11）、取得領域のイメージ文字とフォント表示不可を表示する（S12）。
【選択図】図２

Description

本発明は、文書のページ毎に文字領域を抽出し抽出した文字領域毎に言語属性を取得する多言語文書処理装置及びプログラム関する。

近年、商品説明を英語、フランス語、ドイツ語、イタリア語の４言語で記載した化粧品の説明書、ライセンス条件を日本語、中国語、英語、ロシア語等の言語で記載した電気製品の保証書など同一ページに複数言語で記載した文書が多く使用されている。この文書の記載領域毎に特別に言語知識がない者でも言語の種別を判別できるようにしたいことがある。

従来、複数言語の文書から所定言語の文書を検索できるようにした多言語文書処理装置においては、複数の言語の文字を含む多言語文書データの言語を識別する手段と、多言語文書データに関する索引を言語別に作成する手段と、索引を言語毎に格納する手段と、言語毎の索引を使用して多言語文書データの検索を行う手段とを備えることにより、多言語文書に関する情報を言語毎に区別して管理し、各言語の情報を検索できるようにしている（特許文献１参照）。又、文書画像の日本語英語判定方法においては、画像入力手段で入力した文書画像を画像縮小手段で縮小し、連結成分抽出手段で黒画素連結成分を抽出する。抽出した黒画素連結成分を領域生成手段で統合して文字領域を生成し、この文字領域について日英判別手段で連結成分の長さを基に成分を分類し、分類結果の集計値から日本語領域及び英語領域を判別している（特許文献２参照）。
特開2000-67368号公報特開平11-191135号公報

しかしながら特許文献１に記載の発明は、検索の最初から特定の言語の文書を検索することを目的としているため検索結果の文書に何語の文書であるか判別できるようにする必要がないものであり、また、特許文献２に記載の発明は、日本語領域と英語領域の判別を可能にしているが2カ国語間の判別であるため、判別した結果の領域部分に日本語又は英語の表示をすることは行われていない。上述のように同一ページに複数言語で記載した文書が多く使用される状況下において、所定言語の記載部分について当該部分を電子的に切出し、或いはコピーして加工処理するような場合、当該部分の言語種別が簡単に判別できない、従って当該部分の利用性が悪いという事情がある。

本発明は、このような事情に鑑みてなされたものであり、その第1の目的は、複数言語文書の文字領域の利用性を良くすることであり、また第2の目的は、その文書領域が電子加工処理に利用可能か否かを判別できるようにすることである。

請求項１の発明は、文書のページ毎に文字領域を抽出し抽出した文字領域毎に言語属性を取得する多言語文書処理装置において、抽出した文字領域の文字を当該言語属性の言語でコード化する手段と、前記文字領域のコード化された文字及び該文字の言語属性を表示する手段と、を備えたことを特徴とする多言語文書処理装置である。
請求項２の発明は、請求項１記載の多言語文書処理装置において、前記文字領域のコード化された文字及び該文字の言語属性を表示する手段は、抽出した文字領域の文字のコード化が不可能なとき、その旨を表示する表示手段を更に有することを特徴とする多言語文書処理装置である。
請求項３の発明は、請求項１又は２記載の多言語文書処理装置において、前記抽出した文字領域の文字を所定の言語属性の言語に翻訳する手段を備え、前記前記文字領域のコード化された文字及び該文字の言語属性を表示する手段は、翻訳した文字の言語属性を表示することを特徴とする多言語文書処理装置である。
請求項４の発明は、多言語文書処理装置のコンピュータを、文書のページ毎に文字領域を抽出する手段、抽出した文字領域毎に言語属性を取得する手段、抽出した文字領域の文字を当該言語属性の言語でコード化する手段、前記文字領域のコード化された文字及び該文字の言語属性を表示する手段、として機能させるためのプログラムである。

本発明によれば、文字領域の文字がコード化された文字か否かの表示と共に言語種別が表示されるので、複数言語文書の文字領域の利用性が良くなる。また、汎用の多言語文書処理装置を、複数言語文書の文字領域の利用性が良くなる多言語文書処理装置として機能させることができる。

以下、本発明の実施形態を図面を参照して説明する。
本発明の実施形態では、言語識別された各言語について、コード化可能な言語はコード化された言語を、コード化不可能な言語は言語識別された言語をそのまま、それぞれ識別された言語属性と共に表示する。

図１は、本発明が実施される文書管理システム（多言語処理装置）のブロック構成図である。図１において、文書管理エンジン１はデータベース機能を有し、スキャナで読み取られたイメージファイル及び文書作成、表計算ソフトで作成されたアプリケーションファイルをページ単位の文書画像データとして作成し不図示の画像メモリに格納して管理、登録、検索する。

領域識別モジュール２は、ページを領域に分割し、文字領域、表領域、画像領域の識別を行う。表領域については罫線除去機能により罫線除去を行い、文字領域として抽出する。これらの領域識別や表領域から文字領域を抽出する技術は公知の技術を使用することができる。

言語識別モジュール３は、文字領域内或いは表領域から抽出した文字領域に対して文字認識（OCR）処理を行い、OCR処理結果の確信度から最も近いと思われる言語属性を判定する。

ＯＣＲモジュール４は、文字領域内の文字データを言語辞書データと比較し、文字コードを出力する。言語辞書データは、各言語の辞書データを有し、辞書データを指定すればより正確な文字認識が可能になる。認識結果には確信度と呼ばれる付加情報を出力する。確信度が高いほど文字データとの正確な整合が図られたことになり精度の高い文字コードを出力することができる。

表示制御モジュール５は文字領域毎の言語について、コード化可能な言語はコード化された言語を、コード化不可能な言語は取得した文字領域の言語をそのまま、それぞれの言語属性と共に表示する。

翻訳モジュール６は文字領域毎の言語をユーザーが指定した言語に翻訳する。

図２は、本発明の実施形態に係る言語識別された各言語をそれぞれその属性と共に表示する処理のフロー図である。フロー図を参照して処理手順を説明する。
同一ページに複数言語の文章等が記載された文書をスキャナで読み取り（S1）、領域識別を行い（S2）、まずその領域が図領域か否か判断する（S3）。図領域のときは言語識別の対象外とし（S4）、図領域でないときは、更に表領域か否かを判断する（S5）。表領域のときは、表の罫線を除去処理して文字領域を抽出する（S6）。表領域でないときは、文字領域と判断して言語識別を行い、前記表の文字領域についても言語識別を行い（S7）、文字領域毎にＯＣＲ処理して言語情報（コード化文字）を取得する（S8）。

続いて言語情報をフォント表示するためＯＳの言語コードセットの取得を試み（S10）、コード化文字のフォント表示が可能か否かを判断する（S10）。

コード化文字を表示するにはフォントを表示しなけらばならないので、フォントの有無による表示の制約を受ける。これは言語毎に異なるコードセット（文字コード体系）によるもので、日本語ではShift-JIS、中国語ではBig5、欧州言語ではLatin1、Latin2等、言語毎に異ったコードセットを持つためである。ある２バイト文字コードが日本語ＯＳ上でと、中国語ＯＳ上でとで同じように表示されない。また１バイト文字コードでもアルファベットは各国共通であるがドイツ語のウムラウトのような文字はポーランド語のようなLatin2コードセットの言語ＯＳでは別の文字が表示されるという問題がある。意図する文字とは別の文字が表示されることを防止するために、コンピュータが扱える言語コードセットが存在するか調べて表示できない文字があることをユーザーに通知する必要がある。

言語コードセットが備えられており、コード化文字のフォント表示が可能なときは、コード化文字をフォント表示する（S13）。言語コードセットが備えられておらず、コード化文字のフォント表示が不可能なときは、表示不可のマーキングを行い（S11）、取得領域のイメージ文字とフォント表示不可を表示する（S12）。

図３は、取得領域の文字情報と文字情報の言語属性を表示する画面の例を示す図である。図３において、１１は文字領域のコード化された文字、11aはこのコード化された文字が日本語であることを示す表示であり、１２は１１と同じコード化された文字、12aはこのコード化された文字が英語であることを示す表示である。１３は文字領域に斜線が付与されることによりコード化されていない、つまりスキャナで読取られたイメージ文字であることを示し、13aはこのこの文字が中国語であることとフォント表示が不可能であることを示す。１４は文字の記載が省略されているが表領域の表示であり、14aはこの領域の文字が英語であることを示す。１５は言語識別対象外の画像領域を示す。

以上述べた取得領域の文字情報と文字情報の言語属性を表示する処理を実行させるために、前記処理手順を汎用のプログラム言語によりコンピュータプログラムとして記述し、かつ、このプログラムをフレキシブルディスク、CD−ROM、DVD-ROM、MO等の任意の記録媒体に記録し、これを読取らせることで本発明に係る表示処理を容易に実施することができる。本プログラムは、記録媒体に記録する以外に、インターネット、イントラネット等の任意のネットワークを介して、多言語文書処理装置のコンピュータに直接読取らせることも可能である。

本実施形態に係る多言語文書処理装置は、翻訳モジュールにより文字領域の文章を自動翻訳する。ユーザーは不図示のメニュー表示から自動翻訳をクリックし、図3の文字領域の自動翻訳したい文字領域、例えば日本語領域をマウス操作の囲み処理により選択する。すると画面上の言語情報変更のダイアログが表示される。

図４は言語情報変更のダイアログの表示例を示す。前記囲み処理により選択した日本語領域をフランス語に翻訳したいときは、フランス語をチェックし（図４の黒印）、実行をチェックすることにより日本語をフランス語に変更することができる。

前記図２により説明した文字領域の表示を文字コードにより表示することなくイメージ表示のまま言語属性と共に表示することもできる。
図５は、文字領域をイメージ表示する処理のフロー図である。図５を参照して説明すると、同一ページに複数言語の文章等が記載された文書をスキャナで読み取り（S21）、領域識別を行い（S22）、まずその領域が図領域か否か判断する（S23）。図領域のときは言語識別の対象外とし（S24）、図領域でないときは、更に表領域か否かを判断する（S25）。表領域のときは、表の罫線を除去処理して文字領域を抽出する（S26）。表領域でないときは、文字領域と判断して言語識別を行い、前記表の文字領域についても言語識別を行う（S27）。そして文字領域毎に言語情報（イメージ情報）を言語識別により得られた言語属性と共に表示する（28）。

図6は、取得領域の文字情報と文字情報の言語属性を表示する画面の例を示す図である。図６において、２１は文字領域の取得された文字、21aはこの取得された文字が日本語であることを示す表示であり、２２は２１と同じ取得化された文字、22aはこの取得された文字が英語であることを示す表示である。２３は文字領域の取得された文字を示し、23aはこのこの文字が中国語であることを表示する。２４は文字の記載が省略されているが表領域の表示であり、24aはこの領域の文字が英語であることを示す。２５は言語識別対象外の画像領域を示す。

上述の実施形態では、同一ページに複数言語の文章等が記載された文書をスキャナで読み取りＯＣＲ処理を行い、或いはＯＣＲ処理行うことなく言語属性と共に表示する例を述べているが、本実施形態では、多言語文書処理装置の公知の検索機能により文書検索を行い、検索文書に言語種別（言語属性）を表示する。

図７は、検索文書の一覧画面の例を示す図である。この画面は検索結果のヒットした文書の一覧を示す。この画面は、文書の属性を表示してユーザーに文書の判別を容易にするものであり、文書属性には、文書名、登録者、登録日等がある。これらの文書属性のほかに言語の属性情報を言語種別として付加する。そして例えば文書名欄の特許出願届出書には言語種別欄にそれが日本語で記載されていることを示す日本語を表示する。また文書名欄のＯＣＲ操作マニュアル翻訳には言語種別欄にそれが複数の言語で作成されていることを示す混在を表示する。

本多言語文書処理装置は、複数言語の文書から所定言語の記載部分を切出して加工処理するような場合の本多言語文書処理装置として有用である。

本発明が実施される文書管理システム（多言語処理装置）のブロック構成図である。本発明の実施形態に係る言語識別された各言語をそれぞれその属性と共に表示する処理のフロー図である。取得領域の文字情報と文字情報の言語属性を表示する画面の例を示す図である。言語情報変更のダイアログの表示例を示す図である。文字領域をイメージ表示する処理のフロー図である。取得領域の文字情報と文字情報の言語属性を表示する画面の例を示す図である。検索文書の一覧画面の例を示す図である。

符号の説明

１・・文書管理エンジン、２・・領域識別モジュール、３・・言語識別モジュール、４・・ＯＣＲモジュール、５・・表示制御モジュール、６・・翻訳モジュール

Claims

文書のページ毎に文字領域を抽出し抽出した文字領域毎に言語属性を取得する多言語文書処理装置において、
抽出した文字領域の文字を当該言語属性の言語でコード化する手段と、
前記文字領域のコード化された文字及び該文字の言語属性を表示する手段と、
を備えたことを特徴とする多言語文書処理装置。
請求項１記載の多言語文書処理装置において、前記文字領域のコード化された文字及び該文字の言語属性を表示する手段は、抽出した文字領域の文字のコード化が不可能なとき、その旨を表示する表示手段を更に有することを特徴とする多言語文書処理装置。
請求項１又は２記載の多言語文書処理装置において、前記抽出した文字領域の文字を所定の言語属性の言語に翻訳する手段を備え、前記前記文字領域のコード化された文字及び該文字の言語属性を表示する手段は、翻訳した文字の言語属性を表示することを特徴とする多言語文書処理装置。
多言語文書処理装置のコンピュータを、
文書のページ毎に文字領域を抽出する手段、
抽出した文字領域毎に言語属性を取得する手段、
抽出した文字領域の文字を当該言語属性の言語でコード化する手段、
前記文字領域のコード化された文字及び該文字の言語属性を表示させる手段、
として機能させるためのプログラム。