JP2002108854A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JP2002108854A
JP2002108854A JP2000300428A JP2000300428A JP2002108854A JP 2002108854 A JP2002108854 A JP 2002108854A JP 2000300428 A JP2000300428 A JP 2000300428A JP 2000300428 A JP2000300428 A JP 2000300428A JP 2002108854 A JP2002108854 A JP 2002108854A
Authority
JP
Japan
Prior art keywords
language type
character
text data
document processing
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000300428A
Other languages
English (en)
Inventor
Noriyuki Osuga
典之 大須賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2000300428A priority Critical patent/JP2002108854A/ja
Publication of JP2002108854A publication Critical patent/JP2002108854A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 テキストデータと画像データとからなる文書
の画像データ中の文字部分の文字認識精度の高い文書処
理装置を提供する。 【解決手段】 テキストデータと画像データとからなる
HTML文書の画像データ中に文字部がある場合には、
テキストデータのタグ中のキャラクタセットを指定する
文字列を調べて(S21,S26)、日本語を指定する
文字列の場合には(S21:YES、S22,S23:
YES)、日本語に応じた固定ピッチの文字の切り出し
を行い(S24)、日本語の文字認識を行う(S2
5)。英語を指定する文字列の場合には(S26:YE
S、S27,S23:NO)、英語に応じた可変ピッチ
の文字の切り出しを行い(S31)、英語の文字認識を
行う(S32)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストデータと
画像データとを持つデータを解析して翻訳を行う文書処
理装置に関する。
【0002】
【従来の技術】従来、テキストデータと画像データとを
持つデータを解析して翻訳を行う文書処理装置におい
て、テキストデータと画像データの両方を含む文書を翻
訳する際には、テキストデータのみを翻訳して画像デー
タと合成して結果を表示する方法が知られている。例え
ば、図4の(1)に示すように、「This is English Hom
ePage. American Flag is shown in Fig 1.」が、星条
旗の画像の上に記載され、星条旗の画像の下に、「Fig
1」が記載されている場合に、「This is EnglishHome
Page. American Flag is shown in Fig 1.」がテキスト
データで記載されており、星条旗の画像の下に記載され
ている「Fig 1」は、画像データの場合には、テキスト
データである「This is English Home Page. American
Flag is shown in Fig 1.」は、「これは英語のホーム
ページです。アメリカの旗を図1に示す。」と日本語に
翻訳されて、画像データである星条旗の画像と、画像デ
ータである「Fig 1」と合成されて、図4(2)に示す
ように表示されることになる。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
方法では、画像データ中の文字部分である「Fig 1」が
翻訳されないために、図4(2)に示すように日本語と
英語が混合した文書になってしまうという問題点があっ
た。また、特開平10−154145号公報に記載され
ているように、画像データ中の文字部分を抽出して文字
認識を行い、翻訳する技術も提案されているが、必ずし
も、文字認識の精度が満足いかないという問題点があっ
た。
【0004】本発明は、上記課題を解決するためになさ
れたものであり、テキストデータと画像データとからな
る文書を解析して文字認識を行って、その結果の翻訳を
行う文書処理装置において、画像データ中の文字部分の
文字認識精度の高い文書処理装置を提供することを目的
とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
の請求項1に係る発明の文書処理装置は、入力されたテ
キストデータとそのテキストデータに付随する画像デー
タとを記憶する記憶手段と、前記記憶手段に記憶された
テキストデータの言語種を判別する言語種判別手段と、
前記記憶手段に記憶された画像データから画像部分と文
字部分とを分離する分離手段と、前記分離手段が分離し
た文字部分を前記言語種判別手段によって判別された言
語種に基づいて文字認識を行って文字コードに変換する
文字認識手段とを備えたことを特徴とする構成となって
いる。
【0006】この構成の文書処理装置では、テキストデ
ータとそのテキストデータに付随する画像データとから
なるデータに対して、言語種判別手段がテキストデータ
の言語種を判別し、分離手段が画像データから分離した
文字部分を言語種判別手段によって判別された言語種に
基づいて文字認識手段が文字認識を行って文字コードに
変換するので、文字認識の精度を高めることができる。
【0007】また、請求項2に係る発明の文書処理装置
では、請求項1に記載の文書処理装置の構成に加えて、
前記文字認識手段は、前記言語種判別手段によって判別
された言語種専用の文字認識辞書を使用して文字認識を
行うことを特徴とする構成となっている。
【0008】この構成の文書処理装置では、請求項1に
記載の文書処理装置の作用に加えて、前記文字認識手段
は、前記言語種判別手段によって判別された言語種専用
の文字認識辞書を使用して文字認識を行うことができる
ので、文字認識の精度をより高めることができる。
【0009】また、請求項3に係る発明の文書処理装置
では、請求項1又は2に記載の文書処理装置の構成に加
えて、前記テキストデータは言語種別の情報を含み、前
記言語種判別手段は、前記テキストデータが含む言語種
別の情報に基づき、前記テキストデータの言語種を判別
することを特徴とする構成となっている。
【0010】この構成の文書処理装置では、請求項1又
は2に記載の文書処理装置の作用に加えて、前記テキス
トデータは言語種別の情報を含み、前記言語種判別手段
は、前記テキストデータが含む言語種別の情報に基づ
き、前記テキストデータの言語種を判別するので、言語
種の判別をより正確に行うことができる。
【0011】また、請求項4に係る発明の文書処理装置
では、請求項1乃至3の何れかに記載の文書処理装置の
構成に加えて、前記テキストデータはHTMLで記述さ
れ、前記言語種判別手段は、前記テキストデータ中のキ
ャラクタセットを指定するコードを参照して、言語種を
判別することを特徴とする構成となっている。
【0012】この構成の文書処理装置では、請求項1乃
至3の何れかに記載の文書処理装置の作用に加えて、前
記言語種判別手段は、HTMLで記述されたテキストデ
ータ中のキャラクタセットを指定するコードを参照し
て、言語種を判別するので、言語種の判別をより正確に
行うことができる。
【0013】また、請求項5に係る発明の文書処理装置
では、請求項1乃至3の何れかに記載の文書処理装置の
構成に加えて、前記言語種判別手段は、前記テキストデ
ータが2バイトの文字コードにより記述されているか否
かに基づいて、言語種を判別することを特徴とする構成
となっている。
【0014】この構成の文書処理装置では、請求項1乃
至3の何れかに記載の文書処理装置の作用に加えて、前
記言語種判別手段は、前記テキストデータが2バイトの
文字コードにより記述されているか否かに基づいて、言
語種を判別するので、キャラクタセットを指定するコー
ドがない場合にも、言語種の判別をより正確に行うこと
ができる。
【0015】また、請求項6に係る発明の文書処理装置
では、請求項1乃至5の何れかに記載の文書処理装置の
構成に加えて、前記文字認識手段は前記言語種判別手段
によって、判別された言語種に基づいて前記分離手段が
分離した前記文字部分の一文字分の文字の切り出し方法
を変更することを特徴とする構成となっている。
【0016】この構成の文書処理装置では、請求項1乃
至5の何れかに記載の文書処理装置の作用に加えて、前
記文字認識手段は前記言語種判別手段によって、判別さ
れた言語種に基づいて前記分離手段が分離した前記文字
部分の一文字分の文字の切り出し方法を変更するので、
言語種に応じて正確に文字の切り出しを行うことができ
る。
【0017】また、請求項7に係る発明の文書処理装置
では、請求項1乃至6の何れかに記載の文書処理装置の
構成に加えて、前記文字認識手段は、前記言語種判別手
段によって言語種を判別された言語が、固定ピッチを主
に使用する言語か可変ピッチを主に使用する言語かに基
づいて、前記分離手段が分離した前記文字部分の一文字
毎の文字の切り出し方法を変更することを特徴とする構
成となっている。
【0018】この構成の文書処理装置では、請求項1乃
至6の何れかに記載の文書処理装置の作用に加えて、前
記文字認識手段は、前記言語種判別手段によって言語種
を判別された言語が、固定ピッチを主に使用する言語か
可変ピッチを主に使用する言語かに基づいて、前記分離
手段が分離した前記文字部分の一文字毎の文字の切り出
し方法を変更するので、言語種に応じて正確に文字の切
り出しを行うことができる。
【0019】また、請求項8に係る発明の文書処理装置
では、請求項1乃至7の何れかに記載の文書処理装置の
構成に加えて、前記文字認識手段の認識結果を前記言語
種判別手段が判別した言語種と異なる言語種に翻訳する
翻訳手段と、前記翻訳手段の翻訳結果と前記分離手段に
より分離された画像部分とを合成した合成画像データを
作成する文書合成手段とを備えたことを特徴とする構成
となっている。
【0020】この構成の文書処理装置では、請求項1乃
至7の何れかに記載の文書処理装置の作用に加えて、翻
訳手段は、前記文字認識手段の認識結果を前記言語種判
別手段が判別した言語種と異なる言語種に翻訳し、文書
合成手段は前記翻訳手段の翻訳結果と前記分離手段によ
り分離された画像部分とを合成した合成画像データを作
成することができる。
【0021】また、請求項9に係る発明の文書処理装置
では、請求項1乃至8の何れかに記載の文書処理装置の
構成に加えて、前記文書合成手段が合成した合成画像デ
ータを表示する表示手段を備えたことを特徴とする構成
となっている。
【0022】この構成の文書処理装置では、請求項1乃
至8の何れかに記載の文書処理装置の作用に加えて、表
示手段は、前記文書合成手段が合成した合成画像データ
を表示することができる。
【0023】
【発明の実施の形態】以下、本発明の一実施の形態につ
いて図面を参照して説明する。
【0024】図1は、文書処理装置1の装置の概略構成
を示すブロック図であり、図2は、文書処理装置1の主
制御のフローチャートであり、図3は、文書処理装置1
の言語種判別文字認識処理のサブルーチンのフローチャ
ートである。
【0025】図1に示すように、本発明の第一の実施の
形態の文書処理装置1は、文書処理装置1の制御を司る
CPU2に、CPU2で実行されるプログラム等を記憶
したROM7と、データを一時的に記憶するRAM8
と、CPU2へのデータの入出力を仲介するI/Oイン
ターフェース3とが接続されている。また、I/Oイン
ターフェース3には、文字を入力するキーボード4と、
マウス5と、LCD又はCRTから構成された表示装置
6と、CD−ROMドライブ9と、外部のネットワーク
に接続するためのLANボード10と、大容量のデータ
を記憶するハードディスクドライブ12とが接続されて
いる。また、LANボード10は、ケーブル11を介し
て、図示外のルータに接続され、図示外のルータは、イ
ンターネットに接続されている。
【0026】次に、ROM7の記憶エリアについて説明
する。ROM7には、図1に示すように、HTML(ハ
イパー・テキスト・マークアップ・ランゲージ)ファイ
ル解析プログラム記憶エリア7aと、レイアウト解析プ
ログラム記憶エリア7bと、言語種判別プログラム記憶
エリア7cと、日本語切り出しプログラム記憶エリア7
dと、日本語認識プログラム記憶エリア7e、日本語認
識辞書記憶エリア7fと、英語切り出しプログラム記憶
エリア7gと、英語認識プログラム記憶エリア7hと、
英語認識辞書記憶エリア7iと、翻訳プログラム記憶エ
リア7jと、HTMLファイル合成プログラム記憶エリ
ア7kとが設けられている。
【0027】尚、HTMLファイル解析プログラム記憶
エリア7aには、HTMLで記述されたファイルを解析
して、テキストデータと画像データとを抽出する処理を
CPU2に行わせるHTMLファイル解析プログラムが
記憶されている。また、レイアウト解析プログラム記憶
エリア7bには、抽出された画像データをレイアウト解
析し、図のブロック、文字のブロック、表のブロック等
の解析する処理をCPU2に行わせるレイアウト解析プ
ログラムが記憶されている。
【0028】さらに、言語種判別プログラム記憶エリア
7cには、抽出されたテキストデータから言語種の判別
処理をCPU2に行わせる言語種判別プログラムが記憶
されている。また、日本語切り出しプログラム記憶エリ
ア7dには、抽出されたテキストデータが日本語の場合
に、抽出された画像データの文字のブロックから固定ピ
ッチで文字を出す処理をCPU2に行わせる日本語切り
出しプログラムが記憶されている。
【0029】さらに、日本語認識プログラム記憶エリア
7eには、日本語の文字認識を行う処理をCPU2に行
わせる日本語認識プログラムが記憶されている。また、
日本語認識辞書記憶エリア7fには、日本語の文字認識
時に参照される日本語認識辞書が記憶されている。さら
に、英語切り出しプログラム記憶エリア7gには、抽出
された画像データの文字のブロックから可変ピッチで文
字を出す処理をCPU2に行わせる英語切り出しプログ
ラムが記憶されている。
【0030】また、英語認識プログラム記憶エリア7h
には、英語の文字認識を行う処理をCPU2に行わせる
英語認識プログラムが記憶されている。さらに、英語認
識辞書記憶エリア7iには、英語の文字認識時に参照さ
れる英語認識辞書が記憶されている。また、翻訳プログ
ラム記憶エリア7jには、英語から日本語、又は、日本
語から英語に翻訳する処理をCPU2に行わせる翻訳プ
ログラムが記憶されている。さらに、HTMLファイル
合成プログラム記憶エリア7kには、画像データ中の文
字部分の翻訳された結果と、画像データ中の文字部分以
外の部分を合成する処理をCPU2に行わせるHTML
ファイル合成プログラムが記憶されている。
【0031】次に、RAM8の記憶エリアについて説明
する。RAM8には、図1に示すように、HTMLで記
述されたファイルから抽出したテキストデータを記憶す
るテキストデータ記憶エリア8aと、HTMLで記述さ
れたファイルから抽出した画像データを記憶する画像デ
ータ記憶エリア8bと、言語種の判別処理結果を記憶す
る言語種判別フラグ記憶エリア8cと、画像データの解
析結果を記憶する解析結果記憶エリア8dと、翻訳結果
を記憶する翻訳結果記憶エリア8eと、文字の切り出し
結果を記憶する切り出し結果記憶エリア8fと、画像デ
ータ中の文字部分の翻訳された結果と画像データ中の文
字部分以外の部分との合成結果を記憶する合成結果記憶
エリア8gと、文字認識の結果を記憶する認識結果記憶
エリア8hと、CPU2が行う各種の処理でデータを記
憶するワーキングエリア8iとが設けられている。
【0032】以上のように構成された文書処理装置1の
動作について、図2乃至図4を参照して説明する。図2
は、文書処理装置1が行う主制御のフローチャートであ
り、図3は、言語種判別文字認識処理のフローチャート
であり、図4は、テキストデータと画像データとを有す
るHTMLファイルが、表示装置6のブラウザ画面上に
表示された例を示す図である。
【0033】以下、インターネットのホームページを英
語から日本語へ翻訳する場合を例にとって説明する。イ
ンターネットのホームページ上に、図4(1)に示すよ
うに、テキストデータで「This is English Home Page.
American Flag is shown inFig 1.」と記述され、その
下に星条旗の画像が配置され、星条旗の画像の下に、画
像データである「Fig 1」が配置されている画面を表示
するHTMLファイルがあるとする。このHTMLファ
イルでは、「This is English Home Page. American Fl
ag is shown in Fig 1.」が英語のテキストデータで記
述され、星条旗及びその下の「Fig 1」は、一体の画像
データから構成されているとする。
【0034】文書処理装置1では、そのインターネット
のホームページ上のHTMLファイルを、図示外のルー
タを介して、ケーブル11及びLANボード10を経
て、取り込みRAM8のワーキングエリア8iに記憶す
る。すると、表示装置6のブラウザ画面上には、図4
(1)に示すように、上部に「This is English Home Pa
ge. American Flag is shown in Fig 1.」と表示され、
その下に星条旗の画像が配置され、星条旗の画像の下
に、Fig 1と表示がなされる。
【0035】ここで、使用者が、マウス5を用いて、表
示装置6に表示されている。図示外の翻訳ボタンをクリ
ックすると、図4(1)に示す表示画面のソースコード
であり、RAM8のワーキングエリア8iに記憶されて
いるHTMLファイルを解析し、そのHTMLファイル
からテキストデータと画像データとを抽出し、テキスト
データをRAM8のテキストデータ記憶エリア8aに記
憶し、画像データをRAM8の画像データ記憶エリア8
bに記憶する(S1)。ここでは、「This isEnglish H
ome Page. American Flag is shown in Fig 1.」が、テ
キストデータとして抽出され、星条旗及びその下の「Fi
g 1」は、一体の画像データとして抽出される。
【0036】次に、S2の判断処理で、HTMLファイ
ルから抽出されたテキストデータが有るか否かを判断す
る。図4(1)に示す表示画面では、「This is English
Home Page. American Flag is shown in Fig 1.」の部
分が、テキストデータとして抽出されているので(S
2:YES)、周知の機械翻訳法により、当該テキスト
データを日本語に翻訳する(S3)。すると、「これは
英語のホームページです。アメリカの旗を図1に示
す。」と翻訳され、RAM8の翻訳結果記憶エリア8e
に記憶される(S3)。
【0037】次いで、HTMLファイルから抽出された
画像データが有るか否かを判断する(S4)。図4
(1)に示す表示画面では、星条旗及びその下の「Fig
1」は、一体の画像データとして抽出されているので
(S4:YES)、当該画像データの解析を行う(S
5)。具体的には、抽出された画像データをレイアウト
解析し、図のブロック、文字のブロック、表のブロック
等を抽出して、解析結果記憶エリア8dに記憶する処理
を行う。この解析処理は、レイアウト解析の周知技術を
用いることができ、例えば、画像データの射影を求め
て、その射影の特徴により、図のブロック、文字のブロ
ック、表のブロック等の解析を行う(S5)。例えば、
文字のブロックには、射影に切れ目が生じるが、図のブ
ロックでは、射影に切れ目が生じないので文字のブロッ
クと図のブロックは容易に識別できる。 図4(1)に
示す例では、画像データ中に文字部(文字のブロック)
である「Fig1」が存在するので、文字部(文字のブロ
ック)である「Fig 1」を解析結果記憶エリア8dに記
憶する。
【0038】図4(1)に示す例では、画像データ中に
文字部(文字のブロック)である「Fig 1」が存在する
ので(S6:YES)、言語種判別文字認識処理(S
7)を行う。この言語種判別文字認識処理(S7)は、
図3に示す言語種判別文字認識処理のサブルーチンのフ
ローチャートに従って行われる。
【0039】まず、言語種の判別を行うために、図2の
S1の処理で抽出され、RAMのテキストデータ記憶エ
リア8aに記憶されているHTMLのテキストデータの
タグ中に、日本語のキャラクタセットを指定するコード
である「charset=shiftjis」の文字列が有るか否かを判
断する(S21)。「charset=shiftjis」の文字列が有
る場合には、文字種は日本語であるので、言語種判別フ
ラグを日本語にセットしてRAM8の言語種判別フラグ
記憶エリア8cに記憶する(S22)。
【0040】テキストデータのタグ中に「charset=shif
tjis」の文字列が無い場合で(S21:NO)、RAM
のテキストデータ記憶エリア8aに記憶されているHT
MLのテキストデータのタグ中に、英語のキャラクタセ
ットを指定するコードである「charset=iso8859」の文
字列が有る場合には、文字種は英語であるので、言語種
判別フラグを英語にセットしてRAM8の言語種判別フ
ラグ記憶エリア8cに記憶する(S22)。
【0041】また、テキストデータのタグ中に「charse
t=iso8859」の文字列もない場合には(S26:N
O)、テキストコードが2バイトコードか否かを判断す
る(S28)。テキストコードが2バイトコードの場合
には、日本語と考えられるので、言語種判別フラグを日
本語にセットしてRAM8の言語種判別フラグ記憶エリ
ア8cに記憶する(S22)。
【0042】また、テキストコードが2バイトコードで
ない場合には、英語と考えられるので、言語種判別フラ
グを英語にセットしてRAM8の言語種判別フラグ記憶
エリア8cに記憶する(S22)。図4(1)に示す例
では、テキストデータは英語であるので、テキストデー
タのタグ中に英語を指定する「charset=iso8859」の文
字列が存在したとして、言語種判別フラグを英語にセッ
トしてRAM8の言語種判別フラグ記憶エリア8cに記
憶する(S22)。
【0043】次に、RAM8の言語種判別フラグ記憶エ
リア8cに記憶されている言語種判別フラグが日本語か
否かを判断する(S23)。言語種判別フラグが日本語
の場合には(S23:YES)、解析結果記憶エリア8
dに記憶されている画像データから抽出された文字のブ
ロックから固定ピッチで文字を切り出す処理を行う(S
24)。次に切り出された文字に対して、ROM7の日
本語認識辞書記憶エリア7fに記憶された日本語認識辞
書を参照して、日本語の文字認識を行う(S25)。
【0044】また、言語種判別フラグが日本語でない場
合(英語の場合)には(S23:NO)、解析結果記憶
エリア8dに記憶されている画像データから抽出された
文字のブロックから可変ピッチで文字の切り出す処理を
行う(S31)。次に切り出された文字に対して、RO
M7の英語認識辞書記憶エリア7iに記憶された英語認
識辞書を参照して、英語の文字認識を行う(S25)。
【0045】図4(1)に示す例では、言語種判別フラ
グが英語にセットされているので(S23)、解析結果
記憶エリア8dに記憶されている画像データの文字部
(文字のブロック)である「Fig 1」を、可変ピッチで
文字の切り出す処理を行う(S31)。切り出し結果
は、「F」、「i」、「g」、「1」の文字の画像デー
タが切り出され、RAM8の切り出し結果記憶エリア8
fに記憶される(S31)。次いで、ROM7の英語認
識辞書記憶エリア7iに記憶された英語認識辞書を参照
して、順番に英語の文字認識を行うと、「F」、
「i」、「g」、「1」が認識され、文字コードがRA
M8の認識結果記憶エリア8hに記憶される(S3
2)。
【0046】次いで、図2に示すS8に戻り、RAM8
の認識結果記憶エリア8hに記憶されている「Fig 1」
の文字の英語から日本語への機械翻訳を行い(S8)、
翻訳された「図1」を翻訳結果記憶エリア8eに記憶す
る(S8)。次いで、HTMLファイルの合成を行う
(S9)。HTMLファイルの合成処理(S9)では、
具体的には、翻訳されたテキストデータ「これは英語の
ホームページです。アメリカの旗を図1に示す。」と、
S5で解析された画像データ中の文字部分以外の部分で
ある図形ブロックの星条旗の画像データと、画像データ
中の文字部を文字認識して翻訳した結果である「図1」
とを合成し、図4(3)に示す画像のHTMLファイル
を作成し、RAM8の合成結果記憶エリア8gに記憶
し、処理を終了する。ここで、HTMLファイルの合成
処理におけるテキストデータの配置や画像の配置は、S
1におけるHTMLファイルの解析時に読み取った翻訳
前のテキストデータの配置や画像の配置の情報を利用し
て、翻訳後のテキストデータの配置や画像の配置を行
う。
【0047】すると、表示装置6のブラウザ画面には、
図4(3)に示すように、上段に「これは英語のホーム
ページです。アメリカの旗を図1に示す。」と表示さ
れ、その下に星条旗の画像が表示され、その星条旗の画
像下に「図1」と表示される。
【0048】以上説明したように、上記の実施の形態の
文書処理装置1では、HTMLファイルのテキストデー
タにより判別された言語種固有の文字認識手法を用い
て、画像データの文字部分の文字認識を行うので、文字
認識の精度を高めることができる。
【0049】尚、上記の実施の形態の文書処理装置1
は、各種の変形ができることは、言うまでもない。例え
ば、上記の実施の形態では、英語のホームページから日
本語に翻訳する例を挙げたが、逆に、日本語のホームペ
ージから英語に翻訳することも可能である。また、言語
は、日本語と英語に限られず、中国語、韓国語、ドイツ
語、フランス語、イタリア語、スペイン語等の各国語に
適用できることは言うまでもない。
【0050】
【発明の効果】以上説明した通り、請求項1に係る発明
の文書処理装置では、テキストデータとそのテキストデ
ータに付随する画像データとからなるデータに対して、
言語種判別手段がテキストデータの言語種を判別し、分
離手段が画像データから分離した文字部分を言語種判別
手段によって判別された言語種に基づいて文字認識手段
が文字認識を行って文字コードに変換するので、文字認
識の精度を高めることができる。
【0051】また、請求項2に係る発明の文書処理装置
では、請求項1に記載の文書処理装置の効果に加えて、
前記文字認識手段は、前記言語種判別手段によって判別
された言語種専用の文字認識辞書を使用して文字認識を
行うことができるので、文字認識の精度をより高めるこ
とができる。
【0052】また、請求項3に係る発明の文書処理装置
では、請求項1又は2に記載の文書処理装置の効果に加
えて、前記テキストデータは言語種別の情報を含み、前
記言語種判別手段は、前記テキストデータが含む言語種
別の情報に基づき、前記テキストデータの言語種を判別
するので、言語種の判別をより正確に行うことができ
る。
【0053】また、請求項4に係る発明の文書処理装置
では、請求項1乃至3の何れかに記載の文書処理装置の
効果に加えて、前記言語種判別手段は、HTMLで記述
されたテキストデータ中のキャラクタセットを指定する
コードを参照して、言語種を判別するので、言語種の判
別をより正確に行うことができる。
【0054】また、請求項5に係る発明の文書処理装置
では、請求項1乃至3の何れかに記載の文書処理装置の
効果に加えて、前記言語種判別手段は、前記テキストデ
ータが2バイトの文字コードにより記述されているか否
かに基づいて、言語種を判別するので、キャラクタセッ
トを指定するコードがない場合にも、言語種の判別をよ
り正確に行うことができる。
【0055】また、請求項6に係る発明の文書処理装置
では、請求項1乃至5の何れかに記載の文書処理装置の
効果に加えて、前記文字認識手段は前記言語種判別手段
によって、判別された言語種に基づいて前記分離手段が
分離した前記文字部分の一文字分の文字の切り出し方法
を変更するので、言語種に応じて正確に文字の切り出し
を行うことができる。
【0056】また、請求項7に係る発明の文書処理装置
では、請求項1乃至6の何れかに記載の文書処理装置の
効果に加えて、前記文字認識手段は、前記言語種判別手
段によって言語種を判別された言語が、固定ピッチを主
に使用する言語か可変ピッチを主に使用する言語かに基
づいて、前記分離手段が分離した前記文字部分の一文字
毎の文字の切り出し方法を変更するので、言語種に応じ
て正確に文字の切り出しを行うことができる。
【0057】また、請求項8に係る発明の文書処理装置
では、請求項1乃至7の何れかに記載の文書処理装置の
効果に加えて、翻訳手段は、前記文字認識手段の認識結
果を前記言語種判別手段が判別した言語種と異なる言語
種に翻訳し、文書合成手段は前記翻訳手段の翻訳結果と
前記分離手段により分離された画像部分とを合成した合
成画像データを作成することができる。
【0058】また、請求項9に係る発明の文書処理装置
では、請求項1乃至8の何れかに記載の文書処理装置の
効果に加えて、表示手段は、前記文書合成手段が合成し
た合成画像データを表示することができる。
【図面の簡単な説明】
【図1】図1は、文書処理装置1の装置の概略構成を示
すブロック図である。
【図2】図2は、文書処理装置1の主制御のフローチャ
ートである。
【図3】図3は、文書処理装置1の言語種判別文字認識
処理のサブルーチンのフローチャートである。
【図4】図4は、テキストデータと画像データとからな
るHTML文書の表示画面の模式図である。
【符号の説明】
1 文書処理装置 2 CPU 3 I/Oインターフェース 4 キーボード 5 マウス 6 表示装置 7 ROM 7a HTMLファイル解析プログラム記憶エリア 7b レイアウト解析プログラム記憶エリア 7c 言語種判別プログラム記憶エリア 7d 日本語切り出しプログラム記憶エリア 7e 日本語認識プログラム記憶エリア 7f 日本語認識辞書記憶エリア 7g 英語切り出しプログラム記憶エリア 7i 英語認識辞書記憶エリア 7j 翻訳プログラム記憶エリア 7k HTMLファイル合成プログラム記憶エリア 8 RAM 8a テキストデータ記憶エリア 8b 画像データ記憶エリア 8c 言語種判別フラグ記憶エリア 8d 解析結果記憶エリア 8e 翻訳結果記憶エリア 8f 切り出し結果記憶エリア 8g 合成結果記憶エリア 8h 認識結果記憶エリア 8i ワーキングエリア 9 CD−ROMドライブ 10 LANボード 11 ケーブル 12 ハードディスクドライブ

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストデータとそのテキス
    トデータに付随する画像データとを記憶する記憶手段
    と、 前記記憶手段に記憶されたテキストデータの言語種を判
    別する言語種判別手段と、 前記記憶手段に記憶された画像データから画像部分と文
    字部分とを分離する分離手段と、 前記分離手段が分離した文字部分を前記言語種判別手段
    によって判別された言語種に基づいて文字認識を行って
    文字コードに変換する文字認識手段とを備えたことを特
    徴とする文書処理装置。
  2. 【請求項2】 前記文字認識手段は、前記言語種判別手
    段によって判別された言語種専用の文字認識辞書を使用
    して文字認識を行うことを特徴とする請求項1に記載の
    文書処理装置。
  3. 【請求項3】 前記テキストデータは言語種別の情報を
    含み、前記言語種判別手段は、前記テキストデータが含
    む言語種別の情報に基づき、前記テキストデータの言語
    種を判別することを特徴とする請求項1又は2に記載の
    文書処理装置。
  4. 【請求項4】 前記テキストデータはHTMLで記述さ
    れ、前記言語種判別手段は、前記テキストデータ中のキ
    ャラクタセットを指定するコードを参照して、言語種を
    判別することを特徴とする請求項1乃至3の何れかに記
    載の文書処理装置。
  5. 【請求項5】 前記言語種判別手段は、前記テキストデ
    ータが2バイトの文字コードにより記述されているか否
    かに基づいて、言語種を判別することを特徴とする請求
    項1乃至3の何れかに記載の文書処理装置。
  6. 【請求項6】 前記文字認識手段は前記言語種判別手段
    によって、判別された言語種に基づいて前記分離手段が
    分離した前記文字部分の一文字分の文字の切り出し方法
    を変更することを特徴とする請求項1乃至5の何れかに
    記載の文書処理装置。
  7. 【請求項7】 前記文字認識手段は、前記言語種判別手
    段によって言語種を判別された言語が、固定ピッチを主
    に使用する言語か可変ピッチを主に使用する言語かに基
    づいて、前記分離手段が分離した前記文字部分の一文字
    毎の文字の切り出し方法を変更することを特徴とする請
    求項1乃至6の何れかに記載の文書処理装置。
  8. 【請求項8】 前記文字認識手段の認識結果を前記言語
    種判別手段が判別した言語種と異なる言語種に翻訳する
    翻訳手段と、 前記翻訳手段の翻訳結果と前記分離手段により分離され
    た画像部分とを合成した合成画像データを作成する文書
    合成手段とを備えたことを特徴とする請求項1乃至7の
    何れかに記載の文書処理装置。
  9. 【請求項9】 前記文書合成手段が合成した合成画像デ
    ータを表示する表示手段を備えたことを特徴とする請求
    項1乃至8の何れかに記載の文書処理装置。
JP2000300428A 2000-09-29 2000-09-29 文書処理装置 Pending JP2002108854A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000300428A JP2002108854A (ja) 2000-09-29 2000-09-29 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000300428A JP2002108854A (ja) 2000-09-29 2000-09-29 文書処理装置

Publications (1)

Publication Number Publication Date
JP2002108854A true JP2002108854A (ja) 2002-04-12

Family

ID=18782114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000300428A Pending JP2002108854A (ja) 2000-09-29 2000-09-29 文書処理装置

Country Status (1)

Country Link
JP (1) JP2002108854A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147936A1 (ja) * 2011-04-28 2012-11-01 楽天株式会社 閲覧システム、端末、画像サーバ、プログラム、プログラムを記録したコンピュータ読み取り可能な記録媒体、及び方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147936A1 (ja) * 2011-04-28 2012-11-01 楽天株式会社 閲覧システム、端末、画像サーバ、プログラム、プログラムを記録したコンピュータ読み取り可能な記録媒体、及び方法
JP5211266B1 (ja) * 2011-04-28 2013-06-12 楽天株式会社 閲覧システム、端末、画像サーバ、プログラム、プログラムを記録したコンピュータ読み取り可能な記録媒体、及び方法
KR101410558B1 (ko) 2011-04-28 2014-06-20 라쿠텐 인코포레이티드 열람 시스템, 단말기, 화상 서버, 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 방법
US10013403B2 (en) 2011-04-28 2018-07-03 Rakuten, Inc. Browsing system, terminal, image server, program, computer-readable recording medium storing program, and method

Similar Documents

Publication Publication Date Title
US5983184A (en) Hyper text control through voice synthesis
US7168040B2 (en) Document processing apparatus and method for analysis and formation of tagged hypertext documents
JP2001318948A (ja) 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
US20070061410A1 (en) Webpage search
JPH0981566A (ja) 翻訳装置及び翻訳方法
JPH11353150A (ja) 口頭の問合せを支援するためのマ―クアップ言語ペ―ジのエンハンスメント
JPH1125098A (ja) 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP2002278757A (ja) Htmlアプリケーションにおいてユーザーインターフェースオブジェクトの文法ベースの認識のための方法及び装置
US20060143555A1 (en) Apparatus and method for extracting information from a formatted document
JP2003186870A (ja) 文書表示方法、文書表示装置、プログラムおよび記録媒体
JP2002108854A (ja) 文書処理装置
KR20000039748A (ko) 다국어 웹 문서 번역 서비스 장치 및 이를 이용한번역 서비스 방법
JPH103483A (ja) 情報検索装置
JP2002108855A (ja) 文書処理装置
JP2838984B2 (ja) 汎用参照装置
JPH0765005A (ja) 文書速読支援表示装置並びに文書処理装置及びディジタル複写装置
JP5011511B2 (ja) 辞書機能を備えた電子機器およびプログラム
JP2974698B2 (ja) 機械翻訳装置における単語間関係編集/学習装置
JP2001256259A (ja) ハイパーテキスト制御システム
JPH10154145A (ja) 自動翻訳装置
JP3516700B2 (ja) 文書処理装置及び文書処理方法
JP3969689B2 (ja) 文書作成支援装置、文書作成支援方法及び文書作成支援プログラムを記憶した記憶媒体
JP4104000B2 (ja) 情報処理装置、制御方法、プログラム、及びプログラム記録媒体
JPH0765008A (ja) 用語登録制御方法及び同装置
JPH08212293A (ja) Sgmlタグ付与処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070619

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070828