JP2009246807A - 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム - Google Patents
受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム Download PDFInfo
- Publication number
- JP2009246807A JP2009246807A JP2008092926A JP2008092926A JP2009246807A JP 2009246807 A JP2009246807 A JP 2009246807A JP 2008092926 A JP2008092926 A JP 2008092926A JP 2008092926 A JP2008092926 A JP 2008092926A JP 2009246807 A JP2009246807 A JP 2009246807A
- Authority
- JP
- Japan
- Prior art keywords
- language
- received document
- received
- discrimination information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】FAX受信機1で受信したFAXデータを入力インタフェース部11で画像ファイル形式に変換する。言語判別部12は、入力インタフェース部11からの画像ファイルのシンボル及びその位置情報に基づいて画像ファイルの使用言語を判別する。画像ファイルの使用言語を受け取るOCR部13は、その使用言語に基づいて画像ファイルのテキストファイルを作成する。翻訳部14は、テキストファイルから日本語のテキストファイルを作成する。出力インタフェース部15は、FAX受信機1で受信したFAXデータ、OCR部13からの原文のテキストファイル及び翻訳部14からの日本語のテキストファイルをユーザ端末装置3で表示可能な形式に変換する。
【選択図】図1
Description
しかし、現在のOCRは、自動的に言語を判別する機能を備えていないものが殆どである。
また、特許文献2には、Webページの検索にロゴマークの照合を用いるカメラ付き携帯情報端末が開示されている。この端末での照合は、カメラで撮影されたロゴマークと予め記憶されているロゴマークとの照合を用いることにある。
しかし、文書データが国際的に送受信される今日においては、各種の言語で記述された文書が送受信端末間で授受されている。このような場合に、OCRが言語毎のテキスト化機能を備えていたとしても、そのOCRが文字データの判別機能を有しない場合には、受信される文書データが何語で記述されているかをOCRに使用言語の指定を文書毎に入力しなければならない。
このような指定を必要とすることは、大量、かつ、複数の言語の文書が混在する場合には、そのような文書のテキスト化に大きな労力と時間を費やさざるを得なくなる。
また、特許文献2でのロゴマークの照合は、それ自体を開示するものではなく、その照合は、Webページの検索の中でその技術的意義があるだけであり、その他の場合への拡張性は技術的に残されたままである。
また、使用言語の判別に位置情報をも用いれば、照合処理速度を向上させ得る。位置情報に言語に応じた文書フォーマットを加味させれば、言語判別の精度をさらに向上させることができる。
この実施形態のFAX翻訳サーバ1は、FAXデータに含まれているシンボルに基づいてそのFAXで用いられている言語を判別するサーバに係り、図1に示すように、入力インタフエース部11と、言語判別部12と、OCR部(光学式文字読み取り装置)13と、翻訳部14と、出力インタフエース部15とから概略構成されている。なお、入力インタフエース部11は、FAX受信機2に接続される一方、出力インタフエース部15は、ユーザ端末装置3に接続されている。
また、同一組織であっても、複数の言語を用いる場合には、言語毎のフォーマットを準備するなど言語に応じたレイアウトを用いることが多く、シンボルの位置もそれぞれ異なる位置に配置されることも多い。
この発明は、斯かる文書の特徴を活用せんとするものである。すなわち、シンボルそのものと、シンボルの位置と、言語とを言語判別情報として予め記憶しておき、その言語判別情報とFAX文書(画像ファイル)の対応情報との照合により、FAX文書の使用言語を判別しようとするものである。
言語判別部12は、画像ファイルが何語で記述されているかの判別を行う処理部である。この言語判別部12は、言語判別情報記憶部12M(図2)を有して構成されている。言語判別情報記憶部12Mには、図2及び図3に示すように、シンボルと、画像ファイル内にあるシンボルの位置情報と、言語とをセットにして、予め、記憶される。
翻訳部14は、OCR部13で作成された原文のテキストファイルを日本語のテキストファイルに機械翻訳する処理部である。
出力インタフエース部15は、FAX受信機2で受信したFAXデータ、OCR部13から受け取った原文のテキストファイル及び翻訳部14で翻訳された日本語のテキストファイルをユーザ端末装置3で表示可能な形式に変換し、ユーザ端末装置3に出力する出力手段である。
電話回線等を介してFAX受信機2において受信されたFAXデータが、FAX翻訳サーバ1の入力インタフエース部11に入力され、そのFAXデータは、bmp、tif等の画像ファイル形式(イメージデータ)に変換される。
変換された画像ファイルは、言語判別部12に入力され、画像ファイルの記述文字が何語であるかを判別する。
言語判別情報記憶部12M(図1には図示せず、図2)にはn個の言語判別情報DIが予め記憶されているものとする。図2及び図3の言語判別情報DIは、その一例を示す。
入力インタフエース部11で変換された画像ファイルF(図2及び図3)を取り込み(図3のステップS1)、その画像ファイルFに含まれているシンボル及びその位置情報と言語判別情報記憶部12Mに記憶されている言語判別情報DIの各各と順次照合する(図3のステップS2からステップSnまで)。
翻訳部14は、OCR部13から原文のテキストファイルを受け取り、そのテキストファイルを日本語に翻訳して日本語のテキストファイルを作成する。
出力インタフエース部15は、FAX受信機2で受信したFAXデータ、OCR部13から受け取った原文のテキストファイル及び翻訳部14で翻訳された日本語のテキストファイルをユーザ端末装置3で表示可能な形式に変換する。
ユーザ端末装置3は、出力インタフェース部15から受け取った表示形式のFAXデータ、原文のテキストファイル及び日本語のテキストファイルを表示する。
また、シンボルの位置情報を使用言語の判別に用いているので、照合範囲の絞り込みが可能になり、照合処理速度を向上させ得るほか、上記位置情報に言語に応じた文書フォーマットを加味させれば、言語判別の精度をさらに向上させることができる。
この実施形態の構成が、実施形態1のそれと大きく異なる点は、FAXデータから直接シンボルを抽出するようにした点である。
すなわち、この実施形態のFAX翻訳サーバ1Aは、図4に示すように、入力インタフェース部11Aを、FAXデータからシンボル及び位置情報を抽出して言語判別部12Aに渡すと共にFAXデータを画像ファイル形式に変換してその画像ファイルをOCR部13Aに渡すように構成し、また、言語判別部12Aを、入力インタフェース部11Aから入力されるシンボル及び位置情報に基づいて画像ファイルの言語を判別してその結果をOCR部13Aに渡すように構成したことにその特徴部分がある。
この構成以外の実施形態の構成は、実施形態1と同じであるので、同一の構成部分には同一の参照符号を付して、その逐一の説明は省略する。
この実施形態の動作は、次の点を除いて、実施形態1と同様である。
すなわち、入力インタフェース部11Aは、FAX受信機2から入力されるFAXデータのシンボル及び位置情報を抽出して言語判別部12Aに渡すと共にFAXデータを画像ファイル形式に変換してその画像ファイルをOCR部13Aに渡す。
また、入力インタフェース部11Aから入力されるシンボル及び位置情報を受け取った言語判別部12Aは、そのシンボル及び位置情報に基づいて画像ファイルの言語を判別し、その判別結果をOCR部13Aに渡す。
この処理後の処理は、実施形態1と同様に行われる。
このように、この実施形態の構成によれば、実施形態1と同様の効果が得られる。
例えば、上記実施形態では、言語判別にシンボルそのもの、シンボル及び位置情報からなる言語判別情報を用いる例を説明したが、その他の言語判別情報、例えば、言語毎に付されるID、ID及び位置情報、文書フォーマット等を言語判別に用いてこの発明を実施することもできる。
また、言語判別情報の照合は、その抽出なしに又は抽出して行ってもよい。
また、実施形態ではFAXデータの受信について説明したが、その他の形式の受信文書であっても、この発明は同等に実施し得る。
11、11A 入力インタフエース部(変換手段)
12、12A 言語判別部(照合手段、判別手段)
12M 言語判別情報記憶部(記憶手段)
13 OCR部(受信手段の一部、テキスト化手段)
14 翻訳部(受信手段の一部、テキスト化手段)
15 出力インタフエース部(受信手段の残部)
Claims (18)
- 通信回線を介して受信した文書データの使用言語を判別する受信文書の言語判別方法であって、
言語判別情報を記憶手段に記憶し、
受信した前記文書データに含まれている言語判別情報と前記記憶手段から読み出された前記言語判別情報とを照合し、
該照合によって前記使用言語を判別することを特徴とする受信文書の言語判別方法。 - 通話回線を介して受信した文書データの使用言語を判別する受信文書の言語判別方法であって、
言語判別情報を記憶手段に記憶し、
受信した前記文書データを画像ファイルに変換し、
変換された前記画像ファイルに含まれている言語判別情報と前記記憶手段から読み出された前記言語判別情報とを照合することを特徴とする受信文書の言語判別方法。 - 前記言語判別情報は、言語を識別するシンボルであることを特徴とする請求項1又は2記載の受信文書の言語判別方法。
- 前記言語判別情報は、言語を識別するIDであることを特徴とする請求項1又は2記載の受信文書の言語判別方法。
- 前記照合は、前記言語判別情報と当該言語判別情報が前記文書データ又は前記画像ファイル内に置かれている位置とに基づいて行うことを特徴とする請求項1、2、3又は4記載の受信文書の言語判別方法。
- 前記照合は、前記文書データ又は前記画像ファイルのフォーマットを加えて行うことを特徴とする請求項5記載の受信文書の言語判別方法。
- 前記文書データは、FAXデータであることを特徴とする請求項1乃至6のいずれか一に記載の受信文書の言語判別方法。
- 通信回線を介して受信される文書データを該文書データの使用言語で受信する受信文書翻訳システムであって、
言語判別情報を記憶する記憶手段と、
受信した前記文書データに含まれている言語判別情報と前記記憶手段から読み出された前記言語判別情報とを照合する照合手段と、
該照合手段による照合結果に基づいて前記使用言語を判別する判別手段と、
該判別手段によって判別された前記使用言語で前記文書データを受信する受信手段とを備えることを特徴とする受信文書翻訳システム。 - 通信回線を介して受信される文書データを該文書データの使用言語で受信する受信文書翻訳システムであって、
言語判別情報を記憶する記憶手段と、
受信した前記文書データを画像ファイルに変換する変換手段と、
該変換手段によって変換された前記画像ファイルに含まれている言語判別と前記記憶手段から読み出された前記言語判別情報とを照合する照合手段と、
前記照合手段による照合結果に基づいて前記使用言語を判別する判別手段と、
該判別手段によって判別された前記使用言語で前記文書データを受信する受信手段とを備えることを特徴とする受信文書翻訳システム。 - 前記言語判別情報は、言語を識別するシンボルであることを特徴とする請求項8又は9記載の受信文書翻訳システム。
- 前記言語判別情報は、言語を識別するIDであることを特徴とする請求項8又は9記載の受信文書翻訳システム。
- 前記照合手段による前記照合は、前記言語判別情報と当該言語判別情報が前記文書データ又は前記画像ファイル内に置かれている位置とに基づいて行うことを特徴とする請求項8、9、10又は11記載の受信文書翻訳システム。
- 前記照合手段による前記照合は、前記文書データ又は前記画像ファイルのフォーマットを加えて行うことを特徴とする請求項12記載の受信文書翻訳システム。
- 前記文書データは、FAXデータであることを特徴とする請求項8乃至13のいずれか一に記載の受信文書翻訳システム。
- 前記受信手段は、前記文書データからテキストファイルを生成するテキスト化手段を含み、受信した前記文書データ又は前記テキストファイルを前記使用言語に基づいて振り分ける分配手段を備えることを特徴とする請求項8乃至14のいずれか一に記載の受信文書翻訳システム。
- 前記受信手段は、前記文書データからテキストファイルを生成するテキスト化手段及び該テキスト化手段によって生成されたテキストファイルをキーワードで検索する検索手段を備えることを特徴とする請求項8乃至15のいずれか一に記載の受信文書翻訳システム。
- コンピュータに請求項1乃至7のいずれか一に記載の受信文書の言語判別方法を実行させることを特徴とする制御プログラム。
- コンピュータに請求項8乃至16のいずれか一に記載の受信文書翻訳システムを制御させることを特徴とする制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008092926A JP5018601B2 (ja) | 2008-03-31 | 2008-03-31 | 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008092926A JP5018601B2 (ja) | 2008-03-31 | 2008-03-31 | 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009246807A true JP2009246807A (ja) | 2009-10-22 |
JP5018601B2 JP5018601B2 (ja) | 2012-09-05 |
Family
ID=41308220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008092926A Active JP5018601B2 (ja) | 2008-03-31 | 2008-03-31 | 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5018601B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014029396A (ja) * | 2012-07-31 | 2014-02-13 | Ricoh Co Ltd | 画像表示装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06318997A (ja) * | 1993-05-10 | 1994-11-15 | Canon Inc | ファクシミリ装置 |
JPH0916582A (ja) * | 1995-06-30 | 1997-01-17 | Toshiba Corp | 文書作成装置及び同装置に用いられる認識結果出力方法 |
JP2001005813A (ja) * | 1999-06-17 | 2001-01-12 | Minolta Co Ltd | 自動翻訳装置 |
JP2001056840A (ja) * | 1999-08-19 | 2001-02-27 | Ricoh Co Ltd | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 |
JP2001318864A (ja) * | 2000-05-11 | 2001-11-16 | Casio Comput Co Ltd | データ処理装置、および、記憶媒体 |
JP2004213210A (ja) * | 2002-12-27 | 2004-07-29 | Kyocera Mita Corp | 画像形成システム及びその表示用データ書き込み方法 |
JP2006026972A (ja) * | 2004-07-13 | 2006-02-02 | Konica Minolta Business Technologies Inc | 画像形成装置および言語切替方法 |
JP2006244090A (ja) * | 2005-03-02 | 2006-09-14 | Murata Mach Ltd | 通信装置 |
JP2006350664A (ja) * | 2005-06-15 | 2006-12-28 | Fuji Xerox Co Ltd | 文書処理装置 |
JP2007102545A (ja) * | 2005-10-05 | 2007-04-19 | Ricoh Co Ltd | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム |
JP2007249864A (ja) * | 2006-03-17 | 2007-09-27 | Ricoh Co Ltd | 文書セキュリティ検出方法、文書セキュリティ検出装置および文書セキュリティ検出プログラム |
-
2008
- 2008-03-31 JP JP2008092926A patent/JP5018601B2/ja active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06318997A (ja) * | 1993-05-10 | 1994-11-15 | Canon Inc | ファクシミリ装置 |
JPH0916582A (ja) * | 1995-06-30 | 1997-01-17 | Toshiba Corp | 文書作成装置及び同装置に用いられる認識結果出力方法 |
JP2001005813A (ja) * | 1999-06-17 | 2001-01-12 | Minolta Co Ltd | 自動翻訳装置 |
JP2001056840A (ja) * | 1999-08-19 | 2001-02-27 | Ricoh Co Ltd | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 |
JP2001318864A (ja) * | 2000-05-11 | 2001-11-16 | Casio Comput Co Ltd | データ処理装置、および、記憶媒体 |
JP2004213210A (ja) * | 2002-12-27 | 2004-07-29 | Kyocera Mita Corp | 画像形成システム及びその表示用データ書き込み方法 |
JP2006026972A (ja) * | 2004-07-13 | 2006-02-02 | Konica Minolta Business Technologies Inc | 画像形成装置および言語切替方法 |
JP2006244090A (ja) * | 2005-03-02 | 2006-09-14 | Murata Mach Ltd | 通信装置 |
JP2006350664A (ja) * | 2005-06-15 | 2006-12-28 | Fuji Xerox Co Ltd | 文書処理装置 |
JP2007102545A (ja) * | 2005-10-05 | 2007-04-19 | Ricoh Co Ltd | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム |
JP2007249864A (ja) * | 2006-03-17 | 2007-09-27 | Ricoh Co Ltd | 文書セキュリティ検出方法、文書セキュリティ検出装置および文書セキュリティ検出プログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014029396A (ja) * | 2012-07-31 | 2014-02-13 | Ricoh Co Ltd | 画像表示装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5018601B2 (ja) | 2012-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8155444B2 (en) | Image text to character information conversion | |
US9081412B2 (en) | System and method for using paper as an interface to computer applications | |
US20060285748A1 (en) | Document processing device | |
US20190197303A1 (en) | Image processing apparatus and image processing program | |
EP2746989A2 (en) | Document processing device, image processing apparatus, document processing method and computer program product | |
JP5372110B2 (ja) | 情報出力装置、情報出力方法、及びコンピュータプログラム | |
CN104050211A (zh) | 文档处理装置和文档处理方法 | |
KR20160125931A (ko) | 특허문서의 도면가독성 증진 서비스 제공을 위한 시스템 및 방법 | |
CN106326332B (zh) | 检索装置以及检索方法 | |
US11670067B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20190197337A1 (en) | Image processing apparatus and image processing program | |
CN113495874A (zh) | 信息处理装置和计算机可读取介质 | |
JP4597644B2 (ja) | 文字認識装置、プログラムおよび記録媒体 | |
US10638001B2 (en) | Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data | |
JP5018601B2 (ja) | 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム | |
JP6749583B2 (ja) | 情報処理装置、画像処理装置およびプログラム | |
JP7027757B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN107590136B (zh) | 翻译设备、翻译系统以及翻译方法 | |
KR20130080745A (ko) | 스마트폰의 카메라 모듈과 원격지 서버의 ocr 엔진을 이용한 전자문서 생성 방법 및 이를 위한 단말장치 | |
US20090279781A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP7338328B2 (ja) | データ構造、コンピュータプログラム及び画像処理装置 | |
JP4569780B2 (ja) | 文章管理装置および文章管理方法 | |
JP4872285B2 (ja) | 文書管理装置、文書管理システムおよび文書管理方法 | |
JP2007323317A (ja) | 変換装置、変換方法及びプログラム | |
JP6682827B2 (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5018601 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |