JP4678712B2 - 言語識別装置、プログラム及び記録媒体 - Google Patents
言語識別装置、プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4678712B2 JP4678712B2 JP2004211886A JP2004211886A JP4678712B2 JP 4678712 B2 JP4678712 B2 JP 4678712B2 JP 2004211886 A JP2004211886 A JP 2004211886A JP 2004211886 A JP2004211886 A JP 2004211886A JP 4678712 B2 JP4678712 B2 JP 4678712B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- circumscribed rectangle
- rectangle
- document
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
請求項2の発明は、複数国の言語による基準文書から作成されたトリグラムモデルと識別対象言語による検査用文書から作成されたトリグラムモデルとにより所定言語の出現確率を算出し、検査用文書の使用言語を識別する言語識別装置において、複数国の言語で作成された基準文書、及び識別対象言語の検査用文書の画像から、前記文書ごと且つ文字行ごとに文字の外接矩形を作成する手段と、外接矩形を、当該外接矩形の配置情報を表すパラメータにより、固定段階に量子化する手段と、固定段階に量子化された外接矩形に、当該外接矩形を一意に識別可能にするシンボルを付与する手段と、シンボルの付与により外接矩形の系列をシンボルの系列に変換する手段と、シンボルの系列に基いて基準文書の第1トリグラムモデル及び検査用文書の第2トリグラムモデルを作成する手段と、第1トリグラムモデルを各国言語ごとに記憶する手段と、第1トリグラムモデルの所定のシンボルの出現確率から、第2トリグラムモデルの所定のシンボルの出現確率を各国言語ごとに算出する手段と、第2トリグラムモデルの所定のシンボルの出現確率を各国言語ごとに集計する手段と、集計した各国言語ごとの出現確率により検査用文書の使用言語を決定する手段と、を有することを特徴とする言語識別装置である。
請求項3の発明は、請求項2記載の言語識別装置において、複数国の言語で作成された基準文書、及び識別対象言語の検査用文書の画像から、前記文書ごと且つ文字行ごとに文字の外接矩形間の空白部分を外接矩形として作成する手段を有することを特徴とする言語識別装置である。
請求項4の発明は、請求項2又は3記載の言語識別装置において、前記外接矩形を、当該外接矩形の配置情報を表すパラメータにより、固定段階に量子化する手段は、単一又は複数のパラメータにより外接矩形を固定段階に量子化することを特徴とする言語識別装置である。
請求項5の発明は、請求項4記載の言語識別装置において、前記単一又は複数のパラメータにより外接矩形を固定段階に量子化する手段は、外接矩形の文字行内における始点の高さ、及び外接矩形の高さ、及び外接矩形の幅、及び外接矩形内の黒画素密度、及び隣接する外接矩形間距離、のいずれか1つ又は、任意の複数の外接矩形の配置情報を表すパラメータにより固定段階に量子化することを特徴とする言語識別装置である。
請求項6の発明は、請求項5記載の言語識別装置において、文字行の高さを所定高さであるとみなす手段を更に有することを特徴とする言語識別装置である。
請求項7の発明は、コンピュータを、複数国の言語で作成された基準文書、及び識別対象言語の検査用文書の画像から、前記文書ごと且つ文字行ごとに文字の外接矩形を作成する手段、外接矩形を、当該外接矩形の配置情報を表すパラメータにより、固定段階に量子化する手段、固定段階に量子化された外接矩形に、当該外接矩形を一意に識別可能にするシンボルを付与する手段、シンボルの付与により外接矩形の系列をシンボルの系列に変換する手段、シンボルの系列に基いて基準文書の第1トリグラムモデル及び検査用文書の第2トリグラムモデルを作成する手段、第1トリグラムモデルを各国言語ごとに記憶に記憶させる手段、第1トリグラムモデルの所定のシンボルの出現確率から、第2トリグラムモデルの所定のシンボルの出現確率を各国言語ごとに算出する手段、第2トリグラムモデルの所定のシンボルの出現確率を各国言語ごとに集計する手段、集計した各国言語ごとの出現確率により検査用文書の使用言語を決定する手段、として機能させるためのプログラムである。
請求項8の発明は、請求項7記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
請求項2〜6に対応する効果:言語識別の処理をシンボルの処理のみで行うので、言語識別の処理を「文の破片」として処理することが可能になり、多数国の言語が使用される文書において当該言語の識別を高速で行うことができる。
請求項7,8に対応する効果:請求項2乃至6の発明の効果を奏する言語識別処理を任意の画像処理装置等において容易に実施することができる。
行内矩形の始点の高さ(Ys/H) →15段階、
行内矩形の高さ(h/H) →8段階、
行内矩形の幅(W/H)、 →2段階
のようにシンボル系列変換する。そして、
行内矩形の始点の高さ(Ys/H) 15段階 →4bits、
行内矩形の高さ(h/H) 8段階 →3bits、
行内矩形の幅(W/H) 2段階 →1bit
で処理する。4bits+3bits+1bit=8bitsであるから、1byteの各ビットに全情報を格納することができる。
(実施形態8)本使用例は、欧米系言語とアジア系言語とを2分識別し、その後で各国語識別を行う使用例である。
図14は、欧米系言語とアジア系言語とを識別する使用例における処理のフロー図である。図14において、オペレータは、キーボード6から欧米系言語とアジア系言語とを2分識別する指示を入力すると(S11)、CPU1は、不図示のスキャナにより読み取られた欧米系言語又はアジア系言語の原稿画像について、まず、行内矩形の配置情報を3次元ベクトルで表現し、量子化し、シンボル系列に変換し、欧米系言語及びアジア系言語の訓練用データに基いて作成されたトリグラム表から当該シンボル系列の生起確率演算を行い、その生起傾向から欧米系言語か否かの識別を粗く行う(S12)。欧米系言語と判断される場合は(S12,YES)、欧米言語用OCRを使用し、原稿画像をテキストデータに変換し、変換したテキストデータについて、行内矩形の配置情報を3次元ベクトルで表現し、量子化し、シンボル系列に変換し、欧米系言語の訓練用データに基いて作成されたトリグラム表から当該シンボル系列の生起確率演算を行う。そして最大生起(出現)確率から特定の国の言語を識別する(S13)。なお、欧米言語用OCRは欧米系言語であればどの国の言語用のOCRであってもよい。
図15は、欧米系言語と日本語と中国語とを識別する使用例における処理のフロー図である。図15において、オペレータは、キーボード6から欧米系言語と日本語と中国語とを識別する指示を入力すると(S21)、CPU1は、不図示のスキャナにより読み取られた欧米系言語又は日本語又は中国語の原稿画像について、欧米系言語と日本語と中国語のそれぞれについて行内矩形の配置情報を4次元ベクトルで表現し、量子化し、シンボル系列に変換し、欧米系言語及び日本語及び中国語の各訓練データに基いて作成されたトリグラム表から当該シンボル系列の生起確率演算を行い、まず欧米系言語か否かの判断を行う(S22)。欧米系言語と判断される場合は(S22,YES)、欧米言語用OCRを使用し原稿画像をテキストデータに変換し、テキストデータベースのトリグラムにより、英語、仏語、独語等の欧米系言語の識別を行う(S23)。欧米系言語と判断されない場合(S22,NO)、ステップ21で識別した日本語又は中国語の識別結果を使用する。
図16は、識別対象言語の集合を指定して言語識別を行う処理のフロー図である。図16において、オペレータは、キーボード6から識別する言語の集合を入力すると、入力された言語の集合に基いてCPU1は、不図示のスキャナにより読み取られた原稿画像について、識別すべき言語の集合を指定する(S31)。そして指定された言語識別がアジア系言語のみの識別か否かを判断する(S32)。アジア系言語のみの識別の指定であると判断すると(S32,YES)、前述した行内矩形の配置特徴を4次元で表現し、トリグラムによって詳細に識別を行う(S33)。
Claims (8)
- 文書画像から抽出された文字の外接矩形のトリグラムモデルにより、所定言語の出現確率を算出し、該出現確率により文書中で使用される言語を識別する言語識別装置において、
外接矩形を、当該外接矩形の配置情報を表すパラメータにより、固定段階に量子化する手段と、
固定段階に量子化された外接矩形にシンボルを付与して、外接矩形の系列をシンボルの系列に変換する手段と、
シンボルの系列に基いてシンボルのトリグラムモデルを作成する手段と、
を有することを特徴とする言語識別装置。 - 複数国の言語による基準文書から作成されたトリグラムモデルと識別対象言語による検査用文書から作成されたトリグラムモデルとにより所定言語の出現確率を算出し、検査用文書の使用言語を識別する言語識別装置において、
複数国の言語で作成された基準文書、及び識別対象言語の検査用文書の画像から、前記文書ごと且つ文字行ごとに文字の外接矩形を作成する手段と、
外接矩形を、当該外接矩形の配置情報を表すパラメータにより、固定段階に量子化する手段と、
固定段階に量子化された外接矩形に、当該外接矩形を一意に識別可能にするシンボルを付与する手段と、
シンボルの付与により外接矩形の系列をシンボルの系列に変換する手段と、
シンボルの系列に基いて基準文書の第1トリグラムモデル及び検査用文書の第2トリグラムモデルを作成する手段と、
第1トリグラムモデルを各国言語ごとに記憶する手段と、
第1トリグラムモデルの所定のシンボルの出現確率から、第2トリグラムモデルの所定のシンボルの出現確率を各国言語ごとに算出する手段と、
第2トリグラムモデルの所定のシンボルの出現確率を各国言語ごとに集計する手段と、
集計した各国言語ごとの出現確率により検査用文書の使用言語を決定する手段と、
を有することを特徴とする言語識別装置。 - 請求項2記載の言語識別装置において、
複数国の言語で作成された基準文書、及び識別対象言語の検査用文書の画像から、前記文書ごと且つ文字行ごとに文字の外接矩形間の空白部分を外接矩形として作成する手段を有することを特徴とする言語識別装置。 - 請求項2又は3記載の言語識別装置において、
前記外接矩形を、当該外接矩形の配置情報を表すパラメータにより、固定段階に量子化する手段は、単一又は複数のパラメータにより外接矩形を固定段階に量子化することを特徴とする言語識別装置。 - 請求項4記載の言語識別装置において、
前記単一又は複数のパラメータにより外接矩形を固定段階に量子化する手段は、外接矩形の文字行内における始点の高さ、及び外接矩形の高さ、及び外接矩形の幅、及び外接矩形内の黒画素密度、及び隣接する外接矩形間距離、のいずれか1つ又は、任意の複数の外接矩形の配置情報を表すパラメータにより固定段階に量子化することを特徴とする言語識別装置。 - 請求項5記載の言語識別装置において、
文字行の高さを所定高さであるとみなす手段を更に有することを特徴とする言語識別装置。 - コンピュータを、
複数国の言語で作成された基準文書、及び識別対象言語の検査用文書の画像から、前記文書ごと且つ文字行ごとに文字の外接矩形を作成する手段、
外接矩形を、当該外接矩形の配置情報を表すパラメータにより、固定段階に量子化する手段、
固定段階に量子化された外接矩形に、当該外接矩形を一意に識別可能にするシンボルを付与する手段、
シンボルの付与により外接矩形の系列をシンボルの系列に変換する手段、
シンボルの系列に基いて基準文書の第1トリグラムモデル及び検査用文書の第2トリグラムモデルを作成する手段、
第1トリグラムモデルを各国言語ごとに記憶に記憶させる手段、
第1トリグラムモデルの所定のシンボルの出現確率から、第2トリグラムモデルの所定のシンボルの出現確率を各国言語ごとに算出する手段、
第2トリグラムモデルの所定のシンボルの出現確率を各国言語ごとに集計する手段、
集計した各国言語ごとの出現確率により検査用文書の使用言語を決定する手段、
として機能させるためのプログラム。 - 請求項7記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004211886A JP4678712B2 (ja) | 2003-07-31 | 2004-07-20 | 言語識別装置、プログラム及び記録媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003204353 | 2003-07-31 | ||
JP2004211886A JP4678712B2 (ja) | 2003-07-31 | 2004-07-20 | 言語識別装置、プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005063419A JP2005063419A (ja) | 2005-03-10 |
JP4678712B2 true JP4678712B2 (ja) | 2011-04-27 |
Family
ID=34379914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004211886A Expired - Fee Related JP4678712B2 (ja) | 2003-07-31 | 2004-07-20 | 言語識別装置、プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4678712B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4553241B2 (ja) | 2004-07-20 | 2010-09-29 | 株式会社リコー | 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 |
JP4607633B2 (ja) * | 2005-03-17 | 2011-01-05 | 株式会社リコー | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 |
KR100678201B1 (ko) * | 2005-04-25 | 2007-02-02 | 삼성전자주식회사 | 휴대단말기에서 메인언어를 설정하는 방법 |
JP4856925B2 (ja) | 2005-10-07 | 2012-01-18 | 株式会社リコー | 画像処理装置、画像処理方法及び画像処理プログラム |
US8340430B2 (en) | 2007-07-10 | 2012-12-25 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US8160365B2 (en) | 2008-06-30 | 2012-04-17 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
WO2018135333A1 (ja) * | 2017-01-18 | 2018-07-26 | 京セラドキュメントソリューションズ株式会社 | 画像読取装置 |
US11475054B2 (en) * | 2020-04-24 | 2022-10-18 | Roblox Corporation | Language detection of user input text for online gaming |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721817B2 (ja) * | 1986-03-26 | 1995-03-08 | 株式会社日立製作所 | 文書画像処理方法 |
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5377280A (en) * | 1993-04-19 | 1994-12-27 | Xerox Corporation | Method and apparatus for automatic language determination of European script documents |
US5375176A (en) * | 1993-04-19 | 1994-12-20 | Xerox Corporation | Method and apparatus for automatic character type classification of European script documents |
-
2004
- 2004-07-20 JP JP2004211886A patent/JP4678712B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005063419A (ja) | 2005-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4553241B2 (ja) | 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 | |
JP3647518B2 (ja) | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 | |
CA2265060C (en) | Word grouping accuracy value generation | |
US8693043B2 (en) | Automatic document separation | |
JP4181310B2 (ja) | 数式認識装置および数式認識方法 | |
JP2973944B2 (ja) | 文書処理装置および文書処理方法 | |
JP3689455B2 (ja) | 情報処理方法及び装置 | |
US8160402B2 (en) | Document image processing apparatus | |
JP2005242579A (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP3919617B2 (ja) | 文字認識装置および文字認識方法、プログラムおよび記憶媒体 | |
JP2008171379A (ja) | 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体 | |
JPH05307595A (ja) | 文書画像の復号なしに文書中の文の出現頻度を調べるための方法およびその装置 | |
JPH076206A (ja) | 自動文字分類装置 | |
JP4678712B2 (ja) | 言語識別装置、プログラム及び記録媒体 | |
US20050027511A1 (en) | Language recognition method, system and software | |
EP0457534A2 (en) | Image processing method and apparatus | |
CN112182337B (zh) | 从海量短新闻中识别相似新闻的方法及相关设备 | |
JP2002063548A (ja) | 手書き文字認識方法 | |
JP7358838B2 (ja) | 情報処理装置、及び情報処理プログラム | |
JP3157530B2 (ja) | 文字切り出し方法 | |
JPH0950488A (ja) | 異サイズ混在文字列の読取り方法 | |
KR910007032B1 (ko) | 한글 문서 인식장치의 문자열과 개별문자 절출방법 | |
JP2851102B2 (ja) | 文字切出し方法 | |
JPH0436885A (ja) | 光学式文字読取装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110127 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110127 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |