JP2011180687A - Multilingual document analysis device - Google Patents
Multilingual document analysis device Download PDFInfo
- Publication number
- JP2011180687A JP2011180687A JP2010042321A JP2010042321A JP2011180687A JP 2011180687 A JP2011180687 A JP 2011180687A JP 2010042321 A JP2010042321 A JP 2010042321A JP 2010042321 A JP2010042321 A JP 2010042321A JP 2011180687 A JP2011180687 A JP 2011180687A
- Authority
- JP
- Japan
- Prior art keywords
- language
- image
- text
- character recognition
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
この発明は、文書中の画像に記載された文字の言語種類を判定する多言語文書解析装置に関するものである。 The present invention relates to a multilingual document analysis apparatus that determines the language type of characters described in an image in a document.
複数の言語が混在している文書ファイル群に対し、これらを横通しで全文検索する要求がある。文書内の電子的なテキストは、言語の種類が不明であっても既存のN−Gram検索方式を用いれば全文検索できる。また、文書内の画像部分は、文字認識処理を行ってテキストを抽出することができれば、全文検索が可能である。
しかしながら、画像中の文字を文字認識する場合、その言語に対応した文字認識処理を適用しなければならず、このため、画像中の文字言語を自動判定する処理が必要となる。このような画像に対する言語判定処理として大きく2つの従来技術が存在する。
1つは、画像中から画像処理的に抽出した特徴量を用いて言語の種類を判別するものである。例えば、特許文献1及び特許文献2がある。
また、もう1つは、文字認識処理の結果に基づいて言語の種類を判定するものである。この例として特許文献3がある。
There is a request for a full text search across a document file group in which a plurality of languages are mixed. Electronic text in a document can be searched in full text using an existing N-Gram search method even if the language type is unknown. Further, if the image portion in the document can be extracted by performing character recognition processing, a full-text search can be performed.
However, when a character in an image is recognized, a character recognition process corresponding to the language must be applied. For this reason, a process for automatically determining the character language in the image is required. There are roughly two conventional techniques for language determination processing for such images.
One is to determine the type of language using a feature amount extracted from an image in image processing. For example, there are
The other is to determine the language type based on the result of the character recognition process. There exists
図7は、従来の言語種類の判定処理を説明するための図である。図7の例では、日本語の文字列701及び英語の文字列702を示しており、これらの文字列は、各文字が矩形領域703で囲まれている。
特許文献1に記載の発明では、図7に示す文字列701,702から、個々の文字を囲む矩形領域703の高さを算出し、矩形領域の高さ/文字列の高さの比率が閾値を超える個数をN、閾値以下の個数をMとして、N/Mの値が大きいと、その文字列は日本語であると判定し、N/Mの値が小さい場合には英語であると判定する。
また、特許文献2では、文字を囲む矩形領域703の縦横比や、隣り合う文字の矩形領域間のピッチ等の簡易な情報から、言語の種類を統計的に推定している。
さらに、特許文献3の発明では、複数の言語の音声認識エンジンを用いて、言語が未知の音声に対して認識処理を行い、その処理結果として得られる各言語のスコア(尤度)がもっとも高い言語を判定結果とする。同様な仕組みは文字認識にも適用できる。
FIG. 7 is a diagram for explaining a conventional language type determination process. In the example of FIG. 7, a
In the invention described in
Further, in
Furthermore, in the invention of
特許文献1,2に代表される従来技術では、画像から簡単な画像処理で抽出した特徴量を用いて言語種類を判別するので、文字認識処理が不要で処理速度が速い利点を持つ。
しかしながら、簡単な画像処理で得られた特徴量を用いて判別しているため、このような特徴量が類似した言語に対して十分な判別精度を得ることが難しいという課題がある。
The conventional techniques represented by
However, since discrimination is performed using feature amounts obtained by simple image processing, there is a problem that it is difficult to obtain sufficient discrimination accuracy for languages having similar feature amounts.
また、特許文献3に代表される従来技術は、複数の言語で文字認識処理した結果のスコア(尤度)を用いて最も良いスコアを持つ言語を判別結果とする。このため、簡単な画像処理で抽出した特徴量を用いて言語種類を判別する場合と比べて高い判別精度を得ることができる。
しかしながら、中国語と日本語のように共通する文字(漢字)が多数存在する言語を判別する場合、スコアの差異が現れ難くて言語種類の判別が難しくなるという課題がある。
さらに、重い文字認識処理を言語数回だけ実施する必要があるため、処理速度が遅くなるという課題もある。
Moreover, the prior art represented by
However, when a language having many common characters (Chinese characters) such as Chinese and Japanese is discriminated, there is a problem that it is difficult to discriminate the language type because a difference in scores hardly appears.
Furthermore, since it is necessary to carry out heavy character recognition processing only several times in a language, there is a problem that processing speed becomes slow.
この発明は、上記のような課題を解決するためになされたもので、文書中の画像に記載された文字の言語の種類を高速かつ高精度に判定できる多言語文書解析装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a multilingual document analysis apparatus that can determine the language type of characters described in an image in a document at high speed and with high accuracy. And
この発明に係る多言語文書解析装置は、電子文書からテキストを抽出するテキスト抽出部と、テキスト抽出部が抽出したテキストの言語種類を判定するテキスト言語判定部と、テキスト言語判定部によるテキストに対する言語種類の判定結果から、画像に記載された文字を文字認識する際の言語種類を選定する文字認識言語選定部と、電子文書から画像を抽出する画像抽出部と、文字認識言語選定部が選定した言語種類で、画像抽出部が抽出した画像を文字認識する多言語文字認識処理部と、多言語文字認識処理部による文字認識結果から、画像に記載された文字の言語種類を判定する画像言語判定部とを備えるものである。 A multilingual document analysis apparatus according to the present invention includes a text extraction unit that extracts text from an electronic document, a text language determination unit that determines a language type of the text extracted by the text extraction unit, and a language for the text by the text language determination unit From the type determination results, the character recognition language selection unit that selects the language type for recognizing the characters described in the image, the image extraction unit that extracts the image from the electronic document, and the character recognition language selection unit selected Multilingual character recognition processing unit that recognizes the image extracted by the image extraction unit by language type, and image language determination that determines the language type of the character described in the image from the character recognition result by the multilingual character recognition processing unit Part.
この発明によれば、電子文書から抽出したテキストの言語種類を判定し、この判定結果から、画像に記載された文字を文字認識する際の言語種類を選定するとともに、選定した言語種類で、電子文書から抽出した画像を文字認識し、この文字認識結果から当該画像に記載された文字の言語種類を判定する。このように構成することで、文書中の画像に記載された文字の言語の種類を高速かつ高精度に判定できるという効果がある。 According to the present invention, the language type of the text extracted from the electronic document is determined, and from this determination result, the language type for recognizing the character described in the image is selected, and the selected language type Character recognition is performed on the image extracted from the document, and the language type of the character described in the image is determined from the character recognition result. With this configuration, there is an effect that the language type of characters described in the image in the document can be determined at high speed and with high accuracy.
実施の形態1.
図1は、この発明の実施の形態1による多言語文書解析装置の構成を示すブロック図である。図1において、実施の形態1における多言語文書解析装置は、テキスト抽出部102、テキスト言語判定部103、文字認識言語選定部104、画像抽出部105、多言語文字認識処理部106、画像言語判定部107、テキスト言語判定辞書の記憶部108、及び多言語文字認識辞書の記憶部109を備える。
FIG. 1 is a block diagram showing a configuration of a multilingual document analysis apparatus according to
テキスト抽出部102は、電子文書101の入力を受け付ける構成部であり、入力した電子文書101からテキスト形式のデータを抽出する。テキスト言語判定部103は、テキスト抽出部102により抽出されたテキストデータの内容から、テキストの言語種類を判定する構成部である。文字認識言語選定部104は、テキスト言語判定部103による言語種類の判定結果を受ける構成部であり、当該判定結果から画像に記載された文字の文字認識処理を行う際に利用する言語種類を選定する。
The
画像抽出部105は、電子文書101の入力を受け付ける構成部であり、入力した電子文書101に含まれる画像を抽出する。多言語文字認識処理部106は、文字認識言語選定部104により選定された言語種類を用いて、画像抽出部105により抽出された画像に記載された文字の文字認識処理を実行する構成部である。画像言語判定部107は、多言語文字認識処理部106による文字認識処理の結果を受ける構成部であり、当該文字認識の結果から、画像抽出部105によって抽出された画像に記載される文字の言語種類を判定する。
The
記憶部108は、言語毎の特徴を記載したテキスト言語判定辞書を記憶する記憶部であり、テキスト言語判定部103が言語判定を行う際に当該テキスト言語判定辞書が参照される。記憶部109は、多言語文字認識処理部106による文字認識処理の際に参照される文字認識用辞書を記憶する記憶部であり、言語判定の候補となる言語毎の文字認識辞書が文字認識用辞書として格納される。
The
なお、テキスト抽出部102、テキスト言語判定部103、文字認識言語選定部104、画像抽出部105、多言語文字認識処理部106及び画像言語判定部107は、この発明の趣旨に従う多言語文書解析用プログラムをコンピュータに実行させることで、ハードウエアとソフトウエアとが協働した具体的な手段として、当該コンピュータ上で実現することができる。また、記憶部108,109は、上記コンピュータが搭載する記憶装置、例えば、ハードディスク装置や外部記憶メディア等に構築される。この他、多言語文書解析装置との間で有線又は無線で通信接続が可能なコンピュータ装置が備える記憶装置に構築しても構わない。
The
次に動作について説明する。
先ず、テキスト抽出部102は、入力した電子文書101から電子的なテキストを抽出する。ここで、具体例を挙げてテキスト抽出処理の詳細を説明する。
図2は、電子文書の一例を示す図であり、図3は、図2(a)の電子文書から抽出したテキストの内容を示す図である。図2(a)に示す電子文書101aは、電子的なテキスト201,202と画像203とを含む電子文書である。画像203には、“操作パネル”や“上”、“下”の各文字が記載されている。図2(b)に示す電子文書101bは、ページ全体が画像のみで構成された電子文書である。この電子文書101b中の画像204においても、文字認識の対象となる文字が記載されている。
Next, the operation will be described.
First, the
FIG. 2 is a diagram illustrating an example of an electronic document, and FIG. 3 is a diagram illustrating the contents of text extracted from the electronic document in FIG. An
テキスト抽出部102は、図2(a)に示す電子文書101aから、電子的なテキスト201,202の内容が抽出される。電子文書101a,101bから電子的なテキストの内容を抽出する方法としては、例えば、下記の参考文献1に示す手法を利用する。参考文献1では、電子的なテキストをページ単位で取得し、かつそのページ中のテキスト位置情報を得る方法が記載されている。このような方法で抽出した電子的なテキストは、図3に示すように、ページ番号とテキスト位置を示す情報付きで管理される。
(参考文献1)
平野,岡野,岡田,依田,“ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出”,信学論D,Vol.J91−D,No.5,pp.1406−1417,(2008)
The
(Reference 1)
Hirano, Okano, Okada, Yoda, “Extracting Structured Content Information from Various Documents Based on Analysis of Page Description Languages”, Science Theory D, Vol. J91-D, no. 5, pp. 1406-1417, (2008)
次に、テキスト言語判定部103は、テキスト抽出部102によって抽出された電子的なテキストを、記憶部108から読み出したテキスト言語判定辞書に記載されるプロファイルデータと比較することで、そのテキストの言語種類を推定する。ここで、テキストの言語種類を判定する方法では、ページ単位か、もしくは図3に示したテキスト位置の単位で個々に実施される。テキストから言語種類を推定する方法としては、例えば参考文献2に示す手法を利用することができる。
(参考文献2)
William B. Cavnar, John M. Trenkle, “N−Gram−Based Text Categorization”, SDAIR−94, 3rd Annual Symposium on Document Analysis and Information Retrieval.
Next, the text
(Reference 2)
William B.B. Cavnar, John M. Trunkle, “N-Gram-Based Text Category”, SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval.
図4は、電子的なテキストの言語種類を判定する処理を説明するための説明図である。
上記参考文献2では、予め収集しておいた大量のテキストデータから、言語毎のプロファイルデータを作成しておく。このプロファイルデータは、テキストをN文字ずつに分割して得た文字列要素が、発生頻度の高い順に格納されている。
図4の例では、予め収集しておいた大量の各言語毎(日本語、中国語、英語)のテキストデータから、テキスト言語判定辞書として、日本語のプロファイルデータ402、中国語のプロファイルデータ403及び英語のプロファイルデータ404が記憶部108に記憶される。また、プロファイルデータ402,403,404は、テキストを2文字ずつに分割して得た文字列要素が発生頻度の高い順に格納される。
FIG. 4 is an explanatory diagram for explaining processing for determining the language type of an electronic text.
In
In the example of FIG. 4,
言語種類を判定したいテキストを入力した場合、このテキストに対しても同様にN文字ずつに分割した文字列要素を抽出する。図4では、テキスト言語判定部103が、テキスト抽出部102によって図2(a)に示した電子文書101aから抽出された電子的なテキスト201のテキスト内容を、2文字ずつに分割して文字列要素401を得る。
この後、テキスト言語判定部103は、抽出した文字列要素401が、各言語のプロファイルデータ402,403,404中に含まれるか否かを調べる。
例えば、文字列要素401中の2文字の文字列要素“Fi”は、英語のプロファイルデータ404に含まれている。同様に、文字列要素401中の文字列要素“操作”は、日本語のプロファイルデータ402に含まれている。
テキスト言語判定部103は、言語種類を判定したいテキストから得た文字列要素101の各文字列要素について、上述したプロファイルデータとの照合から、プロファイルデータに含まれる割合を算出する。続いて、算出した割合を基に、テキスト言語判定部103は、テキスト言語の判定結果の信頼度を示すスコア値を算出して、スコアが高い言語を判定結果とする。
When a text whose language type is to be determined is input, a character string element divided into N characters is similarly extracted for this text. In FIG. 4, the text
Thereafter, the text
For example, a two-character string element “Fi” in the
The text
次に、文字認識言語選定部104は、テキスト言語判定部103から上記のスコア値を入力し、このスコア値に基づいて、利用可能な全言語の中から、以降の文字認識処理で利用する言語を選定する。具体的には、スコア値が所定の閾値よりも高い言語を、文字認識処理の候補言語とする。これにより、テキスト言語判定部103によって、ある程度言語が絞りこまれると、以降の文字認識処理において、全言語数分、文字認識処理を繰り返す必要がなくなり、処理時間を短縮することができる。
なお、スコア値が所定の閾値を超える言語がない場合は、利用可能な全言語が候補言語となる。例えば、図2(b)に示した電子文書101bのように、画像しか含まない電子文書では、テキストがないためにスコアが低くなり、結果として全言語で文字認識処理を行うことになる。
Next, the character recognition
If there is no language whose score value exceeds a predetermined threshold, all available languages are candidate languages. For example, an electronic document including only an image like the electronic document 101b shown in FIG. 2B has a low score because there is no text, and as a result, character recognition processing is performed in all languages.
図5は、文字認識処理のための候補言語のリストを示す図であり、文字認識言語選定部104によって、図4に示したテキスト言語判定結果から選定された文字認識処理のための候補言語を示している。図5に示すように、文書中のページやテキスト位置単位で文字認識処理のための候補言語が選定できる。このため、文書の途中で言語が変わっても対応可能である。 FIG. 5 is a diagram showing a list of candidate languages for character recognition processing. The candidate language for character recognition processing selected from the text language determination result shown in FIG. Show. As shown in FIG. 5, a candidate language for character recognition processing can be selected for each page or text position in the document. For this reason, even if the language changes in the middle of the document, it can be handled.
次に、画像抽出部105が、電子文書101から画像を抽出する。この画像抽出部105による画像抽出も、上述の参考文献1に示す方法で実現できる。参考文献1によれば、画像を抽出する際、本画像が含まれるページ番号とページ中の位置情報を一緒に得ることができる。
Next, the
続いて、多言語文字認識処理部106は、文字認識言語選定部104で得られた候補言語を用いて、画像抽出部105で抽出された画像に対する文字認識処理を実行する。ここでは、各言語用の文字認識辞書を、多言語文字認識辞書として事前に記憶部109に格納しておく。多言語文字認識処理部106は、図5に示す文字認識処理の候補言語のデータのうち、これから文字認識処理する画像に記載される文字と関連性のある候補言語(図5中の日本語や英語等)を参照して、文字認識処理するための言語を得る。
具体的には、画像が含まれているのと同一ページの候補言語か、画像の近くに位置するテキストの候補言語を用いて、当該画像を文字認識処理する。
例えば、図5に示すように、ページ番号が1の場合における文字認識処理のための候補言語は、日本語か英語のどちらかだと判断されている。このため、多言語文字認識処理部106は、図2(a)に示した電子文書101aの第1ページに含まれる画像203に対して、日本語と英語の文字認識辞書を用いて、2回、文字認識処理を行う。
Subsequently, the multilingual character
Specifically, character recognition processing is performed on the image using the candidate language of the same page as that containing the image or the candidate language of the text located near the image.
For example, as shown in FIG. 5, it is determined that the candidate language for the character recognition process when the page number is 1 is either Japanese or English. For this reason, the multilingual character
最後に、画像言語判定部107は、多言語文字認識処理部106で得た文字認識結果を用いて、画像中に記載された文字の言語を判断する。ここでは、下記式(1)を用いて、文字認識結果から得た評価値Dlが最も高い言語lを判定結果とする。
但し、Sjバーは文字カテゴリjに含まれる文字の平均文字認識類似度であり、γは重み係数、Mlは言語lの文字カテゴリ数、Zlは言語毎の平均類似度を揃えるバイアス値である。また、Clは言語lの文字カテゴリである。
例えば、日本語、中国語及び英語の3言語で判定を行う場合は、文字カテゴリとして、「UnicodeのCJK漢字領域」「平仮名・カタカナ領域」「英数字・記号領域」を用いる。
Finally, the image
Where S j bar is the average character recognition similarity of the characters included in the character category j, γ is a weighting factor, M l is the number of character categories of language l, and Z l is a bias value for aligning the average similarity for each language. It is. C l is a character category of language l.
For example, when the determination is made in three languages, Japanese, Chinese, and English, “Unicode CJK Kanji Area”, “Hiragana / Katakana Area”, and “Alphanumeric / Symbol Area” are used.
なお、特許文献3に記載される方法は、上記式(1)の第1項及び第3項のみを用いることと同等の内容である。これに対して、本発明では、評価値Dlが画像と異なる言語で文字認識した場合に文字カテゴリ毎の平均類似度の分散値が増加するというヒューリスティックな特性を、上記式(1)の第2項で捕らえる。このように、画像言語判定部107は、複数の言語で文字認識して得られた文字認識結果を定量的に示すスコア(尤度や類似度、距離値等)を、文字カテゴリ毎に集計して、文字カテゴリ毎に算出したスコアの平均の分散値を、画像の言語種類の判定基準に用いる。このようにすることで、同じ文字コードを含む中国語や日本語に対しても高精度に言語を判定することができる。
The method described in
上述した処理を文書中の全ページに対して実施することで、文書に含まれる言語の種別が不明な画像からもテキスト化された情報を取得することができ、画像中の文字に対しても全文検索が可能となる。 By performing the above-described processing on all pages in the document, it is possible to acquire textual information from an image whose language type is unknown in the document, and even for characters in the image. Full-text search is possible.
なお、画像に対して関連するテキスト情報の言語判定結果を用いて、当該画像を文字認識処理し言語種類を判定することで、文書の途中で言語が変わった場合でも対応できる。
図6は、文書中に複数の言語が混在した電子文書の例である。図6に示す電子文書は、日本語で記述された第1ページ目の文書601、中国語で記述された第2ページ目の文書602、英語で記述された第3ページ目の文書603を含んで構成される。
このように、同一文書中で、日本語ページ文書601と中国語ページ文書602と英語ページ文書603とが混在した文書においても、各ページに含まれる周辺のテキスト情報を元に画像に対して正しく言語判定を行い、正しい文字認識結果を抽出できる。
Note that, by using the language determination result of the text information related to the image and performing character recognition processing on the image and determining the language type, it is possible to cope with a case where the language changes in the middle of the document.
FIG. 6 is an example of an electronic document in which a plurality of languages are mixed in the document. The electronic document shown in FIG. 6 includes a
As described above, even in a document in which the
なお、画像文字認識処理する候補言語を絞り込み、この関連性として「同一ページにある」場合を例に説明したが、画像から前後数ページの範囲のテキストを関連性のあるテキストとしても良い。また、画像の近くにあるテキストや、画像と同一パラグラフ内に存在するテキストを、関連性のあるテキストであるとしても良い。 In addition, although the case where the candidate language for image character recognition processing is narrowed down and the relationship is “on the same page” has been described as an example, the text in the range of several pages before and after the image may be related text. Also, text that is close to the image or text that exists in the same paragraph as the image may be related text.
以上のように、この実施の形態1では、電子文書101から抽出したテキストの言語種類を判定し、この判定結果から画像に記載された文字を文字認識する際の言語種類を選定するとともに、選定した言語種類で電子文書101から抽出した画像を文字認識し、この文字認識結果から当該画像に記載された文字の言語種類を判定する。
このように、画像の周辺にあるテキストに対する言語判定結果のスコア値を元に、画像に対して文字認識処理を行う際の言語を絞り込むので、全言語で文字認識処理を行うことが不要となり、高速に画像の言語種類を判定することが可能である。
また、文書の途中で言語が変わった場合でも、正しく言語を特定することができる。
さらに、画像に記載された文字の言語種類を判定するにあたり、文字認識処理結果のスコアを元に言語種類を判定するのではなく、画像と異なる言語で文字認識した場合に文字カテゴリ毎の平均類似度の分散値が増加するというヒューリスティックな特性を考慮した評価値を用いて言語を判定する。これにより、同一の文字コードが存在する日本語や中国語でも、高精度に言語種類を判定することが可能である。
As described above, in the first embodiment, the language type of the text extracted from the
In this way, since the language for performing character recognition processing on the image is narrowed based on the score value of the language determination result for the text around the image, it becomes unnecessary to perform character recognition processing in all languages. It is possible to determine the language type of the image at high speed.
Even if the language changes in the middle of the document, the language can be correctly specified.
Furthermore, when determining the language type of the characters described in the image, instead of determining the language type based on the score of the character recognition processing results, the average similarity for each character category when characters are recognized in a language different from the image The language is determined using an evaluation value that takes into account the heuristic characteristic that the variance value of the degree increases. Thereby, it is possible to determine the language type with high accuracy even in Japanese or Chinese in which the same character code exists.
101,101a,101b,601,602,603 電子文書、102 テキスト抽出部、103 テキスト言語判定部、104 文字認識言語選定部、105 画像抽出部、106 多言語文字認識処理部、107 画像言語判定部、108,109 記憶部、201,202 テキスト、203,204 画像、401 文字列要素、402,403,404 プロファイルデータ、601 日本語ページ文書、602 中国語ページ文書、603 英語ページ文書。 101, 101a, 101b, 601, 602, 603 Electronic document, 102 text extraction unit, 103 text language determination unit, 104 character recognition language selection unit, 105 image extraction unit, 106 multilingual character recognition processing unit, 107 image language determination unit , 108, 109 storage unit, 201, 202 text, 203, 204 image, 401 character string element, 402, 403, 404 profile data, 601 Japanese page document, 602 Chinese page document, 603 English page document.
Claims (4)
前記テキスト抽出部が抽出したテキストの言語種類を判定するテキスト言語判定部と、
前記テキスト言語判定部による前記テキストに対する言語種類の判定結果から、画像に記載された文字を文字認識する際の言語種類を選定する文字認識言語選定部と、
前記電子文書から画像を抽出する画像抽出部と、
前記文字認識言語選定部が選定した言語種類で、前記画像抽出部が抽出した画像を文字認識する多言語文字認識処理部と、
前記多言語文字認識処理部による文字認識結果から、前記画像に記載された文字の言語種類を判定する画像言語判定部とを備えた多言語文書解析装置。 A text extractor for extracting text from an electronic document;
A text language determination unit for determining the language type of the text extracted by the text extraction unit;
A character recognition language selection unit that selects a language type for character recognition of characters described in an image from the determination result of the language type for the text by the text language determination unit;
An image extraction unit for extracting an image from the electronic document;
A language type selected by the character recognition language selection unit, a multilingual character recognition processing unit for recognizing the image extracted by the image extraction unit;
A multilingual document analysis apparatus comprising: an image language determination unit that determines a language type of a character described in the image from a character recognition result by the multilingual character recognition processing unit.
前記画像抽出部は、当該電子文書から画像を文書中の位置情報付きで抽出し、
前記文字認識言語選定部は、前記位置情報に基づき当該テキストの位置に関連性がある画像を特定し、前記テキスト言語判定部による当該テキストに対する言語種類の判定結果から、当該画像を文字認識する際の言語種類を選定することを特徴とする請求項1記載の多言語文書解析装置。 The text extraction unit extracts text from the electronic document with position information in the document,
The image extraction unit extracts an image from the electronic document with position information in the document,
The character recognition language selection unit identifies an image related to the position of the text based on the position information, and recognizes the image from the language type determination result for the text by the text language determination unit. The multilingual document analysis apparatus according to claim 1, wherein the language type is selected.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010042321A JP2011180687A (en) | 2010-02-26 | 2010-02-26 | Multilingual document analysis device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010042321A JP2011180687A (en) | 2010-02-26 | 2010-02-26 | Multilingual document analysis device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011180687A true JP2011180687A (en) | 2011-09-15 |
Family
ID=44692154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010042321A Pending JP2011180687A (en) | 2010-02-26 | 2010-02-26 | Multilingual document analysis device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011180687A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150053968A (en) * | 2012-10-10 | 2015-05-19 | 모토로라 솔루션즈, 인크. | Method and apparatus for identifying a language used in a document and performing ocr recognition based on the language identified |
CN114170594A (en) * | 2021-12-07 | 2022-03-11 | 奇安信科技集团股份有限公司 | Optical character recognition method, device, electronic equipment and storage medium |
-
2010
- 2010-02-26 JP JP2010042321A patent/JP2011180687A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150053968A (en) * | 2012-10-10 | 2015-05-19 | 모토로라 솔루션즈, 인크. | Method and apparatus for identifying a language used in a document and performing ocr recognition based on the language identified |
KR101686363B1 (en) * | 2012-10-10 | 2016-12-13 | 모토로라 솔루션즈, 인크. | Method and apparatus for identifying a language used in a document and performing ocr recognition based on the language identified |
CN114170594A (en) * | 2021-12-07 | 2022-03-11 | 奇安信科技集团股份有限公司 | Optical character recognition method, device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5144940B2 (en) | Improved robustness in table of contents extraction | |
US7983903B2 (en) | Mining bilingual dictionaries from monolingual web pages | |
EP2328098B1 (en) | Apparatus and method for extracting circumscribed rectangles of characters in transplantable electronic document | |
JP3919617B2 (en) | Character recognition device, character recognition method, program, and storage medium | |
CN112287684A (en) | Short text auditing method and device integrating variant word recognition | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
Hussain et al. | Nastalique segmentation-based approach for Urdu OCR | |
EP3563257A1 (en) | Identifying a structure presented in portable document format (pdf) | |
Mei et al. | Statistical learning for OCR text correction | |
EP2653981A1 (en) | Natural language processing device, method, and program | |
JP2008225695A (en) | Character recognition error correction device and program | |
US10534846B1 (en) | Page stream segmentation | |
JP4985724B2 (en) | Word recognition program, word recognition method, and word recognition device | |
JP2009093305A (en) | Business form recognition system | |
JP2007122403A (en) | Device, method, and program for automatically extracting document title and relevant information | |
JP2007310501A (en) | Information processor, its control method, and program | |
US11551461B2 (en) | Text classification | |
US9336197B2 (en) | Language recognition based on vocabulary lists | |
JP2011180687A (en) | Multilingual document analysis device | |
US8549008B1 (en) | Determining section information of a digital volume | |
WO2014114117A1 (en) | Language recognition based on vocabulary lists | |
US11449794B1 (en) | Automatic charset and language detection with machine learning | |
JP6007720B2 (en) | Information processing apparatus and information processing program | |
JP6880956B2 (en) | Analysis program, analysis method and analysis equipment | |
Kaur et al. | Improving the accuracy of tesseract OCR engine for machine printed Hindi documents |