JP5372110B2 - 情報出力装置、情報出力方法、及びコンピュータプログラム - Google Patents
情報出力装置、情報出力方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP5372110B2 JP5372110B2 JP2011237493A JP2011237493A JP5372110B2 JP 5372110 B2 JP5372110 B2 JP 5372110B2 JP 2011237493 A JP2011237493 A JP 2011237493A JP 2011237493 A JP2011237493 A JP 2011237493A JP 5372110 B2 JP5372110 B2 JP 5372110B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- word
- character
- output
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Description
更に、従来、文字認識処理の結果として出力された文章を用いて、元の文書(以下、原文という)を翻訳する技術が提案されている(特許文献3参照)。
以下では、原文に含まれている語句を原語といい、原語に対してルビ状に併記されるべき訳語を訳語ルビという。また、以下では、文字間に存在する空白文字を明示する場合に、空白文字「 」に替えて、アンダーバー「_」を用いる。
英文和訳の場合、「animation 」及び「ion 」等の一般的な名詞は、通常、訳出される。しかしながら、不定冠詞、及び翻訳の際に用いた辞書に記載されていない語句(例えば「ma」)等は訳出されない。
誤った訳語ルビは、往々にして原語とは全く無関係である。このため、訳文の読み手が、原文の意味を誤解したり、意味がわからなくなって混乱したりする虞がある。
語句抽出手段は、画像を文字認識することによって得られた文書から、その語句に関する補足情報を出力可能な語句を抽出する。
また、語句抽出手段が抽出した語句とは、画像を文字認識することによって得られた文書に含まれている語句である。以下では、語句抽出手段が抽出した語句を、抽出語句という。
画像を文字認識することによって得られた文書は、元の文書(即ち原文)とは異なる虞がある。何故ならば、文字認識の際に誤認識が起こり得るからである。
ここで、特別文字とは、原文に含まれている文字又は記号を誤認識することによって得られる可能性が高い文字又は記号(例えば文字「X」に対する記号「×」)である。或いは、特別文字とは、画像に含まれている汚れ又は空白部分等を誤認識することによって得られる可能性が高い文字又は記号(例えば点状の汚れに対する記号「・」)である。
そこで、この場合には、補足出力手段は、抽出語句に関する補足情報を出力する。このとき出力される補足情報は、原語に関する補足情報である。
そこで、この場合には、出力省略手段は、抽出語句に関する補足情報の出力を省く。このとき出力が省かれる補足情報(即ち出力されない補足情報)は、原語とは無関係な補足情報である。
何故ならば、原文が正しく文字認識された結果として、特別文字が得られる可能性もあるが、正しく文字認識されたのであれば、抽出語句の先頭側(又は後尾側)に隣り合うN個の文字又は記号が、全て特別文字である可能性は低い、と考えられるからである。
そこで、この場合には、補足出力手段は、抽出語句に関する補足情報を出力する。
そこで、この場合には、出力省略手段は、抽出語句に関する補足情報の出力を省く。
以上の結果、語句判定手段による判定、即ち誤認識であるか否かの判定に、誤りが生じることを抑制することができる。延いては、正しく文字認識された結果として得られた抽出語句に関する補足情報が出力されない、という不都合を抑制することができる。
語句判定手段が、空白文字を無視して判定処理を行なえば、このような不都合を抑制することができる。
その一方で、正しく文字認識された結果として得られた語句に関する補足情報、即ち、原語に関する補足情報を出力することができる。原語に関する有用な補足情報は、原語、延いては原文を理解する一助となることができる。
情報出力装置1は、パーソナルコンピュータ又はサーバ等の汎用コンピュータを用いて構成されている。
情報出力装置1は、制御部11、RAM12、ドライブ部13、記憶部14、操作部15、表示部16、及びI/F(インタフェース)部17を備えている。
ドライブ部13は、例えばCD−ROMドライブを用いてなり、自身にセットされた記録媒体2から、各種の情報を読み取る。
記録媒体2は、例えば光ディスクであり、記録媒体2には、コンピュータプログラム2Pが記録されている。コンピュータプログラム2Pは、本発明の実施の形態におけるコンピュータプログラムとして機能する。
記憶部14は、不揮発性の大容量記憶装置を用いてなる。記憶部14は、制御部11によって各種データを読み書きされる。
操作部15は、ユーザが情報出力装置1を操作するためのキーボード及びマウス等を用いてなる。ユーザは、操作部15を操作することによって、各種の指示を情報出力装置1に入力する。入力された指示は、制御部11に与えられる。
表示部16は、例えば液晶ディスプレイを用いてなり、制御部11に制御されて、例えば情報出力装置1にて生成された訳文付き文書画像を表示する。
I/F部17は、情報出力装置1と、情報出力装置1の外部の画像読取装置31及び画像形成装置32と(各後述)を接続するためのものである。
情報出力装置1の制御部11は、I/F部17を介して、画像読取装置31から送信された原文画像を受信する。
また、本実施の形態では、原文、及び訳文として、英文、及び英文中の単語又は連語を和訳してなる和文を例示する。ただし、具体例としては、英語の原語と日本語の訳語とを例示する(後述する図4及び図14参照)。
画像形成装置32は、プリンタ、又はプリンタとして機能するデジタル複合機等であり、受信した訳文付き文書画像を、記録用紙に形成する。
本実施の形態では、画像読取装置31及び画像形成装置32は別体に構成されているが、これらは一体に構成されていてもよい。
また、情報出力装置1にて生成された訳文付き文書画像は、情報出力装置1の外部のパーソナルコンピュータ又はサーバ等へ送信されてもよい。
次に、制御部11が訳文付き文書画像を生成する場合の手順を説明する。
図3は、情報出力装置1で実行される情報出力処理の手順を示すフローチャートである。
制御部11は、RAM12にロードしたコンピュータプログラム2Pに従って、図3に示す情報出力処理を実行する。S11〜S17の処理を実行する制御部11は、図2に示す原文画像取得手段41、文字領域抽出手段42、文字認識手段43、訳語取得手段44、付属情報決定手段45、訳文付き文書画像生成手段46、及び訳文付き文書画像出力手段47として機能する。付属情報については後述する。
まず、制御部11は、原文画像を取得する(S11)。S11における制御部11は、画像読取装置31へ画像読取の指示を送信する。この結果、画像読取装置31から情報出力装置1へ原文画像が送信される。このとき、制御部11は、受信した原文画像をRAM12に記憶する。また、制御部11は、必要に応じて、原文画像に対し、解像度の調整、及びデータ形式の変換等の画像処理を施す。
なお、S11では、予め記憶部14に記憶してある原文画像をRAM12に読み出してもよい。
以下では、S11の処理の結果として、原文画像510が取得された場合を説明する。
ところで、文字認識処理では、主に文字の形状(即ち字形)でパターンマッチングを行なうことによって、文字が特定される。このために、文字認識辞書DB141には、各文字の字形データが予め格納されている。
文字データは、S13における文字の認識結果(以下、認識文字という)と、認識文字に係る付属情報とを含んでなる。
図5に示す「文字」は、認識文字である。文字認識処理では、終止符及びコンマ等の記号、並びに空白文字等も文字として扱われる。このため、認識文字には、「A 」及び「n 」等のアルファベットと共に、「! 」及び「| 」等の記号と、空白文字であることを示す「(空白)」とが含まれている。
図5に示す「左X」、「上Y」、「右X」、「下Y」、「領域番号」、「行内位置」、及び「サイズ」は、付属情報である。
「左X」、「上Y」、「右X」、及び「下Y」は、原文画像中での各認識文字の位置を意味する。各認識文字の位置は、認識文字の左端のX座標、上端のY座標、右端のX座標、及び下端のY座標で表されている。
「領域番号」は、制御部11が文字領域に付与した識別番号である。
「サイズ」は、認識文字のフォントサイズであり、単位はポイントである。
図3に示すS13の処理終了後、制御部11は、次の図6に示す訳語取得処理を実行する(S14)。
制御部11は、S13で生成した文字データに基づいて、各行におけるテキストの内容を表す行データを生成する(S31)。S31における制御部11は、文字番号の順に行頭の文字から行末の文字まで認識文字を並べることによって、一行分の行テキストを生成し、生成した行テキストに、行テキストの識別番号である行番号を関連付けることによって、行データを生成する。
図5に示す文字データから生成される行テキストは、図7に示す「An!_ma|;_ion」である。従って、原語「Animation 」は、「An!_ma|;_ion」と誤認識されている。しかしながら、この段階で、制御部11が誤認識の有無を判定することはない。
次に、制御部11は、図6に示すS31で生成した行データに基づいて、次に説明する文章データ及び改行データを生成する(S32)。
S32の処理終了後、制御部11は、補足情報辞書DB142に格納されているデータ(次の図8の参照)を用いて、後述するS33及びS35の処理を実行する。
補足情報辞書DB142には、自然言語処理に必要なデータと、後述する訳出レベルとが格納されている。自然言語処理に必要なデータとは、言語の文法、構文の出現頻度、及び単語の意味等を示すデータである。
例えば、補足情報辞書DB142には、原語と訳語と訳出レベルとが関連付けられて格納されている。具体的には、原語「an」には訳語「一つの」と訳出レベル「0」とが関連付けられ、原語「animation 」には訳語「アニメーション」と訳出レベル「4」とが関連付けられている。
制御部11は、訳出レベルが、操作部15を用いてユーザが設定した設定訳出レベル、又はデフォルトで設定された設定訳出レベル以上である原語を、難易度が高い原語である、と判定する。
本実施の形態における設定訳出レベルは「1」以上であり、具体的には「4」である。従って、「animation 」には訳語ルビが併記されるが、「an」には訳語ルビは併記されない。
制御部11は、各抽出語句に、抽出語句の識別番号であるIDと、抽出語句の先頭に位置する認識文字の文字番号と、抽出語句の文字数と、抽出語句に対応する原語の訳出レベル(以下、抽出語句に係る訳出レベルという)とを関連付けることによって、訳出許否テーブルを生成する。
後述するS34、及びS35の処理を実行することによって、各抽出語句には、後述する訳出許否、及び訳語が更に関連付けられる。
空白文字は単語同士の区切りである。このため、制御部11は、「An!_ma|;_ion」を、「An! 」、「ma|;」、及び「ion 」の3つに区切る。次に、「An! 」に含まれる「! 」は感嘆符であり、「ma|;」に含まれる「| 」及び「; 」はパイプ及びセミコロンである。このため、制御部11は、「An! 」及び「ma|;」を「An」及び「ma」と看做す。
このように、語句「An」及び「ion 」は、訳語ルビを併記することが可能な語句である。語句「ma」には、訳語がないため訳語ルビを併記することが不可能である。
このように、誤認識が生じた場合の抽出語句は、原語とは一致しない。
S33における制御部11が抽出した抽出語句は、本発明の実施の形態における、その語句に関する補足情報を出力可能な語句である。
S33の処理を実行する制御部11は、本発明の実施の形態における語句抽出手段として機能する。
このように、正しく文字認識された場合の抽出語句は、原語と一致する。
制御部11は、図6に示すS33の処理終了後に、次の図10に示す訳出許否判定処理を実行する(S34)。この結果、抽出語句毎に訳出の許否が判定される。
制御部11は、訳出許否テーブルに格納されている抽出語句の内、その抽出語句についてS52以降の処理をまだ実行していないものを1つ選択する(S51)。
次に、制御部11は、訳出許否テーブルを参照して、S51で選択した抽出語句に係る訳出レベルが、設定訳出レベル以上であるか否かについて判定する(S52)。
訳出レベルが設定訳出レベル未満である場合(S52でNO)、制御部11は、訳出許否テーブルにおいて、S51で選択した抽出語句に訳出許否「否」を関連付ける(S53)。
S51で選択した抽出語句が「ion 」又は「Animation 」ならば、訳出レベルが設定訳出レベル以上であるため、S52でYESと判定される。
S51で選択した抽出語句が図9Bに示す訳出許否テーブルに格納されている抽出語句である場合には、従来の手順でも特段の問題は生じない。何故ならば、図9Bに示す訳出許否テーブルに格納されている抽出語句に基づいて補足情報辞書DB142を検索すれば、原語に対応する訳語が得られるからである。従って、得られた訳語が訳語ルビとして原語に併記されていれば、原語の理解が容易になる。
抽出語句の先頭側にM個以上の特別文字が存在しない場合(S54でNO)、制御部11は、文章データを検索することによって、S51で選択した抽出語句の後尾側に、特別文字がM個以上存在するか否かを判定する(S55)。S55の処理の詳細については後述する。
一方、抽出語句の後尾側にM個以上の特別文字が存在しない場合(S55でNO)、制御部11は、訳出許否テーブルにおいて、S51で選択した抽出語句に訳出許否「許」を関連付ける(S56)。
つまり、抽出語句の前後の何れにも、特別文字が全く存在しないか又はM個未満の特別文字が存在する場合の訳出許否は「許」である。
図11は、特別文字テーブル143に格納されているデータの一例を示す模式図である。
特別文字テーブル143には、特別文字として、5個の記号(図11参照)が格納されており、特別文字に関連付けて、特別文字を識別するための文字IDが格納されている。
特別文字は、例示されている5個の記号に限定されず、例えばアルファベット「o 」と誤認識され易い記号「○」が含まれていてもよい。また、アルファベット「l 」と誤認識され易い数字「1 」、又はアルファベット「L」と誤認識され易い平仮名「し」が含まれていてもよい。更に、文字認識された原文の言語に応じて、互いに異なる特別文字テーブル143が用いられてもよい。例えば、日本語を文字認識した場合に用いるべき特別文字テーブル143には、漢字「井」と誤認識され易い記号「#」が含まれていてもよい。
図12は、特別文字の在否を判定するS54(又は55)の処理の手順の詳細を示すフローチャートである。
以下では、抽出語句「ion 」を用いて、S54に関して図12の処理を実行する場合を先に説明する。
制御部11は、まず、変数mに0を代入し(S71)、変数jに1を代入する(S72)。
S73の処理を実行することによって、「An!_ma|;_ion」を含む文章データから、抽出語句「ion 」の先頭文字の1個前の認識文字「_ 」(即ち空白文字)が得られる。
ところで、抽出語句が「Animation 」の場合、抽出語句の先頭文字の1個前の認識文字は存在しない。換言すれば、抽出語句の先頭文字のj個前には空白文字も特別文字も存在しない。従って、この場合には、制御部11は、S73の処理を終了して次のS74へ処理を移し、後述するS74及び76の両方でNOと判定すればよい。
S73で求めた認識文字が空白文字である場合(S74でYES)、制御部11は、変数jを1インクリメントしてから(S75)、処理をS73へ戻す。この結果、m=0及びj=2となる。
抽出語句「ion 」の先頭文字の1個前の認識文字は空白文字である。従って、制御部11は、変数jをj=2としてから、処理をS73へ戻す。
抽出語句「ion 」の先頭文字の2個前の認識文字は「; 」である。これは、空白文字ではなく、特別文字である。
S73で求めた認識文字が特別文字である場合(S76でYES)、制御部11は、変数mを1インクリメントしてから(S77)、処理をS75へ移して変数jを1インクリメントする。この結果、m=1及びj=3となる。
S73で求めた認識文字が特別文字ではない場合(S76でNO)、即ち、S73で求めた認識文字が特別文字以外の文字又は記号である場合、制御部11は、変数mが定数M以上であるか否かを判定する(S78)。ここで、定数Mとは、訳出許否を正確に判定するためのものである。本実施の形態では、M=2の場合を例示する。
m≧Mの場合(S78でYES)、図10に示すS51で選択した抽出語句の先頭側に、M個以上の特別文字が存在する。従って、制御部11は、S54の処理でYESと判定する(S79)。
m<Mの場合(S78でNO)、S51で選択した抽出語句の先頭側に、M個以上の特別文字が存在しない。従って、制御部11は、S54の処理でNOと判定する(S80)。
なお、制御部11は、S77の処理実行後に、変数mが定数M以上であるか否かを判定し、m≧Mの場合は処理をS79へ移し、m<Mの場合は処理をS75へ移してもよい。このような実施の形態では、S76でNOと判定された場合、制御部11は、S78の処理を実行せずにS80の処理を実行すればよい。
以上のように、図12に示す処理における変数mは、抽出文字の前側の特別文字の個数を計数するためのものであり、変数jは、抽出文字の前側の何番目の認識文字に注目しているかを示すものである。
英文における空白文字は、一般に、単語同士又は文同士等の区切りである。従って、本実施の形態では空白文字は特別文字として扱われていない。故に、空白文字を無視せずにS76の判定を実行すると、抽出語句「ion 」の先頭側に空白文字を介して存在する認識文字「; 」及び「| 」を計数せずにS78以降の処理が実行されてしまう。
しかしながら、通常、単語同士は1個の空白文字で区切られるが、文同士は1個の空白文字で区切られる場合も2個の空白文字で区切られる場合もある。また、空白文字の個数が誤認識されないという保証はない。従って、空白文字を特別文字とした場合には、訳出許否を正確に判定するための定数Mを設定することが困難である。
以上のことから、本実施の形態における制御部11は、訳出許否を判定する際に、空白文字は無視している。
この場合、S73における制御部11は、文章データにて、抽出語句の後尾文字のj個後の認識文字を求める。このとき、抽出語句の後尾文字のj個後に空白文字も特別文字も存在しないならば、制御部11は、S73の処理を終了して次のS74へ処理を移し、S74及び76の両方でNOと判定すればよい。
そして、S79における制御部11は、S55の処理でYESと判定し、S80における制御部11は、S55の処理でNOと判定する。
以上の結果、抽出語句が「Animation 」の場合、S54及びS55の何れにおいてもNOと判定される。従って、抽出語句「Animation 」には、S56にて訳出許否「許」が関連付けられる。
ところで、S54(又はS55)でYESと判定された結果として訳出許可「否」が関連付けられた抽出語句とは、当該抽出語句の先頭側(又は後尾側)で誤認識が生じた可能性が高い抽出語句である。故に、S54及びS55の処理とは、誤認識の有無を判定する処理であり、誤認識が生じた箇所を検出する処理である、と看做すこともできる。
未判定語句がある場合(S57でYES)、制御部11は、処理をS51へ戻す。
未判定語句がない場合(S57でNO)、制御部11は、訳出許否判定処理を終了して、図6に示す訳語取得処理へ戻る。
S34の処理を実行することによって、図9Aに示す訳出許否テーブルは、図13Aに示す訳出許否テーブルとなり、図9Bに示す訳出許否テーブルは、図13Bに示す訳出許否テーブルとなる。
図6に示すS33及びS35の処理を実行する制御部11は、図2に示す辞書検索手段441として機能し、S34の処理を実行する制御部11は、訳出許否判定手段442として機能する。
図3に示すS14の処理終了後、制御部11は、訳出許否テーブルに格納されている各訳語について、訳文付き文書画像に訳語ルビを配置する際の配置位置及びフォントサイズ等の付属情報を決定する(S15)。
S15及び16の処理を実行する際には、例えば特許文献3に記載されているような公知の技術を用いればよい。
最後に、制御部11は、訳文付き文書画像を出力する(S17)。S17における制御部11は、訳文付き文書画像の出力を、例えば表示部16に表示させること、画像形成装置32にて記録用紙に画像形成すること、記憶部14若しくは図示しない外部のファイルサーバに記憶させること、又は電子メールに添付して送信すること等、任意の形式で実行する。
また、図10に示すS54又はS55でYESと判定されることによってS53の処理を実行した上で図6に示すS35の処理を実行し、更に図3に示すS15以降の処理を実行する制御部11は、本発明の実施の形態における出力省略手段として機能する。
制御部11が図6に示すS34の処理を実行することによって、図13Aに示す訳出許否テーブルが得られた場合には、制御部11が図3に示すS16の処理を実行することによって、図14Aに示す訳文付き文書画像511が生成される。原語「Animation 」が誤認識された場合には、訳文付き文書画像511に示すように、原語「Animation 」に対する訳語ルビの併記は省略される。
図15に示す訳文付き文書画像513は、図10に示すS52の処理でYESと判定した場合に、S54及びS55の処理を実行せずにS56の処理を実行するような、従来の情報出力装置から出力される。図15に示すように、原語「Animation 」が誤認識されたせいで、原語「Animation 」には原語「Animation 」とは無関係の訳語ルビ「イオン」が併記されている。
図16B,Cは、訳文付き文書画像の他の一例を示す模式図である。
図16Aに示す原文画像520は、原語「significant 」からなる一行を含んでいる。原語「significant 」が「sign_;|cant 」と誤認識された場合、図6に示すS33における制御部11は、「sign_;|cant 」を「sign」及び「cant」の2つに区切る。次に、制御部11は、「sign」及び「cant」から1個の抽出語句「sign」を得る。何故ならば、単語「cant」は補足情報辞書DB142に格納されていないからである。
訳文付き文書画像521をユーザが視認した場合、訳語ルビ「サイン」の配置位置が原語「significant 」に対応しているため、ユーザは、原語「significant 」の訳語が「サイン」であると誤解してしまう可能性が高い。
一方、情報出力装置1においては、抽出語句「sign」に訳出許否「否」が関連付けられる。何故ならば、抽出語句「sign」の後尾側に、M個以上の特別文字が存在するからである。この結果、図16Cに示す訳文付き文書画像522が生成及び出力される。
図4に示す原文画像510の原語「Animation 」が「An!_ma|;_ion」と誤認識された場合、又は、図16Aに示す原文画像520の原語「significant 」が「sign_;|cant 」と誤認識された場合等には、M=1であっても問題はない。
しかしながら、正しく文字認識された結果として、例えば感嘆文を含む文書データが得られた場合、M=1であれば、感嘆符の直後の語句に訳出許否「否」が関連付けられる、という不都合が生じる。
図17Aは、原文画像の他の一例を示す模式図である。
図17B,Cは、訳文付き文書画像の他の一例を示す模式図である。
図17Aに示す原文画像530は、原語「abundance 」からなる一行と、この一行を囲む長方形状の破線とを含んでいる。
原文画像530の場合、原語「abundance 」の直前に位置する破線の一部が誤って特別文字「| 」として認識され、行テキスト「|_abundance 」を含む文章データが生成されることが考えられる。
一方、M≧2であれば、抽出語句「abundance 」に訳出許否「許」が関連付けられ、図17Cに示す訳文付き文書画像532が得られる。即ち、原語「abundance 」に訳語ルビ「存在度」が併記される。
このような場合、制御部11が、特別文字を単語同士の区切りであると看做せばよい。このとき、制御部11は、図6に示すS33の処理で、「An!ma|;ion」を「An! 」、「ma|;」、及び「ion 」の3つに区切って抽出語句「An」及び「ion 」を得る。また、制御部11は、S33の処理で、「sign;|cant」を「sign」及び「cant」の2つに区切って抽出語句「sign」を得る。
また、原文は英文に限定されず、訳文は和文に限定されるものではない。
更に、原文画像及び訳文付き文書画像夫々は、カラー画像でもモノクローム画像でもよい。
更にまた、情報出力装置1は、原文と、補足情報としての原文の注釈、読み仮名、発音記号、又はピンイン記号等とが併記されている補足情報付き文書画像を生成し出力する構成でもよい。
本実施の形態においては、情報出力装置1の制御中枢である制御部11が、コンピュータプログラム2Pに従って、本発明の実施の形態における情報出力方法を実現する形態を示したが、これに限るものではない。例えば、情報出力装置1は、本発明の実施の形態における情報出力方法に係る演算処理の一部又は全部を実行する専用の演算回路を備える構成でもよい。
また、情報出力装置1は、汎用コンピュータを用いてなる構成に限定されず、スキャナ、プリンタ、又はデジタル複合機等を用いてなる構成でもよい。
また、文字認識辞書DB141、補足情報辞書DB142、及び特別文字テーブル143は、制御部11が自在に検索又は参照できるのであれば、情報出力装置1が内蔵する記憶部14に記憶してある構成に限定されず、外部の記憶装置に記憶してある構成でもよい。
また、本発明の効果がある限りにおいて、情報出力装置1に、実施の形態に開示されていない構成要素が含まれていてもよい。
11 制御部(語句抽出手段,語句判定手段,補足出力手段,出力省略手段)
2P コンピュータプログラム
Claims (5)
- 画像を文字認識することによって得られた文書に関する補足情報を出力する情報出力装置であって、
前記文書から、その語句に関する補足情報を出力可能な語句を抽出する語句抽出手段と、
該語句抽出手段が抽出した語句の先頭側又は後尾側に隣り合う文字又は記号が、所定の文字又は記号であるか否かを判定する語句判定手段と、
該語句判定手段が否と判定した場合に、前記語句に関する補足情報を出力する補足出力手段と、
前記語句判定手段が、前記所定の文字又は記号であると判定した場合に、前記語句に関する補足情報の出力を省く出力省略手段と
を備えることを特徴とする情報出力装置。 - 前記語句判定手段は、前記語句の先頭側又は後尾側に隣り合うN個(NはN≧2の自然数)の文字又は記号が、全て前記所定の文字又は記号であるか否かを判定し、
前記補足出力手段は、前記語句判定手段が、前記N個の文字又は記号の内、少なくとも1個の文字又は記号が前記所定の文字又は記号ではないと判定した場合に、前記語句に関する補足情報を出力し、
前記出力省略手段は、前記語句判定手段が、全て前記所定の文字又は記号であると判定した場合に、前記語句に関する補足情報の出力を省くようにしてあることを特徴とする請求項1に記載の情報出力装置。 - 前記語句の先頭側又は後尾側に空白文字が隣り合っている場合、前記語句判定手段は、前記空白文字を無視するようにしてあることを特徴とする請求項1又は2に記載の情報出力装置。
- 画像を文字認識することによって得られた文書に関する補足情報を出力する情報出力方法であって、
前記文書から、その語句に関する補足情報を出力可能な語句を抽出し、
抽出した語句の先頭側又は後尾側に隣り合う文字又は記号が、所定の文字又は記号ではない場合に、前記語句に関する補足情報を出力し、
前記抽出した語句の先頭側又は後尾側に隣り合う文字又は記号が、前記所定の文字又は記号である場合に、前記語句に関する補足情報の出力を省くことを特徴とする情報出力方法。 - コンピュータに、画像を文字認識することによって得られた文書に関する補足情報を出力させるためのコンピュータプログラムであって、
コンピュータに、前記文書から、その語句に関する補足情報を出力可能な語句を抽出させる抽出ステップと、
コンピュータに、前記抽出ステップで抽出された語句の先頭側又は後尾側に隣り合う文字又は記号が、所定の文字又は記号であるか否かを判定させる語句判定ステップと、
該語句判定ステップで否と判定された場合に、
コンピュータに、前記語句に関する補足情報を出力させる出力ステップと、
前記語句判定ステップで、前記文字又は記号であると判定された場合に、
コンピュータに、前記語句に関する補足情報の出力を省かせる省略ステップと
を実行させることを特徴とするコンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011237493A JP5372110B2 (ja) | 2011-10-28 | 2011-10-28 | 情報出力装置、情報出力方法、及びコンピュータプログラム |
US13/618,122 US8923618B2 (en) | 2011-10-28 | 2012-09-14 | Information output device and information output method |
CN201210418061.0A CN103093252B (zh) | 2011-10-28 | 2012-10-26 | 信息输出装置以及信息输出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011237493A JP5372110B2 (ja) | 2011-10-28 | 2011-10-28 | 情報出力装置、情報出力方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013097446A JP2013097446A (ja) | 2013-05-20 |
JP5372110B2 true JP5372110B2 (ja) | 2013-12-18 |
Family
ID=48172510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011237493A Active JP5372110B2 (ja) | 2011-10-28 | 2011-10-28 | 情報出力装置、情報出力方法、及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8923618B2 (ja) |
JP (1) | JP5372110B2 (ja) |
CN (1) | CN103093252B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9411801B2 (en) * | 2012-12-21 | 2016-08-09 | Abbyy Development Llc | General dictionary for all languages |
JP6119689B2 (ja) * | 2014-07-11 | 2017-04-26 | コニカミノルタ株式会社 | 電子文書生成システム、電子文書生成装置およびプログラム |
CN105988991B (zh) * | 2015-02-26 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 一种姓氏所属语种的识别方法、装置及服务器 |
CN105988989B (zh) * | 2015-02-26 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 一种汉语姓氏的识别方法、装置及服务器 |
CN106980604B (zh) * | 2017-03-30 | 2019-12-31 | 理光图像技术(上海)有限公司 | 合同内容校阅装置 |
KR102449875B1 (ko) * | 2017-10-18 | 2022-09-30 | 삼성전자주식회사 | 음성 신호 번역 방법 및 그에 따른 전자 장치 |
CN108182432A (zh) * | 2017-12-28 | 2018-06-19 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
RU2721189C1 (ru) | 2019-08-29 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа |
RU2723293C1 (ru) | 2019-08-29 | 2020-06-09 | Общество с ограниченной ответственностью "Аби Продакшн" | Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа |
RU2760471C1 (ru) | 2020-12-17 | 2021-11-25 | АБИ Девелопмент Инк. | Способы и системы идентификации полей в документе |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2042780B (en) * | 1979-02-12 | 1982-07-14 | Philips Electronic Associated | Alphanumeric character display |
JPS6466777A (en) * | 1987-09-08 | 1989-03-13 | Sharp Kk | Mechanical translation device |
JP2918380B2 (ja) | 1992-01-28 | 1999-07-12 | 沖電気工業株式会社 | 文字認識結果の後処理方法 |
JPH05314175A (ja) * | 1992-05-13 | 1993-11-26 | Ricoh Co Ltd | 対訳画像形成装置 |
US5448474A (en) * | 1993-03-03 | 1995-09-05 | International Business Machines Corporation | Method for isolation of Chinese words from connected Chinese text |
JPH0944606A (ja) | 1995-08-02 | 1997-02-14 | Oki Electric Ind Co Ltd | 文字認識処理方法 |
JP3188154B2 (ja) | 1995-08-02 | 2001-07-16 | 沖電気工業株式会社 | 文字認識処理方法 |
JP2004206476A (ja) * | 2002-12-25 | 2004-07-22 | Internatl Business Mach Corp <Ibm> | データベースシステム、端末装置、検索データベースサーバ、検索キー入力支援方法及びプログラム |
JP3896341B2 (ja) * | 2003-04-07 | 2007-03-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体 |
JP3890326B2 (ja) * | 2003-11-07 | 2007-03-07 | キヤノン株式会社 | 情報処理装置、情報処理方法ならびに記録媒体、プログラム |
US8271486B2 (en) * | 2006-07-28 | 2012-09-18 | Yahoo! Inc. | System and method for searching a bookmark and tag database for relevant bookmarks |
JP5235344B2 (ja) * | 2007-07-03 | 2013-07-10 | 株式会社東芝 | 機械翻訳を行う装置、方法およびプログラム |
JP4483909B2 (ja) * | 2007-08-24 | 2010-06-16 | 富士ゼロックス株式会社 | 翻訳装置及びプログラム |
JP2009205209A (ja) * | 2008-02-26 | 2009-09-10 | Fuji Xerox Co Ltd | 文書画像処理装置、及び文書画像処理プログラム |
JP4626777B2 (ja) * | 2008-03-14 | 2011-02-09 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP4948586B2 (ja) * | 2009-11-06 | 2012-06-06 | シャープ株式会社 | 文書画像生成装置、文書画像生成方法、コンピュータプログラム及び記録媒体 |
JP4999938B2 (ja) * | 2010-01-07 | 2012-08-15 | シャープ株式会社 | 文書画像生成装置、文書画像生成方法及びコンピュータプログラム |
-
2011
- 2011-10-28 JP JP2011237493A patent/JP5372110B2/ja active Active
-
2012
- 2012-09-14 US US13/618,122 patent/US8923618B2/en active Active
- 2012-10-26 CN CN201210418061.0A patent/CN103093252B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013097446A (ja) | 2013-05-20 |
CN103093252B (zh) | 2016-11-09 |
US20130108162A1 (en) | 2013-05-02 |
US8923618B2 (en) | 2014-12-30 |
CN103093252A (zh) | 2013-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5372110B2 (ja) | 情報出力装置、情報出力方法、及びコンピュータプログラム | |
US8503786B2 (en) | Document image generation apparatus, document image generation method and recording medium | |
US20060217958A1 (en) | Electronic device and recording medium | |
JP4311365B2 (ja) | 文書処理装置およびプログラム | |
CA2665600A1 (en) | Web-based collocation error proofing | |
JP2007058605A (ja) | 文書管理システム | |
JP4999938B2 (ja) | 文書画像生成装置、文書画像生成方法及びコンピュータプログラム | |
JP2018025885A (ja) | 画像処理装置 | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JP2011065255A (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
JP2007310501A (ja) | 情報処理装置、その制御方法、及びプログラム | |
CN110782899B (zh) | 信息处理装置、存储介质及信息处理方法 | |
JP4886244B2 (ja) | 機械翻訳装置および機械翻訳プログラム | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
JP2008027133A (ja) | 帳票処理装置及び帳票処理方法ならびに帳票処理方法を実行するプログラムと記憶媒体 | |
JP5604276B2 (ja) | 文書画像生成装置および文書画像生成方法 | |
JP2017151768A (ja) | 翻訳プログラム及び情報処理装置 | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
JP2019215936A (ja) | 自動翻訳装置及び自動翻訳プログラム | |
US11206335B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
CN107679043A (zh) | 数据处理方法、装置及终端设备 | |
JP2008090247A (ja) | 和訳ローマ字略語を付加したゲルマン語群言語の辞書。 | |
JP2007034425A (ja) | 翻訳装置、プログラム及び記憶媒体 | |
JP2010055561A (ja) | 電子辞書、電子辞書における検索方法、およびプログラム | |
JP2006349836A (ja) | 文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130917 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5372110 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |