JP2024078160A - 文字列識別方法 - Google Patents

文字列識別方法 Download PDF

Info

Publication number
JP2024078160A
JP2024078160A JP2022190554A JP2022190554A JP2024078160A JP 2024078160 A JP2024078160 A JP 2024078160A JP 2022190554 A JP2022190554 A JP 2022190554A JP 2022190554 A JP2022190554 A JP 2022190554A JP 2024078160 A JP2024078160 A JP 2024078160A
Authority
JP
Japan
Prior art keywords
character string
text
similarity
image
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022190554A
Other languages
English (en)
Inventor
伸一 竹内
鷹之 西田
真吾 則竹
亮 村上
涼 柳川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2022190554A priority Critical patent/JP2024078160A/ja
Publication of JP2024078160A publication Critical patent/JP2024078160A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】所望の文字列が画像に記載されているか否かを精度良く判定できるようにすること。【解決手段】文字列識別方法は、画像から文字列を取得すること(S17)、画像から取得した文字列と第1テキストTX1との類似度である第1類似度X1、及び、画像から取得した文字列と第2テキストTX2との類似度である第2類似度X2を算出すること(S19、S21)、及び、第1類似度X1が第2類似度X2よりも大きい場合に(S23:YES)、第1テキストTX1の文字列が画像に記載されていると判定すること(S25)をコンピューターに実行させる。【選択図】図4

Description

本発明は、画像に記載されている文字列を識別する文字列識別方法に関する。
特許文献1には、光学文字識別の技術を用いてテキストの画像をテキスト形式に変換する方法の一例が開示されている。具体的には、当該方法では、識別対象のピクチャの中からテキスト領域の囲み枠を確定し、当該囲み枠に基づいて、識別対象のピクチャからテキスト領域ピクチャが抽出される。続いて、当該テキスト領域ピクチャの中からテキスト行の囲み枠を確定し、当該囲み枠に基づいて、当該テキスト領域ピクチャからテキスト行ピクチャが抽出される。そして、当該テキスト行ピクチャに対してテキストシーケンス識別を行うことにより、識別結果が得られる。
なお、識別結果を得る際には、軽量テキストシーケンス識別モデルが用いられる。当該識別モデルは、機械学習が施された学習済モデルである。
特開2021-197190号公報
画像には、複数の文字で構成される文字列が記載されていることがある。上記のような手法で、こうした文字列を識別結果として取得した場合を考える。この場合、光学文字識別によって取得した文字列を基に、所望の文字列が画像に記載されているか否かが判定される。
画像には、所望の文字列に似た他の文字列が記載されていることがある。この場合、上記他の文字列を画像から取得した場合、当該他の文字列と所望の文字列のテキストとの比較によって、所望の文字列が画像に記載されていると誤判定されるおそれがある。
上記課題を解決するための文字列識別方法は、画像データで示される画像に記載されている文字列を識別する方法である。コンピューターは、複数の文字で構成された文字列のテキストとして、第1テキストと第2テキストとを記憶する記憶装置を有している。前記第2テキストの文字列は、前記第1テキストの文字列を構成する複数の文字のうち、一部の文字が異なる文字列である。当該文字列識別方法は、前記画像から文字列を取得することと、前記画像から取得した文字列と前記第1テキストとの類似度である第1類似度、及び、前記画像から取得した文字列と前記第2テキストとの類似度である第2類似度を算出することと、前記第1類似度が前記第2類似度よりも大きい場合に、前記第1テキストの文字列が前記画像に記載されていると判定することと、を前記コンピューターに実行させる。
上記文字列識別方法では、画像から文字列が取得されると、当該文字列と第1テキストとの第1類似度と、当該文字列と第2テキストとの第2類似度とが比較される。第1類似度が第2類似度よりも高い場合に、第1テキストの文字列が画像に記載されていると判定される。第1テキストの文字列を所望の文字列としたとき、上記文字列識別方法によれば、所望の文字列が画像に記載されているか否かを精度良く判定できる。
なお、画像において所定の情報が記載されている領域を特定する際に、機械学習が施された学習済モデルを用いてもよい。
図1は、実施形態の文字列識別方法を実現するための識別装置の概略を示すブロック図である。 図2は、設計図面の画像を示す模式図である。 図3は、複数のテキストを示す表である。 図4は、実施形態の文字列識別方法を示すフローチャートである。
以下、文字列識別方法の一実施形態を図1~図4に従って説明する。
本実施形態の文字列識別方法は、画像データで示される画像に、所望の文字列が記載されているか否かを判定する方法である。詳しくは、文字列識別方法では、画像から文字列を取得し、当該文字列と、所望の文字列に相当するテキストとを比較することにより、画像に所望の文字列が記載されているか否かが判定される。なお、文字列とは、複数の文字からなるものである。
<識別装置>
図1を参照し、文字列識別方法を実現するための識別装置10について説明する。
識別装置10は、ユーザーインターフェース11と、コンピューター20とを備えている。
ユーザーインターフェース11は、作業者が操作する操作部12と、コンピューター20から受信した情報の内容を表示する表示部13とを有している。操作部12は、物理的なボタンやスイッチ、及び、タッチパネルを有している表示画面に表示されるボタンのうちの少なくとも一方を有している。ユーザーインターフェース11は、作業者による操作部12の操作に応じた要求をコンピューター20に出力する。
コンピューター20は、例えば電子制御装置である。この場合、コンピューター20は、CPU21と、第1記憶装置22と、第2記憶装置23とを有している。第1記憶装置22には、CPU21によって実行される制御プログラムCPが記憶されている。CPU21が制御プログラムCPを実行することにより、コンピューター20は、図4に示す一連の処理を実行する。すなわち、コンピューター20は、画像データで示される画像からOCRによって文字列を抽出する。そして、コンピューター20は、抽出した文字列が、所望の文字列であるか否かを判定する。なお、OCRとは光学文字識別である。
第2記憶装置23には、学習済モデルLMと、複数のテキストTXとが記憶されている。
学習済モデルLMは、画像の中から、所定の情報の内容を示す文字列が記載されている領域を特定するための機械学習が施された学習モデルである。例えば、学習済モデルLMの一例は、多次元多項式の近似器である。例えば、学習済モデルLMは、中間層が1層である全結合順伝搬型のニューラルネットワークによって構成されている。
学習済モデルLMは、所定の情報、画像データ及び書類の種類が入力変数として入力された場合に、当該所定の情報の内容を示す文字列が記載されている領域を示す値を出力変数として出力する。
例えば学習済モデルLMは、以下に示すような機械学習を学習モデルに施すことによって生成された。
図2には、設計図面の画像IMGが図示されている。図2に示す設計図面の画像IMGにあっては、書類の種類は「設計図面」であり、所定の情報の一例は普通公差である。図2に示す画像IMGでは、普通公差(所定の情報)の内容を示す文字列である「JISG100」が図中右下の領域に存在している。そのため、所定の情報として普通公差、書類の種類として設計図面、及び画像IMGの画像データを入力変数として学習モデルに入力した場合、画像における右下の領域を示す値が出力変数として出力されるように、当該学習モデルに対して機械学習が施される。
テキストTXは、画像から抽出した文字を識別する際に用いられる。
図3には、設計図面における普通公差用のテキストTXとして、第1テキストTX1、及び複数の第2テキストTX2が示されている。第1テキストTX1の文字列は、所望の文字列と同じである。図3に示す例では、第1テキストTX1を構成する文字数は7個であり、文字列は「JISG100」である。
複数の第2テキストTX2の文字列は、第1テキストTX1の文字列を構成する複数の文字のうち、一部の文字が異なる文字列である。第2テキストTX2を構成する文字数は、第1テキストTX1を構成する文字数と同じである。例えば、第1テキストTX1と混合したくない文字列を第2テキストTX2として設定することが好ましい。
図3に示す例では、第2テキストTX2(1)の文字列は「JISG101」である。第2テキストTX2(2)の文字列は「JISG200」である。第2テキストTX2(3)の文字列は「JISF100」である。第2テキストTX2(4)の文字列は「JISG110」である。
<文字列識別方法>
図4には、文字列識別方法を構成する複数の処理の実行手順を示すフローチャートが図示されている。コンピューター20が画像データを取得すると、コンピューター20は図4に示す一連の処理を開始する。
ステップS11において、コンピューター20は、取得した画像データの画像における書類の種類及び所定の情報を取得する。コンピューター20は、例えば作業者によるユーザーインターフェース11の操作部12の入力操作に基づいて、書類の種類及び所定の情報を取得する。
ステップS13において、コンピューター20は、書類の種類、所定の情報及び画像データを入力変数として学習済モデルLMに入力する。続くステップS15において、コンピューター20は、学習済モデルLMの出力変数を基に、所定の情報の内容を示す文字列が記載されている領域を特定する。
ステップS17において、コンピューター20は、画像の中で、ステップS15で特定した領域からOCRが抽出した文字列を取得する。
ステップS19において、コンピューター20は、ステップS17で取得された文字列と第1テキストTX1との類似度である第1類似度X1を算出する。具体的には、コンピューター20は、所定の情報及び書類の種類に応じた第1テキストTX1を第2記憶装置23から読み出す。そして、コンピューター20は、ステップS17で取得された文字列と、第2記憶装置23から読み出した第1テキストTX1とを比較することによって、第1類似度X1を算出する。
ここで、ステップS17で取得された文字列が「JISG106」であり、比較に用いる第1テキストTX1の文字列が「JISG100」である場合を一例として説明する。この場合、ステップS19で取得された文字列の中で、先頭の「J」、2番目の「I」、3番目の「S」、4番目の「G」、5番目の「1」及び6番目の「0」は、第1テキストTX1と一致している。その一方で、7番目の「6」は、第1テキストTX1と一致していない。そのため、コンピューター20は、第1テキストTX1と一致した文字数が6個であることを取得できる。そして、コンピューター20は、例えば以下に示す関係式(F1)を用いて第1類似度X1を算出する。関係式(F1)において、「X」は類似度の算出値であり、「Z1」は第1テキストTX1と一致した文字数であり、「Y1」はOCRによって取得された文字の数であり、「Y2」は第1テキストTX1の文字数である。
X=(2×Z1)/(Y1+Y2) (F1)
ここで説明している場合、OCRによって取得された文字の数は7個であり、第1テキストTX1の文字数は7個である。そのため、コンピューター20は、「Y1」に7を代入するとともに「Y2」に7を代入する。そして、コンピューター20は、「Z1」に6を代入することにより、類似度Xとして「0.857」を算出する。この「0.857」が第1類似度X1である。
なお、ステップS17で取得された文字列が「JISG100」であった場合、コンピューター20は、関係式(F1)の「Z1」に7を代入するため、第1類似度X1として「1」を算出する。
コンピューター20は、第1類似度X1を算出すると、処理をステップS21に移行する。ステップS21において、コンピューター20は、ステップS17で取得された文字列と第2テキストTX2との類似度である第2類似度X2を算出する。具体的には、コンピューター20は、所定の情報及び書類の種類に応じた第2テキストTX2を第2記憶装置23から読み出す。そして、コンピューター20は、ステップS17で取得された文字列と、第2記憶装置23から読み出した第2テキストTX2とを比較することによって、第2類似度X2を算出する。すなわち、コンピューター20は、上記ステップS19と同様に、上記関係式(F1)を用いることによって第2類似度X2を算出する。
本実施形態では、図3に示したように、所定の情報及び書類の種類に応じた複数の第2テキストTX2が第2記憶装置23に記憶されていることがある。この場合、コンピューター20は、複数の第2テキストTX2の何れにおいても第2類似度X2を算出する。例えば、コンピューター20は、ステップS17で取得された文字列と第2テキストTX2(1)との第2類似度X2を、第2類似度X2(1)として算出する。コンピューター20は、ステップS17で取得された文字列と第2テキストTX2(2)との第2類似度X2を、第2類似度X2(2)として算出する。コンピューター20は、ステップS17で取得された文字列と第2テキストTX2(3)との第2類似度X2を、第2類似度X2(3)として算出する。コンピューター20は、ステップS17で取得された文字列と第2テキストTX2(4)との第2類似度X2を、第2類似度X2(4)として算出する。
続くステップS23において、コンピューター20は、第1類似度X1が第2類似度X2よりも大きいか否かを判定する。コンピューター20は、ステップS21で複数の第2類似度X2を算出した場合、複数の第2類似度X2の何れか1つを、選択類似度として選択する。そして、コンピューター20は、第1類似度X1が選択類似度よりも大きいか否かを判定する。例えば、コンピューター20は、複数の類似度X2のうちの最大値を選択類似度として選択する。
コンピューター20は、第1類似度X1が第2類似度X2よりも大きい場合(S23:YES)、処理をステップS25に移行する。一方、コンピューター20は、第1類似度X1が第2類似度X2以下である場合(S23:NO)、処理をステップS27に移行する。
ステップS25において、コンピューター20は、所望の文字列が画像に記載されている旨をユーザーインターフェース11の表示部13に表示させる。その後、コンピューター20は一連の処理を終了する。
ステップS27において、コンピューター20は、所望の文字列が画像に記載されていない旨をユーザーインターフェース11の表示部13に表示させる。その後、コンピューター20は一連の処理を終了する。
<作用及び効果>
コンピューター20に画像データが入力されると、図4に示した一連の処理が実行される。画像データで示される画像の書類の種類及び所定の情報をコンピューター20が取得すると、コンピューター20の処理によって、画像の中で、所定の情報が記載されている領域が特定される。そして、特定した領域から文字列がOCRによって抽出される。
このように画像から文字列が取得されると、当該文字列と第1テキストTX1との第1類似度X1が算出される。また、当該文字列と第2テキストTX2との第2類似度X2が算出される。第1テキストTX1の文字列は、所望の文字列に相当する。そのため、第1類似度X1が第2類似度X2よりも高いと、コンピューター20は、所望の文字列が画像に記載されていると判定する。したがって、所望の文字列が画像に記載されているか否かを精度良く判定できる。
第2類似度X2が第1類似度X1以上である場合、所望の文字列には似ているが、所望の文字列とは別の文字列が画像に記載されている可能性がある。そのため、第1類似度X1が第2類似度X2以下である場合、コンピューター20は、所望の文字列が画像に記載されていないと判定する。
ここで、第2テキストTX2が複数存在することもある。本実施形態では、上述したように、複数の第2テキストTX2毎に第2類似度X2が算出される。そして、複数の類似度X2のうちの値の最も大きい値と第1類似度X1とを比較するようにしている。これにより、所望の文字列が画像に記載されているか否かの判定精度をより高くできる。
<変更例>
上記実施形態は、以下のように変更して実施することができる。上記実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・画像からOCRで文字を抽出する場合、文字の読み間違いが発生することがある。例えば、読み間違いが発生しやすい文字としては、例えば、以下に示す文字が存在する。
アルファベットの大文字の「O」と、数字の「0(零)」。
アルファベットの大文字の「I」と、数字の「1」。
アルファベットの大文字の「Z」と、小文字の「z」。
アルファベットの大文字の「G」と、数字の「6」。
このように読み間違いが発生しやすい文字を確認文字として予め登録しておくとよい。例えば、画像に実際に記載されている文字が「I(アルファベットの大文字)」である場合、OCRによって「I(アルファベットの大文字)」が抽出されたり、「1(数字のイチ)」が抽出されたりする。そのため、OCRで抽出した文字が確認文字であり、テキストTXの文字が「1(数字のイチ)」である場合、OCRで抽出した文字が「I」であっても「1」であっても、抽出した文字とテキストTXの文字とが一致していると判定するとよい。これにより、OCRによる文字の抽出精度に起因して類似度X1,X2が低めに算出されることを抑制できる。
・図4に示した一連の処理におけるステップS21で、複数の類似度X2を算出した場合、ステップS23では、第1類似度X1が複数の類似度X2の平均値よりも大きいか否かを判定するようにしてもよい。
・学習済モデルLMの入力変数は、所定の情報及び画像データを含んでいるのであれば、書類の種類を含まなくてもよい。
・第2テキストは、第1テキストTX1の文字列を構成する複数の文字のうち、一部の文字のみが異なる文字列であればよい。例えば、第2テキストとして、第1テキストTX1の文字列を構成する複数の文字のうち、2つの文字のみが異なる文字列を採用してもよい。
・ニューラルネットワークは、中間層が1層のフィードフォワードネットワークに限らない。例えば、ニューラルネットワークは、中間層が2層以上のネットワークであってもよいし、畳み込みニューラルネットワークやリカレントニューラルネットワークであってもよい。
・機械学習による学習済みモデルは、ニューラルネットワークでなくてもよい。例えば、学習済みモデルとして、サポートベクトルマシンを採用してもよい。
・コンピューター20は、CPUとROMとを備えて、ソフトウェア処理を実行するものに限らない。すなわち、コンピューター20は、以下(a)~(c)の何れかの構成であればよい。
(a)コンピューター20は、コンピュータープログラムに従って各種処理を実行する一つ以上のプロセッサを備えている。プロセッサは、CPU並びに、RAM及びROMなどのメモリを含んでいる。メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリ、すなわちコンピューター可読媒体は、汎用又は専用のコンピューターでアクセスできるあらゆる利用可能な媒体を含んでいる。
(b)コンピューター20は、各種処理を実行する一つ以上の専用のハードウェア回路を備えている。専用のハードウェア回路としては、例えば、特定用途向け集積回路、すなわちASIC又はFPGAを挙げることができる。なお、ASICは、「Application Specific Integrated Circuit」の略記であり、FPGAは、「Field Programmable Gate Array」の略記である。
(c)コンピューター20は、各種処理の一部をコンピュータープログラムに従って実行するプロセッサと、各種処理のうちの残りの処理を実行する専用のハードウェア回路とを備えている。
なお、本明細書において使用される「少なくとも1つ」という表現は、所望の選択肢の「1つ以上」を意味する。一例として、本明細書において使用される「少なくとも1つ」という表現は、選択肢の数が2つであれば「1つの選択肢のみ」又は「2つの選択肢の双方」を意味する。他の例として、本明細書において使用される「少なくとも1つ」という表現は、選択肢の数が3つ以上であれば「1つの選択肢のみ」又は「2つ以上の任意の選択肢の組み合わせ」を意味する。
20…コンピューター、21…CPU、23…第2記憶装置、IMG…画像、TX1…第1テキスト、TX2…第2テキスト。

Claims (2)

  1. 画像データで示される画像に記載されている文字列を識別する文字列識別方法であって、
    コンピューターは、複数の文字で構成された文字列のテキストとして、第1テキストと第2テキストとを記憶する記憶装置を有しており、
    前記第2テキストの文字列は、前記第1テキストの文字列を構成する複数の文字のうち、一部の文字が異なる文字列であり、
    前記画像から文字列を取得することと、
    前記画像から取得した文字列と前記第1テキストとの類似度である第1類似度、及び、前記画像から取得した文字列と前記第2テキストとの類似度である第2類似度を算出することと、
    前記第1類似度が前記第2類似度よりも大きい場合に、前記第1テキストの文字列が前記画像に記載されていると判定することと、を前記コンピューターに実行させる
    文字列識別方法。
  2. 前記第1類似度が前記第2類似度以下である場合、前記第1テキストの文字列が前記画像に記載されていないと判定することを前記コンピューターに実行させる
    請求項1に記載の文字列識別方法。
JP2022190554A 2022-11-29 2022-11-29 文字列識別方法 Pending JP2024078160A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022190554A JP2024078160A (ja) 2022-11-29 2022-11-29 文字列識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022190554A JP2024078160A (ja) 2022-11-29 2022-11-29 文字列識別方法

Publications (1)

Publication Number Publication Date
JP2024078160A true JP2024078160A (ja) 2024-06-10

Family

ID=91377574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022190554A Pending JP2024078160A (ja) 2022-11-29 2022-11-29 文字列識別方法

Country Status (1)

Country Link
JP (1) JP2024078160A (ja)

Similar Documents

Publication Publication Date Title
US9898464B2 (en) Information extraction supporting apparatus and method
US10528649B2 (en) Recognizing unseen fonts based on visual similarity
US10185701B2 (en) Unsupported character code detection mechanism
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
JP2012174222A (ja) 画像認識プログラム、方法及び装置
JP6275840B2 (ja) 手書き文字の識別方法
US8750571B2 (en) Methods of object search and recognition
KR102282025B1 (ko) 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
CN105843414B (zh) 输入法的输入修正方法和输入法装置
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
JP2024078160A (ja) 文字列識別方法
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
US10049107B2 (en) Non-transitory computer readable medium and information processing apparatus and method
JP2024078159A (ja) 文字列識別方法
CN112149402B (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
US20210318949A1 (en) Method for checking file data, computer device and readable storage medium
US20200293717A1 (en) Interactive control system, interactive control method, and computer program product
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
CN110647785B (zh) 一种输入文本的准确性的识别方法、装置及电子设备
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
JP2024078158A (ja) 文字抽出方法
JP7110723B2 (ja) データ変換装置、画像処理装置及びプログラム
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法