JP2024078160A

JP2024078160A - 文字列識別方法

Info

Publication number: JP2024078160A
Application number: JP2022190554A
Authority: JP
Inventors: 伸一竹内; 鷹之西田; 真吾則竹; 亮村上; 涼柳川
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2024-06-10

Abstract

【課題】所望の文字列が画像に記載されているか否かを精度良く判定できるようにすること。【解決手段】文字列識別方法は、画像から文字列を取得すること（Ｓ１７）、画像から取得した文字列と第１テキストＴＸ１との類似度である第１類似度Ｘ１、及び、画像から取得した文字列と第２テキストＴＸ２との類似度である第２類似度Ｘ２を算出すること（Ｓ１９、Ｓ２１）、及び、第１類似度Ｘ１が第２類似度Ｘ２よりも大きい場合に（Ｓ２３：ＹＥＳ）、第１テキストＴＸ１の文字列が画像に記載されていると判定すること（Ｓ２５）をコンピューターに実行させる。【選択図】図４

Description

本発明は、画像に記載されている文字列を識別する文字列識別方法に関する。

特許文献１には、光学文字識別の技術を用いてテキストの画像をテキスト形式に変換する方法の一例が開示されている。具体的には、当該方法では、識別対象のピクチャの中からテキスト領域の囲み枠を確定し、当該囲み枠に基づいて、識別対象のピクチャからテキスト領域ピクチャが抽出される。続いて、当該テキスト領域ピクチャの中からテキスト行の囲み枠を確定し、当該囲み枠に基づいて、当該テキスト領域ピクチャからテキスト行ピクチャが抽出される。そして、当該テキスト行ピクチャに対してテキストシーケンス識別を行うことにより、識別結果が得られる。

なお、識別結果を得る際には、軽量テキストシーケンス識別モデルが用いられる。当該識別モデルは、機械学習が施された学習済モデルである。

特開２０２１－１９７１９０号公報

画像には、複数の文字で構成される文字列が記載されていることがある。上記のような手法で、こうした文字列を識別結果として取得した場合を考える。この場合、光学文字識別によって取得した文字列を基に、所望の文字列が画像に記載されているか否かが判定される。

画像には、所望の文字列に似た他の文字列が記載されていることがある。この場合、上記他の文字列を画像から取得した場合、当該他の文字列と所望の文字列のテキストとの比較によって、所望の文字列が画像に記載されていると誤判定されるおそれがある。

上記課題を解決するための文字列識別方法は、画像データで示される画像に記載されている文字列を識別する方法である。コンピューターは、複数の文字で構成された文字列のテキストとして、第１テキストと第２テキストとを記憶する記憶装置を有している。前記第２テキストの文字列は、前記第１テキストの文字列を構成する複数の文字のうち、一部の文字が異なる文字列である。当該文字列識別方法は、前記画像から文字列を取得することと、前記画像から取得した文字列と前記第１テキストとの類似度である第１類似度、及び、前記画像から取得した文字列と前記第２テキストとの類似度である第２類似度を算出することと、前記第１類似度が前記第２類似度よりも大きい場合に、前記第１テキストの文字列が前記画像に記載されていると判定することと、を前記コンピューターに実行させる。

上記文字列識別方法では、画像から文字列が取得されると、当該文字列と第１テキストとの第１類似度と、当該文字列と第２テキストとの第２類似度とが比較される。第１類似度が第２類似度よりも高い場合に、第１テキストの文字列が画像に記載されていると判定される。第１テキストの文字列を所望の文字列としたとき、上記文字列識別方法によれば、所望の文字列が画像に記載されているか否かを精度良く判定できる。

なお、画像において所定の情報が記載されている領域を特定する際に、機械学習が施された学習済モデルを用いてもよい。

図１は、実施形態の文字列識別方法を実現するための識別装置の概略を示すブロック図である。図２は、設計図面の画像を示す模式図である。図３は、複数のテキストを示す表である。図４は、実施形態の文字列識別方法を示すフローチャートである。

以下、文字列識別方法の一実施形態を図１～図４に従って説明する。
本実施形態の文字列識別方法は、画像データで示される画像に、所望の文字列が記載されているか否かを判定する方法である。詳しくは、文字列識別方法では、画像から文字列を取得し、当該文字列と、所望の文字列に相当するテキストとを比較することにより、画像に所望の文字列が記載されているか否かが判定される。なお、文字列とは、複数の文字からなるものである。

＜識別装置＞
図１を参照し、文字列識別方法を実現するための識別装置１０について説明する。
識別装置１０は、ユーザーインターフェース１１と、コンピューター２０とを備えている。

ユーザーインターフェース１１は、作業者が操作する操作部１２と、コンピューター２０から受信した情報の内容を表示する表示部１３とを有している。操作部１２は、物理的なボタンやスイッチ、及び、タッチパネルを有している表示画面に表示されるボタンのうちの少なくとも一方を有している。ユーザーインターフェース１１は、作業者による操作部１２の操作に応じた要求をコンピューター２０に出力する。

コンピューター２０は、例えば電子制御装置である。この場合、コンピューター２０は、ＣＰＵ２１と、第１記憶装置２２と、第２記憶装置２３とを有している。第１記憶装置２２には、ＣＰＵ２１によって実行される制御プログラムＣＰが記憶されている。ＣＰＵ２１が制御プログラムＣＰを実行することにより、コンピューター２０は、図４に示す一連の処理を実行する。すなわち、コンピューター２０は、画像データで示される画像からＯＣＲによって文字列を抽出する。そして、コンピューター２０は、抽出した文字列が、所望の文字列であるか否かを判定する。なお、ＯＣＲとは光学文字識別である。

第２記憶装置２３には、学習済モデルＬＭと、複数のテキストＴＸとが記憶されている。
学習済モデルＬＭは、画像の中から、所定の情報の内容を示す文字列が記載されている領域を特定するための機械学習が施された学習モデルである。例えば、学習済モデルＬＭの一例は、多次元多項式の近似器である。例えば、学習済モデルＬＭは、中間層が１層である全結合順伝搬型のニューラルネットワークによって構成されている。

学習済モデルＬＭは、所定の情報、画像データ及び書類の種類が入力変数として入力された場合に、当該所定の情報の内容を示す文字列が記載されている領域を示す値を出力変数として出力する。

例えば学習済モデルＬＭは、以下に示すような機械学習を学習モデルに施すことによって生成された。
図２には、設計図面の画像ＩＭＧが図示されている。図２に示す設計図面の画像ＩＭＧにあっては、書類の種類は「設計図面」であり、所定の情報の一例は普通公差である。図２に示す画像ＩＭＧでは、普通公差（所定の情報）の内容を示す文字列である「ＪＩＳＧ１００」が図中右下の領域に存在している。そのため、所定の情報として普通公差、書類の種類として設計図面、及び画像ＩＭＧの画像データを入力変数として学習モデルに入力した場合、画像における右下の領域を示す値が出力変数として出力されるように、当該学習モデルに対して機械学習が施される。

テキストＴＸは、画像から抽出した文字を識別する際に用いられる。
図３には、設計図面における普通公差用のテキストＴＸとして、第１テキストＴＸ１、及び複数の第２テキストＴＸ２が示されている。第１テキストＴＸ１の文字列は、所望の文字列と同じである。図３に示す例では、第１テキストＴＸ１を構成する文字数は７個であり、文字列は「ＪＩＳＧ１００」である。

複数の第２テキストＴＸ２の文字列は、第１テキストＴＸ１の文字列を構成する複数の文字のうち、一部の文字が異なる文字列である。第２テキストＴＸ２を構成する文字数は、第１テキストＴＸ１を構成する文字数と同じである。例えば、第１テキストＴＸ１と混合したくない文字列を第２テキストＴＸ２として設定することが好ましい。

図３に示す例では、第２テキストＴＸ２（１）の文字列は「ＪＩＳＧ１０１」である。第２テキストＴＸ２（２）の文字列は「ＪＩＳＧ２００」である。第２テキストＴＸ２（３）の文字列は「ＪＩＳＦ１００」である。第２テキストＴＸ２（４）の文字列は「ＪＩＳＧ１１０」である。

＜文字列識別方法＞
図４には、文字列識別方法を構成する複数の処理の実行手順を示すフローチャートが図示されている。コンピューター２０が画像データを取得すると、コンピューター２０は図４に示す一連の処理を開始する。

ステップＳ１１において、コンピューター２０は、取得した画像データの画像における書類の種類及び所定の情報を取得する。コンピューター２０は、例えば作業者によるユーザーインターフェース１１の操作部１２の入力操作に基づいて、書類の種類及び所定の情報を取得する。

ステップＳ１３において、コンピューター２０は、書類の種類、所定の情報及び画像データを入力変数として学習済モデルＬＭに入力する。続くステップＳ１５において、コンピューター２０は、学習済モデルＬＭの出力変数を基に、所定の情報の内容を示す文字列が記載されている領域を特定する。

ステップＳ１７において、コンピューター２０は、画像の中で、ステップＳ１５で特定した領域からＯＣＲが抽出した文字列を取得する。
ステップＳ１９において、コンピューター２０は、ステップＳ１７で取得された文字列と第１テキストＴＸ１との類似度である第１類似度Ｘ１を算出する。具体的には、コンピューター２０は、所定の情報及び書類の種類に応じた第１テキストＴＸ１を第２記憶装置２３から読み出す。そして、コンピューター２０は、ステップＳ１７で取得された文字列と、第２記憶装置２３から読み出した第１テキストＴＸ１とを比較することによって、第１類似度Ｘ１を算出する。

ここで、ステップＳ１７で取得された文字列が「ＪＩＳＧ１０６」であり、比較に用いる第１テキストＴＸ１の文字列が「ＪＩＳＧ１００」である場合を一例として説明する。この場合、ステップＳ１９で取得された文字列の中で、先頭の「Ｊ」、２番目の「Ｉ」、３番目の「Ｓ」、４番目の「Ｇ」、５番目の「１」及び６番目の「０」は、第１テキストＴＸ１と一致している。その一方で、７番目の「６」は、第１テキストＴＸ１と一致していない。そのため、コンピューター２０は、第１テキストＴＸ１と一致した文字数が６個であることを取得できる。そして、コンピューター２０は、例えば以下に示す関係式（Ｆ１）を用いて第１類似度Ｘ１を算出する。関係式（Ｆ１）において、「Ｘ」は類似度の算出値であり、「Ｚ１」は第１テキストＴＸ１と一致した文字数であり、「Ｙ１」はＯＣＲによって取得された文字の数であり、「Ｙ２」は第１テキストＴＸ１の文字数である。

Ｘ＝（２×Ｚ１）／（Ｙ１＋Ｙ２）（Ｆ１）
ここで説明している場合、ＯＣＲによって取得された文字の数は７個であり、第１テキストＴＸ１の文字数は７個である。そのため、コンピューター２０は、「Ｙ１」に７を代入するとともに「Ｙ２」に７を代入する。そして、コンピューター２０は、「Ｚ１」に６を代入することにより、類似度Ｘとして「０．８５７」を算出する。この「０．８５７」が第１類似度Ｘ１である。

なお、ステップＳ１７で取得された文字列が「ＪＩＳＧ１００」であった場合、コンピューター２０は、関係式（Ｆ１）の「Ｚ１」に７を代入するため、第１類似度Ｘ１として「１」を算出する。

コンピューター２０は、第１類似度Ｘ１を算出すると、処理をステップＳ２１に移行する。ステップＳ２１において、コンピューター２０は、ステップＳ１７で取得された文字列と第２テキストＴＸ２との類似度である第２類似度Ｘ２を算出する。具体的には、コンピューター２０は、所定の情報及び書類の種類に応じた第２テキストＴＸ２を第２記憶装置２３から読み出す。そして、コンピューター２０は、ステップＳ１７で取得された文字列と、第２記憶装置２３から読み出した第２テキストＴＸ２とを比較することによって、第２類似度Ｘ２を算出する。すなわち、コンピューター２０は、上記ステップＳ１９と同様に、上記関係式（Ｆ１）を用いることによって第２類似度Ｘ２を算出する。

本実施形態では、図３に示したように、所定の情報及び書類の種類に応じた複数の第２テキストＴＸ２が第２記憶装置２３に記憶されていることがある。この場合、コンピューター２０は、複数の第２テキストＴＸ２の何れにおいても第２類似度Ｘ２を算出する。例えば、コンピューター２０は、ステップＳ１７で取得された文字列と第２テキストＴＸ２（１）との第２類似度Ｘ２を、第２類似度Ｘ２（１）として算出する。コンピューター２０は、ステップＳ１７で取得された文字列と第２テキストＴＸ２（２）との第２類似度Ｘ２を、第２類似度Ｘ２（２）として算出する。コンピューター２０は、ステップＳ１７で取得された文字列と第２テキストＴＸ２（３）との第２類似度Ｘ２を、第２類似度Ｘ２（３）として算出する。コンピューター２０は、ステップＳ１７で取得された文字列と第２テキストＴＸ２（４）との第２類似度Ｘ２を、第２類似度Ｘ２（４）として算出する。

続くステップＳ２３において、コンピューター２０は、第１類似度Ｘ１が第２類似度Ｘ２よりも大きいか否かを判定する。コンピューター２０は、ステップＳ２１で複数の第２類似度Ｘ２を算出した場合、複数の第２類似度Ｘ２の何れか１つを、選択類似度として選択する。そして、コンピューター２０は、第１類似度Ｘ１が選択類似度よりも大きいか否かを判定する。例えば、コンピューター２０は、複数の類似度Ｘ２のうちの最大値を選択類似度として選択する。

コンピューター２０は、第１類似度Ｘ１が第２類似度Ｘ２よりも大きい場合（Ｓ２３：ＹＥＳ）、処理をステップＳ２５に移行する。一方、コンピューター２０は、第１類似度Ｘ１が第２類似度Ｘ２以下である場合（Ｓ２３：ＮＯ）、処理をステップＳ２７に移行する。

ステップＳ２５において、コンピューター２０は、所望の文字列が画像に記載されている旨をユーザーインターフェース１１の表示部１３に表示させる。その後、コンピューター２０は一連の処理を終了する。

ステップＳ２７において、コンピューター２０は、所望の文字列が画像に記載されていない旨をユーザーインターフェース１１の表示部１３に表示させる。その後、コンピューター２０は一連の処理を終了する。

＜作用及び効果＞
コンピューター２０に画像データが入力されると、図４に示した一連の処理が実行される。画像データで示される画像の書類の種類及び所定の情報をコンピューター２０が取得すると、コンピューター２０の処理によって、画像の中で、所定の情報が記載されている領域が特定される。そして、特定した領域から文字列がＯＣＲによって抽出される。

このように画像から文字列が取得されると、当該文字列と第１テキストＴＸ１との第１類似度Ｘ１が算出される。また、当該文字列と第２テキストＴＸ２との第２類似度Ｘ２が算出される。第１テキストＴＸ１の文字列は、所望の文字列に相当する。そのため、第１類似度Ｘ１が第２類似度Ｘ２よりも高いと、コンピューター２０は、所望の文字列が画像に記載されていると判定する。したがって、所望の文字列が画像に記載されているか否かを精度良く判定できる。

第２類似度Ｘ２が第１類似度Ｘ１以上である場合、所望の文字列には似ているが、所望の文字列とは別の文字列が画像に記載されている可能性がある。そのため、第１類似度Ｘ１が第２類似度Ｘ２以下である場合、コンピューター２０は、所望の文字列が画像に記載されていないと判定する。

ここで、第２テキストＴＸ２が複数存在することもある。本実施形態では、上述したように、複数の第２テキストＴＸ２毎に第２類似度Ｘ２が算出される。そして、複数の類似度Ｘ２のうちの値の最も大きい値と第１類似度Ｘ１とを比較するようにしている。これにより、所望の文字列が画像に記載されているか否かの判定精度をより高くできる。

＜変更例＞
上記実施形態は、以下のように変更して実施することができる。上記実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

・画像からＯＣＲで文字を抽出する場合、文字の読み間違いが発生することがある。例えば、読み間違いが発生しやすい文字としては、例えば、以下に示す文字が存在する。
アルファベットの大文字の「Ｏ」と、数字の「０（零）」。

アルファベットの大文字の「Ｉ」と、数字の「１」。
アルファベットの大文字の「Ｚ」と、小文字の「ｚ」。
アルファベットの大文字の「Ｇ」と、数字の「６」。

このように読み間違いが発生しやすい文字を確認文字として予め登録しておくとよい。例えば、画像に実際に記載されている文字が「Ｉ（アルファベットの大文字）」である場合、ＯＣＲによって「Ｉ（アルファベットの大文字）」が抽出されたり、「１（数字のイチ）」が抽出されたりする。そのため、ＯＣＲで抽出した文字が確認文字であり、テキストＴＸの文字が「１（数字のイチ）」である場合、ＯＣＲで抽出した文字が「Ｉ」であっても「１」であっても、抽出した文字とテキストＴＸの文字とが一致していると判定するとよい。これにより、ＯＣＲによる文字の抽出精度に起因して類似度Ｘ１，Ｘ２が低めに算出されることを抑制できる。

・図４に示した一連の処理におけるステップＳ２１で、複数の類似度Ｘ２を算出した場合、ステップＳ２３では、第１類似度Ｘ１が複数の類似度Ｘ２の平均値よりも大きいか否かを判定するようにしてもよい。

・学習済モデルＬＭの入力変数は、所定の情報及び画像データを含んでいるのであれば、書類の種類を含まなくてもよい。
・第２テキストは、第１テキストＴＸ１の文字列を構成する複数の文字のうち、一部の文字のみが異なる文字列であればよい。例えば、第２テキストとして、第１テキストＴＸ１の文字列を構成する複数の文字のうち、２つの文字のみが異なる文字列を採用してもよい。

・ニューラルネットワークは、中間層が１層のフィードフォワードネットワークに限らない。例えば、ニューラルネットワークは、中間層が２層以上のネットワークであってもよいし、畳み込みニューラルネットワークやリカレントニューラルネットワークであってもよい。

・機械学習による学習済みモデルは、ニューラルネットワークでなくてもよい。例えば、学習済みモデルとして、サポートベクトルマシンを採用してもよい。
・コンピューター２０は、ＣＰＵとＲＯＭとを備えて、ソフトウェア処理を実行するものに限らない。すなわち、コンピューター２０は、以下（ａ）～（ｃ）の何れかの構成であればよい。

（ａ）コンピューター２０は、コンピュータープログラムに従って各種処理を実行する一つ以上のプロセッサを備えている。プロセッサは、ＣＰＵ並びに、ＲＡＭ及びＲＯＭなどのメモリを含んでいる。メモリは、処理をＣＰＵに実行させるように構成されたプログラムコード又は指令を格納している。メモリ、すなわちコンピューター可読媒体は、汎用又は専用のコンピューターでアクセスできるあらゆる利用可能な媒体を含んでいる。

（ｂ）コンピューター２０は、各種処理を実行する一つ以上の専用のハードウェア回路を備えている。専用のハードウェア回路としては、例えば、特定用途向け集積回路、すなわちＡＳＩＣ又はＦＰＧＡを挙げることができる。なお、ＡＳＩＣは、「Application Specific Integrated Circuit」の略記であり、ＦＰＧＡは、「Field Programmable Gate Array」の略記である。

（ｃ）コンピューター２０は、各種処理の一部をコンピュータープログラムに従って実行するプロセッサと、各種処理のうちの残りの処理を実行する専用のハードウェア回路とを備えている。

なお、本明細書において使用される「少なくとも１つ」という表現は、所望の選択肢の「１つ以上」を意味する。一例として、本明細書において使用される「少なくとも１つ」という表現は、選択肢の数が２つであれば「１つの選択肢のみ」又は「２つの選択肢の双方」を意味する。他の例として、本明細書において使用される「少なくとも１つ」という表現は、選択肢の数が３つ以上であれば「１つの選択肢のみ」又は「２つ以上の任意の選択肢の組み合わせ」を意味する。

２０…コンピューター、２１…ＣＰＵ、２３…第２記憶装置、ＩＭＧ…画像、ＴＸ１…第１テキスト、ＴＸ２…第２テキスト。

Claims

画像データで示される画像に記載されている文字列を識別する文字列識別方法であって、
コンピューターは、複数の文字で構成された文字列のテキストとして、第１テキストと第２テキストとを記憶する記憶装置を有しており、
前記第２テキストの文字列は、前記第１テキストの文字列を構成する複数の文字のうち、一部の文字が異なる文字列であり、
前記画像から文字列を取得することと、
前記画像から取得した文字列と前記第１テキストとの類似度である第１類似度、及び、前記画像から取得した文字列と前記第２テキストとの類似度である第２類似度を算出することと、
前記第１類似度が前記第２類似度よりも大きい場合に、前記第１テキストの文字列が前記画像に記載されていると判定することと、を前記コンピューターに実行させる
文字列識別方法。
前記第１類似度が前記第２類似度以下である場合、前記第１テキストの文字列が前記画像に記載されていないと判定することを前記コンピューターに実行させる
請求項１に記載の文字列識別方法。