JP6364182B2

JP6364182B2 - 文字列認識装置および文字列認識方法

Info

Publication number: JP6364182B2
Application number: JP2013246527A
Authority: JP
Inventors: 賢一堀内; 石川　博一; 博一石川; 岸本　達雄; 達雄岸本
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-11-28
Filing date: 2013-11-28
Publication date: 2018-07-25
Anticipated expiration: 2033-11-28
Also published as: US20170004373A1; US20170300772A1; WO2015079790A1; US9852350B2; JP2015106182A; US9740954B2

Description

本発明は、動画を構成する画像に含まれる文字列を認識する文字列認識装置および文字列認識方法に関する。

従来、撮像動画に含まれる文字列をＯＣＲ（Optical Character Recognition）によって認識し、得られた文字列を翻訳して撮影動画にリアルタイムに重畳して表示する技術が知られている。例えば特許文献１には、カメラで撮像された文書や看板等に含まれる文字列を、辞書を用いて翻訳語、あるいは関連情報に変換し、元の文字列を置換、あるいは元の文字列に重畳して表示する情報表示装置が開示されている。

特開２０１１−１３４１４４号公報（２０１１年７月７日公開）

しかしながら、特許文献１の技術には、撮影動画に本来は含まれない文字列を誤って認識しかねないという問題がある。特に、手振れなどを原因として上記情報表示装置が動作中に揺れるときに、この誤認識が発生しやすい。誤認識が起こると意味不明な翻訳文字列が動画に重畳して表示されるので、ユーザに不満を与える。

本発明は、上記問題に鑑みてなされたものであり、その目的は、動画に本来は含まれない文字列を、誤って認識することを防止でき、その結果、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる文字列認識装置および文字列認識方法を提供することにある。

上記の課題を解決するために、本発明の一態様に係る文字列認識装置は、対象を撮影することによってその動画を生成する撮影手段と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第１の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第２の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽であると判定する判定手段と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えている。

また、本発明の他の態様に係る文字列認識方法は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影工程と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第１の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第２の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽と判定する判定工程と、上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいる。

また、本発明の他の態様に係る文字列認識装置は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影手段と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定手段と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えている。

本発明の一態様によれば、動画に本来は含まれない文字列を、誤って認識することを防止でき、その結果、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができるという効果を奏する。

本発明の実施形態１に係る端末装置の要部構成を示すブロック図である。本発明の実施形態１に係る動画を構成する画像を表す図である。本発明の実施形態１に係る画像から抽出された５つの矩形領域を示す図である。本発明の実施形態１に係る画像にあらかじめ設定された左端部領域および右端部領域を表す図である。本発明の実施形態１に係る前回翻訳処理対象となった画像に含まれる、実際に文字列が認識された矩形領域を表す図である。本発明の実施形態１に係る画像にあらかじめ設定された左端部領域および右端部領域を示す図である。本発明の実施形態１に係る画像において文字列認識の対象として確定された矩形領域を表す図である。本発明の実施形態１に係る左端部領域に重畳するが文字列認識の対象となる矩形領域を含む画像を表す図である。本発明の実施形態２に係る５つの矩形領域が抽出された画像を表す図である。

〔実施形態１〕
本発明に係る第１の実施形態について、図１〜図８に基づいて以下に説明する。

（端末装置１の構成）
まず、本実施形態に係る端末装置１（文字列認識装置）の要部構成について、図１を参照して説明する。図１は、本発明の第１の実施形態に係る端末装置１の要部構成を示すブロック図である。この図に示すように、端末装置１は、カメラ２、ディスプレイ４、および制御部６を備えている。制御部６は、カメラ２およびディスプレイ４を含めた端末装置１内の全部材の動作を統括的に制御する。制御部６は、撮影部１０（撮影手段）、矩形領域抽出部１２（抽出手段）、認識可否判定部１４（判定手段）、文字列認識部１８（認識手段）、翻訳部２０（翻訳手段）、画像処理部２２、および表示部２４（表示手段）を備えている。

本実施形態では、端末装置１は、ユーザが手に持って操作することができる、いわゆる携帯端末装置である。端末装置１は、たとえば、スマートフォンまたはタブレット端末として実現される。しかし、これらには制限されない。

（処理の詳細）
本実施形態に係る端末装置１における処理の詳細について、図２〜図８を参照して説明する。

端末装置１では、まず、撮影部１０が、カメラ２を制御することによって、被写体（対象）を撮影する。これにより、被写体を表す動画を生成する。撮影部１０は、生成した動画を矩形領域抽出部１２および表示部２４に出力する。

矩形領域抽出部１２は、入力された動画を構成するいずれかの画像（通常は現フレームの画像）から、文字列を認識するための矩形領域を抽出する。図２は、本実施形態において端末装置１によって撮影された動画を構成する一つの画像３０を表す図である。本実施形態では、図２に示す画像３０が、矩形領域抽出の対象である。

矩形領域抽出部１２は、所定のアルゴリズムに基づき、画像３０から少なくとも一つの矩形領域を抽出する。本実施形態では、図３に示すように、５つの矩形領域３２ａ〜３２ｅが抽出される。図３は、本実施形態に係る画像３０から抽出された５つの矩形領域３２ａ〜３２ｅを示す図である。矩形領域抽出部１２は、抽出した矩形領域３２ａ〜３２ｅを、認識可否判定部１４に出力する。

認識可否判定部１４は、入力された矩形領域ごとに、文字列認識の対象にするか否かを判定する。その手順は次の通りである。

図４は、画像３０にあらかじめ設定された左端部領域３４ａおよび右端部領域３４ｂを表す図である。この図に示すように、画像３０には、左端部領域３４ａおよび右端部領域３４ｂが、あらかじめ定められている。左端部領域３４ａは画像３０の左端部（一方の端部）にあり、右端部領域３４ｂは画像３０の右端部（一方の端部）にある。左端部領域３４ａおよび右端部領域３４ｂは、互いに同じ所定幅を有している。本実施形態では所定幅は１０ピクセルであるが、本発明はこれに限定されない。また、両者は必ずしも同じ幅である必要もない。

認識可否判定部１４は、まず、矩形領域が、左端部領域３４ａまたは右端部領域３４ｂに重畳するか否かを判定する。図４に示すように、本実施形態では、認識可否判定部１４は、矩形領域３２ｄが右端部領域３４ｂに重畳しており、また、矩形領域３２ｅが左端部領域３４ａに重畳していると判定する。この結果、認識可否判定部１４は、これらの矩形領域３２ｄおよび３２ｅを、本来なら画像３０から抽出されるべきではないノイズの候補としてみなす。一方、矩形領域３２ａ〜３２ｃは、左端部領域３４ａおよび右端部領域３４ｂのいずれにも重畳していないので、ノイズの候補とみなさない。

認識可否判定部１４は、次に、矩形領域３２ｄおよび矩形領域３２ｅがノイズであるか否かを、動画における文字列の認識履歴に基づいて判定する。この認識履歴は、認識履歴記憶部１６に格納されている。本実施形態では、認識履歴とは、動画において前回翻訳処理対象となった、画像３０とは異なる画像４０（他の画像）に含まれ、かつ、実際に文字列が認識された少なくとも一つの矩形領域（他の矩形領域）を特定する情報（たとえば座標情報）のことである。図５は、本実施形態において前回翻訳処理対象となった画像４０に含まれる、実際に文字列が認識された矩形領域４０ａ〜４０ｃを表す図である。

画像４０は、画像３０よりも時間的に前に位置する（すなわち前のフレームの）画像である。必ずしも直前のフレームであるとは限らない。前回の翻訳処理が、現在よりも２つ以上前のフレームの画像に対して行われた場合、画像４０はそのフレームの画像である。

認識可否判定部１４は、認識履歴に基づき、矩形領域３２ｄおよび矩形領域３２ｅのそれぞれについて、矩形領域４０ａ〜４０ｃと、一定割合以上重畳するか否かを判定する。本実施形態では、一定割合以上の重畳とは、画像３０における縦方向に７５％以上重畳するか、または横方向に７５％以上重畳することを意味する。しかし、一定割合はこれらに限定されない。

図５に示すように、矩形領域３２ｄおよび矩形領域３２ｅは、矩形領域４０ａ〜４０ｃのいずれとも、一定割合以上重畳していない。そのため、認識可否判定部１４は、矩形領域３２ｄおよび矩形領域３２ｅを依然としてノイズの候補とみなす。

認識可否判定部１４は、最後に、矩形領域３２ｄが、画像３０に設定されている所定の左端部領域３６ａに重畳するか否かを判定し、かつ、矩形領域３２ｅが、画像３０に設定されている所定の右端部領域３６ｂに重畳するか否かを判定する。このような手順によって、抽出された矩形領域を文字列認識処理の対象とするか否かを、効率的に判定できる。図６は、画像３０にあらかじめ設定された左端部領域３６ａおよび右端部領域３６ｂを示す図である。左端部領域３６ａおよび右端部領域３６ｂは、所定幅を有している。本実施形態では、画像３０の横幅の７分の１であるが、これに限定されない。

認識可否判定部１４は、矩形領域３２ｅが左端部領域３４ａに重畳しているので、左端部領域３４ａが設定される左端部とは逆側である右端部（他方の端部）にある右端部領域３６ｂに、矩形領域３２ｅがさらに重畳するか否かを判定する。また、矩形領域３２ｄが右端部領域３４ｂに重畳しているので、右端部領域３４ｂが設定される右端部とは逆側である左端部（他方の端部）にある左端部領域３６ａに、矩形領域３２ｄがさらに重畳するか否かを判定する。たとえば、画像３０の横幅が７２０ピクセルであり、かつ、抽出された矩形領域が、画像３０の左端部から５ピクセル離れた位置と、１００ピクセル離れた位置との間に存在する場合、当該矩形領域は、画像３０の右端部における約１０２ピクセルの幅の右端部領域には重畳しない。したがって認識可否判定部１４は、このような矩形領域は、ノイズであると判定する。

図６に示すように、矩形領域３２ｅは右端部領域３６ｂに重畳していない。すなわち矩形領域３２ｅは、画像３０の左右方向における左端部にある左端部領域３４ａと、左端部に対向する右端部にある右端部領域３６ｂとのうち、いずれか一方のみに重畳している。この結果、認識可否判定部１４は、矩形領域３２ｅはノイズである（真である）と判定する。また、図６に示すように、矩形領域３２ｄは左端部領域３６ａに重畳していない。すなわち矩形領域３２ｄは、画像３０の右端部にある右端部領域３４ｂと、右端部に対向する左端部にある左端部領域３６ａとのうち、いずれか一方のみに重畳している。この結果、認識可否判定部１４は、矩形領域３２ｄはノイズである（真である）と判定する。一方、認識可否判定部１４は、矩形領域３２ａ〜３２ｃについては、すべて、ノイズでない（偽である）と判定する。

認識可否判定部１４は、矩形領域ごとの判定結果を、文字列認識部１８に出力する。また、ノイズではない、すなわち文字列認識の対象であると判定した矩形領域３２ａ〜３２ｃを特定する情報を、最新の認識履歴として認識履歴記憶部１６に格納する。図７は、本実施形態において画像３０において文字列認識の対象として確定された矩形領域３２ａ〜３２ｃを表す図である。この図に示すように、抽出された５つの矩形領域３２ａ〜３２ｅのうち、英語の文字列が実際に含まれる矩形領域３２ａ〜３２ｃのみが、文字列認識する対象として選択される。端末装置１が次の画像に対して文字列認識および翻訳処理を行うとき、認識可否判定部１４は、矩形領域３２ａ〜３２ｃを特定する情報を、認識履歴として認識履歴記憶部１６から取得する。

文字列認識部１８は、認識可否判定部１４から入力された判定結果に基づき、矩形領域３２ａ〜３２ｃからそれぞれ文字列を認識する。文字列認識部１８は、認識した文字列を翻訳部２０に出力する。翻訳部２０は、入力された文字列を翻訳することによって、翻訳文字列を生成し、画像処理部２２に出力する。画像処理部２２は、画像３０に、翻訳された文字列を重畳する画像処理を行うことによって、翻訳動画を生成する。画像処理部２２は、生成した翻訳動画を表示部２４に出力する。表示部２４に翻訳動画をディスプレイ４に出力することによって、動画を再生（表示）する。この結果、ユーザは、翻訳文字列がリアルタイムに重畳された動画を視認することができる。

（本実施形態の利点）
以上のように、本実施形態の端末装置１では、抽出された矩形領域３２ｄおよび３２ｅが、画像３０内の左端部領域３４ａおよび右端部領域３４ｂのうちいずれか一方のみに重畳し、かつ、前回翻訳対象となった画像４０に含まれる実際に文字列認識の対象となったいずれの矩形領域４０ａ〜４０ｃとも一定割合以上重畳しないと判定された場合、これらの矩形領域３２ｄおよび３２ｅは文字列認識の対象から外される。

撮影された動画では、文字列は画像３０の中央近辺に現れることが多い。そのため、画像３０内の左端部領域３４ａおよび右端部領域３４ｂのうちいずれか一方のみに重畳する矩形領域３２ｄおよび３２ｅは、文字列を含まない可能性が高い。また、端末装置１が、動画の撮影中に手振れなどを原因として振動してしまうと、動画が、本来得られるはずのものから大きくゆがめられてしまう。その結果、文字列が本来存在する箇所とは異なる箇所が、矩形領域として誤って抽出されてしまう。このような矩形領域もまた、文字列を含まない可能性が高い。

したがって、本実施形態によれば、端末装置１は、動画に本来は含まれない文字列を、誤って認識することを防止できる。その結果、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。さらには、動画撮影中に端末装置１が手振れなどを原因として振動したとしても、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。

（レストランメニュー動画の例）
図８は、本実施形態に係る、左端部領域５４に重畳するが文字列認識の対象となる矩形領域５２ａ〜５２ｉを含む画像５０を表す図である。画像５０は、レストランのメニューを撮影した結果として生成される動画を構成する画像の一つである。

この図に示す例では、矩形領域抽出部１２は、画像５０から矩形領域５２ａ〜５２ｉを抽出する。これらの矩形領域５２ａ〜５２ｉは、すべて、画像５０の左端部にある所定幅の左端部領域５４に重畳している。したがって、文字列認識の対象から外される候補となる。しかし、図８に示すように、矩形領域５２ａ〜５２ｉはすべて、画像５０の右端部にある所定幅の右端部領域５６にも重畳している。したがって認識可否判定部１４は、矩形領域５２ａ〜５２ｉはノイズではなく、文字列認識の対象とすべきであると判定する。この結果、文字列認識部１８は、矩形領域５２ａ〜５２ｉから文字列を認識する。

通常、画像の左端から右端にかけて長い矩形領域は、文字列を含んでいる可能性が高い。矩形領域５２ａ〜５２ｉは、このような条件を満たす領域である。したがって、端末装置１は、文字列を含んでいる可能性が高い矩形領域５２ａ〜５２ｉを、確実に文字列認識の対象とすることができる。

〔実施形態２〕
本発明に係る第２の実施形態について、図９を参照して以下に説明する。なお、上述した第１の実施形態と共通する各部材には同じ符号を付し、詳細な説明を省略する。

本実施形態に係る端末装置１は、認識可否判定部１４の挙動が異なる点を除き、第２の実施形態に係る端末装置１と同じである。第１の実施形態に係る認識可否判定部１４は、認識履歴を用いるが、本実施形態に係る端末装置１は用いない。その代りに、本実施形態に係る端末装置１は、画像３０から抽出された各矩形領域が、細長い形状を有するか否かを判定する。そして、この判定結果が真である矩形領域からは、文字列を認識せず、一方、偽である矩形領域からは、文字列を認識する。この工夫によって、端末装置１は、動画には本来含まれない横書き文字列を、誤って認識することを防止することができる。

（処理の詳細）
本実施形態に係る端末装置１における処理の詳細について、図９を参照して説明する。図９は、本実施形態において、５つの矩形領域が抽出された画像３０を表す図である。

この図に示すように、本実施形態では、矩形領域抽出部１２は、画像３０から５つの矩形領域を抽出する。矩形領域３２ａ、３２ｂ、および３２ｃは、英語の文字列を含んだ、正しく抽出された矩形領域である。一方、矩形領域３２ｇおよび３２ｈは、文字列を含まず、縦方向に配置された複数のアイコン画像を含む矩形領域である。すなわち矩形領域３２ｇおよび３２ｈは、誤って抽出された、文字列認識の対象とすべきでないものである。

認識可否判定部１４は、抽出された矩形領域ごとに、文字列認識の対象とすべきか否かを判定する。その手順は以下の通りである。認識可否判定部１４は、まず、矩形領域の横幅が、画像３０の横幅の所定数分の一以下の大きさであるか否かを判定する。本実施形態では、所定数分の一は１０分の１であるが、本発明はこれに限定されない。次に、認識可否判定部１４は、矩形領域の縦幅が当該矩形領域の横幅の所定数倍以上の大きさであるか否かを判定する。本実施形態では所定数倍は３倍であるが、本発明は、これに限定されない。

図９に示す例では、文字列認識部１８は、矩形領域３２ｇおよび３２ｈは真である（ノイズである）と判定する。一方、矩形領域３２ａ、３２ｂ、および３２ｃは偽である（ノイズではない）と判定する。したがって、文字列認識部１８は、矩形領域３２ｇおよび３２ｃからは文字列を認識せず、一方、矩形領域３２ａ、３２ｂ、および３２ｃからは文字列を認識する。この結果、アイコン画像のみを含み文字列を含まない矩形領域３２ｇおよび３２ｈは、文字列認識およびそれに続く翻訳の対象にならない。

（利点）
本実施形態の端末装置１では、抽出された矩形領域３２ｇおよび３２ｈが、縦に細長い矩形領域であると判定された場合、文字列認識の対象から外される。一般に、英語などの横書き言語では、縦に細長い矩形領域は実際には何ら文字列を含まず、誤って抽出されたものである可能性が高い。したがって、本実施形態に係る端末装置１は、動画には本来含まれない文字列を、誤って認識することを防止することができる。その結果、当該動画に含まれる文字列を翻訳して当該動画に重畳して表示するとき、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。

〔実施形態３〕
端末装置１の制御部６は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、端末装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る文字列認識装置（端末装置１）は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影手段（撮影部１０）と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段（矩形領域抽出部１２）と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第１の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第２の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽であると判定する判定手段（認識可否判定部１４）と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段（文字列認識部１８）と、を備えている。

上記の構成によれば、抽出された矩形領域が、画像の両端のうちいずれか一方のみに重畳し、かつ、前回翻訳対象となった画像に含まれる実際に文字列認識の対象となったいずれの矩形領域と一定割合以上重畳しないと判定された場合、この矩形領域は文字列認識の対象から外される。

撮影された動画では、文字列は画像の中央近辺に現れることが多い。そのため、画像の両端のうちいずれか一方のみに重畳する矩形領域は、文字列を含まない可能性が高い。また、文字列認識装置が、動画の撮影中に手振れなどを原因として振動してしまうと、動画が本来得られるはずのものから大きくゆがめられてしまう。その結果、文字列が本来存在する箇所とは異なる箇所が、矩形領域として誤って抽出されてしまう。このような矩形領域もまた、文字列を含まない可能性が高い。

したがって、上記の構成によれば、動画に本来は含まれない文字列を、誤って認識することを防止できる。その結果、当該動画に含まれる文字列を翻訳して当該動画に重畳して表示する情報表示装置において、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。さらには、動画撮影中に文字列認識装置が手振れなどを原因として振動したとしても、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。

本発明の態様２に係る文字列認識装置では、上記態様１において、上記判定手段は、まず、上記矩形領域が、上記第１の端部領域に重畳するか否かを判定し、次に、上記第１の端部領域に重畳すると判定した上記矩形領域が、いずれかの上記他の矩形領域と一定割合以上重畳するか否かを判定し、最後に、いずれの上記他の矩形領域とも一定割合以上重畳しないと判定した上記矩形領域が、上記第２の端部領域に重畳するか否かを判定してもよい。

上記の構成によれば、抽出された矩形領域を文字列認識処理の対象とするか否かを、効率的に判定することができる。

本発明の態様３に係る文字列認識装置では、上記態様１または２において、上記一方の端部は、上記画像の左右方向におけるいずれかの端部であり、上記他方の端部は、上記画像の左右方向において当該いずれかの端部と対向する端部であってもよい。

上記の構成によれば、翻訳対象が横書きの文字列である動画に、意味不明な翻訳文字列が重畳して表示されることを防止することができる。

本発明の態様４に係る文字列認識方法は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影工程と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第１の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第２の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽と判定する判定工程と、上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいる。

上記の構成によれば、上記態様１に係る文字列認識装置と同様の作用効果を奏する。

本発明の態様５に係る文字列認識装置（端末装置１）は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影手段（撮影部１０）と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段（矩形領域抽出部１２）と、上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定手段と、上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段（文字列認識部１８）と、を備えている。

上記の構成によれば、抽出された矩形領域が、縦に細長い矩形領域であると判定された場合、この矩形領域は文字列認識の対象から外される。一般に、英語などの横書き言語では、縦に細長い矩形領域は実際には何ら文字列を含まず、誤って抽出されたものである可能性が高い。したがって、上記の構成によれば、動画には本来含まれない文字列を、誤って認識することを防止することができる。その結果、当該動画に含まれる文字列を翻訳して当該動画に重畳して表示する情報表示装置において、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。

本発明の態様６に係る文字列認識方法は、上記の課題を解決するために、対象を撮影することによってその動画を生成する撮影工程と、上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定工程と、上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいる。

上記の構成によれば、上記態様５に係る文字列認識装置と同様の作用効果を奏する。

本発明の態様７に係る情報処理装置は、上記の課題を解決するために、上記態様１、２、３、および５のいずれかに係る文字列認識装置と、認識された上記文字列を翻訳することによって、翻訳文字列を生成する翻訳手段と、上記翻訳文字列が重畳された上記動画を表示する表示手段と、を備えていることを特徴とする。

上記の構成によれば、動画に本来は含まれない文字列を、誤って認識することを防止でき、その結果、意味不明な翻訳文字列が動画に重畳して表示されることを防止することができる。

本発明の各態様に係る文字列認識装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記文字列認識装置が備える各手段として動作させることにより上記文字列認識装置をコンピュータにて実現させる文字列認識装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

たとえば、上述した実施形態１では、端末装置１は、横書きされる言語（英語）の文字列を、横書きされる異なる言語（日本語）の文字列に翻訳する。しかし端末装置１は、縦書きされる言語（たとえば中国語）の文字列を、縦書きされる言語（たとえば日本語）の文字列に翻訳する構成であってもよい。したがって、特許請求の範囲に記載の一方の端部および他方の端部は、それぞれ画像３０の上下方向における端部であってもよい。

本発明は、動画内の文字列を認識する文字列認識装置、およびそれを備えかつ認識文字列を翻訳して動画に重畳しリアルタイム再生する各種の情報処理装置（たとえばスマートフォン、タブレット端末等）として、幅広く利用することができる。

１端末装置（文字列認識装置、情報処理装置）
２カメラ
４ディスプレイ
６制御部
１０撮影部（撮影手段）
１２矩形領域抽出部（抽出手段）
１４認識可否判定部（判定手段）
１６認識履歴記憶部
１８文字列認識部（認識手段）
２０翻訳部（翻訳手段）
２２画像処理部
２４表示部（表示手段）

Claims

対象を撮影することによってその動画を生成する撮影手段と、
上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、
上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第１の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第２の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽であると判定する判定手段と、
上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えていることを特徴とする文字列認識装置。
上記判定手段は、
まず、上記矩形領域が、上記第１の端部領域に重畳するか否かを判定し、
次に、上記第１の端部領域に重畳すると判定した上記矩形領域が、いずれかの上記他の矩形領域と一定割合以上重畳するか否かを判定し、
最後に、いずれの上記他の矩形領域とも一定割合以上重畳しないと判定した上記矩形領域が、上記第２の端部領域に重畳するか否かを判定することを特徴とする請求項１に記載の文字列認識装置。
上記一方の端部は、上記画像の左右方向におけるいずれかの端部であり、上記他方の端部は、上記画像の左右方向において当該いずれかの端部と対向する端部であることを特徴とする請求項１に記載の文字列認識装置。
対象を撮影することによってその動画を生成する撮影工程と、
上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出工程と、
上記矩形領域が、上記動画において前回翻訳処理対象となった他の画像に含まれかつ実際に上記文字列が認識されたいずれかの他の矩形領域と一定割合以上重畳せず、かつ、上記画像における一方の端部にある所定幅の第１の端部領域と当該一方の端部とは逆側である他方の端部にある所定幅の第２の端部領域のうちいずれか一方のみに重畳する場合には、真であると判定し、そうでなければ偽と判定する判定工程と、
上記判定工程において真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定工程において偽と判定された上記矩形領域からは上記文字列を認識する認識工程と、を含んでいることを特徴とする文字列認識方法。
対象を撮影することによってその動画を生成する撮影手段と、
上記動画を構成するいずれかの画像から、文字列を認識するための矩形領域を抽出する抽出手段と、
上記矩形領域の横幅が上記画像の横幅の所定数分の一以下の大きさであり、かつ、上記矩形領域の縦幅が上記矩形領域の横幅の所定数倍以上の大きさである場合、真であると判定し、そうでなければ偽であると判定する判定手段と、
上記判定手段によって真と判定された上記矩形領域からは上記文字列を認識せず、かつ、上記判定手段によって偽と判定された上記矩形領域からは上記文字列を認識する認識手段と、を備えていることを特徴とする文字列認識装置。