JP6202815B2

JP6202815B2 - 文字認識装置および文字認識方法並びに文字認識プログラム

Info

Publication number: JP6202815B2
Application number: JP2012275496A
Authority: JP
Inventors: 堀田　悦伸; 悦伸堀田; 勝山　裕; 裕勝山; 太田　健一; 健一太田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-12-18
Filing date: 2012-12-18
Publication date: 2017-09-27
Anticipated expiration: 2032-12-18
Also published as: JP2014120032A

Description

本件開示は、画像に含まれる文字を認識する文字認識装置および文字認識方法並びに文字認識プログラムに関する。

テレビジョン放送システムなどによって放送される広告用の映像として、検索窓を表す矩形の領域内に検索キーワードが記入された状態を表す画像を含む映像を放送することにより、視聴者に対して企業のウェブサイトなどへのアクセスを促す場合がある。また、電車やバスなどの車両内の中吊り広告や雑誌の広告ページなど様々な広告媒体にも、上述したような検索窓を表す領域内に検索キーワードを表示させた画像が含まれていることがある。

画像に含まれる検索キーワードに基づくウェブサイトへのアクセスを支援する技術として、例えば、映像に含まれる検索窓の領域を特定し、特定した領域について文字認識処理を実行することで、検索キーワードを取得する手法が提案されている(特許文献１参照)。

また、上述したような検索キーワードに加えて、あるいは検索キーワードに代えて、アクセス先のウェブサイトのＵＲＬ(Uniform Resource Locator)を表示する映像が、企業などの広告用の映像として放送される場合もある。同様に、中吊り広告などの広告用ポスターを含む多種多様な広告媒体にも、ＵＲＬを含む画像が用いられている場合がある。

特開２０１０−１５２８００号公報

ところで、上述した様々な広告媒体に含まれる検索キーワードは、広告全体の美観を保つために、小さい文字で表される場合もある。このため、検索窓の領域について文字認識処理を行う従来技術では、当該領域内部に表示された検索キーワードを示す文字列を正しく認識できないこともある。

また、ＵＲＬを表す文字列は、広告用の画像に個々の文字を表すパターンを重ね合わせることで表示される場合があり、文字列の背景となる画像の領域の色や明るさは必ずしも一様ではなく、様々な向きのエッジを含む複雑な画像であることもある。更に、ＵＲＬが広告用の映像に含まれる場合には、ＵＲＬを表す文字列の背景となる画像に動きや色彩および明るさの変化がある場合もある。このため、画像においてＵＲＬが表示された部分について文字認識を行った場合に、正しいＵＲＬを示す文字列が認識結果として得られないこともある。

本件開示は、画像中の所定の領域に表示された文字列を高い精度で認識する文字認識装置および文字認識方法並びに文字認識プログラムを提供することを目的とする。

一つの観点による文字認識装置は、画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得する第１認識部と、前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得する第２認識部と、前記第２認識部よって得られたテキストから、前記第１認識部で得られた候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出する検出部と、前記類似文字列に基づいて、前記候補文字列を補正する補正部とを備える。

また、別の観点による文字認識方法は、画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得し、前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得し、前記テキストから、前記候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出し、前記検出された前記類似文字列に基づいて、前記候補文字列を補正する。

また、別の観点による文字認識プログラムは、画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得し、前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得し、前記テキストから、前記候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出し、前記検出された前記類似文字列に基づいて、前記候補文字列を補正する処理をコンピュータに実行させる。

本件開示の文字認識装置および文字認識方法並びに文字認識プログラムによれば、画像中の所定の領域に表示された文字列を高い精度で認識することができる。

文字認識装置の一実施形態を示す図である。画像の例を示す図である。候補文字列と類似文字列の例を示す図である。文字認識処理のフローチャートの例を示す図である。文字認識装置の別実施形態を示す図である。評価値の算出例を示す図である。文字認識装置の別実施形態を示す図である。評価値の算出例を示す図である。文字認識装置の別実施形態を示す図である。画像の別例を示す図である。文字認識装置のハードウェア構成例を示す図である。文字認識処理のフローチャートの別例を示す図である。文字認識装置のハードウェア構成の別例を示す図である。携帯端末のハードウェア構成例を示す図である。文字認識処理のフローチャートの別例を示す図である。

以下、図面に基づいて、本発明の実施形態について詳細に説明する。

図１は、文字認識装置の一実施形態を示している。また、図２は、図１に示した文字認識装置１０が画像入力装置１から受け取る画像の例を示している。

図１に示した画像入力装置１は、例えば、スマートフォンや携帯電話などの携帯端末に含まれるカメラ機能部でもよいし、テレビジョン放送システムで放送された映像に含まれる画像をキャプチャする機能を有するキャプチャ機能部でもよい。画像入力装置１がカメラ機能部である場合に、カメラ機能部は、印刷された広告媒体やテレビジョン放送システムで放送された映像を撮影することで取得した画像を文字認識装置１０に渡す。また、画像入力装置１がキャプチャ機能部である場合に、キャプチャ機能部は、広告用の映像からキャプチャした画像を文字認識装置１０に渡す。

文字認識装置１０は、第１認識部１１と、第２認識部１２と、検出部１３と、補正部１４とを含んでいる。第１認識部１１と第２認識部１２とは、画像入力装置１から図２に示すような検索キーワードを含む画像を受け取る。

図２において、符号Ｒは、検索キーワードが表示された状態の検索窓の例を示している。図２の例では、検索窓Ｒ１は、文字列「検索」を囲んだ矩形で表された検索ボタンＢの左側に配置されている。また、図２において、符号Ｔｘは、印刷された広告媒体あるいは広告用の映像に含まれる広告メッセージの例を示している。

図１に示した第１認識部１１は、画像入力装置１から受け取った画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、対象文字列の認識結果を候補文字列として取得する。

例えば、第１認識部１１は、画像に含まれる矩形の領域を検出することにより、図２に示した画像に含まれる検索窓Ｒ１に対応する領域を所定の領域として特定してもよい。第１認識部１１は、矩形の領域を検出する処理と、図２に示した検索ボタンＢのような特徴を持つ画像の領域を検出する処理とを組み合わせることで、検索窓Ｒ１の特定精度を高めてもよい。例えば、第１認識部１１は、検出した矩形の領域の近傍において、検索ボタンＢの特徴を持つ領域を探索し、矩形の領域の左右どちらかに検索ボタンＢを見つけた場合に、当該矩形の領域を上述した所定の領域に相当する検索窓Ｒ１として特定してもよい。

また、第１認識部１１は、上述したようにして特定した領域を対象とする文字認識処理を行うことにより、検索窓Ｒ１の内部に表示された検索キーワードについての認識結果を候補文字列として取得する。

なお、図２に示した検索窓Ｒ１は、第１認識部１１が文字認識処理の対象とする所定の領域の一例であり、第１認識部１１の処理対象の領域は検索窓Ｒ１に限られず、また、認識処理の対象となる対象文字列も検索キーワードに限られない。第１認識部１１は、例えば、図９、図１０を用いて後述するように、印刷された広告媒体や広告用の映像においてＵＲＬを表す文字列が表示された領域を対象とする文字認識処理により、当該ＵＲＬについての認識結果を候補文字列として取得してもよい。

また、第１認識部１１は、上述したようにして取得した候補文字列とともに、候補文字列に含まれる各文字が、所定の領域に表示された対象文字列の対応する位置に含まれる文字であることの確からしさを評価し、評価結果を示す確信度を出力することが望ましい。

例えば、第１認識部１１は、図２に示した検索窓Ｒ１についての文字認識処理で取得した候補文字列に含まれる各文字について、当該文字の字形と検索窓Ｒ１内の対応する位置に表示されたパターンとの類似度に基づいて、当該文字の確信度を求めてもよい。又、第１認識部１１は、上述した候補文字列とともに、候補文字列に含まれる各文字に対応して求めた確信度を出力してもよい。

また、図１に示した第２認識部１２は、画像入力装置１から受け取った画像の少なくとも一部を対象とする文字認識処理を実行することにより、受け取った画像に含まれるテキストを取得する。第２認識部１２は、受け取った画像の全体を対象として文字認識処理を実行してもよいし、上述した第１認識部１１で文字認識処理の対象として特定された領域の外側の領域を対象として文字認識処理を実行してもよい。例えば、第２認識部１２は、図２に示した画像の検索窓Ｒ１の外側の領域を対象として文字認識処理を実行することで、テロップとして表示された広告メッセージＴｘ１に対応する認識結果を示すテキストを取得する。

なお、画像に音声が付随する場合に、画像入力装置１は、上述した画像とともに、当該画像に付随する音声を第２認識部１２に入力する。例えば、画像入力装置１は、図２に示した画像に付随する音声として、図２に示した広告メッセージＴｘ１や検索キーワードの読み上げ音声を第２認識部１２に入力する場合がある。この場合に、第２認識部１２は、画像に対する文字認識処理に代えて、画像に付随する音声を対象とする音声認識処理を行ってもよいし、画像に対する文字認識処理と上述した音声を対象とする音声認識処理との両方を行ってもよい。

つまり、第２認識部１２は、画像を対象とする文字認識処理と当該画像の付随する音声の認識処理との少なくとも一方を実行することにより、画像の所定領域の外側に含まれるテキストと上述した音声で表されるテキストの少なくとも一方を取得する。

また、第２認識部１２は、上述したようにして取得したテキストとともに、取得したテキストに含まれる各文字が認識対象の画像又は音声の対応する箇所で表されたテキストに含まれる文字であることの確からしさを示す確信度を出力することが望ましい。

例えば、第２認識部１２は、図２に示した広告メッセージＴｘ１に対応して得たテキストに含まれる各文字について、当該文字の字形と広告メッセージＴｘ１の表示領域の対応する位置に表示されたパターンとの類似度に基づいて、当該文字の確信度を求めてもよい。又、第２認識部１２は、上述したテキストとともに、テキストに含まれる各文字に対応して求めた確信度を出力してもよい。

又、第２認識部１２は、テキストとして得た音声認識結果に含まれる各文字について、当該文字の読みを示す音と画像に付随して入力された音声の対応する箇所の音との類似度に基づいて、当該文字の確信度を評価してもよい。また、第２認識部１２は、画像に付随する音声に対して、単語単位の音声認識処理を行い、少なくとも一つの単語を含むテキストを取得するとともに、各単語の読みを示す音と音声の対応する箇所との類似度に基づいて、当該単語の確信度を評価してもよい。

ここで、第２認識部１２に入力される画像は、図２に示した広告メッセージＴｘ１などのように、検索キーワードが表示された検索窓Ｒ１と同時にテロップなどで表示される文字列には、検索キーワードに含まれる単語を含んでいる可能性が高い。同様に、画像に付随する音声は、画像中の検索窓に表示された検索キーワードを読み上げた音声や、検索キーワード中の単語を読み上げた音声を含んでいる可能性が高い。したがって、第２認識部１２が、画像入力装置１から受け取った画像及び当該画像に付随する音声の少なくとも一方を対象とする認識処理を実行することで得られたテキストは、検索キーワードに含まれる単語を含んでいる可能性が高い。

また、図２に示した画像において、検索窓Ｒ１の外側の画像に表示されている広告メッセージＴｘ１などに含まれる各文字は、検索窓Ｒ１内部に表示された対象文字列に含まれる各文字に比べて認識しやすい場合が多い。なぜなら、図２の例のように、広告メッセージＴｘ１などに含まれる各文字は、検索窓Ｒ１内部に表示された検索キーワードを表す対象文字列に含まれる各文字に比べて大きく表示される場合が多いためである。このため、第２認識部１２は、検索窓Ｒ１の外側の領域を対象とする文字認識処理により、第１認識部１１が検索窓Ｒ１内部を対象として行った文字認識処理で取得した認識結果に比べて、確信度の高い認識結果を取得することができる。

したがって、第２認識部１２で得られたテキストから、検索キーワードに含まれる単語などを表す文字列を検出できれば、検出した文字列を用いて第１認識部１１で得られた候補文字列を補完することができる。

図１に示した文字認識装置１０は、第１認識部１１で得られた候補文字列を、第２認識部１２で得られたテキストを用いて補完することにより、画像中の所定の領域に表示された文字列の認識精度を向上するために、検出部１３と補正部１４とを含んでいる。

以下の図１から図４の説明では、第２認識部１２が、画像入力装置１から入力された静止画像について文字認識処理を実行することにより、第１認識部１１による認識対象の領域の外側に表示されたテキストを取得する場合について説明する。

ここで、画像において同一の単語をそれぞれ表す２つの領域を対象として文字認識処理を実行すれば、当該文字認識処理でそれぞれ得られる２つの文字列は、互いに類似している可能性が高い。つまり、第２認識部１２で得られたテキストの中から、第１認識部１１で得られた候補文字列に類似する文字列が検出できた場合に、検出された文字列は、画像中の所定の領域の外側において、対象文字列の少なくとも一部を表す箇所の認識結果である可能性が高い。

図１に示した検出部１３は、第２認識部１２で得られたテキストの中から、候補文字列との類似度が所定の閾値以上である類似文字列を検出し、検出した類似文字列を補正部１４に渡す。

検出部１３は、例えば、候補文字列と第２認識部１２で得られたテキストをそれぞれ形態素に分解し、候補文字列から得られた形態素それぞれである候補要素について、テキストを分解して得られた形態素の中から類似する文字列で表される形態素を検出してもよい。例えば、検出部１３は、候補文字列から得た候補要素ごとに、テキストから得た複数の形態素それぞれとの間で共通して含む文字の数を調べ、共通する文字数が所定数以上である形態素を当該候補要素に類似する形態素として検出してもよい。また、検出部１３は、このようにして各候補要素について検出した形態素それぞれを、候補文字列に対応する類似文字列の一部として補正部１４に渡してもよい。ここで、テキストから得られた各形態素と候補文字列から得られた個々の形態素との間で共通する文字の数は、大きい値であるほど２つの形態素が互いに類似していることを示す類似度の一例である。また、検出部１３は、例えば、候補文字列から得られた個々の形態素に含まれる文字の数に所定の係数を乗じた数で示される閾値よりも、テキストから得られた形態素との間で共通する文字数が多い場合に、２つの形態素が類似すると判断してもよい。なお、係数の値は、例えば、０よりも大きく１より小さい値に設定することが望ましい。

図３は、候補文字列と類似文字列の例を示している。図３(Ａ)は、候補文字列の一例を示し、また、図３(Ｂ)は、類似文字列の一例を示している。

図３(Ａ)の例は、図２に示した検索窓Ｒ１の内部について文字認識処理を行うことで得られた候補文字列を示している。図３(Ａ)において、符号ｅ１，ｅ２で示した枠内の文字列は、候補文字列を分解して得られる形態素に相当する候補要素をそれぞれ示している。

また、図３(Ａ)において、候補要素ｅ１に含まれる各文字に対応して示した数値「７５」、「８２」、「８５」は、対応する文字「冨」、「士」、「田」についての文字認識の確からしさを例えば０〜１００の範囲の数値の大きさによって示す確信度を示している。なお、図３(Ａ)においては、候補要素ｅ２に含まれる各文字に対応する確信度の図示は省略した。

また、図３(Ｂ)の例は、図２に示した広告メッセージＴｘに対応する認識結果を示すテキストの例を示している。図３(Ｂ)において、符号ｍ１，ｍ２，ｍ３で示した枠内の文字列は、テキストを分解して得られる形態素をそれぞれ示している。

なお、図３(Ｂ)において、形態素ｍ２に含まれる各文字に対応して示した数値「９０」、「９２」、「８８」は、対応する文字「富」、「士」、「田」についての文字認識の確信度を示している。また、図３(Ｂ)においては、形態素ｍ１，ｍ３に含まれる各文字に対応する確信度の図示は省略した。

図１に示した検出部１３は、例えば、図３(Ａ)に示した候補要素ｅ１，ｅ２と、図３(Ｂ)に示した形態素ｍ１〜ｍ３のそれぞれとの間で、共通する文字数をそれぞれ計数することで、候補要素ｅ１，ｅ２それぞれと各形態素ｍ１〜ｍ３との類似度を評価する。また、検出部１３は、各形態素ｍ１〜ｍ３について得られた計数値と所定数(例えば２)とを比較することで、各形態素ｍ１〜ｍ３が候補要素ｅ１，ｅ２のそれぞれと類似しているか否かを判断する。

図３(Ａ)，(Ｂ)の例では、候補要素ｅ１と形態素ｍ２とは、２文字の文字列「士田」を共通して含んでおり、上述した計数値が所定数以上となる。このような場合に、検出部１３は、候補要素ｅ１と形態素ｍ２は、いずれも図２に示した画像中に表示された同じ単語を対象として文字認識を行った結果である可能性が高いと判断する。これに対して、形態素ｍ１，ｍ３と候補要素ｅ１との間で共通する文字の数はいずれも０であり、上述した所定数未満である。同様に、形態素ｅ２と形態素ｍ１〜ｍ３のそれぞれとの間で共通する文字数はいずれも０であり、上述した所定数未満である。したがって、図３に示した例の場合に、検出部１３は、図２に示した検索窓Ｒ１に表示された検索キーワードを対象とする文字認識処理で得られた候補文字列に類似する類似文字列の一部として、候補要素ｅ１に対応して得られた形態素ｍ２を検出する。

このようにして、検出部１３は、第２認識部１２で得られたテキストから、第１認識部１１の認識対象となった所定の領域に表示された文字列に含まれる単語と同じ単語についての文字認識結果を示す文字列を検出することができる。

なお、検出部１３が、候補文字列に類似する文字列を検出する手法は、共通する文字列を含む形態素を検出する手法に限られない。検出部１３は、例えば、図５及び図１４を用いて後述する手法を用いて、候補文字列を分解して得られる各候補要素と、テキストを分解して得られる各形態素との間の類似度を評価し、得られた評価結果に基づいて類似文字列を検出してもよい。

次に、図３の例を用いて、図１に示した補正部１４が、検出部１３によって検出された類似文字列に基づいて、候補文字列を補正する方法について説明する。

補正部１４は、例えば、候補文字列に含まれる各文字の確信度よりも、検出部１３によって検出された類似文字列の対応する文字の確信度が高い場合に、候補文字列中の当該文字を類似文字列中の対応する文字で置き換えることで候補文字列を補正してもよい。

例えば、図３(Ａ)，(Ｂ)に示した例では、候補文字列「冨士田フーズ」の第１文字に対応する確信度「７５」よりも、候補文字列に含まれる候補要素ｅ１に対応して検出された類似文字列「富士田」の第１文字の確信度「９０」の方が大きな値を示している。このことは、候補文字列「冨士田フーズ」の第１文字「冨」よりも、テキストから検出された類似文字列の第１文字「富」の方が、確からしいことを示している。

図３の例では、補正部１４が、候補文字列「冨士田フーズ」の第１文字「冨」を、テキストから検出された類似文字列「富士田」の第１文字「富」に置き換えることにより、正しい検索キーワードを示す文字列「富士田フーズ」を得ることができる。

同様に、補正部１４は、候補文字列に含まれる形態素の先頭からｊ番目の文字の確信度より、当該形態素に対応して検出された類似文字列のｊ番目の文字の確信度の方が大きい場合に、上述した文字の置き換えを実行することで候補文字列を補正することができる。ここで、変数ｊは、候補文字列に含まれる形態素の文字数以下の自然数である。

補正された候補文字列は、第１認識部１１が所定の領域に表示された対象文字列について得た文字認識結果と、所定の領域の外側において、対象文字列の少なくとも一部を表す箇所について第２認識部１２が得た文字認識結果とのうち確信度の高い方を反映している。
したがって、補正部１４による補正後の候補文字列は、補正前の候補文字列に比べて、図２に示した検索窓Ｒ１などの所定の領域に表示された対象文字列を正しく表している可能性が高い。

つまり、図１に示した文字認識装置１０によれば、例えば、図２に示した検索窓Ｒ１について単純に文字認識を行った場合に比べて、検索窓Ｒ１に表示された検索キーワードを高い精度で認識することができる。

また、文字認識装置１０は、このようにして得られた検索キーワードを図１に示した検索装置２に渡し、検索装置２に対して、検索キーワードに基づく検索処理によってネットワークＮＷから情報を取得する処理の実行を指示してもよい。

上述したように、本件開示の文字認識装置１０によれば、画像入力装置１で得られた広告媒体などの画像の所定領域に含まれる検索キーワードを高い精度で認識することができる。したがって、本件開示の文字認識装置１０によって得られた検索キーワードを用いれば、検索装置２は、ネットワークＮＷを介して、広告媒体などに表示された検索キーワードで示されたウェブサイトにほぼ確実にアクセスすることができる。

上述した機能を有する文字認識装置１０は、例えばスマートフォンや携帯電話などの携帯端末や携帯用ゲーム機など、カメラ機能とネットワーク接続機能とを含む情報機器（図示せず）に搭載することが可能である。例えば、文字認識装置１０を搭載した携帯端末の利用者は、中吊り広告などの広告媒体を撮影した画像を文字認識装置１０に入力し、上述した文字認識処理を実行させることで、広告媒体に表示された正確な検索キーワードを取得することができる。また、本件開示の文字認識装置１０によって得られた検索キーワードを携帯端末に搭載された検索機能に渡すことにより、広告媒体に表示された検索キーワードで示されるウェブサイトへの自動的なアクセスを実現することができる。

以上に説明したように、本件開示の文字認識装置１０によれば、検索キーワードを手入力する操作や、誤って認識された検索キーワードを修正する操作などの煩雑な操作から利用者を解放することができる。

このように、本件開示の文字認識装置１０は、広告媒体から検索キーワードを取得するための操作を簡易化することにより、広告媒体の視聴者による検索キーワードを用いた検索操作を支援することができる。また、本件開示の文字認識装置１０は、上述したようにして、視聴者が広告媒体から検索キーワードを取得するための操作を支援することにより、広告主が意図したウェブサイトに視聴者がアクセスする機会を増大させることができる。

したがって、本件開示の文字認識装置１０が広く普及すれば、広告主は、広告用の映像や広告用のポスターなどにおいて、美的な品質を維持できる程度の大きさで検索キーワードを表示する検索窓を表示させることにより、所望の広告効果を享受することができる。つまり、本件開示の文字認識装置１０の普及により、広告媒体自体を視聴させることによる広告効果と、広告媒体内に表示した検索キーワードなどを介して視聴者を所望のウェブサイトに誘導する効果とを両立させることができる。

また、本件開示の文字認識方法は、図１に示した文字認識装置１０が、画像入力装置１から受け取った画像に対して、図４に示すフローチャートに従う文字認識処理を実行することによって実現してもよい。

図４は、文字認識処理のフローチャートの例を示している。図４に示したステップ３０１〜ステップ３０７は、図１に示した文字認識装置１０に含まれる第１認識部１１、第２認識部１２、検出部１３および補正部１４によって実行される。

まず、第１認識部１１は、画像入力装置１から受け取った画像から、図２に示した検索窓Ｒ１などの所定の領域を検出する(ステップ３０１)。次いで、第１認識部１１は、検出した所定の領域内部について文字認識処理を行うことで、当該領域内部に表示されている検索キーワードなどの対象文字列についての認識結果を候補文字列として取得する(ステップ３０２)。

次に、第２認識部１２は、受け取った画像の全体を対象とする文字認識処理を行うことで、画像中において上述した所定の領域の外部に含まれるテキストを取得する（ステップ３０３）。第２認識部１２は、例えば、受け取った画像の全体を対象とする文字認識処理結果から、第１認識部１１による文字認識処理の対象となった領域に対応して得られる文字認識結果を除外することで、所定の領域の外部に含まれるテキストを取得してもよい。

次いで、検出部１３は、図３を用いて説明したようにして、ステップ３０３の処理で得られたテキストから、ステップ３０２で得られた候補文字列に類似した特徴を持つ類似文字列を検出する(ステップ３０４)。

その後、ステップ３０５において、文字認識装置１０は、ステップ３０４の処理で類似文字列を検出することができたか否かを判定する。

検出部１３によって類似文字列が検出された場合に(ステップ３０５の肯定判定)、補正部１４は、図３を用いて説明したようにして、類似文字列に基づいて候補文字列を補正する処理を実行する(ステップ３０６)。その後、補正部１４は、ステップ３０６の処理で補正された候補文字列を文字認識装置１０による文字認識結果として出力する。

一方、類似文字列が検出できなかった場合に(ステップ３０５の否定判定)、補正部１４は、ステップ３０６の処理を省略し、第１認識部１１から受け取った候補文字列をそのまま文字認識装置１０による文字認識結果として出力する(ステップ３０７)。

本件開示の文字認識方法によれば、画像内の所定の領域に表示された対象文字列についての文字認識処理で得られた候補文字列を、画像全体を対象とする文字認識結果から検出した類似文字列を用いて補完することで、所定領域についての文字認識精度を向上できる。

更に、上述した所定の領域を含む画像が映像に含まれる複数の画像の一つである場合に、上述したステップ３０３の処理において、第２認識部１２は、映像に含まれる他の画像および映像に付随する音声を対象とする認識処理を行うこともできる。

次に、本件開示の文字認識装置１０の別実施形態として、図２に示したような画像を含む映像に音声による広告メッセージが伴っている場合に好適な例について説明する。

図５は、文字認識装置１０の別実施形態を示している。なお、図５に示した構成要素のうち、図１に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図５に示した文字認識装置１０は、例えば、テレビジョン装置３に接続されており、テレビジョン装置３を介してテレビジョン放送システムによって放送された映像及び音声を取得する。

図５に示したテレビジョン装置３は、テレビジョン(ＴＶ：TeleVsion)放送受信処理部４と、ディスプレイ５と、スピーカ６と、映像／音声蓄積部７と、検索処理部８とを含んでいる。ＴＶ放送受信処理部４は、アンテナＡＮを介して例えば地上デジタル放送や衛星放送などの信号波を受信する機能を有している。また、検索処理部８は、インターネットなどのネットワークに接続する機能とともに、例えば、視聴者Ｑが操作するリモートコントロールユニット(リモコン)９からの指示に応じて、所望の情報を検索する機能を有している。

ＴＶ放送受信処理部４は、アンテナＡＮを介して受信した信号波から映像データＶｓ及び音声データＡｓを生成する。ディスプレイ５及びスピーカ６は、ＴＶ放送受信処理部４で生成された映像データＶｓ及び音声データＡｓに基づいて映像及び音声を再生し、再生した映像及び音声を視聴者Ｑに提供する。

また、映像／音声蓄積部７は、ＴＶ放送受信処理部４で生成された所定の時間分の映像データＶｓ及び音声データＡｓを一時的に保持するバッファ機能を有している。なお、映像／音声蓄積部７のバッファ機能によって保持される映像データＶｓ及び音声データＡｓの長さは、例えば、テレビジョン放送システムによって放送されるコマーシャルメッセージ(ＣＭ)の平均的な長さよりも長いことが望ましい。また、映像／音声蓄積部７は、リモコン９からの指示に応じて、ＴＶ放送受信処理部４から受け取った映像データＶｓ及び音声データＡｓを番組単位などで蓄積する場合もある。

図５に示したリモコン９は、テレビジョン装置３に対する指示を入力する機能とともに、文字認識装置１０に対して上述した検索キーワードの取得を目的とした文字認識処理を起動させるための指示を入力する機能を有している。例えば、リモコン９に、チャンネル切り替え操作などのためのキーに加えて、文字認識装置１０による文字認識結果を利用した検索の開始を指示する検索キーを設けてもよい。以下の説明では、視聴者Ｑがリモコン９に設けられた検索キーを操作することでテレビジョン装置３および文字認識装置１０に入力される指示を「検索指示」と称する。

図５に示した文字認識装置１０において、第１認識部１１は、検索窓検出部１１１と文字認識部１１２とを含んでいる。

検索窓検出部１１１は、リモコン９からの検索指示が入力された場合に、テレビジョン装置３のディスプレイ５によって再生中の画面を表す画像データを取得する。例えば、検索窓検出部１１１は、上述した映像データＶｓによって表される複数の画像の中から、検索指示が入力されたタイミングに対応する１枚の画像をキャプチャすることで、上述した画像データを取得してもよい。また、検索窓検出部１１１は、取得した画像データによって表される画像から、図２を用いて説明したようにして、検索キーワードが表示された検索窓の部分の画像を検出し、検出した画像を文字認識部１１２に渡す。

文字認識部１１２は、検索窓検出部１１１から検索窓に対応する領域の画像を受け取り、受け取った画像を対象とする文字認識処理により、検索窓内に表示された検索キーワードに対応する文字認識結果を候補文字列として取得する。文字認識部１１２は、例えば、図２に示した検索窓Ｒ１に対応する領域について文字認識処理を行うことにより、候補文字列「冨士田フーズ」を取得し、取得した候補文字列を図５に示した検出部１３に渡す。

また、図５に示した第２認識部１２は、映像／音声取得部１２１と、テロップ認識部１２２と、音声認識部１２３とを含んでいる。

映像／音声取得部１２１は、上述したリモコン９からの指示に応じて、例えば、映像／音声蓄積部７に蓄積された情報の中から、再生中のＣＭなどのマルチメディアコンテンツに対応する映像データＶｓ及び音声データＡｓを取得する。なお、以下の説明では、マルチメディアコンテンツを単にコンテンツと略称する。

ここで、テレビジョン放送システムを介して放送されるＣＭは、先頭と末尾とをそれぞれ特定するために所定の形式の信号を含んでいる。したがって、再生中のコンテンツがＣＭである場合に、映像／音声取得部１２１は、上述した所定の形式の信号に基づいて、映像／音声蓄積部７から、再生中のＣＭの先頭から検索指示が入力されるまでの映像データＶｓ及び音声データＡｓを取得してもよい。

また、映像／音声取得部１２１は、上述したようにして取得した映像データＶｓで表される映像に含まれる各画像をテロップ認識部１２２に渡すとともに、音声データＡｓを音声認識部１２３に渡す。

テロップ認識部１２２は、映像／音声取得部１２１から受け取った各画像を対象とする文字認識処理を行うことにより、映像の中でテロップなどによって表された少なくとも一つの広告メッセージを示すテキストを取得する。ＣＭなどのコンテンツが、様々なタイミングで複数種類の広告メッセージを表すテロップを含む場合に、テロップ認識部１２２は、各テロップで表される広告メッセージをそれぞれ示す文字列を含むテキストを生成することが望ましい。

なお、テロップ認識部１２２は、例えば、各画像についての文字認識処理で得られた文字列それぞれを含むテキストを生成することで、複数種類のテロップで表される広告メッセージを網羅したテキストを生成してもよい。また、テロップ認識部１２２は、時系列的に連続する複数の画像に含まれるテロップについての文字認識結果を統合することで認識精度を高める技術を利用し、各種類のテロップについて統合された認識結果を示す文字列を含むテキストを取得してもよい。

音声認識部１２３は、映像／音声取得部１２１から受け取った音声データＡｓに対して音声認識処理を行うことにより、音声データＡｓによって表される音声メッセージの内容を示すテキストを生成する。

音声認識部１２３は、各単語が発音された場合の音声の特徴を登録した音声辞書に基づいて、音声データＡｓによって表される音声メッセージを単語単位で認識することで得られる認識結果をテキストとして取得してもよい。例えば、音声メッセージ「ふじたふーずでけんさく」を表す音声データＡｓの入力に応じて、音声認識部１２は、下に示すように単語の区切りを示す情報を含むテキストＴｘ２を取得してもよい。なお、テキストＴｘ２において、符号「／」は単語の区切りを示している。
Ｔｘ２：「フジタ／フーズ／で／検索」
また、音声認識部１２３は、同じ発音で表される複数の単語が音声辞書に登録されている場合に、これらの複数の単語を音声の対応する箇所の認識結果の候補として取得し、取得した各候補を音声認識結果を示すテキストに含めて出力してもよい。例えば、上述したテキストＴｘ２の最初の単語の読み「ふじた」に対応して、複数の固有名詞「富士田」、「藤田」が音声辞書に登録されている場合に、単語の読みを示す文字列「フジタ」とともに上述した２つの固有名詞を含むテキストを出力してもよい。

ここで、ＣＭなどのコンテンツ内に図２に示したような検索窓Ｒ１を表示する画像が含まれる場合に、検索窓Ｒ１内に表示される検索キーワードは、広告主の企業を示す会社名や広告対象の製品名などを示す文字列を含んでいる可能性が高い。そして、ＣＭなどのコンテンツに含まれる映像に含まれるテロップなどの広告メッセージ及び音声メッセージは、同様に、広告主の企業を示す会社名や広告対象の製品名などを表す文字列や音声を含んでいる可能性が高い。このため、テロップ認識部１２２及び音声認識部１２３で得られるテキストは、高い確率で広告主の企業を示す会社名や広告対象の製品名などを示す文字列を含んでいる。

したがって、テロップ認識部１２２で得られたテキストと、音声認識部１２３で得られるテキストとを、図５に示す検出部１３に入力することで、文字認識部１１２で得られる候補文字列に対応する類似文字列を検出できる可能性を高めることができる。

図５に示した検出部１３は、解析部１３１と、候補要素保持部１３２と、形態素保持部１３３と、評価値算出部１３４と、選択部１３５とを含んでいる。

解析部１３１は、文字認識部１１２による認識結果を示す候補文字列とともに、テロップ認識部１２２と音声認識部１２３とのそれぞれによる認識結果を含むテキストを受け取る。解析部１３１は、候補文字列に対して形態素解析を行うことにより、候補文字列を少なくとも一つの候補要素に分解し、得られた候補要素のそれぞれを候補要素保持部１３２に保持させる。また、解析部１３１は、テロップ認識部１２２と音声認識部１２３とによって得られたテキストそれぞれに対して形態素解析を行うことにより、上述したテキストを少なくとも一つの形態素に分解し、得られた形態素を形態素保持部１３３に保持させる。

なお、解析部１３１は、上述したテキストＴｘ２のように、単語の区切りを示す情報を含むテキストを音声認識部１２３から受け取った場合に、符号「／」に基づいて、テキストを区切ることで、各単語に対応する形態素を取得してもよい。また、解析部１３１は、テロップ認識部１２２で得られたテキストおよび音声認識部１２３で得られたテキストにおいて、同一の文字列で表される形態素が繰り返し現れる場合に、これらの形態素を統合して形態素保持部１３３に保持させてもよい。更に、解析部１３１は、形態素保持部１３３に保持する形態素を、名詞などの自立語を示す形態素に制限してもよい。

また、候補要素保持部１３２は、解析部１３１から各候補要素を受け取る際に、これらの候補要素に含まれる各文字に関する文字認識の確信度を文字認識部１１２から受け取り、候補要素それぞれに含まれる各文字に対応して、受け取った確信度を保持してもよい。

同様に、形態素保持部１３３は、解析部１３１から各形態素を受け取る際に、当該形態素に含まれる各文字に対応する確信度をテロップ認識部１２２あるいは音声認識部１２３から受け取り、受け取った確信度を各形態素に関する情報の一部として保持してもよい。

なお、画像あるいは音声の異なる箇所について得られた認識結果を一つの形態素に統合する場合に、形態素保持部１３３は、統合後の形態素に含まれる各文字についての確信度として、統合される各認識結果における当該文字の確信度の最大値を保持してもよい。また、音声認識部１２３で得られたテキストから得られた形態素を保持する際に、形態素保持部１３３は、当該形態素に含まれる各文字の確信度として、音声認識部１２３により、対応する単語について得られた確信度を保持してもよい。また、音声認識部１２３が音声データＡｓについての認識処理を行う際の処理単位であるフレームと認識結果として得られた単語に含まれる各文字とを対応付け、当該フレームに対応する音声についての認識結果の確信度を各文字の確信度としてもよい。

次に、上述したようにしてテキストを分解して得られた形態素の集合から、候補文字列に含まれる候補要素に類似する形態素を検出する方法について説明する。

図５に示した評価値算出部１３４は、形態素保持部１３３に保持された各形態素を表す文字列について、当該文字列と候補要素保持部１３２に保持された各候補要素を表す文字列とが違っている度合いを示す評価値を算出する。例えば、評価値算出部１３４は、形態素保持部１３３に保持された形態素のそれぞれを、各候補要素を表す文字列に書き換える場合の手順数を示す編集距離を算出し、算出した編集距離を上述した２つの文字列が違っている度合いを示す評価値として出力してもよい。このようにして求めた評価値は、各候補要素を表す文字列を形態素保持部１３３に保持された形態素のそれぞれが類似しているほど小さい値となる類似度の一例である。

図６は、図５に示した評価値算出部１３４による評価値の算出例を示している。図６の表の第２行に示した文字列「冨士田」および文字列「フーズ」は、図３(Ａ)に示した候補要素ｅ１，ｅ２をそれぞれ示している。また、図６の表の第１列に示した文字列「株式会社」、「富士田」、「食品」は、図２に示したテキストＴｘ１を形態素解析することで得られる各形態素を示しており、図３(Ｂ)に示した各形態素ｍ１〜ｍ３に相当する。また、図６の表の第１列に示した文字列「フジタ」、「藤田」、「フーズ」、「検索」は、上述したテキストＴｘ２から得られた形態素のそれぞれを示している。

図６に示した表は、図２に示したテキストＴｘ１および上述したテキストＴｘ２から得られた形態素のそれぞれを、上述した２つの候補要素「冨士田」と「フーズ」とのそれぞれに書き換える場合の編集距離を示している。

例えば、図６の表において、候補要素「冨士田」と形態素「株式会社」とに対応して示した数値「４」は、形態素「株式会社」を候補要素「冨士田」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値４が得られることを示している。また、候補要素「フーズ」と形態素「株式会社」とに対応して示した数値「４」は、形態素「株式会社」を候補要素「フーズ」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値４が得られることを示している。

同様に、候補要素「冨士田」と形態素「富士田」とに対応して示した数値「１」は、形態素「富士田」を候補要素「冨士田」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値１が得られることを示している。また、候補要素「フーズ」と形態素「富士田」とに対応して示した数値「３」は、形態素「富士田」を候補要素「フーズ」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値３が得られることを示している。

また、候補要素「冨士田」と形態素「食品」とに対応して示した数値「３」は、形態素「食品」を候補要素「冨士田」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値３が得られることを示している。また、候補要素「フーズ」と形態素「食品」とに対応して示した数値「３」は、形態素「食品」を候補要素「フーズ」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値３が得られることを示している。

同様に、候補要素「冨士田」と形態素「フジタ」とに対応して示した数値「３」は、形態素「フジタ」を候補要素「冨士田」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値３が得られることを示している。また、候補要素「フーズ」と形態素「フジタ」とに対応して示した数値「２」は、形態素「フジタ」を候補要素「フーズ」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値２が得られることを示している。

また、候補要素「冨士田」と形態素「藤田」とに対応して示した数値「２」は、形態素「藤田」を候補要素「冨士田」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値２が得られることを示している。また、候補要素「フーズ」と形態素「藤田」とに対応して示した数値「３」は、形態素「藤田」を候補要素「フーズ」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値３が得られることを示している。

同様に、候補要素「冨士田」と形態素「フーズ」とに対応して示した数値「３」は、形態素「フーズ」を候補要素「冨士田」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値３が得られることを示している。また、候補要素「フーズ」と形態素「フーズ」とに対応して示した数値「０」は、形態素「フーズ」を候補要素「フーズ」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値０が得られることを示している。

そして、候補要素「冨士田」と形態素「検索」とに対応して示した数値「３」は、形態素「検索」を候補要素「冨士田」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値３が得られることを示している。また、候補要素「フーズ」と形態素「検索」とに対応して示した数値「３」は、形態素「検索」を候補要素「フーズ」に書き換える際の編集距離として、図５に示した評価値算出部１３４により数値３が得られることを示している。

なお、評価値算出部１３４が候補要素を表す文字列と形態素保持部１３３に保持された各形態素を表す文字列とについて算出する評価値は、上述した編集距離に限られない。例えば、評価値算出部１３４は、上述した評価値として各候補要素と各形態素との間のハミング距離を算出してもよいし、その他、２つの文字列間の類似度を示す評価値であれば、どのような評価値を算出してもよい。

また、評価値算出部１３４は、形態素保持部１３３から受け取った各形態素とともに、上述したようにして各候補要素に対応して算出した評価値を選択部１３５に渡してもよい。また、評価値算出部１３４は、図６に示したように、形態素保持部１３３に保持された全ての形態素と、候補要素保持部１３２に保持された全ての候補要素との組み合わせについての評価値を示すテーブルを作成し、作成したテーブルを選択部１３５に渡してもよい。

図５に示した選択部１３５は、上述した評価値とともに受け取った複数の形態素の中から、次のようにして、候補文字列に含まれる候補要素それぞれに類似する形態素を選択する。

選択部１３５は、例えば、候補要素のそれぞれと各形態素とのペアについて算出された評価値が所定値以下である場合に、当該ペアに含まれる形態素を同じペアに属する候補要素に対応する類似文字列として選択する。選択部１３５は、例えば、候補要素のそれぞれと各形態素と対応して得られた評価値のそれぞれを所定の閾値と比較し、閾値以下の評価値が得られた形態素を、当該候補要素の類似文字列として選択してもよい。なお、選択部１３５は、上述した閾値として、例えば、数値「２」よりも小さい値を設定することが望ましい。例えば、閾値に数値「１」を設定した場合に、選択部１３５は、図６に示した各形態素の中から、候補要素「冨士田」に対応して形態素「富士田」を選択するとともに、候補要素「フーズ」に対応して形態素「フーズ」を選択する。

なお、評価値算出部１３４から図６に示したようなテーブルを受け取る場合に、選択部１３５は、次のようにして、類似文字列の一部として選択する形態素を決定してもよい。

選択部１３５は、例えば、評価値算出部１３４から受け取ったテーブルにおいて、各候補要素に対応して示された編集距離を互いに比較し、上述した所定値以下の編集距離を持つ形態素の中から、最も小さい値を持つ形態素を含むｎ個(ｎ≧１)の形態素を選択してもよい。

例えば、図６に示したテーブルに基づいて、選択部１３５は、候補要素「冨士田」に対応して示された編集距離の中で最小の編集距離「１」に対応する形態素「藤田」を含む少なくとも一つの形態素を選択する。同様に、図６に示したテーブルに基づいて、選択部１３５は、候補要素「フーズ」に対応して示された編集距離の中で最小の編集距離「０」に対応する形態素「フーズ」を含む少なくとも一つの形態素を選択する。

なお、選択部１３５が選択する形態素の数ｎを例えば３程度の適切な数に制限することにより、所定値以下の編集距離を持つ多数の形態素が検出された場合などにおいて、図７，図８を用いて説明する補正部１４の処理負担を軽減することができる。

以上に説明したように、図５に示した検出部１３は、候補文字列とテキストとの双方を形態素に分解し、検索窓に表示された検索キーワードについての認識結果である候補文字列に含まれる形態素ごとにテキストから類似する部分を検出する。例えば、異なるタイミングで表示されるテロップに検索キーワードに含まれる単語が別々に含まれる場合にも、検出部１３は、これらのテロップに対応する認識結果を含むテキストから、それぞれの単語に対応する認識結果を類似文字列の一部として検出できる。

これにより、検索キーワードそのものがテロップや音声メッセージとして含まれていない場合でも、検索キーワードの一部を表す文字列と同じ文字列である可能性の高い部分を類似文字列の一部としてテキストの中から検出することができる。

つまり、図５に示した第２認識部１２を有する文字認識装置１０によれば、映像に含まれるテロップ及び音声メッセージからテキストを生成することで、検索キーワードの少なくとも一部を含む可能性の大きいテキストを生成することができる。

更に、図５に示した検出部１３によれば、第２認識部１２で得られたテキストから、第１認識部１１で得られた候補文字列の補正に利用可能な類似文字列を検出できる可能性を高めることができる。

つまり、図５に示した本件開示の文字認識装置１０によれば、検索キーワードの少なくとも一部を含んでいる可能性の高いテキストから、候補文字列の補正に利用可能な類似文字列を高い確度で検出することができる。したがって、図５に示した本件開示の文字認識装置１０によれば、補正部１４により、図３を用いて説明したような補正を候補文字列に対して適用する機会を増やすことで、検索キーワードの認識精度を高めることができる。

これにより、図５に示したディスプレイ５に表示された検索窓内に表示された検索キーワードを正しく表す文字列を、文字認識装置１０による認識結果として、検索処理部８に提供できる可能性を増大させることができる。

したがって、本件開示の文字認識装置１０とテレビジョン装置３とを連携させることで、検索キーワードを含む画面を見た視聴者Ｑがリモコン９の検索キーを操作するだけで、視聴者Ｑを検索キーワードで示されるウェブサイトに誘導することが可能となる。

なお、本件開示の文字認識装置１０は、図５に示したテレビジョン装置３に限らず、例えば、セットトップボックス(図示せず)やテレビジョン放送用のチューナーを有する録画再生装置(図示せず)などとも連携して運用することが可能である。また、図５に示した文字認識装置１０と、テレビジョン情報を受信する機能とネットワーク接続機能とを有するスマートフォンなどの携帯端末とを連携させて運用することも可能である。なお、スマートフォンなどの携帯端末と連携して運用する場合に好適な本件開示の文字認識装置１０の実施形態については、図１３〜図１５を用いて後述する。

テレビジョン装置３やセットトップボックスなどの利用者は、キーボードなどによる文字入力操作やリモコン９に設けられた操作キーなどによる文字入力操作に不慣れな場合が多い。したがって、上述したような簡易な操作でウェブサイトにアクセスできるようにすることで、利用者の利便性を向上することができる。

ところで、画像を対象とする文字認識処理の結果として、認識対象である対象文字列が表示されている領域を区切って得られる文字領域ごとに、当該文字領域内の文字と類似した字形で表される複数の文字候補と、各文字候補についての確信度が得られる場合がある。なお、文字領域とは、画像に含まれる個々の文字を表すパターンが含まれている領域であり、例えば、個々の文字を表すパターンが外接する矩形の領域である。

ここで、上述した第１認識部１１で取得した候補文字列は、例えば、所定の領域に表示された対象文字列の各文字に対応する文字領域について得られた最も確信度の高い文字候補を順に並べることで得られる文字列に相当する。同様に、上述した第２認識部１２が画像を対象とする文字認識で得たテキストは、画像に含まれる各文字領域について得られた複数の文字候補のうち、最も高い確信度を持つ文字候補を順に並べることで得られる。

したがって、第１認識部１１で得られた候補文字列に含まれる各文字が、対象文字列の対応する文字を正しく示していない場合にも、候補文字列中の文字として選ばれなかった文字候補の中に正しい文字が含まれている場合がある。第２認識部１２による認識結果として得られるテキストに含まれる各文字についても同様である。

以下、第１認識部１１及び第２認識部１２による認識処理の過程で得られながら、候補文字列及びテキストに反映されなかった文字候補に関する情報も併せて利用することで、対象文字列についての認識精度を更に向上する方法について説明する。

図７は、文字認識装置１０の別実施形態を示している。なお、図７に示した構成要素のうち、図１又は図５に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図７に示した候補要素保持部１３２は、解析部１３１から候補文字列に含まれる各候補要素を受け取る際に、当該候補要素の各文字に対応する文字領域についての認識結果として得られた全ての文字候補及びこれらの文字候補の確信度を第１認識部１１から受け取る。また、候補要素保持部１３２は、第１認識部１１から受け取った各文字候補及びこれらの文字候補に対応する確信度を、対応する候補要素に関する情報の一部として保持する。以下の説明では、第１認識部１１から各文字候補に対応して受け取った確信度を、当該文字候補についての第１確信度と称する。

また、図７に示した形態素保持部１３３は、解析部１３１から各形態素を受け取る際に、当該形態素の各文字に対応する文字領域についての認識結果として得られた全ての文字候補及びこれらの文字候補の確信度を第２認識部１２から受け取る。また、形態素保持部１３３は、第２認識部１２から受け取った各文字候補及びこれらの文字候補に対応する確信度を、対応する形態素に関する情報の一部として保持する。以下の説明では、第２認識部１２から各文字候補に対応して受け取った確信度を、当該文字候補についての第２確信度と称する。

図７に示した補正部１４は、算出部１４１と、特定部１４２とを含んでいる。算出部１４１は、選択部１３５によって類似文字列の一部として選択された形態素に対応して上述した形態素保持部１３３に保持された少なくとも一つの文字候補とこれらの文字候補それぞれに対応する第２確信度を取得する。また、このとき、算出部１４１は、当該形態素が類似するとされた候補要素に対応して候補要素保持部１３２に保持された少なくとも一つの文字候補とこれらの文字候補それぞれに対応する第１確信度を取得する。

算出部１４１は、各候補要素に含まれる各文字に対応する文字候補それぞれの第１確信度と、当該候補要素に対応して選択された形態素の各文字に対応する文字候補それぞれの第２確信度とを次のようにして集計することで、各文字候補についての評価値を算出する。

図８は、算出部１４１による評価値の算出例を示している。図８において、符号Ｌｅを付した破線で囲んで示した３つの文字Ｌｅ１，Ｌｅ２，Ｌｅ３は、第１認識部１１による認識結果から得られた文字候補の例を示している。また、図８において、符号Ｌｍを付した破線で囲んで示した３つの文字Ｌｍ１，Ｌｍ２，Ｌｍ３は、第２認識部１２による認識結果から得られた文字候補の例を示している。

図８において文字候補Ｌｅ１，Ｌｅ２，Ｌｅ３として示した各文字「冨」、「富」、「高」のそれぞれは、第１認識部１１により、図２に示した検索窓Ｒ１内に表示された検索キーワードの先頭の文字と字形が類似すると判断された文字の例である。また、これらの文字候補Ｌｅ１，Ｌｅ２，Ｌｅ３に対応して示した数値「７５」、「７０」、「５５」は、それぞれの第１確信度を示している。

また、図８において文字候補Ｌｍ１，Ｌｍ２，Ｌｍ３として示した各文字「富」、「冨」、「宵」のそれぞれは、第２認識部１２により、図２に示した広告メッセージＴｘ１の先頭の文字と字形が類似するとされた文字の例である。また、これらの文字候補Ｌｍ１，Ｌｍ２，Ｌｍ３に対応して示した数値「９０」、「８０」、「６０」は、それぞれの第２確信度を示している。

図７に示した算出部１４１は、例えば、補正対象の候補要素の先頭からｊ文字目に対応する各文字候補の第１確信度と、当該候補要素に対応して検出された形態素のｊ文字目に対応する各文字候補の第２確信度とを、同じ字形で表される文字候補ごとに集計する。なお、上述した変数ｊは、候補要素の文字数ｎ以下の自然数である。又、算出部１４１は、補正対象の候補要素に対応する類似文字列として複数の形態素が検出されている場合に、全ての形態素のｊ文字目に対応する各文字候補について得られた第２確信度を含めて上述した集計を行う。

例えば、算出部１４１は、図８に符号Ｌｅ１で示した文字候補「冨」の第１確信度と、同じ字形で表される文字候補Ｌｍ２の第２確信度とを加算することで、文字「冨」が上述した検索キーワードの先頭の文字である可能性の高さを示す評価値を算出してもよい。

また、更に望ましくは、算出部１４１は、同じ字形で表される文字について得られた第１確信度と第２確信度とに、それぞれ所定の第１重みと第２重みとを適用した上で集計してもよい。この場合に、算出部１４１は、例えば、第１重みに第２重みよりも大きい値を設定することが望ましい。

図８の例では、第１重みを数値「１」とし、第２重みを数値「０．８」とした場合について、上述した文字候補Ｌｅ１，Ｌｅ２，Ｌｅ３に対応する第１確信度と文字候補Ｌｍ１，Ｌｍ２，Ｌｍ３に対応する第２確信度とを同じ字形で表される文字ごと集計した例を示した。

図８において、符号Ｐ１，Ｐ２，Ｐ３，Ｐ４は，上述した文字候補Ｌｅ１，Ｌｅ２，Ｌｅ３および文字候補Ｌｍ１，Ｌｍ２，Ｌｍ３に含まれる互いに異なる字形で示される文字「富」、「冨」、「高」、「宵」を示している。また、各文字Ｐ１，Ｐ２，Ｐ３，Ｐ４に対応して示した数値「１４２」、「１３９」、「５５」、「４８」は、図７に示した算出部１４１が上述した第１重み及び第２重みを適用した集計処理を実行することで得られた評価値を示している。

このような集計処理を行う算出部１４１によれば、候補文字列及びテキストに反映されなかった文字候補を含めて、第１認識部１１及び第２認識部１２で得られた認識結果を示す情報を反映した評価値を、上述した文字候補それぞれについて求めることができる。

上述した算出部１４１が対象文字列のｊ番目の文字領域に対応する各文字候補について算出した評価値は、当該文字候補が対象文字列のｊ番目の文字であることの確からしさを示している。

したがって、図７に示した特定部１４２は、算出部１４１で得られた各文字候補の評価値に基づいて、対象文字列の各文字に対応する文字領域について最も確信度の高い文字候補を特定することができる。

例えば、特定部１４２は、対象文字列の各文字に対応する文字領域ごとに、算出部１４１により最も高い評価値が得られた字形で表される文字を特定し、特定した文字をつなげて形成した文字列を補正後の候補文字列として出力してもよい。

上述した算出部１４１と特定部１４２とを含む補正部１４によれば、候補文字列及び類似文字列に含まれる文字候補とともに、これらに反映されなかった文字候補に関する情報も反映された評価値に基づいて、対象文字列の各文字を特定することができる。

これにより、候補文字列に含まれる各文字の確信度と類似文字列に含まれる各文字の確信度との比較結果に基づいて候補文字列を補正する場合に比べて、対象文字列をより忠実に示す認識結果を得ることができる。

なお、上述した算出部１４１及び特定部１４２を含む補正部１４は、第１認識部１２によってテキストが音声認識処理で得られる認識結果を含む場合にも適用できる。

例えば、図５に示した音声認識部１２３により、音声認識で得られたテキストの各文字に対応する音声処理単位ごとに、当該音声処理単位対応の認識結果として考えられる音素の候補と当該音素の候補の確信度を取得し、上述した評価値の算出に供してもよい。

一方、音声認識で得られる認識結果は、音声メッセージに含まれる各単語を表す音声についての認識結果として考えられる単語候補と、単語候補それぞれの確信度とを含んでいる場合もある。ここで、例えば、音声認識結果として、単語候補が所定値以上の確信度を持って得られた場合に、この単語候補が対応する部分の音声によって表された言葉である可能性は、単語として認識できない場合などに比べて非常に高い。したがって、図５に示した音声認識部１２３により、音声認識結果として所定値以上の確信度を持つ単語候補が得られた場合に、図７に示した特定部１４２は、単語候補で示される各文字を対象文字列の対応する部分を表す各文字として優先して特定してもよい。

次に、広告媒体などを表す画像の所定の領域に含まれる対象文字列がＵＲＬを示している場合に好適な文字認識装置１０の実施形態について、図９及び図１０を用いて説明する。

ここで、広告媒体に表示されるＵＲＬは、広告主の企業名や宣伝対象の製品名などの英文字表記を含んでいる場合が多く、また、企業名や製品名などの英文字表記は、ＵＲＬとともに広告媒体に表示された広告メッセージにも含まれている場合が多い。したがって、ＵＲＬが表示された領域についての文字認識結果が不完全である場合でも、上述した検索キーワードについての文字認識と同様にして、ＵＲＬとともに表示された広告メッセージについての文字認識結果を用いて補完することが可能である。

図９は、文字認識装置１０の別実施形態を示している。なお、図９に示した構成要素のうち、図１又は図５に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図９に示した第２認識部１２は、文字認識部１２４を含んでおり、文字認識部１２４は、画像入力装置１から受け取った画像を対象とする文字認識処理を行うことにより、当該画像に含まれるテキストを取得する。

また、図９に示した第１認識部１１は、上述した文字認識部１２４とともに、範囲特定部１１３を含んでいる。範囲特定部１１３は、文字認識部１２４で得られたテキストにおいて、所定の文字列あるいは所定の記号により先頭と末尾の位置が示された範囲を特定する。また、範囲特定部１１３は、文字認識部１２４で得られたテキストの中で、上述した所定の記号により先頭と末尾の位置が示された範囲に含まれる文字列を、対象文字列についての認識結果を示す候補文字列として取得する。

範囲特定部１１３は、例えば、文字認識部１２４で得られたテキストからＵＲＬに特有の書式文字や記号を検出することにより、図１０に示すように、画像入力装置１から得られた画像において、ＵＲＬが表示された部分を所定の領域Ｒ２として特定してもよい。

図１０は、画像入力装置１から文字認識装置１０に入力される画像の別例を示している。図１０において、符号Ｔｘ３，Ｔｘ４，Ｔｘ５は、図９に示した文字認識装置１０が受け取った画像に含まれる広告メッセージの例を示している。また、図１０に示した領域Ｒ２は、ＵＲＬを示す文字列「ＷＷＷ．ＡＢＣ．ｃｏ．ｊｐ」が表示された領域の例を示している。

図１０の画像の例は、ＵＲＬを示す文字列及び広告メッセージＴｘ３〜Ｔｘ５とともに、広告対象の製品であるパーソナルコンピュータを表す画像Ｇ１を含んでいる。

図１０に示したような画像を対象とする文字認識処理により、図９に示した文字認識部１２４は、広告メッセージＴｘ３，Ｔｘ４，Ｔｘ５についての認識結果を示す文字列とともに上述した領域Ｒ２についての認識結果を示す文字列を含むテキストを取得する。

範囲特定部１１３は、例えば、文字認識部１２４で得られたテキストから、図１０に符号Ｃｓで示した文字列「ＷＷＷ」を先頭位置とし、符号Ｃｅで示した文字列「．ｊｐ」を末尾位置とする範囲を、ＵＲＬを示す文字列が表示された領域Ｒ２として特定してもよい。

なお、文字列「ＷＷＷ」は、ＵＲＬを示す文字列の先頭位置を示す文字列の一例であり、範囲特定部１１３は、テキストに含まれる文字列「ｈｔｔｐ」や文字列「ｈｔｔｐ：／／」の位置を、上述した領域Ｒ２の先頭位置として検出してもよい。同様に、上述した文字列「．ｊｐ」は、ＵＲＬを示す文字列の末尾位置を示す文字列の一例であり、範囲特定部１１３は、テキストに含まれる文字列「．ｃｏｍ」や文字列「．ｃｏｍ／」の位置を、上述した領域Ｒ２の末尾位置として検出してもよい。

上述した範囲特定部１１３を含む第１認識部１１によれば、広告媒体などを撮影して得られた画像から、ＵＲＬを表す対象文字列が表示された領域を自動的に特定し、特定した領域を対象とする文字認識結果を候補文字列として取得することができる。

ここで、図１０に示した領域Ｒ２において、ＵＲＬを示す文字列は、複雑なテクスチャを持つ画像を背景として表示される場合もある。そのような場合に、文字認識部１２４による文字認識結果から範囲特定部１１３が抽出した候補文字列は、広告媒体に表示された対象文字列に完全には一致しない場合もある。以下の説明では、例えば、図１０に示した領域Ｒ２に表示されたＵＲＬを示す対象文字列「ＷＷＷ．ＡＢＣ．ｃｏ．ｊｐ」に対応する認識結果として、範囲特定部１１３が、候補文字列「ＷＷＷ．ＡＢＯ．ｃｏ．ｊｐ」を抽出した場合について説明する。

また、図９に示した検出部１３は、図５に示した解析部１３１、候補要素保持部１３２、形態素保持部１３３、評価値算出部１３４および選択部１３５に加えて、抽出部１３６を含んでいる。

抽出部１３６は、範囲特定部１１３から候補文字列を受け取り、受け取った候補文字列を所定の記号で区切ることで得られる文字列のそれぞれを、上述した候補文字列に含まれる候補要素として抽出する。例えば、範囲特定部１１３から上述した候補文字列「ＷＷＷ．ＡＢＯ．ｃｏ．ｊｐ」を受け取った場合に、抽出部１３６は、区切り記号「．」によって上述した候補文字列を区切ることにより、候補要素「ＷＷＷ」，「ＡＢＯ」，「ｃｏ」，「ｊｐ」を取得する。また、抽出部１３６は、上述したようにして抽出した候補要素のそれぞれを候補要素保持部１３２に保持する。

このような抽出部１３６によれば、ＵＲＬに共通する書式の特徴を利用して上述した候補文字列を分解することにより、個々のＵＲＬの特徴を示す文字列それぞれを候補要素として取得することができる。

一方、図９に示した解析部１３１は、文字認識部１２４から、範囲特定部１１３によって特定された領域Ｒ２の外側の画像に表示された広告メッセージなどについての認識結果を含むテキストを受け取る。また、解析部１３１は、受け取ったテキストに対して形態素解析を行うことにより、テキストを複数の形態素に分解し、得られた形態素のそれぞれを形態素保持部１３３に保持させる。

例えば、図１０の例では、広告メッセージＴｘ３，Ｔｘ４，Ｔｘ５についての文字認識で得られた文字列「株式会社ＡＢＣ」、文字列「初心者にも使いやすい」、文字列「ＡＢＣ社の新しいパソコン」を含むテキストが、図９に示した解析部１３１に渡される。このようなテキストについて形態素解析を行うことにより、解析部１３１は、形態素「株式会社」、形態素「ＡＢＣ」を含む形態素の集合を取得し、取得した形態素の集合に含まれる各形態素を形態素保持部１３３に保持させる。なお、上述した形態素の集合は、更に、形態素「初心者」、形態素「使いやすい」、形態素「社」、形態素「新しい」および形態素「パソコン」を含んでいる。

上述した抽出部１３６で得られた各候補要素について、図９に示した評価値算出部１３４は、図５、図６を用いて説明したようにして、形態素保持部１３３に保持された各形態素との間の編集距離を算出する。また、選択部１３５は、得られた編集距離に基づいて、各候補要素に類似する形態素を形態素保持部１３３に保持された形態素の中から選択し、選択した形態素を、候補文字列に対応して検出した類似文字列として出力する。

例えば、図１０に示した広告メッセージＴｘ３〜Ｔｘ５の内容を示すテキストから上述した形態素「株式会社」、「ＡＢＣ」、「初心者」、「使いやすい」、「社」、「新しい」および形態素「パソコン」を含む形態素の集合が得られた場合を考える。

この場合に、図９に示した選択部１３５は、上述した各形態素と候補要素「ＡＢＯ」とについてそれぞれ算出された編集距離の中で、最小の編集距離「１」を与える形態素「ＡＢＣ」を、候補要素「ＡＢＯ」と同じ単語についての認識結果として選択する。

ここで、上述した検索キーワードの例と同様に、画像においてＵＲＬを示す文字列よりも、図１０に示した広告メッセージＴｘ３〜Ｔｘ５などに含まれる文字列の方が大きい場合が多い。このため、図１０に示した領域Ｒ２についての文字認識処理で得られた候補文字列の各文字の確信度よりも、広告メッセージＴｘ３や広告メッセージＴｘ５についての文字認識結果に含まれる文字列「ＡＢＣ」の各文字の確信度の方が高い場合が多い。

したがって、図９に示した補正部１４により、候補要素「ＡＢＯ」の各文字の確信度と、この候補要素に対応して検出された形態素「ＡＢＣ」に含まれる各文字の確信度とに基づく補正処理を行うことにより、候補要素「ＡＢＯ」を正しい文字列「ＡＢＣ」に補正できる。

このように、図９に示した文字認識装置１０によれば、画像中のＵＲＬを表示した領域についての文字認識結果を、上述した領域の外側に表示された広告メッセージなどの認識結果を用いて補完することで、ＵＲＬを高い精度で認識することができる。

したがって、本件開示の文字認識装置１０によって得られたＵＲＬを図１に示した検索装置２に提供すれば、検索装置２は、ネットワークＮＷを介して、広告媒体などに表示されたＵＲＬで示されたウェブサイトにほぼ確実にアクセスすることができる。

上述した機能を有する文字認識装置１０は、例えばスマートフォンや携帯電話などの携帯端末や携帯用ゲーム機など、カメラ機能とネットワーク接続機能とを含む情報機器（図示せず）に搭載することが可能である。例えば、文字認識装置１０を搭載した携帯端末の利用者は、中吊り広告などの広告媒体を撮影した画像を文字認識装置１０に入力し、上述した文字認識処理を実行させることで、広告媒体に表示された正確なＵＲＬを取得することができる。また、本件開示の文字認識装置１０によって得られたＵＲＬを携帯端末に搭載されたネットワーク接続機能に渡すことにより、広告媒体に表示されたＵＲＬで示されるウェブサイトへの自動的なアクセスを実現することができる。

以上に説明したように、本件開示の文字認識装置１０によれば、ＵＲＬを手入力する操作や、誤って認識されたＵＲＬを修正する操作などの煩雑な操作から利用者を解放することができる。

このように、本件開示の文字認識装置１０は、広告媒体からＵＲＬを取得するための操作を簡易化することにより、広告媒体の視聴者が取得したＵＲＬで示されるウェブサイトにアクセスする操作を支援することができる。また、本件開示の文字認識装置１０は、上述したようにして、視聴者が広告媒体からＵＲＬを取得するための操作を支援することにより、広告主が意図したウェブサイトに視聴者がアクセスする機会を増大させることができる。

したがって、本件開示の文字認識装置１０が広く普及すれば、広告主は、広告用の映像や広告用のポスターなどにおいて、美的な品質を維持できる程度の大きさでＵＲＬを表示することにより、所望の広告効果を享受することができる。つまり、本件開示の文字認識装置１０の普及により、広告媒体自体を視聴させることによる広告効果と、広告媒体内に表示したＵＲＬによって視聴者を所望のウェブサイトに誘導する効果とを両立させることができる。

なお、図９に示した第２認識部１２は、図５に示した第２認識部１２と同様に、テロップ認識部１２２及び音声認識部１２３を含んでもよく、放送されたＣＭなどのコンテンツに含まれるテロップ及び音声メッセージの内容を示すテキストを取得してもよい。

ここで、ＣＭなどのコンテンツにおいては、ＵＲＬに含まれる企業名や製品名を示す英文字列が繰り返し表示される場合や、ＵＲＬそのものが読み上げられる場合及び企業名や製品名が繰り返し読み上げられる場合がある。したがって、上述した第２認識部１２で得られるテキストには、企業名や製品名を示す英文字列に対応する文字認識結果や、ＵＲＬを読み上げた音声及び企業名や製品名を読み上げた音声についての音声認識結果が高い頻度で含まれている。

このようなテキストから、図９に示した検出部１３は、ＵＲＬに含まれる文字列と同じ単語がテロップとして表示された箇所の文字認識結果または当該単語を読み上げた音声の箇所についての音声認識結果それぞれを類似文字列として検出することができる。これにより、図９に示した補正部１４により、ＵＲＬが表示された領域について得られた候補文字列を、類似文字列に基づいて補正する機会を増大させることができるので、正しいＵＲＬを示す文字列を取得する可能性を高めることができる。すなわち、映像中のテロップや音声を認識する機能を持つ第２認識部１２を有する文字認識装置１０によれば、１枚の画像に含まれる情報に基づいて認識する場合に比べて、広告媒体に表示されたＵＲＬを更に高精度に認識することができる。

以上に説明した本件開示の文字認識装置１０は、例えば、テレビジョン装置などに搭載されたコンピュータ装置を用いて実現することができる。

図１１は、文字認識装置１０のハードウェア構成の一例を示している。なお、図１０に示した構成要素のうち、図１又は図５に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図１１の例は、本件開示の文字認識装置１０を、テレビジョン装置３に搭載されたコンピュータ装置２０を利用して実現する場合のハードウェア構成例を示している。

図１１に示したコンピュータ装置２０は、プロセッサ２１と、メモリ２２と、ハードディスク装置２３と、近接通信インタフェース２４と、出力制御部２５と、ネットワークインタフェース２６と、光学ドライブ装置２７とを含んでいる。図１１に例示したプロセッサ２１と、メモリ２２と、ハードディスク装置２３と、近接通信インタフェース２４と、出力制御部２５と、ネットワークインタフェース２６と、光学ドライブ装置２７とは、バスを介して互いに接続されている。また、プロセッサ２１は、上述したバスを介して、ＴＶ放送受信処理部４とも接続されている。

本件開示の文字認識装置１０は、例えば、図１１に示したプロセッサ２１とメモリ２２とハードディスク装置２３とにより実現することができる。図１１の例は、ハードディスク装置２３の一部の容量を用いて、図５に示した候補要素保持部１３２と形態素保持部１３３とを実現する場合を示している。また、図１１の例は、コンピュータ装置２０に含まれるハードディスク装置２３の容量の一部を利用して、図５に示した映像／音声蓄積部７を実現する場合を示している。

上述した光学ドライブ装置２７は、光ディスクなどのリムーバブルディスク２８を装着可能であり、装着したリムーバブルディスク２８に記録された情報の読出および記録を行う。また、出力制御部２５は、プロセッサ２１からの指示に従って、ディスプレイ５による映像出力及びスピーカ６による音声出力を制御する。

また、コンピュータ装置２０は、近接通信インタフェース２４を介して、リモコン９に接続されている。プロセッサ２１は、視聴者Ｑによってリモコン９が操作された際に、操作内容に対応する指示を近接インタフェース２４から受け取り、受け取った指示に基づいて、ＴＶ放送受信処理部４及び出力制御部２５による受信処理及び出力処理を制御する。

また、コンピュータ装置２０は、ネットワークインタフェース２６を介してネットワークＮＷに接続されている。プロセッサ２１は、ネットワークインタフェース２６及びネットワークＮＷを経由して、図示しないウェブサーバなどに接続し、接続したウェブサーバなどから様々な情報を取得する機能を有している。つまり、図１１に示したテレビジョン装置３においては、プロセッサ２１とネットワークインタフェース２６とにより、図５に示した検索処理部８の機能が実現されている。

図１１に例示したメモリ２２は、コンピュータ装置２０のオペレーティングシステムとともに、プロセッサ２１が上述した文字認識処理を実行するためのアプリケーションプログラムを格納している。なお、上述した文字認識処理を実行するためのアプリケーションプログラムは、例えば、光ディスクなどのリムーバブルディスク２８に記録して頒布することができる。そして、このリムーバブルディスク２８を光学ドライブ装置２７に装着して読み込み処理を行うことにより、文字認識処理を実行するためのアプリケーションプログラムを、メモリ２２およびハードディスク装置２３に格納させてもよい。また、上述したネットワークインタフェース２６を介したダウンロード処理によって、文字認識処理を実行するためのアプリケーションプログラムを取得し、取得したプログラムをメモリ２２およびハードディスク装置２３に読み込ませてもよい。

図１２は、文字認識処理のフローチャートの別例を示している。なお、図１２に示したステップのうち、図４に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する場合もある。図１２に示したステップ３０１〜ステップ３０７及びステップ３１１〜ステップ３１６の各処理は、文字認識処理のためのアプリケーションプログラムに含まれる処理の一例である。また、これらのステップ３０１〜ステップ３０７及びステップ３１１〜ステップ３１６の各処理は、図１１に示したプロセッサ２１によって実行される。

まず、プロセッサ２１は、図１１に示したリモコン９からの検索指示に応じて、ディスプレイ５によって表示中の画像を取得する(ステップ３１１)。例えば、視聴者Ｑがリモコン９に設けられた検索キーを操作した際に、プロセッサ２１は、近接通信インタフェース２４を介して、表示中の画像に含まれる検索キーワード又はＵＲＬに基づく検索を指示する旨の検索指示を受け取る。この検索指示の入力を契機として、プロセッサ２１は、例えば、出力制御部２５から、ディスプレイ５によって表示中の画像を表す画像データを取得してもよい。

次に、プロセッサ２１は、ステップ３１１で取得した画像の中から図２に示したような検索窓Ｒ１を表す領域を検出するための処理を実行し(ステップ３０１)、次いで、ステップ３０１の処理で検索窓を検出できたか否かを判定する(ステップ３１２)。

ステップ３０１の処理で検索窓を検出できた場合に（ステップ３１２の肯定判定（ＹＥＳ））、プロセッサ２１は、ステップ３０２の処理に進む。ステップ３０２において、プロセッサ２１は、検出した検索窓内の領域について文字認識処理を実行する。これにより、プロセッサ２１は、ステップ３０１の処理で取得した画像において、検索キーワードが表示された検索窓内に相当する所定の領域についての認識結果を候補文字列として取得する。

一方、ステップ３０１の処理で検索窓を検出できなかった場合に（ステップ３１２の否定判定(ＮＯ)）、プロセッサ２１は、ステップ３０２の処理の代わりに、次に述べるステップ３１３及びステップ３１４の処理を実行する。まず、プロセッサ２１は、ステップ３０１で取得した画像全体を対象として文字認識処理を実行する(ステップ３１３)。次いで、プロセッサ２１は、ステップ３１３の処理で得られた文字認識結果から、図９、図１０を用いて説明したようにして、ＵＲＬの特徴を示している範囲の文字列を候補文字列として取得する(ステップ３１４)。

つまり、図１２に示したフローチャートの例では、プロセッサ２１は、検索窓の検出が成功したか失敗したかによって、検索キーワードが表示された検索窓についての認識結果あるいはＵＲＬの特徴を示す範囲についての認識結果を候補文字列として取得する。

その後、プロセッサ２１は、図１１に示したハードディスク装置２３に設けられた映像／音声蓄積部７から、テレビジョン装置３によって再生中のＣＭなどのコンテンツに含まれる映像データ及び音声データを取得する(ステップ３１５)。

次いで、プロセッサ２１は、取得した映像データ及び音声データにつき、図５を用いて説明した映像中のテロップを対象とする文字認識処理及び音声認識処理を行うことにより、テロップや音声によって表されたテキストを取得する(ステップ３１６)。

このようにして得られたテキストと上述した候補文字列とについて、プロセッサ２１が、ステップ３０４〜ステップ３０６の処理を実行することにより、テキストから検出した類似文字列を用いて、候補文字列を補正することができる。

なお、プロセッサ２１は、ステップ３０４の処理の際に、図５及び図６を用いて説明したように、テキストを分解して得られる形態素の集合から、候補文字列に含まれる各候補要素に対応する類似文字列を検出してもよい。

また、プロセッサ２１は、ステップ３０６の処理の際に、図７及び図８を用いて説明したように、候補文字列の各文字あるいは類似文字列の対応する文字について得られた各文字候補が、対象文字列の対応する文字である確からしさを示す評価値を算出してもよい。また、プロセッサ２１は、上述したようにして算出した評価値により、最も確からしいとされた文字候補を繋げることで、補正された候補文字列を取得してもよい。

このようにして、プロセッサ２１は、ステップ３１５で取得した映像及び音声に含まれる情報を利用することで、ステップ３１１の処理で取得した画像に含まれた検索キーワードあるいはＵＲＬを高い精度で認識することができる。

また、プロセッサ２１は、ステップ３０６の処理で得られた補正後の候補文字列を、ステップ３０７において、検索キーワードが表示された検索窓又はＵＲＬが表示された領域についての文字認識結果として出力する。プロセッサ２１は、ステップ３０７の処理の過程で、例えば、取得した検索キーワード又はＵＲＬを示す文字列を表す表示用データを生成し、生成した表示用データを図１１に示した出力制御部２５に渡すことにより、ディスプレイ５に表示させてもよい。この場合に、視聴者Ｑは、文字認識装置１０で得られた検索キーワード又はＵＲＬをディスプレイ５の表示画面上で確認したうえで、ネットワークアクセス操作の実行を指示することができる。

以上に説明したように、図１１に示したハードウェア構成によって実現される本件開示の文字認識装置１０によれば、ＣＭなどのコンテンツに含まれる検索キーワードやＵＲＬを示す文字列を正確に再現した文字認識結果を、視聴者Ｑに提示することができる。これにより、視聴者Ｑは、リモコン９に設けられた検索キーを操作するだけで、視聴中のコンテンツに含まれる検索キーワードあるいはＵＲＬを正しく表す文字列を取得し、取得した検索キーワードなどをネットワークアクセス操作に利用することができる。

例えば、プロセッサ２１は、メモリ２２あるいはハードディスク装置２３に格納されたアプリケーションプログラムで実現されるウェブブラウザを起動させ、このウェブブラウザに文字認識結果として得られた検索キーワードあるいはＵＲＬを渡してもよい。この場合に、プロセッサ２１は、ウェブブラウザがディスプレイ５に表示させる検索処理用の画面内の検索窓やアドレスバーに、上述したようにして取得した検索キーワードやＵＲＬを入力する操作を視聴者Ｑに代わって実行してもよい。

このように、図１１に示したハードウェア構成によって実現される本件開示の文字認識装置１０とテレビジョン装置３に搭載された検索機能との連携を図ることにより、視聴者Ｑに快適なネットワーク接続環境を提供することができる。

また、同様にして、本件開示の文字認識装置１０は、セットトップボックスや録画再生装置など、映像及び音声を含むコンテンツを再生する機能と、ネットワーク接続機能とを有する装置に搭載されたプロセッサなどのハードウェアを利用して実現することができる。

また、本件開示の文字認識装置１０は、インターネットなどのネットワーク上に配置したサーバ装置により、スマートフォンや携帯電話などの携帯端末を対象として提供するサービスの一つとして実現することも可能である。

図１３は、文字認識装置１０のハードウェア構成の別例を示している。なお、図１３に示した構成要素のうち、図１又は図５に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図１３に示したサーバ装置３０は、ネットワークＮＷを介して携帯端末４０に接続されており、携帯端末４０からのサービス要求に応じて、上述した文字認識処理を実行する。

サーバ装置３０は、プロセッサ３１と、メモリ３２と、ハードディスク装置３３と、ネットワークインタフェース３４と、ＴＶ放送受信処理部４とを含んでいる。上述したプロセッサ３１、メモリ３２及びハードディスク装置３３は、文字認識装置１０に含まれる。

また、プロセッサ３１は、メモリ３２と、ハードディスク装置３３と、ネットワークインタフェース３４と、ＴＶ放送受信処理部４とバスを介して接続されている。また、図１３の例示では、図５に示した候補要素保持部１３２及び形態素保持部１３３は、ハードディスク装置３３の一部の容量をこれらの各部に割り当てることで実現されている。また、ハードディスク装置３３に設けられた映像／音声蓄積部７は、ＴＶ放送受信処理部４で生成された映像データ及び音声データのうち、最新の所定時間分の映像データ及び音声データを蓄積している。なお、映像／音声蓄積部７は、ＴＶ放送受信処理部４によって各放送チャネルに対応して生成された映像データおよび音声データを蓄積することが望ましい。

また、メモリ３２及びハードディスク装置３３には、サーバ装置３０のオペレーティングシステムとともに、プロセッサ３１が上述した文字認識処理を実行するためのアプリケーションプログラムを格納している。

図１３に示した携帯端末４０は、ネットワークＮＷを介してサーバ装置３０に対して、視聴中のＣＭなどのコンテンツあるいは撮影した画像に含まれる検索キーワードあるいはＵＲＬの認識処理を要求するサービス要求を送出する機能を有している。なお、図１３の例は、携帯端末４０の表示画面に、図１０に示したようなＵＲＬを含む画像が表示されている場合を示している。

図１４は、図１３に示した携帯端末４０のハードウェア構成の一例を示している。なお、図１４に示した構成要素のうち、図５に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図１４に示した携帯端末４０は、プロセッサ４１と、メモリ４２と、ワンセグチューナー４３と、ネットワークインタフェース４４と、入力部４５と、出力制御部４６と、カメラ機能部４７とを含んでいる。上述したプロセッサ４１は、メモリ４２と、ワンセグチューナー４３と、ネットワークインタフェース４４と、入力部４５と、出力制御部４６と、カメラ機能部４７とバスを介して接続されている。また、携帯端末４０は、ネットワークインタフェース４４を介して、上述したネットワークＮＷに接続されており、更に、このネットワークＮＷを介してサーバ装置３０に接続する機能を有している。なお、ワンセグチューナー４３は、携帯端末４０に含まれるコンテンツ視聴機能の一例であり、携帯端末４０が搭載するコンテンツ視聴機能は、ワンセグチューナー４３に限らず、フルセグチューナー(図示せず)や動画再生機能などでもよい。

また、出力制御部４６には、液晶表示部などのディスプレイ５とスピーカ６とが接続されている。出力制御部４６は、プロセッサ４１やカメラ機能部４７及びワンセグチューナー４３からバスを介して受け取った映像データ及び音声データに基づいて、ディスプレイ５及びスピーカ６に映像及び音声を出力させる。

カメラ機能部４７は、携帯端末の利用者からの指示に応じて、カメラ機能部４７に含まれる撮像装置の視野に対応する画像を撮影する。

入力部４５は、例えば、タッチパネルや操作パネルであり、携帯端末４０の利用者は、入力部４５を操作することにより、カメラ機能部４７による画像の撮影やワンセグチューナー４３による放送の視聴などを制御するための指示を入力する。

また、メモリ４２は、携帯端末４０のオペレーティングシステムとともに、サーバ装置３０によって提供される文字認識処理サービスを享受するための処理をプロセッサ４１に実行させるアプリケーションプログラムを含んでいる。なお、文字認識処理サービスを享受するためのアプリケーションプログラムは、例えば、ネットワークインタフェース４４を介したダウンロード処理によって、ネットワークＮＷ経由で取得することが可能である。また、取得したアプリケーションプログラムをメモリ４２に格納することで、利用者からの指示を受けた場合に、プロセッサ４１が、文字認識処理サービスを享受するためのアプリケーションプログラムを実行できるようにしておいてもよい。

サービスを享受するためのアプリケーションプログラムは、サーバ装置３０に対して文字認識処理の実行を要求するためのサービス要求を送出する処理をプロセッサ４１に実行させるプログラムを含んでいる。

プロセッサ４１は、サービス要求を送出する処理のためのプログラムに従って、カメラ機能部４７あるいはワンセグチューナー４３で得られた画像とともに、当該画像に含まれる検索キーワード又はＵＲＬの認識処理の実行を要求するサービス要求を送出してもよい。なお、プロセッサ４１は、サーバ装置３０に送出するサービス要求に、文字認識処理の対象となる画像がカメラ機能部４７で得られた画像であるかワンセグチューナー４３で得られた画像であるかを示す対象情報を付加することが望ましい。また、プロセッサ４１は、上述した画像がワンセグチューナー４３で得られた画像である場合に、ワンセグチューナー４３が受信中の放送チャネルなど視聴中のコンテンツを示す情報を含む対象情報をサービス要求とともに送出することが望ましい。

なお、図１３及び図１４に示した携帯端末４０は、スマートフォンや携帯電話に限らず、例えば、カメラ機能あるいはテレビジョン放送や録画された映像コンテンツの視聴機能とネットワーク接続機能とを有する携帯ゲーム機やタブレット端末などでもよい。

以下に、上述したような携帯端末４０からのサービス要求に応じて、図１３に示したサーバ装置３０により文字認識処理を実行する方法について説明する。

図１５は、文字認識処理のフローチャートの別例を示している。なお、図１５に示したステップのうち、図４及び図１２に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する場合もある。図１５に示したフローチャートに含まれる各ステップの各処理は、図１３に示したサーバ装置３０のプロセッサ３１が携帯端末４０からのサービス要求に応じて実行する文字認識処理のためのアプリケーションプログラムに含まれる処理の一例である。

まず、プロセッサ３１は、上述したステップ３０１の処理に先立って、携帯端末４０からサービス要求とともに認識対象の画像を表す画像データを受け取り、また、受け取ったサービス要求に付加された対象情報を抽出する(ステップ３６１)。

次いで、プロセッサ３１は、ステップ３０１において、受け取った画像に対して検索窓を検出する処理を行う。そして、プロセッサ３１は、検索窓の検出が成功した場合に（ステップ３１２の肯定判定）、検索キーワードが表示された検索窓に相当する所定の領域についての認識結果を候補文字列として取得する(ステップ３０２)。一方、検索窓が検出できなかった場合に(ステップ３１２の否定判定)、プロセッサ３１は、ステップ３１３及びステップ３１４の処理により、ＵＲＬの特徴を示す範囲についての認識結果を候補文字列として取得する。

その後、プロセッサ３１は、ステップ３６１で抽出した対象情報に基づいて、認識対象の画像が図１４に示したカメラ機能部４７で撮影された画像か、それとも、利用者が視聴中のコンテンツの一部であるかを判定する(ステップ３６２)。

上述したステップ３６１の処理において、視聴中のコンテンツを示す情報を含む対象情報を抽出した場合に、プロセッサ３１は、認識対象の画像はコンテンツの一部であると判定し、ステップ３６２の肯定判定(ＹＥＳ)ルートの処理を実行する。

ステップ３６２の肯定判定ルートにおいて、プロセッサ３１は、まず、図１３に示した映像／音声蓄積部７から、上述した対象情報で示されるコンテンツに含まれる映像データ及び音声データを取得する(ステップ３６３)。ステップ３６３において、対象情報に基づいて映像／音声蓄積部７から映像データおよび音声データを取得することにより、プロセッサ３１は、携帯端末４０の利用者が視聴中のコンテンツに含まれる映像データ及び音声データを取得することができる。このように、サーバ装置３０のハードディスク装置３３に各放送チャネルに対応するコンテンツを準備しておくことで、携帯端末４０から視聴中の映像データや音声データを受け取らなくても、以降の認識処理の実行を可能にすることができる。これにより、携帯端末４０から視聴中の映像データ及び音声データをサーバ装置３０に渡す場合に比べて、本件開示の文字認識装置１０によるサービスを受ける際の携帯端末４０の処理負担を軽減することが可能である。なお、ネットワークＮＷに接続された他のコンテンツサーバ装置(図示せず)などに、例えば、ＣＭなどのコンテンツが蓄積されている場合に、プロセッサ３１は、上述したコンテンツサーバ装置から対象情報で指定されたコンテンツを取得してもよい。

上述したステップ３６３の処理の終了後に、プロセッサ３１は、取得した映像データで表される映像に対するテロップ認識処理及び音声データで表される音声に対する音声認識処理を行うことにより、テキストを取得する(ステップ３１６)。

一方、上述した対象情報により、認識対象の画像が図１４に示したカメラ機能部４７で得られた画像であることが示された場合に、プロセッサ３１は、認識対象の画像はコンテンツの一部でないと判定し、ステップ３６２の否定判定(ＮＯ)ルートの処理を実行する。

ステップ３６２の否定判定ルートにおいて、プロセッサ３１は、認識対象の画像に対して文字認識処理を行うことでテキストを取得する(ステップ３６４)。なお、上述したステップ３６２の処理に先立って、ステップ３１３の処理を実行していた場合に、プロセッサ３１は、ステップ３６４の処理を省略し、ステップ３１３で得られた認識処理結果をテキストとして取得してもよい。

上述したステップ３６２の肯定判定ルートの処理あるいは否定判定ルートの処理の完了後に、プロセッサ３１は、図４及び図１２で説明したようにして、ステップ３０４〜ステップ３０６の処理を実行することで、テキストに基づいて候補文字列を補正する。

上述したステップ３０４〜ステップ３０６の処理によれば、テキストから得られた類似文字列に基づき、ステップ３０２又はステップ３１４の処理で得られた候補文字列を補正することで、所定領域に表示された対象文字列を高い精度で認識することができる。

その後、プロセッサ３１は、ステップ３０６の処理で得られた補正後の候補文字列を、検索キーワードあるいはＵＲＬを示す認識結果として、ネットワークインタフェース３４を介して携帯端末４０に返す処理を実行する(ステップ３６５)。

以上に説明したように、図１３に示したサーバ装置３０のプロセッサ３１が、文字認識処理のためのアプリケーションプログラムを実行することにより、本件開示の文字認識装置１０の機能を、ネットワークを介したサービスとして実現することができる。

これにより、携帯端末４０に搭載されたプロセッサ４１が、図１や図５に示したテロップ認識部１２２や音声認識部１２３の機能を実現可能な処理能力を持たない場合でも、当該携帯端末４０の利用者に本件開示の文字認識装置１０によるサービスを提供できる。

以上の詳細な説明により、実施形態の特徴点及び利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で、前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更を容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

以上の説明に関して、更に、以下の各項を開示する。
(付記１)
画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得する第１認識部と、
前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得する第２認識部と、
前記第２認識部よって得られたテキストから、前記第１認識部で得られた候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出する検出部と、
前記類似文字列に基づいて、前記候補文字列を補正する補正部と
を備えたことを特徴とする文字認識装置。
(付記２)
付記１に記載の文字認識装置において、
前記第１認識部は、前記候補文字列に含まれる文字のそれぞれについて、前記所定の領域内の対応する位置に表示された文字である確からしさを評価し、前記評価結果を示す確信度を前記候補文字列とともに出力し、
前記第２認識部は、前記テキストに含まれる文字のそれぞれについて、前記画像における前記所定の領域の外側の対応する位置に表示された文字である確からしさと、前記画像に付随する音声において対応する箇所の音を表す文字である確からしさとの少なくとも一方を評価し、前記評価結果を示す確信度を前記テキストとともに出力し、
前記補正部は、
前記類似文字列に含まれる各文字について前記第２認識部で得られた確信度が、前記候補文字列の対応する文字について前記第１認識部で得られた確信度を超える場合に、前記候補文字列の当該文字を前記類似文字列の対応する文字で置き換える
ことを特徴とする文字認識装置。
(付記３)
付記１に記載の文字認識装置において、
前記第１認識部は、前記候補文字列を取得する過程で、前記所定の領域において前記対象文字列に含まれる各文字に対応する領域である文字領域ごとに、当該文字領域に含まれる文字と類似する字形で表される少なくとも一つの文字候補と、前記文字候補それぞれが前記文字領域に表示された文字であることの確からしさを示す第１確信度とを取得し、
前記第２認識部は、前記所定の領域の外側に含まれるテキストを取得する過程で、前記テキストに含まれる各文字に対応する領域である文字領域ごとに、当該文字領域に含まれる文字と類似する字形で表される少なくとも一つの文字候補と、前記文字候補それぞれが前記文字領域に表示された文字であることの確からしさを示す第２確信度とを取得し、
前記補正部は、
前記所定の領域において前記対象文字列に含まれる各文字の位置に対応する前記文字領域ごとに、当該文字領域について前記第１認識部で得られた前記文字候補それぞれの第１確信度と、前記所定の領域の外側に含まれるテキスト中の前記類似文字列に対応する箇所において前記各文字の位置で示される文字領域について前記第２認識部で得られた前記文字候補それぞれの第２確信度とを、同じ字形で表される文字候補ごとに集計することにより、前記各字形で表される文字が前記文字領域に対応する位置の文字として前記対象文字列に含まれる可能性の高さを示す評価値を算出する算出部と、
前記対象文字列の各文字に対応する前記文字領域ごとに、前記算出部により最も高い評価値が得られた字形で表される文字を特定し、特定した文字をつなげることで補正後の候補文字列を生成する特定部とを有する
ことを特徴とする文字認識装置。
(付記４)
付記１又は付記２に記載の文字認識装置において、
前記検出部は、
前記候補文字列に対して形態素解析を行うことにより、前記候補文字列を少なくとも一つの候補要素に分解するとともに、前記第２認識部で得られた前記テキストに対して形態素解析を行うことにより、前記テキストを少なくとも一つの形態素に分解する解析部と、
前記候補要素にそれぞれ対応する類似文字列として、前記少なくとも一つの形態素の中から、当該候補要素との間で異なっている文字が所定数以下である形態素を選択する選択部とを有する
ことを特徴とする文字認識装置。
(付記５)
付記１又は付記２に記載の文字認識装置において、
前記検出部は、
前記候補文字列を所定の記号で区切ることで得られる文字列のそれぞれを、前記候補文字列に含まれる候補要素として抽出する抽出部と、
前記第２認識部で得られた前記テキストに対する形態素解析により、前記テキストを少なくとも一つの形態素に分解する解析部と、
前記候補要素にそれぞれ対応する類似文字列として、前記少なくとも一つの形態素の中から、当該候補要素との間で異なっている文字が所定数以下である形態素を選択する選択部とを有する
ことを特徴とする文字認識装置。
(付記６)
付記１に記載の文字認識装置において、
前記第２認識部は、
前記所定の領域を含む前記画像が映像に含まれる複数の画像の一つである場合に、前記複数の画像それぞれについて文字認識処理を行うことで得られる文字列それぞれを、前記テキストの一部として取得する
ことを特徴とする文字認識装置。
(付記７)
請求項１に記載の文字認識装置において、
前記第２認識部は、
前記所定の領域を含む前記画像が映像に含まれる複数の画像の一つである場合に、前記映像とともに再生される音声について音声認識処理を行うことで得られる文字列それぞれを、前記テキストの一部として取得する
ことを特徴とする文字認識装置。
(付記８)
付記５に記載の文字認識装置において、
前記第１認識部は、
所定の文字列あるいは所定の記号により先頭と末尾の位置が示された範囲について文字認識処理を行うことで得られる文字列を、前記所定の領域に表示された対象文字列に対応する文字認識結果を示す候補文字列として取得する
ことを特徴とする文字認識装置。
(付記９)
画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得し、
前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得し、
前記テキストから、前記候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出し、
前記検出された前記類似文字列に基づいて、前記候補文字列を補正する
ことを特徴とする文字認識方法。
(付記１０)
画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得し、
前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得し、
前記テキストから、前記候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出し、
前記検出された前記類似文字列に基づいて、前記候補文字列を補正する
処理をコンピュータに実行させることを特徴とする文字認識プログラム。

１…画像入力装置；２…検索装置；３…テレビジョン装置；４…テレビジョン(ＴＶ)放送受信処理部；５…ディスプレイ；６…スピーカ；７…映像／音声蓄積部；８…検索処理部；９…リモートコントロールユニット(リモコン)；１０…文字認識装置；１１…第１認識部；１２…第２認識部；１３…検出部；１４…補正部；１１１…検索窓検出部；１１２，１２４…文字認識部；１１３…範囲特定部；１２１…映像／音声取得部；１２２…テロップ認識部；１２３…音声認識部；１３１…解析部；１３２…候補要素保持部；１３３…形態素保持部；１３４…評価値算出部；１３５…選択部；１３６…抽出部；１４１…算出部；１４２…特定部；２０…コンピュータ装置；２１，３１，４１…プロセッサ；２２，３２，４２…メモリ；２３，３３…ハードディスク装置；２４…近接通信インタフェース；２５，４６…出力制御部；２６，３４，４４…ネットワークインタフェース；２７…光学ドライブ装置；２８…リムーバブルディスク；３０…サーバ装置；４０…携帯端末；４３…ワンセグチューナー；４５…入力部；４７…カメラ機能部；ＮＷ…ネットワーク

Claims

画像において検索対象の文字列を含んだ矩形領域と前記矩形領域の近傍に配置された所定の文字列を囲む領域の特徴を示す特徴情報に基づいて前記矩形領域を特定し、特定した前記矩形領域に表示された文字列である対象文字列を文字認識することにより、前記文字認識の確からしさと共に候補文字列を取得する第１認識部と、
前記画像における前記矩形領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記文字認識の確からしさ及び前記画像における前記矩形領域の外側に含まれるテキストと前記音声認識の確からしさ及び前記音声で表されるテキストとの少なくとも一方を取得する第２認識部と、
前記第２認識部よって得られたテキストから、前記第１認識部で得られた候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出する検出部と、
前記類似文字列に対応する前記文字認識の確からしさ又は前記音声認識の確からしさが前記候補文字列に対応する前記文字認識の確からしさよりも確かであることを示す場合に、前記候補文字列を補正する補正部と
を備えたことを特徴とする文字認識装置。
請求項１に記載の文字認識装置において、
前記第１認識部は、前記候補文字列に含まれる文字のそれぞれについて、前記矩形領域内の対応する位置に表示された文字である確からしさを評価し、前記評価結果を示す確信度を前記候補文字列とともに出力し、
前記第２認識部は、前記テキストに含まれる文字のそれぞれについて、前記画像における前記矩形領域の外側の対応する位置に表示された文字である確からしさと、前記画像に付随する音声において対応する箇所の音を表す文字である確からしさとの少なくとも一方を評価し、前記評価結果を示す確信度を前記テキストとともに出力し、
前記補正部は、
前記類似文字列に含まれる各文字について前記第２認識部で得られた確信度が、前記候補文字列の対応する文字について前記第１認識部で得られた確信度を超える場合に、前記候補文字列の当該文字を前記類似文字列の対応する文字で置き換える
ことを特徴とする文字認識装置。
請求項１又は請求項２に記載の文字認識装置において、
前記検出部は、
前記候補文字列に対して形態素解析を行うことにより、前記候補文字列を少なくとも一つの候補要素に分解するとともに、前記第２認識部で得られた前記テキストに対して形態素解析を行うことにより、前記テキストを少なくとも一つの形態素に分解する解析部と、
前記候補要素にそれぞれ対応する類似文字列として、前記少なくとも一つの形態素の中から、当該候補要素との間で異なっている文字が所定数以下である形態素を選択する選択部とを有する
ことを特徴とする文字認識装置。
請求項１又は請求項２に記載の文字認識装置において、
前記検出部は、
前記候補文字列を所定の記号で区切ることで得られる文字列のそれぞれを、前記候補文字列に含まれる候補要素として抽出する抽出部と、
前記第２認識部で得られた前記テキストに対する形態素解析により、前記テキストを少なくとも一つの形態素に分解する解析部と、
前記候補要素にそれぞれ対応する類似文字列として、前記少なくとも一つの形態素の中から、当該候補要素との間で異なっている文字が所定数以下である形態素を選択する選択部とを有する
ことを特徴とする文字認識装置。
画像において検索対象の文字列を含んだ矩形領域と前記矩形領域の近傍に配置された所定の文字列を囲む領域の特徴を示す特徴情報に基づいて前記矩形領域を特定し、特定した前記矩形領域に表示された文字列である対象文字列を文字認識することにより、前記文字認識の確からしさと共に候補文字列を取得し、
前記画像における前記矩形領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記文字認識の確からしさ及び前記画像における前記矩形領域の外側に含まれるテキストと前記音声認識の確からしさ及び前記音声で表されるテキストとの少なくとも一方を取得し、
前記テキストから、前記候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出し、
前記検出された前記類似文字列に対応する前記文字認識の確からしさ又は前記音声認識の確からしさが前記候補文字列に対応する前記文字認識の確からしさよりも確かであることを示す場合に、前記候補文字列を補正する
ことを特徴とする文字認識方法。
画像において検索対象の文字列を含んだ矩形領域と前記矩形領域の近傍に配置された所定の文字列を囲む領域の特徴を示す特徴情報に基づいて前記矩形領域を特定し、特定した前記矩形領域に表示された文字列である対象文字列を文字認識することにより、前記文字認識の確からしさと共に候補文字列を取得し、
前記画像における前記矩形領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記文字認識の確からしさ及び前記画像における前記矩形領域の外側に含まれるテキストと前記音声認識の確からしさ及び前記音声で表されるテキストとの少なくとも一方を取得し、
前記テキストから、前記候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出し、
前記検出された前記類似文字列に対応する前記文字認識の確からしさ又は前記音声認識の確からしさが前記候補文字列に対応する前記文字認識の確からしさよりも確かであることを示す場合に、前記候補文字列を補正する
処理をコンピュータに実行させることを特徴とする文字認識プログラム。