以下、図面に基づいて、本発明の実施形態について詳細に説明する。
図1は、文字認識装置の一実施形態を示している。また、図2は、図1に示した文字認識装置10が画像入力装置1から受け取る画像の例を示している。
図1に示した画像入力装置1は、例えば、スマートフォンや携帯電話などの携帯端末に含まれるカメラ機能部でもよいし、テレビジョン放送システムで放送された映像に含まれる画像をキャプチャする機能を有するキャプチャ機能部でもよい。画像入力装置1がカメラ機能部である場合に、カメラ機能部は、印刷された広告媒体やテレビジョン放送システムで放送された映像を撮影することで取得した画像を文字認識装置10に渡す。また、画像入力装置1がキャプチャ機能部である場合に、キャプチャ機能部は、広告用の映像からキャプチャした画像を文字認識装置10に渡す。
文字認識装置10は、第1認識部11と、第2認識部12と、検出部13と、補正部14とを含んでいる。第1認識部11と第2認識部12とは、画像入力装置1から図2に示すような検索キーワードを含む画像を受け取る。
図2において、符号Rは、検索キーワードが表示された状態の検索窓の例を示している。図2の例では、検索窓R1は、文字列「検索」を囲んだ矩形で表された検索ボタンBの左側に配置されている。また、図2において、符号Txは、印刷された広告媒体あるいは広告用の映像に含まれる広告メッセージの例を示している。
図1に示した第1認識部11は、画像入力装置1から受け取った画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、対象文字列の認識結果を候補文字列として取得する。
例えば、第1認識部11は、画像に含まれる矩形の領域を検出することにより、図2に示した画像に含まれる検索窓R1に対応する領域を所定の領域として特定してもよい。第1認識部11は、矩形の領域を検出する処理と、図2に示した検索ボタンBのような特徴を持つ画像の領域を検出する処理とを組み合わせることで、検索窓R1の特定精度を高めてもよい。例えば、第1認識部11は、検出した矩形の領域の近傍において、検索ボタンBの特徴を持つ領域を探索し、矩形の領域の左右どちらかに検索ボタンBを見つけた場合に、当該矩形の領域を上述した所定の領域に相当する検索窓R1として特定してもよい。
また、第1認識部11は、上述したようにして特定した領域を対象とする文字認識処理を行うことにより、検索窓R1の内部に表示された検索キーワードについての認識結果を候補文字列として取得する。
なお、図2に示した検索窓R1は、第1認識部11が文字認識処理の対象とする所定の領域の一例であり、第1認識部11の処理対象の領域は検索窓R1に限られず、また、認識処理の対象となる対象文字列も検索キーワードに限られない。第1認識部11は、例えば、図9、図10を用いて後述するように、印刷された広告媒体や広告用の映像においてURLを表す文字列が表示された領域を対象とする文字認識処理により、当該URLについての認識結果を候補文字列として取得してもよい。
また、第1認識部11は、上述したようにして取得した候補文字列とともに、候補文字列に含まれる各文字が、所定の領域に表示された対象文字列の対応する位置に含まれる文字であることの確からしさを評価し、評価結果を示す確信度を出力することが望ましい。
例えば、第1認識部11は、図2に示した検索窓R1についての文字認識処理で取得した候補文字列に含まれる各文字について、当該文字の字形と検索窓R1内の対応する位置に表示されたパターンとの類似度に基づいて、当該文字の確信度を求めてもよい。又、第1認識部11は、上述した候補文字列とともに、候補文字列に含まれる各文字に対応して求めた確信度を出力してもよい。
また、図1に示した第2認識部12は、画像入力装置1から受け取った画像の少なくとも一部を対象とする文字認識処理を実行することにより、受け取った画像に含まれるテキストを取得する。第2認識部12は、受け取った画像の全体を対象として文字認識処理を実行してもよいし、上述した第1認識部11で文字認識処理の対象として特定された領域の外側の領域を対象として文字認識処理を実行してもよい。例えば、第2認識部12は、図2に示した画像の検索窓R1の外側の領域を対象として文字認識処理を実行することで、テロップとして表示された広告メッセージTx1に対応する認識結果を示すテキストを取得する。
なお、画像に音声が付随する場合に、画像入力装置1は、上述した画像とともに、当該画像に付随する音声を第2認識部12に入力する。例えば、画像入力装置1は、図2に示した画像に付随する音声として、図2に示した広告メッセージTx1や検索キーワードの読み上げ音声を第2認識部12に入力する場合がある。この場合に、第2認識部12は、画像に対する文字認識処理に代えて、画像に付随する音声を対象とする音声認識処理を行ってもよいし、画像に対する文字認識処理と上述した音声を対象とする音声認識処理との両方を行ってもよい。
つまり、第2認識部12は、画像を対象とする文字認識処理と当該画像の付随する音声の認識処理との少なくとも一方を実行することにより、画像の所定領域の外側に含まれるテキストと上述した音声で表されるテキストの少なくとも一方を取得する。
また、第2認識部12は、上述したようにして取得したテキストとともに、取得したテキストに含まれる各文字が認識対象の画像又は音声の対応する箇所で表されたテキストに含まれる文字であることの確からしさを示す確信度を出力することが望ましい。
例えば、第2認識部12は、図2に示した広告メッセージTx1に対応して得たテキストに含まれる各文字について、当該文字の字形と広告メッセージTx1の表示領域の対応する位置に表示されたパターンとの類似度に基づいて、当該文字の確信度を求めてもよい。又、第2認識部12は、上述したテキストとともに、テキストに含まれる各文字に対応して求めた確信度を出力してもよい。
又、第2認識部12は、テキストとして得た音声認識結果に含まれる各文字について、当該文字の読みを示す音と画像に付随して入力された音声の対応する箇所の音との類似度に基づいて、当該文字の確信度を評価してもよい。また、第2認識部12は、画像に付随する音声に対して、単語単位の音声認識処理を行い、少なくとも一つの単語を含むテキストを取得するとともに、各単語の読みを示す音と音声の対応する箇所との類似度に基づいて、当該単語の確信度を評価してもよい。
ここで、第2認識部12に入力される画像は、図2に示した広告メッセージTx1などのように、検索キーワードが表示された検索窓R1と同時にテロップなどで表示される文字列には、検索キーワードに含まれる単語を含んでいる可能性が高い。同様に、画像に付随する音声は、画像中の検索窓に表示された検索キーワードを読み上げた音声や、検索キーワード中の単語を読み上げた音声を含んでいる可能性が高い。したがって、第2認識部12が、画像入力装置1から受け取った画像及び当該画像に付随する音声の少なくとも一方を対象とする認識処理を実行することで得られたテキストは、検索キーワードに含まれる単語を含んでいる可能性が高い。
また、図2に示した画像において、検索窓R1の外側の画像に表示されている広告メッセージTx1などに含まれる各文字は、検索窓R1内部に表示された対象文字列に含まれる各文字に比べて認識しやすい場合が多い。なぜなら、図2の例のように、広告メッセージTx1などに含まれる各文字は、検索窓R1内部に表示された検索キーワードを表す対象文字列に含まれる各文字に比べて大きく表示される場合が多いためである。このため、第2認識部12は、検索窓R1の外側の領域を対象とする文字認識処理により、第1認識部11が検索窓R1内部を対象として行った文字認識処理で取得した認識結果に比べて、確信度の高い認識結果を取得することができる。
したがって、第2認識部12で得られたテキストから、検索キーワードに含まれる単語などを表す文字列を検出できれば、検出した文字列を用いて第1認識部11で得られた候補文字列を補完することができる。
図1に示した文字認識装置10は、第1認識部11で得られた候補文字列を、第2認識部12で得られたテキストを用いて補完することにより、画像中の所定の領域に表示された文字列の認識精度を向上するために、検出部13と補正部14とを含んでいる。
以下の図1から図4の説明では、第2認識部12が、画像入力装置1から入力された静止画像について文字認識処理を実行することにより、第1認識部11による認識対象の領域の外側に表示されたテキストを取得する場合について説明する。
ここで、画像において同一の単語をそれぞれ表す2つの領域を対象として文字認識処理を実行すれば、当該文字認識処理でそれぞれ得られる2つの文字列は、互いに類似している可能性が高い。つまり、第2認識部12で得られたテキストの中から、第1認識部11で得られた候補文字列に類似する文字列が検出できた場合に、検出された文字列は、画像中の所定の領域の外側において、対象文字列の少なくとも一部を表す箇所の認識結果である可能性が高い。
図1に示した検出部13は、第2認識部12で得られたテキストの中から、候補文字列との類似度が所定の閾値以上である類似文字列を検出し、検出した類似文字列を補正部14に渡す。
検出部13は、例えば、候補文字列と第2認識部12で得られたテキストをそれぞれ形態素に分解し、候補文字列から得られた形態素それぞれである候補要素について、テキストを分解して得られた形態素の中から類似する文字列で表される形態素を検出してもよい。例えば、検出部13は、候補文字列から得た候補要素ごとに、テキストから得た複数の形態素それぞれとの間で共通して含む文字の数を調べ、共通する文字数が所定数以上である形態素を当該候補要素に類似する形態素として検出してもよい。また、検出部13は、このようにして各候補要素について検出した形態素それぞれを、候補文字列に対応する類似文字列の一部として補正部14に渡してもよい。ここで、テキストから得られた各形態素と候補文字列から得られた個々の形態素との間で共通する文字の数は、大きい値であるほど2つの形態素が互いに類似していることを示す類似度の一例である。また、検出部13は、例えば、候補文字列から得られた個々の形態素に含まれる文字の数に所定の係数を乗じた数で示される閾値よりも、テキストから得られた形態素との間で共通する文字数が多い場合に、2つの形態素が類似すると判断してもよい。なお、係数の値は、例えば、0よりも大きく1より小さい値に設定することが望ましい。
図3は、候補文字列と類似文字列の例を示している。図3(A)は、候補文字列の一例を示し、また、図3(B)は、類似文字列の一例を示している。
図3(A)の例は、図2に示した検索窓R1の内部について文字認識処理を行うことで得られた候補文字列を示している。図3(A)において、符号e1,e2で示した枠内の文字列は、候補文字列を分解して得られる形態素に相当する候補要素をそれぞれ示している。
また、図3(A)において、候補要素e1に含まれる各文字に対応して示した数値「75」、「82」、「85」は、対応する文字「冨」、「士」、「田」についての文字認識の確からしさを例えば0〜100の範囲の数値の大きさによって示す確信度を示している。なお、図3(A)においては、候補要素e2に含まれる各文字に対応する確信度の図示は省略した。
また、図3(B)の例は、図2に示した広告メッセージTxに対応する認識結果を示すテキストの例を示している。図3(B)において、符号m1,m2,m3で示した枠内の文字列は、テキストを分解して得られる形態素をそれぞれ示している。
なお、図3(B)において、形態素m2に含まれる各文字に対応して示した数値「90」、「92」、「88」は、対応する文字「富」、「士」、「田」についての文字認識の確信度を示している。また、図3(B)においては、形態素m1,m3に含まれる各文字に対応する確信度の図示は省略した。
図1に示した検出部13は、例えば、図3(A)に示した候補要素e1,e2と、図3(B)に示した形態素m1〜m3のそれぞれとの間で、共通する文字数をそれぞれ計数することで、候補要素e1,e2それぞれと各形態素m1〜m3との類似度を評価する。また、検出部13は、各形態素m1〜m3について得られた計数値と所定数(例えば2)とを比較することで、各形態素m1〜m3が候補要素e1,e2のそれぞれと類似しているか否かを判断する。
図3(A),(B)の例では、候補要素e1と形態素m2とは、2文字の文字列「士田」を共通して含んでおり、上述した計数値が所定数以上となる。このような場合に、検出部13は、候補要素e1と形態素m2は、いずれも図2に示した画像中に表示された同じ単語を対象として文字認識を行った結果である可能性が高いと判断する。これに対して、形態素m1,m3と候補要素e1との間で共通する文字の数はいずれも0であり、上述した所定数未満である。同様に、形態素e2と形態素m1〜m3のそれぞれとの間で共通する文字数はいずれも0であり、上述した所定数未満である。したがって、図3に示した例の場合に、検出部13は、図2に示した検索窓R1に表示された検索キーワードを対象とする文字認識処理で得られた候補文字列に類似する類似文字列の一部として、候補要素e1に対応して得られた形態素m2を検出する。
このようにして、検出部13は、第2認識部12で得られたテキストから、第1認識部11の認識対象となった所定の領域に表示された文字列に含まれる単語と同じ単語についての文字認識結果を示す文字列を検出することができる。
なお、検出部13が、候補文字列に類似する文字列を検出する手法は、共通する文字列を含む形態素を検出する手法に限られない。検出部13は、例えば、図5及び図14を用いて後述する手法を用いて、候補文字列を分解して得られる各候補要素と、テキストを分解して得られる各形態素との間の類似度を評価し、得られた評価結果に基づいて類似文字列を検出してもよい。
次に、図3の例を用いて、図1に示した補正部14が、検出部13によって検出された類似文字列に基づいて、候補文字列を補正する方法について説明する。
補正部14は、例えば、候補文字列に含まれる各文字の確信度よりも、検出部13によって検出された類似文字列の対応する文字の確信度が高い場合に、候補文字列中の当該文字を類似文字列中の対応する文字で置き換えることで候補文字列を補正してもよい。
例えば、図3(A),(B)に示した例では、候補文字列「冨士田フーズ」の第1文字に対応する確信度「75」よりも、候補文字列に含まれる候補要素e1に対応して検出された類似文字列「富士田」の第1文字の確信度「90」の方が大きな値を示している。このことは、候補文字列「冨士田フーズ」の第1文字「冨」よりも、テキストから検出された類似文字列の第1文字「富」の方が、確からしいことを示している。
図3の例では、補正部14が、候補文字列「冨士田フーズ」の第1文字「冨」を、テキストから検出された類似文字列「富士田」の第1文字「富」に置き換えることにより、正しい検索キーワードを示す文字列「富士田フーズ」を得ることができる。
同様に、補正部14は、候補文字列に含まれる形態素の先頭からj番目の文字の確信度より、当該形態素に対応して検出された類似文字列のj番目の文字の確信度の方が大きい場合に、上述した文字の置き換えを実行することで候補文字列を補正することができる。ここで、変数jは、候補文字列に含まれる形態素の文字数以下の自然数である。
補正された候補文字列は、第1認識部11が所定の領域に表示された対象文字列について得た文字認識結果と、所定の領域の外側において、対象文字列の少なくとも一部を表す箇所について第2認識部12が得た文字認識結果とのうち確信度の高い方を反映している。
したがって、補正部14による補正後の候補文字列は、補正前の候補文字列に比べて、図2に示した検索窓R1などの所定の領域に表示された対象文字列を正しく表している可能性が高い。
つまり、図1に示した文字認識装置10によれば、例えば、図2に示した検索窓R1について単純に文字認識を行った場合に比べて、検索窓R1に表示された検索キーワードを高い精度で認識することができる。
また、文字認識装置10は、このようにして得られた検索キーワードを図1に示した検索装置2に渡し、検索装置2に対して、検索キーワードに基づく検索処理によってネットワークNWから情報を取得する処理の実行を指示してもよい。
上述したように、本件開示の文字認識装置10によれば、画像入力装置1で得られた広告媒体などの画像の所定領域に含まれる検索キーワードを高い精度で認識することができる。したがって、本件開示の文字認識装置10によって得られた検索キーワードを用いれば、検索装置2は、ネットワークNWを介して、広告媒体などに表示された検索キーワードで示されたウェブサイトにほぼ確実にアクセスすることができる。
上述した機能を有する文字認識装置10は、例えばスマートフォンや携帯電話などの携帯端末や携帯用ゲーム機など、カメラ機能とネットワーク接続機能とを含む情報機器(図示せず)に搭載することが可能である。例えば、文字認識装置10を搭載した携帯端末の利用者は、中吊り広告などの広告媒体を撮影した画像を文字認識装置10に入力し、上述した文字認識処理を実行させることで、広告媒体に表示された正確な検索キーワードを取得することができる。また、本件開示の文字認識装置10によって得られた検索キーワードを携帯端末に搭載された検索機能に渡すことにより、広告媒体に表示された検索キーワードで示されるウェブサイトへの自動的なアクセスを実現することができる。
以上に説明したように、本件開示の文字認識装置10によれば、検索キーワードを手入力する操作や、誤って認識された検索キーワードを修正する操作などの煩雑な操作から利用者を解放することができる。
このように、本件開示の文字認識装置10は、広告媒体から検索キーワードを取得するための操作を簡易化することにより、広告媒体の視聴者による検索キーワードを用いた検索操作を支援することができる。また、本件開示の文字認識装置10は、上述したようにして、視聴者が広告媒体から検索キーワードを取得するための操作を支援することにより、広告主が意図したウェブサイトに視聴者がアクセスする機会を増大させることができる。
したがって、本件開示の文字認識装置10が広く普及すれば、広告主は、広告用の映像や広告用のポスターなどにおいて、美的な品質を維持できる程度の大きさで検索キーワードを表示する検索窓を表示させることにより、所望の広告効果を享受することができる。つまり、本件開示の文字認識装置10の普及により、広告媒体自体を視聴させることによる広告効果と、広告媒体内に表示した検索キーワードなどを介して視聴者を所望のウェブサイトに誘導する効果とを両立させることができる。
また、本件開示の文字認識方法は、図1に示した文字認識装置10が、画像入力装置1から受け取った画像に対して、図4に示すフローチャートに従う文字認識処理を実行することによって実現してもよい。
図4は、文字認識処理のフローチャートの例を示している。図4に示したステップ301〜ステップ307は、図1に示した文字認識装置10に含まれる第1認識部11、第2認識部12、検出部13および補正部14によって実行される。
まず、第1認識部11は、画像入力装置1から受け取った画像から、図2に示した検索窓R1などの所定の領域を検出する(ステップ301)。次いで、第1認識部11は、検出した所定の領域内部について文字認識処理を行うことで、当該領域内部に表示されている検索キーワードなどの対象文字列についての認識結果を候補文字列として取得する(ステップ302)。
次に、第2認識部12は、受け取った画像の全体を対象とする文字認識処理を行うことで、画像中において上述した所定の領域の外部に含まれるテキストを取得する(ステップ303)。第2認識部12は、例えば、受け取った画像の全体を対象とする文字認識処理結果から、第1認識部11による文字認識処理の対象となった領域に対応して得られる文字認識結果を除外することで、所定の領域の外部に含まれるテキストを取得してもよい。
次いで、検出部13は、図3を用いて説明したようにして、ステップ303の処理で得られたテキストから、ステップ302で得られた候補文字列に類似した特徴を持つ類似文字列を検出する(ステップ304)。
その後、ステップ305において、文字認識装置10は、ステップ304の処理で類似文字列を検出することができたか否かを判定する。
検出部13によって類似文字列が検出された場合に(ステップ305の肯定判定)、補正部14は、図3を用いて説明したようにして、類似文字列に基づいて候補文字列を補正する処理を実行する(ステップ306)。その後、補正部14は、ステップ306の処理で補正された候補文字列を文字認識装置10による文字認識結果として出力する。
一方、類似文字列が検出できなかった場合に(ステップ305の否定判定)、補正部14は、ステップ306の処理を省略し、第1認識部11から受け取った候補文字列をそのまま文字認識装置10による文字認識結果として出力する(ステップ307)。
本件開示の文字認識方法によれば、画像内の所定の領域に表示された対象文字列についての文字認識処理で得られた候補文字列を、画像全体を対象とする文字認識結果から検出した類似文字列を用いて補完することで、所定領域についての文字認識精度を向上できる。
更に、上述した所定の領域を含む画像が映像に含まれる複数の画像の一つである場合に、上述したステップ303の処理において、第2認識部12は、映像に含まれる他の画像および映像に付随する音声を対象とする認識処理を行うこともできる。
次に、本件開示の文字認識装置10の別実施形態として、図2に示したような画像を含む映像に音声による広告メッセージが伴っている場合に好適な例について説明する。
図5は、文字認識装置10の別実施形態を示している。なお、図5に示した構成要素のうち、図1に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図5に示した文字認識装置10は、例えば、テレビジョン装置3に接続されており、テレビジョン装置3を介してテレビジョン放送システムによって放送された映像及び音声を取得する。
図5に示したテレビジョン装置3は、テレビジョン(TV:TeleVsion)放送受信処理部4と、ディスプレイ5と、スピーカ6と、映像/音声蓄積部7と、検索処理部8とを含んでいる。TV放送受信処理部4は、アンテナANを介して例えば地上デジタル放送や衛星放送などの信号波を受信する機能を有している。また、検索処理部8は、インターネットなどのネットワークに接続する機能とともに、例えば、視聴者Qが操作するリモートコントロールユニット(リモコン)9からの指示に応じて、所望の情報を検索する機能を有している。
TV放送受信処理部4は、アンテナANを介して受信した信号波から映像データVs及び音声データAsを生成する。ディスプレイ5及びスピーカ6は、TV放送受信処理部4で生成された映像データVs及び音声データAsに基づいて映像及び音声を再生し、再生した映像及び音声を視聴者Qに提供する。
また、映像/音声蓄積部7は、TV放送受信処理部4で生成された所定の時間分の映像データVs及び音声データAsを一時的に保持するバッファ機能を有している。なお、映像/音声蓄積部7のバッファ機能によって保持される映像データVs及び音声データAsの長さは、例えば、テレビジョン放送システムによって放送されるコマーシャルメッセージ(CM)の平均的な長さよりも長いことが望ましい。また、映像/音声蓄積部7は、リモコン9からの指示に応じて、TV放送受信処理部4から受け取った映像データVs及び音声データAsを番組単位などで蓄積する場合もある。
図5に示したリモコン9は、テレビジョン装置3に対する指示を入力する機能とともに、文字認識装置10に対して上述した検索キーワードの取得を目的とした文字認識処理を起動させるための指示を入力する機能を有している。例えば、リモコン9に、チャンネル切り替え操作などのためのキーに加えて、文字認識装置10による文字認識結果を利用した検索の開始を指示する検索キーを設けてもよい。以下の説明では、視聴者Qがリモコン9に設けられた検索キーを操作することでテレビジョン装置3および文字認識装置10に入力される指示を「検索指示」と称する。
図5に示した文字認識装置10において、第1認識部11は、検索窓検出部111と文字認識部112とを含んでいる。
検索窓検出部111は、リモコン9からの検索指示が入力された場合に、テレビジョン装置3のディスプレイ5によって再生中の画面を表す画像データを取得する。例えば、検索窓検出部111は、上述した映像データVsによって表される複数の画像の中から、検索指示が入力されたタイミングに対応する1枚の画像をキャプチャすることで、上述した画像データを取得してもよい。また、検索窓検出部111は、取得した画像データによって表される画像から、図2を用いて説明したようにして、検索キーワードが表示された検索窓の部分の画像を検出し、検出した画像を文字認識部112に渡す。
文字認識部112は、検索窓検出部111から検索窓に対応する領域の画像を受け取り、受け取った画像を対象とする文字認識処理により、検索窓内に表示された検索キーワードに対応する文字認識結果を候補文字列として取得する。文字認識部112は、例えば、図2に示した検索窓R1に対応する領域について文字認識処理を行うことにより、候補文字列「冨士田フーズ」を取得し、取得した候補文字列を図5に示した検出部13に渡す。
また、図5に示した第2認識部12は、映像/音声取得部121と、テロップ認識部122と、音声認識部123とを含んでいる。
映像/音声取得部121は、上述したリモコン9からの指示に応じて、例えば、映像/音声蓄積部7に蓄積された情報の中から、再生中のCMなどのマルチメディアコンテンツに対応する映像データVs及び音声データAsを取得する。なお、以下の説明では、マルチメディアコンテンツを単にコンテンツと略称する。
ここで、テレビジョン放送システムを介して放送されるCMは、先頭と末尾とをそれぞれ特定するために所定の形式の信号を含んでいる。したがって、再生中のコンテンツがCMである場合に、映像/音声取得部121は、上述した所定の形式の信号に基づいて、映像/音声蓄積部7から、再生中のCMの先頭から検索指示が入力されるまでの映像データVs及び音声データAsを取得してもよい。
また、映像/音声取得部121は、上述したようにして取得した映像データVsで表される映像に含まれる各画像をテロップ認識部122に渡すとともに、音声データAsを音声認識部123に渡す。
テロップ認識部122は、映像/音声取得部121から受け取った各画像を対象とする文字認識処理を行うことにより、映像の中でテロップなどによって表された少なくとも一つの広告メッセージを示すテキストを取得する。CMなどのコンテンツが、様々なタイミングで複数種類の広告メッセージを表すテロップを含む場合に、テロップ認識部122は、各テロップで表される広告メッセージをそれぞれ示す文字列を含むテキストを生成することが望ましい。
なお、テロップ認識部122は、例えば、各画像についての文字認識処理で得られた文字列それぞれを含むテキストを生成することで、複数種類のテロップで表される広告メッセージを網羅したテキストを生成してもよい。また、テロップ認識部122は、時系列的に連続する複数の画像に含まれるテロップについての文字認識結果を統合することで認識精度を高める技術を利用し、各種類のテロップについて統合された認識結果を示す文字列を含むテキストを取得してもよい。
音声認識部123は、映像/音声取得部121から受け取った音声データAsに対して音声認識処理を行うことにより、音声データAsによって表される音声メッセージの内容を示すテキストを生成する。
音声認識部123は、各単語が発音された場合の音声の特徴を登録した音声辞書に基づいて、音声データAsによって表される音声メッセージを単語単位で認識することで得られる認識結果をテキストとして取得してもよい。例えば、音声メッセージ「ふじたふーずでけんさく」を表す音声データAsの入力に応じて、音声認識部12は、下に示すように単語の区切りを示す情報を含むテキストTx2を取得してもよい。なお、テキストTx2において、符号「/」は単語の区切りを示している。
Tx2:「フジタ/フーズ/で/検索」
また、音声認識部123は、同じ発音で表される複数の単語が音声辞書に登録されている場合に、これらの複数の単語を音声の対応する箇所の認識結果の候補として取得し、取得した各候補を音声認識結果を示すテキストに含めて出力してもよい。例えば、上述したテキストTx2の最初の単語の読み「ふじた」に対応して、複数の固有名詞「富士田」、「藤田」が音声辞書に登録されている場合に、単語の読みを示す文字列「フジタ」とともに上述した2つの固有名詞を含むテキストを出力してもよい。
ここで、CMなどのコンテンツ内に図2に示したような検索窓R1を表示する画像が含まれる場合に、検索窓R1内に表示される検索キーワードは、広告主の企業を示す会社名や広告対象の製品名などを示す文字列を含んでいる可能性が高い。そして、CMなどのコンテンツに含まれる映像に含まれるテロップなどの広告メッセージ及び音声メッセージは、同様に、広告主の企業を示す会社名や広告対象の製品名などを表す文字列や音声を含んでいる可能性が高い。このため、テロップ認識部122及び音声認識部123で得られるテキストは、高い確率で広告主の企業を示す会社名や広告対象の製品名などを示す文字列を含んでいる。
したがって、テロップ認識部122で得られたテキストと、音声認識部123で得られるテキストとを、図5に示す検出部13に入力することで、文字認識部112で得られる候補文字列に対応する類似文字列を検出できる可能性を高めることができる。
図5に示した検出部13は、解析部131と、候補要素保持部132と、形態素保持部133と、評価値算出部134と、選択部135とを含んでいる。
解析部131は、文字認識部112による認識結果を示す候補文字列とともに、テロップ認識部122と音声認識部123とのそれぞれによる認識結果を含むテキストを受け取る。解析部131は、候補文字列に対して形態素解析を行うことにより、候補文字列を少なくとも一つの候補要素に分解し、得られた候補要素のそれぞれを候補要素保持部132に保持させる。また、解析部131は、テロップ認識部122と音声認識部123とによって得られたテキストそれぞれに対して形態素解析を行うことにより、上述したテキストを少なくとも一つの形態素に分解し、得られた形態素を形態素保持部133に保持させる。
なお、解析部131は、上述したテキストTx2のように、単語の区切りを示す情報を含むテキストを音声認識部123から受け取った場合に、符号「/」に基づいて、テキストを区切ることで、各単語に対応する形態素を取得してもよい。また、解析部131は、テロップ認識部122で得られたテキストおよび音声認識部123で得られたテキストにおいて、同一の文字列で表される形態素が繰り返し現れる場合に、これらの形態素を統合して形態素保持部133に保持させてもよい。更に、解析部131は、形態素保持部133に保持する形態素を、名詞などの自立語を示す形態素に制限してもよい。
また、候補要素保持部132は、解析部131から各候補要素を受け取る際に、これらの候補要素に含まれる各文字に関する文字認識の確信度を文字認識部112から受け取り、候補要素それぞれに含まれる各文字に対応して、受け取った確信度を保持してもよい。
同様に、形態素保持部133は、解析部131から各形態素を受け取る際に、当該形態素に含まれる各文字に対応する確信度をテロップ認識部122あるいは音声認識部123から受け取り、受け取った確信度を各形態素に関する情報の一部として保持してもよい。
なお、画像あるいは音声の異なる箇所について得られた認識結果を一つの形態素に統合する場合に、形態素保持部133は、統合後の形態素に含まれる各文字についての確信度として、統合される各認識結果における当該文字の確信度の最大値を保持してもよい。また、音声認識部123で得られたテキストから得られた形態素を保持する際に、形態素保持部133は、当該形態素に含まれる各文字の確信度として、音声認識部123により、対応する単語について得られた確信度を保持してもよい。また、音声認識部123が音声データAsについての認識処理を行う際の処理単位であるフレームと認識結果として得られた単語に含まれる各文字とを対応付け、当該フレームに対応する音声についての認識結果の確信度を各文字の確信度としてもよい。
次に、上述したようにしてテキストを分解して得られた形態素の集合から、候補文字列に含まれる候補要素に類似する形態素を検出する方法について説明する。
図5に示した評価値算出部134は、形態素保持部133に保持された各形態素を表す文字列について、当該文字列と候補要素保持部132に保持された各候補要素を表す文字列とが違っている度合いを示す評価値を算出する。例えば、評価値算出部134は、形態素保持部133に保持された形態素のそれぞれを、各候補要素を表す文字列に書き換える場合の手順数を示す編集距離を算出し、算出した編集距離を上述した2つの文字列が違っている度合いを示す評価値として出力してもよい。このようにして求めた評価値は、各候補要素を表す文字列を形態素保持部133に保持された形態素のそれぞれが類似しているほど小さい値となる類似度の一例である。
図6は、図5に示した評価値算出部134による評価値の算出例を示している。図6の表の第2行に示した文字列「冨士田」および文字列「フーズ」は、図3(A)に示した候補要素e1,e2をそれぞれ示している。また、図6の表の第1列に示した文字列「株式会社」、「富士田」、「食品」は、図2に示したテキストTx1を形態素解析することで得られる各形態素を示しており、図3(B)に示した各形態素m1〜m3に相当する。また、図6の表の第1列に示した文字列「フジタ」、「藤田」、「フーズ」、「検索」は、上述したテキストTx2から得られた形態素のそれぞれを示している。
図6に示した表は、図2に示したテキストTx1および上述したテキストTx2から得られた形態素のそれぞれを、上述した2つの候補要素「冨士田」と「フーズ」とのそれぞれに書き換える場合の編集距離を示している。
例えば、図6の表において、候補要素「冨士田」と形態素「株式会社」とに対応して示した数値「4」は、形態素「株式会社」を候補要素「冨士田」に書き換える際の編集距離として、図5に示した評価値算出部134により数値4が得られることを示している。また、候補要素「フーズ」と形態素「株式会社」とに対応して示した数値「4」は、形態素「株式会社」を候補要素「フーズ」に書き換える際の編集距離として、図5に示した評価値算出部134により数値4が得られることを示している。
同様に、候補要素「冨士田」と形態素「富士田」とに対応して示した数値「1」は、形態素「富士田」を候補要素「冨士田」に書き換える際の編集距離として、図5に示した評価値算出部134により数値1が得られることを示している。また、候補要素「フーズ」と形態素「富士田」とに対応して示した数値「3」は、形態素「富士田」を候補要素「フーズ」に書き換える際の編集距離として、図5に示した評価値算出部134により数値3が得られることを示している。
また、候補要素「冨士田」と形態素「食品」とに対応して示した数値「3」は、形態素「食品」を候補要素「冨士田」に書き換える際の編集距離として、図5に示した評価値算出部134により数値3が得られることを示している。また、候補要素「フーズ」と形態素「食品」とに対応して示した数値「3」は、形態素「食品」を候補要素「フーズ」に書き換える際の編集距離として、図5に示した評価値算出部134により数値3が得られることを示している。
同様に、候補要素「冨士田」と形態素「フジタ」とに対応して示した数値「3」は、形態素「フジタ」を候補要素「冨士田」に書き換える際の編集距離として、図5に示した評価値算出部134により数値3が得られることを示している。また、候補要素「フーズ」と形態素「フジタ」とに対応して示した数値「2」は、形態素「フジタ」を候補要素「フーズ」に書き換える際の編集距離として、図5に示した評価値算出部134により数値2が得られることを示している。
また、候補要素「冨士田」と形態素「藤田」とに対応して示した数値「2」は、形態素「藤田」を候補要素「冨士田」に書き換える際の編集距離として、図5に示した評価値算出部134により数値2が得られることを示している。また、候補要素「フーズ」と形態素「藤田」とに対応して示した数値「3」は、形態素「藤田」を候補要素「フーズ」に書き換える際の編集距離として、図5に示した評価値算出部134により数値3が得られることを示している。
同様に、候補要素「冨士田」と形態素「フーズ」とに対応して示した数値「3」は、形態素「フーズ」を候補要素「冨士田」に書き換える際の編集距離として、図5に示した評価値算出部134により数値3が得られることを示している。また、候補要素「フーズ」と形態素「フーズ」とに対応して示した数値「0」は、形態素「フーズ」を候補要素「フーズ」に書き換える際の編集距離として、図5に示した評価値算出部134により数値0が得られることを示している。
そして、候補要素「冨士田」と形態素「検索」とに対応して示した数値「3」は、形態素「検索」を候補要素「冨士田」に書き換える際の編集距離として、図5に示した評価値算出部134により数値3が得られることを示している。また、候補要素「フーズ」と形態素「検索」とに対応して示した数値「3」は、形態素「検索」を候補要素「フーズ」に書き換える際の編集距離として、図5に示した評価値算出部134により数値3が得られることを示している。
なお、評価値算出部134が候補要素を表す文字列と形態素保持部133に保持された各形態素を表す文字列とについて算出する評価値は、上述した編集距離に限られない。例えば、評価値算出部134は、上述した評価値として各候補要素と各形態素との間のハミング距離を算出してもよいし、その他、2つの文字列間の類似度を示す評価値であれば、どのような評価値を算出してもよい。
また、評価値算出部134は、形態素保持部133から受け取った各形態素とともに、上述したようにして各候補要素に対応して算出した評価値を選択部135に渡してもよい。また、評価値算出部134は、図6に示したように、形態素保持部133に保持された全ての形態素と、候補要素保持部132に保持された全ての候補要素との組み合わせについての評価値を示すテーブルを作成し、作成したテーブルを選択部135に渡してもよい。
図5に示した選択部135は、上述した評価値とともに受け取った複数の形態素の中から、次のようにして、候補文字列に含まれる候補要素それぞれに類似する形態素を選択する。
選択部135は、例えば、候補要素のそれぞれと各形態素とのペアについて算出された評価値が所定値以下である場合に、当該ペアに含まれる形態素を同じペアに属する候補要素に対応する類似文字列として選択する。選択部135は、例えば、候補要素のそれぞれと各形態素と対応して得られた評価値のそれぞれを所定の閾値と比較し、閾値以下の評価値が得られた形態素を、当該候補要素の類似文字列として選択してもよい。なお、選択部135は、上述した閾値として、例えば、数値「2」よりも小さい値を設定することが望ましい。例えば、閾値に数値「1」を設定した場合に、選択部135は、図6に示した各形態素の中から、候補要素「冨士田」に対応して形態素「富士田」を選択するとともに、候補要素「フーズ」に対応して形態素「フーズ」を選択する。
なお、評価値算出部134から図6に示したようなテーブルを受け取る場合に、選択部135は、次のようにして、類似文字列の一部として選択する形態素を決定してもよい。
選択部135は、例えば、評価値算出部134から受け取ったテーブルにおいて、各候補要素に対応して示された編集距離を互いに比較し、上述した所定値以下の編集距離を持つ形態素の中から、最も小さい値を持つ形態素を含むn個(n≧1)の形態素を選択してもよい。
例えば、図6に示したテーブルに基づいて、選択部135は、候補要素「冨士田」に対応して示された編集距離の中で最小の編集距離「1」に対応する形態素「藤田」を含む少なくとも一つの形態素を選択する。同様に、図6に示したテーブルに基づいて、選択部135は、候補要素「フーズ」に対応して示された編集距離の中で最小の編集距離「0」に対応する形態素「フーズ」を含む少なくとも一つの形態素を選択する。
なお、選択部135が選択する形態素の数nを例えば3程度の適切な数に制限することにより、所定値以下の編集距離を持つ多数の形態素が検出された場合などにおいて、図7,図8を用いて説明する補正部14の処理負担を軽減することができる。
以上に説明したように、図5に示した検出部13は、候補文字列とテキストとの双方を形態素に分解し、検索窓に表示された検索キーワードについての認識結果である候補文字列に含まれる形態素ごとにテキストから類似する部分を検出する。例えば、異なるタイミングで表示されるテロップに検索キーワードに含まれる単語が別々に含まれる場合にも、検出部13は、これらのテロップに対応する認識結果を含むテキストから、それぞれの単語に対応する認識結果を類似文字列の一部として検出できる。
これにより、検索キーワードそのものがテロップや音声メッセージとして含まれていない場合でも、検索キーワードの一部を表す文字列と同じ文字列である可能性の高い部分を類似文字列の一部としてテキストの中から検出することができる。
つまり、図5に示した第2認識部12を有する文字認識装置10によれば、映像に含まれるテロップ及び音声メッセージからテキストを生成することで、検索キーワードの少なくとも一部を含む可能性の大きいテキストを生成することができる。
更に、図5に示した検出部13によれば、第2認識部12で得られたテキストから、第1認識部11で得られた候補文字列の補正に利用可能な類似文字列を検出できる可能性を高めることができる。
つまり、図5に示した本件開示の文字認識装置10によれば、検索キーワードの少なくとも一部を含んでいる可能性の高いテキストから、候補文字列の補正に利用可能な類似文字列を高い確度で検出することができる。したがって、図5に示した本件開示の文字認識装置10によれば、補正部14により、図3を用いて説明したような補正を候補文字列に対して適用する機会を増やすことで、検索キーワードの認識精度を高めることができる。
これにより、図5に示したディスプレイ5に表示された検索窓内に表示された検索キーワードを正しく表す文字列を、文字認識装置10による認識結果として、検索処理部8に提供できる可能性を増大させることができる。
したがって、本件開示の文字認識装置10とテレビジョン装置3とを連携させることで、検索キーワードを含む画面を見た視聴者Qがリモコン9の検索キーを操作するだけで、視聴者Qを検索キーワードで示されるウェブサイトに誘導することが可能となる。
なお、本件開示の文字認識装置10は、図5に示したテレビジョン装置3に限らず、例えば、セットトップボックス(図示せず)やテレビジョン放送用のチューナーを有する録画再生装置(図示せず)などとも連携して運用することが可能である。また、図5に示した文字認識装置10と、テレビジョン情報を受信する機能とネットワーク接続機能とを有するスマートフォンなどの携帯端末とを連携させて運用することも可能である。なお、スマートフォンなどの携帯端末と連携して運用する場合に好適な本件開示の文字認識装置10の実施形態については、図13〜図15を用いて後述する。
テレビジョン装置3やセットトップボックスなどの利用者は、キーボードなどによる文字入力操作やリモコン9に設けられた操作キーなどによる文字入力操作に不慣れな場合が多い。したがって、上述したような簡易な操作でウェブサイトにアクセスできるようにすることで、利用者の利便性を向上することができる。
ところで、画像を対象とする文字認識処理の結果として、認識対象である対象文字列が表示されている領域を区切って得られる文字領域ごとに、当該文字領域内の文字と類似した字形で表される複数の文字候補と、各文字候補についての確信度が得られる場合がある。なお、文字領域とは、画像に含まれる個々の文字を表すパターンが含まれている領域であり、例えば、個々の文字を表すパターンが外接する矩形の領域である。
ここで、上述した第1認識部11で取得した候補文字列は、例えば、所定の領域に表示された対象文字列の各文字に対応する文字領域について得られた最も確信度の高い文字候補を順に並べることで得られる文字列に相当する。同様に、上述した第2認識部12が画像を対象とする文字認識で得たテキストは、画像に含まれる各文字領域について得られた複数の文字候補のうち、最も高い確信度を持つ文字候補を順に並べることで得られる。
したがって、第1認識部11で得られた候補文字列に含まれる各文字が、対象文字列の対応する文字を正しく示していない場合にも、候補文字列中の文字として選ばれなかった文字候補の中に正しい文字が含まれている場合がある。第2認識部12による認識結果として得られるテキストに含まれる各文字についても同様である。
以下、第1認識部11及び第2認識部12による認識処理の過程で得られながら、候補文字列及びテキストに反映されなかった文字候補に関する情報も併せて利用することで、対象文字列についての認識精度を更に向上する方法について説明する。
図7は、文字認識装置10の別実施形態を示している。なお、図7に示した構成要素のうち、図1又は図5に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図7に示した候補要素保持部132は、解析部131から候補文字列に含まれる各候補要素を受け取る際に、当該候補要素の各文字に対応する文字領域についての認識結果として得られた全ての文字候補及びこれらの文字候補の確信度を第1認識部11から受け取る。また、候補要素保持部132は、第1認識部11から受け取った各文字候補及びこれらの文字候補に対応する確信度を、対応する候補要素に関する情報の一部として保持する。以下の説明では、第1認識部11から各文字候補に対応して受け取った確信度を、当該文字候補についての第1確信度と称する。
また、図7に示した形態素保持部133は、解析部131から各形態素を受け取る際に、当該形態素の各文字に対応する文字領域についての認識結果として得られた全ての文字候補及びこれらの文字候補の確信度を第2認識部12から受け取る。また、形態素保持部133は、第2認識部12から受け取った各文字候補及びこれらの文字候補に対応する確信度を、対応する形態素に関する情報の一部として保持する。以下の説明では、第2認識部12から各文字候補に対応して受け取った確信度を、当該文字候補についての第2確信度と称する。
図7に示した補正部14は、算出部141と、特定部142とを含んでいる。算出部141は、選択部135によって類似文字列の一部として選択された形態素に対応して上述した形態素保持部133に保持された少なくとも一つの文字候補とこれらの文字候補それぞれに対応する第2確信度を取得する。また、このとき、算出部141は、当該形態素が類似するとされた候補要素に対応して候補要素保持部132に保持された少なくとも一つの文字候補とこれらの文字候補それぞれに対応する第1確信度を取得する。
算出部141は、各候補要素に含まれる各文字に対応する文字候補それぞれの第1確信度と、当該候補要素に対応して選択された形態素の各文字に対応する文字候補それぞれの第2確信度とを次のようにして集計することで、各文字候補についての評価値を算出する。
図8は、算出部141による評価値の算出例を示している。図8において、符号Leを付した破線で囲んで示した3つの文字Le1,Le2,Le3は、第1認識部11による認識結果から得られた文字候補の例を示している。また、図8において、符号Lmを付した破線で囲んで示した3つの文字Lm1,Lm2,Lm3は、第2認識部12による認識結果から得られた文字候補の例を示している。
図8において文字候補Le1,Le2,Le3として示した各文字「冨」、「富」、「高」のそれぞれは、第1認識部11により、図2に示した検索窓R1内に表示された検索キーワードの先頭の文字と字形が類似すると判断された文字の例である。また、これらの文字候補Le1,Le2,Le3に対応して示した数値「75」、「70」、「55」は、それぞれの第1確信度を示している。
また、図8において文字候補Lm1,Lm2,Lm3として示した各文字「富」、「冨」、「宵」のそれぞれは、第2認識部12により、図2に示した広告メッセージTx1の先頭の文字と字形が類似するとされた文字の例である。また、これらの文字候補Lm1,Lm2,Lm3に対応して示した数値「90」、「80」、「60」は、それぞれの第2確信度を示している。
図7に示した算出部141は、例えば、補正対象の候補要素の先頭からj文字目に対応する各文字候補の第1確信度と、当該候補要素に対応して検出された形態素のj文字目に対応する各文字候補の第2確信度とを、同じ字形で表される文字候補ごとに集計する。なお、上述した変数jは、候補要素の文字数n以下の自然数である。又、算出部141は、補正対象の候補要素に対応する類似文字列として複数の形態素が検出されている場合に、全ての形態素のj文字目に対応する各文字候補について得られた第2確信度を含めて上述した集計を行う。
例えば、算出部141は、図8に符号Le1で示した文字候補「冨」の第1確信度と、同じ字形で表される文字候補Lm2の第2確信度とを加算することで、文字「冨」が上述した検索キーワードの先頭の文字である可能性の高さを示す評価値を算出してもよい。
また、更に望ましくは、算出部141は、同じ字形で表される文字について得られた第1確信度と第2確信度とに、それぞれ所定の第1重みと第2重みとを適用した上で集計してもよい。この場合に、算出部141は、例えば、第1重みに第2重みよりも大きい値を設定することが望ましい。
図8の例では、第1重みを数値「1」とし、第2重みを数値「0.8」とした場合について、上述した文字候補Le1,Le2,Le3に対応する第1確信度と文字候補Lm1,Lm2,Lm3に対応する第2確信度とを同じ字形で表される文字ごと集計した例を示した。
図8において、符号P1,P2,P3,P4は,上述した文字候補Le1,Le2,Le3および文字候補Lm1,Lm2,Lm3に含まれる互いに異なる字形で示される文字「富」、「冨」、「高」、「宵」を示している。また、各文字P1,P2,P3,P4に対応して示した数値「142」、「139」、「55」、「48」は、図7に示した算出部141が上述した第1重み及び第2重みを適用した集計処理を実行することで得られた評価値を示している。
このような集計処理を行う算出部141によれば、候補文字列及びテキストに反映されなかった文字候補を含めて、第1認識部11及び第2認識部12で得られた認識結果を示す情報を反映した評価値を、上述した文字候補それぞれについて求めることができる。
上述した算出部141が対象文字列のj番目の文字領域に対応する各文字候補について算出した評価値は、当該文字候補が対象文字列のj番目の文字であることの確からしさを示している。
したがって、図7に示した特定部142は、算出部141で得られた各文字候補の評価値に基づいて、対象文字列の各文字に対応する文字領域について最も確信度の高い文字候補を特定することができる。
例えば、特定部142は、対象文字列の各文字に対応する文字領域ごとに、算出部141により最も高い評価値が得られた字形で表される文字を特定し、特定した文字をつなげて形成した文字列を補正後の候補文字列として出力してもよい。
上述した算出部141と特定部142とを含む補正部14によれば、候補文字列及び類似文字列に含まれる文字候補とともに、これらに反映されなかった文字候補に関する情報も反映された評価値に基づいて、対象文字列の各文字を特定することができる。
これにより、候補文字列に含まれる各文字の確信度と類似文字列に含まれる各文字の確信度との比較結果に基づいて候補文字列を補正する場合に比べて、対象文字列をより忠実に示す認識結果を得ることができる。
なお、上述した算出部141及び特定部142を含む補正部14は、第1認識部12によってテキストが音声認識処理で得られる認識結果を含む場合にも適用できる。
例えば、図5に示した音声認識部123により、音声認識で得られたテキストの各文字に対応する音声処理単位ごとに、当該音声処理単位対応の認識結果として考えられる音素の候補と当該音素の候補の確信度を取得し、上述した評価値の算出に供してもよい。
一方、音声認識で得られる認識結果は、音声メッセージに含まれる各単語を表す音声についての認識結果として考えられる単語候補と、単語候補それぞれの確信度とを含んでいる場合もある。ここで、例えば、音声認識結果として、単語候補が所定値以上の確信度を持って得られた場合に、この単語候補が対応する部分の音声によって表された言葉である可能性は、単語として認識できない場合などに比べて非常に高い。したがって、図5に示した音声認識部123により、音声認識結果として所定値以上の確信度を持つ単語候補が得られた場合に、図7に示した特定部142は、単語候補で示される各文字を対象文字列の対応する部分を表す各文字として優先して特定してもよい。
次に、広告媒体などを表す画像の所定の領域に含まれる対象文字列がURLを示している場合に好適な文字認識装置10の実施形態について、図9及び図10を用いて説明する。
ここで、広告媒体に表示されるURLは、広告主の企業名や宣伝対象の製品名などの英文字表記を含んでいる場合が多く、また、企業名や製品名などの英文字表記は、URLとともに広告媒体に表示された広告メッセージにも含まれている場合が多い。したがって、URLが表示された領域についての文字認識結果が不完全である場合でも、上述した検索キーワードについての文字認識と同様にして、URLとともに表示された広告メッセージについての文字認識結果を用いて補完することが可能である。
図9は、文字認識装置10の別実施形態を示している。なお、図9に示した構成要素のうち、図1又は図5に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図9に示した第2認識部12は、文字認識部124を含んでおり、文字認識部124は、画像入力装置1から受け取った画像を対象とする文字認識処理を行うことにより、当該画像に含まれるテキストを取得する。
また、図9に示した第1認識部11は、上述した文字認識部124とともに、範囲特定部113を含んでいる。範囲特定部113は、文字認識部124で得られたテキストにおいて、所定の文字列あるいは所定の記号により先頭と末尾の位置が示された範囲を特定する。また、範囲特定部113は、文字認識部124で得られたテキストの中で、上述した所定の記号により先頭と末尾の位置が示された範囲に含まれる文字列を、対象文字列についての認識結果を示す候補文字列として取得する。
範囲特定部113は、例えば、文字認識部124で得られたテキストからURLに特有の書式文字や記号を検出することにより、図10に示すように、画像入力装置1から得られた画像において、URLが表示された部分を所定の領域R2として特定してもよい。
図10は、画像入力装置1から文字認識装置10に入力される画像の別例を示している。図10において、符号Tx3,Tx4,Tx5は、図9に示した文字認識装置10が受け取った画像に含まれる広告メッセージの例を示している。また、図10に示した領域R2は、URLを示す文字列「WWW.ABC.co.jp」が表示された領域の例を示している。
図10の画像の例は、URLを示す文字列及び広告メッセージTx3〜Tx5とともに、広告対象の製品であるパーソナルコンピュータを表す画像G1を含んでいる。
図10に示したような画像を対象とする文字認識処理により、図9に示した文字認識部124は、広告メッセージTx3,Tx4,Tx5についての認識結果を示す文字列とともに上述した領域R2についての認識結果を示す文字列を含むテキストを取得する。
範囲特定部113は、例えば、文字認識部124で得られたテキストから、図10に符号Csで示した文字列「WWW」を先頭位置とし、符号Ceで示した文字列「.jp」を末尾位置とする範囲を、URLを示す文字列が表示された領域R2として特定してもよい。
なお、文字列「WWW」は、URLを示す文字列の先頭位置を示す文字列の一例であり、範囲特定部113は、テキストに含まれる文字列「http」や文字列「http://」の位置を、上述した領域R2の先頭位置として検出してもよい。同様に、上述した文字列「.jp」は、URLを示す文字列の末尾位置を示す文字列の一例であり、範囲特定部113は、テキストに含まれる文字列「.com」や文字列「.com/」の位置を、上述した領域R2の末尾位置として検出してもよい。
上述した範囲特定部113を含む第1認識部11によれば、広告媒体などを撮影して得られた画像から、URLを表す対象文字列が表示された領域を自動的に特定し、特定した領域を対象とする文字認識結果を候補文字列として取得することができる。
ここで、図10に示した領域R2において、URLを示す文字列は、複雑なテクスチャを持つ画像を背景として表示される場合もある。そのような場合に、文字認識部124による文字認識結果から範囲特定部113が抽出した候補文字列は、広告媒体に表示された対象文字列に完全には一致しない場合もある。以下の説明では、例えば、図10に示した領域R2に表示されたURLを示す対象文字列「WWW.ABC.co.jp」に対応する認識結果として、範囲特定部113が、候補文字列「WWW.ABO.co.jp」を抽出した場合について説明する。
また、図9に示した検出部13は、図5に示した解析部131、候補要素保持部132、形態素保持部133、評価値算出部134および選択部135に加えて、抽出部136を含んでいる。
抽出部136は、範囲特定部113から候補文字列を受け取り、受け取った候補文字列を所定の記号で区切ることで得られる文字列のそれぞれを、上述した候補文字列に含まれる候補要素として抽出する。例えば、範囲特定部113から上述した候補文字列「WWW.ABO.co.jp」を受け取った場合に、抽出部136は、区切り記号「.」によって上述した候補文字列を区切ることにより、候補要素「WWW」,「ABO」,「co」,「jp」を取得する。また、抽出部136は、上述したようにして抽出した候補要素のそれぞれを候補要素保持部132に保持する。
このような抽出部136によれば、URLに共通する書式の特徴を利用して上述した候補文字列を分解することにより、個々のURLの特徴を示す文字列それぞれを候補要素として取得することができる。
一方、図9に示した解析部131は、文字認識部124から、範囲特定部113によって特定された領域R2の外側の画像に表示された広告メッセージなどについての認識結果を含むテキストを受け取る。また、解析部131は、受け取ったテキストに対して形態素解析を行うことにより、テキストを複数の形態素に分解し、得られた形態素のそれぞれを形態素保持部133に保持させる。
例えば、図10の例では、広告メッセージTx3,Tx4,Tx5についての文字認識で得られた文字列「株式会社ABC」、文字列「初心者にも使いやすい」、文字列「ABC社の新しいパソコン」を含むテキストが、図9に示した解析部131に渡される。このようなテキストについて形態素解析を行うことにより、解析部131は、形態素「株式会社」、形態素「ABC」を含む形態素の集合を取得し、取得した形態素の集合に含まれる各形態素を形態素保持部133に保持させる。なお、上述した形態素の集合は、更に、形態素「初心者」、形態素「使いやすい」、形態素「社」、形態素「新しい」および形態素「パソコン」を含んでいる。
上述した抽出部136で得られた各候補要素について、図9に示した評価値算出部134は、図5、図6を用いて説明したようにして、形態素保持部133に保持された各形態素との間の編集距離を算出する。また、選択部135は、得られた編集距離に基づいて、各候補要素に類似する形態素を形態素保持部133に保持された形態素の中から選択し、選択した形態素を、候補文字列に対応して検出した類似文字列として出力する。
例えば、図10に示した広告メッセージTx3〜Tx5の内容を示すテキストから上述した形態素「株式会社」、「ABC」、「初心者」、「使いやすい」、「社」、「新しい」および形態素「パソコン」を含む形態素の集合が得られた場合を考える。
この場合に、図9に示した選択部135は、上述した各形態素と候補要素「ABO」とについてそれぞれ算出された編集距離の中で、最小の編集距離「1」を与える形態素「ABC」を、候補要素「ABO」と同じ単語についての認識結果として選択する。
ここで、上述した検索キーワードの例と同様に、画像においてURLを示す文字列よりも、図10に示した広告メッセージTx3〜Tx5などに含まれる文字列の方が大きい場合が多い。このため、図10に示した領域R2についての文字認識処理で得られた候補文字列の各文字の確信度よりも、広告メッセージTx3や広告メッセージTx5についての文字認識結果に含まれる文字列「ABC」の各文字の確信度の方が高い場合が多い。
したがって、図9に示した補正部14により、候補要素「ABO」の各文字の確信度と、この候補要素に対応して検出された形態素「ABC」に含まれる各文字の確信度とに基づく補正処理を行うことにより、候補要素「ABO」を正しい文字列「ABC」に補正できる。
このように、図9に示した文字認識装置10によれば、画像中のURLを表示した領域についての文字認識結果を、上述した領域の外側に表示された広告メッセージなどの認識結果を用いて補完することで、URLを高い精度で認識することができる。
したがって、本件開示の文字認識装置10によって得られたURLを図1に示した検索装置2に提供すれば、検索装置2は、ネットワークNWを介して、広告媒体などに表示されたURLで示されたウェブサイトにほぼ確実にアクセスすることができる。
上述した機能を有する文字認識装置10は、例えばスマートフォンや携帯電話などの携帯端末や携帯用ゲーム機など、カメラ機能とネットワーク接続機能とを含む情報機器(図示せず)に搭載することが可能である。例えば、文字認識装置10を搭載した携帯端末の利用者は、中吊り広告などの広告媒体を撮影した画像を文字認識装置10に入力し、上述した文字認識処理を実行させることで、広告媒体に表示された正確なURLを取得することができる。また、本件開示の文字認識装置10によって得られたURLを携帯端末に搭載されたネットワーク接続機能に渡すことにより、広告媒体に表示されたURLで示されるウェブサイトへの自動的なアクセスを実現することができる。
以上に説明したように、本件開示の文字認識装置10によれば、URLを手入力する操作や、誤って認識されたURLを修正する操作などの煩雑な操作から利用者を解放することができる。
このように、本件開示の文字認識装置10は、広告媒体からURLを取得するための操作を簡易化することにより、広告媒体の視聴者が取得したURLで示されるウェブサイトにアクセスする操作を支援することができる。また、本件開示の文字認識装置10は、上述したようにして、視聴者が広告媒体からURLを取得するための操作を支援することにより、広告主が意図したウェブサイトに視聴者がアクセスする機会を増大させることができる。
したがって、本件開示の文字認識装置10が広く普及すれば、広告主は、広告用の映像や広告用のポスターなどにおいて、美的な品質を維持できる程度の大きさでURLを表示することにより、所望の広告効果を享受することができる。つまり、本件開示の文字認識装置10の普及により、広告媒体自体を視聴させることによる広告効果と、広告媒体内に表示したURLによって視聴者を所望のウェブサイトに誘導する効果とを両立させることができる。
なお、図9に示した第2認識部12は、図5に示した第2認識部12と同様に、テロップ認識部122及び音声認識部123を含んでもよく、放送されたCMなどのコンテンツに含まれるテロップ及び音声メッセージの内容を示すテキストを取得してもよい。
ここで、CMなどのコンテンツにおいては、URLに含まれる企業名や製品名を示す英文字列が繰り返し表示される場合や、URLそのものが読み上げられる場合及び企業名や製品名が繰り返し読み上げられる場合がある。したがって、上述した第2認識部12で得られるテキストには、企業名や製品名を示す英文字列に対応する文字認識結果や、URLを読み上げた音声及び企業名や製品名を読み上げた音声についての音声認識結果が高い頻度で含まれている。
このようなテキストから、図9に示した検出部13は、URLに含まれる文字列と同じ単語がテロップとして表示された箇所の文字認識結果または当該単語を読み上げた音声の箇所についての音声認識結果それぞれを類似文字列として検出することができる。これにより、図9に示した補正部14により、URLが表示された領域について得られた候補文字列を、類似文字列に基づいて補正する機会を増大させることができるので、正しいURLを示す文字列を取得する可能性を高めることができる。すなわち、映像中のテロップや音声を認識する機能を持つ第2認識部12を有する文字認識装置10によれば、1枚の画像に含まれる情報に基づいて認識する場合に比べて、広告媒体に表示されたURLを更に高精度に認識することができる。
以上に説明した本件開示の文字認識装置10は、例えば、テレビジョン装置などに搭載されたコンピュータ装置を用いて実現することができる。
図11は、文字認識装置10のハードウェア構成の一例を示している。なお、図10に示した構成要素のうち、図1又は図5に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図11の例は、本件開示の文字認識装置10を、テレビジョン装置3に搭載されたコンピュータ装置20を利用して実現する場合のハードウェア構成例を示している。
図11に示したコンピュータ装置20は、プロセッサ21と、メモリ22と、ハードディスク装置23と、近接通信インタフェース24と、出力制御部25と、ネットワークインタフェース26と、光学ドライブ装置27とを含んでいる。図11に例示したプロセッサ21と、メモリ22と、ハードディスク装置23と、近接通信インタフェース24と、出力制御部25と、ネットワークインタフェース26と、光学ドライブ装置27とは、バスを介して互いに接続されている。また、プロセッサ21は、上述したバスを介して、TV放送受信処理部4とも接続されている。
本件開示の文字認識装置10は、例えば、図11に示したプロセッサ21とメモリ22とハードディスク装置23とにより実現することができる。図11の例は、ハードディスク装置23の一部の容量を用いて、図5に示した候補要素保持部132と形態素保持部133とを実現する場合を示している。また、図11の例は、コンピュータ装置20に含まれるハードディスク装置23の容量の一部を利用して、図5に示した映像/音声蓄積部7を実現する場合を示している。
上述した光学ドライブ装置27は、光ディスクなどのリムーバブルディスク28を装着可能であり、装着したリムーバブルディスク28に記録された情報の読出および記録を行う。また、出力制御部25は、プロセッサ21からの指示に従って、ディスプレイ5による映像出力及びスピーカ6による音声出力を制御する。
また、コンピュータ装置20は、近接通信インタフェース24を介して、リモコン9に接続されている。プロセッサ21は、視聴者Qによってリモコン9が操作された際に、操作内容に対応する指示を近接インタフェース24から受け取り、受け取った指示に基づいて、TV放送受信処理部4及び出力制御部25による受信処理及び出力処理を制御する。
また、コンピュータ装置20は、ネットワークインタフェース26を介してネットワークNWに接続されている。プロセッサ21は、ネットワークインタフェース26及びネットワークNWを経由して、図示しないウェブサーバなどに接続し、接続したウェブサーバなどから様々な情報を取得する機能を有している。つまり、図11に示したテレビジョン装置3においては、プロセッサ21とネットワークインタフェース26とにより、図5に示した検索処理部8の機能が実現されている。
図11に例示したメモリ22は、コンピュータ装置20のオペレーティングシステムとともに、プロセッサ21が上述した文字認識処理を実行するためのアプリケーションプログラムを格納している。なお、上述した文字認識処理を実行するためのアプリケーションプログラムは、例えば、光ディスクなどのリムーバブルディスク28に記録して頒布することができる。そして、このリムーバブルディスク28を光学ドライブ装置27に装着して読み込み処理を行うことにより、文字認識処理を実行するためのアプリケーションプログラムを、メモリ22およびハードディスク装置23に格納させてもよい。また、上述したネットワークインタフェース26を介したダウンロード処理によって、文字認識処理を実行するためのアプリケーションプログラムを取得し、取得したプログラムをメモリ22およびハードディスク装置23に読み込ませてもよい。
図12は、文字認識処理のフローチャートの別例を示している。なお、図12に示したステップのうち、図4に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する場合もある。図12に示したステップ301〜ステップ307及びステップ311〜ステップ316の各処理は、文字認識処理のためのアプリケーションプログラムに含まれる処理の一例である。また、これらのステップ301〜ステップ307及びステップ311〜ステップ316の各処理は、図11に示したプロセッサ21によって実行される。
まず、プロセッサ21は、図11に示したリモコン9からの検索指示に応じて、ディスプレイ5によって表示中の画像を取得する(ステップ311)。例えば、視聴者Qがリモコン9に設けられた検索キーを操作した際に、プロセッサ21は、近接通信インタフェース24を介して、表示中の画像に含まれる検索キーワード又はURLに基づく検索を指示する旨の検索指示を受け取る。この検索指示の入力を契機として、プロセッサ21は、例えば、出力制御部25から、ディスプレイ5によって表示中の画像を表す画像データを取得してもよい。
次に、プロセッサ21は、ステップ311で取得した画像の中から図2に示したような検索窓R1を表す領域を検出するための処理を実行し(ステップ301)、次いで、ステップ301の処理で検索窓を検出できたか否かを判定する(ステップ312)。
ステップ301の処理で検索窓を検出できた場合に(ステップ312の肯定判定(YES))、プロセッサ21は、ステップ302の処理に進む。ステップ302において、プロセッサ21は、検出した検索窓内の領域について文字認識処理を実行する。これにより、プロセッサ21は、ステップ301の処理で取得した画像において、検索キーワードが表示された検索窓内に相当する所定の領域についての認識結果を候補文字列として取得する。
一方、ステップ301の処理で検索窓を検出できなかった場合に(ステップ312の否定判定(NO))、プロセッサ21は、ステップ302の処理の代わりに、次に述べるステップ313及びステップ314の処理を実行する。まず、プロセッサ21は、ステップ301で取得した画像全体を対象として文字認識処理を実行する(ステップ313)。次いで、プロセッサ21は、ステップ313の処理で得られた文字認識結果から、図9、図10を用いて説明したようにして、URLの特徴を示している範囲の文字列を候補文字列として取得する(ステップ314)。
つまり、図12に示したフローチャートの例では、プロセッサ21は、検索窓の検出が成功したか失敗したかによって、検索キーワードが表示された検索窓についての認識結果あるいはURLの特徴を示す範囲についての認識結果を候補文字列として取得する。
その後、プロセッサ21は、図11に示したハードディスク装置23に設けられた映像/音声蓄積部7から、テレビジョン装置3によって再生中のCMなどのコンテンツに含まれる映像データ及び音声データを取得する(ステップ315)。
次いで、プロセッサ21は、取得した映像データ及び音声データにつき、図5を用いて説明した映像中のテロップを対象とする文字認識処理及び音声認識処理を行うことにより、テロップや音声によって表されたテキストを取得する(ステップ316)。
このようにして得られたテキストと上述した候補文字列とについて、プロセッサ21が、ステップ304〜ステップ306の処理を実行することにより、テキストから検出した類似文字列を用いて、候補文字列を補正することができる。
なお、プロセッサ21は、ステップ304の処理の際に、図5及び図6を用いて説明したように、テキストを分解して得られる形態素の集合から、候補文字列に含まれる各候補要素に対応する類似文字列を検出してもよい。
また、プロセッサ21は、ステップ306の処理の際に、図7及び図8を用いて説明したように、候補文字列の各文字あるいは類似文字列の対応する文字について得られた各文字候補が、対象文字列の対応する文字である確からしさを示す評価値を算出してもよい。また、プロセッサ21は、上述したようにして算出した評価値により、最も確からしいとされた文字候補を繋げることで、補正された候補文字列を取得してもよい。
このようにして、プロセッサ21は、ステップ315で取得した映像及び音声に含まれる情報を利用することで、ステップ311の処理で取得した画像に含まれた検索キーワードあるいはURLを高い精度で認識することができる。
また、プロセッサ21は、ステップ306の処理で得られた補正後の候補文字列を、ステップ307において、検索キーワードが表示された検索窓又はURLが表示された領域についての文字認識結果として出力する。プロセッサ21は、ステップ307の処理の過程で、例えば、取得した検索キーワード又はURLを示す文字列を表す表示用データを生成し、生成した表示用データを図11に示した出力制御部25に渡すことにより、ディスプレイ5に表示させてもよい。この場合に、視聴者Qは、文字認識装置10で得られた検索キーワード又はURLをディスプレイ5の表示画面上で確認したうえで、ネットワークアクセス操作の実行を指示することができる。
以上に説明したように、図11に示したハードウェア構成によって実現される本件開示の文字認識装置10によれば、CMなどのコンテンツに含まれる検索キーワードやURLを示す文字列を正確に再現した文字認識結果を、視聴者Qに提示することができる。これにより、視聴者Qは、リモコン9に設けられた検索キーを操作するだけで、視聴中のコンテンツに含まれる検索キーワードあるいはURLを正しく表す文字列を取得し、取得した検索キーワードなどをネットワークアクセス操作に利用することができる。
例えば、プロセッサ21は、メモリ22あるいはハードディスク装置23に格納されたアプリケーションプログラムで実現されるウェブブラウザを起動させ、このウェブブラウザに文字認識結果として得られた検索キーワードあるいはURLを渡してもよい。この場合に、プロセッサ21は、ウェブブラウザがディスプレイ5に表示させる検索処理用の画面内の検索窓やアドレスバーに、上述したようにして取得した検索キーワードやURLを入力する操作を視聴者Qに代わって実行してもよい。
このように、図11に示したハードウェア構成によって実現される本件開示の文字認識装置10とテレビジョン装置3に搭載された検索機能との連携を図ることにより、視聴者Qに快適なネットワーク接続環境を提供することができる。
また、同様にして、本件開示の文字認識装置10は、セットトップボックスや録画再生装置など、映像及び音声を含むコンテンツを再生する機能と、ネットワーク接続機能とを有する装置に搭載されたプロセッサなどのハードウェアを利用して実現することができる。
また、本件開示の文字認識装置10は、インターネットなどのネットワーク上に配置したサーバ装置により、スマートフォンや携帯電話などの携帯端末を対象として提供するサービスの一つとして実現することも可能である。
図13は、文字認識装置10のハードウェア構成の別例を示している。なお、図13に示した構成要素のうち、図1又は図5に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図13に示したサーバ装置30は、ネットワークNWを介して携帯端末40に接続されており、携帯端末40からのサービス要求に応じて、上述した文字認識処理を実行する。
サーバ装置30は、プロセッサ31と、メモリ32と、ハードディスク装置33と、ネットワークインタフェース34と、TV放送受信処理部4とを含んでいる。上述したプロセッサ31、メモリ32及びハードディスク装置33は、文字認識装置10に含まれる。
また、プロセッサ31は、メモリ32と、ハードディスク装置33と、ネットワークインタフェース34と、TV放送受信処理部4とバスを介して接続されている。また、図13の例示では、図5に示した候補要素保持部132及び形態素保持部133は、ハードディスク装置33の一部の容量をこれらの各部に割り当てることで実現されている。また、ハードディスク装置33に設けられた映像/音声蓄積部7は、TV放送受信処理部4で生成された映像データ及び音声データのうち、最新の所定時間分の映像データ及び音声データを蓄積している。なお、映像/音声蓄積部7は、TV放送受信処理部4によって各放送チャネルに対応して生成された映像データおよび音声データを蓄積することが望ましい。
また、メモリ32及びハードディスク装置33には、サーバ装置30のオペレーティングシステムとともに、プロセッサ31が上述した文字認識処理を実行するためのアプリケーションプログラムを格納している。
図13に示した携帯端末40は、ネットワークNWを介してサーバ装置30に対して、視聴中のCMなどのコンテンツあるいは撮影した画像に含まれる検索キーワードあるいはURLの認識処理を要求するサービス要求を送出する機能を有している。なお、図13の例は、携帯端末40の表示画面に、図10に示したようなURLを含む画像が表示されている場合を示している。
図14は、図13に示した携帯端末40のハードウェア構成の一例を示している。なお、図14に示した構成要素のうち、図5に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図14に示した携帯端末40は、プロセッサ41と、メモリ42と、ワンセグチューナー43と、ネットワークインタフェース44と、入力部45と、出力制御部46と、カメラ機能部47とを含んでいる。上述したプロセッサ41は、メモリ42と、ワンセグチューナー43と、ネットワークインタフェース44と、入力部45と、出力制御部46と、カメラ機能部47とバスを介して接続されている。また、携帯端末40は、ネットワークインタフェース44を介して、上述したネットワークNWに接続されており、更に、このネットワークNWを介してサーバ装置30に接続する機能を有している。なお、ワンセグチューナー43は、携帯端末40に含まれるコンテンツ視聴機能の一例であり、携帯端末40が搭載するコンテンツ視聴機能は、ワンセグチューナー43に限らず、フルセグチューナー(図示せず)や動画再生機能などでもよい。
また、出力制御部46には、液晶表示部などのディスプレイ5とスピーカ6とが接続されている。出力制御部46は、プロセッサ41やカメラ機能部47及びワンセグチューナー43からバスを介して受け取った映像データ及び音声データに基づいて、ディスプレイ5及びスピーカ6に映像及び音声を出力させる。
カメラ機能部47は、携帯端末の利用者からの指示に応じて、カメラ機能部47に含まれる撮像装置の視野に対応する画像を撮影する。
入力部45は、例えば、タッチパネルや操作パネルであり、携帯端末40の利用者は、入力部45を操作することにより、カメラ機能部47による画像の撮影やワンセグチューナー43による放送の視聴などを制御するための指示を入力する。
また、メモリ42は、携帯端末40のオペレーティングシステムとともに、サーバ装置30によって提供される文字認識処理サービスを享受するための処理をプロセッサ41に実行させるアプリケーションプログラムを含んでいる。なお、文字認識処理サービスを享受するためのアプリケーションプログラムは、例えば、ネットワークインタフェース44を介したダウンロード処理によって、ネットワークNW経由で取得することが可能である。また、取得したアプリケーションプログラムをメモリ42に格納することで、利用者からの指示を受けた場合に、プロセッサ41が、文字認識処理サービスを享受するためのアプリケーションプログラムを実行できるようにしておいてもよい。
サービスを享受するためのアプリケーションプログラムは、サーバ装置30に対して文字認識処理の実行を要求するためのサービス要求を送出する処理をプロセッサ41に実行させるプログラムを含んでいる。
プロセッサ41は、サービス要求を送出する処理のためのプログラムに従って、カメラ機能部47あるいはワンセグチューナー43で得られた画像とともに、当該画像に含まれる検索キーワード又はURLの認識処理の実行を要求するサービス要求を送出してもよい。なお、プロセッサ41は、サーバ装置30に送出するサービス要求に、文字認識処理の対象となる画像がカメラ機能部47で得られた画像であるかワンセグチューナー43で得られた画像であるかを示す対象情報を付加することが望ましい。また、プロセッサ41は、上述した画像がワンセグチューナー43で得られた画像である場合に、ワンセグチューナー43が受信中の放送チャネルなど視聴中のコンテンツを示す情報を含む対象情報をサービス要求とともに送出することが望ましい。
なお、図13及び図14に示した携帯端末40は、スマートフォンや携帯電話に限らず、例えば、カメラ機能あるいはテレビジョン放送や録画された映像コンテンツの視聴機能とネットワーク接続機能とを有する携帯ゲーム機やタブレット端末などでもよい。
以下に、上述したような携帯端末40からのサービス要求に応じて、図13に示したサーバ装置30により文字認識処理を実行する方法について説明する。
図15は、文字認識処理のフローチャートの別例を示している。なお、図15に示したステップのうち、図4及び図12に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する場合もある。図15に示したフローチャートに含まれる各ステップの各処理は、図13に示したサーバ装置30のプロセッサ31が携帯端末40からのサービス要求に応じて実行する文字認識処理のためのアプリケーションプログラムに含まれる処理の一例である。
まず、プロセッサ31は、上述したステップ301の処理に先立って、携帯端末40からサービス要求とともに認識対象の画像を表す画像データを受け取り、また、受け取ったサービス要求に付加された対象情報を抽出する(ステップ361)。
次いで、プロセッサ31は、ステップ301において、受け取った画像に対して検索窓を検出する処理を行う。そして、プロセッサ31は、検索窓の検出が成功した場合に(ステップ312の肯定判定)、検索キーワードが表示された検索窓に相当する所定の領域についての認識結果を候補文字列として取得する(ステップ302)。一方、検索窓が検出できなかった場合に(ステップ312の否定判定)、プロセッサ31は、ステップ313及びステップ314の処理により、URLの特徴を示す範囲についての認識結果を候補文字列として取得する。
その後、プロセッサ31は、ステップ361で抽出した対象情報に基づいて、認識対象の画像が図14に示したカメラ機能部47で撮影された画像か、それとも、利用者が視聴中のコンテンツの一部であるかを判定する(ステップ362)。
上述したステップ361の処理において、視聴中のコンテンツを示す情報を含む対象情報を抽出した場合に、プロセッサ31は、認識対象の画像はコンテンツの一部であると判定し、ステップ362の肯定判定(YES)ルートの処理を実行する。
ステップ362の肯定判定ルートにおいて、プロセッサ31は、まず、図13に示した映像/音声蓄積部7から、上述した対象情報で示されるコンテンツに含まれる映像データ及び音声データを取得する(ステップ363)。ステップ363において、対象情報に基づいて映像/音声蓄積部7から映像データおよび音声データを取得することにより、プロセッサ31は、携帯端末40の利用者が視聴中のコンテンツに含まれる映像データ及び音声データを取得することができる。このように、サーバ装置30のハードディスク装置33に各放送チャネルに対応するコンテンツを準備しておくことで、携帯端末40から視聴中の映像データや音声データを受け取らなくても、以降の認識処理の実行を可能にすることができる。これにより、携帯端末40から視聴中の映像データ及び音声データをサーバ装置30に渡す場合に比べて、本件開示の文字認識装置10によるサービスを受ける際の携帯端末40の処理負担を軽減することが可能である。なお、ネットワークNWに接続された他のコンテンツサーバ装置(図示せず)などに、例えば、CMなどのコンテンツが蓄積されている場合に、プロセッサ31は、上述したコンテンツサーバ装置から対象情報で指定されたコンテンツを取得してもよい。
上述したステップ363の処理の終了後に、プロセッサ31は、取得した映像データで表される映像に対するテロップ認識処理及び音声データで表される音声に対する音声認識処理を行うことにより、テキストを取得する(ステップ316)。
一方、上述した対象情報により、認識対象の画像が図14に示したカメラ機能部47で得られた画像であることが示された場合に、プロセッサ31は、認識対象の画像はコンテンツの一部でないと判定し、ステップ362の否定判定(NO)ルートの処理を実行する。
ステップ362の否定判定ルートにおいて、プロセッサ31は、認識対象の画像に対して文字認識処理を行うことでテキストを取得する(ステップ364)。なお、上述したステップ362の処理に先立って、ステップ313の処理を実行していた場合に、プロセッサ31は、ステップ364の処理を省略し、ステップ313で得られた認識処理結果をテキストとして取得してもよい。
上述したステップ362の肯定判定ルートの処理あるいは否定判定ルートの処理の完了後に、プロセッサ31は、図4及び図12で説明したようにして、ステップ304〜ステップ306の処理を実行することで、テキストに基づいて候補文字列を補正する。
上述したステップ304〜ステップ306の処理によれば、テキストから得られた類似文字列に基づき、ステップ302又はステップ314の処理で得られた候補文字列を補正することで、所定領域に表示された対象文字列を高い精度で認識することができる。
その後、プロセッサ31は、ステップ306の処理で得られた補正後の候補文字列を、検索キーワードあるいはURLを示す認識結果として、ネットワークインタフェース34を介して携帯端末40に返す処理を実行する(ステップ365)。
以上に説明したように、図13に示したサーバ装置30のプロセッサ31が、文字認識処理のためのアプリケーションプログラムを実行することにより、本件開示の文字認識装置10の機能を、ネットワークを介したサービスとして実現することができる。
これにより、携帯端末40に搭載されたプロセッサ41が、図1や図5に示したテロップ認識部122や音声認識部123の機能を実現可能な処理能力を持たない場合でも、当該携帯端末40の利用者に本件開示の文字認識装置10によるサービスを提供できる。
以上の詳細な説明により、実施形態の特徴点及び利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で、前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更を容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
以上の説明に関して、更に、以下の各項を開示する。
(付記1)
画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得する第1認識部と、
前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得する第2認識部と、
前記第2認識部よって得られたテキストから、前記第1認識部で得られた候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出する検出部と、
前記類似文字列に基づいて、前記候補文字列を補正する補正部と
を備えたことを特徴とする文字認識装置。
(付記2)
付記1に記載の文字認識装置において、
前記第1認識部は、前記候補文字列に含まれる文字のそれぞれについて、前記所定の領域内の対応する位置に表示された文字である確からしさを評価し、前記評価結果を示す確信度を前記候補文字列とともに出力し、
前記第2認識部は、前記テキストに含まれる文字のそれぞれについて、前記画像における前記所定の領域の外側の対応する位置に表示された文字である確からしさと、前記画像に付随する音声において対応する箇所の音を表す文字である確からしさとの少なくとも一方を評価し、前記評価結果を示す確信度を前記テキストとともに出力し、
前記補正部は、
前記類似文字列に含まれる各文字について前記第2認識部で得られた確信度が、前記候補文字列の対応する文字について前記第1認識部で得られた確信度を超える場合に、前記候補文字列の当該文字を前記類似文字列の対応する文字で置き換える
ことを特徴とする文字認識装置。
(付記3)
付記1に記載の文字認識装置において、
前記第1認識部は、前記候補文字列を取得する過程で、前記所定の領域において前記対象文字列に含まれる各文字に対応する領域である文字領域ごとに、当該文字領域に含まれる文字と類似する字形で表される少なくとも一つの文字候補と、前記文字候補それぞれが前記文字領域に表示された文字であることの確からしさを示す第1確信度とを取得し、
前記第2認識部は、前記所定の領域の外側に含まれるテキストを取得する過程で、前記テキストに含まれる各文字に対応する領域である文字領域ごとに、当該文字領域に含まれる文字と類似する字形で表される少なくとも一つの文字候補と、前記文字候補それぞれが前記文字領域に表示された文字であることの確からしさを示す第2確信度とを取得し、
前記補正部は、
前記所定の領域において前記対象文字列に含まれる各文字の位置に対応する前記文字領域ごとに、当該文字領域について前記第1認識部で得られた前記文字候補それぞれの第1確信度と、前記所定の領域の外側に含まれるテキスト中の前記類似文字列に対応する箇所において前記各文字の位置で示される文字領域について前記第2認識部で得られた前記文字候補それぞれの第2確信度とを、同じ字形で表される文字候補ごとに集計することにより、前記各字形で表される文字が前記文字領域に対応する位置の文字として前記対象文字列に含まれる可能性の高さを示す評価値を算出する算出部と、
前記対象文字列の各文字に対応する前記文字領域ごとに、前記算出部により最も高い評価値が得られた字形で表される文字を特定し、特定した文字をつなげることで補正後の候補文字列を生成する特定部とを有する
ことを特徴とする文字認識装置。
(付記4)
付記1又は付記2に記載の文字認識装置において、
前記検出部は、
前記候補文字列に対して形態素解析を行うことにより、前記候補文字列を少なくとも一つの候補要素に分解するとともに、前記第2認識部で得られた前記テキストに対して形態素解析を行うことにより、前記テキストを少なくとも一つの形態素に分解する解析部と、
前記候補要素にそれぞれ対応する類似文字列として、前記少なくとも一つの形態素の中から、当該候補要素との間で異なっている文字が所定数以下である形態素を選択する選択部とを有する
ことを特徴とする文字認識装置。
(付記5)
付記1又は付記2に記載の文字認識装置において、
前記検出部は、
前記候補文字列を所定の記号で区切ることで得られる文字列のそれぞれを、前記候補文字列に含まれる候補要素として抽出する抽出部と、
前記第2認識部で得られた前記テキストに対する形態素解析により、前記テキストを少なくとも一つの形態素に分解する解析部と、
前記候補要素にそれぞれ対応する類似文字列として、前記少なくとも一つの形態素の中から、当該候補要素との間で異なっている文字が所定数以下である形態素を選択する選択部とを有する
ことを特徴とする文字認識装置。
(付記6)
付記1に記載の文字認識装置において、
前記第2認識部は、
前記所定の領域を含む前記画像が映像に含まれる複数の画像の一つである場合に、前記複数の画像それぞれについて文字認識処理を行うことで得られる文字列それぞれを、前記テキストの一部として取得する
ことを特徴とする文字認識装置。
(付記7)
請求項1に記載の文字認識装置において、
前記第2認識部は、
前記所定の領域を含む前記画像が映像に含まれる複数の画像の一つである場合に、前記映像とともに再生される音声について音声認識処理を行うことで得られる文字列それぞれを、前記テキストの一部として取得する
ことを特徴とする文字認識装置。
(付記8)
付記5に記載の文字認識装置において、
前記第1認識部は、
所定の文字列あるいは所定の記号により先頭と末尾の位置が示された範囲について文字認識処理を行うことで得られる文字列を、前記所定の領域に表示された対象文字列に対応する文字認識結果を示す候補文字列として取得する
ことを特徴とする文字認識装置。
(付記9)
画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得し、
前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得し、
前記テキストから、前記候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出し、
前記検出された前記類似文字列に基づいて、前記候補文字列を補正する
ことを特徴とする文字認識方法。
(付記10)
画像に含まれる所定の領域に表示された文字列である対象文字列を文字認識することにより、候補文字列を取得し、
前記画像における前記所定の領域の外側を対象とする文字認識処理と前記画像に付随する音声を対象とする音声認識処理との少なくとも一方を実行することにより、前記画像における前記所定の領域の外側に含まれるテキストと前記音声で表されるテキストとの少なくとも一方を取得し、
前記テキストから、前記候補文字列との類似度が所定の閾値以上の文字列である類似文字列を検出し、
前記検出された前記類似文字列に基づいて、前記候補文字列を補正する
処理をコンピュータに実行させることを特徴とする文字認識プログラム。