以下、本発明によるテレビジョン装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。また、所定の情報が格納され得る格納部等において、当該格納部に情報が記憶される過程は問わないものとする。例えば、記録媒体を介して情報が格納部等で記憶されるようになってもよい。また、通信回線などを介して送信された情報が格納部等で記憶されるようになってもよい。さらに、入力デバイスを介して入力された情報が格納部等で記憶されるようになってもよい。また、本実施の形態において説明する各情報の形式、内容などは、あくまで例示であり、各情報の持つ意味を示すことができれば、形式、内容などは問わない。
(実施の形態1)
本実施の形態において、映像中の予め決められた音声を検知後、映像中の文字を認識し、当該文字を出力するテレビジョン装置1について説明する。
なお、本実施の形態において、テレビジョン装置1は、例えば、いわゆるテレビや、テレビチューナー、パーソナル・コンピュータ(PC)、ハードディスク・レコーダーやブルーレイディスク・レコーダーなどの映像録画再生機などである。
図1は、本実施の形態におけるテレビジョン装置1のブロック図である。テレビジョン装置1は、映像情報格納部11、音声検知情報格納部12、受信部13、音声検知部14、文字認識部15、出力部16を備える。文字認識部15は、文字領域情報格納手段151、文字変化周期情報格納手段152、文字認識用語格納手段153、文字領域検出手段154、文字認識手段155、認識文字取得手段156を備える。
映像情報格納部11には、映像情報が格納される。映像情報とは、画像と音声とを対応付けて有する情報であり、映像を示す情報である。当該映像の内容や種類は問わない。また、画像は、通常、動画を構成するフレームである。また、映像情報は、当該映像情報が放送されるチャンネルを識別するチャンネル識別子と対応付けられていることが好適である。当該チャネル識別子は、通常、チャンネルを示すチャンネル番号である。また、当該チャンネル識別子は、テレビ局を識別するテレビ局識別子や、いわゆるテレビ番組を識別するテレビ番組識別子などであってもよい。なお、これらの情報の形式や内容などは問わない。また、映像情報は、通常、映像を信号化した映像信号である。つまり、当該映像情報が有する画像と音声も、通常、画像を信号化した画像信号、および音声を信号化した音声信号である。
また、映像情報格納部11は、通常、いわゆるバッファである。また、当該バッファは、リングバッファであることが好適である。
音声検知情報格納部12には、所定の音声を検知するための情報である1以上の音声検知情報が格納される。音声検知情報は、通常、音声である。また、当該音声は、通常、警告音や、通知音、効果音などであるが、内容は問わない。また、音声検知情報は、通常、音声を信号化した音声信号である。また、音声検知情報は、例えば、気象速報や、地震速報、ニュース速報などの速報や、その他の緊急放送、緊急警報放送などの開始を検知するためのものである。つまり、言い換えるならば、音声検知情報は、気象速報や、地震速報、ニュース速報などの速報や、その他の緊急放送、緊急警報放送などの開始を知らせる音声である。なお、音声検知情報は、チャンネル識別子と対応付けられていることが好適である。
受信部13は、1以上または2以上の映像情報を受信する。当該映像情報は、通常、テレビジョン放送により放送されたものであるが、例えば、インターネットなど、その他の手段により配信、送信されたものであってもよい。また、受信部13は、通常、テレビジョン装置1の電源がONになっている間、常に当該映像情報を受信している。また、受信部13は、通常、受信した映像情報を、映像情報格納部11に蓄積する。
なお、本実施の形態において、受信部13が受信した映像情報、および受信部13が映像情報格納部11に蓄積した映像情報を、受信映像とする。また、本実施の形態において、当該受信映像が有する画像を、受信画像、当該受信映像が有する音声を、受信音声とする。また、本実施の形態において、受信映像、および受信画像を、フレームと称することもある。また、受信映像は、通常、後述の出力部16が、いわゆるテレビ映像として出力する。
受信部13は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されてもよい。
音声検知部14は、受信音声から、音声検知情報格納部12に格納されている音声検知情報に合致する音声を検知する。つまり、音声検知部14は、例えば、気象速報や、地震速報、ニュース速報などの速報や、その他の緊急放送、緊急警報放送などの開始を検知する。音声検知部14は、通常、音声検知情報格納部12に格納されている1以上の音声検知情報のいずれかに合致する音声を、受信音声から検知する。なお、当該音声は、通常、後述の文字認識部15が受信画像に対して文字認識を開始する際の合図となる音声である。
また、音声検知部14は、例えば、以下のような手順で音声検知情報に合致する音声を検知する。
(1)音声検知情報格納部12に格納されているすべての音声検知情報を取得する。
(2)受信音声と、(1)で取得した1以上の音声検知情報のいずれかとが合致するか否か、または、受信音声の一部と、(1)で取得した1以上の音声検知情報のいずれかとが合致するか否かを判断する。
(3)(2)において、合致すると判断した場合、音声検知情報に合致する音声を検知したと判断する。
なお、音声検知部14は、受信音声に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている音声検知情報を、音声検知情報格納部12から取得し、当該音声検知情報に合致する音声を検知することが好適である。また、本実施の形態において、音声検知部14が、音声検知情報に合致すると判断して検知した音声を、検知音声とする。
文字認識部15は、音声検知部14が検知音声を検知した後に、受信画像に対して文字認識を行い、一の文字列を取得する。当該文字列は、例えば、受信映像中に出現する気象速報や、地震速報、ニュース速報などの内容やタイトルを示す文字列である。文字認識部15は、例えば、一の受信画像に対して文字認識を行い、一の文字列を取得する。また、文字認識部15は、例えば、2以上の各受信画像に対して文字認識を行い、当該2以上の各受信画像から一の文字列を取得し、2以上の文字列を取得し、当該2以上の文字列を用いて一の文字列を取得する。ここで、文字列とは、1以上の文字である。また、当該文字は、通常、活字であり、いわゆる手書き文字は含まないが、含んでいてもよい。なお、本実施の形態において、文字認識部15が取得した一の文字列を、取得文字列とする。
また、文字認識は、一般的には、以下のような手順で行う。
(1)画像を2値化処理により2値化する。
(2)(1)で2値化した画像から、文字列の領域を検出し、当該文字列が有する1以上の各文字を示す画像である文字画像を取得する。
(3)(2)で取得した各文字画像から、大きさやストロークなどの特徴量を抽出する。
(4)(3)で抽出した各特徴量と、予め用意した2以上の各文字の特徴量とを比較し、スコアを算出する。
(5)(4)で算出したスコアが最高である文字を、認識した文字として取得する。
なお、文字認識部15は、通常、文字認識の際に、上記(4)のように、取得した1以上の各文字、または取得した1以上の文字から構成される一の文字列に対して、取得の精度、または認識の精度を示すスコアを算出する。当該スコアは、例えば、当該各文字と、取得元となった文字画像との類似度や、取得した文字または文字列の確からしさや正確性を示す確度などである。当該確度は、例えば、バイグラム(bi−gram)や、トライグラム(tri−gram)などのNグラム法や、N文字インデックス法、その他文法的な観点からの確度であってもよい。また、当該スコアの内容や、当該スコアの算出方法は問わない。また、上記(4)における予め用意した文字、およびその特徴量は、通常、文字認識部15が保持しているが、任意の記憶領域に格納されていてもよい。
また、文字認識部15は、通常、音声検知部14による検知音声の検知の直後から、受信画像に対する文字認識を開始する。また、文字認識部15は、文字認識の開始に関する条件である開始条件に応じて、文字認識を開始してもよい。当該開始条件は、例えば、以下のような条件である。
(1)検知音声の検知後、予め決められたフレーム数の画像を、受信部13が受信した場合
(2)検知音声の検知後、予め決められた時間が経過した場合
また、文字認識部15は、通常、文字認識の終了に関する条件である終了条件に応じて、文字認識を終了する。当該終了条件は、例えば、以下のような条件である。
(1)予め決められたフレーム数の受信画像に対して文字認識を行った場合
(2)予め決められた時間、受信画像に対して文字認識を行った場合
(3)連続するN以上のフレームの受信画像から、同じ文字列を取得した場合
(4)連続するN以上のフレームの受信画像から、文字列が取得できなかった場合
なお、上記(3)、(4)の条件における「N」は、予め決められたフレーム数を示す。
また、文字認識部15は、通常、後述の各手段により、受信画像から一の文字列を取得する。
文字領域情報格納手段151には、受信画像中の文字列、または文字の領域を示す1以上の文字領域情報が格納される。文字領域情報は、通常、受信画像中の文字列の領域を示す。また、文字領域情報は、通常、画像中の画素の位置である座標を示す座標情報である。また、文字領域情報は、通常、当該1または2または3以上の座標情報を有する。1つの座標情報を有する場合、文字領域情報は、画像の左上端の座標「(x,y)=(0,0)」から、当該座標情報が示す座標までの矩形領域を示す。また、2つの座標情報を有する場合、文字領域情報は、当該2つの各座標情報の一方が示す座標から、もう一方の座標情報が示す座標までの矩形領域を示す。また、3以上の座標情報を有する場合、文字領域情報は、当該3以上の各座標情報が示す座標により示される多角形の領域を示す。なお、文字領域情報は、チャンネル識別子と対応付けられていることが好適である。
文字変化周期情報格納手段152には、連続する2以上の受信画像中の文字の変化の周期を示す1以上の文字変化周期情報が格納される。ここでの周期とは、文字の変化に必要なフレーム数(受信画像の数)や、文字の変化に必要な時間などである。文字変化周期情報は、通常、後述の文字認識部15が、2以上の受信画像から文字認識の対象となる受信画像を選択するためや、2以上の受信画像から取得した2以上の文字列を統合するため、2以上の受信画像から取得した2以上の文字列から一の文字列を選択するためなどに使用する。文字変化周期情報は、例えば、文字スクロール周期情報や、文字点滅周期情報、文字出現周期情報などである。
文字スクロール周期情報とは、連続する2以上の受信画像中の文字列が、当該連続する2以上の受信画像によりスクロールする周期を示す情報である。文字スクロール周期情報は、例えば、(1)1文字分移動するのに必要なフレーム数や、(2)1文字分移動するのに必要な時間、(3)1文字の大きさ(ピクセル数)、(4)1フレームあたりに文字が移動するピクセル数などである。(1)は、例えば、「5フレーム/文字」や、「1文字|30フレーム」などである。また、(2)は、例えば、「1秒/文字」や、「1文字|0.5秒」などである。また、(3)は、例えば、「12px/文字」や、「1文字|20px」などである。また、(4)は、「10px/フレーム」や、「1フレーム|12px移動」などである。なお、(3)は、連続する2つの文字の左端から左端までの間隔や、連続する2つの文字の右端から右端までの間隔、1文字分移動するのに必要なピクセル数などと言い換えることもできる。
また、文字点滅周期情報とは、連続する2以上の受信画像中の文字列が、当該連続する2以上の受信画像により点滅する周期を示す情報である。文字点滅周期情報は、例えば、(1)文字が出現している間のフレーム数や、(2)文字が出現していない間のフレーム数、(3)1回の点滅に必要なフレーム数、(4)文字が出現している間の時間、(5)文字が出現していない間の時間、(6)1回の点滅に必要な時間などである。(1)は、例えば、「10フレーム/出現」や、「出現|20フレーム」などである。また、(2)は、例えば、「20フレーム/未出現」や、「未出現|30フレーム」などである。また、(3)は、例えば、「40フレーム/点滅」や、「点滅|50フレーム」などである。また、(4)は、例えば、「0.5秒/出現」や、「出現|0.5秒」などである。また、(5)は、例えば、「0.3秒/未出現」や、「未出現|0.3秒」などである。また、(6)は、例えば、「0.8秒/点滅」や、「点滅|0.8秒」などである。
また、文字出現周期情報とは、連続する2以上の受信画像中に、当該連続する2以上の受信画像により単位文字ずつ文字が出現する周期を示す情報である。当該単位文字数とは、予め決められた文字数であり、例えば、「1文字」や「2文字ずつ」などである。文字出現周期情報は、例えば、(1)単位文字が出現する際に必要なフレーム数や、(2)次の単位文字が出現するまでのフレーム数(間隔)、(3)単位文字が出現する際に必要な時間、(4)次の単位文字が出現するまでの時間(間隔)などである。(1)は、例えば、「1フレーム/単位文字」や、「単位文字|10フレーム」などである。また、(2)は、例えば、「2フレーム/間隔」や、「出現間隔|20フレーム」などである。また、(3)は、例えば、「0.5秒/単位文字」や、「単位文字|1秒」などである。また、(4)は、例えば、「0.2秒/間隔」や、「出現間隔|0.5秒」などである。
また、文字変化周期情報格納手段152には、例えば、音声検知部14による検知音声の検知後、受信画像中に文字が出現している間のフレーム数や、受信画像中に文字が出現している間の時間などを示す文字出現情報が格納されていてもよい。また、当該文字出現情報は、前述の終了条件であってもよい。
なお、文字変化周期情報、および文字出現情報は、チャンネル識別子と対応付けられていることが好適である。
文字認識用語格納手段153には、受信画像中の文字を認識するための用語である1以上の文字認識用語が格納される。文字認識用語とは、例えば、気象速報や、地震速報、ニュース速報などの内容やタイトルを示す文字として、頻出すると思われる用語などである。文字認識用語は、例えば、「速報」、「緊急」、「地震」、「震度」、「警報」、「注意報」、「大雨」、「洪水」、地名などである。
文字領域検出手段154は、文字領域情報格納手段151に格納されている1以上の文字領域情報を取得し、当該文字領域情報で示される領域である文字領域を、受信画像から検出する。当該「検出」とは、通常、受信画像から、当該文字領域部分の画像を切り出すことである。なお、当該「検出」は、例えば、受信画像に対して、当該文字領域の境界となる画素の色を変更したり、当該文字領域以外の領域を一色に変更し、文字領域と区別できるようにしたりなど、受信画像における文字領域を明示するための処理を施すことであってもよい。
例えば、文字領域情報が1つの座標情報を有する場合、文字領域検出手段154は、受信画像の左上端の座標「(x,y)=(0,0)」から、当該座標情報が示す座標までの矩形領域を、文字領域として検出する。また、例えば、文字領域情報が2つの座標情報を有する場合、文字領域検出手段154は、受信画像における当該2つの各座標情報の一方が示す座標から、もう一方の座標情報が示す座標までの矩形領域を、文字領域として検出する。また、例えば、文字領域情報が3つの座標情報を有する場合、文字領域検出手段154は、受信画像における当該3以上の各座標情報が示す座標により示される多角形の領域を、文字領域として検出する。
また、文字領域検出手段154は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付けられている文字領域情報を、文字領域情報格納手段151から取得し、当該文字領域情報で示される文字領域を検出することが好適である。
文字認識手段155は、通常、音声検知部14による検知音声の検知後に、1以上の受信画像に対して文字認識を行い、1以上の文字列を取得する。つまり、文字認識手段155は、例えば、1つの受信画像に対して文字認識を行い、当該受信画像から一の文字列を取得してもよいし、2以上の各受信画像に対して文字認識を行い、当該各受信画像から一の文字列を取得し、2以上の文字列を取得してもよい。
なお、文字認識手段155は、通常、文字認識の際に、取得した1以上の各文字列、または当該各文字列が有する1以上の文字に対して、前述のスコアを算出する。当該スコアの算出には、通常、予め用意した文字、およびその特徴量を使用するが、例えば、文字認識用語格納手段153に格納されている文字認識用語を使用してもよい。当該スコアの算出時のこれらの文字、特徴量、文字認識用語の使用の方法や手順などは、公知であるので、詳細な説明を省略する。
また、文字認識手段155は、例えば、文字領域検出手段154が検出した文字領域に対して文字認識を行い、1以上の文字列を取得してもよい。
また、文字認識手段155は、例えば、1以上の文字列の取得の際に、文字認識用語格納手段153に格納されている1以上の文字認識用語を使用してもよい。この場合、文字認識手段155は、例えば、1以上の各受信画像から一の文字列を一時的に取得し、当該一の文字列において、1以上のいずれかの文字認識用語に合致する文字列を取得する。また、この場合、文字認識手段155は、例えば、1以上の各受信画像から一の文字列を一時的に取得し、当該一の文字列のうち、1以上のいずれかの文字認識用語を含む文字列のみを取得してもよい。
例えば、文字認識手段155が一時的に取得した一の文字列が「関東地方で地震が発生しました」であり、文字認識用語が「地震」である場合、文字認識手段155は、当該文字認識用語に合致する文字列「地震」を取得する。また、例えば、文字認識手段155が一時的に取得した2つの文字列が「大阪府南部に大雨洪水警報が発令されました」と、「大阪府議会選挙 A氏が当選確実」であり、文字認識用語が「警報」である場合、文字認識手段155は、当該文字認識用語を含む「大阪府南部に大雨洪水警報」を取得する。
また、文字認識手段155は、例えば、1以上の各受信画像から一時的に取得した一の文字列が有する1以上の文字列について、(1)前述のスコアが低い、(2)1以上のいずれかの文字認識用語との類似度が高い、のいずれの条件も満たす場合に、当該いずれの条件も満たす文字列または文字と、(2)の条件における類似度が高い文字認識用語とを置換し、当該置換後の文字列を取得してもよい。なお、(1)におけるスコアが低いか否かの判断の基準と、(2)の条件における類似度が高いか否かの判断の基準は問わない。
例えば、文字認識手段155が一時的に取得した一の文字列が「地雲」であり、当該文字列のスコアが、100点満点中の80点であったとする。また、当該文字列と、文字認識用語「地震」との類似度が100%中の95%であったとする。すると、文字認識手段155は、一時的に取得した一の文字列に換えて文字認識用語「地震」を、一の文字列として取得する。また、例えば、文字認識手段155が一時的に取得した一の文字列が「大雨洪氷警報」であり、当該文字列のうちの文字列「洪氷」のスコアが、100点満点中の70点であったとする。また、当該文字列「洪氷」と、文字認識用語「洪水」との類似度が100%中の90%であったとする。すると、文字認識手段155は、一時的に取得した一の文字列中の文字列を文字認識用語に置換し、置換後の文字列「大雨洪水警報」を、一の文字列として取得する。
また、文字認識手段155は、例えば、文字変化周期情報格納手段152に格納されている1以上の文字変化周期情報に従い、1以上の受信画像から1以上の文字列を取得してもよい。この場合、文字認識手段155は、通常、2以上の受信画像から1または2以上の文字列を取得する。
一の文字列を取得する場合、文字認識手段155は、例えば、以下のいずれかの手順にて、一の文字列を取得する。
(A)文字認識の対象となる受信画像を選択する場合
(1)文字変化周期情報に従い、2以上の受信画像から、文字認識の対象となる一の受信画像を選択する。
(2)(1)で選択した一の受信画像に対して文字認識を行い、当該一の受信画像から一の文字列を取得する。
(B)文字認識の対象となる受信画像を選択しない場合
(1)文字変化周期情報に従い、2以上の受信画像から、一の画像を生成する。
(2)(1)で生成した一の画像に対して文字認識を行い、当該一の画像から一の文字列を取得する。
なお、(B)の(1)における「画像の生成」とは、例えば、2以上の画像を合成したり、2以上の画像を重ね合わせたり、2以上の画像の一部を結合したりすることなどである。
また、2以上の文字列を取得する場合、文字認識手段155は、例えば、以下のいずれかの手順にて、2以上の文字列を取得する。
(C)文字認識の対象となる受信画像を選択する場合
(1)文字変化周期情報に従い、2以上の受信画像から、文字認識の対象となる2以上の受信画像を選択する。
(2)(1)で選択した2以上の各受信画像に対して文字認識を行い、当該2以上の各受信画像から一の文字列を取得する。
(D)文字認識の対象となる受信画像を選択しない場合
(1)2以上の各受信画像に対して文字認識を行い、当該2以上の各受信画像から一の文字列を取得する。
(2)(1)での処理の結果、取得した2以上の文字列から、文字変化周期情報に従い、2以上の文字列を取得する。
なお、当該文字変化周期情報が示す周期が時間である場合、文字認識手段155は、通常、当該時間からフレーム数を算出する。そして、文字認識手段155は、当該フレーム数に従い、2以上の受信画像から文字列を取得する。例えば、文字変化周期情報が「5秒」であり、1秒あたりのフレーム数(フレームレート)が「30フレーム/秒」である場合、「5秒×30フレーム/秒=150フレーム」を算出する。なお、文字認識手段155は、通常、当該フレームレートを保持している。
また、文字変化周期情報を使用する場合、文字認識手段155は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報を、文字変化周期情報格納手段152から取得することが好適である。
例えば、文字変化周期情報が文字スクロール周期情報である場合、文字認識手段155は、当該文字スクロール周期情報が示す文字のスクロールの周期に従い、上記(A)から(D)のいずれかの手順にて、1以上の文字列を取得する。
例えば、文字スクロール周期情報が、1フレームあたりに文字が移動するピクセル数を示す場合、文字認識手段155は、2以上の各受信画像を、当該ピクセル数ずつずらしながら合成し、一の画像を生成する。そして、文字認識手段155は、当該生成した一の画像に対して文字認識を行い、一の文字列を取得する。
例えば、文字スクロール周期情報が、1フレームあたりに文字が20ピクセル移動することを示す「20ピクセル/フレーム」である場合、文字認識手段155は、1フレーム目からNフレーム目までの2以上の各受信画像について、1つ前のフレームの画像に対して右方向に20ピクセルずらした状態で重ね合せ、一の画像を生成する。そして、文字認識手段155は、当該生成した一の画像に対して文字認識を行い、一の文字列を取得する。
また、例えば、文字スクロール周期情報が、1文字分移動するのに必要なフレーム数や時間を示す場合、文字認識手段155は、当該フレーム数または当該時間から算出したフレーム数に従い、当該フレーム数ごとに受信画像に対して文字認識を行い、各受信画像から一の文字列を取得し、2以上の文字列を取得する。また、この場合、文字認識手段155は、2以上の各受信画像から一の文字列を取得し、2以上の文字列を取得し、当該2以上の文字列から、当該フレーム数ごとに文字列を取得し、2以上の文字列を取得してもよい。
例えば、文字スクロール周期情報が、1文字分移動するのに0.2秒必要であることを示す「0.2秒/文字」である場合、文字認識手段155は、当該情報から、1文字分移動するのに必要なフレーム数を示す「0.2秒/文字×30フレーム/秒=6フレーム/文字」を算出する。そして、文字認識手段155は、1フレーム目から6フレームごとの各受信画像に対して文字認識を行い、各受信画像から一の文字列を取得する。
また、例えば、文字変化周期情報が文字点滅周期情報である場合、文字認識手段155は、当該文字点滅周期情報が示す文字の点滅の周期に従い、上記(A)から(D)のいずれかの手順にて、1以上の文字列を取得する。
例えば、文字点滅周期情報が、文字が出現している間のフレーム数を示す場合、文字認識手段155は、当該フレーム数で示される2以上の受信画像のうちのいずれか1つの受信画像に対して文字認識を行い、一の文字列を取得する。
例えば、文字点滅周期情報が、30フレームの間、文字が出現していることを示す「30フレーム/出現」である場合、文字認識手段155は、1フレーム目から30フレーム目までの2以上の画像のうち、中間である15フレーム目の受信画像を選択し、当該受信画像に対して文字認識を行い、一の文字列を取得する。
また、例えば、文字点滅周期情報が、文字の1回の点滅に必要なフレーム数や時間を示す場合、文字認識手段155は、当該フレーム数または当該時間から算出したフレーム数に従い、当該フレーム数分の受信画像に対して文字認識を行い、各受信画像から一の文字列を取得し、2以上の文字列を取得する。
例えば、文字点滅周期情報が、文字の1回の点滅に2秒必要であることを示す「2秒/点滅」である場合、文字認識手段155は、当該情報から、1回の点滅に必要なフレーム数を示す「2秒/点滅×30フレーム/秒=60フレーム/点滅」を算出する。そして、文字認識手段155は、1フレーム目から60フレーム目までの各受信画像に対して文字認識を行い、各受信画像から一の文字列を取得する。
また、例えば、文字変化周期情報が文字出現周期情報である場合、文字認識手段155は、当該文字出現周期情報が示す文字の出現の周期に従い、上記(A)から(D)のいずれかの手順にて、1以上の文字列を取得する。
例えば、文字出現周期情報が、次の単位文字が出現するまでのフレーム数や時間を示す場合、文字認識手段155は、当該フレーム数または当該時間から算出したフレーム数に従い、当該フレーム数ごとに2以上の受信画像を取得し、当該2以上の受信画像を合成し、一の画像を生成する。そして、文字認識手段155は、当該生成した一の画像に対して文字認識を行い、一の文字列を取得する。
例えば、文字出現手記情報が、次の1文字が出現するまで6フレーム必要であることを示す「6フレーム/文字」である場合、文字認識手段155は、1フレーム目から6フレームごとの受信画像を取得し、当該取得した2以上の受信画像を合成し、一の画像を生成する。そして、文字認識手段155は、当該生成した一の画像に対して文字認識を行い、一の文字列を取得する。
また、例えば、文字出現周期情報が、単位文字が出現する際に必要なフレーム数や時間を示す場合、文字認識手段155は、当該フレーム数または当該時間から算出したフレーム数に従い、当該フレーム数ごとの受信画像に対して文字認識を行い、各受信画像から一の文字列を取得し、2以上の文字列を取得する。
例えば、文字出現周期情報が、1文字が出現する際に必要な時間を示す「0.3秒/文字」である場合、文字認識手段155は、当該情報から、1文字が出現する際に必要なフレーム数を示す「0.3秒/文字×30フレーム/秒=9フレーム/文字」を算出する。そして、文字認識手段155は、9フレーム目から9フレームごとのかく受信画像に対して文字認識を行い、各受信画像から一の文字列を取得する。
また、文字変化周期情報を用いて1以上の受信画像から文字認識の対象となる受信画像を取得する場合、文字認識手段155は、当該取得した1以上の各受信画像に対して、当該受信画像に出現しているすべての文字を取得してもよいし、当該文字の変化により新たに出現した文字のみを取得してもよい。例えば、取得した1フレーム目の受信画像に「あした」が出現しており、取得した2フレーム目の受信画像に「あしたは」が出現している場合、文字認識手段155は、1フレーム目の受信画像からは、文字列「あした」を取得する。また、この場合、文字認識手段155は、2フレーム目の画像からは、文字列「あしたは」を取得してもよいし、文字「は」を取得してもよい。
また、文字認識手段155は、例えば、文字変化周期情報格納手段152に格納されている1以上の文字出現情報を用いて、1以上の受信画像から文字認識の対象となる受信画像を取得してもよい。この場合、取得した受信画像に対する文字認識等の手順は、文字変化周期情報を用いる場合と同様である。例えば、当該文字出現情報が示すフレーム数、または時間から算出したフレーム数が「30フレーム」である場合、文字認識手段155は、検知音声の検知後、30フレーム分の受信画像を取得する。
なお、文字出現情報を使用する場合、文字認識手段155は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字出現情報を、文字変化周期情報格納手段152から取得することが好適である。
認識文字取得手段156は、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得する。つまり、認識文字取得手段156は、文字認識手段155が2以上の各受信画像に対して文字認識を行い、当該各受信画像から一の文字列を取得し、2以上の文字列を取得した場合に、当該2以上の文字列を用いて一の文字列を取得する。なお、「2以上の文字列を用いて一の文字列を取得する」とは、通常、2以上の文字列を合成し、一の文字列を取得することである。また、「合成する」とは、連結することや結合することなどを含み、広く解する。
例えば、連続する2以上の受信画像中の文字が変化しない場合、認識文字取得手段156は、文字認識手段155が取得した2以上の各文字列が有する1以上の各文字について、当該各文字列の同一の位置にある文字のうち、前述のスコアが最高である文字を取得する。そして、認識文字取得手段156は、当該取得した1以上の文字を連結し、一の文字を取得する。
例えば、文字認識手段155が2つの文字列「大坂府:大雨洪水警報」と、「大阪府:犬雨洪氷警報」とを取得したとする。そして、それぞれの各文字列が有する各文字のスコアが、「100%,80%,100%,100%,100%,100%,100%,100%,100%,100%」、「100%,100%,100%,100%,100%,65%,100%,85%,100%,100%」であったとする。すると、認識文字取得手段156は、1文字目について、2つの文字ともスコアが「100%」であるので、1つ目の文字列から1文字目「大」を取得する。また、同様に、認識文字取得手段156は、2文字目について、スコアが「100%」である2つ目の文字列の2文字目「阪」を取得する。また、同様に、例えば、5文字目について、認識文字取得手段156は、スコアが「100%」である1つ目の文字列の5文字目「大」を取得する。認識文字取得手段156は、このようにして順に文字を取得する。そして、認識文字取得手段156は、当該取得した文字を順に連結し、文字列「大阪府:大雨洪水警報」を取得する。
また、例えば、連続する2以上の受信画像中の文字が変化する場合、認識文字取得手段156は、通常、文字変化周期情報格納手段152に格納されている文字変化周期情報を取得し、当該文字変化周期情報で示される周期に従い、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得する。
例えば、文字変化周期情報が文字スクロール周期情報である場合、認識文字取得手段156は、文字変化周期情報格納手段152に格納されている文字スクロール周期情報を取得し、当該文字スクロール周期情報で示される周期に従い、文字認識手段155が2以上の文字列を用いて一の文字列を取得する。
例えば、文字認識手段155が、1フレーム目から5フレーム目までのそれぞれの受信画像から、「あ」、「あし」、「あした」、「した」、「た」の文字列または文字を取得したとする。この場合、認識文字取得手段156は、まず、文字スクロール周期情報に従い、各文字列中の文字が、取得する一の文字列の何番目の文字であるのか(文字列における文字の位置)を決定する。例えば、文字スクロール周期情報が「1文字/フレーム」である場合、認識文字取得手段156は、文字認識手段155が各画像から新たに取得した文字に対して、既に文字位置を付与した文字を除き、順番に文字位置を付与する。認識文字取得手段156は、例えば、文字認識手段155が1フレーム目の画像から取得した「あ」に対して、1文字目であることを示す「1」を付与する。また、認識文字取得手段156は、文字認識手段155が2フレーム目の画像から取得した「あし」のうち、文字位置を付与していない「い」に対して、2文字目であることを示す「2」を付与する。なお、このとき、認識文字取得手段156は、既に文字位置を付与した「あ」に対して、再度、1文字目であることを示す「1」を付与してもよい。また、認識文字取得手段156は、文字認識手段155が3フレーム目の画像から取得した「あした」のうち、文字位置を付与していない「た」に対して、3文字目であることを示す「3」を付与する。
次に、認識文字取得手段156は、各位置の文字のうち、スコア最高である文字を取得する。例えば、文字認識手段155が1文字目として取得した文字が「あ」、「お」、「あ」であり、当該各文字のスコアが「100%」、「70%」、「90%」である場合、スコアが最高の「100%」である文字「あ」を取得する。このようにして認識文字取得手段156は、文字認識手段155が各画像から取得した文字列または文字から、新たに「あ」、「し」、「た」を取得する。なお、当該各位置の文字の取得において、認識文字取得手段156は、各位置の文字から多数決的に取得する文字を決定し、取得してもよい。例えば、文字認識手段155が2文字目として取得した文字が「し」、「り」、「し」の3つである場合、当該3つの文字のうち最多の文字である「し」を取得する。
最後に、認識文字取得手段156は、取得した各位置の文字を連結し、一の文字列「あした」を取得する。
また、例えば、当該文字変化周期情報が文字点滅周期情報である場合、認識文字取得手段156は、文字変化周期情報格納手段152に格納されている文字点滅周期情報を取得し、当該文字点滅周期情報で示される周期に従い、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得する。
例えば、文字認識手段155が、1フレーム目、3フレーム目、5フレーム目のそれぞれの受信画像から、「注意報」、「柱意報」、「注意報」の文字列を取得し、2フレーム目、4フレーム目の受信画像からは文字列または文字を取得しなかったとする。この場合、認識文字取得手段156は、まず、文字点滅周期情報に従い、文字認識手段155が取得した文字列を取得する。例えば、文字点滅周期情報が「2フレーム/点滅」である場合、1フレームごとに文字の出現と非出現が繰り返されるので、認識文字取得手段156は、文字認識手段155が1フレーム目、3フレーム目、5フレーム目の受信画像から取得した文字列「注意報」、「柱意報」、「注意報」を取得する。
次に、認識文字取得手段156は、取得した各文字列が有する各位置の文字うち、スコア最高である文字を取得する。例えば、2文字目として取得した文字「注」、「柱」、「注」の各スコアが「100%」、「70%」、「90%」である場合、認識文字取得手段156は、スコアが最高の「100%」である文字「注」を取得する。このようにして認識文字取得手段156は、取得した各文字列が有する各位置の文字列から、新たに「注」、「意」、「報」を取得する。なお、当該各位置の文字の取得において、認識文字取得手段156は、各位置の文字から多数決的に取得する文字を決定し、取得してもよい。当該処理は前述したので、説明を省略する。
最後に、認識文字取得手段156は、取得した各位置の文字を連結し、一の文字列「注意報」を取得する。
また、例えば、当該文字変化周期情報が文字出現周期情報である場合、認識文字取得手段156は、文字変化周期情報格納手段152に格納されている文字出現周期情報を取得し、当該文字出現周期情報で示される周期に従い、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得する。
例えば、文字認識手段155が1フレーム目から8フレーム目までのぞれぞれの受信画像から、「洪」、「洪」、「洪水」、「洪水」、「供水警」、「洪水警」、「洪氷警報」、「洪水警報」の文字列または文字を取得したとする。この場合、認識文字取得手段156は、まず、文字出現周期情報に従い、文字認識手段155が取得した文字列を取得する。例えば、文字出現周期情報が「1フレーム/間隔」である場合、1フレームの間隔を開けて新たな文字が出現するので、認識文字取得手段156は、文字認識手段155が取得した1フレーム目、3フレーム目、5フレーム目、7フレーム目の各画像から取得した文字列または文字「洪」、「洪水」、「供水警」、「洪氷警報」を取得する。
次に、認識文字取得手段156は、各文字列中の文字に対して、文字位置を付与する。認識文字取得手段156は、例えば、取得した1つ目の文字「洪」に対して、1文字目であることを示す「1」を付与する。また、認識文字取得手段156は、取得した2つ目の文字列「洪水」のうち、「洪」に対して、1文字目であることを示す「1」を付与し、「水」に対して、2文字目であることを示す「2」を付与する。以降、認識文字取得手段156は、取得した3つ目、4つ目の文字列中の文字に対しても、同様に文字位置を付与する。
次に、認識文字取得手段156は、取得した各文字列が有する各位置の文字うち、スコア最高である文字を取得する。例えば、2文字目として取得した文字「水」、「水」、「氷」の各スコアが「100%」、「90%」、「70%」である場合、認識文字取得手段156は、スコアが最高の「100%」である文字「水」を取得する。このようにして認識文字取得手段156は、取得した各文字列が有する各位置の文字列から、新たに「洪」、「水」、「警」、「報」を取得する。なお、当該各位置の文字の取得において、認識文字取得手段156は、各位置の文字から多数決的に取得する文字を決定し、取得してもよい。当該処理は前述したので、説明を省略する。
最後に、認識文字取得手段156は、取得した各位置の文字を連結し、一の文字列「洪水警報」を取得する。
以上のように、認識文字取得手段156が、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得することで、例えば、受信画像の背景色と、当該画像に出現する文字列の色が同色であり、一の受信画像から当該文字列を取得することができない場合でも、他の受信画像から当該文字列を取得することで、2以上の受信画像から一の文字列を取得することができる。
なお、文字認識手段155において、各受信画像から文字領域の画像のみを切り出し、当該画像を取得し、認識文字取得手段156において、当該切り出した画像を、文字変化周期情報に従い重ね合せ、一の画像を生成し、当該画像に対して文字認識を行い、一の文字列を取得してもよい。
また、認識文字取得手段156は、通常、文字認識手段155が文字認識時に用いた文字変化周期情報で示される周期に従い、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得する。
また、認識文字取得手段156は、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得する際に、当該2以上の文字列のうち、文字認識用語格納手段153に格納されている1以上の文字認識用語を有する2以上の文字列を用いて、一の文字列を取得してもよい。
出力部16は、取得文字列を出力する。当該出力は、通常、スピーカーへの出力(音出力)であるが、例えば、外部の装置への送信や、他の処理装置やプログラムなどへの処理結果の引き渡しなどであってもよい。送信や蓄積、処理結果の引き渡しについては、出力対象が最終的にユーザに提示されるものとする。また、当該出力の際、出力部16は、通常、取得文字列を音声合成により音声に変換し、文字列音声を取得し、当該文字列音声を出力する。なお、音声合成は、公知の技術であるので、詳細な説明を省略する。また、出力部16は、取得文字列を音声に変換せずに出力してもよい。
また、出力部16は、例えば、前述のスコアが、予め決められた条件である出力条件を満たすほど高いスコアである場合にのみ、取得文字列を出力してもよい。当該出力条件は、通常、前述のスコアを有する。出力条件は、例えば、(1)「精度≧80%」や、(2)「平均類似度≧90%」、(3)「正確性≧85%」、(4)「一致率≧80%」などである。(1)は、文字認識部15が、取得文字列の認識精度として算出したスコアが80%以上であることを示す。また、(2)は、文字認識部15が、取得文字列が有する各文字の類似度として算出したスコアの平均が90%以上であることを示す。また、(3)は、文字認識部15が、取得文字列の正確性として算出したスコアが85%以上であることを示す。また、(4)は、取得文字列が有する1以上の文字のうち、精度や類似度等のスコアが100%である文字の割合(一致率)が80%以上であることを示す。
また、文字列音声を出力する場合、出力部16は、通常、文字列音声の音量を、受信音声の音量よりも大きい音量で出力する。この場合、出力部16は、通常、受信音声の音量を文字列音声の音量よりも小さくし、文字列音声を出力する。当該「小さくする」ことは、音量をOFFにすることや、音量を0にすること、消音にすることなどを含む。また、出力部16は、文字列音声の音量を受信音声の音量よりも大きくし、文字列音声を出力してもよい。
また、出力部16は、通常、映像情報格納部11に格納されている映像情報を出力する。当該出力は、通常、いわゆる画面への表示である。また、出力部16は、通常、映像情報格納部11に格納されている映像情報のうち、最新の映像情報を取得し、出力する。
出力部16は、スピーカーなどの出力デバイスを含むと考えてもよいし、含まないと考えてもよい。出力部16は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。
なお、映像情報格納部11、音声検知情報格納部12、文字領域情報格納手段151、文字変化周期情報格納手段152、文字認識用語格納手段153は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
また、音声検知部14、文字領域検出手段154、文字認識手段155、認識文字取得手段156は、通常、MPUやメモリ等から実現され得る。音声検知部14等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。
次に、テレビジョン装置1の動作について説明する。なお、所定の情報におけるi番目の情報は、「情報[i]」と記載するものとする。図2は、テレビジョン装置1の全体動作を示すフローチャートである。
(ステップS201)受信部13は、映像情報を受信したか否かを判断する。受信した場合は、ステップS202に進み、そうでない場合は、ステップS201に戻る。
(ステップS202)受信部13は、ステップS201で受信した映像情報を、映像情報格納部11に蓄積する。
(ステップS203)出力部16は、ステップS202で蓄積した映像情報を出力する。
(ステップS204)音声検知部14は、音声検知情報が未取得であるか否かを判断する。未取得である場合は、ステップS205に進み、そうでない場合は、ステップS206に進む。
(ステップS205)音声検知部14は、受信映像に対応付いているチャネル識別子と同一のチャンネル識別子に対応付いている音声検知情報を、音声検知情報格納部12から取得する。
(ステップS206)音声検知部14は、音声検知情報に合致する音声情報を検知したか否かを判断する。検知した場合は、ステップS207に進み、そうでない場合は、ステップS209に進む。
(ステップS207)文字認識部15は、開始条件を満たすか否かを判断する。満たす場合は、ステップS208に進み、そうでない場合は、ステップ209に進む。
(ステップS208)文字認識部15は、文字認識中フラグをON(例えば、「1」)にする。
(ステップS209)文字認識部15は、文字認識中フラグがONであるか否かを判断する。ONである場合は、ステップS210に進み、そうでない場合は、ステップS201に戻る。
(ステップS210)文字認識部15は、受信画像から一の文字列を取得する。この処理の詳細は、図3のフローチャートを用いて説明する。なお、文字認識部15は、通常、取得した一の文字列を、取得した順に、任意の記憶領域に蓄積する。
(ステップS211)文字認識部15は、終了条件を満たすか否かを判断する。満たす場合は、ステップS212に進み、そうでない場合は、ステップS201に戻る。
(ステップS212)文字認識部15は、文字認識中フラグをOFF(例えば、「0」)にする。
(ステップS213)文字認識部15は、受信画像から取得した文字列が2以上であるか否かを判断する。2以上である場合は、ステップS214に進み、そうでない場合は、ステップS215に進む。
(ステップS214)文字認識部15は、取得した2以上の文字列を用いて、一の文字列を取得する。この処理の詳細は、図4のフローチャートを用いて説明する。
(ステップS215)出力部16は、文字認識部15が取得した一の文字列のスコアが、出力条件を満たすか否かを判断する。満たす場合は、ステップS216に進み、そうでない場合は、ステップS201に戻る。
(ステップS216)出力部16は、受信音声の音量を制御する。例えば、出力部16は、当該音量を0にする。
(ステップS217)出力部16は、文字認識部15が取得した一の文字列を音声合成により音声に変換し、文字列音声を取得し、当該文字列音声を出力する。
(ステップS218)出力部16は、受信音声の音量を制御する。例えば、出力部16は、当該音量を、ステップS216での制御前の音量(元の音量)に戻す。そして、ステップS201に戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理を終了してもよい。
図3は、図2のフローチャートのステップS211の受信画像からの一の文字列の取得処理を示すフローチャートである。
(ステップS301)文字領域検出手段154は、受信画像に対応付いているチャネル識別子と同一のチャンネル識別子に対応付いている文字領域検出情報を、文字領域検出情報格納手段151から取得する。
(ステップS302)文字認識手段155は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報が、文字変化周期情報格納手段152から取得可能であるか否かを判断する。取得可能である場合は、ステップS303に進み、そうでない場合は、ステップS307に進む。
(ステップS303)文字認識手段155は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報を、文字変化周期情報格納手段152から取得する。
(ステップS304)文字認識手段155は、受信画像が、ステップS303で取得した文字変化周期情報が示す周期に合致するか否かを判断する。合致する場合は、ステップS305に進み、そうでない場合は、上位処理にリターンする。
(ステップS305)文字認識手段155は、ステップS301で取得した文字領域情報で示される文字領域を、受信画像から検出する。
(ステップS306)文字認識手段155は、ステップS305で検出した文字領域に対して文字認識を行い、一の文字列を取得する。そして、上位処理にリターンする。
なお、図3のフローチャートにおいて、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報が、文字変化周期情報格納手段152から取得可能であるか否かの判断は行わなくてもよい。この場合、文字認識手段155は、文字変化周期情報を取得しない。また、この場合、文字認識手段155は、受信画像が、文字変化周期情報が示す周期に合致するか否かの判断は行わない。
図4は、図2のフローチャートのステップS215の2以上の文字列を用いた一の文字列の取得処理を示すフローチャートである。
(ステップS401)認識文字取得手段156は、文字認識手段155が取得した2以上の文字列を取得する。ここで、m個の文字列が取得できたものとする。また、各文字列は、n個の文字を有するものとする。
(ステップS402)認識文字取得手段156は、カウンタjに1をセットする。
(ステップS403)認識文字取得手段156は、カウンタiに1をセットする。
(ステップS404)認識文字取得手段156は、変数maxに0をセットする。
(ステップS405)認識文字取得手段156は、i個目の文字列のj番目の文字である文字[i][j]のスコアが、maxより大きいか否かを判断する。大きい場合は、ステップS406に進み、そうでない場合は、ステップS408に進む。
(ステップS406)認識文字取得手段156は、maxに文字[i][j]のスコアをセットする。
(ステップS407)認識文字取得手段156は、変数indexにiをセットする。
(ステップS408)認識文字取得手段156は、iがmであるか否かを判断する。mである場合は、ステップS410に進み、そうでない場合は、ステップS409に進む。
(ステップS409)認識文字取得手段156は、iを1インクリメントし、ステップS405に戻る。
(ステップS410)認識文字取得手段156は、取得文字列に、既に取得した文字列と、文字[index][j]とを連結した文字列をセットする。
(ステップS411)認識文字取得手段156は、jがnであるか否かを判断する。nである場合は、上位処理にリターンし、そうでない場合は、ステップS412に進む。
(ステップS412)認識文字取得手段156は、jを1インクリメントし、ステップS403に戻る。
なお、図4のフローチャートにおいて、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報が、文字変化周期情報格納手段152から取得可能であるか否かの判断を行ってもよい。この場合、認識文字取得手段156は、取得可能である場合に、当該文字変化周期情報を取得する。また、この場合、認識文字取得手段156は、文字認識手段155が取得した2以上の文字列が有する文字の文字位置を、当該文字変化周期情報に従い決定する。
(具体例)
次に、テレビジョン装置1の動作の具体例について説明する。なお、本具体例において
テレビジョン装置1は、いわゆるテレビ(テレビ受像器)であるものとする。また、音声検知情報格納部12には、図5に示す音声検知情報が格納されているものとする。当該音声検知情報は、各レコードを一意に特定するためのID(項目名:ID)と、チャンネル識別子であるチャンネル番号(項目名:チャンネル)と、音声検知情報(項目名:検知音声)とを対応付けて有する。また、文字領域情報格納手段151には、図6に示す文字領域情報が格納されているものとする。当該文字領域情報は、各レコードを一意に特定するためのID(項目名:ID)と、チャンネル識別子であるチャンネル番号(項目名:チャンネル)と、受信画像中の文字領域である矩形領域を示す2つの座標(項目名、領域1、領域2)とを有する。また、文字変化周期情報格納手段152には、図7に示す文字変化周期情報が格納されているものとする。当該文字変化周期情報は、各レコードを一意に特定するためのID(項目名:ID)と、チャンネル識別子であるチャンネル番号(項目名:チャンネル)と、2以上の受信画像により文字が変化する内容を示す文字変化内容情報(項目名:文字変化)と、文字変化周期情報(項目名:周期)とを対応付けて有する。また、文字認識用語格納手段153には、図8に示す文字認識用語が格納されているものとする。当該文字認識用語は、各レコードを一意に特定するためのID(項目名:ID)と、文字認識用語(項目名:用語)とを対応付けて有する。また、文字認識部15は、1秒あたりのフレーム数「30フレーム/秒」を保持しているものとする。また、出力部16は、文字認識部15が取得した一の文字列の出力条件「スコア≧90%」を保持しているものとする。
(例1)
まず、ユーザが、テレビの電源をONにし、リモコンを操作し、6チャネルを表示したとする。すると、受信部13は、チャンネル番号「6」が対応付いている映像情報を受信し続ける。
次に、音声検知部14は、音声検知情報格納部12から、図5の音声検知情報のうち、チャンネル番号「6」を有する「ID=012」の音声検知情報「ピッピッピ」を取得する。
次に、音声検知部14は、取得した音声検知情報「ピッピッピ」に合致する受信音声を検知したとする。すると、文字認識部15は、当該検知後から、受信部13が受信している画像情報を取得する。ここで、文字変化周期情報格納手段152に格納されている文字出現情報が「150フレーム」であったとする。すると、文字認識部15は、当該検知後から、150フレーム分の受信画像を取得する。ここで、取得した2以上の受信画像中に文字列が出現し、かつ当該文字列が「震度4:大阪府大阪市」であるとする。また、当該文字が、当該2以上の受信画像によりスクロールしているとする。
次に、文字領域検出手段154は、文字領域情報格納手段151から、図6の文字領域情報のうち、チャンネル番号「6」を有する「ID=012」の文字領域情報を取得する。
次に、文字領域検出手段154は、取得した150フレーム分の各受信画像から、取得した文字領域情報が有する2つの座標が示す矩形領域「(10,10),(1960,340)」を検出する。
次に、文字認識手段155は、文字変化周期情報格納手段152から、図7の文字変化周期情報のうち、チャンネル番号「6」を有する「ID=012」の文字変化周期情報「5文字/秒」を取得する。また、文字認識手段155は、文字認識用語格納手段153に格納されている図8のすべての文字認識用語を取得する。
次に、文字認識手段155は、取得した文字変化周期情報である「5文字/秒」と、1秒あたりのフレーム数「30フレーム/秒」を用いて、スクロールにより1文字が出現するのに必要なフレーム数「6フレーム/文字」を算出する。
次に、文字認識手段155は、取得した150フレーム分の各受信画像のうち、6フレームごとに、当該受信画像から一の文字列を取得する。文字認識手段155は、例えば、1フレーム目の受信画像からは、文字「震」を取得する。また、文字認識手段155は、例えば、1フレーム目から6フレーム後の7フレーム目の受信画像からは、文字「震度」を取得する。このように文字認識手段155は、各受信画像から一の文字列を取得する。なお、このとき、文字認識手段155は、取得した1以上の文字認識用語のいずれかを含まない文字列は、取得しないものとする。つまり、上記「震」は、図8の文字認識用語のいずれも含まない。よって、文字認識手段155は、1フレーム目の受信画像から文字「震」を一時的には取得するが、文字認識用語を含むか否かの判断の結果、取得しない。
次に、認識文字取得手段156は、以上のようにして文字認識手段155が取得した2以上の文字列が有する各文字について、文字位置を付与し、各文字位置の文字のうち、文字認識手段155が文字列を取得した際に算出したスコアが最高である文字を取得する。そして、認識文字取得手段156は、当該取得した文字を連結し、一の文字列を取得する。その結果、認識文字取得手段156は、文字列「震度4:大阪府大阪市」を取得したものとする。また、このとき、認識文字取得手段156は、取得した文字列「震度4:大阪府大阪市」のスコア「95%」を算出していたものとする。
次に、出力部16は、文字認識部15が取得した文字列「震度4:大阪府大阪市」のスコア「95%」が、出力条件「スコア≧90%」を満たすと判断し、当該文字列「震度4:大阪府大阪市」を、音声合成により音声化し、当該音声を出力する。
(例2)
まず、ユーザが、テレビの電源をONにし、リモコンを操作し、4チャネルを表示したとする。すると、受信部13は、チャンネル番号「4」が対応付いている映像情報を受信し続ける。
次に、音声検知部14は、音声検知情報格納部12から、図5の音声検知情報のうち、チャンネル番号「4」を有する「ID=011」の音声検知情報「ピーピーピー」を取得する。以降、文字領域検出手段154等は、例1と同様に、チャンネル番号「4」を有する各種情報を取得するものとする。
次に、音声検知部14は、取得した音声検知情報「ピーピーピー」に合致する受信音声を検知したとする。すると、文字認識部15は、当該検知後から、受信部13が受信している画像情報を取得する。ここで、文字変化周期情報格納手段152に格納されている文字出現情報が「150フレーム」であったとする。すると、文字認識部15は、当該検知後から、150フレーム分の受信画像を取得する。ここで、取得した2以上の受信画像中に文字列が出現し、かつ当該文字列が「大阪府北大阪 大雨洪水警報」であるとする。また、当該文字が、当該2以上の受信画像により点滅しているとする。
次に、文字領域検出手段154は、取得した150フレーム分の各受信画像から、取得した図6の「ID=011」の文字領域情報が有する2つの座標が示す矩形領域「(20,20),(1940,360)」を検出する。
次に、文字認識手段155は、取得した150フレーム分の各受信画像のうち、取得した図7の「ID=011」の文字変化周期情報「20フレーム/点滅」に従い、文字が出現しているフレームごとに、当該受信画像から一の文字列を取得する。文字認識手段155は、例えば、1フレーム目から20フレーム目までの受信画像からは、文字列を取得する。また、文字認識手段155は、21フレーム目から40フレーム目までの受信画像からは、文字列を取得しない。このようにして、文字認識手段155は、各受信画像から一の文字列を取得する。なお、このとき、文字認識手段155は、例1と同様に、取得した1以上の文字認識用語のいずれかを含まない文字列は取得しない。また、このとき、文字認識手段155は、例1と同様に、各受信画像から取得した各文字列が有する各文字について、当該文字のスコアを算出する。
以降、認識文字取得手段156が、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得し、出力部16が、当該取得した一の文字列を出力するが、当該処理の手順などは、例1と同様であるので、説明を省略する。
(例3)
まず、ユーザが、テレビの電源をONにし、リモコンを操作し、8チャネルを表示したとする。すると、受信部13は、チャンネル番号「8」が対応付いている映像情報を受信し続ける。
次に、音声検知部14は、音声検知情報格納部12から、図5の音声検知情報のうち、チャンネル番号「8」を有する「ID=013」の音声検知情報「ピーピッピピー」を取得する。以降、文字領域検出手段154等は、例1と同様に、チャンネル番号「8」を有する各種情報を取得するものとする。
次に、音声検知部14は、取得した音声検知情報「ピーピッピピー」に合致する受信音声を検知したとする。すると、文字認識部15は、当該検知後から、受信部13が受信している画像情報を取得する。ここで、文字変化周期情報格納手段152に格納されている文字出現情報が「240フレーム」であったとする。すると、文字認識部15は、当該検知後から、240フレーム分の受信画像を取得する。ここで、取得した2以上の受信画像中に文字列が出現し、かつ当該文字列が「大阪府大阪市に暴風注意報が発令されました」であるとする。また、当該文字が、当該2以上の受信画像により1文字ずつ出現しているとする。
次に、文字領域検出手段154は、取得した240フレーム分の各受信画像から、取得した図6の「ID=013」の文字領域情報が有する2つの座標が示す矩形領域「(20,20),(1940,320)」を検出する。
次に、文字認識手段155は、取得した240フレーム分の各受信画像のうち、取得した図7の「ID=013」の文字変化周期情報「10フレーム/文字」に従い、文字が出現するフレームごとに、当該受信画像から一の文字列を取得する。例えば、文字認識手段155は、1フレーム目の受信画像からは、文字列を取得する。また、文字認識手段155は、2フレーム目から10フレーム目までの受信画像からは、文字列を取得しない。また、文字認識手段155は、11フレーム目の受信画像からは、文字列を取得する。また、文字認識手段155は、12フレーム目から20フレーム目までの受信画像からは、文字列を取得しない。このようにして、文字認識手段155は、各受信画像から一の文字列を取得する。なお、このとき、文字認識手段155は、例1と同様に、取得した1以上の文字認識用語のいずれかを含まない文字列は取得しない。また、このとき、文字認識手段155は、例1と同様に、各受信画像から取得した各文字列が有する各文字について、当該文字のスコアを算出する。
以降、認識文字取得手段156が、文字認識手段155が取得した2以上の文字列を用いて一の文字列を取得し、出力部16が、当該取得した一の文字列を出力するが、当該処理の手順などは、例1と同様であるので、説明を省略する。
以上、本実施の形態によるテレビジョン装置1によれば、映像中の文字を認識し、出力することができる。これにより、例えば、視覚障害者の方でも、ニュース速報や緊急速報などのテロップが示す内容を知ることができる。
また、本実施の形態によるテレビジョン装置1によれば、映像中の文字を、精度良く認識し、出力することができる。
また、本実施の形態によるテレビジョン装置1によれば、映像中の文字を認識し、緊急性や重要性があるか否かを判断し、緊急性や重要性があると判断した場合のみ、認識した文字を出力することができる。
なお、本実施の形態において、テレビジョン装置1は、図9のブロック図に示すテレビジョン装置2であってもよい。当該テレビジョン装置2は、画像と音声とを対応付けて有する1以上の映像情報と、文字列とが格納される映像情報格納部21と、前記映像情報と文字列とを受信し、前記映像情報格納部21に蓄積する受信部23と、前記映像情報と、前記文字列とを出力する出力部26とを備え、前記出力部26は、前記文字列を音声出力し、かつ当該音声を、前記映像情報が有する音声の音量よりも大きい音量で出力するテレビジョン装置2である。
なお、以下、テレビジョン装置2が備える各部について説明するが、テレビジョン装置1が備える各部と同名の部について、重複する説明を省略する。
映像情報格納部21には、映像情報と、文字列とが格納される。なお、当該映像情報は、画像と音声と文字列とを対応付けて有する情報であってもよい。また、当該映像情報は、画像と音声とが対応付いていればよく、文字列は対応付いていなくてもよい。
また、受信部23は、1以上または2以上の映像情報と、1以上の文字列とを受信する。また、受信部23は、通常、受信した映像情報と文字列とを、映像情報格納部21に蓄積する。
また、出力部26は、映像情報格納部21に格納されている映像情報を出力する。また、出力部26は、映像情報格納部21に格納されている文字列を出力する。文字列を出力する場合、出力部26は、通常、当該文字列を音声合成により音声に変換し、文字列音声を取得し、当該文字列音声を出力する。また、文字列音声を出力する場合、出力部26は、通常、受信音声の音量よりも大きい音量で、当該文字列音声を出力する。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されてもよいことは言うまでもない。
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよいし、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよいし、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
また、上記各実施の形態におけるテレビジョン装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、所定の音声を検知するための情報である1以上の音声検知情報が格納されており、コンピュータを、音声と画像とを対応付けて有する情報である1以上の映像情報を受信する受信部と、前記受信部が受信した映像情報が有する音声であり、前記音声検知情報に合致する音声を検知する音声検知部と、前記音声検知情報に合致する音声の検知後に、前記受信部が受信した1以上の映像情報が有する画像に対して文字認識を行い、一の文字列を取得する文字認識部と、前記文字認識部が取得した文字列を出力する出力部として機能させるためのプログラムである。
なお、上記プログラムにおいて、ハードウェアでしか行われない処理は少なくとも含まれない。
また、上記プログラムは、サーバなどからダウンロードされることによって実行されてもよいし、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。
また、上記プログラムを実行するコンピュータは、単数であってもよいし、複数であってもよい。つまり、集中処理を行ってもよいし、あるいは分散処理を行ってもよい。
また、図10は、前述のプログラムを実行して、前述の実施の形態のテレビジョン装置等を実現するコンピュータシステム9の概観図である。前述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。
図10において、コンピュータシステム9は、CD−ROM(Compact Disk Read Only Memory)ドライブ9011、FD(Flexible Disk)ドライブ9012を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
図11は、コンピュータシステム9のブロック図である。図11において、コンピュータ901は、CD−ROMドライブ9011、FDドライブ9012に加えて、CPU(Central Processing Unit)9013と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)9014と、CPU9013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)9015と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク9016と、CD−ROMドライブ9011、FDドライブ9012、CPU9013等を相互に接続するバス9017とを備える。ここでは図示しないが、コンピュータ901は、さらに、LANへの接続を提供するネットワークカードを備えていてもよい。
コンピュータシステム9に、前述の実施の形態のテレビジョン装置等の機能を実行させるプログラムは、CD−ROM9101、またはFD9102に記憶されて、CD−ROMドライブ9011またはFDドライブ9012に挿入され、さらにハードディスク9016に転送されてもよい。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク9016に記憶されてもよい。プログラムは実行の際にRAM9015にロードされる。プログラムは、CD−ROM9101、FD9102またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ901に、前述の実施の形態のテレビジョン装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいればよい。コンピュータシステム9がどのように動作するかは周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。