JP5774460B2

JP5774460B2 - テレビジョン装置、情報処理方法、およびプログラム

Info

Publication number: JP5774460B2
Application number: JP2011273303A
Authority: JP
Inventors: 雄三大嶋
Original assignee: ASTEM, INC.
Current assignee: ASTEM, INC.
Priority date: 2011-12-14
Filing date: 2011-12-14
Publication date: 2015-09-09
Anticipated expiration: 2031-12-14
Also published as: JP2013125391A

Description

本発明は、映像中の文字を認識し、出力するテレビジョン装置等に関するものである。

従来、映像を表示するテレビジョン装置等が開発されている（特許文献１参照）。

特開２０１０−１２４１９７号公報

しかしながら、従来のテレビジョン装置においては、ニュース速報や緊急速報などのテロップは、文字として表示されるため、例えば、視覚障害者の方には、当該テロップが示す内容を知ることができなかった。

本第一の発明のテレビジョン装置は、所定の音声を検知するための情報である１以上の音声検知情報が格納される音声検知情報格納部と、画像と音声とを対応付けて有する１以上の映像情報を受信する受信部と、受信部が受信した映像情報が有する音声であり、音声検知情報に合致する音声を検知する音声検知部と、音声検知情報に合致する音声の検知後に、受信部が受信した１以上の映像情報が有する画像に対して文字認識を行い、一の文字列を取得する文字認識部と、文字認識部が取得した文字列を出力する出力部とを具備するテレビジョン装置である。

このような構成により、画像中の文字を認識し、出力することができる。

また、本第二の発明のテレビジョン装置は、第一の発明に対して、文字認識部は、画像中の文字の領域を示す文字領域情報が格納される文字領域情報格納手段と、文字領域情報格納手段に格納されている文字領域情報を取得し、文字領域情報で示される領域である文字領域を、受信部が受付けた映像情報が有する画像から検出する文字領域検出手段と、文字領域検出手段が検出した文字領域に対して文字認識を行い、一の文字列を取得する文字認識手段とを具備するテレビジョン装置である。

このような構成により、予め決められた画像中の領域の文字を認識し、出力することができる。

また、本第三の発明のテレビジョン装置は、第一または第二の発明に対して、受信部は、２以上の映像情報を受信し、文字認識部は、音声検知情報に合致する音声の検知後に、受信部が受信した２以上の各映像情報が有する２以上の各画像に対して文字認識を行い、２以上の文字列を取得し、２以上の文字列を用いて一の文字列を取得するテレビジョン装置である。

このような構成により、連続する２以上の画像中の文字を認識し、出力することができる。

また、本第四の発明のテレビジョン装置は、第三の発明に対して、文字認識部は、連続する２以上の画像中の文字の変化の周期を示す１以上の文字変化周期情報が格納される文字変化周期情報格納手段と、受信部が受信した２以上の各映像情報が有する２以上の各画像に対して文字認識を行い、２以上の文字列を取得する文字認識手段と、文字変化周期情報格納手段に格納されている文字変化周期情報を取得し、文字変化周期情報で示される周期に従い、文字認識手段が２以上の各画像から取得した２以上の文字列を用いて一の文字列を取得する認識文字取得手段とを具備するテレビジョン装置である。

このような構成により、文字を有する連続する２以上の画像中の文字を認識し、出力することができる。

また、本第五の発明のテレビジョン装置は、第四の発明に対して、文字変化周期情報は、連続する２以上の画像中の文字列がスクロールする周期を示す文字スクロール周期情報であり、認識文字取得手段は、文字変化周期情報格納手段に格納されている文字スクロール周期情報を取得し、文字スクロール周期情報で示される周期に従い、文字認識手段が２以上の各画像から取得した２以上の文字列を用いて、一の文字列を取得するテレビジョン装置である。

このような構成により、連続する２以上の画像によりスクロールする文字を認識し、出力することができる。

また、本第六の発明のテレビジョン装置は、第四の発明に対して、文字変化周期情報は、連続する２以上の画像中の文字列が点滅する周期を示す文字点滅周期情報であり、認識文字取得手段は、文字変化周期情報格納手段に格納されている文字点滅周期情報を取得し、文字点滅周期情報で示される周期に従い、文字認識手段が２以上の各画像から取得した２以上の文字列を用いて一の文字列を取得するテレビジョン装置である。

このような構成により、連続する２以上の画像により点滅する文字を認識し、出力することができる。

また、本第七の発明のテレビジョン装置は、第四の発明に対して、文字変化周期情報は、連続する２以上の画像中の文字列が出現する周期を示す文字出現周期情報であり、認識文字取得手段は、文字変化周期情報格納手段に格納されている文字出現周期情報を取得し、文字出現周期情報で示される周期に従い、文字認識手段が２以上の各画像から取得した２以上の文字列を用いて一の文字列を取得するテレビジョン装置である。

このような構成により、連続する２以上の画像により一文字ごとに出現する文字を認識し、出力することができる。

また、本第八の発明のテレビジョン装置は、第一から第七いずれかの発明に対して、文字認識部は、画像中の文字を認識するための用語である１以上の文字認識用語が格納される文字認識用語格納手段と、受信部が受信した１以上の映像情報が有する画像に対して文字認識を行い、文字認識用語格納手段に格納されている１以上の文字認識用語に合致する一の文字列、または文字認識用語に合致する文字列を含む一の文字列を取得する文字認識手段を具備するテレビジョン装置である。

このような構成により、文字認識用語を用いて画像中の文字を認識し、出力することができる。

また、本第九の発明のテレビジョン装置は、第一から第八いずれかの発明に対して、文字認識部は、文字認識を行う際に、一の文字列または一の文字列に含まれる１以上の文字の文字認識の精度を示すスコアを算出し、出力部は、文字認識部が算出したスコアが、予め決められた条件を満たすほど高いスコアである場合にのみ、文字認識部が取得した一の文字列を出力するテレビジョン装置である。

このような構成により、認識精度が高い場合にのみ、認識した文字を出力することができる。

また、本第十の発明のテレビジョン装置は、第一から第九の発明に対して、出力部は、文字認識部が取得した一の文字列を音声に変換して文字列音声を取得し、文字列音声を出力するテレビジョン装置である。

このような構成により、認識した文字を、音声で出力することができる。

また、本第十一の発明のテレビジョン装置は、第十の発明に対して、出力部は、文字認識部が取得した一の文字列を音声に変換して取得した文字列音声を、映像情報が有する音声の音量よりも大きい音量で出力するテレビジョン装置である。

このような構成により、認識した文字の音声を、より聞き取り易くすることができる。

また、本第十二の発明のテレビジョン装置は、第十一の発明に対して、出力部は、映像情報が有する音声の音量を０にし、文字認識部が取得した一の文字列を音声に変換して取得した文字列音声を出力するテレビジョン装置である。

本発明によるテレビジョン装置等によれば、映像中の文字を認識し、出力することができる。これにより、例えば、視覚障害者の方でも、ニュース速報や緊急速報などのテロップが示す内容を知ることができる。

実施の形態１におけるテレビジョン装置１のブロック図同テレビジョン装置１の全体動作について説明するフローチャート同受信画像からの一の文字列の取得処理について説明するフローチャート同２以上の文字列を用いた一の文字列の取得処理について説明するフローチャート同音声検知情報の例を示す図同文字領域情報の例を示す図同文字変化周期情報の例を示す図同文字認識用語の例を示す図同テレビジョン装置２のブロック図同コンピュータシステムの概観図同コンピュータシステムのブロック図

以下、本発明によるテレビジョン装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。また、所定の情報が格納され得る格納部等において、当該格納部に情報が記憶される過程は問わないものとする。例えば、記録媒体を介して情報が格納部等で記憶されるようになってもよい。また、通信回線などを介して送信された情報が格納部等で記憶されるようになってもよい。さらに、入力デバイスを介して入力された情報が格納部等で記憶されるようになってもよい。また、本実施の形態において説明する各情報の形式、内容などは、あくまで例示であり、各情報の持つ意味を示すことができれば、形式、内容などは問わない。

（実施の形態１）
本実施の形態において、映像中の予め決められた音声を検知後、映像中の文字を認識し、当該文字を出力するテレビジョン装置１について説明する。

なお、本実施の形態において、テレビジョン装置１は、例えば、いわゆるテレビや、テレビチューナー、パーソナル・コンピュータ（ＰＣ）、ハードディスク・レコーダーやブルーレイディスク・レコーダーなどの映像録画再生機などである。

図１は、本実施の形態におけるテレビジョン装置１のブロック図である。テレビジョン装置１は、映像情報格納部１１、音声検知情報格納部１２、受信部１３、音声検知部１４、文字認識部１５、出力部１６を備える。文字認識部１５は、文字領域情報格納手段１５１、文字変化周期情報格納手段１５２、文字認識用語格納手段１５３、文字領域検出手段１５４、文字認識手段１５５、認識文字取得手段１５６を備える。

映像情報格納部１１には、映像情報が格納される。映像情報とは、画像と音声とを対応付けて有する情報であり、映像を示す情報である。当該映像の内容や種類は問わない。また、画像は、通常、動画を構成するフレームである。また、映像情報は、当該映像情報が放送されるチャンネルを識別するチャンネル識別子と対応付けられていることが好適である。当該チャネル識別子は、通常、チャンネルを示すチャンネル番号である。また、当該チャンネル識別子は、テレビ局を識別するテレビ局識別子や、いわゆるテレビ番組を識別するテレビ番組識別子などであってもよい。なお、これらの情報の形式や内容などは問わない。また、映像情報は、通常、映像を信号化した映像信号である。つまり、当該映像情報が有する画像と音声も、通常、画像を信号化した画像信号、および音声を信号化した音声信号である。

また、映像情報格納部１１は、通常、いわゆるバッファである。また、当該バッファは、リングバッファであることが好適である。

音声検知情報格納部１２には、所定の音声を検知するための情報である１以上の音声検知情報が格納される。音声検知情報は、通常、音声である。また、当該音声は、通常、警告音や、通知音、効果音などであるが、内容は問わない。また、音声検知情報は、通常、音声を信号化した音声信号である。また、音声検知情報は、例えば、気象速報や、地震速報、ニュース速報などの速報や、その他の緊急放送、緊急警報放送などの開始を検知するためのものである。つまり、言い換えるならば、音声検知情報は、気象速報や、地震速報、ニュース速報などの速報や、その他の緊急放送、緊急警報放送などの開始を知らせる音声である。なお、音声検知情報は、チャンネル識別子と対応付けられていることが好適である。

受信部１３は、１以上または２以上の映像情報を受信する。当該映像情報は、通常、テレビジョン放送により放送されたものであるが、例えば、インターネットなど、その他の手段により配信、送信されたものであってもよい。また、受信部１３は、通常、テレビジョン装置１の電源がＯＮになっている間、常に当該映像情報を受信している。また、受信部１３は、通常、受信した映像情報を、映像情報格納部１１に蓄積する。

なお、本実施の形態において、受信部１３が受信した映像情報、および受信部１３が映像情報格納部１１に蓄積した映像情報を、受信映像とする。また、本実施の形態において、当該受信映像が有する画像を、受信画像、当該受信映像が有する音声を、受信音声とする。また、本実施の形態において、受信映像、および受信画像を、フレームと称することもある。また、受信映像は、通常、後述の出力部１６が、いわゆるテレビ映像として出力する。

受信部１３は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されてもよい。

音声検知部１４は、受信音声から、音声検知情報格納部１２に格納されている音声検知情報に合致する音声を検知する。つまり、音声検知部１４は、例えば、気象速報や、地震速報、ニュース速報などの速報や、その他の緊急放送、緊急警報放送などの開始を検知する。音声検知部１４は、通常、音声検知情報格納部１２に格納されている１以上の音声検知情報のいずれかに合致する音声を、受信音声から検知する。なお、当該音声は、通常、後述の文字認識部１５が受信画像に対して文字認識を開始する際の合図となる音声である。

また、音声検知部１４は、例えば、以下のような手順で音声検知情報に合致する音声を検知する。
（１）音声検知情報格納部１２に格納されているすべての音声検知情報を取得する。
（２）受信音声と、（１）で取得した１以上の音声検知情報のいずれかとが合致するか否か、または、受信音声の一部と、（１）で取得した１以上の音声検知情報のいずれかとが合致するか否かを判断する。
（３）（２）において、合致すると判断した場合、音声検知情報に合致する音声を検知したと判断する。

なお、音声検知部１４は、受信音声に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている音声検知情報を、音声検知情報格納部１２から取得し、当該音声検知情報に合致する音声を検知することが好適である。また、本実施の形態において、音声検知部１４が、音声検知情報に合致すると判断して検知した音声を、検知音声とする。

文字認識部１５は、音声検知部１４が検知音声を検知した後に、受信画像に対して文字認識を行い、一の文字列を取得する。当該文字列は、例えば、受信映像中に出現する気象速報や、地震速報、ニュース速報などの内容やタイトルを示す文字列である。文字認識部１５は、例えば、一の受信画像に対して文字認識を行い、一の文字列を取得する。また、文字認識部１５は、例えば、２以上の各受信画像に対して文字認識を行い、当該２以上の各受信画像から一の文字列を取得し、２以上の文字列を取得し、当該２以上の文字列を用いて一の文字列を取得する。ここで、文字列とは、１以上の文字である。また、当該文字は、通常、活字であり、いわゆる手書き文字は含まないが、含んでいてもよい。なお、本実施の形態において、文字認識部１５が取得した一の文字列を、取得文字列とする。

また、文字認識は、一般的には、以下のような手順で行う。
（１）画像を２値化処理により２値化する。
（２）（１）で２値化した画像から、文字列の領域を検出し、当該文字列が有する１以上の各文字を示す画像である文字画像を取得する。
（３）（２）で取得した各文字画像から、大きさやストロークなどの特徴量を抽出する。
（４）（３）で抽出した各特徴量と、予め用意した２以上の各文字の特徴量とを比較し、スコアを算出する。
（５）（４）で算出したスコアが最高である文字を、認識した文字として取得する。

なお、文字認識部１５は、通常、文字認識の際に、上記（４）のように、取得した１以上の各文字、または取得した１以上の文字から構成される一の文字列に対して、取得の精度、または認識の精度を示すスコアを算出する。当該スコアは、例えば、当該各文字と、取得元となった文字画像との類似度や、取得した文字または文字列の確からしさや正確性を示す確度などである。当該確度は、例えば、バイグラム（ｂｉ−ｇｒａｍ）や、トライグラム（ｔｒｉ−ｇｒａｍ）などのＮグラム法や、Ｎ文字インデックス法、その他文法的な観点からの確度であってもよい。また、当該スコアの内容や、当該スコアの算出方法は問わない。また、上記（４）における予め用意した文字、およびその特徴量は、通常、文字認識部１５が保持しているが、任意の記憶領域に格納されていてもよい。

また、文字認識部１５は、通常、音声検知部１４による検知音声の検知の直後から、受信画像に対する文字認識を開始する。また、文字認識部１５は、文字認識の開始に関する条件である開始条件に応じて、文字認識を開始してもよい。当該開始条件は、例えば、以下のような条件である。
（１）検知音声の検知後、予め決められたフレーム数の画像を、受信部１３が受信した場合
（２）検知音声の検知後、予め決められた時間が経過した場合

また、文字認識部１５は、通常、文字認識の終了に関する条件である終了条件に応じて、文字認識を終了する。当該終了条件は、例えば、以下のような条件である。
（１）予め決められたフレーム数の受信画像に対して文字認識を行った場合
（２）予め決められた時間、受信画像に対して文字認識を行った場合
（３）連続するＮ以上のフレームの受信画像から、同じ文字列を取得した場合
（４）連続するＮ以上のフレームの受信画像から、文字列が取得できなかった場合

なお、上記（３）、（４）の条件における「Ｎ」は、予め決められたフレーム数を示す。

また、文字認識部１５は、通常、後述の各手段により、受信画像から一の文字列を取得する。

文字領域情報格納手段１５１には、受信画像中の文字列、または文字の領域を示す１以上の文字領域情報が格納される。文字領域情報は、通常、受信画像中の文字列の領域を示す。また、文字領域情報は、通常、画像中の画素の位置である座標を示す座標情報である。また、文字領域情報は、通常、当該１または２または３以上の座標情報を有する。１つの座標情報を有する場合、文字領域情報は、画像の左上端の座標「（ｘ，ｙ）＝（０，０）」から、当該座標情報が示す座標までの矩形領域を示す。また、２つの座標情報を有する場合、文字領域情報は、当該２つの各座標情報の一方が示す座標から、もう一方の座標情報が示す座標までの矩形領域を示す。また、３以上の座標情報を有する場合、文字領域情報は、当該３以上の各座標情報が示す座標により示される多角形の領域を示す。なお、文字領域情報は、チャンネル識別子と対応付けられていることが好適である。

文字変化周期情報格納手段１５２には、連続する２以上の受信画像中の文字の変化の周期を示す１以上の文字変化周期情報が格納される。ここでの周期とは、文字の変化に必要なフレーム数（受信画像の数）や、文字の変化に必要な時間などである。文字変化周期情報は、通常、後述の文字認識部１５が、２以上の受信画像から文字認識の対象となる受信画像を選択するためや、２以上の受信画像から取得した２以上の文字列を統合するため、２以上の受信画像から取得した２以上の文字列から一の文字列を選択するためなどに使用する。文字変化周期情報は、例えば、文字スクロール周期情報や、文字点滅周期情報、文字出現周期情報などである。

文字スクロール周期情報とは、連続する２以上の受信画像中の文字列が、当該連続する２以上の受信画像によりスクロールする周期を示す情報である。文字スクロール周期情報は、例えば、（１）１文字分移動するのに必要なフレーム数や、（２）１文字分移動するのに必要な時間、（３）１文字の大きさ（ピクセル数）、（４）１フレームあたりに文字が移動するピクセル数などである。（１）は、例えば、「５フレーム／文字」や、「１文字｜３０フレーム」などである。また、（２）は、例えば、「１秒／文字」や、「１文字｜０．５秒」などである。また、（３）は、例えば、「１２ｐｘ／文字」や、「１文字｜２０ｐｘ」などである。また、（４）は、「１０ｐｘ／フレーム」や、「１フレーム｜１２ｐｘ移動」などである。なお、（３）は、連続する２つの文字の左端から左端までの間隔や、連続する２つの文字の右端から右端までの間隔、１文字分移動するのに必要なピクセル数などと言い換えることもできる。

また、文字点滅周期情報とは、連続する２以上の受信画像中の文字列が、当該連続する２以上の受信画像により点滅する周期を示す情報である。文字点滅周期情報は、例えば、（１）文字が出現している間のフレーム数や、（２）文字が出現していない間のフレーム数、（３）１回の点滅に必要なフレーム数、（４）文字が出現している間の時間、（５）文字が出現していない間の時間、（６）１回の点滅に必要な時間などである。（１）は、例えば、「１０フレーム／出現」や、「出現｜２０フレーム」などである。また、（２）は、例えば、「２０フレーム／未出現」や、「未出現｜３０フレーム」などである。また、（３）は、例えば、「４０フレーム／点滅」や、「点滅｜５０フレーム」などである。また、（４）は、例えば、「０．５秒／出現」や、「出現｜０．５秒」などである。また、（５）は、例えば、「０．３秒／未出現」や、「未出現｜０．３秒」などである。また、（６）は、例えば、「０．８秒／点滅」や、「点滅｜０．８秒」などである。

また、文字出現周期情報とは、連続する２以上の受信画像中に、当該連続する２以上の受信画像により単位文字ずつ文字が出現する周期を示す情報である。当該単位文字数とは、予め決められた文字数であり、例えば、「１文字」や「２文字ずつ」などである。文字出現周期情報は、例えば、（１）単位文字が出現する際に必要なフレーム数や、（２）次の単位文字が出現するまでのフレーム数（間隔）、（３）単位文字が出現する際に必要な時間、（４）次の単位文字が出現するまでの時間（間隔）などである。（１）は、例えば、「１フレーム／単位文字」や、「単位文字｜１０フレーム」などである。また、（２）は、例えば、「２フレーム／間隔」や、「出現間隔｜２０フレーム」などである。また、（３）は、例えば、「０．５秒／単位文字」や、「単位文字｜１秒」などである。また、（４）は、例えば、「０．２秒／間隔」や、「出現間隔｜０．５秒」などである。

また、文字変化周期情報格納手段１５２には、例えば、音声検知部１４による検知音声の検知後、受信画像中に文字が出現している間のフレーム数や、受信画像中に文字が出現している間の時間などを示す文字出現情報が格納されていてもよい。また、当該文字出現情報は、前述の終了条件であってもよい。

なお、文字変化周期情報、および文字出現情報は、チャンネル識別子と対応付けられていることが好適である。

文字認識用語格納手段１５３には、受信画像中の文字を認識するための用語である１以上の文字認識用語が格納される。文字認識用語とは、例えば、気象速報や、地震速報、ニュース速報などの内容やタイトルを示す文字として、頻出すると思われる用語などである。文字認識用語は、例えば、「速報」、「緊急」、「地震」、「震度」、「警報」、「注意報」、「大雨」、「洪水」、地名などである。

文字領域検出手段１５４は、文字領域情報格納手段１５１に格納されている１以上の文字領域情報を取得し、当該文字領域情報で示される領域である文字領域を、受信画像から検出する。当該「検出」とは、通常、受信画像から、当該文字領域部分の画像を切り出すことである。なお、当該「検出」は、例えば、受信画像に対して、当該文字領域の境界となる画素の色を変更したり、当該文字領域以外の領域を一色に変更し、文字領域と区別できるようにしたりなど、受信画像における文字領域を明示するための処理を施すことであってもよい。

例えば、文字領域情報が１つの座標情報を有する場合、文字領域検出手段１５４は、受信画像の左上端の座標「（ｘ，ｙ）＝（０，０）」から、当該座標情報が示す座標までの矩形領域を、文字領域として検出する。また、例えば、文字領域情報が２つの座標情報を有する場合、文字領域検出手段１５４は、受信画像における当該２つの各座標情報の一方が示す座標から、もう一方の座標情報が示す座標までの矩形領域を、文字領域として検出する。また、例えば、文字領域情報が３つの座標情報を有する場合、文字領域検出手段１５４は、受信画像における当該３以上の各座標情報が示す座標により示される多角形の領域を、文字領域として検出する。

また、文字領域検出手段１５４は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付けられている文字領域情報を、文字領域情報格納手段１５１から取得し、当該文字領域情報で示される文字領域を検出することが好適である。

文字認識手段１５５は、通常、音声検知部１４による検知音声の検知後に、１以上の受信画像に対して文字認識を行い、１以上の文字列を取得する。つまり、文字認識手段１５５は、例えば、１つの受信画像に対して文字認識を行い、当該受信画像から一の文字列を取得してもよいし、２以上の各受信画像に対して文字認識を行い、当該各受信画像から一の文字列を取得し、２以上の文字列を取得してもよい。

なお、文字認識手段１５５は、通常、文字認識の際に、取得した１以上の各文字列、または当該各文字列が有する１以上の文字に対して、前述のスコアを算出する。当該スコアの算出には、通常、予め用意した文字、およびその特徴量を使用するが、例えば、文字認識用語格納手段１５３に格納されている文字認識用語を使用してもよい。当該スコアの算出時のこれらの文字、特徴量、文字認識用語の使用の方法や手順などは、公知であるので、詳細な説明を省略する。

また、文字認識手段１５５は、例えば、文字領域検出手段１５４が検出した文字領域に対して文字認識を行い、１以上の文字列を取得してもよい。

また、文字認識手段１５５は、例えば、１以上の文字列の取得の際に、文字認識用語格納手段１５３に格納されている１以上の文字認識用語を使用してもよい。この場合、文字認識手段１５５は、例えば、１以上の各受信画像から一の文字列を一時的に取得し、当該一の文字列において、１以上のいずれかの文字認識用語に合致する文字列を取得する。また、この場合、文字認識手段１５５は、例えば、１以上の各受信画像から一の文字列を一時的に取得し、当該一の文字列のうち、１以上のいずれかの文字認識用語を含む文字列のみを取得してもよい。

例えば、文字認識手段１５５が一時的に取得した一の文字列が「関東地方で地震が発生しました」であり、文字認識用語が「地震」である場合、文字認識手段１５５は、当該文字認識用語に合致する文字列「地震」を取得する。また、例えば、文字認識手段１５５が一時的に取得した２つの文字列が「大阪府南部に大雨洪水警報が発令されました」と、「大阪府議会選挙Ａ氏が当選確実」であり、文字認識用語が「警報」である場合、文字認識手段１５５は、当該文字認識用語を含む「大阪府南部に大雨洪水警報」を取得する。

また、文字認識手段１５５は、例えば、１以上の各受信画像から一時的に取得した一の文字列が有する１以上の文字列について、（１）前述のスコアが低い、（２）１以上のいずれかの文字認識用語との類似度が高い、のいずれの条件も満たす場合に、当該いずれの条件も満たす文字列または文字と、（２）の条件における類似度が高い文字認識用語とを置換し、当該置換後の文字列を取得してもよい。なお、（１）におけるスコアが低いか否かの判断の基準と、（２）の条件における類似度が高いか否かの判断の基準は問わない。

例えば、文字認識手段１５５が一時的に取得した一の文字列が「地雲」であり、当該文字列のスコアが、１００点満点中の８０点であったとする。また、当該文字列と、文字認識用語「地震」との類似度が１００％中の９５％であったとする。すると、文字認識手段１５５は、一時的に取得した一の文字列に換えて文字認識用語「地震」を、一の文字列として取得する。また、例えば、文字認識手段１５５が一時的に取得した一の文字列が「大雨洪氷警報」であり、当該文字列のうちの文字列「洪氷」のスコアが、１００点満点中の７０点であったとする。また、当該文字列「洪氷」と、文字認識用語「洪水」との類似度が１００％中の９０％であったとする。すると、文字認識手段１５５は、一時的に取得した一の文字列中の文字列を文字認識用語に置換し、置換後の文字列「大雨洪水警報」を、一の文字列として取得する。

また、文字認識手段１５５は、例えば、文字変化周期情報格納手段１５２に格納されている１以上の文字変化周期情報に従い、１以上の受信画像から１以上の文字列を取得してもよい。この場合、文字認識手段１５５は、通常、２以上の受信画像から１または２以上の文字列を取得する。

一の文字列を取得する場合、文字認識手段１５５は、例えば、以下のいずれかの手順にて、一の文字列を取得する。

（Ａ）文字認識の対象となる受信画像を選択する場合
（１）文字変化周期情報に従い、２以上の受信画像から、文字認識の対象となる一の受信画像を選択する。
（２）（１）で選択した一の受信画像に対して文字認識を行い、当該一の受信画像から一の文字列を取得する。

（Ｂ）文字認識の対象となる受信画像を選択しない場合
（１）文字変化周期情報に従い、２以上の受信画像から、一の画像を生成する。
（２）（１）で生成した一の画像に対して文字認識を行い、当該一の画像から一の文字列を取得する。

なお、（Ｂ）の（１）における「画像の生成」とは、例えば、２以上の画像を合成したり、２以上の画像を重ね合わせたり、２以上の画像の一部を結合したりすることなどである。

また、２以上の文字列を取得する場合、文字認識手段１５５は、例えば、以下のいずれかの手順にて、２以上の文字列を取得する。

（Ｃ）文字認識の対象となる受信画像を選択する場合
（１）文字変化周期情報に従い、２以上の受信画像から、文字認識の対象となる２以上の受信画像を選択する。
（２）（１）で選択した２以上の各受信画像に対して文字認識を行い、当該２以上の各受信画像から一の文字列を取得する。

（Ｄ）文字認識の対象となる受信画像を選択しない場合
（１）２以上の各受信画像に対して文字認識を行い、当該２以上の各受信画像から一の文字列を取得する。
（２）（１）での処理の結果、取得した２以上の文字列から、文字変化周期情報に従い、２以上の文字列を取得する。

なお、当該文字変化周期情報が示す周期が時間である場合、文字認識手段１５５は、通常、当該時間からフレーム数を算出する。そして、文字認識手段１５５は、当該フレーム数に従い、２以上の受信画像から文字列を取得する。例えば、文字変化周期情報が「５秒」であり、１秒あたりのフレーム数（フレームレート）が「３０フレーム／秒」である場合、「５秒×３０フレーム／秒＝１５０フレーム」を算出する。なお、文字認識手段１５５は、通常、当該フレームレートを保持している。

また、文字変化周期情報を使用する場合、文字認識手段１５５は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報を、文字変化周期情報格納手段１５２から取得することが好適である。

例えば、文字変化周期情報が文字スクロール周期情報である場合、文字認識手段１５５は、当該文字スクロール周期情報が示す文字のスクロールの周期に従い、上記（Ａ）から（Ｄ）のいずれかの手順にて、１以上の文字列を取得する。

例えば、文字スクロール周期情報が、１フレームあたりに文字が移動するピクセル数を示す場合、文字認識手段１５５は、２以上の各受信画像を、当該ピクセル数ずつずらしながら合成し、一の画像を生成する。そして、文字認識手段１５５は、当該生成した一の画像に対して文字認識を行い、一の文字列を取得する。

例えば、文字スクロール周期情報が、１フレームあたりに文字が２０ピクセル移動することを示す「２０ピクセル／フレーム」である場合、文字認識手段１５５は、１フレーム目からＮフレーム目までの２以上の各受信画像について、１つ前のフレームの画像に対して右方向に２０ピクセルずらした状態で重ね合せ、一の画像を生成する。そして、文字認識手段１５５は、当該生成した一の画像に対して文字認識を行い、一の文字列を取得する。

また、例えば、文字スクロール周期情報が、１文字分移動するのに必要なフレーム数や時間を示す場合、文字認識手段１５５は、当該フレーム数または当該時間から算出したフレーム数に従い、当該フレーム数ごとに受信画像に対して文字認識を行い、各受信画像から一の文字列を取得し、２以上の文字列を取得する。また、この場合、文字認識手段１５５は、２以上の各受信画像から一の文字列を取得し、２以上の文字列を取得し、当該２以上の文字列から、当該フレーム数ごとに文字列を取得し、２以上の文字列を取得してもよい。

例えば、文字スクロール周期情報が、１文字分移動するのに０．２秒必要であることを示す「０．２秒／文字」である場合、文字認識手段１５５は、当該情報から、１文字分移動するのに必要なフレーム数を示す「０．２秒／文字×３０フレーム／秒＝６フレーム／文字」を算出する。そして、文字認識手段１５５は、１フレーム目から６フレームごとの各受信画像に対して文字認識を行い、各受信画像から一の文字列を取得する。

また、例えば、文字変化周期情報が文字点滅周期情報である場合、文字認識手段１５５は、当該文字点滅周期情報が示す文字の点滅の周期に従い、上記（Ａ）から（Ｄ）のいずれかの手順にて、１以上の文字列を取得する。

例えば、文字点滅周期情報が、文字が出現している間のフレーム数を示す場合、文字認識手段１５５は、当該フレーム数で示される２以上の受信画像のうちのいずれか１つの受信画像に対して文字認識を行い、一の文字列を取得する。

例えば、文字点滅周期情報が、３０フレームの間、文字が出現していることを示す「３０フレーム／出現」である場合、文字認識手段１５５は、１フレーム目から３０フレーム目までの２以上の画像のうち、中間である１５フレーム目の受信画像を選択し、当該受信画像に対して文字認識を行い、一の文字列を取得する。

また、例えば、文字点滅周期情報が、文字の１回の点滅に必要なフレーム数や時間を示す場合、文字認識手段１５５は、当該フレーム数または当該時間から算出したフレーム数に従い、当該フレーム数分の受信画像に対して文字認識を行い、各受信画像から一の文字列を取得し、２以上の文字列を取得する。

例えば、文字点滅周期情報が、文字の１回の点滅に２秒必要であることを示す「２秒／点滅」である場合、文字認識手段１５５は、当該情報から、１回の点滅に必要なフレーム数を示す「２秒／点滅×３０フレーム／秒＝６０フレーム／点滅」を算出する。そして、文字認識手段１５５は、１フレーム目から６０フレーム目までの各受信画像に対して文字認識を行い、各受信画像から一の文字列を取得する。

また、例えば、文字変化周期情報が文字出現周期情報である場合、文字認識手段１５５は、当該文字出現周期情報が示す文字の出現の周期に従い、上記（Ａ）から（Ｄ）のいずれかの手順にて、１以上の文字列を取得する。

例えば、文字出現周期情報が、次の単位文字が出現するまでのフレーム数や時間を示す場合、文字認識手段１５５は、当該フレーム数または当該時間から算出したフレーム数に従い、当該フレーム数ごとに２以上の受信画像を取得し、当該２以上の受信画像を合成し、一の画像を生成する。そして、文字認識手段１５５は、当該生成した一の画像に対して文字認識を行い、一の文字列を取得する。

例えば、文字出現手記情報が、次の１文字が出現するまで６フレーム必要であることを示す「６フレーム／文字」である場合、文字認識手段１５５は、１フレーム目から６フレームごとの受信画像を取得し、当該取得した２以上の受信画像を合成し、一の画像を生成する。そして、文字認識手段１５５は、当該生成した一の画像に対して文字認識を行い、一の文字列を取得する。

また、例えば、文字出現周期情報が、単位文字が出現する際に必要なフレーム数や時間を示す場合、文字認識手段１５５は、当該フレーム数または当該時間から算出したフレーム数に従い、当該フレーム数ごとの受信画像に対して文字認識を行い、各受信画像から一の文字列を取得し、２以上の文字列を取得する。

例えば、文字出現周期情報が、１文字が出現する際に必要な時間を示す「０．３秒／文字」である場合、文字認識手段１５５は、当該情報から、１文字が出現する際に必要なフレーム数を示す「０．３秒／文字×３０フレーム／秒＝９フレーム／文字」を算出する。そして、文字認識手段１５５は、９フレーム目から９フレームごとのかく受信画像に対して文字認識を行い、各受信画像から一の文字列を取得する。

また、文字変化周期情報を用いて１以上の受信画像から文字認識の対象となる受信画像を取得する場合、文字認識手段１５５は、当該取得した１以上の各受信画像に対して、当該受信画像に出現しているすべての文字を取得してもよいし、当該文字の変化により新たに出現した文字のみを取得してもよい。例えば、取得した１フレーム目の受信画像に「あした」が出現しており、取得した２フレーム目の受信画像に「あしたは」が出現している場合、文字認識手段１５５は、１フレーム目の受信画像からは、文字列「あした」を取得する。また、この場合、文字認識手段１５５は、２フレーム目の画像からは、文字列「あしたは」を取得してもよいし、文字「は」を取得してもよい。

また、文字認識手段１５５は、例えば、文字変化周期情報格納手段１５２に格納されている１以上の文字出現情報を用いて、１以上の受信画像から文字認識の対象となる受信画像を取得してもよい。この場合、取得した受信画像に対する文字認識等の手順は、文字変化周期情報を用いる場合と同様である。例えば、当該文字出現情報が示すフレーム数、または時間から算出したフレーム数が「３０フレーム」である場合、文字認識手段１５５は、検知音声の検知後、３０フレーム分の受信画像を取得する。

なお、文字出現情報を使用する場合、文字認識手段１５５は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字出現情報を、文字変化周期情報格納手段１５２から取得することが好適である。

認識文字取得手段１５６は、文字認識手段１５５が取得した２以上の文字列を用いて一の文字列を取得する。つまり、認識文字取得手段１５６は、文字認識手段１５５が２以上の各受信画像に対して文字認識を行い、当該各受信画像から一の文字列を取得し、２以上の文字列を取得した場合に、当該２以上の文字列を用いて一の文字列を取得する。なお、「２以上の文字列を用いて一の文字列を取得する」とは、通常、２以上の文字列を合成し、一の文字列を取得することである。また、「合成する」とは、連結することや結合することなどを含み、広く解する。

例えば、連続する２以上の受信画像中の文字が変化しない場合、認識文字取得手段１５６は、文字認識手段１５５が取得した２以上の各文字列が有する１以上の各文字について、当該各文字列の同一の位置にある文字のうち、前述のスコアが最高である文字を取得する。そして、認識文字取得手段１５６は、当該取得した１以上の文字を連結し、一の文字を取得する。

例えば、文字認識手段１５５が２つの文字列「大坂府：大雨洪水警報」と、「大阪府：犬雨洪氷警報」とを取得したとする。そして、それぞれの各文字列が有する各文字のスコアが、「１００％，８０％，１００％，１００％，１００％，１００％，１００％，１００％，１００％，１００％」、「１００％，１００％，１００％，１００％，１００％，６５％，１００％，８５％，１００％，１００％」であったとする。すると、認識文字取得手段１５６は、１文字目について、２つの文字ともスコアが「１００％」であるので、１つ目の文字列から１文字目「大」を取得する。また、同様に、認識文字取得手段１５６は、２文字目について、スコアが「１００％」である２つ目の文字列の２文字目「阪」を取得する。また、同様に、例えば、５文字目について、認識文字取得手段１５６は、スコアが「１００％」である１つ目の文字列の５文字目「大」を取得する。認識文字取得手段１５６は、このようにして順に文字を取得する。そして、認識文字取得手段１５６は、当該取得した文字を順に連結し、文字列「大阪府：大雨洪水警報」を取得する。

また、例えば、連続する２以上の受信画像中の文字が変化する場合、認識文字取得手段１５６は、通常、文字変化周期情報格納手段１５２に格納されている文字変化周期情報を取得し、当該文字変化周期情報で示される周期に従い、文字認識手段１５５が取得した２以上の文字列を用いて一の文字列を取得する。

例えば、文字変化周期情報が文字スクロール周期情報である場合、認識文字取得手段１５６は、文字変化周期情報格納手段１５２に格納されている文字スクロール周期情報を取得し、当該文字スクロール周期情報で示される周期に従い、文字認識手段１５５が２以上の文字列を用いて一の文字列を取得する。

例えば、文字認識手段１５５が、１フレーム目から５フレーム目までのそれぞれの受信画像から、「あ」、「あし」、「あした」、「した」、「た」の文字列または文字を取得したとする。この場合、認識文字取得手段１５６は、まず、文字スクロール周期情報に従い、各文字列中の文字が、取得する一の文字列の何番目の文字であるのか（文字列における文字の位置）を決定する。例えば、文字スクロール周期情報が「１文字／フレーム」である場合、認識文字取得手段１５６は、文字認識手段１５５が各画像から新たに取得した文字に対して、既に文字位置を付与した文字を除き、順番に文字位置を付与する。認識文字取得手段１５６は、例えば、文字認識手段１５５が１フレーム目の画像から取得した「あ」に対して、１文字目であることを示す「１」を付与する。また、認識文字取得手段１５６は、文字認識手段１５５が２フレーム目の画像から取得した「あし」のうち、文字位置を付与していない「い」に対して、２文字目であることを示す「２」を付与する。なお、このとき、認識文字取得手段１５６は、既に文字位置を付与した「あ」に対して、再度、１文字目であることを示す「１」を付与してもよい。また、認識文字取得手段１５６は、文字認識手段１５５が３フレーム目の画像から取得した「あした」のうち、文字位置を付与していない「た」に対して、３文字目であることを示す「３」を付与する。

次に、認識文字取得手段１５６は、各位置の文字のうち、スコア最高である文字を取得する。例えば、文字認識手段１５５が１文字目として取得した文字が「あ」、「お」、「あ」であり、当該各文字のスコアが「１００％」、「７０％」、「９０％」である場合、スコアが最高の「１００％」である文字「あ」を取得する。このようにして認識文字取得手段１５６は、文字認識手段１５５が各画像から取得した文字列または文字から、新たに「あ」、「し」、「た」を取得する。なお、当該各位置の文字の取得において、認識文字取得手段１５６は、各位置の文字から多数決的に取得する文字を決定し、取得してもよい。例えば、文字認識手段１５５が２文字目として取得した文字が「し」、「り」、「し」の３つである場合、当該３つの文字のうち最多の文字である「し」を取得する。

最後に、認識文字取得手段１５６は、取得した各位置の文字を連結し、一の文字列「あした」を取得する。

また、例えば、当該文字変化周期情報が文字点滅周期情報である場合、認識文字取得手段１５６は、文字変化周期情報格納手段１５２に格納されている文字点滅周期情報を取得し、当該文字点滅周期情報で示される周期に従い、文字認識手段１５５が取得した２以上の文字列を用いて一の文字列を取得する。

例えば、文字認識手段１５５が、１フレーム目、３フレーム目、５フレーム目のそれぞれの受信画像から、「注意報」、「柱意報」、「注意報」の文字列を取得し、２フレーム目、４フレーム目の受信画像からは文字列または文字を取得しなかったとする。この場合、認識文字取得手段１５６は、まず、文字点滅周期情報に従い、文字認識手段１５５が取得した文字列を取得する。例えば、文字点滅周期情報が「２フレーム／点滅」である場合、１フレームごとに文字の出現と非出現が繰り返されるので、認識文字取得手段１５６は、文字認識手段１５５が１フレーム目、３フレーム目、５フレーム目の受信画像から取得した文字列「注意報」、「柱意報」、「注意報」を取得する。

次に、認識文字取得手段１５６は、取得した各文字列が有する各位置の文字うち、スコア最高である文字を取得する。例えば、２文字目として取得した文字「注」、「柱」、「注」の各スコアが「１００％」、「７０％」、「９０％」である場合、認識文字取得手段１５６は、スコアが最高の「１００％」である文字「注」を取得する。このようにして認識文字取得手段１５６は、取得した各文字列が有する各位置の文字列から、新たに「注」、「意」、「報」を取得する。なお、当該各位置の文字の取得において、認識文字取得手段１５６は、各位置の文字から多数決的に取得する文字を決定し、取得してもよい。当該処理は前述したので、説明を省略する。

最後に、認識文字取得手段１５６は、取得した各位置の文字を連結し、一の文字列「注意報」を取得する。

また、例えば、当該文字変化周期情報が文字出現周期情報である場合、認識文字取得手段１５６は、文字変化周期情報格納手段１５２に格納されている文字出現周期情報を取得し、当該文字出現周期情報で示される周期に従い、文字認識手段１５５が取得した２以上の文字列を用いて一の文字列を取得する。

例えば、文字認識手段１５５が１フレーム目から８フレーム目までのぞれぞれの受信画像から、「洪」、「洪」、「洪水」、「洪水」、「供水警」、「洪水警」、「洪氷警報」、「洪水警報」の文字列または文字を取得したとする。この場合、認識文字取得手段１５６は、まず、文字出現周期情報に従い、文字認識手段１５５が取得した文字列を取得する。例えば、文字出現周期情報が「１フレーム／間隔」である場合、１フレームの間隔を開けて新たな文字が出現するので、認識文字取得手段１５６は、文字認識手段１５５が取得した１フレーム目、３フレーム目、５フレーム目、７フレーム目の各画像から取得した文字列または文字「洪」、「洪水」、「供水警」、「洪氷警報」を取得する。

次に、認識文字取得手段１５６は、各文字列中の文字に対して、文字位置を付与する。認識文字取得手段１５６は、例えば、取得した１つ目の文字「洪」に対して、１文字目であることを示す「１」を付与する。また、認識文字取得手段１５６は、取得した２つ目の文字列「洪水」のうち、「洪」に対して、１文字目であることを示す「１」を付与し、「水」に対して、２文字目であることを示す「２」を付与する。以降、認識文字取得手段１５６は、取得した３つ目、４つ目の文字列中の文字に対しても、同様に文字位置を付与する。

次に、認識文字取得手段１５６は、取得した各文字列が有する各位置の文字うち、スコア最高である文字を取得する。例えば、２文字目として取得した文字「水」、「水」、「氷」の各スコアが「１００％」、「９０％」、「７０％」である場合、認識文字取得手段１５６は、スコアが最高の「１００％」である文字「水」を取得する。このようにして認識文字取得手段１５６は、取得した各文字列が有する各位置の文字列から、新たに「洪」、「水」、「警」、「報」を取得する。なお、当該各位置の文字の取得において、認識文字取得手段１５６は、各位置の文字から多数決的に取得する文字を決定し、取得してもよい。当該処理は前述したので、説明を省略する。

最後に、認識文字取得手段１５６は、取得した各位置の文字を連結し、一の文字列「洪水警報」を取得する。

以上のように、認識文字取得手段１５６が、文字認識手段１５５が取得した２以上の文字列を用いて一の文字列を取得することで、例えば、受信画像の背景色と、当該画像に出現する文字列の色が同色であり、一の受信画像から当該文字列を取得することができない場合でも、他の受信画像から当該文字列を取得することで、２以上の受信画像から一の文字列を取得することができる。

なお、文字認識手段１５５において、各受信画像から文字領域の画像のみを切り出し、当該画像を取得し、認識文字取得手段１５６において、当該切り出した画像を、文字変化周期情報に従い重ね合せ、一の画像を生成し、当該画像に対して文字認識を行い、一の文字列を取得してもよい。

また、認識文字取得手段１５６は、通常、文字認識手段１５５が文字認識時に用いた文字変化周期情報で示される周期に従い、文字認識手段１５５が取得した２以上の文字列を用いて一の文字列を取得する。

また、認識文字取得手段１５６は、文字認識手段１５５が取得した２以上の文字列を用いて一の文字列を取得する際に、当該２以上の文字列のうち、文字認識用語格納手段１５３に格納されている１以上の文字認識用語を有する２以上の文字列を用いて、一の文字列を取得してもよい。

出力部１６は、取得文字列を出力する。当該出力は、通常、スピーカーへの出力（音出力）であるが、例えば、外部の装置への送信や、他の処理装置やプログラムなどへの処理結果の引き渡しなどであってもよい。送信や蓄積、処理結果の引き渡しについては、出力対象が最終的にユーザに提示されるものとする。また、当該出力の際、出力部１６は、通常、取得文字列を音声合成により音声に変換し、文字列音声を取得し、当該文字列音声を出力する。なお、音声合成は、公知の技術であるので、詳細な説明を省略する。また、出力部１６は、取得文字列を音声に変換せずに出力してもよい。

また、出力部１６は、例えば、前述のスコアが、予め決められた条件である出力条件を満たすほど高いスコアである場合にのみ、取得文字列を出力してもよい。当該出力条件は、通常、前述のスコアを有する。出力条件は、例えば、（１）「精度≧８０％」や、（２）「平均類似度≧９０％」、（３）「正確性≧８５％」、（４）「一致率≧８０％」などである。（１）は、文字認識部１５が、取得文字列の認識精度として算出したスコアが８０％以上であることを示す。また、（２）は、文字認識部１５が、取得文字列が有する各文字の類似度として算出したスコアの平均が９０％以上であることを示す。また、（３）は、文字認識部１５が、取得文字列の正確性として算出したスコアが８５％以上であることを示す。また、（４）は、取得文字列が有する１以上の文字のうち、精度や類似度等のスコアが１００％である文字の割合（一致率）が８０％以上であることを示す。

また、文字列音声を出力する場合、出力部１６は、通常、文字列音声の音量を、受信音声の音量よりも大きい音量で出力する。この場合、出力部１６は、通常、受信音声の音量を文字列音声の音量よりも小さくし、文字列音声を出力する。当該「小さくする」ことは、音量をＯＦＦにすることや、音量を０にすること、消音にすることなどを含む。また、出力部１６は、文字列音声の音量を受信音声の音量よりも大きくし、文字列音声を出力してもよい。

また、出力部１６は、通常、映像情報格納部１１に格納されている映像情報を出力する。当該出力は、通常、いわゆる画面への表示である。また、出力部１６は、通常、映像情報格納部１１に格納されている映像情報のうち、最新の映像情報を取得し、出力する。

出力部１６は、スピーカーなどの出力デバイスを含むと考えてもよいし、含まないと考えてもよい。出力部１６は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。

なお、映像情報格納部１１、音声検知情報格納部１２、文字領域情報格納手段１５１、文字変化周期情報格納手段１５２、文字認識用語格納手段１５３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

また、音声検知部１４、文字領域検出手段１５４、文字認識手段１５５、認識文字取得手段１５６は、通常、ＭＰＵやメモリ等から実現され得る。音声検知部１４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現してもよい。

次に、テレビジョン装置１の動作について説明する。なお、所定の情報におけるｉ番目の情報は、「情報［ｉ］」と記載するものとする。図２は、テレビジョン装置１の全体動作を示すフローチャートである。

（ステップＳ２０１）受信部１３は、映像情報を受信したか否かを判断する。受信した場合は、ステップＳ２０２に進み、そうでない場合は、ステップＳ２０１に戻る。

（ステップＳ２０２）受信部１３は、ステップＳ２０１で受信した映像情報を、映像情報格納部１１に蓄積する。

（ステップＳ２０３）出力部１６は、ステップＳ２０２で蓄積した映像情報を出力する。

（ステップＳ２０４）音声検知部１４は、音声検知情報が未取得であるか否かを判断する。未取得である場合は、ステップＳ２０５に進み、そうでない場合は、ステップＳ２０６に進む。

（ステップＳ２０５）音声検知部１４は、受信映像に対応付いているチャネル識別子と同一のチャンネル識別子に対応付いている音声検知情報を、音声検知情報格納部１２から取得する。

（ステップＳ２０６）音声検知部１４は、音声検知情報に合致する音声情報を検知したか否かを判断する。検知した場合は、ステップＳ２０７に進み、そうでない場合は、ステップＳ２０９に進む。

（ステップＳ２０７）文字認識部１５は、開始条件を満たすか否かを判断する。満たす場合は、ステップＳ２０８に進み、そうでない場合は、ステップ２０９に進む。

（ステップＳ２０８）文字認識部１５は、文字認識中フラグをＯＮ（例えば、「１」）にする。

（ステップＳ２０９）文字認識部１５は、文字認識中フラグがＯＮであるか否かを判断する。ＯＮである場合は、ステップＳ２１０に進み、そうでない場合は、ステップＳ２０１に戻る。

（ステップＳ２１０）文字認識部１５は、受信画像から一の文字列を取得する。この処理の詳細は、図３のフローチャートを用いて説明する。なお、文字認識部１５は、通常、取得した一の文字列を、取得した順に、任意の記憶領域に蓄積する。

（ステップＳ２１１）文字認識部１５は、終了条件を満たすか否かを判断する。満たす場合は、ステップＳ２１２に進み、そうでない場合は、ステップＳ２０１に戻る。

（ステップＳ２１２）文字認識部１５は、文字認識中フラグをＯＦＦ（例えば、「０」）にする。

（ステップＳ２１３）文字認識部１５は、受信画像から取得した文字列が２以上であるか否かを判断する。２以上である場合は、ステップＳ２１４に進み、そうでない場合は、ステップＳ２１５に進む。

（ステップＳ２１４）文字認識部１５は、取得した２以上の文字列を用いて、一の文字列を取得する。この処理の詳細は、図４のフローチャートを用いて説明する。

（ステップＳ２１５）出力部１６は、文字認識部１５が取得した一の文字列のスコアが、出力条件を満たすか否かを判断する。満たす場合は、ステップＳ２１６に進み、そうでない場合は、ステップＳ２０１に戻る。

（ステップＳ２１６）出力部１６は、受信音声の音量を制御する。例えば、出力部１６は、当該音量を０にする。

（ステップＳ２１７）出力部１６は、文字認識部１５が取得した一の文字列を音声合成により音声に変換し、文字列音声を取得し、当該文字列音声を出力する。

（ステップＳ２１８）出力部１６は、受信音声の音量を制御する。例えば、出力部１６は、当該音量を、ステップＳ２１６での制御前の音量（元の音量）に戻す。そして、ステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理を終了してもよい。

図３は、図２のフローチャートのステップＳ２１１の受信画像からの一の文字列の取得処理を示すフローチャートである。

（ステップＳ３０１）文字領域検出手段１５４は、受信画像に対応付いているチャネル識別子と同一のチャンネル識別子に対応付いている文字領域検出情報を、文字領域検出情報格納手段１５１から取得する。

（ステップＳ３０２）文字認識手段１５５は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報が、文字変化周期情報格納手段１５２から取得可能であるか否かを判断する。取得可能である場合は、ステップＳ３０３に進み、そうでない場合は、ステップＳ３０７に進む。

（ステップＳ３０３）文字認識手段１５５は、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報を、文字変化周期情報格納手段１５２から取得する。

（ステップＳ３０４）文字認識手段１５５は、受信画像が、ステップＳ３０３で取得した文字変化周期情報が示す周期に合致するか否かを判断する。合致する場合は、ステップＳ３０５に進み、そうでない場合は、上位処理にリターンする。

（ステップＳ３０５）文字認識手段１５５は、ステップＳ３０１で取得した文字領域情報で示される文字領域を、受信画像から検出する。

（ステップＳ３０６）文字認識手段１５５は、ステップＳ３０５で検出した文字領域に対して文字認識を行い、一の文字列を取得する。そして、上位処理にリターンする。

なお、図３のフローチャートにおいて、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報が、文字変化周期情報格納手段１５２から取得可能であるか否かの判断は行わなくてもよい。この場合、文字認識手段１５５は、文字変化周期情報を取得しない。また、この場合、文字認識手段１５５は、受信画像が、文字変化周期情報が示す周期に合致するか否かの判断は行わない。

図４は、図２のフローチャートのステップＳ２１５の２以上の文字列を用いた一の文字列の取得処理を示すフローチャートである。

（ステップＳ４０１）認識文字取得手段１５６は、文字認識手段１５５が取得した２以上の文字列を取得する。ここで、ｍ個の文字列が取得できたものとする。また、各文字列は、ｎ個の文字を有するものとする。

（ステップＳ４０２）認識文字取得手段１５６は、カウンタｊに１をセットする。

（ステップＳ４０３）認識文字取得手段１５６は、カウンタｉに１をセットする。

（ステップＳ４０４）認識文字取得手段１５６は、変数ｍａｘに０をセットする。

（ステップＳ４０５）認識文字取得手段１５６は、ｉ個目の文字列のｊ番目の文字である文字［ｉ］［ｊ］のスコアが、ｍａｘより大きいか否かを判断する。大きい場合は、ステップＳ４０６に進み、そうでない場合は、ステップＳ４０８に進む。

（ステップＳ４０６）認識文字取得手段１５６は、ｍａｘに文字［ｉ］［ｊ］のスコアをセットする。

（ステップＳ４０７）認識文字取得手段１５６は、変数ｉｎｄｅｘにｉをセットする。

（ステップＳ４０８）認識文字取得手段１５６は、ｉがｍであるか否かを判断する。ｍである場合は、ステップＳ４１０に進み、そうでない場合は、ステップＳ４０９に進む。

（ステップＳ４０９）認識文字取得手段１５６は、ｉを１インクリメントし、ステップＳ４０５に戻る。

（ステップＳ４１０）認識文字取得手段１５６は、取得文字列に、既に取得した文字列と、文字［ｉｎｄｅｘ］［ｊ］とを連結した文字列をセットする。

（ステップＳ４１１）認識文字取得手段１５６は、ｊがｎであるか否かを判断する。ｎである場合は、上位処理にリターンし、そうでない場合は、ステップＳ４１２に進む。

（ステップＳ４１２）認識文字取得手段１５６は、ｊを１インクリメントし、ステップＳ４０３に戻る。

なお、図４のフローチャートにおいて、受信画像に対応付いているチャンネル識別子と同一のチャンネル識別子に対応付いている文字変化周期情報が、文字変化周期情報格納手段１５２から取得可能であるか否かの判断を行ってもよい。この場合、認識文字取得手段１５６は、取得可能である場合に、当該文字変化周期情報を取得する。また、この場合、認識文字取得手段１５６は、文字認識手段１５５が取得した２以上の文字列が有する文字の文字位置を、当該文字変化周期情報に従い決定する。

（具体例）
次に、テレビジョン装置１の動作の具体例について説明する。なお、本具体例において
テレビジョン装置１は、いわゆるテレビ（テレビ受像器）であるものとする。また、音声検知情報格納部１２には、図５に示す音声検知情報が格納されているものとする。当該音声検知情報は、各レコードを一意に特定するためのＩＤ（項目名：ＩＤ）と、チャンネル識別子であるチャンネル番号（項目名：チャンネル）と、音声検知情報（項目名：検知音声）とを対応付けて有する。また、文字領域情報格納手段１５１には、図６に示す文字領域情報が格納されているものとする。当該文字領域情報は、各レコードを一意に特定するためのＩＤ（項目名：ＩＤ）と、チャンネル識別子であるチャンネル番号（項目名：チャンネル）と、受信画像中の文字領域である矩形領域を示す２つの座標（項目名、領域１、領域２）とを有する。また、文字変化周期情報格納手段１５２には、図７に示す文字変化周期情報が格納されているものとする。当該文字変化周期情報は、各レコードを一意に特定するためのＩＤ（項目名：ＩＤ）と、チャンネル識別子であるチャンネル番号（項目名：チャンネル）と、２以上の受信画像により文字が変化する内容を示す文字変化内容情報（項目名：文字変化）と、文字変化周期情報（項目名：周期）とを対応付けて有する。また、文字認識用語格納手段１５３には、図８に示す文字認識用語が格納されているものとする。当該文字認識用語は、各レコードを一意に特定するためのＩＤ（項目名：ＩＤ）と、文字認識用語（項目名：用語）とを対応付けて有する。また、文字認識部１５は、１秒あたりのフレーム数「３０フレーム／秒」を保持しているものとする。また、出力部１６は、文字認識部１５が取得した一の文字列の出力条件「スコア≧９０％」を保持しているものとする。

（例１）
まず、ユーザが、テレビの電源をＯＮにし、リモコンを操作し、６チャネルを表示したとする。すると、受信部１３は、チャンネル番号「６」が対応付いている映像情報を受信し続ける。

次に、音声検知部１４は、音声検知情報格納部１２から、図５の音声検知情報のうち、チャンネル番号「６」を有する「ＩＤ＝０１２」の音声検知情報「ピッピッピ」を取得する。

次に、音声検知部１４は、取得した音声検知情報「ピッピッピ」に合致する受信音声を検知したとする。すると、文字認識部１５は、当該検知後から、受信部１３が受信している画像情報を取得する。ここで、文字変化周期情報格納手段１５２に格納されている文字出現情報が「１５０フレーム」であったとする。すると、文字認識部１５は、当該検知後から、１５０フレーム分の受信画像を取得する。ここで、取得した２以上の受信画像中に文字列が出現し、かつ当該文字列が「震度４：大阪府大阪市」であるとする。また、当該文字が、当該２以上の受信画像によりスクロールしているとする。

次に、文字領域検出手段１５４は、文字領域情報格納手段１５１から、図６の文字領域情報のうち、チャンネル番号「６」を有する「ＩＤ＝０１２」の文字領域情報を取得する。

次に、文字領域検出手段１５４は、取得した１５０フレーム分の各受信画像から、取得した文字領域情報が有する２つの座標が示す矩形領域「（１０，１０），（１９６０，３４０）」を検出する。

次に、文字認識手段１５５は、文字変化周期情報格納手段１５２から、図７の文字変化周期情報のうち、チャンネル番号「６」を有する「ＩＤ＝０１２」の文字変化周期情報「５文字／秒」を取得する。また、文字認識手段１５５は、文字認識用語格納手段１５３に格納されている図８のすべての文字認識用語を取得する。

次に、文字認識手段１５５は、取得した文字変化周期情報である「５文字／秒」と、１秒あたりのフレーム数「３０フレーム／秒」を用いて、スクロールにより１文字が出現するのに必要なフレーム数「６フレーム／文字」を算出する。

次に、文字認識手段１５５は、取得した１５０フレーム分の各受信画像のうち、６フレームごとに、当該受信画像から一の文字列を取得する。文字認識手段１５５は、例えば、１フレーム目の受信画像からは、文字「震」を取得する。また、文字認識手段１５５は、例えば、１フレーム目から６フレーム後の７フレーム目の受信画像からは、文字「震度」を取得する。このように文字認識手段１５５は、各受信画像から一の文字列を取得する。なお、このとき、文字認識手段１５５は、取得した１以上の文字認識用語のいずれかを含まない文字列は、取得しないものとする。つまり、上記「震」は、図８の文字認識用語のいずれも含まない。よって、文字認識手段１５５は、１フレーム目の受信画像から文字「震」を一時的には取得するが、文字認識用語を含むか否かの判断の結果、取得しない。

次に、認識文字取得手段１５６は、以上のようにして文字認識手段１５５が取得した２以上の文字列が有する各文字について、文字位置を付与し、各文字位置の文字のうち、文字認識手段１５５が文字列を取得した際に算出したスコアが最高である文字を取得する。そして、認識文字取得手段１５６は、当該取得した文字を連結し、一の文字列を取得する。その結果、認識文字取得手段１５６は、文字列「震度４：大阪府大阪市」を取得したものとする。また、このとき、認識文字取得手段１５６は、取得した文字列「震度４：大阪府大阪市」のスコア「９５％」を算出していたものとする。

次に、出力部１６は、文字認識部１５が取得した文字列「震度４：大阪府大阪市」のスコア「９５％」が、出力条件「スコア≧９０％」を満たすと判断し、当該文字列「震度４：大阪府大阪市」を、音声合成により音声化し、当該音声を出力する。

（例２）
まず、ユーザが、テレビの電源をＯＮにし、リモコンを操作し、４チャネルを表示したとする。すると、受信部１３は、チャンネル番号「４」が対応付いている映像情報を受信し続ける。

次に、音声検知部１４は、音声検知情報格納部１２から、図５の音声検知情報のうち、チャンネル番号「４」を有する「ＩＤ＝０１１」の音声検知情報「ピーピーピー」を取得する。以降、文字領域検出手段１５４等は、例１と同様に、チャンネル番号「４」を有する各種情報を取得するものとする。

次に、音声検知部１４は、取得した音声検知情報「ピーピーピー」に合致する受信音声を検知したとする。すると、文字認識部１５は、当該検知後から、受信部１３が受信している画像情報を取得する。ここで、文字変化周期情報格納手段１５２に格納されている文字出現情報が「１５０フレーム」であったとする。すると、文字認識部１５は、当該検知後から、１５０フレーム分の受信画像を取得する。ここで、取得した２以上の受信画像中に文字列が出現し、かつ当該文字列が「大阪府北大阪大雨洪水警報」であるとする。また、当該文字が、当該２以上の受信画像により点滅しているとする。

次に、文字領域検出手段１５４は、取得した１５０フレーム分の各受信画像から、取得した図６の「ＩＤ＝０１１」の文字領域情報が有する２つの座標が示す矩形領域「（２０，２０），（１９４０，３６０）」を検出する。

次に、文字認識手段１５５は、取得した１５０フレーム分の各受信画像のうち、取得した図７の「ＩＤ＝０１１」の文字変化周期情報「２０フレーム／点滅」に従い、文字が出現しているフレームごとに、当該受信画像から一の文字列を取得する。文字認識手段１５５は、例えば、１フレーム目から２０フレーム目までの受信画像からは、文字列を取得する。また、文字認識手段１５５は、２１フレーム目から４０フレーム目までの受信画像からは、文字列を取得しない。このようにして、文字認識手段１５５は、各受信画像から一の文字列を取得する。なお、このとき、文字認識手段１５５は、例１と同様に、取得した１以上の文字認識用語のいずれかを含まない文字列は取得しない。また、このとき、文字認識手段１５５は、例１と同様に、各受信画像から取得した各文字列が有する各文字について、当該文字のスコアを算出する。

以降、認識文字取得手段１５６が、文字認識手段１５５が取得した２以上の文字列を用いて一の文字列を取得し、出力部１６が、当該取得した一の文字列を出力するが、当該処理の手順などは、例１と同様であるので、説明を省略する。

（例３）
まず、ユーザが、テレビの電源をＯＮにし、リモコンを操作し、８チャネルを表示したとする。すると、受信部１３は、チャンネル番号「８」が対応付いている映像情報を受信し続ける。

次に、音声検知部１４は、音声検知情報格納部１２から、図５の音声検知情報のうち、チャンネル番号「８」を有する「ＩＤ＝０１３」の音声検知情報「ピーピッピピー」を取得する。以降、文字領域検出手段１５４等は、例１と同様に、チャンネル番号「８」を有する各種情報を取得するものとする。

次に、音声検知部１４は、取得した音声検知情報「ピーピッピピー」に合致する受信音声を検知したとする。すると、文字認識部１５は、当該検知後から、受信部１３が受信している画像情報を取得する。ここで、文字変化周期情報格納手段１５２に格納されている文字出現情報が「２４０フレーム」であったとする。すると、文字認識部１５は、当該検知後から、２４０フレーム分の受信画像を取得する。ここで、取得した２以上の受信画像中に文字列が出現し、かつ当該文字列が「大阪府大阪市に暴風注意報が発令されました」であるとする。また、当該文字が、当該２以上の受信画像により１文字ずつ出現しているとする。

次に、文字領域検出手段１５４は、取得した２４０フレーム分の各受信画像から、取得した図６の「ＩＤ＝０１３」の文字領域情報が有する２つの座標が示す矩形領域「（２０，２０），（１９４０，３２０）」を検出する。

次に、文字認識手段１５５は、取得した２４０フレーム分の各受信画像のうち、取得した図７の「ＩＤ＝０１３」の文字変化周期情報「１０フレーム／文字」に従い、文字が出現するフレームごとに、当該受信画像から一の文字列を取得する。例えば、文字認識手段１５５は、１フレーム目の受信画像からは、文字列を取得する。また、文字認識手段１５５は、２フレーム目から１０フレーム目までの受信画像からは、文字列を取得しない。また、文字認識手段１５５は、１１フレーム目の受信画像からは、文字列を取得する。また、文字認識手段１５５は、１２フレーム目から２０フレーム目までの受信画像からは、文字列を取得しない。このようにして、文字認識手段１５５は、各受信画像から一の文字列を取得する。なお、このとき、文字認識手段１５５は、例１と同様に、取得した１以上の文字認識用語のいずれかを含まない文字列は取得しない。また、このとき、文字認識手段１５５は、例１と同様に、各受信画像から取得した各文字列が有する各文字について、当該文字のスコアを算出する。

以上、本実施の形態によるテレビジョン装置１によれば、映像中の文字を認識し、出力することができる。これにより、例えば、視覚障害者の方でも、ニュース速報や緊急速報などのテロップが示す内容を知ることができる。

また、本実施の形態によるテレビジョン装置１によれば、映像中の文字を、精度良く認識し、出力することができる。

また、本実施の形態によるテレビジョン装置１によれば、映像中の文字を認識し、緊急性や重要性があるか否かを判断し、緊急性や重要性があると判断した場合のみ、認識した文字を出力することができる。

なお、本実施の形態において、テレビジョン装置１は、図９のブロック図に示すテレビジョン装置２であってもよい。当該テレビジョン装置２は、画像と音声とを対応付けて有する１以上の映像情報と、文字列とが格納される映像情報格納部２１と、前記映像情報と文字列とを受信し、前記映像情報格納部２１に蓄積する受信部２３と、前記映像情報と、前記文字列とを出力する出力部２６とを備え、前記出力部２６は、前記文字列を音声出力し、かつ当該音声を、前記映像情報が有する音声の音量よりも大きい音量で出力するテレビジョン装置２である。

なお、以下、テレビジョン装置２が備える各部について説明するが、テレビジョン装置１が備える各部と同名の部について、重複する説明を省略する。

映像情報格納部２１には、映像情報と、文字列とが格納される。なお、当該映像情報は、画像と音声と文字列とを対応付けて有する情報であってもよい。また、当該映像情報は、画像と音声とが対応付いていればよく、文字列は対応付いていなくてもよい。

また、受信部２３は、１以上または２以上の映像情報と、１以上の文字列とを受信する。また、受信部２３は、通常、受信した映像情報と文字列とを、映像情報格納部２１に蓄積する。

また、出力部２６は、映像情報格納部２１に格納されている映像情報を出力する。また、出力部２６は、映像情報格納部２１に格納されている文字列を出力する。文字列を出力する場合、出力部２６は、通常、当該文字列を音声合成により音声に変換し、文字列音声を取得し、当該文字列音声を出力する。また、文字列音声を出力する場合、出力部２６は、通常、受信音声の音量よりも大きい音量で、当該文字列音声を出力する。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の媒体で実現されてもよいことは言うまでもない。

また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよいし、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよいし、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。

また、上記各実施の形態におけるテレビジョン装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、所定の音声を検知するための情報である１以上の音声検知情報が格納されており、コンピュータを、音声と画像とを対応付けて有する情報である１以上の映像情報を受信する受信部と、前記受信部が受信した映像情報が有する音声であり、前記音声検知情報に合致する音声を検知する音声検知部と、前記音声検知情報に合致する音声の検知後に、前記受信部が受信した１以上の映像情報が有する画像に対して文字認識を行い、一の文字列を取得する文字認識部と、前記文字認識部が取得した文字列を出力する出力部として機能させるためのプログラムである。

なお、上記プログラムにおいて、ハードウェアでしか行われない処理は少なくとも含まれない。

また、上記プログラムは、サーバなどからダウンロードされることによって実行されてもよいし、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

また、上記プログラムを実行するコンピュータは、単数であってもよいし、複数であってもよい。つまり、集中処理を行ってもよいし、あるいは分散処理を行ってもよい。

また、図１０は、前述のプログラムを実行して、前述の実施の形態のテレビジョン装置等を実現するコンピュータシステム９の概観図である。前述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。

図１０において、コンピュータシステム９は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ９０１１、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ９０１２を含むコンピュータ９０１と、キーボード９０２と、マウス９０３と、モニタ９０４とを備える。

図１１は、コンピュータシステム９のブロック図である。図１１において、コンピュータ９０１は、ＣＤ−ＲＯＭドライブ９０１１、ＦＤドライブ９０１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１３と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）９０１４と、ＣＰＵ９０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０１５と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク９０１６と、ＣＤ−ＲＯＭドライブ９０１１、ＦＤドライブ９０１２、ＣＰＵ９０１３等を相互に接続するバス９０１７とを備える。ここでは図示しないが、コンピュータ９０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを備えていてもよい。

コンピュータシステム９に、前述の実施の形態のテレビジョン装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ９１０１、またはＦＤ９１０２に記憶されて、ＣＤ−ＲＯＭドライブ９０１１またはＦＤドライブ９０１２に挿入され、さらにハードディスク９０１６に転送されてもよい。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ９０１に送信され、ハードディスク９０１６に記憶されてもよい。プログラムは実行の際にＲＡＭ９０１５にロードされる。プログラムは、ＣＤ−ＲＯＭ９１０１、ＦＤ９１０２またはネットワークから直接、ロードされてもよい。

プログラムは、コンピュータ９０１に、前述の実施の形態のテレビジョン装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいればよい。コンピュータシステム９がどのように動作するかは周知であり、詳細な説明は省略する。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかるテレビジョン装置は、映像中の文字を認識し、出力することができる。これにより、例えば、視覚障害者の方でも、ニュース速報や緊急速報などのテロップが示す内容を知ることができるという効果を有し、いわゆるテレビや、テレビチューナー、ハードディスク・レコーダーやブルーレイディスク・レコーダーなどの映像録画再生機等として有用である。

１テレビジョン装置
１１映像情報格納部
１２音声検知情報格納部
１３受信部
１４音声検知部
１５文字認識部
１６出力部
１５１文字領域情報格納手段
１５２文字変化周期情報格納手段
１５３文字認識用語格納手段
１５４文字領域検出手段
１５５文字認識手段
１５６認識文字取得手段

Claims

所定の音声を検知するための情報である１以上の音声検知情報が格納される音声検知情報格納部と、
画像と音声とを対応付けて有する２以上の映像情報を受信する受信部と、
前記受信部が受信した映像情報が有する音声であり、前記音声検知情報に合致する音声を検知する音声検知部と、
前記音声検知情報に合致する音声の検知後に、前記受信部が受信した２以上の映像情報が有する画像に対して文字認識を行い、一の文字列を取得する文字認識部と、
前記文字認識部が取得した文字列を出力する出力部とを具備し、
前記文字認識部は、
連続する２以上の画像中の文字の変化の周期を示す１以上の文字変化周期情報が格納される文字変化周期情報格納手段と、
前記受信部が受信した２以上の各映像情報が有する２以上の各画像に対して文字認識を行い、２以上の文字列を取得する文字認識手段と、
前記文字変化周期情報格納手段に格納されている文字変化周期情報で示される周期に従い、前記文字認識手段が２以上の各画像から取得した２以上の文字列を用いて一の文字列を取得する認識文字取得手段とを具備するテレビジョン装置。
前記文字変化周期情報は、連続する２以上の画像中の文字列がスクロールする周期を示す文字スクロール周期情報であり、
前記認識文字取得手段は、
前記文字変化周期情報格納手段に格納されている文字スクロール周期情報で示される周期に従い、前記文字認識手段が２以上の各画像から取得した２以上の文字列を用いて、一の文字列を取得する請求項１記載のテレビジョン装置。
前記文字変化周期情報は、連続する２以上の画像中の文字列が点滅する周期を示す文字点滅周期情報であり、
前記認識文字取得手段は、
前記文字変化周期情報格納手段に格納されている文字点滅周期情報で示される周期に従い、前記文字認識手段が２以上の各画像から取得した２以上の文字列を用いて一の文字列を取得する請求項１記載のテレビジョン装置。
前記文字変化周期情報は、連続する２以上の画像中の文字列が出現する周期を示す文字出現周期情報であり、
前記認識文字取得手段は、
前記文字変化周期情報格納手段に格納されている文字出現周期情報で示される周期に従い、前記文字認識手段が２以上の各画像から取得した２以上の文字列を用いて一の文字列を取得する請求項１記載のテレビジョン装置。
前記文字認識部は、
前記文字認識を行う際に、前記一の文字列または当該一の文字列に含まれる１以上の文字の文字認識の精度を示すスコアを算出し、
前記出力部は、
前記文字認識部が算出したスコアが、予め決められた条件を満たすほど高いスコアである場合にのみ、前記文字認識部が取得した一の文字列を出力する請求項１から請求項４いずれか記載のテレビジョン装置。
前記出力部は、
前記文字認識部が取得した一の文字列を音声に変換して文字列音声を取得し、当該文字列音声を出力する請求項１から請求項５いずれか記載のテレビジョン装置。
前記出力部は、
前記文字認識部が取得した一の文字列を音声に変換して取得した文字列音声を、前記映像情報が有する音声の音量よりも大きい音量で出力する請求項６記載のテレビジョン装置。
前記出力部は、
前記映像情報が有する音声の音量を０にし、前記文字認識部が取得した一の文字列を音声に変換して取得した文字列音声を出力する請求項７記載のテレビジョン装置。
記録媒体に、
所定の音声を検知するための情報である１以上の音声検知情報と、連続する２以上の画像中の文字の変化の周期を示す１以上の文字変化周期情報とが格納されており、
受信部と、音声検知部と、文字認識部と、出力部とを用いて行われる情報処理方法であって、
前記受信部が、音声と画像とを対応付けて有する情報である２以上の映像情報を受信する受信ステップと、
前記音声検知部が、前記受信部が受信した映像情報が有する音声であり、前記音声検知情報に合致する音声を検知する音声検知ステップと、
前記文字認識部が、前記音声検知情報に合致する音声の検知後に、前記受信ステップで受信された２以上の映像情報が有する画像に対して文字認識を行い、一の文字列を取得する文字認識ステップと、
前記出力部が、前記文字認識部が取得した文字列を出力する出力ステップとを具備し、
前記文字認識ステップは、
前記受信ステップで受信された２以上の各映像情報が有する２以上の各画像に対して文字認識を行い、２以上の文字列を取得する文字認識サブステップと、
前記記録媒体に格納されている文字変化周期情報で示される周期に従い、前記文字認識サブステップで２以上の各画像から取得した２以上の文字列を用いて一の文字列を取得する認識文字取得サブステップとを具備する情報処理方法。
記録媒体に、
所定の音声を検知するための情報である１以上の音声検知情報が格納されており、
コンピュータを、
音声と画像とを対応付けて有する情報である２以上の映像情報を受信する受信部と、
前記受信部が受信した映像情報が有する音声であり、前記音声検知情報に合致する音声を検知する音声検知部と、
前記音声検知情報に合致する音声の検知後に、前記受信部が受信した２以上の映像情報が有する画像に対して文字認識を行い、一の文字列を取得する文字認識部と、
前記文字認識部が取得した文字列を出力する出力部として機能させるためのプログラムであって、
前記文字認識部は、
連続する２以上の画像中の文字の変化の周期を示す１以上の文字変化周期情報が格納される文字変化周期情報格納手段と、
前記受信部が受信した２以上の各映像情報が有する２以上の各画像に対して文字認識を行い、２以上の文字列を取得する文字認識手段と、
前記文字変化周期情報格納手段に格納されている文字変化周期情報で示される周期に従い、前記文字認識手段が２以上の各画像から取得した２以上の文字列を用いて一の文字列を取得する認識文字取得手段とを具備するものとして、コンピュータを機能させるためのプログラム。