JP2009130899A - Image playback apparatus - Google Patents
Image playback apparatus Download PDFInfo
- Publication number
- JP2009130899A JP2009130899A JP2007307108A JP2007307108A JP2009130899A JP 2009130899 A JP2009130899 A JP 2009130899A JP 2007307108 A JP2007307108 A JP 2007307108A JP 2007307108 A JP2007307108 A JP 2007307108A JP 2009130899 A JP2009130899 A JP 2009130899A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- character area
- unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Description
本発明は、動画像からテキストデータを抽出し、抽出したテキストデータから直接外部に対してアクセス可能な画像再生装置に関する。 The present invention relates to an image reproducing apparatus that extracts text data from a moving image and can directly access the outside from the extracted text data.
近年の携帯電話では、ワンセグ放送などのテレビ放送が視聴可能であるものや、フルブラウジング機能を有しているものが数多く提案されている。ワンセグ放送において、特にコマーシャルメッセージ(以下、CMとする)部分にはフリーダイアルなどの電話番号、インターネット上のURL(Uniform Resource Locator)や検索ワードなどの情報が含まれることが多い。CMに関心をもった視聴者やユーザーは、これらの情報を記憶し、別のステップで電話やWeb(World Wide Web)にアクセスする必要があった。 In recent years, many mobile phones have been proposed that can watch TV broadcasts such as one-segment broadcasting and those that have a full browsing function. In one-segment broadcasting, in particular, a commercial message (hereinafter referred to as CM) portion often includes information such as a telephone number such as a free dial, a URL (Uniform Resource Locator) on the Internet, and a search word. Viewers and users who are interested in the CM need to store this information and access the telephone and the Web (World Wide Web) in another step.
従来の携帯電話における情報を記録する手段として、例えば、携帯電話などの画像再生装置に内蔵されているデジタルカメラで名刺や時刻表などを撮影し、その情報を画像形式のデータとして保存・活用しているものがある。また、例えば、携帯電話に内蔵されているデジタルカメラで撮影した画像形式のデータを、光学式文字認識(OCR:Optical Character Recognition)と組み合わせてテキスト形式のデータベースとして保存することによって、保存した情報が変更されたときなどに更新を容易にすることができる装置および方法が提案されている(例えば、特許文献1参照)。 As a means of recording information in a conventional mobile phone, for example, a business card or timetable is photographed with a digital camera built in an image playback device such as a mobile phone, and the information is stored and utilized as image format data. There is something that is. In addition, for example, data in an image format captured by a digital camera built in a mobile phone is stored as a text format database in combination with optical character recognition (OCR), so that the stored information can be stored. There has been proposed an apparatus and a method that can be easily updated when changed (see, for example, Patent Document 1).
特許文献1では、携帯電話に内蔵されているデジタルカメラを用いて情報を記録することについて記載されており、ワンセグ放送中に表示される情報を記録することについての記載がなされていない。 Patent Document 1 describes recording information using a digital camera built in a mobile phone, and does not describe recording information displayed during one-segment broadcasting.
ユーザーが電話番号、URL、検索ワードを正確に記録しておくことには困難が多い。また、電車などの移動体の中で携帯電話でワンセグ放送を視聴した場合に、移動体の揺れや画面に表示されている情報の解像度の低さが原因となって読み取ることが難しく、見逃してしまうことも多い。 It is often difficult for a user to accurately record a telephone number, URL, and search word. Also, when watching 1Seg broadcasting with a mobile phone in a moving body such as a train, it is difficult to read due to the shaking of the moving body and the low resolution of the information displayed on the screen. It often ends up.
本発明は、これらの問題を解決するためになされたもので、ワンセグ放送などの動画像から、電話番号、URL、検索ワードなどをテキストデータとして抽出することによって電話やWebにアクセス可能な画像再生装置を提供することを目的とする。 The present invention has been made to solve these problems, and by reproducing a telephone number, a URL, a search word, and the like as text data from a moving image such as one-segment broadcasting, image reproduction that can be accessed on the telephone or the Web. An object is to provide an apparatus.
上記の課題を解決するために、本発明による画像再生装置は、入力された画像情報から文字を含む領域を文字領域画像として抽出する文字領域抽出手段と、文字領域抽出手段にて抽出された文字領域画像を記憶する文字領域画像蓄積手段と、文字領域画像に含まれる文字を加工する文字領域加工手段と、文字領域加工手段にて加工された文字領域画像から文字を認識して文字テキストデータを生成する文字認識手段と、文字認識手段にて生成された文字テキストデータを記憶する文字情報蓄積手段と、画像情報や、文字テキストデータあるいは文字領域画像に関する操作メニューを表示する表示手段と、外部から入力操作を行うキー入力手段と、キー入力手段の入力指示に基づいて各動作部を制御する制御手段とを備えることを特徴とする。 In order to solve the above-described problems, an image reproduction apparatus according to the present invention includes a character area extraction unit that extracts a region including a character from the input image information as a character region image, and a character extracted by the character region extraction unit. Character area image storage means for storing area images, character area processing means for processing characters included in the character area image, and character text data by recognizing characters from the character area image processed by the character area processing means A character recognizing means to be generated, a character information accumulating means for storing character text data generated by the character recognizing means, a display means for displaying an operation menu relating to image information, character text data or character area image, and externally It is characterized by comprising key input means for performing an input operation, and control means for controlling each operation unit based on an input instruction of the key input means.
本発明によると、文字領域抽出手段は入力された画像情報から文字を含む領域を文字領域画像として抽出し、文字領域画像蓄積手段は文字領域抽出手段にて抽出された文字領域画像を記憶し、文字領域加工手段は文字領域画像に含まれる文字を加工し、文字認識手段は文字領域加工手段にて加工された文字領域画像から文字を認識して文字テキストデータを生成し、文字情報蓄積手段は文字認識手段にて生成された文字テキストデータを記憶するため、ワンセグ放送などの動画像から、電話番号、URL、検索キーワードなどをテキストデータとして抽出することによって電話やWebにアクセス可能となる。 According to the present invention, the character area extraction unit extracts a region including characters from the input image information as a character region image, the character region image storage unit stores the character region image extracted by the character region extraction unit, The character area processing means processes characters included in the character area image, the character recognition means recognizes characters from the character area image processed by the character area processing means, generates character text data, and the character information storage means Since character text data generated by the character recognition means is stored, a telephone number, a URL, a search keyword, and the like are extracted as text data from a moving image such as one-segment broadcasting, thereby enabling access to the telephone or the Web.
本発明の実施形態について、図面を用いて以下に説明する。 Embodiments of the present invention will be described below with reference to the drawings.
〈実施形態1〉
図1は、本発明の実施形態1による画像再生装置101の構成を示すブロック図である。図1に示すように、画像再生装置101は、入力された画像データ(画像情報)を1フレームごとに記録するフレームメモリ1と、CM期間を検出するCM期間検出部2(CM期間検出手段)と、入力された画像データから文字を含む領域を文字領域画像として抽出する文字領域抽出部3(文字領域抽出手段)と、文字領域抽出部3にて抽出された文字領域画像を記憶する文字領域画像蓄積部4(文字領域蓄積手段)と、文字領域画像に含まれる文字を加工する文字領域加工部5(文字領域加工手段)と、文字領域加工部5にて加工された文字領域画像から文字を認識して文字テキストデータ(テキストデータ)を生成する文字認識部6(文字認識手段)と、文字認識部6にて生成された文字テキストデータを記憶する文字情報蓄積部7(文字情報蓄積手段)と、画像データや操作メニューを表示する表示部10(表示手段)と、外部から入力操作を行うキー入力部9(キー入力手段)と、キー入力部9の入力指示に基づいて各動作部を制御する制御部8(制御手段)とからなる。
<Embodiment 1>
FIG. 1 is a block diagram showing a configuration of an image reproduction apparatus 101 according to Embodiment 1 of the present invention. As shown in FIG. 1, an image reproducing device 101 includes a frame memory 1 that records input image data (image information) for each frame, and a CM period detector 2 (CM period detector) that detects a CM period. A character region extraction unit 3 (character region extraction means) that extracts a region including characters from the input image data as a character region image, and a character region that stores the character region image extracted by the character
本発明の実施形態1の特徴は、画像データが入力されている間、制御部8はキー入力部9の入力指示に基づいて文字情報蓄積部7に記憶されているテキストデータを選択し、選択したテキストデータに含まれる電話番号による電話接続、アドレスまたはキーワードによるインターネット接続を行うことである。
The feature of Embodiment 1 of the present invention is that, while image data is being input, the
フレームメモリ1は、SDRAMなどのメモリからなり、MPEG4(Moving Picture Experts Group 4)などで符号化された映像コンテンツを復号化した後に入力された画像データを1フレーム単位で記録する。フレームメモリ1から読み出された画像データは、順次、CM期間抽出部2に入力される。
The frame memory 1 is composed of a memory such as SDRAM, and records image data input after decoding video content encoded by MPEG4 (Moving Picture Experts Group 4) or the like in units of one frame. The image data read from the frame memory 1 is sequentially input to the CM
CM期間検出部2は、CMの特徴であるステレオ放送への切り替わり時や、放送番組がCMに移り変わるときに存在する無音期間を検出することによって、放送番組の合間であるCM期間を検出する。また、CM毎に挿入されている無音期間の検出や、CM期間の15秒間や30秒間のカウント、2フレームの画像データ間におけるヒストグラムの変化などから映像の切り替わり(シーンチェンジ)を検出した結果などを合わせて用いると、より正確なCM期間の検出が可能となる。CM期間検出部2にて検出された画像データであるCM映像は、フレームメモリ1から読み出されて文字領域抽出部3に入力される。
The CM
なお、本発明の実施形態において、放送番組などの動画像に表示される電話番号、URL、検索ワードは、主にCM期間中に表示されることが多いため、CM期間検出部2にて検出したCM映像のみを文字領域抽出部3に出力しているが、CM以外の番組中に表示される検索ワードなども検出して利用する場合には、CM期間検出部2による処理を省略してもよい。
In the embodiment of the present invention, since the telephone number, URL, and search word displayed on a moving image such as a broadcast program are often displayed mainly during the CM period, the CM
次に、文字領域抽出部3について詳細に説明する。
Next, the character
文字領域抽出部3では、入力された画像データから文字を含む領域を文字領域画像として抽出している。文字領域画像中の文字は、ほとんど変化がないか、または動かないことが特徴である。そのため、入力された画像データのフレームと直前に入力された画像データのフレームとを比較し、変化が少ないかまたは変化がない領域が文字領域画像である可能性が高い。
The character
文字領域画像を抽出する方法としては、文字らしさの指標を利用して文字領域画像を限定する。文字らしさの指標とは、
・周波数成分が高い、すなわち、入力された画像データを分割した領域内において検出されるエッジの数が多い。
・文字の線の太さ分だけ同一画素値が連続する。すなわち、文字の輪郭内の画素値は略一様である。
・文字の輪郭に対して矩形処理を行うと、矩形が一定間隔で整列されている。
などがある。
As a method of extracting the character area image, the character area image is limited using an index of character character. What is the character quality indicator?
-The frequency component is high, that is, the number of edges detected in a region obtained by dividing the input image data is large.
-The same pixel value continues for the thickness of the character line. That is, the pixel values in the outline of the character are substantially uniform.
-When rectangle processing is performed on the outline of a character, the rectangles are aligned at regular intervals.
and so on.
図2は、本発明の実施形態1による文字領域抽出部3の構成を示すブロック図である。図2に示すように、文字領域抽出部3は、エッジ抽出部301、2値化部302、2値情報保持部303、エッジ静止検出部304、エッジ動き検出部305、文字らしさ判定部306、静止領域保持部307、動き領域保持部308、文字領域入力検出部309、文字領域消滅検出部310、文字領域検出部311、ラベリング/矩形整形部312とからなる。
FIG. 2 is a block diagram showing the configuration of the character
エッジ抽出部301は、SobelフィルタやPrewittフィルタなどの空間フィルタを用いることによって、文字領域画像中に含まれるエッジ情報を抽出する。
The
エッジ抽出部301にて抽出されたエッジ情報は、2値化部302によって白と黒の2値で表現される。このとき、例えば、エッジを白(1)、それ以外を黒(0)としてもよい。2値化を行った結果、文字領域画像の情報量が削減され、後の処理が簡易化される。
The edge information extracted by the
なお、2値化の方法は、例えば本発明で対象となる文字はCMなどで用いられる強調された文字が多く、これらの文字は高輝度でコントラストが高いため、所定の画素値で2値化を行う固定閾値でも可能である。また、文字が背景と比べて、高輝度、もしくは、コントラストが高いという特徴を持たない場合、着目画素の近傍の画素値の平均を求め、平均値との大小関係から2値化する自動2値化処理方法(可変閾値法や適応閾値法)などを適用することで改善されることがあるなど、最適な2値化法は入力画像の特徴によって異なるため、選択的に2値化の方法を適用することが理想的である。 In the binarization method, for example, there are many emphasized characters used in CM or the like as target characters in the present invention, and these characters are binarized with a predetermined pixel value because they have high brightness and high contrast. It is also possible to use a fixed threshold value for performing. In addition, when the character does not have a feature of high brightness or high contrast compared to the background, an automatic binary that obtains an average of pixel values in the vicinity of the pixel of interest and binarizes it from the magnitude relationship with the average value. The optimal binarization method varies depending on the characteristics of the input image. For example, the binarization method can be selectively used. Ideal to apply.
2値情報保持部303では、入力された画像データの1フレーム前の2値情報が保持されている。 The binary information holding unit 303 holds binary information of one frame before the input image data.
エッジ静止検出部304では、2値化部302における現フレームの2値情報と、2値情報保持部303における1フレーム前の2値情報とを比較し、エッジが静止していることを検出する。例えば、フレーム内の各画素単位ごとに、2値化部302の2値情報が白(1)、2値情報保持部303の2値情報が白(1)の、ともにエッジである箇所を検出する。検出結果として、静止しているエッジ情報を示すフラグを1、それ以外は0などと2値表現する。
The edge
エッジ動き検出部305では、2値化部302における現フレームの2値情報と、2値情報保持部303における1フレーム前の2値情報とを比較し、エッジが動いたことを検出する。例えば、2値情報保持部303の2値情報が白(1)であった画素が、2値化部302の2値情報では黒(0)となった画素を検出する。あるいは、2値情報保持部303の2値情報が黒(0)であった画素が、2値化部302の2値情報では白(1)となった画素を検出する。または、2値情報保持部303と2値化部302との2値情報を比較し、白(1)から黒(0)、および黒(0)から白(1)となった箇所を検出する。検出結果として、動きのあったエッジ情報を示すフラグを1、それ以外は0などと2値表現する。
The edge
文字らしさ判定部306では、例えば、4ピクセル×4ピクセルに領域を分割し、文字が存在する領域ではエッジの数が多くて高周波であることを利用し、各領域内において静止していたエッジおよび動きのあったエッジが何%(所定の閾値以上)あるかによって文字らしさを判定する。分割された各領域ごとに、静止している文字領域画像および動きのあった文字領域画像を示すフラグを付加する。
The character-
なお、本発明の実施形態では、文字らしさの指標として、分割された領域内でのエッジの数が多いこととしたが、他の文字らしさの指標として前述のような方法を用いてもよい。また、本発明の実施形態では、2値化部302と2値情報保持部303との2値情報を比較することによってエッジの静止および動きを検出し、検出結果に基づいて文字らしさ判定部306で文字らしさを判定しているが、2値化部302および2値情報保持部303で2値化された情報に基づいて文字らしさ判定部306で文字らしさを判定し、判定結果である文字らしい領域においてエッジの静止および動きを検出してもよい。
In the embodiment of the present invention, the number of edges in the divided area is large as a character-like index, but the above-described method may be used as another character-like index. In the embodiment of the present invention, the stationary and moving edges are detected by comparing the binary information of the
静止領域保持部307および動き領域保持部308では、文字らしさ判定部306にて付加された静止している文字領域および動きのあった文字領域を示すフラグをそれぞれ保持している。
The still
文字領域入力検出部309では、現在のエッジが静止しているという情報と、動き領域保持部308に保持されている過去にエッジに動きがあったという情報とから、入力された画像データに文字情報が挿入されたことを検出する。例えば、テロップのように文字情報が挿入された直後の文字領域画像ではエッジに動きがあり、その後エッジが静止する。
The character area
文字領域消滅検出部310では、現在のエッジに動きがあったという情報と、静止領域保持部307に保持されている過去にエッジが静止していたという情報とから、入力画像データから文字情報が消滅したことを検出する。たとえば、テロップのような文字情報が消滅した直前の文字領域画像ではエッジは静止し、その後エッジに動きがある。
The character area
文字領域検出部311では、所定の複数フレーム間においてエッジが静止し、さらに文字らしいと判定される領域を文字領域画像として検出する。文字領域検出部311で検出される文字領域画像は、同様の特徴を持つ背景画像において誤検出が生じる可能性がある。この誤検出を改善するために、文字領域入力検出部309からの出力を保持・蓄積しておきマスク信号として利用する。このマスク信号を利用して、文字領域入力検出部309にて文字領域が挿入されたと判断された文字領域画像以外の領域を文字の検出の対象外とする。一方、文字領域消滅検出部310からの出力によってマスク信号をリセットすることによって、文字領域画像の更新を行う。
The character
文字領域検出部311からの文字領域画像のアドレス、または文字領域画像の画像情報の出力は、文字領域消滅検出部310の出力である文字領域情報更新タイミングで行う。このことは、後の文字領域画像蓄積部4に対して同一または同様の情報を出力しないためである。
The output of the character area image address or the image information of the character area image from the character
なお、文字領域画像蓄積部4の蓄積容量に余裕がある場合などは、上記のタイミングで出力することに限定するものではない。また、文字領域検出部311は、文字領域入力検出部309の出力に基づいて、文字領域が挿入されてから所定の複数フレーム間エッジの静止を検出することによって文字らしいと判断される領域を文字領域画像として検出するようにしてもよい。このとき、文字領域入力検出部309の出力から所定フレーム後を文字領域情報更新タイミングとしてもよい。
In addition, when there is a margin in the storage capacity of the character area
ラベリング/矩形整形部312では、文字領域検出部311から出力された歯抜けの矩形の歯抜け部分を埋め、孤立している領域を除外するために膨張および収縮処理を行なう。さらに、文字領域画像に対してラベリング処理を施すことによって識別情報を付加し、付加された識別情報ごとに面積や矩形の縦横比などを調整することによって、対象とする文字列を絞るなどの処理を行なう。
In the labeling /
以上の処理によって、文字領域画像が始点アドレスと終点アドレスのみから指定されるようになる。その後、フレームメモリ1を介して文字領域画像蓄積部4に文字領域画像が出力される。
With the above processing, the character area image is designated only from the start point address and the end point address. Thereafter, the character area image is output to the character area
文字領域抽出部3から文字領域画像蓄積部4への文字領域画像の記憶は、文字領域消滅検出部310によって文字領域画像の消滅が検出されたときに行ってもよい。また、文字領域入力検出部310によって文字領域画像の挿入が検出されたとき、または文字領域画像の挿入が検出されてから所定画像フレーム後に行ってもよい。
The storage of the character region image from the character
文字認識部6における文字認識は、一般的なフォント辞書などとのパターン照合によって行われるため、高解像度の文字が要求される。また、文字は黒、背景は白といったように、文字と背景との区別が容易なことが要求され、縁取り文字など特殊フォントでは文字認識できないことが多い。そのため、文字領域加工部5では、文字領域画像蓄積部4に記憶された文字領域画像に対して画像処理を行なうことによって、文字画像の品質改善を行う。
Since character recognition in the character recognition unit 6 is performed by pattern matching with a general font dictionary or the like, high-resolution characters are required. In addition, it is required that the character and the background can be easily distinguished, such as black for the character and white for the background. In many cases, the character cannot be recognized by a special font such as a border character. Therefore, the character
次に、文字領域加工部5について詳細に説明する。
Next, the character
図3は、本発明の実施形態1による文字領域加工部3の構成を示すブロック図である。図3に示すように、文字領域加工部5は、文字サイズ判定部501、拡大処理部502、2値化部503、イコライズ処理部504、エッジ強調部505、明るさ/コントラスト調整部506、滲み除去部507からなる。
FIG. 3 is a block diagram showing the configuration of the character
文字サイズ判定部501では、文字間および文字列間(行間)にはエッジが存在しないことを検出することによって、実際の文字の大きさを判定する。例えば、文字領域画像が一行の文字列で構成されている場合と三行で構成されている場合とでは、拡大処理部502で拡大処理を行なうときの拡大率に影響があるため文字サイズの把握が必要である。具体的には、文字領域画像を判定するときよりもさらに分割領域を小さくすることによって、矩形領域内で歯抜け部分として検出する。
The character
拡大処理部502では、文字認識部6にて高い解像度が要求されることに対応するために、少しでも高性能な拡大処理が要求される。データ補間方法としては、3次補間(バイキュービック、Lancoz3)法などのアルゴリズムに対して、さらに斜め線部分で特に生じやすい輪郭のギザギザ(ジャギー)対策を盛り込むなどする。
The
図3Iでの処理は、文字領域抽出部3にて抽出された文字領域画像の背景および文字の各々が、単色またはそれに近いものであり、2値化によって背景と文字の分離が容易であるときに行われる。文字領域画像に対して2値化が容易であるか否かは、文字領域画像の各画素値に関するヒストグラムを調べることによって判定可能である。
The processing in FIG. 3I is performed when the background and characters of the character region image extracted by the character
図3IIでの処理は、背景と文字の分離が容易ではないときに行われる。イコライズ処理部504では、文字領域画像の明度に関するヒストグラムを平均化し、一度ぼやけた画像を作ることになる。その後、エッジ強調部505にてエッジ部分を強調する。明るさ/コントラスト調整部506では、例えば背景が白で文字が黒である場合に、コントラストの高い画像に変換後、明るさ調整で明るい画像とすることによって背景画像との分離が可能となる。
The processing in FIG. 3II is performed when it is not easy to separate the background and the characters. The
図3IIIでの処理は、図3IIでの処理後に2値化部503にて2値化を行い、文字領域画像の背景と文字をよりはっきりと分離する。図3Iの2値化部503での処理も同様であるが、2値化を行うと文字が滲むなど画像の劣化が生じることが多いため、2値化後に滲み除去部507による処理によって文字の線幅を一様にする。
In the processing in FIG. 3III, binarization is performed by the
以上のように、文字領域加工部5にて画像処理を行なった文字領域画像は、文字認識部6に出力される。
As described above, the character area image subjected to image processing by the character
文字認識部6では、フォント辞書などに対してパターン照合を行うことによって文字認識が行われる。ワンセグ放送のCM中に表示される電話番号、URL、検索ワードといった文字列は解像度が不足しているため、このような文字列を認識する方法として、
・パターン照合の方法を最適化する。
・対象となる文字列を、数字または英文字(アルファベット)に限定する。
・辞書に含まれる文字レベル(漢字レベル)を下げる。
などによって最適化を行う。文字認識部6にて文字認識されてテキストデータとして抽出された文字情報は、文字情報蓄積部7に記憶される。なお、文字認識部6で文字認識を完了したら、直ちに「文字認識を完了しました!」などと表示してユーザーに対して知らせるように構成してもよい。
The character recognition unit 6 performs character recognition by performing pattern matching on a font dictionary or the like. Since character strings such as phone numbers, URLs, and search words displayed during one-segment broadcasting commercials lack resolution, as a method for recognizing such character strings,
• Optimize the pattern matching method.
・ Limit the target character string to numbers or English letters (alphabet).
-Lower the character level (kanji level) included in the dictionary.
Optimize by such as. Character information that has been recognized by the character recognition unit 6 and extracted as text data is stored in the character information storage unit 7. In addition, when the character recognition is completed by the character recognition unit 6, it may be configured to immediately notify the user by displaying “character recognition completed!” Or the like.
ワンセグ放送の映像から抽出された文字には、文字認識部6にて100%正確な文字認識ができずに誤認識をした文字も含まれ得る。前述のように、文字領域画像蓄積部4に記憶される文字領域画像は文字領域抽出部3での処理結果であるため、例えば、文字領域画像を文字領域抽出部3の文字領域入力検出部309および文字領域消滅検出部310の各々から出力される文字領域情報更新タイミングに従って文字領域画像蓄積部4に記憶させる場合には、同じ情報が2つ記憶されることになる。しかし、文字領域入力検出部309からの文字領域情報更新タイミングと文字領域消滅検出部310からの文字領域情報更新タイミングとは画像データのフレームが異なって背景画像が変化しているため、2つのうちのいずれか一方は正確な検出ができていないことがあり得る。従って、処理時間とメモリの容量が許す限り、複数のフレームデータから文字認識を行うことは文字認識の精度向上の観点からも望ましい方法である。
The characters extracted from the one-segment broadcast video may include characters that are not recognized 100% correctly by the character recognition unit 6 and are erroneously recognized. As described above, since the character area image stored in the character area
本発明の実施形態では、表示部10にてワンセグ放送などの映像再生と並行して、フレームメモリ1からフレーム画像を一定間隔で読み出し、電話番号、URL、検索ワードを抽出して文字認識していることを想定している。CM中には常に文字領域画像を抽出して文字認識を行い、文字情報をテキストデータとして文字情報蓄積部7に記憶するように構成しているため、例えば、
・電話番号:数字のみ、0120−で始まる。
・URL:アルファベット文字列が大半、wwwや.comが含まれる。
・検索ワード:上記以外の文字列
というように、文字情報を解析することによって、例えば電話番号、URL、検索ワードに分類することができる。
In the embodiment of the present invention, frame images are read from the frame memory 1 at regular intervals in parallel with video playback such as one-segment broadcasting on the
Phone number: numbers only, starting with 0120-
・ URL: Most of alphabet letters, www and. com.
Search word: By analyzing character information such as a character string other than the above, it can be classified into, for example, a telephone number, a URL, and a search word.
次に、放送番組を視聴するユーザーが、アクセスしたいキーワードを選択する際の動作について説明する。 Next, an operation when a user who views a broadcast program selects a keyword to be accessed will be described.
図4は、本発明の実施形態1によるユーザーの操作を示す模式図である。ユーザーはキー入力部9を介して表示部10に表示される操作メニューの操作を行っている。ここで、操作メニューは、文字テキストデータあるいは文字領域画像に関する情報を表示している。
FIG. 4 is a schematic diagram illustrating a user operation according to the first embodiment of the present invention. The user operates the operation menu displayed on the
図4(a)において、ユーザーは視聴中または視聴していたCMに対して興味を抱いて電話やWebにアクセスするとき、”キーワードリンク”ボタンAを押下する。左右ボタンBを押下することによって、”電話番号”、”URL”、”検索ワード”と分類されている中から、ユーザーの目的に合った1つを選択する。例えば、図4(a)の”電話番号”の状態から、左右ボタンBを押下することにより図4(b)に示すような”検索ワード”を選択して表示させている。 In FIG. 4A, the user presses the “keyword link” button A when accessing the telephone or the Web with interest in the CM being watched or watched. By pressing the left / right button B, one that is classified into “phone number”, “URL”, and “search word” is selected according to the purpose of the user. For example, from the state of “telephone number” in FIG. 4A, the “search word” as shown in FIG. 4B is selected and displayed by pressing the left / right button B.
このとき、制御部8では”キーワードリンク”ボタンAが押下されたことを検出すると、文字情報蓄積部7に記憶されているテキストデータから電話番号を読み出し、表示部10の表示を”電話番号”とする。そして、ユーザーが左右ボタンBを押下して”検索ワード”を選択したことを検出すると、文字情報蓄積部9に記憶されているテキストデータから検索ワードを読み出し、表示部10の表示を”検索ワード”とする。
At this time, when the
図4(b)において、ユーザーは、上下ボタンCを押下することによって”検索ワード”の一覧から所望の文字列を選択する。 In FIG. 4B, the user selects a desired character string from the “search word” list by pressing the up / down button C.
図4(c)において、表示部10には”検索ワード”の一覧とともに、「選択したキーワードに誤りはないですか?」などの確認を促すメッセージを表示する。選択した文字列に誤りがない場合には「はい」を選択して決定する。このとき、キー入力部9から「はい」を選択して決定すると、制御部8によってブラウザの検索エンジンを介してWebにアクセスする。なお、”電話番号”の場合には電話接続を、URL(アドレス)の場合にはWebに直接アクセスする。
In FIG. 4C, a message prompting confirmation such as “Is the selected keyword correct?” Is displayed on the
また、文字の誤認識によって表示部10に表示される電話番号や検索ワードに誤りがある場合には、キー入力部9によって「いいえ」を選択して決定すると、ユーザーが電話番号や検索ワードを修正できる状態となる。
If there is an error in the phone number or the search word displayed on the
その後、図4(d)の修正入力箇所Dにてユーザーは自分で修正を行い、修正が完了すると電話やWebにアクセスする”リンク”キーを押下して決定キーEを押下すると、制御部8はWebにアクセスする。
Thereafter, the user corrects himself / herself at the correction input portion D in FIG. 4D, and when the correction is completed, the user presses the “link” key for accessing the telephone or the Web, and presses the decision key E, thereby controlling the
ユーザーが自分で検索ワードを修正する場合には、図4(d)に示すような文字領域のオリジナル画像を表示することによって、ユーザーが修正するときにオリジナル画像を見ながら入力するべき文字を確認することができる。また、図5(e)に示すように、電話番号を修正する場合には、単なる数字の羅列ではどこの電話番号なのか判断できなくなるため、選択した電話番号が表示されているフレーム画像を縮小表示する。 When the user modifies the search word by himself / herself, by displaying the original image of the character area as shown in FIG. 4D, the user confirms the characters to be input while viewing the original image when correcting can do. Further, as shown in FIG. 5E, when correcting a telephone number, it is impossible to determine which telephone number is based on a simple enumeration of numbers, so the frame image on which the selected telephone number is displayed is reduced. indicate.
なお、図5(f)に示すように、文字領域のオリジナル画像やフレームの縮小画像は、ユーザーがアクセスしたい文字列を一覧から選択する際に同時に表示するようにしてもよい。また、図示していないが、同様の目的のために、選択した電話番号が表示されているCMの音声をユーザーは聴くことができるようにしてもよい。 As shown in FIG. 5F, the original image of the character region and the reduced image of the frame may be displayed simultaneously when the user selects a character string to be accessed from the list. Although not shown, for the same purpose, the user may be able to listen to the voice of the CM on which the selected telephone number is displayed.
以上のことから、CMなどの放送番組から文字領域の抽出や文字認識などを自動的に行うことによって、電話番号、URL、検索ワードをテキストデータとして記憶することができ、必要に応じてテキストデータを選択することによって、電話やWebへのアクセスが可能となる。また、文字認識して記憶されたテキストデータに誤りがある場合であっても、テキストデータが表示されるオリジナル画像と関連付けることによって修正も可能で
容易となる。
From the above, the phone number, URL, and search word can be stored as text data by automatically extracting character areas and recognizing characters from broadcast programs such as commercials. By selecting, it becomes possible to access the telephone and the Web. Even if there is an error in the text data stored by character recognition, correction is possible and easy by associating it with the original image on which the text data is displayed.
〈実施形態2〉
図6は、本発明の実施形態2による画像再生装置101aの構成を示すブロック図である。実施形態2では、制御部8aの処理が実施形態1と異なっており、その他の構成および処理については同様であるため、ここでは説明を省略する。実施形態2の画像再生装置101aでは、文字領域画像蓄積部4に記憶された文字領域画像を表示部10にて表示することができる。
<
FIG. 6 is a block diagram showing the configuration of the
本発明の実施形態2の特徴は、制御部8aはキー入力部9の入力指示に基づいて文字領域画像蓄積部4から所望の文字領域画像を選択し、当該文字領域画像を文字領域加工部5および文字認識部6によって処理してテキストデータを得、当該テキストデータに含まれる電話番号による電話接続、アドレスまたはキーワードによるインターネット接続を行うことである。
The feature of
図7は、本発明の実施形態2によるユーザーの操作を示す模式図である。ユーザーはキー入力部9を介して表示部10に表示される操作メニューの操作を行っている。ここで、操作メニューは、文字テキストデータあるいは文字領域画像に関する情報を表示している。
FIG. 7 is a schematic diagram illustrating a user operation according to the second embodiment of the present invention. The user operates the operation menu displayed on the
図7(a)において、ユーザーは視聴中または視聴していたCMに対して興味を抱いて電話やWebにアクセスするとき、”キーワードリンク”ボタンAを押下する。 In FIG. 7A, the user presses the “keyword link” button A when accessing the telephone or the Web with interest in the CM being watched or watched.
このとき、制御部8aでは”キーワードリンク”ボタンAが押下されたことを検出すると、文字領域画像蓄積部4に記憶されている文字領域画像を読み出し、読み出した文字領域画像は”キーワード文字列”として表示部10に一覧表示される。
At this time, when the
ユーザーは、表示部10に表示された”キーワード文字列”の一覧からアクセスしたい文字列を上下ボタンBによって選択し、図7(b)の決定キーEを押下する。
The user selects a character string to be accessed from the list of “keyword character strings” displayed on the
ユーザーがアクセスしたい文字列をキー入力部9を介して選択すると、制御部8aは対象となる文字領域画像を文字領域画像蓄積部4から読み出して文字領域加工部5に出力する。そして、文字領域加工部5にて画像処理を施した後に、文字認識部6にて文字認識されて、一度文字情報蓄積部7に記憶される。文字情報蓄積部7に記憶されたことが制御部8aに伝わると、制御部8aは「選択したキーワードに誤りはないですか?」などの確認を促すメッセージを表示部10に表示する(図示せず)。また、制御部8aは、文字情報蓄積部7に記憶されたテキストデータを解析して、電話番号、URL、検索ワードのいずれであるのかを判定しておく。
When the user selects a character string to be accessed via the
その後の処理については、実施形態1と同様である。すなわち、「はい」を選択すると電話やWebにアクセスし、「いいえ」を選択するとユーザーが自分で修正した後に電話やWebにアクセスする。 The subsequent processing is the same as in the first embodiment. That is, if “Yes” is selected, the telephone or the web is accessed, and if “No” is selected, the user accesses the telephone or the web after making corrections by himself / herself.
以上のことから、ユーザーが文字領域画像蓄積部4に記憶された文字領域画像をキーワードとして選択した後に、選択されたキーワードのみについて加工処理および文字認識を行なうため、処理に要する時間を削減することが可能となる。
From the above, after the user selects a character area image stored in the character area
101 画像再生装置、101a 画像再生装置、1 フレームメモリ、2 CM期間検出部、3 文字領域抽出部、4 文字領域画像蓄積部、5 文字領域加工部、6 文字認識部、7 文字情報蓄積部、8 制御部、8a 制御部、9 キー入力部、10 表示部、301 エッジ抽出部、302 2値化部、303 2値情報保持部、304 エッジ静止検出部、305 エッジ動き検出部、306 文字らしさ判定部、307 静止領域保持部、308 動き領域保持部、309 文字領域入力検出部、310 文字領域消滅検出部、311 文字領域検出部、312 ラベリング/矩形整形部、501 文字サイズ判定部、502 拡大処理部、503 2値化部、504 イコライズ処理部、505 エッジ強調部、506 明るさ/コントラスト調整部、507 滲み除去部。 101 image playback device, 101a image playback device, 1 frame memory, 2 CM period detection unit, 3 character region extraction unit, 4 character region image storage unit, 5 character region processing unit, 6 character recognition unit, 7 character information storage unit, 8 control unit, 8a control unit, 9 key input unit, 10 display unit, 301 edge extraction unit, 302 binarization unit, 303 binary information holding unit, 304 edge stationary detection unit, 305 edge motion detection unit, 306 character character Determination unit, 307 Still area holding unit, 308 Motion area holding unit, 309 Character area input detection unit, 310 Character area disappearance detection unit, 311 Character area detection unit, 312 Labeling / rectangular shaping unit, 501 Character size determination unit, 502 Enlarge Processing unit, 503 binarization unit, 504 equalization processing unit, 505 edge enhancement unit, 506 brightness / contrast adjustment Department, 507 blur removal unit.
Claims (7)
前記文字領域抽出手段にて抽出された前記文字領域画像を記憶する文字領域画像蓄積手段と、
前記文字領域画像に含まれる文字を加工する文字領域加工手段と、
前記文字領域加工手段にて加工された前記文字領域画像から文字を認識して文字テキストデータを生成する文字認識手段と、
前記文字認識手段にて生成された前記文字テキストデータを記憶する文字情報蓄積手段と、
前記画像情報や、前記文字テキストデータあるいは前記文字領域画像に関する操作メニューを表示する表示手段と、
外部から入力操作を行うキー入力手段と、
前記キー入力手段の入力指示に基づいて各動作部を制御する制御手段と、
を備えることを特徴とする、画像再生装置。 A character region extraction means for extracting a region including characters from the input image information as a character region image;
A character area image storage means for storing the character area image extracted by the character area extraction means;
Character region processing means for processing characters included in the character region image;
Character recognition means for recognizing characters from the character area image processed by the character area processing means and generating character text data;
Character information storage means for storing the character text data generated by the character recognition means;
Display means for displaying an operation menu relating to the image information, the character text data or the character region image;
A key input means for performing an input operation from the outside;
Control means for controlling each operation unit based on an input instruction of the key input means;
An image reproducing apparatus comprising:
前記文字領域抽出手段での前記文字領域画像の抽出を、前記CM期間に限定することを特徴とする、請求項1に記載の画像再生装置。 CM period detecting means for detecting a CM (commercial message) period is further provided.
2. The image reproducing apparatus according to claim 1, wherein extraction of the character area image by the character area extracting unit is limited to the CM period.
前記文字領域画像蓄積手段への前記文字領域画像の記憶は、前記文字領域消滅検出手段によって前記文字領域画像の消滅が検出されたときに行うことを特徴とする、請求項1ないし請求項5のいずれかに記載の画像再生装置。 The character area extraction means includes character area disappearance detection means for detecting that the character area image has disappeared from the input image information.
6. The storage of the character area image in the character area image storage means is performed when the disappearance of the character area image is detected by the character area disappearance detection means. The image reproducing device according to any one of the above.
前記文字領域画像蓄積手段への前記文字領域画像の記憶は、前記文字領域入力検出手段によって前記文字領域画像の挿入が検出されたとき、または前記文字領域画像の挿入が検出されてから所定画像フレーム後に行うことを特徴とする、請求項1ないし請求項5のいずれかに記載の画像再生装置。 The character area extraction means includes character area input detection means for detecting that the character area image has been inserted into the input image information.
The character area image is stored in the character area image storage means when the insertion of the character area image is detected by the character area input detection means or after the insertion of the character area image is detected. 6. The image reproducing apparatus according to claim 1, which is performed later.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007307108A JP2009130899A (en) | 2007-11-28 | 2007-11-28 | Image playback apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007307108A JP2009130899A (en) | 2007-11-28 | 2007-11-28 | Image playback apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009130899A true JP2009130899A (en) | 2009-06-11 |
JP2009130899A5 JP2009130899A5 (en) | 2010-12-16 |
Family
ID=40821322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007307108A Pending JP2009130899A (en) | 2007-11-28 | 2007-11-28 | Image playback apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009130899A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976271A (en) * | 2010-11-19 | 2011-02-16 | 上海合合信息科技发展有限公司 | Method for automatically extracting website and opening web page |
JP2011039573A (en) * | 2009-08-06 | 2011-02-24 | Kyocera Corp | Device and method for inputting character |
JP2011517223A (en) * | 2008-04-09 | 2011-05-26 | ソニー コンピュータ エンタテインメント ヨーロッパ リミテッド | Television receiver and method |
JP2013508798A (en) * | 2009-12-31 | 2013-03-07 | タタ コンサルタンシー サービシズ リミテッド | Preprocessing method and system for video region including text |
JP2014518048A (en) * | 2011-05-25 | 2014-07-24 | グーグル インコーポレイテッド | Mechanism for embedding metadata in video and broadcast television |
US9122317B2 (en) | 2009-08-06 | 2015-09-01 | Kyocera Corporation | Electronic device and screen display method |
CN105094975A (en) * | 2015-09-29 | 2015-11-25 | 北京奇艺世纪科技有限公司 | Method and device for calling application program |
WO2020110971A1 (en) * | 2018-11-27 | 2020-06-04 | 富士電機株式会社 | Cup detection device and beverage supply device |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148682A (en) * | 1998-11-05 | 2000-05-30 | Toshiba Corp | Device for reproducing information |
JP2002112238A (en) * | 2000-04-05 | 2002-04-12 | Masanobu Kujirada | Broadcast method for program including television cm image, and television cm image type switching device |
JP2002259908A (en) * | 2000-12-28 | 2002-09-13 | Brother Ind Ltd | Written data processing system, written data processing server and written data processing device |
JP2003069914A (en) * | 2001-08-29 | 2003-03-07 | Matsushita Electric Ind Co Ltd | Url information acquisition device |
JP2006191413A (en) * | 2005-01-07 | 2006-07-20 | Seiko Epson Corp | Image display device |
JP2007074091A (en) * | 2005-09-05 | 2007-03-22 | Pioneer Electronic Corp | Telop detection device and method therefor, and recorder |
-
2007
- 2007-11-28 JP JP2007307108A patent/JP2009130899A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148682A (en) * | 1998-11-05 | 2000-05-30 | Toshiba Corp | Device for reproducing information |
JP2002112238A (en) * | 2000-04-05 | 2002-04-12 | Masanobu Kujirada | Broadcast method for program including television cm image, and television cm image type switching device |
JP2002259908A (en) * | 2000-12-28 | 2002-09-13 | Brother Ind Ltd | Written data processing system, written data processing server and written data processing device |
JP2003069914A (en) * | 2001-08-29 | 2003-03-07 | Matsushita Electric Ind Co Ltd | Url information acquisition device |
JP2006191413A (en) * | 2005-01-07 | 2006-07-20 | Seiko Epson Corp | Image display device |
JP2007074091A (en) * | 2005-09-05 | 2007-03-22 | Pioneer Electronic Corp | Telop detection device and method therefor, and recorder |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011517223A (en) * | 2008-04-09 | 2011-05-26 | ソニー コンピュータ エンタテインメント ヨーロッパ リミテッド | Television receiver and method |
JP2011039573A (en) * | 2009-08-06 | 2011-02-24 | Kyocera Corp | Device and method for inputting character |
US9122317B2 (en) | 2009-08-06 | 2015-09-01 | Kyocera Corporation | Electronic device and screen display method |
JP2013508798A (en) * | 2009-12-31 | 2013-03-07 | タタ コンサルタンシー サービシズ リミテッド | Preprocessing method and system for video region including text |
CN101976271A (en) * | 2010-11-19 | 2011-02-16 | 上海合合信息科技发展有限公司 | Method for automatically extracting website and opening web page |
JP2014518048A (en) * | 2011-05-25 | 2014-07-24 | グーグル インコーポレイテッド | Mechanism for embedding metadata in video and broadcast television |
CN105094975A (en) * | 2015-09-29 | 2015-11-25 | 北京奇艺世纪科技有限公司 | Method and device for calling application program |
WO2020110971A1 (en) * | 2018-11-27 | 2020-06-04 | 富士電機株式会社 | Cup detection device and beverage supply device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009130899A (en) | Image playback apparatus | |
US9628837B2 (en) | Systems and methods for providing synchronized content | |
EP2109313B1 (en) | Television receiver and method | |
CN109729420B (en) | Picture processing method and device, mobile terminal and computer readable storage medium | |
KR100746641B1 (en) | Image code based on moving picture, apparatus for generating/decoding image code based on moving picture and method therefor | |
CN108419141B (en) | Subtitle position adjusting method and device, storage medium and electronic equipment | |
US7707485B2 (en) | System and method for dynamic transrating based on content | |
US7403657B2 (en) | Method and apparatus for character string search in image | |
US20080095442A1 (en) | Detection and Modification of Text in a Image | |
JP2004364234A (en) | Broadcast program content menu creation apparatus and method | |
US20090083801A1 (en) | System and method for audible channel announce | |
JP6202815B2 (en) | Character recognition device, character recognition method, and character recognition program | |
CN105657514A (en) | Method and apparatus for playing video key information on mobile device browser | |
CN110099298B (en) | Multimedia content processing method and terminal equipment | |
JP4573957B2 (en) | Image control apparatus, image control method, and television receiver | |
US11699276B2 (en) | Character recognition method and apparatus, electronic device, and storage medium | |
CN113435438B (en) | Image and subtitle fused video screen plate extraction and video segmentation method | |
CN112822539A (en) | Information display method, device, server and storage medium | |
US11216684B1 (en) | Detection and replacement of burned-in subtitles | |
JP4631258B2 (en) | Portable device | |
CN113132744A (en) | Processing method, model, electronic device and computer storage medium of live broadcast barrage | |
KR100789911B1 (en) | Text Display Apparatus and Method in DMB Terminals | |
KR101911613B1 (en) | Method and apparatus for person indexing based on the overlay text of the news interview video | |
JP2006331057A (en) | Character information extraction device, character information extraction method, and computer program | |
CN116996743A (en) | Video processing method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130709 |