JP6091552B2 - Movie processing apparatus and movie processing system - Google Patents
Movie processing apparatus and movie processing system Download PDFInfo
- Publication number
- JP6091552B2 JP6091552B2 JP2015126896A JP2015126896A JP6091552B2 JP 6091552 B2 JP6091552 B2 JP 6091552B2 JP 2015126896 A JP2015126896 A JP 2015126896A JP 2015126896 A JP2015126896 A JP 2015126896A JP 6091552 B2 JP6091552 B2 JP 6091552B2
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- frame
- character recognition
- character
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 188
- 238000000034 method Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 38
- 238000009826 distribution Methods 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 33
- 230000001133 acceleration Effects 0.000 claims description 8
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000003708 edge detection Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Description
本発明は、動画データの映像に表示される文字等の情報を処理する動画処理装置、及びこの動画処理装置を備えた動画処理システムに関する。 The present invention relates to a moving image processing apparatus that processes information such as characters displayed on video of moving image data, and a moving image processing system including the moving image processing apparatus.
従来から、インターネット等のネットワークでは、動画サーバや動画データベース等の所定のコンピュータが動画データを格納すると共に、視聴者端末に対して動画データを公開する動画配信が行われている。このような動画配信を促進するために、様々な動画処理装置や動画処理システムが提案されている。例えば、動画処理装置や動画処理システムでは、動画データに加えて、動画データの番組情報や出演者情報、字幕情報、CM情報等に関する動画情報を配信し、視聴者端末に動画情報を利用可能にしたものがある。 2. Description of the Related Art Conventionally, in a network such as the Internet, a predetermined computer such as a moving image server or a moving image database stores moving image data and distributes moving image data to the viewer terminal. In order to promote such moving image distribution, various moving image processing apparatuses and moving image processing systems have been proposed. For example, in a video processing device or a video processing system, in addition to video data, video information related to program information, performer information, caption information, CM information, etc. of video data is distributed so that video information can be used for the viewer terminal. There is what I did.
例えば、特許文献1に記載のメタデータ配信装置では、抽出変換テーブルと局固有データを利用してキー局のコンテンツのメタデータから自局でネット放送するネット番組のコンテンツのメタデータを抽出変換し、抽出変換されたメタデータを配信するので、キー局のコンテンツのメタデータを自局のコンテンツのメタデータとして、受信機に配信し、これにより、キー局以外のネット局で、ネット放送するネット番組において、キー局のコンテンツのメタデータを利用し、サーバ型放送を行う。
For example, the metadata distribution apparatus described in
しかしながら、上記したメタデータ配信装置のような動画処理装置や動画処理システムでは、放送局が予め動画情報のメタデータを用意しなければ動画情報を提供することができない。そのため、このようなメタデータが用意されていない動画データについては動画情報を提供することができない。 However, in a moving image processing device or a moving image processing system such as the above-described metadata distribution device, moving image information cannot be provided unless the broadcast station prepares metadata of moving image information in advance. Therefore, moving image information cannot be provided for moving image data for which such metadata is not prepared.
また、動画データには、セミナーや解説等のように文字が記載された掲示物を表示する動画データや、字幕付きの動画データがあるが、これらの動画データで表示される文字は動画情報として提供されない場合がある。なお、動画データから文字が表示されている静止画フレームを切り出して、この静止画フレームに対して文字認識を行うことで文字情報を取り出すことが考えられるが、動画データから切り出した静止画フレームは画質が粗いため、従来の文字認識処理では文字情報を取り出すことが困難であった。 In addition, video data includes video data that displays postings with texts, such as seminars and commentary, and video data with captions. The text displayed in these video data is video information. May not be provided. Note that it is conceivable to extract character information by extracting a still image frame in which characters are displayed from the moving image data and performing character recognition on the still image frame. Since the image quality is rough, it is difficult to extract character information by conventional character recognition processing.
更に、視聴者は、興味のある動画データを探すためにインターネットの検索エンジンによるキーワード検索をするが、上記のように動画情報として提供されていない文字については検索結果として得られないため、所望の動画データを検索できないことがある。また、視聴者がキーワード検索で動画データを探すことができた場合でも、動画の中でそのキーワードに関連するシーンを探すことが困難である場合が多い。 Furthermore, the viewer performs keyword search using an Internet search engine in order to search for video data of interest. However, since characters that are not provided as video information as described above cannot be obtained as search results, The video data may not be searched. Even when the viewer can search for moving image data by keyword search, it is often difficult to search for a scene related to the keyword in the moving image.
そこで、本発明は上記事情を考慮し、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることを目的とする。 Therefore, in consideration of the above circumstances, the present invention more reliably detects character information displayed in moving image data and enhances the convenience of the detected character information to improve the use and spread of the moving image distribution service. With the goal.
上記課題を解決するために、本発明の第1の動画処理装置は、動画データから所定のフレーム間隔毎の複数の静止画フレームを切り出すフレーム切り出し部と、前記複数の静止画フレームに対して、前後に連続する前記静止画フレームの近似判定を順次行い、前記近似判定において近似と判定された場合には、先行の前記静止画フレームを処理対象フレームとすると共に、後続の前記静止画フレームを処理対象フレームから除外する近似判定部と、前記処理対象フレームにシャープ化処理を施してエッジを強調したエッジ強調フレームを生成するシャープ化部と、前記エッジ強調フレームに二値化処理を施して二値画像フレームを生成する二値化部と、前記二値画像フレームに対して文字認識処理を行って文字情報を取得する文字認識部と、前記文字情報と共に、少なくとも、当該文字情報が取得された前記動画データに関する動画情報と当該文字情報が取得された前記静止画フレームの静止画情報とを記録したメタデータを前記文字情報毎に生成するメタデータ生成部と、を備えることを特徴とする。 In order to solve the above problems, a first moving image processing apparatus of the present invention includes a frame cutout unit that cuts out a plurality of still image frames at predetermined frame intervals from moving image data, and the plurality of still image frames. Approximate determination of the still image frames consecutive in the front and rear is sequentially performed, and when it is determined as approximate in the approximation determination, the preceding still image frame is set as a processing target frame and the subsequent still image frame is processed. An approximation determination unit that is excluded from the target frame, a sharpening unit that generates an edge-enhanced frame in which an edge is emphasized by performing a sharpening process on the processing target frame, and a binary by applying a binarization process to the edge-enhanced frame A binarization unit that generates an image frame; a character recognition unit that performs character recognition processing on the binary image frame to acquire character information; Along with the character information, at least metadata for recording the moving image information on the moving image data from which the character information is acquired and the still image information of the still image frame from which the character information is acquired is generated for each character information. And a metadata generation unit.
本発明の第1の動画処理装置によれば、動画データに付随して動画情報のメタデータが予め用意されていない場合でも、動画データの内容に関連した文字情報のメタデータを提供することができる。また、動画データに表示される様々な文字情報のメタデータが作成されるため、視聴者は、興味のあるキーワードが何れの動画データの何れのシーン(静止画データ)で表示されるかを迅速に検索することが可能となる。更に、静止画フレームが前回の静止画フレームと近似する場合には、文字認識処理の対象外とすることにより、処理負担を大幅に軽減することが可能である。このように、本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。 According to the first moving image processing apparatus of the present invention, it is possible to provide text information metadata related to the content of moving image data even when moving image information metadata is not prepared in advance accompanying the moving image data. it can. In addition, since metadata of various character information displayed in the moving image data is created, the viewer can quickly determine which scene (still image data) in which moving image data the keyword of interest is displayed. It becomes possible to search. Furthermore, when the still image frame approximates the previous still image frame, the processing burden can be greatly reduced by excluding the character recognition processing target. As described above, according to the present invention, it is possible to more reliably detect the character information displayed in the moving image data, improve the convenience of the detected character information, and improve the use and spread of the moving image distribution service. It becomes possible.
上記課題を解決するために、本発明の第2の動画処理装置は、上述した本発明の第1の動画処理装置において、前記二値化部は、前記エッジ強調フレームの色温度範囲を算出すると共に、前記色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得して、前記エッジ強調フレームに対して前記複数の閾値をそれぞれ用いた二値化処理を施して複数の前記二値画像フレームを生成し、前記文字認識部は、前記複数の二値画像フレームのそれぞれに対して文字認識処理を行って前記複数の二値画像フレーム毎に前記文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較して、最適な文字認識結果が得られた前記二値画像フレームのみから前記文字情報を取得し、前記メタデータ生成部は、前記複数の二値画像フレームの内、最適な文字認識結果が得られた前記二値画像フレームのみから取得された前記文字情報に基づいて前記メタデータを生成することを特徴とする。 In order to solve the above problem, the second moving image processing apparatus of the present invention is the above-described first moving image processing apparatus of the present invention, wherein the binarization unit calculates a color temperature range of the edge enhancement frame. A binarization process using the plurality of threshold values for the edge enhancement frame is obtained based on each of a plurality of color temperatures for each predetermined threshold interval in the color temperature range. To generate a plurality of binary image frames, and the character recognition unit performs a character recognition process on each of the plurality of binary image frames to generate the character information for each of the plurality of binary image frames. A character recognition result including the character recognition result, and comparing each character recognition result to obtain the character information only from the binary image frame from which the optimum character recognition result was obtained. Of the binary image frame, and generates the meta data based on the character information optimal character recognition result has been obtained only from the binary image frame obtained.
本発明の第2の動画処理装置によれば、最適な閾値で二値化処理した結果から文字情報を抽出することができる。例えば、色温度範囲が同じ静止画フレームであっても、撮影時の照明等の状況により、二値化処理のために設定すべき閾値がそれぞれ異なる場合があるが、このような場合であっても、最適な文字情報を抽出することが可能である。 According to the second moving image processing apparatus of the present invention, character information can be extracted from the result of binarization processing with an optimum threshold. For example, even in the case of still image frames with the same color temperature range, the thresholds to be set for the binarization process may differ depending on the lighting conditions at the time of shooting. Also, it is possible to extract optimum character information.
上記課題を解決するために、本発明の第3の動画処理装置は、上述した本発明の第1又は第2の動画処理装置において、前記近似判定部は、前後に連続する前記静止画フレームについてRGB値及び輝度のヒストグラムの変化値を比較し、前記比較値が所定の近似閾値以上であれば、当該前後に連続する静止画フレームを近似と判定することを特徴とする。 In order to solve the above-described problem, the third moving image processing apparatus of the present invention is the above-described first or second moving image processing apparatus of the present invention, wherein the approximate determination unit is configured to perform the still image frames consecutive in the front and rear. The change values of the RGB values and the luminance histogram are compared, and if the comparison value is equal to or greater than a predetermined approximation threshold, still and subsequent still image frames are determined to be approximate.
本発明の第3の動画処理装置によれば、近似判定部は、近似処理の正確さを維持すると共に、近似処理に係る負担を大幅に軽減することが可能である。 According to the third moving image processing apparatus of the present invention, the approximation determination unit can maintain the accuracy of the approximation process and can greatly reduce the burden on the approximation process.
上記課題を解決するために、本発明の第4の動画処理装置は、上述した本発明の第1ないし第3の何れかの動画処理装置において、前記近似判定部は、前後に連続する前記静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定することを特徴とする。 In order to solve the above-described problem, a fourth moving image processing device according to the present invention is the above-described moving image processing device according to any one of the first to third aspects of the present invention, wherein the approximate determination unit is the stationary stationary image. In a picture frame, quadtree space division is performed, acceleration is converted using a second-order differential value of the amount of displacement of a singular point in each region, and comparison is made to determine whether or not a continuous still picture frame is approximated. It is characterized by that.
本発明の第4の動画処理装置によれば、近似判定部は、前後に連続する静止画フレームについてより正確に近似を判定することができる。 According to the fourth moving image processing apparatus of the present invention, the approximation determination unit can determine the approximation more accurately for the still image frames continuous in the front and rear.
上記課題を解決するために、本発明の第5の動画処理装置は、上述した本発明の第4の動画処理装置において、前記近似判定部は、前記静止画フレームの四分木空間分割を行う際に各特異点の分布及び方向ベクトルを算出し、前記文字認識部は、前記近似判定部で算出された各特異点の分布及び方向ベクトルを、各特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする。 In order to solve the above-described problem, the fifth moving image processing apparatus of the present invention is the above-described fourth moving image processing apparatus of the present invention, wherein the approximate determination unit performs quadtree space division of the still image frame. And calculating the distribution and direction vector of each singular point, and the character recognizing unit calculates the distribution and direction vector of each singular point calculated by the approximation determining unit to a predetermined value composed of the distribution and direction vector of each singular point. The character recognition processing is performed by comparing with training data.
本発明の第5の動画処理装置によれば、近似判定部における近似判定の正確性を維持すると共に、文字認識部における処理負担を軽減することができる。 According to the fifth moving image processing apparatus of the present invention, it is possible to maintain the accuracy of the approximation determination in the approximation determination unit and reduce the processing burden in the character recognition unit.
上記課題を解決するために、本発明の第6の動画処理装置は、上述した本発明の第1ないし第3の何れかの動画処理装置において、前記文字認識部は、前記二値画像フレームの被写体像の各特異点の分布及び方向ベクトルを算出すると共に、特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする。所定のトレーニングデータとは、各種フォント毎の特異点、および方向ベクトルに加え、それぞれフォントの劣化状態での特異点、および方向ベクトルを含んでいる。 In order to solve the above problems, a sixth moving image processing apparatus of the present invention is the above-described moving image processing apparatus according to any one of the first to third aspects of the present invention, wherein the character recognition unit The character recognition processing is performed by calculating the distribution and direction vector of each singular point of the subject image and comparing it with predetermined training data composed of the distribution and direction vector of the singular point. The predetermined training data includes a singular point and a direction vector in a deteriorated state of the font, in addition to a singular point and a direction vector for each font.
本発明の第6の動画処理装置によれば、文字認識部は、分布及び方向ベクトルからなる特異点を算出するため、文字認識処理で使用するデータ量を削減して処理負担を軽減することができ、また、多数用意する必要があるトレーニングデータについてもデータ量を軽減して、トレーニングデータを記憶するサーバコストを低減することが可能である。 According to the sixth moving image processing apparatus of the present invention, since the character recognition unit calculates a singular point composed of a distribution and a direction vector, it is possible to reduce the processing load by reducing the amount of data used in the character recognition process. It is also possible to reduce the data amount of training data that needs to be prepared in large numbers, and to reduce the server cost for storing the training data.
上記課題を解決するために、本発明の第7の動画処理装置は、上述した本発明の第6の動画処理装置において、前記文字認識部は、前記二値画像フレームに対して四分木空間分割を行うことで前記被写体像の各特異点を算出すると共に、当該特異点の分布及び方向ベクトルを算出することを特徴とする。 In order to solve the above problem, according to a seventh moving image processing device of the present invention, in the sixth moving image processing device of the present invention described above, the character recognizing unit has a quadtree space for the binary image frame. By performing the division, each singular point of the subject image is calculated, and the distribution and direction vector of the singular point are calculated.
本発明の第7の動画処理装置によれば、文字認識部は、分布及び方向ベクトルからなる特異点を四分木空間分割によって算出するため、文字認識処理での処理負担をより軽減することができる。 According to the seventh moving image processing apparatus of the present invention, the character recognition unit calculates a singular point composed of a distribution and a direction vector by quadtree space division, so that the processing burden in the character recognition process can be further reduced. it can.
上記課題を解決するために、本発明の動画処理システムは、上述した本発明の第1ないし第7の何れかの動画処理装置と、前記動画処理装置の前記メタデータ生成部によって生成された前記文字情報毎の前記メタデータを格納する文字情報データベースと、を備えることを特徴とする。 In order to solve the above-described problem, a moving image processing system according to the present invention includes the moving image processing device according to any one of the first to seventh aspects of the present invention described above and the metadata generation unit of the moving image processing device. And a character information database for storing the metadata for each character information.
本発明の動画処理システムによれば、視聴者は、興味のあるキーワードを用いて検索することにより、文字情報データベースからそのキーワードに対応する文字情報のメタデータを取得すると共に、このメタデータに記録された動画情報を読み出して動画データを再生することが可能となる。 According to the moving image processing system of the present invention, the viewer obtains the metadata of the character information corresponding to the keyword from the character information database by searching using the keyword of interest, and records it in this metadata. It is possible to read the moving image information and reproduce the moving image data.
本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。 According to the present invention, it is possible to more reliably detect character information displayed in moving image data and improve the convenience of the detected character information to improve the use and spread of the moving image distribution service.
先ず、図1を参照しながら、本発明の実施形態に係る動画処理システム1の全体の構成について説明する。図1に示されるように、動画処理システム1では、動画データに基づいて文字情報を検出する動画処理装置2が、インターネットやLAN等の所定のネットワーク3を介して、動画データを格納する動画データベース(DB)4及び文字情報のメタデータ(タグ)を格納する文字情報データベース(DB)5と通信可能に接続されている。動画DB4及び文字情報DB5は、ネットワーク3を介して検索エンジン6と通信可能に接続されていて、それぞれ格納した動画データ及び文字情報のメタデータの検索エンジン6による検索が可能になっている。また、動画処理システム1では、動画データを再生可能な視聴者端末7も、ネットワーク3を介して、動画DB4、文字情報DB5及び検索エンジン6と通信可能に接続されている。
First, an overall configuration of a moving
先ず、動画処理装置2について説明する。動画処理装置2は、例えば、ネットワーク3上で動画DB4や文字情報DB5から独立して設けられていてもよく、又は、動画DB4や文字情報DB5を管理するコンピュータとして設けられていてもよい。本実施形態では、ネットワーク3上に1つの動画処理装置2が備えられる例を説明するが、複数の動画処理装置2がネットワーク3上に備えられてよい。また、動画処理装置2は、動画のカテゴリー(業種)別に備えられていてもよい。
First, the moving
動画処理装置2は、動画データに対して文字認識処理を実行するもので、文字認識処理を行うことができる動画データは、セミナーや解説等のように文字が記載される掲示物が頻出する動画や、字幕を伴う映画等の動画に限定されず、文字が表示される動画であればよく、例えば、株価データや会社名が頻出する金融に係る動画や、商品名や会社名が表示される広告に係る動画等、多岐に亘る。
The moving
動画処理装置2は、例えば、制御部10と、記憶部11と、通信部12と、フレーム切り出し部13と、近似判定部14と、シャープ化部15と、二値化部16と、文字認識部17と、メタデータ生成部18と、を備える。なお、フレーム切り出し部13、近似判定部14、シャープ化部15、二値化部16、文字認識部17及びメタデータ生成部18は、記憶部11に記憶され、制御部10によって制御されることで動作するプログラムで構成されていてもよい。
The moving
制御部10は、CPU(Central Processing Unit)等を有して、動画処理装置2の全体の動作を統括して制御するように構成される。記憶部11は、ROM(Read Only Memory)やRAM(Random Access Memory)等のメモリや、ハードディスク等の記録媒体を有して、制御部10で制御される情報やデータ、プログラム等を記憶するように構成される。
The
通信部12は、動画処理装置2がインターネットやLAN等のネットワーク3に接続するためのインタフェースであり、即ち、動画処理装置2を動画DB4や文字情報DB5とネットワーク3を介して接続する。
The
通信部12は、例えば、ネットワーク3を介して動画DB4と通信することにより、動画処理装置2で文字情報検出の対象となる動画データを動画DB4から受信する。例えば、通信部12は、動画処理装置2の操作者によって、動画取得動作や文字情報検出の開始動作が実行されると共に、動画データ及び当該動画データの取得先の動画DB4が選択されると、動画DB4から動画データを取得する。また、通信部12は、動画処理装置2が備える動画取得クローラ(図示せず)の動作に応じて、動画DB4に記録された動画データを順次取得してもよい。なお、動画取得クローラ(図示せず)は、ネットワーク3内の全ての動画データを取得してもよいが、操作者によって選択されたカテゴリー(業種)やキーワードに基づいて動画データを検索して取得してもよい。
For example, the
なお、通信部12は、動画データの取得先として、動画DB4に限定せず、放送局からネットワーク3を介して又は放送受信機(図示せず)によって放送波を受信して動画データを取得してもよく、あるいは、動画処理装置2に直接接続されるスマートフォンやパーソナルコンピュータ等の外部端末から動画データを取得してもよい。
Note that the
また、通信部12は、例えば、ネットワーク3を介して文字情報DB5と通信することにより、動画処理装置2で生成した文字情報のメタデータを文字情報DB5へと送信する。なお、動画処理装置2は、通信部12によるメタデータの送信先の文字情報DB5を選択できるように構成されてよい。
Moreover, the
フレーム切り出し部13は、通信部12が動画DB4から受信した動画データから複数の静止画フレームを取得する。本実施形態では特に、フレーム切り出し部13は、動画データに対して所定のフレーム間隔毎に、例えば1秒の時間間隔毎に、静止画フレームを切り出すフレーム切り出しを行ってフレーム間隔毎の複数の静止画フレームを取得する。なお、フレーム切り出し部13は、後述する特異点の抽出量を増やすために、高画質化して画像ピクセル数を増大させた静止画フレームを取得するとよい。
The
近似判定部14は、フレーム切り出し部13で得られた複数の静止画フレームに対して近似判定を行って、近似する静止画フレームを文字認識処理の処理対象フレームから除外する。本実施形態では特に、近似判定部14は、複数の静止画フレームの内、前後に連続する2つの静止画フレームの近似判定を順次行い、この近似判定において近似と判定された場合には、先行の静止画フレームを処理対象フレームとすると共に、後続の静止画フレームを処理対象フレームから除外する。なお、先の近似判定において後続の静止画フレームを処理対象フレームから除外した場合には、今回の近似判定において後続の静止画フレームと比較されるフレームは、先の近似判定で処理対象フレームとした静止画フレームとなる。
The
例えば、近似判定部14は、近似判定として、前後に連続する静止画フレームについてRGB値及び輝度のヒストグラムの変化値を比較し、比較値が所定の近似閾値以上であれば、前後に連続する静止画フレームを近似と判定する。更に、近似判定部14は、連続する静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定する。あるいは、近似判定部14は、上記のヒストグラムを用いた比較と、上記の四分木空間分割を用いた比較との何れかによって近似を判定してもよい。
For example, the
なお、セミナーや解説等のように文字が記載された掲示物を表示する動画データや、字幕付きの動画データのように、文字の表示される位置が予め決められている場合には、近似判定部14は、例えば、予め用意したテンプレートを用いて文字の表示部分だけのデータを取得し、文字の表示部分にターゲットを絞って近似処理を行ってもよい。この場合、動画処理装置2では、文字の表示部分毎のテンプレートを管理して、テンプレートの新規作成、変更、削除などの機能を有する。
It should be noted that if the position where characters are to be displayed is determined in advance, such as video data that displays postings with characters, such as seminars or commentary, or video data with subtitles, approximate determination is made. For example, the
シャープ化部15は、近似判定部14で得られた処理対象フレームにシャープ化処理を施すことにより、被写体像のエッジを強調したエッジ強調フレームを生成する。
The sharpening
シャープ化部15によるシャープ化処理では、例えば、処理対象フレームのガウス分布(標準偏差)を算出することでアンシャープマスクを生成し、処理対象フレームにアンシャープマスクを加えることでシャープフレームを生成する。更に、このシャープフレームにおいて、画素間で輝度が変位する区間を検出すると共にその区間の輝度の変位量を算出し、また、変位量を加速度に換算し、そして、シャープフレームにおいて加速度が大きいほどエッジをより強調するエッジ抽出処理を行ってエッジ強調フレームを生成する。
In the sharpening process by the sharpening
二値化部16は、シャープ化部15で生成されたエッジ強調フレームに二値化処理を施して二値画像フレームを生成する。二値化部16は、例えば、二値化処理の前にエッジ強調フレームに対してゼロ交差法等を用いてエッジ検出を行い、このエッジ検出によって特異点が検出されたフレームに対して二値化処理を施してもよい。
The binarization unit 16 performs binarization processing on the edge enhancement frame generated by the sharpening
本実施形態では特に、二値化部16は、エッジ強調フレーム(又は元の静止画フレーム)の色温度範囲(画像の各ドットが存在する周波数帯域)を算出すると共に、色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得する。そして、二値化部16は、エッジ強調フレームに対して複数の閾値をそれぞれ用いた二値化処理を施して複数の二値画像フレームを生成する。なお、二値化部16は、エッジ強調フレームの色温度範囲の最大値及び最小値に基づく閾値で二値化処理をしても、黒部分又は白部分が多すぎる二値画像フレームが生成されるため、これらの閾値での二値化処理は行わない。また、二値化処理部16は、生成した複数の二値画像フレームの濃度(黒部分及び白部分)の分布を参照して、黒部分又は白部分が多すぎる二値画像フレームを除外してもよい。 In particular, in the present embodiment, the binarization unit 16 calculates the color temperature range (frequency band in which each dot of the image exists) of the edge enhancement frame (or the original still image frame), and performs predetermined processing in the color temperature range. A plurality of threshold values are acquired based on each of a plurality of color temperatures for each threshold interval. Then, the binarization unit 16 generates a plurality of binary image frames by performing binarization processing using a plurality of thresholds on the edge enhancement frame. Note that the binarization unit 16 generates a binary image frame having too many black portions or white portions even if binarization processing is performed with threshold values based on the maximum value and the minimum value of the color temperature range of the edge enhancement frame. Therefore, binarization processing with these threshold values is not performed. Further, the binarization processing unit 16 refers to the density distribution (black portion and white portion) of the generated plurality of binary image frames, and excludes the binary image frame having too many black portions or white portions. Also good.
文字認識部17は、二値化部16で生成された二値画像フレームに対して文字認識処理を行って文字情報を取得する。この文字認識処理において、文字認識部17は、二値画像フレームから文字を1つずつ認識し、例えば、二値画像フレームの被写体像を示す特異点を抽出すると共に、抽出された特異点の集まりを1つの文字の文字候補とする。例えば、文字認識部17は、二値画像フレームに対して四分木空間分割を行うことで被写体像の各特異点を算出する。なお、上記の近似判定部14が、四分木空間分割を行って特異点を算出する場合、文字認識部17は、四分木空間分割を行うことなく、近似判定部14で算出した特異点を用いてもよい。
The
なお、二値画像フレーム(元の静止画フレーム)で文字が斜めに表示されていた場合でも、文字認識部17は、基準線を導入すると共にベクトル空間を設定することによって、文字候補の特異点のベクトル方向を正確に修正することができる。例えば、文字認識部17は、3D空間認識で利用される仕組みと同様にして、隣接する文字候補の配列方向のベクトルから基準線を取得し、この基準線が水平又は垂直となるように文字候補の特異点のベクトル方向を修正する。
Even when characters are displayed obliquely in a binary image frame (original still image frame), the
また、文字認識部17は、文字認識のためのトレーニングデータとして、既定の様々なフォントの様々な文字、およびそれらの劣化状態について特異点の分布と方向ベクトルを予め登録しておく。そして、文字認識部17は、文字候補の特異点をトレーニングデータと比較することでトレーニングデータの何れかの文字に該当するか否かを判定して、二値画像フレーム上の各文字を認識する。
Also, the
更に、文字認識部17は、上記のようにして認識できた文字に対して辞書データ処理を行い、この辞書データ処理では、隣接する2つ以上の文字列を、予め登録してある単語辞書と比較、照合する。そして、文字認識部17は、文字列が単語辞書の何れかの単語に該当するか否かを判定し、その判定結果に基づいて文字情報を取得する。なお、文字認識部17は、文字列が単語辞書の何れかの単語にも該当しない場合でも、例えば誤読パターンに該当する場合には、その誤読パターンに対する正しい文字列に自動的に訂正して文字情報としてよい。上記のように、文字認識部17で認識された文字情報は、二値画像フレームにおける特異点の集まりからなるデータと共に、追加トレーニングデータとして保存するとよい。
Furthermore, the
なお、文字認識部17は、トレーニングデータや単語辞書の単語に優先度を付加しておき、上記の文字認識処理において、優先度の高いトレーニングデータや単語から順に文字候補や文字列との比較に用いるとよい。例えば、文字認識部17は、認識される頻度の高いトレーニングデータや単語に対して優先度を高く設定する。
The
また、文字認識部17は、上記のように文字認識処理を行う文字認識エンジンを動画のカテゴリー(業種)別に備え、更に、動画のカテゴリー別にトレーニングデータや単語辞書を予め登録しておくとよい。文字認識部17は、動画データに記録された動画情報に含まれるカテゴリーを判別し、又は、操作者の入力したカテゴリーを判別する。そして、文字認識部17は、判別されたカテゴリーに対応する文字認識エンジンを使用すると共に、このカテゴリーに対応するトレーニングデータや単語辞書を優先的に使用して文字認識処理を行うとよい。
In addition, the
本実施形態では特に、文字認識部17は、二値化部16で生成された複数の二値画像フレームのそれぞれに対して文字認識処理を行う。そして、文字認識部17は、複数の二値画像フレーム毎に文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較する。このとき、文字認識部17は、文字認識結果として、例えば、認識できた文字数と、認識できた文字の中で意味を持つ文字として辞書から導き出された文字数とを判定し、これらの文字数が多いものを最適な文字認識結果として判定する。なお、単に認識できた文字よりも、意味を持つ文字の優先度を高く設定してよい。そして、文字認識部17は、最適な文字認識結果が得られた二値画像フレームのみから文字情報を取得する。
Particularly in the present embodiment, the
メタデータ生成部18は、文字認識部17で得られた文字情報毎にメタデータを生成する。メタデータ生成部18は、例えば、文字情報と共に、当該文字情報が取得された動画データに関する動画情報と、当該文字情報が取得された静止画フレームの静止画情報とを記録したメタデータを生成する。
The
メタデータの動画情報としては、動画データの動画ID、フレーム数、フレームサイズ及びフォーマット形式等が記録されてよく、その他に、動画データのタイトル、作者情報、作成日時、動画のカテゴリー、サムネイル(URL)等が記録されてもよい。メタデータの静止画情報としては、例えば、文字情報が取得された静止画フレームの動画データにおけるリレーションIDや時間情報(タイムスタンプ)、及びこの静止画フレームのフレーム番号(ユニークID)等が記録されてよい。また、メタデータ生成部18は、文字認識処理の処理日時や処理状況データをメタデータに記録するとよい。本実施形態では特に、メタデータ生成部18は、二値化部16で生成された複数の二値画像フレームの内、最適な文字認識結果が得られた二値画像フレームのみから取得された文字情報に基づいてメタデータを生成する。
As the video information of the metadata, the video ID of the video data, the number of frames, the frame size, the format format, etc. may be recorded. In addition, the title of the video data, author information, creation date, video category, thumbnail (URL ) Etc. may be recorded. As the still image information of the metadata, for example, the relation ID and time information (time stamp) in the moving image data of the still image frame from which the character information is acquired, the frame number (unique ID) of this still image frame, and the like are recorded. It's okay. Further, the
動画DB4は、動画データを格納すると共に、視聴者端末7からのアクセスに応じて動画をダウンロード方式やストリーミング方式で配信するデータベースである。また、動画DB4は、動画処理装置2からの取得動作に応じて、動画データそのものを動画処理装置2へと提供することができる。動画DB4に格納された動画データは、映像データや音声データに加えて、予め設定された動画タイトルや内容等の動画情報が記録されていてよく、動画情報を検索キーワードとすることで検索エンジン6によって検索可能となる。また、動画DB4は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末7からの要求に応じて動画データを配信するように構成されてもよい。
The moving
本実施形態では、ネットワーク3上に1つの動画DB4が備えられる例を説明するが、複数の動画DB4がネットワーク3上に備えられてよい。また、動画DB4は、動画のカテゴリー(業種)別に備えられていてもよい。動画DB4は、1つの動画処理装置2で利用されるものに限定されず、複数の動画処理装置2で利用可能に設けられてよい。
In the present embodiment, an example in which one moving
文字情報DB5は、動画処理装置2で生成された文字情報のメタデータを格納すると共に、視聴者端末7からのアクセスに応じて文字情報のメタデータを提供するデータベースである。文字情報DB5に格納されたメタデータは、その文字情報を検索キーワードとすることで検索エンジン6によって検索可能となる。また、文字情報DB5は、所定の視聴者にアクセス権限を付与して、当該視聴者の視聴者端末7からの要求に応じて文字情報のメタデータを提供するように構成されてもよい。
The
更に、文字情報DB5は、格納頻度や検索頻度が高い文字情報のメタデータが優先的に検索されるようにメタデータを格納するとよい。また、文字情報DB5は、視聴者端末7が検索エンジン6を介して所定の文字情報を検索するときに、当該文字情報について、メタデータを1つずつ検索エンジン6へと提供してもよいが、複数のメタデータからなるリストを検索エンジン6へと提供してもよい。
Further, the
本実施形態では、ネットワーク3上に1つの文字情報DB5が備えられる例を説明するが、複数の文字情報DB5がネットワーク3上に備えられてよい。また、文字情報DB5は、動画のカテゴリー(業種)別に備えられていてもよい。文字情報DB5は、1つの動画処理装置2で利用されるものに限定されず、複数の動画処理装置2で利用可能に設けられてよい。
In the present embodiment, an example in which one
視聴者端末7は、ネットワーク3に接続可能であって動画データを再生可能な端末であればよく、例えば、スマートフォン、携帯電話機及びタブレット等の携帯端末や、パーソナルコンピュータ及びテレビ等の据え置き型端末でよい。
The
次に、このような構成を備えた動画処理システム1において、動画処理装置2による動画データに基づく文字情報検出動作について、図2を参照して説明する。
Next, the character information detection operation based on the moving image data by the moving
先ず、動画処理システム1では、動画データの動画提供者が動画データを動画DB4にアップロードしておく。
First, in the moving
一方、動画処理装置2では、例えば、操作者によって文字情報検出の開始動作が実行されると共に、動画データ及び当該動画データの取得先の動画DB4が選択されると、通信部12が動画DB4から動画データを取得する(ステップS1)。
On the other hand, in the
続いて、フレーム切り出し部13が、通信部12で取得された動画データから所定のフレーム間隔毎の複数の静止画フレームを取得する(ステップS2)。
Subsequently, the
そして、動画処理装置2は、複数の静止画フレームに対して、順次、文字情報検出を実行する(ステップS3)。
Then, the moving
各静止画フレームの文字情報検出では、先ず、前回の文字情報検出がされた処理対象フレームの有無を判定する(ステップS4)。ここで、前回の処理対象フレームがある場合には(ステップS4:Yes)、近似処理(ステップS5)に移行する。一方、前回の処理対象フレームがない場合には(ステップS4:No)、今回の静止画フレームを処理対象フレームとしてシャープ化処理(ステップS6)に移行する。この場合、今回の静止画フレームは、次の静止画フレームの文字情報検出(ステップS3)の際に前回の処理対象フレームとなる。 In the character information detection of each still image frame, first, it is determined whether or not there is a processing target frame for which the previous character information was detected (step S4). If there is a previous processing target frame (step S4: Yes), the process proceeds to an approximation process (step S5). On the other hand, when there is no previous processing target frame (step S4: No), the process proceeds to the sharpening process (step S6) with the current still image frame as the processing target frame. In this case, the current still image frame becomes the previous processing target frame when the character information of the next still image frame is detected (step S3).
近似処理(ステップS5)では、近似判定部14が、今回の静止画フレームが前回の処理対象フレームに近似するか否かを判定する。ここで、今回の静止画フレームが前回の処理対象フレームに近似する場合には(ステップS5:Yes)、今回の静止画フレームを処理対象フレームから除外して、シャープ化処理(ステップS6)に移行することなく、次の静止画フレームの文字情報検出(ステップS3)に移行する。
In the approximation process (step S5), the
一方、今回の静止画フレームが前回の処理対象フレームに近似しない場合には(ステップS5:No)、今回の静止画フレームを処理対象フレームとしてシャープ化処理(ステップS6)に移行する。この場合、今回の静止画フレームは、次の静止画フレームの文字情報検出(ステップS3)の際に前回の処理対象フレームとなる。 On the other hand, if the current still image frame does not approximate the previous processing target frame (step S5: No), the process proceeds to the sharpening process (step S6) using the current still image frame as the processing target frame. In this case, the current still image frame becomes the previous processing target frame when the character information of the next still image frame is detected (step S3).
シャープ化処理(ステップS6)では、シャープ化部15が、処理対象フレームにシャープ化処理を施すことによりエッジ強調フレームを生成する。
In the sharpening process (step S6), the sharpening
また、二値化処理(ステップS7)に移行し、二値化部16が、エッジ強調フレームの色温度範囲に基づいて複数の閾値を取得すると共に、複数の閾値をそれぞれ用いてエッジ強調フレームを二値化処理して複数の二値画像フレームを生成する。 Further, the process proceeds to binarization processing (step S7), and the binarization unit 16 acquires a plurality of threshold values based on the color temperature range of the edge enhancement frame, and uses the plurality of threshold values to generate an edge enhancement frame. Binarization processing is performed to generate a plurality of binary image frames.
更に、文字認識処理(ステップS8)に移行し、文字認識部17が、複数の二値画像フレームのそれぞれに文字認識処理を行う。そして、文字認識部17は、複数の二値画像フレームの各文字認識結果を比較し、最適な文字認識結果が得られた二値画像フレームから文字情報を取得する(ステップS9)。
Further, the process proceeds to a character recognition process (step S8), and the
続いて、メタデータ作成(ステップS10)に移行し、メタデータ生成部18が、文字情報のメタデータを作成する。
Subsequently, the process proceeds to metadata creation (step S10), and the
このようにして動画処理装置2で作成されたメタデータは、通信部12によってネットワーク3を介して文字情報DB5にアップロードされる(ステップS11)。文字情報DB5は、アップロードされたメタデータを、ユーザーが利用しやすいようにソートしておく。
The metadata created by the moving
本実施形態では、上述のように、動画処理装置2は、動画データから所定のフレーム間隔毎の複数の静止画フレームを切り出すフレーム切り出し部13と、複数の静止画フレームに対して、前後に連続する静止画フレームの近似判定を順次行い、近似判定において近似と判定された場合には、先行の静止画フレームを処理対象フレームとすると共に、後続の静止画フレームを処理対象フレームから除外する近似判定部14と、処理対象フレームにシャープ化処理を施してエッジを強調したエッジ強調フレームを生成するシャープ化部15と、エッジ強調フレームに二値化処理を施して二値画像フレームを生成する二値化部16と、二値画像フレームに対して文字認識処理を行って文字情報を取得する文字認識部17と、文字情報と共に、少なくとも、当該文字情報が取得された動画データに関する動画情報と当該文字情報が取得された静止画フレームの静止画情報とを記録したメタデータを文字情報毎に生成するメタデータ生成部18と、を備えて構成されている。
In the present embodiment, as described above, the moving
このような構成により、本実施形態によれば、動画データに付随して動画情報のメタデータが予め用意されていない場合でも、動画データの内容に関連した文字情報のメタデータを提供することができる。また、動画データに表示される様々な文字情報のメタデータが作成されるため、視聴者は、興味のあるキーワードが何れの動画データの何れのシーン(静止画データ)で表示されるかを迅速に検索することが可能となる。更に、静止画フレームが前回の静止画フレームと近似する場合には、文字認識処理の対象外とすることにより、処理負担を大幅に軽減することが可能である。このように、本発明によれば、動画データに表示される文字情報をより確実に検出すると共に、検出した文字情報の利便性を高めて、動画配信サービスの利用及び普及の向上を図ることが可能となる。 With such a configuration, according to the present embodiment, even when video information metadata is not prepared in advance accompanying the video data, it is possible to provide text information metadata related to the content of the video data. it can. In addition, since metadata of various character information displayed in the moving image data is created, the viewer can quickly determine which scene (still image data) in which moving image data the keyword of interest is displayed. It becomes possible to search. Furthermore, when the still image frame approximates the previous still image frame, the processing burden can be greatly reduced by excluding the character recognition processing target. As described above, according to the present invention, it is possible to more reliably detect the character information displayed in the moving image data, improve the convenience of the detected character information, and improve the use and spread of the moving image distribution service. It becomes possible.
また、本実施形態によれば、動画処理装置2において、二値化部16は、エッジ強調フレームの色温度範囲を算出すると共に、色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得して、エッジ強調フレームに対して複数の閾値をそれぞれ用いた二値化処理を施して複数の二値画像フレームを生成し、文字認識部17は、複数の二値画像フレームのそれぞれに対して文字認識処理を行って複数の二値画像フレーム毎に文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較して、最適な文字認識結果が得られた二値画像フレームのみから文字情報を取得し、メタデータ生成部18は、複数の二値画像フレームの内、最適な文字認識結果が得られた二値画像フレームのみから取得された文字情報に基づいて前記メタデータを生成するように構成される。
Further, according to the present embodiment, in the moving
このような構成により、動画処理装置2は、最適な閾値で二値化処理した結果から文字情報を抽出することができる。例えば、色温度範囲が同じ静止画フレームであっても、撮影時の照明等の状況により、二値化処理のために設定すべき閾値がそれぞれ異なる場合があるが、このような場合であっても、最適な文字情報を抽出することが可能である。
With such a configuration, the moving
更に、本実施形態によれば、動画処理装置2において、近似判定部14は、前後に連続する静止画フレームについてRGB値及び輝度のヒストグラムの変化値を比較し、比較値が所定の近似閾値以上であれば、当該前後に連続する静止画フレームを近似と判定するように構成される。
Further, according to the present embodiment, in the moving
このような構成により、近似判定部14は、近似処理の正確さを維持すると共に、近似処理に係る負担を大幅に軽減することが可能である。
With such a configuration, the
また、本実施形態によれば、動画処理装置2において、近似判定部14は、前後に連続する静止画フレームにおいて、四分木空間分割を行い各領域における特異点の変位量の二階微分値にて加速度に換算し、比較することで前後に連続する静止画フレームが近似するか否かを判定するように構成される。
Further, according to the present embodiment, in the moving
このような構成により、近似判定部14は、前後に連続する静止画フレームについてより正確に近似を判定することができる。
With such a configuration, the
更に、本実施形態によれば、動画処理装置2において、近似判定部14は、静止画フレームの四分木空間分割を行う際に各特異点の分布及び方向ベクトルを算出し、文字認識部17は、近似判定部14で算出された各特異点の分布及び方向ベクトルを、各特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで文字認識処理を行うように構成される。
Further, according to the present embodiment, in the moving
このような構成により、近似判定部14における近似判定の正確性を維持すると共に、文字認識部17における処理負担を軽減することができる。
With such a configuration, it is possible to maintain the accuracy of the approximation determination in the
また、本実施形態によれば、動画処理装置2において、文字認識部17は、二値画像フレームの被写体像の特異点の分布及び方向ベクトルを算出すると共に、特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで文字認識処理を行うように構成されている。
Further, according to the present embodiment, in the moving
このような構成により、文字認識部17は、分布及び方向ベクトルからなる特異点を算出するため、文字認識処理で使用するデータ量を削減して処理負担を軽減することができ、また、多数用意する必要があるトレーニングデータについてもデータ量を軽減して、トレーニングデータを記憶するサーバコストを低減することが可能である。
With such a configuration, the
また、本実施形態によれば、動画処理装置2において、文字認識部17は、二値画像フレームに対して四分木空間分割を行うことで被写体像の各特異点を算出すると共に、当該特異点の分布及び方向ベクトルを算出するように構成されている。
Further, according to the present embodiment, in the moving
このような構成により、文字認識部17は、分布及び方向ベクトルからなる特異点を四分木空間分割によって算出するため、文字認識処理での処理負担をより軽減することができる。
With such a configuration, the
また、本実施形態によれば、動画処理システム1は、上記したような動画処理装置2と、動画処理装置2のメタデータ生成部18によって生成された文字情報毎のメタデータを格納する文字情報DB(データベース)5と、を備えて構成されている。
Further, according to the present embodiment, the moving
このような構成により、動画処理システム1において、視聴者は、興味のあるキーワードを用いて検索することにより、文字情報DB5からそのキーワードに対応する文字情報のメタデータを取得すると共に、このメタデータに記録された動画情報を読み出して動画データを再生することが可能となる。
With such a configuration, in the moving
本実施形態では、文字認識部17は、文字認識のためのトレーニングデータとして、各フォントの各文字について特異点の分布と方向ベクトルを予め登録しておく構成を説明したが、この構成に限定されない。例えば、他の実施形態では、トレーニングデータを登録するトレーニングデータ用データベースを別途設けて、動画処理装置2が文字認識処理時にこのトレーニングデータ用データベースにアクセスしてトレーニングデータを取得するように構成されてもよい。
In the present embodiment, the configuration has been described in which the
また、文字認識部17やトレーニングデータ用データベースは、各フォントの各文字についてのトレーニングデータに加えて、デコレーションされた文字についてのトレーニングデータを登録するように構成されてもよい。デコレーションされた文字は、例えば、プレゼンテーション等で利用される文字であって、既定のフォントに比べて文字の輪郭が違う色で表示された文字や、斜体や太文字で形成された文字、白抜きされた文字、シャドーのある文字等がある。
In addition to the training data for each character of each font, the
また、他の実施形態として、動画処理装置2は、静止画フレームにおける特定の人物(特に、著名人)の顔画像を認識すると共に、その人物情報をメタデータとして生成するように構成することもできる。この場合、動画処理装置2は、特定の人物の顔画像の特徴点の分布及び方向ベクトル(この場合では、3D方向ベクトル)を、予めトレーニングデータとして登録し、トレーニングデータに付随してその特定の人物の人物情報も登録しておく。そして、動画処理装置2は、静止画フレーム(二値画像フレーム)における特徴点の分布及びベクトル方向から顔認識処理を行い、抽出された顔画像が、トレーニングデータに該当するか否かを判定する。抽出された顔画像がトレーニングデータに該当する場合には、そのトレーニングデータに付随する人物情報を、動画データ及び静止画フレームに関連付けたメタデータとして生成し、人物情報データベース(図示せず)に登録する。
As another embodiment, the moving
同様にして、動画処理装置2は、静止画フレームにおけるランドマーク(特に、著名な建造物)の画像を認識すると共に、そのランドマーク情報をメタデータとして生成するように構成することもできる。
Similarly, the moving
更に、他の実施形態として、動画処理装置2は、静止画フレームにおける特定の風景(特に、色彩から想定できる海等の風景)の画像を認識すると共に、その風景情報をメタデータとして生成するように構成することもできる。この場合、動画処理装置2は、特定の風景の色の分布を示すヒストグラムを、予めトレーニングデータとして登録し、トレーニングデータに付随してその特定の風景の風景情報も登録しておく。そして、動画処理装置2は、静止画フレーム(処理対象フレーム)における色の分布のヒストグラムを算出し、そのヒストグラムが、トレーニングデータに該当するか否かを判定する。算出されたヒストグラムがトレーニングデータに該当する場合には、そのトレーニングデータに付随する風景情報を、動画データ及び静止画フレームに関連付けたメタデータとして生成し、風景情報データベース(図示せず)に登録する。
Furthermore, as another embodiment, the moving
本実施形態では、動画処理装置2が文字認識処理の機能を有する構成を説明したが、この構成に限定されない。例えば、他の実施形態では、動画処理システム1において、動画処理装置2又は他のサーバが、動画処理装置2と同様の文字認識処理の機能を有するプログラムやアプリケーションを提供するように構成されてもよい。
In the present embodiment, the configuration in which the moving
1 動画処理システム
2 動画処理装置
3 ネットワーク
4 動画データベース(DB)
5 文字情報データベース(DB)
6 検索エンジン
7 視聴者端末
10 制御部
11 記憶部
12 通信部
13 フレーム切り出し部
14 近似判定部
15 シャープ化部
16 二値化部
17 文字認識部
18 メタデータ生成部
1
5 Character information database (DB)
6
Claims (7)
前記複数の静止画フレームに対して、前後に連続する前記静止画フレームの近似判定を順次行い、前記近似判定において近似と判定された場合には、先行の前記静止画フレームを処理対象フレームとすると共に、後続の前記静止画フレームを処理対象フレームから除外する近似判定部と、
前記処理対象フレームにシャープ化処理を施してエッジを強調したエッジ強調フレームを生成するシャープ化部と、
前記エッジ強調フレームに二値化処理を施して二値画像フレームを生成する二値化部と、
前記二値画像フレームに対して文字認識処理を行って文字情報を取得する文字認識部と、
前記文字情報と共に、少なくとも、当該文字情報が取得された前記動画データに関する動画情報と当該文字情報が取得された前記静止画フレームの静止画情報とを記録したメタデータを前記文字情報毎に生成するメタデータ生成部と、
を備え、
前記二値化部は、前記エッジ強調フレームの色温度範囲を算出すると共に、前記色温度範囲における所定の閾値間隔毎の複数の色温度のそれぞれに基づいて複数の閾値を取得して、前記エッジ強調フレームに対して前記複数の閾値をそれぞれ用いた二値化処理を施して複数の前記二値画像フレームを生成し、
前記文字認識部は、前記複数の二値画像フレームのそれぞれに対して文字認識処理を行って前記複数の二値画像フレーム毎に前記文字情報を含む文字認識結果を得ると共に、各文字認識結果を比較して、最適な文字認識結果が得られた前記二値画像フレームのみから前記文字情報を取得し、
前記メタデータ生成部は、前記複数の二値画像フレームの内、最適な文字認識結果が得られた前記二値画像フレームのみから取得された前記文字情報に基づいて前記メタデータを生成することを特徴とする動画処理装置。 A frame cutout unit that cuts out a plurality of still image frames at predetermined frame intervals from video data;
For each of the plurality of still image frames, approximation determination of the still image frames consecutive in the front and rear is sequentially performed, and when it is determined to be approximation in the approximation determination, the preceding still image frame is set as a processing target frame. And an approximate determination unit that excludes the subsequent still image frame from the processing target frame;
A sharpening unit that generates an edge-enhanced frame that enhances an edge by applying a sharpening process to the processing target frame;
A binarization unit that binarizes the edge enhancement frame to generate a binary image frame;
A character recognition unit that obtains character information by performing character recognition processing on the binary image frame;
Along with the character information, at least metadata for recording moving image information related to the moving image data from which the character information has been acquired and still image information of the still image frame from which the character information has been acquired is generated for each character information. A metadata generation unit;
Equipped with a,
The binarization unit calculates a color temperature range of the edge enhancement frame, acquires a plurality of threshold values based on each of a plurality of color temperatures for each predetermined threshold interval in the color temperature range, and converts the edge A binarization process using each of the plurality of thresholds is performed on the emphasized frame to generate a plurality of the binary image frames,
The character recognition unit performs character recognition processing on each of the plurality of binary image frames to obtain a character recognition result including the character information for each of the plurality of binary image frames. In comparison, the character information is obtained only from the binary image frame where the optimum character recognition result was obtained,
The metadata generation unit generates the metadata based on the character information acquired from only the binary image frame from which an optimum character recognition result is obtained among the plurality of binary image frames. A moving image processing apparatus.
前記文字認識部は、前記近似判定部で算出された各特異点の分布及び方向ベクトルを、各特異点の分布及び方向ベクトルからなる所定のトレーニングデータと比較することで前記文字認識処理を行うことを特徴とする請求項3に記載の動画処理装置。 The approximate determination unit calculates a distribution and direction vector of each singular point when performing quadtree space division of the still image frame,
The character recognition unit performs the character recognition process by comparing the distribution and direction vector of each singular point calculated by the approximation determination unit with predetermined training data including the distribution and direction vector of each singular point. The moving image processing apparatus according to claim 3 .
前記動画処理装置の前記メタデータ生成部によって生成された前記文字情報毎の前記メタデータを格納する文字情報データベースと、
を備える動画処理システム。 The moving image processing apparatus according to any one of claims 1 to 6 ,
A character information database for storing the metadata for each character information generated by the metadata generation unit of the video processing device;
A video processing system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015126896A JP6091552B2 (en) | 2015-06-24 | 2015-06-24 | Movie processing apparatus and movie processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015126896A JP6091552B2 (en) | 2015-06-24 | 2015-06-24 | Movie processing apparatus and movie processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017011581A JP2017011581A (en) | 2017-01-12 |
JP6091552B2 true JP6091552B2 (en) | 2017-03-08 |
Family
ID=57764160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015126896A Active JP6091552B2 (en) | 2015-06-24 | 2015-06-24 | Movie processing apparatus and movie processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6091552B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6340675B1 (en) * | 2017-03-01 | 2018-06-13 | 株式会社Jストリーム | Object extraction device, object recognition system, and metadata creation system |
WO2023204265A1 (en) * | 2022-04-20 | 2023-10-26 | 京セラ株式会社 | Signal processing system and signal processing method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0993588A (en) * | 1995-09-28 | 1997-04-04 | Toshiba Corp | Moving image processing method |
KR100612831B1 (en) * | 2002-04-25 | 2006-08-18 | 삼성전자주식회사 | A method for color temperature conversion in image displaying device using contents description metadata of visual contents, and system using thereof |
JP4112968B2 (en) * | 2002-12-26 | 2008-07-02 | 富士通株式会社 | Video text processing device |
JP5091708B2 (en) * | 2008-02-15 | 2012-12-05 | 日本放送協会 | Search information creation device, search information creation method, search information creation program |
JP5674615B2 (en) * | 2011-09-28 | 2015-02-25 | 株式会社日立情報通信エンジニアリング | Character recognition device and character recognition method |
JP6055297B2 (en) * | 2012-12-07 | 2016-12-27 | 株式会社日立情報通信エンジニアリング | Character recognition apparatus and method, and character recognition program |
-
2015
- 2015-06-24 JP JP2015126896A patent/JP6091552B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017011581A (en) | 2017-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10452919B2 (en) | Detecting segments of a video program through image comparisons | |
CN106254933B (en) | Subtitle extraction method and device | |
US10242265B2 (en) | Actor/person centric auto thumbnail | |
CN104994426B (en) | Program video identification method and system | |
US8358837B2 (en) | Apparatus and methods for detecting adult videos | |
US8064641B2 (en) | System and method for identifying objects in video | |
CN103052953B (en) | Messaging device, information processing method | |
CN107222795B (en) | Multi-feature fusion video abstract generation method | |
EP2587826A1 (en) | Extraction and association method and system for objects of interest in video | |
EP2568429A1 (en) | Method and system for pushing individual advertisement based on user interest learning | |
CN108881947B (en) | Method and device for detecting infringement of live stream | |
JP6557592B2 (en) | Video scene division apparatus and video scene division program | |
CN105657514A (en) | Method and apparatus for playing video key information on mobile device browser | |
JP6601944B2 (en) | Content generating apparatus and program | |
US10296539B2 (en) | Image extraction system, image extraction method, image extraction program, and recording medium storing program | |
CN110418148B (en) | Video generation method, video generation device and readable storage medium | |
CN113435438B (en) | Image and subtitle fused video screen plate extraction and video segmentation method | |
JP6091552B2 (en) | Movie processing apparatus and movie processing system | |
CN107369450B (en) | Recording method and recording apparatus | |
CN108052941B (en) | News subtitle tracking method and device | |
CN108363981B (en) | Title detection method and device | |
JP2018147019A (en) | Object extraction device, object recognition system and meta-data creating system | |
JP2009049667A (en) | Information processor, and processing method and program thereof | |
KR100981125B1 (en) | method of processing moving picture and apparatus thereof | |
JP4305921B2 (en) | Video topic splitting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161011 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20161017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20161017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6091552 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |