JP2009272961A - Content evaluation method, device and program and computer-readable recording medium - Google Patents
Content evaluation method, device and program and computer-readable recording medium Download PDFInfo
- Publication number
- JP2009272961A JP2009272961A JP2008122655A JP2008122655A JP2009272961A JP 2009272961 A JP2009272961 A JP 2009272961A JP 2008122655 A JP2008122655 A JP 2008122655A JP 2008122655 A JP2008122655 A JP 2008122655A JP 2009272961 A JP2009272961 A JP 2009272961A
- Authority
- JP
- Japan
- Prior art keywords
- content
- quality
- analysis signal
- signal
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
Description
本発明は、コンテンツ評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、動画像、音声、音楽などのマルチメディアコンテンツのクオリティを自動的に評価するためのコンテンツ評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to a content evaluation method and apparatus, a program, and a computer-readable recording medium, and in particular, a content evaluation method and apparatus for automatically evaluating the quality of multimedia content such as moving images, sounds, and music, and the like. The present invention relates to a program and a computer-readable recording medium.
現在マルチメディアコンテンツの数が増大している。マルチメディアコンテンツには、主として映像・音声・音楽コンテンツがあるが、これらはいずれも時間メディアであるため、コンテンツ内容を把握するためには、凡そコンテンツの時間長と同じ時間を必要とする。このような時間的コストを低減したいという要請の下、コンテンツを視聴することなく、内容を事前に把握することのできる技術が求められている。 Currently, the number of multimedia contents is increasing. Multimedia contents mainly include video, audio, and music contents. Since these are all time media, it takes about the same time length as the contents to grasp the contents. Under such a demand for reducing the time cost, there is a demand for a technology that can grasp the contents in advance without viewing the contents.
一言で内容といっても、様々な情報が含まれるが、中でも、コンテンツのクオリティは非常の重要な情報であると認識されている。例えば、商用のドラマや映画などは、プロフェッショナルの作成者、撮影機器によって作成されており、画質や音質、ストーリーなどのクオリティが比較的高い。一方で、家庭等で撮影されたホームビデオなどは、アマチュアの作者によって作成されたものであることが多いため、相対的にはクオリティが低い。 Even if it is content in a word, various information is included, but it is recognized that the quality of the content is very important information. For example, commercial dramas and movies are created by professional creators and photographic equipment, and have relatively high image quality, sound quality, and story quality. On the other hand, home videos and the like taken at home are often produced by amateur authors, and therefore have relatively low quality.
このように、コンテンツのクオリティを知ることができれば、そのコンテンツがどのような目的で作成されたコンテンツであるのか、また、どのようなコンテンツであるのかなどを事前に推測することも可能となってくる。 In this way, if the quality of the content can be known, it is possible to estimate in advance what purpose the content is created for and what kind of content it is. come.
コンテンツの情報を用いて、コンテンツのクオリティを評価する技術として、映像策定時のカメラの動きに着目し、これが急激に動く場合や手振れを含むセグメントは、クオリティが低いと判断する技術がある(例えば、特許文献1参照)。 As a technology for evaluating the quality of content using content information, there is a technology that focuses on the movement of the camera at the time of video formulation, and determines that the quality of a segment that includes a sudden movement or camera shake is low (for example, , See Patent Document 1).
なお、関連技術として、発話セグメントと音楽セグメントを検出する方法(例えば、特許文献2参照)、テロップの出現領域を特定する手法(例えば、特許文献3参照)、顔の撮影された領域を検出する方法(例えば、特許文献4参照)、動画検索方法(例えば、特許文献5、6参照)、基本周波数及びパワーの抽出方法(例えば、非特許文献1参照)、映像構造化手法(例えば、非特許文献2参照)、などが、公知の技術として存在する。
従来の技術では、カメラの動きのみを用いて、コンテンツのクオリティを判定している。しかしながら、これはドラマや映画、スポーツ映像や一般のホームビデオなど、多くの映像に含まれるものであるため、これのみに基づいてクオリティを測る場合、その精度が低いものになってしまうという問題があった。また、クオリティが低いかそうでないか、の2値判定をするに留まっていた。 In the prior art, the quality of content is determined using only the movement of the camera. However, since this is included in many videos such as dramas, movies, sports videos and general home videos, when measuring quality based only on this, there is a problem that the accuracy is low. there were. In addition, the binary determination of whether the quality is low or not is limited.
上記のような理由から、従来技術のみでは、コンテンツの詳細なクオリティを提供できないという問題がある。 For the above reasons, there is a problem that the detailed quality of content cannot be provided only by the conventional technology.
本発明は、上記の点に鑑みなされたもので、コンテンツ中の画像、音声、音楽信号の少なくとも1つを解析し、コンテンツのセグメント毎に、そのクオリティを数値的に、精度良く計測することで、より詳細なクオリティ情報を提供できるコンテンツ評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。 The present invention has been made in view of the above points. By analyzing at least one of an image, a sound, and a music signal in content, and measuring the quality numerically and accurately for each segment of the content. Another object of the present invention is to provide a content evaluation method and apparatus and program capable of providing more detailed quality information, and a computer-readable recording medium.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、コンテンツ中に含まれる画像、音声、音楽信号の少なくとも1つを解析し、コンテンツを評価するコンテンツ評価装置であって、
コンテンツ中の画像情報、または、音声情報、または、画像情報、及び、音声情報の少なくとも1つを分析信号として抽出し、記憶手段40に格納する分析信号抽出手段20と、
コンテンツのクオリティの違いにより発生頻度が変化する分析信号を用いた条件判定文であるルールを格納したルール記憶手段70と、
記憶手段40から分析信号を取得し、ルール記憶手段70を参照し、該分析信号に対応するルールに基づいて算出されるルール充足性尺度を用いてクオリティ値を計算して出力するクオリティ値算出手段60と、を有する。
The present invention (Claim 1) is a content evaluation apparatus that analyzes at least one of an image, a sound, and a music signal included in content and evaluates the content,
Analysis signal extraction means 20 for extracting at least one of image information or audio information or image information and audio information in the content as an analysis signal and storing it in the storage means 40;
A rule storage means 70 for storing a rule that is a condition determination sentence using an analysis signal whose frequency of occurrence changes due to a difference in content quality;
Quality value calculation means for acquiring an analysis signal from the storage means 40, referring to the rule storage means 70, and calculating and outputting a quality value using a rule satisfaction measure calculated based on a rule corresponding to the
また、本発明(請求項2)は、ルール記憶手段70において、
条件判定文として、
一連の会話中のカット点がある場合に、コンテンツのクオリティを高く評価し、一連の会話中にカメラワークがある場合にコンテンツのクオリティを低く評価する条件判定文を格納する。
Further, the present invention (Claim 2) is provided in the rule storage means 70.
As a condition judgment sentence,
When there is a cut point during a series of conversations, a condition judgment sentence is stored that evaluates the quality of the content highly, and evaluates the content quality low when there is camera work during the series of conversations.
また、本発明(請求項3)は、コンテンツ中に含まれる画像、音声、音楽信号の少なくとも1つを解析し、コンテンツを評価するコンテンツ評価装置であって、
コンテンツ中の画像情報、または、音声情報、または、画像情報及び音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出手段と、
記憶手段から分析信号を読み出して、該分析信号のうち、画像信号のショット長、動き量、カラーヒストグラム、ピッチ変化、パワーレベル、音声信号のピッチ変化、パワーレベル比のうちの少なくとも1つを用いて算出される特徴量尺度を用いて、クオリティ値を計算して出力するクオリティ値算出手段と、を有する。
The present invention (Claim 3) is a content evaluation apparatus that analyzes at least one of an image, a sound, and a music signal included in content and evaluates the content,
Analysis signal extraction means for extracting at least one of image information, audio information, or image information and audio information in the content as an analysis signal, and storing it in the storage means;
The analysis signal is read from the storage means, and at least one of the shot length of the image signal, the amount of motion, the color histogram, the pitch change, the power level, the pitch change of the audio signal, and the power level ratio among the analysis signals is used. Quality value calculation means for calculating and outputting a quality value using the feature quantity scale calculated in this manner.
本発明(請求項4)は、コンテンツ中に含まれる画像、音声、音楽信号の少なくとも1つを解析し、コンテンツを評価するコンテンツ評価装置であって、
コンテンツ中の画像情報、または、音声情報、または、画像情報及び音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出手段と、
一連の会話中のカット点がある場合に、コンテンツのクオリティを高く評価し、一連の会話中にカメラワークがある場合にコンテンツのクオリティを低く評価する条件判定文を格納したルール記憶手段と、
前記憶手段から分析信号を取得し、ルール記憶手段を参照し、該分析信号に対応するルールに基づいて算出されるルール充足性尺度を用いてクオリティ値を計算して出力する第1のクオリティ値算出手段と、
記憶手段から分析信号を読み出して、該分析信号のうち、画像信号のショット長、動き量、カラーヒストグラム、ピッチ変化、パワーレベル、音声信号のピッチ変化、パワーレベル比のうちの少なくとも1つを用いて算出される特徴量尺度を用いて、クオリティ値を計算して出力する第2のクオリティ値算出手段と、を有する。
The present invention (Claim 4) is a content evaluation device that analyzes at least one of an image, a sound, and a music signal included in content and evaluates the content,
Analysis signal extraction means for extracting at least one of image information, audio information, or image information and audio information in the content as an analysis signal, and storing it in the storage means;
A rule storage means for storing a condition judgment sentence that evaluates the quality of the content highly when there is a cut point during a series of conversations, and evaluates the quality of the content low when there is camera work during the series of conversations;
A first quality value obtained by obtaining an analysis signal from the pre-storage means, referring to the rule storage means, and calculating and outputting a quality value using a rule satisfaction measure calculated based on a rule corresponding to the analysis signal A calculation means;
The analysis signal is read from the storage means, and at least one of the shot length of the image signal, the amount of motion, the color histogram, the pitch change, the power level, the pitch change of the audio signal, and the power level ratio among the analysis signals is used. Second quality value calculating means for calculating and outputting a quality value using the feature quantity scale calculated in this manner.
図2は、本発明の原理を説明するための図である。 FIG. 2 is a diagram for explaining the principle of the present invention.
本発明(請求項5)は、コンテンツ中に含まれる画像、音声、音楽信号の少なくとも1つを解析し、コンテンツを評価するコンテンツ評価方法であって、
分析信号抽出手段が、コンテンツ中の画像情報、または、音声情報、または、画像情報、及び、音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出ステップ(ステップ1)と、
クオリティ値算出手段が、記憶手段から分析信号を取得し、コンテンツのクオリティの違いにより発生頻度が変化する分析信号を用いた条件判定文であるルールを格納したルール記憶手段を参照し、該分析信号に対応するルールに基づいて算出されるルール充足性尺度を用いてクオリティ値を計算して出力するクオリティ値算出ステップ(ステップ2)と、を行う。
The present invention (Claim 5) is a content evaluation method for analyzing a content by analyzing at least one of an image, a sound, and a music signal included in the content,
An analysis signal extraction step (step 1) in which the analysis signal extraction unit extracts at least one of image information, audio information, image information, and audio information in the content as an analysis signal and stores it in the storage unit. When,
The quality value calculation means obtains an analysis signal from the storage means, and refers to the rule storage means that stores a rule that is a condition determination sentence using an analysis signal whose occurrence frequency varies depending on the quality of the content. And a quality value calculating step (step 2) for calculating and outputting a quality value using a rule satisfaction measure calculated based on the rule corresponding to.
また、本発明(請求項6)は、クオリティ値算出ステップ(ステップ2)において、
一連の会話中のカット点がある場合に、コンテンツのクオリティを高く評価し、一連の会話中にカメラワークがある場合にコンテンツのクオリティを低く評価する条件判定文を格納した、ルール記憶手段を参照する。
Further, according to the present invention (Claim 6), in the quality value calculation step (Step 2),
Refers to rule storage means that stores a condition judgment statement that evaluates content quality high when there is a cut point during a series of conversations, and evaluates content quality low when there is camerawork during a series of conversations To do.
本発明(請求項7)は、コンテンツ中に含まれる画像、音声、音楽信号の少なくとも1つを解析し、コンテンツを評価するコンテンツ評価方法であって、
分析信号抽出手段がコンテンツ中の画像情報、または、音声情報、または、画像情報及び音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出ステップと、
クオリティ値算出手段が、記憶手段から分析信号を読み出して、該分析信号のうち、画像信号のショット長、動き量、カラーヒストグラム、ピッチ変化、パワーレベル、音声信号のピッチ変化、パワーレベル比のうちの少なくとも1つを用いて算出される特徴量尺度を用いて、クオリティ値を計算して出力するクオリティ値算出ステップと、を行う。
The present invention (Claim 7) is a content evaluation method for analyzing a content by analyzing at least one of an image, a sound, and a music signal included in the content,
An analysis signal extraction step in which the analysis signal extraction unit extracts at least one of image information or audio information or image information and audio information in the content as an analysis signal, and stores the analysis signal in a storage unit;
The quality value calculation means reads the analysis signal from the storage means, and among the analysis signal, the shot length of the image signal, the amount of motion, the color histogram, the pitch change, the power level, the pitch change of the audio signal, and the power level ratio A quality value calculating step of calculating and outputting a quality value using a feature amount scale calculated using at least one of the following.
本発明(請求項8)は、コンテンツ中に含まれる画像、音声、音楽信号の少なくとも1つを解析し、コンテンツを評価するコンテンツ評価方法であって、
分析信号抽出手段が、コンテンツ中の画像情報、または、音声情報、または、画像情報及び音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出ステップと、
第1のクオリティ値算出手段が、記憶手段から分析信号を取得し、一連の会話中のカット点がある場合に、コンテンツのクオリティを高く評価し、一連の会話中にカメラワークがある場合にコンテンツのクオリティを低く評価する条件判定文を格納したルール記憶手段を参照し、該分析信号に対応するルールに基づいて算出されるルール充足性尺度を用いてクオリティ値を計算して出力する第1のクオリティ値算出ステップと、
第2のクオリティ値算出手段が、記憶手段から分析信号を読み出して、該分析信号のうち、画像信号のショット長、動き量、カラーヒストグラム、ピッチ変化、パワーレベル、音声信号のピッチ変化、パワーレベル比のうちの少なくとも1つを用いて算出される特徴量尺度を用いて、クオリティ値を計算して出力する第2のクオリティ値算出ステップと、
を行う。
The present invention (Claim 8) is a content evaluation method for analyzing content by analyzing at least one of an image, a sound, and a music signal included in the content,
An analysis signal extraction step in which the analysis signal extraction means extracts at least one of image information or audio information or image information and audio information in the content as an analysis signal, and stores it in the storage means;
The first quality value calculation means obtains the analysis signal from the storage means, evaluates the quality of the content highly when there is a cut point during a series of conversations, and if there is camera work during the series of conversations, the content First, a rule storage means that stores a condition determination sentence that evaluates the quality of the image at a low level is calculated, and a quality value is calculated and output using a rule satisfaction measure calculated based on the rule corresponding to the analysis signal. A quality value calculation step;
The second quality value calculation means reads the analysis signal from the storage means, and among the analysis signals, the shot length of the image signal, the amount of motion, the color histogram, the pitch change, the power level, the pitch change of the audio signal, the power level A second quality value calculating step of calculating and outputting a quality value using a feature amount scale calculated using at least one of the ratios;
I do.
本発明(請求項9)は、請求項1乃至4のいずれか1項記載のコンテンツ評価装置を構成する各手段としてコンピュータを機能させるためのコンテンツ評価プログラムである。
The present invention (Claim 9) is a content evaluation program for causing a computer to function as each means constituting the content evaluation apparatus according to any one of
本発明(請求項10)は、請求項9記載のコンテンツ評価プログラムを格納したコンピュータ読み取り可能な記録媒体である。 The present invention (Claim 10) is a computer-readable recording medium storing the content evaluation program according to Claim 9.
上記のように、本発明は、コンテンツのクオリティの違いにより出現刷る頻度が変化する特徴を画像、音声、音楽信号の中から予め抽出して、コンテンツのクオリティ評価用の条件判定文もしくは評価式を作成する。評価対象となるコンテンツからこれらの評価用の特徴量を抽出し、条件判定文や評価式を用いてコンテンツの評価値を算出する。 As described above, according to the present invention, a feature that changes the frequency of appearance printing due to a difference in content quality is extracted in advance from an image, a sound, and a music signal, and a condition judgment sentence or an evaluation expression for content quality evaluation is obtained. create. These evaluation feature quantities are extracted from the content to be evaluated, and the evaluation value of the content is calculated using a condition determination sentence and an evaluation formula.
コンテンツのクオリティの違いにより出現する頻度が変化する特徴については、例えば一般的には編集処理がなされた場合にはコンテンツのクオリティが高くなることを利用して、編集作業(例えば、テロップの挿入)を実施したことを検出対象とする特徴検出処理を実施し、編集作業を実施したことが検出された場合には、コンテンツのクオリティを高く評価する評価値を付与する。また、品質の高いコンテンツを作成する際には、複数種類の映像機器を利用(例えば、複数台のカメラを利用)している頻度が高いことを利用し、カメラを複数台利用して作成したことが分かる特徴量を評価に用いる。 For features whose frequency of appearance changes due to differences in content quality, for example, editing work (for example, insertion of a telop) is generally performed by using the fact that the quality of the content becomes higher when editing processing is performed. When it is detected that the editing operation has been performed by performing the feature detection process for detecting that the content has been implemented, an evaluation value that highly evaluates the quality of the content is assigned. Also, when creating high-quality content, it was created using multiple cameras, taking advantage of the high frequency of using multiple types of video equipment (for example, using multiple cameras). A feature quantity that can be understood is used for evaluation.
上記のように、本発明によれば、コンテンツのクオリティの違いにより出現する頻度が変化する特徴を条件判定として持つルールを予め作成し、ルール充足性尺度を算出して映像のクオリティを評価することにより、評価結果の精度が向上する。 As described above, according to the present invention, a rule having a feature whose appearance frequency changes due to a difference in content quality as a condition determination is created in advance, and a rule satisfaction measure is calculated to evaluate video quality. As a result, the accuracy of the evaluation result is improved.
また、映像の各セグメントに対してコンテンツのクオリティを評価することにより、クオリティが高い映像素材とクオリティが低い映像素材とを組み合わせた映像に対しても、正しい評価が実施可能となる。 In addition, by evaluating the quality of content for each segment of video, it is possible to perform correct evaluation even for video that is a combination of high-quality video material and low-quality video material.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の第1の実施の形態におけるコンテンツ評価装置の構成を示す。 FIG. 3 shows the configuration of the content evaluation apparatus according to the first embodiment of the present invention.
同図に示すコンテンツ評価装置は、コンテンツ記憶部10、分析信号抽出部20、セグメント分割部30、分析信号メモリ40、セグメントメモリ50、クオリティ値算出部60、ルール記憶部70を有する。
The content evaluation apparatus shown in the figure includes a
同図の例では、分析信号抽出部20及びセグメント分割部30にコンテンツを入力する場合には、コンテンツ記憶部10からコンテンツを読み込む例を示しているが、この例に限定されることなく、マウス等のポンティングデバイス、キーボード等によって構成される入力装置と、クオリティ値算出部60から出力されるクオリティ値を表示するための液晶画面等のモニタ画面を有し、入力装置やコンテンツ評価装置自体の処理に応じて情報を提示可能な出力装置が接続されるものとし、例えば、入力データ、処理経過、処理結果となるセグメントをはじめ、各種情報が出力表示される。
In the example shown in the figure, when content is input to the analysis
また、分析信号メモリ40、セグメントメモリ50は、例えば、RAM(Random Access Memory)、ROM(Read Only memory)、ハードディスク装置等であり、必要に応じて、CD(Compact Disk)、DVD(Digital Versatile Disk)等の光学ディスクドライブ装置等により構成されるものとする。また、当該分析信号メモリ40やセグメントメモリ50の他にも必要に応じて記憶装置を設けることが可能であるが、例えば、本発明によるコンテンツ評価装置を、汎用のPC(Personal Computer)に組み込んで利用する場合など、当該記憶装置が外部のそれを以って代用できる場合には、含むことを必要とするものではない。
The
分析信号抽出部20は、コンテンツデータに含まれる音声信号を抽出し、分析信号メモリ40に記憶する。
The analysis
セグメント分割部30は、音声信号に基づいてコンテンツをセグメントに分割する。
The
クオリティ値算出部60は、セグメント毎にクオリティ値(Q値)の計算処理を実施し、出力装置(図示せず)に結果を出力する。
The
図4は、本発明の一実施の形態における評価方法のフローチャート(その1)である。 FIG. 4 is a flowchart (part 1) of the evaluation method according to the embodiment of the present invention.
本実施の形態におけるコンテンツ評価方法は、大別して3つのステップからなる。 The content evaluation method in the present embodiment is roughly divided into three steps.
ステップ10)分析信号抽出処理ステップ:
分析信号抽出部20がコンテンツ記憶部10から読み込んだコンテンツから動画像、音声信号、または、その両方を分析して抽出し、分析信号メモリ40に出力する。
Step 10) Analysis signal extraction processing step:
The analysis
ステップ11)セグメント分割ステップ:
当該処理は必要に応じて実施する。セグメント分割部30が入力されたコンテンツを1つ以上のセグメントに分割し、各セグメントの開始時刻、セグメント長をセグメントメモリ50に出力する。ここで、セグメントとは、コンテンツ全体、もしくは、コンテンツの中の部分区間を意味するものとする。当該ステップは、必要に応じて導入されるものであるが、予め人手、もしくは、本発明の技術に係らない範囲で各セグメントの開始時刻とセグメント長が与えられる場合や、コンテンツ全体をセグメントとする場合などには導入する必要がない。
Step 11) Segment division step:
This processing is performed as necessary. The
ステップ12)クオリティ値計算処理ステップ:
クオリティ値算出部60は、分析信号メモリ40から取得した分析信号と、セグメントメモリ50から取得した各セグメントのセグメント開始時刻、セグメント長に基づいてセグメント毎にルール記憶部70のルールを参照してクオリティ値を計算し、これを出力する。
Step 12) Quality value calculation processing step:
The quality
以下に、上記の各ステップの処理を詳細に説明する。 Hereinafter, the processing of each step will be described in detail.
ステップ10の分析信号処理ステップについて説明する。
The analysis signal processing step of
分析信号抽出部20は、コンテンツがディジタルデータとして入力された場合、これは画像信号と音声信号に分けられる。このデータのうち、必要に応じて画像信号、音声信号、あるいは、その両方を、分析信号として抽出し、分析信号メモリ40に格納する。
When the content is input as digital data, the analysis
この分析信号は、画像信号だけでもよいし、音声信号だけでもよい。以降の処理は、例えば、音声信号だけを用いる場合でも、画像信号だけを用いる場合でも、あるいは両方を用いる場合でも、何れも実行可能なものである。 This analysis signal may be an image signal alone or an audio signal alone. The subsequent processing can be executed, for example, when only an audio signal is used, when only an image signal is used, or when both are used.
次に、ステップ11のセグメント分割処理ステップについて説明する。 Next, the segment division processing step of Step 11 will be described.
セグメント分割とは、コンテンツ中に含まれる画像信号、音声信号、あるいはその両方に基づいて、コンテンツを0回以上区切る処理を指す。 Segment division refers to a process of dividing content zero or more times based on image signals, audio signals, or both included in the content.
当該ステップは、予めセグメントが与えられている場合や、セグメントを定める必要がない場合には、図5に示すように、実行する必要はない。 This step does not need to be executed as shown in FIG. 5 when a segment is given in advance or when it is not necessary to define a segment.
また、この処理に利用する信号は、必ずしも前述の分析信号と同じである必要はない。 Further, the signal used for this processing is not necessarily the same as the analysis signal described above.
まず、画像信号を用いてセグメントを生成する方法について述べる。 First, a method for generating a segment using an image signal will be described.
画像信号を用いる際には、構造化情報を利用してセグメントを生成する。 When using an image signal, a segment is generated using structured information.
構造化情報とその抽出方法としては、例えば、前述の非特許文献2に記載のもの、即ち、カット点、カメラワークなどと、種々の抽出方法がある。
As the structured information and its extraction method, there are various extraction methods such as those described in
これらのものから、任意の情報を任意の数だけ利用してよいが、好ましくはカット点を利用し、これを直後、セグメントの境界として利用すればよい。この場合、セグメントはカット点によって前後を挟まれる、ショットとして生成される。 Of these, any number of pieces of arbitrary information may be used, but a cut point is preferably used, and this may be used immediately after that as a segment boundary. In this case, the segment is generated as a shot sandwiched between the front and rear by the cut point.
また、さらに、カメラワークを併用し、あるショットの中で、比較的動き量の多いカメラワークが検出された場合には、そのカメラワークの開始時刻、もしくは、終了時刻を境界としてもよい。 Further, when camera work is used in combination and camera work with a relatively large amount of motion is detected in a shot, the start time or end time of the camera work may be used as a boundary.
続いて、音声信号のみを用いてセグメントを生成する方法の一例について説明する。 Next, an example of a method for generating a segment using only an audio signal will be described.
音声信号に対して予め定めた一定の窓幅、例えば50ms(ミリセコンド)と、シフト間隔、例えば、30msを持つ分析窓を設定する。この分析窓を単位として、音声信号を有相関信号と無相関信号に分ける。ここで、有相関信号とは、人間や動物による発話、及び音楽のように、自己相関関数値の高い信号であり、反対に、無相関信号とは、有相関信号ではない信号、即ち、白色雑音などの自己相関関数値の低い信号を指す。 An analysis window having a predetermined fixed window width for the audio signal, for example, 50 ms (milliseconds), and a shift interval, for example, 30 ms is set. Using this analysis window as a unit, the audio signal is divided into a correlated signal and an uncorrelated signal. Here, a correlated signal is a signal having a high autocorrelation function value, such as speech and music by humans and animals, and conversely, an uncorrelated signal is a signal that is not a correlated signal, that is, white. A signal with a low autocorrelation function value such as noise.
各分析窓に含まれる音声信号が有相関信号であるか、無相関信号であるかは、例えば、次のように分類することができる。 Whether the audio signal included in each analysis window is a correlated signal or an uncorrelated signal can be classified as follows, for example.
音声信号の自己相関関数値を計算し、これが閾値を超える値となっている場合には有相関信号、そうでない場合には無相関信号であると見做す。この閾値の与え方は、例えば、0.7とするなど、予め定数として与えておいてもよいし、一定の有相関信号の存在する時間と無相関信号の存在する時間の比を基準として、この比に最も近くなるような閾値を決定してもよい。 The autocorrelation function value of the audio signal is calculated, and if it is a value exceeding the threshold value, it is regarded as a correlated signal, otherwise it is regarded as an uncorrelated signal. The method of giving this threshold value may be given as a constant in advance, for example, 0.7, or based on the ratio of the time when a constant correlated signal exists and the time when an uncorrelated signal exists, as a reference. A threshold value closest to this ratio may be determined.
次に、有相関信号と判定された分析窓のうち、連続している有相関窓(有相関信号であると判定された分析窓)で構成される区間によって、セグメントを構成する。この処理の実行によって、連続する人間や動物の発話、音楽などをひとまとまりの区間として扱うことができるため、視聴する人間によって意味の理解可能なセグメントを生成することが可能となる。 Next, among the analysis windows determined to be correlated signals, a segment is configured by a section configured by continuous correlated windows (analysis windows determined to be correlated signals). By executing this process, it is possible to handle continuous speech of humans and animals, music, and the like as a group of sections, so that it is possible to generate a segment whose meaning can be understood by the viewer.
セグメントを構成する方法の一例について説明する。 An example of a method for configuring a segment will be described.
セグメントの構成は、セグメント間の境界を決定する処理によって実行する。 The segment configuration is executed by a process for determining a boundary between segments.
コンテンツ中の有相関窓Fの集合を時間の早いものから順に{F1,F2,…,FN}とする。ここでは、Nは有相関窓の総数である。 Assume that a set of correlated windows F in the content is {F 1 , F 2 ,..., F N } in order from the earliest time. Here, N is the total number of correlated windows.
次に、時間軸上隣り合う有相関窓Fi,Fi+1の時間間隔、すなわち、Fiの終了時刻Fiendと、次の分析窓であるFi+1の開始時刻Fi+1startについて、その時刻の差Fi+1start−Fiendを計算する。 Next, the correlated window F i adjacent on the time axis, F i + 1 of the time interval, i.e., the end time F iend of F i, the start time F i + 1 start of the F i + 1 is the next analysis window, the time The difference F i + 1start −F iend is calculated.
次に、その計算結果を、予め決定したある閾値と比較し、これよりも大きければ、FiとFi+1は互いに異なるセグメントに属する有相関窓であると考え、これら2つの間をセグメントの境界とする。 Next, the calculation result is compared with a predetermined threshold value, and if it is larger than this, it is considered that F i and F i + 1 are correlated windows belonging to different segments, and the boundary of the segment is defined between these two. And
このような処理を全ての分析窓に繰り返すことで、時間差のある有相関窓同士は互いに異なるセグメントとすることができ、その結果、時間差のない、一連の有相関信号は同一のセグメントにまとめることができる。 By repeating this process for all analysis windows, correlated windows with a time difference can be made into different segments, and as a result, a series of correlated signals without a time difference are combined into the same segment. Can do.
例えば、図6に示す例では、Fj+1−Fj=T1,Fj+2−Fj+1=T2となっている。もし、閾値Tth、を、T1<Tth<T2と設定した場合、T2を境界として、2つのセグメントBA,BBが構成される。
For example, in the example shown in FIG. 6, F j + 1 −F j = T1, F j + 2 −F j + 1 = T2. If the threshold T th is set as
この閾値Ttbは、低い値にすればするほど、境界の数が増加するため、生成されるセグメント数が増加することとなり、逆に、高い値にするほど、境界の数が減少し、生成されるセグメント数は減少することとなる。 As the threshold value T tb is set to a lower value, the number of boundaries increases, so the number of segments to be generated increases. Conversely, as the threshold value T tb is increased, the number of boundaries decreases, The number of segments to be reduced will decrease.
特別な場合として、閾値Ttbを非常に高い値、例えば、コンテンツ全体の時間長以上の値を設定することなどによって、セグメントを全く分割しないようにすることもできる。 As a special case, the segment may not be divided at all by setting the threshold value T tb to a very high value, for example, a value equal to or greater than the time length of the entire content.
従って、前述のように、本発明におけるセグメントとは、コンテンツ全体としてもよく、以降の処理は、コンテンツが全く分割されないような閾値Ttbを設定した場合であっても実行可能であり、この場合には、当該ステップ11は意味をなさないため、実行しないものとしてもよい。 Therefore, as described above, the segment in the present invention may be the entire content, and the subsequent processing can be executed even when the threshold value T tb is set such that the content is not divided at all. The step 11 may not be executed because it does not make sense.
また、有相関信号を、例えば人間や動物による発話音声信号、音楽信号など、さらに、詳細に分類し、これらを分けてセグメントを生成してもよい。この場合には、これらを分ける基準としてスペクトル情報を用いることができる。 Further, the correlated signal may be further classified in detail, for example, a speech signal or a music signal by a person or an animal, and these may be divided to generate a segment. In this case, spectrum information can be used as a reference for separating them.
例えば、発話音声信号と音楽信号を分類する手法としては、前述の特許文献3に記載の方法を用いることができる。
For example, as a method for classifying the speech audio signal and the music signal, the method described in
このような処理によって、より詳細なセグメントを生成することができる。 A more detailed segment can be generated by such processing.
最後の音声信号と画像信号双方を利用して、セグメント生成を実行する場合について述べる。 A case will be described in which segment generation is executed using both the last audio signal and image signal.
例えば、前述の音声信号を利用したセグメント生成では、有相関窓のない部分などに対しては、区間分割を実行することができないという問題がある。そこで、音声信号などを利用したセグメント生成と画像情報、例えば、カット点を利用したセグメント生成を両方とも適用するものとしてもよい。この方法によって、片方のみによるセグメント生成では成すことができない細かい区間を定めることが可能となる。 For example, in the segment generation using the above-described audio signal, there is a problem that section division cannot be performed on a portion without a correlated window. Therefore, both segment generation using an audio signal and image information, for example, segment generation using a cut point may be applied. By this method, it is possible to define a fine section that cannot be achieved by segment generation by only one side.
また、片方のみでは有効なセグメント生成が実行できない場合、例えば、コンテンツに有相関窓が存在しない場合や、画像の構造化情報が存在しない場合などにおいても、相補的に区間分割を実行することが可能である。 In addition, when effective segment generation cannot be performed by using only one of them, for example, when there is no correlated window in the content or when there is no structured information of an image, it is possible to perform section division complementarily. Is possible.
以上の処理によって、コンテンツから1つ以上のセグメントを生成することが可能である。 Through the above processing, one or more segments can be generated from the content.
なお、ここに述べた例、及びその他の例、いずれの方法を用いた場合にも、各セグメントの開始時刻、及びその時間長を取得し、セグメントメモリ50に格納する。
It should be noted that the start time of each segment and its time length are acquired and stored in the
次に、ステップ12のクオリティ値計算処理ステップについて説明する。 Next, the quality value calculation processing step of step 12 will be described.
図7は、本発明の一実施の形態におけるクオリティ算出部の構成を示す。 FIG. 7 shows the configuration of the quality calculation unit in one embodiment of the present invention.
クオリティ算出部60は、特徴量抽出部61、特徴量尺度算出部62、条件文判定用特徴量抽出部63、条件文判定部64、ルール充足性尺度計算部65、クオリティ値計算部66、特徴量記憶部601、特徴量尺度(FS)記憶部602、条件文判定用特徴量記憶部603、ルール充足性尺度(RS)記憶部604から構成される。
The
図8は、本発明の一実施の形態におけるクオリティ値計算処理のフローチャートである。 FIG. 8 is a flowchart of the quality value calculation process in one embodiment of the present invention.
ステップ12は、クオリティ値算出部60が、各セグメントの分析信号に基づいて、セグメントを分類する基準となるクオリティ値(以下、Q値と呼ぶ)をセグメント毎に計算し、出力するステップである。
Step 12 is a step in which the quality
Q値は、特徴量尺度FSと、ルール充足性尺度RSの2つの基準の、少なくともいずれか一方に基づいて計算される。 The Q value is calculated based on at least one of the two criteria of the feature amount scale FS and the rule sufficiency scale RS.
以下では、1つのセグメントに対して特徴量尺度FSとルール充足性尺度RSを算出する処理についてそれぞれ詳述する。なお、各セグメントに対する処理を実施する際には、セグメントメモリ50から算出処理を実施するセグメントの開始時刻、セグメントの時間長を取得して、分析情報の中で算出処理を実施するセグメントに対応する区間を特定し、この特定された区間の分析情報から特徴量抽出処理(S31)あるいは条件文判定処理(S33)を実施する。また、FASやルール充足性尺度RSを算出するために必要となる閾値やルールについては、予めルール記憶部70に格納されているものを用いる。
In the following, the processing for calculating the feature quantity scale FS and the rule satisfaction scale RS for one segment will be described in detail. When performing processing for each segment, the start time of the segment for which calculation processing is performed and the time length of the segment are acquired from the
まず、特徴量尺度FSについて説明する。 First, the feature amount scale FS will be described.
特徴量尺度FSは、分析信号メモリ40の分析情報から得られる特徴量から判断できる、クオリティの高さを示す指標である。どのような特徴量を用いるかについては、予め定めることとする。特徴量尺度FSの計算は、ステップ31(特徴量抽出処理ステップ)と、ステップ32(特徴量尺度計算処理ステップ)を経て行う。
The feature amount scale FS is an index indicating the high quality that can be determined from the feature amount obtained from the analysis information of the
ステップ31) 特徴量抽出部61において、分析信号メモリ40から分析信号を取得し、分析信号から予め定めた特徴量の抽出を行い、各特徴量の値を特徴量記憶部601に格納する。
Step 31) The feature
利用する特徴量は、例えば、分析信号として画像信号を利用する場合には、
・ショット長(SB)
・動き量(MQ)
・カラーヒストグラム(CH)
等が好適であり、また、分析信号として音声信号を利用する場合には、例えば、
・ピッチ変化(DP)
・パワーレベル比(PR)
等が好適である。
The feature quantity to be used is, for example, when using an image signal as an analysis signal,
・ Shot length (SB)
-Movement amount (MQ)
-Color histogram (CH)
In the case where an audio signal is used as the analysis signal, for example,
・ Pitch change (DP)
・ Power level ratio (PR)
Etc. are suitable.
各種特徴量の抽出方法について述べる。 A method for extracting various feature amounts will be described.
<ショット長SB>
ショット長SBは、前述のショットの時間長を指す。これは、前述の非特許文献2に記載の方法などを用いて、カット点を検出した後、これに挟まれる区間の持続時間として求めればよい。プロフェッショナルが制作した映像は長まわしのショットは少なく、平均的なショット長は6〜7秒であることが知られている。ショット長(SB)を特徴量として抽出し、例えば、図9に示すように、ショット長の分布がプロフェッショナルのもののように、ショットが分割されていれば、クオリティが高い、プロフェッショナルのものから大きく隔たっている場合には、クオリティが低いとみなすことができる。
<Shot length SB>
The shot length SB indicates the time length of the above-described shot. What is necessary is just to obtain | require this as the duration of the area pinched | interposed between this, after detecting a cut point using the method of the above-mentioned
<動き量MQ>
動き量MQの抽出については、上記の非特許文献2に記載のカメラワーク検出の最に計算するカメラパラメータ、及び、x方向、y方向移動量を利用することができる。好ましくは、ノルムを計算し、スカラー化しておく。手振れの度合、カメラワークの滑らかさの度合を動き量(MQ)として算出しておくことで、図9に示すように、クオリティの高いコンテンツとそうでないコンテンツでは差が生じる。
<Movement MQ>
For the extraction of the motion amount MQ, the camera parameters calculated at the time of camera work detection described in
<カラーヒストグラムCH>
カラーヒストグラムCHは、各画像を1つ以上の領域に分割し、各領域の平均色相値、彩度値、明度値、あるいは、RGB、輝度値などの任意の色情報を量子化し、各量子の出現回数をカウントすることで計算することができる。編集済み映像の場合は、複数のロケーション、被写体で撮影した素材を注意深く切り取って編集するので、ショット間の色合いが大きく変化する場合が多いが、未編集の映像の場合、同じ場所で撮影したショットが連続するので色変化が少ない(例えば、運動会ビデオではグランドの色が多くのショットで支配的である)。また、太陽光や照明による光の加減を、正確にコントロールしているコンテンツの場合には、被写体が鮮明に撮影されており、画像として色変化が多彩であり、そうでないものは、光の影響で全体的に白みがかかっており、一様に輝度値が高めである。
<Color histogram CH>
The color histogram CH divides each image into one or more regions, quantizes average color values, saturation values, lightness values, or arbitrary color information such as RGB and luminance values of each region, It can be calculated by counting the number of appearances. In the case of edited video, the material shot at multiple locations and subjects is carefully cut and edited, so the hue between shots often changes greatly, but in the case of unedited video, shots shot at the same place Since there is a continuous color change, the color change is small (for example, the ground color is dominant in many shots in athletic meet videos). In addition, in the case of content that accurately controls the amount of light or light caused by sunlight or lighting, the subject is clearly photographed and the image has a variety of color changes. As a whole, whiteness is applied, and the luminance value is uniformly high.
<ピッチ変化DP>
ピッチ変化DPは、例えば、前述の非特許文献1などに記載の、ピッチ抽出方法によってピッチF0を抽出した後、この時間変化を差分量として計算する。図11に示すように、音声・音楽が収音用マイクなどを用いて録音されているクオリティの高いものは、比較的ピッチの変化が滑らかとなり、差分量が小さくなる傾向にあるが、上記のような配慮をされずに録音されたものは、ピッチに不連続な点(ジャンプ)を多く含むものとなり、差分量が大きくなる傾向にある。
<Pitch change DP>
For the pitch change DP, for example, after the pitch F0 is extracted by the pitch extraction method described in
<パワーレベル比PR>
パワーレベル比PRは、例えば、音声波形の振幅のrms値をパワーとして計算し、
PR=(ピッチが抽出されている部分の平均パワー)
/(ピッチが抽出されていない部分の平均パワー)
を計算する。図12に示すように、ピッチ変化の場合と同様、録音に配慮のなされたものは、ピッチが抽出されていない部分のパワーレベルが低い傾向になるが、録音の配慮がなされていないものについては、パワーレベルが高くなる。結果、前者のPRは、高い値に、後者は低い値になる傾向がある。
<Power level ratio PR>
The power level ratio PR is calculated by, for example, calculating the rms value of the amplitude of the speech waveform as power,
PR = (Average power of the part where the pitch is extracted)
/ (Average power of the part where the pitch is not extracted)
Calculate As shown in FIG. 12, as in the case of the pitch change, those in which the recording is considered tend to have a low power level in the portion where the pitch is not extracted, but those in which the recording is not considered , The power level will be higher. As a result, the former PR tends to be high and the latter is low.
上記説明した特徴量は、用いる分析情報などに合わせて、任意のものを取捨選択して利用してよい。 The above-described feature amount may be selected and used according to the analysis information to be used.
ステップ32) 特徴量尺度算出部62は、特徴量抽出部61から渡された各特徴量の値から特徴量尺度FSを計算し、特徴量尺度(FS)記憶部602に格納する。
Step 32) The feature quantity
以下では、特徴量尺度FSを計算する処理の一例について述べる。 Below, an example of the process which calculates the feature-value scale FS is described.
特徴量尺度FSは、用いる特徴量からそれぞれについて平均値、分散などの統計量を計算し、この値に基づいて定める。 The feature amount scale FS calculates a statistical amount such as an average value and a variance for each feature amount to be used, and is determined based on this value.
例えば、ショット長の統計量として、その平均値SBA、分散値SBVや、ピッチ変化PDの統計量として、その平均値PDA、分散値PDVなどを計算すればよい。 For example, the average value SBA and variance value SBV may be calculated as shot length statistics, and the average value PDA and variance value PDV may be calculated as pitch change PD statistics.
これらの統計量から特徴量尺度FSを計算するために、各統計量から特徴量尺度FSを計算する1つ以上の関数を利用する。この関数としては、例えば線形関数を利用してもよいし、あるいは、シグモイド関数、ガウス関数などの上下有界関数や、多層パーセプトロンやサポートベクトルマシンなどの非線形関数など、任意のものを利用してよい。また、これらの関数を組み合わせて用いるものとしてもよい。 In order to calculate the feature amount scale FS from these statistics, one or more functions for calculating the feature amount scale FS from each statistic are used. As this function, for example, a linear function may be used, or an arbitrary function such as a upper and lower bounded function such as a sigmoid function or a Gauss function, or a nonlinear function such as a multilayer perceptron or a support vector machine may be used. Good. Further, these functions may be used in combination.
以下では、特徴量としてショット長の平均値SBA、パワーレベル比の平均値PRAを採用し、それぞれのシグモイド関数と線形関数を利用して特徴量尺度FSを計算する場合の一例について述べる。 Hereinafter, an example will be described in which an average value SBA of shot lengths and an average value PRA of power level ratios are employed as feature amounts, and the feature amount scale FS is calculated using each sigmoid function and linear function.
ショット長の平均値SBAについては、SBAから特徴量尺度FSに係る寄与FSSBAを、シグモイド関数を用いて以下のように計算する。 For the average value SBA of the shot length, the contribution FS SBA related to the feature amount scale FS is calculated from the SBA as follows using a sigmoid function.
また、パワーレベル比の平均値PRAについては、PRAからFSに係る寄与FSPRAを、線形写像を用いて以下のように計算する。 For the average value PRA of the power level ratio, the contribution FS PRA from PRA to FS is calculated as follows using a linear mapping.
上記において、計算されたFSSBA、FSPRAに基づいて、特徴量尺度FSを計算する。 In the above, the feature amount scale FS is calculated based on the calculated FS SBA and FS PRA .
ここでは、線形関数を利用して特徴量尺度FSを計算する例について説明する。 Here, an example of calculating the feature amount scale FS using a linear function will be described.
例えば、特徴量尺度FSを以下のように計算する。 For example, the feature quantity scale FS is calculated as follows.
以上、特徴量尺度FSを計算する方法の一例について説明したが、ここに説明した例以外にも、任意の特徴量の組み合わせ、任意の関数を利用して同様の処理が実施できることは言うまでもない。 The example of the method for calculating the feature amount scale FS has been described above, but it goes without saying that the same processing can be performed using any combination of feature amounts and any function other than the example described here.
好ましくは、最終的に計算される特徴量尺度FSは、上記で説明したように、0〜1の範囲に収まるように計算されることが望ましい。 Preferably, the feature amount scale FS that is finally calculated is calculated so as to fall within the range of 0 to 1 as described above.
次に、ルール充足性尺度RSの求め方について説明する。 Next, how to obtain the rule sufficiency measure RS will be described.
ルール充足性尺度RSは、クオリティを判断する基準となる、予めルール記憶部70に設定されたルールを充足するか否かによって計算される値である。ルール記憶部70に格納されている各ルールは、クオリティの高い映像とクオリティの低い映像とでは発生する頻度が異なる映像や音声の特徴が上演文として設定されている。ルール充足性尺度RSは、ステップ30の条件判定特徴量抽出処理、ステップ33(条件判定処理ステップ)と、ステップ34(ルール充足性尺度計算処理ステップ)を経て計算する。
The rule sufficiency measure RS is a value calculated depending on whether or not a rule set in advance in the
ステップ30) 条件文判定用特長量抽出部63における条件文判定用特徴量抽出処理では、分析情報(分析信号)からステップ33で条件判定に用いる特徴量を抽出する。なお、ステップ33での判定条件は予め規定されていることとする。したがって、ステップ30で抽出するべき特徴量も予め明らかとなる。なお、ステップ30は、ルール充足性尺度RS算出に必要な既存の特徴量抽出処理を前処理として用いてもよい。また、条件文判定用特徴量抽出部63において、特徴量尺度FS算出で用いた特徴量抽出処理(ステップ31)に記載した特徴量抽出処理の中から、ステップ33で用いる特徴量を算出する処理を選択してもよい。
Step 30) In the conditional sentence determination feature amount extraction processing in the conditional sentence determination feature
ルール充足性尺度RSは、予めルール記憶部70に設定された1つ以上のルールを用いて計算される。ルール充足性尺度RSを決定付けるルールRは、それぞれif-then形式で記述される。これは、分析情報を分析して得られる情報に基づいて構成され、以下のように記述される。
The rule sufficiency measure RS is calculated using one or more rules set in the
「if 条件文CS then RS加点」
この条件文CSを満たす場合には、trueであると判断し、thenに記述されているRS加点分だけ、RSに値を和算する。この際、RSの初期値は0としておく。
"If conditional statement CS then RS addition"
When this conditional statement CS is satisfied, it is determined to be true, and the value is added to the RS by the RS added point described in theen. At this time, the initial value of RS is set to 0.
ステップ33) まず、条件文判定部64において、処理対象となるセグメントが条件文CSを満たすか否かを判定する。
Step 33) First, the conditional
ルールRの例としては、例えば、
R1:「if テロップがある then +0.4」
R2:「if 顔のアップがある then +0.2」
R3:「if 一連の会話中における顔の向きがカメラの方向を向いている then − 0.3」
R4:「if 一連の会話中にカット点がある then +1.0」
R5:「if 一連の会話中にカメラワークがある then −0.6」
などを予め設定しておく。
As an example of the rule R, for example,
R1: "then +0.4 with if telop"
R2: “if face is up then +0.2”
R3: “if the face is facing the direction of the camera during a series of conversations -0.3”
R4: “if there is a cut point in a series of conversations, then +1.0”
R5: “if there is a camera work during a series of conversations, then -0.6”
Etc. are set in advance.
ここで、R4とR5は、撮影環境がどの程度整っているのかをルール化したものである。具体的には、"R5"は、1台のカメラで撮影を行っている際に発生する、会話の発話者にカメラを向けるためのカメラワークに対する評価を意図している。このため、撮影環境が整っていない(撮影機材の数が潤沢でない)ことを示す指標として、−0.6というマイナス値のRS加点を付与している。一方、"R4"のような特徴を持つ映像は、少なくとも2台のカメラを用いて、発話者の切り替えの際のカメラワークが不要な環境で生成可能となる。したがって、撮影環境が整っていることを示す指標として、+1.0というプラス値のRS加点を付与している。 Here, R4 and R5 are rules based on how well the shooting environment is prepared. Specifically, “R5” is intended to evaluate the camera work for pointing the camera to the conversation speaker, which occurs when shooting with one camera. For this reason, a negative RS addition of −0.6 is given as an index indicating that the photographing environment is not prepared (the number of photographing equipment is not sufficient). On the other hand, an image having a feature such as “R4” can be generated using at least two cameras in an environment that does not require camerawork when switching the speaker. Therefore, a positive RS addition of +1.0 is given as an index indicating that the shooting environment is in place.
また、"R1"は、映像編集がなされたセグメントはクオリティが高いとの仮定のもと、映像編集がなされたことを示す特徴を抽出し、映像編集がなされたことを示す情報に対してプラスのRS加点を付与することを意図している。具体的には、一般的にテロップは映像編集により挿入されるものであるため、テロップを検出し、テロップがある場合のRS加点を+0.4というプラス値としている。 “R1” is a feature that extracts a feature indicating that video editing has been performed under the assumption that a segment that has undergone video editing has high quality, and is added to information indicating that video editing has been performed. It is intended to give an additional RS score. Specifically, since telops are generally inserted by video editing, telops are detected, and RS addition points when there are telops are set to a positive value of +0.4.
"R2"、"R3"は、良質なコンテンツで統計的に多く見られる構図をルール化したものである。 "R2" and "R3" are rules that are statistically common in high-quality content.
以上、ルール記憶部70に設定したルールの条件文を満たすか否かを判定するためには、各条件文を判断するために必要な分析を実施する必要がある。
As described above, in order to determine whether or not the conditional statement of the rule set in the
例えば、ここに挙げたルールR1〜R5のそれぞれについて、この分析方法の一例を説明する。 For example, an example of this analysis method will be described for each of the rules R1 to R5 listed here.
例えば、ルールR1におけるテロップは、前述の特許文献3に記載の方法などによって、条件文判定部64において、処理対象となるセグメントにテロップがあるかどうかを検出し、テロップが1つ以上検出された場合にルールR1の条件文を満たす(trueである)と判定される。また、R2の顔のアップがあるか否かは前述の特許文献4記載の方法9などによって処理対象となるセグメントの中で顔領域を検出し、顔領域画素の数が予め定めた閾値以上の数の場合(つまり、画像の中での顔領域の占有率が予め定めた閾値以上の場合)に、処理対象となるセグメントの中に顔のアップがあると判定し、ルールR2の条件文を満たすと判定し、RS記憶部604に格納する。
For example, the telop in the rule R1 is detected by the conditional
また、R3,R4,R5については、まず、特許文献2の記載の方法などによって、処理対象となるセグメントの中から一連の会話区間を検出する。また、R3であれば、一連の会話区間として検出された時間帯に対応する映像区間に対して、特許文献4に記載の方法などを適用して顔の向きを判定し、顔の向きとカメラの光軸方向がなす角度が予め定めた角度以内の場合が1回以上出現した場合に、ルールR3の条件文を満たすと判定し、RS記憶部604に格納する。
As for R3, R4, and R5, first, a series of conversation sections are detected from the segments to be processed by the method described in
R4であれば、一連の会話区間に該当する映像区間に対して、非特許文献2に記載の方法などを用いてカット点を検出し、1つ以上のカット点が検出された場合にルールR4の条件文を満たすと判定し、RS記憶部604に格納する。
In the case of R4, a cut point is detected using a method described in
R5であれば、一連の会話区間に該当する映像区間に対して非特許文献2に記載の方法などを用いてカメラワークを検出し、1つ以上のカメラワークが検出された場合にルールR5の条件文を満たすと判定する。
If it is R5, the camera work is detected using the method described in
ステップ34) 次に、ルール充足性尺度計算部65におけるルール充足性尺度計算処理について説明する。
Step 34) Next, the rule sufficiency measure calculation process in the rule
ルール充足性尺度RSは、上記条件の判定の後、trueと判断されたルールに対して、RS加点を加算することによって計算する。例えば、上記例のうち、あるセグメントが、R1、R4の2ルールに対してtrueであると判定された場合、そのRSは、0.4+1.0=1.4となる。なお、ここに挙げた例以外にも、分析情報から得られる情報に関するルールであれば、適宜追加してもよい。 The rule sufficiency measure RS is calculated by adding an RS additional point to the rule determined to be true after the above condition is determined. For example, in the above example, when it is determined that a certain segment is true for the two rules R1 and R4, the RS is 0.4 + 1.0 = 1.4. In addition to the examples given here, rules regarding information obtained from analysis information may be added as appropriate.
さらに、上記挙げたルールは、セグメントに関するルールであるが、セグメントを分割しない場合はコンテンツ全体に等しいため、コンテンツ全体についてのルールを設定してもよい。 Furthermore, although the above-mentioned rule is a rule regarding a segment, since it is equal to the entire content when the segment is not divided, a rule for the entire content may be set.
この例としては、例えば、
R6:「if コンテンツの全長が30秒以下である then − 0.9」
R7:「if コンテンツの画像ビットレートが9.8Mbps以上である then +0.9」
R8:「if コンテンツの音声サンプリングレートが22.050kHz未満である then −0.8」
などを設定してもよい。
For example,
R6: “if-the total length of the content is 30 seconds or less then-0.9”
R7: “the content bit rate of the content is 9.8 Mbps or more then +0.9”
R8: “if content audio sampling rate is less than 22.050 kHz then −0.8”
Etc. may be set.
特に、これらのルールは、コンテンツのプロパティとして、特別な解析をすることなく参照できるものが多い。従って、このようなルールのみからコンテンツのクオリティ値を計算する場合には、ここまで説明した解析方法を実施しなくともよい。 In particular, many of these rules can be referred to as content properties without special analysis. Accordingly, when the content quality value is calculated only from such rules, the analysis method described so far need not be performed.
ステップ35) クオリティ値計算部66におけるクオリティ値計算処理について説明する。 Step 35) The quality value calculation process in the quality value calculation unit 66 will be described.
以上の求めたFSとRSに基づいて、セグメントのQ値を計算する。 Based on the FS and RS obtained above, the Q value of the segment is calculated.
この分類方法は様々あるが、ここでは、FSとRSと、シグモイド関数を用いて計算する一例について説明する。 There are various classification methods. Here, an example of calculation using FS, RS, and a sigmoid function will be described.
例えば、Q値を、以下の数式に基づいて計算する。 For example, the Q value is calculated based on the following mathematical formula.
この例では、FS、RS両方を用いて、Q値を判定する例を示したが、これ以外にも、例えば、FS,RSのいずれか一方のみを用いるとしてもよい。また、Q値を計算する関数は線形関数、その他非線形関数を用いてもよい。 In this example, the example in which the Q value is determined using both FS and RS has been described. However, for example, only one of FS and RS may be used. The function for calculating the Q value may be a linear function or other nonlinear function.
このようにして、図13に示すように、セグメント毎にQ値を計算することができるので、このQ値を、クオリティ値をとして出力する。 In this way, as shown in FIG. 13, since the Q value can be calculated for each segment, this Q value is output as the quality value.
セグメント毎にQ値を算出することにより、クオリティの高い映像素材とクオリティの低い映像素材とが混在している映像であっても、正しくクオリティを評価することが可能となる。 By calculating the Q value for each segment, it is possible to correctly evaluate the quality even for a video in which high-quality video material and low-quality video material are mixed.
この際、出力する情報は、例えば、図14に示すように、各セグメントの開始時刻、時間長と合わせて、リスト形式で出力するものとしてもよい。 At this time, the information to be output may be output in a list format together with the start time and time length of each segment, as shown in FIG. 14, for example.
上記示した一例では、Q値は、値が高ければ高いほどクオリティが高いと判断することができる。そこで、例えば、クオリティが「高い」と「低い」の2値に判定するために、Q値が0.5以上のセグメントはクオリティが高いと判定し、0.5未満のセグメントはクオリティが低いと判定してもよい。 In the example shown above, it can be determined that the higher the Q value, the higher the quality. Therefore, for example, in order to determine a binary value of “high” and “low”, it is determined that a segment having a Q value of 0.5 or higher is high in quality, and a segment having a quality of less than 0.5 is low in quality. You may judge.
また、より詳細に、クオリティが「とても高い」、「やや高い」、「やや低い」、「とても低い」に分類するために、それぞれ、Q値が0.75以上、Q値が0.5以上0.75未満、Q値が0.25以上0.5未満、Q値が0.25未満と4段階に分け、判定してもよい。 In addition, in order to classify the quality into “very high”, “slightly high”, “slightly low”, and “very low”, the Q value is 0.75 or more and the Q value is 0.5 or more, respectively. The determination may be made in four stages: less than 0.75, Q value of 0.25 or more and less than 0.5, and Q value of less than 0.25.
このような分類を行うことによって、例えば、セグメントの中で、特定のクオリティに属するセグメントを要求し、該当するセグメントのみを集めて表示することも簡単にできる。例えば、複数の映像に含まれるセグメントを用いて編集し、クオリティの高い映像を1つ作るような場合、上記分類されたセグメントから「とても高い」「やや高い」に属するもののみを集めて表示させることもできる。 By performing such classification, for example, it is possible to request segments belonging to a specific quality among the segments and collect and display only the corresponding segments. For example, when editing using segments included in multiple videos and creating one high-quality video, only those belonging to “very high” and “slightly high” are collected from the classified segments and displayed. You can also.
上記以外にも様々な分類の仕方は存在するが、適宜適当な形態をとってよいことは言うまでもない。 There are various ways of classification other than the above, but it goes without saying that an appropriate form may be taken as appropriate.
なお、本発明は、クオリティを評価する方法であるが、評価されたクオリティを直接提示するだけの利用に留まらない。以下にいくつかの例を説明する。 In addition, although this invention is a method of evaluating quality, it is not only the use which shows the evaluated quality directly. Some examples are described below.
<コンテンツ検索技術としての利用>
従来のコンテンツ検索技術では、例えば、特許文献5、特許文献6に記載の動画像検索方法に開示されているりょうに、動画像のセグメントや、代表画像の特徴量の類似度STに基づいてスコアを計算し、このスコア順にランキングした結果を提示するものが多い。しかしながら、このような手法では、コンテンツのクオリティについてまで評価することはできない。利用者によっては、クオリティの高いものを特に視聴したいと考えている利用者もおり、このような利用者にとっては、従来の動画像検索技術のみでは満足な結果を得ることができていない。
<Use as content search technology>
In the conventional content search technology, for example, as disclosed in the moving image search methods described in
そこで、本発明の方法によって評価されたクオリティを考慮することによって、類似度STのみによってではなく、さらにクオリティの高いものを優先的に提示することで、このような利用者にとっても有益な動画像検索技術を提供できる。 Therefore, by considering the quality evaluated by the method of the present invention, not only by the similarity ST but also by preferentially presenting a higher quality, such a moving image that is also beneficial to such a user. Provide search technology.
処理方法の一例としては、例えば、特許文献5、特許文献6等によって、類似度STでランキングされたコンテンツを、所定の区分、例えば、(1位から順位、30位ごとに区間を構成するなど)に分割し、区分毎にQ値の高い順にソートしなおすものとしてもよい。
As an example of the processing method, for example, contents ranked by similarity ST according to
あるいは、特許文献5、特許文献6等によって計算された類似度STとQ値から、新たなスコアSCを計算し、これに基づいてランキングを再構成してソートするものとしてもよい。
Alternatively, a new score SC may be calculated from the similarity ST and the Q value calculated by
この方法の一例としては、例えば、線形関数を用いて、
SC=Ψ×ST+Φ×Q値
などと計算すればよい。
As an example of this method, for example, using a linear function,
SC = Ψ × ST + Φ × Q value and the like may be calculated.
このとき、Ψ、Φはそれぞれ、任意の定数であり、例えば、Ψ=0.5、Φ=0.5などとすればよい。 At this time, Ψ and Φ are arbitrary constants, for example, Ψ = 0.5, Φ = 0.5, and the like.
また、必ずしも線形関数を利用する必要はなく、非線形関数など、任意のものを用いて構わない。このましくは、ST,Q値に対して単調増大する関数を用いる。 Further, it is not always necessary to use a linear function, and an arbitrary function such as a nonlinear function may be used. Preferably, a function that monotonically increases with respect to the ST and Q values is used.
図15に示す例では、8つのコンテンツについて、類似度、Q値、Ψ=0.5、φ=0.5としたスコアが計算されている。同図(A)の表は、類似度に対して降順にランキングした従来の手法による結果である。この例では、クオリティを示すQ値の低いものがランキング上位に現われており、クオリティが高いものを視聴したいと考える利用者の意図を満足する結果とはならい。同図(B)は、類似度、Q値双方を考慮したスコアによってランキングした結果である。この結果、類似度の高いものの中でも、Q値が高いものが上位に現われており、の利用者の意図を満足する結果となっている。 In the example shown in FIG. 15, scores with similarity, Q value, Ψ = 0.5, and φ = 0.5 are calculated for eight contents. The table in FIG. 5A shows the results obtained by the conventional method ranking in descending order with respect to the similarity. In this example, a low Q value indicating quality appears at the top of the ranking, and does not satisfy the intention of a user who wants to watch a high quality one. FIG. 5B shows the result of ranking according to the score considering both the similarity and the Q value. As a result, among those having a high degree of similarity, those having a high Q value appear at the top, which satisfies the user's intention.
また、同様に、それまでに利用者が視聴したコンテンツに類似する、全く新しいコンテンツを推薦するコンテンツ推薦技術がある。この場合も、全く同様の処理方法で、類似度が高く、よりクオリティが高いものを推薦するといった利用が可能である。 Similarly, there is a content recommendation technique for recommending completely new content similar to the content that has been viewed by the user. In this case as well, it is possible to use the same processing method, such as recommending a higher quality and higher quality.
<検出技術の予備処理としての利用>
従来、コンテンツの中から、特定の区間を自動的に検出する検出技術が発明されている。例えば、特許文献「特開2008−22142号公報」に記載の技術では、野球映像の中から、投球シーンのみを検出する技術について開示されている。このような技術では、処理対象とするコンテンツによっては、意図する効果が得られにくい。上記の例では、野球映像の投球シーンを検出する技術であるため、野球映像以外のコンテンツに対しては、その効果を得ることはできない。
<Use of detection technology as preliminary processing>
Conventionally, a detection technique for automatically detecting a specific section from content has been invented. For example, the technique described in the patent document “Japanese Patent Laid-Open No. 2008-22142” discloses a technique for detecting only a pitching scene from a baseball video. With such a technique, it is difficult to obtain the intended effect depending on the content to be processed. In the above example, since it is a technique for detecting a pitching scene of a baseball video, the effect cannot be obtained for content other than the baseball video.
従って、例えば、野球映像以外のコンテンツが含まれるようなコンテンツデータベースに対して、上記の検出技術を利用する場合、事前に野球映像らしきものを絞り込んでおく予備処理を導入できれば、効果の低減や無駄な処理を省くことができるため、有益である。この例では、コンテンツとして野球映像を取り上げたが、この他、映画やドラマ、ニュース、各種スポーツ映像なども同様のことが言える。 Therefore, for example, when the above-described detection technology is used for a content database that includes content other than baseball video, if preparatory processing that narrows down what seems to be baseball video can be introduced in advance, the effect can be reduced or wasted. This is advantageous because it can save processing. In this example, baseball video is taken up as content, but the same can be said for movies, dramas, news, various sports videos, and the like.
上記のようなコンテンツは、主としてプロフェッショナルの作成者によって作成されており、そのクオリティは高いものとなっている。したがって、本発明の技術によって、事前にクオリティの高いコンテンツを絞り込むことによって、例えば、上記のような検出技術を支援し、効果的な処理を実現できる。 The content as described above is mainly created by professional creators, and the quality is high. Therefore, by narrowing down high-quality content in advance by the technology of the present invention, for example, the detection technology as described above can be supported and effective processing can be realized.
なお、ここでは、一例として特許文献「特開2008−22142号公報」を例示したが、同様の効果の低減が考えられ得る任意の検出技術に対して適用可能であることは言うまでもない。 In addition, although patent document "Unexamined-Japanese-Patent No. 2008-22142" was illustrated here as an example, it cannot be overemphasized that it is applicable with respect to the arbitrary detection techniques which can consider the reduction of the same effect.
以上のように、本実施の形態では、コンテンツ中の分析信号に基づいて、コンテンツの多様な情報を分析することで、セグメントのクオリティを数値として計算し、提示できる。これは、従来技術では、評価されたクオリティの精度が低く、分類数が少なかったという問題に対して解決を与えるものである。 As described above, according to the present embodiment, the quality of the segment can be calculated and presented as a numerical value by analyzing various information of the content based on the analysis signal in the content. This provides a solution to the problem that the accuracy of the evaluated quality is low and the number of classifications is small in the prior art.
また、上記の図3に示すコンテンツ評価装置の構成要素の動作をプログラムとして構築し、コンテンツ評価装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 Further, the operation of the components of the content evaluation apparatus shown in FIG. 3 can be constructed as a program and installed in a computer used as the content evaluation apparatus for execution or distributed via a network. .
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。例えば、生成されたセグメントの情報を含む、XML(eXtensible Markup Language)データを生成してもよい。汎用的なXMLデータであれば、本発明により生成される出力結果の利用性を高めることができる。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims. For example, XML (eXtensible Markup Language) data including information on the generated segment may be generated. If it is general-purpose XML data, the usability of the output result generated by the present invention can be improved.
本発明は、映像のクオリティを評価する技術全般に適用可能である。 The present invention is applicable to all techniques for evaluating the quality of video.
10 コンテンツ記憶部
20 分析信号抽出手段、分析信号抽出部
30 セグメント分割部
40 記憶手段、分析信号メモリ
50 セグメントメモリ
60 クオリティ値算出手段、クオリティ値算出部
61 特徴量抽出部
62 特徴量尺度算出部
63 条件文判定用特徴量抽出部
64 条件文判定部
65 ルール充足性尺度計算部
66 クオリティ値計算部
70 ルール記憶手段、ルール記憶部
601 特徴量記憶部
602 特徴量尺度(FS)記憶部
603 条件文判定用特徴量記憶部
604 ルール充足性尺度(RS)記憶部
10
Claims (10)
コンテンツ中の画像情報、または、音声情報、または、画像情報、及び、音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出手段と、
コンテンツのクオリティの違いにより発生頻度が変化する分析信号を用いた条件判定文であるルールを格納したルール記憶手段と、
前記記憶手段から前記分析信号を取得し、前記ルール記憶手段を参照し、該分析信号に対応するルールに基づいて算出されるルール充足性尺度を用いてクオリティ値を計算して出力するクオリティ値算出手段と、
を有することを特徴とするコンテンツ評価装置。 A content evaluation apparatus that analyzes at least one of an image, a sound, and a music signal included in content and evaluates the content,
Analysis signal extraction means for extracting at least one of image information or audio information or image information and audio information in the content as an analysis signal, and storing the analysis signal in a storage means;
A rule storage means for storing a rule that is a condition determination sentence using an analysis signal whose frequency of occurrence varies depending on the quality of content;
Quality value calculation that obtains the analysis signal from the storage means, refers to the rule storage means, calculates a quality value using a rule satisfaction measure calculated based on a rule corresponding to the analysis signal, and outputs the quality value Means,
A content evaluation apparatus comprising:
前記条件判定文として、
一連の会話中のカット点がある場合に、前記コンテンツのクオリティを高く評価し、一連の会話中にカメラワークがある場合にコンテンツのクオリティを低く評価する条件判定文を格納する、
請求項1記載のコンテンツ評価装置。 The rule storage means includes
As the condition judgment sentence,
When there is a cut point during a series of conversations, a condition judgment sentence that evaluates the quality of the content highly, and evaluates the content quality low when there is camera work during a series of conversations, is stored.
The content evaluation apparatus according to claim 1.
前記コンテンツ中の画像情報、または、音声情報、または、画像情報及び音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出手段と、
前記記憶手段から前記分析信号を読み出して、該分析信号のうち、画像信号のショット長、動き量、カラーヒストグラム、ピッチ変化、パワーレベル、音声信号のピッチ変化、パワーレベル比のうちの少なくとも1つを用いて算出される特徴量尺度を用いて、クオリティ値を計算して出力するクオリティ値算出手段と、
を有することを特徴とするコンテンツ評価装置。 A content evaluation apparatus that analyzes at least one of an image, a sound, and a music signal included in content and evaluates the content,
Analysis signal extracting means for extracting image information or audio information in the content, or at least one of image information and audio information as an analysis signal, and storing it in a storage means;
The analysis signal is read from the storage means, and at least one of the shot length of the image signal, the amount of motion, the color histogram, the pitch change, the power level, the pitch change of the audio signal, and the power level ratio among the analysis signals is read out. A quality value calculating means for calculating and outputting a quality value using a feature amount scale calculated using
A content evaluation apparatus comprising:
前記コンテンツ中の画像情報、または、音声情報、または、画像情報及び音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出手段と、
一連の会話中のカット点がある場合に、前記コンテンツのクオリティを高く評価し、一連の会話中にカメラワークがある場合にコンテンツのクオリティを低く評価する条件判定文を格納したルール記憶手段と、
前前記記憶手段から前記分析信号を取得し、前記ルール記憶手段を参照し、該分析信号に対応するルールに基づいて算出されるルール充足性尺度を用いてクオリティ値を計算して出力する第1のクオリティ値算出手段と、
前記記憶手段から前記分析信号を読み出して、該分析信号のうち、画像信号のショット長、動き量、カラーヒストグラム、ピッチ変化、パワーレベル、音声信号のピッチ変化、パワーレベル比のうちの少なくとも1つを用いて算出される特徴量尺度を用いて、クオリティ値を計算して出力する第2のクオリティ値算出手段と、
を有することを特徴とするコンテンツ評価装置。 A content evaluation apparatus that analyzes at least one of an image, a sound, and a music signal included in content and evaluates the content,
Analysis signal extracting means for extracting image information or audio information in the content, or at least one of image information and audio information as an analysis signal, and storing it in a storage means;
A rule storage means for storing a condition judgment sentence that evaluates the quality of the content high when there is a cut point during a series of conversations and evaluates the quality of the content low when there is camera work during the series of conversations;
First obtaining the analysis signal from the storage means, referring to the rule storage means, and calculating and outputting a quality value using a rule satisfaction measure calculated based on a rule corresponding to the analysis signal Quality value calculation means,
The analysis signal is read from the storage means, and at least one of the shot length of the image signal, the amount of motion, the color histogram, the pitch change, the power level, the pitch change of the audio signal, and the power level ratio among the analysis signals is read out. Second quality value calculating means for calculating and outputting a quality value using a feature amount scale calculated using
A content evaluation apparatus comprising:
分析信号抽出手段が、コンテンツ中の画像情報、または、音声情報、または、画像情報、及び、音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出ステップと、
クオリティ値算出手段が、前記記憶手段から前記分析信号を取得し、コンテンツのクオリティの違いにより発生頻度が変化する分析信号を用いた条件判定文であるルールを格納したルール記憶手段を参照し、該分析信号に対応するルールに基づいて算出されるルール充足性尺度を用いてクオリティ値を計算して出力するクオリティ値算出ステップと、
を行うことを特徴とするコンテンツ評価方法。 A content evaluation method for analyzing at least one of an image, a sound, and a music signal included in content and evaluating the content,
An analysis signal extraction step in which the analysis signal extraction unit extracts at least one of image information or audio information or image information and audio information in the content as an analysis signal, and stores the analysis signal in a storage unit;
Quality value calculating means refers to a rule storage means that acquires the analysis signal from the storage means, and stores a rule that is a condition determination sentence using an analysis signal whose occurrence frequency changes due to a difference in content quality, A quality value calculating step for calculating and outputting a quality value using a rule satisfaction measure calculated based on a rule corresponding to the analysis signal;
The content evaluation method characterized by performing.
一連の会話中のカット点がある場合に、前記コンテンツのクオリティを高く評価し、一連の会話中にカメラワークがある場合にコンテンツのクオリティを低く評価する条件判定文を格納した、前記ルール記憶手段を参照する
請求項5記載のコンテンツ評価方法。 In the quality value calculating step,
The rule storage means for storing a condition judgment sentence that evaluates the quality of the content highly when there is a cut point during a series of conversations and evaluates the content quality low when there is camera work during a series of conversations The content evaluation method according to claim 5, which is referred to.
分析信号抽出手段が前記コンテンツ中の画像情報、または、音声情報、または、画像情報及び音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出ステップと、
クオリティ値算出手段が、前記記憶手段から前記分析信号を読み出して、該分析信号のうち、画像信号のショット長、動き量、カラーヒストグラム、ピッチ変化、パワーレベル、音声信号のピッチ変化、パワーレベル比のうちの少なくとも1つを用いて算出される特徴量尺度を用いて、クオリティ値を計算して出力するクオリティ値算出ステップと、
を行うことを特徴とするコンテンツ評価方法。 A content evaluation method for analyzing at least one of an image, a sound, and a music signal included in content and evaluating the content,
An analysis signal extraction step in which the analysis signal extraction unit extracts at least one of image information or audio information or image information and audio information in the content as an analysis signal, and stores the analysis signal in a storage unit;
Quality value calculation means reads the analysis signal from the storage means, and among the analysis signals, shot length of image signal, motion amount, color histogram, pitch change, power level, pitch change of audio signal, power level ratio A quality value calculating step of calculating and outputting a quality value using a feature amount scale calculated using at least one of
The content evaluation method characterized by performing.
分析信号抽出手段が、前記コンテンツ中の画像情報、または、音声情報、または、画像情報及び音声情報の少なくとも1つを分析信号として抽出し、記憶手段に格納する分析信号抽出ステップと、
第1のクオリティ値算出手段が、前記記憶手段から前記分析信号を取得し、一連の会話中のカット点がある場合に、前記コンテンツのクオリティを高く評価し、一連の会話中にカメラワークがある場合にコンテンツのクオリティを低く評価する条件判定文を格納したルール記憶手段を参照し、該分析信号に対応するルールに基づいて算出されるルール充足性尺度を用いてクオリティ値を計算して出力する第1のクオリティ値算出ステップと、
第2のクオリティ値算出手段が、前記記憶手段から前記分析信号を読み出して、該分析信号のうち、画像信号のショット長、動き量、カラーヒストグラム、ピッチ変化、パワーレベル、音声信号のピッチ変化、パワーレベル比のうちの少なくとも1つを用いて算出される特徴量尺度を用いて、クオリティ値を計算して出力する第2のクオリティ値算出ステップと、
を行うことを特徴とするコンテンツ評価方法。 A content evaluation method for analyzing at least one of an image, a sound, and a music signal included in content and evaluating the content,
An analysis signal extracting unit that extracts at least one of image information or audio information or image information and audio information in the content as an analysis signal, and stores the analysis signal in a storage unit;
The first quality value calculation means acquires the analysis signal from the storage means, and when there is a cut point during a series of conversations, evaluates the quality of the content highly, and there is camera work during the series of conversations. In this case, the rule storage means storing the condition judgment sentence that evaluates the quality of the content is referred to, and the quality value is calculated and output using the rule satisfaction measure calculated based on the rule corresponding to the analysis signal. A first quality value calculating step;
Second quality value calculation means reads the analysis signal from the storage means, among the analysis signal, shot length of the image signal, motion amount, color histogram, pitch change, power level, pitch change of the audio signal, A second quality value calculating step of calculating and outputting a quality value using a feature amount scale calculated using at least one of the power level ratios;
The content evaluation method characterized by performing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008122655A JP5054608B2 (en) | 2008-05-08 | 2008-05-08 | Content evaluation method and apparatus, program, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008122655A JP5054608B2 (en) | 2008-05-08 | 2008-05-08 | Content evaluation method and apparatus, program, and computer-readable recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009272961A true JP2009272961A (en) | 2009-11-19 |
JP5054608B2 JP5054608B2 (en) | 2012-10-24 |
Family
ID=41439104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008122655A Expired - Fee Related JP5054608B2 (en) | 2008-05-08 | 2008-05-08 | Content evaluation method and apparatus, program, and computer-readable recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5054608B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378587A (en) * | 2019-07-08 | 2019-10-25 | 上海辰尚信息科技有限公司 | Intelligent quality detecting method, system, medium and equipment |
KR20200004388A (en) * | 2017-05-08 | 2020-01-13 | 후아웨이 테크놀러지 컴퍼니 리미티드 | Method and apparatus for determining experience quality of VR multimedia |
CN115396622A (en) * | 2022-10-28 | 2022-11-25 | 广东电网有限责任公司中山供电局 | Electronic equipment for low-bit-rate video reconstruction |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09149318A (en) * | 1995-11-24 | 1997-06-06 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for editing dynamic image |
JP2002084488A (en) * | 2000-07-18 | 2002-03-22 | Fuji Xerox Co Ltd | Video generating system and custom video generating method |
JP2003069947A (en) * | 2001-08-28 | 2003-03-07 | Canon Inc | Moving picture processing apparatus, moving picture processing method and storage medium |
JP2005167377A (en) * | 2003-11-28 | 2005-06-23 | Sony Corp | Motion picture editor and motion picture editing method |
JP2005348328A (en) * | 2004-06-07 | 2005-12-15 | New Industry Research Organization | Video camera photographing support program and editing support program |
JP2006332789A (en) * | 2005-05-23 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | Video photographing method, apparatus, and program, and storage medium for storing the program |
WO2007105560A1 (en) * | 2006-03-10 | 2007-09-20 | Pioneer Corporation | Information processing device, information processing method, and information processing program |
-
2008
- 2008-05-08 JP JP2008122655A patent/JP5054608B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09149318A (en) * | 1995-11-24 | 1997-06-06 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for editing dynamic image |
JP2002084488A (en) * | 2000-07-18 | 2002-03-22 | Fuji Xerox Co Ltd | Video generating system and custom video generating method |
JP2003069947A (en) * | 2001-08-28 | 2003-03-07 | Canon Inc | Moving picture processing apparatus, moving picture processing method and storage medium |
JP2005167377A (en) * | 2003-11-28 | 2005-06-23 | Sony Corp | Motion picture editor and motion picture editing method |
JP2005348328A (en) * | 2004-06-07 | 2005-12-15 | New Industry Research Organization | Video camera photographing support program and editing support program |
JP2006332789A (en) * | 2005-05-23 | 2006-12-07 | Nippon Telegr & Teleph Corp <Ntt> | Video photographing method, apparatus, and program, and storage medium for storing the program |
WO2007105560A1 (en) * | 2006-03-10 | 2007-09-20 | Pioneer Corporation | Information processing device, information processing method, and information processing program |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200004388A (en) * | 2017-05-08 | 2020-01-13 | 후아웨이 테크놀러지 컴퍼니 리미티드 | Method and apparatus for determining experience quality of VR multimedia |
US11138715B2 (en) | 2017-05-08 | 2021-10-05 | Huawei Technologies Co., Ltd. | Method and apparatus for determining experience quality of VR multimedia |
KR102381096B1 (en) * | 2017-05-08 | 2022-03-30 | 후아웨이 테크놀러지 컴퍼니 리미티드 | Method and apparatus for determining the experience quality of VR multimedia |
KR20220044386A (en) * | 2017-05-08 | 2022-04-07 | 후아웨이 테크놀러지 컴퍼니 리미티드 | Method and apparatus for determining quality of experience of vr multi-media |
KR102480709B1 (en) * | 2017-05-08 | 2022-12-22 | 후아웨이 테크놀러지 컴퍼니 리미티드 | Method and apparatus for determining quality of experience of vr multi-media |
US11694316B2 (en) | 2017-05-08 | 2023-07-04 | Huawei Technologies Co., Ltd. | Method and apparatus for determining experience quality of VR multimedia |
CN110378587A (en) * | 2019-07-08 | 2019-10-25 | 上海辰尚信息科技有限公司 | Intelligent quality detecting method, system, medium and equipment |
CN115396622A (en) * | 2022-10-28 | 2022-11-25 | 广东电网有限责任公司中山供电局 | Electronic equipment for low-bit-rate video reconstruction |
Also Published As
Publication number | Publication date |
---|---|
JP5054608B2 (en) | 2012-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7796860B2 (en) | Method and system for playing back videos at speeds adapted to content | |
US10062412B2 (en) | Hierarchical segmentation and quality measurement for video editing | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
US8494338B2 (en) | Electronic apparatus, video content editing method, and program | |
JP4699476B2 (en) | Video summarization device | |
JP5460709B2 (en) | Acoustic signal processing apparatus and method | |
US20060245724A1 (en) | Apparatus and method of detecting advertisement from moving-picture and computer-readable recording medium storing computer program to perform the method | |
US20100014840A1 (en) | Information processing apparatus and information processing method | |
CN104980790B (en) | The generation method and device of voice subtitle, playing method and device | |
JP2006319980A (en) | Dynamic image summarizing apparatus, method and program utilizing event | |
JP6557592B2 (en) | Video scene division apparatus and video scene division program | |
JP2006287319A (en) | Program digest generation apparatus and program digest generation program | |
JP2010011409A (en) | Video digest apparatus and video editing program | |
JP5054608B2 (en) | Content evaluation method and apparatus, program, and computer-readable recording medium | |
US20050254782A1 (en) | Method and device of editing video data | |
JP5096259B2 (en) | Summary content generation apparatus and summary content generation program | |
JP2009278202A (en) | Video editing device, its method, program, and computer-readable recording medium | |
Tsao et al. | Thumbnail image selection for VOD services | |
CN103517150B (en) | Blu-ray player is representing method and system that Internet video is loading | |
JP2007079736A (en) | Data editing device, data editing method, and data editing program | |
KR101369270B1 (en) | Method for analyzing video stream data using multi-channel analysis | |
Ionescu et al. | A color-action perceptual approach to the classification of animated movies | |
JP4349574B2 (en) | Scene segmentation apparatus for moving image data | |
JP5054653B2 (en) | Viewing impression estimation method and apparatus, program, and computer-readable recording medium | |
JP2011061263A (en) | Digest video creating device and digest video creation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100817 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120724 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120727 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |