JP6793169B2 - Thumbnail output device, thumbnail output method and thumbnail output program - Google Patents
Thumbnail output device, thumbnail output method and thumbnail output program Download PDFInfo
- Publication number
- JP6793169B2 JP6793169B2 JP2018213903A JP2018213903A JP6793169B2 JP 6793169 B2 JP6793169 B2 JP 6793169B2 JP 2018213903 A JP2018213903 A JP 2018213903A JP 2018213903 A JP2018213903 A JP 2018213903A JP 6793169 B2 JP6793169 B2 JP 6793169B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- data
- thumbnail
- frame data
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
本発明は、映像データのサムネイルを出力するサムネイル出力装置、サムネイル出力方法およびサムネイル出力プログラムに関する。 The present invention relates to a thumbnail output device for outputting thumbnails of video data, a thumbnail output method, and a thumbnail output program.
一般的に、映像データの1つのフレームデータをサムネイルとして公開し、映像データを紹介する。従って、サムネイルは、映像データの特徴を捉えたフレームデータが用いられることが好ましい。 Generally, one frame data of video data is published as a thumbnail to introduce the video data. Therefore, as the thumbnail, it is preferable to use frame data that captures the characteristics of the video data.
サムネイルは、手動により選択されることも可能であるが、AI(Artificial Intelligence)により、映像データからサムネイルを抽出する技術もある(非特許文献1および非特許文献2参照)。非特許文献1に開示される技術は、主にドラマ、映画等のジャンルを対象として、過去のノウハウを元にサムネイルを作成する。非特許文献2に開示される技術は、映像データについてユーザが設定したサムネイルのうち、再生回数が多くクオリティが高いと推測されるサムネイルと、再生回数が少なくクオリティが低いと推測されるサムネイルを大量に学習させ、サムネイルを生成する。 Thumbnails can be manually selected, but there is also a technique for extracting thumbnails from video data using AI (Artificial Intelligence) (see Non-Patent Document 1 and Non-Patent Document 2). The technology disclosed in Non-Patent Document 1 mainly targets genres such as dramas and movies, and creates thumbnails based on past know-how. The technology disclosed in Non-Patent Document 2 includes a large number of thumbnails set by the user for video data, which are presumed to have a high number of playbacks and high quality, and thumbnails which are presumed to have a low number of playbacks and low quality. To generate thumbnails.
しかしながらいずれの文献も、過去のノウハウまたは選択結果に基づいてサムネイルを作成するため、映像データのサムネイルを作成するユーザの意図は考慮されていない。例えば、映像データのジャンル、内容等によってサムネイルの抽出ポイントを変更したいなどのユーザの意図を考慮して、サムネイルを作成することはできない。 However, since all the documents create thumbnails based on past know-how or selection results, the intention of the user who creates thumbnails of video data is not taken into consideration. For example, it is not possible to create a thumbnail in consideration of the user's intention such as changing the extraction point of the thumbnail according to the genre, content, etc. of the video data.
従って本発明の目的は、ユーザの意向を反映して、映像データのサムネイルを出力するサムネイル出力装置、サムネイル出力方法およびサムネイル出力プログラムを提供することである。 Therefore, an object of the present invention is to provide a thumbnail output device, a thumbnail output method, and a thumbnail output program for outputting thumbnails of video data, reflecting the intention of the user.
上記課題を解決するために、本発明の第1の特徴は、映像データのサムネイルデータを出力するサムネイル出力装置に関する。本発明の第1の特徴に係るサムネイル出力装置は、映像データを構成するフレームデータで認識される各人物について、人物が認識されたフレームデータの次の処理対象のフレームデータまでの時間を加算した登場時間を算出し、各人物の登場時間の最大値に対する人物の登場時間の割合である登場人物スコアを、各人物について算出するとともに、フレームデータにおいて最も顔領域の大きい人物の登場人物スコアを、フレームデータの人物重要度スコアとして算出する人物重要度スコア算出部と、登場人物スコアの高いフレームデータを、サムネイルデータとして出力するサムネイル出力部を備える。 In order to solve the above problems, the first feature of the present invention relates to a thumbnail output device that outputs thumbnail data of video data. In the thumbnail output device according to the first feature of the present invention, for each person recognized by the frame data constituting the video data, the time until the next frame data to be processed of the frame data recognized by the person is added. The appearance time is calculated, the character score, which is the ratio of the appearance time of the person to the maximum value of the appearance time of each person, is calculated for each person, and the character score of the person with the largest face area in the frame data is calculated. It includes a person importance score calculation unit that calculates as a person importance score of frame data, and a thumbnail output unit that outputs frame data with a high character score as thumbnail data.
本発明の第2の特徴は、映像データのサムネイルデータを出力するサムネイル出力装置に関する。本発明の第2の特徴に係るサムネイル出力装置は、映像データを構成するフレームデータおよびフレームデータで認識される人物の顔領域の面積を算出し、 The second feature of the present invention relates to a thumbnail output device that outputs thumbnail data of video data. The thumbnail output device according to the second feature of the present invention calculates the frame data constituting the video data and the area of the face area of the person recognized by the frame data.
最適面積に近い顔領域の面積を有するフレームデータについて高くなり、最適面積に遠い顔領域の面積を有するフレームデータについて低くなる顔領域面積スコアを算出する顔領域面積スコア算出部と、顔領域面積スコアの高いフレームデータを、サムネイルデータとして出力するサムネイル出力部を備える。 The face area area score calculation unit for calculating the face area area score, which is higher for the frame data having the area of the face area close to the optimum area and lower for the frame data having the area of the face area far from the optimum area, and the face area area score It is provided with a thumbnail output unit that outputs high frame data as thumbnail data.
本発明の第3の特徴は、映像データのサムネイルデータを出力するサムネイル出力装置に関する。本発明の第3の特徴に係るサムネイル出力装置は、映像データを構成するフレームデータで認識される人物について、表情の種類に対する表情値を算出し、フレームデータの人物の各表情の種類の表情値の合計に対する、各表情値のうちの最大値を、フレームデータの表情スコアとして算出する表情スコア算出部と、表情スコアの高いフレームデータを、サムネイルデータとして出力するサムネイル出力部を備える。 A third feature of the present invention relates to a thumbnail output device that outputs thumbnail data of video data. The thumbnail output device according to the third feature of the present invention calculates a facial expression value for each facial expression type of a person recognized by the frame data constituting the video data, and the facial expression value of each facial expression type of the person in the frame data. It is provided with a facial expression score calculation unit that calculates the maximum value of each facial expression value with respect to the total of the above as the facial expression score of the frame data, and a thumbnail output unit that outputs the frame data having a high facial expression score as the facial expression data.
本発明の第4の特徴は、映像データのサムネイルデータを出力するサムネイル出力装置に関する。本発明の第4の特徴に係るサムネイル出力装置は、映像データの音量が大きい時間に対応するフレームデータについて高くなり、音量が小さい時間に対応するフレームデータについて低くなる音量スコアを算出する音量スコア算出部と、音量スコアの高いフレームデータを、サムネイルデータとして出力するサムネイル出力部を備える。 A fourth feature of the present invention relates to a thumbnail output device that outputs thumbnail data of video data. The thumbnail output device according to the fourth feature of the present invention calculates a volume score that calculates a volume score that increases for frame data corresponding to a time when the volume of video data is high and decreases for frame data corresponding to a time when the volume is low. It is provided with a unit and a thumbnail output unit that outputs frame data having a high volume score as thumbnail data.
本発明の第5の特徴は、映像データのサムネイルデータを出力するサムネイル出力装置に関する。本発明の第5の特徴に係るサムネイル出力装置は、映像データのフレームデータについて、第1の特徴に記載の人物重要度スコア、第2の特徴に記載の顔領域面積スコア、第3の特徴に記載の表情スコアおよび第4の特徴に記載の音量スコアのうちの1つ以上を含む複数のスコアに、重みをそれぞれ乗算して加算した統合スコアを算出する統合スコア算出部と、統合スコアの高いフレームデータを、サムネイルデータとして出力するサムネイル出力部を備える。 A fifth feature of the present invention relates to a thumbnail output device that outputs thumbnail data of video data. The thumbnail output device according to the fifth feature of the present invention has the frame data of the video data as the person importance score described in the first feature, the facial area area score described in the second feature, and the third feature. An integrated score calculation unit that calculates an integrated score obtained by multiplying a plurality of scores including one or more of the described facial expression score and the volume score described in the fourth feature by weights, respectively, and a high integrated score. It is provided with a thumbnail output unit that outputs frame data as thumbnail data.
本発明の第6の特徴は、映像データのサムネイルデータを出力するサムネイル出力方法に関する。本発明の第6の特徴に係るサムネイル出力方法は、コンピュータが、映像データを構成するフレームデータで認識される各人物について、人物が認識されたフレームデータの次の処理対象のフレームデータまでの時間を加算した登場時間を算出するとともに、コンピュータが、各人物の登場時間の最大値に対する人物の登場時間の割合である登場人物スコアを、各人物について算出するステップと、コンピュータが、フレームデータにおいて最も顔領域の大きい人物の登場人物スコアを、フレームデータの人物重要度スコアとして算出するステップと、コンピュータが、登場人物スコアの高いフレームデータを、サムネイルデータとして出力するステップを備える。 A sixth feature of the present invention relates to a thumbnail output method for outputting thumbnail data of video data. In the thumbnail output method according to the sixth feature of the present invention, for each person recognized by the frame data constituting the video data, the time until the frame data to be processed next to the frame data recognized by the person is reached. In addition to calculating the appearance time by adding, the computer calculates the character score, which is the ratio of the appearance time of the person to the maximum value of the appearance time of each person, for each person, and the computer is the most in the frame data. It includes a step of calculating a character score of a person having a large face area as a person importance score of frame data, and a step of a computer outputting frame data having a high character score as thumbnail data.
本発明の第7の特徴は、映像データのサムネイルデータを出力するサムネイル出力方法に関する。本発明の第7の特徴に係るサムネイル出力方法は、コンピュータが、映像データを構成するフレームデータおよびフレームデータで認識される人物の顔領域の面積を算出し、最適面積に近い顔領域の面積を有するフレームデータについて高くなり、最適面積に遠い顔領域の面積を有するフレームデータについて低くなる顔領域面積スコアを算出するステップと、記コンピュータが、顔領域面積スコアの高いフレームデータを、サムネイルデータとして出力するステップを備える。 A seventh feature of the present invention relates to a thumbnail output method for outputting thumbnail data of video data. In the thumbnail output method according to the seventh feature of the present invention, the computer calculates the area of the face area of the person recognized by the frame data constituting the video data and the frame data, and obtains the area of the face area close to the optimum area. The step of calculating the face area area score that becomes higher for the frame data that has and becomes lower for the frame data that has the area of the face area far from the optimum area, and the writing computer outputs the frame data with the high face area area score as thumbnail data. Have steps to do.
本発明の第8の特徴は、映像データのサムネイルデータを出力するサムネイル出力方法に関する。本発明の第8の特徴に係るサムネイル出力方法は、コンピュータが、映像データを構成するフレームデータで認識される人物について、表情の種類に対する表情値を算出し、フレームデータの人物の各表情の種類の表情値の合計に対する、各表情値のうちの最大値を、フレームデータの表情スコアとして算出するステップと、コンピュータが、表情スコアの高いフレームデータを、サムネイルデータとして出力するステップを備える。 The eighth feature of the present invention relates to a thumbnail output method for outputting thumbnail data of video data. In the thumbnail output method according to the eighth feature of the present invention, the computer calculates the facial expression value for the facial expression type of the person recognized by the frame data constituting the video data, and each facial expression type of the person in the frame data. It includes a step of calculating the maximum value of each facial expression value with respect to the total of the facial expression values of the above as a facial expression score of frame data, and a step of the computer outputting frame data having a high facial expression score as thumbnail data.
本発明の第9の特徴は、映像データのサムネイルデータを出力するサムネイル出力方法に関する。本発明の第9の特徴に係るサムネイル出力方法は、コンピュータが、映像データの音量が大きい時間に対応するフレームデータについて高くなり、音量が小さい時間に対応するフレームデータについて低くなる音量スコアを算出するステップと、コンピュータが、音量スコアの高いフレームデータを、サムネイルデータとして出力するステップを備える。 A ninth feature of the present invention relates to a thumbnail output method for outputting thumbnail data of video data. In the thumbnail output method according to the ninth feature of the present invention, the computer calculates a volume score that increases for the frame data corresponding to the time when the volume of the video data is high and decreases for the frame data corresponding to the time when the volume is low. It includes a step and a step in which the computer outputs frame data having a high volume score as thumbnail data.
本発明の第10の特徴は、映像データのサムネイルデータを出力するサムネイル出力方法に関する。本発明の第10の特徴に係るサムネイル出力方法は、コンピュータが、映像データのフレームデータについて、第6の特徴に記載の人物重要度スコア、第7の特徴に記載の顔領域面積スコア、第8の特徴に記載の表情スコアおよび第9の特徴に記載の音量スコアのうちの1つ以上を含む複数のスコアに、重みをそれぞれ乗算して加算した統合スコアを算出するステップと、コンピュータが、統合スコアの高いフレームデータを、サムネイルデータとして出力するステップを備える。 A tenth feature of the present invention relates to a thumbnail output method for outputting thumbnail data of video data. In the thumbnail output method according to the tenth feature of the present invention, the computer performs the frame data of the video data with respect to the person importance score described in the sixth feature, the facial area area score described in the seventh feature, and the eighth. A computer integrates a step of calculating an integrated score obtained by multiplying and adding weights to a plurality of scores including one or more of the facial expression score described in the feature and the volume score described in the ninth feature. It includes a step of outputting frame data having a high score as thumbnail data.
本発明の第11の特徴は、コンピュータに、本発明の第1ないし第5の特徴に記載のサムネイル出力装置として機能させるためのサムネイル出力プログラムに関する。 The eleventh feature of the present invention relates to a thumbnail output program for causing a computer to function as the thumbnail output device according to the first to fifth features of the present invention.
本発明によれば、ユーザの意向を反映して、映像データのサムネイルを出力するサムネイル出力装置、サムネイル出力方法およびサムネイル出力プログラムを提供することができる。 According to the present invention, it is possible to provide a thumbnail output device, a thumbnail output method, and a thumbnail output program for outputting thumbnails of video data, reflecting the intention of the user.
次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。 Next, an embodiment of the present invention will be described with reference to the drawings. In the description of the drawings below, the same or similar parts are designated by the same or similar reference numerals.
(サムネイル出力装置)
図1を参照して、本発明の実施の形態に係るサムネイル出力装置1を説明する。サムネイル出力装置1は、映像データ11から、ユーザの意図を反映したサムネイルデータ15を出力する。
(Thumbnail output device)
The thumbnail output device 1 according to the embodiment of the present invention will be described with reference to FIG. The thumbnail output device 1
サムネイル出力装置1は、記憶装置10および処理装置20を備える一般的なコンピュータである。一般的なコンピュータがサムネイル出力プログラムを実行することにより、図1に示す機能を実現する。
The thumbnail output device 1 is a general computer including a
記憶装置10は、ROM(Read Only Memory)、RAM(Random access memory)、ハードディスク等であって、処理装置20が処理を実行するための入力データ、出力データおよび中間データなどの各種データを記憶する。処理装置20は、CPU(Central Processing Unit)であって、記憶装置10に記憶されたデータを読み書きして、サムネイル出力装置1における処理を実行する。
The
また図1には示さないが、キーボード、マウス、ディスプレイなどの入出力装置、入出力装置と処理装置のインタフェースとなる入出力インタフェース等を備えても良い。 Further, although not shown in FIG. 1, an input / output device such as a keyboard, a mouse, and a display, an input / output interface serving as an interface between the input / output device and the processing device, and the like may be provided.
記憶装置10は、サムネイル出力プログラムを記憶するとともに、映像データ11、処理対象フレームデータ12、条件データ13、スコアデータ14およびサムネイルデータ15を記憶する。
The
映像データ11は、サムネイル出力装置1が出力するサムネイルデータ15が表現するコンテンツである。映像データ11は、1秒あたり30枚などの、複数のフレームデータ、および時系列の音声データを含む。音声データは、映像データ11における音声および音量の推移のデータである。
The
処理対象フレームデータ12は、映像データ11の複数のフレームデータのうち、後述のスコア算出部23による処理対象となるフレームデータである。処理対象フレームデータ12は、複数であっても良い。処理対象フレームデータ12は、1秒あたり1枚など、映像データ11に含まれる複数のフレームデータから所定の頻度で間引かれたデータであっても良いし、ランダムに間引かれたデータであっても良い。また処理対象フレームデータ12は、映像データをシーン分割し、各シーンから抽出されたフレームデータなど、所定の処理を経て映像データ11から抽出されても良い。
The processing
条件データ13は、サムネイルデータ15を作成する条件のデータである。条件データ13は、図2に示すように、最適面積、サムネイル数および重みを含む。最適面積は、後述の顔領域面積スコア算出部25において参照される。本発明の実施の形態において最適面積は、フレームデータに対する面積率で表現するが、フレームデータにおける画素数で表現されても良い。サムネイル数は、後述のサムネイル出力部29が出力するサムネイルデータ15の数であって、自然数が設定される。
The
重みは、後述の統合スコア算出部28について、人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアのうちの1以上を含む複数のスコアを考慮した統合スコアを算出する際に参照される。重みは、人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアのうちの1つ以上と、そのほかのスコアのうち、統合スコアを算出するために用いられる各スコアに対して、設定される。
The weight is referred to when calculating the integrated score considering a plurality of scores including one or more of the person importance score, the face area area score, the facial expression score, and the volume score for the integrated
スコアデータ14は、スコア算出部23による算出結果のデータである。スコアデータ14は、図3に示すように、フレームデータの識別子に対して、人物重要度スコア、顔領域面積スコア、表情スコア、音量スコアおよび統合スコアを対応づける。図3に示すフレームデータの識別子は、処理対象フレームデータ12の識別子である。人物重要度スコア、顔領域面積スコア、表情スコア、音量スコアおよび統合スコアは、それぞれ、スコア算出部23の人物重要度スコア算出部24、顔領域面積スコア算出部25、表情スコア算出部26、音量スコア算出部27および統合スコア算出部28のそれぞれの算出結果である。
The
スコアデータ14は、各フレームデータについて、人物重要度スコア、顔領域面積スコア、表情スコア、音量スコアおよび統合スコアが対応づけられる必要はなく、サムネイルデータ15を出力する際に参照されるスコアが設定されていれば良い。例えば人物重要度スコアのみに基づいてサムネイルデータ15を出力する場合、各フレームデータに対して人物重要度スコアのみが設定されれば良い。また人物重要度スコアと顔領域面積スコアを統合した統合スコアに基づいてサムネイルデータ15を出力する場合、各フレームデータに対して人物重要度スコア、顔領域面積スコアおよび統合スコアのみが設定されれば良い。
In the
サムネイルデータ15は、サムネイル出力装置1が出力するサムネイルデータ15である。サムネイルデータ15は、スコアデータ14に示す処理対象フレームデータ12毎に算出されたスコアに基づいて、決定される。記憶装置10は、条件データ13のサムネイル数のサムネイルデータ15を記憶しても良い。
The
処理装置20は、処理対象フレーム抽出部21、条件データ取得部22、スコア算出部23およびサムネイル出力部29を備える。
The
処理対象フレーム抽出部21は、映像データ11を構成するフレームデータのうち、サムネイルデータ15の候補となるフレームデータを、処理対象フレームデータ12として抽出する。処理対象フレーム抽出部21は、1秒あたり1枚など、映像データ11に含まれる複数のフレームデータから所定の頻度で間引いて、処理対象フレームデータ12を抽出しても良いし、ランダムに抽出しても良い。また処理対象フレームデータ12は、映像データをシーン分割し、各シーンから抽出されたフレームデータなど、所定の処理を経て、処理対象フレームデータ12を抽出しても良い。また処理対象フレーム抽出部21は、映像データ11の各フレームデータを、処理対象フレームデータ12として抽出しても良い。
The processing target
条件データ取得部22は、図2を参照して説明した条件データ13の各項目を、例えばユーザの入力により取得して、条件データ13を記憶装置10に記憶する。これらの項目は、予め記憶装置10に記憶されていても良い。また、条件データ13の各項目について設定される必要はなく、統合スコアを算出しない場合、重みの項目が設定されないなど、必要な条件が設定されていればよい。
The condition
また条件データ取得部22は、人物重要度スコア、顔領域面積スコア、表情スコア、音量スコアおよび統合スコアのうちのいずれのスコアに基づいて、サムネイルデータ15を出力するかを示す指標を有していても良い。
Further, the condition
スコア算出部23は、処理対象フレームデータ12のそれぞれについて、サムネイルデータ15を決定する指標となるスコアを算出する。スコア算出部23は、人物重要度スコア算出部24、顔領域面積スコア算出部25、表情スコア算出部26、音量スコア算出部27および統合スコア算出部28を備える。
The
本発明の実施の形態において、人物重要度スコア算出部24、顔領域面積スコア算出部25、表情スコア算出部26、音量スコア算出部27および統合スコア算出部28はそれぞれ、処理対象フレームデータ12のそれぞれについて、人物重要度スコア、顔領域面積スコア、表情スコア、音量スコアおよび統合スコアを算出する場合を説明するが、これに限らない。例えば、人物重要度スコアのみに基づいてサムネイルデータ15を出力する場合、人物重要度スコア算出部24のみが処理すれば良い。また人物重要度スコアと顔領域面積スコアに基づいてサムネイルデータ15を出力する場合、人物重要度スコア算出部24、顔領域面積スコア算出部25および統合スコア算出部28が処理すれば良い。このように、サムネイルデータ15を出力する指標に応じて、処理対象フレームデータ12を処理する算出部が限定されても良い。
In the embodiment of the present invention, the person importance
人物重要度スコア算出部24は、処理対象フレームデータ12の人物重要度スコアを算出する。映像データ11において大きくかつ長く映っている人物を重要な人物と推定し、人物重要度スコアは、その重要な人物が映っているフレームデータについて高くなるように設定される。
The person importance
顔領域面積スコア算出部25は、処理対象フレームデータ12の顔領域面積スコアを算出する。顔領域面積スコアは、処理対象フレームデータ12において認識された人物の顔部分の面積の、条件データ13として設定された最適面積に対する近似性を示す。最適面積は、サムネイルデータ15に表示したい顔領域面積の指標である。
The face area area
例えば、映画、一人の人に密着したドキュメンタリー番組等で、人物のアップの画像をサムネイルデータ15として選択したい場合、最適面積に100%または100%に近い値が設定される。風景を紹介する番組等で風景をサムネイルデータ15として選択したい場合、最適面積に0%または0%に近い値が設定される。またお笑い番組等で、複数の人物が一つのパフォーマンスをするシーンをサムネイルデータ15として選択したい場合、一人当たりの顔の面積に相当する値が、最適面積に設定される。
For example, in a movie, a documentary program closely related to one person, or the like, when it is desired to select a close-up image of a person as
表情スコア算出部26は、処理対象フレームデータ12の表情スコアを算出する。処理対象フレームデータ12の表情スコアを算出する。表情スコアは、処理対象フレームデータ12で認識される人物の表情が豊かなフレームデータについて、高くなるように設定される。
The facial expression
音量スコア算出部27は、処理対象フレームデータ12の音量スコアを算出する。音量スコアは、処理対象フレームデータ12の時間に対応する音量が大きい場合に高くなるように設定される。例えば映画やバラエティ番組などで音量が大きい時間において盛り上がると推定できるので、音量スコアは、音量の大きい時間のフレームデータについて高くなるように設定される。音量スコアは、音量が大きいことから盛り上がりが大きいと推測されるフレームデータをサムネイルデータ15として出力したい場合に好適である。
The volume
統合スコア算出部28は、処理対象フレームデータ12の統合スコアを算出する。処理対象フレームデータ12の統合スコアを算出する。統合スコアは、人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアのうちの1つ以上を含む複数のスコアについて、条件データ13で定める重みに基づいて算出される。統合スコアは、複数の視点に基づいてサムネイルデータ15を出力したい場合に好適である。
The integrated
人物重要度スコア算出部24、顔領域面積スコア算出部25、表情スコア算出部26、音量スコア算出部27および統合スコア算出部28の各処理は、後に詳述する。
Each process of the person importance
サムネイル出力部29は、スコア算出部23によって算出された各スコアに基づいて、スコアの高い順に、条件データ13で指定されたサムネイル数の処理対象フレームデータ12を、サムネイルデータ15として出力する。サムネイル出力部29は、人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアのうちの一つのスコアに基づいて、そのスコアの高い処理対象フレームデータ12をサムネイルデータ15として出力する。或いはサムネイル出力部29は、統合スコアに基づいて、複数のスコアを考慮してサムネイルデータ15を出力する。
The
(人物重要度スコア算出部)
人物重要度スコア算出部24は、処理対象フレームデータ12で認識される各人物について、人物が認識された処理対象フレームデータの次の処理対象のフレームデータまでの時間を加算した登場時間を、処理対象フレームデータで認識される各人物について算出し、各人物の登場時間の最大値に対する人物の登場時間の割合である登場人物スコアを、各人物について算出する。人物重要度スコア算出部24は、さらに、処理対象フレームデータ12において最も顔領域の割合の大きい人物の登場人物スコアを、処理対象フレームデータ12の人物重要度スコアとして算出する。人物重要度スコア算出部24は、処理対象フレームデータ12のそれぞれについて、人物重要度スコアを算出して、スコアデータ14に記憶する。
(Person importance score calculation department)
The person importance
人物重要度スコアのみに基づいてサムネイルデータ15を出力する場合、サムネイル出力部29は、登場人物スコアの高いフレームデータを、サムネイルデータ15として出力する。
When the
図4を参照して、人物重要度スコア算出部24による人物重要度スコア算出処理を説明する。
The person importance score calculation process by the person importance
まずステップS101において人物重要度スコア算出部24は、処理対象フレームデータ12のそれぞれについて、映っている人物を認識する。人物認識においては、例えば、Azure、AWS、Google等のAPI(Application Programming Interface)が用いられても良い。その結果、図5に示すように、フレームの識別子毎に、各フレームデータで認識された人物の関係を特定する。図5に示す例では、フレームの識別子f1の処理対象フレームデータ12において、人物P1およびP2が認識される。フレームの識別子f2の処理対象フレームデータ12において、人物P1およびP3が認識され、フレームの識別子f3の処理対象フレームデータ12において、人物P1、P2およびP3が認識される。
First, in step S101, the person importance
ステップS102において人物重要度スコア算出部24は、各人物が認識されるフレームデータを特定する。図5の例において、人物P1は、フレーム識別子f1、f2およびf3の各処理対象フレームデータ12において認識される。人物P2は、フレーム識別子f1およびf3の各処理対象フレームデータ12において認識される。人物P3は、フレーム識別子f2およびf3の各処理対象フレームデータ12において認識される。
In step S102, the person importance
ステップS103において人物重要度スコア算出部24は、各人物について、登場時間を算出する。登場時間は、人物が認識された処理対象フレームデータ12の次の処理対象のフレームデータまでの時間を加算した時間である。
In step S103, the person importance
処理対象フレームデータにおいて認識される人物の登場時間は、映画の場合、主人公の時間が長い傾向がある。また旅番組等のロケ番組の場合、リポーターの登場時間が長くなり、例えばロケ番組で訪れた店舗の店員、ロケ中にリポーターとすれ違った人の登場時間は、リポーターの登場時間よりも短い傾向がある。 In the case of a movie, the appearance time of the person recognized in the processed frame data tends to be long for the main character. Also, in the case of location programs such as travel programs, the appearance time of the reporter becomes longer. For example, the appearance time of the store clerk who visited the location program and the person who passed the reporter during the location tends to be shorter than the appearance time of the reporter. is there.
図6に示すように、処理対象フレームデータ12は、映像データ11から時間Δt毎に1枚抽出されたフレームデータであるとする。この場合、ある人物の登場時間は、処理対象フレームデータ12のうち、その人物が認識された枚数×Δtとなる。ここでは映像データ11から均一に処理対象フレームデータ12が抽出される場合を説明するが、ランダムに抽出される場合も同様に、人物が認識された処理対象フレームデータの次の処理対象のフレームデータまでの時間を加算することで、その人物の登場時間が算出される。
As shown in FIG. 6, it is assumed that the processing
各人物の登場時間が算出されると、ステップS104において人物重要度スコア算出部24は、各人物の登場人物スコアを算出する。登場人物スコアは、映像データ11における各人物の登場時間の最大値に対する人物の登場時間の割合である。人物Pi(i=1,2,…,n:nは処理対象フレームにおいて認識された人物数)の登場人物スコアSp(Pi)は、式(1)で表される。ここで、Tiは、人物Piの登場時間である。
Sp(Pi)=Ti/max(Ti) ・・・式(1)
When the appearance time of each person is calculated, the person importance
Sp (Pi) = Ti / max (Ti) ・ ・ ・ Equation (1)
ここで、人物P1の登場時間T1は10秒で、人物P2の登場時間T2は15秒、人物P3の登場時間T3は20秒とする。映像データ11における各人物の登場時間の最大値は、人物P3の登場時間T3の20秒である。従って、人物P1の登場人物スコアは、10/20である。人物P2の登場人物スコアは、15/20である。人物P3の登場人物スコアは、20/20である。
Here, the appearance time T1 of the person P1 is 10 seconds, the appearance time T2 of the person P2 is 15 seconds, and the appearance time T3 of the person P3 is 20 seconds. The maximum value of the appearance time of each person in the
各人物について登場人物スコアが算出されると、人物重要度スコア算出部24は、各処理対象フレームデータ12について、人物重要度スコアを算出する処理を繰り返す。まずステップS105において人物重要度スコア算出部24は、処理対象フレームデータ12において顔領域の最も大きい人物を特定する。ステップS106において顔領域の最も大きい人物の登場人物スコアを、この処理対象フレームデータ12の人物重要度スコアとして出力する。
When the character score is calculated for each person, the person importance
ある処理対象フレームデータfにおいて顔領域の面積が最大となる人物が人物Pxの場合、登場人物スコアS1(f)は、例えば式(2)により算出される。
S1(f)=Sp(Px) ・・・式(2)
When the person having the maximum area of the face area in a certain processing target frame data f is the person Px, the character score S1 (f) is calculated by, for example, the equation (2).
S1 (f) = Sp (Px) ・ ・ ・ Equation (2)
例えば、フレーム識別子f1の処理対象フレームデータ12において人物P2の顔領域が人物P1の顔領域よりも大きい場合、フレーム識別子f1の処理対象フレームデータ12の人物重要度スコアは、人物P2の登場人物スコアである15/20となる。
For example, when the face area of the person P2 is larger than the face area of the person P1 in the processing
各処理対象フレームデータ12について人物重要度スコアを算出し、スコアデータ14に出力すると、人物重要度スコア算出部24は処理を終了する。
When the person importance score is calculated for each processing
(顔領域面積スコア算出部)
顔領域面積スコア算出部25は、処理対象フレームデータ12および処理対象フレームデータ12で認識される人物の顔領域の面積を算出する。顔領域面積スコア算出部25は、最適面積に近い顔領域の面積を有する処理対象フレームデータ12について高くなり、最適面積に遠い顔領域の面積を有する処理対象フレームデータ12について低くなる顔領域面積スコアを算出する。ここで、最適面積は、条件データ13において設定される。
(Face area area score calculation unit)
The face area area
顔領域面積スコア算出部25は、処理対象フレームデータ12において複数の人物が認識された場合、顔領域面積スコアを算出する方法はいくつか考えられる。例えば顔領域面積スコア算出部25は、最も顔領域の面積の大きい人物の顔領域の面積と、最適面積との比較に基づいて顔領域面積スコアを算出しても良い。顔領域面積スコア算出部25は、所定の閾値以上の顔領域の面積を有する各人物の顔領域の面積の平均値と、最適面積との比較に基づいて顔領域面積スコアを算出しても良い。顔領域面積スコア算出部25は、所定の閾値以上の顔領域の面積を有する各人物の顔領域の面積のうち最も小さい顔領域の面積と、最適面積との比較に基づいて顔領域面積スコアを算出しても良い。
When a plurality of persons are recognized in the processing
顔領域面積スコアのみに基づいてサムネイルデータ15を出力する場合、サムネイル出力部29は、顔領域面積スコアの高いフレームデータを、サムネイルデータ15として出力する。
When the
図7を参照して、顔領域面積スコア算出部25による顔領域面積スコア算出処理を説明する。図7は、処理対象フレームデータ12において複数の人物が認識された場合、処理対象フレームデータ12において最も顔領域の大きい人物の顔領域の面積と、条件データ13で設定された最適面積とに基づいて、顔領域面積スコアを算出する例を説明する。顔領域面積スコア算出部25は、処理対象フレームデータ12のそれぞれについて、顔領域面積スコアを算出する処理を繰り返す。
The face area area score calculation process by the face area area
ステップS201において顔領域面積スコア算出部25は、処理対象フレームデータ12において映っている人物を認識する。図4のステップS101と同様に、人物認識においては、例えば、Azure、AWS、Google等の既存のAPI(Application Programming Interface)が用いられても良い。ステップS202において、ステップS201で認識された各人物のうち、最も顔領域の面積が大きい人物の顔領域の面積を算出する。
In step S201, the face area area
フレーム識別子fの顔領域スコアをS2(f)、最適面積をSpace_bestとする場合、顔領域スコアS2(f)は、例えば、式(3)により算出される。ここでwは、最適面積Space_bestからどのくらい離れることを許容するかを表すパラメータである。wは、デフォルトの値が与えられても良いし、予め条件データ13に設定されても良い。Space(Px,f)は、処理対象フレームデータ12の画素数に対する、最も顔領域の面積が大きい人物の顔領域の画素数の割合である。
S2(f)=exp(-1*w*abs(1-sqrt(Space(Px,f)/Space_best))) ・・・式(3)
When the face area score of the frame identifier f is S2 (f) and the optimum area is Space_best, the face area score S2 (f) is calculated by, for example, the equation (3). Here, w is a parameter indicating how far from the optimum area Space_best is allowed. A default value may be given to w, or the
S2 (f) = exp (-1 * w * abs (1-sqrt (Space (Px, f) / Space_best))) ・ ・ ・ Equation (3)
ステップS203において顔領域面積スコア算出部25は、最適面積との近さに応じて、顔領域面積スコアを算出する。例えば、最適面積が0.2の場合、ステップS202で算出された顔領域の面積が0.2の処理対象フレームデータ12の顔領域面積スコアは、ステップS202で算出された顔領域の面積が0.5の処理対象フレームデータ12の顔領域面積スコアよりも高くなる。
In step S203, the face area area
(表情スコア算出部)
表情スコア算出部26は、処理対象フレームデータ12で認識される人物について、表情の種類に対する表情値を算出する。表情スコア算出部26は、処理対象フレームデータ12の人物の各表情の種類の表情値の合計に対する、各表情値のうちの最大値を、フレームデータの表情スコアとして算出する。
(Facial expression score calculation unit)
The facial expression
表情スコア算出部26は、処理対象フレームデータ12において複数の人物が認識された場合、表情スコアを算出する方法はいくつか考えられる。例えば表情スコア算出部26は、最も顔領域の面積の大きい人物の表情値に基づいて、表情スコアを算出しても良い。表情スコア算出部26は、所定の閾値以上の顔領域の面積を有する各人物の表情値に基づいて各人物の表情スコアを算出して、算出された表情スコアを平均値を、処理対象フレームデータ12の表情スコアとしても良い。表情スコア算出部26は、所定の閾値以上の顔領域の面積を有する各人物の顔領域の面積のうち最も小さい顔領域の面積を有する人物の表情値に基づいて、表情スコアを算出しても良い。
When a plurality of persons are recognized in the processing
表情スコアのみに基づいてサムネイルデータ15を出力する場合、サムネイル出力部29は、表情スコアの高いフレームデータを、サムネイルデータ15として出力する。
When the
図8を参照して、表情スコア算出部26による表情スコア算出処理を説明する。表情スコア算出部26は、各処理対象フレームデータ12について、表情スコアを算出する処理を繰り返す。
The facial expression score calculation process by the facial expression
ステップS301において表情スコア算出部26は、処理対象フレームデータ12において、最も顔領域の大きい人物を特定する。ステップS302において表情スコア算出部26は、ステップS301で特定した最も顔領域の大きい人物について、各表情の種類に対する表情値を算出する。表情値の算出においては、既存のAPIが用いられても良い。
In step S301, the facial expression
本発明の実施の形態において図9に示すように、表情の種類として、喜び、怒り、悲しみおよび驚きがあり、それぞれについて、表情値が設定される場合を説明する。ここでは、フレームの識別子f1において、最も顔領域の大きい人物P1について、喜びの表情値5、怒りの表情値0、悲しみの表情値0および驚きの表情値1が算出されたとする。 As shown in FIG. 9 in the embodiment of the present invention, there are joy, anger, sadness, and surprise as types of facial expressions, and a case where a facial expression value is set for each of them will be described. Here, it is assumed that the facial expression value 5 of joy, the facial expression value 0 of anger, the facial expression value 0 of sadness, and the facial expression value 1 of surprise are calculated for the person P1 having the largest facial expression in the frame identifier f1.
ステップS303において表情スコア算出部26は、ステップS302で算出された表情値から、表情スコアを算出する。表情スコアは、表情値の合計に対する表情値の最大値の割合である。処理対象フレームデータ12の表情スコアS3(f)は、処理対象フレームデータ12において認識された人物の各表情の種類に対する表情値Sej(f)を用いて、例えば式(4)により算出される。
S3(f)=max(Sej(f))/Σ(Sej(f)) ・・・式(4)
In step S303, the facial expression
S3 (f) = max (Sej (f)) / Σ (Sej (f)) ・ ・ ・ Equation (4)
図9に示すフレームの識別子f1について、喜びの表情値5、怒りの表情値0、悲しみの表情値0および驚きの表情値1と算出されると、表情値の合計は6で、最大の表情値は5であるので、表情スコアは5/6となる。 When the frame identifier f1 shown in FIG. 9 is calculated as a joy facial expression value 5, an angry facial expression value 0, a sad facial expression value 0, and a surprise facial expression value 1, the total facial expression value is 6, which is the maximum facial expression. Since the value is 5, the facial expression score is 5/6.
各処理対象フレームデータ12について表情スコアを算出し、スコアデータ14に出力すると、表情スコア算出部26は処理を終了する。
When the facial expression score is calculated for each processing
なお、本発明の実施の形態において表情スコアは、表情の種類を問わず、何らかの種類の表情の表情値が高い処理対象フレームデータがサムネイルデータ15として選択される場合を説明するが、これに限らない。例えば、条件データ13に表情の種類を設定し、設定された表情の種類の表情値が高いフレームデータが、サムネイルデータ15として出力されるようにしても良い。
In the embodiment of the present invention, the facial expression score describes the case where the processing target frame data having a high facial expression value of some kind of facial expression is selected as the
(音量スコア算出部)
音量スコア算出部27は、映像データ11の音量が大きい時間に対応するフレームデータについて高くなり、音量が小さい時間に対応するフレームデータについて低くなる音量スコアを算出する。
(Volume score calculation unit)
The volume
音量スコアのみに基づいてサムネイルデータ15を出力する場合、サムネイル出力部29は、音量スコアの高いフレームデータを、サムネイルデータ15として出力する。
When the
図10を参照して、音量スコア算出部27による音量スコア算出処理を説明する。
The volume score calculation process by the volume
まずステップS401において音量スコア算出部27は、映像データ11の音量の推移を、滑らかな推移に変換する。音量スコア算出部27は、例えば、映像データ11の時間に対して微少な時間毎に、ガウシアンで2回畳み込み積分を算出し、式(5)により、フレーム識別子fの音量スコアS4(f)の推移が算出される。式(5)におけるV(f)は、映像データ11におけるフレーム識別子fの時間に対応する積分値である。
S4(f)=4*(V(f)-0.5)^2 ・・・式(5)
First, in step S401, the volume
S4 (f) = 4 * (V (f) -0.5) ^ 2 ・ ・ ・ Equation (5)
ステップS402において音量スコア算出部27は、各処理対象フレームデータ12について、音量スコアを算出する処理を繰り返す。音量スコア算出部27は、ステップS401で算出した音量の推移から、処理対象フレームデータ12の時間に対する値を、処理対象フレームデータ12の音量スコアとして取得する。
In step S402, the volume
各処理対象フレームデータ12について音量スコアを算出し、スコアデータ14に出力すると、音量スコア算出部27は処理を終了する。
When the volume score is calculated for each processing
(統合スコア算出部)
統合スコア算出部28は、処理対象フレームデータ12について、人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアのうちの1つ以上を含む複数のスコアに、重みをそれぞれ乗算して加算した統合スコアを算出する。
(Integrated score calculation department)
The integrated
例えば、人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアの4つのスコアを統合した統合スコアを算出する場合、式(6)により算出される。式(6)において、Sall(f)、S1(f)、S2(f)、S3(f)およびS4(f)はそれぞれ、フレームの識別子fの処理対象フレームデータ12における統合スコア、人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアである。a1、a2、a3およびa4はそれぞれ、条件データ13で設定される人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアの重みである。
For example, when calculating the integrated score by integrating the four scores of the person importance score, the face area area score, the facial expression score, and the volume score, it is calculated by the equation (6). In equation (6), Sall (f), S1 (f), S2 (f), S3 (f) and S4 (f) are the integrated score and person importance in the
Sall(f)=Σai*Si(f) (i=1.2.3.4) ・・・式(6) Sall (f) = Σai * Si (f) (i = 12.3.4) ・ ・ ・ Equation (6)
統合スコア算出部28は、人物重要度スコア、顔領域面積スコア、表情スコアおよび音量スコアのうちの1つ以上と、他のスコアを含めて、2つ以上のスコアに基づいて、統合スコアを算出する。統合スコア算出部28は、各スコアに対してそれぞれ重みを乗算して加算することで、統合スコアを算出する。
The integrated
統合スコアに基づいてサムネイルデータ15を出力する場合、サムネイル出力部29は、統合スコアの高いフレームデータを、サムネイルデータ15として出力する。
When the
このように本発明の実施の形態に係るサムネイル出力装置1は、ユーザの意図を反映したサムネイルデータ15を出力することができる。
As described above, the thumbnail output device 1 according to the embodiment of the present invention can
例えば、映像データ11が映画、ドラマ等の場合、サムネイルデータ15にメインキャストが映っていることが求められる。従って、人物重要度スコアのみに基づいて、或いは人物重要度スコアの重みを高く設定して算出された統合スコアに基づいて、サムネイルデータ15を抽出することにより、所望のサムネイルデータ15を出力することができる。一方、風景のロケ番組では、人物よりも風景を撮影した瞬間の画像をサムネイルとして抽出することが求められる。従って、ロケ番組の映像データ11について、人物重要度スコアの重みを、他のスコアより低く設定して算出された統合スコアに基づいて、サムネイルデータ15を抽出することにより、所望のサムネイルデータを出力することができる。
For example, when the
また映像データ11に人物が映っている場合でも、ユーザ所望のサムネイルデータ15を選択する指標が異なる場合がある。例えば映画、ドラマ等ではメインキャストが映っているサムネイルデータ15が求められる一方、バラエティ番組でリポーターが商品を紹介している場合、サムネイルデータ15に商品が大きく映りリポーターは小さく映っていることが求められる。従って、このようなバラエティ番組等の映像データ11について、人物重要度スコアの重みを、他のスコアより低く設定して算出された統合スコアに基づいて、サムネイルデータ15を抽出することにより、所望のサムネイルデータ15を出力することができる。
Further, even when a person is shown in the
ドキュメンタリー番組のように一人の人に密着した番組のサムネイルを作る場合、サムネイルデータに、密着対象の人物が映っているだけではなく、その人の表情が笑顔だったり、怒っていたり、というように番組に適した表情が含まれることが求められる。従って、表情スコアのみに基づいて、或いは表情スコアの重みを高く設定して算出された統合スコアに基づいて、サムネイルデータ15を抽出することにより、所望のサムネイルデータ15を出力することができる。
When making a thumbnail of a program that is closely related to one person, such as a documentary program, not only the person to be closely related is reflected in the thumbnail data, but also that person's facial expression is smiling or angry. It is required to include facial expressions suitable for the program. Therefore, the desired
バラエティ番組では、キャストの表情だけではなく、客が盛り上がった瞬間が番組のハイライトとなるため、盛り上がっている瞬間のフレームデータをサムネイルデータ15として抽出することが求められる。従って、音量スコアのみに基づいて、或いは音量スコアの重みを高く設定して算出された統合スコアに基づいて、サムネイルデータ15を抽出することにより、所望のサムネイルデータ15を出力することができる。一方、ロケ番組では、リポーターが話している瞬間よりも、静かに景色を撮影した瞬間のフレームデータをサムネイルデータ15として抽出することが求められる。従って、ロケ番組の映像データ11について、音量スコアの重みを、他のスコアより低く設定して算出された統合スコアに基づいて、サムネイルデータ15を抽出することにより、所望のサムネイルデータ15を出力することができる。
In a variety show, not only the facial expression of the cast but also the moment when the customer is excited is the highlight of the program, so it is required to extract the frame data at the moment when the customer is excited as
このように、本発明の実施の形態に係るサムネイル出力装置1は、ユーザの意向を反映して、映像データ11のサムネイルデータ15を出力することができる。
As described above, the thumbnail output device 1 according to the embodiment of the present invention can output the
(その他の実施の形態)
上記のように、本発明の実施の形態によって記載したが、この開示の一部をなす論述および図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例および運用技術が明らかとなる。
(Other embodiments)
As mentioned above, although described by embodiments of the invention, the statements and drawings that form part of this disclosure should not be understood to limit the invention. This disclosure reveals to those skilled in the art various alternative embodiments, examples and operational techniques.
例えば、本発明の実施の形態に記載したサムネイル出力装置は、図1に示すように一つのハードウエア上に構成されても良いし、その機能や処理数に応じて複数のハードウエア上に構成されても良い。また、既存の情報処理システム上に実現されても良い。 For example, the thumbnail output device described in the embodiment of the present invention may be configured on one hardware as shown in FIG. 1, or may be configured on a plurality of hardware according to its function and the number of processes. May be done. Further, it may be realized on an existing information processing system.
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。 It goes without saying that the present invention includes various embodiments not described here. Therefore, the technical scope of the present invention is defined only by the matters specifying the invention relating to the reasonable claims from the above description.
1 サムネイル出力装置
10 記憶装置
11 映像データ
12 処理対象フレームデータ
13 条件データ
14 スコアデータ
15 サムネイルデータ
20 処理装置
21 処理対象フレーム抽出部
22 条件データ取得部
23 スコア算出部
24 人物重要度スコア算出部
25 顔領域面積スコア算出部
26 表情スコア算出部
27 音量スコア算出部
28 統合スコア算出部
29 サムネイル出力部
1
Claims (11)
映像データを構成するフレームデータで認識される各人物について、前記人物が認識されたフレームデータの次の処理対象のフレームデータまでの時間を加算した登場時間を算出し、
各人物の登場時間の最大値に対する人物の登場時間の割合である登場人物スコアを、各人物について算出するとともに、
前記フレームデータにおいて最も顔領域の大きい前記人物の前記登場人物スコアを、前記フレームデータの人物重要度スコアとして算出する人物重要度スコア算出部と、
前記登場人物スコアの高いフレームデータを、サムネイルデータとして出力するサムネイル出力部
を備えることを特徴とするサムネイル出力装置。 A thumbnail output device that outputs thumbnail data of video data.
For each person recognized by the frame data constituting the video data, the appearance time is calculated by adding the time until the frame data to be processed next to the frame data recognized by the person.
The character score, which is the ratio of the character's appearance time to the maximum value of each person's appearance time, is calculated for each person, and at the same time.
A person importance score calculation unit that calculates the character score of the person having the largest face area in the frame data as the person importance score of the frame data.
A thumbnail output device including a thumbnail output unit that outputs frame data having a high character score as thumbnail data.
最適面積に近い前記顔領域の面積を有するフレームデータについて高くなり、最適面積に遠い前記顔領域の面積を有するフレームデータについて低くなる顔領域面積スコアを算出する顔領域面積スコア算出部をさらに備え、
前記サムネイル出力部は、前記人物重要度スコアと前記顔領域面積スコアに、重みをそれぞれ乗算して加算した統合スコアの高いフレームデータを、サムネイルデータとして出力する
ことを特徴とする請求項1に記載のサムネイル出力装置。 The area of the face area of the person recognized by the frame data constituting the video data is calculated.
A face area area score calculation unit for calculating a face area area score that is high for frame data having the area of the face area close to the optimum area and low for frame data having the area of the face area far from the optimum area is further provided.
The third aspect of claim 1, wherein the thumbnail output unit outputs frame data having a high integrated score , which is obtained by multiplying the person importance score and the face area area score by weights and adding them , as thumbnail data. Thumbnail output device.
前記フレームデータの前記人物の各表情の種類の表情値の合計に対する、各表情値のうちの最大値の割合を、前記フレームデータの表情スコアとして算出する表情スコア算出部をさらに備え、
前記サムネイル出力部は、前記人物重要度スコアと前記表情スコアに、重みをそれぞれ乗算して加算した統合スコアの高いフレームデータを、サムネイルデータとして出力する
ことを特徴とする請求項1に記載のサムネイル出力装置。 For the person recognized by the frame data constituting the video data, the facial expression value for the facial expression type is calculated.
Further provided with a facial expression score calculation unit that calculates the ratio of the maximum value of each facial expression value to the total facial expression value of each facial expression type of the person in the frame data as the facial expression score of the frame data.
The thumbnail according to claim 1, wherein the thumbnail output unit outputs frame data having a high integrated score obtained by multiplying the person importance score and the facial expression score by weights, respectively, and adding them as thumbnail data. Output device.
前記サムネイル出力部は、前記人物重要度スコアと前記音量スコアに、重みをそれぞれ乗算して加算した統合スコアの高いフレームデータを、サムネイルデータとして出力する
ことを特徴とする請求項1に記載のサムネイル出力装置。 A volume score calculation unit for calculating a volume score that increases the frame data corresponding to the time when the volume of the video data is high and decreases the frame data corresponding to the time when the volume is low is further provided.
The thumbnail according to claim 1, wherein the thumbnail output unit outputs frame data having a high integrated score obtained by multiplying the person importance score and the volume score by weights, respectively, and adding them as thumbnail data. Output device.
映像データのフレームデータについて、請求項1に記載の人物重要度スコアと、請求項2に記載の顔領域面積スコア、請求項3に記載の表情スコアおよび請求項4に記載の音量スコアのうちの1つ以上を含む複数のスコアに、重みをそれぞれ乗算して加算した統合スコアを算出する統合スコア算出部と、
前記統合スコアの高いフレームデータを、サムネイルデータとして出力するサムネイル出力部
を備えることを特徴とするサムネイル出力装置。 A thumbnail output device that outputs thumbnail data of video data.
Of the frame data of the video data, the person importance score according to claim 1, the face area area score according to claim 2, the facial expression score according to claim 3, and the volume score according to claim 4. An integrated score calculation unit that calculates an integrated score by multiplying multiple scores including one or more by weights and adding them.
A thumbnail output device including a thumbnail output unit that outputs frame data having a high integrated score as thumbnail data.
コンピュータが、映像データを構成するフレームデータで認識される各人物について、前記人物が認識されたフレームデータの次の処理対象のフレームデータまでの時間を加算した登場時間を算出するとともに、
各人物の登場時間の最大値に対する人物の登場時間の割合である登場人物スコアを、各人物について算出するステップと、
前記コンピュータが、前記フレームデータにおいて最も顔領域の大きい前記人物の前記登場人物スコアを、前記フレームデータの人物重要度スコアとして算出するステップと、
前記コンピュータが、前記登場人物スコアの高いフレームデータを、サムネイルデータとして出力するステップ
を備えることを特徴とするサムネイル出力方法。 It is a thumbnail output method that outputs thumbnail data of video data.
For each person recognized by the frame data constituting the video data, the computer calculates the appearance time by adding the time until the frame data to be processed next to the frame data recognized by the person.
A step to calculate the character score, which is the ratio of the character's appearance time to the maximum value of each person's appearance time, for each person, and
A step in which the computer calculates the character score of the person having the largest face area in the frame data as the person importance score of the frame data.
A thumbnail output method, wherein the computer includes a step of outputting frame data having a high character score as thumbnail data.
最適面積に近い前記顔領域の面積を有するフレームデータについて高くなり、最適面積に遠い前記顔領域の面積を有するフレームデータについて低くなる顔領域面積スコアを算出するステップと、
前記コンピュータが、前記人物重要度スコアと前記顔領域面積スコアに、重みをそれぞれ乗算して加算した統合スコアの高いフレームデータを、サムネイルデータとして出力するステップ
をさらに備えることを特徴とする請求項6に記載のサムネイル出力方法。 The computer calculates the area of the face area of the person recognized by the frame data constituting the video data.
A step of calculating a face area area score that is high for frame data having the area of the face area close to the optimum area and low for frame data having the area of the face area far from the optimum area.
6. The computer further comprises a step of outputting as thumbnail data frame data having a high integrated score obtained by multiplying the person importance score and the face area area score by weights, respectively. Thumbnail output method described in.
前記フレームデータの前記人物の各表情の種類の表情値の合計に対する、各表情値のうちの最大値の割合を、前記フレームデータの表情スコアとして算出するステップと、
前記コンピュータが、前記人物重要度スコアと前記表情スコアに、重みをそれぞれ乗算して加算した統合スコアの高いフレームデータを、サムネイルデータとして出力するステップ
をさらに備えることを特徴とする請求項6に記載のサムネイル出力方法。 The computer calculates a facial expression value for a type of facial expression for a person recognized by the frame data constituting the video data.
A step of calculating the ratio of the maximum value of each facial expression value to the total of the facial expression values of each facial expression type of the person in the frame data as the facial expression score of the frame data.
The sixth aspect of claim 6 is characterized in that the computer further includes a step of outputting as thumbnail data frame data having a high integrated score obtained by multiplying the person importance score and the facial expression score by weights and adding them. Thumbnail output method.
前記コンピュータが、前記人物重要度スコアと前記音量スコアに、重みをそれぞれ乗算して加算した統合スコアの高いフレームデータを、サムネイルデータとして出力するステップ
をさらに備えることを特徴とする請求項6に記載のサムネイル出力方法。 A step in which the computer calculates a volume score that increases for frame data corresponding to a time when the volume of the video data is high and decreases for frame data corresponding to a time when the volume is low.
The sixth aspect of claim 6 is characterized in that the computer further includes a step of outputting frame data having a high integrated score , which is obtained by multiplying the person importance score and the volume score by a weight, respectively , as thumbnail data. Thumbnail output method.
コンピュータが、映像データのフレームデータについて、請求項6に記載の人物重要度スコアと、請求項7に記載の顔領域面積スコア、請求項8に記載の表情スコアおよび請求項9に記載の音量スコアのうちの1つ以上を含む複数のスコアに、重みをそれぞれ乗算して加算した統合スコアを算出するステップと、
前記コンピュータが、前記統合スコアの高いフレームデータを、サムネイルデータとして出力するステップ
を備えることを特徴とするサムネイル出力方法。 It is a thumbnail output method that outputs thumbnail data of video data.
The computer uses the frame data of the video data as the person importance score according to claim 6, the face area area score according to claim 7, the facial expression score according to claim 8, and the volume score according to claim 9. A step of calculating an integrated score by multiplying a plurality of scores including one or more of them by weights and adding them.
A thumbnail output method, wherein the computer includes a step of outputting frame data having a high integrated score as thumbnail data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018213903A JP6793169B2 (en) | 2018-11-14 | 2018-11-14 | Thumbnail output device, thumbnail output method and thumbnail output program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018213903A JP6793169B2 (en) | 2018-11-14 | 2018-11-14 | Thumbnail output device, thumbnail output method and thumbnail output program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020080115A JP2020080115A (en) | 2020-05-28 |
JP6793169B2 true JP6793169B2 (en) | 2020-12-02 |
Family
ID=70801859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018213903A Active JP6793169B2 (en) | 2018-11-14 | 2018-11-14 | Thumbnail output device, thumbnail output method and thumbnail output program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6793169B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7215628B1 (en) | 2022-07-07 | 2023-01-31 | 株式会社セガ | Game image shooting system |
KR102564182B1 (en) * | 2023-04-12 | 2023-08-07 | 이가람 | Method, apparatus and system for extracting facial expression images based on image data using artificial intelligence models and creating contents using them |
-
2018
- 2018-11-14 JP JP2018213903A patent/JP6793169B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020080115A (en) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102028198B1 (en) | Device for authoring video scene and metadata | |
TWI510064B (en) | Video recommendation system and method thereof | |
JP4337064B2 (en) | Information processing apparatus, information processing method, and program | |
US20100182501A1 (en) | Information processing apparatus, information processing method, and program | |
WO2011126134A1 (en) | Server system for real-time moving image collection, recognition, classification, processing, and delivery | |
US11438510B2 (en) | System and method for editing video contents automatically technical field | |
WO2011161889A1 (en) | Image evaluation device, image evaluation method, program, and integrated circuit | |
CN113301385B (en) | Video data processing method and device, electronic equipment and readable storage medium | |
US9846809B2 (en) | Information processing apparatus, method, and storage medium storing program | |
JP2006287319A (en) | Program digest generation apparatus and program digest generation program | |
US9549162B2 (en) | Image processing apparatus, image processing method, and program | |
KR101812103B1 (en) | Method and program for setting thumbnail image | |
JP6793169B2 (en) | Thumbnail output device, thumbnail output method and thumbnail output program | |
CN107547922B (en) | Information processing method, device, system and computer readable storage medium | |
JP6389296B1 (en) | VIDEO DATA PROCESSING DEVICE, VIDEO DATA PROCESSING METHOD, AND COMPUTER PROGRAM | |
KR102144978B1 (en) | Customized image recommendation system using shot classification of images | |
CN113297416A (en) | Video data storage method and device, electronic equipment and readable storage medium | |
CN114372172A (en) | Method and device for generating video cover image, computer equipment and storage medium | |
Elahi et al. | Visually-aware video recommendation in the cold start | |
JP5880558B2 (en) | Video processing system, viewer preference determination method, video processing apparatus, control method thereof, and control program | |
JP2018206292A (en) | Video summary creation device and program | |
JP5066172B2 (en) | MOVIE DISPLAY DEVICE, MOVIE DISPLAY METHOD, PROGRAM, AND TERMINAL DEVICE | |
JP2014130536A (en) | Information management device, server, and control method | |
JP2013152543A (en) | Image storage program, method and device | |
CN115379290A (en) | Video processing method, device, equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200702 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6793169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |