JP2009201041A - Content retrieval apparatus, and display method thereof - Google Patents

Content retrieval apparatus, and display method thereof Download PDF

Info

Publication number
JP2009201041A
JP2009201041A JP2008043164A JP2008043164A JP2009201041A JP 2009201041 A JP2009201041 A JP 2009201041A JP 2008043164 A JP2008043164 A JP 2008043164A JP 2008043164 A JP2008043164 A JP 2008043164A JP 2009201041 A JP2009201041 A JP 2009201041A
Authority
JP
Japan
Prior art keywords
image
information
scene
content
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008043164A
Other languages
Japanese (ja)
Inventor
Toshiya Irie
俊也 入江
Original Assignee
Oki Electric Ind Co Ltd
沖電気工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Ind Co Ltd, 沖電気工業株式会社 filed Critical Oki Electric Ind Co Ltd
Priority to JP2008043164A priority Critical patent/JP2009201041A/en
Publication of JP2009201041A publication Critical patent/JP2009201041A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a content retrieval apparatus which can intuitively and easily select a scene, that a user desires to watch, with comparatively small throughput, and is less in erroneous detection, and to provide a display method thereof. <P>SOLUTION: In a DVD/HDD device 10, a frame image is analyzed by a face detection section 22 of an analysis unit 14, a face image is detected from the frame image as analytic information and on the basis of the frame image, scene switching of a moving image is detected by a scene switching detection section 24. A weight calculation section 26 calculates weight information to each of personae detected in the frame image, the analyzed and detected face image, the information of scene switching and the calculated weight information are time-sequentially stored in a storage 16, respectively, and the stored information is read from the storage 16 by an image generation section 28. On the basis of the read information, an image is generated that represents contents of the supplied moving image, and the generated image is displayed on a display 18. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、コンテンツ検索装置およびその表示方法に関し、より具体的には、提供されるコンテンツから所望のシーンを検索し、再生に寄与するコンテンツ検索装置に関し、また、コンテンツを検索し、その検索した結果を表示させるコンテンツ検索の表示方法に関するものである。   The present invention relates to a content search device and a display method thereof, and more specifically, to a content search device that searches a desired scene from provided content and contributes to reproduction, and also searches for content and searches for the content. The present invention relates to a content search display method for displaying results.
近年、テレビジョン番組のような映像コンテンツの視聴において、録画装置は、記憶装置の大容量化により大量録画が可能になってきている。また、映像コンテンツは、地上放送に限らず、衛星放送、ケーブルテレビのように多様な提供ソースがあり、コンテンツが増大してきている。そこで、録画装置の機能を有効に利用することによりユーザは、一般的に、まず大量の番組を録画し、後日時間の余裕があるときに録画した番組を視聴するスタイルを採用してきている。   In recent years, in viewing video content such as a television program, a recording apparatus has become capable of mass recording due to an increase in capacity of a storage device. In addition, video contents are not limited to terrestrial broadcasts, but there are various sources such as satellite broadcasts and cable television, and the contents are increasing. Therefore, by effectively using the function of the recording device, the user has generally adopted a style in which a large number of programs are first recorded, and the recorded programs are viewed when there is enough time later.
また、携帯端末装置は性能が向上してきている。携帯端末装置には、たとえば携帯電話機、携帯音楽プレーヤや携帯ゲーム機がある。現在、携帯電話機はモバイル端末装置向け地上波デジタル放送、いわゆるワンセグ放送の受信機能を搭載したものもあり、携帯音楽プレーヤには動画像再生機能を搭載しているものがある。また、携帯ゲーム機にも、動画表示機能を搭載したものがある。これら搭載機能から明らかなように、携帯端末装置は、自宅以外でも映像の視聴が可能なように環境が整備されてきている。さらに、ネットワーク経由の映像配信サービスも拡充してきている。これは、ネットワークの高速化に基づいている。   Moreover, the performance of the mobile terminal device has been improved. Examples of portable terminal devices include cellular phones, portable music players, and portable game machines. Currently, some mobile phones are equipped with a reception function for terrestrial digital broadcasting for mobile terminal devices, so-called one-segment broadcasting, and some portable music players are equipped with a moving image playback function. Some portable game machines have a moving image display function. As is apparent from these installed functions, the environment of mobile terminal devices has been improved so that video can be viewed even outside the home. In addition, video distribution services via the network have been expanded. This is based on network speedup.
番組ソフトであるコンテンツの提供方法がこのように多様化して、視聴可能な映像コンテンツが著しく増大していることから、録画装置には録画した大量の映像から視聴者が見たいシーンだけを素早く見つけて視聴できることが望まれている。   Since the method of providing content, which is program software, is diversified in this way and the video content that can be viewed has increased remarkably, the recording device can quickly find only the scene that the viewer wants to see from the large amount of recorded video. It is hoped that it can be viewed.
そこで、一般家庭用のDVD/HDD(Digital Versatile Disc/Hard-Disc Drive)レコーダは、録画した映像をコマーシャル前後の適当なタイミングでシーンを区切り、その先頭のフレーム画像をサムネイル画像で時系列に列挙し、モニタ表示する機能を有している。ユーザはこの機能により表示されたサムネイルを見て、このサムネイルから見たいシーンを選択している。   Therefore, DVD / HDD (Digital Versatile Disc / Hard-Disc Drive) recorders for general households divide the scenes of the recorded video at an appropriate timing before and after the commercial, and list the top frame images as thumbnail images in time series And has a function of displaying on a monitor. The user views a thumbnail displayed by this function and selects a scene to be viewed from the thumbnail.
ところで、この方法は、列挙されたサムネイルを、映像の内容とは関係なしに抽出する。このため、この方法は、必ずしも映像の内容を解りやすく示すものではなく、ユーザが見たいシーンを選べない場合が多い。   By the way, this method extracts the enumerated thumbnails irrespective of the contents of the video. For this reason, this method does not necessarily indicate the content of the video in an easy-to-understand manner, and the user often cannot select the scene he / she wants to see.
特許文献1は画像検索方法およびその装置である。特許文献1は、映像中の登場人物の顔に着目し、画像解析処理により映像中の顔をシーン毎に検出し、シーン間で同一人物を判別し統合することで映像中の登場人物を探索し、探索において画像解析処理により登場人物の性別や顔の大きさ、顔の向き、表情を検索する方法を提案している。   Patent Document 1 is an image search method and apparatus. Patent Document 1 focuses on the faces of the characters in the video, detects the faces in the video for each scene by image analysis processing, and searches for the characters in the video by discriminating and integrating the same person between the scenes. In the search, a method for searching for the gender, face size, face orientation, and facial expression of the characters by image analysis processing is proposed.
特許文献2は、映像シーン情報生成装置であり、特許文献1と同様に同一人物を顔認証技術により統合し登場人物一覧を生成している。特許文献2は、検出結果の提示を重要人物に絞り込むことで、シーンで重要な役割をもった登場人物を解り易くしている。このため、特許文献2は、家庭用ビデオカメラのように、撮影者が明らかに重要人物を映像の中心になるように撮影する装置に適用すると、効果がある。   Patent Document 2 is a video scene information generation device, and, like Patent Document 1, the same person is integrated by face authentication technology to generate a list of characters. Patent document 2 makes it easy to understand the characters who have important roles in the scene by narrowing down the presentation of detection results to important people. For this reason, Patent Document 2 is effective when applied to an apparatus in which a photographer clearly photographs an important person at the center of a video, such as a home video camera.
特許文献3は動画像表示装置および表示方法であり、登場人物を検出して一覧表示するだけでなく、それぞれの登場回数をカウントすることで回数に応じて表示順位を変えたり、それぞれの人物が登場するシーンのサムネイルを表示したりすることを提案している。
特開2001−167110号公報 特開2007−036540号公報 特許第3315888号
Patent Document 3 is a moving image display device and a display method. In addition to detecting characters and displaying them in a list, the number of appearances can be counted to change the display order according to the number of characters. It suggests displaying thumbnails of scenes that appear.
JP 2001-167110 A JP 2007-0336540 Patent No. 3315888
しかしながら、特許文献1は実際のテレビ番組の処理には精度が不十分で、誤検出や誤認識が多くなり、同じ人物を他人として多数検出してしまう。また、性別や表情の検出に精度が不十分なだけでなく、処理量が膨大でコストが極めて高くなる。このため、特許文献1の機能を家庭用レコーダや携帯端末装置に搭載することは難しい。   However, Patent Document 1 is insufficient in accuracy for processing of an actual television program, and many false detections and misrecognitions occur, so that the same person is detected as many others. In addition to insufficient accuracy in detecting gender and facial expressions, the amount of processing is enormous and the cost is extremely high. For this reason, it is difficult to mount the function of Patent Document 1 on a home recorder or a portable terminal device.
特許文献2も実際のテレビ映像では精度が不十分で、同一人物が多数別人として検出されてしまう。また、テレビ番組の映像において登場人物の映り方は千差万別であり、重要人物の判定パターンをユーザが選ばなくてはならないことから、特許文献2でシーンの内容を反映した判り易い検出はできない。特許文献2は、結果として、ユーザの見たいシーンが必ずしも重要人物の検出パタ−ンと合わず、見たい人物の割愛を生じさせてしまう。   Patent Document 2 also has insufficient accuracy in actual television images, and many of the same persons are detected as different persons. Further, since the appearance of the characters in the video of the TV program is various, and the user has to select an important person determination pattern, in Patent Document 2, easy-to-understand detection that reflects the contents of the scene is Can not. According to Patent Document 2, as a result, the scene that the user wants to see does not necessarily match the detection pattern of the important person, and the person who wants to see is omitted.
また、特許文献3でも、同様に映像中に何度も出てくる人物を同一人物と判別することは実際に精度の面で困難である。特許文献3で、映像コンテンツから見たいシーンを選ぶ場合、ユーザは、必ずしも登場人物の情報だけから選択するのがよいとは限らない。実際に映像コンテンツの表示把握には時間軸の情報も合わせて判断しているケースが多い。   Also in Patent Document 3, it is actually difficult in terms of accuracy to distinguish a person who appears many times in the video as the same person. In Patent Document 3, when selecting a scene to be viewed from video content, the user does not always have to select only from the information on the characters. Actually, in many cases, the display of the video content is also determined based on time axis information.
具体的に、番組コンテンツの内容を検討する。歌番組は、冒頭でその日の番組内に出演するアーティスト全員が紹介され、その後、各アーティストのトークと歌があり、エンディング近くでも出演アーティスト全員にインタビューし、さらに、あるアーティストの歌の前後に他のアーティストのコメントが入るといった流れが多い。このような番組の流れにおいて、ユーザがある特定のアーティストの歌をその直前のコメントシーンから見たい場合、ユーザは登場人物の代表画像と各シーンのサムネイルだけを基にした探索は難しいという課題がある。   Specifically, consider the contents of the program content. At the beginning of the song program, all the artists appearing in the program of the day will be introduced, and then there will be talks and songs from each artist. All the artists will be interviewed near the ending. There are many trends such as comments from artists. In such a program flow, when a user wants to see a song of a specific artist from a comment scene immediately before, the user has a problem that it is difficult to search based on only representative images of the characters and thumbnails of each scene. is there.
本発明はこのような課題に鑑み、家庭用レコーダや携帯端末装置で動作可能な比較的少ない処理量で、ユーザが見たいシーンを直感的に選び易く、かつ誤検出の少ないコンテンツ検索装置およびその表示方法を提供することを目的とする。   In view of such problems, the present invention provides a content search apparatus that allows a user to intuitively select a scene that the user wants to view with a relatively small processing amount that can be operated by a home recorder or a portable terminal device, and that has few false detections. An object is to provide a display method.
本発明は上述の課題を解決するために、動画像の構成要素であるフレーム画像を解析し、解析した結果から動画像を基に供給される番組ソフトであるコンテンツの内容を検索するコンテンツ検索装置において、この装置は、フレーム画像を解析して、解析したフレーム画像に含まれる情報を抽出する解析手段と、抽出した情報を時系列的に格納する情報保存手段と、情報保存手段に蓄積された情報を基に生成される画像を表示する表示手段とを含み、解析手段は、フレーム画像から登場人物の顔を検出し、検出した顔領域の顔画像を出力する顔検出手段と、フレーム画像を基に動画像のシーンの切替えを検出する切替検出手段と、フレーム画像で検出された登場人物それぞれに対する重み情報を算出する重み算出手段と、情報保存手段に保存された情報を基に供給される動画像のコンテンツの内容を表現する画像を生成する画像生成手段とを含むことを特徴とする。   In order to solve the above-described problem, the present invention analyzes a frame image that is a component of a moving image, and searches the content of content that is program software supplied based on the moving image based on the result of the analysis In this apparatus, an analysis unit that analyzes a frame image and extracts information included in the analyzed frame image, an information storage unit that stores the extracted information in time series, and an information storage unit Display means for displaying an image generated based on the information, and the analysis means detects the face of the character from the frame image and outputs a face image of the detected face area; and the frame image Switching detection means for detecting switching of a scene of a moving image based on it, weight calculation means for calculating weight information for each of the characters detected in the frame image, and saving in the information storage means Characterized in that it comprises an image generating means for generating an image representing the content of the moving image content to be supplied with information based.
また、本発明は上述の課題を解決するために、動画像の構成要素であるフレーム画像を解析し、解析した結果から動画像を基に供給される番組ソフトであるコンテンツの内容を検索し、検索した結果を表示するコンテンツ検索の表示方法において、この方法は、供給されるフレーム画像を解析して、このフレーム画像から顔を検出し、検出した顔領域の顔画像を顔に関する解析情報として出力する第1の工程と、検出した顔に関する解析情報を保存する第2の工程と、フレーム画像を基に動画像のシーンの切替えを検出する第3の工程と、検出したシーンの切替えに関する解析情報を保存する第4の工程と、フレーム画像で検出された登場人物それぞれに対する重み情報を算出する第5の工程と、算出した重み情報を解析情報として保存する第6の工程と、保存した解析情報を基に供給される動画像のコンテンツの内容を表現する画像を生成する第7の工程とを含むことを特徴とする。   Further, in order to solve the above-mentioned problem, the present invention analyzes a frame image that is a component of a moving image, searches the content of content that is program software supplied based on the result of the analysis, In a content search display method for displaying a search result, this method analyzes a supplied frame image, detects a face from the frame image, and outputs the detected face image of the face area as analysis information about the face. A first step of saving, a second step of storing analysis information relating to the detected face, a third step of detecting switching of a scene of a moving image based on a frame image, and analysis information relating to detection of the detected scene change A fourth step of saving the weight, a fifth step of calculating weight information for each of the characters detected in the frame image, and saving the calculated weight information as analysis information A sixth step, characterized in that it comprises a seventh step of generating an image representing the content of the moving image content to be supplied on the basis of the stored analysis information.
本発明に係るコンテンツ検索装置によれば、解析手段に顔検出手段、切替検出手段、重み算出手段および画像生成手段を含み、顔検出手段でフレーム画像を解析し、フレーム画像から解析情報として顔画像を検出し、切替検出手段でフレーム画像を基に動画像のシーンの切替えを検出し、重み算出手段でフレーム画像に検出された登場人物それぞれに対する重み情報を算出して、解析し、検出した顔画像、シーン切替えの情報および算出した重み情報それぞれを時系列的に情報保存手段に格納して、画像生成手段で情報保存手段から保存した情報を読み出し、読み出した情報を基に供給される動画像のコンテンツの内容を表現する画像を生成し、生成した画像を表示手段に表示させることにより比較的少ない処理量で、ユーザが直感的に見たいシーンを選び易く、かつ誤検出を抑制することができるという効果が得られる。   According to the content search device of the present invention, the analysis unit includes a face detection unit, a switching detection unit, a weight calculation unit, and an image generation unit, the face detection unit analyzes the frame image, and the face image is obtained as analysis information from the frame image. The switching detection means detects the switching of the moving image scene based on the frame image, the weight calculation means calculates weight information for each of the characters detected in the frame image, analyzes and detects the detected face Each of the image, the scene switching information and the calculated weight information is stored in the information storage unit in a time series, the information stored in the information storage unit is read by the image generation unit, and the moving image supplied based on the read information By generating an image that expresses the contents of the content and displaying the generated image on the display means, the user intuitively viewed with a relatively small amount of processing There is an advantage that it is possible to suppress easily select the scene, and erroneous detection.
本発明に係るコンテンツ検索の表示方法によれば、供給されるフレーム画像を解析して、このフレーム画像から顔を検出し、検出した顔領域の顔画像を顔に関する解析情報として出力し、検出した顔に関する解析情報を保存し、フレーム画像を基に動画像のシーンの切替えを検出し、検出したシーンの切替えに関する解析情報を保存し、フレーム画像で検出された登場人物それぞれに対する重み情報を算出し、算出した重み情報を解析情報として保存し、保存した解析情報を基に供給される動画像のコンテンツの内容を表現する画像を生成することにより比較的少ない処理量で、ユーザが直感的に見たいシーンを選び易く、かつ誤検出を抑制することができるという効果が得られる。   According to the display method for content search according to the present invention, the supplied frame image is analyzed, a face is detected from the frame image, the face image of the detected face area is output as analysis information related to the face, and detected. Saves analysis information about the face, detects moving image scene switching based on the frame image, saves analysis information about detected scene switching, and calculates weight information for each character detected in the frame image The calculated weight information is stored as analysis information, and an image representing the content of the moving image content supplied based on the stored analysis information is generated, so that the user can intuitively view it with a relatively small processing amount. It is possible to easily select a desired scene and to suppress erroneous detection.
次に添付図面を参照して本発明によるコンテンツ検索装置の一実施例を詳細に説明する。図1を参照すると、本発明によるコンテンツ検索装置の実施例は、DVD/HDD装置10に適用し、DVD/HDD装置10は、解析部14に顔検出部22、シーン切替検出部24、重み付け算出部26および画像生成部28を含み、顔検出部22でフレーム画像を解析し、フレーム画像から解析情報として顔画像を検出し、シーン切替検出部24でフレーム画像を基に動画像のシーンの切替えを検出し、重み付け算出部26でフレーム画像に検出された登場人物それぞれに対する重み情報を算出して、解析し、検出した顔画像、シーン切替えの情報および算出した重み情報それぞれを時系列的にストレージ16に格納して、画像生成部28でストレージ16から保存した情報を読み出し、読み出した情報を基に供給される動画像のコンテンツの内容を表現する画像を生成し、生成した画像をディスプレイ18に表示させることにより比較的少ない処理量で、ユーザが直感的に見たいシーンを選び易く、かつ誤検出を抑制することができるという効果が得られる。   Next, an embodiment of a content search apparatus according to the present invention will be described in detail with reference to the accompanying drawings. Referring to FIG. 1, the embodiment of the content search device according to the present invention is applied to a DVD / HDD device 10, and the DVD / HDD device 10 includes a face detection unit 22, a scene switching detection unit 24, a weight calculation in an analysis unit 14. 26 and an image generation unit 28. The face detection unit 22 analyzes the frame image, detects the face image as analysis information from the frame image, and the scene switching detection unit 24 switches the scene of the moving image based on the frame image. The weight calculation unit 26 calculates weight information for each character detected in the frame image, analyzes the weight information, and stores the detected face image, scene switching information, and calculated weight information in time series. 16, the information generated by the image generation unit 28 is read from the storage 16, an image representing the content of the moving image content supplied based on the read information is generated, and the generated image is displayed. By displaying it on the play 18, it is possible to easily select a scene that the user wants to see intuitively with a relatively small processing amount and to suppress erroneous detection.
本実施例は、本発明のコンテンツ検索装置をDVD/HDD装置10に適用した場合である。本発明と直接関係のない部分について図示および説明を省略する。以下の説明で、信号はその現れる接続線の参照番号で指示する。   In the present embodiment, the content search device of the present invention is applied to a DVD / HDD device 10. The illustration and description of parts not directly related to the present invention are omitted. In the following description, the signal is indicated by the reference number of the connecting line in which it appears.
DVD/HDD装置10は、図1に示すように、画像入力部12、解析部14、ストレージ16およびディスプレイ18を含む。   As shown in FIG. 1, the DVD / HDD apparatus 10 includes an image input unit 12, an analysis unit 14, a storage 16, and a display 18.
画像入力部12は、映像を入力する機能を有する。画像入力部12は、入力がテレビ場合、テレビアンテナから得た信号をチューナーでデコード処理したテレビ番組映像が入力される。画像入力部12は、DVD/HDDレコーダの場合、内蔵する記憶装置内に以前録画したテレビ番組の記録やDVD媒体で提供される映像コンテンツの再生機能を含むものである。画像入力部12は、上述した2つの場合両方に対応した機能を有していてもよい。画像入力部12には、1フレ−ム毎の静止画像、すなわちフレーム画像を連続して入力される。画像入力部12は、入力された1フレーム画像20を順次、解析部14に出力する。   The image input unit 12 has a function of inputting video. When the input is a television, the image input unit 12 receives a television program image obtained by decoding a signal obtained from the television antenna with a tuner. In the case of a DVD / HDD recorder, the image input unit 12 includes a function for recording a television program previously recorded in a built-in storage device and a function for reproducing video content provided on a DVD medium. The image input unit 12 may have a function corresponding to both cases described above. In the image input unit 12, a still image for each frame, that is, a frame image is continuously input. The image input unit 12 sequentially outputs the input one frame image 20 to the analysis unit 14.
解析部14は、入力画像20に対してフレーム画像を所定の手法で解析し、解析したフレーム画像に含まれる情報を抽出する機能を有する。具体的には、顔検出、シーン切替検出、重み付け算出および解析結果を表示画像の生成制御の機能がある。これに対応して、解析部14は、顔検出部22、シーン切替検出部24、重み付け算出部26および画像生成部28を含む。入力画像20は、顔検出部22およびシーン切替検出部24に供給される。   The analysis unit 14 has a function of analyzing a frame image with respect to the input image 20 by a predetermined method and extracting information included in the analyzed frame image. Specifically, there are functions of face detection, scene switching detection, weighting calculation, and analysis result display image generation control. Correspondingly, the analysis unit 14 includes a face detection unit 22, a scene switching detection unit 24, a weighting calculation unit 26, and an image generation unit 28. The input image 20 is supplied to the face detection unit 22 and the scene switching detection unit 24.
顔検出部22は、フレーム画像から登場人物の顔を検出し、検出した顔領域の顔画像を出力する機能を有し、具体的にはフレーム画像毎にフレーム画像を解析し、フレーム画像内の顔を検出し、検出された顔を複数のフレーム画像にまたがって同一人物であるか否かを判定し、追跡する機能を有する。この追跡機能は、顔検出部22で「顔」を一度検出した場合、次のフレーム画像にも似たような位置・大きさに「顔」が検出されると、同一人物と判断して、結果として顔を追跡するものである。顔検出部22には、フレーム画像20が供給される。顔検出部22は、検出した顔画像もストレージ16に出力する。また、顔検出部22には、シーン切替検出部24からシーンの切替の有無を示す信号30も供給されている。顔検出部22は、シーン切替検出部24からシーンの切替わりを検出したことを通知された場合、一旦、すべての顔の追跡を終了して、リセットし、次のフレームから改めて顔を検出し、顔を追跡する。これにより、顔検出部22はシーン毎に顔を追跡できる。顔の追跡方法は、最初に検出した顔領域の特微量を抽出し、次のフレーム画像の同一領域付近に同様の特微量を持つ領域があれば、同一人物に判定し、さらにその特微量でその次のフレーム画像の同一領域付近を探索するという繰り返しで追跡する方法等が一般的に知られている。   The face detection unit 22 has a function of detecting the face of the character from the frame image and outputting a face image of the detected face area. Specifically, the face detection unit 22 analyzes the frame image for each frame image, It has a function of detecting a face, determining whether or not the detected face is the same person across a plurality of frame images, and tracking the same. This tracking function determines that if the “face” is detected by the face detection unit 22 once and the “face” is detected at a position / size similar to the next frame image, As a result, the face is tracked. A frame image 20 is supplied to the face detection unit 22. The face detection unit 22 also outputs the detected face image to the storage 16. Further, the face detection unit 22 is also supplied with a signal 30 indicating whether or not the scene is switched from the scene switching detection unit 24. When notified by the scene change detection unit 24 that the scene change has been detected, the face detection unit 22 once ends tracking of all faces, resets, and detects the face again from the next frame. Track your face. Thereby, the face detection unit 22 can track the face for each scene. The face tracking method extracts the feature amount of the first detected face region, and if there is a region with the same feature amount in the vicinity of the same region in the next frame image, it is determined as the same person, A method of tracking repeatedly by searching for the vicinity of the same region of the next frame image is generally known.
顔検出部22は、このようにフレーム画像毎における顔を検出し、供給される信号30を基に複数のフレーム画像にまたがって同一人物であるか否かを判定し、追跡した結果である解析情報32をストレージ16に出力する。解析情報32は、検出した顔における顔ID(IDentification)、位置、大きさ、登場したフレーム番号および代表顔画像を含む。   In this way, the face detection unit 22 detects a face in each frame image, determines whether or not the person is the same person across a plurality of frame images based on the supplied signal 30, and analyzes the result of tracking. Information 32 is output to the storage 16. The analysis information 32 includes a face ID (IDentification), a position, a size, an appearing frame number, and a representative face image in the detected face.
シーン切替検出部24は、フレーム画像を基に供給される動画像におけるシーンの切替えを検出する機能を有する。この機能は、動画像におけるフレーム画像全体の特徴を前のフレーム画像の特徴を比較し、この比較によりシーンの切替わりの有無を判定して、シーンの切替わりを検出している。実際、シーン切替検出部24は、供給されるフレーム画像20の特徴からシーンの切替わりを検出する。シーン切替検出部24は、検出した結果であるシーン切替の有無を示す信号30を顔検出部22に出力し、シーンの切替わり位置34をストレージ16および重み付け算出部26に出力する。   The scene switching detection unit 24 has a function of detecting scene switching in a moving image supplied based on a frame image. This function compares the features of the entire frame image in the moving image with the features of the previous frame image, determines the presence or absence of scene switching by this comparison, and detects the scene switching. Actually, the scene switching detection unit 24 detects a scene switching from the feature of the supplied frame image 20. The scene switching detection unit 24 outputs a signal 30 indicating the presence / absence of scene switching, which is a detection result, to the face detection unit 22, and outputs a scene switching position 34 to the storage 16 and the weight calculation unit 26.
重み付け算出部26は、フレーム画像で検出された登場人物それぞれに対する重み情報を算出する機能を有する。重み情報は、検出した顔およびシーン切替わりについて得られた情報を基に、それぞれのシーンにおける登場人物の顔がそれぞれどの程度の重みを持っているかを表わす情報である。重み付け算出部26は、シーン切替の有無を示す信号30に応じてシーンの主役が誰で、脇役が誰であるかを示す重みまたは度合いを算出し、算出した重みまたは度合いを重み付け情報36としてストレージ16および画像生成部28に出力する。また、重み付け算出部26には、ストレージ16からたとえば、記録時に格納した時系列の解析情報38が供給される。解析情報38は、ID、位置、大きさ、登場したフレーム番号および代表顔画像、ならびにシーンの切替わり位置を含む。   The weight calculation unit 26 has a function of calculating weight information for each of the characters detected in the frame image. The weight information is information indicating how much weight each character's face in each scene has based on the information obtained about the detected face and scene switching. The weight calculation unit 26 calculates a weight or degree indicating who is the leading role of the scene and who is the supporting role in accordance with the signal 30 indicating whether or not the scene is switched, and stores the calculated weight or degree as weight information 36. 16 and the image generation unit 28. The weight calculation unit 26 is supplied with time-series analysis information 38 stored at the time of recording, for example, from the storage 16. The analysis information 38 includes an ID, a position, a size, an appearing frame number and a representative face image, and a scene switching position.
画像生成部28は、ストレージに保存された解析情報を基に供給される動画像のコンテンツの内容を表現する画像を生成する機能を有する。コンテンツの内容は、解析結果の表示画面または画像を生成することで具体的に表わされる。この機能を実現するため、画像生成部28は、図2に示すように、シーンの長さに応じてこのシーンの時間を大きさまたは形状で表現する画像を生成する画像生成機能部28aと、登場人物における重み情報のうち、最も大きい登場人物の顔画像を代表顔画像に設定し、代表顔画像を重み情報に応じた大きさまたは形状で表現する画像を生成する画像生成機能部28bとを含む。画像生成部28は、解析情報40を基にシーン毎それぞれの解析結果が一目で理解できるように表示画面42を生成し、生成した表示画面42をディスプレイ18に出力する。   The image generation unit 28 has a function of generating an image that represents the content of the content of the moving image supplied based on the analysis information stored in the storage. The contents are specifically expressed by generating an analysis result display screen or image. In order to realize this function, as shown in FIG. 2, the image generation unit 28 generates an image that expresses the time of the scene in a size or shape according to the length of the scene, and An image generation function unit 28b that sets the face image of the largest character among the weight information in the character as a representative face image, and generates an image expressing the representative face image in a size or shape according to the weight information; Including. The image generation unit 28 generates a display screen 42 so that the analysis result of each scene can be understood at a glance based on the analysis information 40, and outputs the generated display screen 42 to the display 18.
なお、解析部14は、図示しない制御部の制御により制御される。   The analysis unit 14 is controlled by control of a control unit (not shown).
ストレージ16は、供給される解析情報を格納する機能を有する。格納する解析情報は、検出した顔およびシーン切替わりについての様々な解析情報32、34および36を時系列的に保持する。ストレージ16は、顔検出部22からの解析情報32、シーン切替検出部24からの解析情報34および重み付け算出部26からの解析情報36を格納し、解析情報38を重み付け算出部26に出力し、解析情報40を画像生成部28に出力する。解析情報40は、シーン、顔および重みの情報を含む。ストレージ16の書込み/読出しも図示しない制御部の制御により制御される。   The storage 16 has a function of storing supplied analysis information. The analysis information to be stored holds various analysis information 32, 34 and 36 regarding the detected face and scene change in time series. The storage 16 stores analysis information 32 from the face detection unit 22, analysis information 34 from the scene switching detection unit 24, and analysis information 36 from the weight calculation unit 26, and outputs analysis information 38 to the weight calculation unit 26. The analysis information 40 is output to the image generation unit 28. The analysis information 40 includes scene, face and weight information. Writing / reading of the storage 16 is also controlled by control of a control unit (not shown).
ディスプレイ18は、供給される映像信号を動画像として表示するとともに、解析結果をユーザに表示する一般的な表示装置である。ディスプレイ18は、一般に、装置が持つ他の機能も有する。他の機能とは、たとえば入力する映像の選択、解析結果を表示した後、ユーザが選択した映像の再生を表示する機能である。   The display 18 is a general display device that displays a supplied video signal as a moving image and displays an analysis result to a user. The display 18 generally also has other functions that the device has. The other function is, for example, a function for displaying the reproduction of the video selected by the user after selecting the input video and displaying the analysis result.
なお、本実施例は、DVD/HDD装置に限定されず、2つの装置を組み合わせたシステムでもよい。システムは、第1の装置であるパーソナルコンピュータやDVD/HDDレコーダで顔検出、シーン切替え検出および重み付けを処理し、得られた解析結果情報と映像データを第2の装置である携帯端末装置に送って、携帯端末装置上で結果画面の生成および表示を行い、携帯端末装置で映像を再生させてもよい。   Note that this embodiment is not limited to a DVD / HDD device, and may be a system in which two devices are combined. The system processes face detection, scene switching detection and weighting with a personal computer or DVD / HDD recorder as the first device, and sends the obtained analysis result information and video data to the mobile terminal device as the second device. Then, the result screen may be generated and displayed on the mobile terminal device, and the video may be played back on the mobile terminal device.
次に本発明に係るコンテンツ検索装置を適用したDVD/HDD装置10の動作について図3および図4を参照しながら、記述する。DVD/HDD装置10は、図3に示すように、映像を画像入力部12に入力する(ステップS10)。映像は、たとえばテレビ放送を受信した番組であったり、DVDプレーヤで再生した映画であったり、インターネットでストリーム配信された映像、またはダウンロードした映像コンテンツであったりしてよい。   Next, the operation of the DVD / HDD device 10 to which the content search device according to the present invention is applied will be described with reference to FIGS. As shown in FIG. 3, the DVD / HDD device 10 inputs the video to the image input unit 12 (step S10). The video may be, for example, a program that has received a television broadcast, a movie played on a DVD player, a video streamed over the Internet, or a downloaded video content.
次に画像入力部12は、映像の各フレーム画像にフレーム番号を付与した上で、時系列に順次、顔検出部22およびシーン切替検出部24に送る(ステップS12)。フレーム番号(ID)は、単純に時系列に並んだフレーム画像毎に+1ずつ歩進する数値でよい。   Next, the image input unit 12 assigns a frame number to each frame image of the video, and sequentially sends it to the face detection unit 22 and the scene switching detection unit 24 in time series (step S12). The frame number (ID) may be a numerical value that is incremented by +1 for each frame image arranged simply in time series.
次に供給されるフレーム画像を解析し、解析した情報を抽出する(サブルーチンSUB)。解析結果は、抽出した解析情報をストレージ16に格納する。   Next, the supplied frame image is analyzed, and the analyzed information is extracted (subroutine SUB). As the analysis result, the extracted analysis information is stored in the storage 16.
次に全フレームが終了したか否かを判断する(ステップS14)。全フレームが未終了の場合(NO)、フレーム画像の取得に戻る(ステップS12へ)。また、全フレームが終了の場合(YES)、画面の生成に進む(ステップS16へ)。   Next, it is determined whether or not all frames have been completed (step S14). When all the frames have not been completed (NO), the process returns to the acquisition of the frame image (to step S12). If all frames have been completed (YES), the process proceeds to screen generation (to step S16).
画面の生成は、画像生成部28でストレージ16から格納してある解析情報、すなわちシーン、顔、重みに関する情報を取得し、解析情報の結果を示す画面を生成する(ステップS16)。画面の生成は、画像生成部28の機能を基にシーンの長さに応じてこのシーンの時間を大きさまたは形状で表現する画像を生成し、登場人物の重み情報のうち、最も大きい登場人物の顔画像を代表顔画像に設定し、代表顔画像を重み情報に応じた大きさまたは形状で表現する画像を生成する。   The screen is generated by acquiring the analysis information stored from the storage 16 in the image generation unit 28, that is, information on the scene, face, and weight, and generating a screen indicating the result of the analysis information (step S16). Screen generation is based on the function of the image generation unit 28 to generate an image that expresses the time of this scene in size or shape according to the length of the scene, and the largest character among the character weight information Is set as a representative face image, and an image expressing the representative face image with a size or shape corresponding to the weight information is generated.
次に生成した結果の画面をディスプレイ18に送り、結果の画面を表示する(ステップS18)。ユーザは画面上の顔画像やシーンの代表画像を選択することで、そのシーンから映像を視聴することができる。   Next, the generated result screen is sent to the display 18, and the result screen is displayed (step S18). The user can view a video from the scene by selecting a face image on the screen or a representative image of the scene.
次に解析部14におけるフレーム画像の解析手順について図4を参照しながら記述する。顔検出部22では、画像入力部12から供給されるフレーム画像20内の顔画像を検出する(サブステップSS10)。顔検出部22は、顔を中心に頭部全体を含む顔領域の位置/大きさを座標値で示す。顔の検出は、たとえば顔領域を矩形で表し、矩形の右上および左下の2点の座標で表す方法が最も単純である。このとき、顔検出は、フレーム画像内の顔すべてを検出してもよいし、処理量やデータ量、最終的に表示される解析結果の表示量を考慮し、検出する顔の数を絞り込むためにあらかじめ、決められたサイズ以上の顔だけを検出したり、検出された顔の大きい順に固定数を検出するようにしたりしてもよい。固定数は、たとえば大きいものから5個が好ましい。   Next, the frame image analysis procedure in the analysis unit 14 will be described with reference to FIG. The face detection unit 22 detects a face image in the frame image 20 supplied from the image input unit 12 (substep SS10). The face detection unit 22 indicates the position / size of the face area including the entire head centered on the face as a coordinate value. For the detection of a face, for example, the simplest method is to express a face area by a rectangle and to express the coordinates of two points on the upper right and lower left of the rectangle. At this time, the face detection may detect all faces in the frame image, or in order to narrow down the number of faces to be detected in consideration of the amount of processing, the amount of data, and the display amount of the analysis result that is finally displayed. Alternatively, only faces that are larger than a predetermined size may be detected in advance, or a fixed number may be detected in descending order of the detected faces. For example, the fixed number is preferably 5 from the largest.
また、顔の検出方法は、ウェーブレットまたはHaar特徴検出を用いるアルゴリズムが一般的に知られている。顔の検出方法は、扱う映像の種類や装置の性能によって適切なものを選択して使用するとよい。   As a face detection method, an algorithm using wavelet or Haar feature detection is generally known. As a face detection method, an appropriate method may be selected and used depending on the type of video to be handled and the performance of the apparatus.
さらに、複数の顔を識別する場合、それぞれの顔にユニークな番号で表現される顔IDを付与する。顔IDは、重複しないように適当な数値を自動的に割り当てればよい。顔検出部22は、連続するフレーム画像間で同一の顔であるか否かを追跡する。フレーム画像それぞれに、同一の顔である場合、同じ顔IDを付与する。これによりある連続するフレーム画像間で同じ顔が映り続けている場合は、一人の人物として捉えることができる。顔画像は一人の人物につき一つを割り当て、連続するフレームの顔領域から一つを自動的に選択する。顔検出部22は、検出した座標値、顔IDおよび顔領域の画像、すなわち顔画像に関する解析情報32としてストレージ16に供給する。   Further, when a plurality of faces are identified, a face ID expressed by a unique number is assigned to each face. An appropriate numerical value may be automatically assigned to the face ID so as not to overlap. The face detection unit 22 tracks whether or not the same face exists between successive frame images. If each frame image has the same face, the same face ID is assigned. As a result, if the same face continues to appear between certain consecutive frame images, it can be regarded as one person. One face image is assigned to each person, and one face image is automatically selected from the face areas of successive frames. The face detection unit 22 supplies the detected coordinate value, face ID, and face area image, that is, analysis information 32 related to the face image to the storage 16.
次に解析情報32をストレージ16に時系列的に保存する(サブステップSS12)。たとえば最初に検出したフレーム画像の顔領域は、仮に選択してストレージ16に保存する。以降のフレーム画像でその人物の顔領域がより大きければ、その大きい顔領域の画像を新たに上書き保存するという方法がある。この方法によれば、そのシーンでその人物が最も大きく映った瞬間の画像を顔画像として保存できる。   Next, the analysis information 32 is stored in the storage 16 in time series (sub-step SS12). For example, the face area of the first detected frame image is temporarily selected and stored in the storage 16. If the face area of the person is larger in the subsequent frame images, there is a method of newly overwriting and saving the image of the large face area. According to this method, it is possible to save an image of the moment when the person is most reflected in the scene as a face image.
顔検出と同時に、同じフレーム画像20は、シーン切替検出部24でシーンの切替えを検出する(サブステップSS14)。シーン切替検出部24は、受けたフレーム画像20全体の特微量を抽出し、前のフレーム画像全体の特微量と比較する。   Simultaneously with the face detection, scene switching is detected by the scene switching detection unit 24 in the same frame image 20 (substep SS14). The scene change detection unit 24 extracts the feature amount of the entire received frame image 20 and compares it with the feature amount of the entire previous frame image.
シーン切替えがあるか否か判断する(サブステップSS16)。判断は、抽出した特徴量が所定の閾値以上か否かを比較する。   It is determined whether or not there is a scene change (substep SS16). The determination is made by comparing whether or not the extracted feature amount is equal to or greater than a predetermined threshold value.
シーン切替検出部24での検出結果に対する判断が偽(NO)では、シーン切替検出部24は、類似度が高く、同一シーンと判断し、重み付けの算出に進む(サブステップSS18へ)。また、抽出した特徴量が所定の閾値より小さい真(YES)では、シーンの切替わりと判断し、解析情報の保存に進む(サブステップSS20へ)。   If the determination with respect to the detection result in the scene switching detection unit 24 is false (NO), the scene switching detection unit 24 determines that the similarity is high and the scene is the same, and proceeds to weight calculation (goes to sub-step SS18). If the extracted feature value is true (YES) smaller than the predetermined threshold value, it is determined that the scene is switched, and the analysis information is saved (go to sub-step SS20).
なお、シーン切替検出部24は、映像の最初のフレーム画像では、前フレーム画像がないことから、単に新規のシーンIDを生成し、解析情報34をストレージ16に保存するだけである。また、最後のフレームを受け取った場合もシーン切替検出部24はシーンの切替わりと判断する。   Note that the scene change detection unit 24 simply generates a new scene ID and stores the analysis information 34 in the storage 16 because the first frame image of the video does not have a previous frame image. Also, when the last frame is received, the scene change detection unit 24 determines that the scene is changed.
次に重み付け算出部26は、結果的にシーン切替わり検出の有無に関わらず、シーンそれぞれに対する顔についての重みを算出する(サブステップSS18)。とくに、シーンの切替わりを検出した場合、シーン切替の検出を示す信号30を通知し、この通知を受けたとき、確実に重みを算出する。算出方法には様々な方法がある。   Next, as a result, the weight calculation unit 26 calculates the weight of the face for each scene regardless of whether or not the scene change is detected (sub step SS18). In particular, when a scene change is detected, a signal 30 indicating the detection of the scene change is notified, and when this notification is received, the weight is reliably calculated. There are various calculation methods.
第1の具体例として重み付け算出部26は、人物毎の顔の大きさを比較する。ストレージ16には、それぞれの人物における顔領域の大きさが保存されているから、重み付け算出部26は、各人物のそのシーン内でもっとも大きな顔の大きさを算出し、重み付けする。たとえば顔領域の長辺の値を顔領域のサイズに用い、最も大きな顔領域のサイズを1に設定し、これに対する他の顔の大きさを比で表わす。仮にあるシーン内に3人の人物が検出されたとして、最も顔領域が大きい人の矩形領域の長辺が100画素、2番目の人物が75画素、3番目の人物が50画素と仮定すると、重みはそれぞれ1.0、0.75、0.50となる。重みは、長辺の比に限定されるものでなく、短辺の長さ、面積および対角線の長さといった顔領域の大きさを示す様々な要素を利用するとよい。   As a first specific example, the weight calculation unit 26 compares face sizes for each person. Since the storage 16 stores the size of the face area of each person, the weight calculation unit 26 calculates and weights the largest face size of each person in the scene. For example, the value of the long side of the face area is used as the size of the face area, the size of the largest face area is set to 1, and the size of the other face relative to this is expressed as a ratio. Assuming that three persons are detected in a scene, assuming that the long side of the rectangular area of the person with the largest face area is 100 pixels, the second person is 75 pixels, and the third person is 50 pixels, The weights are 1.0, 0.75, and 0.50, respectively. The weight is not limited to the ratio of the long sides, and various elements indicating the size of the face area such as the length of the short side, the area, and the length of the diagonal line may be used.
第2の具体例として重み付け算出部26は、人物がシーンに登場する時間と顔領域の積算値を比較する。重み付け算出部26は、ストレージ16から解析情報38から人物毎にフレーム画像に存在したかを算出し、シーン内における最も多くのフレームに存在している人物を1とし、それ以外の人物の存在しているフレーム数の比を算出する。次に第1の具体例で記述した方法で顔の大きさの比を算出し、人物毎に登場時間比と顔の大きさの比の積を算出しこれを重みとする。   As a second specific example, the weight calculation unit 26 compares the time when the person appears in the scene with the integrated value of the face area. The weighting calculation unit 26 calculates whether each person exists in the frame image from the analysis information 38 from the storage 16, and sets the person existing in the most frames in the scene to 1 and the presence of other persons. Calculate the ratio of the number of frames. Next, the face size ratio is calculated by the method described in the first specific example, and the product of the appearance time ratio and the face size ratio is calculated for each person, and this is used as the weight.
このような重み付けの算出は一例であり、これに限定されない。重み付けはそれぞれのシーン毎に算出するので、最終的に供給される映像の解析処理が終わるとすべてのシーンについて登場人物の重み付けすることになる。ここでは、シーンが切り替わる都度、重み付けを算出する具体例を示したが、顔検出およびシーン切替わり検出が映像の最後まで終わってから、まとめて算出してもよいし、顔検出およびシーン切替わり検出を行いながら、並行して算出してもよい。前者の場合、重み付け算出部26は、ストレージ16から解析情報38を読み出し、解析の完了したシーンそれぞれの顔に対して重みを算出する場合、重み付け算出を全フレームの終了判断処理と画像の生成処理の間でまとめて重みを算出するとよい。   Such weighting calculation is an example, and the present invention is not limited to this. Since the weighting is calculated for each scene, the characters are weighted for all scenes when the analysis processing of the finally supplied video is completed. Here, a specific example is shown in which weighting is calculated every time a scene is switched. However, after face detection and scene switching detection have been completed to the end of the video, they may be calculated together, or face detection and scene switching may be performed. You may calculate in parallel, performing detection. In the former case, the weight calculation unit 26 reads the analysis information 38 from the storage 16 and calculates the weight for each face of the analyzed scene. The weights may be calculated together.
次にシーン切替検出部24は、シーンの切替わり検出した場合(YES)、シーンIDを更新し、新しいシーンIDを付与する。シーン切替検出部24は、フレーム番号およびシーンIDを解析情報34としてストレージ16に保存する(サブステップSS20)。シーン切替検出部24は、シーンの切替わりを検出したこと、すなわち信号30を顔検出部22に通知し、解析情報34を重み付け算出部26に通知する。重み付け算出部26は、解析情報34が供給されるとき、シーンの切替わりを検出したと判断するとよい。   Next, when a scene change detection is detected (YES), the scene change detection unit 24 updates the scene ID and assigns a new scene ID. The scene change detection unit 24 stores the frame number and the scene ID in the storage 16 as analysis information 34 (substep SS20). The scene change detection unit 24 notifies that the scene change has been detected, that is, the signal 30 to the face detection unit 22, and the analysis information 34 to the weight calculation unit 26. When the analysis information 34 is supplied, the weight calculation unit 26 may determine that a scene change has been detected.
重み付けの算出後、重み付け算出部26は、算出した重みを解析情報36としてストレージ16に出力し、格納する(サブステップSS22)。この処理後、リターンに進んでサブルーチンを終了する。   After calculating the weights, the weight calculation unit 26 outputs the calculated weights as analysis information 36 to the storage 16 and stores them (sub-step SS22). After this processing, the process proceeds to return to end the subroutine.
このように解析して、全フレームに対する解析が終わると、画像生成部28は、ストレージ16から解析情報40、すなわちシーン、顔および重みの情報を取得し、解析情報の結果画面を生成する。   When the analysis for all the frames is completed in this way, the image generation unit 28 acquires the analysis information 40 from the storage 16, that is, the scene, face, and weight information, and generates the analysis information result screen.
結果画面の例について図5Aおよび図5Bを示す。生成される解析の結果画面44は、図5Aに示すように、それぞれのシーンを時系列順に、かつシーンの長さが一目見て分かるようにシーンの長さに応じた大きさ46で表わす。また、結果画面44は、図5Bの場合、シーンの長さを立体の奥行き48で表わしてもよい。   FIG. 5A and FIG. 5B show examples of the result screen. As shown in FIG. 5A, the generated analysis result screen 44 represents each scene in chronological order and with a size 46 corresponding to the length of the scene so that the length of the scene can be seen at a glance. Further, in the case of FIG. 5B, the result screen 44 may represent the length of the scene as a three-dimensional depth 48.
さらに、結果画面44においてシーン毎における顔画像の表示は、表示する人物の重みが一目見て分かるように顔画像の大きさ50または形状を変えて表示する。結果画面44は、表示するシーンの最も重みのある人物の顔画像を取得したフレーム画像全体をシーンの代表画像として合わせて表示してもよい。   Further, the face image is displayed for each scene on the result screen 44 by changing the size or shape of the face image so that the weight of the person to be displayed can be seen at a glance. The result screen 44 may display the entire frame image obtained by acquiring the face image of the most weighted person of the scene to be displayed as the representative image of the scene.
なお、本実施例は、シーンとそのシーンに登場する人物の顔画像の長さ/大きさを変える場合で示したが、この表示方法に限定されず、表示色を変えたり、表示する明るさを変えたり、アニメーション表示させてアニメーションの動きを変えたりしてもよい。表示方法は、ユーザが直感的に示される解析情報が認識できるものであれば、他のどのような表現方法でもよい。   In the present embodiment, the case where the length / size of the face image of the scene and the person appearing in the scene is changed is shown, but the present invention is not limited to this display method. You can also change the motion of the animation by changing the animation. The display method may be any other expression method as long as the user can recognize the analysis information intuitively shown.
また、本実施例は、シーンの特徴表示に人物の顔を特化して示したが、動物、一般的に特徴的な建物、有名な自然物および風景を検出し、検出したものをそのシーンの登場物体として画像表示させてもよい。   In addition, in this embodiment, the human face is specialized in the scene feature display, but animals, generally characteristic buildings, famous natural objects and landscapes are detected, and the detected appearance of the scene is displayed. An image may be displayed as an object.
このように構成し、比較的少ない処理量で結果画面を生成し、生成した結果画面をディスプレイ18に送って、生成した結果画面を表示させることにより、表示後、ユーザは画面上の顔画像やシーンの代表画像を選択して、直感的に見たいシーンを選択し、ユーザが直感的に見たいシーンを選び易く、かつ誤検出を抑制して、見たいシーンの映像を迅速に視聴することができる。さらに、シーン間で同一人物を統合するような高精度の実現が困難、かつ処理量の多い手段を使わず、家庭用レコーダや携帯端末装置であっても、少ない処理量でシーン間における同一人物を検出し同一人物を統合できるという効果が得られる。   With this configuration, a result screen is generated with a relatively small amount of processing, and the generated result screen is sent to the display 18 to display the generated result screen. Select a scene representative image, select the scene you want to see intuitively, make it easy for the user to select the scene you want to see intuitively, suppress false detection, and quickly view the video of the scene you want to see Can do. In addition, it is difficult to achieve high accuracy such as integrating the same person between scenes, and even if it is a home recorder or portable terminal device without using a method with a large amount of processing, the same person between scenes with a small amount of processing And the same person can be integrated.
本発明に係るコンテンツ検索装置を適用したDVD/HDD装置における概略的な構成を示すブロック図である。1 is a block diagram showing a schematic configuration of a DVD / HDD device to which a content search device according to the present invention is applied. FIG. 図1のDVD/HDD装置における画像生成部の概略的な構成を示す機能ブロック図である。FIG. 2 is a functional block diagram illustrating a schematic configuration of an image generation unit in the DVD / HDD apparatus of FIG. 1. 図1のDVD/HDD装置におけるコンテンツ検索の動作手順を示すフローチャートである。3 is a flowchart showing an operation procedure of content search in the DVD / HDD device of FIG. 1. 図2のサブルーチンにおける解析の動作手順を示すフローチャートである。It is a flowchart which shows the operation | movement procedure of the analysis in the subroutine of FIG. 図1のディスプレイに表示される結果画面の表示例を示す図である。It is a figure which shows the example of a display of the result screen displayed on the display of FIG. 図1のディスプレイに表示される結果画面における他の表示例を示す図である。It is a figure which shows the other example of a display in the result screen displayed on the display of FIG.
符号の説明Explanation of symbols
10 DVD/HDD装置
12 画像入力部
14 解析部
16 ストレージ
18 ディスプレイ
22 顔検出部
24 シーン切替検出部
26 重み付け算出部
28 画像生成部
10 DVD / HDD device
12 Image input section
14 Analysis section
16 Storage
18 display
22 Face detector
24 Scene switching detector
26 Weighting calculator
28 Image generator

Claims (4)

  1. 動画像の構成要素であるフレーム画像を解析し、解析した結果から前記動画像を基に供給される番組ソフトであるコンテンツの内容を検索するコンテンツ検索装置において、該装置は、
    前記フレーム画像を解析して、解析したフレーム画像に含まれる情報を抽出する解析手段と、
    抽出した情報を時系列的に格納する情報保存手段と、
    前記情報保存手段に蓄積された情報を基に生成される画像を表示する表示手段とを含み、
    前記解析手段は、前記フレーム画像から登場人物の顔を検出し、検出した顔領域の顔画像を出力する顔検出手段と、
    前記フレーム画像を基に前記動画像のシーンの切替えを検出する切替検出手段と、
    前記フレーム画像で検出された登場人物それぞれに対する重み情報を算出する重み算出手段と、
    前記情報保存手段に保存された情報を基に動画像のコンテンツの内容を表現する画像を生成する画像生成手段とを含むことを特徴とするコンテンツ検索装置。
    In a content search device that analyzes a frame image, which is a component of a moving image, and searches the content of content that is program software supplied based on the result of the analysis, the device includes:
    Analyzing means for analyzing the frame image and extracting information included in the analyzed frame image;
    Information storage means for storing the extracted information in time series;
    Display means for displaying an image generated based on the information stored in the information storage means,
    The analysis means detects a character's face from the frame image, and outputs a face image of the detected face area;
    Switching detection means for detecting scene switching of the moving image based on the frame image;
    Weight calculation means for calculating weight information for each of the characters detected in the frame image;
    A content search apparatus comprising: an image generation unit configured to generate an image representing the content of a moving image content based on information stored in the information storage unit.
  2. 請求項1に記載の装置において、前記画像生成手段は、前記シーンの長さに応じて該シーンの時間を大きさまたは形状で表現する画像を生成する機能ブロックと、
    前記登場人物の重み情報のうち、最も大きい登場人物の顔画像を代表顔画像に設定し、前記代表顔画像を前記重み情報に応じた大きさまたは形状で表現する画像を生成する機能ブロックとを含むことを特徴とするコンテンツ検索装置。
    The apparatus according to claim 1, wherein the image generation unit generates an image that expresses the time of the scene in a size or shape according to the length of the scene;
    Among the weight information of the characters, a functional block that sets the face image of the largest character as a representative face image and generates an image that expresses the representative face image in a size or shape according to the weight information. A content search apparatus comprising:
  3. 動画像の構成要素であるフレーム画像を解析し、解析した結果から前記動画像を基に供給される番組ソフトであるコンテンツの内容を検索し、検索した結果を表示するコンテンツ検索の表示方法において、該方法は、
    供給されるフレーム画像を解析して、該フレーム画像から顔を検出し、検出した顔領域の顔画像を顔に関する解析情報として出力する第1の工程と、
    検出した顔に関する解析情報を保存する第2の工程と、
    前記フレーム画像を基に前記動画像のシーンの切替えを検出する第3の工程と、
    検出したシーンの切替えに関する解析情報を保存する第4の工程と、
    前記フレーム画像で検出された登場人物それぞれに対する重み情報を算出する第5の工程と、
    算出した重み情報を解析情報として保存する第6の工程と、
    保存した解析情報を基に供給される動画像のコンテンツの内容を表現する画像を生成する第7の工程とを含むことを特徴とするコンテンツ検索の表示方法。
    In a content search display method of analyzing a frame image that is a component of a moving image, searching for the content of content that is program software supplied based on the analysis result, and displaying the search result, The method
    Analyzing a supplied frame image, detecting a face from the frame image, and outputting a face image of the detected face region as analysis information relating to the face;
    A second step of storing analysis information relating to the detected face;
    A third step of detecting scene switching of the moving image based on the frame image;
    A fourth step of storing analysis information relating to the detected scene change;
    A fifth step of calculating weight information for each of the characters detected in the frame image;
    A sixth step of storing the calculated weight information as analysis information;
    A content search display method comprising: a seventh step of generating an image expressing the content of the content of the moving image supplied based on the stored analysis information.
  4. 請求項3に記載の方法において、第7の工程は、前記シーンの長さに応じて該シーンの時間を大きさまたは形状表現する画像を生成する第8の工程と、
    前記登場人物の重み情報のうち、最も大きい登場人物の顔画像を代表顔画像に設定し、前記代表顔画像を前記重み情報に応じた大きさまたは形状で表現する画像を生成する第9の工程とを含むことを特徴とするコンテンツ検索の表示方法。
    The method according to claim 3, wherein the seventh step is an eighth step of generating an image that represents a time or a shape of the scene according to the length of the scene;
    Ninth step of setting the face image of the largest character among the weight information of the characters as a representative face image, and generating an image expressing the representative face image with a size or shape according to the weight information And a method for displaying content search.
JP2008043164A 2008-02-25 2008-02-25 Content retrieval apparatus, and display method thereof Withdrawn JP2009201041A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008043164A JP2009201041A (en) 2008-02-25 2008-02-25 Content retrieval apparatus, and display method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008043164A JP2009201041A (en) 2008-02-25 2008-02-25 Content retrieval apparatus, and display method thereof

Publications (1)

Publication Number Publication Date
JP2009201041A true JP2009201041A (en) 2009-09-03

Family

ID=41144023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008043164A Withdrawn JP2009201041A (en) 2008-02-25 2008-02-25 Content retrieval apparatus, and display method thereof

Country Status (1)

Country Link
JP (1) JP2009201041A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256105A (en) * 2011-06-07 2012-12-27 Sony Corp Display apparatus, object display method, and program
JP2014507699A (en) * 2010-12-17 2014-03-27 オーディブル・インコーポレイテッド Schematic representation of the relationship between the referenced object and the story
WO2015045543A1 (en) * 2013-09-26 2015-04-02 富士フイルム株式会社 Device for determining principal facial image in photographic image, and method and program for controlling same
JP2016504790A (en) * 2012-11-05 2016-02-12 ネクストリーミング、コーポレーションNexstreaming Corporation Moving image editing method, terminal and recording medium
US9436741B2 (en) 2010-12-17 2016-09-06 Audible, Inc. Graphically representing associations between referents and stories
JP2017021844A (en) * 2016-09-29 2017-01-26 富士フイルム株式会社 Device for determining main face image in picked-up images, control method thereof, and control program therefor
JP2017504085A (en) * 2013-10-31 2017-02-02 アルカテル−ルーセント How to generate a video tag cloud that represents objects that appear in video content
US9779305B2 (en) 2012-04-05 2017-10-03 Panasonic Intellectual Property Corporation Of America Video analyzing device, video analyzing method, program, and integrated circuit
WO2019114508A1 (en) * 2017-12-13 2019-06-20 Oppo广东移动通信有限公司 Image processing method, apparatus, computer readable storage medium, and electronic device
KR102112033B1 (en) * 2019-07-03 2020-05-18 박혜림 Video extraction apparatus using advanced face clustering technique

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014507699A (en) * 2010-12-17 2014-03-27 オーディブル・インコーポレイテッド Schematic representation of the relationship between the referenced object and the story
US9436741B2 (en) 2010-12-17 2016-09-06 Audible, Inc. Graphically representing associations between referents and stories
JP2012256105A (en) * 2011-06-07 2012-12-27 Sony Corp Display apparatus, object display method, and program
US9779305B2 (en) 2012-04-05 2017-10-03 Panasonic Intellectual Property Corporation Of America Video analyzing device, video analyzing method, program, and integrated circuit
JP2016504790A (en) * 2012-11-05 2016-02-12 ネクストリーミング、コーポレーションNexstreaming Corporation Moving image editing method, terminal and recording medium
JP2015064811A (en) * 2013-09-26 2015-04-09 富士フイルム株式会社 Device for determining main face image in picked-up images, control method thereof, and control program therefor
WO2015045543A1 (en) * 2013-09-26 2015-04-02 富士フイルム株式会社 Device for determining principal facial image in photographic image, and method and program for controlling same
US9832439B2 (en) 2013-09-26 2017-11-28 Fujifilm Corporation Device for determining principal facial image in photographic image, and method and program for controlling same
JP2017504085A (en) * 2013-10-31 2017-02-02 アルカテル−ルーセント How to generate a video tag cloud that represents objects that appear in video content
JP2017021844A (en) * 2016-09-29 2017-01-26 富士フイルム株式会社 Device for determining main face image in picked-up images, control method thereof, and control program therefor
WO2019114508A1 (en) * 2017-12-13 2019-06-20 Oppo广东移动通信有限公司 Image processing method, apparatus, computer readable storage medium, and electronic device
KR102112033B1 (en) * 2019-07-03 2020-05-18 박혜림 Video extraction apparatus using advanced face clustering technique

Similar Documents

Publication Publication Date Title
JP2009201041A (en) Content retrieval apparatus, and display method thereof
KR102290419B1 (en) Method and Appratus For Creating Photo Story based on Visual Context Analysis of Digital Contents
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
TWI579838B (en) Automatic generation of compilation videos
US9208227B2 (en) Electronic apparatus, reproduction control system, reproduction control method, and program therefor
US8457469B2 (en) Display control device, display control method, and program
US8935169B2 (en) Electronic apparatus and display process
TW201545120A (en) Automatic generation of compilation videos
US20120057775A1 (en) Information processing device, information processing method, and program
US8126309B2 (en) Video playback apparatus and method
US9659595B2 (en) Video remixing system
US8103149B2 (en) Playback system, apparatus, and method, information processing apparatus and method, and program therefor
US9451228B2 (en) Display control device, recording control device, and display control method
WO2006025272A1 (en) Video classification device, video classification program, video search device, and videos search program
US9564177B1 (en) Intelligent video navigation techniques
CN101444092A (en) Video reproduction device, video reproduction method, and video reproduction program
JP6031096B2 (en) Video navigation through object position
US20110235859A1 (en) Signal processor
US9558784B1 (en) Intelligent video navigation techniques
JP5637930B2 (en) Interest section detection device, viewer interest information presentation device, and interest section detection program
US11099811B2 (en) Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion
US20210089781A1 (en) Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion
US20210089577A1 (en) Systems and methods for displaying subjects of a portion of content and displaying autocomplete suggestions for a search related to a subject of the content
JP2010258615A (en) Playback apparatus and program
US20200204867A1 (en) Systems and methods for displaying subjects of a video portion of content

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110510