JPWO2006025272A1 - Video classification device, video classification program, video search device, and video search program - Google Patents

Video classification device, video classification program, video search device, and video search program Download PDF

Info

Publication number
JPWO2006025272A1
JPWO2006025272A1 JP2006532615A JP2006532615A JPWO2006025272A1 JP WO2006025272 A1 JPWO2006025272 A1 JP WO2006025272A1 JP 2006532615 A JP2006532615 A JP 2006532615A JP 2006532615 A JP2006532615 A JP 2006532615A JP WO2006025272 A1 JPWO2006025272 A1 JP WO2006025272A1
Authority
JP
Japan
Prior art keywords
face posture
scene
face
video
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006532615A
Other languages
Japanese (ja)
Other versions
JP4973188B2 (en
Inventor
石山 塁
塁 石山
文子 伊藤
文子 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006532615A priority Critical patent/JP4973188B2/en
Publication of JPWO2006025272A1 publication Critical patent/JPWO2006025272A1/en
Application granted granted Critical
Publication of JP4973188B2 publication Critical patent/JP4973188B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole

Abstract

静止画像または動画像である映像のシーンを分類する映像分類装置が開示される。映像入力部は、分類される対象となる映像を入力する。顔姿勢検出部は、入力された映像から顔姿勢データを検出する。ここで、顔姿勢データは、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータである。参照顔姿勢記憶部は、分類の区分となる各種シーン毎に、シーンと対応させて顔姿勢データを参照顔姿勢データとして予め記憶している。顔姿勢評価部は、入力された映像から検出された顔姿勢データと、参照顔姿勢データとの類似度を計算し、類似度に基づいて、入力された映像のシーンを分類する。
Disclosed is a video classification device that classifies a video scene that is a still image or a moving image. The video input unit inputs a video to be classified. The face posture detection unit detects face posture data from the input video. Here, the face posture data is at least a part of the data of the number of faces of the characters, the position, the size, and the direction of the face of each character. The reference face posture storage unit stores face posture data in advance as reference face posture data in association with each scene for each of various scenes that are classification categories. The face posture evaluation unit calculates the similarity between the face posture data detected from the input video and the reference face posture data, and classifies the scenes of the input video based on the similarity.

Description

本発明は、静止画像または動画像である映像のシーンを分類する映像分類装置および映像分類プログラムと、映像のシーンの中から特定のシーンを検索する映像検索装置および映像検索プログラムに関する。   The present invention relates to a video classification device and a video classification program that classify video scenes that are still images or moving images, a video search device and a video search program that search for a specific scene from video scenes.

近年、映像データのデジタル化が進みデータ圧縮技術や大容量の記憶装置が普及したことにより、大量の映像データを蓄積することが可能となり、そのなかから必要な映像を効率的に検索して閲覧する技術への需要が高まっている。   In recent years, with the digitization of video data and the spread of data compression technology and large-capacity storage devices, it has become possible to store a large amount of video data. There is an increasing demand for technologies that will

従来から、画像の特徴をデータ化して画像特徴量により示し、画像特徴量を用いて各画像の類似性を判定し、また類似する画像を(例えば、蓄積されている画像の中から)検索する画像検索が行われており、そのためのさまざまな方法、装置、コンピュータプログラムが開発されている。   Conventionally, image features are converted into data and shown by image feature amount, the similarity of each image is determined using the image feature amount, and similar images are searched (for example, from accumulated images). Image search is being performed, and various methods, devices, and computer programs have been developed for that purpose.

従来の映像検索装置の一例が、特開2001−167110号公報(以下、特許文献1と言う)に記載されている。図1は、特許文献1に記載されている映像検索装置の構成を示すブロック図である。顔画像取り込み部121は、入力された登場人物リスト(映像に登場する人物のリスト)に基づいて、登場人物の顔画像を記録している顔データベース120から顔画像を取り込み、この顔画像を顔データベース信号として出力する。特徴抽出部122は、顔データベース信号から特徴量を抽出し、特徴量信号を出力する。また、画像入力部111は、検索対象の映像を読み込み、映像をフレーム毎にフレーム信号として出力する。顔検出部112は、フレーム内の顔領域を検出して顔検出信号として出力する。登場人物識別部123は、顔検出信号とフレーム信号とを用いて顔領域を切り出す。さらに、特徴量信号を用いて、切り出された顔画像が、どの登場人物に最も類似するのかを求める。画像出力部113は、インタフェース118を介して、各フレームを登場人物毎にディスプレイ装置119に表示させる。このような映像検索装置では、映像に登場する人物毎に画像を検索することができる。例えば、有名な俳優や政治家等が登場している場面の検索を素早く行うことができ、映像編集者や検索者の負担を軽減することができる。   An example of a conventional video search device is described in Japanese Patent Application Laid-Open No. 2001-167110 (hereinafter referred to as Patent Document 1). FIG. 1 is a block diagram showing the configuration of the video search device described in Patent Document 1. The face image capturing unit 121 captures a face image from the face database 120 that stores face images of the characters based on the input character list (list of characters appearing in the video), and the face image is used as a face. Output as a database signal. The feature extraction unit 122 extracts the feature amount from the face database signal and outputs the feature amount signal. Further, the image input unit 111 reads a video to be searched and outputs the video as a frame signal for each frame. The face detection unit 112 detects the face area in the frame and outputs it as a face detection signal. The character identification unit 123 cuts out a face area using the face detection signal and the frame signal. Further, the feature signal is used to find out which character the cut-out face image most resembles. The image output unit 113 displays each frame on the display device 119 for each character through the interface 118. With such a video search device, an image can be searched for each person who appears in the video. For example, a scene in which a famous actor, politician, or the like appears can be quickly searched, and the burden on the video editor and the searcher can be reduced.

しかし、特許文献1に記載の映像検索装置では、特定の登場人物が写っているシーンを分類または検索することはできるが、映像のシーンの内容によってシーンを分類または検索することができない。例えば、「人物Aが写っているシーン」という登場人物を特定することによる検索は特許文献1に記載の映像検索装置では可能だが、特許文献1に記載の映像検索装置では登場人物が誰であるかに関係なく、内容が類似しているシーンを検索することはできない。具体的には、例えば、一日に放送された出演者の異なる複数のニュース番組映像から、キャスターとコメンテイターが会話しているシーンのみを検索することなどはできない。また、例えば、人物Aが写っている映像の中から、さらに特定の内容のシーン(例えば、人物Aが出演するドラマの中の重要なひとつのシーン)のみを絞り込み検索することなどはできない。この理由は、特許文献1に記載の映像検索装置では、映像に写っている登場人物が誰であるかという情報のみに基づいて映像を検索しているためである。   However, although the video search device described in Patent Document 1 can classify or search for a scene in which a specific character appears, it cannot classify or search for a scene depending on the content of the scene of the video. For example, the video search device described in Patent Document 1 can perform a search by specifying the character “scene in which the person A is captured”. However, in the video search device described in Patent Document 1, who is the character. Regardless of the situation, you cannot search for scenes with similar contents. Specifically, for example, it is not possible to search only the scenes in which the caster and the commentator have a conversation from a plurality of news program videos having different performers broadcasted in one day. In addition, for example, it is not possible to narrow down and search only a scene having a specific content (for example, an important scene in a drama in which the person A appears) from the video in which the person A is shown. The reason for this is that the video search device described in Patent Document 1 searches the video only based on information about who the characters appearing in the video are.

本発明の目的は、登場人物が誰であるかによらずに、映像のシーンの分類を行える映像分類装置および映像分類プログラムを提供することである。   An object of the present invention is to provide a video classification device and a video classification program that can classify scenes of a video regardless of who the characters are.

本発明の他の目的は、利用者が興味を持っているシーンと類似するシーンを検索できる映像検索装置および映像検索プログラムを提供することである。   Another object of the present invention is to provide a video search device and a video search program capable of searching for a scene similar to a scene in which a user is interested.

本発明による映像分類装置は、映像から登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、顔姿勢データを用いて映像のシーンを分類する顔姿勢評価手段とを備えている。   The image classification device according to the present invention is a face posture detection unit that detects at least a part of the face number, face position, size, and orientation data of each character from the image as face posture data, And a face posture evaluation means for classifying the scenes of the image using the face posture data.

シーンと密接に関連している顔姿勢データにより映像のシーンを分類するので、登場人物が誰であるかによらずに、映像のシーンの分類を行うことができる。   Since the scenes of the video are classified by the face posture data that are closely related to the scenes, the scenes of the video can be classified regardless of who the characters are.

映像分類装置は、顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データと、参照顔姿勢記憶手段が記憶する参照顔姿勢データとを比較することによって、顔姿勢データが検出された映像のシーンを分類するように構成されていてもよい。   The image classification device further includes a reference face orientation storage unit that stores reference face orientation data, which is face orientation data to be compared with the face orientation data detected by the face orientation detection unit, in advance in association with each scene. The evaluation unit classifies the scenes of the video in which the face posture data is detected by comparing the face posture data detected by the face posture detection unit with the reference face posture data stored in the reference face posture storage unit. May be configured.

顔姿勢検出手段は、シーンを写し出す学習用映像から参照顔姿勢データを検出し、参照顔姿勢データを、シーンと対応させて参照顔姿勢記憶手段に記憶させるように構成されていてもよい。   The face posture detecting means may be configured to detect the reference face posture data from the learning video showing the scene and store the reference face posture data in the reference face posture storing means in association with the scene.

映像分類装置は、特定のシーンを写し出す参照映像から、顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データと、参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、顔姿勢データが検出された映像のシーンが特定のシーンと同種のシーンに分類されるか否かを判定するように構成されていてもよい。この構成によれば、シーン毎の参照顔姿勢データを予め定めて記憶しておく必要がない。   The image classification device further includes a reference face orientation detection unit that detects reference face orientation data that is face orientation data that is compared with the face orientation data detected by the face orientation detection unit, from the reference image showing a specific scene. The face posture evaluation means compares the face posture data detected by the face posture detection means with the reference face posture data detected by the reference face posture detection means, so that the scene of the video in which the face posture data is detected is It may be configured to determine whether or not the particular scene is classified as a scene of the same type. According to this configuration, it is not necessary to determine and store the reference face posture data for each scene in advance.

映像分類装置は、分類される各シーンでの顔姿勢データが満たす条件を予め各シーンと対応させて記憶する参照条件記憶手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データが、参照条件記憶手段が記憶する条件のうちのどのシーンに対応する条件を満たしているかを判定することによって、顔姿勢データが検出された映像のシーンを分類するように構成されていてもよい。   The image classification device further includes a reference condition storage unit that stores in advance the condition that the face posture data in each scene to be classified corresponds to each scene, and the face posture evaluation unit detects the face posture detection unit. The face posture data is configured to classify the scenes of the video in which the face posture data is detected by determining which of the conditions stored in the reference condition storage unit corresponds to which scene. May be.

顔姿勢検出手段が、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算するように構成されていてもよい。この構成によれば、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして分類することができる。   The face posture detection means is configured to calculate at least a part of the data of the position, size and orientation of the face of at least one character as a value relative to the faces of other characters. May be. According to this configuration, if the scenes in which the positional relationships of the characters to be photographed are similar to each other, the scenes can be classified as the same type of scenes regardless of the position of the camera that photographs the scene.

顔姿勢検出手段が、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出するように構成されていてもよい。   In the case where the image is a moving image, the face posture detecting means determines the amount of change over time of at least part of the number of faces of the characters, the position of each character, the size, and the orientation data. It may be configured to be detected as face posture data.

また、本発明による映像検索装置は、複数の静止画像または動画像を検索対象となる映像として記憶する映像記憶手段と、映像記憶手段が記憶する映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を用いて、映像のシーンの中から特定のシーンを検索する顔姿勢評価手段とを備えている。   Further, the video search device according to the present invention includes a video storage unit that stores a plurality of still images or moving images as search target videos, the number of faces of the characters in the video stored by the video storage unit, and the number of each character. Face orientation evaluation means for searching for a specific scene from video scenes using at least a part of the face position, size, and orientation data.

映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と、利用者の操作に応じてシーンを指定するシーン指定手段とをさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データと、指定されたシーンに対応する参照顔姿勢データとを比較することによって、各映像のシーンの中から指定されたシーンを検索するように構成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを検索できる。   The video search device detects, from each video read from the video storage means, at least a part of the number of faces of the characters, the position, the size, and the orientation data of the faces of the characters as face posture data. A face posture detecting means, a reference face posture storing means for storing reference face posture data, which is face posture data to be compared with the face posture data detected by the face posture detecting means, in advance in association with each scene; The apparatus further includes a scene designating unit that designates a scene according to the operation, and the face posture evaluating unit compares the face posture data detected by the face posture detecting unit with the reference face posture data corresponding to the designated scene. Thus, the designated scene may be searched from among the scenes of each video. With this configuration, a scene similar to the scene in which the user is interested can be searched.

顔姿勢検出手段は、シーンを写し出す学習用映像から参照顔姿勢データを検出し、参照顔姿勢データを、シーンと対応させて参照顔姿勢記憶手段に記憶させるように構成されていてもよい。   The face posture detecting means may be configured to detect the reference face posture data from the learning video showing the scene and store the reference face posture data in the reference face posture storing means in association with the scene.

映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶し、映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と、利用者の操作に応じてシーンを指定するシーン指定手段とをさらに備え、顔姿勢評価手段が、映像記憶手段から読み込まれる各顔姿勢データと、指定されたシーンに対応する参照顔姿勢データとを比較することによって、各映像のシーンの中から指定されたシーンを検索するように構成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを検索できる。   In the video search device, the video storage means associates at least a part of the number of faces of the characters in each video, the position, the size and the orientation of the face of each character in association with the scene of each video. A reference face posture storage unit that stores reference face posture data that is face posture data that is stored as face posture data and that is compared with each face posture data read from the video storage unit in advance in association with each scene, and The face posture evaluation means compares each face posture data read from the video storage means with the reference face posture data corresponding to the designated scene. May be configured to search for a specified scene among the scenes of each video. With this configuration, a scene similar to the scene in which the user is interested can be searched.

映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、特定のシーンを写し出す参照映像から、顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段とをさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データと、参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、各映像のシーンの中から特定のシーンを検索するように構成されていてもよい。この構成によれば、シーン毎の参照顔姿勢データを予め定めて記憶しておく必要がない。   The video search device detects, from each video read from the video storage means, at least a part of the number of faces of the characters, the position, the size, and the orientation data of the faces of the characters as face posture data. Face orientation detecting means, and reference face orientation detecting means for detecting reference face orientation data, which is face orientation data to be compared with the face orientation data detected by the face orientation detecting means, from a reference image showing a specific scene are further provided. The face posture evaluating means compares the face posture data detected by the face posture detecting means with the reference face posture data detected by the reference face posture detecting means to identify a specific scene from each video scene. It may be configured to search for a scene. According to this configuration, it is not necessary to determine and store the reference face posture data for each scene in advance.

映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶し、特定のシーンを写し出す参照映像から、映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、顔姿勢評価手段が、映像記憶手段から読み込まれる各顔姿勢データと、参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、各映像のシーンの中から特定のシーンを検索するように構成されていてもよい。この構成によれば、シーン毎の参照顔姿勢データを予め定めて記憶しておく必要がない。   In the video search device, the video storage means associates at least a part of the number of faces of the characters in each video, the position, the size and the orientation of the face of each character in association with the scene of each video. Reference face posture detecting means for detecting reference face posture data, which is face posture data to be compared with each face posture data read from the image storage means, is further provided from a reference video stored as face posture data and showing a specific scene. The face posture evaluation means compares each face posture data read from the video storage means with the reference face posture data detected by the reference face posture detection means to determine a specific scene from the scenes of each video. It may be configured to search. According to this configuration, it is not necessary to determine and store the reference face posture data for each scene in advance.

映像検索装置は、映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶手段とをさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データの中から、参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から特定のシーンを検索するように構成されていてもよい。   The video search device detects, from each video read from the video storage means, at least a part of the number of faces of the characters, the position, the size, and the orientation data of the faces of the characters as face posture data. Face orientation detecting means and reference condition storing means for storing the condition satisfied by the face orientation data in the specific scene to be searched are provided, and the face orientation evaluating means selects from the face orientation data detected by the face orientation detecting means. The specific condition may be searched from the scenes of each video by searching the face posture data satisfying the condition stored in the reference condition storage means.

映像検索装置は、参照条件記憶手段が、各シーンにおける顔姿勢データが満たす条件を、シーン毎に記憶し、利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、顔姿勢評価手段が、顔姿勢検出手段によって検出された顔姿勢データの中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検索するように構成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを検索できる。   In the video search device, the reference condition storage unit further includes a scene designation unit that stores a condition, which is satisfied by the face posture data in each scene, for each scene, and that designates the scene according to a user's operation. By searching the face posture data detected by the face posture detecting means for face posture data satisfying the condition corresponding to the designated scene, thereby searching the designated scene from the scenes of each video. It may be configured as follows. With this configuration, a scene similar to the scene in which the user is interested can be searched.

映像検索装置は、映像記憶手段が、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶し、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶手段をさらに備え、顔姿勢評価手段が、映像記憶手段から読み込まれる各顔姿勢データの中から、参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から特定のシーンを検索するように構成されていてもよい。   In the video search device, the video storage means stores at least a part of the number of faces of the characters in each video, the position, the size, and the orientation of the face of each character in association with the scene of each video. The face posture evaluation unit further stores a reference condition storage unit that stores a condition that is stored as face posture data and that is satisfied by the face posture data in the specific scene to be searched. It may be configured to search for a specific scene from scenes of each video by searching for face posture data that satisfies the condition stored in the reference condition storage means.

映像検索装置は、参照条件記憶手段が、各シーンにおける顔姿勢データが満たす条件を、シーン毎に記憶し、利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、顔姿勢評価手段が、映像記憶手段から読み込まれる各顔姿勢データの中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検索するように構成されていてもよい。この構成によれば、利用者が興味を持っているシーンと類似するシーンを検索できる。   In the video search device, the reference condition storage unit further includes a scene designation unit that stores a condition, which is satisfied by the face posture data in each scene, for each scene, and that designates the scene according to a user's operation. By searching for face pose data satisfying the condition corresponding to the specified scene from each face pose data read from the video storage means, thereby searching the specified scene from the scenes of each video. May be configured. With this configuration, a scene similar to the scene in which the user is interested can be searched.

顔姿勢検出手段が、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算するように構成されていてもよい。この構成によれば、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして検索することができる。   The face posture detecting means is configured to calculate at least a part of the data of the position, size and orientation of the face of at least one character as a value relative to the faces of other characters. May be. According to this configuration, if the scenes in which the characters to be photographed have the same positional relationship, the scenes of the same type can be searched regardless of the position of the camera that photographs the scene.

顔姿勢検出手段が、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出するように構成されていてもよい。   In the case where the image is a moving image, the face posture detecting means determines the amount of change over time of at least a part of the number of faces of the characters, the position of each character, the size, and the orientation data. It may be configured to be detected as face posture data.

シーンと密接に関連している顔姿勢データにより映像のシーンを検索するので、登場人物が誰であるかによらずに、映像のシーンの検索を行うことができる。   Since the video scene is searched by the face posture data that is closely related to the scene, the video scene can be searched regardless of who the characters are.

本発明は、映像をそのシーンの内容に応じて分類、認識する映像分類装置、指定されたシーン内容を含む映像をデータベースから検索する映像検索装置、大量の映像を録画、記憶しその中から利用者が必要な映像を自動的に再生、表示する映像再生表示装置、映像全体から重要と考えられる部分のみを検索、抽出することで映像を要約する映像要約装置等に適用可能である。また、本発明によりシーンが分類、検索される映像は、例えば、テレビジョン放送や映画の映像であってもよいし、あるいは写真等の静止画像であってもよい。   INDUSTRIAL APPLICABILITY The present invention is a video classification device that classifies and recognizes videos according to the content of the scene, a video search device that searches a database for a video containing specified scene content, and records and stores a large amount of video and uses it. The present invention can be applied to a video reproducing/displaying device for automatically reproducing and displaying a video required by a person, a video summarizing device for summarizing a video by searching and extracting only an important portion from the entire video. Further, the video in which the scenes are classified and searched according to the present invention may be, for example, a video of a television broadcast or a movie, or a still image such as a photograph.

映像検索装置の従来例のブロック図である。It is a block diagram of the conventional example of a video search device. 本発明の第1の実施形態による映像分類装置を示すブロック図である。1 is a block diagram showing an image classification device according to a first exemplary embodiment of the present invention. 顔姿勢検出部の構成例を示すブロック図である。It is a block diagram showing an example of composition of a face posture primary detecting element. 顔姿勢検出部による処理を示す説明図である。It is explanatory drawing which shows the process by a face posture detection part. 第1の実施形態の映像分類装置の動作を示すフローチャートである。3 is a flowchart showing the operation of the video classification device of the first exemplary embodiment. 第1の実施形態の第1の変形例を示すブロック図である。It is a block diagram which shows the 1st modification of 1st Embodiment. 第1の実施形態の第2の変形例を示すブロック図である。It is a block diagram which shows the 2nd modification of 1st Embodiment. 本発明の第2の実施形態による映像検索装置を示すブロック図である。FIG. 6 is a block diagram showing a video search device according to a second embodiment of the present invention. 第2の実施形態の第1の変形例を示すブロック図である。It is a block diagram which shows the 1st modification of 2nd Embodiment. 第2の実施形態の第2の変形例を示すブロック図である。It is a block diagram which shows the 2nd modification of 2nd Embodiment. 第2の実施形態の第3の変形例を示すブロック図である。It is a block diagram which shows the 3rd modification of 2nd Embodiment. 本発明の第3の実施形態による映像検索装置を示すブロック図である。It is a block diagram which shows the video search apparatus by the 3rd Embodiment of this invention. 第3の実施形態の変形例を示すブロック図である。It is a block diagram which shows the modification of 3rd Embodiment. 本発明の第4の実施形態による映像分類装置のブロック図である。It is a block diagram of the video classification device by the 4th Embodiment of this invention. 各種シーンの例を示す説明図である。It is explanatory drawing which shows the example of various scenes. 本発明の第5の実施形態による映像検索装置のブロック図である。It is a block diagram of a video search device according to a fifth embodiment of the present invention. 準備処理における学習用映像や参照顔姿勢データの流れを示す説明図である。It is explanatory drawing which shows the flow for learning images and reference face posture data in a preparation process. 準備処理の処理経過の例を示すフローチャートである。It is a flowchart which shows the example of a process progress of a preparation process. 本発明の第6の実施形態による映像検索装置のブロック図である。FIG. 13 is a block diagram of a video search device according to a sixth exemplary embodiment of the present invention.

第1の実施の形態
図2を参照すると、本発明の第1の実施形態による映像分類装置は、映像入力部11と顔姿勢検出部12と顔姿勢評価部13と参照顔姿勢記憶部14とを備える。
First Embodiment Referring to FIG. 2, a video classification device according to a first embodiment of the present invention includes a video input unit 11, a face posture detection unit 12, a face posture evaluation unit 13, and a reference face posture storage unit 14. Equipped with.

映像入力部11は、シーン(場面)が分類される映像を入力する。映像入力部11が入力する映像は、静止画像であっても動画像であってもよい。映像入力部11は、映像が複数の異なるシーンを含んでいる場合に(例えば、動画像においてシーンが切り替わる場合に)、入力した映像をシーン毎に分割してもよい。顔姿勢検出部12および顔姿勢評価部13は、シーン毎に分割された映像に対して後述する処理を行ってもよい。なお、映像をシーン毎に分割する処理を、顔姿勢検出部12が行ってもよい。また、映像入力部11は、予めシーン毎に分割された映像を入力してもよい。なお、シーンの分割(分割点の検出)には様々な公知技術が利用可能であるが、一例として、特許第2839132号公報に記載の技術を利用可能である。   The video input unit 11 inputs a video into which scenes are classified. The video input by the video input unit 11 may be a still image or a moving image. The video input unit 11 may divide the input video for each scene when the video includes a plurality of different scenes (for example, when the scenes are switched in the moving image). The face posture detection unit 12 and the face posture evaluation unit 13 may perform the processing described below on the video divided for each scene. Note that the face posture detection unit 12 may perform the process of dividing the image for each scene. The video input unit 11 may also input a video that has been divided into scenes in advance. Although various known techniques can be used for scene division (detection of division points), for example, the technique described in Japanese Patent No. 2839132 can be used.

映像入力部11は、放送される映像信号を受信する受信装置や、映像を記憶した映像記憶装置から映像を読み込む装置などによって実現される。   The video input unit 11 is realized by a receiving device that receives a broadcast video signal, a device that reads a video from a video storage device that stores the video, and the like.

顔姿勢検出部12は、シーンが分類される映像から顔姿勢データを検出する。顔姿勢データは、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータのうちの一部のデータである。また、映像が動画像である場合には、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータのうちの一部の時間経過に伴う変化量も顔姿勢データに該当する。   The face posture detection unit 12 detects face posture data from a video into which scenes are classified. The face posture data is the number of faces of the characters, the position, size, and orientation of the face of each character, or a part of these data. Also, when the video is a moving image, the number of faces of the characters, the position, size and orientation data of the faces of each character, or the amount of change of some of these data over time. Also corresponds to the face posture data.

図3に示すように、顔姿勢検出部12は顔領域検出部21と検出部22とを含む。   As shown in FIG. 3, the face posture detection unit 12 includes a face area detection unit 21 and a detection unit 22.

顔領域検出部21は、入力された映像から人物の顔を写す部分領域(以下、顔領域と記す。)を抽出する。これには様々な公知技術が利用可能であるが、一例として、特開2003−178304号公報に記載の技術が利用可能である。同公報の段落0032には、肌色に指定した色と近い色を持つ画素を取り出して肌色領域を抽出し、さらに、髪に指定した色と近い色を持つ画素を取り出して髪領域を抽出することによって、顔領域を検出する技術が記載されている。なお、同公報に記載の技術では、画像から色情報を利用して顔領域を抽出し、その後顔パーツ抽出と人物認識を行うが、本発明においては人物認識を行う必要はなく、顔領域を抽出するだけでよい。なお、特開2003−178304号公報に記載の技術以外の他の技術によって顔領域を抽出してもよい。   The face area detection unit 21 extracts a partial area (hereinafter, referred to as a face area) in which the face of a person is captured from the input video. Although various known techniques can be used for this, as an example, the technique described in Japanese Patent Laid-Open No. 2003-178304 can be used. In paragraph 0032 of the publication, pixels having a color close to the color specified as the skin color are extracted to extract the skin color area, and pixels having a color close to the color specified to the hair are extracted to extract the hair area. Describes a technique for detecting a face area. In the technique described in the publication, the face area is extracted from the image using the color information, and then face part extraction and person recognition are performed. However, in the present invention, it is not necessary to perform person recognition. All you have to do is extract. The face area may be extracted by a technique other than the technique described in Japanese Patent Laid-Open No. 2003-178304.

顔領域検出部21は、映像中に写される登場人物が複数存在する場合、複数の顔領域を抽出する。図4(a)は、入力された映像の例を示している。図4(b)は、顔領域検出部21によって抽出された顔領域の例を示している。   The face area detection unit 21 extracts a plurality of face areas when there are a plurality of characters included in the video. FIG. 4A shows an example of the input video. FIG. 4B shows an example of the face area extracted by the face area detecting unit 21.

検出部22は、顔領域検出部21によって検出されたそれぞれの顔領域において、映像に写っている人物の顔の姿勢(顔の位置や向き)を、人物が誰であるかに関係なく検出する。顔の姿勢を検出する処理には、顔の姿勢を検出する公知の方法を適用すればよい。例えば、一例として「石山塁、外2名、“3Dアピアランスモデルを用いた高速・高精度な顔姿勢推定”、2004年電子情報通信学会総合大会予稿集、D−12−99(以下、文献1と記す。)」に記載の顔姿勢推定技術を利用可能である。この文献1に記載の顔姿勢推定技術は、任意の姿勢および照明条件における顔画像を生成できる3次元見えモデルを使って、顔画像から顔の3次元的な位置・姿勢を求める技術である。文献1に記載の技術が用いている「任意の姿勢および照明条件における顔画像を生成できる3次元見えモデル」については、「石山塁、外2名、“3D物体表面上での見えモデル構築による姿勢と照明の変動に頑強な顔照合”、情報処理学会研究報告、2003-CVIM-139、2003年7月4日、pp. 61-68(以下、文献2と記す。)」に記載されている。もし、映像における登場人物が誰であるかが既知であり、その人物の3次元顔形状データを入手可能である場合には、文献1および文献2に記載の技術そのまま本発明に用いることができる。しかし、本発明では、登場人物が未知であり、登場人物の3次元形状データも入手できない場合にも顔の位置と姿勢の推定を可能とするために次のような技術を利用する。すなわち、人間の顔の平均的な3次元形状データと顔表面各点の輝度画像を用意しておき、これらを用いて文献2に記載の技術により、平均的な顔の任意の姿勢・照明条件における画像を生成可能なモデル(平均顔モデル)を生成する。この平均顔モデルを文献1に記載の技術において利用することにより、映像における登場人物が未知であっても、顔の位置と姿勢を推定することが可能になる。   The detection unit 22 detects, in each face area detected by the face area detection unit 21, the posture (face position and orientation) of the face of the person shown in the image, regardless of who the person is. .. A known method for detecting the face posture may be applied to the process for detecting the face posture. For example, as an example, “Rishi Ishiyama, two others, “Fast and high-precision face pose estimation using 3D appearance model”, Proceedings of 2004 IEICE General Conference, D-12-99 (hereinafter referred to as Reference 1 The face posture estimation technology described in "." can be used. The face pose estimation technique described in Reference 1 is a technique for obtaining a three-dimensional position/posture of a face from a face image by using a three-dimensional appearance model capable of generating a face image under arbitrary poses and illumination conditions. Regarding the "3D appearance model that can generate a face image in an arbitrary posture and lighting condition" used in the technique described in Reference 1, "Rishi Ishiyama, 2 people," by the appearance model construction on the 3D object surface Robust face matching against changes in posture and lighting," IPSJ Research Report, 2003-CVIM-139, July 4, 2003, pp. 61-68 (hereinafter referred to as Reference 2)". There is. If the person who appears in the video is known and the three-dimensional face shape data of the person is available, the techniques described in Literature 1 and Literature 2 can be used as they are in the present invention. .. However, in the present invention, the following technique is used to enable the estimation of the position and orientation of the face even when the characters are unknown and the three-dimensional shape data of the characters cannot be obtained. That is, the average three-dimensional shape data of a human face and the brightness image of each point on the face surface are prepared, and by using the technique described in Literature 2, an arbitrary posture/illumination condition of an average face is obtained. A model (average face model) capable of generating an image in is generated. By using this average face model in the technique described in Document 1, it is possible to estimate the position and orientation of the face even if the characters in the video are unknown.

ここにあげた検出部22に利用可能な技術はあくまで一例であり、他の技術によって顔の姿勢を検出してもよい。例えば、特開2003−281549号公報の段落0038、0039に記載の技術によって顔の姿勢を検出してもよい。   The technique that can be used for the detecting unit 22 described here is merely an example, and the posture of the face may be detected by another technique. For example, the posture of the face may be detected by the technique described in paragraphs 0038 and 0039 of Japanese Patent Laid-Open No. 2003-281549.

検出部22は、入力された映像が動画像である場合には、各フレームの画像毎にこの姿勢推定処理を行い、時系列の顔姿勢データを得る。フレームは、動画像に含まれる静止画像である。例えば、NTSC(National Television System Committee)の規格に従う映像信号では、1秒間に30の静止画像が伝達される。この例では、1/30秒毎に伝送される各静止画像がフレームとなる。   When the input video is a moving image, the detection unit 22 performs this posture estimation process for each image of each frame to obtain time-series face posture data. A frame is a still image included in a moving image. For example, a video signal complying with the standard of NTSC (National Television System Committee) transmits 30 still images per second. In this example, each still image transmitted every 1/30 second becomes a frame.

また、検出部22は、登場人物が複数存在する場合には、各登場人物の顔の姿勢をそれぞれ検出し、人数(すなわち顔の数)と各登場人物の顔姿勢をまとめて顔姿勢データとする。また、検出部22は、各登場人物の顔の大きさを検出し、顔の大きさのデータを顔姿勢データに含めてもよい。   In addition, when there are a plurality of characters, the detecting unit 22 detects the face postures of the respective characters, and collects the number of persons (that is, the number of faces) and the face postures of the respective characters to obtain face posture data. To do. The detection unit 22 may detect the size of the face of each character and include the data of the size of the face in the face posture data.

図4(C)は、検出部22によって検出された顔姿勢データの例を示している。図4(C)において、座標(x1,y1),(x2,y2)は、顔の位置を示す。また、ベクトルR1,R2は、顔の向きを示す。また、z1,z2は、顔の大きさを示す値である。   FIG. 4C shows an example of the face posture data detected by the detection unit 22. In FIG. 4C, the coordinates (x1, y1), (x2, y2) indicate the position of the face. The vectors R1 and R2 indicate the orientation of the face. Further, z1 and z2 are values indicating the size of the face.

また、入力される映像が動画像でシーン毎の分割がされていない場合、顔姿勢検出部12に含まれる検出部22がシーン分割処理を行うことも可能である。例えば、検出部22が検出した時系列の姿勢データに対し、検出部22がフレーム毎に差分を計算し、姿勢データの差分が大きいフレーム(一例として、登場人物の数が変化する、顔の位置や向きが大きく変化しているフレーム)があればそこでシーンを分割する。顔姿勢評価部13は、差分が大きく変化するフレームの直前までのフレームに対して、後述する処理(後述の類似度を計算する処理)を行えばよい。   Further, when the input video is a moving image and is not divided into scenes, the detection unit 22 included in the face posture detection unit 12 can perform the scene division processing. For example, with respect to the time-series posture data detected by the detection unit 22, the detection unit 22 calculates a difference for each frame, and a frame having a large difference in posture data (for example, the position of the face where the number of characters changes, If there is a frame whose direction has changed significantly), split the scene there. The face posture evaluation unit 13 may perform the process described below (the process of calculating the similarity described below) on the frames up to immediately before the frame where the difference greatly changes.

参照顔姿勢記憶部14は、分類の区分となる各種シーン毎に、シーンと対応させて顔姿勢データを予め記憶する記憶装置である。参照顔姿勢記憶部14に記憶された顔姿勢データは、顔姿勢検出部12で検出された顔姿勢データと比較され、顔姿勢検出部12で検出された顔姿勢データがどの区分のシーンに分類するのかを判定するために用いられる。以下、シーンの分類対象となる映像から検出された顔姿勢データと比較される顔姿勢データを、シーンの分類対象となる映像から検出された顔姿勢データと区別して、参照顔姿勢データと記す。本実施形態において、参照顔姿勢データは、顔姿勢検出部12により顔姿勢データが検出された映像のシーンを、どの区分のシーンに分類するのかを判定するために用いられる。   The reference face posture storage unit 14 is a storage device that stores face posture data in advance in association with each scene for each of various scenes that are classified. The face posture data stored in the reference face posture storage unit 14 is compared with the face posture data detected by the face posture detection unit 12, and the face posture data detected by the face posture detection unit 12 is classified into which scene. It is used to determine whether to do. Hereinafter, the face pose data compared with the face pose data detected from the scene classification target video will be referred to as reference face pose data, in distinction from the face pose data detected from the scene classification target video. In the present embodiment, the reference face pose data is used to determine which category of scene the scene of the video in which the face pose data is detected by the face pose detecting unit 12 is to be classified.

参照顔姿勢記憶部14に参照顔姿勢データを記憶させる態様として、例えば、以下の態様がある。分類の区分となる各種シーンそれぞれについて予め用意された映像(以下、学習用映像と記す。)を入力する。そして、顔姿勢検出部12が、学習用映像から参照顔姿勢データを検出し、学習用映像のシーンと対応させて参照顔姿勢記憶部14に記憶させる。このとき、例えば、映像入力部11が学習用映像を入力してもよい。この場合、映像入力部11が、学習用映像入力手段としての役割も果たす。また、映像入力部11とは別個に、学習用映像を入力する学習用映像入力手段を備えていてもよい。   As an aspect of storing the reference face orientation data in the reference face orientation storage unit 14, for example, there are the following aspects. An image (hereinafter referred to as a learning image) prepared in advance for each of various scenes that are to be classified is input. Then, the face orientation detecting unit 12 detects the reference face orientation data from the learning image and stores it in the reference face orientation storage unit 14 in association with the scene of the learning image. At this time, for example, the video input unit 11 may input the learning video. In this case, the video input unit 11 also serves as a learning video input unit. Further, a learning video input unit for inputting a learning video may be provided separately from the video input unit 11.

また、学習用映像を入力して、学習用映像から参照顔姿勢データを検出するのではなく、予め人手によって各シーンに対応する参照顔姿勢データを決定し、シーンと対応させてその参照顔姿勢データを参照顔姿勢記憶部14に記憶させてもよい。   Further, instead of inputting the learning image and detecting the reference face posture data from the learning image, the reference face posture data corresponding to each scene is manually determined in advance, and the reference face posture data corresponding to the scene is determined. The data may be stored in the reference face posture storage unit 14.

顔姿勢評価部13は、シーンが分類される映像から検出された顔姿勢データと、参照顔姿勢記憶部14に記憶されている各参照顔姿勢データとの類似度を計算する。顔姿勢評価部13は、顔姿勢データが検出された映像(すなわち入力された映像)のシーンを、その顔姿勢データとの類似度が最も高い参照顔姿勢データに対応するシーンとして分類する。そして、入力された映像のシーンが、どのシーンに分類されたのかを、シーン分類結果51として出力する。シーン分類結果51の出力態様として、例えば、分類した各シーンをディスプレイ装置に表示してもよい。また、例えば、分類した各シーンを記憶装置に記憶させてもよい。この場合、記憶させた各シーンを後で再生してディスプレイ装置に表示させてもよい。   The face posture evaluation unit 13 calculates the degree of similarity between the face posture data detected from the images into which the scenes are classified and each reference face posture data stored in the reference face posture storage unit 14. The face posture evaluation unit 13 classifies the scene of the video (that is, the input video) in which the face posture data is detected, as the scene corresponding to the reference face posture data having the highest similarity to the face posture data. Then, which scene the input video scene is classified into is output as a scene classification result 51. As an output mode of the scene classification result 51, for example, each classified scene may be displayed on the display device. Further, for example, the classified scenes may be stored in the storage device. In this case, each stored scene may be reproduced later and displayed on the display device.

顔姿勢データのパラメータの設定と類似度の計算には様々な手法が利用可能である。一例としては、画像上での顔の位置(x,y)と顔の大きさzを要素とする3次元ベクトルTと、顔の向きを表す3次元方向ベクトルR(この例では顔向き方向を軸とした回転は無視する)を合わせて顔姿勢データとして用いる。映像の第tフレーム(静止画像の場合パラメータtは不要)の顔姿勢データのうち、顔の位置および大きさを要素とする3次元ベクトルをT(t)と表す。また、映像の第tフレームの顔姿勢データのうち、顔の向きを表す3次元ベクトルをR(t)と表す。ただし、T(t)、R(t)のノルムは1である。また、分類の区分となる各種シーンのうちの一つをシーンiとする。シーンiに対応する参照顔姿勢データのうち、顔の位置および大きさを要素とする3次元ベクトルをT(t)と表す。シーンiに対応する参照顔姿勢データのうち、顔の向きを表す3次元ベクトルをR(t)と表す。この場合、入力された映像のシーンと、シーンiとの類似度は、例えば、以下の式1によって得られる重み付き和の逆数として表すことができる。Various methods can be used for setting the parameters of the face posture data and calculating the degree of similarity. As an example, a three-dimensional vector T having the position (x, y) of the face on the image and the size z of the face as elements, and a three-dimensional direction vector R indicating the direction of the face (in this example, the face direction is The rotation about the axis is ignored) and is used as the face posture data. Of the face posture data of the t-th frame of the video (the parameter t is unnecessary in the case of a still image), a three-dimensional vector having the position and size of the face as elements is represented by T q (t). Also, of the face posture data of the t-th frame of the video, a three-dimensional vector representing the orientation of the face is represented as R q (t). However, the norm of T q (t) and R q (t) is 1. Also, one of the various scenes that are the categories of classification is referred to as scene i. Of the reference face pose data corresponding to the scene i, a three-dimensional vector having the face position and size as elements is represented as T i (t). Of the reference face posture data corresponding to the scene i, a three-dimensional vector representing the face orientation is represented as R i (t). In this case, the similarity between the scene of the input video and the scene i can be expressed as, for example, the reciprocal of the weighted sum obtained by Expression 1 below.

Figure 2006025272
式1において、a,bは、それぞれ顔の位置および大きさと、顔の向きのどちらをどの程度重視して類似度を決定するのかを定める重み定数であり、ともに任意に定めることができる。なお、式1におけるR(t)・R(t)は、ノルム1のベクトルの内積なので−1から+1の値をとる。
Figure 2006025272
In Expression 1, a and b are weighting constants that determine which of the position and size of the face and the orientation of the face should be emphasized to determine the similarity, and both can be arbitrarily set. It should be noted that R q (t)·R i (t) in the equation 1 takes a value from −1 to +1 because it is the inner product of the vector of norm 1.

ここでは、式1の逆数を類似度とする場合を示したが、式1は、類似度の算出するための式の一例である。顔の位置や向きのパラメータと類似度の計算式は様々に変更可能である。すなわち、類似度の計算式は特定の式に限定されるわけではない。また、この例のように類似度を数値として計算するのではなく、顔姿勢データを特徴量として用いることによりシーン分類毎のクラス分けを行うパターン認識の様々な手法を適用することも可能である。   Although the case where the reciprocal of Expression 1 is used as the similarity is shown here, Expression 1 is an example of an expression for calculating the similarity. The parameters of the position and orientation of the face and the calculation formulas of the degree of similarity can be changed in various ways. That is, the calculation formula of the similarity is not limited to a particular formula. Further, instead of calculating the degree of similarity as a numerical value as in this example, it is also possible to apply various methods of pattern recognition that classify each scene classification by using face posture data as a feature amount. ..

顔領域検出部21と検出部22とを含む顔姿勢検出部12および顔姿勢評価部13の処理は、例えば、プログラムに従って動作するコンピュータのCPUによって実行される。顔姿勢検出部12および顔姿勢評価部13の処理は、同一のCPUによって実行されていてもよい。   The processes of the face posture detection unit 12 and the face posture evaluation unit 13 including the face area detection unit 21 and the detection unit 22 are executed by, for example, a CPU of a computer that operates according to a program. The processes of the face posture detection unit 12 and the face posture evaluation unit 13 may be executed by the same CPU.

図5は、第1の実施形態の映像分類装置の動作を示すフローチャートである。ここでは、予めシーン毎に分割された映像が入力され、入力された映像のシーンがどのシーンに分類されるのかを判定するものとする。ステップ101に、映像入力部11は、シーンの分類対象となる映像を映像分類装置にデータとして取り込む。ステップ102に、顔姿勢検出部12における顔領域検出部21が、ステップ101で入力された映像中に写っている登場人物の顔の領域を検出する。このとき、顔領域検出部21は、登場人物が複数写っている場合には、各登場人物に対応させて複数の顔領域を検出する。ステップ103に、顔姿勢検出部12における検出部22が、検出された各顔領域において、顔の位置および姿勢の検出を行う。このとき、顔の大きさのデータを検出してもよい。検出部22は、以上により検出された登場人物の数、それぞれの顔の位置、向き、大きさ、あるいはこれらのデータのうちの一部を顔姿勢データとして顔姿勢評価部13に渡す。顔姿勢評価部13は、ステップ104に、分類の区分となる各シーンに対応する参照顔姿勢データを参照顔姿勢記憶部14から読み出す。続いて、顔姿勢評価部13は、ステップ105に、顔姿勢データをそれぞれの参照顔姿勢データと比較して類似度を計算し、参照顔姿勢データに対応する各シーンのうち、入力された映像のシーンと最も類似度が高いシーンを特定する。そして、顔姿勢評価部13は、ステップ106に、入力された映像のシーンは、最も類似度が高いシーンとして特定されたシーンと同種のシーンであると分類し、入力された映像のシーンがどのシーンに分類されたのかを、シーン分類結果51として出力する。   FIG. 5 is a flowchart showing the operation of the video classification device according to the first embodiment. Here, it is assumed that an image that has been divided in advance for each scene is input and it is determined to which scene the scene of the input image is classified. In step 101, the video input unit 11 takes in the video as a scene classification target into the video classification device as data. In step 102, the face area detecting section 21 in the face posture detecting section 12 detects the area of the face of the character appearing in the image input in step 101. At this time, when a plurality of characters appear in the face area detection unit 21, the face area detection unit 21 detects a plurality of face areas corresponding to the respective characters. In step 103, the detection unit 22 of the face posture detection unit 12 detects the position and posture of the face in each detected face area. At this time, face size data may be detected. The detection unit 22 passes the number of characters detected as described above, the position, orientation, and size of each face, or a part of these data to the face posture evaluation unit 13 as face posture data. In step 104, the face posture evaluation unit 13 reads out the reference face posture data corresponding to each scene that is a classification category from the reference face posture storage unit 14. Subsequently, in step 105, the face posture evaluation unit 13 compares the face posture data with the respective reference face posture data to calculate the degree of similarity, and in each scene corresponding to the reference face posture data, the input image is input. The scene with the highest similarity to the scene is identified. Then, in step 106, the face posture evaluation unit 13 classifies the input video scene as a scene of the same type as the scene identified as the scene having the highest degree of similarity, and determines which of the input video scenes. Whether or not the scene is classified is output as a scene classification result 51.

本実施形態では、登場人物が誰であるかを認識するのではなく、映像シーンの内容と密接に関連している登場人物の顔姿勢データを検出しこれを用いて、入力された映像のシーンを分類する。したがって、映像中の登場人物が誰であるかに関係なく映像シーンの内容に基づいて映像を分類することができる。   In the present embodiment, rather than recognizing who the characters are, the face posture data of the characters that are closely related to the content of the video scene is detected and used to detect the scene of the input video. Classify. Therefore, the video can be classified based on the content of the video scene regardless of who the characters in the video are.

次に、第1の実施形態の変形例について説明する。図6は第1の変形例を示すブロック図である。本変形例では、図2に示す参照顔姿勢記憶部14の代わりに、参照条件記憶部15を備えている。参照条件記憶部15は、分類の区分となる各種シーン毎に、シーンと対応させて、そのシーンでの顔姿勢データが満たす条件を記憶する記憶装置である。すなわち、参照顔姿勢記憶部14が顔姿勢データを記憶するのに対し、参照条件記憶部15は、各シーンでの顔姿勢データが満たす条件を記憶する。このような構成の場合、顔姿勢評価部13は、ステップ104で、各シーンでの顔姿勢データが満たす条件を参照条件記憶部15から読み出す。そして、顔姿勢評価部13は、ステップ105で、検出部22から渡された顔姿勢データ(すなわち入力された映像から検出された顔姿勢データ)が、どのシーンに対応する条件を満たしているかを判定する。すなわち、顔姿勢評価部13は、ステップ104で読み出した各条件のうち、顔姿勢データが満たしている条件を特定し、入力された映像のシーンは、その条件に対応するシーンに分類されると判定する。そして、入力された映像のシーンがどのシーンに分類されたのかを、シーン分類結果51として出力する。   Next, a modified example of the first embodiment will be described. FIG. 6 is a block diagram showing a first modification. In this modification, a reference condition storage unit 15 is provided instead of the reference face posture storage unit 14 shown in FIG. The reference condition storage unit 15 is a storage device that stores, for each of various types of scenes that are classified into classifications, a condition that the face posture data in the scene satisfies, in association with the scene. That is, while the reference face posture storage unit 14 stores the face posture data, the reference condition storage unit 15 stores the condition satisfied by the face posture data in each scene. In the case of such a configuration, the face posture evaluation unit 13 reads the conditions, which are satisfied by the face posture data in each scene, from the reference condition storage unit 15 in step 104. Then, in step 105, the face posture evaluation unit 13 determines whether the face posture data passed from the detection unit 22 (that is, the face posture data detected from the input video) satisfies the condition corresponding to which scene. judge. That is, the face posture evaluation unit 13 specifies the condition that the face posture data satisfies among the conditions read in step 104, and the scene of the input video is classified into the scene corresponding to the condition. judge. Then, which scene the input video scene is classified into is output as the scene classification result 51.

図7は第2の変形例を示すである。本変形例は、図2に示す参照顔姿勢記憶部14の代わりに、参照映像を入力する参照映像入力部16と、参照映像から参照顔姿勢データを検出する参照顔姿勢検出部17を備える。参照顔姿勢検出部17は、顔姿勢検出部12が分類対象となる映像から顔姿勢データを検出するのと同様に、参照映像から参照顔姿勢データを検出すればよい。また、顔姿勢評価部13は、シーンの分類対象となる映像から検出された顔姿勢データと、参照映像から検出された参照顔姿勢データとの類似度を判定する。そして、顔姿勢評価部13は、その類似度に基づいて、分類対象となる映像のシーンが、参照映像が写し出す特定のシーンと同種のシーンであるか否かを判定する。類似度が、予め定められた閾値以上であるならば、分類対象となる映像のシーンを、参照映像が写し出す特定のシーンと同種のシーンとして分類する。類似度が閾値未満であるならば、分類対象となる映像のシーンを、参照映像が写し出す特定のシーンとは異なるシーンとして分類する。   FIG. 7 shows a second modification. This modified example includes a reference image input unit 16 that inputs a reference image, and a reference face orientation detection unit 17 that detects reference face orientation data from the reference image, instead of the reference face orientation storage unit 14 illustrated in FIG. 2. The reference face posture detection unit 17 may detect the reference face posture data from the reference video, in the same manner as the face posture detection unit 12 detects the face posture data from the video to be classified. The face posture evaluation unit 13 also determines the degree of similarity between the face posture data detected from the scene classification target video and the reference face posture data detected from the reference video. Then, the face posture evaluation unit 13 determines whether or not the scene of the video to be classified is the same type of scene as the specific scene projected by the reference video, based on the similarity. If the similarity is equal to or higher than a predetermined threshold value, the scene of the video to be classified is classified as a scene of the same kind as the specific scene projected by the reference video. If the similarity is less than the threshold value, the scene of the video to be classified is classified as a scene different from the specific scene projected by the reference video.

この変形例では、予めシーン毎に参照顔姿勢データを記憶装置に記憶させておく必要がない。利用者は参照映像を入力するだけで、映像入力部11に入力された映像のシーンを、参照映像と同種のシーンおよび参照映像とは異なるシーンに分類することができる。   In this modified example, it is not necessary to store the reference face posture data for each scene in the storage device in advance. The user can classify the scenes of the video input to the video input unit 11 into a scene of the same type as the reference video and a scene different from the reference video simply by inputting the reference video.

なお、参照映像入力部16は、例えば、参照映像を記憶した参照映像記憶装置から参照映像を読み込む装置などによって実現される。参照顔姿勢検出手段17の処理は、例えば、プログラムに従って動作するコンピュータのCPUによって実行されるものでもよい。   The reference video input unit 16 is realized by, for example, a device that reads the reference video from the reference video storage device that stores the reference video. The processing of the reference face posture detection means 17 may be executed by, for example, the CPU of a computer that operates according to a program.

また、第1の実施形態において、登場人物が複数存在する場合、顔姿勢検出部12における検出部22は、ある一人の登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算してもよい。例えば、二人の顔が互いに向き合っている場合、一人の顔から、もう一人の顔に向かうベクトルを、顔の向きとして計算してもよい。   Further, in the first embodiment, when there are a plurality of characters, the detection unit 22 in the face posture detection unit 12 calculates the face posture data of a certain one character as a value relative to the other characters. You may. For example, when two faces are facing each other, a vector from one face to the other face may be calculated as the face direction.

顔姿勢データを他の登場人物に対する相対的な値として計算する登場人物は、一人であってもよい。また、登場人物全員あるいは登場人物の一部について、顔姿勢データを他の登場人物に対する相対的な値として計算してもよい。   The number of characters who calculate face posture data as a value relative to other characters may be one. In addition, face posture data may be calculated as a relative value with respect to other characters for all the characters or a part of the characters.

登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算する態様として、例えば、以下のような態様が挙げられる。例えば、ある基準となる登場人物(登場人物Aとする。)を定めておき、他の全ての登場人物(登場人物B、C、D、・・・とする。)の顔姿勢データを、基準となる登場人物Aに対する相対的な値として定めてもよい。また、顔姿勢データを計算する登場人物毎に、基準となる人物を変更してもよい。例えば、登場人物として、A〜Dの4人が映像中に表れるとする。このとき、登場人物Aの顔姿勢データを計算するときには、登場人物Bに対する相対的な値として計算し、登場人物Cの顔姿勢データを計算するときには、登場人物Dに対する相対的な値として計算してもよい。   As a mode of calculating the face posture data of a character as a value relative to other characters, for example, the following modes are available. For example, a reference character (character A) is set in advance, and face posture data of all other characters (characters B, C, D,...) Are used as a reference. It may be set as a relative value with respect to the character A. Further, the reference person may be changed for each character for which the face posture data is calculated. For example, it is assumed that four characters A to D appear in the video as characters. At this time, when calculating the face posture data of the character A, it is calculated as a relative value to the character B, and when calculating the face posture data of the character C, it is calculated as a relative value to the character D. May be.

顔姿勢データのうち、顔の位置を他の登場人物(基準となる登場人物)に対する相対的な値として計算する場合、例えば、基準となる人物の顔の位置が原点となる座標系における顔の位置座表を計算すればよい。   When calculating the position of the face in the face posture data as a value relative to other characters (reference characters), for example, when the face position of the reference character is the origin of the face in the coordinate system, The position table can be calculated.

顔姿勢データのうち、顔の大きさを他の登場人物(基準となる登場人物)に対する相対的な値として計算する場合、例えば、基準となる人物の顔の大きさを1(1でなくてもよい。)とした場合における顔の大きさを計算すればよい。   When the face size of the face posture data is calculated as a value relative to other characters (reference characters), for example, if the face size of the reference character is 1 (not 1) The size of the face can be calculated.

顔姿勢データのうち、顔の向きを他の登場人物(基準となる登場人物)に対する相対的な値として計算する場合、例えば、基準となる人物の顔の向きのベクトルと、顔姿勢データを計算している登場人物の顔の向きのベクトルとの角度を計算し、その角度を、顔の向きの相対的な値とすればよい。   When face orientation data is calculated as a relative value with respect to other characters (reference characters), for example, the vector of the face orientation of the reference character and the face attitude data are calculated. It is sufficient to calculate the angle with respect to the vector of the face direction of the character who is playing, and use that angle as a relative value of the face direction.

一般に、顔の位置や向き等を検出する場合、顔の位置や向き等は、登場人物とは独立なある特定の座標系における絶対的な値として計算される。この座標系は、例えば、撮影しているカメラの位置や向きを基準とする場合が多い。このような場合、例えば、撮影される登場人物の顔の向きが同じシーンであっても、登場人物を撮影するカメラの位置や向きが異なる場合には、異なる顔の位置や向きが検出されることになる。この結果、撮影される登場人物の顔の向きが同じシーンであっても、同種のシーンとして分類できない。   Generally, when detecting the position and orientation of a face, the position and orientation of the face are calculated as absolute values in a specific coordinate system that is independent of the characters. This coordinate system is often based on, for example, the position or orientation of the camera that is shooting. In such a case, for example, even in a scene in which the faces of the characters to be photographed are the same, if the position and orientation of the camera that captures the characters are different, different face positions and orientations are detected. It will be. As a result, even scenes in which the faces of the photographed characters are the same cannot be classified as the same type of scene.

しかし、顔の位置、大きさ、および向きまたはこれらデータの一部を、他の登場人物の顔に対する相対的な値として計算する場合には、計算される値は、カメラの位置や向きに依らない。したがって、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして分類することができる。この場合も基準とする人物を誰にするかによって、計算値が異なってくるが、例えば、基準となる人物を任意に換えて計算し直せば、同種のシーンであるかどうかを用意に判定することができる。   However, when calculating the position, size, and orientation of a face or some of these data as values relative to the faces of other characters, the calculated value depends on the position and orientation of the camera. Absent. Therefore, if the scenes in which the positional relationships of the photographed characters are similar, the scenes can be classified as the same kind of scenes regardless of the position of the camera that captures the scenes. In this case as well, the calculated value differs depending on who is the reference person. For example, if the reference person is arbitrarily changed and recalculated, it is possible to easily determine whether or not the scenes are of the same type. be able to.

第2の実施形態
第2の実施形態による映像検索装置は、指定されたシーンと同種のシーンを写す映像を映像データベースから検索するもので、図8に示すように、図2に示す第1の実施の形態の構成に加えて、映像データベース18とシーン指定部19とを備えている。
Second Embodiment A video search device according to a second embodiment searches a video database for a video showing a scene of the same type as a designated scene, and as shown in FIG. 8, the first video shown in FIG. In addition to the configuration of the embodiment, a video database 18 and a scene designation unit 19 are provided.

映像データベース18は、検索対象となる様々な映像を記憶する記憶装置である。映像データベース18が記憶する映像は、複数の静止画像や動画像である。   The video database 18 is a storage device that stores various videos to be searched. The video stored in the video database 18 is a plurality of still images and moving images.

映像入力部11は、映像データベース18に記憶されている検索対象となる各映像(映像群)を読み取り、顔姿勢検出部12に渡す。   The video input unit 11 reads each search target video (video group) stored in the video database 18 and passes it to the face posture detection unit 12.

顔姿勢検出部12は、映像入力部11を介して、映像データベース18に記憶されている各検索対象映像を読み込む。そして、顔姿勢検出部12は、読み込んだ各検索対象映像から、登場人物の顔姿勢データを検出する。顔姿勢検出部12が、各検索対象映像から顔姿勢データを検出する処理は、第1の実施の形態で示した顔姿勢検出部12が顔姿勢データを検出する処理と同様である。顔姿勢検出部12は、各映像から検出した各顔姿勢データ(顔姿勢データ群)を顔姿勢評価部13に渡す。   The face posture detection unit 12 reads each search target video stored in the video database 18 via the video input unit 11. Then, the face-posture detecting unit 12 detects the face-posture data of the character from each of the read search target videos. The process in which the face posture detection unit 12 detects face posture data from each search target video is similar to the process in which the face posture detection unit 12 described in the first embodiment detects face posture data. The face posture detection unit 12 passes each face posture data (face posture data group) detected from each video to the face posture evaluation unit 13.

シーン指定部19は、各種シーンの中から、利用者の操作に応じてシーンを指定する。シーン指定部19は、例えば、キーボードやマウス等のユーザインタフェース機器およびプログラムに従って動作するCPUによって実現されてもよい。   The scene designating unit 19 designates a scene from various scenes according to a user operation. The scene designation unit 19 may be realized by, for example, a user interface device such as a keyboard or a mouse and a CPU that operates according to a program.

参照顔姿勢記憶部14は、第1の実施の形態と同様に、各種シーン毎に、シーンと対応させて参照顔姿勢データを予め記憶する。参照顔姿勢記憶部14に参照顔姿勢データを記憶させる態様も第1の実施の形態と同様である。すなわち、学習用映像入力手段(図示せず)が学習用映像を入力し、顔姿勢検出部12が、学習用映像から参照顔姿勢データを検出し、学習用映像のシーンと対応させて参照顔姿勢記憶部14に記憶させてもよい。また、予め人手によって各シーンに対応する参照顔姿勢データを決定し、シーンと対応させてその参照顔姿勢データを参照顔姿勢記憶部14に記憶させてもよい。参照顔姿勢記憶部14は、シーン指定部19が指定したシーンに対応する参照顔姿勢データを顔姿勢評価部13に渡す。この結果、顔姿勢評価部13はシーン指定部19が指定したシーンに対応する参照顔姿勢データを読み込む。   Similar to the first embodiment, the reference face posture storage unit 14 stores reference face posture data in advance for each scene in association with each scene. The mode of storing the reference face posture data in the reference face posture storage unit 14 is also the same as in the first embodiment. That is, the learning image input means (not shown) inputs the learning image, and the face posture detection unit 12 detects the reference face posture data from the learning image and associates the reference face posture data with the scene of the learning image. It may be stored in the posture storage unit 14. Alternatively, the reference face posture data corresponding to each scene may be manually determined in advance, and the reference face posture data may be stored in the reference face posture storage unit 14 in association with the scene. The reference face posture storage unit 14 passes the reference face posture data corresponding to the scene designated by the scene designation unit 19 to the face posture evaluation unit 13. As a result, the face posture evaluation unit 13 reads the reference face posture data corresponding to the scene designated by the scene designation unit 19.

顔姿勢評価部13は、各検索対象映像から検出された各顔姿勢データ毎に、参照顔姿勢記憶部14からの参照顔姿勢データとの類似度を計算する。顔姿勢評価部13による類似度の計算は、例えば、第1の実施の形態で示した類似度の計算と同様に行えばよい。ただし、既に説明したように、類似度の計算に用いる式は特定の式に限定されるわけではない。顔姿勢評価部13は、算出した類似度が予め定めた閾値以上の場合には、顔姿勢データが検出された映像のシーンは、指定されたシーンと同種のシーンであると判定する。また、算出した類似度が閾値未満の場合には、顔姿勢データが検出された映像のシーンは、指定されたシーンとは異なるシーンであると判定する。顔姿勢評価部13は、各検索対象映像から検出された各顔姿勢データ毎に参照顔姿勢データとの類似度の判定を行い、指定されたシーンと同種のシーンと判定されたシーンを検索結果52として出力する。検索結果52の出力態様として、例えば、検索したシーンをディスプレイ装置に表示してもよい。また、例えば、検索したシーンを記憶装置に記憶させてもよい。この場合、記憶させたシーンを後で再生してディスプレイ装置に表示させてもよい。   The face posture evaluation unit 13 calculates the degree of similarity with the reference face posture data from the reference face posture storage unit 14 for each face posture data detected from each search target video. The calculation of the degree of similarity by the face posture evaluation unit 13 may be performed, for example, in the same manner as the calculation of the degree of similarity described in the first embodiment. However, as described above, the formula used for calculating the similarity is not limited to a specific formula. When the calculated similarity is equal to or higher than a predetermined threshold, the face posture evaluation unit 13 determines that the scene of the video in which the face posture data is detected is the same kind of scene as the designated scene. When the calculated similarity is less than the threshold value, it is determined that the scene of the video in which the face posture data is detected is a scene different from the designated scene. The face posture evaluation unit 13 determines the degree of similarity with the reference face posture data for each face posture data detected from each search target video, and retrieves the scene determined to be the same kind of scene as the designated scene. Output as 52. As an output mode of the search result 52, for example, the searched scene may be displayed on the display device. Further, for example, the searched scene may be stored in the storage device. In this case, the stored scene may be reproduced later and displayed on the display device.

本実施形態では、映像データベース18に蓄積されている多種多様な映像から、利用者の指定した映像シーンについて予め設定された参照顔姿勢データと登場人物の顔の位置や姿勢が類似した映像を抽出するように構成されている。従って、映像シーンの内容が類似している映像を検索することができる。   In the present embodiment, from a wide variety of videos stored in the video database 18, videos in which the reference face pose data preset for the video scene specified by the user and the face position and pose of the character are similar are extracted. Is configured to. Therefore, it is possible to search for videos having similar video scene contents.

なお、第1の実施形態と同様に、顔姿勢検出部12は、映像が動画像である場合には、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータのうちの一部の時間経過に伴う変化量を顔姿勢データとして顔姿勢評価部13に渡してもよい。   Note that, as in the first embodiment, when the video is a moving image, the face posture detection unit 12 determines the number of faces of the characters, the position, size, and orientation data of the faces of the characters, Alternatively, a change amount of some of these data over time may be passed to the face posture evaluation unit 13 as face posture data.

また、登場人物が複数存在する場合、顔姿勢検出部12は、ある一人の登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算してもよい。例えば、二人の顔が互いに向き合っている場合、一人の顔から、もう一人の顔に向かうベクトルを、顔の向きとして計算してもよい。登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算する場合、第1の実施形態と同様に計算すればよい。   In addition, when there are a plurality of characters, the face posture detection unit 12 may calculate the face posture data of one character as a relative value with respect to another character. For example, when two faces are facing each other, a vector from one face to the other face may be calculated as the face direction. When the face posture data of a character is calculated as a value relative to another character, it may be calculated in the same manner as in the first embodiment.

既に説明したように、顔の位置、大きさ、および向きまたはこれらデータの一部を、他の登場人物の顔に対する相対的な値として計算する場合には、計算される値は、カメラの位置や向きに依らない。従って、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして検索することができる。顔姿勢データを他の登場人物に対する相対的な値として計算しない場合には、撮影される登場人物の位置関係が同様のシーンであったとしても、カメラの位置や向きによって、異なるシーンと判定され、検索対象から外される場合がある。   As already explained, when calculating the position, size, and orientation of a face or some of these data as values relative to the faces of other characters, the calculated value is the position of the camera. It doesn't depend on the direction. Therefore, if the scenes in which the positional relationships of the photographed characters are similar, the scenes of the same type can be searched regardless of the position of the camera capturing the scene. If face pose data is not calculated as a relative value with respect to other characters, even if the positional relationships of the characters being photographed are similar, it is determined that the scene is different depending on the position and orientation of the camera. , It may be excluded from the search target.

次に、第2の実施形態の変形例について説明する。図9は、第2の実施形態の第1の変形例を示すブロック図である。図8に示す構成では、映像データベース18が各検索対象映像を記憶し、顔姿勢検出部12がその各検索対象映像から顔姿勢データを検出する。これに対し、図9に示す変形例では、映像データベース18は、各検索対象映像と対応させて、予め各索対象映像における顔姿勢データを記憶しておく。データ入力部30は、映像データベース18から、各検索対象映像に対応する顔姿勢データ(顔姿勢データ群)を読み取り、顔姿勢評価部13に渡す。顔姿勢評価部13は、データ入力部30を介して、映像データベース18に記憶されている顔姿勢データ群を読み込む。また、顔姿勢評価部13は、既に説明した場合と同様に、シーン指定部19が指定したシーンに対応する参照顔姿勢データを参照顔姿勢記憶部14から読み込む。顔姿勢評価部13は、各顔姿勢データ毎に、参照顔姿勢記憶部14からの参照顔姿勢データとの類似度を計算する。以降の動作は、図8に示す実施形態の場合と同様である。また、シーン指定部19および参照顔姿勢記憶部14の動作も、図8に示す構成の場合と同様である。   Next, a modified example of the second embodiment will be described. FIG. 9 is a block diagram showing a first modification of the second embodiment. In the configuration shown in FIG. 8, the video database 18 stores each search target video, and the face posture detection unit 12 detects the face posture data from each search target video. On the other hand, in the modified example shown in FIG. 9, the video database 18 stores face posture data in each search target video in advance in association with each search target video. The data input unit 30 reads the face posture data (face posture data group) corresponding to each search target video from the video database 18, and passes it to the face posture evaluation unit 13. The face posture evaluation unit 13 reads the face posture data group stored in the video database 18 via the data input unit 30. Further, the face posture evaluation unit 13 reads the reference face posture data corresponding to the scene designated by the scene designation unit 19 from the reference face posture storage unit 14, as in the case already described. The face posture evaluation unit 13 calculates the degree of similarity with the reference face posture data from the reference face posture storage unit 14 for each face posture data. Subsequent operations are similar to those of the embodiment shown in FIG. The operations of the scene designation unit 19 and the reference face posture storage unit 14 are also the same as in the case of the configuration shown in FIG.

図10は、第2の実施形態の第2の変形例を示すブロック図である。図10に示す変形例は、図8に示すシーン指定部19および参照顔姿勢記憶部14の代わりに参照条件記憶部31を備える。本変形例における参照条件記憶部31は、特定のシーンと対応させて、その特定のシーンでの顔姿勢データが満たす条件を記憶する記憶装置である。この構成の場合、顔姿勢評価部13は、図8に示す構成の場合と同様に、顔姿勢検出部12から顔姿勢データ群を渡される。また、顔姿勢評価部13は、参照条件記憶部31から特定のシーンで顔姿勢データが満たす条件を読み込む。そして、顔姿勢評価部13は、顔姿勢検出部12から渡された顔姿勢データのうち、参照条件記憶部31から読み込んだ条件を満足する顔姿勢データを抽出する。顔姿勢評価部13は、その顔姿勢データが検出された映像のシーンを検索結果52として出力する。   FIG. 10 is a block diagram showing a second modification of the second embodiment. The modified example illustrated in FIG. 10 includes a reference condition storage unit 31 instead of the scene designation unit 19 and the reference face posture storage unit 14 illustrated in FIG. The reference condition storage unit 31 in the present modification is a storage device that stores a condition that the face posture data in the specific scene satisfies in association with the specific scene. In the case of this configuration, the face posture evaluation unit 13 receives the face posture data group from the face posture detection unit 12 as in the case of the configuration shown in FIG. Further, the face posture evaluation unit 13 reads from the reference condition storage unit 31 the condition that the face posture data satisfies in a specific scene. Then, the face posture evaluation unit 13 extracts face posture data that satisfies the condition read from the reference condition storage unit 31 from the face posture data passed from the face posture detection unit 12. The face posture evaluation unit 13 outputs the scene of the video in which the face posture data is detected as the search result 52.

図11は、第2の実施形態の第3の変形例を示すブロック図である。本変形例は、図10に示す変形例にシーン指定部19を追加した構成となっている。本変形例における参照条件記憶部31は、各種シーン毎に、シーンと対応させて、そのシーンでの顔姿勢データが満たす条件を記憶する記憶装置である。シーン指定部19は、各種シーンの中から、利用者の操作に応じてシーンを指定する。参照条件記憶部31は、シーン指定部19が指定したシーンに対応する条件を顔姿勢評価部13に渡す。この結果、顔姿勢評価部13は、シーン指定部19が指定したシーンに対応する条件を読み込む。顔姿勢評価部13は、顔姿勢検出部12から渡された顔姿勢データのうち、参照条件記憶部31から渡された条件を満足する顔姿勢データを抽出する。顔姿勢評価部13は、その顔姿勢データが検出された映像のシーンを検索結果52として出力する。   FIG. 11 is a block diagram showing a third modification of the second embodiment. This modification has a configuration in which a scene designation unit 19 is added to the modification shown in FIG. The reference condition storage unit 31 in the present modification is a storage device that stores, for each of various scenes, a condition that the face posture data in the scene satisfies in association with the scene. The scene designating unit 19 designates a scene from various scenes according to a user operation. The reference condition storage unit 31 passes the conditions corresponding to the scene designated by the scene designation unit 19 to the face posture evaluation unit 13. As a result, the face posture evaluation unit 13 reads the conditions corresponding to the scene designated by the scene designation unit 19. The face posture evaluation unit 13 extracts, from the face posture data passed from the face posture detection unit 12, face posture data satisfying the condition passed from the reference condition storage unit 31. The face posture evaluation unit 13 outputs the scene of the video in which the face posture data is detected as the search result 52.

図10、図11に示す変形例において、映像データベース18、映像入力部11および顔姿勢検出部12の動作は、図8に示す構成の場合と同様である。また、図10、図11に示す変形例において、映像データベース18が各検索対象映像と対応させて、予め各索対象映像の顔姿勢データを記憶していてもよい。そして、映像入力部11および顔姿勢検出部12の代わりに、図9に示す構成と同様のデータ入力部30を備えていてもよい。この場合、顔姿勢評価部13は、データ入力部30を介して、映像データベース18に記憶されている顔姿勢データ群を読み込めばよい。   In the modifications shown in FIGS. 10 and 11, the operations of the video database 18, the video input unit 11, and the face posture detection unit 12 are the same as those in the configuration shown in FIG. Further, in the modified examples shown in FIGS. 10 and 11, the image database 18 may store the face posture data of each search target image in advance in association with each search target image. Then, instead of the video input unit 11 and the face posture detection unit 12, a data input unit 30 having the same configuration as that shown in FIG. 9 may be provided. In this case, the face posture evaluation unit 13 may read the face posture data group stored in the video database 18 via the data input unit 30.

第3の実施形態
第3の実施形態は、入力した参照映像のシーンと同種のシーンを写す映像を映像データベースから検索する映像検索装置で、図12に示すように、図8に示す第2の実施の形態におけるシーン指定部19および参照顔姿勢記憶部14の代わりに、参照映像入力部41と参照顔姿勢検出部42とを備える。映像データベース18、映像入力部11、顔姿勢検出部12および顔姿勢評価部13の動作は、第2の実施の形態と同様である。
Third Embodiment The third embodiment is a video search device that searches a video database for a video that shows a scene of the same type as a scene of an input reference video, and as shown in FIG. Instead of the scene designation unit 19 and the reference face posture storage unit 14 in the embodiment, a reference video input unit 41 and a reference face posture detection unit 42 are provided. The operations of the video database 18, the video input unit 11, the face posture detection unit 12, and the face posture evaluation unit 13 are the same as those in the second embodiment.

参照映像入力部41は、特定のシーンを写し出す参照映像を入力する。参照映像入力部41に入力される参照映像は利用者によって選択される。すなわち、利用者が検索したいと考える特定のシーンを写す映像が利用者に選択され、参照映像入力部41には、利用者によってその参照映像が入力される。   The reference video input unit 41 inputs a reference video showing a specific scene. The reference image input to the reference image input unit 41 is selected by the user. That is, an image showing a specific scene that the user wants to search is selected by the user, and the reference image is input to the reference image input unit 41 by the user.

参照顔姿勢検出部42は、参照映像入力部41が入力した参照映像から、その参照映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータうちの一部のデータを参照顔姿勢データとして検出する。参照顔姿勢検出部42が参照顔姿勢データを検出する処理は、顔姿勢検出部12が顔姿勢データを検出する処理と同様である。参照顔姿勢検出部42は、検出した参照顔姿勢データを顔姿勢評価部13に渡す。   The reference face posture detection unit 42 uses the reference image input by the reference image input unit 41 to obtain the number of faces of the characters in the reference image, the position, the size and the direction of the face of each character, or these data. A part of the data is detected as reference face posture data. The process in which the reference face posture detection unit 42 detects the reference face posture data is the same as the process in which the face posture detection unit 12 detects the face posture data. The reference face posture detection unit 42 passes the detected reference face posture data to the face posture evaluation unit 13.

映像入力部11は、映像データベース18に記憶されている検索対象となる各映像(映像群)を読み取り、顔姿勢検出部12に渡す。顔姿勢検出部12は、映像入力部11を介して、映像データベース18に記憶されている映像群を読み込む。そして、顔姿勢検出部12は、読み込んだ各検索対象映像から、登場人物の顔姿勢データを検出し、各顔姿勢データ(顔姿勢データ群)を顔姿勢評価部13に渡す。   The video input unit 11 reads each search target video (video group) stored in the video database 18 and passes it to the face posture detection unit 12. The face posture detection unit 12 reads the video group stored in the video database 18 via the video input unit 11. Then, the face posture detection unit 12 detects the face posture data of the characters from each of the read search target videos, and passes each face posture data (face posture data group) to the face posture evaluation unit 13.

顔姿勢評価部13は、各検索対象映像から検出された顔姿勢データ毎に、参照顔姿勢検出部21からの参照顔姿勢データとの類似度を計算する。この類似度の計算は、第2の実施形態と同様である。顔姿勢評価部13は、算出した類似度が予め定めた閾値以上の場合には、顔姿勢データが検出された映像のシーンは、参照映像が写し出す特定のシーンと同種のシーンであると判定する。また、算出した類似度が閾値未満の場合には、顔姿勢データが検出された映像のシーンは、参照映像が写し出す特定のシーンとは異なるシーンであると判定する。顔姿勢評価部13は、各検索対象映像から検出された各顔姿勢データ毎に参照顔姿勢データとの類似度の判定を行い、参照映像が写し出す特定のシーンと同種のシーンと判定されたシーンを検索結果52として出力する。検索結果52の出力態様は、第2の実施形態と同様である。   The face posture evaluation unit 13 calculates the degree of similarity with the reference face posture data from the reference face posture detection unit 21 for each face posture data detected from each search target video. The calculation of the degree of similarity is the same as in the second embodiment. When the calculated similarity is equal to or higher than a predetermined threshold value, the face posture evaluation unit 13 determines that the scene of the video in which the face posture data is detected is the same kind of scene as the specific scene projected by the reference video. .. When the calculated similarity is less than the threshold value, it is determined that the scene of the video in which the face posture data is detected is a scene different from the specific scene projected by the reference video. The face posture evaluation unit 13 determines the degree of similarity with the reference face posture data for each face posture data detected from each search target video, and the scene determined to be the same kind of scene as the specific scene projected by the reference video. Is output as the search result 52. The output mode of the search result 52 is similar to that of the second embodiment.

本実施形態では、利用者がある参照映像を装置に入力すると、それと同じシーンに相当する映像をデータベースから検索するように構成されている。従って、予め、検索対象となるシーン分類を定義し、それぞれについて参照顔姿勢データを設定しておく必要がなく、利用者は検索したい映像シーンに相当する映像を入力するだけで、同様のシーン内容の映像を検索することができる。   In this embodiment, when a user inputs a certain reference video into the apparatus, the database is searched for a video corresponding to the same scene. Therefore, it is not necessary to define the scene classifications to be searched in advance and set the reference face pose data for each of them, and the user can input the video corresponding to the video scene to be searched, and the similar scene content can be obtained. You can search for videos.

なお、第1の実施形態と同様に、顔姿勢検出部12は、映像が動画像である場合には、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータ、またはこれらのデータうちの一部の時間経過に伴う変化量を顔姿勢データとして顔姿勢評価部13に渡してもよい。   Note that, as in the first embodiment, when the video is a moving image, the face posture detection unit 12 determines the number of faces of the characters, the position, size, and orientation data of the faces of the characters, Alternatively, a change amount of some of these data over time may be passed to the face posture evaluation unit 13 as face posture data.

また、登場人物が複数存在する場合、顔姿勢検出部12は、ある一人の登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算してもよい。例えば、二人の顔が互いに向き合っている場合、一人の顔から、もう一人の顔に向かうベクトルを、顔の向きとして計算してもよい。登場人物の顔姿勢データを、他の登場人物に対する相対的な値として計算する場合、第1の実施形態と同様に計算すればよい。第2の実施形態と同様に、顔姿勢データを他の登場人物に対する相対的な値として計算した場合には、撮影される登場人物の位置関係が同様のシーンならば、そのシーンを撮影するカメラの位置等に依らず、同種のシーンとして検索することができる。   In addition, when there are a plurality of characters, the face posture detection unit 12 may calculate the face posture data of one character as a relative value with respect to another character. For example, when two faces are facing each other, a vector from one face to the other face may be calculated as the face direction. When the face posture data of a character is calculated as a value relative to another character, it may be calculated in the same manner as in the first embodiment. Similar to the second embodiment, when the face posture data is calculated as a relative value with respect to other characters, if the positions of the characters to be photographed are similar to each other, a camera for photographing that scene is used. It is possible to search for the same type of scene regardless of the position, etc.

次に、第3の実施形態の変形例について説明する。図13は、第3の実施形態の変形例を示すブロック図である。図12に示す構成では、映像データベース18が各検索対象映像を記憶し、顔姿勢検出部12がその各検索対象映像から顔姿勢データを検出する。これに対し、図13に示す変形例では、映像データベース18は、各検索対象映像と対応させて、予め各索対象映像の顔姿勢データを記憶しておく。データ入力部30は、映像データベース18から、各検索対象映像に対応する顔姿勢データ(顔姿勢データ群)を読み取り、顔姿勢評価部13に渡す。顔姿勢評価部13は、データ入力部30を介して、映像データベース18に記憶されている顔姿勢データ群を読み込む。顔姿勢評価部13は、顔姿勢データ毎に、参照顔姿勢検出部42からの参照顔姿勢データとの類似度を計算する。以降の動作は、図12に示す構成の場合と同様である。また、参照映像入力部41および参照顔姿勢検出部42の動作も、図12に示す構成の場合と同様である。   Next, a modified example of the third embodiment will be described. FIG. 13 is a block diagram showing a modification of the third embodiment. In the configuration shown in FIG. 12, the video database 18 stores each search target video, and the face posture detection unit 12 detects face posture data from each search target video. On the other hand, in the modified example shown in FIG. 13, the video database 18 stores face posture data of each search target video in advance in association with each search target video. The data input unit 30 reads the face posture data (face posture data group) corresponding to each search target video from the video database 18, and passes it to the face posture evaluation unit 13. The face posture evaluation unit 13 reads the face posture data group stored in the video database 18 via the data input unit 30. The face posture evaluation unit 13 calculates the degree of similarity with the reference face posture data from the reference face posture detection unit 42 for each face posture data. Subsequent operations are the same as in the case of the configuration shown in FIG. The operations of the reference video input unit 41 and the reference face posture detection unit 42 are also the same as in the case of the configuration shown in FIG.

第4の実施形態
第4の実施形態として、テレビジョン放送で受信する番組映像を、シーンに応じて分類する映像分類装置について説明する。本実施形態は、図6に示す第1の実施形態の変形例に相当する。図14を参照すると、第4の実施形態の映像分類装置は、テレビジョン放送を受信する受信装置61と、処理を行うコンピュータ71と、参照条件記憶装置81とを備える。
Fourth Embodiment As a fourth embodiment, a video classification device that classifies program videos received by television broadcasting according to scenes will be described. This embodiment corresponds to a modification of the first embodiment shown in FIG. Referring to FIG. 14, the video classification device according to the fourth exemplary embodiment includes a reception device 61 that receives a television broadcast, a computer 71 that performs processing, and a reference condition storage device 81.

受信装置61は、図6の映像入力部11に相当する。参照条件記憶装置81は、図6の参照条件記憶部15に相当する。   The receiving device 61 corresponds to the video input unit 11 in FIG. The reference condition storage device 81 corresponds to the reference condition storage unit 15 in FIG.

コンピュータ71は、CPU72と、記憶装置73と、受信装置61とのインタフェース74と、参照条件記憶装置81とのインタフェース75と、ディスプレイ装置76とを備える。なお、ユーザが操作するユーザインタフェースとなるキーボードやマウス等を備えていてもよい。CPU72は、記憶装置73が記憶する映像分類プログラムに従って動作する。インタフェース74は、受信装置61から映像信号を受信する。インタフェース75は、参照条件記憶装置81との間でデータを送受信する。映像分類プログラムに従って動作する。   The computer 71 includes a CPU 72, a storage device 73, an interface 74 with the receiving device 61, an interface 75 with the reference condition storage device 81, and a display device 76. Note that a keyboard, a mouse, or the like that serves as a user interface operated by the user may be provided. The CPU 72 operates according to the video classification program stored in the storage device 73. The interface 74 receives the video signal from the receiving device 61. The interface 75 sends and receives data to and from the reference condition storage device 81. Operates according to the video classification program.

なお、図14に示す構成は、映像分類装置の構成の一例であり、映像分類装置は他の構成であってもよい。例えば、受信した映像を処理するのではなく、映像記憶装置(不図示)に記憶(例えば録画)されている映像に対してシーン毎の分類処理を行う構成であってもよい。この場合、映像記憶装置が、映像入力部11として機能し、記憶されている映像を読み込み、その映像をコンピュータ71に送信する。このような構成の場合には、受信装置61は不要である。また、映像記憶装置と参照条件記憶装置81とを同一の装置として実現してもよい。   The configuration illustrated in FIG. 14 is an example of the configuration of the video classification device, and the video classification device may have another configuration. For example, instead of processing the received video, the classification processing for each scene may be performed on the video stored (for example, recorded) in the video storage device (not shown). In this case, the video storage device functions as the video input unit 11, reads the stored video, and sends the video to the computer 71. In the case of such a configuration, the receiving device 61 is unnecessary. Further, the video storage device and the reference condition storage device 81 may be realized as the same device.

受信装置61は、テレビ放送信号を受信し、その信号をコンピュータで処理可能な映像のデジタルデータに変換し、コンピュータ71に送信する。CPU72は、その映像のデジタルデータを受信し、入力された映像のデジタルデータから顔姿勢データを検出する。   The receiving device 61 receives a television broadcast signal, converts the signal into digital data of video that can be processed by a computer, and transmits the digital data to the computer 71. The CPU 72 receives the digital data of the video and detects the face posture data from the digital data of the input video.

本例では、顔姿勢データを次のパラメータで記述する。ただし、顔姿勢データの記述の仕方は、以下に示す場合に限定されるわけではない。登場人物の顔の数をnとする。登場人物jの顔の位置を座標により(x,y)と表す。同様に、登場人物jの顔の大きさをzと表す。また、登場人物jの顔の向きベクトルをRと表す。他の登場人物(例えばjとする)のパラメータも添え字jを用いて同様に表す。In this example, the face posture data is described by the following parameters. However, the method of describing the face posture data is not limited to the case shown below. Let n be the number of faces of the characters. The position of the face of the character j is expressed by coordinates as (x j , y j ). Similarly, the size of the face of the character j is represented by z j . Further, the direction vector of the face of the character j is represented as R j . Parameters of other characters (for example, j) are similarly expressed using the subscript j.

例えば、CPU72は、映像の中で顔姿勢データのフレーム間変化量が予め定めた閾値を超えるフレームをカット点として検出し、シーン毎に映像を分割する。向きベクトルの変化量は、一例として2つのベクトルのなす角度で評価する。それぞれの変化量の閾値の一例として、nの変化量は1、位置を表すx,yおよび顔の大きさを表すzの変化量はそれぞれ画像の大きさの10%、顔の向きベクトルの変化量は20°等のように定めておく。この場合、登場人物の顔の数nが1変化したならば、その時点で映像を分割する。また、x座標であるxが、ディスプレイ装置76の表示領域の横幅の10%以上変化したならば、その時点で映像を分割する。同様に、y座標であるyが、ディスプレイ装置76の表示領域の縦方向の長さの10%以上変化したならば、その時点で映像を分割する。また、顔の大きさを表すzが、ディスプレイ装置76の表示領域の面積の10%以上変化したならば、その時点で映像を分割する。なお、顔の大きさとして、顔の幅を用いてもよい。この場合、顔の幅zが、ディスプレイ装置76の表示領域の横幅の10%以上変化したならば、その時点で映像を分割する。また、顔の向きベクトルが20°以上変化したならば、その時点で映像を分割する。ここで挙げた分割の仕方は例示であり、映像の内容により、他の基準で映像を分割してもよい。For example, the CPU 72 detects, as a cut point, a frame in which the inter-frame change amount of the face posture data exceeds a predetermined threshold in the video, and divides the video for each scene. The change amount of the direction vector is evaluated by the angle formed by the two vectors as an example. As an example of the threshold value of each change amount, the change amount of n is 1, the change amount of x and y indicating the position and the change amount of z indicating the size of the face are 10% of the image size and the change of the face orientation vector, respectively. The amount is set as 20° or the like. In this case, if the number n of faces of the characters changes by 1, the image is divided at that time. If the x-coordinate x j changes by 10% or more of the width of the display area of the display device 76, the image is divided at that time. Similarly, if the y-coordinate y j changes by 10% or more of the vertical length of the display area of the display device 76, the image is divided at that time. If z j representing the size of the face changes by 10% or more of the area of the display area of the display device 76, the image is divided at that point. The width of the face may be used as the size of the face. In this case, if the face width z j changes by 10% or more of the horizontal width of the display area of the display device 76, the image is divided at that time. If the face orientation vector changes by 20° or more, the image is divided at that point. The dividing method mentioned here is an example, and the image may be divided according to other criteria depending on the content of the image.

参照条件記憶装置81は、各シーンでの顔姿勢データが満たす条件を記憶する。本例では、「キャスターがニュースを読み上げているシーン(以下、シーンAと記す。)」、「レポータによる現場からの報告シーン(以下、シーンBと記す。)」、「キャスターとニュース解説者とのやりとりのシーン(以下、シーンCと記す。)」それぞれに対応させて、シーンA、シーンB、シーンCでの顔姿勢データが満たす条件を記憶しているものとする。   The reference condition storage device 81 stores a condition satisfied by the face posture data in each scene. In this example, "the scene where the caster reads the news (hereinafter referred to as scene A)", "the reporter's scene from the site (hereinafter referred to as scene B)", "the caster and the news commentator" It is assumed that the conditions that are satisfied by the face posture data in scene A, scene B, and scene C are stored in association with each of the "interchange scenes (hereinafter, referred to as scene C)".

図15(a)、15(b)、15(c)はそれぞれシーンA、シーンB、シーンCの例を示している。これらのシーンの映像は、出演者が誰であるかにかかわらず、それぞれ典型的な顔の位置(大きさがほぼ同じとなることもある。)と向きで画面に写っている。従って、映像から登場人物の顔の位置と向きを抽出し(大きさも抽出してもよい)、これを用いて映像を分類することにより、それぞれのシーンの内容に応じた分類が可能となる。顔姿勢データの満たす条件の一例を以下に示す。シーンAは、登場人物が一人で顔がほぼ中央付近にあり顔の大きさは相対的に大きいという特徴がある。シーンBは、顔が正面向きであるが大きさがシーンAの場合に比べ半分程度であり画面の中央にないという特徴がある。シーンCは、複数名の登場人物がおり顔の向きは互いに向き合っているという特徴がある。参照条件記憶装置81は、これらの特徴を表す顔姿勢データの条件を記憶する。このような条件を表す条件式の一例として、例えば次式の条件を使用する。ただし、正面向きの向きベクトルをFとする。また、顔の大きさは、顔の幅によって表し、ディスプレイ装置76の表示領域の横幅をsと表すものとする。   15(a), 15(b), and 15(c) show examples of scene A, scene B, and scene C, respectively. The images of these scenes are displayed on the screen with typical face positions (they may have almost the same size) and orientations, regardless of who the performers are. Therefore, by extracting the position and orientation of the faces of the characters (the size may be extracted) from the video and classifying the video using this, classification according to the content of each scene becomes possible. An example of conditions that the face posture data satisfies is shown below. Scene A has a feature that the size of the face is relatively large because there is only one character and the face is near the center. In scene B, the face is facing forward, but the size is about half of that in scene A, and it is not in the center of the screen. Scene C is characterized by having a plurality of characters and their faces facing each other. The reference condition storage device 81 stores the conditions of the face posture data representing these characteristics. As an example of a conditional expression representing such a condition, the condition of the following expression is used. However, the direction vector facing the front is F. The size of the face is represented by the width of the face, and the horizontal width of the display area of the display device 76 is represented by s.

シーンAに対応する条件は、例えば、以下のように表される。なお、登場人物は一人なので、顔の向きのベクトルRや顔の大きさを表すzは、添え字を付けずに表している。また、cos−1は逆余弦関数(アークコサイン)である。The condition corresponding to the scene A is expressed as follows, for example. Since there is only one character, the face orientation vector R and the face size z are represented without subscripts. Also, cos −1 is an inverse cosine function (arc cosine).

n=1 かつ cos−1(F・R)<20° かつ z>0.2・s
シーンBに対応する条件は、例えば、以下のように表される。
n=1 and cos −1 (F·R)<20° and z>0.2·s
The condition corresponding to the scene B is expressed as follows, for example.

n=1 かつ cos−1(F・R)<20° かつ z<0.2・s
シーンCに対応する条件は、例えば、以下のように表される。なお、登場人物のうちの一人を登場人物iとし、他の一人を登場人物jとする。
n=1 and cos −1 (F·R)<20° and z<0.2·s
The condition corresponding to the scene C is expressed as follows, for example. Note that one of the characters is a character i, and the other one is a character j.

n≧2 かつ ある登場人物i,jの組についてcos−1(R・R)<20°
参照条件記憶装置81が記憶する他の条件の例について説明する。上記のシーンA〜シーンCの例において、映像が動画像の場合には、映像のシーンの各時刻での顔姿勢データが、シーンA〜シーンCの条件を満たすか否かを判定することになる。映像が動画像の場合、各時刻毎の顔姿勢データについて判定するのではなく、各フレーム間での顔姿勢データの変動量に基づいてシーンを分類することもできる。以下、この場合について説明する。本例では、ボクシング等の格闘技の試合映像において、「膠着状態のシーン(以下、シーンDと記す。)」、「KOシーンや決定的パンチが当たったシーン(以下、シーンEと記す。)」、「距離をつめての打ち合いシーン(以下、シーンFと記す。)」それぞれに対応させて、シーンD、シーンE、シーンFにおける条件を記憶する。この条件は、時間経過に伴う登場人物の顔姿勢データの変化量が満たす条件である。
n≧2 and cos −1 (R i ·R j )<20° for a set of certain characters i and j
An example of another condition stored in the reference condition storage device 81 will be described. In the above examples of scenes A to C, when the video is a moving image, it is determined whether or not the face posture data at each time of the scene of the video satisfies the conditions of the scenes A to C. Become. When the video is a moving image, it is possible to classify the scenes based on the amount of change in the face posture data between frames, instead of making a determination on the face posture data at each time. Hereinafter, this case will be described. In this example, in a fighting game video such as boxing, "a scene in a stalemate (hereinafter, referred to as scene D)", "a KO scene or a scene in which a decisive punch is hit (hereinafter, referred to as scene E)". , "Condition scenes with a close distance (hereinafter referred to as scene F)", the conditions in scene D, scene E, and scene F are stored. This condition is a condition that is satisfied by the amount of change in the face pose data of the character over time.

シーンDは、2名の対戦者が互いに向き合って一定の距離を保っているシーンであり、両者の相対的な顔の向きが正反対で顔の大きさに対する両者の顔の距離がほぼ一定であるという特徴がある。シーンEは、顔の向きが激しく変化し、お互いに向き合った状態ではなくなるという特徴がある。シーンFは、顔の大きさに対する両者の顔の距離が極めて小さくなるという特徴がある。以上のような条件を表す条件式の一例として、例えば次式の条件を使用する。ただし、シーン中で顔の大きい順に2名の登場人物を抽出した場合における、時刻tでの2名の顔の距離をd(t)とする。また、顔の大きさの平均値をf(t)とし、2名の登場人物の顔の向きの単位ベクトルをそれぞれR1(t),R2(t)とする。また、処理するフレーム間の時刻の差をpとする。例えば、NTSCの規格に従う場合、各フレームについて条件を満たすかどうかを判定する場合には、p=1/30秒となる。また、いくつかのフレームを間引いて、数フレーム毎に条件を満たすかどうかを判定する場合には、pは1/30秒よりも大きくなる。ここでは、NTSCの規格に従う場合を例示したが、動画像はNTSCの規格に従っていなくてもよい。   Scene D is a scene in which two opponents face each other and maintain a constant distance. The relative face directions of the two opponents are opposite to each other, and the distance between the two faces relative to the size of the face is substantially constant. There is a feature called. Scene E is characterized in that the directions of the faces change drastically and the faces do not face each other. The scene F is characterized in that the distance between both faces with respect to the size of the face is extremely small. As an example of the conditional expression representing the above condition, the condition of the following expression is used, for example. However, the distance between the faces of the two people at time t when two characters are extracted in the order of larger faces in the scene is d(t). Further, the average value of the face size is f(t), and the unit vectors of the face orientations of the two characters are R1(t) and R2(t), respectively. Further, the time difference between the frames to be processed is p. For example, in the case of complying with the NTSC standard, p=1/30 seconds is set when it is determined whether or not the condition is satisfied for each frame. Further, when thinning out some frames and determining whether or not the condition is satisfied every few frames, p becomes larger than 1/30 second. Here, the case of complying with the standard of NTSC is illustrated, but the moving image may not comply with the standard of NTSC.

シーンDに対応する条件は、例えば、以下のように表される。   The condition corresponding to the scene D is expressed as follows, for example.

任意の時刻t>pにおいて |d(t)−d(t−p)|<f(t)かつd(t)>3.0・f(t)かつR1(t)・R2(t)<−cos20°
シーンEに対応する条件は、例えば、以下のように表される。ただし、max(m,n)はmとnのうち大きい方の値を表すものとする。
At an arbitrary time t>p, |d(t)−d(t−p)|<f(t) and d(t)>3.0·f(t) and R1(t)·R2(t)< -Cos 20°
The condition corresponding to the scene E is expressed as follows, for example. However, max(m,n) represents the larger value of m and n.

ある時刻tについて、max(|cos−1(R1(t)・R1(t−p))|,|cos−1(R2(t)・R2(t−p))|)>45°かつ|cos−1(R1(t),R2(t))|>30°
シーンFに対応する条件は、例えば、以下のように表される。
For a certain time t, max(|cos −1 (R1(t)·R1(t−p))|, |cos −1 (R2(t)·R2(t−p))|)>45° and | cos −1 (R1(t), R2(t))|>30°
The conditions corresponding to the scene F are expressed as follows, for example.

任意の時刻t>pにおいて |d(t)−d(t−p)|<f(t)かつd(t)<3.0・f(t)
以上に示したシーンA〜シーンCにおける条件やシーンD〜シーンFにおける条件は例示であり、上記の条件に限定されるわけではない。より高精度な分類のために上記以外の条件を用いてもよい。
At an arbitrary time t>p, |d(t)-d(tp)|<f(t) and d(t)<3.0·f(t)
The conditions in the scenes A to C and the conditions in the scenes D to F shown above are examples, and the conditions are not limited to the above. Conditions other than the above may be used for more accurate classification.

CPU72は次に、入力された映像の各フレームの顔姿勢データが、上記に例示した各条件のうち、どの条件を満足しているかを判定し、各フレームがどのシーンに分類されるかを判定する。本実施形態では動画像を対象としているので、映像の各フレーム画像から検出された顔姿勢データに対し、例示した各条件のいずれかが成立するかどうかを判定し、映像に含まれる全フレームの90%以上のフレーム画像の顔姿勢データが同一の条件を満たしている場合に、その映像全体を、その条件に応じたシーンに該当すると判定してもよい。ここで説明した条件式や判定基準となる全フレームに対する割合(90%)は例示であり、様々に変更可能である。   Next, the CPU 72 determines which of the above-exemplified conditions the face posture data of each frame of the input video satisfies, and determines which scene each frame is classified into. To do. In the present embodiment, since the moving image is targeted, it is determined whether or not any of the exemplified conditions is satisfied with respect to the face posture data detected from each frame image of the image, and all the frames included in the image are determined. When 90% or more of the face posture data of the frame images satisfy the same condition, it may be determined that the entire video corresponds to the scene according to the condition. The conditional expression described here and the ratio (90%) to all frames serving as the determination standard are examples, and can be variously changed.

本実施形態では、例えば、一日に放送される全ニュース番組映像に対して上述したシーン分類を自動的に行って、シーンの区分毎に各シーンを記憶装置に記憶させておいてもよい。そして、一日に起きたニュースに関する様々な解説者のコメントを視聴したい場合には、シーンCとした分類したシーンを再生してディスプレイ装置に表示させればよい。この結果、視聴者は、その日に放送される多数のニュース番組をすべて見る必要がなく、キャスターとニュース解説者とが話しているシーンのみを抜粋して効率的に視聴できるという効果が得られる。このとき、従来技術と異なり、その日の様々な番組に出演するアナウンサーや解説者が誰であるかを知る必要がなく、任意の解説者のコメント映像を視聴することができる。   In the present embodiment, for example, the above-described scene classification may be automatically performed on all news program videos broadcasted in one day, and each scene may be stored in the storage device for each scene classification. Then, when it is desired to view the comments of various commentators regarding news that occurred in one day, the scene classified as the scene C may be reproduced and displayed on the display device. As a result, the viewer does not need to watch all of the many news programs broadcast on that day, and there is an effect that only the scene in which the caster and the news commentator are talking can be extracted and efficiently viewed. At this time, unlike the prior art, it is not necessary to know who is the announcer or commentator who appears in various programs of the day, and the comment video of any commentator can be viewed.

第5の実施の形態
次に、第5の実施形態として、録画されている映像から特定のシーンを検索する映像検索装置について説明する。本実施形態の構成は、図8の第2の実施形態に相当する。図16を参照すると、本実施形態による映像検索装置は、検索対象となる様々な映像を録画してある映像記憶装置91と、処理を行うコンピュータ71と、シーン毎に参照顔姿勢データを記憶している参照顔姿勢記憶装置82とを備える。
Fifth Embodiment Next, as a fifth embodiment, a video search device for searching a recorded video for a specific scene will be described. The configuration of this embodiment corresponds to the second embodiment of FIG. Referring to FIG. 16, the video search device according to the present embodiment stores a video storage device 91 that records various videos to be searched, a computer 71 that performs processing, and reference face posture data for each scene. The reference face posture storage device 82.

映像記憶装置91は、映像記憶部92と、映像読み取り部93と、コンピュータ71とのインタフェース94とを備える。映像記憶部92は、検索対象となる各種映像を記憶する。映像読み取り部93は、映像記憶部92が記憶する各種映像を読み取り、インタフェース94を介して、読み取った映像の信号をコンピュータ71に送信する。   The video storage device 91 includes a video storage unit 92, a video reading unit 93, and an interface 94 with the computer 71. The video storage unit 92 stores various videos to be searched. The image reading unit 93 reads various images stored in the image storage unit 92 and transmits a signal of the read image to the computer 71 via the interface 94.

コンピュータ71は、CPU72と、記憶装置73と、映像記憶装置91とのインタフェース74と、参照顔姿勢記憶装置82とのインタフェース75と、ディスプレイ装置76と、ユーザが操作するユーザインタフェースとなる操作部(例えば、キーボードやマウス等)77とを備える。CPU72は、記憶装置73が記憶する映像検索プログラムに従って動作する。インタフェース74は、映像記憶装置91から映像信号を受信する。インタフェース75は、参照顔姿勢記憶装置82との間でデータを送受信する。   The computer 71 includes a CPU 72, a storage device 73, an interface 74 with the video storage device 91, an interface 75 with the reference face posture storage device 82, a display device 76, and an operation unit (a user interface operated by a user). (Eg, keyboard, mouse, etc.) 77. The CPU 72 operates according to the video search program stored in the storage device 73. The interface 74 receives a video signal from the video storage device 91. The interface 75 sends and receives data to and from the reference face posture storage device 82.

本実施形態において、映像記憶部92は、図8中の映像データベース18に相当する。映像読み取り部93は、図8中の映像入力部11に相当する。参照顔姿勢記憶装置82は、図8中の参照顔姿勢記憶部14に相当する。映像検索プログラムに従って動作するCPU72は、図8中の顔姿勢検出部12および顔姿勢評価部13の処理を実行する。また、操作部77およびCPU72は、シーン指定部19に相当する。   In the present embodiment, the video storage unit 92 corresponds to the video database 18 in FIG. The video reading unit 93 corresponds to the video input unit 11 in FIG. The reference face posture storage device 82 corresponds to the reference face posture storage unit 14 in FIG. The CPU 72 that operates according to the video search program executes the processing of the face posture detection unit 12 and the face posture evaluation unit 13 in FIG. The operation unit 77 and the CPU 72 correspond to the scene designation unit 19.

なお、図16に示す構成は、映像検索装置の構成の一例であり、映像検索装置は他の構成であってもよい。例えば、コンピュータ71が映像記憶装置91に内蔵される構成であってもよい。   The configuration shown in FIG. 16 is an example of the configuration of the video search device, and the video search device may have another configuration. For example, the computer 71 may be built in the video storage device 91.

まず、準備処理として、予め参照顔姿勢記憶装置82に分類対象となるシーンそれぞれの基準となる参照顔姿勢データを記憶させる処理を行っておく。本実施形態では、分類する各シーンに属する映像群を学習用映像群として予め収集し、この学習用映像群から検出した顔姿勢データを参照顔姿勢データとして記憶しておく方法の一例について説明する。ここでは、映像記憶装置91が備える学習用映像入力部(図16に図示せず。)が、外部から学習用映像を入力するものとする。図17は、準備処理における学習用映像や参照顔姿勢データの流れを示す説明図である。図18は、準備処理の処理経過の例を示すフローチャートである。   First, as a preparation process, a process of storing reference face posture data, which serves as a reference for each scene to be classified, in the reference face posture storage device 82 is performed in advance. In the present embodiment, an example of a method of preliminarily collecting a video group belonging to each scene to be classified as a learning video group and storing face posture data detected from the learning video group as reference face posture data will be described. .. Here, it is assumed that the learning video input unit (not shown in FIG. 16) included in the video storage device 91 inputs the learning video from the outside. FIG. 17 is an explanatory diagram showing the flow of the learning video and reference face posture data in the preparation process. FIG. 18 is a flowchart showing an example of the progress of the preparation process.

映像記憶装置91の学習用映像入力部97は、あるシーン(シーンSとする。)を写す学習用映像を入力し、その学習用映像の信号を、インタフェース94を介して、コンピュータ71に送信する。CPU72は、インタフェース74を介してその学習用映像の信号を受信する。このようにCPU72は、学習用映像入力部97からの信号を受信することにより、学習用映像を読み込む(ステップ107)。The learning image input unit 97 of the image storage device 91 inputs a learning image showing a certain scene (scene S k ) and transmits the signal of the learning image to the computer 71 through the interface 94. To do. The CPU 72 receives the learning video signal via the interface 74. In this manner, the CPU 72 reads the learning video by receiving the signal from the learning video input unit 97 (step 107).

顔姿勢検出部12の処理を実行するCPU72は、学習用映像から参照顔姿勢データを検出する(ステップ108)。ここで、学習用映像中の登場人物の顔の数をnとする。また、ある登場人物iの顔の位置を座標(xki,yki)とする。また、この登場人物iの顔の大きさをzkiとする。さらに、この登場人物の顔の向きをRkiとする。CPU72は、例えば、シーンSでの参照顔姿勢データをD={n,xki,yki,zki,Rki}と表して、参照顔姿勢記憶装置82に記憶させる(ステップ109)。対象映像が動画像である場合、顔姿勢検出部12として動作するCPU72は、各フレームまたは数フレームおきに顔姿勢データを検出し、時系列の参照顔姿勢データD(t)を得る。そして、この参照顔姿勢データを参照顔姿勢記憶部14に記憶させる。The CPU 72 that executes the process of the face posture detecting unit 12 detects the reference face posture data from the learning video (step 108). Here, it is assumed that the number of faces of the characters in the learning video is nk . Further, the position of the face of a certain character i is defined as coordinates (x ki , y ki ). In addition, the size of the face of the character i is z ki . Further, the face direction of this character is R ki . The CPU 72, for example, represents the reference face pose data of the scene S k as D k ={n k , x ki , y ki , z ki , R ki }, and stores the reference face pose data in the reference face pose storage device 82 (step 109). ). When the target video is a moving image, the CPU 72 operating as the face posture detection unit 12 detects the face posture data in each frame or every few frames, and obtains the time-series reference face posture data D k (t). Then, the reference face posture data is stored in the reference face posture storage unit 14.

ここでは、シーンSkを写す学習用映像から参照顔姿勢データを検出して記憶させる場合について説明したが、他のシーンを写す学習用映像からも同様に参照顔姿勢データを検出して、参照顔姿勢データを参照顔姿勢記憶装置82に記憶させる。   Here, a case has been described in which the reference face posture data is detected and stored from the learning video that shows the scene Sk, but the reference face posture data is similarly detected from the learning video that shows another scene and the reference face posture data is also stored. The posture data is stored in the reference face posture storage device 82.

以上の準備処理を予め行うことで、シーンS等の各種シーンに属する映像を、映像記憶部92が記憶する様々な映像から検索できるようになる。By performing the above-described preparation process in advance, it becomes possible to search for images belonging to various scenes such as the scene S k from various images stored in the image storage unit 92.

シーン指定部19の処理を実行するCPU72は、利用者による操作部77の操作に応じてシーンを指定する。例えば、CPU72は、検索可能なシーンの区分の一覧をディスプレイ装置76に表示させ、操作77の操作に応じて、一覧表示した区分の中から視聴者が検索しようとするシーンに応じた区分を指定してもよい。ここでは、シーンSが指定されたものとして説明する。The CPU 72 that executes the process of the scene designation unit 19 designates a scene according to the operation of the operation unit 77 by the user. For example, the CPU 72 causes the display device 76 to display a list of searchable scene classifications, and in response to an operation of the operation 77, specifies a classification corresponding to a scene to be searched by the viewer from among the displayed classifications. You may. Here, it is assumed that the scene S i is designated.

シーン指定部19の処理を実行するCPU72は、シーンSを指定して、参照顔姿勢記憶装置82にシーンSに対応する参照顔姿勢データを要求する。参照顔姿勢記憶装置82は、この要求に応じて、シーンSに対応する参照顔姿勢データをコンピュータ71に送信する。顔姿勢評価部13の処理を実行するCPU72は、このシーンSに対応する参照顔姿勢データを参照顔姿勢記憶装置82から受信する。The CPU 72 that executes the process of the scene designation unit 19 designates the scene S i and requests the reference face posture storage device 82 for the reference face posture data corresponding to the scene S i . In response to this request, the reference face posture storage device 82 transmits the reference face posture data corresponding to the scene S i to the computer 71. The CPU 72 that executes the processing of the face posture evaluation unit 13 receives the reference face posture data corresponding to the scene S i from the reference face posture storage device 82.

映像入力部11として動作する映像読み取り部93は、映像記憶部92に記憶されている検索対象となる映像群をそれぞれ読み込み、コンピュータ71に送信する。このとき、コンピュータ71のCPU72は、第4の実施の形態で示したのと同様に、映像記憶装置91から受信する映像群における各カット点を検出し、映像群をそれぞれシーン毎に分割する。また、映像群をシーン毎に分割する処理を映像記憶装置91が行い、映像記憶装置91が、シーン毎に分割された各映像をコンピュータ71に送信する構成であってもよい。   The video reading unit 93, which operates as the video input unit 11, reads each video group to be searched, which is stored in the video storage unit 92, and transmits the video group to the computer 71. At this time, the CPU 72 of the computer 71 detects each cut point in the image group received from the image storage device 91 and divides the image group into each scene, as in the fourth embodiment. Further, the image storage device 91 may perform a process of dividing the image group for each scene, and the image storage device 91 may transmit each image divided for each scene to the computer 71.

顔姿勢検出部12の処理を実行するCPU72は、映像記憶装置91から読み込んだ各検索対象映像から、登場人物の顔姿勢データ(登場人物の人数(顔の数)とそれぞれの顔の位置、大きさ、向き)を検出する。この顔姿勢データをQと表す。検索対象映像が動画像である場合には、各フレーム又は数フレームおきに顔姿勢データを検出し、時系列の顔姿勢データQ(t)を得る。   The CPU 72, which executes the processing of the face posture detection unit 12, extracts the face posture data of the characters (the number of the characters (the number of faces) and the position and size of each face) from each search target video read from the video storage device 91. , Direction) is detected. This face posture data is represented by Q. When the search target video is a moving image, the face posture data is detected every frame or every few frames, and the time-series face posture data Q(t) is obtained.

顔姿勢評価部13の処理を実行するCPU72は、検索対象映像から検出された顔姿勢データQ(t)と指定されたシーンSの参照顔姿勢データD(t)との類似度を計算する。計算した類似度が予め定めた閾値以上の場合、CPU72は、顔姿勢データQ(t)を検出した映像のシーンがシーンSと同じ内容であると判定する。また、類似度が閾値未満の場合、CPU72は、顔姿勢データQ(t)を検出した映像のシーンがシーンSと異なる内容であると判定し、検索候補から外す。The CPU 72 that executes the processing of the face posture evaluation unit 13 calculates the degree of similarity between the face posture data Q(t) detected from the search target video and the reference face posture data D i (t) of the designated scene S i. To do. When the calculated similarity is equal to or higher than a predetermined threshold value, the CPU 72 determines that the scene of the video in which the face posture data Q(t) is detected has the same content as the scene S i . If the similarity is less than the threshold value, the CPU 72 determines that the scene of the video in which the face posture data Q(t) is detected has a content different from that of the scene S i, and excludes it from the search candidates.

類似度の計算には様々なパターン認識の手法が利用可能である。例えば、式1によって得られる重み付き和の逆数を類似度として求めてもよい。式1におけるT(t)は、顔姿勢データQ(t)における顔の位置と大きさを表す3次元ベクトルである。式1におけるT(t)は、参照顔姿勢データD(t)における顔の位置と大きさを表す3次元ベクトルである。R(t)は、顔姿勢データQ(t)における顔の向きを表す3次元ベクトルである。R(t)は、参照顔姿勢データD(t)における顔の向きを表す3次元ベクトルである。a,bは、それぞれ顔の位置および大きさと、顔の向きのどちらをどの程度重視して類似度を決定するのかを定める重み定数であり、ともに任意に定めることができる。なお、登場人物が複数存在する場合には、式1の値を各登場人物の顔姿勢データ毎に計算し、その結果を加算すればよい。ただし、式1は、類似度を算出するための式の一例であり、類似度の算出に用いる式は特定の式に限定されない。Various pattern recognition methods can be used to calculate the similarity. For example, the reciprocal of the weighted sum obtained by Expression 1 may be obtained as the similarity. T q (t) in Expression 1 is a three-dimensional vector representing the position and size of the face in the face posture data Q(t). T i (t) in Expression 1 is a three-dimensional vector representing the position and size of the face in the reference face posture data D i (t). R q (t) is a three-dimensional vector representing the orientation of the face in the face posture data Q(t). R i (t) is a three-dimensional vector representing the orientation of the face in the reference face posture data D i (t). “A” and “b” are weighting constants that determine how much importance is placed on the position and size of the face and the orientation of the face to determine the similarity, and both can be arbitrarily set. In addition, when there are a plurality of characters, the value of Expression 1 may be calculated for each face orientation data of each character, and the result may be added. However, Formula 1 is an example of a formula for calculating the similarity, and the formula used for calculating the similarity is not limited to a specific formula.

他の類似度の計算方法の例を次に説明する。登場人物が複数である場合には、式1の値を各登場人物の顔姿勢データについて加算することで類似度を計算してもよいが、複数の人物の顔の相対的な位置や向き、顔の大きさの関係を用いるとより高性能な検索が行える場合がある。このような場合の一例として、ニュース番組中でキャスターと解説者がコメントを話し合うシーンの検索が挙げられる。このようなシーンでは、発言者の座る位置によって顔の位置や大きさは変化するが、互いに顔を向き合って話すので、相対的な顔の向きは反対向き(向かい合う)であるから相対的な顔の向きが反対向きのシーンとして検索できる。また、ドラマや映画のキスシーンなどでは、登場人物の絶対的な顔の位置や向きに関係なく、2名の人物の顔の向きが反対向きで相対的な距離が極めて小さいシーンとして検索できる。   An example of another similarity calculation method will be described below. When there are a plurality of characters, the similarity may be calculated by adding the value of Expression 1 to the face posture data of each character, but the relative positions and orientations of the faces of a plurality of characters, Higher performance search may be performed by using the face size relationship. An example of such a case is a search for a scene in which a caster and a commentator discuss a comment in a news program. In such a scene, the position and size of the face change depending on the sitting position of the speaker, but since the faces face each other and speak, the relative face directions are opposite (face to face). You can search as a scene with the opposite direction. Also, in a drama or movie kissing scene, regardless of the absolute position and orientation of the faces of the characters, it is possible to search for a scene in which the faces of the two persons are in opposite directions and the relative distance is extremely small.

このような場合に用いる類似度の計算の一例を示す。まず、検索対象映像の登場人物のうちから2名を選択する。選択方法の一例としては、顔の大きさが最も大きい2名の人物を選択する方法が挙げられる。顔姿勢データQ(t)における、この2名の顔の間の距離をdQ(t)とする。顔姿勢データQ(t)における、この2名の顔の大きさの平均値をfQ(t)とする。また、登場人物1に対する登場人物2の顔の向きをベクトルRQ(t)とする。また、参照顔姿勢データにおける、2名(顔の大きさが最も大きい2名)の顔の間の距離をdD(t)とする。参照顔姿勢データにおける、この2名の顔の大きさの平均値をfD(t)とする。また、参照顔姿勢データにおける登場人物1に対する登場人物2の顔の向きをベクトルRD(t)とする。この場合、以下に示す式2の値の逆数を類似度として利用可能である。   An example of calculation of the similarity used in such a case will be shown. First, two characters are selected from the characters in the search target video. An example of the selection method is a method of selecting two persons having the largest face size. The distance between the faces of the two persons in the face posture data Q(t) is dQ(t). The average value of the sizes of the faces of the two persons in the face posture data Q(t) is set to fQ(t). Further, the face direction of the character 2 with respect to the character 1 is defined as a vector RQ(t). Further, the distance between the faces of two persons (two persons having the largest face size) in the reference face posture data is dD(t). Let fD(t) be the average value of the sizes of the faces of the two persons in the reference face posture data. Further, the direction of the face of the character 2 with respect to the character 1 in the reference face posture data is a vector RD(t). In this case, the reciprocal of the value of Expression 2 shown below can be used as the similarity.

Figure 2006025272
以上に示した類似度の計算式はあくまで一例で、顔姿勢データQ(t)や参照顔姿勢データD(t)の特徴量の選び方や類似度の計算式は様々に変更可能であり、様々な距離関数やパターン認識手法を利用可能である。また、複数の類似度の計算式を組み合わせて計算を行うことももちろん可能である。
Figure 2006025272
The calculation formula of the similarity shown above is merely an example, and the method of selecting the feature amount of the face posture data Q(t) and the reference face posture data D(t) and the calculation formula of the similarity can be changed variously. Various distance functions and pattern recognition methods can be used. Further, it is of course possible to perform the calculation by combining a plurality of calculation formulas of the similarities.

顔姿勢評価部13の処理を実行するCPU72は、映像記憶装置91に記憶されている全ての映像(映像記憶装置91から受信した全ての映像)に対して、顔姿勢データと参照顔姿勢データとの類似度を判定する処理を行う。そして、映像記憶装置91から受信した映像のうち、類似度が高いと判定されるシーンの映像を検索結果とする。   The CPU 72, which executes the processing of the face posture evaluation unit 13, outputs the face posture data and the reference face posture data for all the videos (all the videos received from the video storage device 91) stored in the video storage device 91. Processing for determining the degree of similarity is performed. Then, among the images received from the image storage device 91, the image of the scene determined to have a high degree of similarity is set as the search result.

本実施形態では、映像記憶部92(映像データベース18に相当)に蓄積されている多種多様な映像から、利用者の指定した映像シーンについて予め設定された参照顔姿勢データと登場人物の顔の位置や姿勢が類似した映像を抽出するように構成されている。従って、映像シーンの内容が類似している映像を検索することができる。   In the present embodiment, reference face posture data and face positions of the characters preset for the video scene designated by the user are selected from a wide variety of videos stored in the video storage unit 92 (corresponding to the video database 18). It is configured so as to extract images with similar postures. Therefore, it is possible to search for videos having similar video scene contents.

本実施形態では、参照顔姿勢記憶装置82を備え、参照顔姿勢記憶装置82が記憶する参照顔姿勢データに基づいてシーンを検索する場合を示した。参照顔姿勢記憶装置82の代わりに図11に示す参照条件記憶部31に相当する参照条件記憶装置を備えていてもよい。すなわち、各種シーンにおいて顔姿勢データが満たす条件を記憶する参照条件記憶部を備え、CPU72は、指定されたシーンに対応する条件を満足する顔姿勢データを検索することにより、指定されたシーンと同様のシーンを検索してもよい。   In the present embodiment, the case where the reference face posture storage device 82 is provided and the scene is searched based on the reference face posture data stored in the reference face posture storage device 82 has been described. Instead of the reference face posture storage device 82, a reference condition storage device corresponding to the reference condition storage unit 31 shown in FIG. 11 may be provided. That is, the CPU 72 includes a reference condition storage unit that stores conditions that face orientation data satisfies in various scenes, and the CPU 72 searches for face orientation data that satisfies the conditions corresponding to the designated scene, and the same as in the designated scene. You may search for the scene.

第6の実施の形態
次に、第6の実施形態として、予め定めたシーンを指定するのではなく、ある映像を入力して、その映像のシーンと類似のシーン内容の映像を検索する映像検索装置の例を説明する。本実施形態の構成は、図12に示す第3の実施形態の構成に相当する。図19を参照すると、本発明の第3の実施形態による映像検索装置は、検索対象となる様々な映像を録画してある映像記憶装置91と、処理を行うコンピュータ71と、検索するシーンを指定するための参照映像を録画した映像記憶媒体87が装着される参照映像入力装置84とを備える。
Sixth Embodiment Next, as a sixth embodiment, instead of designating a predetermined scene, a video is input, and a video search is performed to search for a video having a scene content similar to that of the video. An example of the device will be described. The configuration of this embodiment corresponds to the configuration of the third embodiment shown in FIG. Referring to FIG. 19, the video search device according to the third embodiment of the present invention specifies a video storage device 91 that records various videos to be searched, a computer 71 that performs processing, and a scene to be searched. A reference video input device 84 to which a video storage medium 87 for recording a reference video for recording is mounted.

映像記憶装置91の構成および動作は、図16の第5の実施形態における映像記憶装置91と同様であるのでその説明を省略する。   The configuration and operation of the video storage device 91 are the same as those of the video storage device 91 in the fifth embodiment of FIG. 16, and thus description thereof will be omitted.

参照映像入力装置84は、映像記憶媒体87が装着される記憶媒体装着部86と、映像読み取り部88と、コンピュータ71とのインタフェース85とを備える。映像記憶媒体87は、記憶媒体装着部86に着脱可能な映像記憶媒体であり、例えば、ビデオカセットやDVD(Digital Versatile Disk)等を映像記憶媒体87とすることができる。記憶媒体装着部86には、視聴者が検索したいと考えるシーンを写す映像(参照映像)を記憶した映像記憶媒体87が装着される。映像読み取り部88は、記憶媒体装着部86に装着された映像記憶媒体87が記憶する参照映像を読み取り、インタフェース85を介して、参照映像の信号をコンピュータ71に送信する。   The reference video input device 84 includes a storage medium mounting unit 86 in which a video storage medium 87 is mounted, a video reading unit 88, and an interface 85 with the computer 71. The video storage medium 87 is a video storage medium that can be attached to and detached from the storage medium mounting portion 86, and for example, a video cassette or a DVD (Digital Versatile Disk) can be used as the video storage medium 87. A video storage medium 87 storing a video (reference video) showing a scene that the viewer wants to search is mounted on the storage medium mounting unit 86. The image reading unit 88 reads the reference image stored in the image storage medium 87 attached to the storage medium attaching unit 86, and transmits the reference image signal to the computer 71 via the interface 85.

コンピュータ71は、CPU72と、記憶装置73と、映像記憶装置91とのインタフェース74と、参照映像入力装置84とのインタフェース75と、ディスプレイ装置76とを備える。なお、ユーザが操作するユーザインタフェースとなるキーボードやマウス等を備えていてもよい。CPU72は、記憶装置73が記憶する映像検索プログラムに従って動作する。インタフェース74は、映像記憶装置91から映像信号を受信する。インタフェース75は、参照映像入力装置84から参照映像の映像信号を受信する。   The computer 71 includes a CPU 72, a storage device 73, an interface 74 with the video storage device 91, an interface 75 with the reference video input device 84, and a display device 76. Note that a keyboard, a mouse, or the like that serves as a user interface operated by the user may be provided. The CPU 72 operates according to the video search program stored in the storage device 73. The interface 74 receives a video signal from the video storage device 91. The interface 75 receives the video signal of the reference video from the reference video input device 84.

本例において、映像記憶部92は、図12の映像データベース18に相当する。映像読み取り部93は、図12の映像入力部11に相当する。参照映像入力装置84は、図12の参照映像入力部16に相当する。映像検索プログラムに従って動作するCPU72は、図12の顔姿勢検出部12、参照顔姿勢検出部42、および顔姿勢評価部13の処理を行う。   In this example, the video storage unit 92 corresponds to the video database 18 in FIG. The video reading unit 93 corresponds to the video input unit 11 in FIG. The reference video input device 84 corresponds to the reference video input unit 16 in FIG. The CPU 72, which operates according to the video search program, performs the processes of the face posture detection unit 12, the reference face posture detection unit 42, and the face posture evaluation unit 13 of FIG.

なお、図19に示す構成は、映像検索装置の構成の一例であり、映像検索装置は他の構成であってもよい。例えば、コンピュータ71が映像記憶装置91に内蔵される構成であってもよい。また、例えば、参照映像入力装置84が映像記憶装置91の一部として構成されていてもよい。   The configuration illustrated in FIG. 19 is an example of the configuration of the video search device, and the video search device may have another configuration. For example, the computer 71 may be built in the video storage device 91. Further, for example, the reference video input device 84 may be configured as a part of the video storage device 91.

記憶媒体装着部86には、利用者が検索したい映像シーンの参照映像を記憶した映像記憶媒体87が利用者によって装着される。映像読み取り部88は、映像記憶媒体87が記憶する参照映像を読み取り、インタフェース85を介してコンピュータ71に送信する。   A video storage medium 87 storing a reference video of a video scene that the user wants to search is loaded in the storage medium loading unit 86 by the user. The video reading unit 88 reads the reference video stored in the video storage medium 87 and transmits it to the computer 71 via the interface 85.

参照顔姿勢検出部42の処理を実行するCPU72は、参照映像入力装置84から読み込んだ参照映像から、その参照映像における登場人物の数(顔の数)、各登場人物の顔の位置と大きさ、向きを時系列で検出し、参照顔姿勢データD(t)として検出する。   The CPU 72 that executes the process of the reference face posture detection unit 42 determines the number of characters (the number of faces) in the reference video, the position and the size of the face of each character, from the reference video read from the reference video input device 84. , The orientation is detected in time series, and is detected as reference face posture data D(t).

顔姿勢検出部12の処理を実行するCPU72は、第5の実施形態におけるCPU72と同様に、映像記憶装置91から読み込んだ各検索対象映像から、登場人物の数(顔の数)、各登場人物の顔の位置と大きさ、向きを表す顔姿勢データQ(t)を読み込む。   Similar to the CPU 72 in the fifth embodiment, the CPU 72 that executes the process of the face posture detection unit 12 determines the number of characters (the number of faces) and each character from each search target video read from the video storage device 91. The face posture data Q(t) representing the position, size, and orientation of the face of the is read.

顔姿勢評価部13の処理を実行するCPU72は、参照顔姿勢データD(t)と、検索対象映像から検出された顔姿勢データQ(t)の類似度を計算する。類似度の計算方法として、例えば、既に説明した計算方法を適用すればよい。また、既に説明したように、類似度の計算方法は、特定の計算方法に限定されない。CPU72は、この類似度が予め定めた閾値以上の場合に検索対象映像が利用者の入力した参照映像と同一シーン内容の映像であると判定し、類似度が低い場合は検索対象映像を検索候補から外す。   The CPU 72 that executes the process of the face posture evaluation unit 13 calculates the similarity between the reference face posture data D(t) and the face posture data Q(t) detected from the search target video. As the similarity calculation method, for example, the calculation method already described may be applied. Further, as described above, the method of calculating the degree of similarity is not limited to a specific calculation method. The CPU 72 determines that the search target video is a video having the same scene content as the reference video input by the user when the similarity is equal to or higher than a predetermined threshold, and when the similarity is low, the search target video is a search candidate. Remove from.

顔姿勢評価部13の処理を実行するCPU72は、映像記憶装置91に記憶されている全ての映像(映像記憶装置91から受信した全ての映像)に対して、顔姿勢データと参照顔姿勢データとの類似度を判定する処理を行う。そして、映像記憶装置91から受信した映像のうち、類似度が高いと判定されるシーンの映像を検索結果とする。   The CPU 72, which executes the processing of the face posture evaluation unit 13, outputs the face posture data and the reference face posture data for all the videos (all the videos received from the video storage device 91) stored in the video storage device 91. Processing for determining the degree of similarity is performed. Then, among the images received from the image storage device 91, the image of the scene determined to have a high degree of similarity is set as the search result.

本実施形態は、ある参照映像を記憶した映像記憶媒体87が利用者によって参照映像入力装置84に装着されると、その参照映像と同じシーンに相当する映像を映像記憶装置91から検索するように構成されている。従って、予め、検索対象となるシーン分類を定義し、それぞれについて予め参照顔姿勢データを設定しておく必要がなく、利用者は検索したい映像シーンに相当する映像を入力するだけで、同様のシーン内容の映像を検索することができる。

In this embodiment, when a video storage medium 87 storing a certain reference video is attached to the reference video input device 84 by a user, a video corresponding to the same scene as the reference video is searched from the video storage device 91. It is configured. Therefore, it is not necessary to define the scene classifications to be searched in advance and set the reference face posture data for each of them, and the user only needs to input the video corresponding to the video scene to be searched, and the similar scene You can search the video of the content.

Claims (38)

静止画像または動画像である映像のシーンを分類する映像分類装置であって、
映像から登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、
前記顔姿勢データを用いて前記映像のシーンを分類する顔姿勢評価手段と
を備える映像分類装置。
A video classification device for classifying video scenes that are still images or moving images,
Face posture detecting means for detecting at least a part of the number of faces of characters from the video, the position of each face, size and orientation data as face posture data,
And a face posture evaluation unit that classifies the scenes of the video using the face posture data.
前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと、前記参照顔姿勢記憶手段が記憶する参照顔姿勢データとを比較することによって、前記顔姿勢データが検出された映像のシーンを分類する
請求項1に記載の映像分類装置。
A reference face posture storage unit that stores reference face posture data, which is face posture data to be compared with the face posture data detected by the face posture detection unit, in advance in association with each scene;
The face posture evaluation means compares the face posture data detected by the face posture detection means with the reference face posture data stored in the reference face posture storage means, thereby detecting the face posture data. The image classification device according to claim 1, wherein the scenes are classified.
前記顔姿勢検出手段は、シーンを写し出す学習用映像から前記参照顔姿勢データを検出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記憶手段に記憶させる、請求項2に記載の映像分類装置。   3. The face posture detecting means detects the reference face posture data from a learning video showing a scene, and stores the reference face posture data in the reference face posture storing means in association with the scene. The described image classification device. 特定のシーンを写し出す参照映像から、前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと、前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、前記顔姿勢データが検出された映像のシーンが前記特定のシーンと同種のシーンに分類されるか否かを判定する
請求項1に記載の映像分類装置。
From a reference image showing a specific scene, a reference face posture detecting means for detecting reference face posture data, which is face posture data to be compared with the face posture data detected by the face posture detecting means, is further provided.
The face posture evaluation unit detects the face posture data by comparing the face posture data detected by the face posture detection unit with the reference face posture data detected by the reference face posture detection unit. The video classification device according to claim 1, wherein it is determined whether or not the scene of the video is classified into the same type of scene as the specific scene.
分類される各シーンでの顔姿勢データが満たす条件を予め各シーンと対応させて記憶する参照条件記憶手段をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データが、前記参照条件記憶手段が記憶する条件のうちのどのシーンに対応する条件を満たしているかを判定することによって、前記顔姿勢データが検出された映像のシーンを分類する
請求項1に記載の映像分類装置。
Further provided is a reference condition storage means for storing a condition satisfied by the face posture data in each classified scene in advance in association with each scene,
The face posture evaluation unit determines whether the face posture data detected by the face posture detection unit satisfies a condition corresponding to which scene among the conditions stored in the reference condition storage unit, The video classification device according to claim 1, wherein the scenes of the video in which the face posture data is detected are classified.
前記顔姿勢検出手段は、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算する、請求項1から請求項5のうちのいずれか1項に記載の映像分類装置。   2. The face posture detecting means calculates at least a part of data of the position, size and orientation of the face of at least one character as a relative value with respect to the face of another character. The image classification device according to claim 5. 前記顔姿勢検出手段は、前記映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出する、請求項1から請求項6のうちのいずれか1項に記載の映像分類装置。   When the video is a moving image, the face posture detection means changes at least a part of the number of faces of the characters, the position, the size, and the orientation data of each character with the passage of time. The image classification device according to claim 1, wherein the amount is detected as face posture data. 静止画像または動画像である映像のシーンの中から特定のシーンを検索する映像検索装置であって、
複数の静止画像または動画像を検索対象となる映像として記憶する映像記憶手段と、
前記映像記憶手段が記憶する映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を用いて、前記映像のシーンの中から特定のシーンを検索する顔姿勢評価手段と
を備える映像検索装置。
A video search device for searching a specific scene from video scenes that are still images or moving images,
Video storage means for storing a plurality of still images or moving images as video to be searched,
A specific scene is selected from the scenes of the video by using at least a part of the number of the faces of the characters in the video stored in the video storage means, the position, the size and the orientation of the face of each character. And a face posture evaluation means for searching for a video search device.
前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する顔姿勢検出手段と、
前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と、
利用者の操作に応じてシーンを指定するシーン指定手段と
をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと、前記シーン指定手段によって指定されたシーンに対応する参照顔姿勢データとを比較することによって、前記各映像のシーンの中から指定されたシーンを検索する
請求項8に記載の映像検索装置。
Face posture detecting means for detecting at least a part of data of the number of faces of the characters, position, size and orientation of the faces of the characters as face posture data from each image read from the image storage means. When,
Reference face posture storage means for storing reference face posture data, which is face posture data to be compared with the face posture data detected by the face posture detection means, in advance in association with each scene,
Further comprising a scene designation means for designating a scene according to a user's operation,
The face posture evaluating means compares the face posture data detected by the face posture detecting means with reference face posture data corresponding to the scene designated by the scene designating means, and The video search device according to claim 8, wherein a designated scene is searched from the inside.
前記顔姿勢検出手段は、シーンを写し出す学習用映像から参照顔姿勢データを検出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記憶手段に記憶させる、請求項9に記載の映像検索装置。   10. The face posture detecting means detects reference face posture data from a learning video showing a scene, and stores the reference face posture data in the reference face posture storing means in association with the scene. Video search device. 前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢データとして記憶し、
前記映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶手段と、
利用者の操作に応じてシーンを指定するシーン指定手段と
をさらに備え、
前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データと、前記シーン指定手段によって指定されたシーンに対応する参照顔姿勢データとを比較することによって、前記各映像のシーンの中から指定されたシーンを検索する
請求項8に記載の映像検索装置。
The image storage means associates at least a part of the number of faces of characters in each image, the position, size and orientation of the face of each character in each image with the face posture data. Remember as
Reference face posture storage means for storing reference face posture data, which is face posture data to be compared with each face posture data read from the image storage means, in advance in association with each scene,
Further comprising a scene designation means for designating a scene according to a user's operation,
The face pose evaluation means compares the face pose data read from the video storage means with the reference face pose data corresponding to the scene designated by the scene designating means, so that the face pose evaluation means The video search device according to claim 8, wherein a scene specified by is searched.
前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢データとして検出する顔姿勢検出手段と、
特定のシーンを写し出す参照映像から、前記顔姿勢検出手段によって検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段と
をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データと、前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、前記各映像のシーンの中から前記特定のシーンを検索する
請求項8に記載の映像検索装置。
Face posture detection that detects at least a part of the number of faces of the characters, the position, size, and orientation data of the faces of the characters from each image read from the image storage means as the face posture data. Means and
A reference face posture detecting unit for detecting reference face posture data, which is face posture data compared with the face posture data detected by the face posture detecting unit, from a reference image showing a specific scene,
The face posture evaluation means compares the face posture data detected by the face posture detection means with the reference face posture data detected by the reference face posture detection means to select from among the scenes of the respective videos. The video search device according to claim 8, wherein the specific scene is searched.
前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢データとして記憶し、
特定のシーンを写し出す参照映像から、前記映像記憶手段から読み込まれる各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する参照顔姿勢検出手段をさらに備え、
前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データと、前記参照顔姿勢検出手段によって検出された参照顔姿勢データとを比較することによって、前記各映像のシーンの中から前記特定のシーンを検索する
請求項8に記載の映像検索装置。
The image storage means associates at least a part of the number of faces of characters in each image, the position, size and orientation of the face of each character in each image with the face posture data. Remember as
A reference face posture detecting means for detecting reference face posture data, which is face posture data compared with each face posture data read from the image storing means, from a reference image showing a specific scene,
The face posture evaluation means compares the face posture data read from the video storage means with the reference face posture data detected by the reference face posture detection means to select the face posture data from the scenes of the respective videos. The video search device according to claim 8, which searches for a specific scene.
前記映像記憶手段から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を前記顔姿勢データとして検出する顔姿勢検出手段と、
検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶手段と
をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データの中から、前記参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索することによって、前記各映像のシーンの中から前記特定のシーンを検索する
請求項8に記載の映像検索装置。
Face posture detection that detects at least a part of the number of faces of the characters, the position, size, and orientation data of the faces of the characters from each image read from the image storage means as the face posture data. Means and
And a reference condition storage unit that stores a condition satisfied by the face posture data in a specific scene to be searched,
The face posture evaluation unit searches the face posture data detected by the face posture detection unit for face posture data satisfying the condition stored in the reference condition storage unit, thereby performing the processing in the scene of each video. The video search device according to claim 8, wherein the specific scene is searched from.
前記参照条件記憶手段は、各シーンにおける顔姿勢データが満たす条件を、シーン毎に記憶し、
利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、
前記顔姿勢評価手段は、前記顔姿勢検出手段によって検出された顔姿勢データの中から、指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から前記シーン指定手段によって指定されたシーンを検索する
請求項14に記載の映像検索装置。
The reference condition storage means stores a condition, which is satisfied by the face posture data in each scene, for each scene,
Further provided is a scene designation means for designating a scene according to a user operation,
The face posture evaluating means searches the face posture data detected by the face posture detecting means for face posture data satisfying a condition corresponding to a designated scene, thereby selecting the face posture data from the scenes of each video. The video search device according to claim 14, wherein the scene specified by the scene specifying means is searched.
前記映像記憶手段は、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶し、
検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶手段をさらに備え、
前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データの中から、前記参照条件記憶手段が記憶する条件を満たす顔姿勢データを検索することによって、前記各映像のシーンの中から前記特定のシーンを検索する
請求項8に記載の映像検索装置。
The image storage means associates at least part of the number of faces of the characters in each image, the position, the size and the direction of the face of each character as face posture data in association with the scene of each image. Remember
Further comprising a reference condition storage means for storing a condition satisfied by the face posture data in the specific scene to be searched,
The face posture evaluation means retrieves the face posture data satisfying the conditions stored in the reference condition storage means from the face posture data read from the video storage means, thereby selecting from the scenes of the respective videos. The video search device according to claim 8, wherein the specific scene is searched.
前記参照条件記憶手段は、各シーンにおける顔姿勢データが満たす条件を、シーン毎に記憶し、
利用者の操作に応じてシーンを指定するシーン指定手段をさらに備え、
前記顔姿勢評価手段は、前記映像記憶手段から読み込まれる各顔姿勢データの中から、前記シーン指定手段によって指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検索する
請求項16に記載の映像検索装置。
The reference condition storage means stores a condition, which is satisfied by the face posture data in each scene, for each scene,
Further provided is a scene designation means for designating a scene according to a user operation,
The face posture evaluation means retrieves the face posture data satisfying the condition corresponding to the scene designated by the scene designation means from the face posture data read from the video storage means, thereby obtaining the scene of each video. The video search device according to claim 16, wherein a specified scene is searched from among the.
顔姿勢検出手段は、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算する、請求項9,10,12,14,および15のうちのいずれか1項に記載の映像検索装置。   10. The face posture detecting means calculates at least a part of data of the position, size and orientation of the face of at least one character as a relative value with respect to the faces of other characters. The video search device according to any one of 1, 10, 12, 14, and 15. 前記顔姿勢検出手段は、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出する、請求項9,10,12,14,15,および18のうちのいずれか1項に記載の映像検索装置。   The face posture detection means, when the video is a moving image, the amount of change over time of at least a part of the number of faces of the characters, the position, the size, and the orientation data of each character. The video search device according to any one of claims 9, 10, 12, 14, 15, and 18, which detects as face orientation data. コンピュータに静止画像または動画像である映像のシーンを分類させるための映像分類プログラムであって、
映像から登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する第1の命令セットと、
前記顔姿勢データを用いて前記映像のシーンを分類する第2の命令セットと
を備える映像分類プログラム。
A video classification program for causing a computer to classify video scenes that are still images or moving images,
A first instruction set for detecting at least a part of the number of faces of characters, the position, size, and orientation data of each character from the video as face posture data;
A second instruction set for classifying the scenes of the video using the face posture data.
前記第2の命令ステップは、前記第1の命令セットで検出された顔姿勢データと、該顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶装置に記憶されている参照顔姿勢データとを比較することによって、前記顔姿勢データが検出された映像のシーンを分類する命令セットを含む、請求項20に記載の映像分類プログラム。   In the second command step, the face pose data detected by the first command set and reference face pose data, which is face pose data to be compared with the face pose data, are stored in advance in association with each scene. 21. The image classification program according to claim 20, comprising an instruction set for classifying a scene of an image in which the face pose data is detected by comparing with reference face pose data stored in a reference face pose storage device. 前記第1の命令セットは、シーンを写し出す学習用映像から参照顔姿勢データを検出し、前記参照顔姿勢データを、前記シーンと対応させて参照顔姿勢記憶装置に記憶させる命令セットを含む、請求項21に記載の映像分類プログラム。   The first instruction set includes an instruction set that detects reference face posture data from a learning video showing a scene and stores the reference face posture data in a reference face posture storage device in association with the scene. The image classification program according to Item 21. 特定のシーンを写し出す参照映像から、前記第1の命令セットで検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する第3の命令セットをさらに備え、
前記第2の命令セットは、前記第1の命令セットで検出された顔姿勢データと、前記第3の命令セットで検出された参照顔姿勢データとを比較することによって、前記前記顔姿勢データが検出された映像のシーンが前記特定のシーンと同種のシーンに分類されるか否かを判定する命令セットを含む、請求項20に記載の映像分類プログラム。
A third instruction set for detecting reference face posture data, which is face posture data to be compared with the face posture data detected by the first instruction set, from a reference image showing a specific scene,
The second instruction set compares the face posture data detected by the first instruction set with the reference face posture data detected by the third instruction set to obtain the face posture data. 21. The video classification program according to claim 20, further comprising an instruction set for determining whether a detected video scene is classified into a scene of the same type as the specific scene.
前記第2の命令セットは、前記第1の命令セットで検出された顔姿勢データが、分類される各シーンでの顔姿勢データが満たす条件を予め各シーンと対応させて記憶する参照条件記憶装置に記憶されている条件のうちのどのシーンに対応する条件を満たしているかを判定することによって、前記顔姿勢データが検出された映像のシーンを分類する命令セットを含む、請求項20に記載の映像分類プログラム。   The second condition set is a reference condition storage device that stores the condition that the face pose data detected by the first command set is satisfied by the face pose data in each classified scene in advance in association with each scene. 21. The instruction set of claim 20, including an instruction set for classifying a scene of a video in which the face pose data is detected by determining which of the conditions stored in the corresponding to which scene is satisfied. Video classification program. 前記第1の命令セットは、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算する命令セットを含む、請求項20から請求項24のうちのいずれか1項に記載の映像分類プログラム。   The first instruction set is an instruction set for calculating at least a part of data of the position, size, and orientation of the face of at least one character as a value relative to the faces of other characters. An image classification program according to any one of claims 20 to 24, including: 前記第1の命令セットは、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出する命令セットを含む、請求項20から請求項25のうちのいずれか1項に記載の映像分類プログラム。   The first instruction set is a change over time of at least a part of the number of faces of the characters, the position, the size, and the orientation data of each character when the video is a moving image. The image classification program according to any one of claims 20 to 25, comprising an instruction set for detecting an amount as face posture data. コンピュータに、静止画像または動画像である映像のシーンの中から特定のシーンを検索させるための映像検索プログラムであって、
複数の静止画像または動画像を検索対象となる映像として記憶する映像記憶装置に記憶されている、映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を用いて、前記映像のシーンの中から特定のシーンを検索する第1の命令セットを備える映像検索プログラム。
A video search program for causing a computer to search for a specific scene from video scenes that are still images or moving images,
Of the data of the number of faces of the characters in the video, the position of each character's face, the size, and the orientation, which is stored in the video storage device that stores multiple still images or moving images as the video to be searched A video search program comprising a first instruction set for searching for a specific scene from scenes of the video using at least a part of the above.
前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する第2の命令セットと、
シーンを指定する第3の命令セットと、
をさらに備え、
前記第1の命令セットは、前記第2の命令セットで検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶装置が記憶している参照顔姿勢データのうち、指定されたシーンに対応する参照顔姿勢データと、前記第2の命令セットで検出された顔姿勢データとを比較することによって、前記各映像のシーンの中から指定されたシーンを検索する命令セットを含む
請求項27に記載の映像検索プログラム。
A second command for detecting at least a part of the data of the number of faces of the characters, the position, the size, and the direction of the faces of the characters from each image read from the image storage device as face posture data. A set,
A third instruction set that specifies the scene,
Further equipped with,
The reference face posture storage device stores the reference face posture data, which is face posture data to be compared with the face posture data detected by the second instruction set, in advance in association with each scene. Of the stored reference face pose data, the reference face pose data corresponding to the designated scene and the face pose data detected by the second command set are compared to obtain the scene of each of the images. The video search program according to claim 27, comprising a command set for searching a designated scene from the inside.
前記第2の命令セットは、シーンを写し出す学習用映像から参照顔姿勢データを検出し、前記参照顔姿勢データを、前記シーンと対応させて前記参照顔姿勢記憶装置に記憶させる命令セットを含む、請求項28に記載の映像検索プログラム。   The second instruction set includes an instruction set for detecting reference face posture data from a learning video showing a scene and storing the reference face posture data in the reference face posture storage device in association with the scene. The video search program according to claim 28. シーンを指定する第3の命令セットをさらに備え、
前記第1の命令セットは、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶している映像記憶装置から読み込まれる各顔姿勢データと、前記各顔姿勢データと比較される顔姿勢データである参照顔姿勢データを予め各シーンと対応させて記憶する参照顔姿勢記憶装置が記憶している参照顔姿勢データのうち、指定されたシーンに対応する参照顔姿勢データとを比較することによって、前記各映像のシーンの中から指定されたシーンを検索する命令セットを含む
請求項27に記載の映像検索プログラム。
Further comprising a third instruction set specifying a scene,
The first instruction set is such that at least a part of the face number, face position, size, and orientation data of each character in each image is associated with a scene of each image, and a face posture Reference face posture memory that stores in advance each face posture data read from a video storage device stored as data and reference face posture data that is face posture data to be compared with each face posture data in association with each scene in advance. A reference set of face pose data stored in the device, and a set of instructions for searching the specified scene from the scenes of the respective images by comparing the reference face pose data corresponding to the specified scene. The video search program according to claim 27.
前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する第2の命令セットと、
特定のシーンを写し出す参照映像から、前記第2の命令セットで検出された顔姿勢データと比較される顔姿勢データである参照顔姿勢データを検出する第4の命令セットと
をさらに備え、
前記第1の命令セットは、前記第2の命令セットで検出された顔姿勢データと、前記第4の命令セットで検出された参照顔姿勢データとを比較することによって、前記各映像のシーンの中から前記特定のシーンを検索する命令セットを含む
請求項27に記載の映像検索プログラム。
A second command for detecting at least a part of the data of the number of faces of the characters, the position, the size, and the direction of the faces of the characters from each image read from the image storage device as face posture data. A set,
And a fourth instruction set for detecting reference face posture data, which is face posture data to be compared with the face posture data detected by the second instruction set, from a reference image showing a specific scene.
The first command set compares the face pose data detected by the second command set with the reference face pose data detected by the fourth command set to obtain a scene of each of the images. The video search program according to claim 27, comprising an instruction set for searching for the specific scene from inside.
各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして記憶する映像記憶装置が記憶している顔姿勢データと比較される顔姿勢データである参照顔姿勢データを、特定のシーンを写し出す参照映像から検出する第5の命令セットをさらに備え、
第1の命令セットは、前記映像記憶装置から読み込まれる各顔姿勢データと、前記第5の命令セットで検出された参照顔姿勢データとを比較することによって、前記各映像のシーンの中から前記特定のシーンを検索する命令セットを含む
請求項27に記載の映像検索プログラム。
An image storage device that stores at least part of the number of faces of characters in each image, the position, size, and orientation data of each character in each image as face posture data in association with the scene of each image. A fifth instruction set for detecting reference face pose data, which is face pose data to be compared with the stored face pose data, from a reference image showing a specific scene,
The first command set compares the face pose data read from the video storage device with the reference face pose data detected by the fifth command set, thereby selecting the face pose data from the scenes of the videos. The video search program according to claim 27, comprising an instruction set for searching for a specific scene.
前記映像記憶装置から読み込まれた各映像から、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部を顔姿勢データとして検出する第2の命令セットをさらに備え、
前記第1の命令セットは、前記第2の命令セットで検出された顔姿勢データの中から、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶装置が記憶している前記条件を満たす顔姿勢データを検索することによって、前記各映像のシーンの中から前記特定のシーンを検索する命令セットを含む
請求項27に記載の映像検索プログラム。
A second command for detecting at least a part of the data of the number of faces of the characters, the position, the size, and the direction of the faces of the characters from each image read from the image storage device as face posture data. Further equipped with a set,
The first instruction set is stored in a reference condition storage device that stores a condition that is satisfied by the face posture data in a specific scene to be searched from the face posture data detected by the second instruction set. The video search program according to claim 27, further comprising an instruction set for searching for the specific scene from among the scenes of each video by searching for face pose data satisfying a condition.
シーンを指定する第3の命令セットをさらに備え、
前記第1の命令セットは、前記参照条件記憶装置が記憶する条件のうち指定されたシーンに対応する条件を満たす顔姿勢データを、第2の命令セットで検出された顔姿勢データの中から検索することによって、各映像のシーンの中から指定されたシーンを検索する命令セットを含む
請求項33に記載の映像検索プログラム。
Further comprising a third instruction set specifying a scene,
The first command set searches the face pose data detected by the second command set for face pose data satisfying the condition corresponding to the designated scene among the conditions stored in the reference condition storage device. The video search program according to claim 33, further comprising an instruction set for searching for a designated scene from among the scenes of each video.
前記第1の命令セットは、各映像のシーンと対応させて、各映像における登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータうちの少なくとも一部を顔姿勢データとして記憶する映像記憶装置が記憶している顔姿勢データの中から、検索する特定のシーンにおける顔姿勢データが満たす条件を記憶する参照条件記憶装置が記憶している前記条件を満たす顔姿勢データを検索することによって、前記各映像のシーンの中から前記特定のシーンを検索する命令セットを含む、請求項27に記載の映像検索プログラム。   The first command set is such that at least a part of the number of faces of characters in each image, the position, size, and orientation of the face of each character in each image is associated with face pose data. From the face posture data stored in the video storage device stored as, the face posture data satisfying the condition stored in the reference condition storage device that stores the condition satisfied by the face posture data in the specific scene to be searched is stored. The video search program according to claim 27, comprising an instruction set for searching for the specific scene from among the scenes of each video by searching. シーンを指定する第3の命令セットをさらに備え、
前記第1の命令セットは、前記映像記憶装置が記憶する顔姿勢データの中から、前記参照条件記憶装置が記憶する条件のうち指定されたシーンに対応する条件を満たす顔姿勢データを検索することによって、各映像のシーンの中から指定されたシーンを検索する命令セットを含む
請求項35に記載の映像検索プログラム。
Further comprising a third instruction set specifying a scene,
The first instruction set is to retrieve face pose data that satisfies a condition corresponding to a designated scene among the conditions stored in the reference condition storage device from the face pose data stored in the video storage device. The video search program according to claim 35, further comprising an instruction set for searching for a designated scene from among the scenes of each video according to.
前記第2の命令セットは、少なくとも一人の登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部のデータを、他の登場人物の顔に対する相対的な値として計算する命令セットを含む、請求項28,29,30,33,および34のうちのいずれか1項に記載の映像検索プログラム。   The second instruction set is an instruction set for calculating at least a part of the face position, size, and orientation data of at least one character as a value relative to the faces of other characters. The video search program according to any one of claims 28, 29, 30, 33, and 34, including:. 前記第2の命令セットは、映像が動画像である場合に、登場人物の顔の数、各登場人物の顔の位置、大きさおよび向きのデータのうちの少なくとも一部の時間経過に伴う変化量を顔姿勢データとして検出する命令セットを含む、請求項28,29,31,33,34,および37のうちのいずれか1項に記載の映像検索プログラム。

The second instruction set, when the video is a moving image, changes with time with respect to at least a part of the number of faces of the characters, the position, the size, and the orientation data of each character. The video search program according to any one of claims 28, 29, 31, 33, 34, and 37, which includes an instruction set for detecting an amount as face posture data.

JP2006532615A 2004-09-01 2005-08-26 Video classification device, video classification program, video search device, and video search program Active JP4973188B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006532615A JP4973188B2 (en) 2004-09-01 2005-08-26 Video classification device, video classification program, video search device, and video search program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004254838 2004-09-01
JP2004254838 2004-09-01
PCT/JP2005/015519 WO2006025272A1 (en) 2004-09-01 2005-08-26 Video classification device, video classification program, video search device, and videos search program
JP2006532615A JP4973188B2 (en) 2004-09-01 2005-08-26 Video classification device, video classification program, video search device, and video search program

Publications (2)

Publication Number Publication Date
JPWO2006025272A1 true JPWO2006025272A1 (en) 2008-07-31
JP4973188B2 JP4973188B2 (en) 2012-07-11

Family

ID=35999927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006532615A Active JP4973188B2 (en) 2004-09-01 2005-08-26 Video classification device, video classification program, video search device, and video search program

Country Status (2)

Country Link
JP (1) JP4973188B2 (en)
WO (1) WO2006025272A1 (en)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4797761B2 (en) * 2006-04-12 2011-10-19 オムロン株式会社 Movie display device
JP2008017042A (en) 2006-07-04 2008-01-24 Sony Corp Information processing apparatus and method, and program
JP4998026B2 (en) * 2007-03-15 2012-08-15 ソニー株式会社 Image processing apparatus, imaging apparatus, image display control method, and computer program
JP2008278466A (en) * 2007-03-30 2008-11-13 Sanyo Electric Co Ltd Image processing apparatus and imaging apparatus mounting the same, and image processing method
JP4337064B2 (en) 2007-04-04 2009-09-30 ソニー株式会社 Information processing apparatus, information processing method, and program
JP5248236B2 (en) * 2008-08-08 2013-07-31 パナソニック株式会社 Image processing apparatus and image processing method
JP5538781B2 (en) * 2009-09-02 2014-07-02 キヤノン株式会社 Image search apparatus and image search method
EP3582177A1 (en) 2010-04-02 2019-12-18 Nokia Technologies Oy Methods and apparatuses for face detection
US8726161B2 (en) 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
JP2013210845A (en) * 2012-03-30 2013-10-10 Secom Co Ltd Moving object collation device
JP5851375B2 (en) * 2012-10-10 2016-02-03 オリンパス株式会社 Image search system and image search method
JP5613304B2 (en) * 2013-09-11 2014-10-22 オリンパスイメージング株式会社 Image search apparatus and image search method
CN103984931B (en) * 2014-05-27 2017-11-07 联想(北京)有限公司 A kind of information processing method and the first electronic equipment
CN104063512A (en) * 2014-07-10 2014-09-24 福州瑞芯微电子有限公司 Information recommending device and method based on feature recognition
CN108664850B (en) * 2017-03-30 2021-07-13 展讯通信(上海)有限公司 Human face posture classification method and device
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
JP6669952B1 (en) * 2018-11-12 2020-03-18 株式会社日本経済新聞社 Tagging apparatus, method, and program for video
CN110298310A (en) * 2019-06-28 2019-10-01 深圳市商汤科技有限公司 Image processing method and device, electronic equipment and storage medium
WO2021229750A1 (en) * 2020-05-14 2021-11-18 日本電気株式会社 Image selection device, image selection method, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001273505A (en) * 1999-12-14 2001-10-05 Canon Inc Visual language classification system
JP2002304626A (en) * 2001-02-02 2002-10-18 Matsushita Electric Ind Co Ltd Data classifying device and body recognizing device
JP2003032583A (en) * 2001-03-23 2003-01-31 Lg Electronics Inc Anchor shot detection method for news video browsing system
JP2003345830A (en) * 2002-05-29 2003-12-05 Nec Corp Video retrieval device, video retrieval method used therefor, and program therefor
JP2004054376A (en) * 2002-07-17 2004-02-19 Japan Science & Technology Corp Method and device for estimating group attribute

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4073156B2 (en) * 1999-07-14 2008-04-09 富士フイルム株式会社 Image search device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001273505A (en) * 1999-12-14 2001-10-05 Canon Inc Visual language classification system
JP2002304626A (en) * 2001-02-02 2002-10-18 Matsushita Electric Ind Co Ltd Data classifying device and body recognizing device
JP2003032583A (en) * 2001-03-23 2003-01-31 Lg Electronics Inc Anchor shot detection method for news video browsing system
JP2003345830A (en) * 2002-05-29 2003-12-05 Nec Corp Video retrieval device, video retrieval method used therefor, and program therefor
JP2004054376A (en) * 2002-07-17 2004-02-19 Japan Science & Technology Corp Method and device for estimating group attribute

Also Published As

Publication number Publication date
WO2006025272A1 (en) 2006-03-09
JP4973188B2 (en) 2012-07-11

Similar Documents

Publication Publication Date Title
JP4973188B2 (en) Video classification device, video classification program, video search device, and video search program
JP5106271B2 (en) Image processing apparatus, image processing method, and computer program
US20160358628A1 (en) Hierarchical segmentation and quality measurement for video editing
EP2426917A1 (en) Display control device, display control method, and program
US20080260255A1 (en) Image processing apparatus, imaging apparatus, image processing method, and computer program
CN107430780B (en) Method for output creation based on video content characteristics
JP2008501172A (en) Image comparison method
JP2010072708A (en) Apparatus for registering face identification features, method for registering the same, program for registering the same, and recording medium
JP6362085B2 (en) Image recognition system, image recognition method and program
JP2008252296A (en) Face index preparation apparatus for moving image and face image tracking method thereof
JP6649231B2 (en) Search device, search method and program
JP5618043B2 (en) Audiovisual processing system, audiovisual processing method, and program
Hasan et al. CAMHID: Camera motion histogram descriptor and its application to cinematographic shot classification
JP4496992B2 (en) Animal up-frame detection method, program, and storage medium storing program, and animal up-shot detection method, animal up-frame or shot detection method, program, and storage medium
US20110235859A1 (en) Signal processor
JP6203188B2 (en) Similar image search device
KR102102164B1 (en) Method, apparatus and computer program for pre-processing video
JP2012105205A (en) Key frame extractor, key frame extraction program, key frame extraction method, imaging apparatus, and server device
JP4606278B2 (en) Video structuring method, apparatus and program
JP2006244424A (en) Image scene classifying method and device and program
JP5685958B2 (en) Image display system
JP4909315B2 (en) Video processing apparatus and method, program, and computer-readable recording medium
JP2008090570A (en) Information processor and information processing method
JP2014170980A (en) Information processing apparatus, information processing method, and information processing program
JP7266490B2 (en) IMAGE PROCESSING DEVICE, CONTROL METHOD AND PROGRAM THEREOF

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120326

R150 Certificate of patent or registration of utility model

Ref document number: 4973188

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3