JP4301078B2 - 映像のインデクシング方法及びプログラム - Google Patents
映像のインデクシング方法及びプログラム Download PDFInfo
- Publication number
- JP4301078B2 JP4301078B2 JP2004148237A JP2004148237A JP4301078B2 JP 4301078 B2 JP4301078 B2 JP 4301078B2 JP 2004148237 A JP2004148237 A JP 2004148237A JP 2004148237 A JP2004148237 A JP 2004148237A JP 4301078 B2 JP4301078 B2 JP 4301078B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- face
- section
- time
- start time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Description
谷口行信、外村佳伸、浜田洋「映像ショット切替え検出法とその映像アクセスインタフェースへの応用」信学論(D-II), Vol. J79-D-II, no.4, pp.538-546, 1996 井出一郎、山本晃司、浜田玲子、田中英彦「ショット分類に基づく映像への自動索引付け手法」信学論(D-II), Vol.J-82-D-II, No. 4, pp.1543-1551, 1999 加藤晴久、柳原広昌、中島康之「ニュース索引のためのMPEGからのテロップ検出に関する研究」情報処理学会研究報告, No.35, pp. 31-36
第1の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点tを検出し、第2の記憶手段に格納し(ステップ1)、
第2の記憶手段に格納された無発話区間に基づいて、映像ファイルの映像を解析し、発話開始時点tの前後で映像中に映っている人物の顔の特徴情報を検出して、第3の記憶手段に格納し(ステップ2)、
発話開始時点tの前後で人物の顔の特徴情報が検出された場合には、該顔の特徴情報を解析して顔の動きの大きさを評価し(ステップ3)、
発話開始時点tの直前の無発話区間の時間長が所与の時間長T0よりも長いという条件を満たし、
かつ、該発話開始時点tの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所与の時間Tb前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所与の時間Ta後まで存在しているという条件を満たし、
かつ、映像の区間[t−Tb,t+Ta]において、該顔の動きの大きさが、所与の基準より小さいという条件を満たす場合に(ステップ4)、
該発話開始時点tを、映像の索引を格納する第4の記憶手段に追加する(ステップ5)。
第1の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点tを検出し、第2の記憶手段に格納し、
第2の記憶手段に格納された無発話区間に基づいて、映像ファイルの映像を解析し、発話開始時点tの前後で映像中に映っている人物の顔の特徴情報を検出して、第3の記憶手段に格納し、
発話開始時点tの前後で人物の顔の特徴情報が検出された場合には、該顔の特定の部品を解析して、該発話開始時点tの直前の無発話区間の時間長が所与の時間長T0よりも長いという条件を満たし、
かつ、該発話開始時点tの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が該発話開始時点tより、少なくとも所与の時間Tb前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所要の時間Ta後まで存在しているという条件を満たし、
かつ、映像の区間[t−Tb,t+Ta]において、該顔の部品の動きが、画面上で下から上へ動く動きであるという条件を満たし、
かつ、該顔の部品が下から上へ動く以前の顔の動きの大きさが所与の基準より小さいという条件を満たし、
かつ、該顔の部品が下から上へ動いた以後の該顔の動きの大きさが所与の基準より小さいという条件を満たす場合に、
該発話開始時点tを、映像の索引を格納する第4の記憶手段に追加する。
顔の部品の画像上の位置の時系列を求め、
位置の時系列の分散を求め、
分散を顔の動きの大きさを表す尺度として用いる。
顔の特定の部品の画像上の位置の時系列を求め、
位置の時系列を、その動きの変化の激しい部位にて前後に分け、
位置の時系列の前部に限って該位置の時系列の分散vaを求め、
位置の時系列の後部に限って該位置の時系列の分散vbを求め、
分散vaとvbとを顔の動きの大きさを表す尺度として用いる。
音声の振幅の大きさを所与の時間にわたって平均した値が所与の時間以上連続して所与の閾値より小さい区間を無発話区間とし、
無発話区間以外を発話がなされている区間と見做す。
請求項1記載の5つの条件を満たした上で、あるいは、請求項2に記載の7つの条件を満たした上で、
映像区間[t−Tb,t+Ta]において、
顔の動きを評価し、カメラに対して正面向きから横首振りの変異が所与の値より小さいという条件を満たす場合に対応する発話開始時点tを前記第4の記憶手段の前記映像の索引に追加する。
上記の請求項1乃至6記載の映像のインデクシング方法の実現に用いられる処理をコンピュータに実行させる。
t=(1/29.97)f
なる関係が成立する(Tの単位は秒、fの単位はフレーム)。以降の説明では、時刻を表すためにフレーム番号を用いる。
p*ibi,…,p*it
が得られる。
p*it,…,p*iei
が得られる。
ステップ314) 変数iにi+1を代入する。
ステップ318) 特徴ベクトル系列Piを分割し、部分系列P’i,P”iを求める。この処理は、キャスターが顔を上げてカメラを見て話し始めるような動作をする際に、系列Piを、顔を上げる前の系列P’iと、顔を上げた後で系列P”iに分けることを目的とするものである。そのためには、動きの大きい部分を境界にして、その前後に分けるとよい。例えば、
P’i={p*i,t−Tb,…,p*i,k−1},
P”i={p*i,k,…,p*i,t+Ta}
とする。あるいは、P’iとP”iの動きの大きさの和が最小になるようなkを探して分割してもよいし、他の方法で分割してもよい。
v=V(P#i),v’=V(P’i),v”=V(P”i)
を計算する。なお、特徴ベクトルの系列の動きの大きさは、上記の定義に限らず、他の方法で計ってもよい。
d*=(xik−xi,k−1,yik−yi,k−1)
とする。
102 情報処理装置
201 映像ファイル
202 無発話区間検出処理部
203 無発話区間記憶部
204 顔特徴検出追跡処理部
205 顔特徴ベクトル系列記憶部
206 特徴ベクトル系列評価処理部
207 話題開始時刻記憶部
501 フレーム
502 音声信号
Claims (7)
- 映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
第1の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点tを検出し、第2の記憶手段に格納し、
前記第2の記憶手段に格納された前記無発話区間に基づいて、前記映像ファイルの映像を解析し、前記発話開始時点tの前後で映像中に映っている人物の顔の特徴情報を検出して、第3の記憶手段に格納し、
前記発話開始時点tの前後で人物の顔の特徴情報が検出された場合には、該顔の特徴情報を解析して顔の動きの大きさを評価し、
前記発話開始時点tの直前の無発話区間の時間長が所与の時間長T0よりも長いという条件を満たし、
かつ、該発話開始時点tの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所与の時間Tb前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所与の時間Ta後まで存在しているという条件を満たし、
かつ、映像の区間[t−Tb,t+Ta]において、該顔の動きの大きさが、所与の基準より小さいという条件を満たす場合に、
該発話開始時点tを、映像の索引を格納する第4の記憶手段に追加することを特徴とする映像のインデクシング方法。 - 映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシング方法において、
第1の記憶手段から映像ファイルを読み出して、該映像ファイルの映像を解析し、無発話区間と、該無発話区間の後に発話が開始された発話開始時点tを検出し、第2の記憶手段に格納し、
前記第2の記憶手段に格納された前記無発話区間に基づいて、前記映像ファイルの映像を解析し、前記発話開始時点tの前後で映像中に映っている人物の顔の特徴情報を検出して、第3の記憶手段に格納し、
前記発話開始時点tの前後で人物の顔の特徴情報が検出された場合には、該顔の特定の部品を解析して、該発話開始時点tの直前の無発話区間の時間長が所与の時間長T0よりも長いという条件を満たし、
かつ、該発話開始時点tの前と後とで同一人物の顔が継続して存在するという条件を満たし、
かつ、該顔が該発話開始時点tより、少なくとも所与の時間Tb前から存在しているという条件を満たし、
かつ、該顔が、該発話開始時点tより、少なくとも所要の時間Ta後まで存在しているという条件を満たし、
かつ、映像の区間[t−Tb,t+Ta]において、該顔の部品の動きが、画面上で下から上へ動く動きであるという条件を満たし、
かつ、該顔の部品が下から上へ動く以前の顔の動きの大きさが所与の基準より小さいという条件を満たし、
かつ、該顔の部品が下から上へ動いた以後の該顔の動きの大きさが所与の基準より小さいという条件を満たす場合に、
該発話開始時点tを、映像の索引を格納する第4の記憶手段に追加することを特徴とする映像のインデクシング方法。 - 前記顔の動きの大きさを評価するために、
顔の部品の画像上の位置の時系列を求め、
前記位置の時系列の分散を求め、
前記分散を顔の動きの大きさを表す尺度として用いる、請求項1記載の映像のインデクシング方法。 - 前記顔の動きを評価するために、
前記顔の特定の部品の画像上の位置の時系列を求め、
前記位置の時系列を、その動きの変化の激しい部位にて前後に分け、
前記位置の時系列の前部に限って該位置の時系列の分散vaを求め、
前記位置の時系列の後部に限って該位置の時系列の分散vbを求め、
前記分散vaとvbとを顔の動きの大きさを表す尺度として用いる、請求項2記載の映像のインデクシング方法。 - 前記無発話区間を検出する際に、
音声の振幅の大きさを所与の時間にわたって平均した値が所与の時間以上連続して所与の閾値より小さい区間を前記無発話区間とし、
前記無発話区間以外を発話がなされている区間と見做す、請求項1または、2記載の映像のインデクシング方法。 - 請求項1記載の5つの条件を満たした上で、あるいは、請求項2に記載の7つの条件を満たした上で、
前記映像区間[t−Tb,t+Ta]において、
顔の動きを評価し、カメラに対して正面向きから横首振りの変異が所与の値より小さいという条件を満たす場合に対応する発話開始時点tを前記第4の記憶手段の前記映像の索引に追加する、請求項1または、2記載の映像のインデクシング方法。 - 映像から話題の開始点を検出することにより該映像に索引を付与するための映像のインデクシングプログラムであって、
請求項1乃至6記載の映像のインデクシング方法を実現させるための処理をコンピュータに実行させることを特徴とする映像のインデクシングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004148237A JP4301078B2 (ja) | 2004-05-18 | 2004-05-18 | 映像のインデクシング方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004148237A JP4301078B2 (ja) | 2004-05-18 | 2004-05-18 | 映像のインデクシング方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005333262A JP2005333262A (ja) | 2005-12-02 |
JP4301078B2 true JP4301078B2 (ja) | 2009-07-22 |
Family
ID=35487633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004148237A Expired - Fee Related JP4301078B2 (ja) | 2004-05-18 | 2004-05-18 | 映像のインデクシング方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4301078B2 (ja) |
-
2004
- 2004-05-18 JP JP2004148237A patent/JP4301078B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005333262A (ja) | 2005-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7298930B1 (en) | Multimodal access of meeting recordings | |
US10108709B1 (en) | Systems and methods for queryable graph representations of videos | |
US7336890B2 (en) | Automatic detection and segmentation of music videos in an audio/video stream | |
RU2494566C2 (ru) | Устройство и способ управления отображением | |
Lee et al. | Portable meeting recorder | |
JP4973188B2 (ja) | 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム | |
US8804999B2 (en) | Video recommendation system and method thereof | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
US6404925B1 (en) | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition | |
US6751354B2 (en) | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models | |
US7945142B2 (en) | Audio/visual editing tool | |
JP4831623B2 (ja) | 動画像の顔インデックス作成装置およびその顔画像追跡方法 | |
US20120057775A1 (en) | Information processing device, information processing method, and program | |
KR20140114238A (ko) | 오디오와 결합된 이미지 표시 방법 | |
Hoover et al. | Putting a face to the voice: Fusing audio and visual signals across a video to determine speakers | |
TW200921454A (en) | Method and apparatus for video digest generation | |
WO2000016243A1 (en) | Method of face indexing for efficient browsing and searching ofp eople in video | |
Jou et al. | Structured exploration of who, what, when, and where in heterogeneous multimedia news sources | |
US20110235859A1 (en) | Signal processor | |
JP2019186689A (ja) | 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体 | |
Heng et al. | How to assess the quality of compressed surveillance videos using face recognition | |
Hoover et al. | Using audio-visual information to understand speaker activity: Tracking active speakers on and off screen | |
CN116916089A (zh) | 一种融合人声特征与人脸特征的智能视频剪辑方法 | |
CN105847964A (zh) | 一种影视节目处理方法和系统 | |
JP4301078B2 (ja) | 映像のインデクシング方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060720 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081118 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090331 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090413 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130501 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140501 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |