JP6344849B2 - 映像識別器学習装置、及びプログラム - Google Patents

映像識別器学習装置、及びプログラム Download PDF

Info

Publication number
JP6344849B2
JP6344849B2 JP2014131273A JP2014131273A JP6344849B2 JP 6344849 B2 JP6344849 B2 JP 6344849B2 JP 2014131273 A JP2014131273 A JP 2014131273A JP 2014131273 A JP2014131273 A JP 2014131273A JP 6344849 B2 JP6344849 B2 JP 6344849B2
Authority
JP
Japan
Prior art keywords
unit
video data
video
audio signal
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014131273A
Other languages
English (en)
Other versions
JP2016009430A (ja
Inventor
貴裕 奥
貴裕 奥
庄衛 佐藤
庄衛 佐藤
貴裕 望月
貴裕 望月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014131273A priority Critical patent/JP6344849B2/ja
Publication of JP2016009430A publication Critical patent/JP2016009430A/ja
Application granted granted Critical
Publication of JP6344849B2 publication Critical patent/JP6344849B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、映像識別器学習装置、及びプログラムに関する。
映像にどのような物体が映っているのか、あるいは、映像がどのようなシーンであるかを認識する物体認識技術では、認識を行うための識別器を事前に学習する。物体認識を行う際、識別器は、映像から抽出された特徴を入力とし、その映像に検出対象の物体が映っているか否か、あるいは、その映像が検出対象のシーンであるか否かを判別し、判別結果を2値で出力する。識別器の学習には、映っている物体やシーンを表すラベルが付与された多量の学習用の映像データが用いられる。学習用の映像データにラベルを付与する方法には、人手で付与する方法や(例えば、非特許文献1参照)、放送のクローズドキャプションを利用する方法もある(例えば、非特許文献2参照)。
P. Duygulu,K. Barnard,J.F.G. de Freitas,D.A. Forsyth1、「Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary」、ECCV '02 Proceedings of the 7th European Conference on Computer Vision-Part IV、2002年、p.97−112 河合吉彦、藤井真人、「クローズドキャプションと画像特徴を考慮した反復的学習に基づく映像検索システム」、一般社団法人映像情報メディア学会、映像情報メディア学会年次大会講演予稿集、2012年、23-7-1-"23-7-2"
上述のように、映像に映っている物体や映像のシーンなどの検出対象を認識するための識別器の学習には、検出対象に対応したラベルが付与された学習用の映像データが必要である。
ところで、放送番組における解説放送は、放送番組のナレーションやセリフとは別に、主に視覚障碍者のために番組の映像を解説音声で説明するサービスである。解説放送では、人物の動作を描写したり、場所・時刻を伝えたり、映像中の文字を読んだりする。一方、字幕放送は、聴力に障碍のある方や、テレビの音声が聞こえにくい高齢者の方のために、テレビの音声を文字で字幕化するサービスである。このサービスで放送される字幕が、「クローズドキャプション」である。
図5は、あるドラマ番組のクローズドキャプションと解説音声の書き起こしを時系列で並べた例を示す図である。開始時刻及び終了時刻は、クローズドキャプションの字幕に書き起こしの内容が表示された開始時刻及び終了時刻、あるいは、解説音声において書き起こしの内容が発話された開始時刻及び終了時刻を示す。字幕/解説は、書き起こしの内容がクローズドキャプションの字幕から得られたか、解説音声から得られたかの種別を示す。<字幕>と<解説>の書き起こしの内容を比較すると、登場人物のセリフなど、耳で聞いて認識するような情報は、<字幕>には含まれるが、<解説>には含まれない。一方で、「職員室」、「笑顔」など、目で見て認識するような情報は、<解説>に含まれるが<字幕>には含まれない。
上記のように、クローズドキャプションには映像に映っている物体や映像のシーンを表す単語が含まれていないことも多い。そのため、人手によるラベル付与にかかる負担を軽減するために、放送のクローズドキャプションを利用して映像データにラベルを付与した場合、十分な学習用の映像データを用意することができず、高い精度の識別器を学習することができない可能性があった。
本発明は、このような事情を考慮してなされたもので、物体やシーンなどの検出対象に対応した映像であるか否かを識別するための識別器を精度よく学習することができる映像識別器学習装置、及びプログラムを提供する。
本発明の一態様は、番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出部と、前記解説音声抽出部が抽出した前記解説音声信号を音声認識する音声認識部と、前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理部と、を備えることを特徴とする映像識別器学習装置である。
この発明によれば、映像識別器学習装置は、番組音声の音声信号と、解説音声が付加された番組音声の音声信号とを比較して抽出した解説音声信号を音声認識する。映像識別器学習装置は、音声認識の結果からラベルとなる単語を抽出し、抽出した単語と、当該単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて識別器を学習する。
これにより、映像識別器学習装置は、人手をかけることなく、精度よく映像データにラベルを付与して識別器の学習に用いることができるため、従来よりも精度の高い識別器を学習することができる。
本発明の一態様は、上述する映像識別器学習装置であって、前記識別器学習処理部は、前記番組映像データをシーン毎に分割した分割映像データを出力するシーン分割部と、前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語の発話時刻に対応した時刻の前記分割映像データに前記単語をラベルとして付与するラベル付与部と、前記ラベル付与部がラベルを付与した前記分割映像データを用いて前記識別器を学習する識別器学習部とを備える、ことを特徴とする。
この発明によれば、映像識別器学習装置は、番組映像データの各シーンにラベルを付与し、シーン毎にラベルが付与された番組映像データを用いて識別器を学習する。
これにより、映像識別器学習装置は、映像のシーン毎に解説音声に基づいてラベルを付与するため、解説音声の発話のタイミングと発話内容に対応する映像のタイミングとがずれている場合でも、精度よく映像データにラベルを付与することができる。
本発明の一態様は、上述する映像識別器学習装置であって、前記音声認識部が音声認識に用いる音響モデルを、前記解説音声抽出部が抽出した前記解説音声信号と前記音声認識部による前記音声認識の結果とを用いて適応化する処理と、前記音声認識部が音声認識に用いる言語モデルを、前記音声認識部による前記音声認識の結果、番組のクローズドキャプション、番組情報のうち1以上を用いて適応化する処理との少なくともいずれか一方を行う適応化部をさらに備える、ことを特徴とする。
この発明によれば、映像識別器学習装置は、解説者に適応化した音響モデルや、番組に適応化した言語モデルにより解説音声信号を音声認識し、音声認識した結果得られた単語をラベルとして映像データに付加する。
これにより、映像識別器学習装置は、精度よく解説音声を音声認識することができるため、映像データに適切なラベルを付与することができる。
本発明の一態様は、上述する映像識別器学習装置であって、前記識別器学習処理部により学習された前記識別器を用いて映像データを認識する認識部をさらに備える、ことを特徴とする。
この発明によれば、映像識別器学習装置は、学習した識別器を用いて映像データを認識する。
これにより、映像識別器学習装置は、映像に映っている物体や映像に含まれるシーンを精度よく識別することができる。
本発明の一態様は、上述する映像識別器学習装置であって、前記第1音声信号及び前記第2音声信号は、放送番組の主音声信号及び副音声信号である、ことを特徴とする。
この発明によれば、映像識別器学習装置は、解説放送番組の主音声信号及び副音声信号から解説音声信号を抽出し、抽出した解説音声信号を音声認識した結果得られた単語をラベルとして放送番組の映像データに付加する。
これにより、映像識別器学習装置は、放送番組を利用して識別器を学習することができる。
本発明の一態様は、コンピュータを、番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出手段と、前記解説音声抽出手段が抽出した前記解説音声信号を音声認識する音声認識手段と、前記音声認識手段による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理手段と、を具備する映像識別器学習装置として機能させるためのプログラムである。
本発明によれば、物体やシーンなどの検出対象に対応した映像であるか否かを識別するための識別器を精度よく学習することができる。
同実施形態による映像識別器学習装置の構成を示す機能ブロック図である。 同実施形態による映像識別器学習装置の識別器学習処理の処理フローを示す図である。 同実施形態による解説音声抽出部の解説音声信号抽出処理の処理フローを示す図である。 同実施形態による音声認識結果を示す図である。 クローズドキャプションと解説音声の書き起こしを時系列で並べた図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態の映像識別器学習装置は、解説放送番組の主音声チャンネルと副音声チャンネルを比較して解説音声を抽出する。本実施形態の映像識別器学習装置は、抽出した解説音声を音声認識した結果得られた単語を、その単語の発話時刻に対応した映像区間の番組映像データにラベルとして付与する。本実施形態の映像識別器学習装置は、ラベルが付与された番組映像データを用いて、映像が物体やシーンなどの検出対象に対応するか否かを判定するための識別器を学習する。識別器は、検出対象が物体である場合は、検出対象の物体が映像中に表示されているか否かを判定し、検出対象がシーンであれば、映像に表示される一連の動作がその検出対象のシーンであるか否かを判定する。
上記のように、本実施形態の映像識別器学習装置は、映像中の物体やシーンを説明する解説音声の認識結果に基づいて映像データにラベルを付与して学習用映像データを生成する。従って、本実施形態の映像識別器学習装置は、人的コスト及び時間的コストを低減しながら、クローズドキャプションを用いるよりも精度よく映像データにラベルを付与し、大量の学習用映像データを生成することができる。本実施形態の映像識別器学習装置は、このように精度よくラベルが付与された大量の学習用映像データを用いることによって、精度の高い識別器を学習することができる。
図1は、本実施形態の映像識別器学習装置1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。映像識別器学習装置1は、例えば、コンピュータ装置により実現され、解説音声認識結果抽出部2、識別器学習処理部3、及び認識処理部4を備えて構成される。
解説音声認識結果抽出部2は、解説音声抽出部21、音響モデル記憶部22、言語モデル記憶部23、音声認識部24、及びモデル適応化部25を備えて構成される。
解説音声抽出部21は、解説放送番組の主音声信号と副音声信号とを比較し、解説音声信号を抽出する。主音声信号は、解説なしの番組音声の音声信号(第1音声信号)であり、副音声信号は、番組音声に対して解説音声を付加した解説付き音声の音声信号(第2音声信号)である。解説付き音声においては、番組音声と解説音声は重ならずに発話されることがほとんどである。解説音声信号は、解説音声の音声信号である。
音響モデル記憶部22は、各音素の周波数特性を表す音響モデルを記憶する。言語モデル記憶部23は、単語のつながり易さを表す言語モデルを記憶する。音声認識部24は、解説音声抽出部21が抽出した解説音声信号を、音響モデル記憶部22に記憶されている音響モデル、及び、言語モデル記憶部23に記憶されている言語モデルを用いて音声認識する。音声認識部24は、解説音声信号の音声認識結果を設定した音声認識結果データを出力する。音声認識結果は、形態素単位の発話内容の書き起こしと、各形態素が発話された開始時刻及び終了時刻を含む。
モデル適応化部25は、音響モデル記憶部22に記憶されている音響モデルを解説音声の発話者に応じて適応化し、言語モデル記憶部23に記憶されている言語モデルを番組に応じて適応化する。音響モデル及び言語モデルの適応化には、解説音声信号と、その解説音声信号の音声認識結果が示す解説内容が用いられる。
識別器学習処理部3は、シーン分割部31、ラベル付与部32、及び識別器学習部33を備えて構成される。
シーン分割部31は、解説放送番組の映像データ(番組映像データ)を類似したシーン毎に分割し、シーン毎に分割された映像データである分割映像データを出力する。ラベル付与部32は、シーン分割部31から出力された分割映像データに、音声認識部24から出力された音声認識結果データが示す解説音声の音声認識結果に基づいてラベルを付与する。識別器学習部33は、ラベル付与部32がラベルを付与した分割映像データを学習用映像データとして用い、識別器34を学習する。識別器34は、映像データから得られる映像の特徴量に基づいて、映像データが検出対象の単語に関連するか否かを検出する。
認識処理部4は、シーン分割部41、及び認識部42を備えて構成される。
シーン分割部41は、シーン分割部31と同様の処理により、認識対象のコンテンツの映像データをシーン毎に分割し、分割映像データを出力する。認識対象のコンテンツは、解説放送番組でもよく、解説放送番組以外の放送番組でもよく、放送番組以外の動画でもよい。本実施形態では、認識対象のコンテンツが放送番組である場合を例に説明する。認識部42は、シーン分割部41から出力された分割映像データに対して、識別器学習部33が学習した識別器34により認識を行い、認識結果を設定した認識結果データを出力する。
続いて、映像識別器学習装置1の動作を説明する。
図2は、映像識別器学習装置1の識別器学習処理の処理フローを示す図である。
まず、映像識別器学習装置1に解説放送番組の主音声信号、副音声信号、及び、映像データが入力される(ステップS110:YES)。これらは、例えば、放送信号から得られる。ステレオ二重放送の場合、主音声と副音声のそれぞれLチャンネルの音声信号及びRチャンネルの音声信号が入力される。解説音声認識結果抽出部2は入力された主音声信号及び副音声信号を受信し、識別器学習処理部3は、入力された映像データを受信する。
解説音声認識結果抽出部2の解説音声抽出部21は、解説放送の主音声信号と副音声信号を比較して、解説音声信号を抽出する(ステップS120)。解説音声信号を精度よく抽出するために、主音声信号と副音声信号の同期が合っていない場合には、両信号の同期を正確に合わせてから比較する必要がある。そこでまず、解説音声抽出部21は、主音声信号と副音声信号の同期を合わせる処理を行う。開始時刻t、音声区間長Tの主音声信号、副音声信号をそれぞれ、x t+T=[x(t)…x(t+T−1)]、y t+T=[y(t)…y(t+T−1)]とする。解説音声抽出部21は、以下の式(1)で表される相関係数rが最大となるように、同期ズレ時間aを算出する。なお、音声区間長Tは、予想される同期ズレ時間aよりも十分長い時間とする。
Figure 0006344849
ここで、S(x,y)は、変数xとyの共分散を表し、S(x)は変数xの標準偏差、S(y)は変数yの標準偏差を表す。
解説音声抽出部21は、音声区間長T毎に、算出された同期ズレ時間aを用いて主音声信号と副音声信号の同期を合わせる。解説音声抽出部21は、同期を合わせた主音声信号と副音声信号から、副音声信号に重畳されている解説音声の音声信号を抽出する。解説音声の音声信号の抽出方法には、例えば、以下の抽出方法A〜Cがある。
(抽出方法A)
解説音声抽出部21は、主音声信号及び副音声信号のそれぞれに対して短時間の窓かけを行う。窓かけを行う部分は、窓の大きさに応じて時間方向に順にシフトさせる。解説音声抽出部21は、窓毎に主音声信号のパワーと副音声信号のパワーの差を計算する。解説音声抽出部21は、計算したパワーの差が、予め決められた閾値よりも小さい場合、その窓の音声区間は解説音声以外の音声区間と判断する。一方、解説音声抽出部21は、計算したパワーの差が、予め決められた閾値以上である場合、その窓の音声区間を解説音声区間として特定する。解説音声抽出部21は、特定した解説音声区間における副音声信号を解説音声信号として抽出する。解説音声信号には、開始時刻及び終了時刻が付与される。なお、抽出方法Aを用いる場合、主音声信号と副音声信号の同期を合わせる処理は必ずしも必要ではない。
(抽出方法B)
解説音声抽出部21は、副音声信号を解説音声に解説音声以外の雑音が付加された音声信号、主音声信号を解説音声以外の雑音の音声信号と考え、スペクトルサブトラクション法により、副音声信号から解説音声信号のみを抽出する。このとき、解説音声抽出部21は、副音声信号から雑音として除去する音声信号の特徴を、主音声信号から取得する。
(抽出方法C)
抽出方法Cでは、解説音声抽出部21は、副音声信号が示す音声から主音声信号が示す音声を減算し、その差分の音声の音声信号を解説音声信号として抽出する。ただし、解説音声が重畳されていない区間において、主音声と副音声の間で音声レベルに差がある場合には、単純に減算処理するだけでは、解説以外の音声を精度よく除去することができず、解説音声に対する雑音として残留してしまう。このような雑音を精度よく除去するため、解説音声抽出部21は、音声区間長T毎に主音声信号と副音声信号の相関係数を計算し、相関係数が一定の閾値以上の区間については、解説音声信号の値を全て0としてもよい。
図3は、抽出方法Cによる解説音声抽出部21の解説音声信号抽出処理の処理フローを示す図である。
まず、解説音声抽出部21は、tに初期値0を設定する(ステップS210)。解説音声抽出部21は、主音声信号x t+Tと副音声信号yt+a t+a+Tの相関係数r(x t+T,yt+a t+a+T)が閾値rthre以上であるか否かを判断する(ステップS220)。相関係数は、上述した式(1)により算出される。
解説音声抽出部21は、相関係数が閾値以上であると判断した場合(ステップS220:YES)、開始時刻t、音声区間長Tの解説音声信号z t+Tの値を全て0とする(ステップS230)。
一方、解説音声抽出部21は、相関係数が閾値未満であると判断した場合(ステップS220:NO)、解説音声信号z t+Tを、副音声信号yt+a t+a+Tから主音声信号x t+Tを減算した値とする(ステップS240)。
ステップS230またはステップS240の処理の後、解説音声抽出部21は、全音声信号についてステップS220〜ステップS240の処理を終了したか否かを判断する(ステップS250)。解説音声抽出部21は、まだ終了していないと判断した場合(ステップS250:NO)、tの値にTを加算して更新した後(ステップS260)、ステップS220からの処理を繰り返す。そして、解説音声抽出部21は、全音声信号についてステップS220〜ステップS240の処理を終了したと判断した場合(ステップS250:YES)、処理を終了する。
解説音声抽出部21は、上記のいずれかの抽出方法により抽出した解説音声信号を音声認識部24に出力する。
図2において、音声認識部24は、解説音声抽出部21が抽出した解説音声信号を、音響モデル記憶部22に記憶されている音響モデル、及び、言語モデル記憶部23に記憶されている言語モデルを用いて従来技術と同様に音声認識する(ステップS130)。
図4は、音声認識結果の例を示す図である。同図に示すように、解説音声信号の音声認識結果は、解説音声の発話内容に含まれる単語と、それら各単語の開始時刻及び終了時刻を含む。解説音声の発話内容に含まれる単語は、形態素に相当する。例えば、開始時刻「03:46.52」から終了時刻「03:47.01」までは「笑顔」と発話され、開始時刻「03:47.02」から終了時刻「03:47.04」までは「で」と発話されたことを示す。
音声認識部24は、音声認識結果を設定した音声認識結果データを出力する。
モデル適応化部25は、解説音声信号と、音声認識結果データが示すその解説音声信号の音声認識結果を用いて、音響モデル及び言語モデルを従来技術により適応化(教師なし適応化)する(ステップS140)。例えば、音響モデルの適応化の手法には、MLLRやMAP推定がある。また、言語モデルの適応化の手法には、線形補間法がある。
なお、MLLRは、例えば、「C. J. Leggetter and P. C. Woodland、“Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models”、Computer Speech and Language、1995年、Volume9、p.171−185」(文献1)に記載されている。
また、MAP推定は、例えば、「J. Gauvain and Chin-Hui Lee、“Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”、Speech and Audio Processing、IEEE Transactionson、1994年、Volume2、Issue2、p.291−298」(文献2)に記載されている。
また、線形補間法は、例えば、「北 研二、“確率的言語モデル”、東京大学出版会、1999年、p.63−66」(文献3)に記載されている。
同じ解説放送番組であれば、同一人物の解説音声が使用されることが多い。また、各ドラマでは放送番組によって使用されやすい単語も異なる。そこで、モデル適応化部25は、解説放送番組に応じて音響モデル及び言語モデルを適応化し、適応化した音響モデル及び言語モデルをその解説放送番組の番組IDと対応づけてそれぞれ音響モデル記憶部22、言語モデル記憶部23に登録する。モデル適応化部25は、解説音声の音声認識結果に加えて、あるいは、解説音声の音声認識結果に代えて、解説放送番組のクローズドキャプションや、電子番組ガイドから取得したその解説放送番組の番組情報を言語モデルの適応化に利用することもできる。クローズドキャプションや電子番組ガイドは、例えば、放送信号から得ることができる。これらの情報を適応化に利用することで、解説音声で発話されるドラマの登場人物や場所の名前などの固有名詞を効率的に学習することができる。音声認識部24は、適応化後の繰り返し処理で再びステップS130において音声認識を行う際、主音声信号及び副音声信号が得られた解説放送番組の番組IDに対応付けられた音響モデル及び言語モデルを用いる。主音声信号及び副音声信号が得られた解説放送番組と同じジャンルの解説放送番組など、類似あるいは関連した解説放送番組の番組IDに対応付けられた音響モデル及び言語モデルを用いてもよい。なお、モデル適応化部25は、音響モデルの適応化と言語モデルの適応化の一方のみを行ってもよい。
識別器学習処理部3のシーン分割部31は、既存の技術を用いて解説放送番組の映像データを類似したシーン毎に分割する(ステップS140)。このシーン分割には、画像特徴量を用いて同じ場面のショット(カットともいう)をまとめてシーンと判断する既存技術を用いることができる。
具体的には、シーン分割部31が備える図示しない記憶部(映像識別器学習装置1に接続される外部の記憶装置でもよい。)に、予め、複数の映像から生成した画像片ワードを記憶しておく。画像片ワードを生成するためには、複数の映像からサンプリングしたフレーム画像を所定の画像サイズに区切ってブロック画像とし、各ブロック画像の特徴量を表す特徴ベクトルに基づいてブロック画像集合をクラスタリングする。画像片ワードは、各クラスタの中心ベクトルを要素するベクトルとして得られる。シーン分割部31は、入力された解説放送番組の映像データを、既存の任意のショット検出技術を用いてショット毎に分割し、ショット系列を生成する。シーン分割部31は、解説放送番組の映像データの各ショットから所定間隔毎のフレーム画像をサンプリングすると、サンプリングしたフレーム画像を所定の画像サイズに区切ったブロック画像から画像の特徴量を表す特徴ベクトルを取得する。シーン分割部31は、ショット毎に特徴ベクトルと画像片ワードとの類似性に基づいて、画像片ワードのヒストグラムを算出する。このヒストグラムにより、各ショットにどの種類のブロック画像がどのくらい存在するかの出現比率が得られる。シーン分割部31は、各ショットのヒストグラムの変化量に基づいて、ショットを統合してシーンに分割する。シーン分割部31は、映像データをシーン毎に分割して分割映像データを生成し、ラベル付与部32に出力する。
ラベル付与部32は、シーン分割部31から出力された各シーンの分割映像データに、音声認識部24が出力した音声認識結果データにより示される解説音声の音声認識結果に基づいてラベルを付与する(ステップS150)。例えば、ラベル付与部32は、まだラベルを付加していない分割映像データを一つ選択し、音声認識結果データが示す認識結果の単語の中から、選択した分割映像データの開始時刻及び終了時刻の範囲内に開始時刻または終了時刻が含まれる単語を特定する。ラベル付与部32は、特定した単語から助詞や助動詞などの所定の品詞の単語を除外してラベルとなる単語を取得する。ラベル付与部32は、取得した単語を示すラベルデータを選択中の分割映像データに付加する。ラベル付与部32は、まだラベルを付加していない分割映像データを選択し、同様の処理を繰り返す。これにより、例えば、ラベル付与部32は、開始時刻「03:45.00」、終了時刻「03:55.00」のシーンの分割映像データに、図4に示す解説音声の認識結果の単語のうち、「笑顔」、「廊下」、「行く」、「セリ」、「職員室」、「前」を示すラベルデータを付与する。
映像識別器学習装置1は、解説放送番組の入力がまだある場合(ステップS110:YES)、ステップS120〜ステップS160の処理を繰り返す。解説放送番組の入力がない場合(ステップS110:NO)、識別器学習部33は、各検出対象に対応する識別器34を、その検出対象の単語がラベルとして付与された分割映像データを用いて学習する(ステップS170)。そこで、識別器学習部33は、各分割映像データに付加されたラベルデータを参照して、識別器34を学習する対象のラベルを抽出する。あるいは、識別器学習部33は、ユーザから識別器34を学習する対象のラベルの入力を受けてもよい。識別器学習部33は、識別器34を学習する対象のラベルが付与された分割映像データを選択する。例えば、識別器学習部33は、識別器34を学習する対象のラベル「笑顔」を含んだラベルデータが付与された分割映像データを全て選択する。識別器学習部33は、選択した分割映像データから取得した映像の特徴量を用いて、「笑顔」に対応する映像の識別器34を機械学習により学習する。機械学習には、例えば、サポートベクターマシンやランダムフォレストなどを用いることができるが、他の教師あり学習の手法を用いてもよい。また、映像の特徴量には、任意の1以上の種類の特徴量を用いることができる。例えば、SIFT(Scale-Invariant Feature Transform)特徴量、PCA(Principal Component Analysis)−SIFT特徴量、Haar−like特徴量、HOG(Histograms of Oriented Gradients)特徴量、LBP(Local Binary Pattern)特徴量などを用いることができるが、他の特徴量を用いてもよい。
なお、上述した識別器学習処理において、映像識別器学習装置1は、ステップS120〜ステップS140の処理と、ステップS150の処理とを並行して行ってもよく、ステップS150の処理の後にステップS120〜ステップS140の処理を行ってもよい。また、映像識別器学習装置1は、ステップS140の処理をステップS150またはステップS160の処理の後に、あるいは、ステップS150またはステップS160の処理と並行して実行してもよく、ステップS140の処理を行わなくともよい。
映像識別器学習装置1の認識処理部4は、上記の識別器学習処理により学習された識別器34を用いて放送番組の映像を認識し、映像に含まれるシーン毎の認識結果を出力する。
映像にどのようなシーンが含まれているか、また、どのような物体が表示されているかの認識を行う場合、映像識別器学習装置1は、以下のように動作する。
まず、認識対象の放送番組の映像データが映像識別器学習装置1の認識処理部4に入力される。シーン分割部41は、シーン分割部31と同様の処理により、認識対象の放送番組の映像データをシーン毎に分割し、分割映像データを出力する。
認識部42は、全ての識別器34それぞれを用いて、各分割映像データの認識を行う。例えば、「笑顔」に対応した識別器34を用いて分割映像データを認識することによって、分割映像データが「笑顔」に対応しているか否かの判定結果が得られる。「笑顔」に対応しているか否かとは、分割映像データに認識対象である「笑顔」のシーンが含まれるか否かを意味する。また、「廊下」に対応した識別器34を用いて分割映像データを認識することによって、分割映像データが「廊下」に対応しているか否かの判定結果が得られる。「廊下」に対応しているか否かとは、映像中に認識対象である「廊下」が表示されているか否かを意味する。認識部42は、各分割映像データの認識結果を設定した認識結果データを出力する。例えば、認識結果データには、各分割映像データ(シーン)の開始時刻及び終了時刻と、各分割映像データが対応していると判断された認識対象とが含まれる。
また、キーワードに対応した放送番組の映像を検索する場合、映像識別器学習装置1は、以下のように動作する。
認識処理部4は、各放送番組の映像データに対して上記のように全ての識別器34を用いた認識処理を行い、放送番組の識別情報と認識結果とを対応付けて内部に備える図示しない記憶部(映像識別器学習装置1に接続される外部の記憶装置でもよい。)に記憶しておく。認識処理部4にキーワードが入力された場合、認識部42は、記憶部に記憶されている各放送番組の認識結果を、入力されたキーワードにより検索する。なお、キーワードに加えて検索対象の放送番組の情報が入力された場合、認識部42は、検索対象の放送番組の認識結果を、入力されたキーワードにより検索する。認識部42は、キーワードに対応するとして特定された分割映像データの開始時刻及び終了時刻と、特定された分割映像データが認識結果に含まれる放送番組の識別情報を取得する。認識部42は、映像識別器学習装置1の内部または外部に備えるデータベース等から放送番組の識別情報に対応した番組情報を読み出し、読み出した番組情報と分割映像データの情報を認識結果データとして出力する。番組情報は、例えば、放送番組の番組IDや放送番組のタイトル、放送番組の説明など任意とすることができる。また、分割映像データの情報は、分割映像データの開始時刻及び終了時刻でもよく、その開始時刻及び終了時刻の放送番組の映像データやその映像データから抽出した静止画でもよい。
また、映像がキーワードに対応しているか否かを検索する場合、映像識別器学習装置1は、以下のように動作する。
まず、認識対象の放送番組の映像データとキーワードが映像識別器学習装置1の認識処理部4に入力される。シーン分割部41は、シーン分割部31と同様の処理により、認識対象の放送番組の映像データをシーン毎に分割し、分割映像データを出力する。
認識部42は、キーワードに対応した識別器34を用いて各分割映像データの認識を行う。認識部42は、キーワードに対応した識別器34を用いた認識により、キーワードに対応していると判断された分割映像データがある場合、その分割映像データの開始時刻及び終了時刻を出力する。また、認識部42は、キーワードに対応していると判断された分割映像データがない場合、キーワードに対応しない旨を出力する。
なお、上記実施形態において、シーン分割部31及びシーン分割部41は、映像データをシーン毎に分割しているが、ショット毎、あるいは、所定の時間毎に映像データを分割し、分割映像データとして出力してもよい。
また、映像識別器学習装置1を、シーン分割部31を備えずに構成することもできる。この場合、ラベル付与部32は、音声認識結果データが示す認識結果の単語の中から、助詞や助動詞などの所定の品詞の単語を除外してラベルとなる単語を取得する。ラベル付与部32は、取得した単語を1つずつ選択し、選択した単語を示すラベルデータを、選択した単語の開始時刻または終了時刻から所定だけ前後の時間の映像データに付与する。例えば、選択した単語wの開始時刻がtである場合、映像データの時刻t−aから時刻t+bに単語wを表すラベルデータが付与される(a,bは0以上)。解説された内容は、解説の後に映像に表われることが多いため、a<bとしてもよい。
なお、上述した実施形態では、認識対象のコンテンツが動画である場合を説明したが、静止画であってもよい。認識対象のコンテンツが静止画である場合、静止画の画像データは、シーン分割部41に入力されず、認識部42に直接入力される。また、識別器学習部33は、静止画の画像データから抽出可能な画像特徴量を用いて識別器を学習する。
上述した実施形態によれば、映像識別器学習装置1は、解説放送番組に人手をかけることなく識別器学習用のラベルを付与することができる。また、映像識別器学習装置1は、クローズドキャプションを利用した従来の手法に比較して精度よくラベルを付与することが可能である。従って、映像識別器学習装置1は、従来よりも精度のよい識別器を学習することができる。
なお、上述の映像識別器学習装置1は、内部にコンピュータシステムを有している。そして、映像識別器学習装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1 映像識別器学習装置
2 解説音声認識結果抽出部
3 識別器学習処理部
4 認識処理部
21 解説音声抽出部
22 音響モデル記憶部
23 言語モデル記憶部
24 音声認識部
25 モデル適応化部
31 シーン分割部
32 ラベル付与部
33 識別器学習部
34 識別器
41 シーン分割部
42 認識部

Claims (6)

  1. 番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出部と、
    前記解説音声抽出部が抽出した前記解説音声信号を音声認識する音声認識部と、
    前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理部と、
    を備えることを特徴とする映像識別器学習装置。
  2. 前記識別器学習処理部は、
    前記番組映像データをシーン毎に分割した分割映像データを出力するシーン分割部と、
    前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語の発話時刻に対応した時刻の前記分割映像データに前記単語をラベルとして付与するラベル付与部と、
    前記ラベル付与部がラベルを付与した前記分割映像データを用いて前記識別器を学習する識別器学習部とを備える、
    ことを特徴とする請求項1に記載の映像識別器学習装置。
  3. 前記音声認識部が音声認識に用いる音響モデルを、前記解説音声抽出部が抽出した前記解説音声信号と前記音声認識部による前記音声認識の結果とを用いて適応化する処理と、前記音声認識部が音声認識に用いる言語モデルを、前記音声認識部による前記音声認識の結果、番組のクローズドキャプション、番組情報のうち1以上を用いて適応化する処理との少なくともいずれか一方を行う適応化部をさらに備える、
    ことを特徴とする請求項1または請求項2に記載の映像識別器学習装置。
  4. 前記識別器学習処理部により学習された前記識別器を用いて映像データを認識する認識部をさらに備える、
    ことを特徴とする請求項1から請求項3のいずれか1項に記載の映像識別器学習装置。
  5. 前記第1音声信号及び前記第2音声信号は、放送番組の主音声信号及び副音声信号である、
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の映像識別器学習装置。
  6. コンピュータを、
    番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出手段と、
    前記解説音声抽出手段が抽出した前記解説音声信号を音声認識する音声認識手段と、
    前記音声認識手段による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理手段と、
    を具備する映像識別器学習装置として機能させるためのプログラム。
JP2014131273A 2014-06-26 2014-06-26 映像識別器学習装置、及びプログラム Active JP6344849B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014131273A JP6344849B2 (ja) 2014-06-26 2014-06-26 映像識別器学習装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014131273A JP6344849B2 (ja) 2014-06-26 2014-06-26 映像識別器学習装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016009430A JP2016009430A (ja) 2016-01-18
JP6344849B2 true JP6344849B2 (ja) 2018-06-20

Family

ID=55226922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014131273A Active JP6344849B2 (ja) 2014-06-26 2014-06-26 映像識別器学習装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6344849B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102480323B1 (ko) 2018-03-22 2022-12-23 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 비디오 시간 세그먼트를 검색하는 방법과 시스템
JP6811811B1 (ja) * 2019-07-04 2021-01-13 Jcc株式会社 メタデータ生成システム、映像コンテンツ管理システム及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4320001B2 (ja) * 2005-04-21 2009-08-26 富士通株式会社 字幕生成プログラムおよび字幕生成装置
JP5149107B2 (ja) * 2008-08-29 2013-02-20 日本放送協会 音響処理装置およびプログラム
JP5691289B2 (ja) * 2010-08-11 2015-04-01 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム

Also Published As

Publication number Publication date
JP2016009430A (ja) 2016-01-18

Similar Documents

Publication Publication Date Title
CN106973305B (zh) 一种视频中不良内容的检测方法及装置
US11197036B2 (en) Multimedia stream analysis and retrieval
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
US8775174B2 (en) Method for indexing multimedia information
JP4024679B2 (ja) トランスクリプト情報内で観察されたキューを使用する番組分類方法および装置
CN104598644B (zh) 喜好标签挖掘方法和装置
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
CN110853615B (zh) 一种数据处理方法、装置及存储介质
JP2004229283A (ja) ニュースビデオにおいてニュース司会者の遷移を識別する方法
JP2004516727A (ja) トランスクリプト情報のシンタックスに基づく番組分類方法および装置
CN109145149B (zh) 一种信息对齐方法、装置、设备及可读存储介质
CN108307250B (zh) 一种生成视频摘要的方法及装置
KR20180057409A (ko) 오디오 신호 기반의 영상 분류 방법 및 영상 분류 장치
CN112733654B (zh) 一种视频拆条的方法和装置
EP3839953A1 (en) Automatic caption synchronization and positioning
JP6344849B2 (ja) 映像識別器学習装置、及びプログラム
US20150051912A1 (en) Method for Segmenting Videos and Audios into Clips Using Speaker Recognition
CN110992984B (zh) 音频处理方法及装置、存储介质
JP2007060606A (ja) ビデオの自動構造抽出・提供方式からなるコンピュータプログラム
US20160163354A1 (en) Programme Control
Bechet et al. Detecting person presence in tv shows with linguistic and structural features
Mocanu et al. Automatic subtitle synchronization and positioning system dedicated to deaf and hearing impaired people
CN114398463B (zh) 一种语音跟踪方法及装置、存储介质、电子设备
CN116229943B (zh) 一种对话式数据集的生成方法和装置
JP2000092435A (ja) 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170501

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180521

R150 Certificate of patent or registration of utility model

Ref document number: 6344849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250