JP6344849B2 - 映像識別器学習装置、及びプログラム - Google Patents
映像識別器学習装置、及びプログラム Download PDFInfo
- Publication number
- JP6344849B2 JP6344849B2 JP2014131273A JP2014131273A JP6344849B2 JP 6344849 B2 JP6344849 B2 JP 6344849B2 JP 2014131273 A JP2014131273 A JP 2014131273A JP 2014131273 A JP2014131273 A JP 2014131273A JP 6344849 B2 JP6344849 B2 JP 6344849B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- video data
- video
- audio signal
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims description 73
- 238000000605 extraction Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 33
- 230000006978 adaptation Effects 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 240000008881 Oenanthe javanica Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明によれば、映像識別器学習装置は、番組音声の音声信号と、解説音声が付加された番組音声の音声信号とを比較して抽出した解説音声信号を音声認識する。映像識別器学習装置は、音声認識の結果からラベルとなる単語を抽出し、抽出した単語と、当該単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて識別器を学習する。
これにより、映像識別器学習装置は、人手をかけることなく、精度よく映像データにラベルを付与して識別器の学習に用いることができるため、従来よりも精度の高い識別器を学習することができる。
この発明によれば、映像識別器学習装置は、番組映像データの各シーンにラベルを付与し、シーン毎にラベルが付与された番組映像データを用いて識別器を学習する。
これにより、映像識別器学習装置は、映像のシーン毎に解説音声に基づいてラベルを付与するため、解説音声の発話のタイミングと発話内容に対応する映像のタイミングとがずれている場合でも、精度よく映像データにラベルを付与することができる。
この発明によれば、映像識別器学習装置は、解説者に適応化した音響モデルや、番組に適応化した言語モデルにより解説音声信号を音声認識し、音声認識した結果得られた単語をラベルとして映像データに付加する。
これにより、映像識別器学習装置は、精度よく解説音声を音声認識することができるため、映像データに適切なラベルを付与することができる。
この発明によれば、映像識別器学習装置は、学習した識別器を用いて映像データを認識する。
これにより、映像識別器学習装置は、映像に映っている物体や映像に含まれるシーンを精度よく識別することができる。
この発明によれば、映像識別器学習装置は、解説放送番組の主音声信号及び副音声信号から解説音声信号を抽出し、抽出した解説音声信号を音声認識した結果得られた単語をラベルとして放送番組の映像データに付加する。
これにより、映像識別器学習装置は、放送番組を利用して識別器を学習することができる。
本実施形態の映像識別器学習装置は、解説放送番組の主音声チャンネルと副音声チャンネルを比較して解説音声を抽出する。本実施形態の映像識別器学習装置は、抽出した解説音声を音声認識した結果得られた単語を、その単語の発話時刻に対応した映像区間の番組映像データにラベルとして付与する。本実施形態の映像識別器学習装置は、ラベルが付与された番組映像データを用いて、映像が物体やシーンなどの検出対象に対応するか否かを判定するための識別器を学習する。識別器は、検出対象が物体である場合は、検出対象の物体が映像中に表示されているか否かを判定し、検出対象がシーンであれば、映像に表示される一連の動作がその検出対象のシーンであるか否かを判定する。
解説音声抽出部21は、解説放送番組の主音声信号と副音声信号とを比較し、解説音声信号を抽出する。主音声信号は、解説なしの番組音声の音声信号(第1音声信号)であり、副音声信号は、番組音声に対して解説音声を付加した解説付き音声の音声信号(第2音声信号)である。解説付き音声においては、番組音声と解説音声は重ならずに発話されることがほとんどである。解説音声信号は、解説音声の音声信号である。
シーン分割部31は、解説放送番組の映像データ(番組映像データ)を類似したシーン毎に分割し、シーン毎に分割された映像データである分割映像データを出力する。ラベル付与部32は、シーン分割部31から出力された分割映像データに、音声認識部24から出力された音声認識結果データが示す解説音声の音声認識結果に基づいてラベルを付与する。識別器学習部33は、ラベル付与部32がラベルを付与した分割映像データを学習用映像データとして用い、識別器34を学習する。識別器34は、映像データから得られる映像の特徴量に基づいて、映像データが検出対象の単語に関連するか否かを検出する。
シーン分割部41は、シーン分割部31と同様の処理により、認識対象のコンテンツの映像データをシーン毎に分割し、分割映像データを出力する。認識対象のコンテンツは、解説放送番組でもよく、解説放送番組以外の放送番組でもよく、放送番組以外の動画でもよい。本実施形態では、認識対象のコンテンツが放送番組である場合を例に説明する。認識部42は、シーン分割部41から出力された分割映像データに対して、識別器学習部33が学習した識別器34により認識を行い、認識結果を設定した認識結果データを出力する。
図2は、映像識別器学習装置1の識別器学習処理の処理フローを示す図である。
まず、映像識別器学習装置1に解説放送番組の主音声信号、副音声信号、及び、映像データが入力される(ステップS110:YES)。これらは、例えば、放送信号から得られる。ステレオ二重放送の場合、主音声と副音声のそれぞれLチャンネルの音声信号及びRチャンネルの音声信号が入力される。解説音声認識結果抽出部2は入力された主音声信号及び副音声信号を受信し、識別器学習処理部3は、入力された映像データを受信する。
解説音声抽出部21は、主音声信号及び副音声信号のそれぞれに対して短時間の窓かけを行う。窓かけを行う部分は、窓の大きさに応じて時間方向に順にシフトさせる。解説音声抽出部21は、窓毎に主音声信号のパワーと副音声信号のパワーの差を計算する。解説音声抽出部21は、計算したパワーの差が、予め決められた閾値よりも小さい場合、その窓の音声区間は解説音声以外の音声区間と判断する。一方、解説音声抽出部21は、計算したパワーの差が、予め決められた閾値以上である場合、その窓の音声区間を解説音声区間として特定する。解説音声抽出部21は、特定した解説音声区間における副音声信号を解説音声信号として抽出する。解説音声信号には、開始時刻及び終了時刻が付与される。なお、抽出方法Aを用いる場合、主音声信号と副音声信号の同期を合わせる処理は必ずしも必要ではない。
解説音声抽出部21は、副音声信号を解説音声に解説音声以外の雑音が付加された音声信号、主音声信号を解説音声以外の雑音の音声信号と考え、スペクトルサブトラクション法により、副音声信号から解説音声信号のみを抽出する。このとき、解説音声抽出部21は、副音声信号から雑音として除去する音声信号の特徴を、主音声信号から取得する。
抽出方法Cでは、解説音声抽出部21は、副音声信号が示す音声から主音声信号が示す音声を減算し、その差分の音声の音声信号を解説音声信号として抽出する。ただし、解説音声が重畳されていない区間において、主音声と副音声の間で音声レベルに差がある場合には、単純に減算処理するだけでは、解説以外の音声を精度よく除去することができず、解説音声に対する雑音として残留してしまう。このような雑音を精度よく除去するため、解説音声抽出部21は、音声区間長T毎に主音声信号と副音声信号の相関係数を計算し、相関係数が一定の閾値以上の区間については、解説音声信号の値を全て0としてもよい。
まず、解説音声抽出部21は、tに初期値0を設定する(ステップS210)。解説音声抽出部21は、主音声信号xt t+Tと副音声信号yt+a t+a+Tの相関係数rt(xt t+T,yt+a t+a+T)が閾値rthre以上であるか否かを判断する(ステップS220)。相関係数は、上述した式(1)により算出される。
一方、解説音声抽出部21は、相関係数が閾値未満であると判断した場合(ステップS220:NO)、解説音声信号zt t+Tを、副音声信号yt+a t+a+Tから主音声信号xt t+Tを減算した値とする(ステップS240)。
音声認識部24は、音声認識結果を設定した音声認識結果データを出力する。
また、MAP推定は、例えば、「J. Gauvain and Chin-Hui Lee、“Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”、Speech and Audio Processing、IEEE Transactionson、1994年、Volume2、Issue2、p.291−298」(文献2)に記載されている。
また、線形補間法は、例えば、「北 研二、“確率的言語モデル”、東京大学出版会、1999年、p.63−66」(文献3)に記載されている。
まず、認識対象の放送番組の映像データが映像識別器学習装置1の認識処理部4に入力される。シーン分割部41は、シーン分割部31と同様の処理により、認識対象の放送番組の映像データをシーン毎に分割し、分割映像データを出力する。
認識部42は、全ての識別器34それぞれを用いて、各分割映像データの認識を行う。例えば、「笑顔」に対応した識別器34を用いて分割映像データを認識することによって、分割映像データが「笑顔」に対応しているか否かの判定結果が得られる。「笑顔」に対応しているか否かとは、分割映像データに認識対象である「笑顔」のシーンが含まれるか否かを意味する。また、「廊下」に対応した識別器34を用いて分割映像データを認識することによって、分割映像データが「廊下」に対応しているか否かの判定結果が得られる。「廊下」に対応しているか否かとは、映像中に認識対象である「廊下」が表示されているか否かを意味する。認識部42は、各分割映像データの認識結果を設定した認識結果データを出力する。例えば、認識結果データには、各分割映像データ(シーン)の開始時刻及び終了時刻と、各分割映像データが対応していると判断された認識対象とが含まれる。
認識処理部4は、各放送番組の映像データに対して上記のように全ての識別器34を用いた認識処理を行い、放送番組の識別情報と認識結果とを対応付けて内部に備える図示しない記憶部(映像識別器学習装置1に接続される外部の記憶装置でもよい。)に記憶しておく。認識処理部4にキーワードが入力された場合、認識部42は、記憶部に記憶されている各放送番組の認識結果を、入力されたキーワードにより検索する。なお、キーワードに加えて検索対象の放送番組の情報が入力された場合、認識部42は、検索対象の放送番組の認識結果を、入力されたキーワードにより検索する。認識部42は、キーワードに対応するとして特定された分割映像データの開始時刻及び終了時刻と、特定された分割映像データが認識結果に含まれる放送番組の識別情報を取得する。認識部42は、映像識別器学習装置1の内部または外部に備えるデータベース等から放送番組の識別情報に対応した番組情報を読み出し、読み出した番組情報と分割映像データの情報を認識結果データとして出力する。番組情報は、例えば、放送番組の番組IDや放送番組のタイトル、放送番組の説明など任意とすることができる。また、分割映像データの情報は、分割映像データの開始時刻及び終了時刻でもよく、その開始時刻及び終了時刻の放送番組の映像データやその映像データから抽出した静止画でもよい。
まず、認識対象の放送番組の映像データとキーワードが映像識別器学習装置1の認識処理部4に入力される。シーン分割部41は、シーン分割部31と同様の処理により、認識対象の放送番組の映像データをシーン毎に分割し、分割映像データを出力する。
認識部42は、キーワードに対応した識別器34を用いて各分割映像データの認識を行う。認識部42は、キーワードに対応した識別器34を用いた認識により、キーワードに対応していると判断された分割映像データがある場合、その分割映像データの開始時刻及び終了時刻を出力する。また、認識部42は、キーワードに対応していると判断された分割映像データがない場合、キーワードに対応しない旨を出力する。
また、映像識別器学習装置1を、シーン分割部31を備えずに構成することもできる。この場合、ラベル付与部32は、音声認識結果データが示す認識結果の単語の中から、助詞や助動詞などの所定の品詞の単語を除外してラベルとなる単語を取得する。ラベル付与部32は、取得した単語を1つずつ選択し、選択した単語を示すラベルデータを、選択した単語の開始時刻または終了時刻から所定だけ前後の時間の映像データに付与する。例えば、選択した単語wの開始時刻がtである場合、映像データの時刻t−aから時刻t+bに単語wを表すラベルデータが付与される(a,bは0以上)。解説された内容は、解説の後に映像に表われることが多いため、a<bとしてもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
2 解説音声認識結果抽出部
3 識別器学習処理部
4 認識処理部
21 解説音声抽出部
22 音響モデル記憶部
23 言語モデル記憶部
24 音声認識部
25 モデル適応化部
31 シーン分割部
32 ラベル付与部
33 識別器学習部
34 識別器
41 シーン分割部
42 認識部
Claims (6)
- 番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出部と、
前記解説音声抽出部が抽出した前記解説音声信号を音声認識する音声認識部と、
前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理部と、
を備えることを特徴とする映像識別器学習装置。 - 前記識別器学習処理部は、
前記番組映像データをシーン毎に分割した分割映像データを出力するシーン分割部と、
前記音声認識部による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語の発話時刻に対応した時刻の前記分割映像データに前記単語をラベルとして付与するラベル付与部と、
前記ラベル付与部がラベルを付与した前記分割映像データを用いて前記識別器を学習する識別器学習部とを備える、
ことを特徴とする請求項1に記載の映像識別器学習装置。 - 前記音声認識部が音声認識に用いる音響モデルを、前記解説音声抽出部が抽出した前記解説音声信号と前記音声認識部による前記音声認識の結果とを用いて適応化する処理と、前記音声認識部が音声認識に用いる言語モデルを、前記音声認識部による前記音声認識の結果、番組のクローズドキャプション、番組情報のうち1以上を用いて適応化する処理との少なくともいずれか一方を行う適応化部をさらに備える、
ことを特徴とする請求項1または請求項2に記載の映像識別器学習装置。 - 前記識別器学習処理部により学習された前記識別器を用いて映像データを認識する認識部をさらに備える、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の映像識別器学習装置。 - 前記第1音声信号及び前記第2音声信号は、放送番組の主音声信号及び副音声信号である、
ことを特徴とする請求項1から請求項4のいずれか1項に記載の映像識別器学習装置。 - コンピュータを、
番組音声の音声信号である第1音声信号と、解説音声が付加された前記番組音声の音声信号である第2音声信号とを比較して前記解説音声の音声信号である解説音声信号を抽出する解説音声抽出手段と、
前記解説音声抽出手段が抽出した前記解説音声信号を音声認識する音声認識手段と、
前記音声認識手段による音声認識の結果からラベルとなる単語を抽出し、抽出した前記単語と、前記単語の発話時刻に対応した映像区間の番組映像データから抽出した特徴量とを用いて、抽出した前記単語に映像データが関連するか否かを前記映像データの特徴量から検出するための識別器を学習する識別器学習処理手段と、
を具備する映像識別器学習装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014131273A JP6344849B2 (ja) | 2014-06-26 | 2014-06-26 | 映像識別器学習装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014131273A JP6344849B2 (ja) | 2014-06-26 | 2014-06-26 | 映像識別器学習装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016009430A JP2016009430A (ja) | 2016-01-18 |
JP6344849B2 true JP6344849B2 (ja) | 2018-06-20 |
Family
ID=55226922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014131273A Active JP6344849B2 (ja) | 2014-06-26 | 2014-06-26 | 映像識別器学習装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6344849B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102480323B1 (ko) | 2018-03-22 | 2022-12-23 | 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 | 비디오 시간 세그먼트를 검색하는 방법과 시스템 |
JP6811811B1 (ja) * | 2019-07-04 | 2021-01-13 | Jcc株式会社 | メタデータ生成システム、映像コンテンツ管理システム及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4320001B2 (ja) * | 2005-04-21 | 2009-08-26 | 富士通株式会社 | 字幕生成プログラムおよび字幕生成装置 |
JP5149107B2 (ja) * | 2008-08-29 | 2013-02-20 | 日本放送協会 | 音響処理装置およびプログラム |
JP5691289B2 (ja) * | 2010-08-11 | 2015-04-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
-
2014
- 2014-06-26 JP JP2014131273A patent/JP6344849B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016009430A (ja) | 2016-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106973305B (zh) | 一种视频中不良内容的检测方法及装置 | |
US11197036B2 (en) | Multimedia stream analysis and retrieval | |
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
US8775174B2 (en) | Method for indexing multimedia information | |
JP4024679B2 (ja) | トランスクリプト情報内で観察されたキューを使用する番組分類方法および装置 | |
CN104598644B (zh) | 喜好标签挖掘方法和装置 | |
JP6323947B2 (ja) | 音響イベント認識装置、及びプログラム | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
JP2004229283A (ja) | ニュースビデオにおいてニュース司会者の遷移を識別する方法 | |
JP2004516727A (ja) | トランスクリプト情報のシンタックスに基づく番組分類方法および装置 | |
CN109145149B (zh) | 一种信息对齐方法、装置、设备及可读存储介质 | |
CN108307250B (zh) | 一种生成视频摘要的方法及装置 | |
KR20180057409A (ko) | 오디오 신호 기반의 영상 분류 방법 및 영상 분류 장치 | |
CN112733654B (zh) | 一种视频拆条的方法和装置 | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
JP6344849B2 (ja) | 映像識別器学習装置、及びプログラム | |
US20150051912A1 (en) | Method for Segmenting Videos and Audios into Clips Using Speaker Recognition | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
JP2007060606A (ja) | ビデオの自動構造抽出・提供方式からなるコンピュータプログラム | |
US20160163354A1 (en) | Programme Control | |
Bechet et al. | Detecting person presence in tv shows with linguistic and structural features | |
Mocanu et al. | Automatic subtitle synchronization and positioning system dedicated to deaf and hearing impaired people | |
CN114398463B (zh) | 一种语音跟踪方法及装置、存储介质、电子设备 | |
CN116229943B (zh) | 一种对话式数据集的生成方法和装置 | |
JP2000092435A (ja) | 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170501 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180424 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6344849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |