JP2000092435A

JP2000092435A - 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置

Info

Publication number: JP2000092435A
Application number: JP10258280A
Authority: JP
Inventors: Hiroshi Arakawa; 博荒川; Eiji Noguchi; 栄治野口; Toshihiko Munetsugi; 敏彦宗續
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-09-11
Filing date: 1998-09-11
Publication date: 2000-03-31

Abstract

(57)【要約】【課題】背景音(非言語音)存在下にて言語音の開始点
及び終了点の検出を可能にする。【解決手段】 101, 102, 103は入力端子であって、そ
れぞれ映像、日本語音声信号(A_j)、第2外国語音声信号
(A_e)、を入力する。104は相関計算手段である。105は
判定手段であって、相関値から背景音かどうかを判定す
る手段である。106は前記相関計算手段104および前記判
定手段105での計算時間と同量だけ、映像信号の出力を
遅らせる遅延手段である。107,108,109,110は出力端子
であって、それぞれ映像、日本語音声信号(A_j)、第2外
国語音声信号(A_e)、判定結果を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、動画像や音声など
から成るコンテンツの編集に関するものであって、音声
情報の一つの塊の検出方法に関するものである。

【０００２】ここで塊とは、ドラマや映画などでの一人
の人物のしゃべる音声である。また、主に二ヶ国語放送
での場合を想定している。

【０００３】また、ニュースでの二ヶ国語放送等も想定
対象である。

【０００４】

【従来の技術】従来方式として、動画編集処理装置(特
開平5-110983号公報)、自然動画における音声編集装置
(特開平5-265481号公報)がある。

【０００５】これは、音声信号から一語の開始点と一語
の終了点とを求め、これら開始点から終了点までの音声
映像信号を一つの塊として扱うことにより、動画像(音
声と映像から成る)の編集を可能にするものである。

【０００６】また、本発明は後述する手段にて、2つの
音声の相関に基づく方法を提案するのであるが、このよ
うな2つの音声の相関に類似する方法として、ステレオ
音楽からボーカル音を除くボイスキャンセル方法が知ら
れている。

【０００７】これを用いたものとしては、例えば米国特
許 4,953,212 : Auto voice changing apparatus があ
る。

【０００８】しかし、この方法にて利用している情報は
ステレオ音であるのに対し、本発明が対象としている情
報は二ヶ国語音声等である点で、その対象が異なり、そ
のままでは後述する本発明の課題を解決することは出来
ない。

【０００９】

【発明が解決しようとする課題】つまり、上記方式にお
ける終了点の検出は、"音声の無信号状態" を用いるも
のであるためドラマや映画などで起りがちな背景音が存
在する状況、に対応不可能であった(課題1)。

【００１０】また、近年、音声認識技術の向上により、
動画中の人物の音声情報のテキスト情報化(文字化)、が
期待されている。テキスト情報は映像編集を容易にして
くれるため、テキスト情報のユーザへの提示が望まれて
いる。

【００１１】しかし、背景音存在下では、音声の開始点
と終了点との特定が困難なため、認識が困難であった
(課題2)。

【００１２】なぜなら、従来の音声認識技術は、開始点
の不明な音声の認識を不得意とするため、背景音存在下
などの開始点が不明な音声においては、認識に失敗する
場合が多々発生していた。

【００１３】さらに、音声認識技術が向上したとはい
え、まだまだ不十分な技術であるため、十分な性能を提
供可能ではない(課題3)。

【００１４】なお、課題2の変形として、二人が間をお
かず話した場合には、音声の開始点の検出が不可能とな
る(課題4)。

【００１５】また、動画編集を容易にするため、特定の
人物が現れるシーンだけを選択、再生する機能が望まれ
る(課題5)。

【００１６】

【課題を解決するための手段】(課題1)を解決するため
に本発明は、(a) 異なる言語による音声を含む音をすく
なくとも2つ入力し、(b) 前記音の相関を求め、前記相
関に基づき言語音と非言語音とに分離することを、特徴
とする、ものである。

【００１７】また、(a) 動画を蓄積し、(b) 信号特徴抽
出方法により言語音の開始点を検出し、(c) 各開始点ご
とに、前記開始点での動画の時刻情報と、動画の読み出
し位置とを記録したテーブルを作成し、前記開始点に対
するユーザからの選択、再生、追加などの指示に応じ
て、前記テーブルを用い動画を編集することを特徴とす
るものである。

【００１８】また、(課題2)を解決するために本発明
は、(a) 信号特徴抽出方法にて言語音の開始点及び終了
点を検出し、(b) 前記開始点から終了点までの言語音を
音声認識し、音声認識の結果をユーザーに提示すること
を特徴とする、ものである。

【００１９】また、(課題3)を解決するために本発明
は、(a) 異なる言語から成る第1、第2の音を入力し、
(b) 第1の音を音声認識し、(c) 認識結果として得られ
た単語を第2の音にて使用されている言語の単語候補に
変換し、前記単語候補の選択確率を増加させた上で第2
の音からの対応する音を音声認識することを特徴とする
ものである。

【００２０】また、(a) 信号特徴抽出方法にて言語音の
開始点及び終了点を検出し、(b) 動画に関するテキスト
情報を入力し、(c) 前記テキスト情報を解析の上、単語
を分離抽出し、前記単語の選択確率を増加させた上で前
記開始点から前記終了点までの言語音を音声認識するこ
とを特徴とするものである。

【００２１】また、(a) 信号特徴抽出方法にて言語音の
開始点及び終了点を検出し、(b) 前記開始点から終了点
での画像から、動き領域を検出し、(c) 前記動き領域の
内側もしくは近傍の色情報を抽出し、(d) 前記色情報か
ら、前記動き領域が人の口であるかどうかを判定し、人
の口である場合に、前記動き領域の情報と、言語音情報
と、前記開始点及び終了点情報とを用い音声認識するこ
とを特徴とするものである。

【００２２】また、(課題4)を解決するために本発明
は、言語音と非言語音とからなる音を処理する方法であ
って、(a) 異なる言語による音声を含む音をすくなくと
も2つ入力し、(b) 前記音の相互相関係数を求め、(c)
前記相互相関係数の大小に基づき音を言語音と非言語音
とに分離することで、言語音の開始点と終了点とを検出
し、(d) 前記開始点から前記終了点までの言語音から、
話者特徴量を抽出し(e) 前記話者特徴量をもとに話者を
特定し、話者特定の結果を用い話者の変化点を検出する
ことにより、特定の話者の言語音の開始点と終了点を出
力することを特徴とするものである。

【００２３】また、(課題5)を解決するために本発明
は、(a) 請求項第5項記載の信号特徴抽出方法を用い、
(b) 前記信号特徴抽出方法の出力する話者特定結果を用
い、特定の話者が話している時の動画像の色特徴を抽出
し、(c) 話者ごとの、前記色特徴量、発声開始時刻、発
声終了時刻、を記録し、(d) ユーザの指定する、話者を
含む画像を入力し、(e) 前記画像の色特徴量を抽出し、
(f) 前記色特徴量をもとに前記記録を検索し、(g) 検索
の結果、一致した色特徴量と共に記録されている発声開
始時刻、発声終了時刻、を出力し、前記開始時刻、前記
終了時刻をもとに動画を編集することを特徴とするもの
である。

【００２４】（作用）本発明は上記の構成により、言語
音同士の相関は低く、また、非言語音同士の相関は高
い、という特徴を利用し、音の相関により言語音と非言
語音とを分離できる。

【００２５】この分離により、非言語音である背景音が
存在する状況でも、言語音の開始点及び終了点を求める
ことが可能となる。

【００２６】また、信号特徴抽出方法により言語音の開
始点及び終了点を検出することにより、言語音の開始点
を知ることができ、音声認識の精度を上げることができ
る。

【００２７】また、一方の言語表現による言語音による
音声認識結果から、単語を抽出し、この単語をもう一方
の言語表現に変換することで単語候補を求め、単語候補
の選択確率を高めた上で、もう一方の言語表現による言
語音を音声認識することにより、認識精度を高めること
ができる。

【００２８】また、動画に関するテキスト情報を解析の
上、単語を分離抽出し、本単語の選択確率を高めた上
で、言語音を音声認識することにより、認識精度を高め
ることができる。

【００２９】また、動画から動き領域の内側もしくは近
傍の色情報を抽出し、本色情報から、動き領域が人の口
であるかどうがを判定し、人の口である場合に、この口
の動き情報を利用することにより音声認識精度を高める
ことができる。

【００３０】また、言語音の開始点と終了点を求め、言
語音について話者特定し、話者変化点を求めることによ
り連続して話された言語音を分離することが可能とな
る。

【００３１】また、言語音の開始点と終了点を求め、開
始点から終了点までの期間の動画から色特徴量を抽出
し、本色特徴量と開始点と終了点との情報を記録し、ユ
ーザから指定された画像から抽出した色特徴量を用い、
記録を検索し、色特徴量により一致した要素から開始点
と終了点との情報を取り出し、本開始点と終了点との情
報を用いることにより、ユーザが指定した画像に含まれ
る人物を含むシーンの検索と、本シーンの編集を可能に
する。

【００３２】

【発明の実施の形態】以下、各実施例において、各請求
項に対応する方法及び装置の説明を行なう。

【００３３】（実施例１）図1は第1の実施例である信号
特徴抽出方法の構成を示すものである。

【００３４】101, 102, 103は入力端子であって、それ
ぞれ映像、日本語音声信号(A_j)、第2外国語音声信号(A
_e)、を入力する。

【００３５】104は相関計算手段であって、（数１）に
基づき相関値を算出し、この相関値を入力信号A_e, A_j
と共に出力する。

【００３６】

【数１】

【００３７】ここで、ｘに第１音声有力であるＡ_e、ｙ
に第２音声入力であるＡ_jを入力する。

【００３８】（数１）を用いる場合には、ｘ、ｙとして
はそれぞれA_e、A_jをデジタル信号に変換したものを用
いる。

【００３９】105は判定手段であって、相関値から背景
音かどうかを判定する手段である。例えば、相関値が、
あるしきい値th以下の場合、背景音ではないつまり人物
の声であるとして値1を出力する。

【００４０】また、thを越える場合、背景音であるとし
て、値0を出力する。106は前記相関計算手段104および
前記判定手段105での計算時間と同量だけ、映像信号の
出力を遅らせる遅延手段である。

【００４１】107,108,109,110は出力端子であって、そ
れぞれ映像、日本語音声信号(A_j)、第2外国語音声信号
(A_e)、判定結果を出力する。

【００４２】以上の構成により、背景音(非言語音)と人
物の声(言語音)とを判別する信号を算出することができ
る。

【００４３】すなわち、相関計算手段104での二ヶ国語
放送での日本語音声信号(A_j)と第2外国語音声信号(A_
e)とに対する相関値計算により相関値を算出する。

【００４４】さらに、本相関値より、判定手段10５にて
判別信号を算出する。このようにして、課題(1):背景音
(非言語音)存在下でも言語音の開始点及び終了点の検
出：を解決できる。

【００４５】なお、この第1の実施例である信号特徴抽
出方法は、請求項1,3に対応する。すなわち、(数1)のよ
うな相関(相互相関係数)に基づいて相関値を求めても良
いし、もっと一般的に相関を算出可能な演算を用いても
良い。

【００４６】つまり、(数1)の積を差でおきかえた場合
などである。差を用いる方法は、ハードウェアでの実装
規模やソフトウェアでの演算時間などを小さくできるな
どのメリットがある。

【００４７】例えば、デジタル信号処理を用いずアナロ
グ信号のまま相関を求める場合には、ハード的な構成は
容易になるが、その場合には使用する数式は（数１）を
変形させたものを使用する。

【００４８】（実施例２）図2は、第2の実施例である動
画編集方法の構成を示すものである。

【００４９】100は、図1中点線で示したブロックと対応
するものであって、第1の実施例にて説明した信号特徴
抽出方法である。

【００５０】201, 202は記憶装置であって、ハードディ
スクなどから成る。記憶装置201には、編集対象となる
動画像を符号化および多重化したビットストリームが格
納される。符号化および多重化方式としては、例えば、
MPEG1を用いる。

【００５１】202には、後述するテーブル作成手段205の
出力結果が記録される。203はビットストリーム(MPEG1
system) を逆多重化および復号化するデコーダであっ
て、映像信号、ステレオ音声信号(左:A_j, 右A_e)、時
刻情報を出力する。

【００５２】204は遅延手段であって、時刻情報を、信
号特徴抽出方法100での計算時間と同量だけ遅らせるも
のである。

【００５３】205は、時刻情報をキーとするテーブル作
成手段である。テーブルの要素は、キーである時刻情報
と、キーである時刻での音声信号が背景音かどうかの判
別信号と、キーである時刻での動画を再生する時にビッ
トストリームを読むべき先頭位置とである。

【００５４】先頭位置は、例えば、ビットストリームを
ファイルとみなし、ファイルの先頭からのバイト数で表
現すれば良い。

【００５５】206は、動画提示手段であって、内部に203
と同じ機能のデコーダを持つ。本手段206は、記憶装置2
01,202の情報をもとに、図3のような結果を出力する。

【００５６】図3は、判別信号の変化点ごとに代表画像
を取り出し、左から右に並べたものである。

【００５７】横軸を時間として、判別信号をプロット
し、この信号の変化点での代表画像を表示する。また、
代表画像ごとにタイムコードを添付する(なお、図中、
タイムコードとは画像の時刻情報であって、1:23:45:12
であれば、先頭から1時23分45秒での12フレーム目を意
味する)。

【００５８】この結果の作成方法は、以下の通り。(1)
記憶装置202にて、テーブルをキーの昇順に並べる。

【００５９】(2)テーブル中の判別信号を順番にサーチ
し、変化点を見つける。 (3)変化点でのキーと、ビットストリームの先頭位置
と、から、記憶装置201のビットストリームを途中から
デコードし、代表画像を計算する。代表画像は、例え
ば、MPEG1 の場合、最初の I ピクチャであるとすれば
よい。

【００６０】(4) 上記 (2)、(3) を繰り返し、代表画像
を左から右へ並べる。207、208、209は出力端子であっ
て、動画提示手段206の結果を出力する端子である。

【００６１】代表画像出力時には、音声は無いので、端
子207を用いる。また、後述するシーンの再生時には音
声端子も同時に使用する。

【００６２】210は入力端子であって、ユーザからの指
示を入力するためのものである。この指示には、後述す
るシーンの指定、選択、再生、追加、などがある。

【００６３】以上の構成により、本方法は、ユーザに、
動画像中での人物がしゃべっている塊(言語音の部分か
ら成る動画像中の1シーン)を、提示することができる。

【００６４】また、動画提示手段206に、以下の機能を
与えることにより、動画像の編集が可能となる。

【００６５】(a)ユーザからの1シーン指定に対し、対応
するシーンを再生する機能,(b)ユーザからの1シーン指
定に対し、対応するシーンを選択する機能,(c)上記選択
したシーンを、別の動画像の、ユーザの指定した位置に
追加する機能。

【００６６】これら再生、選択は、各変化点での時刻情
報とビットストリームの先頭位置をテーブルから得るこ
とにより、可能である。

【００６７】また、追加機能は、ビットストリームの編
集により可能となる(追加されるビットストリームと元
のビットストリームとの各種パラメタを一致させる必要
がある。しかし、各種変換により、かならずしも一致さ
せる必要はない)。

【００６８】このようにして、課題(1):背景音(非言語
音)存在下にて言語音の開始点及び終了点の検出、が可
能となり、この結果を用いることにより動画編集が容易
となる。

【００６９】なお、この第2の実施例である動画編集方
法は、請求項7に対応する。（実施例３）図4は、第3の実施例である動画編集方法の
一部の構成を示すものである。

【００７０】401, 402, 403は入力端子であって、それ
ぞれ映像、日本語音声信号(A_j)、第2外国語音声信号(A
_e)、を入力する。

【００７１】100は、図1中点線で示したブロックと対応
するものであって、第1の実施例にて説明した信号特徴
抽出方法である。

【００７２】404,405は音声認識手段であって、入力さ
れた音声を音声認識し、結果の文字列(テキスト情報)を
出力する。

【００７３】ここで、信号特徴抽出方法100の出力する
信号は、1の時人物の声を、0の時背景音を、それぞれ表
すので、本信号の立ち上りを人物の発声の開始点、立ち
下がりを人物の発声の終了点とする。

【００７４】音声認識手段404,405は、この信号から上
記のようにして開始点、終了点を求め、開始点から終了
点までの音声信号をそれぞれ認識する。

【００７５】以上の構成により、信号特徴抽出方法を用
いることで出力から人物の発声の開始点、終了点を得る
ことができる。また開始点から音声認識するように構成
することにより、発声の開始点からの認識が可能となっ
て音声認識の精度を高めることができ、課題(3):十分な
性能の音声認識結果を提供することを解決することがで
きる。

【００７６】この結果、編集を容易にするテキスト情報
の提供が可能となる。なお、この第3の実施例である動
画編集方法は、請求項9に対応する。

【００７７】（実施例４）図5は、第4の実施例である音
声認識方法の構成を示すものである。

【００７８】501, 502, 503は入力端子であって、それ
ぞれ映像、日本語音声信号(A_j)、第2外国語音声信号(A
_e)、を入力する。

【００７９】100は、図1中点線で示したブロックと対応
するものであって、第1の実施例にて説明した信号特徴
抽出方法である。

【００８０】504,505は音声認識手段であって、入力さ
れた音声を音声認識し、結果の文字列(テキスト情報)を
出力する。

【００８１】506は単語抽出手段であって、上記テキス
ト情報から名詞、動詞などの単語を抽出する。

【００８２】507は言語変換手段であって、単語抽出手
段506の出力する単語(実施例では日本語)を、第2外国語
での対応語に変換し、この単語を出力する。

【００８３】なお、この変換では、一つの入力単語に対
して複数の単語を出力しても良い。508は遅延手段であ
って、音声認識手段504、単語抽出手段506、言語変換手
段507、での処理に要する時間分だけ、音声信号と判別
信号を遅延させる。

【００８４】次に動作を説明する。第3の実施例同様
に、信号特徴抽出方法100の出力信号の、立ち上りから
人物の発声の開始点、立ち下がりから人物の発声の終了
点を求める。

【００８５】音声認識手段504は、開始点から終了点ま
での音声信号をそれぞれ認識する。この結果得られたテ
キスト情報から単語を抽出し(単語抽出手段506)、さら
に言語変換(言語変換手段507)する。

【００８６】音声認識手段505は、言語変換された第2外
国語の単語を受け取り、これら単語が認識の結果選択さ
れる確率を増加させた上で、遅延手段508からの音声信
号を音声認識する。

【００８７】なお、確率の増加、であるが、例えば、最
尤推定に基づく音声認識であれば、これら単語の事前確
率を増加させれば良い。

【００８８】以上の構成により、認識手段505は認識手
段504からの情報を用いているので、結果として、認識
手段505は、A_e だけでなくA_j も含めて、認識処理を
行う。

【００８９】このため、A_e だけで認識処理を行う場合
に比べて、その認識精度を高めることができ、課題(3):
十分な性能の音声認識結果を提供することを解決するこ
とができる(請求項11に対応)。

【００９０】（実施例５）図6は、第5の実施例である音
声認識方法の構成を示すものである。

【００９１】601, 602, 603, 606は入力端子であって、
それぞれ映像、日本語音声信号(A_j)、第2外国語音声信
号(A_e)、を入力する。また606は入力された映像に関す
るテキスト情報(例えばシナリオなど、インタネットな
どからの入手を想定)を入力する端子である。

【００９２】100は、図1中点線で示したブロックと対応
するものであって、第1の実施例にて説明した信号特徴
抽出方法である。

【００９３】604,605は音声認識手段であって、入力さ
れた音声を音声認識し、結果の文字列(テキスト情報)を
出力する。

【００９４】607は単語抽出手段であって、入力端子606
からのテキスト情報から名詞、動詞などの単語を抽出す
る。

【００９５】608は言語変換手段であって、単語抽出手
段506の出力する単語(実施例では日本語)を、第2外国語
での対応語に変換し、この単語を出力する。

【００９６】なお、この変換では、一つの入力単語に対
して複数の単語を出力しても良い。以上の構成におい
て、動画を入力する前に、予め、入力端子606にテキス
ト情報を入力し、単語抽出手段607、言語変換手段608の
働きによって、日本語および第2外国語の単語情報を抽
出、出力する。

【００９７】認識手段604, 605は、本単語情報を受け取
り、これら単語が認識の結果選択される確率を増加させ
る。

【００９８】以上の事前動作の上で、入力端子601,602,
603に動画を入力し、音声認識結果を得る。

【００９９】本認識結果はユーザに提示され、動画編集
時の参考情報として利用される。以上の構成により、テ
キストからの単語情報を利用して音声認識することで、
認識精度を高めることができ、課題(3):十分な性能の音
声認識結果を提供することを解決することができる(請
求項13に対応)。

【０１００】なお、この結果、ユーザへ提示可能な動画
情報が増え、動画の検索、カット検出を容易とすること
ができる。

【０１０１】（実施例６）図7は第6の実施例である信号
特徴抽出方法の構成を示すものである。

【０１０２】701, 702, 703は入力端子であって、それ
ぞれ映像、日本語音声信号(A_j)、第2外国語音声信号(A
_e)、を入力する。

【０１０３】704は第1の実施例と同じ相関計算手段であ
る。706,707は特徴抽出手段であって、話者の特徴(複数
の値から成り、ベクトル表現を仮定する)を計算し出力
するものである。

【０１０４】話者の特徴としては、例えば、第2以上の
フォルマントなどを用いれば良い。つまり、第2フォル
マントの周波数を、ベクトルの第1成分、第3フォルマン
トの周波数を、ベクトルの第2成分、とすれば良い。

【０１０５】705は判定手段であって、相関値から背景
音かどうかを判定することと人物の声部分であると判定
された区間を二人の人物の声の区間として二つ以上に分
割できるかの判定とを行う。

【０１０６】背景音か人物の声かの判定方法は、第1の
実施例と同じである。二つ以上に分割できるかの判定方
法は以下の通り。

【０１０７】(a)人物の声と判定された区間についてA_
e, A_j を記録する。 (b)同時に、A_e, A_j に対応する特徴情報(ベクトル)を
連結し、記録する(ここで連結とは特徴情報がそれぞれ3
次元のベクトルの時、6次元のベクトルを生成すること
である、とする)。

【０１０８】(c)背景音に切り変った時点で、記録した
特徴情報についてクラスタリングを行う(クラスタリン
グについては、K平均法などを用いれば良い)。

【０１０９】(d) クラスタリングの結果、各時刻での特
徴ベクトルが属するクラスタ番号を求める。

【０１１０】(e) 記録した時間間隔において、クラスタ
番号が変化しなかった場合は、記録しておいた音声と、
判定信号(人物の声なので値1)とを出力する。

【０１１１】また、クラスタ番号が変化した場合は、そ
の時刻にて話者が変化したとみなし、その時刻までは判
定信号:値1,その時刻にて,値0すぐに値1という信号を作
成し(短期間の値0パルスを問題の時刻に挿入する、とい
うこと)、記録しておいた音声信号と共に出力する。

【０１１２】以上の動作により、入力動画がドラマなど
である時、何度も登場する俳優たちが続けて話している
場合においては、クラスタリングの結果、俳優と俳優の
声の切れ目を検出することができる。

【０１１３】このようにして、第1の実施例では検出不
可能な人物の声の切れ目を検出でき、(課題4):二人が間
をおかず話した場合に音声の開始点の検出を可能とす
る、を解決することができる。

【０１１４】なお、この第6の実施例である信号特徴抽
出方法は、請求項5に対応する。（実施例７）図8は、第7の実施例である動画編集方法の
構成を示すものである。

【０１１５】100は、図1中点線で示したブロックと対応
するものであって、第1の実施例にて説明した信号特徴
抽出方法である。

【０１１６】801, 802は記憶装置であって、ハードディ
スクなどから成る。記憶装置801には、編集対象となる
動画像を符号化および多重化したビットストリームが格
納される。符号化および多重化方式としては、例えば、
MPEG1を用いる。

【０１１７】802には、後述する特徴抽出手段805の出力
結果が記録される。803はビットストリーム(MPEG1 syst
em) を逆多重化および復号化するデコーダであって、映
像信号、ステレオ音声信号(左:A_j, 右A_e)、時刻情
報、を出力する。

【０１１８】804は遅延手段であって、時刻情報を、信
号特徴抽出方法100での計算時間と同量だけ遅らせるも
のである。

【０１１９】805は、音声情報と映像情報の特徴抽出手
段である。音声情報の特徴としては、第6の実施例での
話者の特徴(複数の値から成り、ベクトル表現を仮定す
る)を用いる。例えば、第6の実施例同様、第2以上のフ
ォルマントを用いれば良い。

【０１２０】また、映像情報の特徴としては、画面全体
での色特徴量(これも複数の値から成り、ベクトル表現
を仮定する)を用いる。例えば、画面全体での色ヒスト
グラムを用いれば良い。つまり、色空間(RGB の3次元空
間)を、小立方体で分割すると、画面中の各画素は、ど
れかの小立方体に含まれることになる。

【０１２１】この小立方体に含まれる画素の数を計数
し、この画素数を一定の順序で並べたものをベクトルと
すれば良い。

【０１２２】特徴抽出手段805は、これら特徴量である
ベクトルを連結(第6の実施例で用いたのと同じ意味)
し、一つのベクトルを作成する。このベクトルと時刻情
報とを、記憶装置802に記録する(ここで時刻情報には、
第6の実施例での、"動画を再生する時にビットストリー
ムを読むべき先頭位置" の情報をも含むものとする)。

【０１２３】811はクラスタリング手段であって、ベク
トル値に基づき、クラスタを形成する。

【０１２４】各クラスタには、一意な値(ID) を振る。
さらに、各ベクトルごとに、所属するクラスタのID値を
記録する。

【０１２５】つまり、記憶装置802は、各ベクトルごと
に、時刻情報と ID 値とを、記録するのである。

【０１２６】806は、動画提示手段であって、内部に803
と同じ機能のデコーダを持つ。本手段806は、記憶装置8
01,802の情報をもとに、ユーザから指定された動画を検
索、再生、選択するものである。

【０１２７】検索キーは、色である。ここで色の入力
は、以下のようにすれば良い。

【０１２８】(a) 特定の画像(ユーザが、特定の俳優が
現れるシーンを探したい場合、その俳優が出ている画
像)をユーザに指定してもらう。

【０１２９】(b) 指定された画像から、色特徴量を抽出
する。以上によって、色特徴量を抽出できる。この色特徴量と
一致するクラスタのIDを求め、このID と一致するエン
トリを記憶装置802からすべて取り出し、各エントリに
対応する動画の代表画像を求め(エントリ中の時刻情報
と、ファイルの読み出し位置情報とを用いれば可能)ユ
ーザに提示すれば良い。

【０１３０】以上の構成により、本方法は、ユーザの指
示する特定の画像に含まれる俳優が出現するシーンを検
索、選択、再生することが可能となる。

【０１３１】つまり、編集をより容易にすることがで
き、課題(5):特定の人物が現れるシーンだけを選択及び
再生する機能を提供するを解決することができる(請求
項15に対応)。

【０１３２】（実施例８）図9は、第8の実施例である動
画編集方法の構成を示すものである。

【０１３３】901, 902, 903は入力端子であって、それ
ぞれ映像、日本語音声信号(A_j)、第2外国語音声信号(A
_e)、を入力する。

【０１３４】100は、図1中点線で示したブロックと対応
するものであって、第1の実施例にて説明した信号特徴
抽出方法である。

【０１３５】904は、映像を入力とし、動き領域を算出
し出力する動き領域抽出手段であって、例えば、以下の
処理から構成すれば良い。

【０１３６】(a) 前フレームと現フレームとの画素の差
により本画素が動き領域を構成するかどうかを判定し、
動き領域の画素値を1とする2値画像を求め、(b) さらに
孤立画素の除去のために、本2値画像に対しモルフォロ
ジ処理を行い、結果を動き領域抽出結果として出力す
る。後段での処理に必要なので、もとの画像を本抽出結
果と共に出力する。

【０１３７】905は口判定手段であって、動き領域抽出
結果の2値画像ともとの画像とを用い、どれが口領域で
あるかを判定する。例えば、以下のような処理を行えば
よい。

【０１３８】(a) 各動き領域について、(b)〜(d) の処
理を行う、 (b) 動き領域内の色と、動き領域外の色を求める。例え
ば、HUV 表色系などのHue(色調)などを用いれば良い。

【０１３９】(c) 領域内の色が赤色かどうか、また領域
内の色が肌色かどうかを判定する。判定には、閾値を用
いれば良い。

【０１４０】(d) 判定の結果、領域内の色が赤色かつ領
域外の色が肌色の動き領域を記憶しておく。

【０１４１】(e) (b)〜(d) の処理結果、得られた動き
領域を、口領域の候補として、出力する。

【０１４２】なお、ここで、複数の領域を抽出しても良
いし、何らかの評価基準を用いてどれか一つを選択して
も良い。

【０１４３】なお、口判定手段905は、本判定結果の動
き領域を、もとの画像と共に出力する。

【０１４４】906,607は音声認識手段であって、入力さ
れた音声を音声認識し、結果の文字列(テキスト情報)を
出力する。

【０１４５】908, 909は音声認識結果の文字列用の出力
端子であって、それぞれ、日本語、英語、の文字列であ
る。

【０１４６】以上の構成において、音声認識手段906,90
7は口判定手段905の出力する口領域ともとの画像とか
ら、口領域での動き情報を求め、本情報を音声認識の精
度向上に利用する。

【０１４７】例えば、口領域での動きから、(i)大きく
開いた時、(ii) 横に開いた時、(iii) 縦に開いた時、
などの情報を抽出し、これら情報を認識時に利用すれば
良い。

【０１４８】以上の構成により、口領域を検出し、口領
域での動き情報を音声認識時に利用することにより、認
識精度を高めることができ、課題(3):十分な性能の音声
認識結果を提供すること、を解決することができる(請
求項17に対応)。

【０１４９】なお、この結果、ユーザへ提示可能な動画
情報が増え、動画の検索、カット検出を容易とすること
ができる。

【０１５０】

【発明の効果】以上にて説明した第1の実施例によれ
ば、二ヶ国語放送での日本語音声信号(A_j)と第2外国語
音声信号(A_e)とに対する相関値計算により、相関値を
算出し、さらに、本相関値より、判定手段104にて判別
信号を算出することにより、課題(1):背景音(非言語音)
存在下にて言語音の開始点及び終了点の検出を解決でき
る(請求項1,3に対応)。

【０１５１】また、第2の実施例によれば、第1の実施例
による信号特徴抽出方法を用いることにより課題(1):背
景音(非言語音)存在下にて言語音の開始点及び終了点の
検出、を解決した、動画編集方法を提供することができ
る(請求項7に対応)。

【０１５２】また、第3の実施例によれば開始点から音
声認識することにより発声の開始点からの認識が可能と
なって音声認識の精度を高めることができ、課題(3):十
分な性能の音声認識結果を提供すること、を解決するこ
とができる(請求項9に対応)。

【０１５３】また、第4の実施例によれば同時に提示さ
れた言語音の同時性に基づき、一方の言語音の音声認識
結果を複数の音声認識にて利用することができるため、
課題(3):十分な性能の音声認識結果を提供することを解
決することができる(請求項11に対応)。

【０１５４】また、第5の実施例によればテキストから
の単語情報を利用して音声認識することで、認識精度を
高めることができ、課題(3):十分な性能の音声認識結果
を提供すること、を解決することができる(請求項13に
対応)。

【０１５５】また、第6の実施例によれば言語音特徴の
クラスタリングにより、俳優と俳優の声の切れ目を検出
することができ、結果として、第1の実施例では検出不
可能な人物の声の切れ目を検出でき、(課題4):二人が間
をおかず話した場合に音声の開始点の検出を可能とす
る、を解決することができる(請求項5に対応)。

【０１５６】また、第7の実施例によればユーザの指示
する特定の画像に含まれる俳優が出現するシーンを検
索、選択、再生することが可能となり、編集をより容易
にすることができ、課題(5):特定の人物が現れるシーン
だけを選択及び再生する機能を提供する、を解決するこ
とができる(請求項15に対応)。

【０１５７】また、第8の実施例によれば以上の構成に
より、口領域を検出し、口領域での動き情報を音声認識
時に利用することにより、認識精度を高めることがで
き、課題(3):十分な性能の音声認識結果を提供するこ
と、を解決することができる(請求項17に対応)。

【０１５８】このように、本発明の効果は大きく、産業
の発達への貢献度は非常に大である。

【図面の簡単な説明】

【図１】本発明の第1の実施例である信号特徴抽出方法
の構成図

【図２】本発明の第2の実施例である動画編集方法の構
成図

【図３】第2の実施例の説明図

【図４】本発明の第3の実施例である動画編集方法の構
成図

【図５】本発明の第4の実施例である音声認識方法の構
成図

【図６】本発明の第5の実施例である音声認識方法の構
成図

【図７】本発明の第6の実施例である信号特徴抽出方法
の構成図

【図８】本発明の第7の実施例である動画編集方法の構
成図

【図９】本発明の第8の実施例である動画編集方法の構
成図

【符号の説明】

100 信号特徴抽出方法 101，102，103 入力端子 104 相関計算手段 105 判定手段 106 遅延手段 107，108，109，110 出力端子

───────────────────────────────────────────────────── フロントページの続き (72)発明者宗續敏彦大阪府門真市大字門真1006番地松下電器産業株式会社内Ｆターム(参考） 5C053 FA14 HA27 JA12 LA06 LA20 5D015 AA01 AA03 BB01 CC05 DD04 FF06 HH03 KK01 LL02

Claims

【特許請求の範囲】

【請求項１】言語音と非言語音とからなる音を処理す
る方法であって、 (a) 異なる言語による音声を含む音をすくなくとも２つ
入力し、 (b) 前記２つの音の相関を求め、前記相関に基づき言語
音と非言語音とに分離することを特徴とする信号特徴抽
出方法。
【請求項２】言語音と非言語音とからなる音を処理す
る装置であって、 (a) 異なる言語による音声を含む音をすくなくとも２つ
入力する入力手段と、 (b) 前記音の相関を算出する相関手段とを備え、前記相関に基づき言語音と非言語音とに分離することを
特徴とする信号特徴抽出装置。
【請求項３】言語音と非言語音とからなる音を処理す
る方法であって、 (a) 異なる言語による音声を含む音をすくなくとも２つ
入力し、 (b) 前記音の相互相関係数を求め、前記相互相関係数の
大小に基づき言語音と非言語音とに分離することを特徴
とする信号特徴抽出方法。
【請求項４】言語音と非言語音とからなる音を処理す
る装置であって、 (a) 異なる言語による音声を含む音をすくなくとも２つ
入力する入力手段と、 (b) 前記音の相互相関係数を算出する相関手段とを備
え、前記相互相関係数の大小に基づき言語音と非言語音とに
分離することを特徴とする信号特徴抽出装置。
【請求項５】言語音と非言語音とからなる音を処理す
る方法であって、 (a) 異なる言語による音声を含む音をすくなくとも２つ
入力し、 (b) 前記音の相互相関係数を求め、 (c) 前記相互相関係数の大小に基づき音を言語音と非言
語音とに分離することで言語音の開始点と終了点とを検
出し、 (d) 前記開始点から前記終了点までの言語音から、話者
特徴量を抽出し、 (e) 前記話者特徴量をもとに話者を特定し、話者特定の結果を用い話者の変化点を検出することによ
り特定の話者の言語音の開始点と終了点を出力すること
を特徴とする信号特徴抽出方法。
【請求項６】言語音と非言語音とからなる音を処理す
る装置であって、 (a) 異なる言語による音声を含む音をすくなくとも２つ
入力する入力手段と、 (b) 前記音の相互相関係数を算出する相関手段と、 (c) 前記相互相関係数の大小に基づき音を言語音と非言
語音とに分離することで語音の開始点と終了点とを求め
る検出手段と、 (d) 前記開始点から前記終了点までの言語音から、話者
特徴量を求める抽出手段と、 (e) 前記話者特徴量をもとに話者を求める特定手段とを
備え、話者特定の結果を用い話者の変化点を検出することによ
り特定の話者の言語音の開始点と終了点を出力すること
を特徴とする信号特徴抽出装置。
【請求項７】 (a) 動画を蓄積し、 (b) 請求項１、３又は５に記載の信号特徴抽出方法によ
り言語音の開始点を検出し、 (c) 各開始点ごとに、前記開始点での動画の時刻情報
と、動画の読み出し位置と、を記録したテーブルを作成
し、前記開始点に対するユーザからの選択、再生、追加
などの指示に応じて、前記テーブルを用い動画を編集す
ることを特徴とする動画編集方法。
【請求項８】 (a) 動画を蓄積する蓄積手段と、 (b) 請求項第２、４又は６に記載の信号特徴抽出装置に
より言語音の開始点を求める検出手段と、 (c) 各開始点ごとに、前記開始点での動画の時刻情報
と、動画の読み出し位置と、を記録したテーブルを作成
するテーブル作成手段とを備え、前記開始点に対するユーザからの選択、再生、追加など
の指示に応じて、前記テーブルを用い動画を編集するこ
とを特徴とする動画編集装置。
【請求項９】 (a) 請求項１、３又は５に記載の信号特
徴抽出方法にて言語音の開始点及び終了点を検出し、 (b) 前記開始点から終了点までの言語音を音声認識し、
音声認識の結果をユーザーに提示することを特徴とする
動画編集方法。
【請求項１０】 (a) 請求項２、４又は６記載の信号特
徴抽出装置にて言語音の開始点及び終了点を求める検出
手段と、 (b) 前記開始点から終了点までの言語音を認識する音声
認識手段とを備え、音声認識の結果をユーザーに提示することを特徴とする
動画編集装置。
【請求項１１】 (a) 異なる言語から成る第1、第2の音
を入力し、 (b) 第1の音を音声認識し、 (c) 認識結果として得られた単語を第2の音にて使用さ
れている言語の単語候補に変換し、前記単語候補の選択
確率を増加させた上で第2の音からの対応する音を音声
認識することを特徴とする音声認識方法。
【請求項１２】 (a) 異なる言語から成る第1、第2の音
を入力する入力手段と、 (b) 第1の音を認識する音声認識手段と、 (c) 認識結果として得られた単語を第2の音にて使用さ
れている言語の単語候補を求める変換手段とを備え、前
記単語候補の選択確率を増加させた上で第2の音からの
対応する音を音声認識することを特徴とする音声認識装
置。
【請求項１３】 (a) 請求項１、３又は５項記載の信号
特徴抽出方法にて言語音の開始点及び終了点を検出し、 (b) 動画に関するテキスト情報を入力し、 (c) 前記テキスト情報を解析の上、単語を分離抽出し、
前記単語の選択確率を増加させた上で前記開始点から前
記終了点までの言語音を音声認識することを特徴とする
音声認識方法。
【請求項１４】 (a) 請求項２、４又は６に記載の信号
特徴抽出装置にて言語音の開始点及び終了点を求める検
出手段と、 (b) 動画に関するテキスト情報を入力する入力手段と、 (c) 前記テキスト情報を解析の上、単語を分離抽出する
抽出手段とを備え、前記単語の選択確率を増加させた上
で前記開始点から前記終了点までの言語音を音声認識す
ることを特徴とする音声認識装置。
【請求項１５】 (a) 請求項５に記載の信号特徴抽出方
法を用い、 (b) 前記信号特徴抽出方法の出力する話者特定結果を用
い特定の話者が話している時の動画像の色特徴を抽出
し、 (c) 話者ごとの、前記色特徴量、発声開始時刻、発声終
了時刻、を記録し、 (d) ユーザの指定する、話者を含む画像を入力し、 (e) 前記画像の色特徴量を抽出し、 (f) 前記色特徴量をもとに前記記録を検索し、 (g) 検索の結果、一致した色特徴量と共に記録されてい
る発声開始時刻、発声終了時刻、を出力し、前記開始時
刻、前記終了時刻をもとに動画を編集することを特徴と
する動画編集方法。
【請求項１６】 (a) 請求項６に記載の信号特徴抽出装
置と、 (b) 前記信号特徴抽出装置の出力する話者特定結果を用
い特定の話者が話している時の動画像の色特徴を求める
抽出手段と、 (c) 話者ごとの、前記色特徴量、発声開始時刻、発声終
了時刻、を記録する記録手段と、 (d) ユーザの指定する、話者を含む画像を入力する入力
手段と、 (e) 前記画像の色特徴量を求める第2の抽出手段と、 (f) 前記色特徴量をもとに前記記録を検索する検索手段
と、 (g) 検索の結果、一致した色特徴量と共に記録されてい
る発声開始時刻、発声終了時刻、を出力する出力手段と
を備え、前記開始時刻、前記終了時刻をもとに動画を編集するこ
とを特徴とする動画編集方法。
【請求項１７】 (a) 請求項１、３又は５に記載の信号
特徴抽出方法にて言語音の開始点及び終了点を検出し、 (b) 前記開始点から終了点での画像から、動き領域を検
出し、 (c) 前記動き領域の内側もしくは近傍の色情報を抽出
し、 (d) 前記色情報から、前記動き領域が人の口であるかど
うかを判定し、人の口である場合に、前記動き領域の情報と、言語音情
報と、前記開始点及び終了点情報とを用い音声認識する
ことを特徴とする動画編集方法。
【請求項１８】 (a) 請求項２、４又は６に記載の信号
特徴抽出装置にて言語音の開始点及び終了点を求める検
出手段と、 (b) 前記開始点から終了点での画像から、動き領域を求
める第2の検出手段と、 (c) 前記動き領域の内側もしくは近傍の色情報を求める
抽出手段と、 (d) 前記色情報から、前記動き領域が人の口であるかど
うかを求める判定手段とを備え、人の口である場合に、前記動き領域の情報と、言語音情
報と、前記開始点及び終了点情報とを用い音声認識する
ことを特徴とする動画編集装置。