JP2002006874A - 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 - Google Patents

音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Info

Publication number
JP2002006874A
JP2002006874A JP2000193118A JP2000193118A JP2002006874A JP 2002006874 A JP2002006874 A JP 2002006874A JP 2000193118 A JP2000193118 A JP 2000193118A JP 2000193118 A JP2000193118 A JP 2000193118A JP 2002006874 A JP2002006874 A JP 2002006874A
Authority
JP
Japan
Prior art keywords
section
voice
laughing
moving image
laughter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000193118A
Other languages
English (en)
Other versions
JP3652961B2 (ja
Inventor
Keiko Watanuki
啓子 綿貫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000193118A priority Critical patent/JP3652961B2/ja
Publication of JP2002006874A publication Critical patent/JP2002006874A/ja
Application granted granted Critical
Publication of JP3652961B2 publication Critical patent/JP3652961B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 笑い声区間を自動的に、しかも少ない演算量
とメモリサイズで抽出することができる音声処理装置と
動画像から笑い動作区間を自動的に抽出することができ
る動画像処理装置を提供する。 【解決手段】 音声処理装置10は、1フレーム毎に音
声パワー、ピッチ、音声波の振幅、周波数スペクトルな
どを格納するデータベース101、音声の区間を抽出す
る音声区間判定部102、抽出された音声の各区間のr
ms振幅値を求め、各区間の音圧変化の平均を計算する
振幅判定部104、振幅判定部104の結果を閾値と比
較し、該結果が閾値より大きい状態が所定時間続くとき
は区間が笑い声区間であると判定する音声認識部10
5、抽出した笑い声区間を格納する笑い声区間格納部1
06と、出力部107を備えることにより、音声信号か
ら笑い声区間を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、人の感情に対応す
る音声信号及び動作に関する情報を処理する音声処理装
置及び動画像処理装置に関し、詳細には、ユーザと情報
処理機器との間で自然な対話を実現するマルチモーダル
インタフェースの対話データベースに用いて好適な音声
処理装置、動画像処理装置、音声・動画像処理装置及び
音声・動画像処理プログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】近年、音声認識技術が発展し、テレビジ
ョン受像機、ラジオ受信機、車載ナビゲーション、携帯
電話、パーソナルコンピュータ(以下、パソコンとい
う)等の機器に搭載されつつある。音声認識装置は通常
それぞれの機器の一部として内蔵されている。この音声
認識装置、手書き文字認識装置、マウス、ライトペン、
タブレット等のポインティングデバイスなど、複数の入
力装置をコンピュータに接続して、ユーザがその局面局
面において自分にとって最も都合の良い入力装置を使っ
て入力できれば非常に使いやすいインタフェースとな
る。このように複数の異なる入力モードから、ユーザが
任意の入力モードを選択し、組み合わせて自分の意図を
システムに伝えることができるインタフェースのことを
マルチモーダルインタフェースという。
【0003】また、高性能のワークステーションやパソ
コンの普及に伴って、記憶容量の大きな光磁気ディスク
等の記憶媒体も低廉化し、高解像度の表示装置やマルチ
メディアに適応した周辺機器の価格も大幅に低下してい
る。文書処理、画像データ処理その他の分野では、処理
対象となるデータの情報量の増大に適応可能なデータ処
理機能の向上が要求され、従来、主として文字や数値に
施されていた処理に併せて音声や動画にも多様な処理を
施すことが可能な種々の処理装置が開発されつつある。
【0004】ところで、上記ワークステーションやパソ
コン等において、音声処理をするにあたり、特に対話の
場合、人間は常に淀みなくしゃべり続けるわけではな
く、楽しく笑いながら、あるいは失笑しながらしゃべ
る。これら笑い声は、音声認識のレベルを上げるために
も、また、対話者の感情を分析する上でも重要である。
同様に、動画像処理をするにあたり、笑いの動作を認識
することが重要になる。
【0005】
【発明が解決しようとする課題】このような従来の音声
・動画像処理装置にあっては、以下のような問題点があ
った。例えば、特開平9−206291号公報には、音
声信号から周波数スペクトラムを抽出し、そのスペクト
ラムの中心(周波数重心)Gを求めて、この周波数重心
Gが所定の閾値より大きいかどうかで笑いや拍手、歓声
等の感情を認識する方法が提案されている。この方法
は、笑いや拍手等の感情表現では、周波数重心が高いこ
とを利用しているが、笑いと拍手の区別はつけられな
い。さらに、上記公報に記載された装置は、例えば笑い
等の音の種類に対応する標準波形パターン辞書をあらか
じめ用意しておいて、パターンマッチングにより判定す
る方法も記載されている。しかしこの方法では、あらゆ
る笑いのパターンを用意しておかなければならず、ま
た、マッチングの過程において、すべての波形パターン
に対して処理を行わなければならず、膨大な演算量とメ
モリサイズを必要とする。
【0006】また、特開平5−12023号公報には、
音声認識を利用し、継続長やピッチなどの音声信号の特
徴を抽出して、基準となる音声信号とのずれ量を検出す
ることで感情状態を判定する方法が開示されている。し
かしこの方法は、発話音声に含まれる喜びや怒り等の感
情を認識するためのものであり、笑い声を認識すること
はできない。
【0007】一方、動画情報を含むビデオ素材から人間
等の笑いの動作に関してデータベースを作成する場合、
例えば特開平8−153120号公報には、動画像デー
タをフレーム毎に分割して静止画像に変換し、各フレー
ムにラベルを付与して画像データベースを生成し、その
ラベルに基づいて検索する方法が開示されている。ま
た、特開平7−253986号公報には、音声及び動画
像を含むデータベースから、例えば笑いの音声や表情が
見られるフレーム区間に、[warai]等のラベル(タグ)
を付与し、検索時にそのラベルを入力すると、登録時に
関連したラベルを付与されていた動画像及び音声を抽出
する方法が開示されている。さらに、画像から観察者が
人間等の頭の動きや向き、手の形などをコード化して手
動でラベルを付ける試みがある(参考文献:“Hand and
Mind”D.McNeille著)。しかし、人手による上記ラベ
ル付けは時間も労力もかかる上に、作業者の個人差や主
観によるばらつきが生じることが多かった。また、同じ
「笑い」でも、激しい笑いやかすかな笑い等の区別をラ
ベルに反映させることが難しかった。
【0008】本発明は、このような課題に鑑みてなされ
たものであって、笑い声区間を自動的に、しかも少ない
演算量とメモリサイズで抽出することができる音声処理
装置及び音声処理プログラムを記録した記録媒体を提供
することを目的としている。また、本発明は、動画像か
ら、笑い動作区間を自動的に抽出することができる動画
像処理装置及び動画像処理プログラムを記録した記録媒
体を提供することを目的としている。
【0009】さらに、本発明は、音声信号と動画像か
ら、笑い動作、笑い声、笑いを伴う音声区間を区別して
抽出することができる音声・動画像処理装置及び音声・
動画像処理プログラムを記録した記録媒体を提供するこ
とを目的としている。
【0010】
【課題を解決するための手段】本発明の音声処理装置
は、音声を時間的に区分する区分手段と、前記区分手段
により区分された音声の各区間の振幅情報から前記区間
の音圧変化の平均を計算する計算手段と、前記計算手段
の結果を所定の閾値と比較し、該計算手段の結果が前記
閾値より大きく、かつ同じ音素(例えば、母音又は母音
に類似した周波数成分の音素)が所定期間続くときは前
記区間が笑い声区間であると判定する笑い声判定手段
と、を備えることを特徴とするものである。また、より
好ましくは、前記振幅情報は、rms振幅値であっても
よく、前記閾値は、前記区間の長さに応じて変更される
ものであってもよい。
【0011】さらに、前記抽出した笑い声区間に対し
て、笑い声に含まれる音声パターンとのマッチングを行
うマッチング手段と、前記マッチング手段のマッチング
結果に基づいて笑い声区間と笑いを伴う音声区間を区別
して、笑い声区間をさらに限定する限定手段と、を備え
ることを特徴とする。
【0012】このように構成された本発明の音声処理装
置は、音声信号から笑い声区間を抽出することができ
る。特に、区間において、「ははは」のように、同じ母
音が断続的に続くかどうかを判定することにより、笑い
声区間の判定の精度を上げ、喜びや怒りの区間を排除す
ることができる。rms振幅値が大きい音声区間でのみ
音声認識を行うので、少ない演算量とメモリサイズで笑
い声区間を抽出することが可能になる。
【0013】本発明の動画像処理装置は、フレームの集
合からなる動画像を処理する動画像処理装置において、
人間等の身体の各部分を、複数のフレームにまたがって
識別する識別手段と、前記各部分の動きを抽出する動き
抽出手段と、前記抽出された動きを、笑い動作に特有の
動きとして設定された規則と比較し、その一致度に応じ
て前記複数のフレームが笑い動作であると判定する笑い
動作判定手段と、を備えることを特徴としている。
【0014】また、より好ましくは、前記人間等の身体
の各部分が、頭、首、胸、右肩、左肩、右上腕、左上
腕、右下腕、左下腕、右手、左手のうちの、少なくとも
一つ以上であってもよい。また、動き情報としては、身
体各部位の移動量の大きさ、速度、又は加速度でもよ
い。また、好ましい具体的な態様としては、前記規則
は、頭と肩の動きが、前記笑い動作の直前かほぼ同時に
始まるという規則であってもよく、また、前記所定の規
則は、手の動きが、頭や肩の動きの始まりより遅れて始
まるという規則であってもよい。
【0015】また、好ましい具体的な態様としては、前
記規則は、頭と肩の動きが、前後の動きであってもよ
く、また、前記所定の規則は、人間等の身体の各部分の
速度又は加速度の関数であってもよい。このように構成
された本発明の動画像処理装置は、明瞭な母音を伴わな
い笑いや、口を閉じたままの押し殺した笑い、音声を伴
わない笑い、しゃべりを伴って起こる笑いに伴う、笑い
動作を抽出することが可能になる。
【0016】本発明の音声・動画像処理装置は、請求項
1記載の音声処理装置と、請求項5記載の動画像処理装
置とを備える音声・動画像処理装置であって、前記笑い
動作に対して、音声の有無を確認し、音声有りのフレー
ムを笑い声区間と判定する判定手段を備えることで、音
声情報と動き情報を統合して判定することにより、より
精密な笑い区間を抽出することができ、笑いが単独で起
こっているのか、しゃべりを伴う笑いなのか、あるい
は、無言の笑い動作だけなのかの区別が可能になる。
【0017】さらに、本発明は、コンピュータを、音声
を時間的に区分する区分手段と、前記区分手段により区
分された音声の各区間の振幅情報から前記区間の音圧変
化の平均を計算する計算手段と、前記計算手段の結果を
所定の閾値と比較し、該計算手段の結果が前記閾値より
大きく、かつ同じ音素が所定期間続くときは前記区間が
笑い声区間であると判定する笑い声判定手段と、を備え
る音声処理装置として機能させるためのプログラムを記
録したことを特徴とするコンピュータ読み取り可能な記
録媒体である。
【0018】また、本発明は、コンピュータを、フレー
ムの集合からなる動画像を処理する動画像処理装置にお
いて、人間等の身体の各部分を、複数のフレームにまた
がって識別する識別手段と、前記各部分の動きを抽出す
る動き抽出手段と、前記抽出された動きを、笑い動作に
特有の動きとして設定された規則と比較し、その一致度
に応じて前記複数のフレームが笑い動作であると判定す
る笑い動作判定手段と、を備える動画像処理装置として
機能させるためのプログラムを記録したことを特徴とす
るコンピュータ読み取り可能な記録媒体である。
【0019】また、本発明は、コンピュータを、音声を
時間的に区分する区分手段と、前記区分手段により区分
された音声の各区間の振幅情報から前記区間の音圧変化
の平均を計算する計算手段と、前記計算手段の結果を所
定の閾値と比較し、該計算手段の結果が前記閾値より大
きく、かつ同じ音素が所定期間続くときは前記区間が笑
い声区間であると判定する笑い声判定手段と、を備える
音声処理装置と、フレームの集合からなる動画像を処理
する動画像処理装置において、人間等の身体の各部分
を、複数のフレームにまたがって識別する識別手段と、
前記各部分の動きを抽出する動き抽出手段と、前記抽出
された動きを、笑い動作に特有の動きとして設定された
規則と比較し、その一致度に応じて前記複数のフレーム
が笑い動作であると判定する笑い動作判定手段と、を備
える動画像処理装置とを備える音声・動画像処理装置で
あって、前記笑い動作に対して、音声の有無を確認し、
音声有りのフレームを笑い声区間と判定する判定手段を
備える音声・動画像処理装置として機能させるためのプ
ログラムを記録したことを特徴とするコンピュータ読み
取り可能な記録媒体である。
【0020】
【発明の実施の形態】以下、添付図面を参照しながら本
発明の好適な音声処理装置、動画像処理装置及び音声・
動画像処理装置の実施の形態について詳細に説明する。
まず、本発明の基本的な考え方について説明する。
【0021】(1)笑い声は一般に気分の高揚を伴うこ
とから、音波の振幅が大きい傾向がある。本発明者は、
このことに着目して、音声の各区間の振幅情報から変化
の平均を求め、所定の閾値よりも大きい区間を笑い声区
間と判定する。このとき用いる振幅情報は、rms(ro
ot mean square:平方自乗平均)振幅値が望ましい。さ
らに、「ははは」のように、笑いは、/h/(「//」
は、音素の境界記号を示す)音に母音/a/,/i/,
/u/,/e/,/o/が後続することが多いことを利
用し、同じ母音が断続的に続く区間を判定することによ
り、笑い声区間の判定の精度を上げ、喜びや怒りの区間
を排除する。音声の各区間は、常に一定区間でなくても
よいが、閾値は区間の長さに応じて変化させる。
【0022】(2)画像処理又は、先願に係る発明(特
願平11−125991号)を用いて求めた人間等の身
体各部位の動きから、笑い動作区間を抽出する。人間等
の身体の各部分としては、頭、首、胸、右肩、左肩、右
上腕、左上腕、右下腕、左下腕、右手、左手の11箇所
を用いる。動き情報としては、身体各部位の移動量の大
きさ、速度、又は加速度でもよい。さらに、笑い動作を
判定するには、頭と肩の動きが、笑い動作区間の直前か
ほぼ同時に始まること、手の動きが、前記頭や肩の動き
より後に始まること、頭と肩の動きは、前後の動きであ
るという規則を利用する。
【0023】(3)音声信号と動画像を統合すること
で、まず、動画像を基に動き情報から笑い動作区間を抽
出し、前記笑い動作区間に音声が含まれるかどうかを判
定し、含まれる場合は、前記音声区間を笑い声区間と判
定する。さらに、前記音声区間に「ははは」のような笑
い音声が含まれるかどうかを判定し、含まれる区間は笑
い声区間と判定し、含まれない区間は笑いながらの発話
区間と判定する。
【0024】図1は、上記基本的な考え方に基づく本発
明の第1の実施の形態の音声処理装置の基本構成を示す
ブロック図である。音声処理装置として、マルチモーダ
ルインタフェースを用いた情報処理装置に適用した例で
ある。図1において、音声処理装置10は、所定の動作
を行う人間(被験者)の音声データをデジタルデータに
変換するA/D変換部100、所定の処理単位毎に音声
パワー、ピッチ、音声波の振幅、周波数スペクトルなど
を格納するデータベース101、データベース101に
格納されたデータから音声の区間を抽出する音声区間判
定部102(区分手段)、抽出された音声区間から振幅
情報及び音韻情報に基づいて笑い声区間を抽出する笑い
声区間抽出部103、笑い声区間抽出部103を構成す
る振幅判定部104(計算手段)及び音声認識部105
(笑い声判定手段)、抽出した笑い声区間を格納する笑
い声区間格納部106、及び笑い声区間を示す音声情報
を出力(例えば表示)する出力部107から構成され
る。
【0025】図2は、音声処理装置10の具体的なシス
テム構成を示す図である。図2において、音声処理装置
10は、CPU1、RAMからなるワークメモリ2、音
声信号を入力する入力部3、入力音声信号及びCPU1
の演算処理結果を格納するデータベース4、ドットマト
リクス構成の液晶表示装置(LCD)からなる表示部
5、電源バックアップにより書き込まれた情報を保持す
るSRAM(Static RAM)カード,FD,CD−ROM
等の外部記憶装置7、外部記憶装置7の読み取り装置で
ある外部記憶ドライバ6から構成される。
【0026】CPU1は、音声・動画像処理の実行を含
む装置全体の制御を行う制御部であり、内蔵のシステム
プログラムに従い、演算に使用するデータを記憶したワ
ークメモリ2を使用して笑い声区間抽出処理プログラム
を実行してワークメモリ2上に抽出処理結果を作成す
る。
【0027】ワーキングメモリ2は、文字表示に関する
データや演算に使用するデータ及び演算結果等を一時的
に記憶するいわゆるワーキングメモリであり、CPU1
により実行されるプログラム処理において利用されるプ
ログラム、音声処理データ等を格納する。なお、このプ
ログラムは、システムプログラムとして図示しないRO
Mに格納されるものでもよい。また、ワークメモリとし
て用いられるRAMの一部の記憶領域は、電源バックア
ップするか、あるいはEEPROM(electrically era
sable programmable ROM)やフラッシュメモリ等の不揮
発性メモリにより構成され、電源OFF後も設定条件を
保持する。この記憶領域には、各種設定データや処理デ
ータ等が格納される。
【0028】表示部5は、データベース4に格納された
音声情報やCPU1の演算処理結果を表示する。外部記
憶ドライバ6は、笑い声抽出処理プログラムを記録した
外部記憶装置7の読み取り装置である。メモリカード,
FD,CD−ROM等の外部記憶装置7は、本音声処理
機能を実現するためのプログラム、後述する実施の形態
における動画像処理及び音声・動画像処理プログラム等
を記録した記憶媒体である。
【0029】以下、上述のように構成された音声処理装
置の動作を説明する。まず、音声処理装置10の基本動
作について述べる。図1において、マイクにより検出さ
れた所定の動作を行う人間等(被験者)の音声データ
は、A/D変換器100によりA/D変換され、フレー
ム(1/30sec)毎にデータベース101に格納さ
れる。データベース101に格納された音声データは、
1フレーム毎に読み出され、音声区間判定部102によ
り音声の区間が抽出される。
【0030】笑い声区間抽出部103は、振幅判定部1
04及び音声認識部105から構成され、音声区間判定
部102で抽出された音声区間から、振幅情報及び音韻
情報に基づいて笑い声区間を抽出し、抽出した笑い声区
間を笑い声区間格納部106に格納し、笑い声区間を示
す音声情報を出力部107に表示する。
【0031】本音声処理装置10では、図1に示すよう
に、被験者の音声データがA/D変換され、所定の処理
単位(例えば1フレーム=1/30sec)毎に音声パ
ワー、ピッチ、音声波の振幅、周波数スペクトルなどが
検出され、データベース101にフレーム毎に格納され
ている。
【0032】次に、上記笑い声区間抽出部103による
音声処理動作について具体的に説明する。図3は、デー
タベース4に格納されているある音声データ例を示す図
であり、図3(a)はその音声波形、図3(b)はその
rms振幅、図3(c)はその周波数スペクトラムをそ
れぞれ示す。また、図中の数値はフレーム番号である。
【0033】図3に示す音声データは、マイクより入力
され、A/D変換されてデータベース101に格納され
ている音声「大丈夫カットしてくれるから。はははは
は。」の音声波形、rms振幅、周波数スペクトルであ
る。区間Aが「大丈夫カットしてくれるから」という音
声部分、区間Bが「ははははは」という笑い声部分であ
る。
【0034】図3に示すように、人間は常に淀みなくし
ゃべり続けるわけではなく、楽しく笑いながら、あるい
は失笑しながらしゃべる。データを処理するにあたっ
て、この笑いの箇所を抽出することは重要な課題であ
る。ここでは、この「ははははは」という笑い声を抽出
する方法を例にとる。
【0035】音声区間判定部102では、A/D変換さ
れた音声信号の音声パワーから、所定の閾値を超える区
間を音声区間として判定し、該当する始点・終点フレー
ム番号を振幅判定部104に出力する。振幅判定部10
4では、音声区間判定部102で判定された始点・終点
フレーム内において、フレーム毎にrms振幅値を求
め、その平均値が所定の閾値を超える区間を抽出し、そ
の始点・終点フレーム番号を音声認識部105に出力す
る。rms振幅とは、音声波の音圧の変化の平均であ
り、音の大きさはrms振幅に依存する。
【0036】笑いは一般に、気分の高揚を伴うことか
ら、図3(b)の区間bに見られるように、振幅が大き
い傾向がある。また、笑いは、吸気に続く横隔膜や腹筋
の収縮、咽喉の緊張と弛緩による断続的な音声を伴う呼
気であるから、図3(b)の区間bに見られるような断
続的なrms振幅を示す。したがって、笑い声区間のr
ms振幅値の平均値は、所定の閾値よりも大きい傾向が
ある。
【0037】しかし、rms振幅の平均値が大きい箇所
が必ずしも笑い声部分であるとは限らない。しゃべり箇
所でも、強い喜びや怒りなどの気分の高揚を伴う箇所で
はrms振幅が大きな値を示すことがある。そこで、音
声認識部105では、笑い声に含まれる特徴的な音声を
抽出する。一般に、笑いは「ははは」「ひひひ」「ふふ
ふ」「ヘヘヘ」「ほほほ」(これのバリエーションとし
て、「あはは」「いひひ」「うふふ」「えヘヘ」「おほ
ほ」というのもある)と標記されるように、/h/音に
母音/a/,/i/,/u/,/e/,/o/が後続す
る発音が基本である場合が多い。/h/音は、発声時に
声帯が振動しないため、基本周波数を持たないが、その
調音器官の位置は、/h/の次にくる母音と同じである
から周波数成分は母音に似た相対振幅をもつ。
【0038】さらに、笑いでは、「ははは」のように、
同じ母音(この場合は/a/音)が続く場合が多い。そ
こで、音声認識部105では、この性質を利用して、音
声区間判定部102で抽出された始点・終点フレーム内
(図3(a)の区間A,B参照)において、「はは」や
「ははは」のように、同じ母音が断続的に続く区間(図
3(c)の区間c参照)を笑い声区間と判定し、その始
点・終点フレーム番号を笑い声区間格納部106に出力
する。このように、rms振幅値が大きい音声区間での
み音声認識を行うので、少ない演算量とメモリサイズで
笑い声区間を抽出することが可能になる。
【0039】図4は、笑い声区間抽出部103の動作を
示すフローチャートであり、本フローはCPU1におい
て実行される。図中、Sはフローの各ステップを示す。
笑い声区間抽出処理がスタートすると、音声区間判定部
102では、A/D変換された音声信号の音声パワーか
ら、所定の閾値を超える区間を音声区間Vとして抽出
し、その始点フレーム番号Sv(n)、終点フレーム番
号Ev(n)、及びフレーム長L(n)を求め、振幅判
定部104に出力する(ステップS101)。
【0040】振幅判定部104では、音声区間判定部1
02で抽出された音声区間Vにおいてフレーム毎にrm
s振幅R(n)を抽出し、各区間のR(n)の平均値を
求める(ステップS102)。ステップS103では、
各区間のR(n)の平均値R(n)/L(n)が、所定
の閾値T(例えば1.1e+0.3)を超えるか否かを
判定し、平均値R(n)/L(n)が閾値Tを超える場
合は該当区間Vの始点フレーム番号Sv(n)及び終点
フレーム番号Ev(n)を音声認識部105に出力す
る。平均値R(n)/L(n)が閾値Tを超えない場合
は、笑い声区間とは判定されずに本フローによる処理を
終了する。
【0041】音声認識部105では、振幅判定部104
で抽出された区間Vにおいて、/h/音+母音の音声が
連続するか否かを判定し(ステップS104)、連続す
る区間Wを笑い声区間と判定した場合は、ステップS1
05でその始点フレーム番号Sw(n)及び終点フレー
ム番号Ew(n)を求め、笑い声区間格納部106に出
力して本フローによる処理を終了する。一方、区間Vに
おいて、/h/音+母音の音声が連続しない場合は、区
間Vは笑い声区間とは判定されずに本フローによる処理
を終了する。
【0042】このようにして対話中の笑い声区間が抽出
される例を、図3を用いて説明する。音声区間判定部1
02によって、区間A,Bが音声区間として抽出され
る。振幅判定部104では、区間A,Bのうち、区間B
のrms振幅である区間bが、rms振幅の平均値が所
定の閾値Tを超えるので抽出される。
【0043】音声認識部105では、上記区間bのうち
周波数スペクトラム区間cが、/ha/音の連続音とし
て抽出されるので、笑い声区間として判定される。した
がって、区間cの始点・終点フレーム番号が、笑い声区
間格納部106に格納される。このように、抽出された
笑い声区間のrms振幅値から、笑い声の大きさを判定
することが可能であり、感情の程度を判定することがで
きる。
【0044】以上のように、本実施の形態の音声処理装
置10は、1フレーム毎に音声パワー、ピッチ、音声波
の振幅、周波数スペクトルなどを格納するデータベース
101、データベース101に格納されたデータから音
声の区間を抽出する音声区間判定部102、抽出された
音声の各区間の振幅情報に対してrms振幅値を求め、
各区間の音圧変化の平均を計算する振幅判定部104、
振幅判定部104の結果を閾値と比較し、該結果が閾値
より大きい状態が所定時間続くときは区間が笑い声区間
であると判定する音声認識部105、抽出した笑い声区
間を格納する笑い声区間格納部106と、及び笑い声区
間を示す音声情報を出力する出力部107を備え、笑い
声区間のrms振幅値の平均値は、前記閾値よりも大き
い傾向があることを利用することにより、音声信号から
笑い声区間を抽出することができる。特に、本実施の形
態では、前記区間において、「ははは」のように、同じ
母音が断続的に続くかどうかを判定することにより、笑
い声区間の判定の精度を上げ、喜びや怒りの区間を排除
することができる。したがって、rms振幅値が大きい
音声区間でのみ音声認識を行うので、少ない演算量とメ
モリサイズで笑い声区間を抽出することができる。
【0045】第2の実施の形態 図5は、本発明の第2の実施の形態の動画像処理装置の
構成を示す図である。本実施の形態の説明にあたり、図
1と同一構成部分には同一符号を付して重複部分の説明
を省略する。
【0046】図5において、動画像処理装置20は、所
定の動作を行う人間(被験者)の動画像データをデジタ
ルデータに変換するA/D変換部200、人間等の身体
の一以上の部分の位置情報を格納する位置情報格納部2
01、動画像データを格納するデータベース101、デ
ータベース101に格納された動画像データ及び位置情
報から身体の各部位の動きの移動量を抽出し、動き情報
から笑いの動作の区間を判定する笑い動作区間抽出部2
02、笑い動作区間抽出部202を構成する移動量判定
部203(識別手段,動き抽出手段)及び動作判定部2
04(笑い動作判定手段)、抽出した笑い動作区間を格
納する笑い動作区間格納部205、及び笑い動作区間を
示す情報を出力(例えば表示)する出力部107から構
成される。動画像処理装置20の具体的なシステム構成
は、図2と同様である。
【0047】以下、上述のように構成された動画像処理
装置の動作を説明する。所定の動作を行う人間等(被験
者)の動画像データは、A/D変換器200によりA/
D変換され、フレーム(1/30sec)毎にデータベ
ース101に入力される。また、データベース101に
は、人間等の身体の一以上の部分の位置情報を入力する
位置情報格納部201が接続されており、動画像データ
がデータベース101に、身体各部位の位置データが位
置情報格納部201に、共にフレーム毎に、それぞれ同
期をとって格納される。笑い動作区間抽出部202は、
移動量判定部203及び動作判定部204から構成さ
れ、位置情報から身体の各部位の動きの移動量を抽出
し、動き情報から笑いの動作の区間を判定して、笑い動
作区間格納部205に格納する。
【0048】第1の実施の形態で述べたように、笑い
は、「ははは」という笑いが多い。しかし、必ずしも明
瞭な母音を伴わない笑いもある。また、口を閉じたまま
の押し殺した笑いや、音声を伴わない笑いもある。しゃ
べりを伴って起こる笑いもある。このような笑いを抽出
するには、身体の特徴的な動きが役に立つ。笑いは、顔
の表情の変化を伴うと同時に、頭部や肩、胸の筋肉な
ど、身体の活動を伴う。本実施の形態では、身体の各部
位の位置の変化から動きを抽出して、笑いの箇所を判定
する。
【0049】まず、位置情報格納部201について説明
する。ここでは、人間等の身体の一以上の部分の位置情
報を得る手段として、光学式のモーションキャプチャシ
ステムを用いた場合で説明する。図6は、モーションキ
ャプチャシステムを説明する図であり、図6(a)は、
モーションキャプチャシステムにおいて、被験者の身体
上に装着するマーカ位置を、図6(b)は図6(a)の
マーカ位置を基に設定された人間の骨格を表わすスケル
トンの各セグメント位置を表わす。
【0050】光学式モーションキャプチャシステムで
は、一人の被験者を複数(ここでは4台)の赤外線カメ
ラでとらえることにより、図6(a)に示す18箇所の
マーカ位置(●印参照)の3次元座標の時系列データを
作成する。さらに、本光学式モーションキャプチャシス
テムでは、これら体の外側に付いているマーカの位置を
基に、人間等の骨格を表わすスケルトンの各関節を表わ
すバーチャルマーカを計算・設定することにより、スケ
ルトン構造(図6(b)参照)の階層構造を決定し、そ
の各セグメント(関節:図6(b)に示す11箇所)の
設定されているローカル座標での相対位置座標を計算す
ることができる。
【0051】本実施の形態で捉えるセグメントは、図6
(b)に示すように、上半身の、[Herd],[Neck],[Upp
er Torso],[L Collar Bone],[R Collar Bone],[L Up
Arm],[R Up Arm],[L Low Arm],[R Low Arm],[L Ha
nd],[R Hand]の11箇所である。本光学式モーション
キャプチャシステムにより得られる前記各セグメントの
ローカル座標での相対位置座標が、位置情報格納部20
1に格納される。位置情報格納部201に入力されてい
るファイルの例を図7に示す。
【0052】図7は、位置情報格納部201に格納され
ているファイルの例を示す図である。図7に示すよう
に、位置情報格納部201に格納されているファイルに
は、各セグメントのローカル座標での3次元相対位置座
標(x,y,z)の時系列データ(フレーム毎)が含ま
れている。例えば、セグメント[Herd]の第3フレームで
の座標は(0.000002,-0.886932,0.000004)である。
【0053】図8は、位置情報格納部201に入力され
ている位置データをグラフ化した図であり、図3に示し
た発話区間における頭部、肩、手の3次元位置座標を基
に描画したものである。x軸は左右方向、y軸は上下方
向、z軸は前後方向の動きである。
【0054】図8において、区間cが第1の実施の形態
で笑い声区間として抽出された区間である。図8からわ
かるように、頭と肩の移動量は笑い声とほぼ同時かその
直前に現れるのに対し、手の動きはその後に起こる。ま
た、笑いの動作は笑い声が収まった後まで残る傾向があ
り(区間e参照)、その動きの大きさは、笑いの大きさ
に比例する。このように、頭や肩など、身体の各部位の
位置座標におけるx,y,z軸方向の移動量を調べるこ
とにより、笑いの区間を抽出することができる。
【0055】ここでは、笑い箇所では、頭と肩(右肩)
のセグメント[Herd],[Rshouler]のz軸(前後方向)の
移動量が共に大きくなる傾向があることを利用して笑い
の動作区間を抽出することを例にとり、笑い動作区間抽
出部202の動作を説明する。
【0056】図9は、笑い動作区間抽出部202の動作
を示すフローチャートであり、本フローは図2のCPU
1において実行される。笑い動作区間抽出処理がスター
トすると、移動量判定部203では、[Herd],[Rshoule
r]それぞれのz軸の移動量を並列に調べる。
【0057】頭と肩(右肩)についての並列処理のう
ち、まず頭[Herd]のz軸に対する移動量判定処理(ステ
ップS200)の説明をする。頭[Herd]のz軸方向の移
動量を抽出するために、ステップS201で位置情報格
納部201に格納されているセグメント[Herd]のz軸方
向の各フレームの座標値Hz(n)を基に、z軸座標値
の変化率Phz(n)を次式(1)により求める。
【0058】
【数1】
【0059】ここで、nは現フレーム番号である。変化
率Phz(n)がプラスであれば頭は前方向に動いてい
ることを表わし、マイナスであれば、後ろ方向に動いて
いることを示す。次に、抽出された動きが単なる体の揺
れ等に伴う微かな動きではなく、笑いに伴う動作の区間
を見つけるために、ステップS202でフレームnでの
変化率Phz(n)の絶対値(ここでは移動の方向は関
係なく、移動量だけが問題であるので絶対値を使う)が
ある閾値D1(ここでは0.05)を超えているか(|
Phz(n)|>D1か)否かを判別し、|Phz
(n)|が閾値D1を超えていなければ、笑い動作とは
判定されずに本フローによる処理を終了する。
【0060】|Phz(n)|が閾値D1を超えている
場合は、ステップS203で該当区間Hの始点フレーム
番号Sphz(n)及び終点フレーム番号Ephz
(n)を求め、動作判定処理(ステップS400)のス
テップS401に進む。同様に、肩[Rshouler]のz軸の
移動量を抽出する移動量判定処理(ステップS300)
を行う。
【0061】肩[Rshouler]の前後方向(z軸方向)の移
動量を抽出するために、ステップS301で位置情報格
納部201に格納されているセグメント[Rshouler]のz
軸方向の各フレームの座標値RSz(n)を基に、z軸
座標値の変化率Prsz(n)を次式(2)により求め
る。
【0062】
【数2】
【0063】ここで、nは現フレーム番号である。変化
率Prsz(n)がプラスであれば肩は前方向に動いて
いることを表わし、マイナスであれば、後ろ方向に動い
ていることを示す。笑いに伴う動きの区間を抽出するた
めに、ステップS302でフレームnでの変化率Prs
z(n)の絶対値がある閾値D2(ここでは0.05)
を超えているか(|Phsz(n)|>D2か)否かを
判別し、|Phsz(n)|が閾値D2を超えていなけ
れば、笑い動作とは判定されずに本フローによる処理を
終了する。
【0064】|Phsz(n)|が閾値D2を超えてい
る場合は、ステップS303で超えている区間Sの始点
フレーム番号Sprsz(n)及び終点フレーム番号E
prsz(n)を求め、動作判定処理(ステップS40
0)のステップS401に進む。
【0065】動作判定部204では、笑い動作の区間を
判定するために、動作判定処理(ステップS400)を
行う。まず、ステップS401で上記ステップS203
及びステップS303で得られたフレーム区間を基に、
頭[Herd]から抽出された区間Hと肩[Rshouler]から抽出
された区間Sの重複区間Mを笑い動作区間と判定し、そ
の区間Mの始点フレーム番号Sm(n)と終点フレーム
番号Em(n)を求め、笑い動作区間格納部205に格
納して本フローによる処理を終了する。上述した笑い動
作区間抽出処理を実行することにより笑い動作区間を抽
出することができる。
【0066】例えば、図8に示す区間fでは、z軸方向
に頭と肩の移動量が共に大きいので笑い動作区間と判定
されるが、区間dは、z軸方向に頭の移動量は大きい
が、肩の移動量が小さいので、笑い動作区間と判定され
ていない。このように、身体の部位の動きの移動量か
ら、笑いの区間を抽出することが可能になる。すなわ
ち、抽出された笑い動作区間の動きの移動量から、笑い
動作の大きさを判定することが可能になり、感情の程度
を判定することができる。
【0067】ここで、本実施の形態では、笑いに特徴的
な動きを示す部位として、頭と肩(右肩)の移動量を例
にとり説明したが、これは一例に過ぎず、図6(b)に
示す上半身の各セグメントについて同様の処理方法によ
り、移動量の判定及び笑い動作判定を行うようにしても
よい。例えば、頭と肩(右肩)の判定に、さらに喉,左
肩,胸等の判定を加えるようにすれば笑い動作区間判定
の精度を向上させることができる。さらに、笑いの動作
に特徴的な身体各部位の移動パターンを登録しておい
て、パターンマッチングの手法により、笑いの動作区間
を抽出してもよい。
【0068】以上のように、本実施の形態の動画像処理
装置20は、人間等の身体の一以上の部分の位置情報を
格納する位置情報格納部201、動画像データを格納す
るデータベース101、データベース101に格納され
た動画像データ及び位置情報から身体の各部位の動きの
移動量する移動量判定部203、抽出された動きを所定
の規則と比較し、その一致度に応じて前記複数のフレー
ムが笑い動作区間であると判定する動作判定部204、
抽出した笑い動作区間を格納する笑い動作区間格納部2
05、及び笑い動作区間を示す情報を出力する出力部1
07を備え、笑いは頭部や肩、胸の筋肉など、身体の活
動を伴うことを利用することにより、身体の各部位の動
きから、笑い動作を抽出することができ、明瞭な母音を
伴わない笑いや、口を閉じたままの押し殺した笑い、音
声を伴わない笑い、しゃべりを伴って起こる笑いに伴
う、笑い動作を抽出することができる。
【0069】また、本実施の形態では、人間等の身体の
各部分として、頭、首、胸、右肩、左肩、右上腕、左上
腕、右下腕、左下腕、右手、左手の11箇所のうち、例
えば頭、右肩を用い、さらに、笑い動作の判定には、頭
と肩の動きが、笑い動作区間の直前かほぼ同時に始まる
こと、手の動きが、前記頭や肩の動きより遅れて始まる
こと、頭と肩の動きは、前後の動きであるという規則を
利用している。このような笑い動作の特徴を処理に反映
させることにより、比較的少ない計算量で笑いの箇所を
精度良く抽出することができる。
【0070】第3の実施の形態 笑い動作は、人間等の身体の各部位の位置情報に基づい
て計算される各セグメントの、所定のフレーム毎(例え
ば10フレーム毎)の速度や加速度情報を用いて抽出す
ることも可能である。所定の動作をしている人間等の動
きを解析するには、その移動量だけでなく、速度や加速
度といった運動量も重要な情報である。笑い動作を例に
とると、全身の動きを伴う大きな笑いや、細かな運動が
複数回繰り返されるこらえた笑いなど、様々なパターン
がある。そこで、速度又は加速度を利用して、笑い動作
の区間を抽出することが可能である。
【0071】まず、速度は、時刻tにおける位置を座標
値x(t),y(t),z(t)とすると、(x
(t),y(t),z(t))を時間微分した次式
(3)で求めることができる。 (u,v,w)≡(dx/dt,dy/dt,dz/dt) …(3)
【0072】また、加速度は、速度を微分、すなわち位
置を2階微分することにより、次式(4)で求めること
ができる。 (u’,v’,w’)≡(d2x/dt2,d2y/dt2,d2z/dt2) …(4)
【0073】速度又は加速度から笑い動作を抽出するに
は、例えば頭や肩などの各セグメントの速度又は加速度
がそれぞれ一定の閾値を超えている区間を見つければよ
い。このため、各セグメントのフレーム毎の速度情報や
加速度情報を基に、各セグメント毎に予め設定した閾値
を超えるフレーム区間を笑い動作区間として抽出する。
また、動きの強度は連続的なものであるから、例えば、
頭の速度又は加速度V(x,y,z)を抽出する関数f
(vh)を設定し、動きの強度に応じて笑いの動作の区
間を抽出するようにしてもよい。これにより、笑いが急
に激しくなったり、だんだん弱くなるなどの区間も抽出
できるようになる。また、単一のセグメントの動きから
だけではなく、複数セグメントの動きの相互関係から、
動きの強度に応じて笑いの動作区間を抽出することも可
能になり、さらには、笑いの動作から、感情の程度を抽
出することも可能になる。
【0074】第4の実施の形態 第1の実施の形態では、音声情報を基に笑い声区間を抽
出し、第2及び第3の実施の形態では、身体上の各部位
の動きを基に、笑い動作区間を抽出した。本実施の形態
は、音声情報と動き情報を統合処理することで笑いの区
間を抽出するものである。図10は、本発明の第4の実
施の形態の音声・動画像処理装置の構成を示す図であ
る。本実施の形態の説明にあたり、図1及び図9と同一
構成部分には同一符号を付して重複部分の説明を省略す
る。
【0075】図10において、音声・動画像処理装置3
0は、所定の動作を行う人間(被験者)の音声データを
デジタルデータに変換するA/D変換部100、動画像
データをデジタルデータに変換するA/D変換部20
0、人間等の身体の一以上の部分の位置情報を格納する
位置情報格納部201、動画像データを格納するデータ
ベース101、位置情報と音声情報から笑いの区間を判
定する笑い区間抽出部301(判定手段)、抽出した笑
い間を格納する笑い区間格納部302、及び笑い区間を
示す情報を出力(例えば表示)する出力部107から構
成される。
【0076】また、笑い区間抽出部301は、データベ
ース101に格納された動画像データ及び位置情報から
身体の各部位の動きの移動量を抽出し、動き情報から笑
いの動作の区間を判定する笑い動作区間抽出部202、
笑い動作区間抽出部202を構成する移動量判定部20
3及び動作判定部204、データベース101に格納さ
れたデータから音声の区間を抽出する音声区間判定部1
02、抽出された音声区間から振幅情報及び音韻情報に
基づいて笑い声区間を抽出する笑い声区間抽出部10
3、笑い声区間抽出部103を構成する振幅判定部10
4及び音声認識部105から構成される。
【0077】所定の動作を行う人間等(被験者)の音声
及び動画像データはA/D変換されフレーム(1/30
sec)毎にデータベース101に入力される。笑い区
間抽出部301は、第2の実施の形態の移動量判定部2
03及び動作判定部204からなる笑い動作区間抽出部
202と、第1の実施の形態の音声区間判定部102、
振幅判定部104及び音声認識部105からなる笑い声
区間抽出部103とを組合せたものである。音声・動画
像処理装置30の具体的なシステム構成は、図2と同様
である。
【0078】以下、上述のように構成された音声・動画
像処理装置の動作を説明する。前記図3及び図8は、同
じ発話区間を示したものであるが、比較して分かるよう
に、図3に示す音声データから抽出された笑い声区間c
と、図8に示すファイルデータから抽出された笑い動作
区間fとは、笑いとして抽出された範囲が異なる。これ
は、一般に、動きは急に止まれるものではなく、特に動
きが大きければ大きいほど、その動きが収まるには時間
がかかるためである。このように、笑い声が止まった後
も、笑いの動作が続くことが多い(図8e参照)。
【0079】そこで、本実施の形態では、音声情報と動
き情報を統合して判定することで、笑いの区間を抽出す
る。この方法を用いれば、例えば笑いながらしゃべって
いる区間を抽出することが可能になる。第1の実施の形
態においては、笑い声を抽出することを目的としてお
り、笑いながらしゃべっている区間は抽出されない。一
方、第2及び第3の実施の形態では、笑い動作を抽出す
ることを目的としていたため、抽出された箇所で被験者
が無言で笑っているのか、笑っているだけなのか、ある
いは笑いながらしゃべっているかの区別はできない。本
実施の形態によれば、音声情報と動き情報を統合して判
定することにより、より精密な笑い区間抽出方法を実現
することができ、笑いが単独で起こっているのか、しゃ
べりを伴う笑いなのか、あるいは、無言の笑い動作だけ
なのかの区別をも判別可能になる。
【0080】例えば、図3と図8を統合的に見てみる
と、区間fで笑い動作が起こっている区間cで笑い声と
笑い動作が同時に起こっている区間eで区間cに続く余
韻の笑い動作のみが起こっていることが分かる。
【0081】図11は、データベース4に格納されてい
る別の音声データ例を示す図であり、図11(a)はそ
の音声波形、図11(b)はそのrms振幅、図11
(c)はその周波数スペクトラムをそれぞれ示す。ま
た、図中の数値はフレーム番号である。図12は、位置
情報格納部201に入力されている別のファイルデータ
(位置データ)をグラフ化した図であり、図11に示し
た発話区間における頭部、肩、手の3次元位置座標を基
に描画したものである。x軸は左右方向、y軸は上下方
向、z軸は前後方向の動きである。
【0082】図11に示す音声データは、「あの、私
(あたし)の電話機が、嫌(や)なの。違う、違(ち
が)、そういう意味じゃなくて」と発話している部分の
音声情報を示したものである。図12は、同区間の位置
情報である。図11と図12を比較してみると、図11
(b)に示す区間h,i,jの振幅は大きいが、同区間
h,i,jのスペクトルパターン(図11(c))は、
いわゆる「ははは」という笑い声のパターンを示してい
ない。
【0083】図12に示す区間g(図11の区間h,i
に相当する)で笑い動作が起こっていることがわかる。
このような場合、区間gでは、笑いながらしゃべってい
ることが多い。したがって、振幅判定部104、音声認
識部105、移動量判定部203及び動作判定部204
の結果を統合して判定することで、区間gでは笑いなが
らしゃべっている箇所であると判定できることがわか
る。
【0084】このように動き情報と音声情報を統合して
判定する笑い区間抽出処理を図13のフローチャートを
用いて説明する。図13は、笑い区間抽出部301の動
作を示すフローチャートであり、本フローは図2のCP
U1において実行される。本処理では、まず動き情報か
ら笑い動作区間を抽出し、次にその区間に笑い声が含ま
れるか、あるいは笑いを伴ったしゃべりが含まれるかを
判定するという処理手順をとる。
【0085】まず、図4に示すフローチャートの手順に
従い、移動量判定部203及び動作判定部204は、頭
と肩の動きの移動量から笑い動作区間Mを抽出し、その
区間の始点フレーム番号Sm(n)及び終点フレーム番
号Em(n)を求める(ステップS501)。
【0086】次いで、音声区間判定部102では前記動
作区間Mに音声区間が含まれるか否かを判定し(ステッ
プS502)、含まれる場合は、ステップS503で該
当音声区間Vの始点フレーム番号Sv(n)及び終点フ
レーム番号Ev(n)、及びフレーム長L(n)を求
め、振幅判定部104に出力する。一方、動作区間Mに
音声区間が含まれない場合は、ステップS601で動作
区間Mは音声を伴わない笑い動作のみと判断して、区間
Mの始点フレーム番号Sm(m)及び終点フレーム番号
Em(n)を笑い区間格納部302に出力して本フロー
による処理を終了する。
【0087】振幅判定部104では、前記音声区間Vに
おいてフレーム毎にrms振幅R(n)を抽出し(ステ
ップS504)、さらにその平均値(R(n)/L
(n))が所定の閾値T(例えば1.1e+0.3)を
超えるか否かを判定する(ステップS505)。平均値
(R(n)/L(n))が閾値Tを超える場合は、区間
Vの始点フレーム番号Sv(n)及び終点フレーム番号
Ev(n)を音声認識部105に出力する。平均値(R
(n)/L(n))が閾値Tを超えない場合は、振幅が
小さいことから、笑い声とは異なる発話があると判断さ
れ、同区間Vに現れる動作は笑い動作とは異なる動作と
判定されて本フローによる処理を終了する。
【0088】音声認識部105では、前記音声区間Vに
おいて、/h/音+母音の音声が連続して現れるか否か
を判定し(ステップS506)、/h/音+母音の音声
が連続する場合は、ステップS602で区間Mを笑い動
作の区間として、また、区間Mに含まれる区間Vを笑い
声区間として判定し、それぞれの始点フレームSm
(n)と終点フレームEm(n)、始点フレームSw
(n)と終点フレームEw(n)を笑い区間格納部30
2に出力して本フローによる処理を終了する。
【0089】一方、上記ステップS506で、音声区間
Vにおいて、/h/音+母音の音声が連続しない場合
は、ステップS603で区間Mを笑い動作の区間とし
て、また、区間Mに含まれる区間Vを笑いながらの発話
区間として判定し、それぞれの始点フレームSm(n)
と終点フレームEm(n)、始点フレームSs(n)と
終点フレームEs(n)を笑い区間格納部302に出力
して本フローによる処理を終了する。
【0090】このように、本実施の形態では、音声情報
と動き情報を統合して判定することにより、笑い単独の
区間と笑いを伴ったしゃべりの区間を区別することが可
能となる。抽出された笑い動作区間の動きの移動量の大
きさ、及び笑い声区間のrms振幅値から、笑いの大き
さを判定することが可能になるため、感情の程度を判定
することができる。
【0091】すなわち、第1の実施の形態においては、
笑い声を抽出することを目的としているので、笑いなが
らしゃべっている区間は抽出されず、第2及び第3の実
施の形態では、笑い動作を抽出することを目的としてい
るので、抽出された箇所で被験者が無言で笑っているの
か、笑っているだけなのか、あるいは笑いながらしゃべ
っているかの区別はできなかったが、本実施の形態で
は、音声情報と動き情報を統合して判定することによ
り、より精密な笑い区間を抽出することが可能になり、
笑いが単独で起こっているのか、しゃべりを伴う笑いな
のか、あるいは、無言の笑い動作だけなのかの区別が可
能になる。
【0092】なお、本発明の音声処理装置及び動画像処
理装置は、上述の実施の形態に限定されるものではな
く、本発明の要旨を逸脱しない範囲内において種々変更
を加え得ることは勿論である。例えば、上述したような
マルチモーダルインタフェースを用いた情報処理装置に
適用することもできるが、これには限定されず、全ての
装置に適用可能である。
【0093】また、本実施の形態に係る処理装置が、P
DA(Personal Digital Assistant)等の携帯情報端末
やパーソナルコンピュータの音声・動画像処理機能とし
て組み込まれたものでもよい。さらに、上記音声処理装
置及び動画像処理装置を構成する各回路部等の種類、デ
ータベースなどは前述した実施形態に限られない。
【0094】以上説明した音声処理装置及び動画像処理
装置は、この処理装置を機能させるためのプログラムで
も実現される。このプログラムはコンピュータで読み取
り可能な記録媒体に格納されている。本発明では、この
記録媒体として、メインメモリそのものがプログラムメ
ディアであってもよいし、また外部記憶装置としてプロ
グラム読み取り装置が設けられ、そこに記録媒体を挿入
することで読み取り可能なプログラムメディアであって
もよい。いずれの場合においても、格納されているプロ
グラムはCPUがアクセスして実行させる構成であって
もよいし、あるいはいずれの場合もプログラムを読み出
し、読み出されたプログラムは、図示されていないプロ
グラム記憶エリアにダウンロードされて、そのプログラ
ムが実行される方式であってもよい。このダウンロード
用のプログラムは予め本体装置に格納されているものと
する。
【0095】ここで、上記プログラムメディアは、本体
と分離可能に構成される記録媒体であり、例えばPCカ
ード(SRAMカード)のほか、磁気テープやカセット
テープ等のテープ系、フロッピー(登録商標)ディスク
やハードディスク等の磁気ディスクやCD−ROM/M
O/MD/DVD等の光ディスクのディスク系、ICカ
ード/光カード等のカード系、あるいはマスクROM、
EPROM、EEPROM、フラッシュROM等による
半導体メモリを含めた固定的にプログラムを担持する媒
体であってもよい。
【0096】さらに、外部の通信ネットワークとの接続
が可能な通信装置を備えている場合には、その通信装置
を介して通信ネットワークからプログラムをダウンロー
ドするように、流動的にプログラムを担持する媒体であ
ってもよい。なお、このように通信ネットワークからプ
ログラムをダウンロードする場合には、そのダウンロー
ド用プログラムは予め本体装置に格納しておくか、ある
いは別な記録媒体からインストールされるものであって
もよい。なお、記録媒体に格納されている内容としては
プログラムに限定されず、データであってもよい。
【0097】
【発明の効果】以上、詳述したように、本発明によれ
ば、笑い声区間を自動的に、しかも少ない演算量とメモ
リサイズで抽出することができる音声処理装置を実現す
ることができる。また、本発明によれば、動画像から、
笑い動作区間を自動的に抽出することができる動画像処
理装置を実現することができる。また、本発明によれ
ば、音声信号と動画像から、笑い動作、笑い声、笑いを
伴う音声区間をより正確に区別して抽出することができ
る音声・動画像処理装置を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の音声処理装置の基
本構成を示すブロック図である。
【図2】本発明の実施の形態の音声処理装置の具体的な
システム構成を示す図である。
【図3】本実施の形態の音声処理装置のデータベースに
格納されているある音声データ例を示す図である。
【図4】本実施の形態の音声処理装置の笑い声区間抽出
部の動作を示すフローチャートである。
【図5】本発明の第2の実施の形態の動画像処理装置の
構成を示す図である。
【図6】本実施の形態の動画像処理装置のモーションキ
ャプチャシステムを説明する図である。
【図7】本実施の形態の動画像処理装置の位置情報格納
部に格納されているファイルの例を示す図である。
【図8】本実施の形態の動画像処理装置の位置情報格納
部に入力されている位置データをグラフ化した図であ
る。
【図9】本実施の形態の動画像処理装置の笑い動作区間
抽出部の動作を示すフローチャートである。
【図10】本発明の第4の実施の形態の音声・動画像処
理装置の構成を示す図である。
【図11】本実施の形態の音声・動画像処理装置のデー
タベースに格納されている別の音声データ例を示す図で
ある。
【図12】本実施の形態の音声・動画像処理装置の位置
情報格納部に入力されている別のファイルデータをグラ
フ化した図である。
【図13】本実施の形態の音声・動画像処理装置の笑い
区間抽出部の動作を示すフローチャートである。
【符号の説明】
1 CPU 2 ワークメモリ 3 入力部 4 データベース 5 表示部 6 外部記憶ドライバ 7 外部記憶装置(記録媒体) 10 音声処理装置 20 動画像処理装置 30 音声・動画像処理装置 100,200 A/D変換部 101 データベース 102 音声区間判定部(区分手段) 103 笑い声区間抽出部 104 振幅判定部(計算手段) 105 音声認識部(笑い声判定手段) 106 笑い声区間格納部 107 出力部 201 位置情報格納部 202 笑い動作区間抽出部 203 移動量判定部(識別手段,動き抽出手段) 204 動作判定部(笑い動作判定手段) 205 笑い動作区間格納部 301 笑い区間抽出部(判定手段) 302 笑い区間格納部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/00 15/28

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 音声を時間的に区分する区分手段と、 前記区分手段により区分された音声の各区間の振幅情報
    から前記区間の音圧変化の平均を計算する計算手段と、 前記計算手段の結果を所定の閾値と比較し、該計算手段
    の結果が前記閾値より大きく、かつ同じ音素が所定期間
    続くときは前記区間が笑い声区間であると判定する笑い
    声判定手段と、 を備えることを特徴とする音声処理装置。
  2. 【請求項2】 前記振幅情報は、rms(root mean sq
    uare)振幅値であることを特徴とする請求項1記載の音
    声処理装置。
  3. 【請求項3】 前記閾値は、前記区間の長さに応じて変
    更されることを特徴とする請求項1記載の音声処理装
    置。
  4. 【請求項4】 さらに、請求項1乃至3のいずれか一項
    に記載の音声処理装置であって、前記抽出した笑い声区
    間に対して、笑い声に含まれる音声パターンとのマッチ
    ングを行うマッチング手段と、 前記マッチング手段のマッチング結果に基づいて笑い声
    区間と笑いを伴う音声区間を区別して、笑い声区間をさ
    らに限定する限定手段と、 を備えることを特徴とする音声処理装置。
  5. 【請求項5】 フレームの集合からなる動画像を処理す
    る動画像処理装置において、 人間等の身体の各部分を、複数のフレームにまたがって
    識別する識別手段と、 前記各部分の動きを抽出する動き抽出手段と、 前記抽出された動きを、笑い動作に特有の動きとして設
    定された規則と比較し、その一致度に応じて前記複数の
    フレームが笑い動作であると判定する笑い動作判定手段
    と、 を備えることを特徴とする動画像処理装置。
  6. 【請求項6】 前記人間等の身体の各部分が、頭、首、
    胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右
    手、左手のうちの、少なくとも一つ以上であることを特
    徴とする請求項5記載の動画像処理装置。
  7. 【請求項7】 前記規則は、頭と肩の動きが、前記笑い
    動作の直前かほぼ同時に始まるという規則であることを
    特徴とする請求項5記載の動画像処理装置。
  8. 【請求項8】 前記規則は、手の動きが、頭や肩の動き
    の始まりより遅れて始まるという規則であることを特徴
    とする請求項5又は7に記載の動画像処理装置。
  9. 【請求項9】 前記規則は、頭と肩の動きが、前後の動
    きであることを特徴とする請求項5、7又は8のいずれ
    か一項に記載の動画像処理装置。
  10. 【請求項10】 前記規則は、人間等の身体の各部分の
    速度又は加速度の関数であることを特徴とする請求項
    5、7、8又は9のいずれか一項に記載の動画像処理装
    置。
  11. 【請求項11】 請求項1記載の音声処理装置と、請求
    項5記載の動画像処理装置とを備える音声・動画像処理
    装置であって、 前記笑い動作に対して、音声の有無を確認し、音声有り
    のフレームを笑い声区間と判定する判定手段を備えるこ
    とを特徴とする音声・動画像処理装置。
  12. 【請求項12】 コンピュータを、音声を時間的に区分
    する区分手段と、前記区分手段により区分された音声の
    各区間の振幅情報から前記区間の音圧変化の平均を計算
    する計算手段と、前記計算手段の結果を所定の閾値と比
    較し、該計算手段の結果が前記閾値より大きく、かつ同
    じ音素が所定期間続くときは前記区間が笑い声区間であ
    ると判定する笑い声判定手段と、を備える音声処理装置
    として機能させるためのプログラムを記録したことを特
    徴とするコンピュータ読み取り可能な記録媒体。
  13. 【請求項13】 コンピュータを、フレームの集合から
    なる動画像を処理する動画像処理装置において、人間等
    の身体の各部分を、複数のフレームにまたがって識別す
    る識別手段と、前記各部分の動きを抽出する動き抽出手
    段と、前記抽出された動きを、笑い動作に特有の動きと
    して設定された規則と比較し、その一致度に応じて前記
    複数のフレームが笑い動作であると判定する笑い動作判
    定手段と、を備える動画像処理装置として機能させるた
    めのプログラムを記録したことを特徴とするコンピュー
    タ読み取り可能な記録媒体。
  14. 【請求項14】 コンピュータを、音声を時間的に区分
    する区分手段と、前記区分手段により区分された音声の
    各区間の振幅情報から前記区間の音圧変化の平均を計算
    する計算手段と、前記計算手段の結果を所定の閾値と比
    較し、該計算手段の結果が前記閾値より大きく、かつ同
    じ音素が所定期間続くときは前記区間が笑い声区間であ
    ると判定する笑い声判定手段と、を備える音声処理装置
    と、フレームの集合からなる動画像を処理する動画像処
    理装置において、人間等の身体の各部分を、複数のフレ
    ームにまたがって識別する識別手段と、前記各部分の動
    きを抽出する動き抽出手段と、前記抽出された動きを、
    笑い動作に特有の動きとして設定された規則と比較し、
    その一致度に応じて前記複数のフレームが笑い動作であ
    ると判定する笑い動作判定手段と、を備える動画像処理
    装置とを備える音声・動画像処理装置であって、前記笑
    い動作に対して、音声の有無を確認し、音声有りのフレ
    ームを笑い声区間と判定する判定手段を備える音声・動
    画像処理装置として機能させるためのプログラムを記録
    したことを特徴とするコンピュータ読み取り可能な記録
    媒体。
JP2000193118A 2000-06-27 2000-06-27 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 Expired - Fee Related JP3652961B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000193118A JP3652961B2 (ja) 2000-06-27 2000-06-27 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000193118A JP3652961B2 (ja) 2000-06-27 2000-06-27 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004217785A Division JP4394532B2 (ja) 2004-07-26 2004-07-26 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2002006874A true JP2002006874A (ja) 2002-01-11
JP3652961B2 JP3652961B2 (ja) 2005-05-25

Family

ID=18692161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000193118A Expired - Fee Related JP3652961B2 (ja) 2000-06-27 2000-06-27 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3652961B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006514366A (ja) * 2003-02-11 2006-04-27 株式会社ソニー・コンピュータエンタテインメント リアルタイムのモーション・キャプチャ方法および装置
JP2006350577A (ja) * 2005-06-14 2006-12-28 Fuji Xerox Co Ltd 動作分析装置
WO2007046267A1 (ja) * 2005-10-20 2007-04-26 Nec Corporation 音声判別システム、音声判別方法及び音声判別用プログラム
JP2009131362A (ja) * 2007-11-29 2009-06-18 Univ Kansai 笑い測定方法及び笑い測定装置
WO2011105003A1 (ja) 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
US8510156B2 (en) 2009-12-03 2013-08-13 Panasonic Corporation Viewing terminal apparatus, viewing statistics-gathering apparatus, viewing statistics-processing system, and viewing statistics-processing method
JP5662549B1 (ja) * 2013-12-18 2015-01-28 佑太 国安 記憶再生装置
US8983843B2 (en) 2012-01-12 2015-03-17 Fuji Xerox Co., Ltd. Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition
US9129611B2 (en) 2011-12-28 2015-09-08 Fuji Xerox Co., Ltd. Voice analyzer and voice analysis system
US9153244B2 (en) 2011-12-26 2015-10-06 Fuji Xerox Co., Ltd. Voice analyzer
JP2017047494A (ja) * 2015-09-01 2017-03-09 株式会社国際電気通信基礎技術研究所 アンドロイドロボットの制御システム、装置、プログラムおよび方法
JP2017194950A (ja) * 2016-02-29 2017-10-26 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド マルチメディアキャプチャ用のシステム及び方法
JP2018060374A (ja) * 2016-10-05 2018-04-12 富士ゼロックス株式会社 情報処理装置、評価システムおよびプログラム
CN111210804A (zh) * 2018-11-01 2020-05-29 普天信息技术有限公司 一种social signal的识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02184880A (ja) * 1989-01-12 1990-07-19 Nippon Telegr & Teleph Corp <Ntt> 遠隔講義システム
JPH08234789A (ja) * 1995-02-27 1996-09-13 Sharp Corp 統合認識対話装置
JPH10187182A (ja) * 1996-12-20 1998-07-14 Nippon Telegr & Teleph Corp <Ntt> 映像分類方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02184880A (ja) * 1989-01-12 1990-07-19 Nippon Telegr & Teleph Corp <Ntt> 遠隔講義システム
JPH08234789A (ja) * 1995-02-27 1996-09-13 Sharp Corp 統合認識対話装置
JPH10187182A (ja) * 1996-12-20 1998-07-14 Nippon Telegr & Teleph Corp <Ntt> 映像分類方法および装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4723863B2 (ja) * 2003-02-11 2011-07-13 株式会社ソニー・コンピュータエンタテインメント リアルタイムのモーション・キャプチャ方法および装置
JP2006514366A (ja) * 2003-02-11 2006-04-27 株式会社ソニー・コンピュータエンタテインメント リアルタイムのモーション・キャプチャ方法および装置
JP2006350577A (ja) * 2005-06-14 2006-12-28 Fuji Xerox Co Ltd 動作分析装置
US8116517B2 (en) 2005-06-14 2012-02-14 Fuji Xerox Co., Ltd. Action analysis apparatus
US8385598B2 (en) 2005-06-14 2013-02-26 Fuji Xerox Co., Ltd. Action analysis apparatus
US8175868B2 (en) 2005-10-20 2012-05-08 Nec Corporation Voice judging system, voice judging method and program for voice judgment
WO2007046267A1 (ja) * 2005-10-20 2007-04-26 Nec Corporation 音声判別システム、音声判別方法及び音声判別用プログラム
JP4911034B2 (ja) * 2005-10-20 2012-04-04 日本電気株式会社 音声判別システム、音声判別方法及び音声判別用プログラム
JP2009131362A (ja) * 2007-11-29 2009-06-18 Univ Kansai 笑い測定方法及び笑い測定装置
US8510156B2 (en) 2009-12-03 2013-08-13 Panasonic Corporation Viewing terminal apparatus, viewing statistics-gathering apparatus, viewing statistics-processing system, and viewing statistics-processing method
CN102388416A (zh) * 2010-02-25 2012-03-21 松下电器产业株式会社 信号处理装置及信号处理方法
US8498435B2 (en) 2010-02-25 2013-07-30 Panasonic Corporation Signal processing apparatus and signal processing method
WO2011105003A1 (ja) 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
US8644534B2 (en) 2010-02-25 2014-02-04 Panasonic Corporation Recording medium
US8682012B2 (en) 2010-02-25 2014-03-25 Panasonic Corporation Signal processing method
JP5607627B2 (ja) * 2010-02-25 2014-10-15 パナソニック株式会社 信号処理装置及び信号処理方法
US9153244B2 (en) 2011-12-26 2015-10-06 Fuji Xerox Co., Ltd. Voice analyzer
US9129611B2 (en) 2011-12-28 2015-09-08 Fuji Xerox Co., Ltd. Voice analyzer and voice analysis system
US8983843B2 (en) 2012-01-12 2015-03-17 Fuji Xerox Co., Ltd. Motion analyzer having voice acquisition unit, voice acquisition apparatus, motion analysis system having voice acquisition unit, and motion analysis method with voice acquisition
JP5662549B1 (ja) * 2013-12-18 2015-01-28 佑太 国安 記憶再生装置
JP2017047494A (ja) * 2015-09-01 2017-03-09 株式会社国際電気通信基礎技術研究所 アンドロイドロボットの制御システム、装置、プログラムおよび方法
JP2017194950A (ja) * 2016-02-29 2017-10-26 トヨタ モーター エンジニアリング アンド マニュファクチャリング ノース アメリカ,インコーポレイティド マルチメディアキャプチャ用のシステム及び方法
JP2018060374A (ja) * 2016-10-05 2018-04-12 富士ゼロックス株式会社 情報処理装置、評価システムおよびプログラム
CN111210804A (zh) * 2018-11-01 2020-05-29 普天信息技术有限公司 一种social signal的识别方法和装置

Also Published As

Publication number Publication date
JP3652961B2 (ja) 2005-05-25

Similar Documents

Publication Publication Date Title
Sebe et al. Emotion recognition based on joint visual and audio cues
JP5616325B2 (ja) ユーザ命令に基づいて表示を変更する方法
CA2397703C (en) Systems and methods for abstracting portions of information that is represented with finite-state devices
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
Chen et al. Emotional expressions in audiovisual human computer interaction
US20150325240A1 (en) Method and system for speech input
JP3652961B2 (ja) 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
CN106157956A (zh) 语音识别的方法及装置
JP2007293818A (ja) 画像記録装置、画像記録方法、および画像記録プログラム
Benoit et al. Audio-visual and multimodal speech systems
JPH08339446A (ja) 対話装置
Yang et al. Modeling dynamics of expressive body gestures in dyadic interactions
Gibbon et al. Audio-visual and multimodal speech-based systems
Zhang et al. Speechin: A smart necklace for silent speech recognition
JP2007272534A (ja) 省略語補完装置、省略語補完方法、及びプログラム
Vogler et al. A framework for motion recognition with applications to American sign language and gait recognition
JP2015103183A (ja) 診療支援装置
Loeding et al. Progress in automated computer recognition of sign language
JP4394532B2 (ja) 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2000315259A (ja) データベース作成装置及びデータベース作成プログラムを記録した記録媒体
JP2003228449A (ja) 対話装置及び対話処理プログラムを記録した記録媒体
Verma et al. Animating expressive faces across languages
JP7201984B2 (ja) アンドロイドのジェスチャ生成装置及びコンピュータプログラム
CN113657173A (zh) 一种数据处理方法、装置和用于数据处理的装置
JP6886663B2 (ja) 動作指示生成システム、方法およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050224

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080304

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090304

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100304

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100304

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110304

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120304

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120304

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130304

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130304

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140304

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees