JP2002006874A

JP2002006874A - 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体

Info

Publication number: JP2002006874A
Application number: JP2000193118A
Authority: JP
Inventors: Keiko Watanuki; 啓子綿貫
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-06-27
Filing date: 2000-06-27
Publication date: 2002-01-11
Anticipated expiration: 2020-06-27
Also published as: JP3652961B2

Abstract

(57)【要約】（修正有）【課題】笑い声区間を自動的に、しかも少ない演算量
とメモリサイズで抽出することができる音声処理装置と
動画像から笑い動作区間を自動的に抽出することができ
る動画像処理装置を提供する。【解決手段】音声処理装置１０は、１フレーム毎に音
声パワー、ピッチ、音声波の振幅、周波数スペクトルな
どを格納するデータベース１０１、音声の区間を抽出す
る音声区間判定部１０２、抽出された音声の各区間のｒ
ｍｓ振幅値を求め、各区間の音圧変化の平均を計算する
振幅判定部１０４、振幅判定部１０４の結果を閾値と比
較し、該結果が閾値より大きい状態が所定時間続くとき
は区間が笑い声区間であると判定する音声認識部１０
５、抽出した笑い声区間を格納する笑い声区間格納部１
０６と、出力部１０７を備えることにより、音声信号か
ら笑い声区間を抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、人の感情に対応す
る音声信号及び動作に関する情報を処理する音声処理装
置及び動画像処理装置に関し、詳細には、ユーザと情報
処理機器との間で自然な対話を実現するマルチモーダル
インタフェースの対話データベースに用いて好適な音声
処理装置、動画像処理装置、音声・動画像処理装置及び
音声・動画像処理プログラムを記録した記録媒体に関す
る。

【０００２】

【従来の技術】近年、音声認識技術が発展し、テレビジ
ョン受像機、ラジオ受信機、車載ナビゲーション、携帯
電話、パーソナルコンピュータ（以下、パソコンとい
う）等の機器に搭載されつつある。音声認識装置は通常
それぞれの機器の一部として内蔵されている。この音声
認識装置、手書き文字認識装置、マウス、ライトペン、
タブレット等のポインティングデバイスなど、複数の入
力装置をコンピュータに接続して、ユーザがその局面局
面において自分にとって最も都合の良い入力装置を使っ
て入力できれば非常に使いやすいインタフェースとな
る。このように複数の異なる入力モードから、ユーザが
任意の入力モードを選択し、組み合わせて自分の意図を
システムに伝えることができるインタフェースのことを
マルチモーダルインタフェースという。

【０００３】また、高性能のワークステーションやパソ
コンの普及に伴って、記憶容量の大きな光磁気ディスク
等の記憶媒体も低廉化し、高解像度の表示装置やマルチ
メディアに適応した周辺機器の価格も大幅に低下してい
る。文書処理、画像データ処理その他の分野では、処理
対象となるデータの情報量の増大に適応可能なデータ処
理機能の向上が要求され、従来、主として文字や数値に
施されていた処理に併せて音声や動画にも多様な処理を
施すことが可能な種々の処理装置が開発されつつある。

【０００４】ところで、上記ワークステーションやパソ
コン等において、音声処理をするにあたり、特に対話の
場合、人間は常に淀みなくしゃべり続けるわけではな
く、楽しく笑いながら、あるいは失笑しながらしゃべ
る。これら笑い声は、音声認識のレベルを上げるために
も、また、対話者の感情を分析する上でも重要である。
同様に、動画像処理をするにあたり、笑いの動作を認識
することが重要になる。

【０００５】

【発明が解決しようとする課題】このような従来の音声
・動画像処理装置にあっては、以下のような問題点があ
った。例えば、特開平９−２０６２９１号公報には、音
声信号から周波数スペクトラムを抽出し、そのスペクト
ラムの中心（周波数重心）Ｇを求めて、この周波数重心
Ｇが所定の閾値より大きいかどうかで笑いや拍手、歓声
等の感情を認識する方法が提案されている。この方法
は、笑いや拍手等の感情表現では、周波数重心が高いこ
とを利用しているが、笑いと拍手の区別はつけられな
い。さらに、上記公報に記載された装置は、例えば笑い
等の音の種類に対応する標準波形パターン辞書をあらか
じめ用意しておいて、パターンマッチングにより判定す
る方法も記載されている。しかしこの方法では、あらゆ
る笑いのパターンを用意しておかなければならず、ま
た、マッチングの過程において、すべての波形パターン
に対して処理を行わなければならず、膨大な演算量とメ
モリサイズを必要とする。

【０００６】また、特開平５−１２０２３号公報には、
音声認識を利用し、継続長やピッチなどの音声信号の特
徴を抽出して、基準となる音声信号とのずれ量を検出す
ることで感情状態を判定する方法が開示されている。し
かしこの方法は、発話音声に含まれる喜びや怒り等の感
情を認識するためのものであり、笑い声を認識すること
はできない。

【０００７】一方、動画情報を含むビデオ素材から人間
等の笑いの動作に関してデータベースを作成する場合、
例えば特開平８−１５３１２０号公報には、動画像デー
タをフレーム毎に分割して静止画像に変換し、各フレー
ムにラベルを付与して画像データベースを生成し、その
ラベルに基づいて検索する方法が開示されている。ま
た、特開平７−２５３９８６号公報には、音声及び動画
像を含むデータベースから、例えば笑いの音声や表情が
見られるフレーム区間に、[warai]等のラベル（タグ）
を付与し、検索時にそのラベルを入力すると、登録時に
関連したラベルを付与されていた動画像及び音声を抽出
する方法が開示されている。さらに、画像から観察者が
人間等の頭の動きや向き、手の形などをコード化して手
動でラベルを付ける試みがある（参考文献：“Hand and
Mind”D.McNeille著）。しかし、人手による上記ラベ
ル付けは時間も労力もかかる上に、作業者の個人差や主
観によるばらつきが生じることが多かった。また、同じ
「笑い」でも、激しい笑いやかすかな笑い等の区別をラ
ベルに反映させることが難しかった。

【０００８】本発明は、このような課題に鑑みてなされ
たものであって、笑い声区間を自動的に、しかも少ない
演算量とメモリサイズで抽出することができる音声処理
装置及び音声処理プログラムを記録した記録媒体を提供
することを目的としている。また、本発明は、動画像か
ら、笑い動作区間を自動的に抽出することができる動画
像処理装置及び動画像処理プログラムを記録した記録媒
体を提供することを目的としている。

【０００９】さらに、本発明は、音声信号と動画像か
ら、笑い動作、笑い声、笑いを伴う音声区間を区別して
抽出することができる音声・動画像処理装置及び音声・
動画像処理プログラムを記録した記録媒体を提供するこ
とを目的としている。

【００１０】

【課題を解決するための手段】本発明の音声処理装置
は、音声を時間的に区分する区分手段と、前記区分手段
により区分された音声の各区間の振幅情報から前記区間
の音圧変化の平均を計算する計算手段と、前記計算手段
の結果を所定の閾値と比較し、該計算手段の結果が前記
閾値より大きく、かつ同じ音素（例えば、母音又は母音
に類似した周波数成分の音素）が所定期間続くときは前
記区間が笑い声区間であると判定する笑い声判定手段
と、を備えることを特徴とするものである。また、より
好ましくは、前記振幅情報は、ｒｍｓ振幅値であっても
よく、前記閾値は、前記区間の長さに応じて変更される
ものであってもよい。

【００１１】さらに、前記抽出した笑い声区間に対し
て、笑い声に含まれる音声パターンとのマッチングを行
うマッチング手段と、前記マッチング手段のマッチング
結果に基づいて笑い声区間と笑いを伴う音声区間を区別
して、笑い声区間をさらに限定する限定手段と、を備え
ることを特徴とする。

【００１２】このように構成された本発明の音声処理装
置は、音声信号から笑い声区間を抽出することができ
る。特に、区間において、「ははは」のように、同じ母
音が断続的に続くかどうかを判定することにより、笑い
声区間の判定の精度を上げ、喜びや怒りの区間を排除す
ることができる。ｒｍｓ振幅値が大きい音声区間でのみ
音声認識を行うので、少ない演算量とメモリサイズで笑
い声区間を抽出することが可能になる。

【００１３】本発明の動画像処理装置は、フレームの集
合からなる動画像を処理する動画像処理装置において、
人間等の身体の各部分を、複数のフレームにまたがって
識別する識別手段と、前記各部分の動きを抽出する動き
抽出手段と、前記抽出された動きを、笑い動作に特有の
動きとして設定された規則と比較し、その一致度に応じ
て前記複数のフレームが笑い動作であると判定する笑い
動作判定手段と、を備えることを特徴としている。

【００１４】また、より好ましくは、前記人間等の身体
の各部分が、頭、首、胸、右肩、左肩、右上腕、左上
腕、右下腕、左下腕、右手、左手のうちの、少なくとも
一つ以上であってもよい。また、動き情報としては、身
体各部位の移動量の大きさ、速度、又は加速度でもよ
い。また、好ましい具体的な態様としては、前記規則
は、頭と肩の動きが、前記笑い動作の直前かほぼ同時に
始まるという規則であってもよく、また、前記所定の規
則は、手の動きが、頭や肩の動きの始まりより遅れて始
まるという規則であってもよい。

【００１５】また、好ましい具体的な態様としては、前
記規則は、頭と肩の動きが、前後の動きであってもよ
く、また、前記所定の規則は、人間等の身体の各部分の
速度又は加速度の関数であってもよい。このように構成
された本発明の動画像処理装置は、明瞭な母音を伴わな
い笑いや、口を閉じたままの押し殺した笑い、音声を伴
わない笑い、しゃべりを伴って起こる笑いに伴う、笑い
動作を抽出することが可能になる。

【００１６】本発明の音声・動画像処理装置は、請求項
１記載の音声処理装置と、請求項５記載の動画像処理装
置とを備える音声・動画像処理装置であって、前記笑い
動作に対して、音声の有無を確認し、音声有りのフレー
ムを笑い声区間と判定する判定手段を備えることで、音
声情報と動き情報を統合して判定することにより、より
精密な笑い区間を抽出することができ、笑いが単独で起
こっているのか、しゃべりを伴う笑いなのか、あるい
は、無言の笑い動作だけなのかの区別が可能になる。

【００１７】さらに、本発明は、コンピュータを、音声
を時間的に区分する区分手段と、前記区分手段により区
分された音声の各区間の振幅情報から前記区間の音圧変
化の平均を計算する計算手段と、前記計算手段の結果を
所定の閾値と比較し、該計算手段の結果が前記閾値より
大きく、かつ同じ音素が所定期間続くときは前記区間が
笑い声区間であると判定する笑い声判定手段と、を備え
る音声処理装置として機能させるためのプログラムを記
録したことを特徴とするコンピュータ読み取り可能な記
録媒体である。

【００１８】また、本発明は、コンピュータを、フレー
ムの集合からなる動画像を処理する動画像処理装置にお
いて、人間等の身体の各部分を、複数のフレームにまた
がって識別する識別手段と、前記各部分の動きを抽出す
る動き抽出手段と、前記抽出された動きを、笑い動作に
特有の動きとして設定された規則と比較し、その一致度
に応じて前記複数のフレームが笑い動作であると判定す
る笑い動作判定手段と、を備える動画像処理装置として
機能させるためのプログラムを記録したことを特徴とす
るコンピュータ読み取り可能な記録媒体である。

【００１９】また、本発明は、コンピュータを、音声を
時間的に区分する区分手段と、前記区分手段により区分
された音声の各区間の振幅情報から前記区間の音圧変化
の平均を計算する計算手段と、前記計算手段の結果を所
定の閾値と比較し、該計算手段の結果が前記閾値より大
きく、かつ同じ音素が所定期間続くときは前記区間が笑
い声区間であると判定する笑い声判定手段と、を備える
音声処理装置と、フレームの集合からなる動画像を処理
する動画像処理装置において、人間等の身体の各部分
を、複数のフレームにまたがって識別する識別手段と、
前記各部分の動きを抽出する動き抽出手段と、前記抽出
された動きを、笑い動作に特有の動きとして設定された
規則と比較し、その一致度に応じて前記複数のフレーム
が笑い動作であると判定する笑い動作判定手段と、を備
える動画像処理装置とを備える音声・動画像処理装置で
あって、前記笑い動作に対して、音声の有無を確認し、
音声有りのフレームを笑い声区間と判定する判定手段を
備える音声・動画像処理装置として機能させるためのプ
ログラムを記録したことを特徴とするコンピュータ読み
取り可能な記録媒体である。

【００２０】

【発明の実施の形態】以下、添付図面を参照しながら本
発明の好適な音声処理装置、動画像処理装置及び音声・
動画像処理装置の実施の形態について詳細に説明する。
まず、本発明の基本的な考え方について説明する。

【００２１】（１）笑い声は一般に気分の高揚を伴うこ
とから、音波の振幅が大きい傾向がある。本発明者は、
このことに着目して、音声の各区間の振幅情報から変化
の平均を求め、所定の閾値よりも大きい区間を笑い声区
間と判定する。このとき用いる振幅情報は、ｒｍｓ（ro
ot mean square：平方自乗平均）振幅値が望ましい。さ
らに、「ははは」のように、笑いは、／ｈ／（「／／」
は、音素の境界記号を示す）音に母音／ａ／，／ｉ／，
／ｕ／，／ｅ／，／ｏ／が後続することが多いことを利
用し、同じ母音が断続的に続く区間を判定することによ
り、笑い声区間の判定の精度を上げ、喜びや怒りの区間
を排除する。音声の各区間は、常に一定区間でなくても
よいが、閾値は区間の長さに応じて変化させる。

【００２２】（２）画像処理又は、先願に係る発明（特
願平１１−１２５９９１号）を用いて求めた人間等の身
体各部位の動きから、笑い動作区間を抽出する。人間等
の身体の各部分としては、頭、首、胸、右肩、左肩、右
上腕、左上腕、右下腕、左下腕、右手、左手の１１箇所
を用いる。動き情報としては、身体各部位の移動量の大
きさ、速度、又は加速度でもよい。さらに、笑い動作を
判定するには、頭と肩の動きが、笑い動作区間の直前か
ほぼ同時に始まること、手の動きが、前記頭や肩の動き
より後に始まること、頭と肩の動きは、前後の動きであ
るという規則を利用する。

【００２３】（３）音声信号と動画像を統合すること
で、まず、動画像を基に動き情報から笑い動作区間を抽
出し、前記笑い動作区間に音声が含まれるかどうかを判
定し、含まれる場合は、前記音声区間を笑い声区間と判
定する。さらに、前記音声区間に「ははは」のような笑
い音声が含まれるかどうかを判定し、含まれる区間は笑
い声区間と判定し、含まれない区間は笑いながらの発話
区間と判定する。

【００２４】図１は、上記基本的な考え方に基づく本発
明の第１の実施の形態の音声処理装置の基本構成を示す
ブロック図である。音声処理装置として、マルチモーダ
ルインタフェースを用いた情報処理装置に適用した例で
ある。図１において、音声処理装置１０は、所定の動作
を行う人間（被験者）の音声データをデジタルデータに
変換するＡ／Ｄ変換部１００、所定の処理単位毎に音声
パワー、ピッチ、音声波の振幅、周波数スペクトルなど
を格納するデータベース１０１、データベース１０１に
格納されたデータから音声の区間を抽出する音声区間判
定部１０２（区分手段）、抽出された音声区間から振幅
情報及び音韻情報に基づいて笑い声区間を抽出する笑い
声区間抽出部１０３、笑い声区間抽出部１０３を構成す
る振幅判定部１０４（計算手段）及び音声認識部１０５
（笑い声判定手段）、抽出した笑い声区間を格納する笑
い声区間格納部１０６、及び笑い声区間を示す音声情報
を出力（例えば表示）する出力部１０７から構成され
る。

【００２５】図２は、音声処理装置１０の具体的なシス
テム構成を示す図である。図２において、音声処理装置
１０は、ＣＰＵ１、ＲＡＭからなるワークメモリ２、音
声信号を入力する入力部３、入力音声信号及びＣＰＵ１
の演算処理結果を格納するデータベース４、ドットマト
リクス構成の液晶表示装置（ＬＣＤ）からなる表示部
５、電源バックアップにより書き込まれた情報を保持す
るＳＲＡＭ（Static RAM）カード，ＦＤ，ＣＤ−ＲＯＭ
等の外部記憶装置７、外部記憶装置７の読み取り装置で
ある外部記憶ドライバ６から構成される。

【００２６】ＣＰＵ１は、音声・動画像処理の実行を含
む装置全体の制御を行う制御部であり、内蔵のシステム
プログラムに従い、演算に使用するデータを記憶したワ
ークメモリ２を使用して笑い声区間抽出処理プログラム
を実行してワークメモリ２上に抽出処理結果を作成す
る。

【００２７】ワーキングメモリ２は、文字表示に関する
データや演算に使用するデータ及び演算結果等を一時的
に記憶するいわゆるワーキングメモリであり、ＣＰＵ１
により実行されるプログラム処理において利用されるプ
ログラム、音声処理データ等を格納する。なお、このプ
ログラムは、システムプログラムとして図示しないＲＯ
Ｍに格納されるものでもよい。また、ワークメモリとし
て用いられるＲＡＭの一部の記憶領域は、電源バックア
ップするか、あるいはＥＥＰＲＯＭ（electrically era
sable programmable ROM）やフラッシュメモリ等の不揮
発性メモリにより構成され、電源ＯＦＦ後も設定条件を
保持する。この記憶領域には、各種設定データや処理デ
ータ等が格納される。

【００２８】表示部５は、データベース４に格納された
音声情報やＣＰＵ１の演算処理結果を表示する。外部記
憶ドライバ６は、笑い声抽出処理プログラムを記録した
外部記憶装置７の読み取り装置である。メモリカード，
ＦＤ，ＣＤ−ＲＯＭ等の外部記憶装置７は、本音声処理
機能を実現するためのプログラム、後述する実施の形態
における動画像処理及び音声・動画像処理プログラム等
を記録した記憶媒体である。

【００２９】以下、上述のように構成された音声処理装
置の動作を説明する。まず、音声処理装置１０の基本動
作について述べる。図１において、マイクにより検出さ
れた所定の動作を行う人間等（被験者）の音声データ
は、Ａ／Ｄ変換器１００によりＡ／Ｄ変換され、フレー
ム（１／３０ｓｅｃ）毎にデータベース１０１に格納さ
れる。データベース１０１に格納された音声データは、
１フレーム毎に読み出され、音声区間判定部１０２によ
り音声の区間が抽出される。

【００３０】笑い声区間抽出部１０３は、振幅判定部１
０４及び音声認識部１０５から構成され、音声区間判定
部１０２で抽出された音声区間から、振幅情報及び音韻
情報に基づいて笑い声区間を抽出し、抽出した笑い声区
間を笑い声区間格納部１０６に格納し、笑い声区間を示
す音声情報を出力部１０７に表示する。

【００３１】本音声処理装置１０では、図１に示すよう
に、被験者の音声データがＡ／Ｄ変換され、所定の処理
単位（例えば１フレーム＝１／３０ｓｅｃ）毎に音声パ
ワー、ピッチ、音声波の振幅、周波数スペクトルなどが
検出され、データベース１０１にフレーム毎に格納され
ている。

【００３２】次に、上記笑い声区間抽出部１０３による
音声処理動作について具体的に説明する。図３は、デー
タベース４に格納されているある音声データ例を示す図
であり、図３（ａ）はその音声波形、図３（ｂ）はその
ｒｍｓ振幅、図３（ｃ）はその周波数スペクトラムをそ
れぞれ示す。また、図中の数値はフレーム番号である。

【００３３】図３に示す音声データは、マイクより入力
され、Ａ／Ｄ変換されてデータベース１０１に格納され
ている音声「大丈夫カットしてくれるから。はははは
は。」の音声波形、ｒｍｓ振幅、周波数スペクトルであ
る。区間Ａが「大丈夫カットしてくれるから」という音
声部分、区間Ｂが「ははははは」という笑い声部分であ
る。

【００３４】図３に示すように、人間は常に淀みなくし
ゃべり続けるわけではなく、楽しく笑いながら、あるい
は失笑しながらしゃべる。データを処理するにあたっ
て、この笑いの箇所を抽出することは重要な課題であ
る。ここでは、この「ははははは」という笑い声を抽出
する方法を例にとる。

【００３５】音声区間判定部１０２では、Ａ／Ｄ変換さ
れた音声信号の音声パワーから、所定の閾値を超える区
間を音声区間として判定し、該当する始点・終点フレー
ム番号を振幅判定部１０４に出力する。振幅判定部１０
４では、音声区間判定部１０２で判定された始点・終点
フレーム内において、フレーム毎にｒｍｓ振幅値を求
め、その平均値が所定の閾値を超える区間を抽出し、そ
の始点・終点フレーム番号を音声認識部１０５に出力す
る。ｒｍｓ振幅とは、音声波の音圧の変化の平均であ
り、音の大きさはｒｍｓ振幅に依存する。

【００３６】笑いは一般に、気分の高揚を伴うことか
ら、図３（ｂ）の区間ｂに見られるように、振幅が大き
い傾向がある。また、笑いは、吸気に続く横隔膜や腹筋
の収縮、咽喉の緊張と弛緩による断続的な音声を伴う呼
気であるから、図３（ｂ）の区間ｂに見られるような断
続的なｒｍｓ振幅を示す。したがって、笑い声区間のｒ
ｍｓ振幅値の平均値は、所定の閾値よりも大きい傾向が
ある。

【００３７】しかし、ｒｍｓ振幅の平均値が大きい箇所
が必ずしも笑い声部分であるとは限らない。しゃべり箇
所でも、強い喜びや怒りなどの気分の高揚を伴う箇所で
はｒｍｓ振幅が大きな値を示すことがある。そこで、音
声認識部１０５では、笑い声に含まれる特徴的な音声を
抽出する。一般に、笑いは「ははは」「ひひひ」「ふふ
ふ」「ヘヘヘ」「ほほほ」（これのバリエーションとし
て、「あはは」「いひひ」「うふふ」「えヘヘ」「おほ
ほ」というのもある）と標記されるように、／ｈ／音に
母音／ａ／，／ｉ／，／ｕ／，／ｅ／，／ｏ／が後続す
る発音が基本である場合が多い。／ｈ／音は、発声時に
声帯が振動しないため、基本周波数を持たないが、その
調音器官の位置は、／ｈ／の次にくる母音と同じである
から周波数成分は母音に似た相対振幅をもつ。

【００３８】さらに、笑いでは、「ははは」のように、
同じ母音（この場合は／ａ／音）が続く場合が多い。そ
こで、音声認識部１０５では、この性質を利用して、音
声区間判定部１０２で抽出された始点・終点フレーム内
（図３（ａ）の区間Ａ，Ｂ参照）において、「はは」や
「ははは」のように、同じ母音が断続的に続く区間（図
３（ｃ）の区間ｃ参照）を笑い声区間と判定し、その始
点・終点フレーム番号を笑い声区間格納部１０６に出力
する。このように、ｒｍｓ振幅値が大きい音声区間での
み音声認識を行うので、少ない演算量とメモリサイズで
笑い声区間を抽出することが可能になる。

【００３９】図４は、笑い声区間抽出部１０３の動作を
示すフローチャートであり、本フローはＣＰＵ１におい
て実行される。図中、Ｓはフローの各ステップを示す。
笑い声区間抽出処理がスタートすると、音声区間判定部
１０２では、Ａ／Ｄ変換された音声信号の音声パワーか
ら、所定の閾値を超える区間を音声区間Ｖとして抽出
し、その始点フレーム番号Ｓｖ（ｎ）、終点フレーム番
号Ｅｖ（ｎ）、及びフレーム長Ｌ（ｎ）を求め、振幅判
定部１０４に出力する（ステップＳ１０１）。

【００４０】振幅判定部１０４では、音声区間判定部１
０２で抽出された音声区間Ｖにおいてフレーム毎にｒｍ
ｓ振幅Ｒ（ｎ）を抽出し、各区間のＲ（ｎ）の平均値を
求める（ステップＳ１０２）。ステップＳ１０３では、
各区間のＲ（ｎ）の平均値Ｒ（ｎ）／Ｌ（ｎ）が、所定
の閾値Ｔ（例えば１．１ｅ＋０．３）を超えるか否かを
判定し、平均値Ｒ（ｎ）／Ｌ（ｎ）が閾値Ｔを超える場
合は該当区間Ｖの始点フレーム番号Ｓｖ（ｎ）及び終点
フレーム番号Ｅｖ（ｎ）を音声認識部１０５に出力す
る。平均値Ｒ（ｎ）／Ｌ（ｎ）が閾値Ｔを超えない場合
は、笑い声区間とは判定されずに本フローによる処理を
終了する。

【００４１】音声認識部１０５では、振幅判定部１０４
で抽出された区間Ｖにおいて、／ｈ／音＋母音の音声が
連続するか否かを判定し（ステップＳ１０４）、連続す
る区間Ｗを笑い声区間と判定した場合は、ステップＳ１
０５でその始点フレーム番号Ｓｗ（ｎ）及び終点フレー
ム番号Ｅｗ（ｎ）を求め、笑い声区間格納部１０６に出
力して本フローによる処理を終了する。一方、区間Ｖに
おいて、／ｈ／音＋母音の音声が連続しない場合は、区
間Ｖは笑い声区間とは判定されずに本フローによる処理
を終了する。

【００４２】このようにして対話中の笑い声区間が抽出
される例を、図３を用いて説明する。音声区間判定部１
０２によって、区間Ａ，Ｂが音声区間として抽出され
る。振幅判定部１０４では、区間Ａ，Ｂのうち、区間Ｂ
のｒｍｓ振幅である区間ｂが、ｒｍｓ振幅の平均値が所
定の閾値Ｔを超えるので抽出される。

【００４３】音声認識部１０５では、上記区間ｂのうち
周波数スペクトラム区間ｃが、／ｈａ／音の連続音とし
て抽出されるので、笑い声区間として判定される。した
がって、区間ｃの始点・終点フレーム番号が、笑い声区
間格納部１０６に格納される。このように、抽出された
笑い声区間のｒｍｓ振幅値から、笑い声の大きさを判定
することが可能であり、感情の程度を判定することがで
きる。

【００４４】以上のように、本実施の形態の音声処理装
置１０は、１フレーム毎に音声パワー、ピッチ、音声波
の振幅、周波数スペクトルなどを格納するデータベース
１０１、データベース１０１に格納されたデータから音
声の区間を抽出する音声区間判定部１０２、抽出された
音声の各区間の振幅情報に対してｒｍｓ振幅値を求め、
各区間の音圧変化の平均を計算する振幅判定部１０４、
振幅判定部１０４の結果を閾値と比較し、該結果が閾値
より大きい状態が所定時間続くときは区間が笑い声区間
であると判定する音声認識部１０５、抽出した笑い声区
間を格納する笑い声区間格納部１０６と、及び笑い声区
間を示す音声情報を出力する出力部１０７を備え、笑い
声区間のｒｍｓ振幅値の平均値は、前記閾値よりも大き
い傾向があることを利用することにより、音声信号から
笑い声区間を抽出することができる。特に、本実施の形
態では、前記区間において、「ははは」のように、同じ
母音が断続的に続くかどうかを判定することにより、笑
い声区間の判定の精度を上げ、喜びや怒りの区間を排除
することができる。したがって、ｒｍｓ振幅値が大きい
音声区間でのみ音声認識を行うので、少ない演算量とメ
モリサイズで笑い声区間を抽出することができる。

【００４５】第２の実施の形態図５は、本発明の第２の実施の形態の動画像処理装置の
構成を示す図である。本実施の形態の説明にあたり、図
１と同一構成部分には同一符号を付して重複部分の説明
を省略する。

【００４６】図５において、動画像処理装置２０は、所
定の動作を行う人間（被験者）の動画像データをデジタ
ルデータに変換するＡ／Ｄ変換部２００、人間等の身体
の一以上の部分の位置情報を格納する位置情報格納部２
０１、動画像データを格納するデータベース１０１、デ
ータベース１０１に格納された動画像データ及び位置情
報から身体の各部位の動きの移動量を抽出し、動き情報
から笑いの動作の区間を判定する笑い動作区間抽出部２
０２、笑い動作区間抽出部２０２を構成する移動量判定
部２０３（識別手段，動き抽出手段）及び動作判定部２
０４（笑い動作判定手段）、抽出した笑い動作区間を格
納する笑い動作区間格納部２０５、及び笑い動作区間を
示す情報を出力（例えば表示）する出力部１０７から構
成される。動画像処理装置２０の具体的なシステム構成
は、図２と同様である。

【００４７】以下、上述のように構成された動画像処理
装置の動作を説明する。所定の動作を行う人間等（被験
者）の動画像データは、Ａ／Ｄ変換器２００によりＡ／
Ｄ変換され、フレーム（１／３０ｓｅｃ）毎にデータベ
ース１０１に入力される。また、データベース１０１に
は、人間等の身体の一以上の部分の位置情報を入力する
位置情報格納部２０１が接続されており、動画像データ
がデータベース１０１に、身体各部位の位置データが位
置情報格納部２０１に、共にフレーム毎に、それぞれ同
期をとって格納される。笑い動作区間抽出部２０２は、
移動量判定部２０３及び動作判定部２０４から構成さ
れ、位置情報から身体の各部位の動きの移動量を抽出
し、動き情報から笑いの動作の区間を判定して、笑い動
作区間格納部２０５に格納する。

【００４８】第１の実施の形態で述べたように、笑い
は、「ははは」という笑いが多い。しかし、必ずしも明
瞭な母音を伴わない笑いもある。また、口を閉じたまま
の押し殺した笑いや、音声を伴わない笑いもある。しゃ
べりを伴って起こる笑いもある。このような笑いを抽出
するには、身体の特徴的な動きが役に立つ。笑いは、顔
の表情の変化を伴うと同時に、頭部や肩、胸の筋肉な
ど、身体の活動を伴う。本実施の形態では、身体の各部
位の位置の変化から動きを抽出して、笑いの箇所を判定
する。

【００４９】まず、位置情報格納部２０１について説明
する。ここでは、人間等の身体の一以上の部分の位置情
報を得る手段として、光学式のモーションキャプチャシ
ステムを用いた場合で説明する。図６は、モーションキ
ャプチャシステムを説明する図であり、図６（ａ）は、
モーションキャプチャシステムにおいて、被験者の身体
上に装着するマーカ位置を、図６（ｂ）は図６（ａ）の
マーカ位置を基に設定された人間の骨格を表わすスケル
トンの各セグメント位置を表わす。

【００５０】光学式モーションキャプチャシステムで
は、一人の被験者を複数（ここでは４台）の赤外線カメ
ラでとらえることにより、図６（ａ）に示す１８箇所の
マーカ位置（●印参照）の３次元座標の時系列データを
作成する。さらに、本光学式モーションキャプチャシス
テムでは、これら体の外側に付いているマーカの位置を
基に、人間等の骨格を表わすスケルトンの各関節を表わ
すバーチャルマーカを計算・設定することにより、スケ
ルトン構造（図６（ｂ）参照）の階層構造を決定し、そ
の各セグメント（関節：図６（ｂ）に示す１１箇所）の
設定されているローカル座標での相対位置座標を計算す
ることができる。

【００５１】本実施の形態で捉えるセグメントは、図６
（ｂ）に示すように、上半身の、[Herd]，[Neck]，[Upp
er Torso]，[L Collar Bone]，[R Collar Bone]，[L Up
Arm]，[R Up Arm]，[L Low Arm]，[R Low Arm]，[L Ha
nd]，[R Hand]の１１箇所である。本光学式モーション
キャプチャシステムにより得られる前記各セグメントの
ローカル座標での相対位置座標が、位置情報格納部２０
１に格納される。位置情報格納部２０１に入力されてい
るファイルの例を図７に示す。

【００５２】図７は、位置情報格納部２０１に格納され
ているファイルの例を示す図である。図７に示すよう
に、位置情報格納部２０１に格納されているファイルに
は、各セグメントのローカル座標での３次元相対位置座
標（ｘ，ｙ，ｚ）の時系列データ（フレーム毎）が含ま
れている。例えば、セグメント[Herd]の第３フレームで
の座標は（0.000002,-0.886932,0.000004）である。

【００５３】図８は、位置情報格納部２０１に入力され
ている位置データをグラフ化した図であり、図３に示し
た発話区間における頭部、肩、手の３次元位置座標を基
に描画したものである。ｘ軸は左右方向、ｙ軸は上下方
向、ｚ軸は前後方向の動きである。

【００５４】図８において、区間ｃが第１の実施の形態
で笑い声区間として抽出された区間である。図８からわ
かるように、頭と肩の移動量は笑い声とほぼ同時かその
直前に現れるのに対し、手の動きはその後に起こる。ま
た、笑いの動作は笑い声が収まった後まで残る傾向があ
り（区間ｅ参照）、その動きの大きさは、笑いの大きさ
に比例する。このように、頭や肩など、身体の各部位の
位置座標におけるｘ，ｙ，ｚ軸方向の移動量を調べるこ
とにより、笑いの区間を抽出することができる。

【００５５】ここでは、笑い箇所では、頭と肩（右肩）
のセグメント[Herd]，[Rshouler]のｚ軸（前後方向）の
移動量が共に大きくなる傾向があることを利用して笑い
の動作区間を抽出することを例にとり、笑い動作区間抽
出部２０２の動作を説明する。

【００５６】図９は、笑い動作区間抽出部２０２の動作
を示すフローチャートであり、本フローは図２のＣＰＵ
１において実行される。笑い動作区間抽出処理がスター
トすると、移動量判定部２０３では、[Herd]，[Rshoule
r]それぞれのｚ軸の移動量を並列に調べる。

【００５７】頭と肩（右肩）についての並列処理のう
ち、まず頭[Herd]のｚ軸に対する移動量判定処理（ステ
ップＳ２００）の説明をする。頭[Herd]のｚ軸方向の移
動量を抽出するために、ステップＳ２０１で位置情報格
納部２０１に格納されているセグメント[Herd]のｚ軸方
向の各フレームの座標値Ｈｚ（ｎ）を基に、ｚ軸座標値
の変化率Ｐｈｚ（ｎ）を次式（１）により求める。

【００５８】

【数１】

【００５９】ここで、ｎは現フレーム番号である。変化
率Ｐｈｚ（ｎ）がプラスであれば頭は前方向に動いてい
ることを表わし、マイナスであれば、後ろ方向に動いて
いることを示す。次に、抽出された動きが単なる体の揺
れ等に伴う微かな動きではなく、笑いに伴う動作の区間
を見つけるために、ステップＳ２０２でフレームｎでの
変化率Ｐｈｚ（ｎ）の絶対値（ここでは移動の方向は関
係なく、移動量だけが問題であるので絶対値を使う）が
ある閾値Ｄ１（ここでは０．０５）を超えているか（｜
Ｐｈｚ（ｎ）｜＞Ｄ１か）否かを判別し、｜Ｐｈｚ
（ｎ）｜が閾値Ｄ１を超えていなければ、笑い動作とは
判定されずに本フローによる処理を終了する。

【００６０】｜Ｐｈｚ（ｎ）｜が閾値Ｄ１を超えている
場合は、ステップＳ２０３で該当区間Ｈの始点フレーム
番号Ｓｐｈｚ（ｎ）及び終点フレーム番号Ｅｐｈｚ
（ｎ）を求め、動作判定処理（ステップＳ４００）のス
テップＳ４０１に進む。同様に、肩[Rshouler]のｚ軸の
移動量を抽出する移動量判定処理（ステップＳ３００）
を行う。

【００６１】肩[Rshouler]の前後方向（ｚ軸方向）の移
動量を抽出するために、ステップＳ３０１で位置情報格
納部２０１に格納されているセグメント[Rshouler]のｚ
軸方向の各フレームの座標値ＲＳｚ（ｎ）を基に、ｚ軸
座標値の変化率Ｐｒｓｚ（ｎ）を次式（２）により求め
る。

【００６２】

【数２】

【００６３】ここで、ｎは現フレーム番号である。変化
率Ｐｒｓｚ（ｎ）がプラスであれば肩は前方向に動いて
いることを表わし、マイナスであれば、後ろ方向に動い
ていることを示す。笑いに伴う動きの区間を抽出するた
めに、ステップＳ３０２でフレームｎでの変化率Ｐｒｓ
ｚ（ｎ）の絶対値がある閾値Ｄ２（ここでは０．０５）
を超えているか（｜Ｐｈｓｚ（ｎ）｜＞Ｄ２か）否かを
判別し、｜Ｐｈｓｚ（ｎ）｜が閾値Ｄ２を超えていなけ
れば、笑い動作とは判定されずに本フローによる処理を
終了する。

【００６４】｜Ｐｈｓｚ（ｎ）｜が閾値Ｄ２を超えてい
る場合は、ステップＳ３０３で超えている区間Ｓの始点
フレーム番号Ｓｐｒｓｚ（ｎ）及び終点フレーム番号Ｅ
ｐｒｓｚ（ｎ）を求め、動作判定処理（ステップＳ４０
０）のステップＳ４０１に進む。

【００６５】動作判定部２０４では、笑い動作の区間を
判定するために、動作判定処理（ステップＳ４００）を
行う。まず、ステップＳ４０１で上記ステップＳ２０３
及びステップＳ３０３で得られたフレーム区間を基に、
頭[Herd]から抽出された区間Ｈと肩[Rshouler]から抽出
された区間Ｓの重複区間Ｍを笑い動作区間と判定し、そ
の区間Ｍの始点フレーム番号Ｓｍ（ｎ）と終点フレーム
番号Ｅｍ（ｎ）を求め、笑い動作区間格納部２０５に格
納して本フローによる処理を終了する。上述した笑い動
作区間抽出処理を実行することにより笑い動作区間を抽
出することができる。

【００６６】例えば、図８に示す区間ｆでは、ｚ軸方向
に頭と肩の移動量が共に大きいので笑い動作区間と判定
されるが、区間ｄは、ｚ軸方向に頭の移動量は大きい
が、肩の移動量が小さいので、笑い動作区間と判定され
ていない。このように、身体の部位の動きの移動量か
ら、笑いの区間を抽出することが可能になる。すなわ
ち、抽出された笑い動作区間の動きの移動量から、笑い
動作の大きさを判定することが可能になり、感情の程度
を判定することができる。

【００６７】ここで、本実施の形態では、笑いに特徴的
な動きを示す部位として、頭と肩（右肩）の移動量を例
にとり説明したが、これは一例に過ぎず、図６（ｂ）に
示す上半身の各セグメントについて同様の処理方法によ
り、移動量の判定及び笑い動作判定を行うようにしても
よい。例えば、頭と肩（右肩）の判定に、さらに喉，左
肩，胸等の判定を加えるようにすれば笑い動作区間判定
の精度を向上させることができる。さらに、笑いの動作
に特徴的な身体各部位の移動パターンを登録しておい
て、パターンマッチングの手法により、笑いの動作区間
を抽出してもよい。

【００６８】以上のように、本実施の形態の動画像処理
装置２０は、人間等の身体の一以上の部分の位置情報を
格納する位置情報格納部２０１、動画像データを格納す
るデータベース１０１、データベース１０１に格納され
た動画像データ及び位置情報から身体の各部位の動きの
移動量する移動量判定部２０３、抽出された動きを所定
の規則と比較し、その一致度に応じて前記複数のフレー
ムが笑い動作区間であると判定する動作判定部２０４、
抽出した笑い動作区間を格納する笑い動作区間格納部２
０５、及び笑い動作区間を示す情報を出力する出力部１
０７を備え、笑いは頭部や肩、胸の筋肉など、身体の活
動を伴うことを利用することにより、身体の各部位の動
きから、笑い動作を抽出することができ、明瞭な母音を
伴わない笑いや、口を閉じたままの押し殺した笑い、音
声を伴わない笑い、しゃべりを伴って起こる笑いに伴
う、笑い動作を抽出することができる。

【００６９】また、本実施の形態では、人間等の身体の
各部分として、頭、首、胸、右肩、左肩、右上腕、左上
腕、右下腕、左下腕、右手、左手の１１箇所のうち、例
えば頭、右肩を用い、さらに、笑い動作の判定には、頭
と肩の動きが、笑い動作区間の直前かほぼ同時に始まる
こと、手の動きが、前記頭や肩の動きより遅れて始まる
こと、頭と肩の動きは、前後の動きであるという規則を
利用している。このような笑い動作の特徴を処理に反映
させることにより、比較的少ない計算量で笑いの箇所を
精度良く抽出することができる。

【００７０】第３の実施の形態笑い動作は、人間等の身体の各部位の位置情報に基づい
て計算される各セグメントの、所定のフレーム毎（例え
ば１０フレーム毎）の速度や加速度情報を用いて抽出す
ることも可能である。所定の動作をしている人間等の動
きを解析するには、その移動量だけでなく、速度や加速
度といった運動量も重要な情報である。笑い動作を例に
とると、全身の動きを伴う大きな笑いや、細かな運動が
複数回繰り返されるこらえた笑いなど、様々なパターン
がある。そこで、速度又は加速度を利用して、笑い動作
の区間を抽出することが可能である。

【００７１】まず、速度は、時刻ｔにおける位置を座標
値ｘ（ｔ），ｙ（ｔ），ｚ（ｔ）とすると、（ｘ
（ｔ），ｙ（ｔ），ｚ（ｔ））を時間微分した次式
（３）で求めることができる。（ｕ，ｖ，ｗ）≡（ｄｘ／ｄｔ，ｄｙ／ｄｔ，ｄｚ／ｄｔ） …（３）

【００７２】また、加速度は、速度を微分、すなわち位
置を２階微分することにより、次式（４）で求めること
ができる。（ｕ’，ｖ’，ｗ’）≡（ｄ²ｘ／ｄｔ²，ｄ²ｙ／ｄｔ²，ｄ²ｚ／ｄｔ²） …（４）

【００７３】速度又は加速度から笑い動作を抽出するに
は、例えば頭や肩などの各セグメントの速度又は加速度
がそれぞれ一定の閾値を超えている区間を見つければよ
い。このため、各セグメントのフレーム毎の速度情報や
加速度情報を基に、各セグメント毎に予め設定した閾値
を超えるフレーム区間を笑い動作区間として抽出する。
また、動きの強度は連続的なものであるから、例えば、
頭の速度又は加速度Ｖ（ｘ，ｙ，ｚ）を抽出する関数ｆ
（ｖｈ）を設定し、動きの強度に応じて笑いの動作の区
間を抽出するようにしてもよい。これにより、笑いが急
に激しくなったり、だんだん弱くなるなどの区間も抽出
できるようになる。また、単一のセグメントの動きから
だけではなく、複数セグメントの動きの相互関係から、
動きの強度に応じて笑いの動作区間を抽出することも可
能になり、さらには、笑いの動作から、感情の程度を抽
出することも可能になる。

【００７４】第４の実施の形態第１の実施の形態では、音声情報を基に笑い声区間を抽
出し、第２及び第３の実施の形態では、身体上の各部位
の動きを基に、笑い動作区間を抽出した。本実施の形態
は、音声情報と動き情報を統合処理することで笑いの区
間を抽出するものである。図１０は、本発明の第４の実
施の形態の音声・動画像処理装置の構成を示す図であ
る。本実施の形態の説明にあたり、図１及び図９と同一
構成部分には同一符号を付して重複部分の説明を省略す
る。

【００７５】図１０において、音声・動画像処理装置３
０は、所定の動作を行う人間（被験者）の音声データを
デジタルデータに変換するＡ／Ｄ変換部１００、動画像
データをデジタルデータに変換するＡ／Ｄ変換部２０
０、人間等の身体の一以上の部分の位置情報を格納する
位置情報格納部２０１、動画像データを格納するデータ
ベース１０１、位置情報と音声情報から笑いの区間を判
定する笑い区間抽出部３０１（判定手段）、抽出した笑
い間を格納する笑い区間格納部３０２、及び笑い区間を
示す情報を出力（例えば表示）する出力部１０７から構
成される。

【００７６】また、笑い区間抽出部３０１は、データベ
ース１０１に格納された動画像データ及び位置情報から
身体の各部位の動きの移動量を抽出し、動き情報から笑
いの動作の区間を判定する笑い動作区間抽出部２０２、
笑い動作区間抽出部２０２を構成する移動量判定部２０
３及び動作判定部２０４、データベース１０１に格納さ
れたデータから音声の区間を抽出する音声区間判定部１
０２、抽出された音声区間から振幅情報及び音韻情報に
基づいて笑い声区間を抽出する笑い声区間抽出部１０
３、笑い声区間抽出部１０３を構成する振幅判定部１０
４及び音声認識部１０５から構成される。

【００７７】所定の動作を行う人間等（被験者）の音声
及び動画像データはＡ／Ｄ変換されフレーム（１／３０
ｓｅｃ）毎にデータベース１０１に入力される。笑い区
間抽出部３０１は、第２の実施の形態の移動量判定部２
０３及び動作判定部２０４からなる笑い動作区間抽出部
２０２と、第１の実施の形態の音声区間判定部１０２、
振幅判定部１０４及び音声認識部１０５からなる笑い声
区間抽出部１０３とを組合せたものである。音声・動画
像処理装置３０の具体的なシステム構成は、図２と同様
である。

【００７８】以下、上述のように構成された音声・動画
像処理装置の動作を説明する。前記図３及び図８は、同
じ発話区間を示したものであるが、比較して分かるよう
に、図３に示す音声データから抽出された笑い声区間ｃ
と、図８に示すファイルデータから抽出された笑い動作
区間ｆとは、笑いとして抽出された範囲が異なる。これ
は、一般に、動きは急に止まれるものではなく、特に動
きが大きければ大きいほど、その動きが収まるには時間
がかかるためである。このように、笑い声が止まった後
も、笑いの動作が続くことが多い（図８ｅ参照）。

【００７９】そこで、本実施の形態では、音声情報と動
き情報を統合して判定することで、笑いの区間を抽出す
る。この方法を用いれば、例えば笑いながらしゃべって
いる区間を抽出することが可能になる。第１の実施の形
態においては、笑い声を抽出することを目的としてお
り、笑いながらしゃべっている区間は抽出されない。一
方、第２及び第３の実施の形態では、笑い動作を抽出す
ることを目的としていたため、抽出された箇所で被験者
が無言で笑っているのか、笑っているだけなのか、ある
いは笑いながらしゃべっているかの区別はできない。本
実施の形態によれば、音声情報と動き情報を統合して判
定することにより、より精密な笑い区間抽出方法を実現
することができ、笑いが単独で起こっているのか、しゃ
べりを伴う笑いなのか、あるいは、無言の笑い動作だけ
なのかの区別をも判別可能になる。

【００８０】例えば、図３と図８を統合的に見てみる
と、区間ｆで笑い動作が起こっている区間ｃで笑い声と
笑い動作が同時に起こっている区間ｅで区間ｃに続く余
韻の笑い動作のみが起こっていることが分かる。

【００８１】図１１は、データベース４に格納されてい
る別の音声データ例を示す図であり、図１１（ａ）はそ
の音声波形、図１１（ｂ）はそのｒｍｓ振幅、図１１
（ｃ）はその周波数スペクトラムをそれぞれ示す。ま
た、図中の数値はフレーム番号である。図１２は、位置
情報格納部２０１に入力されている別のファイルデータ
（位置データ）をグラフ化した図であり、図１１に示し
た発話区間における頭部、肩、手の３次元位置座標を基
に描画したものである。ｘ軸は左右方向、ｙ軸は上下方
向、ｚ軸は前後方向の動きである。

【００８２】図１１に示す音声データは、「あの、私
（あたし）の電話機が、嫌（や）なの。違う、違（ち
が）、そういう意味じゃなくて」と発話している部分の
音声情報を示したものである。図１２は、同区間の位置
情報である。図１１と図１２を比較してみると、図１１
（ｂ）に示す区間ｈ，ｉ，ｊの振幅は大きいが、同区間
ｈ，ｉ，ｊのスペクトルパターン（図１１（ｃ））は、
いわゆる「ははは」という笑い声のパターンを示してい
ない。

【００８３】図１２に示す区間ｇ（図１１の区間ｈ，ｉ
に相当する）で笑い動作が起こっていることがわかる。
このような場合、区間ｇでは、笑いながらしゃべってい
ることが多い。したがって、振幅判定部１０４、音声認
識部１０５、移動量判定部２０３及び動作判定部２０４
の結果を統合して判定することで、区間ｇでは笑いなが
らしゃべっている箇所であると判定できることがわか
る。

【００８４】このように動き情報と音声情報を統合して
判定する笑い区間抽出処理を図１３のフローチャートを
用いて説明する。図１３は、笑い区間抽出部３０１の動
作を示すフローチャートであり、本フローは図２のＣＰ
Ｕ１において実行される。本処理では、まず動き情報か
ら笑い動作区間を抽出し、次にその区間に笑い声が含ま
れるか、あるいは笑いを伴ったしゃべりが含まれるかを
判定するという処理手順をとる。

【００８５】まず、図４に示すフローチャートの手順に
従い、移動量判定部２０３及び動作判定部２０４は、頭
と肩の動きの移動量から笑い動作区間Ｍを抽出し、その
区間の始点フレーム番号Ｓｍ（ｎ）及び終点フレーム番
号Ｅｍ（ｎ）を求める（ステップＳ５０１）。

【００８６】次いで、音声区間判定部１０２では前記動
作区間Ｍに音声区間が含まれるか否かを判定し（ステッ
プＳ５０２）、含まれる場合は、ステップＳ５０３で該
当音声区間Ｖの始点フレーム番号Ｓｖ（ｎ）及び終点フ
レーム番号Ｅｖ（ｎ）、及びフレーム長Ｌ（ｎ）を求
め、振幅判定部１０４に出力する。一方、動作区間Ｍに
音声区間が含まれない場合は、ステップＳ６０１で動作
区間Ｍは音声を伴わない笑い動作のみと判断して、区間
Ｍの始点フレーム番号Ｓｍ（ｍ）及び終点フレーム番号
Ｅｍ（ｎ）を笑い区間格納部３０２に出力して本フロー
による処理を終了する。

【００８７】振幅判定部１０４では、前記音声区間Ｖに
おいてフレーム毎にｒｍｓ振幅Ｒ（ｎ）を抽出し（ステ
ップＳ５０４）、さらにその平均値（Ｒ（ｎ）／Ｌ
（ｎ））が所定の閾値Ｔ（例えば１．１ｅ＋０．３）を
超えるか否かを判定する（ステップＳ５０５）。平均値
（Ｒ（ｎ）／Ｌ（ｎ））が閾値Ｔを超える場合は、区間
Ｖの始点フレーム番号Ｓｖ（ｎ）及び終点フレーム番号
Ｅｖ（ｎ）を音声認識部１０５に出力する。平均値（Ｒ
（ｎ）／Ｌ（ｎ））が閾値Ｔを超えない場合は、振幅が
小さいことから、笑い声とは異なる発話があると判断さ
れ、同区間Ｖに現れる動作は笑い動作とは異なる動作と
判定されて本フローによる処理を終了する。

【００８８】音声認識部１０５では、前記音声区間Ｖに
おいて、／ｈ／音＋母音の音声が連続して現れるか否か
を判定し（ステップＳ５０６）、／ｈ／音＋母音の音声
が連続する場合は、ステップＳ６０２で区間Ｍを笑い動
作の区間として、また、区間Ｍに含まれる区間Ｖを笑い
声区間として判定し、それぞれの始点フレームＳｍ
（ｎ）と終点フレームＥｍ（ｎ）、始点フレームＳｗ
（ｎ）と終点フレームＥｗ（ｎ）を笑い区間格納部３０
２に出力して本フローによる処理を終了する。

【００８９】一方、上記ステップＳ５０６で、音声区間
Ｖにおいて、／ｈ／音＋母音の音声が連続しない場合
は、ステップＳ６０３で区間Ｍを笑い動作の区間とし
て、また、区間Ｍに含まれる区間Ｖを笑いながらの発話
区間として判定し、それぞれの始点フレームＳｍ（ｎ）
と終点フレームＥｍ（ｎ）、始点フレームＳｓ（ｎ）と
終点フレームＥｓ（ｎ）を笑い区間格納部３０２に出力
して本フローによる処理を終了する。

【００９０】このように、本実施の形態では、音声情報
と動き情報を統合して判定することにより、笑い単独の
区間と笑いを伴ったしゃべりの区間を区別することが可
能となる。抽出された笑い動作区間の動きの移動量の大
きさ、及び笑い声区間のｒｍｓ振幅値から、笑いの大き
さを判定することが可能になるため、感情の程度を判定
することができる。

【００９１】すなわち、第１の実施の形態においては、
笑い声を抽出することを目的としているので、笑いなが
らしゃべっている区間は抽出されず、第２及び第３の実
施の形態では、笑い動作を抽出することを目的としてい
るので、抽出された箇所で被験者が無言で笑っているの
か、笑っているだけなのか、あるいは笑いながらしゃべ
っているかの区別はできなかったが、本実施の形態で
は、音声情報と動き情報を統合して判定することによ
り、より精密な笑い区間を抽出することが可能になり、
笑いが単独で起こっているのか、しゃべりを伴う笑いな
のか、あるいは、無言の笑い動作だけなのかの区別が可
能になる。

【００９２】なお、本発明の音声処理装置及び動画像処
理装置は、上述の実施の形態に限定されるものではな
く、本発明の要旨を逸脱しない範囲内において種々変更
を加え得ることは勿論である。例えば、上述したような
マルチモーダルインタフェースを用いた情報処理装置に
適用することもできるが、これには限定されず、全ての
装置に適用可能である。

【００９３】また、本実施の形態に係る処理装置が、Ｐ
ＤＡ（Personal Digital Assistant）等の携帯情報端末
やパーソナルコンピュータの音声・動画像処理機能とし
て組み込まれたものでもよい。さらに、上記音声処理装
置及び動画像処理装置を構成する各回路部等の種類、デ
ータベースなどは前述した実施形態に限られない。

【００９４】以上説明した音声処理装置及び動画像処理
装置は、この処理装置を機能させるためのプログラムで
も実現される。このプログラムはコンピュータで読み取
り可能な記録媒体に格納されている。本発明では、この
記録媒体として、メインメモリそのものがプログラムメ
ディアであってもよいし、また外部記憶装置としてプロ
グラム読み取り装置が設けられ、そこに記録媒体を挿入
することで読み取り可能なプログラムメディアであって
もよい。いずれの場合においても、格納されているプロ
グラムはＣＰＵがアクセスして実行させる構成であって
もよいし、あるいはいずれの場合もプログラムを読み出
し、読み出されたプログラムは、図示されていないプロ
グラム記憶エリアにダウンロードされて、そのプログラ
ムが実行される方式であってもよい。このダウンロード
用のプログラムは予め本体装置に格納されているものと
する。

【００９５】ここで、上記プログラムメディアは、本体
と分離可能に構成される記録媒体であり、例えばＰＣカ
ード（ＳＲＡＭカード）のほか、磁気テープやカセット
テープ等のテープ系、フロッピー（登録商標）ディスク
やハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／Ｍ
Ｏ／ＭＤ／ＤＶＤ等の光ディスクのディスク系、ＩＣカ
ード／光カード等のカード系、あるいはマスクＲＯＭ、
ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭ等による
半導体メモリを含めた固定的にプログラムを担持する媒
体であってもよい。

【００９６】さらに、外部の通信ネットワークとの接続
が可能な通信装置を備えている場合には、その通信装置
を介して通信ネットワークからプログラムをダウンロー
ドするように、流動的にプログラムを担持する媒体であ
ってもよい。なお、このように通信ネットワークからプ
ログラムをダウンロードする場合には、そのダウンロー
ド用プログラムは予め本体装置に格納しておくか、ある
いは別な記録媒体からインストールされるものであって
もよい。なお、記録媒体に格納されている内容としては
プログラムに限定されず、データであってもよい。

【００９７】

【発明の効果】以上、詳述したように、本発明によれ
ば、笑い声区間を自動的に、しかも少ない演算量とメモ
リサイズで抽出することができる音声処理装置を実現す
ることができる。また、本発明によれば、動画像から、
笑い動作区間を自動的に抽出することができる動画像処
理装置を実現することができる。また、本発明によれ
ば、音声信号と動画像から、笑い動作、笑い声、笑いを
伴う音声区間をより正確に区別して抽出することができ
る音声・動画像処理装置を実現することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態の音声処理装置の基
本構成を示すブロック図である。

【図２】本発明の実施の形態の音声処理装置の具体的な
システム構成を示す図である。

【図３】本実施の形態の音声処理装置のデータベースに
格納されているある音声データ例を示す図である。

【図４】本実施の形態の音声処理装置の笑い声区間抽出
部の動作を示すフローチャートである。

【図５】本発明の第２の実施の形態の動画像処理装置の
構成を示す図である。

【図６】本実施の形態の動画像処理装置のモーションキ
ャプチャシステムを説明する図である。

【図７】本実施の形態の動画像処理装置の位置情報格納
部に格納されているファイルの例を示す図である。

【図８】本実施の形態の動画像処理装置の位置情報格納
部に入力されている位置データをグラフ化した図であ
る。

【図９】本実施の形態の動画像処理装置の笑い動作区間
抽出部の動作を示すフローチャートである。

【図１０】本発明の第４の実施の形態の音声・動画像処
理装置の構成を示す図である。

【図１１】本実施の形態の音声・動画像処理装置のデー
タベースに格納されている別の音声データ例を示す図で
ある。

【図１２】本実施の形態の音声・動画像処理装置の位置
情報格納部に入力されている別のファイルデータをグラ
フ化した図である。

【図１３】本実施の形態の音声・動画像処理装置の笑い
区間抽出部の動作を示すフローチャートである。

【符号の説明】

１ＣＰＵ２ワークメモリ３入力部４データベース５表示部６外部記憶ドライバ７外部記憶装置（記録媒体）１０音声処理装置２０動画像処理装置３０音声・動画像処理装置１００，２００Ａ／Ｄ変換部１０１データベース１０２音声区間判定部（区分手段）１０３笑い声区間抽出部１０４振幅判定部（計算手段）１０５音声認識部（笑い声判定手段）１０６笑い声区間格納部１０７出力部２０１位置情報格納部２０２笑い動作区間抽出部２０３移動量判定部（識別手段，動き抽出手段）２０４動作判定部（笑い動作判定手段）２０５笑い動作区間格納部３０１笑い区間抽出部（判定手段）３０２笑い区間格納部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 15/28

Claims

【特許請求の範囲】

【請求項１】音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報
から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段
の結果が前記閾値より大きく、かつ同じ音素が所定期間
続くときは前記区間が笑い声区間であると判定する笑い
声判定手段と、を備えることを特徴とする音声処理装置。
【請求項２】前記振幅情報は、ｒｍｓ（root mean sq
uare）振幅値であることを特徴とする請求項１記載の音
声処理装置。
【請求項３】前記閾値は、前記区間の長さに応じて変
更されることを特徴とする請求項１記載の音声処理装
置。
【請求項４】さらに、請求項１乃至３のいずれか一項
に記載の音声処理装置であって、前記抽出した笑い声区
間に対して、笑い声に含まれる音声パターンとのマッチ
ングを行うマッチング手段と、前記マッチング手段のマッチング結果に基づいて笑い声
区間と笑いを伴う音声区間を区別して、笑い声区間をさ
らに限定する限定手段と、を備えることを特徴とする音声処理装置。
【請求項５】フレームの集合からなる動画像を処理す
る動画像処理装置において、人間等の身体の各部分を、複数のフレームにまたがって
識別する識別手段と、前記各部分の動きを抽出する動き抽出手段と、前記抽出された動きを、笑い動作に特有の動きとして設
定された規則と比較し、その一致度に応じて前記複数の
フレームが笑い動作であると判定する笑い動作判定手段
と、を備えることを特徴とする動画像処理装置。
【請求項６】前記人間等の身体の各部分が、頭、首、
胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右
手、左手のうちの、少なくとも一つ以上であることを特
徴とする請求項５記載の動画像処理装置。
【請求項７】前記規則は、頭と肩の動きが、前記笑い
動作の直前かほぼ同時に始まるという規則であることを
特徴とする請求項５記載の動画像処理装置。
【請求項８】前記規則は、手の動きが、頭や肩の動き
の始まりより遅れて始まるという規則であることを特徴
とする請求項５又は７に記載の動画像処理装置。
【請求項９】前記規則は、頭と肩の動きが、前後の動
きであることを特徴とする請求項５、７又は８のいずれ
か一項に記載の動画像処理装置。
【請求項１０】前記規則は、人間等の身体の各部分の
速度又は加速度の関数であることを特徴とする請求項
５、７、８又は９のいずれか一項に記載の動画像処理装
置。
【請求項１１】請求項１記載の音声処理装置と、請求
項５記載の動画像処理装置とを備える音声・動画像処理
装置であって、前記笑い動作に対して、音声の有無を確認し、音声有り
のフレームを笑い声区間と判定する判定手段を備えるこ
とを特徴とする音声・動画像処理装置。
【請求項１２】コンピュータを、音声を時間的に区分
する区分手段と、前記区分手段により区分された音声の
各区間の振幅情報から前記区間の音圧変化の平均を計算
する計算手段と、前記計算手段の結果を所定の閾値と比
較し、該計算手段の結果が前記閾値より大きく、かつ同
じ音素が所定期間続くときは前記区間が笑い声区間であ
ると判定する笑い声判定手段と、を備える音声処理装置
として機能させるためのプログラムを記録したことを特
徴とするコンピュータ読み取り可能な記録媒体。
【請求項１３】コンピュータを、フレームの集合から
なる動画像を処理する動画像処理装置において、人間等
の身体の各部分を、複数のフレームにまたがって識別す
る識別手段と、前記各部分の動きを抽出する動き抽出手
段と、前記抽出された動きを、笑い動作に特有の動きと
して設定された規則と比較し、その一致度に応じて前記
複数のフレームが笑い動作であると判定する笑い動作判
定手段と、を備える動画像処理装置として機能させるた
めのプログラムを記録したことを特徴とするコンピュー
タ読み取り可能な記録媒体。
【請求項１４】コンピュータを、音声を時間的に区分
する区分手段と、前記区分手段により区分された音声の
各区間の振幅情報から前記区間の音圧変化の平均を計算
する計算手段と、前記計算手段の結果を所定の閾値と比
較し、該計算手段の結果が前記閾値より大きく、かつ同
じ音素が所定期間続くときは前記区間が笑い声区間であ
ると判定する笑い声判定手段と、を備える音声処理装置
と、フレームの集合からなる動画像を処理する動画像処
理装置において、人間等の身体の各部分を、複数のフレ
ームにまたがって識別する識別手段と、前記各部分の動
きを抽出する動き抽出手段と、前記抽出された動きを、
笑い動作に特有の動きとして設定された規則と比較し、
その一致度に応じて前記複数のフレームが笑い動作であ
ると判定する笑い動作判定手段と、を備える動画像処理
装置とを備える音声・動画像処理装置であって、前記笑
い動作に対して、音声の有無を確認し、音声有りのフレ
ームを笑い声区間と判定する判定手段を備える音声・動
画像処理装置として機能させるためのプログラムを記録
したことを特徴とするコンピュータ読み取り可能な記録
媒体。