JP4394532B2 - 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 - Google Patents
音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4394532B2 JP4394532B2 JP2004217785A JP2004217785A JP4394532B2 JP 4394532 B2 JP4394532 B2 JP 4394532B2 JP 2004217785 A JP2004217785 A JP 2004217785A JP 2004217785 A JP2004217785 A JP 2004217785A JP 4394532 B2 JP4394532 B2 JP 4394532B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- voice
- laughing
- laughter
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
例えば、上記特許文献1には、音声信号から周波数スペクトラムを抽出し、そのスペクトラムの中心(周波数重心)Gを求めて、この周波数重心Gが所定の閾値より大きいかどうかで笑いや拍手、歓声等の感情を認識する方法が提案されている。この方法は、笑いや拍手等の感情表現では、周波数重心が高いことを利用しているが、笑いと拍手の区別はつけられない。さらに、上記特許文献1に記載された装置は、例えば笑い等の音の種類に対応する標準波形パターン辞書をあらかじめ用意しておいて、パターンマッチングにより判定する方法も記載されている。しかしこの方法では、あらゆる笑いのパターンを用意しておかなければならず、また、マッチングの過程において、すべての波形パターンに対して処理を行わなければならず、膨大な演算量とメモリサイズを必要とする。
(1)笑い声は一般に気分の高揚を伴うことから、音波の振幅が大きい傾向がある。本発明者は、このことに着目して、音声の各区間の振幅情報から変化の平均を求め、所定の閾値よりも大きい区間を笑い声区間と判定する。このとき用いる振幅情報は、rms(root mean square:平方自乗平均)振幅値が望ましい。さらに、「ははは」のように、笑いは、/h/(「//」は、音素の境界記号を示す)音に母音/a/,/i/,/u/,/e/,/o/が後続することが多いことを利用し、同じ母音が断続的に続く区間を判定することにより、笑い声区間の判定の精度を上げ、喜びや怒りの区間を排除する。音声の各区間は、常に一定区間でなくてもよいが、閾値は区間の長さに応じて変化させる。
図2において、音声処理装置10は、CPU1、RAMからなるワークメモリ2、音声信号を入力する入力部3、入力音声信号及びCPU1の演算処理結果を格納するデータベース4、ドットマトリクス構成の液晶表示装置(LCD)からなる表示部5、電源バックアップにより書き込まれた情報を保持するSRAM(Static RAM)カード,FD,CD−ROM等の外部記憶装置7、外部記憶装置7の読み取り装置である外部記憶ドライバ6から構成される。
図3は、データベース4に格納されているある音声データ例を示す図であり、図3(a)はその音声波形、図3(b)はそのrms振幅、図3(c)はその周波数スペクトラムをそれぞれ示す。また、図中の数値はフレーム番号である。
音声区間判定部102では、A/D変換された音声信号の音声パワーから、所定の閾値を超える区間を音声区間として判定し、該当する始点・終点フレーム番号を振幅判定部104に出力する。振幅判定部104では、音声区間判定部102で判定された始点・終点フレーム内において、フレーム毎にrms振幅値を求め、その平均値が所定の閾値を超える区間を抽出し、その始点・終点フレーム番号を音声認識部105に出力する。rms振幅とは、音声波の音圧の変化の平均であり、音の大きさはrms振幅に依存する。
図5は、本発明の第2の実施の形態の動画像処理装置の構成を示す図である。本実施の形態の説明にあたり、図1と同一構成部分には同一符号を付して重複部分の説明を省略する。
以下、上述のように構成された動画像処理装置の動作を説明する。
笑い動作は、人間等の身体の各部位の位置情報に基づいて計算される各セグメントの、所定のフレーム毎(例えば10フレーム毎)の速度や加速度情報を用いて抽出することも可能である。
(u,v,w)≡(dx/dt,dy/dt,dz/dt) …(3)
(u’,v’,w’)≡(d2x/dt2,d2y/dt2,d2z/dt2)
…(4)
第1の実施の形態では、音声情報を基に笑い声区間を抽出し、第2及び第3の実施の形態では、身体上の各部位の動きを基に、笑い動作区間を抽出した。本実施の形態は、音声情報と動き情報を統合処理することで笑いの区間を抽出するものである。
以下、上述のように構成された音声・動画像処理装置の動作を説明する。
区間fで笑い動作が起こっている
区間cで笑い声と笑い動作が同時に起こっている
区間eで区間cに続く余韻の笑い動作のみが起こっている
ことが分かる。
図11(b)に示す区間h,i,jの振幅は大きいが、同区間h,i,jのスペクトルパターン(図11(c))は、いわゆる「ははは」という笑い声のパターンを示していない。
ことがわかる。このような場合、区間gでは、笑いながらしゃべっていることが多い。したがって、振幅判定部104、音声認識部105、移動量判定部203及び動作判定部204の結果を統合して判定することで、区間gでは笑いながらしゃべっている箇所であると判定できることがわかる。
2 ワークメモリ
3 入力部
4 データベース
5 表示部
6 外部記憶ドライバ
7 外部記憶装置(記録媒体)
10 音声処理装置
20 動画像処理装置
30 音声・動画像処理装置
100,200 A/D変換部
101 データベース
102 音声区間判定部(区分手段)
103 笑い声区間抽出部
104 振幅判定部(計算手段)
105 音声認識部(笑い声判定手段)
106 笑い声区間格納部
107 出力部
201 位置情報格納部
202 笑い動作区間抽出部
203 移動量判定部(識別手段,動き抽出手段)
204 動作判定部(笑い動作判定手段)
205 笑い動作区間格納部
301 笑い区間抽出部(判定手段)
302 笑い区間格納部
Claims (11)
- 音声を時間的に区分する区分手段と、
前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、
前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、
を備え、
前記閾値は、前記区間の長さに応じて変更される
ことを特徴とする音声処理装置。 - 前記振幅情報は、rms(root mean square)振幅値であることを特徴とする請求項1記載の音声処理装置。
- 請求項1または2に記載の音声処理装置であって、
前記抽出した笑い声区間に対して、笑い声に含まれる音声パターンとのマッチングを行うマッチング手段と、
前記マッチング手段のマッチング結果に基づいて笑い声区間と笑いを伴う音声区間を区別して、笑い声区間をさらに限定する限定手段と、
を備えることを特徴とする音声処理装置。 - 請求項1から3までのいずれか1項に記載の音声処理装置と、
フレームの集合からなる動画像を処理してその動画像に笑い動作が含まれるか否かを判定する動画像処理装置と、
前記動画像処理装置が判定した笑い動作に音声がともなう区間を出力する判定手段と、
を備える音声・動画像処理装置であって、
前記動画像処理装置は、
人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、
前記各部分の動きを抽出する動き抽出手段と、
前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、
を備え、
前記笑い声判定手段は、
前記笑い動作に音声がともなうと前記判定手段が判定した区間について、前記笑い声区間であるか否かを判定する
ことを特徴とする音声・動画像処理装置。 - 前記人間等の身体の各部分が、頭、首、胸、右肩、左肩、右上腕、左上腕、右下腕、左下腕、右手、左手のうちの、少なくとも一つ以上であることを特徴とする請求項4記載の音声・動画像処理装置。
- 前記規則は、頭と肩の動きが、前記笑い動作の直前かほぼ同時に始まるという規則であることを特徴とする請求項4記載の音声・動画像処理装置。
- 前記規則は、手の動きが、頭や肩の動きの始まりより遅れて始まるという規則であることを特徴とする請求項4又は6に記載の音声・動画像処理装置。
- 前記規則は、頭と肩の動きが、前後の動きであることを特徴とする請求項4、6又は7のいずれか一項に記載の音声・動画像処理装置。
- 前記規則は、人間等の身体の各部分の速度又は加速度の関数であることを特徴とする請求項4、6、7又は8のいずれか一項に記載の音声・動画像処理装置。
- コンピュータを、音声を時間的に区分する区分手段と、前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、を備え、前記閾値は、前記区間の長さに応じて変更される音声処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
- コンピュータを、
音声を時間的に区分する区分手段と、
前記区分手段により区分された音声の各区間の振幅情報から前記区間の音圧変化の平均を計算する計算手段と、
前記計算手段の結果を所定の閾値と比較し、該計算手段の結果が前記閾値より大きく、かつ同じ音素が所定期間続くときは前記区間が笑い声区間であると判定する笑い声判定手段と、
を備え、
前記閾値は、前記区間の長さに応じて変更される音声処理装置と、
フレームの集合からなる動画像を処理してその動画像に笑い動作が含まれるか否かを判定する動画像処理装置において、
人間等の身体の各部分を、複数のフレームにまたがって識別する識別手段と、
前記各部分の動きを抽出する動き抽出手段と、
前記抽出された動きを、笑い動作に特有の動きとして設定された規則と比較し、その一致度に応じて前記複数のフレームが笑い動作であると判定する笑い動作判定手段と、
を備える動画像処理装置と、
前記動画像処理装置が判定した笑い動作に音声がともなう区間を出力する判定手段と、
を備える音声・動画像処理装置であって、
前記笑い声判定手段は、
前記笑い動作に音声がともなうと前記判定手段が判定した区間について、前記笑い声区間であるか否かを判定する
音声・動画像処理装置として機能させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004217785A JP4394532B2 (ja) | 2004-07-26 | 2004-07-26 | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004217785A JP4394532B2 (ja) | 2004-07-26 | 2004-07-26 | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000193118A Division JP3652961B2 (ja) | 2000-06-27 | 2000-06-27 | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005037953A JP2005037953A (ja) | 2005-02-10 |
JP4394532B2 true JP4394532B2 (ja) | 2010-01-06 |
Family
ID=34214340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004217785A Expired - Fee Related JP4394532B2 (ja) | 2004-07-26 | 2004-07-26 | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4394532B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5055781B2 (ja) * | 2006-02-14 | 2012-10-24 | 株式会社日立製作所 | 会話音声分析方法、及び、会話音声分析装置 |
US8498435B2 (en) | 2010-02-25 | 2013-07-30 | Panasonic Corporation | Signal processing apparatus and signal processing method |
JP6329753B2 (ja) * | 2013-11-18 | 2018-05-23 | 任天堂株式会社 | 情報処理プログラム、情報処理装置、情報処理システム、および、音判定方法 |
JP6169526B2 (ja) * | 2014-04-28 | 2017-07-26 | 日本電信電話株式会社 | 特定音声抑圧装置、特定音声抑圧方法及びプログラム |
CN110459234B (zh) * | 2019-08-15 | 2022-03-22 | 思必驰科技股份有限公司 | 用于车载的语音识别方法及系统 |
CN114999453B (zh) * | 2022-05-25 | 2023-05-30 | 中南大学湘雅二医院 | 一种基于语音识别的术前访视系统及相应语音识别方法 |
-
2004
- 2004-07-26 JP JP2004217785A patent/JP4394532B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005037953A (ja) | 2005-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106653052B (zh) | 虚拟人脸动画的生成方法及装置 | |
JP5616325B2 (ja) | ユーザ命令に基づいて表示を変更する方法 | |
US8131551B1 (en) | System and method of providing conversational visual prosody for talking heads | |
US7349852B2 (en) | System and method of providing conversational visual prosody for talking heads | |
JP3652961B2 (ja) | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
Johar | Emotion, affect and personality in speech: The Bias of language and paralanguage | |
Benoit et al. | Audio-visual and multimodal speech systems | |
Yang et al. | Modeling dynamics of expressive body gestures in dyadic interactions | |
Gibbon et al. | Audio-visual and multimodal speech-based systems | |
JPH08339446A (ja) | 対話装置 | |
CN110148406A (zh) | 一种数据处理方法和装置、一种用于数据处理的装置 | |
Okada et al. | Context-based conversational hand gesture classification in narrative interaction | |
JP4394532B2 (ja) | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 | |
Ding et al. | Perceptual enhancement of emotional mocap head motion: An experimental study | |
Fujie et al. | Recognition of para-linguistic information and its application to spoken dialogue system | |
Verma et al. | Animating expressive faces across languages | |
JP2003228449A (ja) | 対話装置及び対話処理プログラムを記録した記録媒体 | |
Cafaro et al. | Nonverbal behavior in multimodal performances | |
Huang et al. | Sensitive talking heads [Applications corner] | |
Ripperda | The Communicative Face | |
Balomenos et al. | An introduction to emotionally rich man-machine intelligent systems | |
JP2002108388A (ja) | 対話装置及び対話処理プログラムを記録した記録媒体 | |
Cafaro et al. | Nonverbal Behavior in | |
Haider | Improving Social Intelligence of Machines in the Context of Public Speaking Situations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091015 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121023 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131023 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |