JP5803125B2 - 音声による抑圧状態検出装置およびプログラム - Google Patents
音声による抑圧状態検出装置およびプログラム Download PDFInfo
- Publication number
- JP5803125B2 JP5803125B2 JP2011027917A JP2011027917A JP5803125B2 JP 5803125 B2 JP5803125 B2 JP 5803125B2 JP 2011027917 A JP2011027917 A JP 2011027917A JP 2011027917 A JP2011027917 A JP 2011027917A JP 5803125 B2 JP5803125 B2 JP 5803125B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- average value
- power
- pitch
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Description
そこで、本願発明は、一般的音声認識を必要とせず、発話者個人の特性を考慮した発話者の抑圧状態すなわち声帯の緊張状態の時の発話を検出することを目的とする。
図1は、実施形態のブロック図である。
入力部101は、入力音声を受付ける。
出力部105は、判定部104の判定の結果を出力する。
(1)、(2)式に示されるように、ピッチ周波数とパワーのそれぞれについて、現在のフレームまでの外れ値の数Npitch 、Npower がそれぞれ、現在のフレームまでの全母音フレーム数Nで除算されることにより得られ、これらをそれぞれの出現頻度Ppitch 、Ppower と呼ぶ。
Ppitch =Npitch /N ・・・(1)
Ppower =Npower /N ・・・(2)
図6は、比較例(図6(a))と本実施形態方式(図6(b))の処理の違いを示す説明図である。
現在処理中のフレームが母音フレームであると判定されステップS703の判定がYESの場合には、図4の平均値算出部401において、図7のステップS704の処理が実行される。ここでは、ステップS702にて算出されたピッチ周波数とパワーのそれぞれについて、平均値が計算される。各平均値としては、現時点までに分析された母音フレーム全体にわたるピッチ周波数およびパワーの各平均値が算出される。平均値の求め方は、全母音フレームを用いて求めて良いが、リングバッファにより構成される図4の格納部402に格納されている現フレームから例えば過去100秒分の母音フレームというように、平均する時間長を固定して平均値を求めても良い。
α・pitch_mean<pitch ・・・(3)
β+log10(power_mean)<log10(power) ・・・(4)
ここではまず、ピッチ周波数とパワーのそれぞれについて、現在処理中のフレームについてステップS702にて抽出された分析値が、ステップS708にて算出されているそれぞれの閾値と比較される。具体的には、ステップ702にて抽出された現在処理中のフレームのピッチ周波数pitchが、前述の(3)式を満たす場合に、現在処理中のフレームのピッチ周波数は外れ値であると判定される。すなわち図6(a)において、αのところで累積頻度分布が抑圧を受けているときに通常時より高くなっているので外れ値を越えたフレーム数は少なくなる。同様に、ステップS702にて抽出された現在処理中のフレームのパワーpowerが、前述の(4)式を満たす場合に、現在処理中のフレームのパワーは外れ値であると判定される。すなわち図6(b)において、βのところで累積頻度分布が抑圧を受けているときの方が通常時より低いので外れ値を越えたフレーム数は多くなる。
まず、ステップS1401において、パワーの修正累積分布が算出される。図10および図11の説明において前述したように、図7のステップS709にて算出されたパワーの外れ値の出現頻度Ppower は、その値が大きいほど、発話者が抑圧を受けている状態であると判定することができる。そこで、これを次式によってスコア化する。すなわち、ある定数(SCORE_NORM)からパワーの外れ値の出現頻度Ppower を減算した結果を、パワーの修正累積分布Pdfpower とする。
Pdfpower =SCORE_NORM−Ppower ・・・(5)
このパワーの修正累積分布Pdfpower は、抑圧を受けている状態ほどパワーの外れ値の出現頻度Ppower が大きくなって、値が小さくなる。SCORE_NORMとしては、例えば0.03を用いる。ただし、Pdfpower の値は0以下にはならないようにする。
Pdfpitch =PITCH_NORM・Ppitch ・・・(6)
このピッチ周波数の修正累積分布Pdfpitch は、抑圧を受けている状態ほどピッチ周波数の外れ値の出現頻度Ppitch が小さくなって、値が小さくなる。PITCH_NORMとしては、ピッチ周波数とパワーの外れ値の出現頻度のオーダーが同じくらいであれば1.0を用いる。
SCORE=(Pdfpitch 2 +Pdfpower 2 )1/2 ・・・(7)
スコアSCOREが予め決められた閾値以下ではなくステップS711の判定がNOなら、図7のステップS713で、抑圧を受けておらず通常時であると判定される。
まず、音声データベース1501に蓄積された複数の話者の各音声データに対して、図3の301,302と同様の音声分析部1502および母音区間判定部1503の処理が実行されることにより、各フレームごとにピッチ周波数が算出される。さらに、平均値算出部1504によって、話者ごとにピッチ周波数の平均値とパワーの平均値がそれぞれ算出される。
α=Spitch ・pitch_mean+Ipitch ・・・(8)
として表される。図4の統計データ記憶部404には、(8)式のように近似された直線に対応する傾きSpitch と切片Ipitch の各データが記憶される。そして、図4の閾値決定部403(図7のステップS708)は、平均値算出部401(図7のステップS704)にて算出されたピッチ周波数の平均値をpitch_meanとして、統計データ記憶部404から読み出した傾きSpitch と切片Ipitch の各データを用いて(8)式を計算し、αを決定する。
β=Spower ・pitch_mean+Ipower ・・・(9)
として表される。図4の統計データ記憶部404には、(9)式のように近似された直線に対応する傾きSpower と切片Ipower の各データが記憶される。そして、図4の閾値決定部403(図7のステップS708)は、平均値算出部401(図7のステップS704)にて算出されたピッチ周波数の平均値をpitch_meanとして、統計データ記憶部404から読み出した傾きSpower と切片Ipower の各データを用いて記(9)式を計算し、βを決定する。
例えば、ピッチ周波数の標準偏差をpitch_stdとして(3)式を修正すると、次式のようになる。
α・(pitch_mean+γ・pitch_std)<pitch・・・(10)
γは平均値から何σ離れた場所を基準とするかを決めるパラメータである。
β+log10(power_mean+λ・power_std)
<log10(power) ・・・(11)
α、β、γおよびλは多数データで調整して決める。
図16に示されるコンピュータは、CPU1601、メモリ1602、入力装置1603、出力装置1604、外部記憶装置1605、可搬記録媒体1609が挿入される可搬記録媒体駆動装置1606、及び通信インターフェース1607を有し、これらがバス1608によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。
可搬記録媒体駆動装置1606は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体1609を収容するもので、外部記憶装置1605の補助の役割を有する。
102 解析部
103 演算部
104 判定部
105 出力部
301、1502 音声分析部
302、1503 母音区間判定部
401 平均値算出部
402 格納部
403 閾値決定部
404 統計データ記憶部
405 外れ値出現頻度算出部
501 スコア統合部
502 総合判定部
1501 音声データベース
1504 平均値算出部
1505 累積頻度が99%となるα決定部
1506、1508 近似式算出部
1507 累積頻度が99%となるβ決定部
Claims (8)
- 入力された音声を受付ける入力部と、
前記音声を、複数のフレームごとに解析する解析部と、
前記複数のフレームごとの解析結果に基づいて解析結果の平均値を算出すると共に、予め記憶された複数話者ごとの解析結果の平均値および解析結果の累積頻度分布の統計データと、算出した前記平均値とに基づいて閾値を決定し、複数の解析結果のうち前記閾値よりも大きな値を有する解析結果の出現頻度を演算する演算部と、
前記出現頻度に基づいて、前記音声を発する声帯の緊張状態を判定する判定部と、
前記判定の結果を出力する出力部と
を有し、
前記統計データは、前記複数話者の各々についての解析結果の平均値と、該解析結果の累積頻度分布が所定のパーセンテージとなる時の前記平均値に対する倍率とを対応付けた情報であって、
前記演算部は、前記統計データおよび算出した平均値に基づいて、算出した平均値に対応する倍率を取得し、取得した倍率に基づいて前記閾値を決定する
ことを特徴とする音声による抑圧状態検出装置。 - 前記解析部は、前記複数のフレームごとに、ピッチ周波数またはパワーの少なくとも一方を、解析結果として算出し、
前記判定部は、前記ピッチ周波数については、前記出現頻度が少ないほど緊張状態と判定するとともに、前記パワーについては、前記出現頻度が多いほど緊張状態と判定する、
ことを特徴とする請求項1に記載の音声による抑圧状態検出装置。 - 前記解析部は、前記複数のフレームのおのおのについて、母音フレームであるかを判定すると共に、母音フレームである場合に、解析を行うことを特徴とする請求項1または2に記載の抑圧状態検出装置。
- 入力された音声を受付ける入力部と、
前記音声を、複数のフレームごとに解析する解析部と、
前記複数のフレームごとの解析結果に基づいて解析結果の平均値を算出すると共に、予め記憶された複数話者ごとの解析結果の平均値および解析結果の累積頻度分布の統計データと、算出した前記平均値とに基づいて閾値を決定し、複数の解析結果のうち前記閾値よりも大きな値を有する解析結果の出現頻度を演算する演算部と、
前記出現頻度に基づいて、前記音声を発する声帯の緊張状態を判定する判定部と、
前記判定の結果を出力する出力部と
を有し、
前記解析部は、前記複数のフレームごとに、ピッチ周波数またはパワーの少なくとも一方を、解析結果として算出し、
前記判定部は、前記ピッチ周波数については、前記出現頻度が少ないほど緊張状態と判定するとともに、前記パワーについては、前記出現頻度が多いほど緊張状態と判定し、
前記出現頻度が所定のパーセンテージとなる時の前記ピッチ周波数と前記ピッチ周波数の平均値との比に対応する値に関係する前記閾値とピッチ周波数との対応関係を複数の話者について事前に取得し、前記複数の話者についての対応関係に対する直線回帰分析により、前記ピッチ周波数に対応する一次近似直線のデータを算出して前記統計データとして事前に記憶し、前記ピッチ周波数の平均値と前記一次近似直線のデータとから前記閾値を決定することを特徴とする抑圧状態検出装置。 - 前記解析部は、前記複数のフレームごとに、ピッチ周波数またはパワーの少なくとも一方を、解析結果として算出し、
前記演算部は、前記ピッチ周波数または前記パワーの平均値に加えさらに標準偏差にも基づいて、前記閾値を決定する、
ことを特徴とする請求項2乃至4のいずれか一項に記載の音声による抑圧状態検出装置。 - 前記入力部は携帯電話の通話音声を入力し、
前記出力部が前記緊張状態を出力したときに、前記緊張状態の発生を、前記携帯電話から所定の宛先に通知する、
ことを特徴とする請求項1に記載の音声による抑圧状態検出装置。 - コンピュータに、
入力された音声を受付ける機能と、
前記音声を、複数のフレームごとに解析する機能と、
前記複数のフレームごとの解析結果に基づいて解析結果の平均値を算出すると共に、予め記憶された複数話者ごとの解析結果の平均値および解析結果の累積頻度分布の統計データと、算出した前記平均値とに基づいて閾値を決定し、複数の解析結果のうち前記閾値よりも大きな値を有する解析結果の出現頻度を演算する機能と、
前記出現頻度に基づいて、前記音声を発する声帯の緊張状態を判定する機能と、
前記判定の結果を出力する機能と、
を実行させ、
前記統計データは、前記複数話者の各々についての解析結果の平均値と、該解析結果の累積頻度分布が所定のパーセンテージとなる時の前記平均値に対する倍率とを対応付けた情報であって、
前記複数の解析結果のうち前記閾値よりも大きな値を有する解析結果の出現頻度の演算において、前記統計データおよび算出した平均値に基づいて、算出した平均値に対応する倍率を取得し、取得した倍率に基づいて前記閾値を決定する
ことを特徴とするプログラム。 - 前記音声を解析する機能において、前記複数のフレームごとに、ピッチ周波数またはパワーの少なくとも一方を、解析結果として算出し、
前記声帯の緊張状態を判定する機能において、前記ピッチ周波数については、前記出現頻度が少ないほど緊張状態と判定するとともに、前記パワーについては、前記出現頻度が多いほど緊張状態と判定することを特徴とする請求項7に記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011027917A JP5803125B2 (ja) | 2011-02-10 | 2011-02-10 | 音声による抑圧状態検出装置およびプログラム |
US13/355,779 US8935168B2 (en) | 2011-02-10 | 2012-01-23 | State detecting device and storage medium storing a state detecting program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011027917A JP5803125B2 (ja) | 2011-02-10 | 2011-02-10 | 音声による抑圧状態検出装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012168296A JP2012168296A (ja) | 2012-09-06 |
JP5803125B2 true JP5803125B2 (ja) | 2015-11-04 |
Family
ID=46637576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011027917A Expired - Fee Related JP5803125B2 (ja) | 2011-02-10 | 2011-02-10 | 音声による抑圧状態検出装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8935168B2 (ja) |
JP (1) | JP5803125B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6268717B2 (ja) | 2013-03-04 | 2018-01-31 | 富士通株式会社 | 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム |
US9472194B2 (en) * | 2014-03-21 | 2016-10-18 | Wells Fargo Bank, N.A. | Enhanced fraud detection |
CN105989836B (zh) * | 2015-03-06 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种语音采集方法、装置及终端设备 |
JP6772881B2 (ja) * | 2017-02-15 | 2020-10-21 | トヨタ自動車株式会社 | 音声対話装置 |
CN111755025B (zh) * | 2019-03-26 | 2024-02-23 | 苏州君林智能科技有限公司 | 一种基于音频特征的状态检测方法、装置及设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08286693A (ja) * | 1995-04-13 | 1996-11-01 | Toshiba Corp | 情報処理装置 |
JPH11119791A (ja) * | 1997-10-20 | 1999-04-30 | Hitachi Ltd | 音声感情認識システムおよび方法 |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US6463415B2 (en) * | 1999-08-31 | 2002-10-08 | Accenture Llp | 69voice authentication system and method for regulating border crossing |
EP1256937B1 (en) * | 2001-05-11 | 2006-11-02 | Sony France S.A. | Emotion recognition method and device |
JP2004317822A (ja) * | 2003-04-17 | 2004-11-11 | Agi:Kk | 感情分析・表示装置 |
JP2005283647A (ja) | 2004-03-26 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 感情認識装置 |
US8738370B2 (en) * | 2005-06-09 | 2014-05-27 | Agi Inc. | Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program |
CN101346758B (zh) | 2006-06-23 | 2011-07-27 | 松下电器产业株式会社 | 感情识别装置 |
JP4891802B2 (ja) * | 2007-02-20 | 2012-03-07 | 日本電信電話株式会社 | コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム |
JP4914295B2 (ja) * | 2007-06-21 | 2012-04-11 | パナソニック株式会社 | 力み音声検出装置 |
JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
-
2011
- 2011-02-10 JP JP2011027917A patent/JP5803125B2/ja not_active Expired - Fee Related
-
2012
- 2012-01-23 US US13/355,779 patent/US8935168B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8935168B2 (en) | 2015-01-13 |
JP2012168296A (ja) | 2012-09-06 |
US20120209598A1 (en) | 2012-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504539B2 (en) | Voice activity detection systems and methods | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
CN107910011B (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
KR101099339B1 (ko) | 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체 | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
JP3836815B2 (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
US20090018826A1 (en) | Methods, Systems and Devices for Speech Transduction | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
JP2012137680A (ja) | 状態検出装置、状態検出方法および状態検出のためのプログラム | |
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP6532021B2 (ja) | 音声処理装置及び音声処理方法 | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP2018050847A (ja) | 認知機能評価装置、認知機能評価方法、およびプログラム | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
Dekens et al. | Body conducted speech enhancement by equalization and signal fusion | |
JP6268916B2 (ja) | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム | |
JP6996185B2 (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP6373621B2 (ja) | 話し方評価装置、話し方評価方法、プログラム | |
TWI356399B (en) | Speech recognition system and method with cepstral | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP6791816B2 (ja) | 音声区間検出装置、音声区間検出方法、およびプログラム | |
JP7077645B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150508 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150817 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5803125 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |