JP6521173B2 - 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 - Google Patents

発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 Download PDF

Info

Publication number
JP6521173B2
JP6521173B2 JP2018507963A JP2018507963A JP6521173B2 JP 6521173 B2 JP6521173 B2 JP 6521173B2 JP 2018507963 A JP2018507963 A JP 2018507963A JP 2018507963 A JP2018507963 A JP 2018507963A JP 6521173 B2 JP6521173 B2 JP 6521173B2
Authority
JP
Japan
Prior art keywords
fundamental frequency
impression
value
difference
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018507963A
Other languages
English (en)
Other versions
JPWO2017168663A1 (ja
Inventor
太郎 外川
太郎 外川
紗友梨 中山
紗友梨 中山
猛 大谷
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2017168663A1 publication Critical patent/JPWO2017168663A1/ja
Application granted granted Critical
Publication of JP6521173B2 publication Critical patent/JP6521173B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/24Arrangements for testing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、発話印象判定プログラム、発話印象判定方法及び発話印象判定装置に関する。
例えば、コールセンターでオペレータが顧客と通話する場合、オペレータの声は顧客が受ける印象に影響を与える。オペレータの声の明るさの度合いが大きいと、顧客はオペレータとの通話に対して好印象をもつ場合が多い。したがって、オペレータの顧客への対応を評価するために、オペレータの声の明るさの度合いを客観的に判定する技術が存在する。当該技術では、例えば、オペレータの声の基本周波数の最大値と最小値との差に基づいて、差が大きい場合に、オペレータの声の明るさの度合いが大きいと判定する。
特開2006−267465号公報 特開2008−134557号公報 特開平8−44395号公報 国際公開2009/145192号公報
スンドベリ、「歌声の科学」、東京電機大学出版局、2007年
しかしながら、発話持続時間が長い発話では、肺からの呼気が少なくなるため、声門への圧力が低下することで声帯の振動数が減少し、声の基本周波数は徐々に下降する傾向がある。したがって、発話持続時間が長い発話において、基本周波数の最大値と最小値との差に基づいてオペレータの声の明るさの度合いを判定した場合、明るさの度合いの低いオペレータの声を明るさの度合いが大きいと判定する可能性がある。
詳細には、聞き手が受ける声の明るさの印象は、短い時間における基本周波数の変化の大きさに基づいて変化する。一方、発話持続時間が長い発話では、声の基本周波数が徐々に下降する傾向があるため、基本周波数の最大値が発話開始付近に存在し、基本周波数の最小値が発話終了付近に存在する可能性が高い。この場合、短い時間における基本周波数の変化の大きさが、基本周波数の最大値と最小値との差に現れない。したがって、明るさの度合いの低いオペレータの声を明るさの度合いが大きいと判定する可能性がある
1つの側面として、本発明は、発話印象の判定精度を向上させることを目的とする。
1つの態様では、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。
1つの側面として、発話印象の判定精度を向上させる、という効果を有する。
第1〜第3実施形態に係る発話印象判定装置の要部機能の一例を示すブロック図である。 第1〜第3実施形態に係る発話印象判定装置のハードウェアの構成の一例を示すブロック図である。 第1実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。 第1実施形態に係る発話印象判定処理の一例を示すフローチャートである。 第1〜第3実施形態に係る基本周波数を取得する処理を説明するための概念図である。 第1〜第3実施形態に係る印象判定処理の一例を示すフローチャートである。 第2実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。 第2実施形態に係る発話印象判定処理の一例を示すフローチャートである。 第3実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。 第3実施形態に係る発話印象判定処理の一例を示すフローチャートである。 第3実施形態に係る緩和値算出処理の一例を示すフローチャートである。 第3実施形態に係る緩和値の一例を示す概念図である。 第3実施形態に係る差分量算出処理の一例を示すフローチャートである。 発話印象判定システムの一例を示すブロック図である。 発話印象判定システムのクライアントの要部機能の一例を示すブロック図である。 発話印象判定システムのサーバの要部機能の一例を示すブロック図である。 第1〜第3実施形態の発話印象判定処理について説明するための概念図である。 第1〜第3実施形態の発話印象判定処理について説明するための概念図である。 関連技術の発話印象判定処理について説明するための概念図である。 関連技術の発話印象判定処理について説明するための概念図である。
[第1実施形態]
以下、開示の技術の実施形態の一例である第1実施形態を説明する。
一例として図1に発話印象判定装置10を示す。発話印象判定装置10は、例えば、音声検出部11、算出部12、及び印象判定部13を含む。音声検出部11、算出部12、及び印象判定部13は、相互に接続されている。
音声検出部11は、ユーザの発話音声を検出する。算出部12は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部13は、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。
発話印象判定装置10は、例えば、固定電話、スマートフォン、又は携帯電話などに接続可能なパーソナルコンピュータ、もしくは専用装置であってもよいし、固定電話、スマートフォン、又は携帯電話などの一部であってもよい。
発話印象判定装置10は、一例として図2に示すように、CPU(Central Processing Unit)21、一次記憶部22、二次記憶部23、外部インターフェイス24、音声信号受信部25、及びマイク(マイクロフォン)26を備えている。CPU21、一次記憶部22、二次記憶部23、外部インターフェイス24、音声信号受信部25、及びマイク26は、バス29を介して相互に接続されている。
外部インターフェイス24には、外部装置が接続され、外部インターフェイス24は、外部装置とCPU21との間の各種情報の送受信を司る。
マイク26は、ユーザ側の音声、例えば、発話印象判定装置10を利用するコールセンターのオペレータの発話音声を受け取り、音声信号に変換する。なお、図2では、マイク26が発話印象判定装置10に含まれるように示しているが、本実施形態はこれに限定されない。マイク26は、例えば、発話印象判定装置10に接続される電話などの通話装置のマイクであってもよいし、外部インターフェイス24を介して接続される外付けのマイクであってもよい。
音声信号受信部25は、電話回線又はインターネット回線などを通じて、有線または無線で送信される、通話相手側、例えば、オペレータと通話する顧客の発話音声を表す音声信号を受信する。
一次記憶部22は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部23は、例えば、HDD(Hard Disk Drive)、またはSSD(Solid State Drive)などの不揮発性のメモリである。二次記憶部23は、例えば、発話印象判定プログラムを記憶するプログラム格納領域23P及び各種データを記憶するデータ格納領域23Dを含む。なお、発話印象判定プログラムは、外部インターフェイス24を介して、CD−ROM又はDVDなどの非一時的記憶媒体から読み込まれてもよいし、外部サーバから受信されてもよい。
CPU21は、二次記憶部23から発話印象判定プログラムを読み出して一次記憶部22に展開する。CPU21は、当該発話印象判定プログラムを実行することで、図1に示す算出部12、及び印象判定部13として動作する。
次に、発話印象判定装置10によって実施される発話印象判定処理の概要を説明する。発話印象判定装置10は、ユーザの発話が通話相手に与える発話印象を判定する。
図3に例示するように、発話印象判定装置10は、マイク26でユーザの発話音声を取得する。発話印象判定装置10は、ブロック31で、ユーザの発話音声に対応する音声信号から基本周波数を抽出する。発話印象判定装置10は、ブロック32Aで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。発話印象判定装置10は、ブロック36Aで、基本周波数と当該基本周波数に対応する緩和値との差の大きさの度合いを表す差分量を後述する単位時間毎に算出する。発話印象判定装置10は、ブロック37Aで、ブロック36Aで算出した差分量に基づいて、単位時間毎の発話印象を判定する。
次に、本実施形態の作用として、発話印象判定装置10によって実施される発話印象判定処理について説明する。図4は、発話印象判定装置10によって実施される発話印象判定処理の一例を示す。
例えば、ユーザが通話を開始した状態で発話印象判定装置10の電源をオンすることによって、図4の発話印象判定処理が開始される。CPU21は、ステップ101で、音声フレームの数をカウントするカウンタF1(以下、第1フレームカウンタF1ともいう)に1を設定し、単位時間の数をカウントするカウンタN1(以下、単位時間カウンタN1ともいう)に0を設定する。第1フレームカウンタF1及び単位時間カウンタN1は、例えば、二次記憶部23のデータ格納領域23Dに含まれる。
CPU21は、ステップ102で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、CPU21は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ103に進む。
CPU21は、ステップ103で、1フレーム分の音声信号を受信する。1フレームの時間長は、例えば、10ミリ秒である。当該音声信号は、マイク26で検出した音声、即ち、ユーザの発話音声に対応する信号であり、例えば、二次記憶部23のデータ格納領域23Dに一時的に保存される。
CPU21は、ステップ104で、音声信号の基本周波数FF2を取得する。詳細には、まず、音声信号の基本周波数FF1を、例えば、以下で説明するように取得する。音声信号の自己相関を算出し、図5に例示するように、シフト時間が正であり、かつ、最小の位置で自己相関値が極大となる時間を基本周期prとする。基本周波数FF1は、式(1)に示すように、サンプリング周波数Fsを基本周期prで除算することにより算出される。
FF1=Fs/pr … (1)
サンプリング周波数Fsは、例えば、8,000Hzである。
次に、CPU21は、式(2)に示すように、単位Hzである音声信号の基本周波数FF1を人間の聴覚上での声の高さに適合する単位semitoneである音声信号の基本周波数FF2に変換する。
FF2=12×log(FF1/50) … (2)
CPU21は、変換により取得した基本周波数FF2を配列FFR[F1]に記憶する。FFRは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第1フレームカウンタF1は、上記したように、音声フレームのカウント値を記憶している。
CPU21は、ステップ105で、第1フレームカウンタF1に1を加算する。CPU21は、ステップ106で、第1フレームカウンタF1に記憶されている音声フレームのカウント値が所定フレーム数Lより小さいか否か判定する。Lは、例えば、50であってよい。判定が肯定された場合、即ち、音声フレームのカウント値が所定フレーム数Lより小さい場合、CPU21は、ステップ102に戻り、ステップ102〜ステップ105の処理を繰り返す。一方、判定が否定された場合、即ち、音声フレームのカウント値が所定フレーム数L以上である場合、CPU21は、ステップ107に進む。
CPU21は、ステップ107で、音声フレームの数をカウントするカウンタF2(以下、第2フレームカウンタF2ともいう。)に0を設定する。第2フレームカウンタF2のカウント値に基づいて、後述するように、フレーム数が、発話印象を判定する単位時間に対応する所定のフレーム数Mに達したか否かを判定する。
CPU21は、ステップ108で、通話中であるか否か判定し、判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。ステップ108の判定が肯定された場合、即ち、通話中である場合、CPU21はステップ109に進む。ステップ109は上記ステップ103と同様であり、ステップ110は上記ステップ104と同様であるため、説明を省略する。
CPU21は、ステップ111で、緩和値A1を算出する。緩和値は、例えば、式(3)に示すように、現在の基本周波数FF2から遡ってLフレーム分の(配列FFRに記憶されている)基本周波数FF2の平均値を計算する移動平均値である。ここで、Lフレームは音声信号の一部の区間の一例であり、上記したように、Lは、例えば、50であってよい。

次に、CPU21は、取得した緩和値A1を配列A1R[F1]に記憶する。A1Rは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第1フレームカウンタF1は上記したように、音声フレームのカウント値を記憶している。
CPU21は、ステップ112で、第2フレームカウンタF2に1を加算する。CPU21は、ステップ113で、第2フレームカウンタF2に記憶されているカウント値がMより小さいか否か判定する。Mは、上記した発話印象を判定する単位時間に対応する所定のフレーム数であり、例えば、Mは300であってよい。MにはLより大きい値が用いられる。
ステップ113の判定が肯定された場合、即ち、第2フレームカウンタF2に記憶されているカウント値がMより小さい場合、CPU21は、ステップ114で、第1フレームカウンタF1のカウント値に1を加算し、ステップ108に戻る。ステップ113の判定が否定された場合、即ち、第2フレームカウンタF2に記憶されているカウント値がM以上である場合、CPU21は、ステップ115で、差分量ADを算出する。ここでは、式(4)に示すように、現在の音声フレームから遡ってMフレーム分の配列FFRに記憶されている基本周波数FF2と配列A1Rに記憶されている緩和値A1との差分量ADが算出される。

即ち、式(4)では、単位時間毎の基本周波数FF2の各々と、基本周波数FF2の各々に対応する緩和値A1の各々との差の大きさを表す度合いである差分量ADを算出する。
CPU21は、ステップ116で、算出した差分量ADに基づいて、発話印象を判定する。ステップ116の詳細を、図6に例示する。CPU21は、ステップ171で、差分量ADが閾値の一例である所定の第1閾値TLより小さいか否か判定する。ステップ171の判定が肯定された場合、即ち、差分量ADが所定の第1閾値TLより小さい場合、CPU21は、ステップ172で発話印象が悪いと判定し、発話印象DRを配列OI[N1]に記憶し、ステップ117に進む。発話印象DRは、例えば、発話印象が悪いことを表す英字Bであってもよいし、数値−1であってもよい。OIは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよい。
ステップ171の判定が否定された場合、即ち、算出した差分量ADが第1閾値TL以上である場合、CPU21は、ステップ173で、算出した差分量ADが、所定の第2閾値TH以下であるか否か判定する。第2閾値THは、第1閾値より大きい値である。ステップ173の判定が肯定された場合、即ち、算出した差分量ADが第2閾値TH以下である場合、CPU21は、ステップ174で発話印象が普通であると判定し、発話印象DRを配列OI[N1]に記憶し、ステップ117に進む。発話印象DRは、例えば、発話印象が普通であることを表す英字Oであってもよいし、数値0であってもよい。
ステップ173の判定が否定された場合、即ち、算出した差分量ADが第2閾値THより大きい場合、CPU21は、ステップ175で、発話印象が良いと判定し、発話印象DRを配列OI[N1]に記憶し、ステップ117に進む。発話印象DRは、例えば、発話印象が良いことを表す英字Gであってもよいし、数値1であってもよい。
第1閾値TLは、例えば、1.5[semitone]であってよく、第2閾値THは、例えば、3.0[semitone]であってよい。CPU21は、ステップ117で、第1フレームカウンタF1のカウント値に1を加算し、単位時間カウンタN1のカウント値に1を加算して、ステップ107に戻る。
なお、本実施形態では、基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する例について説明したが、本実施形態は、これに限定されない。例えば、対応する緩和値の各々より大きい基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定してもよい。
本実施形態では、算出部は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部は、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。本実施形態では、緩和値は、音声信号の一部の区間の基本周波数の移動平均値である。
本実施形態では、特徴量は、音声信号から特定した基本周波数である。本実施形態では、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、印象判定の単位時間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。
本実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価することで、発話印象の判定精度を向上させることができる。即ち、本実施形態では、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、暗い音声を明るい音声であると誤って判定することを抑制することができる。
[第2実施形態]
次に、開示の技術の実施形態の一例である第2実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。
本実施形態では、図7に例示するように、発話印象判定装置10は、マイク26でユーザの発話音声を取得する。発話印象判定装置10は、ブロック34で、発話区間を検出する。発話区間とは、ユーザの発話音声を含む区間である。
ブロック34で発話区間であることが検出されると、発話印象判定装置10は、ブロック31で、ユーザの発話音声に対応する音声信号から基本周波数を抽出する。発話印象判定装置10は、ブロック32Bで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出し、ブロック33Bで、基本周波数に関連する特徴量を算出する。
ブロック34で発話区間ではないこと、即ち、発話区間の終了が検出されると、発話印象判定装置10は、ブロック36Bで、特徴量と当該特徴量に対応する緩和値との差の大きさの度合いを表す差分量を単位発話区間毎に算出する。発話印象判定装置10は、ブロック37Bで、単位発話区間毎の差分量に基づいて、単位発話区間毎の発話印象を判定する。
次に、本実施形態の作用として、発話印象判定装置10によって実施される発話印象判定処理について説明する。図8は、発話印象判定装置10によって実施される発話印象判定処理の一例を示す。
例えば、ユーザが通話を開始した状態で発話印象判定装置10の電源をオンすることによって、図8の発話印象判定処理が開始される。CPU21は、ステップ120で、単位発話区間の数をカウントするカウンタN2(以下、単位発話区間カウンタN2ともいう)に0を設定する。CPU21は、ステップ121で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、CPU21は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ122に進む。
CPU21は、ステップ122で、1フレーム分の音声信号を受信する。1フレームの時間長は、例えば、10ミリ秒である。当該音声信号は、マイク26で検出した音声、即ち、ユーザの発話音声に対応する音声信号であり、例えば、二次記憶部23のデータ格納領域23Dに一時的に保存される。
CPU21は、ステップ123で、ステップ122で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。例えば、ステップ123で受信した音声信号のパワーまたは信号対雑音比が所定値より大きい場合、当該音声信号で表される音声が、背景雑音だけでなく、ユーザの発話音声を含む発話区間であると判定する。
ステップ123の判定が否定された場合、即ち、ステップ122で受信した音声信号で表される音声が発話区間の音声ではない場合、CPU21はステップ121に戻る。一方、ステップ123の判定が肯定された場合、即ち、ステップ122で受信した音声信号で表される音声が発話区間の音声である場合、CPU21はステップ124に進む。
CPU21は、ステップ124で、音声信号の基本周波数FF2を取得する。基本周波数FF2の取得については、図4のステップ104と同様であるため、詳細な説明を省略する。
CPU21は、取得した基本周波数FF2を配列FFR[0]に記憶する。FFRは、上記したように、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよい。
CPU21は、ステップ125で、配列A1R[0]に緩和値の初期値としてステップ124で取得した基本周波数FF2を記憶し、配列A2R[0]にも特徴量の初期値としてステップ124で取得した基本周波数FF2を記憶する。配列A1Rは、上記したように、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、配列A2Rも、同様に、例えば、データ格納領域23Dに含まれる配列であってよい。また、CPU21は、ステップ126で、音声フレーム数をカウントするカウンタであるF3(以下、第3フレームカウンタともいう)に1を設定する。
CPU21は、ステップ127で、通話中であるか否か判定し、判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。ステップ127の判定が肯定された場合、即ち、通話中である場合、CPU21は、ステップ128で、音声信号を受信する。ステップ128は、上記ステップ122と同様であるため、詳細な説明を省略する。
CPU21は、ステップ129で、ステップ128で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。ステップ129は、上記ステップ123と同様であるため、詳細な説明を省略する。ステップ129の判定が肯定された場合、即ち、ステップ129で受信した音声信号で表される音声が発話区間の音声である場合、CPU21は、ステップ130で、基本周波数FF2を取得する。基本周波数FF2の取得については、図4のステップ104と同様であるため、詳細な説明を省略する。取得した基本周波数FF2は配列FFR[F3]に記憶される。
CPU21は、ステップ131で、緩和値A1Aを算出する。緩和値A1Aは、例えば、式(5)で示すように、現在の基本周波数、即ち、配列FFR[F3]に記憶されている基本周波数と、過去の緩和値、即ち、配列A1R[F3−1]に記憶されている緩和値との加重平均値である。
A1A=R1×A1R[F3−1]+(1−R1)×FFR[F3] … (5)
基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数の一例であるR1は、1より小さく、1−R1より大きい値である。算出した緩和値A1Aは、配列A1R[F3]に記憶される。
CPU21は、ステップ132で、特徴量A2を算出する。特徴量A2は、例えば、式(6)で示すように、現在の基本周波数、即ち、配列FFR[F3]に記憶されている基本周波数と、過去の特徴量、即ち、配列A2R[F3−1]に記憶されている特徴量との加重平均値である。
A2=R2×A2R[F3−1]+(1−R2)×FFR[F3] … (6)
基本周波数の変化が緩やかになるように基本周波数を変化させる短期用重み係数の一例であるR2は、R1より小さく、1−R2より大きい値である。算出した特徴量A2は、配列A2R[F3]に記憶される。R1は、例えば、0.9であってよく、R2は、例えば、0.6であってよい。
上記したように、緩和値を算出する式(5)では、過去の緩和値に対する長期用重み係数R1が、特徴量を算出する式(6)における過去の特徴量に対する短期用重み係数R2よりも大きい。したがって、過去の緩和値の現在の緩和値に対する影響は、過去の特徴量の現在の特徴量に対する影響よりも大きい。
CPU21は、ステップ133で、第3フレームカウンタF3のカウント値に1を加算して、ステップ127に戻る。一方、ステップ129の判定が否定されると、即ち、ステップ128で受信した音声信号で表される音声が発話区間の音声ではない場合、CPU21は、ステップ134で、例えば、式(7)で示すように、差分量AD2を算出する。

式(7)では、単位発話区間毎の特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量AD2を算出する。
CPU21は、ステップ135で、算出した差分量AD2に基づいて、発話印象を判定する。ステップ135は、図4のステップ116と同様であるため、詳細な説明を省略する。発話印象DRは配列OI[N2]に記憶される。CPU21は、ステップ136で、単位発話区間カウンタN2のカウント値に1を加算し、ステップ121に戻る。
なお、本実施形態では、特徴量の各々と、特徴量の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する例について説明したが、本実施形態は、これに限定されない。例えば、対応する緩和値の各々より大きい特徴量の各々と、特徴量の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定してもよい。
本実施形態では、算出部は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部は、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。
本実施形態では、緩和値は、過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。緩和値を演算する際に、基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くしている。
本実施形態では、特徴量は、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。特徴量を演算する際に、変化を緩やかにする度合いが緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いている。
本実施形態では、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、単位発話区間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。
本実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価することで、発話印象の判定精度を向上させることができる。即ち、本実施形態では、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、暗い音声を明るい音声であると誤って判定することを抑制することができる。
また、本実施形態では、特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する。本実施形態では、特徴量は、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。特徴量を演算する際に、変化を緩やかにする度合いが緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いている。即ち、基本周波数が外れ値を含んでいる場合であっても、基本周波数に代えて、短期用重み係数を用いて演算した加重平均値を使用することで、外れ値が発話印象の判定に与える影響を低減することが可能となり、発話印象の判定精度を向上させることができる。
[第3実施形態]
次に、開示の技術の実施形態の一例である第3実施形態を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については説明を省略する。
図9に例示するように、発話印象判定装置10は、マイク26でユーザの発話音声を取得する。発話印象判定装置10は、ブロック34で、発話区間を検出する。発話区間とは、ユーザの発話音声を含む区間である。
ブロック34で発話区間であることが検出されると、発話印象判定装置10は、ブロック31で、ユーザの発話音声に対応する音声信号から基本周波数を取得する。基本周波数に外れ値が存在する場合、発話印象判定装置10は、ブロック35で、当該外れ値を除外する。発話印象判定装置10は、ブロック32Cで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を算出する。
ブロック34で発話区間ではないこと、即ち、発話区間の終了が検出されると、発話印象判定装置10は、ブロック36Cで、外れ値を除外した基本周波数と当該基本周波数に対応する緩和値との差の大きさの度合いを表す差分量を単位発話区間毎に算出する。発話印象判定装置10は、ブロック37Cで、単位発話区間毎の差分量に基づいて、単位発話区間毎の発話印象を判定する。
次に、本実施形態の作用として、発話印象判定装置10によって実施される発話印象判定処理について説明する。図10は、発話印象判定装置10によって実施される発話印象判定処理の一例を示す。
例えば、ユーザが通話を開始した状態で発話印象判定装置10の電源をオンすることによって、図10の発話印象判定処理が開始される。CPU21は、ステップ140で、単位発話区間カウンタN2に0を設定する。CPU21は、ステップ141で、音声フレームの数をカウントするカウンタF4(以下、第4フレームカウンタF4ともいう)に1を設定する。
CPU21は、ステップ142で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、CPU21は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ143に進む。
CPU21は、ステップ143で、1フレーム分の音声信号を受信する。1フレームの時間長は、例えば、10ミリ秒である。当該音声信号は、マイク26で検出した音声、即ち、ユーザの発話音声に対応する音声信号であり、例えば、二次記憶部23のデータ格納領域23Dに一時的に保存される。
CPU21は、ステップ144で、ステップ143で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。ステップ144は、図7のステップ123と同様であるため、詳細な説明は省略する。
CPU21は、ステップ145で、音声信号の基本周波数FF2を取得する。基本周波数FF2の取得については、図4のステップ104と同様であるため、詳細な説明を省略する。
CPU21は、取得した基本周波数FF2を配列FFR[F4]に記憶する。FFRは、上記したように、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第4フレームカウンタF4は、上記したように、音声フレームのカウント値を記憶している。
CPU21は、ステップ146で、第4フレームカウンタF4のカウント値に1を加算する。CPU21は、ステップ147で、第4フレームカウンタF4に記憶されている音声フレームのカウント値が所定フレーム数Lより小さいか否か判定する。Lは、例えば、50であってよい。ステップ147の判定が肯定された場合、即ち、音声フレームのカウント値が所定フレーム数Lより小さい場合、CPU21は、ステップ142に戻り、ステップ142〜ステップ146の処理を繰り返す。一方、ステップ147の判定が否定された場合、即ち、音声フレームのカウント値が所定フレーム数L以上である場合、CPU21は、ステップ148に進む。
CPU21は、ステップ148で、音声フレーム数をカウントするカウンタF5(以下、第5フレームカウンタF5ともいう)に1をセットし、配列A1R[0]に緩和値の初期値として基本周波数FF2を記憶する。CPU21は、ステップ149で、通話中であるか否かを判定する。ステップ149の判定が否定された場合、即ち、通話中でない場合、CPU21は、発話印象判定処理を終了し、ステップ149の判定が肯定された場合、即ち、通話中である場合、CPU21はステップ150に進む。ステップ150及びステップ151は、ステップ143及びステップ145と各々同様であるため説明を省略する。
CPU21は、ステップ152で、区間平均値A3を算出する。区間平均値A3は、例えば、式(8)に示すように、現在の基本周波数から遡ってLフレーム分の基本周波数の平均である移動平均値であってよい。上記したように、Lは、例えば、50であってよい。区間平均値A3は、後述するように、基本周波数信号FF2が外れ値であるか否か判定するために使用する。
次に、CPU21は、取得した区間平均値A3を配列A3R[F4]に記憶する。配列A3Rは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第4フレームカウンタF4は上記したように、音声フレームのカウント値を記憶している。
CPU21は、ステップ153で、基本周波数FF2が外れ値であるか否か判定する。詳細には、例えば、式(9)に示すように、FFR[F4]に記憶されている基本周波数FF2と、配列A3R[F4]に記憶されているステップ152で算出した区間平均値A3との差の絶対値を取得する。当該差の絶対値が第3閾値TAより大きい場合は、FFR[F4]に記憶されている基本周波数FF2が外れ値であると判定する。
|FFR[F4]−A3R[F4]|>TA … (9)
ステップ153の判定が肯定された場合、即ち、FFR[F4]に記憶されている基本周波数FF2が外れ値である場合、CPU21は、ステップ163で、第4フレームカウンタF4のカウント値に1を加算して、ステップ149に戻る。ステップ153の判定が否定された場合、即ち、FFR[F4]に記憶されている基本周波数FF2が外れ値ではない場合、CPU21は、ステップ154で、配列FFI[F5]に基本周波数F2を記憶する。FFIは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第5フレームカウンタF5は、上記したように、音声フレームのカウント値を記憶している。
CPU21は、ステップ155で、緩和値A1Bを算出する。緩和値A1Bは、例えば、式(10)で示すように、現在の基本周波数、即ち、配列FFI[F5]に記憶されている基本周波数FF2と、過去の緩和値、即ち、配列A1R[F5−1]に記憶されている緩和値との加重平均値である。
A1B=R3×A1R[F5−1]+(1−R3)×FFI[F5] … (10)
算出した緩和値A1Bは、配列A1R[F5]に記憶される。
長期用重み係数の一例であるR3は、1より小さく、1−R3より大きい値であり、R3の値は変更される。図11を用いて、ステップ155において、R3がどのように変更されるかについて説明する。ステップ161で、配列FFI[F5]に記憶されている現在の基本周波数FF2が配列A1R[F5−1]に記憶されている過去の緩和値A1Bより大きいか否か判定する。ステップ161の判定が肯定された場合、即ち、FFI[F5]に記憶されている基本周波数FF2が配列A1R[F5−1]に記憶されている緩和値A1Bより大きい場合、CPU21は、ステップ162で、R3に値R3Lを設定する。CPU21は、ステップ164で、現在の緩和値A1Bを算出して、ステップ156に進む。
一方、ステップ161の判定が否定された場合、即ち、FFI[F5]に記憶されている基本周波数FF2が配列A1R[F5−1]に記憶されている緩和値A1B以下である場合、CPU21は、ステップ163で、R3に値R3Sを設定する。値R3Sは値R3Lよりも小さい値である。CPU21は、ステップ164に進む。
即ち、基本周波数FF2が上昇傾向を示す場合、R3の値を大きくすることで、過去の緩和値の影響を大きくし、基本周波数FF2が下降傾向を示す場合、R3の値を小さくすることで、過去の緩和値の影響を小さくしている。R3の値を大きくすることは、変化を緩やかにする度合いを大きくすることであり、R3の値を小さくすることは、変化を緩やかにする度合いを小さくすることである。縦軸が周波数を表し、横軸が時間を表す図12において、音声信号の基本周波数の一例を実線201で示す。実線201で示す基本周波数が、円201A及び円201Bで示すように急激に下降する場合、過去の緩和値の影響を小さくすることで、緩和値は、基本周波数の急激な下降に追従することができる。基本周波数の急激な下降に追従する緩和値を破線203で例示する。一方、過去の緩和値の影響を小さくしない場合、粗い破線202で例示するように、緩和値は、基本周波数の変化に追従しない。
CPU21は、ステップ156で、第5フレームカウンタF5のカウント値に1を加算する。CPU21は、ステップ157で、通話中であるか否か判定する。判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。
ステップ157の判定が肯定された場合、CPU21はステップ158に進む。ステップ158及びステップ159は、ステップ143及びステップ144と同様であるため、説明は省略する。ステップ159の判定が肯定された場合、即ち、発話区間である場合、CPU21は、ステップ164で、第4フレームカウンタF4のカウント値に1を加算して、ステップ151に戻る。
ステップ159の判定が否定された場合、即ち、発話区間の終了が判定された場合、CPU21は、ステップ160で、差分量を算出する。詳細には、図13に例示するように、CPU21は、ステップ181で、変数Iに1を設定し、変数AD3Pに0を設定する。変数I及び変数AD3Pは、例えば、二次記憶部23のデータ格納領域23Dに含まれている。
CPU21は、ステップ182で、緩和値A1R[F5−I]−基本周波数FFI[F5−I)の二乗を変数AD3Pに加算する。CPU21は、ステップ183で、変数Iに設定されている値に1を加算し、ステップ184で、変数Iに設定されている値が第5フレームカウンタF5のカウント値より小さいか否か判定する。ステップ184の判定が肯定された場合、即ち、変数Iに設定されている値が第5フレームカウンタF5のカウント値より小さい場合、CPU21はステップ181に戻る。
ステップ184の判定が否定された場合、即ち、変数Iに設定されている値が第5フレームカウンタF5のカウント値以上である場合、CPU21は、ステップ185で、例えば、式(11)に示すように、差分量AD3を算出して、ステップ161に進む。

式(11)では、単位発話区間毎の、外れ値を除外した基本周波数の各々と基本周波数の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量AD3を算出する。即ち、差分量AD3は、ステップ153で、基本周波数FF2が外れ値ではないと判定された基本周波数FF2及び緩和値A1Bを用いて計算される。
ステップ161は、図8のステップ135と同様であるため、説明を省略する。CPU21は、ステップ163で、単位発話区間カウンタN2のカウント値に1を加算してステップ141に戻る。
なお、第1〜第3実施形態では、発話印象判定装置10が物理的に単一の装置である場合について説明したが、第1〜第3実施形態はこれに限定されない。例えば、図14に例示するように、発話印象装置10は、ネットワーク31で接続されたクライアント32及びサーバ33のような物理的に別個の複数の装置を含む発話印象判定システム30であってもよい。
発話印象判定システム30では、例えば、図15Aに例示するように、クライアント32が音声検出部11Aを含み、図15Bに例示するように、サーバ33が算出部12A及び印象判定部13Aを含んでいてもよい。また、クライアント32が音声検出部11A及び算出部12Aを含み、サーバ33が印象判定部13Aを含んでいてもよい。また、発話印象判定システム30は、複数のクライアント及び複数のサーバを含んでいてもよい。
なお、本実施形態では、基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する例について説明したが、本実施形態は、これに限定されない。例えば、対応する緩和値の各々より大きい基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定してもよい。
なお、第1〜第3実施形態では、発話印象判定処理がリアルタイムの通話に適用される例について説明したが、第1〜第3実施形態はこれに限定されない。例えば、録音された通話または対面応対の音声に適用されてもよい。この場合、発話印象を判定する際に用いる閾値は、例えば、録音された通話または対面応対の音声に対応する音声信号全体の基本周波数に基づいて決定されてもよい。例えば、発話印象を判定する際に用いる閾値は、音声信号全体の基本周波数の平均値に所定の値を加えた値であってよい。また、多数の通話または対面応対で取得された発話印象を判定する際に用いる閾値を蓄積し、蓄積された多数の印象判定値に基づいて、第1〜第3実施形態のようなリアルタイムの通話での発話印象を判定する際に用いる閾値を決定してもよい。
また、第1実施形態では、移動平均値を計算する際に、現在の基本周波数から遡って所定フレーム分の基本周波数の平均値を計算する例について説明したが、第1実施形態は、これに限定されない。例えば、現在の基本周波数の前の所定フレーム分の基本周波数と現在の基本周波数の後の所定フレーム分の基本周波数との平均値を計算してもよい。
第1〜第3実施形態では、基本周波数として単位semitoneである基本周波数を用いたが、第1〜第3実施形態は、これに限定されない。基本周波数として単位Hzの基本周波数を用いてもよい。
第1〜第3実施形態の各々の1つまたは複数の部分は、異なる実施形態に適用することが可能である。例えば、第2実施形態及び第3実施形態において、緩和値として移動平均値を使用してもよい。また、例えば、第2実施形態において、緩和値が移動平均値である場合、特徴量にも緩和値よりフレーム数を低減した移動平均値を使用してもよい。例えば、緩和値が50フレーム毎の移動平均値である場合、特徴量は10フレーム毎の移動平均値であってもよい。また、第1実施形態において、緩和値として現在の基本周波数と過去の緩和値との加重平均値を用いてもよい。また、第1実施形態で、単位発話区間毎に発話印象の判定を行い、第2及び第3実施形態で、単位時間毎に発話印象の判定を行うようにしてもよい。なお、上記は例示であり、上記以外の変更も可能である。
また、図4、図6、図8、図10、及び図13のフローチャートは一例であり、処理の順番は変更可能である。式(4)、式(7)、式(11)を用いて差分量を算出する例について説明したが、本実施形態はこれに限定されない。差分量は、特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す値であればよい。また、配列、カウンタ、及び変数が二次記憶部23のデータ格納領域23Dに含まれる例について説明したが、本実施形態はこれに限定されない。配列、カウンタ、及び変数は、例えば、一次記憶部23に含まれてもよい。
本実施形態では、算出部は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部は、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。
本実施形態では、緩和値は、過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。緩和値を演算する際に、基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くする。本実施形態では、緩和値が加重平均値であって、特徴量が特徴量に対応する緩和値以下である場合、特徴量が特徴量に対応する緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、長期用重み係数を決定する。
本実施形態では、特徴量は、音声信号から特定した基本周波数である。本実施形態では、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、印象判定の単位発話区間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。
本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。本実施形態では、基本周波数と基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、基本周波数を予め除外する。
本実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価することで、発話印象の判定精度を向上させることができる。即ち、本実施形態では、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、暗い音声を明るい音声であると誤って判定することを抑制することができる。また、本実施形態では、基本周波数から外れ値を除外することで、外れ値が発話印象の判定に与える影響を低減することが可能となり、発話印象の判定精度を向上させることができる。
上記したように、第1〜第3実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量を用いて、発話印象を判定する。図16Aにおいて、音声信号の特徴量の一例である基本周波数を実線211Aで例示し、実線211Aで示される基本周波数に対応する緩和値の一例を破線212Aで示す。また、図16Bにおいて、音声信号の基本周波数の一例を実線211Bで示し、実線211Bで示される基本周波数に対応する緩和値を破線212Bで示す。図16A及び図16Bにおいて、縦軸は周波数を表し、横軸は時間を表す。
一方、例えば、音声信号の基本周波数の最大値と最小値との差に基づいて発話印象を判定する関連技術が存在する。関連技術について説明するために、図17Aに図16Aと同じ基本周波数の一例を実線211Aで示し、図17Bに図16Bと同じ基本周波数の一例を実線211Bで示す。図17A及び図17Bにおいても、縦軸は周波数を表し、横軸は時間を表す。
図17A及び図17Bに示すように、図17Aに実線211Aで例示する基本周波数の最大値と最小値との差DIF1と、図17Bに実線211Bで例示する基本周波数の最大値と最小値との差DIF2とは略等しい。したがって、音声信号の基本周波数の最大値と最小値との差に基づいて発話印象を判定した場合、実線211Aで例示する基本周波数で表される音声の明るさの度合いと、実線211Bで例示する基本周波数で表される音声の明るさの度合いと、は略等しい。
しかしながら、発話印象、即ち、主観的に感じる音声の明るさの度合いは、短時間での基本周波数の変化の大きさ、即ち、抑揚に依存する。従って、実際には、実線211Aで例示する基本周波数で表される音声の明るさの度合いは、実線211Bで例示する基本周波数で表される音声の明るさの度合いより大きい。このように、実線211Bで例示されるような基本周波数の最大値と最小値との差に基づいて音声の明るさの度合いを判定すると、暗い音声を明るい音声であると誤って判定する場合がある。実線211Bで例示されるような基本周波数は、発話持続時間が長い場合に現れ、徐々に下降する傾向を有する。
図16Aの実線211Aで例示される基本周波数と破線212Aで例示される基本周波数に対応する緩和値の差の大きさの度合いを表す差分量は、短時間での基本周波数の変化を適切に表すことができる。また、図16Bの実線211Bで例示される基本周波数と基本周波数に対応する破線212Bで例示される緩和値との差の大きさの度合いを表す差分量も、短時間での基本周波数の変化を適切に表すことができる。基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値が、基本周波数との差の大きさの基準となる基本周波数の短時間における変化を適切に表すことができるからである。
したがって、第1〜第3実施形態によれば、図16Aの実線211Aで例示される基本周波数で表される音声の明るさの度合いは、図16Bの実線211Bで例示される基本周波数で表される音声の明るさの度合いより大きい、という発話印象が適切に判定される。即ち、図16Bに実線211Bで例示する基本周波数で表される音声のように、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、第1〜第3実施形態によれば、暗い音声を明るい音声であると誤って判定する可能性は低い。

Claims (10)

  1. 音声信号から基本周波数を抽出し、
    前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出し、
    前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する、
    発話印象判定処理をコンピュータに実行させるためのプログラム。
  2. 前記緩和値は、
    前記音声信号の一部の区間の基本周波数の移動平均値、または、
    前記基本周波数の変化が緩やかになるように前記基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から抽出した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
    請求項1に記載のプログラム。
  3. 前記緩和値が加重平均値であって、前記特徴量が前記特徴量に対応する前記緩和値以下である場合、前記特徴量が前記特徴量に対応する前記緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、前記長期用重み係数を決定する、
    請求項2に記載のプログラム。
  4. 前記特徴量は、
    前記音声信号から抽出した基本周波数、または、
    変化を緩やかにする度合いが前記緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から抽出した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
    請求項1〜請求項3の何れか1項に記載のプログラム。
  5. 前記差分量は、印象判定の単位時間当たりまたは単位発話区間当たりにおける前記特徴量と前記特徴量に対応する前記緩和値との差の二乗和の平方根である、
    請求項1〜請求項4の何れか1項に記載のプログラム。
  6. 前記差分量が閾値より小さい場合に印象が悪いと判定し、前記差分量が前記閾値より所定値以上大きい場合に印象が良いと判定する、
    請求項1〜請求項5の何れか1項に記載のプログラム。
  7. 前記閾値は、前記音声信号全体の平均値に基づいて決定される、
    請求項6に記載のプログラム。
  8. 前記音声信号から前記基本周波数を抽出した際に、前記基本周波数と前記基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、前記緩和値を算出する前に、前記所定値を越える基本周波数を前記音声信号から抽出した基本周波数から予め除外する、
    請求項1〜請求項7の何れか1項に記載のプログラム。
  9. コンピュータが、
    音声信号から基本周波数を抽出し、
    前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出し、
    前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する、
    発話印象判定方法。
  10. 音声信号から基本周波数を抽出し、
    前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出する算出部と、
    前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する印象判定部と、
    を含む発話印象判定装置。
JP2018507963A 2016-03-30 2016-03-30 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 Active JP6521173B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/060565 WO2017168663A1 (ja) 2016-03-30 2016-03-30 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置

Publications (2)

Publication Number Publication Date
JPWO2017168663A1 JPWO2017168663A1 (ja) 2018-10-11
JP6521173B2 true JP6521173B2 (ja) 2019-05-29

Family

ID=59962784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018507963A Active JP6521173B2 (ja) 2016-03-30 2016-03-30 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置

Country Status (4)

Country Link
US (1) US10861477B2 (ja)
EP (1) EP3438980B1 (ja)
JP (1) JP6521173B2 (ja)
WO (1) WO2017168663A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4145444A1 (en) * 2021-09-07 2023-03-08 Avaya Management L.P. Optimizing interaction results using ai-guided manipulated speech

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3418005B2 (ja) 1994-08-04 2003-06-16 富士通株式会社 音声ピッチ検出装置
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6151571A (en) 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
JP2006267465A (ja) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP2007004000A (ja) * 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The コールセンターにおけるオペレータ業務支援システム
JP2007004001A (ja) * 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
JP2008134557A (ja) 2006-11-29 2008-06-12 Fujitsu Ltd 携帯端末装置
US7856353B2 (en) * 2007-08-07 2010-12-21 Nuance Communications, Inc. Method for processing speech signal data with reverberation filtering
JP2009071403A (ja) * 2007-09-11 2009-04-02 Fujitsu Fsas Inc オペレータ受付監視・切替システム
JP4943370B2 (ja) * 2008-04-09 2012-05-30 日本電信電話株式会社 コンテンツ視聴時の印象度推定方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US8589152B2 (en) 2008-05-28 2013-11-19 Nec Corporation Device, method and program for voice detection and recording medium
JP5278952B2 (ja) * 2009-03-09 2013-09-04 国立大学法人福井大学 乳幼児の感情診断装置及び方法
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
JP6891662B2 (ja) * 2017-06-23 2021-06-18 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置

Also Published As

Publication number Publication date
WO2017168663A1 (ja) 2017-10-05
EP3438980B1 (en) 2020-04-08
JPWO2017168663A1 (ja) 2018-10-11
EP3438980A4 (en) 2019-04-10
US20190027158A1 (en) 2019-01-24
US10861477B2 (en) 2020-12-08
EP3438980A1 (en) 2019-02-06

Similar Documents

Publication Publication Date Title
CN102549657B (zh) 用于确定音频系统的感知质量的方法和系统
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
KR20160039677A (ko) 보이스 활성화 탐지 방법 및 장치
WO2016015461A1 (zh) 异常帧检测方法和装置
JP2018156044A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
EP2881948A1 (en) Spectral comb voice activity detection
KR101430321B1 (ko) 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
JP6731631B2 (ja) 認知機能評価装置、プログラム
JP4769673B2 (ja) オーディオ信号補間方法及びオーディオ信号補間装置
JP5204904B2 (ja) オーディオ信号品質予測
JP2008015443A (ja) 雑音抑圧音声品質推定装置、方法およびプログラム
KR20180100452A (ko) 오디오 신호의 배경 잡음 추정
JP2013500498A (ja) 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品
JP6521173B2 (ja) 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
JP5293329B2 (ja) 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
CN114694678A (zh) 音质检测模型训练方法、音质检测方法、电子设备及介质
WO2019218749A1 (zh) 基于语音的交互方法及系统
JP5782402B2 (ja) 音声品質客観評価装置及び方法
JP4490090B2 (ja) 有音無音判定装置および有音無音判定方法
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
DK3232906T3 (en) HEARING TEST SYSTEM
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP6729187B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
JP2006148752A (ja) 通話品質の主観評価のための評価サンプル数を決定する方法及びサーバ

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190415

R150 Certificate of patent or registration of utility model

Ref document number: 6521173

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150