JP6521173B2

JP6521173B2 - 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置

Info

Publication number: JP6521173B2
Application number: JP2018507963A
Authority: JP
Inventors: 太郎外川; 紗友梨中山; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2019-05-29
Anticipated expiration: 2036-03-30
Also published as: WO2017168663A1; EP3438980B1; JPWO2017168663A1; EP3438980A4; US20190027158A1; US10861477B2; EP3438980A1

Description

本発明は、発話印象判定プログラム、発話印象判定方法及び発話印象判定装置に関する。

例えば、コールセンターでオペレータが顧客と通話する場合、オペレータの声は顧客が受ける印象に影響を与える。オペレータの声の明るさの度合いが大きいと、顧客はオペレータとの通話に対して好印象をもつ場合が多い。したがって、オペレータの顧客への対応を評価するために、オペレータの声の明るさの度合いを客観的に判定する技術が存在する。当該技術では、例えば、オペレータの声の基本周波数の最大値と最小値との差に基づいて、差が大きい場合に、オペレータの声の明るさの度合いが大きいと判定する。

特開２００６−２６７４６５号公報特開２００８−１３４５５７号公報特開平８−４４３９５号公報国際公開２００９／１４５１９２号公報

スンドベリ、「歌声の科学」、東京電機大学出版局、２００７年

しかしながら、発話持続時間が長い発話では、肺からの呼気が少なくなるため、声門への圧力が低下することで声帯の振動数が減少し、声の基本周波数は徐々に下降する傾向がある。したがって、発話持続時間が長い発話において、基本周波数の最大値と最小値との差に基づいてオペレータの声の明るさの度合いを判定した場合、明るさの度合いの低いオペレータの声を明るさの度合いが大きいと判定する可能性がある。

詳細には、聞き手が受ける声の明るさの印象は、短い時間における基本周波数の変化の大きさに基づいて変化する。一方、発話持続時間が長い発話では、声の基本周波数が徐々に下降する傾向があるため、基本周波数の最大値が発話開始付近に存在し、基本周波数の最小値が発話終了付近に存在する可能性が高い。この場合、短い時間における基本周波数の変化の大きさが、基本周波数の最大値と最小値との差に現れない。したがって、明るさの度合いの低いオペレータの声を明るさの度合いが大きいと判定する可能性がある

１つの側面として、本発明は、発話印象の判定精度を向上させることを目的とする。

１つの態様では、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。基本周波数に関連する少なくとも１つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。

１つの側面として、発話印象の判定精度を向上させる、という効果を有する。

第１〜第３実施形態に係る発話印象判定装置の要部機能の一例を示すブロック図である。第１〜第３実施形態に係る発話印象判定装置のハードウェアの構成の一例を示すブロック図である。第１実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。第１実施形態に係る発話印象判定処理の一例を示すフローチャートである。第１〜第３実施形態に係る基本周波数を取得する処理を説明するための概念図である。第１〜第３実施形態に係る印象判定処理の一例を示すフローチャートである。第２実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。第２実施形態に係る発話印象判定処理の一例を示すフローチャートである。第３実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。第３実施形態に係る発話印象判定処理の一例を示すフローチャートである。第３実施形態に係る緩和値算出処理の一例を示すフローチャートである。第３実施形態に係る緩和値の一例を示す概念図である。第３実施形態に係る差分量算出処理の一例を示すフローチャートである。発話印象判定システムの一例を示すブロック図である。発話印象判定システムのクライアントの要部機能の一例を示すブロック図である。発話印象判定システムのサーバの要部機能の一例を示すブロック図である。第１〜第３実施形態の発話印象判定処理について説明するための概念図である。第１〜第３実施形態の発話印象判定処理について説明するための概念図である。関連技術の発話印象判定処理について説明するための概念図である。関連技術の発話印象判定処理について説明するための概念図である。

［第１実施形態］
以下、開示の技術の実施形態の一例である第１実施形態を説明する。

一例として図１に発話印象判定装置１０を示す。発話印象判定装置１０は、例えば、音声検出部１１、算出部１２、及び印象判定部１３を含む。音声検出部１１、算出部１２、及び印象判定部１３は、相互に接続されている。

音声検出部１１は、ユーザの発話音声を検出する。算出部１２は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部１３は、基本周波数に関連する少なくとも１つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。

発話印象判定装置１０は、例えば、固定電話、スマートフォン、又は携帯電話などに接続可能なパーソナルコンピュータ、もしくは専用装置であってもよいし、固定電話、スマートフォン、又は携帯電話などの一部であってもよい。

発話印象判定装置１０は、一例として図２に示すように、ＣＰＵ（Central Processing Unit）２１、一次記憶部２２、二次記憶部２３、外部インターフェイス２４、音声信号受信部２５、及びマイク（マイクロフォン）２６を備えている。ＣＰＵ２１、一次記憶部２２、二次記憶部２３、外部インターフェイス２４、音声信号受信部２５、及びマイク２６は、バス２９を介して相互に接続されている。

外部インターフェイス２４には、外部装置が接続され、外部インターフェイス２４は、外部装置とＣＰＵ２１との間の各種情報の送受信を司る。

マイク２６は、ユーザ側の音声、例えば、発話印象判定装置１０を利用するコールセンターのオペレータの発話音声を受け取り、音声信号に変換する。なお、図２では、マイク２６が発話印象判定装置１０に含まれるように示しているが、本実施形態はこれに限定されない。マイク２６は、例えば、発話印象判定装置１０に接続される電話などの通話装置のマイクであってもよいし、外部インターフェイス２４を介して接続される外付けのマイクであってもよい。

音声信号受信部２５は、電話回線又はインターネット回線などを通じて、有線または無線で送信される、通話相手側、例えば、オペレータと通話する顧客の発話音声を表す音声信号を受信する。

一次記憶部２２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部２３は、例えば、ＨＤＤ（Hard Disk Drive）、またはＳＳＤ（Solid State Drive）などの不揮発性のメモリである。二次記憶部２３は、例えば、発話印象判定プログラムを記憶するプログラム格納領域２３Ｐ及び各種データを記憶するデータ格納領域２３Ｄを含む。なお、発話印象判定プログラムは、外部インターフェイス２４を介して、ＣＤ−ＲＯＭ又はＤＶＤなどの非一時的記憶媒体から読み込まれてもよいし、外部サーバから受信されてもよい。

ＣＰＵ２１は、二次記憶部２３から発話印象判定プログラムを読み出して一次記憶部２２に展開する。ＣＰＵ２１は、当該発話印象判定プログラムを実行することで、図１に示す算出部１２、及び印象判定部１３として動作する。

次に、発話印象判定装置１０によって実施される発話印象判定処理の概要を説明する。発話印象判定装置１０は、ユーザの発話が通話相手に与える発話印象を判定する。

図３に例示するように、発話印象判定装置１０は、マイク２６でユーザの発話音声を取得する。発話印象判定装置１０は、ブロック３１で、ユーザの発話音声に対応する音声信号から基本周波数を抽出する。発話印象判定装置１０は、ブロック３２Ａで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。発話印象判定装置１０は、ブロック３６Ａで、基本周波数と当該基本周波数に対応する緩和値との差の大きさの度合いを表す差分量を後述する単位時間毎に算出する。発話印象判定装置１０は、ブロック３７Ａで、ブロック３６Ａで算出した差分量に基づいて、単位時間毎の発話印象を判定する。

次に、本実施形態の作用として、発話印象判定装置１０によって実施される発話印象判定処理について説明する。図４は、発話印象判定装置１０によって実施される発話印象判定処理の一例を示す。

例えば、ユーザが通話を開始した状態で発話印象判定装置１０の電源をオンすることによって、図４の発話印象判定処理が開始される。ＣＰＵ２１は、ステップ１０１で、音声フレームの数をカウントするカウンタＦ１（以下、第１フレームカウンタＦ１ともいう）に１を設定し、単位時間の数をカウントするカウンタＮ１（以下、単位時間カウンタＮ１ともいう）に０を設定する。第１フレームカウンタＦ１及び単位時間カウンタＮ１は、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる。

ＣＰＵ２１は、ステップ１０２で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、ＣＰＵ２１は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ１０３に進む。

ＣＰＵ２１は、ステップ１０３で、１フレーム分の音声信号を受信する。１フレームの時間長は、例えば、１０ミリ秒である。当該音声信号は、マイク２６で検出した音声、即ち、ユーザの発話音声に対応する信号であり、例えば、二次記憶部２３のデータ格納領域２３Ｄに一時的に保存される。

ＣＰＵ２１は、ステップ１０４で、音声信号の基本周波数ＦＦ２を取得する。詳細には、まず、音声信号の基本周波数ＦＦ１を、例えば、以下で説明するように取得する。音声信号の自己相関を算出し、図５に例示するように、シフト時間が正であり、かつ、最小の位置で自己相関値が極大となる時間を基本周期ｐｒとする。基本周波数ＦＦ１は、式（１）に示すように、サンプリング周波数Ｆｓを基本周期ｐｒで除算することにより算出される。
ＦＦ１＝Ｆｓ／ｐｒ … （１）
サンプリング周波数Ｆｓは、例えば、８，０００Ｈｚである。

次に、ＣＰＵ２１は、式（２）に示すように、単位Ｈｚである音声信号の基本周波数ＦＦ１を人間の聴覚上での声の高さに適合する単位ｓｅｍｉｔｏｎｅである音声信号の基本周波数ＦＦ２に変換する。
ＦＦ２＝１２×ｌｏｇ_２（ＦＦ１／５０） … （２）

ＣＰＵ２１は、変換により取得した基本周波数ＦＦ２を配列ＦＦＲ［Ｆ１］に記憶する。ＦＦＲは、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる配列であってよく、第１フレームカウンタＦ１は、上記したように、音声フレームのカウント値を記憶している。

ＣＰＵ２１は、ステップ１０５で、第１フレームカウンタＦ１に１を加算する。ＣＰＵ２１は、ステップ１０６で、第１フレームカウンタＦ１に記憶されている音声フレームのカウント値が所定フレーム数Ｌより小さいか否か判定する。Ｌは、例えば、５０であってよい。判定が肯定された場合、即ち、音声フレームのカウント値が所定フレーム数Ｌより小さい場合、ＣＰＵ２１は、ステップ１０２に戻り、ステップ１０２〜ステップ１０５の処理を繰り返す。一方、判定が否定された場合、即ち、音声フレームのカウント値が所定フレーム数Ｌ以上である場合、ＣＰＵ２１は、ステップ１０７に進む。

ＣＰＵ２１は、ステップ１０７で、音声フレームの数をカウントするカウンタＦ２（以下、第２フレームカウンタＦ２ともいう。）に０を設定する。第２フレームカウンタＦ２のカウント値に基づいて、後述するように、フレーム数が、発話印象を判定する単位時間に対応する所定のフレーム数Ｍに達したか否かを判定する。

ＣＰＵ２１は、ステップ１０８で、通話中であるか否か判定し、判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。ステップ１０８の判定が肯定された場合、即ち、通話中である場合、ＣＰＵ２１はステップ１０９に進む。ステップ１０９は上記ステップ１０３と同様であり、ステップ１１０は上記ステップ１０４と同様であるため、説明を省略する。

ＣＰＵ２１は、ステップ１１１で、緩和値Ａ１を算出する。緩和値は、例えば、式（３）に示すように、現在の基本周波数ＦＦ２から遡ってＬフレーム分の（配列ＦＦＲに記憶されている）基本周波数ＦＦ２の平均値を計算する移動平均値である。ここで、Ｌフレームは音声信号の一部の区間の一例であり、上記したように、Ｌは、例えば、５０であってよい。

次に、ＣＰＵ２１は、取得した緩和値Ａ１を配列Ａ１Ｒ［Ｆ１］に記憶する。Ａ１Ｒは、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる配列であってよく、第１フレームカウンタＦ１は上記したように、音声フレームのカウント値を記憶している。

ＣＰＵ２１は、ステップ１１２で、第２フレームカウンタＦ２に１を加算する。ＣＰＵ２１は、ステップ１１３で、第２フレームカウンタＦ２に記憶されているカウント値がＭより小さいか否か判定する。Ｍは、上記した発話印象を判定する単位時間に対応する所定のフレーム数であり、例えば、Ｍは３００であってよい。ＭにはＬより大きい値が用いられる。

ステップ１１３の判定が肯定された場合、即ち、第２フレームカウンタＦ２に記憶されているカウント値がＭより小さい場合、ＣＰＵ２１は、ステップ１１４で、第１フレームカウンタＦ１のカウント値に１を加算し、ステップ１０８に戻る。ステップ１１３の判定が否定された場合、即ち、第２フレームカウンタＦ２に記憶されているカウント値がＭ以上である場合、ＣＰＵ２１は、ステップ１１５で、差分量ＡＤを算出する。ここでは、式（４）に示すように、現在の音声フレームから遡ってＭフレーム分の配列ＦＦＲに記憶されている基本周波数ＦＦ２と配列Ａ１Ｒに記憶されている緩和値Ａ１との差分量ＡＤが算出される。

即ち、式（４）では、単位時間毎の基本周波数ＦＦ２の各々と、基本周波数ＦＦ２の各々に対応する緩和値Ａ１の各々との差の大きさを表す度合いである差分量ＡＤを算出する。

ＣＰＵ２１は、ステップ１１６で、算出した差分量ＡＤに基づいて、発話印象を判定する。ステップ１１６の詳細を、図６に例示する。ＣＰＵ２１は、ステップ１７１で、差分量ＡＤが閾値の一例である所定の第１閾値ＴＬより小さいか否か判定する。ステップ１７１の判定が肯定された場合、即ち、差分量ＡＤが所定の第１閾値ＴＬより小さい場合、ＣＰＵ２１は、ステップ１７２で発話印象が悪いと判定し、発話印象ＤＲを配列ＯＩ［Ｎ１］に記憶し、ステップ１１７に進む。発話印象ＤＲは、例えば、発話印象が悪いことを表す英字Ｂであってもよいし、数値−１であってもよい。ＯＩは、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる配列であってよい。

ステップ１７１の判定が否定された場合、即ち、算出した差分量ＡＤが第１閾値ＴＬ以上である場合、ＣＰＵ２１は、ステップ１７３で、算出した差分量ＡＤが、所定の第２閾値ＴＨ以下であるか否か判定する。第２閾値ＴＨは、第１閾値より大きい値である。ステップ１７３の判定が肯定された場合、即ち、算出した差分量ＡＤが第２閾値ＴＨ以下である場合、ＣＰＵ２１は、ステップ１７４で発話印象が普通であると判定し、発話印象ＤＲを配列ＯＩ［Ｎ１］に記憶し、ステップ１１７に進む。発話印象ＤＲは、例えば、発話印象が普通であることを表す英字Ｏであってもよいし、数値０であってもよい。

ステップ１７３の判定が否定された場合、即ち、算出した差分量ＡＤが第２閾値ＴＨより大きい場合、ＣＰＵ２１は、ステップ１７５で、発話印象が良いと判定し、発話印象ＤＲを配列ＯＩ［Ｎ１］に記憶し、ステップ１１７に進む。発話印象ＤＲは、例えば、発話印象が良いことを表す英字Ｇであってもよいし、数値１であってもよい。

第１閾値ＴＬは、例えば、１．５［ｓｅｍｉｔｏｎｅ］であってよく、第２閾値ＴＨは、例えば、３．０［ｓｅｍｉｔｏｎｅ］であってよい。ＣＰＵ２１は、ステップ１１７で、第１フレームカウンタＦ１のカウント値に１を加算し、単位時間カウンタＮ１のカウント値に１を加算して、ステップ１０７に戻る。

なお、本実施形態では、基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する例について説明したが、本実施形態は、これに限定されない。例えば、対応する緩和値の各々より大きい基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定してもよい。

本実施形態では、算出部は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部は、基本周波数に関連する少なくとも１つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。本実施形態では、緩和値は、音声信号の一部の区間の基本周波数の移動平均値である。

本実施形態では、特徴量は、音声信号から特定した基本周波数である。本実施形態では、基本周波数に関連する少なくとも１つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、印象判定の単位時間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。

本実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価することで、発話印象の判定精度を向上させることができる。即ち、本実施形態では、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、暗い音声を明るい音声であると誤って判定することを抑制することができる。

［第２実施形態］
次に、開示の技術の実施形態の一例である第２実施形態を説明する。第１実施形態と同様の構成及び作用については説明を省略する。

本実施形態では、図７に例示するように、発話印象判定装置１０は、マイク２６でユーザの発話音声を取得する。発話印象判定装置１０は、ブロック３４で、発話区間を検出する。発話区間とは、ユーザの発話音声を含む区間である。

ブロック３４で発話区間であることが検出されると、発話印象判定装置１０は、ブロック３１で、ユーザの発話音声に対応する音声信号から基本周波数を抽出する。発話印象判定装置１０は、ブロック３２Ｂで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出し、ブロック３３Ｂで、基本周波数に関連する特徴量を算出する。

ブロック３４で発話区間ではないこと、即ち、発話区間の終了が検出されると、発話印象判定装置１０は、ブロック３６Ｂで、特徴量と当該特徴量に対応する緩和値との差の大きさの度合いを表す差分量を単位発話区間毎に算出する。発話印象判定装置１０は、ブロック３７Ｂで、単位発話区間毎の差分量に基づいて、単位発話区間毎の発話印象を判定する。

次に、本実施形態の作用として、発話印象判定装置１０によって実施される発話印象判定処理について説明する。図８は、発話印象判定装置１０によって実施される発話印象判定処理の一例を示す。

例えば、ユーザが通話を開始した状態で発話印象判定装置１０の電源をオンすることによって、図８の発話印象判定処理が開始される。ＣＰＵ２１は、ステップ１２０で、単位発話区間の数をカウントするカウンタＮ２（以下、単位発話区間カウンタＮ２ともいう）に０を設定する。ＣＰＵ２１は、ステップ１２１で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、ＣＰＵ２１は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ１２２に進む。

ＣＰＵ２１は、ステップ１２２で、１フレーム分の音声信号を受信する。１フレームの時間長は、例えば、１０ミリ秒である。当該音声信号は、マイク２６で検出した音声、即ち、ユーザの発話音声に対応する音声信号であり、例えば、二次記憶部２３のデータ格納領域２３Ｄに一時的に保存される。

ＣＰＵ２１は、ステップ１２３で、ステップ１２２で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。例えば、ステップ１２３で受信した音声信号のパワーまたは信号対雑音比が所定値より大きい場合、当該音声信号で表される音声が、背景雑音だけでなく、ユーザの発話音声を含む発話区間であると判定する。

ステップ１２３の判定が否定された場合、即ち、ステップ１２２で受信した音声信号で表される音声が発話区間の音声ではない場合、ＣＰＵ２１はステップ１２１に戻る。一方、ステップ１２３の判定が肯定された場合、即ち、ステップ１２２で受信した音声信号で表される音声が発話区間の音声である場合、ＣＰＵ２１はステップ１２４に進む。

ＣＰＵ２１は、ステップ１２４で、音声信号の基本周波数ＦＦ２を取得する。基本周波数ＦＦ２の取得については、図４のステップ１０４と同様であるため、詳細な説明を省略する。

ＣＰＵ２１は、取得した基本周波数ＦＦ２を配列ＦＦＲ［０］に記憶する。ＦＦＲは、上記したように、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる配列であってよい。

ＣＰＵ２１は、ステップ１２５で、配列Ａ１Ｒ［０］に緩和値の初期値としてステップ１２４で取得した基本周波数ＦＦ２を記憶し、配列Ａ２Ｒ［０］にも特徴量の初期値としてステップ１２４で取得した基本周波数ＦＦ２を記憶する。配列Ａ１Ｒは、上記したように、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる配列であってよく、配列Ａ２Ｒも、同様に、例えば、データ格納領域２３Ｄに含まれる配列であってよい。また、ＣＰＵ２１は、ステップ１２６で、音声フレーム数をカウントするカウンタであるＦ３（以下、第３フレームカウンタともいう）に１を設定する。

ＣＰＵ２１は、ステップ１２７で、通話中であるか否か判定し、判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。ステップ１２７の判定が肯定された場合、即ち、通話中である場合、ＣＰＵ２１は、ステップ１２８で、音声信号を受信する。ステップ１２８は、上記ステップ１２２と同様であるため、詳細な説明を省略する。

ＣＰＵ２１は、ステップ１２９で、ステップ１２８で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。ステップ１２９は、上記ステップ１２３と同様であるため、詳細な説明を省略する。ステップ１２９の判定が肯定された場合、即ち、ステップ１２９で受信した音声信号で表される音声が発話区間の音声である場合、ＣＰＵ２１は、ステップ１３０で、基本周波数ＦＦ２を取得する。基本周波数ＦＦ２の取得については、図４のステップ１０４と同様であるため、詳細な説明を省略する。取得した基本周波数ＦＦ２は配列ＦＦＲ［Ｆ３］に記憶される。

ＣＰＵ２１は、ステップ１３１で、緩和値Ａ１Ａを算出する。緩和値Ａ１Ａは、例えば、式（５）で示すように、現在の基本周波数、即ち、配列ＦＦＲ［Ｆ３］に記憶されている基本周波数と、過去の緩和値、即ち、配列Ａ１Ｒ［Ｆ３−１］に記憶されている緩和値との加重平均値である。
Ａ１Ａ＝Ｒ１×Ａ１Ｒ［Ｆ３−１］＋（１−Ｒ１）×ＦＦＲ［Ｆ３］ … （５）
基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数の一例であるＲ１は、１より小さく、１−Ｒ１より大きい値である。算出した緩和値Ａ１Ａは、配列Ａ１Ｒ［Ｆ３］に記憶される。

ＣＰＵ２１は、ステップ１３２で、特徴量Ａ２を算出する。特徴量Ａ２は、例えば、式（６）で示すように、現在の基本周波数、即ち、配列ＦＦＲ［Ｆ３］に記憶されている基本周波数と、過去の特徴量、即ち、配列Ａ２Ｒ［Ｆ３−１］に記憶されている特徴量との加重平均値である。
Ａ２＝Ｒ２×Ａ２Ｒ［Ｆ３−１］＋（１−Ｒ２）×ＦＦＲ［Ｆ３］ … （６）
基本周波数の変化が緩やかになるように基本周波数を変化させる短期用重み係数の一例であるＲ２は、Ｒ１より小さく、１−Ｒ２より大きい値である。算出した特徴量Ａ２は、配列Ａ２Ｒ［Ｆ３］に記憶される。Ｒ１は、例えば、０．９であってよく、Ｒ２は、例えば、０．６であってよい。

上記したように、緩和値を算出する式（５）では、過去の緩和値に対する長期用重み係数Ｒ１が、特徴量を算出する式（６）における過去の特徴量に対する短期用重み係数Ｒ２よりも大きい。したがって、過去の緩和値の現在の緩和値に対する影響は、過去の特徴量の現在の特徴量に対する影響よりも大きい。

ＣＰＵ２１は、ステップ１３３で、第３フレームカウンタＦ３のカウント値に１を加算して、ステップ１２７に戻る。一方、ステップ１２９の判定が否定されると、即ち、ステップ１２８で受信した音声信号で表される音声が発話区間の音声ではない場合、ＣＰＵ２１は、ステップ１３４で、例えば、式（７）で示すように、差分量ＡＤ２を算出する。

式（７）では、単位発話区間毎の特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量ＡＤ２を算出する。

ＣＰＵ２１は、ステップ１３５で、算出した差分量ＡＤ２に基づいて、発話印象を判定する。ステップ１３５は、図４のステップ１１６と同様であるため、詳細な説明を省略する。発話印象ＤＲは配列ＯＩ［Ｎ２］に記憶される。ＣＰＵ２１は、ステップ１３６で、単位発話区間カウンタＮ２のカウント値に１を加算し、ステップ１２１に戻る。

なお、本実施形態では、特徴量の各々と、特徴量の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する例について説明したが、本実施形態は、これに限定されない。例えば、対応する緩和値の各々より大きい特徴量の各々と、特徴量の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定してもよい。

本実施形態では、算出部は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部は、基本周波数に関連する少なくとも１つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。

本実施形態では、緩和値は、過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。緩和値を演算する際に、基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くしている。

本実施形態では、特徴量は、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。特徴量を演算する際に、変化を緩やかにする度合いが緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いている。

本実施形態では、基本周波数に関連する少なくとも１つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、単位発話区間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。

また、本実施形態では、特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する。本実施形態では、特徴量は、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。特徴量を演算する際に、変化を緩やかにする度合いが緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いている。即ち、基本周波数が外れ値を含んでいる場合であっても、基本周波数に代えて、短期用重み係数を用いて演算した加重平均値を使用することで、外れ値が発話印象の判定に与える影響を低減することが可能となり、発話印象の判定精度を向上させることができる。

［第３実施形態］
次に、開示の技術の実施形態の一例である第３実施形態を説明する。第１実施形態及び第２実施形態と同様の構成及び作用については説明を省略する。

図９に例示するように、発話印象判定装置１０は、マイク２６でユーザの発話音声を取得する。発話印象判定装置１０は、ブロック３４で、発話区間を検出する。発話区間とは、ユーザの発話音声を含む区間である。

ブロック３４で発話区間であることが検出されると、発話印象判定装置１０は、ブロック３１で、ユーザの発話音声に対応する音声信号から基本周波数を取得する。基本周波数に外れ値が存在する場合、発話印象判定装置１０は、ブロック３５で、当該外れ値を除外する。発話印象判定装置１０は、ブロック３２Ｃで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を算出する。

ブロック３４で発話区間ではないこと、即ち、発話区間の終了が検出されると、発話印象判定装置１０は、ブロック３６Ｃで、外れ値を除外した基本周波数と当該基本周波数に対応する緩和値との差の大きさの度合いを表す差分量を単位発話区間毎に算出する。発話印象判定装置１０は、ブロック３７Ｃで、単位発話区間毎の差分量に基づいて、単位発話区間毎の発話印象を判定する。

次に、本実施形態の作用として、発話印象判定装置１０によって実施される発話印象判定処理について説明する。図１０は、発話印象判定装置１０によって実施される発話印象判定処理の一例を示す。

例えば、ユーザが通話を開始した状態で発話印象判定装置１０の電源をオンすることによって、図１０の発話印象判定処理が開始される。ＣＰＵ２１は、ステップ１４０で、単位発話区間カウンタＮ２に０を設定する。ＣＰＵ２１は、ステップ１４１で、音声フレームの数をカウントするカウンタＦ４（以下、第４フレームカウンタＦ４ともいう）に１を設定する。

ＣＰＵ２１は、ステップ１４２で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、ＣＰＵ２１は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ１４３に進む。

ＣＰＵ２１は、ステップ１４３で、１フレーム分の音声信号を受信する。１フレームの時間長は、例えば、１０ミリ秒である。当該音声信号は、マイク２６で検出した音声、即ち、ユーザの発話音声に対応する音声信号であり、例えば、二次記憶部２３のデータ格納領域２３Ｄに一時的に保存される。

ＣＰＵ２１は、ステップ１４４で、ステップ１４３で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。ステップ１４４は、図７のステップ１２３と同様であるため、詳細な説明は省略する。

ＣＰＵ２１は、ステップ１４５で、音声信号の基本周波数ＦＦ２を取得する。基本周波数ＦＦ２の取得については、図４のステップ１０４と同様であるため、詳細な説明を省略する。

ＣＰＵ２１は、取得した基本周波数ＦＦ２を配列ＦＦＲ［Ｆ４］に記憶する。ＦＦＲは、上記したように、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる配列であってよく、第４フレームカウンタＦ４は、上記したように、音声フレームのカウント値を記憶している。

ＣＰＵ２１は、ステップ１４６で、第４フレームカウンタＦ４のカウント値に１を加算する。ＣＰＵ２１は、ステップ１４７で、第４フレームカウンタＦ４に記憶されている音声フレームのカウント値が所定フレーム数Ｌより小さいか否か判定する。Ｌは、例えば、５０であってよい。ステップ１４７の判定が肯定された場合、即ち、音声フレームのカウント値が所定フレーム数Ｌより小さい場合、ＣＰＵ２１は、ステップ１４２に戻り、ステップ１４２〜ステップ１４６の処理を繰り返す。一方、ステップ１４７の判定が否定された場合、即ち、音声フレームのカウント値が所定フレーム数Ｌ以上である場合、ＣＰＵ２１は、ステップ１４８に進む。

ＣＰＵ２１は、ステップ１４８で、音声フレーム数をカウントするカウンタＦ５（以下、第５フレームカウンタＦ５ともいう）に１をセットし、配列Ａ１Ｒ［０］に緩和値の初期値として基本周波数ＦＦ２を記憶する。ＣＰＵ２１は、ステップ１４９で、通話中であるか否かを判定する。ステップ１４９の判定が否定された場合、即ち、通話中でない場合、ＣＰＵ２１は、発話印象判定処理を終了し、ステップ１４９の判定が肯定された場合、即ち、通話中である場合、ＣＰＵ２１はステップ１５０に進む。ステップ１５０及びステップ１５１は、ステップ１４３及びステップ１４５と各々同様であるため説明を省略する。

ＣＰＵ２１は、ステップ１５２で、区間平均値Ａ３を算出する。区間平均値Ａ３は、例えば、式（８）に示すように、現在の基本周波数から遡ってＬフレーム分の基本周波数の平均である移動平均値であってよい。上記したように、Ｌは、例えば、５０であってよい。区間平均値Ａ３は、後述するように、基本周波数信号ＦＦ２が外れ値であるか否か判定するために使用する。

次に、ＣＰＵ２１は、取得した区間平均値Ａ３を配列Ａ３Ｒ［Ｆ４］に記憶する。配列Ａ３Ｒは、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる配列であってよく、第４フレームカウンタＦ４は上記したように、音声フレームのカウント値を記憶している。

ＣＰＵ２１は、ステップ１５３で、基本周波数ＦＦ２が外れ値であるか否か判定する。詳細には、例えば、式（９）に示すように、ＦＦＲ［Ｆ４］に記憶されている基本周波数ＦＦ２と、配列Ａ３Ｒ［Ｆ４］に記憶されているステップ１５２で算出した区間平均値Ａ３との差の絶対値を取得する。当該差の絶対値が第３閾値ＴＡより大きい場合は、ＦＦＲ［Ｆ４］に記憶されている基本周波数ＦＦ２が外れ値であると判定する。
｜ＦＦＲ［Ｆ４］−Ａ３Ｒ［Ｆ４］｜＞ＴＡ … （９）

ステップ１５３の判定が肯定された場合、即ち、ＦＦＲ［Ｆ４］に記憶されている基本周波数ＦＦ２が外れ値である場合、ＣＰＵ２１は、ステップ１６３で、第４フレームカウンタＦ４のカウント値に１を加算して、ステップ１４９に戻る。ステップ１５３の判定が否定された場合、即ち、ＦＦＲ［Ｆ４］に記憶されている基本周波数ＦＦ２が外れ値ではない場合、ＣＰＵ２１は、ステップ１５４で、配列ＦＦＩ［Ｆ５］に基本周波数Ｆ２を記憶する。ＦＦＩは、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれる配列であってよく、第５フレームカウンタＦ５は、上記したように、音声フレームのカウント値を記憶している。

ＣＰＵ２１は、ステップ１５５で、緩和値Ａ１Ｂを算出する。緩和値Ａ１Ｂは、例えば、式（１０）で示すように、現在の基本周波数、即ち、配列ＦＦＩ［Ｆ５］に記憶されている基本周波数ＦＦ２と、過去の緩和値、即ち、配列Ａ１Ｒ［Ｆ５−１］に記憶されている緩和値との加重平均値である。
Ａ１Ｂ＝Ｒ３×Ａ１Ｒ［Ｆ５−１］＋（１−Ｒ３）×ＦＦＩ［Ｆ５］ … （１０）
算出した緩和値Ａ１Ｂは、配列Ａ１Ｒ［Ｆ５］に記憶される。

長期用重み係数の一例であるＲ３は、１より小さく、１−Ｒ３より大きい値であり、Ｒ３の値は変更される。図１１を用いて、ステップ１５５において、Ｒ３がどのように変更されるかについて説明する。ステップ１６１で、配列ＦＦＩ［Ｆ５］に記憶されている現在の基本周波数ＦＦ２が配列Ａ１Ｒ［Ｆ５−１］に記憶されている過去の緩和値Ａ１Ｂより大きいか否か判定する。ステップ１６１の判定が肯定された場合、即ち、ＦＦＩ［Ｆ５］に記憶されている基本周波数ＦＦ２が配列Ａ１Ｒ［Ｆ５−１］に記憶されている緩和値Ａ１Ｂより大きい場合、ＣＰＵ２１は、ステップ１６２で、Ｒ３に値Ｒ３Ｌを設定する。ＣＰＵ２１は、ステップ１６４で、現在の緩和値Ａ１Ｂを算出して、ステップ１５６に進む。

一方、ステップ１６１の判定が否定された場合、即ち、ＦＦＩ［Ｆ５］に記憶されている基本周波数ＦＦ２が配列Ａ１Ｒ［Ｆ５−１］に記憶されている緩和値Ａ１Ｂ以下である場合、ＣＰＵ２１は、ステップ１６３で、Ｒ３に値Ｒ３Ｓを設定する。値Ｒ３Ｓは値Ｒ３Ｌよりも小さい値である。ＣＰＵ２１は、ステップ１６４に進む。

即ち、基本周波数ＦＦ２が上昇傾向を示す場合、Ｒ３の値を大きくすることで、過去の緩和値の影響を大きくし、基本周波数ＦＦ２が下降傾向を示す場合、Ｒ３の値を小さくすることで、過去の緩和値の影響を小さくしている。Ｒ３の値を大きくすることは、変化を緩やかにする度合いを大きくすることであり、Ｒ３の値を小さくすることは、変化を緩やかにする度合いを小さくすることである。縦軸が周波数を表し、横軸が時間を表す図１２において、音声信号の基本周波数の一例を実線２０１で示す。実線２０１で示す基本周波数が、円２０１Ａ及び円２０１Ｂで示すように急激に下降する場合、過去の緩和値の影響を小さくすることで、緩和値は、基本周波数の急激な下降に追従することができる。基本周波数の急激な下降に追従する緩和値を破線２０３で例示する。一方、過去の緩和値の影響を小さくしない場合、粗い破線２０２で例示するように、緩和値は、基本周波数の変化に追従しない。

ＣＰＵ２１は、ステップ１５６で、第５フレームカウンタＦ５のカウント値に１を加算する。ＣＰＵ２１は、ステップ１５７で、通話中であるか否か判定する。判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。

ステップ１５７の判定が肯定された場合、ＣＰＵ２１はステップ１５８に進む。ステップ１５８及びステップ１５９は、ステップ１４３及びステップ１４４と同様であるため、説明は省略する。ステップ１５９の判定が肯定された場合、即ち、発話区間である場合、ＣＰＵ２１は、ステップ１６４で、第４フレームカウンタＦ４のカウント値に１を加算して、ステップ１５１に戻る。

ステップ１５９の判定が否定された場合、即ち、発話区間の終了が判定された場合、ＣＰＵ２１は、ステップ１６０で、差分量を算出する。詳細には、図１３に例示するように、ＣＰＵ２１は、ステップ１８１で、変数Ｉに１を設定し、変数ＡＤ３Ｐに０を設定する。変数Ｉ及び変数ＡＤ３Ｐは、例えば、二次記憶部２３のデータ格納領域２３Ｄに含まれている。

ＣＰＵ２１は、ステップ１８２で、緩和値Ａ１Ｒ［Ｆ５−Ｉ］−基本周波数ＦＦＩ［Ｆ５−Ｉ）の二乗を変数ＡＤ３Ｐに加算する。ＣＰＵ２１は、ステップ１８３で、変数Ｉに設定されている値に１を加算し、ステップ１８４で、変数Ｉに設定されている値が第５フレームカウンタＦ５のカウント値より小さいか否か判定する。ステップ１８４の判定が肯定された場合、即ち、変数Ｉに設定されている値が第５フレームカウンタＦ５のカウント値より小さい場合、ＣＰＵ２１はステップ１８１に戻る。

ステップ１８４の判定が否定された場合、即ち、変数Ｉに設定されている値が第５フレームカウンタＦ５のカウント値以上である場合、ＣＰＵ２１は、ステップ１８５で、例えば、式（１１）に示すように、差分量ＡＤ３を算出して、ステップ１６１に進む。

式（１１）では、単位発話区間毎の、外れ値を除外した基本周波数の各々と基本周波数の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量ＡＤ３を算出する。即ち、差分量ＡＤ３は、ステップ１５３で、基本周波数ＦＦ２が外れ値ではないと判定された基本周波数ＦＦ２及び緩和値Ａ１Ｂを用いて計算される。

ステップ１６１は、図８のステップ１３５と同様であるため、説明を省略する。ＣＰＵ２１は、ステップ１６３で、単位発話区間カウンタＮ２のカウント値に１を加算してステップ１４１に戻る。

なお、第１〜第３実施形態では、発話印象判定装置１０が物理的に単一の装置である場合について説明したが、第１〜第３実施形態はこれに限定されない。例えば、図１４に例示するように、発話印象装置１０は、ネットワーク３１で接続されたクライアント３２及びサーバ３３のような物理的に別個の複数の装置を含む発話印象判定システム３０であってもよい。

発話印象判定システム３０では、例えば、図１５Ａに例示するように、クライアント３２が音声検出部１１Ａを含み、図１５Ｂに例示するように、サーバ３３が算出部１２Ａ及び印象判定部１３Ａを含んでいてもよい。また、クライアント３２が音声検出部１１Ａ及び算出部１２Ａを含み、サーバ３３が印象判定部１３Ａを含んでいてもよい。また、発話印象判定システム３０は、複数のクライアント及び複数のサーバを含んでいてもよい。

なお、第１〜第３実施形態では、発話印象判定処理がリアルタイムの通話に適用される例について説明したが、第１〜第３実施形態はこれに限定されない。例えば、録音された通話または対面応対の音声に適用されてもよい。この場合、発話印象を判定する際に用いる閾値は、例えば、録音された通話または対面応対の音声に対応する音声信号全体の基本周波数に基づいて決定されてもよい。例えば、発話印象を判定する際に用いる閾値は、音声信号全体の基本周波数の平均値に所定の値を加えた値であってよい。また、多数の通話または対面応対で取得された発話印象を判定する際に用いる閾値を蓄積し、蓄積された多数の印象判定値に基づいて、第１〜第３実施形態のようなリアルタイムの通話での発話印象を判定する際に用いる閾値を決定してもよい。

また、第１実施形態では、移動平均値を計算する際に、現在の基本周波数から遡って所定フレーム分の基本周波数の平均値を計算する例について説明したが、第１実施形態は、これに限定されない。例えば、現在の基本周波数の前の所定フレーム分の基本周波数と現在の基本周波数の後の所定フレーム分の基本周波数との平均値を計算してもよい。

第１〜第３実施形態では、基本周波数として単位ｓｅｍｉｔｏｎｅである基本周波数を用いたが、第１〜第３実施形態は、これに限定されない。基本周波数として単位Ｈｚの基本周波数を用いてもよい。

第１〜第３実施形態の各々の１つまたは複数の部分は、異なる実施形態に適用することが可能である。例えば、第２実施形態及び第３実施形態において、緩和値として移動平均値を使用してもよい。また、例えば、第２実施形態において、緩和値が移動平均値である場合、特徴量にも緩和値よりフレーム数を低減した移動平均値を使用してもよい。例えば、緩和値が５０フレーム毎の移動平均値である場合、特徴量は１０フレーム毎の移動平均値であってもよい。また、第１実施形態において、緩和値として現在の基本周波数と過去の緩和値との加重平均値を用いてもよい。また、第１実施形態で、単位発話区間毎に発話印象の判定を行い、第２及び第３実施形態で、単位時間毎に発話印象の判定を行うようにしてもよい。なお、上記は例示であり、上記以外の変更も可能である。

また、図４、図６、図８、図１０、及び図１３のフローチャートは一例であり、処理の順番は変更可能である。式（４）、式（７）、式（１１）を用いて差分量を算出する例について説明したが、本実施形態はこれに限定されない。差分量は、特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す値であればよい。また、配列、カウンタ、及び変数が二次記憶部２３のデータ格納領域２３Ｄに含まれる例について説明したが、本実施形態はこれに限定されない。配列、カウンタ、及び変数は、例えば、一次記憶部２３に含まれてもよい。

本実施形態では、緩和値は、過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。緩和値を演算する際に、基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くする。本実施形態では、緩和値が加重平均値であって、特徴量が特徴量に対応する緩和値以下である場合、特徴量が特徴量に対応する緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、長期用重み係数を決定する。

本実施形態では、特徴量は、音声信号から特定した基本周波数である。本実施形態では、基本周波数に関連する少なくとも１つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、印象判定の単位発話区間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。

本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。本実施形態では、基本周波数と基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、基本周波数を予め除外する。

本実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価することで、発話印象の判定精度を向上させることができる。即ち、本実施形態では、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、暗い音声を明るい音声であると誤って判定することを抑制することができる。また、本実施形態では、基本周波数から外れ値を除外することで、外れ値が発話印象の判定に与える影響を低減することが可能となり、発話印象の判定精度を向上させることができる。

上記したように、第１〜第３実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量を用いて、発話印象を判定する。図１６Ａにおいて、音声信号の特徴量の一例である基本周波数を実線２１１Ａで例示し、実線２１１Ａで示される基本周波数に対応する緩和値の一例を破線２１２Ａで示す。また、図１６Ｂにおいて、音声信号の基本周波数の一例を実線２１１Ｂで示し、実線２１１Ｂで示される基本周波数に対応する緩和値を破線２１２Ｂで示す。図１６Ａ及び図１６Ｂにおいて、縦軸は周波数を表し、横軸は時間を表す。

一方、例えば、音声信号の基本周波数の最大値と最小値との差に基づいて発話印象を判定する関連技術が存在する。関連技術について説明するために、図１７Ａに図１６Ａと同じ基本周波数の一例を実線２１１Ａで示し、図１７Ｂに図１６Ｂと同じ基本周波数の一例を実線２１１Ｂで示す。図１７Ａ及び図１７Ｂにおいても、縦軸は周波数を表し、横軸は時間を表す。

図１７Ａ及び図１７Ｂに示すように、図１７Ａに実線２１１Ａで例示する基本周波数の最大値と最小値との差ＤＩＦ１と、図１７Ｂに実線２１１Ｂで例示する基本周波数の最大値と最小値との差ＤＩＦ２とは略等しい。したがって、音声信号の基本周波数の最大値と最小値との差に基づいて発話印象を判定した場合、実線２１１Ａで例示する基本周波数で表される音声の明るさの度合いと、実線２１１Ｂで例示する基本周波数で表される音声の明るさの度合いと、は略等しい。

しかしながら、発話印象、即ち、主観的に感じる音声の明るさの度合いは、短時間での基本周波数の変化の大きさ、即ち、抑揚に依存する。従って、実際には、実線２１１Ａで例示する基本周波数で表される音声の明るさの度合いは、実線２１１Ｂで例示する基本周波数で表される音声の明るさの度合いより大きい。このように、実線２１１Ｂで例示されるような基本周波数の最大値と最小値との差に基づいて音声の明るさの度合いを判定すると、暗い音声を明るい音声であると誤って判定する場合がある。実線２１１Ｂで例示されるような基本周波数は、発話持続時間が長い場合に現れ、徐々に下降する傾向を有する。

図１６Ａの実線２１１Ａで例示される基本周波数と破線２１２Ａで例示される基本周波数に対応する緩和値の差の大きさの度合いを表す差分量は、短時間での基本周波数の変化を適切に表すことができる。また、図１６Ｂの実線２１１Ｂで例示される基本周波数と基本周波数に対応する破線２１２Ｂで例示される緩和値との差の大きさの度合いを表す差分量も、短時間での基本周波数の変化を適切に表すことができる。基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値が、基本周波数との差の大きさの基準となる基本周波数の短時間における変化を適切に表すことができるからである。

したがって、第１〜第３実施形態によれば、図１６Ａの実線２１１Ａで例示される基本周波数で表される音声の明るさの度合いは、図１６Ｂの実線２１１Ｂで例示される基本周波数で表される音声の明るさの度合いより大きい、という発話印象が適切に判定される。即ち、図１６Ｂに実線２１１Ｂで例示する基本周波数で表される音声のように、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、第１〜第３実施形態によれば、暗い音声を明るい音声であると誤って判定する可能性は低い。

Claims

音声信号から基本周波数を抽出し、
前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出し、
前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する、
発話印象判定処理をコンピュータに実行させるためのプログラム。
前記緩和値は、
前記音声信号の一部の区間の基本周波数の移動平均値、または、
前記基本周波数の変化が緩やかになるように前記基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から抽出した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
請求項１に記載のプログラム。
前記緩和値が加重平均値であって、前記特徴量が前記特徴量に対応する前記緩和値以下である場合、前記特徴量が前記特徴量に対応する前記緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、前記長期用重み係数を決定する、
請求項２に記載のプログラム。
前記特徴量は、
前記音声信号から抽出した基本周波数、または、
変化を緩やかにする度合いが前記緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から抽出した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
請求項１〜請求項３の何れか１項に記載のプログラム。
前記差分量は、印象判定の単位時間当たりまたは単位発話区間当たりにおける前記特徴量と前記特徴量に対応する前記緩和値との差の二乗和の平方根である、
請求項１〜請求項４の何れか１項に記載のプログラム。
前記差分量が閾値より小さい場合に印象が悪いと判定し、前記差分量が前記閾値より所定値以上大きい場合に印象が良いと判定する、
請求項１〜請求項５の何れか１項に記載のプログラム。
前記閾値は、前記音声信号全体の平均値に基づいて決定される、
請求項６に記載のプログラム。
前記音声信号から前記基本周波数を抽出した際に、前記基本周波数と前記基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、前記緩和値を算出する前に、前記所定値を越える基本周波数を前記音声信号から抽出した基本周波数から予め除外する、
請求項１〜請求項７の何れか１項に記載のプログラム。
コンピュータが、
音声信号から基本周波数を抽出し、
前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出し、
前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する、
発話印象判定方法。
音声信号から基本周波数を抽出し、
前記音声信号から抽出した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出する算出部と、
前記音声信号から抽出した基本周波数に関連する時系列の特徴量の各々について、前記特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量を演算し、演算した前記差分量に基づいて、前記音声信号に対応する音声の発話印象を判定する印象判定部と、
を含む発話印象判定装置。