JP7000757B2

JP7000757B2 - 音声処理プログラム、音声処理方法および音声処理装置

Info

Publication number: JP7000757B2
Application number: JP2017175635A
Authority: JP
Inventors: 太郎外川; 紗友梨中山; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2022-01-19
Anticipated expiration: 2037-09-13
Also published as: US10832687B2; US20190080699A1; JP2019053121A

Description

本発明は、音声処理プログラム等に関する。

近年、多くの企業が顧客満足度を重視する傾向にあり、対応者と顧客との会話における、応対者の印象や顧客の感情を把握したいというニーズが高まっている。応対者の印象や、顧客の感情は、音声に現れることが多い。

たとえば、従来技術には、通話中の音声のピッチ周波数を検出し、音声の印象や感情を判定するものがある。

特開２０１０－５４５６８号公報

しかしながら、上述した従来技術では、発話に関する印象を正確に推定することができないという問題がある。

１つの側面では、本発明は、発話に関する印象を正確に推定することができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。

第１の案では、コンピュータに以下の処理を実行させる。コンピュータは、入力音声を取得し、入力音声の第１および第２の音響特徴量を検出し、第１の音響特徴量の時間変化量を算出する。コンピュータは、時間変化量に基づいて第２の音響特徴量に対する係数を算出し、係数に基づいて第２の音響特徴量に関する統計量を算出する。

発話に関する印象を正確に推定することができる。

図１は、参考技術によるピッチ周波数のヒストグラムの一例を示す図である。図２は、参考技術の問題点を説明するための図（１）である。図３は、参考技術の問題点を説明するための図（２）である。図４は、本実施例１に係る音声処理装置の処理を説明するための図（１）である。図５は、本実施例１に係る音声処理装置の処理を説明するための図（２）である。図６は、本実施例１に係るシステムの構成を示す図である。図７は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図８は、区間の継続時間と重み係数との関係を示す図（１）である。図９Ａは、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図９Ｂは、ピッチ周波数の変化量の小さい継続時間の分布の一例を示す図である。図１０は、本実施例２に係るシステムの構成を示す図である。図１１は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図１２は、区間の継続時間と重み係数との関係を示す図（２）である。図１３は、本実施例２に係る統計量算出部が生成するヒストグラムの一例を示す図である。図１４は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図１５は、本実施例３に係るシステムの構成を示す図である。図１６は、本実施例３に係る収録機器の構成を示す機能ブロック図である。図１７は、本実施例３に係る音声処理装置の構成を示す機能ブロック図である。図１８は、本実施例３に係る音声処理装置の処理手順を示すフローチャートである。図１９は、本実施例４に係るシステムの構成を示す図である。図２０は、本実施例４に係る音声処理装置の構成を示す機能ブロック図である。図２１は、本実施例４に係る表示部が表示する評価結果のグラフの一例を示す図である。図２２は、本実施例４に係る音声処理装置の処理手順を示すフローチャートである。図２３は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

実施例１の説明を行う前に、参考技術について説明する。この参考技術は、従来技術ではない。参考技術では、音声信号から所定の区間毎にピッチ周波数を検出し、各ピッチ周波数に基づくヒストグラムを生成する。参考技術は、生成したヒストグラムの広がりを基にして、声の明るさを評価する。ピッチ周波数は、基本周波数に対応するものである。

図１は、参考技術によるピッチ周波数のヒストグラムの一例を示す図である。図１に示すヒストグラムにおいて、横軸はピッチ周波数に対応する軸であり、縦軸は頻度に対応する軸である。参考技術では、頻度が所定頻度よりも大きくなる範囲を分布の広がりとして検出し、分布の広がりの広い、狭いにより、声の明るさを評価する。

図１に示す例において、参考技術は、範囲Ａ_１を、分布の広がりとして検出する。たとえば、参考技術は、範囲Ａ_１が、所定範囲よりも広い場合には、声が明るいと評価する。一方、参考技術は、範囲Ａ_１が、所定範囲よりも狭い場合には、声が暗いと評価する。

続いて、上述した参考技術の問題点について説明する。図２および図３は、参考技術の問題点を説明するための図である。参考技術では、話者が言い淀んで発話する場合があり、分布の広がりの範囲を適切に特定できず、これにより、発話に関する印象を正確に推定できない。

図２に示すグラフにおいて、横軸は時間に対応する軸であり、縦軸はピッチ周波数に対応する軸である。たとえば、時間帯Ｔ_１およびＴ_２において言い淀みが発生しているものとする。話者が言い淀んで話す場合には、声の高さ（ピッチ周波数）が変わらない状態が継続するため、特定のピッチ周波数に関する頻度が多くなり、本来の分布の広がりを得られない場合がある。

図３に示すヒストグラムにおいて、横軸はピッチ周波数に対応する軸であり、縦軸は頻度に対応する軸である。分布５ａは、言い淀みがない場合の音声信号に基づいた分布を示すものであり、分布５ａの広がりは範囲Ｂ_１となる。分布５ｂは、言い淀みがある場合の音声信号に基づいた分布を示すものであり、分布５ｂの広がりは範囲Ｂ_２となる。範囲Ｂ_１と範囲Ｂ_２とを比較すると、範囲Ｂ_２の方が広くなるため、話者が同じトーンで話したとしても、言い淀みを含んでいると、声が明るいと評価されやすくなる。これにより、参考技術では、暗い声を、明るい声と誤判定する場合がある。

次に、本実施例１に係る音声処理装置の処理について説明する。図４および図５は、本実施例１に係る音声処理装置の処理を説明するための図である。音声処理装置は、音声信号から音響特徴量を検出し、各音響特徴量のうち、時間変化量が小さくなる時間帯の音響特徴量に対する度数を小さくして、統計量を算出する。本実施例１では、一例として、音響特徴量をピッチ周波数として説明を行う。

図４に示すグラフ１０ａにおいて、横軸は時間に対応する軸であり、縦軸はピッチ周波数に対応する軸である。グラフ１０ｂにおいて、横軸は時間に対応する軸であり、縦軸はピッチ変化量に対応する軸である。たとえば、ピッチ変化量は、前後のピッチ周波数の変化量を示すものである。図４に示す例では、区間Ｔ_ａ１、Ｔ_ａ２、Ｔ_ａ３、Ｔ_ａ４において、ピッチ変化量が閾値ＴＨ１未満となる。音声処理装置は、区間Ｔ_ａ１、Ｔ_ａ２、Ｔ_ａ３、Ｔ_ａ４のうち、区間の長さ（継続時間）が所定の長さ以上となる区間Ｔ_ａ１、Ｔ_ａ４に含まれる各ピッチ周波数を特定する。ここでは、各時刻のピッチ周波数のうち、区間Ｔ_ａ１、Ｔ_ａ４に含まれる各ピッチ周波数を「第１ピッチ周波数」と表記し、区間Ｔ_ａ１、Ｔ_ａ４に含まれない各ピッチ周波数を「第２ピッチ周波数」と表記する。

音声処理装置は、各第１ピッチ周波数および各第２ピッチ周波数を基にしたヒストグラムを生成する。ここで、音声処理装置は、各第１ピッチ周波数に対する度数を第１の重み係数とし、各第２ピッチ周波数に対する度数を第２の重み係数とする。ただし、第１の重み係数と第２の重み係数との関係を「第１の重み係数＜第２の重み係数」とする。

図５に示すヒストグラムにおいて、横軸はピッチ周波数に対応する軸であり、縦軸は頻度に対応する軸である。図５において、分布６ａは、実施例１に係る音声処理装置により生成される分布であり、分布６ｂは、参考技術により生成される分布である。図５に示すように、第１の重み係数を用いることにより、言い淀みによる分布の拡大を抑えることができ、たとえば、分布６ａの広がりは、範囲Ｃ_１となる。従って、本実施例１に係る音声処理装置によれば、発話に関する印象を正確に推定することができる。

続いて、本実施例１に係る音声処理装置を含むシステムの構成の一例にいて説明する。図６は、本実施例１に係るシステムの構成を示す図である。図６に示すように、このシステムは、電話機５０と、交換機３０ａ，３０ｂと、音声処理装置１００とを有する。電話機５０は、スピーカ２０ａおよびマイク２５ａに接続される。音声処理装置１００は、スピーカ２０ｂおよびマイク２５ｂに接続される。

交換機３０ａと交換機３０ｂとは、ネットワーク３５を介して相互に接続される。交換機３０ａおよび交換機３０ｂは、電話機５０または音声処理装置１００から送信される音声信号を中継する装置である。

電話機５０は、話者１ａの音声信号を、マイク２５ａを介して取得する。電話機５０は、取得した話者１ａの音声信号を、音声処理装置１００に送信する。音声処理装置１００に送信された音声信号は、スピーカ２０ｂから出力される。

音声処理装置１００は、上述した発話に関する評価を行う機能の他に、通話機能を有する。音声処理装置１００は、話者１ｂの音声信号を、マイク２５ｂを介して取得する。音声処理装置１００は、取得した話者１ｂの音声信号を、電話機５０に送信する。電話機５０に送信された音声信号は、スピーカ２０ａから出力される。

続いて、本実施例１に係る音声処理装置１００の構成の一例について説明する。図７は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図７に示すように、この音声処理装置は、受信部１１０、記憶部１２０、取得部１３０、音響特徴量検出部１４０、時間変化算出部１５０、統計量算出部１６０、印象評価部１７０と、表示部１８０とを有する。なお、音声処理装置１００は、図６で説明したような通話機能を有するが、この通話機能は、公知の通話機能と同様であるため、説明を省略する。

受信部１１０は、電話機５０から、話者１ａの音声信号を受信する処理部である。受信部１１０は、受信した音声信号を、記憶部１２０の音声バッファ１２０ａに記録する。

記憶部１２０は、音声バッファ１２０ａを有する。記憶部１２０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

音声バッファ１２０ａは、話者１ａの音声信号を保持するバッファである。たとえば、音声信号は、所定区間毎の複数の音声フレームが時系列に並んだ情報であるものとする。音声フレームは、所定区間における時間と音声信号の大きさとを対応づけた情報である。

取得部１３０は、音声バッファ１２０ａから音声信号を取得する処理部である。取得部１３０は、取得した音声信号を、音響特徴量検出部１４０に出力する。

音響特徴量検出部１４０は、音声信号に含まれる各音声フレームに対して、周波数解析を行うことで、ピッチ周波数を検出する処理部である。ピッチ周波数は、音響特徴量の一例である。音響特徴量検出部１４０は、ピッチ周波数の情報を、時間変化算出部１５０および統計量算出部１６０に出力する。たとえば、ｎ番目の音声フレームから検出したピッチ周波数をｐ（ｎ）と表記する。

たとえば、音響特徴量検出部１４０は、文献（D.Talkin,"A Robust Algorithm for Pitch Tracking (RAPT),"in Speech Coding & Synthesis, W.B.Kleijn and K.K.Pailwal (Eds.), Elsevier,pp.495－518,1995）に基づいて、ピッチ周波数を検出しても良い。

時間変化算出部１５０は、ピッチ周波数の時間変化を算出する処理部である。時間変化算出部１５０は、時間変化の算出結果を基にして、ピッチ周波数の変化量が閾値ＴＨ１未満となる区間を特定する。時間変化算出部１５０は、特定した区間の情報を、統計量算出部１６０に出力する。以下において、時間変化算出部１５０の処理の一例について説明する。

時間変化算出部１５０は、ｎ－１番目の音声フレームのピッチ周波数ｐ（ｎ－１）と、ｎ番目の音声フレームのピッチ周波数ｐ（ｎ）との差Δｐ（ｎ）を式（１）に基づいて算出する。

時間変化算出部１５０は、ピッチ周波数の差Δｐ（ｎ）が条件１を満たす場合に、該当する音声フレームを、区間（ピッチ周波数の変化量が閾値ＴＨ１未満となる区間）の「開始フレームＴｓ」として特定する。条件１に含まれる閾値ＴＨ１は、たとえば、２０Ｈｚである。

時間変化算出部１５０は、区間の開始フレームＴｓを特定した後に、開始フレームＴｓ以降に関して、音声フレームのピッチ周波数の差Δｐ（ｎ）が条件２を満たすか否かを判定する。時間変化算出部１５０は、ピッチ周波数の差Δｐ（ｎ）が条件２を満たす場合に、該当する音声フレームを、「終了フレームＴｅ」として特定する。たとえば、時間変化算出部１５０は、条件２を満たす音声フレームがｎ番目の音声フレームである場合に、終了フレームＴｅを、ｎ－１番目の音声フレームとする。

時間変化算出部１５０は、終了フレームＴｅを特定した後に、再度、開始フレームＴｓおよび終了フレームＴｅを特定する処理を繰り返し実行し、ピッチ周波数の変化量が閾値ＴＨ１未満となる各区間を特定する。

統計量算出部１６０は、ピッチ周波数の変化量が閾値ＴＨ１未満となる区間の情報と、音響特徴量（ピッチ周波数）とを基にして、音響特徴量の統計量を算出する処理部である。以下において、統計量算出部１６０の処理の一例について説明する。

統計量算出部１６０は、区間の長さを基にして、各区間に対応するピッチ周波数の重み係数を特定する。たとえば、統計量算出部１６０は、図８に示す関係を用いて、重み係数を特定する。この重み係数は、ヒストグラムを生成する場合において、該当する区間のピッチ周波数に対する度数に対応する値となる。

図８は、区間の継続時間と重み係数との関係を示す図（１）である。図８の横軸は区間の継続時間に対応する軸であり、縦軸は重み係数ｗ（ｎ）に対応する軸である。たとえば、区間の継続時間が、長くなるほど、重み係数ｗ（ｎ）の値が小さくなる。たとえば、ある区間Ｚ_１の継続時間ｔ_２である場合には、重み係数ｗ（ｎ）の値は「０．５」となる。すなわち、統計量算出部１６０は、区間Ｚ_１で検出された各ピッチ周波数の度数が「０．５」となる。

また、区間の継続時間が閾値ＴＨ２以上となる場合には、重み係数ｗ（ｎ）は「０」となる。たとえば、ある区間Ｚ_２の継続時間が閾値ＴＨ２以上ある場合には、重み係数ｗ（ｎ）の値は「０」となる。たとえば、閾値ＴＨ２を「０．４秒」とする。すなわち、統計量算出部１６０は、区間Ｚ_２で検出された各ピッチ周波数の度数が「０」とし、係る区間Ｚ_２で検出された各ピッチ周波数を除外する。

統計量算出部１６０は、各区間の継続時間と、図８に示した関係とを比較して、各区間に対応するピッチ周波数の重み係数ｗ（ｎ）を特定する。

統計量算出部１６０は、所定時間内の複数の音声フレームから抽出された各ピッチ周波数を基にして、ヒストグラムを算出する。統計量算出部１６０が生成するヒストグラムは、図５で説明したヒストグラムであり、横軸をピッチ周波数、縦軸を頻度とするものである。統計量算出部１６０は、同一のピッチ周波数に対応づけられた各度数を積算することで、係るピッチ周波数の頻度を算出する。

たとえば、ピッチ周波数ｆ［Ｈｚ］に関して、同一のピッチ周波数が１０つ検出されているものとする（異なる１０つの音声フレームから、ピッチ周波数ｆ［Ｈｚ］が検出されたものとする）。このうち、度数「１」のピッチ周波数が３つ、度数「０．５」のピッチ周波数が３つ、度数「０」のピッチ周波数が４つ存在している場合には、図５のヒストグラムについて、横軸上のピッチ周波数ｆ［Ｈｚ］に対応する頻度は「１×３＋０．５×３＋０×４＝４．５」となる。なお、統計量算出部１６０は、ヒストグラムを生成する場合に、公知の技術に基づき、正規化を行ってもよい。

統計量算出部１６０は、ヒストグラムを生成した後に、ヒストグラムの広がりを算出する。たとえば、統計量算出部１６０は、ヒストグラムを参照し、頻度が所定の頻度以上となる部分を、ヒストグラムの広がりとして算出する。統計量算出部１６０は、ヒストグラムの広がりを、統計量の情報として、印象評価部１７０に出力する。

印象評価部１７０は、統計量の情報を基にして、音声信号（発話）の印象を評価する処理部である。印象評価部１７０は、評価結果を、表示部１８０に表示させる。

たとえば、印象評価部１７０は、平常時のヒストグラムの広がりを予め保持しておく。印象評価部１７０は、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が広い場合に「印象がよい」と評価する。印象評価部１７０は、平常時のヒストグラムの広がりと、統計量の情報に含まれる広がりとが等しい場合に「普通」と評価する。印象評価部１７０は、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が狭い場合に「印象悪い」と評価する。

表示部１８０は、印象評価部１７０の評価結果を表示する表示装置である。たとえば、表示部１８０は、液晶ディスプレイ、タッチパネル等に対応する。

次に、本実施例１に係る音声処理装置の処理手順の一例について説明する。図９Ａは、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図９Ａに示すように、この音声処理装置１００の受信部１１０は、音声信号を音声バッファ１２０ａに記録する（ステップＳ１０１）。

音声処理装置１００の取得部１３０は、音声バッファ１２０ａに記録された音声信号を取得する（ステップＳ１０２）。音声処理装置１００の音響特徴量検出部１４０は、音声信号からピッチ周波数を検出する（ステップＳ１０３）。

音声処理装置１００の時間変化算出部１５０は、各ピッチ周波数に基づいて、変化量が閾値ＴＨ１未満となる区間を特定する（ステップＳ１０４）。音声処理装置１００の統計量算出部１６０は、区間の継続時間を基にして、重み係数を算出する（ステップＳ１０５）。

統計量算出部１６０は、ピッチ周波数に対応する重み係数に基づいて、ヒストグラムを算出する（ステップＳ１０６）。音声処理装置１００の印象評価部１７０は、ヒストグラムの広がりに基づいて、発話の印象を評価する（ステップＳ１０７）。

印象評価部１７０は、印象の評価結果を表示部１８０に表示させる（ステップＳ１０８）。音声処理装置１００は、音声信号が終了した場合には（ステップＳ１０９，Ｙｅｓ）、処理を終了する。一方、音声処理装置１００は、音声信号が終了していない場合には（ステップＳ１０９，Ｎｏ）、分析開始位置を更新し（ステップＳ１１０）、ステップＳ１０２に移行する。

次に、本実施例１に係る音声処理装置１００の効果について説明する。音声処理装置１００は、ピッチ変化量が閾値ＴＨ１未満となる区間を特定し、この区間に検出されたピッチ周波数に対応する度数を、他の区間で検出されたピッチ周波数の度数よりも小さくして、ヒストグラム（頻度分布）を算出する。これにより、言い淀みによるヒストグラムの広がりを抑えることができ、発話に関する印象を正確に推定することができる。

なお、本実施例１に係る音声処理装置１００は、統計量として、音響特徴量のヒストグラム（頻度分布）の広がりを用いて説明したが、これに限定されるものではない。たとえば、音声処理装置１００は、ヒストグラムの広がり、平均値、最小値、最大値のうち、いずれか一つ以上を、統計値として用いてもよい。また、本実施例１に係る音声処理装置１００は、時間変化算出部１５０および統計量算出部１６０の音響特徴量としてピッチ周波数を用いて説明したが、音響特徴量検出部１４０においてピッチ周波数以外の複数の音響特徴量を検出し、時間変化算出部１５０と統計量算出部１６０とで、別の音響特徴量を用いても良い。

言い淀みのある発話およびそれ以外の発話について、ピッチ周波数の変化量の小さい継続時間の分布の調査結果について説明する。図９Ｂは、ピッチ周波数の変化量の小さい継続時間の分布の一例を示す図である。図９Ｂの横軸はピッチ周波数の変化量の継続時間に対応する軸であり、縦軸は頻度に対応する軸である。線分１５ａは、言い淀みの有る発話に対応する線分である。線分１５ｂは、それ以外の発話に対応する線分である。言い淀みが有る場合には、大部分が（８２％）が概ね０．３秒以上に分布しており、言い淀みがない場合には、大部分が（９５％）が概ね０．３秒未満に分布している。すなわち、ピッチ周波数の変化量が小さい継続時間に基づく、言い淀み区間の特定が有効であることが分かる。

図１０は、本実施例２に係るシステムの構成を示す図である。図１０に示すように、このシステムは、電話機５０と、交換機３０ａ，３０ｂと、オペレータ端末６０と、音声処理装置２００とを有する。電話機５０は、スピーカ２０ａおよびマイク２５ａに接続される。オペレータ端末６０は、スピーカ２０ｂおよびマイク２５ｂに接続される。

交換機３０ａと交換機３０ｂとは、ネットワーク３５を介して相互に接続される。交換機３０ａおよび交換機３０ｂは、電話機５０または音声処理装置２００から送信される音声信号を中継する装置である。たとえば、交換機３０ｂは、電話機５０から送信される音声信号を、音声処理装置２００に送信する。

電話機５０は、話者１ａの音声信号を、マイク２５ａを介して取得する。電話機５０は、取得した話者１ａの音声信号を、音声処理装置２００に送信する。音声処理装置２００に送信された音声信号は、スピーカ２０ｂから出力される。

オペレータ端末６０は、話者１ｂの音声信号を、マイク２５ｂを介して取得する。オペレータ端末６０は、取得した話者１ｂの音声信号を、電話機５０に送信する。電話機５０に送信された音声信号は、スピーカ２０ａから出力される。

音声処理装置２００は、交換機３０ｂから音声信号を受信し、発話の印象を評価する装置である。図１１は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図１１に示すように、この音声処理装置２００は、受信部２１０、記憶部２２０、取得部２３０、音響特徴量検出部２４０、時間変化算出部２５０、統計量算出部２６０、印象評価部２７０と、送信部２８０とを有する。

受信部２１０は、電話機５０から、話者１ａの音声信号を受信する処理部である。受信部２１０は、受信した音声信号を、記憶部２２０の音声バッファ２２０ａに記録する。

記憶部２２０は、音声バッファ２２０ａを有する。記憶部２２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声バッファ２２０ａは、話者１ａの音声信号を保持するバッファである。たとえば、音声信号は、所定区間毎の複数の音声フレームが時系列に並んだ情報であるものとする。音声フレームは、所定区間における時間と音声信号の大きさとを対応づけた情報である。

取得部２３０は、音声バッファ２２０ａから音声信号を取得する処理部である。取得部２３０は、取得した音声信号を、音響特徴量検出部２４０に出力する。

音響特徴量検出部２４０は、音声信号に含まれる各音声フレームから、パワーを検出する処理部である。パワーは、音響特徴量の一例である。音響特徴量検出部２４０は、パワーの情報を、時間変化算出部２５０および統計量算出部２６０に出力する。

たとえば、音響特徴量検出部２４０は、式（２）に基づいて、音声フレームからパワーＳ（ｎ）を検出する。式（２）において、Ｃ（ｔ）は、時刻ｔにおける音声信号の値を示す。ｎは、音声フレームのフレーム番号を示す。Ｍは、１つの音声フレームの時間長を示す。たとえば、１つの音声フレームの時間長を２０ｍｓとする。

時間変化算出部２５０は、音声フレームのパワーの分散を算出し、分散が閾値ＴＨ３未満となる区間を特定する処理部である。時間変化算出部２５０は、特定した区間の情報を、統計量算出部２６０に出力する。以下において、時間変化算出部２５０の処理の一例について説明する。

たとえば、時間変化算出部２５０は、所定期間に含まれる各音声フレームのパワーＳ（ｎ）、Ｓ（ｎ＋１）、・・・Ｓ（ｎ＋ｍ）を基にして、分散Ｓ＿ｖａｒ（ｎ）を算出する。

時間変化算出部２５０は、ｎ－１番目の分散Ｓ＿ｖａｒ（ｎ－１）とｎ番目の分散Ｓ＿ｖａｒ（ｎ）とが条件３を満たす場合に、該当する音声フレーム（ｎ番目の音声フレーム）を、区間（分散が閾値ＴＨ３未満となる区間）の「開始フレームＴｓ」として特定する。

時間変化算出部２５０は、区間の開始フレームＴｓを特定した後に、開始フレームＴｓ以降に関して、ｎ－１番目の分散）とｎ番目の分散Ｓ＿ｖａｒ（ｎ）とが条件４を満たす場合に、該当する音声フレーム（ｎ－１番目の音声フレーム）を、「終了フレームＴｅ」として特定する。

時間変化算出部２５０は、終了フレームＴｅを特定した後に、再度、開始フレームＴｓおよび終了フレームＴｅを特定する処理を繰り返し実行し、分散が閾値ＴＨ３未満となる各区間を特定する。

統計量算出部２６０は、分散が閾値ＴＨ３未満となる区間の情報と、音響特徴量（パワー）とを基にして、音響特徴量の統計量を算出する処理部である。以下において、統計量算出部２６０の処理の一例について説明する。

統計量算出部２６０は、区間の長さを基にして、各区間に含まれる音声フレームのパワーの重み係数を特定する。たとえば、統計量算出部２６０は、図１２に示す関係を用いて、重み係数を特定する。この重み係数は、ヒストグラムを生成する場合において、該当する区間のパワーに対する度数に対応する値となる。

図１２は、区間の継続時間と重み係数との関係を示す図（２）である。図１２の横軸は区間の継続時間に対応する軸であり、縦軸は重み係数ｗ（ｎ）に対応する軸である。たとえば、区間の継続時間が、閾値ＴＨ２未満の場合は、重み係数ｗ（ｎ）の値は「１」となる。区間の継続時間が、閾値ＴＨ２以上の場合は、重み係数ｗ（ｎ）の値は「０」となる。

統計量算出部２６０は、各区間の継続時間と、図１２に示した関係とを比較して、各区間に対応するパワーの重み係数ｗ（ｎ）を特定する。なお、統計量算出部２６０は、図８に示した、区間の継続時間と、重み係数ｗ（ｎ）との関係を基にして、各区間に対応するパワーの重み係数ｗ（ｎ）を特定してもよい。

統計量算出部２６０は、所定時間内の複数の音声フレームから抽出された各パワーを基にして、ヒストグラムを算出する。図１３は、本実施例２に係る統計量算出部が生成するヒストグラムの一例を示す図である。図１３において、横軸をパワーに対応する軸であり、縦軸は頻度に対応する軸である。統計量算出部２６０は、同一のパワーに対応づけられた各度数を積算することで、係るピッチ周波数の頻度を算出する。

たとえば、あるパワーＰ［Ｗ］に関して、同一のパワーが１０つ検出されており、このうち、度数「１」のパワーが３つ、度数「０．５」のパワーが３つ、度数「０」のパワーが４つ存在している場合には、図１３のヒストグラムについて、横軸上のパワーＰ［Ｗ］に対応する頻度は「１×３＋０．５×３＋０×４＝４．５」となる。なお、統計量算出部２６０は、ヒストグラムを生成する場合に、公知の技術に基づき、正規化を行ってもよい。

統計量算出部２６０は、ヒストグラムを生成した後に、ヒストグラムの広がりを算出する。たとえば、統計量算出部２６０は、ヒストグラムを参照し、頻度が所定の頻度以上となる部分を、ヒストグラムの広がりとして算出する。統計量算出部２６０は、ヒストグラムの広がりを、統計量の情報として、印象評価部２７０に出力する。

印象評価部２７０は、統計量の情報を基にして、音声信号（発話）の印象を評価する処理部である。印象評価部２７０は、評価結果を、送信部２８０に出力する。印象評価部２７０が、印象を評価する処理は、実施例１で説明した印象評価部１７０の処理と同様である。

送信部２８０は、印象評価部２７０から受け付けた評価結果の情報を、オペレータ端末６０に送信する処理部である。

次に、本実施例２に係る音声処理装置の処理手順の一例について説明する。図１４は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図１４に示すように、この音声処理装置２００の受信部２１０は、音声信号を音声バッファ２２０ａに記録する（ステップＳ２０１）。

音声処理装置２００の取得部２３０は、音声バッファ２２０ａに記録された音声信号を取得する（ステップＳ２０２）。音声処理装置２００の音響特徴量検出部２４０は、音声信号からパワーを検出する（ステップＳ２０３）。

音声処理装置２００の時間変化算出部２５０は、各パワーの分散に基づいて、分散が閾値ＴＨ３未満となる区間を特定する（ステップＳ２０４）。音声処理装置２００の統計量算出部２６０は、区間の継続時間を基にして、重み係数を算出する（ステップＳ２０５）。

統計量算出部２６０は、パワーに対応する重み係数に基づいて、ヒストグラムを算出する（ステップＳ２０６）。音声処理装置２００の印象評価部２７０は、ヒストグラムの広がりに基づいて、発話の印象を評価する（ステップＳ２０７）。

印象評価部２７０は、印象の評価結果をオペレータ端末６０に送信する（ステップＳ２０８）。音声処理装置２００は、音声信号が終了した場合には（ステップＳ２０９，Ｙｅｓ）、処理を終了する。一方、音声処理装置２００は、音声信号が終了していない場合には（ステップＳ２０９，Ｎｏ）、分析開始位置を更新し（ステップＳ２１０）、ステップＳ２０２に移行する。

次に、本実施例２に係る音声処理装置２００の効果について説明する。音声処理装置２００は、分散が閾値ＴＨ３未満となる区間を特定し、この区間に検出された音声フレームのパワーに対応する度数を、他の区間で検出された音声フレームのパワーの度数よりも小さくして、ヒストグラム（頻度分布）を算出する。これにより、言い淀みによるヒストグラムの広がりを抑えることができ、発話に関する印象を正確に推定することができる。

図１５は、本実施例３に係るシステムの構成を示す図である。図１５に示すように、このシステムは、マイク４０ａ、４０ｂ、４０ｃ、収録機器３００、表示装置３５０、音声処理装置４００を有する。収録機器３００は、ネットワーク３５を介して、音声処理装置４００に接続される。図示を省略するが、音声処理装置４００は、クラウド上の単数または複数のサーバによって構成されていてもよい。

話者１Ａによる音声は、マイク４０ａにより集音され、集音された音声信号は、収録機器３００に出力される。話者１Ｂによる音声は、マイク４０ｂにより集音され、集音された音声信号は、収録機器３００に出力される。話者１Ｃによる音声は、マイク４０ｃにより集音され、集音された音声信号は、収録機器３００に出力される。

以下の説明では、特に区別する場合に、話者１Ａの音声信号を「第１音声信号」と表記する。話者１Ｂの音声信号を「第２音声信号」と表記する。話者１Ｃの音声信号を「第３音声信号」と表記する。

たとえば、第１音声信号には、話者１Ａの話者情報が付与される。話者情報は、話者を一意に識別する情報である。第２音声信号には、話者１Ｂの話者情報が付与される。第３音声信号には、話者１Ｃの話者情報が付与される。

収録機器３００は、第１音声信号、第２音声信号、第３音声信号を収録する装置である。また、収録機器３００は、第１音声信号、第２音声信号、第３音声信号を、音声処理装置４００に送信する。

図１６は、本実施例３に係る収録機器の構成を示す機能ブロック図である。図１６に示すように、この収録機器３００は、受付部３１０と、記憶部３２０と、送信部３３０とを有する。

受付部３１０は、マイク４０ａ、４０ｂ、４０ｃから、第１～第３音声信号を受信する処理部である。受付部３１０は、第１音声信号を、第１音声バッファ３２０ａに記録する。受付部３１０は、第２音声信号を、第２音声バッファ３２０ｂに記録する。受付部３１０は、第３音声信号を、第３音声バッファ３２０ｃに記録する。

記憶部３２０は、第１音声バッファ３２０ａ、第２音声バッファ３２０ｂ、第３音声バッファ３２０ｃを有する。記憶部３２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

第１音声バッファ３２０ａは、第１音声信号を保持する。第２音声バッファ３２０ｂは、第２音声信号を保持する。第３音声バッファ３２０ｃは、第３音声信号を保持する。

送信部３３０は、第１音声バッファ３２０ａの第１音声信号と、第２音声バッファ３２０ｂの第２音声信号と、第３音声バッファ３２０ｃの第３音声信号を、音声処理装置４００に送信する処理部である。送信部３３０は、第１～第３音声信号を、まとめて、音声処理装置４００に送信してもよいし、別々に送信してもよい。

表示装置３５０は、ネットワーク３５を介して、音声処理装置４００に接続される。表示装置３５０は、液晶ディスプレイ等に対応する。表示装置３５０は、音声処理装置４００から、各話者１Ａ～１Ｃの発話の印象の評価結果を受信し、表示する。

音声処理装置４００は、収録機器３００から受信する第１～第３音声信号を基にして、各話者１Ａ～１Ｃの発話の印象を評価する装置である。図１７は、本実施例３に係る音声処理装置の構成を示す機能ブロック図である。図１７に示すように、この音声処理装置４００は、受信部４１０、分離部４１５、記憶部４２０、取得部４３０、音響特徴量検出部４４０、時間変化算出部４５０、統計量算出部４６０、印象評価部４７０、送信部４８０を有する。

受信部４１０は、収録機器３００から第１音声信号、第２音声信号、第３音声信号の情報を受信する処理部である。受信部４１０は、第１音声信号、第２音声信号、第３音声信号の情報を、分離部４１５に出力する。

分離部４１５は、第１音声信号、第２音声信号、第３音声信号をそれぞれ分離し、分離した第１～第３音声信号を、記憶部４２０に記録する処理部である。分離部４１５は、第１音声信号を、第１音声バッファ４２０ａに記録する。分離部４１５は、第２音声信号を、第２音声バッファ４２０ｂに記録する。分離部４１５は、第３音声信号を、第３音声バッファ４２０ｃに記録する。

記憶部４２０は、第１音声バッファ４２０ａ、第２音声バッファ４２０ｂ、第３音声バッファ４２０ｃを有する。記憶部４２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

第１音声バッファ４２０ａは、第１音声信号を保持する。第２音声バッファ４２０ｂは、第２音声信号を保持する。第３音声バッファ４２０ｃは、第３音声信号を保持する。

取得部４３０は、第１音声バッファ４２０ａから、第１音声信号を取得し、取得した第１音声信号を、音響特徴量検出部４４０に出力する。取得部４３０は、第２音声バッファ４２０ｂから、第２音声信号を取得し、取得した第２音声信号を、音響特徴量検出部４４０に出力する。取得部４３０は、第３音声バッファ４２０ｃから、第３音声信号を取得し、取得した第３音声信号を、音響特徴量検出部４４０に出力する。

たとえば、取得部４３０は、第１音声バッファ４２０ａに格納された第１音声信号の取得が完了した後に、第２音声信号の取得を開始する。取得部４３０は、第２音声バッファ４２０ｂに格納された第２音声信号の取得が完了した後に、第３音声信号の取得を開始する。以下の説明では、第１音声信号、第２音声信号、第３音声信号をまとめて、単に「音声信号」と表記する。

音響特徴量検出部４４０は、音声信号に含まれる各音声フレームから、フォルマント周波数を検出する処理部である。フォルマント周波数は、音響特徴量の一例である。音響特徴量検出部４４０は、フォルマント周波数の情報を、時間変化算出部４５０および統計量算出部４６０に出力する。

音響特徴量検出部４４０は、たとえば、音声フレームに含まれる音声信号Ｃ（ｔ）に対して、線形予測（Liner Prediction Coding）分析を行うことで、複数のピークを抽出する。音響特徴量検出部４４０は、複数のピークのうち、周波数の低い順に、第１フォルマント：Ｆ１、第２フォルマント：Ｆ２、第３フォルマント：Ｆ３とする。音響特徴量検出部４４０は、第１～第３フォルマントの情報（たとえば、周波数）を、フォルマント周波数の情報として検出する。音響特徴量検出部４４０は、特許文献（特開昭６２－５４２９７号公報）に記載の技術を用いて、フォルマント周波数を検出してもよい。

時間変化算出部４５０は、フォルマント周波数の時間変化を算出する処理部である。時間変化算出部４５０は、時間変化の算出結果を基にして、フォルマント周波数の変化量が閾値ＴＨ４未満となる区間を特定する。たとえば、ある音声フレームのフォルマント周波数を、Ｆ１、Ｆ２、Ｆ３の平均周波数としてもよいし、Ｆ１、Ｆ２、Ｆ３のいずれかの周波数を、フォルマント周波数としてもよい。時間変化算出部４５０は、特定した区間の情報を、統計量算出部４６０に出力する。

時間変化算出部４５０が、フォルマント周波数の変化量が閾値ＴＨ４未満となる区間を特定する処理は、時間変化算出部１５０が行った処理において、ピッチ周波数を、フォルマント周波数に置き換え、閾値ＴＨ１を閾値ＴＨ４に置き換えた処理に対応する。

統計量算出部４６０は、フォルマント周波数の変化量が閾値ＴＨ４未満となる区間の情報と、音響特徴量（フォルマント周波数）とを基にして、音響特徴量の統計量を算出する処理部である。統計量算出部４６０が、統計量を算出する処理は、統計量算出部１６０が、統計量を算出する処理に対応する。統計量算出部４６０は、統計量の情報を、印象評価部４７０に出力する。

印象評価部４７０は、統計量の情報を基にして、音声信号（発話）の印象を評価する処理部である。印象評価部４７０は、評価結果を、送信部４８０に出力する。印象評価部４７０が、印象を評価する処理は、実施例１で説明した印象評価部１７０の処理と同様である。

ただし、印象評価部４７０は、第１音声信号に基づく統計量に基づき、話者１Ａの発話の印象を評価する。印象評価部４７０は、第２音声信号に基づく統計量に基づき、話者１Ｂの発話の印象を評価する。印象評価部４７０は、第３音声信号に基づく統計量に基づき、話者１Ｃの発話の印象を評価する。

送信部４８０は、印象評価部４７０から受け付けた評価結果の情報を、表示装置３５０に送信する処理部である。

次に、本実施例３に係る音声処理装置の処理手順の一例について説明する。図１８は、本実施例３に係る音声処理装置の処理手順を示すフローチャートである。図１８に示すように、この音声処理装置４００の分離部４１５は、第１～第３音声信号を分離し、各音声バッファ４２０ａ～４２０ｃに記録する（ステップＳ３０１）。

取得部４３０は、各音声バッファ４２０ａ～４２０ｃに記録された音声信号を取得する（ステップＳ３０２）。音声処理装置４００の音響特徴量検出部４４０は、音声信号からフォルマント周波数を検出する（ステップＳ３０３）。

音声処理装置４００の時間変化算出部４５０は、各フォルマント周波数に基づいて、変化量が閾値ＴＨ４未満となる区間を特定する（ステップＳ３０４）。音声処理装置４００の統計量算出部４６０は、区間の継続時間を基にして、重み係数を算出する（ステップＳ３０５）。

統計量算出部４６０は、フォルマント周波数に対応する重み係数に基づいて、ヒストグラムを算出する（ステップＳ３０６）。音声処理装置４００の印象評価部４７０は、ヒストグラムの広がりに基づいて、発話の印象を評価する（ステップＳ３０７）。

印象評価部４７０は、印象の評価結果を表示装置３５０に表示させる（ステップＳ３０８）。音声処理装置４００は、音声信号が終了した場合には（ステップＳ３０９，Ｙｅｓ）、処理を終了する。一方、音声処理装置４００は、音声信号が終了していない場合には（ステップＳ３０９，Ｎｏ）、分析開始位置を更新し（ステップＳ３１０）、ステップＳ３０２に移行する。

次に、本実施例３に係る音声処理装置４００の効果について説明する。音声処理装置４００は、フォルマント変化量が閾値ＴＨ４未満となる区間を特定し、この区間に検出されたフォルマント周波数に対応する度数を、他の区間で検出されたフォルマント周波数の度数よりも小さくして、ヒストグラム（頻度分布）を算出する。これにより、言い淀みによるヒストグラムの広がりを抑えることができ、発話に関する印象を正確に推定することができる。

図１９は、本実施例４に係るシステムの構成を示す図である。図１９に示すように、このシステムは、携帯端末６５と、基地局６０ａ，６０ｂと、音声処理装置５００とを有する。携帯端末６５は、スピーカ２０ａおよびマイク２５ａに接続される。音声処理装置５００は、スピーカ２０ｂおよびマイク２５ｂに接続される。

基地局６０ａと基地局６０ｂとは、ネットワーク３５を介して相互に接続される。基地局６０ａおよび基地局６０ｂは、携帯端末６５または音声処理装置５００から送信される音声信号を中継する装置である。たとえば、基地局６０ｂは、携帯端末６５から送信される音声信号を、音声処理装置５００に送信する。

携帯端末６５は、携帯電話、スマートフォン、タブレット端末、ノートＰＣ（Personal Computer）等に対応する。携帯端末６５は、話者１ａの音声信号を、マイク２５ａを介して取得する。携帯端末６５は、無線により基地局６０ａに接続し、取得した話者１ａの音声信号を、音声処理装置５００に送信する。音声処理装置５００に送信された音声信号は、スピーカ２０ｂから出力される。

音声処理装置５００は、携帯電話、スマートフォン、タブレット端末、ノートＰＣ（Personal Computer）等に対応する。音声処理装置５００は、通話機能に加えて、話者１ａの発話の評価を行い、評価結果を表示する。

図２０は、本実施例４に係る音声処理装置の構成を示す機能ブロック図である。図２０に示すように、音声処理装置５００は、受信部５１０、記憶部５２０、取得部５３０、音響特徴量検出部５４０、時間変化算出部５５０、統計量算出部５６０、印象評価部５７０と、表示部５８０とを有する。なお、音声処理装置５００は、図１９で説明したような通話機能を有するが、この通話機能は、公知の通話機能と同様であるため、説明を省略する。

受信部５１０は、携帯端末６５から、話者１ａの音声信号を受信する処理部である。受信部５１０は、受信した音声信号を、記憶部５２０の音声バッファ５２０ａに記録する。

記憶部５２０は、音声バッファ５２０ａを有する。記憶部５２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声バッファ５２０ａは、話者１ａの音声信号を保持するバッファである。たとえば、音声信号は、所定区間毎の複数の音声フレームが時系列に並んだ情報であるものとする。音声フレームは、所定区間における時間と音声信号の大きさとを対応づけた情報である。

取得部５３０は、音声バッファ５２０ａから音声信号を取得する処理部である。取得部５３０は、取得した音声信号を、音響特徴量検出部５４０に出力する。

音響特徴量検出部５４０は、音声信号に含まれる各音声フレームから、スペクトルパワーを検出する処理部である。スペクトルパワーは、音響特徴量の一例である。音響特徴量検出部５４０は、スペクトルパワーの情報を、時間変化算出部５５０および統計量算出部５６０に出力する。

たとえば、音響特徴量検出部５４０は、音声フレームに対してＦＦＴ（Fast Fourier Transform）を実行することで、各周波数のパワースペクトル密度を検出する。たとえば、音響特徴量検出部５４０は、周波数とパワースペクトル密度との関係ＳＰ（ｎ，ｆ）を、パワースペクトルとして検出してもよいし、パワースペクトル密度の最大値または平均値等を、スペクトルパワーとして検出してもよい。

時間変化算出部５５０は、スペクトルパワーの時間変化を算出する処理部である。時間変化算出部５５０は、時間変化の算出結果を基にして、スペクトルパワーの変化量が閾値ＴＨ５未満となる区間を特定する。たとえば、スペクトルパワーの変化量は、ｎ－１番目の音声フレームの各周波数のスペクトルパワーと、ｎ番目の音声フレームの各周波数のスペクトルパワーとの差分の合計値とする。時間変化算出部５５０は、特定した区間の情報を、統計量算出部５６０に出力する。

統計量算出部５６０は、スペクトルパワーの変化量が閾値ＴＨ５未満となる区間の情報と、音響特徴量（スペクトルパワー）とを基にして、音響特徴量の統計量を算出する処理部である。統計量算出部５６０が、統計量を算出する処理は、統計量算出部１６０が、統計量を算出する処理に対応する。統計量算出部５６０は、統計量の情報を、印象評価部５７０に出力する。

印象評価部５７０は、統計量の情報を基にして、音声信号（発話）の印象を評価する処理部である。印象評価部５７０は、評価結果を、表示部５８０に表示させる。印象評価部５７０が、印象を評価する処理は、実施例１で説明した印象評価部１７０の処理と同様である。

なお、実施例１で説明した印象評価部１７０の評価結果を「印象がよい」、「普通」、「印象が悪い」のいずれかの評価結果としていたが、印象評価部５７０は、評価結果を評価値として出力してもよい。たとえば、印象評価部５７０は、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が広い場合に「評価値＝１」と評価する。印象評価部５７０は、平常時のヒストグラムの広がりと、統計量の情報に含まれる広がりとが等しい場合に「評価値＝０」と評価する。印象評価部５７０は、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が狭い場合に「評価値＝－１」と評価する。

印象評価部５７０は、所定期間毎の評価値を算出する。印象評価部５７０は、式（３）に基づいて、評価値を平滑化してもよい。式（３）において、ｓｃｏｒｅ（ｎ）は、平滑化前の評価値であり、ｓｃｏｒｅ’（ｎ）は、平滑化後の評価値である。ｃｏｅｆは、忘却係数であり、たとえば、０．９となる。

表示部５８０は、印象評価部５７０の評価結果を表示する表示装置である。たとえば、表示部５８０は、液晶ディスプレイ、タッチパネル等に対応する。図２１は、本実施例４に係る表示部が表示する評価結果のグラフの一例を示す図である。図２１に示すように、この評価結果のグラフの横軸は時間に対応する軸であり、縦軸は平滑化後の評価値に対応する軸である。評価値の値が「１」に近づくほど、印象がよいことを示す。

次に、本実施例４に係る音声処理装置の処理手順の一例について説明する。図２２は、本実施例４に係る音声処理装置の処理手順を示すフローチャートである。図２２に示すように、この音声処理装置５００の受信部５１０は、音声信号を音声バッファ５２０ａに記録する（ステップＳ４０１）。

音声処理装置５００の取得部５３０は、音声バッファ５２０ａに記録された音声信号を取得する（ステップＳ４０２）。音声処理装置５００の音響特徴量検出部５４０は、音声信号からスペクトルパワーを検出する（ステップＳ４０３）。

音声処理装置５００の時間変化算出部５５０は、各スペクトルパワーに基づいて、変化量が閾値ＴＨ５未満となる区間を特定する（ステップＳ４０４）。音声処理装置５００の統計量算出部５６０は、区間の継続時間を基にして、重み係数を算出する（ステップＳ４０５）。

統計量算出部５６０は、スペクトルパワーに対応する重み係数に基づいて、ヒストグラムを算出する（ステップＳ４０６）。音声処理装置５００の印象評価部５７０は、ヒストグラムの広がりに基づいて、発話の印象を評価する（ステップＳ４０７）。

印象評価部５７０は、印象の評価結果を表示部５８０に表示させる（ステップＳ４０８）。音声処理装置５００は、音声信号が終了した場合には（ステップＳ４０９，Ｙｅｓ）、処理を終了する。一方、音声処理装置５００は、音声信号が終了していない場合には（ステップＳ４０９，Ｎｏ）、分析開始位置を更新し（ステップＳ４１０）、ステップＳ４０２に移行する。

次に、本実施例４に係る音声処理装置５００の効果について説明する。音声処理装置５００は、スペクトルパワーの変化量が閾値ＴＨ５未満となる区間を特定し、この区間に検出されたスペクトルパワーに対応する度数を、他の区間で検出されたスペクトルパワーの度数よりも小さくして、ヒストグラム（頻度分布）を算出する。これにより、言い淀みによるヒストグラムの広がりを抑えることができ、発話に関する印象を正確に推定することができる。

次に、上記実施例に示した音声処理装置１００，２００，４００，５００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２３は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図２３に示すように、コンピュータ６００は、各種演算処理を実行するＣＰＵ６０１と、ユーザからのデータの入力を受け付ける入力装置６０２と、ディスプレイ６０３とを有する。また、コンピュータ６００は、記憶媒体からプログラム等を読み取る読み取り装置６０４と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインターフェース装置６０５とを有する。また、コンピュータ６００は、各種情報を一時記憶するＲＡＭ６０６と、ハードディスク装置６０７とを有する。そして、各装置６０１～６０７は、バス６０８に接続される。

ハードディスク装置６０７は、音響特徴量検出プログラム６０７ａ、時間変化算出プログラム６０７ｂ、統計量算出プログラム６０７ｃ、印象評価プログラム６０７ｄを有する。ＣＰＵ６０１は、音響特徴量検出プログラム６０７ａ、時間変化算出プログラム６０７ｂ、統計量算出プログラム６０７ｃ、印象評価プログラム６０７ｄを読み出してＲＡＭ６０６に展開する。

音響特徴量検出プログラム６０７ａは、音響特徴量検出プロセス６０６ａとして機能する。時間変化算出プログラム６０７ｂは、時間変化算出プロセス６０６ｂとして機能する。統計量算出プログラム６０７ｃは、統計量算出プロセス６０６ｃとして機能する。印象評価プログラム６０７ｄは、印象評価プロセス６０６ｄとして機能する。

音響特徴量検出プロセス６０６ａの処理は、音響特徴量検出部１４０，２４０，４４０，５４０の処理に対応する。時間変化算出プロセス６０６ｂの処理は、時間変化算出部１５０，２５０，４５０，５５０の処理に対応する。統計量算出プロセス６０６ｃの処理は、統計量算出部１６０，２６０，４６０，５６０の処理に対応する。印象評価プロセス６０６ｄは、印象評価部１７０，２７０，４７０，５７０の処理に対応する。

なお、各プログラム６０７ａ～６０７ｄについては、必ずしも最初からハードディスク装置６０７に記憶させておかなくても良い。例えば、コンピュータ６００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ６００が各プログラム６０７ａ～６０７ｄを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）入力音声を取得し、
前記入力音声の第１および第２の音響特徴量を検出し、
前記第１の音響特徴量の時間変化量を算出し、
前記時間変化量に基づいて前記第２の音響特徴量に対する係数を算出し、
前記係数に基づいて前記第２の音響特徴量に関する統計量を算出する
ことをコンピュータに実行させることを特徴とする音声処理プログラム。

（付記２）前記統計量を基にして、前記入力音声の印象を評価する処理をコンピュータに更に実行させることを特徴とする付記１に記載の音声処理プログラム。

（付記３）前記時間変化量を算出する処理は、前記第１の音響特徴量の時間変化量が閾値未満となる区間を特定し、前記係数を算出する処理は、前記区間の長さに応じて、前記第２の音響特徴量に対する係数を算出することを特徴とする付記１または２に記載の音声処理プログラム。

（付記４）前記入力音声は時系列に並んだ複数の音声フレームを含み、前記時間変化量を算出する処理は、過去の音声フレームの第１の音響特徴量と、現在の音声フレームの第１の音響特徴量との差分が閾値未満となる区間を特定することを特徴とする付記３に記載の音声処理プログラム。

（付記５）前記時間変化量を算出する処理は、前記第１の音響特徴量の分散が閾値未満となる区間を特定することを特徴とする付記３に記載の音声処理プログラム。

（付記６）前記係数を算出する処理は、前記区間の長さが大きいほど、値の小さくなる係数を算出すること特徴とする付記３、４または５に記載の音声処理プログラム。

（付記７）前記統計量を算出する処理は、複数の前記第２の音響特徴量のうち、前記区間の長さが閾値未満となる第２の音響特徴量を基にして、前記統計量を算出することを特徴とする付記３～６のいずれか一つに記載の音声処理プログラム。

（付記８）前記統計量を算出する処理は、前記第２の音響特徴量の頻度分布の広がり、平均値、最小値、最大値のうち、いずれか一つ以上を、前記統計量として算出することを特徴とする付記１～７のいずれか一つに記載の音声処理プログラム。

（付記９）前記入力音声の第１および第２の音響特徴量を検出する処理は、前記入力音声のピッチ周波数を、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記１～８のいずれか一つに記載の音声処理プログラム。

（付記１０）前記入力音声の第１および第２の音響特徴量を検出する処理は、前記入力音声のパワーを、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記１～８のいずれか一つに記載の音声処理プログラム。

（付記１１）前記入力音声の第１および第２の音響特徴量を検出する処理は、前記入力音声のフォルマント周波数を、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記１～８のいずれか一つに記載の音声処理プログラム。

（付記１２）前記入力音声の第１および第２の音響特徴量を検出する処理は、前記入力音声のスペクトルパワーを、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記１～８のいずれか一つに記載の音声処理プログラム。

（付記１３）コンピュータが実行する音声処理方法であって、
入力音声を取得し、
前記入力音声の第１および第２の音響特徴量を検出し、
前記第１の音響特徴量の時間変化量を算出し、
前記時間変化量に基づいて前記第２の音響特徴量に対する係数を算出し、
前記係数に基づいて前記第２の音響特徴量に関する統計量を算出する
処理を実行することを特徴とする音声処理方法。

（付記１４）前記統計量を基にして、前記入力音声の印象を評価する処理をコンピュータに更に実行させることを特徴とする付記１３に記載の音声処理方法。

（付記１５）前記時間変化量を算出する処理は、前記第１の音響特徴量の時間変化量が閾値未満となる区間を特定し、前記係数を算出する処理は、前記区間の長さに応じて、前記第２の音響特徴量に対する係数を算出することを特徴とする付記１３または１４に記載の音声処理方法。

（付記１６）前記入力音声は時系列に並んだ複数の音声フレームを含み、前記時間変化量を算出する処理は、過去の音声フレームの第１の音響特徴量と、現在の音声フレームの第１の音響特徴量との差分が閾値未満となる区間を特定することを特徴とする付記１５に記載の音声処理方法。

（付記１７）前記時間変化量を算出する処理は、前記第１の音響特徴量の分散が閾値未満となる区間を特定することを特徴とする付記１５に記載の音声処理方法。

（付記１８）前記係数を算出する処理は、前記区間の長さが大きいほど、値の小さくなる係数を算出すること特徴とする付記１５、１６または１７に記載の音声処理方法。

（付記１９）前記統計量を算出する処理は、複数の前記第２の音響特徴量のうち、前記区間の長さが閾値未満となる第２の音響特徴量を基にして、前記統計量を算出することを特徴とする付記１５～１８のいずれか一つに記載の音声処理方法。

（付記２０）前記統計量を算出する処理は、前記第２の音響特徴量の頻度分布の広がり、平均値、最小値、最大値のうち、いずれか一つ以上を、前記統計量として算出することを特徴とする付記１３～１９のいずれか一つに記載の音声処理方法。

（付記２１）前記入力音声の第１および第２の音響特徴量を検出する処理は、前記入力音声のピッチ周波数を、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記１３～２０のいずれか一つに記載の音声処理方法。

（付記２２）前記入力音声の第１および第２の音響特徴量を検出する処理は、前記入力音声のパワーを、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記１３～２０のいずれか一つに記載の音声処理方法。

（付記２３）前記入力音声の第１および第２の音響特徴量を検出する処理は、前記入力音声のフォルマント周波数を、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記１３～２０のいずれか一つに記載の音声処理方法。

（付記２４）前記入力音声の音響特徴量を検出する処理は、前記入力音声のスペクトルパワーを、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記１３～２０のいずれか一つに記載の音声処理方法。

（付記２５）入力音声を取得し、前記入力音声の第１および第２の音響特徴量を検出する音響特徴検出部と、
前記第１の音響特徴量の時間変化量を算出する時間変化算出部と、
前記時間変化量に基づいて前記第２の音響特徴量に対する係数を算出し、前記係数に基づいて前記第２の音響特徴量に関する統計量を算出する統計量算出部と
を有することを特徴とする音声処理装置。

（付記２６）前記統計量を基にして、前記入力音声の印象を評価する印象評価部を更に有することを特徴とする付記２５に記載の音声処理装置。

（付記２７）前記時間変化算出部は、前記第１の音響特徴量の時間変化量が閾値未満となる区間を特定し、前記係数を算出する処理は、前記区間の長さに応じて、前記第２の音響特徴量に対する係数を算出することを特徴とする付記２５または２６に記載の音声処理装置。

（付記２８）前記入力音声は時系列に並んだ複数の音声フレームを含み、前記時間変化算出部（１５０）は、過去の音声フレームの第１の音響特徴量と、現在の音声フレームの第１の音響特徴量との差分が閾値未満となる区間を特定することを特徴とする付記２７に記載の音声処理装置。

（付記２９）前記時間変化算出部は、前記第１の音響特徴量の分散が閾値未満となる区間を特定することを特徴とする付記２７に記載の音声処理装置。

（付記３０）前記統計量算出部は、前記区間の長さが大きいほど、値の小さくなる係数を算出すること特徴とする付記２７、２８または２９に記載の音声処理装置。

（付記３１）前記統計量算出部は、複数の前記第２の音響特徴量のうち、前記区間の長さが閾値未満となる第２の音響特徴量を基にして、前記統計量を算出することを特徴とする付記２７～３０のいずれか一つに記載の音声処理装置。

（付記３２）前記統計量算出部は、前記第２の音響特徴量の頻度分布の広がり、平均値、最小値、最大値のうち、いずれか一つ以上を、前記統計量として算出することを特徴とする付記２５～３１のいずれか一つに記載の音声処理装置。

（付記３３）前記音響特徴検出部は、前記入力音声のピッチ周波数を、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記２５～３１のいずれか一つに記載の音声処理装置。

（付記３４）前記音響特徴検出部は、前記入力音声のパワーを、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記２５～３１のいずれか一つに記載の音声処理装置。

（付記３５）前記音響特徴検出部は、前記入力音声のフォルマント周波数を、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記２５～３１のいずれか一つに記載の音声処理装置。

（付記３６）前記音響特徴検出部は、前記入力音声のスペクトルパワーを、前記第１の音響特徴量または第２の音響特徴量として検出することを特徴とする付記２５～３１のいずれか一つに記載の音声処理装置。

１００，２００，４００，５００音声処理装置
１４０，２４０、４４０，５４０音響特徴量検出部
１５０，２５０、４５０，５５０時間変化算出部
１６０，２６０、４６０，５６０統計量算出部
１７０，２７０、４７０，５７０印象評価部

Claims

入力音声を取得し、
前記入力音声から、ピッチ周波数、パワー、フォルマント周波数、スペクトルパワーのうち、いずれか一つの種別の音響特徴量を検出し、
前記音響特徴量の時間変化量が、所定の閾値よりも小さい区間を特定し、
特定した区間の継続時間が短いほど大きい係数を、前記音響特徴量に対する係数として算出し、
前記係数を、各音響特徴量の度数に対する係数として求めた、前記音響特徴量のヒストグラムの広がりを、前記音響特徴量に関する統計量として算出する
ことをコンピュータに実行させることを特徴とする音声処理プログラム。
前記統計量を基にして、前記入力音声の印象を評価する処理をコンピュータに更に実行させることを特徴とする請求項１に記載の音声処理プログラム。
前記入力音声は時系列に並んだ複数の音声フレームを含み、前記時間変化量を算出する処理は、過去の音声フレームの音響特徴量と、現在の音声フレームの音響特徴量との差分が閾値未満となる区間を特定することを特徴とする請求項１に記載の音声処理プログラム。
前記統計量を算出する処理は、前記音響特徴量の頻度分布の広がり、平均値、最小値、最大値のうち、いずれか一つ以上を、前記統計量として算出することを特徴とする請求項１、２または３に記載の音声処理プログラム。
コンピュータが実行する音声処理方法であって、
入力音声を取得し、
前記入力音声から、ピッチ周波数、パワー、フォルマント周波数、スペクトルパワーのうち、いずれか一つの種別の音響特徴量を検出し、
前記音響特徴量の時間変化量が、所定の閾値よりも小さい区間を特定し、
特定した区間の継続時間が短いほど大きい係数を、前記音響特徴量に対する係数として算出し、
前記係数を、各音響特徴量の度数に対する係数として求めた、前記音響特徴量のヒストグラムの広がりを、前記音響特徴量に関する統計量として算出する
処理を実行することを特徴とする音声処理方法。
入力音声を取得し、前記入力音声から、ピッチ周波数、パワー、フォルマント周波数、スペクトルパワーのうち、いずれか一つの種別の音響特徴量を検出する音響特徴検出部と、
前記音響特徴量の時間変化量が、所定の閾値よりも小さい区間を特定する時間変化算出部と、
特定した区間の継続時間が短いほど大きい係数を、前記音響特徴量に対する係数として算出し、
前記係数を、各音響特徴量の度数に対する係数として求めた、前記音響特徴量のヒストグラムの広がりを、前記音響特徴量に関する統計量として算出する統計量算出部と
を有することを特徴とする音声処理装置。