JP2019061129A

JP2019061129A - 音声処理プログラム、音声処理方法および音声処理装置

Info

Publication number: JP2019061129A
Application number: JP2017186584A
Authority: JP
Inventors: 太郎外川; Taro Togawa; 紗友梨中山; Sayuri Nakayama; 猛大谷; Takeshi Otani
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2019-04-18
Anticipated expiration: 2037-09-27
Also published as: US10885931B2; US20190096433A1; JP7000773B2

Abstract

【課題】発話に関する印象を正確に推定すること。【解決手段】音声処理装置１００は、音声信号を取得し、音声信号に関する音響特徴量を算出し、音声信号のフレームに関する音声パラメータを算出し、算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、相対値に応じて音声信号のフレームに重みを付与し、音声信号のフレームに付与された重みに基づいて音響特徴量の分布を算出する。【選択図】図６

Description

本発明は、音声処理プログラム等に関する。

近年、多くの企業が顧客満足度を重視する傾向にあり、対応者と顧客との会話における、応対者の印象や顧客の感情を把握したいというニーズが高まっている。応対者の印象や、顧客の感情は、音声に現れることが多い。

たとえば、従来技術には、通話中の音声のピッチ周波数を検出し、音声の印象を判定するものがある。

特開２００６−２６７４６５号公報特開２００６−２２７５６４号公報

しかしながら、上述した従来技術では、発話に関する印象を正確に推定することができない場合がある。

１つの側面では、本発明は、発話に関する印象を正確に推定することができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。

一態様では、音声処理プログラムは、音声信号を取得し、前記音声信号に関する音響特徴量を算出し、前記音声信号のフレームに関する音声パラメータを算出し、前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、前記相対値に応じて前記音声信号のフレームに重みを付与し、前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、処理をコンピュータに実行させる。

発話に関する印象を正確に推定することができる。

図１は、参考技術によるピッチ周波数のヒストグラムの一例を示す図である。図２は、参考技術の問題点を説明するための図である。図３は、参考技術の問題点を説明するための図である。図４は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図５は、実施例１に係るシステムの構成を示す図である。図６は、実施例１に係る音声処理装置の機能的構成の一例を示すブロック図である。図７は、実施例１に係る音声処理の手順を示すフローチャートである。図８は、ピッチ周波数の最頻値の一例を示す図である。図９は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図１０は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図１１は、印象の評価値の時系列変化の一例を示す図である。図１２は、他の実装形態の一例を示す図である。図１３は、他の実装形態の一例を示す図である。図１４は、収録機器の機能的構成の一例を示すブロック図である。図１５は、他の実装形態の一例を示す図である。図１６は、実施例１及び実施例２に係る音声処理プログラムを実行するコンピュータのハードウェア構成例を示す図である。

以下に添付図面を参照して本願に係る音声処理プログラム、音声処理方法および音声処理装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

実施例１の説明を行う前に、参考技術について説明する。この参考技術は、従来技術ではない。参考技術では、音声信号から所定の区間毎にピッチ周波数を検出し、各ピッチ周波数に基づくヒストグラムを生成する。参考技術は、生成したヒストグラムの広がりを基にして、声の明るさを評価する。ピッチ周波数は、基本周波数に対応するものである。

図１は、参考技術によるピッチ周波数のヒストグラムの一例を示す図である。図１に示すヒストグラムにおいて、横軸はピッチ周波数に対応する軸であり、縦軸は頻度に対応する軸である。参考技術では、頻度が所定頻度よりも大きくなる範囲を分布の広がりとして検出し、分布の広がりの広い、狭いにより、声の明るさを評価する。

図１に示す例において、参考技術は、範囲Ａ_１を、分布の広がりとして検出する。たとえば、参考技術は、範囲Ａ_１が、所定範囲よりも広い場合には、声が明るいと評価する。一方、参考技術は、範囲Ａ_１が、所定範囲よりも狭い場合には、声が暗いと評価する。

続いて、上述した参考技術の問題点について説明する。参考技術では、音声信号に話者の周囲から発せられる雑音、例えば話者以外の別の人物の話し声等が含まれる場合があり、これが原因となって分布の広がりの範囲を適切に特定できず、発話に関する印象を正確に推定できない場合がある。

図２および図３は、参考技術の問題点を説明するための図である。図２および図３には、女性の話者が発話する音声以外に、話者の周囲で発話する男性の音声が信号に含まれる場合が例示されている。

図２には、ピッチ周波数の時間変化のグラフが示されている。このグラフの縦軸は、ピッチ周波数を指し、横軸は、時間を指す。このグラフの下部には、音声信号から検出される発話区間Ｔ１及びＴ２が併せて示されている。

図２に示すように、発話区間Ｔ１では、話者のピッチ周波数の変化が観測される一方で、発話区間Ｔ２では、周囲雑音のピッチ雑音が観測される。このように、話者の音声だけでなく、周囲雑音も含まれるピッチ周波数からヒストグラムを生成する場合、図３に示すように、ヒストグラムの形状も周囲雑音の影響を受ける。

図３には、ピッチ周波数のヒストグラムの一例が示されている。図３に示すグラフの縦軸は、頻度を指し、横軸は、ピッチ周波数を指す。図３に示すように、発話区間Ｔ１で算出されるピッチ周波数だけを用いてヒストグラムが生成された場合、分布Ｈ１が形成される。この場合、分布Ｈ１の広がりは範囲Ｗ１となる。ところが、発話区間Ｔ１および発話区間Ｔ２で算出されるピッチ周波数を用いてヒストグラムが生成される場合、発話区間Ｔ２のピッチ周波数の影響を受ける結果、分布Ｈ２が形成される。一般に、女性の話者よりも低い声で発話する男性の話し声に対応する発話区間Ｔ２のピッチ周波数がヒストグラムの度数として計上されるので、女性の話者により単独で発話される場合よりもピッチ周波数が観測される帯域が広がる。この結果、分布Ｈ２の広がりは範囲Ｗ２となる。

これら範囲Ｗ１および範囲Ｗ２を比較すると、範囲Ｗ２の方が広くなるので、話者が同じピッチで発話を行ったとしても、周囲雑音が含まれる場合、声が明るいと評価されやすくなる。これにより、参考技術では、暗い声を、明るい声と誤判定する場合がある。

そこで、本実施例に係る音声処理装置には、音声信号のフレームから求まる音声パラメータと、その統計値との間の相対値を話者の音声らしさとして算出し、その音声らしさに応じて当該フレームに付与する度数の重みを変えてピッチ周波数の分布を生成する音声処理機能が実装される。

ここで言う「音声パラメータ」とは、音声信号に関する各種のパラメータを指す。例えば、音声信号の強度を始め、ＳＮＲ（Signal Noise Ratio）、スペクトルパワー、自己相関などが挙げられる。

例えば、音声パラメータの一例としてフレームパワーが用いられる場合、音声信号の入力が開始されてから観測されるフレームパワーのうち最大値に対する相対値を算出することにより、話者の音声らしさが求められる。このように最大値に対するフレームパワーの相対値を求めるのは、音声信号に含まれる話者の成分および周囲雑音の成分の強度を比較すると、話者の成分の強度の方が十分に大きいと評価できるからである。つまり、フレームパワーが最大値に近づくほどそのフレームパワーが算出されたフレームは話者により発話された可能性が高まり、また、フレームパワーが最大値から遠ざかるほどそのフレームパワーが算出されたフレームが周囲雑音である可能性が高まると評価できる。

このような話者の音声らしさにしたがってヒストグラムを生成する場合、必ずしもヒストグラムの生成に用いるフレームの間でピッチ周波数が属する階級に対応する度数に加算する値を均一としない。すなわち、話者により発話が行われた可能性が高いフレームほど高い重みを付与する一方で、周囲雑音である可能性が高いフレームほど低い重みを付与する。例えば、図４に示す対応関係に基づいて、ピッチ周波数が算出されたフレームに重み係数が付与される。

図４は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図４に示すグラフの縦軸は、重み係数を指し、例えば、０から１までに正規化された値が用いられる。図４に示すグラフの横軸は、フレームパワーの最大値に対する相対値を指し、例えば、最大値からフレームパワーを減算することにより求められる。

図４に示すように、閾値ＴＨ３、例えば０ｄＢ以上の相対値が算出された場合、過去最大のフレームパワーと同値のフレームパワーが算出されたか、あるいは過去最大のフレームパワーの記録が更新されたフレームであると判明する。この場合、話者により発話が行われた可能性が高いフレームと言えるので、当該フレームには、重み係数「１」が付与される。一方、閾値ＴＨ２、例えば−１５ｄＢ未満の相対値が算出された場合、過去の話者の発話と推定されるフレームパワーに比べて十分に小さいフレームパワーが計測されるフレームと判明する。この場合、周囲雑音である可能性が高いフレームと言えるので、当該フレームには、重み係数「０」が付与される。また、閾値ＴＨ２以上閾値ＴＨ３未満の相対値が算出された場合、当該フレームには、閾値ＴＨ３に近づくほど重み係数の最大値「１」に近く、閾値ＴＨ２に近づくほど重み係数の最小値「０」に近づく重み係数が付与される。

このようにフレームに付与された重み係数にしたがって、当該フレームで算出されたピッチ周波数の階級に対応する度数に加算する値の大きさを変えてピッチ周波数のヒストグラムが生成される。これによって、発話区間Ｔ１でピッチ周波数が算出されるフレームに大きい重みを付与すると共に発話区間Ｔ２でピッチ周波数が算出されるフレームに小さい重みを付与してピッチ周波数のヒストグラムを生成できる。この結果、図２に示す発話区間Ｔ２のピッチ周波数が図３に示すヒストグラムに与える影響を低減できるので、ヒストグラムの形状を分布Ｈ２から分布Ｈ１へ補正することができる。このようなヒストグラムの広がりに基づいて声の明るさを評価することにより、発話に関する印象を正確に推定することが可能になる。

続いて、本実施例に係る音声処理装置を含むシステムの構成の一例にいて説明する。図５は、実施例１に係るシステムの構成を示す図である。図５には、実施例１に係る音声処理装置の機能がコンピュータシステムに実装されるユースケースのあくまで一例として、コールセンタや銀行窓口などの顧客対応現場で運用されるシステムに音声処理装置の機能が実装される場合を例示する。

図５に示すシステムは、一側面として、顧客等に対応する話者１ａおよびオペレータ等の応対者に対応する話者１ｂの間の通話において話者１ａの声の明るさから話者１ａに対する話者１ｂの印象、例えば顧客満足度を評価する機能を有する。

図５に示すように、システムは、電話機５０と、交換機３０ａ，３０ｂと、音声処理装置１００とを有する。電話機５０は、スピーカ２０ａおよびマイク２５ａに接続される。音声処理装置１００は、スピーカ２０ｂおよびマイク２５ｂに接続される。なお、スピーカ２０ａおよびマイク２５ａ、あるいはスピーカ２０ｂおよびマイク２５ｂは、一体化することによりヘッドセットとして実装することもできる。

交換機３０ａと交換機３０ｂとは、ネットワーク３５を介して相互に接続される。交換機３０ａおよび交換機３０ｂは、電話機５０または音声処理装置１００から送信される音声信号を中継する装置である。

電話機５０は、話者１ａの音声信号を、マイク２５ａを介して取得する。電話機５０は、取得した話者１ａの音声信号を、音声処理装置１００に送信する。音声処理装置１００に送信された音声信号は、スピーカ２０ｂから出力される。

音声処理装置１００は、上述した発話に関する印象を評価する機能の他に、通話機能を有する。音声処理装置１００は、話者１ｂの音声信号を、マイク２５ｂを介して取得する。音声処理装置１００は、取得した話者１ｂの音声信号を、電話機５０に送信する。電話機５０に送信された音声信号は、スピーカ２０ａから出力される。

続いて、本実施例に係る音声処理装置１００の機能的構成の一例について説明する。図６は、実施例１に係る音声処理装置の機能的構成の一例を示すブロック図である。図６に示すように、音声処理装置１００は、受信部１１０、音声データ記憶部１２０、取得部１３０Ａ、強度算出部１３０Ｂ、発話区間検出部１３０Ｃ、音響特徴量算出部１３０Ｄ、導出部１３０Ｅ、統計値記憶部１３０Ｆ、更新部１３０Ｇ、音声らしさ算出部１３０Ｈ、重み付与部１３０Ｉ、分布算出部１３０Ｊ、印象評価部１３０Ｋおよび表示部１４０を有する。なお、音声処理装置１００は、図５で説明したような通話機能を有するが、この通話機能は、公知の通話機能と同様であるため、説明を省略する。

図６に示す受信部１１０、取得部１３０Ａ、強度算出部１３０Ｂ、発話区間検出部１３０Ｃ、音響特徴量算出部１３０Ｄ、導出部１３０Ｅ、更新部１３０Ｇ、音声らしさ算出部１３０Ｈ、重み付与部１３０Ｉ、分布算出部１３０Ｊおよび印象評価部１３０Ｋなどの処理部は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などのハードウェアプロセッサにより仮想的に実現される。

すなわち、プロセッサは、図示しない記憶装置、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の補助記憶装置からＯＳ（Operating System）の他、上記の音声処理機能を実現する音声処理プログラムなどのプログラムを読み出す。ここでは、プログラムが補助記憶装置から読み出される例を示したが、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）に代表されるフラッシュメモリ等の内部ストレージからプログラムを読み出すこととしてもかまわない。その上で、プロセッサは、上記の音声処理プログラムを実行することにより、ＲＡＭ（Random Access Memory）等のメモリ上に上記の音声処理プログラムの機能に対応するプロセスを展開する。この結果、上記の音声処理の機能がプロセスとして仮想的に実現される。ここでは、プロセッサの一例として、ＣＰＵやＭＰＵを例示したが、汎用型および特化型を問わず、任意のプロセッサにより上記の機能部が実現されることとしてもかまわない。この他、上記の機能部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによって実現されることとしてもかまわない。

また、音声データ記憶部１２０および統計値記憶部１３０Ｆなどの記憶部は、上記の処理部がアクセス可能な主記憶装置として実装される。例えば、ＲＡＭ、フラッシュメモリなどの半導体メモリ素子などの主記憶装置により実装できる。このような主記憶装置の他、音声データ記憶部１２０がＳＳＤやＨＤＤなどの補助記憶装置により実装されることを妨げない。

受信部１１０は、電話機５０から、話者１ａの音声信号を受信する処理部である。受信部１１０は、受信した音声信号を、音声データ記憶部１２０の音声バッファ１２０Ａに記録する。

音声データ記憶部１２０は、話者１ａの音声信号を保持する音声バッファ１２０Ａを有する。

一実施形態として、音声バッファ１２０Ａには、電話機５０から受信された音声信号が所定のフォーマットにしたがって変換された音声ファイルが保存される。ここで言う「音声信号」とは、音声の振幅が時系列に並ぶデジタルデータを指す。また、以下で言う「フレーム」とは、音声信号が所定の時間長、例えば２０ｍｓｅｃ等の間隔で分割された区間であってもよいし、所定の時間長のウィンドウを当該時間長よりも短いシフト幅ずつスライドさせることにより前後で音声信号の一部が重複する状態で区切られた区間であってもよい。

取得部１３０Ａは、音声信号を取得する処理部である。

一実施形態として、取得部１３０Ａは、音声バッファ１２０Ａから音声信号をフレーム、例えば２０ｍｓｅｃ等の単位で取得する。ここで取得部１３０Ａが取得を開始するタイミングは、音声バッファ１２０Ａに音声信号のフレームが格納される度に当該フレームをリアルタイムで取得することとしてもよいし、話者１ａおよび話者１ｂの通話終了後に音声バッファ１２０Ａから音声信号のフレームを先頭から順番にバッチ処理で取得することとしてもよい。このように取得部１３０Ａにより取得された音声信号のフレームは、強度算出部１３０Ｂへ出力される。

強度算出部１３０Ｂは、音声信号のフレームの強度を算出する処理部である。

一実施形態として、強度算出部１３０Ｂは、取得部１３０Ａにより音声信号のフレームが取得される度に、下記の式（１）にしたがって、当該フレームのパワーＳ（ｎ）を算出する。ここで、下記の式（１）における「Ｃ（ｔ）」は、音声信号Ｃにおける時刻ｔの振幅を指す。また、「ｎ」は、フレーム番号を指す。また、「Ｍ」は、１つのフレームの時間長を指し、例えば、２０ｍｓとすることができる。

発話区間検出部１３０Ｃは、音声信号から発話区間を検出する処理部である。

一実施形態として、発話区間検出部１３０Ｃは、強度算出部１３０Ｂにより算出されたフレームパワーが所定の閾値ＴＨ１以上であるか否かを判定する。ここで、フレームパワーが閾値ＴＨ１以上である場合、発話区間検出部１３０Ｃは、取得部１３０Ａにより取得された現フレームの１つ前のフレームで閾値ＴＨ１以上のフレームパワーが観測されたか否かを判定する。このとき、１つ前のフレームで閾値ＴＨ１以上のフレームパワーが観測されていない場合、現フレームが発話区間の開始フレームと識別される。一方、１つ前のフレームから連続して閾値ＴＨ１以上のフレームパワーが観測されている場合、発話区間検出部１３０Ｃは、発話区間が継続中と識別し、発話区間の終了フレームを待機する。ここで、発話区間の終了フレームが待機された状態で閾値ＴＨ１未満のフレームパワーが観測された場合、発話区間検出部１３０Ｃは、現フレームを発話区間の終了フレームと識別する。このように開始フレームおよび終了フレームが識別された場合、発話区間検出部１３０Ｃは、開始フレームから終了フレームまでに含まれるフレームを発話区間として検出する。

音響特徴量算出部１３０Ｄは、音響特徴量を算出する処理部である。この音響特徴量算出部１３０Ｄは、第１算出部の一例である。

一実施形態として、音響特徴量算出部１３０Ｄは、発話区間検出部１３０Ｃにより検出された発話区間に含まれるフレームごとに、当該フレームのピッチ周波数を算出する。このピッチ周波数は、音響特徴量の一例である。例えば、音響特徴量算出部１３０Ｄは、文献（D.Talkin,"A Robust Algorithm for Pitch Tracking (RAPT),"in Speech Coding & Synthesis, W.B.Kleijn and K.K.Pailwal (Eds.), Elsevier,pp.495−518,1995）に基づいて、ピッチ周波数を算出できる。この他、波形包絡法や零交差法、ケプストラム法などを含む他の方法を用いてピッチ周波数を算出することとしてもかまわない。

導出部１３０Ｅは、音声パラメータを導出する処理部である。この導出部１３０Ｅは、第２算出部の一例である。ここでは、音声パラメータのあくまで一例として、フレームパワーが用いられる場合を例示する。

一実施形態として、導出部１３０Ｅは、発話区間検出部１３０Ｃにより発話区間が検出された場合、当該発話区間に含まれるフレームの中からフレームを１つ選択する。以下、発話区間に含まれるフレームの中でも選択中のフレームのことを「選択フレーム」と記載する場合がある。その上で、導出部１３０Ｅは、選択フレームのフレームパワーを導出する。すなわち、フレームパワーは、強度算出部１３０Ｂによりフレームごとに算出済みであるので、選択フレームに対応するフレームパワーを強度算出部１３０Ｂが算出結果を格納するワークエリア等から呼び出すこととすればよい。

統計値記憶部１３０Ｆは、音声パラメータの統計値を記憶する記憶領域を有する。あくまで一例として、フレームパワーが音声パラメータとして用いられる場合、統計値記憶部１３０Ｆには、フレームパワーの最大値Ｓ＿ｍａｘと、当該最大値が観測されたフレームのフレーム番号とが対応付けて記憶される。ここで言う「最大値」とは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるフレームパワーを母集団とする集合における最大値を指す。この母集団には、必ずしも発話区間に対応しないフレームは含まれずともかまわない。

更新部１３０Ｇは、統計値記憶部１３０Ｆに記憶される音声パラメータの統計値を更新する処理部である。

一実施形態として、更新部１３０Ｇは、導出部１３０Ｅにより選択フレームのフレームパワーが導出される度に、当該選択フレームのフレームパワーの値Ｓ（ｎ）と、統計値記憶部１３０Ｆに記憶されたフレームパワーの最大値Ｓ＿ｍａｘとを比較する。ここで、選択フレームのフレームパワーの値Ｓ（ｎ）がフレームパワーの最大値Ｓ＿ｍａｘを超える場合、更新部１３０Ｇは、選択フレームのフレームパワーの値と、当該選択フレームのフレーム番号と対応付けて統計値記憶部１３０Ｆへ上書き保存する。これにより、Ｓ＿ｍａｘ←Ｓ（ｎ）の更新が実行される。

音声らしさ算出部１３０Ｈは、話者の音声らしさを示す指標を算出する処理部である。この音声らしさ算出部１３０Ｈは、第３算出部の一例である。

一実施形態として、音声らしさ算出部１３０Ｈは、最大値に対する選択フレームのフレームパワーの相対値を話者の音声らしさとして算出する。例えば、音声らしさ算出部１３０Ｈは、統計値記憶部１３０Ｆに記憶されたフレームパワーの最大値Ｓ＿ｍａｘと、選択フレームのフレームパワーＳ（ｎ）との差、すなわちＳ＿ｍａｘ−Ｓ（ｎ）［ｄＢ］を計算することにより、選択フレームにおける話者の音声らしさを算出する。

重み付与部１３０Ｉは、発話区間に含まれるフレームに重みを付与する処理部である。

一実施形態として、重み付与部１３０Ｉは、音声らしさ算出部１３０Ｈにより算出された選択フレームの話者の音声らしさに基づいて当該選択フレームに付与する重み係数を算出する。例えば、重み付与部１３０Ｉは、選択フレームの話者の音声らしさとして算出された相対値を引数とし、図４に示す音声らしさおよび重み係数の対応関係が定義された関数、あるいは該対応関係に関するルックアップテーブル等を参照することにより、当該選択フレームに付与する重み係数ｗ（ｎ）を算出する。このように算出された重み係数ｗ（ｎ）が選択フレームｎに付与される。

図４に示す例で言えば、閾値ＴＨ３、例えば０ｄＢ以上の相対値が算出される場合、選択フレームの重み係数として「１」が算出される。一方、閾値ＴＨ２、例えば−１５ｄＢ未満の相対値が算出される場合、選択フレームの重み係数として「０」が算出される。また、閾値ＴＨ２以上閾値ＴＨ３未満の相対値が算出される場合、選択フレームの重み係数として、相対値が閾値ＴＨ３に近づくほど重み係数の最大値「１」に近い重み係数が算出される一方で、相対値が閾値ＴＨ２に近づくほど重み係数の最小値「０」に近い重み係数が算出される。

ここで、閾値ＴＨ２は、一側面として、選択フレームで観測される音声が話者のものであるか、あるいは周囲雑音であるかを分類する閾値として機能する。この閾値ＴＨ２の設定には、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの各フレームで算出されたフレームパワーから生成されるヒストグラムを用いることができる。例えば、フレームパワーのヒストグラムのうち最上位の階級から順番に当該階級に属する度数を累計する。そして、度数の累計値が所定の割合、例えば総度数の８０％に達する階級の階級値を閾値ＴＨ２として設定することができる。このように音声信号で観測されるフレームパワーの上位から所定の割合が含まれる値を閾値ＴＨ２として設定することにより、次のような効果が得られる。すなわち、話者の音声である余地が残される選択フレームには、ゼロより大きい重みを付与できる可能性を高めると共に、周囲雑音である可能性が高い選択フレームには、重みとしてゼロを付与できる可能性を高めることができる。

なお、ここでは、音響特徴量に関するヒストグラムの広がりなどの分布情報の算出が実行される局面と、重み付けに用いられる局面との間で音声信号の分析単位が同一である場合を例示したが、２つの局面で音声信号の分析単位、例えばフレームの区間長などを変えることもできる。

分布算出部１３０Ｊは、音響特徴量に関する分布情報を算出する処理部である。この分布算出部１３０Ｊは、第４算出部の一例である。

一実施形態として、分布算出部１３０Ｊは、発話区間に含まれる全てのフレームについて重みが算出された場合、各フレームに付与された重み係数に基づいて当該フレームで算出されたピッチ周波数のヒストグラムを生成する。例えば、分布算出部１３０Ｊは、発話区間に含まれるフレームごとに、当該フレームで算出されたピッチ周波数が属する階級に対応する度数に、当該フレームに付与された重み係数を加算する。これによって、ピッチ周波数のヒストグラムが生成される。その上で、分布算出部１３０Ｊは、ピッチ周波数のヒストグラムの広がりを算出する。例えば、分布算出部１３０Ｊは、ヒストグラムの度数を参照し、度数が所定値以上となる階級の部分をヒストグラムの広がりとして算出する。このように算出されたヒストグラムの広がりが音響特徴量に関する分布情報として印象評価部１３０Ｋへ出力される。なお、ここでは、分布情報の一例として、ヒストグラム（度数分布）の広がりを算出する場合を例示したが、ヒストグラムの平均値、最小値または最大値などを分布情報として算出することとしてもかまわない。

印象評価部１３０Ｋは、音響特徴量の分布情報に基づいて発話の印象を評価する処理部である。

一実施形態として、印象評価部１３０Ｋは、分布算出部１３０Ｊにより算出されるヒストグラムの広がりの比較対象とする平常時のヒストグラムの広がりを印象評価部１３０Ｋがアクセス可能なワークエリア等に保持しておく。例えば、平常時のヒストグラムの広がりの一例として、音声信号の取得が開始されてから当該発話区間が検出されるまでに検出されていた複数の発話区間におけるヒストグラムの間で広がりの統計値、例えば最頻値や平均値、中央値などが保持される。このような平常時のヒストグラムの広がりを参照して、印象評価部１３０Ｋは、平常時のヒストグラムの広がりよりも、分布算出部１３０Ｊにより算出されたヒストグラムの広がりの方が広い場合、「印象がよい」と評価する。また、印象評価部１３０Ｋは、平常時のヒストグラムの広がりと、分布算出部１３０Ｊにより算出されたヒストグラムの広がりとが等しい場合、「普通」と評価する。また、印象評価部１３０Ｋは、平常時のヒストグラムの広がりよりも、分布算出部１３０Ｊにより算出されたヒストグラムの広がりの方が狭い場合、「印象悪い」と評価する。このように評価された評価結果が表示部１４０に表示される。

表示部１４０は、各種の情報を表示する機能部である。

一実施形態として、表示部１４０は、液晶ディスプレイや有機ＥＬ（electroluminescence）ディスプレイなどのハードウェアにより実装することができる他、図示しない入力部と一体化することにより、タッチパネルとして実装することもできる。このような発光により表示を実現するものの他にも、表示部１４０は、投影により表示を実現するプロジェクタとして実装することもできる。例えば、表示部１４０には、音声処理プログラムからの指示にしたがって、発話の印象に関する評価結果が表示される。

次に、本実施例に係る音声処理装置の処理の流れについて説明する。図７は、実施例１に係る音声処理の手順を示すフローチャートである。この音声処理は、一例として、通話開始に伴って音声バッファ１２０Ａへの音声信号の蓄積が開始された場合などに実行することができる。

図７に示すように、受信部１１０により音声信号が音声バッファ１２０Ａに記録されると（ステップＳ１０１）、取得部１３０Ａは、音声バッファ１２０Ａから音声信号のフレームを取得する（ステップＳ１０２）。続いて、強度算出部１３０Ｂは、ステップＳ１０２で取得された音声信号のフレームのフレームパワーＳ（ｎ）を算出する（ステップＳ１０３）。

続いて、発話区間検出部１３０Ｃにより発話区間が検出された場合（ステップＳ１０４Ｙｅｓ）、当該発話区間に含まれるフレームのうち１つが選択される（ステップＳ１０５）。続いて、音響特徴量算出部１３０Ｄは、ステップＳ１０５で選択されたフレームのピッチ周波数を算出する（ステップＳ１０６）。なお、発話区間が検出されるまで（ステップＳ１０４Ｎｏ）、上記のステップＳ１０２および上記のステップＳ１０３の処理が実行される。

また、導出部１３０Ｅは、ステップＳ１０５で選択されたフレームに対応するフレームパワーを強度算出部１３０Ｂが算出結果を格納するワークエリア等から呼び出すことにより導出する（ステップＳ１０７）。

そして、更新部１３０Ｇは、ステップＳ１０７で導出された選択フレームのフレームパワーの値Ｓ（ｎ）と、統計値記憶部１３０Ｆに記憶されたフレームパワーの最大値Ｓ＿ｍａｘとを比較する（ステップＳ１０８）。

このとき、選択フレームのフレームパワーの値Ｓ（ｎ）がフレームパワーの最大値Ｓ＿ｍａｘを超える場合（ステップＳ１０８Ｙｅｓ）、更新部１３０Ｇは、選択フレームのフレームパワーの値Ｓ（ｎ）と、当該選択フレームのフレーム番号と対応付けて統計値記憶部１３０Ｆへ上書き保存する（ステップＳ１０９）。なお、選択フレームのフレームパワーの値Ｓ（ｎ）がフレームパワーの最大値Ｓ＿ｍａｘを超えない場合（ステップＳ１０８Ｎｏ）、ステップＳ１０９の処理はスキップされる。

その後、音声らしさ算出部１３０Ｈは、統計値記憶部１３０Ｆに記憶されたフレームパワーの最大値Ｓ＿ｍａｘと、選択フレームのフレームパワーＳ（ｎ）との差、すなわちＳ＿ｍａｘ−Ｓ（ｎ）［ｄＢ］を計算することにより、選択フレームにおける話者の音声らしさを算出する（ステップＳ１１０）。

続いて、重み付与部１３０Ｉは、ステップＳ１１０で選択フレームの話者の音声らしさとして算出された相対値に応じて当該選択フレームに重み係数ｗ（ｎ）を付与する（ステップＳ１１１）。

そして、発話区間に含まれる全てのフレームが選択されるまで（ステップＳ１１２Ｎｏ）、上記のステップＳ１０５から上記のステップＳ１１１までの処理を繰り返し実行する。その後、発話区間に含まれる全てのフレームが選択されると（ステップＳ１１２Ｙｅｓ）、分布算出部１３０Ｊは、発発話区間に含まれるフレームごとに、当該フレームで算出されたピッチ周波数が属する階級に対応する度数に当該フレームに付与された重み係数を加算することにより、ピッチ周波数のヒストグラムを算出する（ステップＳ１１３）。

続いて、印象評価部１３０Ｋは、ステップＳ１１３で算出されたヒストグラムの広がりに基づいて、発話の印象を評価する（ステップＳ１１４）。そして、印象評価部１３０Ｋは、ステップＳ１１４で評価された印象の評価結果を表示部１４０に表示させる（ステップＳ１１５）。

その後、音声信号のフレームが終了するまで（ステップＳ１１６Ｎｏ）、分析開始位置とするフレームを更新し（ステップＳ１１７）、ステップＳ１０２からステップＳ１１５までの処理を実行する。そして、音声信号のフレームが終了すると（ステップＳ１１６Ｙｅｓ）、処理を終了する。

上述してきたように、本実施例に係る音声処理装置１００は、音声信号のフレームから求まる音声パラメータの統計値に対する相対値を話者の音声らしさとして算出し、その音声らしさに応じて当該フレームに付与する度数の重みを変えてピッチ周波数の分布を生成する。これによって、周囲雑音が原因となってピッチ周波数の検出誤りを抑制できる結果、話者から観測される発話が実状よりも明るい声と誤判定する事態を抑制することができる。したがって、本実施例に係る音声処理装置１００によれば、発話に関する印象を正確に推定することが可能になる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

（１）音声パラメータの応用例
上記の実施例１では、音声パラメータの一例として、音声信号から導出されるフレームパワーを用いて話者の音声らしさを算出する場合を例示したが、フレームパワー以外の他の音声パラメータを用いて話者の音声らしさを算出することができる。

（１．１）ＳＮＲ
音声パラメータの他の一例として、音声処理装置１００は、ＳＮＲを用いて話者の音声らしさを算出することができる。例えば、導出部１３０Ｅは、取得部１３０Ａにより音声信号のフレームｎが取得される度に、フレームごとに雑音レベルを更新しながら各フレームのＳＮＲを算出する。

これを具体的に説明すると、導出部１３０Ｅは、発話区間検出部１３０Ｃによる発話区間の検出結果に応じて、雑音レベルＮ（ｎ）を更新する。例えば、導出部１３０Ｅは、発話区間検出部１３０ＣによりフレームパワーＳ（ｎ）が閾値ＴＨ１以上であると判定されたフレームｎの雑音レベルＮ（ｎ）を更新する場合、下記の式（２）にしたがって雑音レベルＮ（ｎ）を更新する。また、導出部１３０Ｅは、発話区間検出部１３０ＣによりフレームパワーＳ（ｎ）が閾値ＴＨ１以上でないと判定されたフレームｎの雑音レベルＮ（ｎ）を更新する場合、下記の式（３）にしたがって雑音レベルＮ（ｎ）を更新する。なお、下記の式（２）および下記の式（３）における「ｃｏｅｆ」は、忘却係数を指し、例えば、０．９などの値が採用される。

Ｎ（ｎ）＝Ｎ（ｎ−１）＊ｃｏｅｆ＋Ｓ（ｎ）＊（１−ｃｏｅｆ）・・・（２）
Ｎ（ｎ）＝Ｎ（ｎ−１）・・・（３）

つまり、発話区間に対応するフレームｎでは、フレームｎのフレームパワーＳ（１）と、フレームｎの１つ前のフレームｎ−１における雑音レベルＮ（ｎ−１）との間で忘却係数にしたがって平滑化が実行される。このとき、１つ前のフレームｎ−１における雑音レベルＮ（ｎ−１）の方がフレームｎのフレームパワーＳ（１）よりも更新に占める比重が大きいので、急峻なフレームパワーの変化を滑らかに出力できる。一方、発話区間に対応しないフレームｎでは、１つ前のフレームｎ−１における雑音レベルＮ（ｎ−１）がそのまま引き継がれる。

その後、導出部１３０Ｅは、下記の式（４）にしたがってフレームパワーＳ（ｎ）および雑音レベルＮ（ｎ）の差を計算することにより、フレームｎのＳＮＲ（ｎ）を算出する。なお、ここでは、ＳＮＲがフレームごとに算出される場合を例示したが、雑音レベルの更新をフレームごとに実行しつつ、ＳＮＲの算出は、発話区間に含まれるフレームに絞って実行することもできる。

ＳＮＲ（ｎ）＝Ｓ（ｎ）−Ｎ（ｎ）・・・（４）

このようにＳＮＲ（ｎ）が算出された後、音声らしさ算出部１３０Ｈは、最大値に対する選択フレームのＳＮＲの相対値を話者の音声らしさとして算出する。ここで、音声パラメータとしてＳＮＲを用いる場合、統計値記憶部１３０Ｆには、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるＳＮＲの最大値ＳＮＲ＿ｍａｘと、当該最大値が観測されたフレームのフレーム番号とが対応付けて記憶される。このような統計値記憶部１３０Ｆを参照して、音声らしさ算出部１３０Ｈは、統計値記憶部１３０Ｆに記憶されたＳＮＲの最大値ＳＮＲ＿ｍａｘと、選択フレームのＳＮＲ（ｎ）との差、すなわちＳＮＲ＿ｍａｘ−ＳＮＲ（ｎ）を計算することにより、選択フレームにおける話者の音声らしさを算出する。

なお、音声らしさが算出された後、音声処理装置１００は、上記の実施例１で説明した処理と同様の処理を実行することとすればよい。ここで、上記の実施例１では、重み係数の付与時にフレームパワーの相対値および重み係数の対応関係を参照する場合を例示したが、ＳＮＲの相対値および重み係数の対応関係を参照して発話区間に含まれるフレームごとに重み係数を付与することとすればよい。

（１．２）スペクトルパワー
音声パラメータの他の一例として、音声処理装置１００は、音声信号から導出されるスペクトルパワーを用いて話者の音声らしさを算出することができる。例えば、導出部１３０Ｅは、取得部１３０Ａにより音声信号のフレームｎが取得される度に、フレームごとにスペクトルパワーを算出する。

これを具体的に説明すると、導出部１３０Ｅは、音声信号ＣのフレームｎにＦＦＴ（Fast Fourier Transform）に代表されるフーリエ変換を適用することにより、スペクトルＰ（ｆ，ｎ）を算出する。続いて、導出部１３０Ｅは、下記の式（５）にしたがって、所定帯域におけるスペクトルの平均パワーＰ＿ａｖｅ（ｎ）を算出する。ここで、下記の式（５）における「ｆ」は、周波数を指す。また、上記の帯域には、音声に対応する周波数範囲が設定される。例えば、周波数範囲の境界値のうち、下限値Ｆｍｉｎには、１００Ｈｚが設定されると共に、上限値Ｆｍａｘには、２０００Ｈｚが設定される。なお、スペクトルの平均パワーＰ＿ａｖｅ（ｎ）の算出は、必ずしも音声信号の全てのフレームに実行されずともよく、発話区間に含まれるフレームに絞って実行することもできる。

このようにスペクトルの平均パワーＰ＿ａｖｅ（ｎ）が算出された後、音声らしさ算出部１３０Ｈは、最大値に対する選択フレームのスペクトルの平均パワーの相対値を話者の音声らしさとして算出する。ここで、音声パラメータとしてスペクトルの平均パワーを用いる場合、統計値記憶部１３０Ｆには、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるスペクトルの平均パワーの最大値Ｐ＿ａｖｅ＿ｍａｘと、当該最大値が観測されたフレームのフレーム番号とが対応付けて記憶される。このような統計値記憶部１３０Ｆを参照して、音声らしさ算出部１３０Ｈは、統計値記憶部１３０Ｆに記憶されたスペクトルの平均パワーの最大値Ｐ＿ａｖｅ＿ｍａｘと、選択フレームのＰ＿ａｖｅ（ｎ）との差、すなわちＰ＿ａｖｅ＿ｍａｘ−Ｐ＿ａｖｅ（ｎ）を計算することにより、選択フレームにおける話者の音声らしさを算出する。

なお、音声らしさが算出された後、音声処理装置１００は、上記の実施例１で説明した処理と同様の処理を実行することとすればよい。ここで、上記の実施例１では、重み係数の付与時にフレームパワーの相対値および重み係数の対応関係を参照する場合を例示したが、スペクトルの平均パワーの相対値および重み係数の対応関係を参照して発話区間に含まれるフレームごとに重み係数を付与することとすればよい。

（１．３）自己相関係数
音声パラメータの他の一例として、音声処理装置１００は、音声信号から導出される自己相関係数を用いて話者の音声らしさを算出することができる。例えば、導出部１３０Ｅは、取得部１３０Ａにより音声信号のフレームｎが取得される度に、フレームごとに自己相関係数を算出する。

これを具体的に説明すると、導出部１３０Ｅは、下記の式（６）にしたがって、音声信号Ｃのフレームｎにおける自己相関係数を算出する。すなわち、導出部１３０Ｅは、フレームｎのオリジナル波形に対してフレームＮの波形が複製された複製波形をシフトさせつつ、当該フレームｎにおけるオリジナル波形と当該フレームｎにおける複製波形との相関係数、すなわち自己相関係数をシフト幅ｊごとに算出する。その上で、導出部１３０Ｅは、シフト幅ｊごとに算出された自己相関係数のうちフレームｎ内で最大である自己相関係数ＡＣ（ｎ）を抽出する。なお、最大の自己相関係数ＡＣ（ｎ）の算出は、必ずしも音声信号の全てのフレームに実行されずともよく、発話区間に含まれるフレームに絞って実行することもできる。

このように最大の自己相関係数ＡＣ（ｎ）が算出された後、音声らしさ算出部１３０Ｈは、最大値に対する選択フレームの最大の自己相関係数の相対値を話者の音声らしさとして算出する。ここで、音声パラメータとして選択フレーム内で最大である自己相関係数を用いる場合、統計値記憶部１３０Ｆには、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測される最大の自己相関係数の中でも観測履歴上でもさらに最大となる観測最大値ＡＣ＿ｍａｘと、当該観測最大値が観測されたフレームのフレーム番号とが対応付けて記憶される。このような統計値記憶部１３０Ｆを参照して、音声らしさ算出部１３０Ｈは、統計値記憶部１３０Ｆに記憶されたフレーム最大の自己相関係数の観測最大値ＡＣ＿ｍａｘと、選択フレームの最大の自己相関係数ＡＣ（ｎ）との差、すなわちＡＣ＿ｍａｘ−ＡＣ（ｎ）を計算することにより、選択フレームにおける話者の音声らしさを算出する。

なお、音声らしさが算出された後、音声処理装置１００は、上記の実施例１で説明した処理と同様の処理を実行することとすればよい。ここで、上記の実施例１では、重み係数の付与時にフレームパワーの相対値および重み係数の対応関係を参照する場合を例示したが、最大の自己相関係数の相対値および重み係数の対応関係を参照して発話区間に含まれるフレームごとに重み係数を付与することとすればよい。

（１．４）ピッチ周波数
音声パラメータの他の一例として、音声処理装置１００は、音声信号から導出されるピッチ周波数を用いて話者の音声らしさを算出することができる。例えば、導出部１３０Ｅは、取得部１３０Ａにより音声信号のフレームｎが取得される度に、ピッチ周波数の最頻値を算出する。ここで言う「最頻値」とは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるピッチ周波数を母集団とする集合における最頻値を指す。この母集団には、必ずしも発話区間に対応しないフレームは含まれずともよく、発話区間に含まれるフレームに絞って実行することもできる。

これを具体的に説明すると、導出部１３０Ｅは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されたピッチ周波数を母集団とし、ヒストグラムを生成する。すなわち、導出部１３０Ｅは、フレームごとに当該フレームから算出されたピッチ周波数Ｐｉｔ（ｎ）が属する階級の度数をインクリメントすることにより、ヒストグラムを生成する。図８は、ピッチ周波数の最頻値の一例を示す図である。図８に示すグラフの縦軸は、度数、例えばフレーム数を指し、横軸は、ピッチ周波数（Ｈｚ）の階級を指す。図８に示すように、ヒストグラムに含まれる階級のうち最高値の度数が属する階級のピッチ周波数が最頻値Ｐｉｔ＿ｍｏｄｅとして算出される。

このようにスペクトルのピッチ周波数の最頻値Ｐｉｔ＿ｍｏｄｅが算出された後、音声らしさ算出部１３０Ｈは、最頻値に対する選択フレームのピッチ周波数の相対値を話者の音声らしさとして算出する。ここで、音声パラメータとしてピッチ周波数を用いる場合、統計値記憶部１３０Ｆには、導出部１３０Ｅによりピッチ周波数の最頻値が算出される度に、最新のピッチ周波数の最頻値が上書き保存される。このような統計値記憶部１３０Ｆを参照して、音声らしさ算出部１３０Ｈは、統計値記憶部１３０Ｆに記憶されたピッチ周波数の最頻値Ｐｉｔ＿ｍｏｄｅと、選択フレームｎのピッチ周波数Ｐｉｔ（ｎ）との比、すなわち「Ｐｉｔ（ｎ）／Ｐｉｔ＿ｍｏｄｅ」を計算することにより、選択フレームにおける話者の音声らしさを算出する。

続いて、重み付与部１３０Ｉは、音声らしさ算出部１３０Ｈにより算出された選択フレームの話者の音声らしさに基づいて当該選択フレームに付与する重み係数を算出する。例えば、重み付与部１３０Ｉは、選択フレームの話者の音声らしさとして算出された相対値を引数とし、図９に示す音声らしさおよび重み係数の対応関係が定義された関数、あるいは該対応関係に関するルックアップテーブル等を参照することにより、当該選択フレームｎに付与する重み係数ｗ（ｎ）を算出する。

図９は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図９に示すグラフの縦軸は、重み係数を指し、例えば、０から１までに正規化された値が用いられる。図９に示すグラフの横軸は、ピッチ周波数の相対値を指す。図９に示す対応関係は、音声信号において話者に対応するピッチ周波数が観測される頻度の方が周囲雑音に対応するピッチ周波数が観測される頻度に比べて十分に大きいという知見にしたがって設定される。言い換えれば、相対値Ｐｉｔ（ｎ）／Ｐｉｔ＿ｍｏｄｅが「１」に近づくほど選択フレームｎで算出されるピッチ周波数が話者に対応する成分である可能性が高まる一方で、相対値Ｐｉｔ（ｎ）／Ｐｉｔ＿ｍｏｄｅが「１」から離れるほど選択フレームｎで算出されるピッチ周波数が周囲雑音に対応する成分である可能性が高まるという定性的な関係が設定の基準とされる。

図９に示す例で言えば、閾値ＴＨ４、例えば０．５未満の相対値が算出される場合、選択フレームの重み係数として「０」が算出される。さらに、閾値ＴＨ７、例えば２．０以上の相対値が算出される場合にも、選択フレームの重み係数として「０」が算出される。一方、閾値ＴＨ５以上閾値ＴＨ６未満の範囲の相対値、すなわち０．７≦相対値＜１．３が算出される場合、選択フレームの重み係数として「１」が算出される。また、閾値ＴＨ４以上閾値ＴＨ５未満の相対値、すなわち０．５≦相対値＜０．７が算出される場合、選択フレームの重み係数として、相対値が閾値ＴＨ４に近づくほど重み係数の最小値「０」に近い重み係数が算出される一方で、相対値が閾値ＴＨ５に近づくほど重み係数の最大値「１」に近い重み係数が算出される。さらに、閾値ＴＨ６以上閾値ＴＨ７未満の相対値、すなわち１．３≦相対値＜２．０が算出される場合、選択フレームの重み係数として、相対値が閾値ＴＨ６に近づくほど重み係数の最大値「１」に近い重み係数が算出される一方で、相対値が閾値ＴＨ７に近づくほど重み係数の最小値「０」に近い重み係数が算出される。このように算出された重み係数ｗ（ｎ）が選択フレームｎに付与される。

その後、分布算出部１３０Ｊは、発話区間に含まれる全てのフレームについて重みが算出された場合、各フレームに付与された重み係数に基づいて当該フレームで算出されたピッチ周波数のヒストグラムを生成する。これ以降の処理については、上記の実施例１で説明した処理と同様の処理が実行される。

（１．５）フォルマント
音声パラメータの他の一例として、音声処理装置１００は、音声信号から導出されるフォルマント周波数を用いて話者の音声らしさを算出することができる。例えば、導出部１３０Ｅは、取得部１３０Ａにより音声信号のフレームｎが取得される度に、フォルマント周波数の平均値を算出する。ここで言う「平均値」とは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるフォルマント周波数を母集団とする集合における平均値を指す。この母集団には、必ずしも発話区間に対応しないフレームは含まれずともよく、発話区間に含まれるフレームに絞って実行することもできる。

これを具体的に説明すると、導出部１３０Ｅは、取得部１３０Ａにより音声信号のフレームｎが取得される度に、線形予測（Liner Prediction Coding）分析を行うことで、複数のピークを抽出することができる。これらのピークのうち、周波数の低いものから順に、第１フォルマント周波数：Ｆ１、第２フォルマント周波数：Ｆ２とする。このようなフォルマント周波数の算出には、一例として、特許文献（特開昭６２−５４２９７号公報）に記載の技術を用いることができる。なお、ここでは、あくまで一例として、２つのフォルマント周波数を算出する場合を例示したが、３つの以上のフォルマント周波数を算出することもできる。

このように算出されたフレームｎの第１フォルマント周波数Ｆ１（ｎ）および第２フォルマント周波数Ｆ２（ｎ）と共に、音声信号の取得が開始されてからフレームｎが取得されるまでのフレーム１〜ｎ−１で算出されてきた第１フォルマント周波数Ｆ１および第２フォルマント周波数Ｆ２を母集団とし、導出部１３０Ｅは、下記の式（７）および下記の式（８）にしたがって、第１フォルマント周波数の平均値Ｆ１＿ａｖｅおよび第２フォルマント周波数の平均値Ｆ２＿ａｖｅを算出する。このように音声パラメータとしてフォルマント周波数を用いる場合、統計値記憶部１３０Ｆには、導出部１３０Ｅにより第１フォルマント周波数の平均値Ｆ１＿ａｖｅおよび第２フォルマント周波数の平均値Ｆ２＿ａｖｅが算出される度に、最新の第１フォルマント周波数の平均値Ｆ１＿ａｖｅおよび第２フォルマント周波数の平均値Ｆ２＿ａｖｅが上書き保存される。

このように第１フォルマント周波数の平均値Ｆ１＿ａｖｅおよび第２フォルマント周波数の平均値Ｆ２＿ａｖｅが算出された後、音声らしさ算出部１３０Ｈは、統計値記憶部１３０Ｆを参照して、平均値に対する選択フレームの第１フォルマント周波数の相対値、すなわち（Ｆ１（ｎ）／Ｆ１＿ａｖｅ）を算出すると共に、平均値に対する選択フレームの第２フォルマント周波数の相対値、すなわち（Ｆ２（ｎ）／Ｆ２＿ａｖｅ）を算出する。その上で、音声らしさ算出部１３０Ｈは、選択フレームの第１フォルマント周波数の相対値と、選択フレームの平均値に対する選択フレームの第２フォルマント周波数の相対値とのフォルマント相対値の比、すなわち｛［（Ｆ１（ｎ）／Ｆ１＿ａｖｅ）＋（Ｆ２（ｎ）／Ｆ２＿ａｖｅ）］×１／２｝を話者の音声らしさとして算出する。

続いて、重み付与部１３０Ｉは、音声らしさ算出部１３０Ｈにより算出された選択フレームの話者の音声らしさに基づいて当該選択フレームに付与する重み係数を算出する。例えば、重み付与部１３０Ｉは、選択フレームの話者の音声らしさとして算出されたフォルマント相対値の比を引数とし、図１０に示す音声らしさおよび重み係数の対応関係が定義された関数、あるいは該対応関係に関するルックアップテーブル等を参照することにより、当該選択フレームｎに付与する重み係数ｗ（ｎ）を算出する。

図１０は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図１０に示すグラフの縦軸は、重み係数を指し、例えば、０から１までに正規化された値が用いられる。図１０に示すグラフの横軸は、ピッチ周波数の相対値を指す。図１０に示す対応関係は、音声信号において話者に対応するフォルマント周波数が観測される頻度の方が周囲雑音に対応するフォルマント周波数が観測される頻度に比べて十分に大きいという知見にしたがって設定される。言い換えれば、フォルマント相対値の比が「１」に近づくほど選択フレームｎで算出されるピッチ周波数が話者に対応する成分である可能性が高まる一方で、フォルマント相対値の比が「１」から離れるほど選択フレームｎで算出されるピッチ周波数が周囲雑音に対応する成分である可能性が高まるという定性的な関係が設定の基準とされる。

図１０に示す例で言えば、閾値ＴＨ８、例えば０．２未満のフォルマント相対値の比が算出される場合、選択フレームの重み係数として「０」が算出される。さらに、閾値ＴＨ１２、例えば３．０以上のフォルマント相対値の比が算出される場合にも、選択フレームの重み係数として「０」が算出される。一方、閾値ＴＨ９以上閾値ＴＨ１１未満の範囲のフォルマント相対値の比、すなわち０．４≦フォルマント相対値の比＜１．６が算出される場合、選択フレームの重み係数として「１」が算出される。また、閾値ＴＨ８以上閾値ＴＨ９未満のフォルマント相対値の比、すなわち０．２≦フォルマント相対値の比＜０．４が算出される場合、選択フレームの重み係数として、フォルマント相対値の比が閾値ＴＨ８に近づくほど重み係数の最小値「０」に近い重み係数が算出される一方で、フォルマント相対値の比が閾値ＴＨ９に近づくほど重み係数の最大値「１」に近い重み係数が算出される。さらに、閾値ＴＨ１１以上閾値ＴＨ１２未満のフォルマント相対値の比、すなわち１．６≦フォルマント相対値の比＜３．０が算出される場合、選択フレームの重み係数として、フォルマント相対値の比が閾値ＴＨ１１に近づくほど重み係数の最大値「１」に近い重み係数が算出される一方で、フォルマント相対値の比が閾値ＴＨ１２に近づくほど重み係数の最小値「０」に近い重み係数が算出される。このように算出された重み係数ｗ（ｎ）が選択フレームｎに付与される。

（２）評価結果の表示の応用例
上記の実施例１では、印象の評価結果を「印象がよい」、「普通」、「印象が悪い」のいずれかの評価結果として表示する場合を例示したが、評価結果を評価値として出力してもよい。例えば、印象評価部１３０Ｋは、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が広い場合、「評価値＝１」と評価する。また、印象評価部１３０Ｋは、平常時のヒストグラムの広がりと、統計量の情報に含まれる広がりとが等しい場合、「評価値＝０」と評価する。さらに、印象評価部１３０Ｋは、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が狭い場合、「評価値＝−１」と評価する。

さらに、上記の実施例１では、発話区間単位で印象の評価結果を表示部１４０に表示させる例を説明したが、印象の評価結果の時系列変化を表示させることもできる。具体的には、印象評価部１３０Ｋは、発話区間の印象の評価値を算出する度に、当該発話区間の印象の評価値と、当該発話区間が評価される前に評価されていた評価値との間で平滑化を実行する。例えば、印象評価部１３０Ｋは、下記の式（９）にしたがって、評価値を平滑化する。ここで、下記の式（９）における「ｓｃｏｒｅ（ｎ）」は、平滑化前の評価値を指す。また、「ｓｃｏｒｅ’（ｎ）」は、平滑化後の評価値を指す。また、「ｓｃｏｒｅ’（ｎ−１）」は、１つ前の発話で算出された平滑化後の評価値を指す。

このように平滑化後の評価値が算出される度に、印象評価部１３０Ｋは、当該評価値を表示部１４０に表示させる。図１１は、印象の評価値の時系列変化の一例を示す図である。図１１に示すグラフの横軸は、時間を指し、縦軸は、平滑化後の評価値を指す。図１１に示すように、印象の評価値の時系列変化を曲線グラフで表示することにより、評価値が時間とともにどのように推移するかを話者１ｂ等に把握させることができる。

（３）他の実装形態
上記の実施例１で説明した実装形態は、実施例１に係る音声処理装置の機能がコンピュータシステムに実装される一例であり、他の実装形態を採用することもできる。

（３．１）クライアントサーバシステム
図１２は、他の実装形態の一例を示す図である。図１２に示すように、他の実装形態では、システムは、電話機５０と、交換機３０ａ，３０ｂと、オペレータ端末６０と、音声処理装置２００とを有する。電話機５０は、スピーカ２０ａおよびマイク２５ａに接続される。オペレータ端末６０は、スピーカ２０ｂおよびマイク２５ｂに接続される。

交換機３０ａと交換機３０ｂとは、ネットワーク３５を介して相互に接続される。交換機３０ａおよび交換機３０ｂは、電話機５０またはオペレータ端末６０から送信される音声信号を中継する装置である。

電話機５０は、話者１ａの音声信号を、マイク２５ａを介して取得する。電話機５０は、取得した話者１ａの音声信号を、オペレータ端末６０に送信する。このようにオペレータ端末６０を宛先とする音声信号は、オペレータ端末６０をクライアント端末として収容する音声処理装置２００にも送信される。オペレータ端末６０に送信された音声信号は、スピーカ２０ｂから出力される。

オペレータ端末６０は、話者１ｂの音声信号を、マイク２５ｂを介して取得する。オペレータ端末６０は、取得した話者１ｂの音声信号を、電話機５０に送信する。電話機５０に送信された音声信号は、スピーカ２０ａから出力される。オペレータ端末６０は、音声処理装置２００からの指示にしたがって発話に関する印象の評価結果を表示できる。

図１２に示す音声処理装置２００は、オペレータ端末６０をクライアント端末として収容し、オペレータ端末６０を宛先とする通話に関する話者１ａの音声信号を交換機３０ｂから取得し、発話に関する印象の評価結果をオペレータ端末６０に表示させる音声処理サービスを提供するサーバ装置として実装することができる。

このように、上記の実施例１と同様の機能が提供されるクライアントサーバシステムとして実装することもできる。この場合においても、音声処理装置２００は、図６に示す音声処理装置１００と同様の機能部を有することにより、上記の音声処理サービスを提供できる。

（３．２）会議システムへの実装
図１３、他の実装形態の一例を示す図である。図１３に示すように、他の実装形態では、システムは、マイク４０ａ、４０ｂ、４０ｃ、収録機器３００、表示装置３５０、音声処理装置４００を有する。収録機器３００は、ネットワーク３５を介して、音声処理装置４００に接続される。図示を省略するが、音声処理装置４００は、クラウド上の単数または複数のサーバによって構成されていてもよい。

話者１Ａによる音声は、マイク４０ａにより集音され、集音された音声信号は、収録機器３００に出力される。話者１Ｂによる音声は、マイク４０ｂにより集音され、集音された音声信号は、収録機器３００に出力される。話者１Ｃによる音声は、マイク４０ｃにより集音され、集音された音声信号は、収録機器３００に出力される。

以下の説明では、特に区別する場合に、話者１Ａの音声信号を「第１音声信号」と表記する。話者１Ｂの音声信号を「第２音声信号」と表記する。話者１Ｃの音声信号を「第３音声信号」と表記する。

たとえば、第１音声信号には、話者１Ａの話者情報が付与される。話者情報は、話者を一意に識別する情報である。第２音声信号には、話者１Ｂの話者情報が付与される。第３音声信号には、話者１Ｃの話者情報が付与される。

収録機器３００は、第１音声信号、第２音声信号、第３音声信号を収録する装置である。また、収録機器３００は、第１音声信号、第２音声信号、第３音声信号を、音声処理装置４００に送信する。

図１４は、収録機器の機能的構成の一例を示すブロック図である。図１４に示すように、収録機器３００は、受付部３１０と、記憶部３２０と、送信部３３０とを有する。

受付部３１０は、マイク４０ａ、４０ｂ、４０ｃから、第１〜第３音声信号を受信する処理部である。受付部３１０は、第１音声信号を、第１音声バッファ３２０ａに記録する。受付部３１０は、第２音声信号を、第２音声バッファ３２０ｂに記録する。受付部３１０は、第３音声信号を、第３音声バッファ３２０ｃに記録する。

記憶部３２０は、第１音声バッファ３２０ａ、第２音声バッファ３２０ｂ、第３音声バッファ３２０ｃを有する。記憶部３２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

第１音声バッファ３２０ａは、第１音声信号を保持する。第２音声バッファ３２０ｂは、第２音声信号を保持する。第３音声バッファ３２０ｃは、第３音声信号を保持する。

送信部３３０は、第１音声バッファ３２０ａの第１音声信号と、第２音声バッファ３２０ｂの第２音声信号と、第３音声バッファ３２０ｃの第３音声信号を、音声処理装置４００に送信する処理部である。送信部３３０は、第１〜第３音声信号を、まとめて、音声処理装置４００に送信してもよいし、別々に送信してもよい。

表示装置３５０は、ネットワーク３５を介して、音声処理装置４００に接続される。表示装置３５０は、液晶ディスプレイ等に対応する。表示装置３５０は、音声処理装置４００から、各話者１Ａ〜１Ｃの発話の印象の評価結果を受信し、表示する。

これら収録機器３００から第１音声信号、第２音声信号、第３音声信号が収集される音声処理装置４００では、第１音声信号、第２音声信号および第３音声信号ごとにそれぞれの音声信号に対応する話者以外の音声を分離する。すなわち、音声処理装置４００は、第２音声信号および第３音声信号をリファレンスとして、第１音声信号に含まれる話者１Ａ〜１Ｃの発話音声のうち話者１Ｂおよび１Ｃの発話音声を分離して話者１Ａの発話音声を抽出する。また、音声処理装置４００は、第１音声信号および第３音声信号をリファレンスとして、第２音声信号に含まれる話者１Ａ〜１Ｃの発話音声のうち話者１Ａおよび１Ｃの発話音声を分離して話者１Ｂの発話音声を抽出する。さらに、音声処理装置４００は、第１音声信号および第２音声信号をリファレンスとして、第３音声信号に含まれる話者１Ａ〜１Ｃの発話音声のうち話者１Ａおよび１Ｂの発話音声を分離して話者１Ｃの発話音声を抽出する。

これら分離後の第１音声信号、第２音声信号および第３音声信号の入力系統ごとに、音声処理装置４００は、図７に示す音声処理を実行する。このとき、音声処理装置４００は、入力系統ごとに図６に示す音声処理装置１００と同様の機能部を起動することにより、図７に示す音声処理を並列して実行することもできる。このように、上記の実施例１と同様の機能が提供される会議システムとして実装することもできる。なお、ここでは、話者１Ａ〜１Ｃの会議が１つの場所で実行される場合を例示したが、一部または全部の参加者が遠隔地から参加する会議システムにも図７に示す音声処理を適用できる。

（３．３）エンドユーザ間の通話
図１５は、他の実装形態の一例を示す図である。図１５に示すように、他の実装形態では、システムは、携帯端末６５と、基地局６０ａ，６０ｂと、音声処理装置５００とを有する。携帯端末６５は、スピーカ２０ａおよびマイク２５ａに接続される。音声処理装置５００は、スピーカ２０ｂおよびマイク２５ｂに接続される。

基地局６０ａと基地局６０ｂとは、ネットワーク３５を介して相互に接続される。基地局６０ａおよび基地局６０ｂは、携帯端末６５または音声処理装置５００から送信される音声信号を中継する装置である。たとえば、基地局６０ｂは、携帯端末６５から送信される音声信号を、音声処理装置５００に送信する。

携帯端末６５は、携帯電話、スマートフォン、タブレット端末、ノートＰＣ（Personal Computer）等に対応する。携帯端末６５は、話者１ａの音声信号を、マイク２５ａを介して取得する。携帯端末６５は、無線により基地局６０ａに接続し、取得した話者１ａの音声信号を、音声処理装置５００に送信する。音声処理装置５００に送信された音声信号は、スピーカ２０ｂから出力される。

音声処理装置５００は、携帯電話、スマートフォン、タブレット端末、ノートＰＣ（Personal Computer）等に対応する。音声処理装置５００は、通話機能に加えて、話者１ａの発話の評価を行い、評価結果を表示する。

このように、エンドユーザが利用する携帯端末上で音声処理プログラムを実行させることにより図６に示す機能部を仮想的に実現することで、コールセンタや会議システムなどの利用に限定されず、一般の通話にも図７に示す音声処理を適用できる。

［音声処理プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１６を用いて、上記の実施例と同様の機能を有する音声処理プログラムを実行するコンピュータの一例について説明する。

図１６は、実施例１及び実施例２に係る音声処理プログラムを実行するコンピュータのハードウェア構成例を示す図である。図１６に示すように、コンピュータ１０００は、操作部１１００ａと、スピーカ１１００ｂと、マイク１１００ｃと、ディスプレイ１２００と、通信部１３００とを有する。さらに、このコンピュータ１０００は、ＣＰＵ１５００と、ＲＯＭ１６００と、ＨＤＤ１７００と、ＲＡＭ１８００とを有する。これら１１００〜１８００の各部はバス１４００を介して接続される。

ＨＤＤ１７００には、図１６に示すように、上記の実施例１で示した取得部１３０Ａ、強度算出部１３０Ｂ、発話区間検出部１３０Ｃ、音響特徴量算出部１３０Ｄ、導出部１３０Ｅ、更新部１３０Ｇ、音声らしさ算出部１３０Ｈ、重み付与部１３０Ｉ及び分布算出部１３０Ｊと同様の機能を発揮する音声処理プログラム１７００ａが記憶される。この音声処理プログラム１７００ａは、図６に示す各構成要素と同様、統合又は分離してもかまわない。すなわち、ＨＤＤ１７００には、必ずしも上記の実施例１で示した全てのデータが格納されずともよく、処理に用いるデータがＨＤＤ１７００に格納されればよい。

このような環境の下、ＣＰＵ１５００は、ＨＤＤ１７００から音声処理プログラム１７００ａを読み出した上でＲＡＭ１８００へ展開する。この結果、音声処理プログラム１７００ａは、図１６に示すように、音声処理プロセス１８００ａとして機能する。この音声処理プロセス１８００ａは、ＲＡＭ１８００が有する記憶領域のうち音声処理プロセス１８００ａに割り当てられた領域にＨＤＤ１７００から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、音声処理プロセス１８００ａが実行する処理の一例として、図７に示す処理などが含まれる。なお、ＣＰＵ１５００では、必ずしも上記の実施例１で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。

なお、上記の音声処理プログラム１７００ａは、必ずしも最初からＨＤＤ１７００やＲＯＭ１６００に記憶されておらずともかまわない。例えば、コンピュータ１０００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に音声処理プログラム１７００ａを記憶させる。そして、コンピュータ１０００がこれらの可搬用の物理媒体から音声処理プログラム１７００ａを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１０００に接続される他のコンピュータまたはサーバ装置などに音声処理プログラム１７００ａを記憶させておき、コンピュータ１０００がこれらから音声処理プログラム１７００ａを取得して実行するようにしてもよい。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）音声信号を取得し、
前記音声信号に関する音響特徴量を算出し、
前記音声信号のフレームに関する音声パラメータを算出し、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、
前記相対値に応じて前記音声信号のフレームに重みを付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。

（付記２）前記音響特徴量の分布に基づいて、前記音声信号から検出される発話の印象を評価する処理を前記コンピュータにさらに実行させることを特徴とする付記１に記載の音声処理プログラム。

（付記３）前記重みを付与する処理は、前記相対値が前記統計値から離れるにしたがって小さい重みを前記音声信号のフレームに付与することを特徴とする付記１または付記２に記載の音声処理プログラム。

（付記４）前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフレームパワー、スペクトルパワー、信号雑音比もしくは自己相関係数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記１または付記２に記載の音声処理プログラム。

（付記５）前記音声パラメータを算出する処理は、前記音声信号のフレームに関するピッチ周波数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記１または付記２に記載の音声処理プログラム。

（付記６）前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフォルマント周波数をフォルマントごとに前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記１または付記２に記載の音声処理プログラム。

（付記７）音声信号を取得し、
前記音声信号に関する音響特徴量を算出し、
前記音声信号のフレームに関する音声パラメータを算出し、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、
前記相対値に応じて前記音声信号のフレームに重みを付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、
処理をコンピュータが実行することを特徴とする音声処理方法。

（付記８）前記音響特徴量の分布に基づいて、前記音声信号から検出される発話の印象を評価する処理を前記コンピュータがさらに実行することを特徴とする付記７に記載の音声処理方法。

（付記９）前記重みを付与する処理は、前記相対値が前記統計値から離れるにしたがって小さい重みを前記音声信号のフレームに付与することを特徴とする付記７または付記８に記載の音声処理方法。

（付記１０）前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフレームパワー、スペクトルパワー、信号雑音比もしくは自己相関係数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記７または付記８に記載の音声処理方法。

（付記１１）前記音声パラメータを算出する処理は、前記音声信号のフレームに関するピッチ周波数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記７または付記８に記載の音声処理方法。

（付記１２）前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフォルマント周波数をフォルマントごとに前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記７または付記８に記載の音声処理方法。

（付記１３）音声信号を取得する取得部と、
前記音声信号に関する音響特徴量を算出する第１算出部と、
前記音声信号のフレームに関する音声パラメータを算出する第２算出部と、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出する第３算出部と、
前記相対値に応じて前記音声信号のフレームに重みを付与する重み付与部と、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する第４算出部と、
を有することを特徴とする音声処理装置。

（付記１４）前記音響特徴量の分布に基づいて、前記音声信号から検出される発話の印象を評価する印象評価部をさらに有することを特徴とする付記１３に記載の音声処理装置。

（付記１５）前記重み付与部は、前記相対値が前記統計値から離れるにしたがって小さい重みを前記音声信号のフレームに付与することを特徴とする付記１３または付記１４に記載の音声処理装置。

（付記１６）前記第２算出部は、前記音声信号のフレームに関するフレームパワー、スペクトルパワー、信号雑音比もしくは自己相関係数を前記音声パラメータとして算出し、
前記第３算出部は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記１３または付記１４に記載の音声処理装置。

（付記１７）前記第２算出部は、前記音声信号のフレームに関するピッチ周波数を前記音声パラメータとして算出し、
前記第３算出部は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記１３または付記１４に記載の音声処理装置。

（付記１８）前記第２算出部は、前記音声信号のフレームに関するフォルマント周波数をフォルマントごとに前記音声パラメータとして算出し、
前記第３算出部は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記１３または付記１４に記載の音声処理装置。

１００音声処理装置
１１０受信部
１２０音声データ記憶部
１２０ａ音声バッファ
１３０Ａ取得部
１３０Ｂ強度算出部
１３０Ｃ発話区間検出部
１３０Ｄ音響特徴量算出部
１３０Ｅ導出部
１３０Ｆ統計値記憶部
１３０Ｇ更新部
１３０Ｈ音声らしさ算出部
１３０Ｉ重み付与部
１３０Ｊ分布算出部
１３０Ｋ印象評価部
１４０表示部

Claims

音声信号を取得し、
前記音声信号に関する音響特徴量を算出し、
前記音声信号のフレームに関する音声パラメータを算出し、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、
前記相対値に応じて前記音声信号のフレームに重みを付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
前記音響特徴量の分布に基づいて、前記音声信号から検出される発話の印象を評価する処理を前記コンピュータにさらに実行させることを特徴とする請求項１に記載の音声処理プログラム。
前記重みを付与する処理は、前記相対値が前記統計値から離れるにしたがって小さい重みを前記音声信号のフレームに付与することを特徴とする請求項１または請求項２に記載の音声処理プログラム。
前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフレームパワー、スペクトルパワー、信号雑音比もしくは自己相関係数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする請求項１または請求項２に記載の音声処理プログラム。
前記音声パラメータを算出する処理は、前記音声信号のフレームに関するピッチ周波数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする請求項１または請求項２に記載の音声処理プログラム。
前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフォルマント周波数をフォルマントごとに前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする請求項１または請求項２に記載の音声処理プログラム。
音声信号を取得し、
前記音声信号に関する音響特徴量を算出し、
前記音声信号のフレームに関する音声パラメータを算出し、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、
前記相対値に応じて前記音声信号のフレームに重みを付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、
処理をコンピュータが実行することを特徴とする音声処理方法。
音声信号を取得する取得部と、
前記音声信号に関する音響特徴量を算出する第１算出部と、
前記音声信号のフレームに関する音声パラメータを算出する第２算出部と、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出する第３算出部と、
前記相対値に応じて前記音声信号のフレームに重みを付与する重み付与部と、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する第４算出部と、
を有することを特徴とする音声処理装置。