JP6891662B2

JP6891662B2 - 音声評価プログラム、音声評価方法および音声評価装置

Info

Publication number: JP6891662B2
Application number: JP2017123588A
Authority: JP
Inventors: 紗友梨中山; 太郎外川; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2021-06-18
Anticipated expiration: 2037-06-23
Also published as: US11232810B2; CN109791774A; CN109791774B; EP3644316A4; WO2018235380A1; US20190214039A1; JP2019008130A; EP3644316A1

Description

本発明は、音声評価プログラム等に関する。

近年、多くの企業が顧客満足度を重視する傾向にあり、対応者と顧客との会話における、応対者の印象や顧客の感情を把握したいというニーズが高まっている。応対者の印象や、顧客の感情は、音声に現れることが多い。

たとえば、従来技術には、通話中の音声のピッチ周波数の上下幅に基づいて、音声の印象を判定するものがある。図１５は、従来技術を説明するための図である。図１５のグラフ５の横軸は時間を示す軸であり、縦軸は周波数を示す軸である。

従来技術では、ピッチ周波数の上下幅が大きいものを明瞭（明るい）と判定し、ピッチ周波数の上下幅が小さいものを不明瞭（暗い）と判定する。ピッチ周波数の上下幅は、ある期間中のピッチ周波数の最大値と最小値との差である。

たとえば、従来技術は、グラフ５の期間Ｔ１において、上下幅５ａが大きいため、音声の印象が明瞭であると判定する。従来技術は、グラフ５の期間Ｔ２において、上下幅５ｂが小さいため、音声の印象が不明瞭であると判定する。

特開２０１５−８７５５７号公報特開２００６−２６７４６５号公報

しかしながら、上述した従来技術では、音声を正確に評価することができないという問題がある。

ピッチ周波数を検出する処理では、特性上、半ピッチや倍ピッチを誤って算出する場合がある。このため、従来技術のように、単純に、ピッチ周波数の上下幅の大小により、音声の明瞭・不明瞭を判定すると、音声を正確に評価できない場合がある。

図１６は、正確なピッチ周波数を算出した場合のグラフを示す図である。図１６のグラフ６の横軸は時間を示す軸であり、縦軸は周波数を示す軸である。グラフ６は、正確なピッチ周波数を算出した場合を示すものである。グラフ６では、ピッチ周波数の上下幅６ａが小さいため、音声が不明瞭であると判定できる。

図１７は、半ピッチ／倍ピッチを算出した場合のグラフを示す図である。図１７のグラフ７の横軸は時間を示す軸であり、縦軸は周波数を示す軸である。グラフ７は、誤って、半ピッチ／倍ピッチを算出した場合を示すものである。グラフ７では、ピッチ周波数の上下幅７ａが大きくなってしまい、実際には、音声が不明瞭であるにも関わらず、音声が明瞭であると判定してしまう。

１つの側面では、本発明は、音声を正確に評価することができる音声評価プログラム、音声評価方法および音声評価装置を提供することを目的とする。

第１の案では、コンピュータに下記の処理を実行させる。コンピュータは、音声信号を解析してピッチ周波数を検出する。コンピュータは、検出したピッチ周波数の検出頻度の分布に基づいて、検出したピッチ周波数のうち評価対象とする評価対象領域を選択する。コンピュータは、検出頻度の分布と選択した評価対象領域に基づいて、音声を評価する。

音声を正確に評価することができる。

図１は、本実施例１に係る音声評価装置の構成を示す機能ブロック図である。図２は、本実施例１に係る音声評価部の構成を示す機能ブロック図である。図３は、ヒストグラムの一例を示す図である。図４は、本実施例１に係る音声評価部の処理手順を示すフローチャートである。図５は、音声評価装置のその他の処理を説明するための図である。図６は、本実施例２に係る音声評価システムの構成を示す図である。図７は、本実施例２に係る音声評価装置の構成を示す機能ブロック図である。図８は、本実施例２に係る音声評価部の構成を示す機能ブロック図である。図９は、本実施例２に係る平常時分布テーブルのデータ構造の一例を示す図である。図１０は、本実施例３に係る音声評価システムの構成を示す図である。図１１は、本実施例３に係る収録機器の構成を示す機能ブロック図である。図１２は、本実施例３に係る音声評価装置の構成を示す機能ブロック図である。図１３は、本実施例３に係る音声評価部の構成を示す機能ブロック図である。図１４は、音声評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１５は、従来技術を説明するための図である。図１６は、正確なピッチ周波数を算出した場合のグラフを示す図である。図１７は、半ピッチ／倍ピッチを算出した場合のグラフを示す図である。

以下に、本願の開示する音声評価プログラム、音声評価方法および音声評価装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例１に係る音声評価装置の構成を示す機能ブロック図である。図１に示すように、この音声評価装置１００は、話者（図示略）の音声を集音するマイク１０に接続される。マイク１０は、集音した音声の信号を、音声評価装置１００に出力する。以下の説明では、マイク１０が集音した音声の信号を「音声信号」と表記する。

音声評価装置１００は、ＡＤ（Analog-to-Digital）変換部１０１、音声ファイル化部１０２、音声評価部１０３、評価結果格納部１０４、記憶装置１０５、出力部１０６を有する。

ＡＤ変換部１０１は、マイク１０から音声信号を受信し、ＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部１０１は、音声信号（アナログ信号）を、音声信号（デジタル信号）に変換する。ＡＤ変換部１０１は、音声信号（デジタル信号）を、音声ファイル化部１０２、音声評価部１０３に出力する。以下の説明では、ＡＤ変換部１０１から出力される音声信号（デジタル信号）を単に音声信号と表記する。

音声ファイル化部１０２は、音声信号を所定の音声ファイルフォーマットにより、音声ファイルに変換する処理部である。たとえば、音声ファイルは、各時刻と、音声信号の強さとをそれぞれ対応づけた情報を含む。音声ファイル化部１０２は、音声ファイルを、記憶部１０５の音声ファイルテーブル１０５ａに格納する。以下の説明では、便宜上、音声ファイルに含まれる時刻と音声信号の強さとの関係の情報を単に、音声信号と記載する。

なお、音声ファイル化部１０２は、入力装置（図示略）から話者情報を取得し、話者情報を音声ファイルに添付する。たとえば、話者情報は、話者を一意に識別する情報である。

音声評価部１０３は、音声信号を基にして、話者の音声の印象を評価する処理部である。たとえば、話者の音声の印象の評価結果は「印象が良い」、「普通」、「印象が悪い」のいずれかとなる。音声評価部１０３は、話者情報と、評価結果の情報とを、評価結果格納部１０４に出力する。

評価結果格納部１０４は、話者情報と、評価結果とを対応づけて、記憶装置１０５の評価結果テーブル１０５ｂに格納する処理部である。

記憶装置１０５は、音声ファイルテーブル１０５ａおよび評価結果テーブル１０５ｂを記憶する。記憶装置１０５は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

音声ファイルテーブル１０５ａは、音声ファイル化部１０２から出力される音声ファイルを格納するテーブルである。評価結果テーブル１０５ｂは、評価結果格納部１０４により格納される話者情報と、評価結果とを対応づけたテーブルである。

出力部１０６は、記憶装置１０５に格納された評価結果テーブル１０５ｂを、表示装置に出力することで、評価結果を表示させる処理部である。また、出力部１０６は、音声ファイルテーブル１０５ａに格納された音声ファイルを他の外部装置に出力してもよい。

ここで、図１に示したＡＤ変換部１０１、音声ファイル化部１０２、音声評価部１０３、評価結果格納部１０４、出力部１０６は、所定の制御部（図示略）に対応する。たとえば、制御部は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

続いて、図１に示した音声評価部１０３の構成について説明する。図２は、本実施例１に係る音声評価部の構成を示す機能ブロック図である。図２に示すように、この音声評価部１０３は、ピッチ検出部１１０、分布算出部１１１、広がり算出部１１２、記憶部１１３、推定部１１４、評価部１１５を有する。

ピッチ検出部１１０は、音声ファイルの音声信号を周波数解析することで、ピッチ周波数を検出する処理部である。ピッチ周波数は、音声信号の基本周波数に対応するものである。ピッチ検出部１１０は、ピッチ周波数の情報を、分布算出部１１１に出力する。

ピッチ検出部１１０は、音声ファイルの音声信号から、発話区間を検出し、発話区間の音声信号に基づいて、ピッチ周波数を検出しても良い。たとえば、ピッチ検出部１１０は、音声信号の強さが閾値以上となる時刻を発話区間の開始時刻とする。ピッチ検出部１１０は、開始時刻以降において、音声信号の強さが閾値未満となる時刻を発話区間の終了時刻とする。ピッチ検出部１１０は、開始時刻から終了時刻までの区間を、発話区間とする。

ピッチ検出部１１０は、発話区間の音声信号を、所定の時間幅となる複数の区間に分割し、区間毎の音声信号を周波数解析することで、区間毎のピッチ周波数を検出する。ピッチ検出部１１０は、発話区間に含まれる複数の区間毎のピッチ周波数を、分布算出部１１１に出力する。

たとえば、ピッチ検出部１１０は、文献（D.Talkin,"A Robust Algorithm for Pitch Tracking (RAPT),"in Speech Coding & Synthesis, W.B.Kleijn and K.K.Pailwal (Eds.), Elsevier,pp.495−518,1995）に基づいて、ピッチ周波数を検出しても良い。

分布算出部１１１は、所定区間内の複数のピッチ周波数を基にして、ヒストグラムを算出する処理部である。図３は、ヒストグラムの一例を示す図である。図３に示すヒストグラム２０の横軸は、ピッチ周波数に対応する軸であり、縦軸は検出頻度に対応する軸である。このヒストグラム２０は、ピッチ周波数の検出頻度の分布に対応するものである。

分布算出部１１１は、下記の処理を実行することで、ヒストグラム２０の中心部と裾部とを特定する。分布算出部１１１は、所定区間内の各ピッチ周波数の平均μを算出する。分布算出部１１１は、所定区間内の各ピッチ周波数の標準偏差σを算出する。たとえば、分布算出部１１１は、ヒストグラム２０の中心部を「μ−σ〜μ＋σ」とする。分布算出部１１１は、ヒストグラム２０の裾部を「（μ−σ）／２〜（μ＋σ）／２」、「２×（μ−σ）／２〜２×（μ＋σ）」とする。

たとえば、図３において、ピッチ周波数の範囲Ａが中心部となり、範囲Ｂ１，Ｂ２が裾部となる。なお、分布算出部１１１は、上記以外の処理により、ヒストグラム２０の中心部および裾部を算出してもよい。分布算出部１１１は、ヒストグラム２０の概形から中心の山の始点と終点との間を中心部として特定し、この中心部以外の範囲を裾部として特定してもよい。

分布算出部１１１は、所定区間内の複数のピッチ周波数の情報あるいはヒストグラム２０の情報と、中心部の情報と、裾部の情報とを、広がり算出部１１２に出力する。

広がり算出部１１２は、ヒストグラム２０を補正した上で、ヒストグラム２０の広がりを算出する処理部である。下記に説明するように、補正したヒストグラム２０の広がりは、補正したピッチ周波数に基づく標準偏差に対応する。

たとえば、広がり算出部１１２は、所定区間内の複数のピッチ周波数を、中心部に対応するピッチ周波数と、裾部に対応するピッチ周波数に分類する。広がり算出部１１２は、中央部に対応する各ピッチ周波数に重み「α」をそれぞれ乗算することで、中心部の各ピッチ周波数を補正する。αの値をたとえば「１」とするが、管理者が適宜変更してもよい。

広がり算出部１１２は、裾部に対応する各ピッチ周波数に重み「β」をそれぞれ乗算することで、裾部の各ピッチ周波数を補正する。βの値をたとえば「０．１」とするが、管理者が適宜変更してもよい。

広がり算出部１１２は、補正した中央部および裾部の各ピッチ周波数を基にして、ピッチ周波数の標準偏差を算出する。このように、補正した中央部および裾部の各ピッチ周波数を基にして算出されるピッチ周波数の標準偏差が、補正したヒストグラム２０の広がりに対応するものとなる。広がり算出部１１２は、補正したヒストグラム２０の広がりに対応する標準偏差の情報を、推定部１１４および評価部１１５に出力する。

記憶部１１３は、平常時分布テーブル１１３ａを有する。記憶部１１３は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

平常時分布テーブル１１３ａは、平常時における話者のヒストグラムの広がりの情報を保持するテーブルである。たとえば、平常時分布テーブル１１３ａは、話者情報と、標準偏差とを対応づける。平常時分布テーブル１１３ａの標準偏差は、後述する推定部１１４によって推定される。

推定部１１４は、話者の平常時における標準偏差を推定する処理部である。推定部１１４は、話者情報と、平常時における標準偏差とを対応づけて、平常時分布テーブル１１３ａに格納する。推定部１１４は、音声ファイルに添付されている話者情報を取得する。

推定部１１４は、話者情報を取得し、話者情報に対応する標準偏差が平常時分布テーブル１１３ａに格納されていない場合には、「初期動作」を行う。一方、推定部１１４は、話者情報に対応する標準偏差が、平常時分布テーブル１１３ａに格納されている場合には、「更新動作」を行う。以下において、初期動作、更新動作について順に説明する。

推定部１１４が実行する初期動作について説明する。推定部１１４は、発話区間の開始時刻から、所定時間後（１分後）までの区間を初期区間とし、初期区間における標準偏差を、広がり算出部１１２から取得する。初期区間における標準偏差は、上記のように、重みα、βにより、ピッチ周波数を補正した後に、算出される標準偏差である。

なお、推定部１１４が、初期区間おける標準偏差を算出しても良い。すなわち、推定部１１４は、初期区間内の複数のピッチ周波数を、中心部に対応するピッチ周波数と、裾部に対応するピッチ周波数に分類する。推定部１１４は、中央部に対応する各ピッチ周波数に重み「α」をそれぞれ乗算することで、中心部の各ピッチ周波数を補正する。推定部１１４は、裾部に対応する各ピッチ周波数に重み「β」をそれぞれ乗算することで、裾部の各ピッチ周波数を補正する。推定部１１４は、補正した中央部および裾部の各ピッチ周波数を基にして、ピッチ周波数の標準偏差を算出する。

推定部１１４は、上記のように初期動作を行い、話者情報と、初期区間の標準偏差とを対応づけて、平常時分布テーブル１１３ａに登録する。

推定部１１４が実行する更新動作について説明する。推定部１１４は、平常時分布テーブル１１３ａから、話者情報に対応する標準偏差を取得する。また、推定部１１４は、広がり算出部１１２から、所定区間内の標準偏差を取得する。以下の説明では、平常時分布テーブル１１３ａから取得した、標準偏差を「平常時標準偏差」と表記し、広がり算出部１１２から取得した標準偏差を「評価標準偏差」と表記する。

推定部１１４は、式（１）に基づいて、新たな平常時標準偏差を算出し、算出した平常時標準偏差により、平常時分布テーブル１１３ａの平常時標準偏差を更新する。

平常時標準偏差＝０．８×平常時標準偏差＋０．２×評価標準偏差・・・（１）

推定部１１４は、広がり算出部１１２から、所定区間内の標準偏差（評価標準偏差）を受信する度に、上記処理を繰り返し実行し、平常時分布テーブル１１３ａを更新する。

なお、推定部１１４は、評価部１１５から、話者情報を取得し、平常時標準偏差の要求を受け付けた場合に、話者情報に対応する平常時標準偏差を平常時分布テーブル１１３ａから取得し、平常時標準偏差を、評価部１１５に出力する。

評価部１１５は、平常時標準偏差と、評価標準偏差とを基にして、話者の音声の印象を評価する処理部である。たとえば、評価部１１５は、音声ファイルに添付された話者情報を、推定部１１４に出力して、平常時標準偏差を取得する。評価部１１５は、評価標準偏差を、広がり算出部１１２から取得する。

評価部１１５は、評価標準偏差が平常時標準偏差よりも大きい場合には、印象が良いと評価する。評価部１１５は、評価標準偏差が平常時標準偏差と同等である場合には、印象が普通であると判定する。評価部１１５は、評価標準偏差が平常時標準偏差より小さい場合には、印象がよいと判定する。

また、評価部１１５は、下記の様に評価を行ってもよい。たとえば、評価部１１５は、評価標準偏差が平常時標準偏差よりも大きく、評価標準偏差が平常時標準偏差との差が閾値以上である場合に、印象が良いと評価する。評価部１１５は、評価標準偏差が平常時標準偏差との差が閾値未満である場合に、印象が普通であると評価する。評価部１１５は、評価標準偏差が平常時標準偏差よりも小さく、評価標準偏差が平常時標準偏差との差が閾値以上である場合に、印象が悪いと評価する。

評価部１１５は、話者情報と、評価結果の情報とを、評価結果格納部１０４に出力する。

次に、本実施例１に係る音声評価装置１００の音声評価部１０３の処理手順について説明する。図４は、本実施例１に係る音声評価部の処理手順を示すフローチャートである。図４に示すように、この音声評価部１０３のピッチ検出部１１０は、音声信号を受信する（ステップＳ１０１）。

ピッチ検出部１１０は、音声信号を解析して、ピッチ周波数を算出する（ステップＳ１０２）。音声評価部１０３の分布算出部１１１は、ピッチ周波数の分布を算出する（ステップＳ１０３）。ステップＳ１０３において、分布算出部１１１は、ピッチ周波数の分布を算出する処理は、上記のように、各ピッチ周波数に基づいて、ヒストグラム２０の中心部および裾部を算出する処理に対応する。

音声評価部１０３の広がり算出部１１２は、分布の広がりを算出する（ステップＳ１０４）。ステップＳ１０４において、分布の広がりを算出する処理は、上記の評価標準偏差を算出する処理に対応する。

音声評価部１０３の推定部１１４は、平常時の分布の広がりを算出する（ステップＳ１０５）。平常時の分布の広がりを算出する処理は、上記の平常時標準偏差を算出する処理に対応する。

音声評価部１０３の評価部１１５は、平常時標準偏差と評価標準偏差とを基にして、音声を評価する（ステップＳ１０６）。

音声評価部１０３は、音声終了の場合には（ステップＳ１０７，Ｙｅｓ）、処理を終了する。一方、音声評価部１０３は、音声終了でない場合には（ステップＳ１０７，Ｎｏ）、分析開始位置を更新し（ステップＳ１０８）、ステップＳ１０２に移行する。

次に、本実施例１に係る音声評価装置１００の効果について説明する。音声評価装置１００は、音声信号を解析して、ピッチ周波数の検出頻度の分布を作成し、分布の裾部分を抑える補正を行い、補正後の分布に基づき、音声の評価を行う。このため、ピッチ周波数を検出する処理により、仮に、半ピッチや倍ピッチを算出した場合にでも、これらのピッチは、裾部のピッチ周波数に分類され、影響を抑えた後に、音声の評価を行うことができ、音声を正確に評価することができる。たとえば、実際に明るい声であるにもかかわらず、半ピッチや倍ピッチが誤って算出された場合でも、暗い声と評価することを抑止することができる。

音声評価装置１００は、分布（ヒストグラム）の中心部に対応するピッチ周波数に重みαを乗算し、分布の裾部分に対応するピッチ周波数に重みβを乗算することで、分布を補正する処理を実行するため、半ピッチや倍ピッチの影響による誤り判定を抑止することができる。

音声評価装置１００の推定部１１４は、話者の平常時の分布の広がりを推定し、評価部１１５が、平常時の分布の広がりと、現在の分布の広がりとを比較して、音声の印象を評価する。このため、話者自身の平常時の分布の広がりに基づいた音声の評価を行うことができる。

音声評価装置１１４の推定部は、話者情報に対応する平常時の分布の広がり（標準偏差）が、平常時分布テーブル１１３ａに格納されている場合には、「更新動作」を行う。これにより、話者に関する平常時の分布をより適切なものに補正することができる。

なお、音声評価装置１００は、一例として、分布（ヒストグラム）の中心部に対応するピッチ周波数に重みαを乗算し、分布の裾部分に対応するピッチ周波数に重みβを乗算することで、分布を補正する場合について説明した。この処理は、分布に含まれる裾部のピッチ周波数の影響を取り除くという点において、分布に含まれる中央部のピッチ周波数を選択し、選択したピッチ周波数の標準偏差を基にして、音声を評価しているとも言える。

音声評価装置１００のピッチ検出部１１０は、発話区間の音声信号を、所定の時間幅となる複数の区間に分割し、区間毎の音声信号を周波数解析することで、区間毎のピッチ周波数を検出していたが、これに限定されるものではない。たとえば、ピッチ検出部１１０は、所定数の区間から検出した各ピッチ周波数の平均値を、ピッチ周波数として分布算出部１１１に出力してもよい。ピッチ検出部１１０は、所定数の区間から検出した各ピッチ周波数の上限値を、ピッチ周波数として分布算出部１１１に出力してもよい。ピッチ検出部１１０は、所定数の区間から検出した各ピッチ周波数の下限値を、ピッチ周波数として分布算出部１１１に出力してもよい。これにより、話者や環境に合わせて、ピッチ周波数を利用することができる。

音声評価装置１００の広がり算出部１１２は、発話区間に含まれる各ピッチ周波数の標準偏差を分布の広がりとして算出していたが、これに限定されるものではない。たとえば、広がり算出部１１２は、発話区間に含まれる各ピッチ周波数の分散、範囲、平方和、四分位範囲のいずれかを、分布の広がりとして算出してもよい。

ところで、本実施例１に係る音声評価装置１００は、以下に説明するように、発話区間のヒストグラムの概形を基にして、話者の音声を評価してもよい。図５は、音声評価装置のその他の処理を説明するための図である。図５に示すように、音声評価装置１００は、発話区間の複数のピッチ周波数を基にして、ヒストグラム２５を算出する。ヒストグラム２５の横軸は、ピッチ周波数に対応する軸であり、縦軸は検出頻度に対応する軸である。

音声評価装置１００は、パターンマッチングなどを行って、ヒストグラム２５の概形のおける中心部Ｃと、裾部Ｄ１，Ｄ２とを特定する。音声評価装置１００は、中心部Ｃの検出頻度に重みαを乗算し、裾部Ｄ１，Ｄ２の検出頻度に重みβを乗算することで、ヒストグラム２５を補正する。補正後のヒスヒストグラムをヒストグラム２６と表記する。たとえば、重いαを「１」とし、重みβを「０．１」とする。

音声評価装置１００は、補正後のヒストグラム２６の広がりの大きさを基にして、話者の音声の印象を判定する。たとえば、音声評価装置１００は、ヒストグラム２６の検出頻度が所定頻度以上となる範囲を、ヒストグラム２６の広がりとして特定する。音声評価装置１００は、ヒストグラム２６の広がりが、所定の閾値以上である場合には、話者の印象が明るいと評価する。一方、音声評価装置１００は、ヒストグラム２６の広がりが、所定の閾値以上である場合には、話者の印象が暗いと評価する。

たとえば、半ピッチ／倍ピッチは分布（ヒストグラム２５）の裾部に存在しているため、裾部の重みを小さくし、中心部の重みを大きくして、ヒストグラム２５を補正することで、誤って評価することを抑止することができる。

図６は、本実施例２に係る音声評価システムの構成を示す図である。図６に示すように、この音声評価システムは、携帯端末２ａ、端末装置２ｂ、分岐コネクタ３、収録機器１５０、クラウド１６０を有する。携帯端末２ａは、電話網１５ａを介して、分岐コネクタ３に接続される。端末装置２ｂは、分岐コネクタ３に接続される。分岐コネクタ３は、収録機器１５０に接続される。収録機器１５０は、インターネット網１５ｂを介して、クラウド１６０に接続される。たとえば、クラウド１６０には、音声評価装置２００が含まれる。図示を省略するが、音声評価装置２００は、複数のサーバによって構成されていてもよい。携帯端末２ａおよび端末装置２ｂは、マイク（図示略）に接続される。

話者１ａによる音声は、携帯端末２ａのマイクにより集音され、集音された音声信号は、分岐コネクタ３を介して、収録機器１５０に送信される。以下の説明では、話者１ａの音声信号を、「第１音声信号」と表記する。

携帯端末２ａは、第１音声信号に、話者１ａの属性情報を付与する。たとえば、属性情報は、性別情報と、声の高さ情報とを含む。性別は、話者の性別を一意に識別するものである。声の高さか情報は、話者の声が高いか低いかを示す情報である。たとえば、話者１ａは、自身の属性情報を、携帯端末２ａに登録しておく。

話者１ｂによる音声は、端末装置２ｂのマイクにより集音され、集音された音声信号は、分岐コネクタ３を介して、収録機器１５０に送信される。以下の説明では、話者１ｂの音声信号を、「第２音声信号」と表記する。

端末装置２ｂは、第２音声信号に、話者１ｂの属性情報を付与する。たとえば、話者１ｂは、自身の属性情報を、端末装置２ｂに登録しておく。話者１ｂの属性情報に関する説明は、話者１ａの属性情報に関する説明と同様である。

収録機器１５０は、第１音声信号および第２音声信号を収録する装置である。たとえば、収録機器１５０は、第１音声信号を受信すると、第１音声信号を、所定の音声ファイルフォーマットにより、音声ファイルに変換し、第１音声信号の音声ファイルを、音声評価装置２００に送信する。第１音声信号の音声ファイルには、話者１ａの属性情報が含まれる。以下の説明では、適宜、第１音声信号の音声ファイルを「第１音声ファイル」と表記する。

収録機器１５０は、第２音声信号を受信すると、第２音声信号を、所定の音声ファイルフォーマットにより、音声ファイルに変換し、第２音声信号の音声ファイルを、音声評価装置２００に送信する。第２音声信号の音声ファイルには、話者１ｂの属性情報が含まれる。以下の説明では、適宜、第２音声信号の音声ファイルを「第２音声ファイル」と表記する。

音声評価装置２００は、第１音声ファイルの第１音声信号を基にして、話者１ａの音声の印象を評価する。音声評価装置２００は、第２音声ファイルの第２音声信号を基にして、話者１ｂの音声の印象を評価する。そして、音声評価装置２００は、話者１ａの音声の印象の評価結果および話者２ａの音声の印象の評価結果を基にして、話者１ａ、１ｂ間の会話全体のスコアを算出する。

図７は、本実施例２に係る音声評価装置の構成を示す機能ブロック図である。図７に示すように、この音声評価装置２００は、受信部２０１、記憶装置２０２、音声評価部２０３、評価結果格納部２０４を有する。

受信部２０１は、収録機器１５０から、第１音声ファイルおよび第２音声ファイルを受信する処理部である。受信部２０１は、受信した第１音声ファイルおよび第２音声ファイルを、記憶部２０２の音声ファイルテーブル２０２ａに登録する。受信部２０１は、通信装置に対応する。

記憶装置２０２は、音声ファイルテーブル２０２ａと、評価結果テーブル２０２ｂを有する。記憶装置２０２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声ファイルテーブル２０２ａは、第１音声ファイルおよび第２音声ファイルを格納するテーブルである。

評価結果テーブル２０２ｂは、評価結果を格納するテーブルである。たとえば、評価結果テーブル２０２ｂは、話者１ａの評価結果、話者１ｂの評価結果、話者１ａ、１ｂ間の会話全体のスコアを格納する。

音声評価部２０３は、第１音声ファイルおよび第２音声ファイルを基にして、話者１ａ、１ｂの音声の印象を評価する。そして、音声評価部２０３は、話者１ａ、１の音声の印象の評価結果を基にして、話者１ａ、１ｂ間の会話全体のスコアを算出する。音声評価部２０３は、話者１ａ、１ｂの音声の印象の評価結果および会話全体のスコアを、評価結果格納部２０４に出力する。

評価結果格納部２０４は、話者１ａ、１の音声の印象の評価結果および会話全体のスコアを、評価結果テーブル２０２ｂに格納する処理部である。

ここで、図７に示した音声評価部２０３、評価結果格納部２０４は、所定の制御部（図示略）に対応する。たとえば、制御部は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

続いて、図７に示した音声評価部２０３の構成について説明する。図８は、本実施例２に係る音声評価部の構成を示す機能ブロック図である。図８に示すように、この音声評価部２０３は、ピッチ検出部２１０、分布算出部２１１、広がり算出部２１２、記憶部２１３、推定部１１４、評価部１１５を有する。

ピッチ検出部２１０は、音声ファイルの音声信号を周波数解析することで、所定区間毎のピッチ周波数を検出する処理部である。たとえば、ピッチ検出部２１０は、第１音声ファイルの第１音声信号を周波数解析することで、第１音声信号の第１ピッチ周波数を検出する。また、ピッチ検出部２１０は、第２音声ファイルの第２音声信号を周波数解析することで、第２音声信号の第２ピッチ周波数を検出する。ピッチ検出部２１０が、音声信号からピッチ周波数を検出する処理は、図２に示したピッチ検出部１１０が、音声信号からピッチ周波数を検出する処理と同様である。

ピッチ検出部２１０は、話者１ａの属性情報と、複数の第１ピッチ周波数とを分布算出部２１１に出力する。また、ピッチ検出部２１０は、話者１ｂの属性情報と、複数の第２ピッチ周波数とを分布算出部２１１に出力する。

分布算出部２１１は、所定区間内の複数のピッチ周波数を基にして、ヒストグラムを算出する処理部である。たとえば、分布算出部２１１は、所定区間内の複数の第１ピッチ周波数を基にして、第１ヒストグラムを算出する。分布算出部２１１は、所定区間内の複数の第２ピッチ周波数を基にして、第２ヒストグラムを算出する。分布算出部２１１が、ヒストグラムを算出する処理は、図２に示した分布算出部１１１が、ヒストグラムを算出する処理と同様である。

分布算出部２１１は、複数の第１ピッチ周波数を基にして算出した、第１ヒストグラムの情報を、広がり算出部２１２に出力する。第１ヒストグラムの情報は、第１ヒストグラムの中心部の情報、第１ヒストグラムの裾部の情報を含む。

分布算出部２１１は、複数の第２ピッチ周波数を基にして算出した、第２ヒストグラムの情報を、広がり算出部２１２に出力する。第２ヒストグラムの情報は、第２ヒストグラムの中心部の情報、第２ヒストグラムの裾部の情報を含む。

広がり算出部２１２は、ヒストグラムを補正した上で、ヒストグラムの広がりを算出する処理部である。たとえば、広がり算出部２１２は、第１ヒストグラムを補正した上で、第１ヒストグラムの広がりを算出する。広がり算出部２１２は、第２ヒストグラムを補正した上で、第２ヒストグラムの広がりを算出する。広がり算出部２１２が、ヒストグラムの広がりを算出する処理は、図２に示した広がり算出部１１２が、ヒストグラムの広がりを算出する処理と同様である。たとえば、補正したヒストグラムの広がりは、補正したピッチ周波数（第１ピッチ周波数、第２ピッチ周波数）に基づく標準偏差に対応する。

広がり算出部２１２は、属性情報と対応づけて、補正したヒストグラムの広がりに対応する標準偏差の情報を、推定部２１４および評価部２１５に出力する。たとえば、広がり算出部２１２は、話者１ａの属性情報と対応づけて、補正した第１ヒストグラムの広がりに対応する標準偏差の情報を、推定部２１４および評価部２１５に出力する。広がり算出部２１２は、話者１ｂの属性情報と対応づけて、補正した第２ヒストグラムの広がりに対応する標準偏差の情報を、推定部２１４および評価部２１５に出力する。

記憶部２１３は、平常時分布テーブル２１３ａを有する。記憶部２１３は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

平常時分布テーブル２１３ａは、属性情報に対応する話者の平常時における、ヒストグラムの広がりの情報を保持するテーブルである。たとえば、平常時分布テーブル２１３ａは、属性情報と、標準偏差とを対応づける。平常時分布テーブル２１３ａの標準偏差は、後述する推定部２１４によって推定される。

図９は、本実施例２に係る平常時分布テーブルのデータ構造の一例を示す図である。図９に示すように、この平常時分布テーブル２１３ａは、属性情報と、標準偏差とを対応づける。属性情報は、性別情報と、声の高さ情報とを対応づける。

推定部２１４は、属性情報毎に、話者の平常時における標準偏差を推定する処理部である。推定部２１４は、属性情報と、平常時における標準偏差とを対応づけて、平常時分布テーブル２１３ａに格納する。推定部２１４は、音声ファイル（第１音声ファイルおよび第２音声ファイル）に添付されている属性情報を取得する。

推定部２１４は、属性情報を取得し、属性情報に対応する標準偏差が平常時分布テーブル２１３ａに格納されていない場合には、「初期動作」を行う。一方、推定部２１４は、属性情報に対応する標準偏差が、平常時分布テーブル２１３ａに格納されている場合には、「更新動作」を行う。推定部２１４による、初期動作、更新動作に関する説明は、属性情報毎に、実行される点を除いて、推定部１１４の初期動作、更新動作に関する説明と同様である。

以下の説明では、話者１ａの属性情報に対応する、平常時分布テーブル２１３ａから取得した、標準偏差を「第１平常時標準偏差」と表記する。話者１ａの属性情報に対応する、広がり算出部２１２から取得した標準偏差を「第１評価標準偏差」と表記する。

話者１ｂの属性情報に対応する、平常時分布テーブル２１３ａから取得した、標準偏差を「第２平常時標準偏差」と表記する。話者１ｂの属性情報に対応する、広がり算出部２１２から取得した標準偏差を「第２評価標準偏差」と表記する。

なお、推定部２１４は、評価部２１５から、話者１ａの属性情報を取得し、第１平常時標準偏差の要求を受け付けた場合に、第１平常時標準偏差を平常時分布テーブル２１３ａから取得し、第１平常時標準偏差を、評価部２１５に出力する。

推定部２１４は、評価部２１５から、話者１ｂの属性情報を取得し、第２平常時標準偏差の要求を受け付けた場合に、第２平常時標準偏差を平常時分布テーブル２１３ａから取得し、第２平常時標準偏差を、評価部２１５に出力する。

評価部２１５は、各標準偏差を基にして、話者１ａ，１ｂの音声の印象を評価する処理部である。また、評価部２１５は、話者１ａ，１ｂの音声の印象の評価結果を基にして、話者１ａ、１ｂ間の会話全体のスコアを算出する。

具体的に、評価部２１５は、第１平常時標準偏差と、第１評価標準偏差とを基にして、話者１ａの音声の印象を評価する。また、評価部２１５は、第２平常時標準偏差と、第２評価標準偏差とを基にして、話者１ｂの音声の印象を評価する。評価部２１５が、各標準偏差を基にして、話者１ａ，１ｂの音声の印象を評価する処理は、評価部１１５が、音声を評価する処理と同様である。

評価部２１５は、上記処理を繰り返し実行することで、所定区間毎に、話者１ａの評価結果および話者１ｂの評価結果を特定する。

続いて、評価部２１５は、話者１ａの評価結果および話者１ｂの評価結果を特定した後に、式（２）に基づいて、会話全体のスコアを算出する。

会話全体のスコア＝（話者１ａの印象が良いと評価された区間数＋話者１ｂの印象が良いと評価された区間数）／（全体の区間数×２）×１００・・・（２）

評価部２１５は、話者１ａ、１ｂの音声の印象の評価結果および会話全体のスコアを、評価結果格納部２０４に出力する。

次に、本実施例２に係る音声評価装置２００の効果について説明する。音声評価装置２００は、話者の属性情報に合わせて、平常時標準偏差を学習しておき、評価時において、話者の属性情報に応じた平常時標準偏差を用いて、話者の音声を評価する。このため、話者の属性情報に基づく、音声の評価を行うことができ、評価の正確性を向上させることができる。

また、音声評価装置２００は、各話者１ａ，１ｂの音声の評価結果に基づいて、会話全体のスコアを算出するため、管理者などが係るスコアを参照することで、会話全体の善し悪しを把握することができる。たとえば、式（２）により算出される会話全体のスコアは、値が大きいほど、会話内容が良かったと言える。

図１０は、本実施例３に係る音声評価システムの構成を示す図である。図１０に示すように、この音声評価システムは、マイク３０Ａ，３０Ｂ，３０Ｃ、収録機器３００、クラウド１７０を有する。マイク３０Ａ〜３０Ｃは、収録機器３００に接続される。収録機器３００は、インターネット網１５ｂを介して、クラウド１７０に接続される。たとえば、クラウド１７０には、音声評価装置４００が含まれる。図示を省略するが、音声評価装置４００は、複数のサーバによって構成されていてもよい。

話者１Ａによる音声は、マイク３０ａにより集音され、集音された音声信号は、収録機器３００に出力される。話者１Ｂによる音声は、マイク３０ｂにより集音され、集音された音声信号は、収録機器３００に出力される。話者１Ｃによる音声は、マイク３０ｃにより集音され、集音された音声信号は、収録機器３００に出力される。

以下の説明では、話者１Ａの音声信号を、「第１音声信号」と表記する。話者１Ｂの音声信号を、「第２音声信号」と表記する。話者１Ｃの音声信号を、「第３音声信号」と表記する。

なお、第１音声信号には、話者１Ａの話者情報が付与される。話者情報は、話者を一意に識別する情報である。第２音声信号には、話者１Ｂの話者情報が付与される。第３音声信号には、話者１Ｃの話者情報が付与される。

収録機器３００は、第１音声信号、第２音声信号、第３音声信号を収録する装置である。また、収録装置３００は、各音声信号のピッチ周波数を検出する処理を実行する。収録装置３００は、話者情報と、所定区間毎のピッチ周波数とを対応づけて、音声評価装置４００に送信する。

音声評価装置４００は、収録機器３００から受信する各話者情報のピッチ周波数を基にして、各話者の音声を評価する処理部である。また、音声評価装置４００は、各話者の音声の評価結果を基にして、話者１Ａ〜１Ｃの会話の印象を評価する。

図１１は、本実施例３に係る収録機器の構成を示す機能ブロック図である。図１１に示すように、この収録機器３００は、ＡＤ変換部３１０ａ〜３１０ｂと、ピッチ検出部３２０と、ファイル化部３３０と、送信部３４０とを有する。

ＡＤ変換部３１０ａは、マイク３０ａから第１音声信号を受信し、ＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部３１０ａは、第１音声信号（アナログ信号）を、第１音声信号（デジタル信号）に変換する。ＡＤ変換部３１０ａは、第１音声信号（デジタル信号）を、ピッチ検出部３２０に出力する。以下の説明では、ＡＤ変換部３１０ａから出力される第１音声信号（デジタル信号）を単に第１音声信号と表記する。

ＡＤ変換部３１０ｂは、マイク３０ｂから第２音声信号を受信し、ＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部３１０ｂは、第２音声信号（アナログ信号）を、第２音声信号（デジタル信号）に変換する。ＡＤ変換部３１０ｂは、第２音声信号（デジタル信号）を、ピッチ検出部３２０に出力する。以下の説明では、ＡＤ変換部３１０ｂから出力される第２音声信号（デジタル信号）を単に第２音声信号と表記する。

ＡＤ変換部３１０ｃは、マイク３０ｃから第３音声信号を受信し、ＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部３１０ｃは、第３音声信号（アナログ信号）を、第３音声信号（デジタル信号）に変換する。ＡＤ変換部３１０ｃは、第３音声信号（デジタル信号）を、ピッチ検出部３２０に出力する。以下の説明では、ＡＤ変換部３１０ｃから出力される第３音声信号（デジタル信号）を単に第３音声信号と表記する。

ピッチ検出部３２０は、音声信号を周波数解析することで、所定区間毎のピッチ周波数を算出する処理部である。たとえば、ピッチ検出部３２０は、第１音声信号を周波数解析することで、第１音声信号の第１ピッチ周波数を検出する。ピッチ検出部３２０は、第２音声信号を周波数解析することで、第２音声信号の第２ピッチ周波数を検出する。ピッチ検出部３２０は、第３音声信号を周波数解析することで、第３音声信号の第３ピッチ周波数を検出する。

ピッチ検出部３２０は、話者１Ａの話者情報と、所定区間毎の第１ピッチ周波数とを対応づけて、ファイル化部３３０に出力する。ピッチ検出部３２０は、話者１Ｂの話者情報と、所定区間毎の第２ピッチ周波数とを対応づけて、ファイル化部３３０に出力する。ピッチ検出部３２０は、話者１Ｃの話者情報と、所定区間毎の第３ピッチ周波数とを対応づけて、ファイル化部３３０に出力する。

ファイル化部３３０は、ピッチ検出部３２０から受け付ける情報をファイル化することで、「音声ファイル情報」を生成する処理部である。この音声ファイル情報には、話者情報と、所定区間毎のピッチ周波数とを対応づけた情報を含む。具体的に、音声ファイル情報は、話者１Ａの話者情報と、所定区間毎の第１ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者１Ｂの話者情報と、所定区間毎の第２ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者１Ｃの話者情報と、所定区間毎の第３ピッチ周波数とを対応づけた情報を含む。ファイル化部３３０は、音声ファイル情報を、送信部３４０に出力する。

送信部３４０は、ファイル化部３３０から音声ファイル情報を取得し、取得した音声ファイル情報を、音声評価装置４００に送信する。

図１２は、本実施例３に係る音声評価装置の構成を示す機能ブロック図である。図１２に示すように、この音声評価装置４００は、受信部４０１、記憶装置４０２、音声評価部４０３、評価結果格納部４０４を有する。

受信部４０１は、収録機器３００から、音声ファイル情報を受信する処理部である。受信部４０１は、受信した音声ファイル情報を、記憶部４０２の音声ファイルテーブル４０２ａに登録する。受信部４０１は、通信装置に対応する。

記憶装置４０２は、音声ファイルテーブル４０２ａと、評価結果テーブル４０２ｂを有する。記憶装置４０２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声ファイルテーブル４０２ａは、音声ファイル情報を格納するテーブルである。音声ファイル情報は、話者１Ａの話者情報と、所定区間毎の第１ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者１Ｂの話者情報と、所定区間毎の第２ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者１Ｃの話者情報と、所定区間毎の第３ピッチ周波数とを対応づけた情報を含む。

評価結果テーブル４０２ｂは、評価結果を格納するテーブルである。たとえば、評価結果テーブル４０２ｂは、話者１Ａ〜１Ｃの評価結果、話者１Ａ〜１Ｃ間の会話全体の評価結果を格納する。

音声評価部４０３は、音声ファイル情報を基にして、話者１Ａ〜１Ｃの音声の印象を評価する。そして、音声評価部４０３は、話者１Ａ〜１Ｃの音声の印象の評価結果を基にして、話者１Ａ〜１Ｃ間の会話全体を評価する。音声評価部４０３は、話者１Ａ〜１Ｃの音声の印象の評価結果および会話全体の評価結果を、評価結果格納部４０４に出力する。

評価結果格納部４０４は、話者１Ａ〜１Ｃの音声の印象の評価結果および会話全体の評価結果を、評価結果テーブル４０２ｂに格納する処理部である。

ここで、図１２に示した音声評価部４０３、評価結果格納部４０４は、所定の制御部（図示略）に対応する。たとえば、制御部は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

続いて、図１３に示した音声評価部４０３の構成について説明する。図１３は、本実施例３に係る音声評価部の構成を示す機能ブロック図である。図１３に示すように、この音声評価部４０３は、ピッチ取得部４１０、分布算出部４１１、広がり算出部４１２、記憶部４１３、推定部４１４、評価部４１５を有する。

ピッチ取得部４１０は、音声ファイルテーブル４０２ａから音声ファイル情報を取得する処理部である。ピッチ取得部４１０は、音声ファイル情報を、分布算出部４１１に出力する。

分布算出部４１１は、所定区間内の複数のピッチ周波数を基にして、ヒストグラムを算出する処理部である。たとえば、分布算出部４１１は、所定区間内の複数の第１ピッチ周波数を基にして、第１ヒストグラムを算出する。分布算出部４１１は、所定区間内の複数の第２ピッチ周波数を基にして、第２ヒストグラムを算出する。分布算出部４１１は、所定区間内の複数の第３ピッチ周波数を基にして、第３ヒストグラムを算出する。分布算出部４１１が、ヒストグラムを算出する処理は、図２に示した分布算出部１１１が、ヒストグラムを算出する処理と同様である。

分布算出部４１１は、複数の第１ピッチ周波数を基にして算出した、第１ヒストグラムの情報を、広がり算出部４１２に出力する。第１ヒストグラムの情報は、第１ヒストグラムの中心部の情報、第１ヒストグラムの裾部の情報を含む。

分布算出部４１１は、複数の第２ピッチ周波数を基にして算出した、第２ヒストグラムの情報を、広がり算出部４１２に出力する。第２ヒストグラムの情報は、第２ヒストグラムの中心部の情報、第２ヒストグラムの裾部の情報を含む。

分布算出部４１１は、複数の第３ピッチ周波数を基にして算出した、第３ヒストグラムの情報を、広がり算出部４１２に出力する。第２ヒストグラムの情報は、第３ヒストグラムの中心部の情報、第３ヒストグラムの裾部の情報を含む。

広がり算出部４１２は、ヒストグラムを補正した上で、ヒストグラムの広がりを算出する処理部である。たとえば、広がり算出部４１２は、第１ヒストグラムを補正した上で、第１ヒストグラムの広がりを算出する。広がり算出部４１２は、第２ヒストグラムを補正した上で、第２ヒストグラムの広がりを算出する。広がり算出部４１２は、第３ヒストグラムを補正した上で、第３ヒストグラムの広がりを算出する。広がり算出部４１２が、ヒストグラムの広がりを算出する処理は、図２に示した広がり算出部１１２が、ヒストグラムの広がりを算出する処理と同様である。たとえば、補正したヒストグラムの広がりは、補正したピッチ周波数（第１ピッチ周波数、第２ピッチ周波数、第３ピッチ周波数）に基づく標準偏差に対応する。

広がり算出部４１２は、話者情報と対応づけて、補正したヒストグラムの広がりに対応する標準偏差の情報を、推定部４１４および評価部４１５に出力する。たとえば、広がり算出部４１２は、話者１Ａの話者情報と対応づけて、補正した第１ヒストグラムの広がりに対応する標準偏差の情報を、推定部４１４および評価部４１５に出力する。広がり算出部４１２は、話者１Ｂの話者情報と対応づけて、補正した第２ヒストグラムの広がりに対応する標準偏差の情報を、推定部４１４および評価部４１５に出力する。広がり算出部４１２は、話者１Ｃの話者情報と対応づけて、補正した第２ヒストグラムの広がりに対応する標準偏差の情報を、推定部４１４および評価部４１５に出力する。

記憶部４１３は、平常時分布テーブル４１３ａを有する。記憶部４１３は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

平常時分布テーブル４１３ａは、話者情報に対応する話者の平常時における、ヒストグラムの広がりの情報を保持するテーブルである。たとえば、平常時分布テーブル４１３ａは、話者情報と、標準偏差とを対応づける。平常時分布テーブル４１３ａの標準偏差は、後述する推定部４１４によって推定される。

推定部４１４は、話者情報毎に、話者の平常時における標準偏差を推定する処理部である。推定部４１４は、話者情報と、平常時における標準偏差とを対応づけて、平常時分布テーブル４１３ａに格納する。推定部４１４は、音声ファイル情報に添付されている話者情報を取得する。

推定部４１４は、話者情報を取得し、話者情報に対応する標準偏差が平常時分布テーブル４１３ａに格納されていない場合には、「初期動作」を行う。一方、推定部４１４は、話者情報に対応する標準偏差が、平常時分布テーブル４１３ａに格納されている場合には、「更新動作」を行う。推定部４１４による、初期動作、更新動作に関する説明は、図２に示した推定部１１４の初期動作、更新動作に関する説明と同様である。

以下の説明では、話者１Ａの話者情報に対応する、平常時分布テーブル４１３ａから取得した、標準偏差を「第１平常時標準偏差」と表記する。話者１Ａの話者情報に対応する、広がり算出部４１２から取得した標準偏差を「第１評価標準偏差」と表記する。

話者１Ｂの話者情報に対応する、平常時分布テーブル４１３ａから取得した、標準偏差を「第２平常時標準偏差」と表記する。話者１Ｂの話者情報に対応する、広がり算出部４１２から取得した標準偏差を「第２評価標準偏差」と表記する。

話者１Ｃの話者情報に対応する、平常時分布テーブル４１３ａから取得した、標準偏差を「第３平常時標準偏差」と表記する。話者１Ｃの話者情報に対応する、広がり算出部４１２から取得した標準偏差を「第３評価標準偏差」と表記する。

なお、推定部４１４は、評価部４１５から、話者１Ａの話者情報を取得し、第１平常時標準偏差の要求を受け付けた場合に、第１平常時標準偏差を平常時分布テーブル４１３ａから取得し、第１平常時標準偏差を、評価部４１５に出力する。

推定部４１４は、評価部４１５から、話者１Ｂの話者情報を取得し、第２平常時標準偏差の要求を受け付けた場合に、第２平常時標準偏差を平常時分布テーブル４１３ａから取得し、第２平常時標準偏差を、評価部４１５に出力する。

推定部４１４は、評価部４１５から、話者１Ｃの話者情報を取得し、第３平常時標準偏差の要求を受け付けた場合に、第３平常時標準偏差を平常時分布テーブル４１３ａから取得し、第３平常時標準偏差を、評価部４１５に出力する。

評価部４１５は、各標準偏差を基にして、話者１Ａ〜１Ｃの音声の印象を評価する処理部である。また、評価部４１５は、話者１Ａ〜１Ｃの音声の印象の評価結果を基にして、話者１Ａ〜１Ｃの会話全体の評価を行う。

具体的に、評価部４１５は、第１平常時標準偏差と、第１評価標準偏差とを基にして、話者１Ａの音声の印象を評価する。評価部４１５は、第２平常時標準偏差と、第２評価標準偏差とを基にして、話者１Ｂの音声の印象を評価する。評価部４１５は、第３平常時標準偏差と、第３評価標準偏差とを基にして、話者１Ｃの音声の印象を評価する。評価部４１５が、各標準偏差を基にして、話者１Ａ〜１Ｃの音声の印象を評価する処理は、評価部１１５が、音声を評価する処理と同様である。

評価部４１５は、上記処理を繰り返し実行することで、所定区間毎に、話者１Ａの評価結果、話者１Ｂの評価結果、話者１Ｃの評価結果を特定する。

続いて、評価部４１５は、話者１Ａ〜１Ｃの評価結果を特定した後に、会話全体の評価を行う。たとえば、評価部４１５は、話者毎に、所定フレーム間の各評価結果「良い、普通、悪い」のうち、平均の評価結果を特定する。たとえば、評価部４１５は、所定フレーム間の各評価結果のうち、もっとも多い評価結果を、平均の評価結果とする。

評価部４１５は、各話者１Ａ〜１Ｃの平均の評価結果が非常に近い場合には、良い会話であると判定する。評価部４１５は、各話者１Ａ〜１Ｃの平均の評価結果が異なる場合には、悪い会話であると判定する。

たとえば、評価部４１５は、各話者１Ａ〜１Ｃの平均の評価結果を比較し、２以上の平均の評価結果が一致した場合には、良い会話であると判定する。一方、評価部４１５は、各話者１Ａ〜１Ｃの平均の評価結果を比較し、２以上の平均の評価結果が一致しない場合には、悪い会話であると判定する。

評価部４１５は、話者１Ａ〜１Ｃの音声の印象の評価結果および会話全体の評価結果を、評価結果格納部４０４に出力する。

次に、本実施例３に係る音声評価装置４００の効果について説明する。音声評価装置４００は、話者の話者情報に合わせて、平常時標準偏差を学習しておき、評価時において、話者の話者情報に応じた平常時標準偏差を用いて、話者の音声を評価する。このため、話者情報に基づく、音声の評価を行うことができ、評価の正確性を向上させることができる。

また、音声評価装置４００は、各話者１Ａ〜１Ｃの音声の評価結果に基づいて、会話全体を評価するため、管理者などが会話全体の善し悪しを把握することができる。

また、本実施例３に係る音声評価装置４００は、会話全体を評価する場合に、式（３）に基づいて、会話全体のスコアを算出しても良い。

会話全体のスコア＝（話者１Ａの印象が良いと評価された区間数＋話者１Ｂの印象が良いと評価された区間数＋話者１Ｃの印象が良いと評価された区間数）／（全体の区間数×３）×１００・・・（３）

次に、上記実施例に示した音声評価装置１００，２００，４００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１４は、音声評価装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１４に示すように、コンピュータ５００は、各種演算処理を実行するＣＰＵ５０１と、ユーザからのデータの入力を受け付ける入力装置５０２と、ディスプレイ５０３とを有する。また、コンピュータ５００は、記憶媒体からプログラム等を読み取る読み取り装置５０４と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインターフェース装置５０５とを有する。また、コンピュータ５００は、各種情報を一時記憶するＲＡＭ５０６と、ハードディスク装置５０７とを有する。そして、各装置５０１〜５０７は、バス５０８に接続される。

ハードディスク装置５０７は、ピッチ検出プログラム５０７ａ、分布算出プログラム５０７ｂ、広がり算出プログラム５０７ｃ、推定プログラム５０７ｄ、評価プログラム５０７ｅを有する。ＣＰＵ５０１は、ピッチ検出プログラム５０７ａ、分布算出プログラム５０７ｂ、広がり算出プログラム５０７ｃ、推定プログラム５０７ｄ、評価プログラム５０７ｄを読み出してＲＡＭ５０６に展開する。

ピッチ検出プログラム５０７ａは、ピッチ検出プロセス５０６ａとして機能する。分布算出プログラム５０７ｂは、分布算出プロセス５０６ｂとして機能する。広がり算出プログラム５０７ｃは、広がり算出プロセス５０６ｃとして機能する。推定プログラム５０７ｄは、推定プロセス５０６ｄとして機能する。評価プログラム５０７ｅは、評価プロセス５０６ｅとして機能する。

ピッチ検出プロセス５０６ａの処理は、ピッチ検出部１１０，２１０，３２０の処理に対応する。分布算出プロセス５０６ｂは、分布算出部１１１、２１１，４１１の処理に対応する。広がり算出プロセス５０６ｃの処理は、広がり算出部１１２，２１２，４１２の処理に対応する。推定プロセス５０６ｄは、推定部１１４，２１４，４１４の処理に対応する。

なお、各プログラム５０７ａ〜５０７ｅについては、必ずしも最初からハードディスク装置５０７に記憶させておかなくても良い。例えば、コンピュータ５００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ５００が各プログラム５０７ａ〜５０７ｅを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）音声信号を解析してピッチ周波数を検出し、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、
前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する
処理をコンピュータに実行させることを特徴とする音声評価プログラム。

（付記２）前記分布の中心部に対応するピッチ周波数に第１の重みを乗算し、前記分布の裾部分に対応するピッチ周波数に前記第１の重みよりも小さい第２の重みを乗算することで、前記分布を補正する処理を更に実行させ、前記評価する処理は、補正した分布の広がりを基にして、前記発話区間内の音声の印象を評価することを特徴とする付記１に記載の音声評価プログラム。

（付記３）前記ピッチ周波数を検出する処理は、各時刻のピッチ周波数と、一定時間内における平均のピッチ周波数、上限のピッチ周波数、下限のピッチ周波数のいずれかを検出することを特徴とする付記１または２に記載の音声評価プログラム。

（付記４）前記評価する処理は、複数のピッチ周波数に関する、分散、標準偏差、範囲、平方和、四分位範囲のいずれかの統計量を算出し、前記統計量を基にして、音声の印象を評価することを特徴とする付記１、２または３に記載の音声評価プログラム。

（付記５）予め定めた所定区間内の音声信号を解析して得られるピッチ周波数を基にして、ユーザの平常時の検出頻度の基準分布を推定する処理を更に実行させ、前記評価する処理は、前記基準分布と、補正された分布とを基にして、音声の印象を評価することを特徴とする付記２に記載の音声評価プログラム。

（付記６）前記基準分布と、話者情報とを対応づけて記憶装置に記憶する処理を更に実行させ、前記評価する処理は、話者情報に対応する基準分布を選択し、選択した基準分布の広がりと、補正された分布の広がりとを基にして、音声の印象を評価することを特徴とする付記５に記載の音声評価プログラム。

（付記７）前記基準分布を推定する処理は、指定された話者情報に対応する基準分布が前記記憶装置に記憶されている場合に、記憶装置に記憶された指定された話者情報に対応する基準分布を、前記基準分布を推定する場合の初期値に設定することを特徴とする付記６に記載の音声評価プログラム。

（付記８）前記分布を補正する処理は、予め定められた所定区間における複数のピッチ周波数を基にして、前記分布の中心部および前記分布の裾部を特定することを特徴とする付記２に記載の音声評価プログラム。

（付記９）前記評価する処理は、異なる話者情報毎に音声を評価し、複数話者による会話全体を評価することを特徴とする付記１に記載の音声評価プログラム。

（付記１０）前記評価する処理は、各時刻における音声の印象をそれぞれ評価し、各評価結果に関するスコアを算出することを特徴とする付記１に記載の音声評価プログラム。

（付記１１）前記評価する処理は、前記分布の広がりが大きい場合は声の印象が良いと評価し、前記分布の広がりが小さい場合は声の印象が悪いと評価することを特徴とする付記２、３または４に記載の音声評価プログラム。

（付記１２）コンピュータが実行する音声評価方法であって、
音声信号を解析してピッチ周波数を検出し、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、
前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する
処理をコンピュータに実行させることを特徴とする音声評価方法。

（付記１３）前記分布の中心部に対応するピッチ周波数に第１の重みを乗算し、前記分布の裾部分に対応するピッチ周波数に前記第１の重みよりも小さい第２の重みを乗算することで、前記分布を補正する処理を更に実行させ、前記評価する処理は、補正した分布の広がりを基にして、前記発話区間内の音声の印象を評価することを特徴とする付記１２に記載の音声評価方法。

（付記１４）前記ピッチ周波数を検出する処理は、各時刻のピッチ周波数と、一定時間内における平均のピッチ周波数、上限のピッチ周波数、下限のピッチ周波数のいずれかを検出することを特徴とする付記１２または１３に記載の音声評価方法。

（付記１５）前記評価する処理は、複数のピッチ周波数に関する、分散、標準偏差、範囲、平方和、四分位範囲のいずれかの統計量を算出し、前記統計量を基にして、音声の印象を評価することを特徴とする付記１２、１３または１４に記載の音声評価方法。

（付記１６）予め定めた所定区間内の音声信号を解析して得られるピッチ周波数を基にして、ユーザの平常時の検出頻度の基準分布を推定する処理を更に実行させ、前記評価する処理は、前記基準分布と、補正された分布とを基にして、音声の印象を評価することを特徴とする付記１３に記載の音声評価方法。

（付記１７）前記基準分布と、話者情報とを対応づけて記憶装置に記憶する処理を更に実行させ、前記評価する処理は、話者情報に対応する基準分布を選択し、選択した基準分布の広がりと、補正された分布の広がりとを基にして、音声の印象を評価することを特徴とする付記１６に記載の音声評価方法。

（付記１８）前記基準分布を推定する処理は、指定された話者情報に対応する基準分布が前記記憶装置に記憶されている場合に、記憶装置に記憶された指定された話者情報に対応する基準分布を、前記基準分布を推定する場合の初期値に設定することを特徴とする付記１７に記載の音声評価方法。

（付記１９）前記分布を補正する処理は、予め定められた所定区間における複数のピッチ周波数を基にして、前記分布の中心部および前記分布の裾部を特定することを特徴とする付記１３に記載の音声評価方法。

（付記２０）前記評価する処理は、異なる話者情報毎に音声を評価し、複数話者による会話全体を評価することを特徴とする付記１２に記載の音声評価方法。

（付記２１）前記評価する処理は、各時刻における音声の印象をそれぞれ評価し、各評価結果に関するスコアを算出することを特徴とする付記１２に記載の音声評価方法。

（付記２２）前記評価する処理は、前記分布の広がりが大きい場合は声の印象が良いと評価し、前記分布の広がりが小さい場合は声の印象が悪いと評価することを特徴とする付記１３、１４または１５に記載の音声評価方法。

（付記２３）音声信号を解析してピッチ周波数を検出するピッチ検出部と、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する評価部と、
を有することを特徴とする音声評価装置。

（付記２４）前記分布の中心部に対応するピッチ周波数に第１の重みを乗算し、前記分布の裾部分に対応するピッチ周波数に前記第１の重みよりも小さい第２の重みを乗算することで、前記分布を補正する広がり算出部を更に有し、前記評価部は、補正した分布の広がりを基にして、前記発話区間内の音声の印象を評価することを特徴とする付記２３に記載の音声評価装置。

（付記２５）前記ピッチ検出部は、各時刻のピッチ周波数と、一定時間内における平均のピッチ周波数、上限のピッチ周波数、下限のピッチ周波数のいずれかを検出することを特徴とする付記２３または２４に記載の音声評価装置。

（付記２６）前記広がり算出部は、複数のピッチ周波数に関する、分散、標準偏差、範囲、平方和、四分位範囲のいずれかの統計量を算出し、前記評価部は、前記統計量を基にして、音声の印象を評価することを特徴とする付記２４または２５に記載の音声評価装置。

（付記２７）予め定めた所定区間内の音声信号を解析して得られるピッチ周波数を基にして、ユーザの平常時の検出頻度の基準分布を推定する推定部を更に有し、前記評価部は、前記基準分布と、補正された分布とを基にして、音声の印象を評価することを特徴とする付記２４に記載の音声評価装置。

（付記２８）前記推定部は、前記基準分布と、話者情報とを対応づけて記憶装置に記憶し、前記評価部は、話者情報に対応する基準分布を選択し、選択した基準分布の広がりと、補正された分布の広がりとを基にして、音声の印象を評価することを特徴とする付記２７に記載の音声評価装置。

（付記２９）前記推定部は、指定された話者情報に対応する基準分布が前記記憶装置に記憶されている場合に、記憶装置に記憶された指定された話者情報に対応する基準分布を、前記基準分布を推定する場合の初期値に設定することを特徴とする付記２８に記載の音声評価装置。

（付記３０）前記広がり算出部は、予め定められた所定区間における複数のピッチ周波数を基にして、前記分布の中心部および前記分布の裾部を特定することを特徴とする付記２４に記載の音声評価装置。

（付記３１）前記評価部は、異なる話者情報毎に音声を評価し、複数話者の会話全体を評価することを特徴とする付記２３に記載の音声評価装置。

（付記３２）前記評価部は、異なる発話区間の音声をそれぞれ評価し、各評価結果に関するスコアを算出することを特徴とする付記２３に記載の音声評価装置。

（付記３３）前記評価部は、前記分布の広がりが大きい場合は声の印象が良いと評価し、前記分布の広がりが小さい場合は声の印象が悪いと評価することを特徴とする付記２４、２５または２６に記載の音声評価装置。

１００，２００，４００音声評価装置
１５０，３００収録機器

Claims

音声信号を解析してピッチ周波数を検出し、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、
前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する
処理をコンピュータに実行させることを特徴とする音声評価プログラム。
前記分布の中心部に対応するピッチ周波数に第１の重みを乗算し、前記分布の裾部分に対応するピッチ周波数に前記第１の重みよりも小さい第２の重みを乗算することで、前記分布を補正する処理を更に実行させ、前記評価する処理は、補正した分布の広がりを基にして、発話区間内の音声の印象を評価することを特徴とする請求項１に記載の音声評価プログラム。
前記ピッチ周波数を検出する処理は、各時刻のピッチ周波数と、一定時間内における平均のピッチ周波数、上限のピッチ周波数、下限のピッチ周波数のいずれかを検出することを特徴とする請求項１または２に記載の音声評価プログラム。
前記評価する処理は、複数のピッチ周波数に関する、分散、標準偏差、範囲、平方和、四分位範囲のいずれかの統計量を算出し、前記統計量を基にして、音声の印象を評価することを特徴とする請求項１、２または３に記載の音声評価プログラム。
予め定めた所定区間内の音声信号を解析して得られるピッチ周波数を基にして、ユーザの平常時の検出頻度の基準分布を推定する処理を更に実行させ、前記評価する処理は、前記基準分布と、補正された分布とを基にして、音声の印象を評価することを特徴とする請求項２に記載の音声評価プログラム。
前記基準分布と、話者情報とを対応づけて記憶装置に記憶する処理を更に実行させ、前記評価する処理は、話者情報に対応する基準分布を選択し、選択した基準分布の広がりと、補正された分布の広がりとを基にして、音声の印象を評価することを特徴とする請求項５に記載の音声評価プログラム。
前記基準分布を推定する処理は、指定された話者情報に対応する基準分布が前記記憶装置に記憶されている場合に、記憶装置に記憶された指定された話者情報に対応する基準分布を、前記基準分布を推定する場合の初期値に設定することを特徴とする請求項６に記載の音声評価プログラム。
前記分布を補正する処理は、予め定められた所定区間における複数のピッチ周波数を基にして、前記分布の中心部および前記分布の裾部を特定することを特徴とする請求項２に記載の音声評価プログラム。
前記評価する処理は、異なる話者情報毎に音声を評価し、複数話者による会話全体を評価することを特徴とする請求項１に記載の音声評価プログラム。
前記評価する処理は、各時刻における音声の印象をそれぞれ評価し、各評価結果に関するスコアを算出することを特徴とする請求項１に記載の音声評価プログラム。
前記評価する処理は、前記分布の広がりが大きい場合は声の印象が良いと評価し、前記分布の広がりが小さい場合は声の印象が悪いと評価することを特徴とする請求項２、３または４に記載の音声評価プログラム。
コンピュータが実行する音声評価方法であって、
音声信号を解析してピッチ周波数を検出し、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、
前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する
処理をコンピュータに実行させることを特徴とする音声評価方法。
音声信号を解析してピッチ周波数を検出するピッチ検出部と、
検出した前記ピッチ周波数の検出頻度の分布に基づいて、検出した前記ピッチ周波数のうち評価対象とする評価対象領域を選択し、前記検出頻度の分布と選択した前記評価対象領域に基づいて、音声を評価する評価部と、
を有することを特徴とする音声評価装置。