JP2014164077A

JP2014164077A - 音声処理サーバ

Info

Publication number: JP2014164077A
Application number: JP2013034330A
Authority: JP
Inventors: Tadashi Fujii; 匡藤井
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2013-02-25
Filing date: 2013-02-25
Publication date: 2014-09-08

Abstract

【課題】話者の識別を容易に行うことが可能な音声処理サーバを提供する。
【解決手段】入力音声の各々について、入力音声特徴量を取得する特徴量取得部と、前記入力音声特徴量から基準音声特徴量を決定する基準音声算出部と、前記入力音声特徴量と前記基準音声特徴量とに基づいて、前記入力音声を音声処理し、出力音声を生成する音声変換部と、を備えた音声処理サーバ。
【選択図】図１

Description

本発明は、音声処理サーバに関する。

近年、音声認識技術および音声処理技術の発達により、入力された音声を分析して特徴を検出することが容易になってきている。そのため、音声入力を行い、該音声の特徴に基づいて出力結果を制御する装置が開発されてきている。

例えば、特許文献１には、話者の音声を音声認識して文章に変換し、さらに入力音声の特徴に基づいてフォントを変更するフォント変換装置が開示されている。また、特許文献２には、音声から話者の性別を判定し、判定した性別に応じて音声と言語表現を切り換えて通訳音声を出力する音声通訳機が開示されている。

特開２００１−３１８９１５号公報特開２０００−２００２７６号公報

しかし、特許文献１および２には、音声のみで意思疎通が行われる場合において、話者の音声を分析し、より話者の特徴を際立たせるような音声処理を行う技術は開示されていない。

そのため、電話等において、複数人が同時に音声のみで会話をする場合、音声が似ていることにより話者を取り違え、会話が混乱することがあった。また、一対一の会話であっても、後に他者が該会話の録音音声を確認した場合、音声が似ていることにより話者を取り違え、会話内容を把握できないことがあった。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、話者の識別を容易に行うことが可能となる、新規かつ改良された音声処理サーバを提供することにある。

上記課題を解決するために、本発明のある観点によれば、入力音声の各々について、入力音声特徴量を取得する特徴量取得部と、前記入力音声特徴量から基準音声特徴量を決定する基準音声算出部と、前記入力音声特徴量と前記基準音声特徴量とに基づいて、前記入力音声を音声処理し、出力音声を生成する音声変換部と、を備えた音声処理サーバが提供される。

前記入力音声特徴量は、前記入力音声の基本周波数であってもよい。

前記基準音声特徴量は、前記入力音声の基本周波数の各々の平均周波数であってもよい。

前記音声変換部は、前記入力音声の基本周波数と前記平均周波数との差分が大きくなるように前記入力音声に対して音声処理を行ってもよい。

前記音声処理サーバは、各年齢帯および各性別に対応する音声モデル波形を各々記憶した音声モデル記憶部と、前記入力音声の波形と前記音声モデル波形の各々とを比較することにより、前記入力音声の話者の年齢帯および性別の少なくとも一方を推定する話者推定部と、をさらに備え、前記話者推定部は、前記入力音声から推定した年齢帯および性別が同一である話者が複数存在するか否かに基づいて、前記特徴量取得部、前記基準音声算出部および前記音声変換部の動作を制御してもよい。

前記音声処理サーバは、前記話者の推定した年齢帯および性別が各々異なる場合、前記入力音声特徴量として、前記入力音声の波形を用いてもよい。

前記基準音声特徴量は、前記入力音声より推定した前記話者の年齢帯および性別に対応する前記音声モデル波形であってもよい。

前記音声変換部は、前記入力音声の波形と前記話者の年齢帯および性別に対応する前記音声モデル波形との差が小さくなるように前記入力音声に対して音声処理を行ってもよい。

前記入力音声特徴量は、前記入力音声の波形であってもよい。

前記音声処理サーバは、各年齢帯および各性別に対応する音声モデル波形を各々記憶した音声モデル記憶部をさらに備え、前記基準音声算出部は、前記入力音声の波形と前記音声モデル波形の各々とを比較することにより、前記入力音声の話者の年齢帯および性別の少なくとも一方を推定してもよい。

以上説明したように本発明によれば、話者の識別を容易に行うことが可能となる。

本発明の実施形態に係る音声処理サーバの概略を説明する説明図である。本発明の第１の実施形態に係る音声処理サーバおよび音声端末装置の内部構成を示したブロック図である。同実施形態に係る音声処理サーバが行う動作を説明するフローチャート図である。本発明の第２の実施形態に係る音声処理サーバおよび音声端末装置の内部構成を示したブロック図である。同実施形態に係る音声処理サーバが行う動作を説明するフローチャート図である。本発明の第３の実施形態に係る音声処理サーバおよび音声端末装置の内部構成を示したブロック図である。本発明の第３の実施形態に係る音声処理サーバが行う動作を説明するフローチャート図である。本発明の実施形態に係る音声処理サーバのハードウェア構成を示すブロック図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜１．音声処理サーバの概略＞
まず、図１を参照して、本発明の実施形態に係る音声処理サーバの概略について、説明を行う。図１は、本発明の実施形態に係る音声処理サーバの概略を説明する説明図である。

なお、以下の発明の詳細な説明においては、主として本発明の実施形態に係る音声処理サーバ１をコールセンタまたはコンタクトセンタの電話による会話音声の処理に適用した場合について記載するが、本発明は係る例示に限定されるものではない。本発明は、様々な音声端末装置を介した会話音声を処理する場合に適用可能であり、例えば、電話会議システムにおける音声処理などに適用することも可能である。

図１に示すように、本発明の実施形態に係る音声処理サーバ１は、通信網３Ａおよび３Ｂによって音声端末装置２Ａ、２Ｂおよび２Ｃと接続されている。また、音声端末装置２Ａ、２Ｂおよび２Ｃを介して、話者４Ａ、４Ｂおよび４Ｃ間で音声による会話が行われる。以下では、話者４Ａ、４Ｂおよび４Ｃ間で行われる一つの呼による会話を一つのセッションとして説明し、話者４Ａ、４Ｂおよび４Ｃは、同じセッションに参加していると表現する。

音声処理サーバ１は、音声端末装置２Ａ、２Ｂおよび２Ｃから、それぞれ音声データを受信し、話者４Ａ、４Ｂおよび４Ｃの音声を各話者４Ａ、４Ｂおよび４Ｃのそれぞれが識別することが容易になるように音声処理を行った上で、音声端末装置２Ａ、２Ｂおよび２Ｃにそれぞれ送信する。具体的には、音声処理サーバ１は、受信し入力された音声データのそれぞれから入力音声の特徴量を取得し、該特徴量から決定した基準音声特徴量と、入力音声の特徴量とに基づいて、入力音声に音声処理を行い、出力音声を生成し送信する。ここで、音声処理方法の詳細については、以下の第１〜第３の実施形態においてそれぞれ後述する。

なお、音声処理サーバ１は、音声端末装置から受信した音声データを音声処理し、該音声端末装置を除いた他の音声端末装置に送信するようにしてもよいし、該音声端末装置を含むすべての音声端末装置に送信するようにしてもよい。

音声端末装置２Ａ、２Ｂおよび２Ｃは、音声処理サーバ１と音声データの送受信を行う。具体的には、音声端末装置２Ａ、２Ｂおよび２Ｃは、それぞれ話者４Ａ、４Ｂおよび４Ｃが発した音声を取得し、通信網３Ａまたは３Ｂを介して音声処理サーバ１に該音声を音声データとして送信する。また、音声端末装置２Ａ、２Ｂおよび２Ｃは、音声処理サーバ１より受信した音声データを音声に変換して、話者４Ａ、４Ｂおよび４Ｃに伝達する。音声端末装置２Ａ、２Ｂおよび２Ｃは、例えば、電話機、携帯電話およびソフトフォンなどの各種電話であってもよいし、電話会議装置などの通信装置であってもよい。

通信網３Ａおよび３Ｂは、音声処理サーバ１と音声端末装置２Ａ、２Ｂおよび２Ｃとの間で音声データの送受信が可能なネットワークである。例えば、通信網３Ａおよび３Ｂは、アナログ回線やＩＳＤＮ（ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅｓＤｉｇｉｔａｌＮｅｔｗｏｒｋ）回線を含む電話回線網、インターネット、衛星通信網などの公衆回線網、またはＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などであってもよい。また、通信網３Ａおよび３Ｂは、同一のネットワークであってもよいし、異なるネットワークであってもよい。

話者４Ａ、４Ｂおよび４Ｃは、それぞれ音声端末装置２Ａ、２Ｂおよび２Ｃを用いて、互いに音声による会話を行うユーザである。例えば、話者４Ａおよび４Ｂは、コールセンタのオペレータおよびスーパーバイザであり、話者４Ｃは、コールセンタに問い合わせを行った顧客である。

ここで、図１において、音声端末装置２Ａ、２Ｂおよび２Ｃを３台、話者４Ａ、４Ｂおよび４Ｃを３人として説明を行ったが、本発明は係る例示に限定されない。本発明の実施形態に係る音声処理サーバ１に接続される音声端末装置の個数、およびセッションに参加する話者の人数は２以上であればよい。また、セッションに参加する話者の人数が多いほど、会話内容を把握するためには、聞き手が音声によって話者を識別することが重要になる。したがって、セッションに参加する話者の人数が多いほど、本発明の実施形態に係る音声処理サーバ１は、似通った音声による会話の混乱をより防止するため、効果的である。

以上、図１を参照して、本発明の実施形態に係る音声処理サーバ１の概略を説明した。以下の第１〜第３の実施形態では、係る音声処理サーバ１の構成および音声処理サーバ１が行う音声処理方法についてそれぞれ詳細に説明を行う。

＜２．第１の実施形態＞
まず、図２および図３を参照して、本発明の第１の実施形態に係る音声処理サーバ１１について説明を行う。

第１の実施形態に係る音声処理サーバ１１は、入力音声特徴量として入力音声の基本周波数を用い、基準音声特徴量として各入力音声の基本周波数の平均周波数を用いる。係る構成により、第１の実施形態に係る音声処理サーバ１１は、入力音声の基本周波数と平均周波数との差がより拡大するように、入力音声の基本周波数を変換する音声処理を行う。

なお、音声の基本周波数は、人間にとって音声の中でも差異を感じ取りやすいパラメータであるため、音声処理サーバ１１は、音声の該基本周波数を変換することにより聞き手が各話者の識別を行うことをより容易にする。

したがって、第１の実施形態に係る音声処理サーバ１１は、各音声端末装置２より受信した入力音声の基本周波数を各入力音声の基本周波数の平均を基準として、互いの基本周波数の差が大きくなるように変換する音声処理を行うことができる。係る音声処理により、音声処理後の出力音声は、音声処理前の入力音声と比較して、平均より基本周波数が高い入力音声は基本周波数がより高くなり、平均より基本周波数が低い入力音声は基本周波数がより低くなる。よって、各音声間の基本周波数の差が拡大するため、音声処理サーバ１１は、話者が音声によって互いを識別すること、および第三者が音声によって話者を識別することをより容易にする。

［２．１．第１の実施形態に係る音声処理サーバの内部構成］
まず、図２を参照して、本発明の第１の実施形態に係る音声処理サーバ１１および音声端末装置２の内部構成について、説明を行う。図２は、本発明の第１の実施形態に係る音声処理サーバ１１および音声端末装置２の内部構成を示したブロック図である。

図２に示すように、第１の実施形態に係る音声処理サーバ１１は、音声端末装置２と通信網３を介して接続されている。音声処理サーバ１１は、サーバ通信部１１１と、入力音声処理部１１３と、特徴量取得部１１５と、基準音声算出部１１７と、音声変換部１１９と、出力音声処理部１２１と、を備える。また、音声端末装置２は、端末通信部２０１と、音声信号変換部２０３と、音声入力部２０５と、音声出力部２０７と、を備える。ここで、通信網３は、図１で説明した通信網３Ａおよび３Ｂと同様であるので、ここでの説明は省略する。

（２．１．１．音声処理サーバの内部構成）
サーバ通信部１１１は、音声処理サーバ１１と音声端末装置２との間で音声データの送受信を行う。具体的には、サーバ通信部１１１は、音声端末装置２から受信した音声データを入力音声処理部１１３に出力し、また、出力音声処理部１２１が出力した音声データを音声端末装置２に送信する。

入力音声処理部１１３は、サーバ通信部１１１が受信した各音声データに識別情報を付加して入力音声として取得する。具体的には、入力音声処理部１１３は、サーバ通信部１１１より音声データを取得し、該音声データに、送信元の音声端末装置２を識別する端末ＩＤ、話者を識別するための話者ＩＤ、および該音声データが含まれるセッションを識別するセッションＩＤを付加する。

特徴量取得部１１５は、入力音声から入力音声特徴量である基本周波数を取得する。具体的には、特徴量取得部１１５は、識別信号が付加された入力音声に対して、時間フレームごとに音声の周波数成分の分布とエネルギー成分の分布を測定し、音声が含まれる有声区間と音声が含まれない無音区間との区切りを識別する。また、特徴量取得部１１５は、識別した有声区間を抽出し、該有声区間の入力音声の周波数をフーリエ変換等にて解析することで、入力音声の基本周波数を取得する。また、特徴量取得部１１５は、複数の有声区間よりそれぞれ基本周波数を取得し、平均を取って入力音声の基本周波数としてもよい。なお、特徴量取得部１１５が行う入力音声からの基本周波数の取得方法は上記に限定されず、特徴量取得部１１５は、他の公知の音声処理技術を用いて入力音声の基本周波数を取得することも可能である。

基準音声算出部１１７は、同一セッションＩＤにおける各入力音声の基本周波数の平均を算出する。具体的には、基準音声算出部１１７は、同一のセッションＩＤを持つ各入力音声について、特徴量取得部１１５が取得した入力音声の基本周波数の平均を算出する。基準音声算出部１１７が算出した平均周波数は、すなわち、該セッションに参加している話者の入力音声の基本周波数の平均値である。

音声変換部１１９は、基準音声算出部１１７が算出した平均周波数と、各入力音声の基本周波数に基づいて、各入力音声を音声処理する。具体的には、音声変換部１１９は、各入力音声の基本周波数と該入力音声が含まれるセッションの入力音声の平均周波数との差分周波数を算出する。さらに、音声変換部１１９は、該差分周波数をより大きくするように所定の定数または式で該差分周波数を演算し（例えば、差分周波数に２を乗算するなど）、周波数変動量をそれぞれ算出する。また、音声変換部１１９は、入力音声の基本周波数を、周波数変動量の分だけ周波数変換して出力音声を生成し、出力音声処理部１２１に出力する。ここで、入力音声の基本周波数を異なる基本周波数に変換する方法については、公知の音声処理技術を用いることで実現することが可能である。

出力音声処理部１２１は、音声端末装置２が再生する音声データを生成する。具体的には、出力音声処理部１２１は、セッションに参加している複数の話者の音声について、音声変換部１１９が周波数変換した出力音声を合成し、音声端末装置２が再生する音声データを生成し、サーバ通信部１１１に出力する。

上記で説明した特徴量取得部１１５、基準音声算出部１１７および音声変換部１１９の動作について、具体例として話者Ａ、ＢおよびＣの３人がセッションに参加していた場合を挙げて以下でさらに説明する。

特徴量取得部１１５は、それぞれの入力音声より、話者Ａの音声の基本周波数Ｆａ、話者Ｂの音声の基本周波数Ｆｂ、および話者Ｃの音声の基本周波数Ｆｃを取得する。次に、基準音声算出部は、以下の式（１）により平均周波数Ｆａｖを算出する。続いて、音声変換部１１９は、以下の式（２）により、それぞれの入力音声の差分周波数ｄＦａ、ｄＦｂおよびｄＦｃを算出する。さらに、音声変換部１１９は、以下の式（３）により、所定の定数または式であるＺを乗算して周波数変動量Ｄａ、ＤｂおよびＤｃを算出する。また、音声変換部１１９は、各話者Ａ、ＢおよびＣの入力音声の基本周波数がそれぞれＦａ＋Ｄａ、Ｆｂ＋ＤｂおよびＦｃ＋Ｄｃとなるように周波数変換して出力音声を生成する。

Ｆａｖ＝（Ｆａ＋Ｆｂ＋Ｆｃ）／３・・・式（１）
ｄＦｎ＝Ｆａｖ−Ｆｎ（ｎ＝ａ，ｂ，ｃ）・・・式（２）
Ｄｎ＝ｄＦｎ×Ｚ（ｎ＝ａ，ｂ，ｃ、Ｚは所定の定数または式）・・・式（３）

（２．１．２．音声端末装置の内部構成）
端末通信部２０１は、音声端末装置２と音声処理サーバ１１との間で音声データの送受信を行う。具体的には、端末通信部２０１は、音声信号変換部２０３が変換した音声データを音声処理サーバ１１に送信し、また、音声処理サーバ１１から受信した音声データを音声信号変換部２０３に出力する。

音声信号変換部２０３は、アナログ信号である音声とディジタル信号である音声データとの変換を行う。具体的には、音声信号変換部２０３は、音声入力部２０５が取得した音声をディジタル化して通信網３により送受信することができる音声データに変換する。また、音声信号変換部２０３は、音声処理サーバ１１から受信した音声データをアナログ化して音声出力部２０７に出力する。

音声入力部２０５は、話者の会話音声を取得する入力装置である。音声入力部２０５は、例えば、マイク等であってもよい。

音声出力部２０７は、音声処理サーバ１１から送信された会話音声を再生する出力装置である。音声出力部２０７は、例えば、スピーカ等であってもよい。

［２．２．第１の実施形態に係る音声処理サーバの動作］
以上にて、図２を参照して本発明の第１の実施形態に係る音声処理サーバ１１の内部構成について説明を行った。以下では、図３を参照して係る内部構成を有する音声処理サーバ１１が行う動作について、説明を行う。図３は、本発明の第１の実施形態に係る音声処理サーバ１１が行う動作を説明するフローチャート図である。

図３に示すように、まず、入力音声処理部１１３は、各入力音声について音声データおよび該音声データの識別情報を取得する（Ｓ１０１）。音声データの識別情報には、端末ＩＤ、話者ＩＤおよびセッションＩＤが含まれる。次に、特徴量取得部１１５は、入力音声の基本周波数を取得する（Ｓ１０３）。ここで、Ｓ１０１およびＳ１０３の動作は、各入力音声についてそれぞれ行われる。さらに、基準音声算出部１１７は、各入力音声の基本周波数から平均周波数を算出する（Ｓ１０５）。

続いて、音声変換部１１９は、各入力音声について該入力音声の基本周波数と平均周波数との差分周波数を算出する（Ｓ１０７）。また、音声変換部１１９は、差分周波数が大きくなるように所定の定数または式で差分周波数を演算し、該入力音声の周波数変動量を決定する（Ｓ１０９）。ここで、Ｓ１０７およびＳ１０９の動作は、各入力音声についてそれぞれ行われる。さらに、音声変換部１１９は、入力音声の基本周波数を該周波数変動量に基づいて変換して出力音声を生成する（Ｓ１１１）。出力音声処理部１２１は、音声変換部１１９が変換した該セッションに参加している複数の話者の出力音声を合成し、音声端末装置２に送信する音声データを生成する（Ｓ１１３）。

ここで、Ｓ１０１〜Ｓ１０９の動作は、セッションに参加している各話者の入力音声についてセッション冒頭に一度のみ行い、セッション中に再度実行しない。セッション中に、再度Ｓ１０１〜Ｓ１０９の動作が行われて周波数変動量が変化した場合、同一の話者であるにもかかわらず、出力音声の基本周波数が変化してしまい、かえって会話が混乱する。したがって、音声処理サーバ１１は、同一の呼によるセッションにおいて、セッション冒頭に決定した周波数変動量を用いて入力音声の基本周波数に同一の変換処理を行う。

また、音声処理サーバ１１は、セッションにおける各話者の任意の冒頭の音声を用いて、上記Ｓ１０１〜Ｓ１０９の動作を行ってもよいし、所定の語句を各話者が発するようにし、該語句の音声を用いて、上記Ｓ１０１〜Ｓ１０９の動作を行ってもよい。なお、所定の語句の音声を用いて音声処理方法を決定した方が、入力音声の基本周波数を精度よく取得できるため、より好ましい。

［２．３．第１の実施形態のまとめ］
以上説明したように、本発明の第１の実施形態に係る音声処理サーバ１１は、入力音声の基本周波数と各入力音声の基本周波数の平均周波数との差が拡大するように、入力音声の基本周波数を変換することができる。したがって、出力音声では、各話者の音声の基本周波数の差がより拡大するため、聞き手は音声による話者の識別をより容易に行うことが可能になる。

＜３．第２の実施形態＞
次に、図４および５を参照して、本発明の第２の実施形態に係る音声処理サーバ１３について説明を行う。

第２の実施形態に係る音声処理サーバ１３は、入力音声特徴量として入力音声の波形を用い、基準音声特徴量として、入力音声の波形から推定した話者の年齢帯および性別に対応した音声モデル波形を用いる。係る構成により、第２の実施形態に係る音声処理サーバ１３は、入力音声から話者の年齢帯および性別を推定し、該年齢帯および性別に対応する音声モデル波形に該入力音声の波形を近づけるように、入力音声の波形を変換する音声処理を行う。

したがって、第２の実施形態に係る音声処理サーバ１３は、各音声端末装置２より受信した入力音声の波形を各年齢帯および各性別のモデル音声波形に近くなるように変換する音声処理を行うことができる。係る音声処理により、音声処理後の出力音声は、音声処理前の入力音声と比較して、男性の音声はより男性らしく、女性の音声はより女性らしく、若者の音声はより若者らしく、年配の方の音声はより年配らしくなる。よって、特に異なる年齢帯および性別の話者がセッションに参加している場合に、音声処理サーバ１３は、話者が音声によって互いを識別すること、および第三者が音声によって話者を識別することをより容易にする。

また、各年齢帯および各性別のモデル音声波形を聞き取りやすい音声波形にしておくことにより、音声処理サーバ１３によって音声処理後の出力音声をよりモデル音声波形に近い聞き取りやすい音声波形にすることができる。したがって、係る音声処理サーバ１３によれば、各話者間での聞き間違いおよび聞きおとしをより軽減することができ、話者間での円滑な会話を促すことができる。

［３．１．第２の実施形態に係る音声処理サーバの内部構成］
まず、図４を参照して、本発明の第２の実施形態に係る音声処理サーバ１３および音声端末装置２の内部構成について、説明を行う。図４は、本発明の第２の実施形態に係る音声処理サーバ１３および音声端末装置２の内部構成を示したブロック図である。

図４に示すように、第２の実施形態に係る音声処理サーバ１３は、音声端末装置２と通信網３を介して接続されている。音声処理サーバ１３は、サーバ通信部１３１と、入力音声処理部１３３と、特徴量取得部１３５と、基準音声算出部１３７と、音声変換部１３９と、出力音声処理部１４１と、音声モデル記憶部１４３と、を備える。

ここで、音声端末装置２は、図２を参照して説明した音声端末装置２と同様であり、通信網３は、図１で説明した通信網３Ａおよび３Ｂと同様であるので、ここでの説明は省略する。さらに、サーバ通信部１３１はサーバ通信部１１１と実質的に同様であり、入力音声処理部１３３は入力音声処理部１１３と実質的に同様であり、出力音声処理部１４１は出力音声処理部１２１と実質的に同様であるので、ここでの説明は省略する。

以下では、第２の実施形態に係る音声処理サーバ１３で特徴的な特徴量取得部１３５、基準音声算出部１３７、音声変換部１３９、および音声モデル記憶部１４３について、詳細に説明を行う。

特徴量取得部１３５は、入力音声の波形を取得する。具体的には、特徴量取得部１３５は、識別信号が付加された入力音声に対して、時間フレームごとに音声の周波数成分の分布とエネルギー成分の分布を測定し、音声が含まれる有声区間と音声が含まれない無音区間との区切りを識別する。また、特徴量取得部１３５は、識別した有声区間から所定の音声要素（例えば、各母音など）の波形を抽出する。なお、特徴量取得部１３５が行う入力音声からの波形の取得方法は上記に限定されず、特徴量取得部１３５は、他の公知の音声処理技術を用いることで入力音声の波形を取得することも可能である。

ここで、特徴量取得部１３５が取得する入力音声の波形は、アナログデータであってもよいし、所定の周波数でサンプリングされたディジタルデータであってもよい。

基準音声算出部１３７は、特徴量取得部１３５が取得した入力音声の波形と、音声モデル記憶部１４３に記憶された各年齢帯および各性別に対応した音声モデル波形から該入力音声の話者の年齢帯および性別を推定する。具体的には、基準音声算出部１３７は、同じ音声要素において、入力音声の波形と各年齢帯および各性別に対応した音声モデル波形とをそれぞれ比較し、入力音声の波形に最も近い音声モデル波形を決定する。次に、基準音声算出部１３７は、該入力音声の波形に最も近い音声モデル波形に対応する年齢帯および性別を該入力音声の話者の年齢帯および性別であると推定する。

ここで、上記では、基準音声算出部１３７は、入力音声の話者の年齢帯および性別の推定を一つのステップで行ったが、本発明は係る例示に限定されない。例えば、基準音声算出部１３７は、入力音声の話者の年齢帯および性別の推定を二つのステップで行ってもよい。具体的には、基準音声算出部１３７は、第１の音声モデル波形との比較により、まず入力音声の話者の性別を推定した後、次に、第２の音声モデル波形との比較により、年齢帯を推定してもよい。また、逆に、基準音声算出部１３７は、入力音声の話者の年齢帯を推定した後、性別を推定してもよい。さらに、基準音声算出部１３７は、入力音声の話者の年齢帯および性別のどちらか一方のみを推定してもよい。

さらに、基準音声算出部１３７は、推定した話者の年齢帯および性別から、入力音声の変換基準となる音声モデル波形を決定する。ここで、変換基準とした音声モデル波形は、該入力音声の話者の入力音声の波形に最も近いと判断された音声モデル波形であってもよいし、他の音声モデル波形であってもよい。

音声変換部１３９は、基準音声算出部１３７が決定した変換基準である音声モデル波形に基づいて、各入力音声を音声処理する。具体的には、音声変換部１３９は、各入力音声の波形を変換基準である音声モデル波形に近づくように、各音声要素それぞれに対して振幅、周波数、音色等の音声変換を行い、出力音声を生成して出力音声処理部１４１に出力する。ここで、入力音声の波形を音声モデル波形に近づけるよう音声処理する方法については、公知の音声処理技術を用いることで実現することが可能である。

音声モデル記憶部１４３は、各年齢帯および各性別に対応する音声モデル波形を記憶する。具体的には、音声モデル記憶部１４３は、各年齢帯（例えば、１０歳刻みなど）の男性および女性の特徴的な音声波形をすべての音声要素について音声モデル波形として記憶する。また、音声モデル記憶部１４３が記憶する各年齢帯および各性別のモデル音声波形は、より聞き取りやすい音声波形であることがより好ましい。

ここで、音声モデル記憶部１４３は、同じ年齢帯および性別に対応する音声モデル波形を異なる音色で複数種類記憶していてもよい。係る構成により、例えば、同じ年齢帯かつ同じ性別であると推定された話者が複数存在した場合、該話者のそれぞれの入力音声を同一の音声モデル波形に近づけることなく、同じ年齢帯および性別に対応する異なる音色の音声モデル波形に近づけるようにできるためより好ましい。

［３．２．第２の実施形態に係る音声処理サーバの動作］
以上において、図４を参照して本発明の第２の実施形態に係る音声処理サーバ１３の内部構成について説明を行った。以下では、図５を参照して係る内部構成を有する音声処理サーバ１３が行う動作について、説明を行う。図５は、本発明の第２の実施形態に係る音声処理サーバ１３が行う動作を説明するフローチャート図である。

図５に示すように、まず、入力音声処理部１３３は、各入力音声について音声データおよび該音声データの識別情報を取得する（Ｓ２０１）。音声データの識別情報には、端末ＩＤ、話者ＩＤおよびセッションＩＤが含まれる。次に、特徴量取得部１３５は、入力音声の波形を所定の音声要素について取得する（Ｓ２０３）。

次に、基準音声算出部１３７は、音声モデル記憶部１４３から各年齢帯および各性別に対応する音声モデル波形を取得する（Ｓ２０５）。基準音声算出部１３７は、同じ音声要素において、入力音声の波形と各年齢帯および各性別に対応した音声モデル波形とをそれぞれ比較し、入力音声の波形に最も近い音声モデル波形を決定する（Ｓ２０７）。さらに、基準音声算出部１３７は、該入力音声の波形に最も近い音声モデル波形に対応する年齢帯および性別を該入力音声の話者の年齢帯および性別であると推定する（Ｓ２０９）。続いて、基準音声算出部１３７は、推定した話者の年齢帯および性別から、入力音声の波形の変換基準となる音声モデル波形を決定する（Ｓ２１１）。ここで、Ｓ２０１〜Ｓ２１１の動作は、各入力音声についてそれぞれ行われる。

さらに、音声変換部１３９は、入力音声の波形と変換基準となる音声モデル波形とに基づいて、入力音声の波形を変換処理して出力音声を生成する（Ｓ２１３）。出力音声処理部１４１は、音声変換部１３９が変換した該セッションに参加している複数の話者の出力音声を合成し、音声端末装置２に送信する音声データを生成する（Ｓ２１５）。

ここで、第２の実施形態においても第１の実施形態と同様に、Ｓ２０１〜Ｓ２１１の動作は、セッションに参加している各話者の入力音声についてセッション冒頭に一度のみ行い、セッション中に再度実行しない。セッション中に、再度Ｓ２０１〜Ｓ２１１の動作が行われ、変換基準となる音声モデル波形が変化した場合、同一の話者であるにもかかわらず、出力音声の声色が変化してしまい、かえって会話を混乱させる。したがって、音声処理サーバ１３は、同一の呼によるセッションにおいて、セッション冒頭に決定した変換基準となる音声モデル波形を用いて入力音声に同一の変換処理を行う。

なお、音声処理サーバ１３は、セッションにおける各話者の任意の冒頭の音声を用いて、上記Ｓ２０１〜Ｓ２１１の動作を行ってもよいし、所定の語句を各話者が発するようにして、該語句の音声を用いて、上記Ｓ２０１〜Ｓ２１１の動作を行ってもよい。なお、所定の語句の音声を用いて音声処理方法を決定した方が、入力音声の波形を精度よく取得できるため、より好ましい。

［３．３．第２の実施形態のまとめ］
以上説明したように、本発明の第２の実施形態に係る音声処理サーバ１３は、入力音声の波形を各年齢帯および各性別のモデル音声波形に近くなるように変換する音声処理を行うことができる。したがって、出力音声は各話者の年齢帯および性別が強調された音声となるため、聞き手は音声による話者の識別をより容易に行うことが可能になる。

＜４．第３の実施形態＞
次に、図６および７を参照して、本発明の第３の実施形態に係る音声処理サーバ１５について説明を行う。

第３の実施形態に係る音声処理サーバ１５は、まず入力音声の波形から話者の年齢帯および性別を推定し、セッションに参加している話者のうち、同じ年齢帯かつ同じ性別であると推定された話者が複数存在するか否かに基づいて、入力音声の音声処理方法を変更する構成を有する。

具体的には、同じ年齢帯かつ同じ性別であると推定された話者が複数存在する場合、第３の実施形態に係る音声処理サーバ１５は、入力音声に対して第１の実施形態に係る音声処理サーバ１１と同様の音声処理を行う。すなわち、第３の実施形態に係る音声処理サーバ１５は、入力音声特徴量として入力音声の基本周波数を用い、基準音声特徴量として各入力音声の基本周波数の平均周波数を用い、入力音声の基本周波数と平均周波数との差がより拡大するように、入力音声の基本周波数を変換する音声処理を行う。

また、同じ年齢帯かつ同じ性別であると推定された話者が複数存在しない場合、第３の実施形態に係る音声処理サーバ１５は、入力音声に対して第２の実施形態に係る音声処理サーバ１３と同様の音声処理を行う。すなわち、入力音声特徴量として入力音声の波形を用い、基準音声特徴量として、入力音声の波形から推定した話者の年齢帯および性別に対応した音声モデル波形を用い、該年齢帯および性別に対応する音声モデル波形に該入力音声の波形を近づけるように、入力音声の波形を変換する音声処理を行う。

上記で説明したように、第３の実施形態に係る音声処理サーバ１５は、セッションに参加している話者のうち、同じ年齢帯かつ同じ性別であると推定された話者が複数存在するか否かに基づいて、入力音声の音声処理方法を変更することが可能である。したがって、第３の実施形態に係る音声処理サーバ１５は、セッションに参加している話者それぞれの年齢帯および性別に応じて、より話者同士の音声の差異が明確になるように、最適な入力音声の音声処理方法を選択して実行することが可能である。

［４．１．第３の実施形態に係る音声処理サーバの内部構成］
まず、図６を参照して、本発明の第３の実施形態に係る音声処理サーバ１５および音声端末装置２の内部構成について、説明を行う。図６は、本発明の第３の実施形態に係る音声処理サーバ１５および音声端末装置２の内部構成を示したブロック図である。

図６に示すように、第３の実施形態に係る音声処理サーバ１５は、音声端末装置２と通信網３を介して接続されている。音声処理サーバ１５は、サーバ通信部１５１と、入力音声処理部１５３と、特徴量取得部１５５と、基準音声算出部１５７と、音声変換部１５９と、出力音声処理部１６１と、音声モデル記憶部１６３と、話者推定部１６５と、を備える。

ここで、音声端末装置２は、図２を参照して説明した音声端末装置２と同様であり、通信網３は、図１で説明した通信網３Ａおよび３Ｂと同様であるので、ここでの説明は省略する。さらに、サーバ通信部１５１はサーバ通信部１１１と実質的に同様であり、入力音声処理部１５３は入力音声処理部１１３と実質的に同様であり、出力音声処理部１６１は出力音声処理部１２１と実質的に同様であり、音声モデル記憶部１６３は音声モデル記憶部１４３と実質的に同様であるので、ここでの説明は省略する。

以下では、第３の実施形態に係る音声処理サーバ１５で特徴的な特徴量取得部１５５、基準音声算出部１５７、音声変換部１５９、および話者推定部１６５について説明を行う。

特徴量取得部１５５、基準音声算出部１５７および音声変換部１５９は、話者推定部１６５の制御に基づき、第１の実施形態において説明した特徴量取得部１１５、基準音声算出部１１７および音声変換部１１９、または第２の実施形態において説明した特徴量取得部１３５、基準音声算出部１３７および音声変換部１３９のいずれかと同様の機能を実行する。

話者推定部１６５は、セッションに参加している各話者の年齢帯および性別を推定し、同じ年齢帯かつ同じ性別の話者が複数存在するか否かに基づいて、入力音声に対する音声処理方法を制御する。

具体的には、話者推定部１６５は、入力音声の波形を取得し、取得した入力音声の波形と、音声モデル記憶部１４３に記憶された各年齢帯および各性別に対応した音声モデル波形から該入力音声の話者の年齢帯および性別を推定する。次に、話者推定部１６５は、セッションに参加している各話者の推定した年齢帯および性別をそれぞれ比較する。同じ年齢帯かつ同じ性別の話者が複数存在した場合、話者推定部１６５は、特徴量取得部１５５、基準音声算出部１５７および音声変換部１５９に、第１の実施形態において説明した特徴量取得部１１５、基準音声算出部１１７および音声変換部１１９と同様の機能を実行させる。また、同じ年齢帯かつ同じ性別の話者が複数存在しない場合、話者推定部１６５は、特徴量取得部１５５、基準音声算出部１５７および音声変換部１５９に、第２の実施形態において説明した特徴量取得部１３５、基準音声算出部１３７および音声変換部１３９と同様の機能を実行させる。

ここで、話者推定部１６５が行う話者の年齢帯および性別の推定方法は、第２の実施形態において説明した特徴量取得部１３５および基準音声算出部１３７が行う年齢帯および性別の推定方法と同様の方法であってもよい。

［４．２．第３の実施形態に係る音声処理サーバの動作］
以上において、図６を参照して本発明の第３の実施形態に係る音声処理サーバ１５の内部構成について説明を行った。以下では、図７を参照して係る内部構成を有する音声処理サーバ１５が行う動作について、説明を行う。図７は、本発明の第３の実施形態に係る音声処理サーバ１５が行う動作を説明するフローチャート図である。

図７に示すように、まず、まず、入力音声処理部１５３は、各入力音声について音声データおよび該音声データの識別情報を取得する（Ｓ３０１）。音声データの識別情報には、端末ＩＤ、話者ＩＤおよびセッションＩＤが含まれる。次に、話者推定部１６５は、入力音声の波形を所定の音声要素について取得する（Ｓ３０３）。続いて、話者推定部１６５は、音声モデル記憶部１６３から各年齢帯および各性別に対応する音声モデル波形を取得する（Ｓ３０５）。話者推定部１６５は、同じ音声要素において、入力音声の波形と各年齢帯および各性別に対応した音声モデル波形とをそれぞれ比較し、入力音声の波形に最も近い音声モデル波形を決定する（Ｓ３０７）。さらに、話者推定部１６５は、該入力音声の波形に最も近い音声モデル波形に対応する年齢帯および性別を該入力音声の話者の年齢帯および性別であると推定する（Ｓ３０９）。音声処理サーバ１５は、以上のＳ３０１〜Ｓ３０９の動作を各入力音声について実行する。

さらに、話者推定部１６５は、セッションに参加している各話者の推定した年齢帯および性別を比較し、同じ年齢帯かつ同じ性別の話者が複数存在するか否かを判断する（Ｓ３１１）。同じ年齢帯かつ同じ性別の話者が複数存在する場合（Ｓ３１１／Ｙｅｓ）、話者推定部１６５は、特徴量取得部１５５、基準音声算出部１５７および音声変換部１５９に、第１の実施形態の音声処理（Ｓ１０３〜Ｓ１１１）を実行させる（Ｓ３１３）。また、同じ年齢帯かつ同じ性別の話者が複数存在しない場合（Ｓ３１１／Ｎｏ）、話者推定部１６５は、特徴量取得部１５５、基準音声算出部１５７および音声変換部１５９に、第２の実施形態の音声処理（Ｓ２０３〜Ｓ２１３）を実行させる（Ｓ３１５）。音声処理後、出力音声処理部１６１は、該セッションに参加している複数の話者の音声処理された出力音声を合成し、音声端末装置２に送信する音声データを生成する（Ｓ３１７）。

なお、Ｓ３１５中の話者の年齢帯および性別の推定に係る動作（Ｓ２０３〜Ｓ２０９）は、話者推定部１６５がすでに実質的に同様の動作を実行しているので、話者推定部１６５が推定した年齢帯および性別のデータを用いることにより省略してもよい。

ここで、第３の実施形態においても第１および第２の実施形態と同様に、Ｓ３０１〜Ｓ３１５の動作は、セッションに参加している各話者の入力音声についてセッション冒頭に一度のみ行い、セッション中に再度実行しない。セッション中において、再度Ｓ３０１〜Ｓ３１５の動作が行われ、音声処理方法が変化した場合、同一の話者であるにもかかわらず、出力音声が変化してしまい、かえって会話を混乱させる。したがって、音声処理サーバ１５は、同一の呼によるセッションにおいて、セッション冒頭に決定した音声処理方法を用いて入力音声に同一の変換処理を行う。

なお、音声処理サーバ１５は、セッションにおける各話者の任意の冒頭の音声を用いて、上記Ｓ３０１〜Ｓ３１５の動作を行ってもよいし、所定の語句を各話者が発するようにして、該語句の音声を用いて、上記Ｓ３０１〜Ｓ３１５の動作を行ってもよい。なお、所定の語句の音声を用いて音声処理方法を決定した方が、入力音声特徴量を精度よく取得できるため、より好ましい。

［４．３．第３の実施形態のまとめ］
以上説明したように、本発明の第３の実施形態に係る音声処理サーバ１５は、セッションに参加している話者の年齢帯および性別を推定し、同じ年齢帯かつ同じ性別であると推定された話者が複数存在するか否かに基づいて、入力音声の音声処理方法を変更することが可能である。したがって、第３の実施形態に係る音声処理サーバ１５は、セッションに参加している話者それぞれの年齢帯および性別に応じて、より話者同士の音声の差異が明確になるように、最適な入力音声の音声処理方法を選択して実行することが可能である。

＜５．音声処理サーバのハードウェア構成＞
以上、本発明の第１〜第３の実施形態に係る音声処理サーバについて、具体的に説明を行った。上述した本発明の実施形態に係る情報処理は、ソフトウェアと以下で説明する音声処理サーバ１のハードウェアとの協働により実現される。

図８は、音声処理サーバ１のハードウェア構成を示すブロック図である。音声処理サーバ１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１７１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１７３と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１７５と、内部バス１７７と、を備える。また、音声処理サーバ１は、入出力インターフェース１７９と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１８１と、ネットワークインターフェース１８３と、外部インターフェース１８５と、を備える。

ＣＰＵ１７１は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理サーバ１内の動作全般を制御する。なお、ＣＰＵ１７１は、入力音声処理部１１３、１３３および１５３と、特徴量取得部１１５、１３５および１５５と、基準音声算出部１１７、１３７および１５７と、音声変換部１１９、１３９および１５９と、出力音声処理部１２１、１４１および１６１と、話者推定部１６５と、に対応し、各部の機能を実現する。

ＲＯＭ１７３は、ＣＰＵ１７１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ１７５は、ＣＰＵ１７１の実行において使用するプログラム、その実行において適宜変化するパラメータ、各入力音声、および各出力音声等を一時記憶する。

ＣＰＵ１７１、ＲＯＭ１７３、およびＲＡＭ１７５は、内部バス１７７により相互に接続され、さらに入出力インターフェース１７９を介して後述するＨＤＤ１８１、ネットワークインターフェース１８３、および外部インターフェース１８５と接続される。

ＨＤＤ１８１は、本実施形態に係る音声処理サーバ１の記憶部の一例として構成されたデータ格納用の装置である。ＨＤＤ１８１は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出装置、および記憶媒体に記憶されたデータを削除する削除装置を含む。該ＨＤＤ１８１は、各種データを格納する。なお、ＨＤＤ１８１は、音声モデル記憶部１４３、１６３に対応する。

ネットワークインターフェース１８３は、例えば、通信網３に接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース１８３は、アナログ回線やＩＳＤＮ回線に接続し、音声データを送受信することが可能な通信装置であってもよいし、有線ＬＡＮまたは無線ＬＡＮ対応通信装置であってもよい。なお、ネットワークインターフェース１８３は、サーバ通信部１１１、１３１および１５１に対応する。

外部インターフェース１８５は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ−２３２Ｃポート、または光オーディオ端子等のような外部接続機器を接続するための接続ポートで構成された接続インターフェースである。

＜６．まとめ＞
以上説明したように、本発明の実施形態に係る音声処理サーバは、入力された音声データのそれぞれから入力音声の特徴量を取得し、該特徴量から決定した基準音声特徴量と、入力音声の特徴量とに基づいて、入力音声に音声処理を行い、出力音声を生成する。係る音声処理により、本発明の実施形態に係る音声処理サーバは、出力音声の聞き手が話者の識別を容易に行うことを可能とする。

また、話者の人数が多いほど、会話内容を把握するためには、聞き手が音声によって話者を識別することが重要になるため、本発明の実施形態に係る音声処理サーバは、より効果的に会話の混乱を防止する。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

なお、上記実施形態では、第１の実施形態と第２の実施形態とをそれぞれ個別に記載したが、本発明は係る例示に限定されない。例えば、本発明の実施形態に係る音声処理サーバ１は、第１の実施形態に係る動作を実行した後、第２の実施形態に係る動作を実行してもよい。さらに、逆に本発明の実施形態に係る音声処理サーバ１は、第２の実施形態に係る動作を実行した後、第１の実施形態に係る動作を実行してもよい。

また、本発明の実施形態に係る音声処理サーバ１に内蔵されるようなＣＰＵ１７１、ＲＯＭ１７３およびＲＡＭ１７５などのハードウェアを上述した音声処理サーバ１の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

本発明は、特にコールセンタまたはコンタクトセンタにおける会話音声を処理する音声処理サーバに適用可能であり、また、電話会議システムにおける各拠点の会話音声を処理する音声処理サーバにも適用可能である。

１、１１、１３、１５音声処理サーバ
２、２Ａ、２Ｂ、２Ｃ音声端末装置
３、３Ａ、３Ｂ通信網
４Ａ、４Ｂ、４Ｃ話者
１１１、１３１、１５１サーバ通信部
１１３、１３３、１５３入力音声処理部
１１５、１３５、１５５特徴量取得部
１１７、１３７、１５７基準音声算出部
１１９、１３９、１５９音声変換部
１２１、１４１、１６１出力音声処理部
１４３、１６３音声モデル記憶部
１６５話者推定部
２０１端末通信部
２０３音声信号変換部
２０５音声入力部
２０７音声出力部

Claims

入力音声の各々について、入力音声特徴量を取得する特徴量取得部と、
前記入力音声特徴量から基準音声特徴量を決定する基準音声算出部と、
前記入力音声特徴量と前記基準音声特徴量とに基づいて、前記入力音声を音声処理し、出力音声を生成する音声変換部と、
を備えた音声処理サーバ。
前記入力音声特徴量は、前記入力音声の基本周波数である、請求項１に記載の音声処理サーバ。
前記基準音声特徴量は、前記入力音声の基本周波数の各々の平均周波数である、請求項２に記載の音声処理サーバ。
前記音声変換部は、前記入力音声の基本周波数と前記平均周波数との差分が大きくなるように前記入力音声に対して音声処理を行う、請求項３に記載の音声処理サーバ。
前記音声処理サーバは、
各年齢帯および各性別に対応する音声モデル波形を各々記憶した音声モデル記憶部と、
前記入力音声の波形と前記音声モデル波形の各々とを比較することにより、前記入力音声の話者の年齢帯および性別の少なくとも一方を推定する話者推定部と、
をさらに備え、
前記話者推定部は、前記入力音声から推定した年齢帯および性別が同一である話者が複数存在するか否かに基づいて、前記特徴量取得部、前記基準音声算出部および前記音声変換部の動作を制御する、請求項１〜４のいずれか一項に記載の音声処理サーバ。
前記音声処理サーバは、前記話者の推定した年齢帯および性別が各々異なる場合、前記入力音声特徴量として、前記入力音声の波形を用いる、請求項５に記載の音声処理サーバ。
前記基準音声特徴量は、前記入力音声より推定した前記話者の年齢帯および性別に対応する前記音声モデル波形である、請求項６に記載の音声処理サーバ。
前記音声変換部は、前記入力音声の波形と前記話者の年齢帯および性別に対応する前記音声モデル波形との差が小さくなるように前記入力音声に対して音声処理を行う、請求項７に記載の音声処理サーバ。
前記入力音声特徴量は、前記入力音声の波形である、請求項１に記載の音声処理サーバ。
前記音声処理サーバは、各年齢帯および各性別に対応する音声モデル波形を各々記憶した音声モデル記憶部をさらに備え、
前記基準音声算出部は、前記入力音声の波形と前記音声モデル波形の各々とを比較することにより、前記入力音声の話者の年齢帯および性別の少なくとも一方を推定する、請求項９に記載の音声処理サーバ。
前記基準音声特徴量は、前記入力音声より推定した前記話者の年齢帯および性別に対応する前記音声モデル波形である、請求項１０に記載の音声処理サーバ。
前記音声変換部は、前記入力音声の波形と前記話者の年齢帯および性別に対応する前記音声モデル波形との差が小さくなるように前記入力音声に対して音声処理を行う、請求項１１に記載の音声処理サーバ。