JP2007309979A

JP2007309979A - 音声処理装置、およびプログラム

Info

Publication number: JP2007309979A
Application number: JP2006136346A
Authority: JP
Inventors: Hideyuki Watanabe; 秀行渡辺; Takahiro Adachi; 隆弘足立; Hiroaki Tagawa; 博章田川; Reiko Yamada; 玲子山田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2006-05-16
Filing date: 2006-05-16
Publication date: 2007-11-29
Anticipated expiration: 2026-05-16
Also published as: JP4812010B2

Abstract

【課題】従来の音声処理装置においては、言語的特徴の差から生じる課題を克服できない、という課題があった。
【解決手段】バイリンガル話者の第一言語の教師第一言語音声情報を格納しており、ユーザから第一言語の音声の入力を受け付け、サンプリング周波数の変換率に関する情報であり、バイリンガル話者の第二言語の音声情報である教師第二言語音声情報と、ユーザが発声した第二言語の音声情報であるユーザ第二言語音声情報を用いて算出された声道長正規化パラメータと、バイリンガル話者の音声のサンプリング周波数である第一サンプリング周波数を用いて算出された第二サンプリング周波数で、受け付けた第一言語の音声に対して、サンプリング処理を行い、第二音声データを得て、教師第一言語音声情報を用いて、前記第二音声データを処理する音声処理装置により、言語的特徴の差から生じる課題を克服できる。
【選択図】図１

Description

本発明は、入力された音声を評価したり、入力された音声を認識したりする音声処理装置等に関するものである。

従来の技術として、以下の音声処理装置がある（特許文献１参照）。本音声処理装置は、語学学習装置であり、当該語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の音声処理装置は、入力された音声信号は音声認識技術により分析された後、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。そして、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される。

また、従来の技術として、以下の音声処理装置がある（特許文献２参照）。本音声処理装置は歌唱音声評価装置であり、本歌唱音声評価装置は、歌唱音声の周波数成分を抽出する抽出手段と、当該抽出された周波数成分から基本周波数成分と倍音周波数成分とをそれぞれ抽出する特定周波数成分抽出手段と、特定周波数成分抽出手段によって抽出された基本周波数成分に対する倍音周波数成分の比率に応じて、歌唱音声の評価を示す評価値を算出する評価手段とを備える。そして、本歌唱音声評価装置は、歌唱音声の周波数成分に基づいてその声質の良否を適正に評価し、これを歌唱音声の採点結果に反映させることにより、歌唱音声の採点をより人間の感性に近づけることを狙いとしている。

さらに、従来の技術として、以下の音声処理装置がある（特許文献３参照）。本音声処理装置は音声認識装置であり、入力音声パターンと標準パターンを、ＤＰ法を用いて照合し、最も照合距離の小さい標準パターンを認識結果とする音声認識装置であり、照合結果を用いて入力パターンを音素に分割し、各音素の継続時間と標準継続時間とのずれの分散を計算し、これを照合距離に付加することで距離を補正することを特徴とする。そして、分割部で照合結果を用いて音素に分割し、時間長ずれ計算部で標準継続時間とのずれの分散を計算し、距離補正部で照合距離を補正するように構成する。また、本音声認識装置は、時間長のずれを計算する対象音素を選択する音素選択部、距離補正する対象単語を選択する単語選択部を有し、単語の認識性能を高できる、というものである。
特開２００３−２２８２７９（第１頁、第１図等）特開２００５−１０７０８８（第１頁、第１図等）特開平６−４０９６（第１頁、第１図等）

しかしながら、特許文献１や特許文献２の従来の技術においては、音声（歌声も含む）の話者である評価対象者の話者特性に応じた音声処理が行えず、その結果、精度の高い音声処理ができなかった。具体的には、従来の技術においては、例えば、評価対象者の声道長の違いにより、スペクトル包絡が高周波数域または低周波数域に伸縮するが、従来の発音評定装置や歌唱音声評価装置などの音声処理装置において、かかるスペクトル包絡の伸縮により、評価結果が異なる。つまり、従来の技術においては、同様の上手さの発音や歌唱でも、評価対象者の声道長の違いにより、発音や歌唱の評価結果が異なり、精度の高い評価ができなかった。さらに、従来の技術においては、ユーザと装置間の言語特徴のミスマッチを回避する仕組みを有さなかった。具体的には、ユーザが日本語を母国語とする日本人で、装置が、ユーザが発声した英語の発音評定を行う装置である場合、日本語と英語の言語的特徴の差から生じる課題を克服できなかった。

また、特許文献１の音声処理装置において、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される構成であるので、両者の類似度の評定の精度が低く、また、リアルタイムに高速に点数を表示するためには、処理能力が極めて高いＣＰＵ、多量のメモリが必要であった。

さらに、例えば、特許文献３に示すような音声認識処理を行う音声処理装置において、評価対象者の声道長の違いにより、スペクトル包絡の伸縮が生じるが、かかる評価対象者の話者特性に応じた音声認識処理を行っておらず、精度の高い音声認識ができなかった。また、日本語と英語の言語的特徴の差から生じる課題を克服できなかった。

本第一の発明の音声処理装置は、バイリンガル話者の第一言語の音声に関する情報である教師第一言語音声情報を格納している教師データ格納部と、ユーザから第一言語の音声の入力を受け付ける音声受付部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータであり、バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報と、ユーザが発声した第二言語の音声に関する情報であるユーザ第二言語音声情報を用いて算出された声道長正規化パラメータと、前記バイリンガル話者の音声のサンプリング周波数である第一サンプリング周波数を用いて算出された第二サンプリング周波数を格納している第二サンプリング周波数格納部と、前記第二サンプリング周波数で、前記音声受付部が受け付けた前記第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記教師第一言語音声情報を用いて、前記第二音声データを処理する音声処理部を具備する音声処理装置である。

かかる構成により、ユーザの母国語と、音声処理対象の音声の言語が異なる場合でも、言語の特徴に影響されない、精度の高い音声処理ができる。

また、本第二の発明の音声処理装置は、第一の発明に対して、前記教師データ格納部は、バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報をも格納しており、前記音声受付部は、前記ユーザから第二言語の音声の入力をも受け付け、前記バイリンガル話者のサンプリング周波数である第一サンプリング周波数を格納している第一サンプリング周波数格納部と、前記音声受付部が受け付けた第二言語の音声に関する情報であるユーザ第二言語音声情報と前記教師第二言語音声情報から、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出部と、前記声道長正規化パラメータと、前記第一サンプリング周波数を用いて第二サンプリング周波数を算出する第二サンプリング周波数算出部とをさらに具備し、前記第二サンプリング周波数格納部の第二サンプリング周波数は、前記第二サンプリング周波数算出部が算出した第二サンプリング周波数である音声処理装置である。

また、本第三の発明の音声処理装置は、第一、第二いずれかの発明に対して、前記教師データ格納部は、前記バイリンガル話者以外の話者であり、第一言語を母語とする話者である第一言語話者の第一言語の音声に関する情報である他者第一言語音声情報をも格納しており、前記音声処理部は、前記教師第一言語音声情報と前記他者第一言語音声情報を用いて、前記第二音声データを処理する音声処理装置である。

かかる構成により、音声処理装置は、音声処理装置の教師データとして、バイリンガル話者の発話データのみではなく、第一言語を母語に持つ1以上の話者である第一言語話者の第一言語の音声データも用いることができる。その結果、さらに精度の高い音声処理装置を提供できる。

また、本第四の発明の音声処理装置は、第三の発明に対して、第一言語話者が発声した音声である第一言語話者音声を受け付ける第一言語話者音声受付部と、前記教師第一言語音声情報と前記第一言語話者音声から、第一言語話者の音声を正規化するパラメータである第二声道長正規化パラメータを算出する第二声道長正規化パラメータ算出部と、前記第二声道長正規化パラメータと、前記第一サンプリング周波数を用いて第三サンプリング周波数を算出する第三サンプリング周波数算出部と、前記第三サンプリング周波数で、前記第一言語話者音声受付部が受け付けた前記第一言語話者音声に対して、サンプリング処理を行い、前記他者第一言語音声情報を得る第二声道長正規化処理部をさらに具備する音声処理装置である。

かかる構成により、さらに精度の高い音声処理装置を提供できる。

また、本第五の発明の音声処理装置は、第四の発明に対して、前記第二声道長正規化パラメータ算出部は、第二声道長正規化パラメータの候補値であるパラメータ候補値の範囲を示す情報であるパラメータ候補値範囲情報を格納しているパラメータ候補値範囲情報格納手段と、前記パラメータ候補値範囲情報が示す範囲のうちの所定の２以上のパラメータ候補値を取得するパラメータ候補値取得手段と、前記パラメータ候補値取得手段が取得した２以上のパラメータ候補値と前記第一サンプリング周波数を用いて、前記第一言語話者音声に対するサンプリング周波数である第一言語話者用サンプリング周波数を２以上取得する第一言語話者用サンプリング周波数取得手段と、前記第一言語話者用サンプリング周波数取得手段が取得した２以上の第一言語話者用サンプリング周波数をそれぞれ用いて、前記第一言語話者音声受付部が受け付けた前記第一言語話者音声に対して、サンプリング処理を行い、２以上の他者第一言語音声候補情報を得る他者第一言語音声候補情報取得手段と、前記音声処理部に前記２以上の他者第一言語音声候補情報をそれぞれ渡し、前記教師第一言語音声情報を用いて、前記２以上の他者第一言語音声候補情報をそれぞれ処理させ、２以上の処理結果を得る処理結果取得手段と、前記処理結果取得手段が得た２以上の処理結果のうち、最適な処理結果に対応するパラメータ候補値を第二声道長正規化パラメータと決定する第二声道長正規化パラメータ決定手段を具備する音声処理装置である。

かかる構成により、さらに精度が高い音声処理装置を提供できる。

また、本第六の発明の音声処理装置は、第二から第五いずれかの発明に対して、前記声道長正規化パラメータ算出部は、音素ＨＭＭを指定された発話内容に従って連結した連結ＨＭＭである学習音響データを格納している学習音響データ格納手段と、前記音声受付部が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、指定された発話内容に従って受け付けた音声の事後確率である占有度数を算出する占有度算出手段と、前記学習音響データおよび前記第三のケプストラムベクトル系列および前記占有度数に基づいて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記占有度算出手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する音声処理装置である。

かかる構成により、精度が高い音声処理装置を提供できる。

また、本第七の発明の音声処理装置は、第六の発明に対して、前記声道長正規化パラメータ算出部は、周波数範囲を指定する情報である周波数範囲指定情報を格納している周波数範囲指定情報格納手段をさらに具備し、前記ケプストラム変換パラメータ算出手段は、前記周波数範囲指定情報、学習音響データ、第三のケプストラムベクトル系列および占有度数を用いて、ケプストラム変換パラメータを算出する音声処理装置である。

また、本第八の発明の音声処理装置は、第一から第七いずれかの発明に対して、前記音声処理部は、前記第二音声データを、フレームに区分するフレーム区分手段と、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得手段と、前記第一言語音声情報と前記１以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定手段と、前記評定手段における評定結果を出力する出力手段を具備する音声処理装置である。

かかる構成により、精度が高い発音評定ができる。

また、本第九の発明の音声処理装置は、第八の発明に対して、前記評定手段は、前記１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態における確率値を取得する最適状態確率値取得手段と、前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する音声処理装置である。

かかる構成により、精度が高い発音評定ができる。

本発明による音声処理装置によれば、日本語と英語等の言語的特徴の差から生じる課題を克服できる。

以下、音声処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態において、例えば、日本語を母国語とするユーザが、英語で発声した音声を処理するのに好適な音声処理装置について説明する。また、本音声処理装置は、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる音声処理装置である。本音声処理装置は、音声（歌唱を含む）を評価する発音評定装置である。特に、本音声処理装置は、入力音声のフレームに対する最適状態の事後確率を、動的計画法を用いて算出することから、当該事後確率をＤＡＰ（ＤｙｎａｍｉｃＡＰｏｓｔｅｒｉｏｒｉＰｒｏｂａｂｉｌｉｔｙ）と呼び、ＤＡＰに基づく類似度計算法および発音評定装置をＤＡＰＳと呼ぶ。

また、本実施の形態における音声処理装置は、例えば、語学学習や物真似練習やカラオケ評定などに利用できる。

図１は、本実施の形態における音声処理装置のブロック図である。音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、第一サンプリング周波数格納部１０４、第二サンプリング周波数格納部１０５、サンプリング部１０６、声道長正規化パラメータ算出部１０７、第二サンプリング周波数算出部１０８、声道長正規化処理部１０９、音声処理部１１０を具備する。

図２は、本実施の形態における音声処理装置を構成する声道長正規化パラメータ算出部１０７のブロック図である。声道長正規化パラメータ算出部１０７は、周波数範囲指定情報格納手段１０７１、学習音響データ格納手段１０７２、第二ケプストラムベクトル系列算出手段１０７３、ケプストラム変換手段１０７４、占有度数算出手段１０７５、ケプストラム変換パラメータ算出手段１０７６、最終ケプストラム変換パラメータ取得手段１０７７、声道長正規化パラメータ算出手段１０７８を具備する。

図３は、本実施の形態における音声処理装置を構成する音声処理部１１０のブロック図である。音声処理部１１０は、フレーム区分手段１１０１、フレーム音声データ取得手段１１０２、評定手段１１０３、出力手段１１０４を具備する。本音声処理部１１０は、ＤＡＰにより発音評定を行う。ただし、音声処理部の処理は、発音評定に限らない。音声処理部の処理は、音声認識など、音声を処理するものであれば良い。また、発音評定のアルゴリズムもＤＡＰに限らない。

評定手段１１０３は、最適状態決定手段１１０３１、最適状態確率値取得手段１１０３２、評定値算出手段１１０３３を具備する。

なお、音声処理装置は、キーボード３４２、マウス３４３などの入力手段からの入力を受け付ける。また、音声処理装置は、マイク３４５などの音声入力手段から音声入力を受け付ける。さらに、音声処理装置は、ディスプレイ３４４などの出力デバイスに情報を出力する。

入力受付部１０１は、音声処理装置の動作開始を指示する動作開始指示や、処理を終了する終了指示などの入力を受け付ける。かかる指示等の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部１０１は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

教師データ格納部１０２は、バイリンガル話者の第一言語の音声に関する情報である教師第一言語音声情報を格納している。教師データ格納部１０２は、バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報をも格納している。バイリンガル話者とは、通常、二か国語を母語として話す人を言うが、ここでは、二か国語以上を母語として話す人をいうこととする。教師第一言語音声情報および教師第二言語音声情報は、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであることが好適である。また、教師第一言語音声情報および教師第二言語音声情報は、入力される音声を構成する音素に対応するＨＭＭを、入力順序に従って連結されているＨＭＭに基づくデータであることが好適である。ただし、教師第一言語音声情報と教師第二言語音声情報は、必ずしも、音韻毎のＨＭＭを連結したＨＭＭに基づくデータである必要はない。教師第一言語音声情報等は、全音素のＨＭＭの、単なる集合であっても良い。また、教師第一言語音声情報等は、必ずしもＨＭＭに基づくデータである必要はない。教師第一言語音声情報と教師第二言語音声情報は、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づくデータでも良い。ＨＭＭに基づくデータは、例えば、フレーム毎に、状態識別子と遷移確率の情報を有する。また、ＨＭＭに基づくデータは、例えば、複数の学習対象言語を母国語として話す外国人が発声した２以上のデータから学習した（推定した）モデルでも良い。教師データ格納部１０２は、ハードディスクやＲＯＭなどの不揮発性の記録媒体が好適であるが、ＲＡＭなどの揮発性の記録媒体でも実現可能である。なお、第一言語と第二言語は、異なれば、何でも良い。第一言語、第二言語は、それぞれ母語であるとは限らない。

音声受付部１０３は、ユーザから第一言語（例えば、英語）の音声の入力を受け付ける。また、音声受付部１０３は、ユーザから第二言語（例えば、日本語）の音声の入力をも受け付ける。音声受付部１０３は、例えば、マイク３４５のドライバーソフトで実現され得る。また、なお、音声受付部１０３は、マイク３４５とそのドライバーから実現されると考えても良い。音声は、マイク３４５から入力されても良いし、磁気テープやＣＤ−ＲＯＭなどの記録媒体から読み出すことにより入力されても良い。

第一サンプリング周波数格納部１０４は、バイリンガル話者のサンプリング周波数である第一サンプリング周波数を格納している。第一サンプリング周波数格納部１０４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

第二サンプリング周波数格納部１０５は、第二サンプリング周波数が格納される。第二サンプリング周波数は、バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報と、ユーザが発声した第二言語の音声に関する情報であるユーザ第二言語音声情報を用いて算出された声道長正規化パラメータと、バイリンガル話者の音声のサンプリング周波数である第一サンプリング周波数を用いて算出されたサンプリング周波数である。声道長正規化パラメータとは、サンプリング周波数の変換率に関する情報である。例えば、「第二サンプリング周波数＝声道長正規化パラメータ×第一サンプリング周波数」である。第二サンプリング周波数格納部１０５は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。

サンプリング部１０６は、第一サンプリング周波数格納部１０４の第一サンプリング周波数で、音声受付部１０３が受け付けた音声をサンプリングし、第一音声データを取得する。なお、受け付けた音声をサンプリングする技術は公知技術であるので、詳細な説明を省略する。サンプリング部１０６は、通常、ＭＰＵやメモリ等から実現され得る。サンプリング部１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

声道長正規化パラメータ算出部１０７は、音声受付部１０３が受け付けた第二言語の音声に関する情報であるユーザ第二言語音声情報と教師第二言語音声情報から、声道長正規化パラメータを算出する。声道長正規化パラメータとは、評価対象者の話者特性（例えば、声道長の違い）を吸収するためのサンプリング周波数変換率である。声道長正規化パラメータ算出部１０７が声道長正規化パラメータを算出するアルゴリズムは、種々存在する。声道長正規化パラメータ算出部１０７は、ここでは、後述する周波数範囲指定情報格納手段１０７１、学習音響データ格納手段１０７２、第二ケプストラムベクトル系列算出手段１０７３、ケプストラム変換手段１０７４、占有度数算出手段１０７５、ケプストラム変換パラメータ算出手段１０７６、最終ケプストラム変換パラメータ取得手段１０７７、声道長正規化パラメータ算出手段１０７８により声道長正規化パラメータを算出する。声道長正規化パラメータ算出部１０７は、通常、ＭＰＵやメモリ等から実現され得る。声道長正規化パラメータ算出部１０７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

周波数範囲指定情報格納手段１０７１は、周波数範囲を指定する情報である周波数範囲指定情報（Ｗ）を格納している。周波数範囲指定情報（Ｗ）は、後述する最適なケプストラム変換パラメータ（α）を算出する場合に、１次オールパス関数等の双１次変換による周波数ワーピングが線形の周波数伸縮で近似できる範囲に、周波数範囲を限定するための情報である。かかる周波数範囲は、０周波数からナイキストレートの１／３から１／２程度が好適である。ただし、双１次変換は、スペクトル領域ではなく、ケプストラム領域で行われるため、周波数範囲指定情報（Ｗ）は、例えば、以下に述べる行列の情報であることが好適である。周波数範囲指定情報（Ｗ）は、例えば、図示しない周波数範囲指定情報算出手段により、以下のように算出される。サンプリング周波数をＦ_ｓ（Ｈｚ）、指定される周波数範囲の最高周波数をＦ_ｍａｘ（Ｈｚ）とし，「ω_ｍａｘ＝２πＦ_ｍａｘ／Ｆ_ｓ」と置いて、ケプストラムベクトルに対する周波数範囲指定行列Ｗの（ｉ，ｊ）成分を、周波数範囲指定情報算出手段は、以下の数式１に従って計算する。具体的には、周波数範囲指定情報算出手段は、コンピュータの記録媒体（図示しない）に格納されているサンプリング周波数（Ｆ_ｓ）、最高周波数（Ｆ_ｍａｘ）を読み出す。そして、周波数範囲指定情報算出手段は、自ら保持している演算式の情報「ω_ｍａｘ＝２πＦ_ｍａｘ／Ｆ_ｓ」を読み出し、ω_ｍａｘを算出する。そして、周波数範囲指定情報算出手段は、格納している以下の数式１の情報を読み出し、ｉ、ｊを０から順に、１ずつインクリメントさせながら、ループ処理（２重ループの処理になる）により、｛Ｗ｝_ｉ，ｊを算出する。そして、周波数範囲指定情報算出手段は、算出した｛Ｗ｝_ｉ，ｊのすべてを、少なくとも一時的に周波数範囲指定情報格納手段１０７１に格納する。

なお、周波数範囲指定情報のデータ構造は問わない。また、周波数範囲指定情報格納手段１０７１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

学習音響データ格納手段１０７２は、学習音響データを格納している。学習音響データは、通常、音素ＨＭＭを指定された発話内容に従って連結した連結ＨＭＭである。学習音響データとは、以下のように生成される。つまり、図示しない学習音響データ生成手段が、教師データを構成するデータ（例えば、教師データ格納部１０２の教師第二言語音声情報）から、話者の音声のケプストラムベクトル系列を短区間分析で求め、それを用いて２以上の基準話者音素ＨＭＭを取得し、メモリ上に、少なくとも一時格納する。そして、学習音響データ生成手段は、２以上の基準話者音素ＨＭＭを声道長正規化用の指定された発話内容（例えば／あいうえお／）に従って連結し、連結ＨＭＭを生成する。なお、ケプストラムベクトルは０次係数も含めたＭ＋１次元である。また、連結ＨＭＭのｊ番目状態におけるｍ番目ガウス分布成分の平均ベクトルおよび共分散行列を、それぞれμ_ｊ，ｍ、Σ_ｊ，ｍとすると、μ_ｊ，ｍは、以下の数式２で表される。

なお、（・・・）^Ｔは、行列またはベクトルの転置を示す。

そして、図示しない学習音響データ生成手段は、生成した学習音響データを、学習音響データ格納手段１０７２に蓄積する。

なお、学習音響データは、連結ＨＭＭが好適であるが、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づくデータでも良い。また、学習音響データ格納手段１０７２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

第二ケプストラムベクトル系列算出手段１０７３は、音声受付部１０３が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列（Ｃ_ｔ）を算出する。第二ケプストラムベクトル系列算出手段１０７３は、音声受付部１０３が受け付けた音声をサンプリングして得たデータから、第二のケプストラムベクトル系列（Ｃ_ｔ）を算出しても良く、かかる場合も音声受付部１０３が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列（Ｃ_ｔ）を算出した、と言える。なお、音素を短区間分析し、ケプストラムベクトル系列を算出する処理は、公知技術による処理であるので、説明は省略する。第二ケプストラムベクトル系列算出手段１０７３は、通常、ＭＰＵやメモリ等から実現され得る。第二ケプストラムベクトル系列算出手段１０７３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。なお、第二ケプストラムベクトル系列算出手段１０７３が処理する音声であり音声受付部１０３が受け付ける発話内容（例えば、／あいうえお／）は、声道長正規化用の指定された発話内容である。また、この第二のケプストラムベクトル系列（Ｃ_ｔ）は、やはり０次係数も含めたＭ＋１次元ベクトルとして数式３で表わされる。

また、第二ケプストラムベクトル系列算出手段１０７３は、後述するケプストラム変換パラメータ算出手段１０７６の処理のために、算出した第二のケプストラムベクトル系列（Ｃ_ｔ）に対して、以下の数式４の処理を行い、ベクトル（Ｃ_ｔ ⁻）（ｔ＝１，２，・・・，Ｔ）を取得することは好適である。

ケプストラム変換手段１０７４は、第二のケプストラムベクトル系列（Ｃ_ｔ）を、ケプストラム変換パラメータ（α）を要素とする行列（Ｆ（α））を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列（Ｏ_ｔ）を算出する。具体的には、まず、ケプストラム変換手段１０７４は、ケプストラム変換パラメータ（α）の初期値（α^〜）を設定する。（α^〜）はαの最適値の近似値であることが望ましく、通常はα＝０とおくが、例えば、最適値が「α＞０」であると予想できる場合は、小さな正の値のαでも良い。なお、初期値（α^〜）は、ケプストラム変換手段１０７４が、予め記憶媒体やメモリ等に格納している。次に、ケプストラム変換手段１０７４は、与えられたケプストラム変換パラメータ（α）をパラメータとして、以下の数式５により、周波数ワープされた第三のケプストラムベクトル系列（Ｏ_ｔ）を算出する。なお、ケプストラム変換手段１０７４は、最初に、（Ｏ_ｔ（α^〜））を算出する。

ケプストラム変換手段１０７４は、通常、ＭＰＵやメモリ等から実現され得る。ケプストラム変換手段１０７４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

占有度数算出手段１０７５は、占有度数（γ_ｔ（ｊ，ｍ））を算出し、メモリ上に書き込み、少なくとも一時的に保持する。占有度数（γ_ｔ（ｊ，ｍ））とは、ｔ番目のフレームがｊ番目状態のｍ番目ガウス成分から生成された事後確率である。ｔ番目のフレームとは、例えば、音声受付部１０３が、声道長正規化用の指定された発話内容（例えば／あいうえお／）の発声をユーザから受け付け、当該受け付けた音声から得られたｔ番目のフレームである。占有度数算出手段１０７５は、ケプストラム変換手段１０７４が算出した第三のケプストラムベクトル系列（Ｏ_ｔ）と学習音響データ格納手段１０７２の学習音響データを用いて、占有度数（γ_ｔ（ｊ，ｍ））を算出する。占有度数算出手段１０７５は、さらに好ましくは、第三のケプストラムベクトル系列（Ｏ_ｔ）と学習音響データと周波数範囲指定情報格納手段１０７１の周波数範囲指定情報（Ｗ）を用いて、占有度数（γ_ｔ（ｊ，ｍ））を算出する。占有度数算出手段１０７５は、占有度数（γ_ｔ（ｊ，ｍ））を、フォワード・バックワードアルゴリズムにより算出する。フォワード・バックワードアルゴリズムは、公知技術であるので、詳細な説明を省略する。

さらに具体的には、占有度数算出手段１０７５は、以下の処理により、占有度数（γ_ｔ（ｊ，ｍ））を算出する。ここで、教師データの音声から学習される学習音素ＨＭＭを，声道長正規化パラメータ推定のために指定した発話内容（例えば/あいうえお/）にしたがって連結した連結ＨＭＭをΛとする。そして、ケプストラム変換パラメータ推定処理に使用される占有度数（γ_ｔ（ｊ，ｍ））は、第三ケプストラム系列を周波数範囲指定情報Ｗにより周波数範囲指定されたケプストラムベクトル系列「Ｗｏ_１（α），Ｗｏ_２（α），...，Ｗｏ_Ｔ（α）」およびΛが与えられたときのｔ番目フレームがΛのｊ番目状態のｍ番目ガウス成分から生起した事後確率として定義されるので、占有度数（γ_ｔ（ｊ，ｍ））は、数式６で定義される。

また、数式６における占有度数（γ_ｔ（ｊ，ｍ））は、前向き尤度Ａ_ｔ（ｊ）および後向き尤度Ｂ_ｔ（ｊ）を使って数式７のように計算される。つまり、占有度数算出手段１０７５は、数式７で示される式の情報を保持しており、与えられるケプストラムベクトル系列、およびΛを用いて、占有度数（γ_ｔ（ｊ，ｍ））を算出する。

なお、占有度数算出手段１０７５は、数式７のＡｔ（ｊ）およびＢｔ（ｊ）を、ケプストラムベクトル系列「Ｗｏ_１（α）...Ｗｏ_Ｔ（α）」およびΛから公知のｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムを用いて算出する。

また、ｖ_ｊ，ｍは、ｊ番目状態のｍ番目ガウス成分に対する重み係数である。さらに、占有度数算出手段１０７５は、出力分布ｂ_ｊ，ｍ（Ｗｏ_ｔ（α））を、数式８を用いて算出する。占有度数算出手段１０７５は、数式８の情報を予め保持しており、当該情報を読み出して、演算を実行し、出力分布ｂ_ｊ，ｍ（Ｗｏ_ｔ（α））を得る。

なお、数式８において、Ｍはケプストラム次数、|Ａ|は行列Ａのdeterminantを表わす。

占有度数算出手段１０７５は、通常、ＭＰＵやメモリ等から実現され得る。占有度数算出手段１０７５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

ケプストラム変換パラメータ算出手段１０７６は、学習音響データ格納手段１０７２の学習音響データを読み出し、およびメモリ上に一時格納されている第三のケプストラムベクトル系列（Ｏ_ｔ）を読み出し、読み出した学習音響データおよび第三のケプストラムベクトル系列（Ｏ_ｔ）に基づいて、ケプストラム変換パラメータ（α）を算出する。ケプストラム変換パラメータ算出手段１０７６は、さらに好ましくは、周波数範囲指定情報（Ｗ）で示される周波数範囲における学習音響データ、第三のケプストラムベクトル系列（Ｏ_ｔ）および占有度数（γ_ｔ（ｊ，ｍ））に基づいて、ケプストラム変換パラメータを算出する。なお、第三のケプストラムベクトル系列（Ｏ_ｔ）は、ケプストラム変換手段１０７４が算出したデータである。

具体的には、まず、ケプストラム変換パラメータ算出手段１０７６は、以下の数式９により、ベクトル（ｕ_ｔ（α））を算出する。なお、ケプストラム変換パラメータ算出手段１０７６は、数式９を示す情報を格納しており、かかる数式９の情報を読み出し、当該数式に、第三のケプストラムベクトル系列（Ｏ_ｔ）、ケプストラム変換パラメータ（α）、ベクトル（Ｃ_ｔ ⁻）の情報を与え、当該数式を演算する。そして、次に、ケプストラム変換パラメータ算出手段１０７６は、以下の数式１０により、αの最適値（α^＊）を算出する。なお、αの最適値（α^＊）は、繰り返しステップ（ループ処理）における現在のループ内の処理での最適値である。また、ケプストラム変換パラメータ算出手段１０７６は、以下の数式１０の式の情報を、予め格納している。

ケプストラム変換パラメータ算出手段１０７６は、通常、ＭＰＵやメモリ等から実現され得る。ケプストラム変換パラメータ算出手段１０７６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

最終ケプストラム変換パラメータ取得手段１０７７は、所定のルールに基づいて、ケプストラム変換手段１０７４における処理、占有度数算出手段１０７５における処理、およびケプストラム変換パラメータ算出手段１０７６における処理を繰り返えさせ、最終的な最適なケプストラム変換パラメータを得る。ここで、所定のルールとは、例えば、予め決められた所定の繰り返し回数だけ、処理を繰り返し行われたことである。また、所定のルールとは、例えば、αの最適値（α^＊）の変化が所定の値より小さくなった（先の（α^＊）と今回の（α^＊）の差が閾値以下など）ことである。また、所定のルールとは、その他のルールでも良い。最終ケプストラム変換パラメータ取得手段１０７７は、通常、ＭＰＵやメモリ等から実現され得る。最終ケプストラム変換パラメータ取得手段１０７７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

声道長正規化パラメータ算出手段１０７８は、最終ケプストラム変換パラメータ取得手段１０７７が得たケプストラム変換パラメータに基づいて、声道長正規化パラメータ（γ）を算出する。さらに具体的には、声道長正規化パラメータ算出手段１０７８は、まず、最終ケプストラム変換パラメータ取得手段１０７７が得たケプストラム変換パラメータから、以下の数式１１に従って、線形周波数伸縮比（ρ）を算出する。

次に、声道長正規化パラメータ算出手段１０７８は、当該線形周波数伸縮比（ρ）から、例えば、以下の数式１２に従って、声道長正規化パラメータ（γ）を算出する。

声道長正規化パラメータ算出手段１０７８は、通常、ＭＰＵやメモリ等から実現され得る。声道長正規化パラメータ算出手段１０７８の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第二サンプリング周波数算出部１０８は、声道長正規化パラメータ算出部１０７で算出した声道長正規化パラメータと、第一サンプリング周波数格納部１０４の第一サンプリング周波数を用いて第二サンプリング周波数を算出する。第二サンプリング周波数格納部１０５の第二サンプリング周波数は、第二サンプリング周波数算出部１０８が算出した第二サンプリング周波数である。つまり、第二サンプリング周波数算出部１０８は、算出した第二サンプリング周波数を第二サンプリング周波数格納部１０５に少なくとも一時格納する。なお、第二サンプリング周波数算出部１０８は、声道長正規化パラメータ算出部１０７で算出した声道長正規化パラメータ（γ）と、第一サンプリング周波数格納部１０４の第一サンプリング周波数（Ｆ_１）を用いて、例えば、数式「Ｆ_２＝Ｆ_１×γ」により、第二サンプリング周波数（Ｆ_２）を算出する。第二サンプリング周波数算出部１０８は、通常、ＭＰＵやメモリ等から実現され得る。第二サンプリング周波数算出部１０８の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

声道長正規化処理部１０９は、第二サンプリング周波数で、音声受付部１０３が受け付けた第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る。音声に対して、サンプリング処理を行う技術は公知技術である。また、声道長正規化処理部１０９は、音声受付部１０３が受け付け、サンプリング部１０６でサンプリングされたデータに対して、第二サンプリング周波数でリサンプリングして第二音声データを得ることは好適である。かかるリサンプリング処理も、音声受付部１０３が受け付けた第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る処理である、と言える。声道長正規化処理部１０９は、通常、ＭＰＵやメモリ等から実現され得る。声道長正規化処理部１０９の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

音声処理部１１０は、教師第一言語音声情報を用いて、第二音声データを処理する。ここでの音声の処理は、発音評定である、とする。音声処理部１１０は、通常、ＭＰＵやメモリ等から実現され得る。音声処理部１１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

音声処理部１１０を構成しているフレーム区分手段１１０１は、第二音声データを、フレームに区分する。フレーム区分手段１１０１は、通常、ＭＰＵやメモリ等から実現され得る。フレーム区分手段１１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

フレーム音声データ取得手段１１０２は、区分されたフレーム毎の音声データであるフレーム音声データを１以上得る。フレーム音声データ取得手段１１０２は、通常、ＭＰＵやメモリ等から実現され得る。フレーム音声データ取得手段１１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定手段１１０３は、教師第一言語音声情報と１以上のフレーム音声データに基づいて、音声受付部１０３が受け付けた音声の評定を行う。評定方法の具体例は、後述する。「音声受付部１０３が受け付けた音声を評定する」の概念には、第二音声データを評定することも含まれることは言うまでもない。評定手段１１０３は、通常、ＭＰＵやメモリ等から実現され得る。評定手段１１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定手段１１０３を構成する最適状態決定手段１１０３１は、１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する。最適状態決定手段１１０３１は、例えば、全音韻ＨＭＭから、比較される対象（学習対象）の単語や文章などの音声を構成する１以上の音素に対応するＨＭＭを取得し、当該取得した１以上のＨＭＭから、音素の順序で連結したデータ（比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したＨＭＭに基づくデータ）を構成する。そして、構成した当該データ、および取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。なお、最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムである。また、教師データ（教師第一言語音声情報）は、上述の比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したＨＭＭに基づくデータと考えても良いし、連結される前のデータであり、全音韻ＨＭＭのデータと考えても良い。

最適状態確率値取得手段１１０３２は、最適状態決定手段１１０３１が決定した最適状態における確率値を取得する。

評定値算出手段１１０３３は、最適状態確率値取得手段１１０３２が取得した確率値をパラメータとして音声の評定値を算出する。評定値算出手段１１０３３は、上記確率値を如何に利用して、評定値を算出するかは問わない。評定値算出手段１１０３３は、例えば、最適状態確率値取得手段１１０３２が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。評定値算出手段１１０３３は、ここでは、通常、フレームごとに評定値を算出する。

最適状態決定手段１１０３１、最適状態確率値取得手段１１０３２、評定値算出手段１１０３３は、通常、ＭＰＵやメモリ等から実現され得る。最適状態決定手段１１０３１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力手段１１０４は、評定手段１１０３における評定結果を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力手段１１０４は、例えば、フレーム単位、または／および音素・単語単位、または／および発声全体の評定結果を視覚的に表示する。出力手段１１０４は、ディスプレイ３４４やスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力手段１１０４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、音声処理装置の動作について図４から図６のフローチャートを用いて説明する。

（ステップＳ４０１）入力受付部１０１は、音声処理装置の動作開始を指示する動作開始指示を受け付けたか否かを判断する。動作開始指示を受け付ければステップＳ４０２に行き、動作開始指示を受け付けなければステップＳ４０６に飛ぶ。

（ステップＳ４０２）音声処理装置は、第二言語によるユーザの声道長正規化パラメータ算出処理を行う。本声道長正規化パラメータ算出処理は、ユーザの母国語である第二言語の音声を受け付け、バイリンガル話者（教師）の第二言語の音声と比較して、声道長正規化パラメータを算出する処理である。声道長正規化パラメータ算出処理の詳細について、図５のフローチャートを用いて後述する。

（ステップＳ４０３）第二サンプリング周波数算出部１０８は、第一サンプリング周波数格納部１０４の第一サンプリング周波数を読み出し、当該第一サンプリング周波数と、ステップＳ４０２で算出した声道長正規化パラメータを用いて第二サンプリング周波数を算出する。第二サンプリング周波数算出部１０８は、かかる第二サンプリング周波数の算出のための算出式の情報を保持しており、当該算出式の情報を読み出し、第一サンプリング周波数と声道長正規化パラメータを、当該算出式に代入し、実行することにより、第二サンプリング周波数を得る。

（ステップＳ４０４）第二サンプリング周波数算出部１０８は、ステップＳ４０３で算出した第二サンプリング周波数を、第二サンプリング周波数格納部１０５に蓄積する。

（ステップＳ４０５）音声処理装置は、第一言語の音声処理を行う。第一言語の音声処理とは、ユーザに第一言語の音声の発声を促し、音声処理部１１０が当該音声の処理を行うことである。第一言語の音声処理の詳細について、図６のフローチャートを用いて後述する。

（ステップＳ４０６）入力受付部１０１は、終了指示を受け付けたか否かを判断する。終了指示を受け付ければ処理を終了し、終了指示を受け付けなければステップＳ４０１に戻る。

なお、図４のフローチャートにおいて、声道長正規化パラメータの算出と、第一言語の音声の評定（音声処理）を別の装置、異なる時期（時間）に行っても良い。

次に、ステップＳ４０２の声道長正規化パラメータ算出処理の詳細について、図５のフローチャートを用いて説明する。なお、本声道長正規化パラメータ算出処理は、必ずしも音声処理装置で行う必要はない。

（ステップＳ５０１）音声処理装置は、初期化処理を行う。初期化処理とは、例えば、ユーザ（評価対象者）に対して、「／あいうえお／」と発声するように促す処理（例えば、ディスプレイに「「あいうえお」と発音してください。」と表示する処理）と、周波数範囲指定情報格納手段１０７１の周波数範囲指定情報を読み出す処理等である。

（ステップＳ５０２）音声受付部１０３が、ユーザからの音声を受け付けたか否かを判断する。音声を受け付ければステップＳ５０３に行き、音声を受け付けなければステップＳ５０２に戻る。

（ステップＳ５０３）サンプリング部１０６は、ステップＳ５０２で受け付けた音声をサンプリングし、第一音声データを得て、メモリ上に、少なくとも一時格納する。なお、音声をサンプリングする処理は公知技術である。

（ステップＳ５０４）第二ケプストラムベクトル系列算出手段１０７３は、ステップＳ５０３で得た第一音声データを取得し、当該第一音声データから、短区間分析により第二のケプストラムベクトル系列（Ｃ_ｔ）を算出し、第二のケプストラムベクトル系列（Ｃ_ｔ）をメモリ上に、少なくとも一時格納する。

（ステップＳ５０５）第二ケプストラムベクトル系列算出手段１０７３は、ステップＳ５０４で算出した第二のケプストラムベクトル系列（Ｃ_ｔ）を取得し、当該第二のケプストラムベクトル系列（Ｃ_ｔ）から、ベクトル（Ｃ_ｔ ⁻）（ｔ＝１，２，・・・，Ｔ）を取得し、ベクトル（Ｃ_ｔ ⁻）をメモリ上に、少なくとも一時格納する。

（ステップＳ５０６）ケプストラム変換手段１０７４は、予め格納しているケプストラム変換パラメータの初期値（α^〜）を読み出し、変数（α）に（α^〜）を設定する。

（ステップＳ５０７）ケプストラム変換手段１０７４は、第二のケプストラムベクトル系列（Ｃ_ｔ）を読み出し、当該第二のケプストラムベクトル系列（Ｃ_ｔ）を、ケプストラム変換パラメータ（α）を要素とする行列を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列（Ｏ_ｔ）を算出し、メモリ上に、少なくとも一時格納する。

（ステップＳ５０８）ケプストラム変換パラメータ算出手段１０７６は、ステップＳ５０７で算出した第三のケプストラムベクトル系列（Ｏ_ｔ）、およびステップＳ５０５で算出したベクトル（Ｃ_ｔ ⁻）を読み出し、当該第三のケプストラムベクトル系列（Ｏ_ｔ）およびベクトル（Ｃ_ｔ ⁻）から、ベクトル（ｕ_ｔ（α））を算出する（数式９参照）。ベクトル（ｕ_ｔ（α））を算出する場合に、格納している数式９の情報を読み出して、演算することは言うまでもない。

（ステップＳ５０９）占有度数算出手段１０７５は、ステップＳ５０７で得られた第三のケプストラムベクトル系列（Ｏ_ｔ）と学習音響データと周波数範囲指定情報（Ｗ）を用いて、占有度数（γ_ｔ（ｊ，ｍ））を算出し、メモリに一時記憶する。

（ステップＳ５１０）ケプストラム変換パラメータ算出手段１０７６は、周波数範囲指定情報（Ｗ）で示される周波数範囲における学習音響データ、ベクトル（ｕ_ｔ（α））および占有度数（γ_ｔ（ｊ，ｍ））に基づいて、本ループにおける最適なケプストラム変換パラメータ（α^＊）を算出する。ケプストラム変換パラメータ算出手段１０７６は、例えば、格納している数式１０の情報を読み出し、また、メモリ上の学習音響データ、ベクトル（ｕ_ｔ（α））、ベクトル（Ｃ_ｔ ⁻）および占有度数（γ_ｔ（ｊ，ｍ））を読み出し、数式１０に代入し、ケプストラム変換パラメータ（α^＊）を算出する。

（ステップＳ５１１）最終ケプストラム変換パラメータ取得手段１０７７は、予め決められた所定のルール（ルールの情報は、予め格納されている）に合致するか否かを判断する。ルールに合致すればステップＳ５１２に行き、ルールに合致しなければステップＳ５１４に行く。なお、ルールとは、上述したように、例えば、予め決められた所定の繰り返し回数（この回数の情報は、予めメモリ等に格納されている）だけ、本ループ処理（αの最適値（α^＊）を算出し、α^＊をαに代入する処理）が繰り返し行われたことである。

（ステップＳ５１２）声道長正規化パラメータ算出手段１０７８は、最終ケプストラム変換パラメータ取得手段１０７７が得たケプストラム変換パラメータ（最終のα^＊）を取得し、当該パラメータを数式１１の演算式に与え、線形周波数伸縮比（ρ）を算出する。なお、数式１１の演算式の情報は、声道長正規化パラメータ算出手段１０７８が予め格納している。また、声道長正規化パラメータ算出手段１０７８は、算出した線形周波数伸縮比（ρ）を、少なくともメモリに一時格納する。

（ステップＳ５１３）声道長正規化パラメータ算出手段１０７８は、線形周波数伸縮比（ρ）を読み出し、当該線形周波数伸縮比（ρ）から、声道長正規化パラメータ（γ）を算出し、少なくともメモリに一時格納する。声道長正規化パラメータ算出手段１０７８は、例えば、予め格納している数式１２の情報を読み出し、線形周波数伸縮比（ρ）を代入し、数式１２の演算式を実行し、声道長正規化パラメータ（γ）を得る。

（ステップＳ５１４）最終ケプストラム変換パラメータ取得手段１０７７は、ステップＳ５１０で算出した（α^＊）をαに代入する。そして、ステップＳ５０７に戻る。

次に、第一言語の音声処理の詳細について、図６のフローチャートを用いて説明する。

（ステップＳ６０１）音声処理装置は、初期化処理を行う。初期化処理とは、例えば、ユーザ（評価対象者）に対して、所定の単語や文字列や文章などを発声するように促す処理（例えば、ディスプレイに「「valuation」と発音してください。」と表示する処理）等である。なお、例えば、単語「valuation」は、本例において、発音評定の対象となる単語である。

（ステップＳ６０２）音声受付部１０３は、音声を受け付けたか否かを判断する。音声を受け付ければステップＳ６０３に行き、音声を受け付けなければステップＳ６０２に戻る。

（ステップＳ６０３）サンプリング部１０６は、第一サンプリング周波数格納部１０４に格納されている第一サンプリング周波数を読み込み、当該第一サンプリング周波数で、音声受付部１０３が受け付けた音声をサンプリングし、第一音声データを得る。

（ステップＳ６０４）声道長正規化処理部１０９は、ステップＳ６０３で得られた第一音声データに対して、第二サンプリング周波数でリサンプリング処理を行い、第二音声データを得る。

（ステップＳ６０５）フレーム区分手段１１０１は、ステップＳ６０４で得た第二音声データを図示しないバッファに一時格納する。

（ステップＳ６０６）フレーム区分手段１１０１は、バッファに一時格納した第二音声データをフレームに区分する。かかる段階で、区分されたフレーム毎の音声データであるフレーム音声データが構成されている。フレーム区分手段１１０１が行うフレーム分割の処理は、例えば、フレーム音声データ取得手段１１０２がフレーム音声データを取り出す際の前処理であり、入力された音声のデータを、すべてのフレームに一度に分割するとは限らない。

（ステップＳ６０７）フレーム音声データ取得手段１１０２は、カウンタｉに１を代入する。

（ステップＳ６０８）フレーム音声データ取得手段１１０２は、ｉ番目のフレームが存在するか否かを判断する。ｉ番目のフレームが存在すればステップＳ６０９に行き、ｉ番目のフレームが存在しなければステップＳ６１１に行く。

（ステップＳ６０９）フレーム音声データ取得手段１１０２は、ｉ番目のフレーム音声データを取得する。フレーム音声データの取得とは、例えば、当該分割された音声データを音声分析し、特徴ベクトルデータを抽出することである。なお、フレーム音声データは、例えば、入力された音声データをフレーム分割されたデータである。また、フレーム音声データは、例えば、当該分割された音声データから音声分析され、抽出された特徴ベクトルデータを有する。本特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。

（ステップＳ６１０）フレーム音声データ取得手段１１０２は、カウンタｉを１、インクリメントする。そして、ステップＳ６０８に戻る。

（ステップＳ６１１）最適状態決定手段１１０３１は、全フレームの最適状態を決定する。最適状態決定手段１１０３１が最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムによる。Ｖｉｔｅｒｂｉアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。

（ステップＳ６１２）最適状態確率値取得手段１１０３２は、全フレームの全状態の前向き尤度、および後向き尤度を算出する。最適状態確率値取得手段１１０３２は、例えば、全てのＨＭＭを用いて、フォワード・バックワードアルゴリズムにより、前向き尤度、および後向き尤度を算出する。

（ステップＳ６１３）最適状態確率値取得手段１１０３２は、ステップＳ６１２で取得した前向き尤度、および後向き尤度を用いて、最適状態の確率値（最適状態確率値）を、すべて算出する。

（ステップＳ６１４）評定値算出手段１１０３３は、ステップＳ６１３で算出した１以上の最適状態確率値から、１以上のフレームの音声の評定値を算出する。評定値算出手段１１０３３が評定値を算出する関数は問わない。評定値算出手段１１０３３は、例えば、取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。

（ステップＳ６１５）出力手段１１０４は、ステップＳ６１４における評定結果（ここでは、音声の評定値）を、例えば、設定されている出力モードに従って、出力し、上位関数にリターンする。出力モードとは、評定値を数値で画面に表示するモード、評定値の遷移をグラフで画面に表示するモード、評定値を音声で出力するモード、評定値が所定の数値より低い場合に警告を示す情報を表示するモードなど、何でも良い。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。音声処理装置の処理の概念図を図７に示す。

図７によれば、バイリンガル話者が第二言語（例えば、日本語）で発声した特定の発話内容の音声を教師データ格納部１０２に格納している。また、ユーザ（例えば、日本人）は、第二言語（例えば、日本語）で特定の発話内容を発声する。そして、バイリンガル話者の第二言語の発話音声と、ユーザの第二言語の発話音声から、声道長正規化パラメータを推定する。声道長正規化パラメータは、例えば、上述した声道長を正規化するパラメータの声道長正規化パラメータである。

また、バイリンガル話者は、第一言語（例えば、英語）で評定対象の音声を発声し、その音声データを教師データ格納部１０２に格納している、とする。そして、次に、ユーザは、第一言語（例えば、英語）で評定対象の音声を発声し、本音声処理装置は、その音声を受け付け、その音声を処理する。本音声処理装置は、その音声処理の際に、受け付けたユーザの音声を、先に算出した声道長正規化パラメータにより正規化し（図７の声道長正規化）、正規化したユーザの音声データと、バイリンガル話者が発声した音声データとを比較し、発音評定等の音声処理を行う。

かかる処理により、声道長正規化におけるユーザとシステムの間の言語特徴のミスマッチを回避でき、声道長正規化の精度が向上する。その結果、正確な音声処理（発音評定や音声認識など）が可能となる。

以下、本音声処理装置のさらに具体的な動作について説明する。なお、既に、バイリンガル話者が第二言語で発声した"あいうえお"の音声データ（声道長正規化パラメータの算出のための音声データ）や、第一言語で発声した"ｒｉｇｈｔ"の音声データ（音声処理の一つである発音評定のための音声データ）が、教師データ格納部１０２に格納されている、とする。かかる教師データ（教師第一言語音声情報と教師第二言語音声情報）は、ここでは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータである、とする。この教師データは、図示しない手段により、音声データベースから音韻ＨＭＭを学習しておく。ここで、音韻の種類数をＬとし、ｌ番目の音韻に対するＨＭＭをλ_ｌとする。なお、かかる学習の処理については、公知技術であるので、詳細な説明は省略する。なお、ＨＭＭの仕様の例について、図８に示す。なお、ＨＭＭの仕様は、他の実施の形態における具体例の説明においても同様である。ただし、ＨＭＭの仕様が、他の仕様でも良いことは言うまでもない。

かかる状況で、まず、本音声処理装置において、ユーザが、動作開始指示を入力する、とする。そして、入力受付部１０１は、動作開始指示を受け付ける。

次に、音声処理装置は、声道長正規化パラメータの算出処理を以下のように行う。つまり、まず、本音声処理装置は、ユーザに対して、例えば、「"あいうえお"と発声してください。」という文章を画面出力する、とする。次に、ユーザは、「あいうえお」と発声した、とする。

次に、図５のフローチャートに従って、声道長正規化パラメータ算出手段１０７８は、声道長正規化パラメータ（サンプリング周波数変換率）γを計算する。つまり、システム設計用音声データベースから、指定された発話内容（／あいうえお／）に従って音素ＨＭＭ（教師データが有する音素のＨＭＭ）を連結し連結ＨＭＭを構成する。そして、連結ＨＭＭと、同じ音素列のユーザ発話音声の変換されたケプストラムベクトルＯ_ｔの、Λ（Λは、ユーザ発話音声にしたがって連結された連結ＨＭＭ）に対する出現確率が最大になるようにパラメータを算出する。ただし、求まるパラメータ（α^＊）はケプストラム変換（ケプストラムワーピング）パラメータであり、このままでは声道長の変換（ここでは、話者の特性を声道長であるとしている。）を直接表わすものではないため、近似変換式（１／ρ）を用いて最終的な声道長正規化パラメータ（サンプリング周波数変換率）γを計算する。ここで、例えば、声道長正規化パラメータ（γ）が「１．４５８」であった、とする。

次に、音声処理部１１０は、ここでは、発音評定を行う、とする。そして、まず、音声処理装置は、第一言語（ここでは、英語）の単語"ｒｉｇｈｔ"の入力を促す、とする。つまり、音声処理装置は、学習者に「"ｒｉｇｈｔ"を発音してください。」などを表示、または音声出力するなどして、学習者に「ｒｉｇｈｔ」の発声を促す、とする。

次に、ユーザは、学習対象の音声「ｒｉｇｈｔ」を発音する。そして、音声受付部１０３は、ユーザが発音した音声「ｒｉｇｈｔ」の入力を受け付ける。

次に、サンプリング部１０６は、受け付けた音声「ｒｉｇｈｔ」を第一サンプリング周波数（例えば、「２２．０５ＫＨｚ」）でサンプリング処理する。そして、サンプリング部１０６は、音声「ｒｉｇｈｔ」の第一音声データを得る。

次に、声道長正規化処理部１０９は、「ｒｉｇｈｔ」の第一音声データを第二サンプリング周波数「３２．１ＫＨｚ」でリサンプリング処理する。そして、声道長正規化処理部１０９は、第二音声データを得る。そして、声道長正規化処理部１０９は、第二音声データを一時格納する。

次に、音声処理部１１０は、第二音声データを、以下のように処理する。

まず、フレーム区分手段１１０１は、第二音声データを、短時間フレームに区分する。なお、フレームの間隔は、予め決められている、とする。

そして、フレーム音声データ取得手段１１０２は、フレーム区分手段１１０１が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。なお、Ｔは、系列長である。ここで、特徴ベクトル系列は、各フレームの特徴ベクトルの集合である。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。なお、音声分析条件の例を図９の表に示す。なお、音声分析条件は、他の実施の形態における具体例の説明においても同様である。ただし、音声分析条件が、他の条件でも良いことは言うまでもない。また、音声分析の際のサンプリング周波数は、第一サンプリング周波数「２２．０５ＫＨｚ」である。

次に、最適状態決定手段１１０３１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。最適状態決定手段１１０３１が最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムによる。かかる場合、最適状態決定手段１１０３１は、上記で連結したＨＭＭを用いて最適状態を決定する。最適状態決定手段１１０３１は、２以上のフレームの最適状態である最適状態系列を求めることとなる。

次に、最適状態確率値取得手段１１０３２は、以下の数式１３により、最適状態（ｑ_ｔ ^＊）における最適状態確率値（γ_ｔ（ｑ_ｔ ^＊））を算出する。なお、γ_ｔ（ｑ_ｔ ^＊）は、状態ｊの事後確率関数γ_ｔ（ｊ）のｊにｑ_ｔ ^＊を代入した値である。そして、状態ｊの事後確率関数γ_ｔ（ｊ）は、数式１４を用いて算出される。この確率値（γ_ｔ（ｊ））は、ｔ番目の特徴ベクトルｏ_ｔが状態ｊから生成された事後確率であり、動的計画法を用いて算出される。なお、ｊは、状態を識別する状態識別子である。

数式１４において、ｑ_ｔは、ｏ_ｔに対する状態識別子を表す。この確率値（γ_ｔ（ｊ））は、ＨＭＭの最尤推定におけるＢａｕｍ−Ｗｅｌｃｈアルゴリズムの中で表れる占有度数に対応する。

数式１４において、「α_ｔ（ｊ）」「β_ｔ（ｊ）」は、全部のＨＭＭを用いて、ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムにより算出される。「α_ｔ（ｊ）」は前向き尤度、「β_ｔ（ｊ）」は後向き尤度である。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズム、ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。

また、数式１４において、Ｎは、全ＨＭＭに渡る状態の総数を示す。

なお、評定手段１１０３は、まず最適状態を求め、次に、最適状態の確率値（なお、確率値は、０以上、１以下である。）を求めても良いし、評定手段１１０３は、まず、全状態の確率値を求め、その後、特徴ベクトル系列の各特徴ベクトルに対する最適状態を求め、当該最適状態に対応する確率値を求めても良い。

次に、評定値算出手段１１０３３は、例えば、上記の取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。かかる場合、もし学習者のｔフレーム目に対応する発声が、教師データが示す発音に近ければ、数式１４の（２）式の分子の値が、他の全ての可能な音韻の全ての状態と比較して大きくなり、結果的に最適状態の確率値（評定値）が大きくなる。逆にその区間が、教師データが示す発音に近くなければ、評定値は小さくなる。なお、どの発音にも近くないような場合は、評定値はほぼ１／Ｎに等しくなる。Ｎは全ての音韻ＨＭＭにおける全ての状態の数であるから、通常、大きな値となり、この評定値は十分小さくなる。また、ここでは、評定値は最適状態における確率値と全ての可能な状態における確率値との比率で定義されている。したがって、収音環境等の違いにより多少のスペクトルの変動があったとしても、学習者が正しい発音をしていれば、その変動が相殺され評定値が高いスコアを維持する。よって、評定値算出手段１１０３３は、最適状態確率値取得手段１１０３２が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出することは、極めて好適である。

かかる評定値算出手段１１０３３が算出した評定値（「ＤＡＰスコア」とも言う。）を、図１０、図１１に示す。図１０、図１１において、横軸は分析フレーム番号、縦軸はスコアを％で表わしたものである。太い破線は音素境界，細い点線は状態境界（いずれもＶｉｔｅｒｂｉアルゴリズムで求まったもの）を表わしており，図の上部に音素名を表記している。図１０は、アメリカ人男性による英語「ｒｉｇｈｔ」の発音のＤＡＰスコアを示す。なお、評定値を示すグラフの横軸、縦軸は、後述するグラフにおいても同様である。

図１１は、日本人男性による英語「ｒｉｇｈｔ」の発音のＤＡＰスコアを示す。アメリカ人の発音は、日本人の発音と比較して、基本的にスコアが高い。なお、図１０において、状態の境界において所々スコアが落ち込んでいることがわかる。

そして、出力手段１１０４は、評定手段１１０３の評定結果を出力する。具体的には、例えば、出力手段１１０４は、図１２に示すような態様で、評定結果を出力する。つまり、出力手段１１０４は、各フレームにおける発音の良さを表すスコア（スコアグラフ）として、各フレームの評定値を表示する。その他、出力手段１１０４は、学習対象の単語の表示（単語表示）、音素要素の表示（音素表示）、教師データの波形の表示（教師波形）、学習者の入力した発音の波形の表示（ユーザ波形）を表示しても良い。なお、図１２において、「録音」ボタンを押下すれば、動作開始指示が入力されることとなり、「停止」ボタンを押下すれば、終了指示が入力されることとなる。また、音素要素の表示や波形の表示をする技術は公知技術であるので、その詳細説明を省略する。また、本音声処理装置は、学習対象の単語（図１２の「ｗｏｒｄ１」など）や、音素（図１２の「ｐ１」など）や、教師波形を出力されるためのデータを予め格納している、とする。

また、図１２において、フレーム単位以外に、音素単位、単語単位、発声全体の評定結果を表示しても良い。上記の処理において、フレーム単位の評定値を算出するので、単語単位、発声全体の評定結果を得るためには、フレーム単位の１以上の評定値をパラメータとして、単語単位、発声全体の評定値を算出する必要がある。かかる算出式は問わないが、例えば、単語を構成するフレーム単位の１以上の評定値の平均値を単語単位の評定値とする、ことが考えられる。

なお、図１２において、音声処理装置は、波形表示（教師波形またはユーザ波形）の箇所においてクリックを受け付けると、再生メニューを表示し、音素区間内ではその音素またはその区間が属する単語、波形全体を再生し、単語区間外（無音部）では波形全体のみを再生するようにしても良い。

また、出力手段１１０４の表示は、図１３に示すような態様でも良い。図１３において、音素ごとのスコア、単語のスコア、総合スコアが、数字で表示されている。

なお、出力手段１１０４の表示は、図１０、図１１のような表示でも良いことは言うまでもない。

以上、本実施の形態によれば、ユーザの母国語と、音声処理対象の音声の言語が異なる場合でも、言語の特徴に影響されない、精度の高い音声処理ができる。また、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。さらに、本実施の形態によれば、個人差、例えば、声道長の違いに影響を受けない、精度の高い評定ができる。

また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、または／および音素・単語単位、または／および発声全体の評定結果を出力でき、出力態様の自由度が高い。

また、本実施の形態によれば、音声処理装置は、語学学習に利用することを主として説明したが、物真似練習や、カラオケ評定や、歌唱評定などに利用できる。つまり、本音声処理装置は、比較される対象の音声に関するデータとの類似度を精度良く、高速に評定し、出力でき、そのアプリケーションは問わない。つまり、例えば、本音声処理装置は、カラオケ評価装置であって、音声受付部は、ユーザの歌声の入力を受け付け、音声処理部は、前記歌声を評価する、という構成でも良い。かかることは、他の実施の形態においても同様である。

また、本実施の形態において、音声の入力を受け付けた後または停止ボタン操作後に、スコアリング処理を実行するかどうかをユーザに問い合わせ、スコアリング処理を行うとの指示を受け付けた場合のみ、図１３に示すような音素スコア、単語スコア、総合スコアを出力するようにしても良い。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータであるとして、主として説明したが、必ずしもＨＭＭに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や統計モデルなど、他のモデルに基づくデータでも良い。かかることも、他の実施の形態においても同様である。

また、本実施の形態の具体例において、学習者は、母音「あいうえお」を発音し、音声処理装置は、かかる音声から第二サンプリング周波数を得た。しかし、学習者は、例えば、母音「う」等、１以上の母音を発音し、かかる母音の音声から、音声処理装置は、第二サンプリング周波数を得ても良い。つまり、第二サンプリング周波数を得るために、学習者が発音する音は「あいうえお」に限られない。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、音声処理部１１０は、ＤＡＰスコアを算出した。しかし、他のアルゴリズムで発音評定を行っても良い。他のアルゴリズムの例は、後述する。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、音声処理部１１０は、発音評定ではなく、音声認識などの音声処理を行っても良い。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、声道長正規化パラメータ算出のアルゴリズムは、問わない。つまり、例えば、声道長正規化パラメータ算出のアルゴリズムは、実施の形態４におけるアルゴリズムでも良い。声道長正規化パラメータ算出のアルゴリズムは問わないことも、他の実施の形態においても同様である。

また、本実施の形態において、音声処理装置は、声道長正規化処理部１０９において、声道長正規化パラメータを算出した。しかし、別の装置で別途、声道長正規化パラメータを算出しておいて、かかる声道長正規化パラメータを声道長正規化パラメータ格納部に格納していても良い。また、第二サンプリング周波数算出部１０８は、バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報と、ユーザが発声した第二言語の音声に関する情報であるユーザ第二言語音声情報を用いて算出された声道長正規化パラメータと、バイリンガル話者の音声のサンプリング周波数である第一サンプリング周波数を用いて第二サンプリング周波数を算出した。しかし、第二サンプリング周波数も、別途、算出し、音声処理装置は、予め第二サンプリング周波数を保持していても良い。かかる場合、音声処理装置は、バイリンガル話者の第一言語の音声に関する情報である教師第一言語音声情報を格納している教師データ格納部と、ユーザから第一言語の音声の入力を受け付ける音声受付部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータであり、バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報と、ユーザが発声した第二言語の音声に関する情報であるユーザ第二言語音声情報を用いて算出された声道長正規化パラメータと、前記バイリンガル話者の音声のサンプリング周波数である第一サンプリング周波数を用いて算出された第二サンプリング周波数を格納している第二サンプリング周波数格納部と、前記第二サンプリング周波数で、前記音声受付部が受け付けた前記第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記教師第一言語音声情報を用いて、前記第二音声データを処理する音声処理部を具備する音声処理装置である。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、音声処理装置が行う下記の処理を、一のＤＳＰ（デジタルシグナルプロセッサ）で行っても良い。つまり、本ＤＳＰは、バイリンガル話者の第一言語の音声に関する情報である教師第一言語音声情報を格納している教師データ格納部と、ユーザから第一言語の音声の入力を受け付ける音声受付部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータであり、バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報と、ユーザが発声した第二言語の音声に関する情報であるユーザ第二言語音声情報を用いて算出された声道長正規化パラメータと、前記バイリンガル話者の音声のサンプリング周波数である第一サンプリング周波数を用いて算出された第二サンプリング周波数を格納している第二サンプリング周波数格納部と、前記第二サンプリング周波数で、前記音声受付部が受け付けた前記第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部を具備するデジタルシグナルプロセッサ、である。かかることも、他の実施の形態でも同様である。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における音声処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、ユーザから第一言語の音声の入力を受け付ける音声受付ステップと、格納している第二サンプリング周波数で、前記音声受付ステップで受け付けた前記第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理ステップと、格納している教師第一言語音声情報を用いて、前記第二音声データを処理する音声処理ステップを実行させるためのプログラム、である。

また、上記プログラムにおける前記音声受付ステップは、前記ユーザから第二言語の音声の入力をも受け付け、コンピュータに、前記音声受付ステップで受け付けた第二言語の音声に関する情報であるユーザ第二言語音声情報と前記教師第二言語音声情報から、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出ステップと、前記声道長正規化パラメータと、前記第一サンプリング周波数を用いて第二サンプリング周波数を算出する第二サンプリング周波数算出ステップとをさらに実行させ、前記第二サンプリング周波数は、前記第二サンプリング周波数算出部が算出した第二サンプリング周波数であることは好適である。

また、上記プログラムにおいて、前記声道長正規化パラメータ算出ステップは、前記音声受付ステップで受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出ステップと、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換ステップと、指定された発話内容に従って受け付けた音声の事後確率である占有度数を算出する占有度算出ステップと、格納している学習音響データおよび前記第三のケプストラムベクトル系列および前記占有度数に基づいて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出ステップと、所定のルールに基づいて、前記ケプストラム変換ステップにおける処理、および前記占有度算出ステップにおける処理、および前記ケプストラム変換パラメータ算出ステップにおける処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得ステップと、前記最終ケプストラム変換パラメータ取得ステップで得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出ステップを具備することは好適である。

また、上記プログラムにおける前記ケプストラム変換パラメータ算出ステップは、格納している周波数範囲指定情報、学習音響データ、第三のケプストラムベクトル系列および占有度数を用いて、ケプストラム変換パラメータを算出することは好適である。

また、上記プログラムにおける前記音声処理ステップは、前記第二音声データを、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得ステップと、前記第一言語音声情報と前記１以上のフレーム音声データに基づいて、前記音声受付ステップで受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを具備することは好適である。

また、上記プログラムにおける前記評定ステップは、前記１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定ステップと、前記最適状態決定ステップで決定した最適状態における確率値を取得する最適状態確率値取得ステップと、前記最適状態確率値取得ステップで取得した確率値をパラメータとして音声の評定値を算出する評定値算出ステップを具備することは好適である。
（実施の形態２）

本実施の形態において、教師データ格納部の教師データとして、バイリンガル話者の教師第一言語音声情報だけではなく、バイリンガル話者以外の話者であり、第一言語を母語とする話者である第一言語話者の第一言語の音声に関する情報である他者第一言語音声情報も利用する。また、他者第一言語音声情報は、バイリンガル話者に対する第一言語話者の音声の声道長正規化パラメータの推定を行い、当該推定した声道長正規化パラメータにより変換したデータを構築し、他者第一言語音声情報とすることは好適である。

図１４は、本実施の形態における音声処理装置のブロック図である。音声処理装置は、入力受付部１０１、教師データ格納部１４０２、音声受付部１０３、第一サンプリング周波数格納部１０４、第二サンプリング周波数格納部１０５、サンプリング部１０６、声道長正規化パラメータ算出部１０７、第二サンプリング周波数算出部１０８、声道長正規化処理部１０９、音声処理部１１０、第一言語話者音声受付部１４１１、第二声道長正規化パラメータ算出部１４１２、第三サンプリング周波数算出部１４１３、第二声道長正規化処理部１４１４を具備する。

図１５は、第二声道長正規化パラメータ算出部１４１２の詳細を示すブロック図である。第二声道長正規化パラメータ算出部１４１２は、パラメータ候補値範囲情報格納手段１４１２１、パラメータ候補値取得手段１４１２２、第一言語話者用サンプリング周波数取得手段１４１２３、他者第一言語音声候補情報取得手段１４１２４、処理結果取得手段１４１２５、第二声道長正規化パラメータ決定手段１４１２６を具備する。

教師データ格納部１４０２は、教師第一言語音声情報と、教師第二言語音声情報と、他者第一言語音声情報をも格納している。教師第一言語音声情報は、バイリンガル話者の第一言語の音声に関する情報である。教師第二言語音声情報は、バイリンガル話者の第二言語の音声に関する情報である。他者第一言語音声情報は、バイリンガル話者以外の話者であり、第一言語を母語とする話者である第一言語話者の第一言語の音声に関する情報である。教師データ格納部１４０２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

第一言語話者音声受付部１４１１は、第一言語話者が発声した音声である第一言語話者音声を受け付ける。第一言語話者音声受付部１４１１は、音声受付部１０３と、物理的に一の手段で実現されても良い。第一言語話者音声受付部１４１１は、例えば、マイク３４５のドライバーソフトで実現され得る。また、なお、第一言語話者音声受付部１４１１は、マイク３４５とそのドライバーから実現されると考えても良い。音声は、マイク３４５から入力されても良いし、磁気テープやＣＤ−ＲＯＭなどの記録媒体から読み出すことにより入力されても良い。

第二声道長正規化パラメータ算出部１４１２は、教師第一言語音声情報と第一言語話者音声から、第一言語話者の音声を正規化するパラメータである第二声道長正規化パラメータを算出する。第二声道長正規化パラメータ算出部１４１２は、通常、ＭＰＵやメモリ等から実現され得る。第二声道長正規化パラメータ算出部１４１２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

パラメータ候補値範囲情報格納手段１４１２１は、第二声道長正規化パラメータの候補値であるパラメータ候補値の範囲を示す情報であるパラメータ候補値範囲情報を格納している。パラメータ候補値範囲情報格納手段１４１２１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

パラメータ候補値取得手段１４１２２は、パラメータ候補値範囲情報が示す範囲のうちの所定の２以上のパラメータ候補値を取得する。パラメータ候補値範囲情報（ｒ）が、例えば、「０．７＜＝ｒ＜＝１．５」である場合、パラメータ候補値取得手段１４１２２は、例えば、「０．７」から、「０．０１」刻みで、「１．５」まで、パラメータ候補値を取得する。パラメータ候補値取得手段１４１２２は、2以上のパラメータ候補値を取得すればよい。パラメータ候補値取得手段１４１２２は、通常、ＭＰＵやメモリ等から実現され得る。パラメータ候補値取得手段１４１２２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第一言語話者用サンプリング周波数取得手段１４１２３は、パラメータ候補値取得手段１４１２２が取得した２以上のパラメータ候補値と第一サンプリング周波数を用いて、第一言語話者音声に対するサンプリング周波数である第一言語話者用サンプリング周波数を２以上取得する。第一言語話者用サンプリング周波数取得手段１４１２３は、通常、ＭＰＵやメモリ等から実現され得る。第一言語話者用サンプリング周波数取得手段１４１２３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

他者第一言語音声候補情報取得手段１４１２４は、第一言語話者用サンプリング周波数取得手段１４１２３が取得した２以上の第一言語話者用サンプリング周波数をそれぞれ用いて、第一言語話者音声受付部１４１１が受け付けた第一言語話者音声に対して、サンプリング処理を行い、２以上の他者第一言語音声候補情報を得る。なお、他者第一言語音声候補情報取得手段１４１２４は、サンプリング部１０６がサンプリングして得た音声データに対して、リサンプリング処理を行い、他者第一言語音声候補情報を得ることは好適である。かかる場合も、サンプリング部１０６のサンプリング対象は、第一言語話者音声受付部１４１１が受け付けた第一言語話者音声であるので、他者第一言語音声候補情報取得手段１４１２４は、第一言語話者音声受付部１４１１が受け付けた第一言語話者音声に対して、サンプリング処理を行い、他者第一言語音声候補情報を得たこととなる。他者第一言語音声候補情報取得手段１４１２４は、通常、ＭＰＵやメモリ等から実現され得る。他者第一言語音声候補情報取得手段１４１２４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

処理結果取得手段１４１２５は、音声処理部１１０に２以上の他者第一言語音声候補情報をそれぞれ渡し、教師第一言語音声情報を用いて、２以上の他者第一言語音声候補情報をそれぞれ処理させ、２以上の処理結果を得る。音声処理部１１０が発音評定を行う場合、処理結果取得手段１４１２５は、例えば、例えば、「０．７」から、「０．０１」刻みで、「１．５」まで、パラメータ候補値が変化する状況で、発音評定結果を、順次取得する。処理結果取得手段１４１２５は、通常、ＭＰＵやメモリ等から実現され得る。処理結果取得手段１４１２５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第二声道長正規化パラメータ決定手段１４１２６は、処理結果取得手段１４１２５が得た２以上の処理結果のうち、最適な処理結果に対応するパラメータ候補値を第二声道長正規化パラメータと決定する。第二声道長正規化パラメータ決定手段１４１２６は、例えば、発音評定結果が最良の他者第一言語音声候補情報に対応するパラメータ候補値を第二声道長正規化パラメータと決定する。第二声道長正規化パラメータ決定手段１４１２６は、通常、ＭＰＵやメモリ等から実現され得る。第二声道長正規化パラメータ決定手段１４１２６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第三サンプリング周波数算出部１４１３は、第二声道長正規化パラメータと、第一サンプリング周波数を用いて第三サンプリング周波数を算出する。第三サンプリング周波数算出部１４１３は、通常、ＭＰＵやメモリ等から実現され得る。第三サンプリング周波数算出部１４１３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第二声道長正規化処理部１４１４は、第三サンプリング周波数で、第一言語話者音声受付部１４１１が受け付けた第一言語話者音声に対して、サンプリング処理を行い、他者第一言語音声情報を得て、当該他者第一言語音声情報を教師データ格納部１４０２に蓄積する。第二声道長正規化処理部１４１４は、第一言語話者音声受付部１４１１が受け付けた第一言語話者音声に対して、サンプリング部１０６がサンプリングしたデータをリサンプリングし、他者第一言語音声情報を得て、当該他者第一言語音声情報を教師データ格納部１４０２に蓄積しても良いことは言うまでもない。第二声道長正規化処理部１４１４は、通常、ＭＰＵやメモリ等から実現され得る。第二声道長正規化処理部１４１４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音声処理装置の動作について説明する。本実施の形態において、音声処理装置の動作のうちの第二声道長正規化パラメータ算出部の処理が、実施の形態１とは異なる。第二声道長正規化パラメータ算出部１４１２の処理について、図１６、図１７のフローチャートを用いて説明する。

（ステップＳ１６０１）第一言語話者音声受付部１４１１は、第一言語話者が発声した音声である第一言語話者音声を受け付けたか否かを判断する。第一言語話者音声を受け付ければステップＳ１６０２に行き、第一言語話者音声を受け付けなければステップＳ１６０１に戻る。

（ステップＳ１６０２）サンプリング部１０６は、ステップＳ１６０１で受け付けた第一言語話者音声をサンプリングし、第一言語話者の音声データを得て、メモリ上に、少なくとも一時格納する。

（ステップＳ１６０３）第二声道長正規化パラメータ算出部１４１２は、教師第一言語音声情報と、ステップＳ１６０２でサンプリングした音声データから、第一言語話者の音声を正規化するパラメータである第二声道長正規化パラメータを算出する。第二声道長正規化パラメータを算出する処理の詳細について、図１７のフローチャートを用いて後述する。

（ステップＳ１６０４）第三サンプリング周波数算出部１４１３は、ステップＳ１６０３で算出した第二声道長正規化パラメータと、第一サンプリング周波数格納部１０４の第一サンプリング周波数を用いて第三サンプリング周波数を算出する。

（ステップＳ１６０５）第二声道長正規化処理部１４１４は、ステップＳ１６０２で得られた音声データに対して、第三サンプリング周波数でリサンプリング処理を行い、他者第一言語音声情報を得る。なお、第二声道長正規化処理部１４１４は、声道長正規化処理部１０９と同じ機能を果たすので、同一の物理的手段で実現されても良い。

（ステップＳ１６０６）第二声道長正規化処理部１４１４は、ステップＳ１６０５で得た他者第一言語音声情報を、教師データ格納部１４０２に蓄積し、処理を終了する。

ステップＳ１６０３の第二声道長正規化パラメータを算出する処理の詳細について、図１７のフローチャートを用いて説明する。

（ステップＳ１７０１）パラメータ候補値取得手段１４１２２は、パラメータ候補値範囲情報格納手段１４１２１１からパラメータ候補値範囲情報を読み出す。

（ステップＳ１７０２）パラメータ候補値取得手段１４１２２は、カウンタｉに１を代入する。

（ステップＳ１７０３）パラメータ候補値取得手段１４１２２は、ｉ番目のパラメータ候補値が存在するか否かを判断する。ｉ番目のパラメータ候補値が存在すればステップＳ１７０４に行き、ｉ番目のパラメータ候補値が存在しなければステップＳ１７１０に行く。なお、本ステップで、ｉ番目のパラメータ候補値が存在する場合、パラメータ候補値取得手段１４１２２は、ｉ番目のパラメータ候補値を取得している、とする。

（ステップＳ１７０４）第一言語話者用サンプリング周波数取得手段１４１２３は、ステップＳ１７０３で取得したｉ番目のパラメータ候補値と第一サンプリング周波数を用いて、第一言語話者音声に対するサンプリング周波数である第一言語話者用サンプリング周波数を算出する。なお、第一言語話者用サンプリング周波数取得手段１４１２３は、第一サンプリング周波数を、第一サンプリング周波数格納部１０４から読み出す。

（ステップＳ１７０５）他者第一言語音声候補情報取得手段１４１２４は、ステップＳ１７０４で取得した第一言語話者用サンプリング周波数を用いて、サンプリング部１０６がサンプリングして得た音声データに対して、リサンプリング処理を行い、他者第一言語音声候補情報を得る。

（ステップＳ１７０６）処理結果取得手段１４１２５は、ステップＳ１７０５で得た他者第一言語音声候補情報を音声処理部１１０に渡す。

（ステップＳ１７０７）処理結果取得手段１４１２５は、ステップＳ１７０６における他者第一言語音声候補情報の音声処理部１１０への送付に対応して、音声処理部１１０から処理結果を受け取ったか否かを判断する。処理結果を受け取ればステップＳ１７０８に行き、処理結果を受け取らなければステップＳ１７０７に戻る。

（ステップＳ１７０８）処理結果取得手段１４１２５は、ステップＳ１７０７で受け取った処理結果と、ｉ番目のパラメータ候補値を対応付けて、メモリに一時記憶する。

（ステップＳ１７０９）パラメータ候補値取得手段１４１２２は、カウンタｉを1インクリメントし、ステップＳ１７０３に戻る。

（ステップＳ１７１０）第二声道長正規化パラメータ決定手段１４１２６は、ステップＳ１７０８で一時記憶した処理結果のうち、最良の処理結果（例えば、スコアが最も高い結果）を決定する。

（ステップＳ１７１１）第二声道長正規化パラメータ決定手段１４１２６は、ステップＳ１７１０で決定した最良の処理結果と対になるパラメータ候補値を取得する。次に、第二声道長正規化パラメータ決定手段１４１２６は、取得したパラメータ候補値を用いて、第二声道長正規化パラメータを決定し、少なくとも一時的にメモリ上に格納し、上位関数にリターンする。なお、通常、取得したパラメータ候補値が第二声道長正規化パラメータである。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。音声処理装置における他者第一言語音声情報を構成する処理の概念図は図１８である。

図１８において、母語話者（上述の第一言語話者）が第一言語（例えば、英語）で発声した音声と、バイリンガル話者の教師第一言語音声情報を用いて声道長正規化パラメータの推定を行い、当該声道長正規化パラメータを用いて、母語話者の発声した音声を正規化し、他者第一言語音声情報を構成する。そして、他者第一言語音声情報を教師データ格納部に蓄積する。以上の処理により、教師データ格納部に、他者第一言語音声情報と教師第一言語音声情報が格納されることとなる。なお、他者第一言語音声情報と教師第一言語音声情報は、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであることが好適である。

また、教師データ格納部の他者第一言語音声情報を構築するために、通常、リアルタイム性は要求されない。したがって、他者第一言語音声情報を構築する処理は、以下に説明する走査法（グリッドサーチ法）が有効である。グリッドサーチ法は、計算量は多いが高精度である。このグリッドサーチ法の概略を、図１９を用いて説明する。

グリッドサーチ法において、サンプリング周波数変換率（声道長正規化パラメータと同じ意義）ｒを推定する際に、例えば、サンプリング周波数変換率の範囲を示す情報であるパラメータ候補値範囲情報を「０．７＜＝ｒ＜＝１．５」とし、０．０１刻みでグリッドサーチを行う。つまり、まず、母語話者が発声した音声をサンプリング周波数変換率「０．７」を用いてリサンプリングし、リサンプリングした音声データを、バイリンガル話者の教師第一言語音声情報を用いて音声処理（発音評定や音声認識など）し、音声処理結果（スコア）をサンプリング周波数変換率「０．７」とともに、メモリ上に一時格納する。

次に、サンプリング周波数変換率「０．７１」、「０．７２」、・・・「１．５」と０．０１刻みにサンプリング周波数変換率を変更しながら、音声処理（発音評定や音声認識など）し、音声処理結果をサンプリング周波数変換率とともに、メモリ上に一時格納していく。

次に、最良の音声処理結果（発音評定の場合は最大のスコアのもの、音声認識の場合は最大の認識率のもの、など）を取得し、最良の音声結果と対になるサンプリング周波数変換率を得る。以上の処理により、他者第一言語音声情報を得る。

そして、音声処理装置における教師データ格納部は、バイリンガル話者以外の話者であり、第一言語を母語とする話者である第一言語話者の第一言語の音声に関する情報である他者第一言語音声情報をも格納しており、音声処理部は、教師第一言語音声情報と他者第一言語音声情報を用いて、音声受付部が受け付けたユーザの第一言語の音声を処理する構成である。ここで、第一言語の音声を処理するアルゴリズムは、実施の形態１で記載した処理と同様である。

以上、本実施の形態によれば、音声処理装置は、音声処理装置の教師データとして、バイリンガル話者の発話データのみではなく、第一言語を母語に持つ1以上の話者である第一言語話者の第一言語の音声データも用いることができる。その結果、精度の高い音声処理装置を提供できる。

また、本実施の形態によれば、第一言語話者が発話した音声データを、バイリンガル話者に話者正規化することにより、第一言語話者とバイリンガル話者の話者性の違いに影響を受けない教師データを構築でき、さらに精度の高い音声処理装置を提供できる。

また、本実施の形態によれば、グリッドサーチ法により、第二声道長正規化パラメータと決定し、当該、第二声道長正規化パラメータにより他者第一言語音声情報を得ることにより、さらに精度が高い音声処理装置を提供できる。

なお、本実施の形態において、他者第一言語音声情報を得る処理と、音声処理部が行う音声処理は異なる装置で行っても良い。かかる場合、音声処理を行う音声処理部は、教師データ格納部に格納されている教師第一言語音声情報と他者第一言語音声情報を用いて、第二音声データを処理する、という構成になる。

さらに、本実施の形態における音声処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、ユーザから第一言語の音声の入力を受け付ける音声受付ステップと、格納している第二サンプリング周波数で、前記音声受付ステップで受け付けた前記第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理ステップと、格納している教師第一言語音声情報と他者第一言語音声情報を用いて、前記第二音声データを処理する音声処理ステップを実行させるためのプログラム、である。

また、上記プログラムにおいて、コンピュータに、第一言語話者が発声した音声である第一言語話者音声を受け付ける第一言語話者音声受付ステップと、前記教師第一言語音声情報と前記第一言語話者音声から、第一言語話者の音声を正規化するパラメータである第二声道長正規化パラメータを算出する第二声道長正規化パラメータ算出ステップと、前記第二声道長正規化パラメータと、前記第一サンプリング周波数を用いて第三サンプリング周波数を算出する第三サンプリング周波数算出ステップと、前記第三サンプリング周波数で、前記第一言語話者音声受付ステップで受け付けた前記第一言語話者音声に対して、サンプリング処理を行い、前記他者第一言語音声情報を得る第二声道長正規化処理ステップをさらに実行させるためのプログラムである、ことは好適である。

また、上記プログラムにおいて、前記第二声道長正規化パラメータ算出ステップは、パラメータ候補値範囲情報が示す範囲のうちの所定の２以上のパラメータ候補値を取得するパラメータ候補値取得ステップと、前記パラメータ候補値取得ステップで取得した２以上のパラメータ候補値と前記第一サンプリング周波数を用いて、前記第一言語話者音声に対するサンプリング周波数である第一言語話者用サンプリング周波数を２以上取得する第一言語話者用サンプリング周波数取得ステップと、前記第一言語話者用サンプリング周波数取得ステップで取得した２以上の第一言語話者用サンプリング周波数をそれぞれ用いて、前記第一言語話者音声受付ステップで受け付けた前記第一言語話者音声に対して、サンプリング処理を行い、２以上の他者第一言語音声候補情報を得る他者第一言語音声候補情報取得ステップと、前記音声処理ステップにおいて、前記教師第一言語音声情報を用いて、前記２以上の他者第一言語音声候補情報をそれぞれ処理し、当該処理結果を２以上得る処理結果取得ステップと、前記処理結果取得ステップで得た２以上の処理結果のうち、最適な処理結果に対応するパラメータ候補値を第二声道長正規化パラメータと決定する第二声道長正規化パラメータ決定ステップを具備することは好適である。

また、上記プログラムにおける前記評定ステップは、前記１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定ステップと、前記最適状態決定ステップで決定した最適状態における確率値を取得する最適状態確率値取得ステップと、前記最適状態確率値取得ステップで取得した確率値をパラメータとして音声の評定値を算出する評定値算出ステップを具備することは好適である。
（実施の形態３）

本実施の形態における音声処理装置は、実施の形態１の音声処理装置と比較して、音声処理部における評定アルゴリズムが異なる。本実施の形態において、評定値は、最適状態を含む音韻の中の全状態の確率値を発音区間で評価して、算出される。本実施の形態における音声処理装置が算出する事後確率を、実施の形態１におけるＤＡＰに対してｔ−ｐ−ＤＡＰと呼ぶ。

図２０は、本実施の形態における音声処理装置のブロック図である。音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、第一サンプリング周波数格納部１０４、第二サンプリング周波数格納部１０５、サンプリング部１０６、声道長正規化パラメータ算出部１０７、第二サンプリング周波数算出部１０８、声道長正規化処理部１０９、音声処理部２０１０を具備する。

音声処理部２０１０のブロック図を図２１に示す。音声処理部２０１０は、フレーム区分手段１１０１、フレーム音声データ取得手段１１０２、評定手段２０１０３、出力手段１１０４を具備する。

評定手段２０１０３は、最適状態決定手段１１０３１、発音区間フレーム音韻確率値取得手段２０１０３２、評定値算出手段２０１０３３を具備する。

発音区間フレーム音韻確率値取得手段２０１０３２は、最適状態決定手段１１０３１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する。

評定値算出手段２０１０３３は、発音区間フレーム音韻確率値取得手段２０１０３２が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段２０１０３３は、例えば、最適状態決定手段１１０３１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間毎の確率値の総和の時間平均値を１以上得て、当該１以上の時間平均値をパラメータとして音声の評定値を算出する。

発音区間フレーム音韻確率値取得手段２０１０３２、および評定値算出手段２０１０３３は、通常、ＭＰＵやメモリ等から実現され得る。発音区間フレーム音韻確率値取得手段２０１０３２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、本音声処理装置の動作について図２２、図２３のフローチャートを用いて説明する。図２２等のフローチャートにおいて、図４、図６のフローチャートと異なるステップについてのみ説明する。図２２のフローチャートにおいて、ステップＳ２２０５の第一言語の音声処理のみ、図４のフローチャートと異なる。ステップＳ２２０５の第一言語の音声処理について、図２３のフローチャートを用いて説明する。図２３のフローチャートにおいて、図６のフローチャートと異なるステップのみについて説明する。

（ステップＳ２３０１）発音区間フレーム音韻確率値取得手段２０１０３２は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、全フレーム、全状態の確率値を得る。具体的には、発音区間フレーム音韻確率値取得手段２０１０３２は、例えば、各特徴ベクトルが対象の状態から生成された事後確率を算出する。この事後確率は、ＨＭＭの最尤推定におけるＢａｕｍ−Ｗｅｌｃｈアルゴリズムの中で現れる占有度数に対応する。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムは、公知のアルゴリズムであるので、説明は省略する。

（ステップＳ２３０２）発音区間フレーム音韻確率値取得手段２０１０３２は、全フレームの最適状態確率値を算出する。

（ステップＳ２３０３）発音区間フレーム音韻確率値取得手段２０１０３２は、ｊに１を代入する。

（ステップＳ２３０４）発音区間フレーム音韻確率値取得手段２０１０３２は、次の評定対象の発音区間である、ｊ番目の発音区間が存在するか否かを判断する。ｊ番目の発音区間が存在すればステップＳ２３０５に行き、ｊ番目の発音区間が存在しなければ上位関数にリターンする。

（ステップＳ２３０５）発音区間フレーム音韻確率値取得手段２０１０３２は、カウンタｋに１を代入する。

（ステップＳ２３０６）発音区間フレーム音韻確率値取得手段２０１０３２は、ｋ番目のフレームが、ｊ番目の発音区間に存在するか否かを判断する。ｋ番目のフレームが存在すればステップＳ２３０７に行き、ｋ番目のフレームが存在しなければステップＳ２３１０に飛ぶ。

（ステップＳ２３０７）発音区間フレーム音韻確率値取得手段２０１０３２は、ｋ番目のフレームの最適状態を含む音韻の全ての確率値を取得する。

（ステップＳ２３０８）評定値算出手段２０１０３３は、ステップＳ２３０７で取得した１以上の確率値をパラメータとして、１フレームの音声の評定値を算出する。

（ステップＳ２３０９）発音区間フレーム音韻確率値取得手段２０１０３２は、ｋを１、インクメントする。そして、ステップＳ２３０６に戻る。

（ステップＳ２３１０）評定値算出手段２０１０３３は、ｊ番目の発音区間の評定値を算出する。評定値算出手段２０１０３３は、例えば、最適状態決定手段１１０３１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間の確率値の総和の時間平均値を、当該発音区間の音声の評定値として算出する。

（ステップＳ２３１１）出力手段１１０４は、ステップＳ２３１０で算出した評定値を出力する。

（ステップＳ２３１２）発音区間フレーム音韻確率値取得手段２０１０３２は、ｊを１、インクメントする。そして、ステップＳ２３０４に戻る。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態１とは異なるので、その動作を中心に説明する。

教師データ格納部１０２には、実施の形態１で述べたように、バイリンガル話者の第一言語および第二言語による発声の音声データが格納されている。具体的には、例えば、バイリンガル話者が第二言語で発声した"あいうえお"の音声データ（声道長正規化パラメータの算出のための音声データ）や、第一言語で発声した"ｒｉｇｈｔ"の音声データ（音声処理の一つである発音評定のための音声データ）が、教師データ格納部１０２に格納されている。

次に、声道長正規化パラメータの算出処理を以下のように行う。つまり、まず、本音声処理装置は、ユーザに対して、例えば、「"あいうえお"と発声してください。」と画面出力する。次に、ユーザは、「あいうえお」と発声した、とする。

次に、図５のフローチャートに従って、声道長正規化パラメータ算出手段１０７８は、声道長正規化パラメータ（サンプリング周波数変換率）γを計算する。ここで、例えば、声道長正規化パラメータ（γ）が「１．４５８」であった、とする。

次に、音声処理部２０１０は、第二音声データを、以下のように処理する。

まず、フレーム区分手段１１０１は、「ｒｉｇｈｔ」の第二音声データを、短時間フレームに区分する。

そして、フレーム音声データ取得手段１１０２は、フレーム区分手段１１０１が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。

次に、発音区間フレーム音韻確率値取得手段２０１０３２は、各フレームの各状態の事後確率（確率値）を算出する。確率値の算出は、上述した数式１３、数式１４により算出できる。

次に、最適状態決定手段１１０３１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、各フレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。つまり、最適状態決定手段１１０３１は、最適状態系列を得る。なお、各フレームの各状態の事後確率（確率値）を算出する処理と、最適状態を決定する処理の処理順序は問わない。

次に、発音区間フレーム音韻確率値取得手段２０１０３２は、発音区間ごとに、当該発音区間に含まれる各フレームの最適状態を含む音韻の全ての確率値を取得する。そして、評定値算出手段２０１０３３は、各フレームの最適状態を含む音韻の全ての確率値の総和を、フレーム毎に算出する。そして、評定値算出手段２０１０３３は、フレーム毎に算出された確率値の総和を、発音区間毎に時間平均し、発音区間毎の評定値を算出する。具体的には、評定値算出手段２０１０３３は、数式１５により評定値を算出する。数式１５において、ｐ−ＤＡＰ（τ）は、各フレームにおける、すべての音韻の中で最適な音韻の事後確率（確率値）を表すように算出される評定値であり、数式１６で算出され得る。なお、数式１５のｔ−ｐ−ＤＡＰは、最適状態を含む音韻の中の全状態の確率値を発音区間で評価して、算出される評定値である。また、数式１５において、Τ（ｑ_ｔ ^＊）は、状態ｑ_ｔ ^＊を含むＨＭＭが含まれる評定対象の発音区間である。｜Τ（ｑ_ｔ ^＊）｜は、Τ（ｑ_ｔ ^＊）の区間長である。また、数式１６において、Ｐ（ｑ_ｔ ^＊）は、状態ｑ_ｔ ^＊を含むＨＭＭが有する全状態識別子の集合である。

かかる評定値算出手段２０１０３３が算出した評定値（「ｔ−ｐ−ＤＡＰスコア」とも言う。）を、図２４の表に示す。図２４において、アメリカ人男性と日本人男性の評定結果を示す。ＰｈｏｎｅｍｅおよびＷｏｒｄは，ｔ−ｐ−ＤＡＰにおける時間平均の範囲を示す。ここでは、ＤＡＰの代わりにｐ−ＤＡＰの時間平均を採用したものである。図２４において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な評定結果が得られている。

そして、出力手段１１０４は、算出した発音区間ごと（ここでは、音素毎）の評定値を、順次出力する。かかる出力例は、図２５である。

以上、本実施の形態によれば、ユーザの母国語と、音声処理対象の音声の言語が異なる場合でも、言語の特徴に影響されない、精度の高い音声処理ができる。また、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。さらに、本実施の形態によれば、個人差、特に声道長の違いに影響を受けない、精度の高い評定ができる。

また、本実施の形態によれば、音声評定の処理をｔ−ｐ−ＤＡＰのアルゴリズムで行うので、評定値を、発音区間の単位で算出でき、実施の形態１におけるような状態単位のＤＡＰと比較して、本来、測定したい類似度（発音区間の類似度）を精度良く、安定して求めることができる。

また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、発音区間ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。
（実施の形態４）

本実施の形態において、声道長正規化パラメータの算出方法の第二の例である、最小自乗誤差基準に基づく声道長正規化パラメータの算出方法を採用する音声処理装置について説明する。最小自乗誤差基準に基づく、簡潔な声道長正規化法は、ユーザの話者特性に左右されにくい話者正規化法である。

図２６は、本実施の形態における音声処理装置のブロック図である。音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、第一サンプリング周波数格納部１０４、第二サンプリング周波数格納部１０５、サンプリング部１０６、声道長正規化パラメータ算出部２６０７、第二サンプリング周波数算出部１０８、声道長正規化処理部１０９、音声処理部１１０を具備する。

図２７は、本実施の形態における音声処理装置を構成する声道長正規化パラメータ算出部２６０７のブロック図である。声道長正規化パラメータ算出部２６０７は、周波数範囲指定情報格納手段２６０７１、長時間ケプストラム平均ベクトル格納手段２６０７２、第二ケプストラムベクトル系列算出手段１０７３、ケプストラム変換手段１０７４、ケプストラム変換パラメータ算出手段２６０７６、最終ケプストラム変換パラメータ取得手段１０７７、声道長正規化パラメータ算出手段１０７８を具備する。

声道長正規化パラメータ算出部２６０７は、音声受付部１０３が受け付けた第二言語の音声に関する情報であるユーザ第二言語音声情報と教師第二言語音声情報から、声道長正規化パラメータを算出する。上述したように、声道長正規化パラメータ算出部１０７が声道長正規化パラメータを算出するアルゴリズムは、種々存在する。本実施の形態において、まず、算出されるのは、ケプストラム変換（ケプストラムワーピング）パラメータである。このケプストラム変換パラメータは、声道長の変換を直接表わすものではないため、声道長正規化パラメータ算出部２６０７は、後述の近似変換式を用いて最終的な声道長正規化パラメータ（サンプリング周波数変換率）を算出する。声道長正規化パラメータ算出部２６０７は、通常、ＭＰＵやメモリ等から実現され得る。声道長正規化パラメータ算出部２６０７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

周波数範囲指定情報格納手段２６０７１は、周波数範囲を指定する情報である周波数範囲指定情報（Ｗ）を格納している。周波数範囲指定情報（Ｗ）は、後述する最適なケプストラム変換パラメータ（α）を算出する場合に、１次オールパス関数等の双１次変換による周波数ワーピングが線形の周波数伸縮で近似できる範囲に、周波数範囲を限定するための情報である。かかる周波数範囲は、０周波数からナイキストレートの１／３から１／２程度が好適である。ただし、双１次変換は、スペクトル領域ではなく、ケプストラム領域で行われるため、周波数範囲指定情報（Ｗ）は、例えば、以下に述べる行列の情報であることが好適である。周波数範囲指定情報は、例えば、図示しない周波数範囲指定情報算出手段により、以下のように算出される。サンプリング周波数をＦ_ｓ（Ｈｚ）、指定される周波数範囲の最高周波数をＦ_ｍａｘ（Ｈｚ）とし，Ｎを十分大きな自然数（５１２や１０２４など）、「Ｎ_ｍ＝Ｎ×Ｆ_ｍａｘ／Ｆ_ｓ」とおいて，ケプストラムベクトルに対する周波数範囲指定行列Ｗの（ｉ，ｊ）成分を、周波数範囲指定情報算出手段は、以下の数式１７に従って計算する。具体的には、周波数範囲指定情報算出手段は、コンピュータの記録媒体（図示しない）に格納されているサンプリング周波数（Ｆ_ｓ）、最高周波数（Ｆ_ｍａｘ）、予め決められた十分大きな自然数（Ｎ）を読み出す。そして、周波数範囲指定情報算出手段は、自ら保持している演算式の情報「Ｎ_ｍ＝Ｎ×Ｆ_ｍａｘ／Ｆ_ｓ」を読み出し、読み出したＦ_ｓ、Ｆ_ｍａｘ、Ｎを演算式に代入し、Ｎ_ｍを算出する。そして、周波数範囲指定情報算出手段は、格納している以下の数式１７の情報を読み出し、ｉ、ｊを０から順に、１ずつインクリメントさせながら、ループ処理（２重ループの処理になる）により、｛Ｗ｝_ｉ，ｊを算出する。そして、周波数範囲指定情報算出手段は、算出した｛Ｗ｝_ｉ，ｊのすべてを、少なくとも一時的に周波数範囲指定情報格納手段２６０７１に格納する。なお、数式５において、「k」は、周波数インデクスであり、「ｋ」の範囲は、「ｋ＝０，１，２，...，Ｎ／２」である。また、「ｎ」は、離散時間インデクスであり、「ｎ」の範囲は、「ｎ＝...−２，−１，０，１，２，...」である。

なお、周波数範囲指定情報のデータ構造は問わない。また、周波数範囲指定情報格納手段２６０７１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

長時間ケプストラム平均ベクトル格納手段２６０７２は、長時間ケプストラム平均ベクトル（μ）を格納している。長時間ケプストラム平均ベクトル（μ）は、教師データを構成するデータから、短区間分析により算出された第一のケプストラムベクトル系列の時間平均である。第一のケプストラムベクトル系列（ｘ_ｔ（ｔ＝１，２，・・・，Ｔ_０））は、通常、教師データを構成する単一音素（例えば、／ｕ／）を短区間分析し、取得される。そして、長時間ケプストラム平均ベクトル（μ）は、ベクトル（ｘ_ｔ）から、以下の数式１８により算出される。

なお、ケプストラムベクトルは０次係数も含めたＭ＋１次元であり，ベクトル（ｘ_ｔ）およびベクトル（μ）は、それぞれ数式１９、数式２０で表わされる。

数式１９、数式２０において、（・・・）^Ｔは行列またはベクトルの転置を表わす。

また、第一のケプストラムベクトル系列（ｘ_ｔ）は、図示しない第一ケプストラムベクトル系列算出手段が、教師データ格納部１０２の教師第一言語音声情報を構成するデータ（単一音素（例えば、／ｕ／））から、短区間分析により算出しても良い。

また、図示しない長時間ケプストラム平均ベクトル取得手段が、第一のケプストラムベクトル系列（ｘ_ｔ）の時間平均を、数式１８により算出し、長時間ケプストラム平均ベクト（μ）を取得しても良い。長時間ケプストラム平均ベクトル格納手段２６０７２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

ケプストラム変換パラメータ算出手段２６０７６は、長時間ケプストラム平均ベクトル（μ）および第三のケプストラムベクトル系列（Ｏ_ｔ）に基づいて、ケプストラム変換パラメータ（α）を算出する。ケプストラム変換パラメータ算出手段２６０７６は、さらに好ましくは、周波数範囲指定情報（Ｗ）で示される周波数範囲における長時間ケプストラム平均ベクトルおよび第三のケプストラムベクトル系列（Ｏ_ｔ）に基づいて、ケプストラム変換パラメータを算出する。

具体的には、まず、ケプストラム変換パラメータ算出手段２６０７６は、以下の数式２１により、ベクトル（ｕ_ｔ（α））を算出する。そして、次に、ケプストラム変換パラメータ算出手段２６０７６は、以下の数式２２により、αの最適値（α^＊）を算出する。なお、αの最適値（α^＊）は、現繰り返しステップにおける最適値である。

ケプストラム変換パラメータ算出手段２６０７６は、通常、ＭＰＵやメモリ等から実現され得る。ケプストラム変換パラメータ算出手段２６０７６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音声処理装置の動作について説明する。本実施の形態における音声処理装置は、実施の形態１における音声処理装置と比較して、声道長正規化パラメータ算出処理のみが異なる。声道長正規化パラメータ算出処理について、図２８のフローチャートを用いて説明する。なお、本声道長正規化パラメータ算出処理は、必ずしも音声処理装置で行う必要はない。

（ステップＳ２８０１）音声処理装置は、初期化処理を行う。初期化処理とは、例えば、ユーザ（評価対象者）に対して、「／ｕ／」と発声するように促す処理（例えば、ディスプレイに「「う」と発音してください。」と表示する処理）と、周波数範囲指定情報格納手段２６０７１の周波数範囲指定情報、および長時間ケプストラム平均ベクトル格納手段２６０７２の長時間ケプストラム平均ベクトルを読み出す処理である。

（ステップＳ２８０２）音声受付部１０３が、ユーザからの音声を受け付けたか否かを判断する。音声を受け付ければステップＳ２８０３に行き、音声を受け付けなければステップＳ２８０２に戻る。

（ステップＳ２８０３）サンプリング部１０６は、ステップＳ２８０２で受け付けた音声をサンプリングし、第一音声データを得て、メモリ上に、少なくとも一時格納する。なお、音声をサンプリングする処理は公知技術である。

（ステップＳ２８０４）第二ケプストラムベクトル系列算出手段１０７３は、ステップＳ２８０３で得た第一音声データを取得し、当該第一音声データから、短区間分析により第二のケプストラムベクトル系列（Ｃ_ｔ）を算出し、第二のケプストラムベクトル系列（Ｃ_ｔ）をメモリ上に、少なくとも一時格納する。

（ステップＳ２８０５）第二ケプストラムベクトル系列算出手段１０７３は、ステップＳ２８０４で算出した第二のケプストラムベクトル系列（Ｃ_ｔ）を取得し、当該第二のケプストラムベクトル系列（Ｃ_ｔ）から、ベクトル（Ｃ_ｔ ⁻）（ｔ＝１，２，・・・，Ｔ）を取得し、ベクトル（Ｃ_ｔ ⁻）をメモリ上に、少なくとも一時格納する。

（ステップＳ２８０６）ケプストラム変換手段１０７４は、予め格納しているケプストラム変換パラメータの初期値（α^〜）を読み出し、変数（α）に（α^〜）を設定する。

（ステップＳ２８０７）ケプストラム変換手段１０７４は、第二のケプストラムベクトル系列（Ｃ_ｔ）を読み出し、当該第二のケプストラムベクトル系列（Ｃ_ｔ）を、ケプストラム変換パラメータ（α）を要素とする行列を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列（Ｏ_ｔ）を算出し、メモリ上に、少なくとも一時格納する。

（ステップＳ２８０８）ケプストラム変換パラメータ算出手段２６０７６は、ステップＳ２８０７で算出した第三のケプストラムベクトル系列（Ｏ_ｔ）、およびステップＳ２８０５で算出したベクトル（Ｃ_ｔ ⁻）を読み出し、当該第三のケプストラムベクトル系列（Ｏ_ｔ）およびベクトル（Ｃ_ｔ ⁻）から、ベクトル（ｕ_ｔ（α））を算出する（数式２１参照）。ベクトル（ｕ_ｔ（α））を算出する場合に、格納している数式２１の情報を読み出して、演算することは言うまでもない。

（ステップＳ２８０９）ケプストラム変換パラメータ算出手段２６０７６は、予め格納している数式２２の情報を読み出し、当該数式２２の数式に、ベクトル（ｕ_ｔ（α））、長時間ケプストラム平均ベクトル（μ）、ベクトル（Ｃ_ｔ ⁻）、周波数範囲指定情報（Ｗ）の情報（Ｗ^Ｔ等も含む）を与え、数式２２を演算し、αの最適値（α^＊）を算出する。このαの最適値（α^＊）は、本ループにおける最適値である。そして、ケプストラム変換パラメータ算出手段２６０７６は、αの最適値（α^＊）を、少なくともメモリに一時格納する。

（ステップＳ２８１０）最終ケプストラム変換パラメータ取得手段１０７７は、予め決められた所定のルール（ルールの情報は、予め格納されている）に合致するか否かを判断する。ルールに合致すればステップＳ２８１１に行き、ルールに合致しなければステップＳ２８１３に行く。なお、ルールとは、上述したように、例えば、予め決められた所定の繰り返し回数（この回数の情報は、予めメモリ等に格納されている）だけ、本ループ処理（αの最適値（α^＊）を算出し、α^＊をαに代入する処理）が繰り返し行われたことである。

（ステップＳ２８１１）声道長正規化パラメータ算出手段１０７８は、最終ケプストラム変換パラメータ取得手段１０７７が得たケプストラム変換パラメータ（最終のα^＊）を取得し、当該パラメータを数式１１の演算式に与え、線形周波数伸縮比（ρ）を算出する。なお、数式１１の演算式の情報は、声道長正規化パラメータ算出手段１０７８が予め格納している。また、声道長正規化パラメータ算出手段１０７８は、算出した線形周波数伸縮比（ρ）を、少なくともメモリに一時格納する。

（ステップＳ２８１２）声道長正規化パラメータ算出手段１０７８は、線形周波数伸縮比（ρ）を読み出し、当該線形周波数伸縮比（ρ）から、声道長正規化パラメータ（γ）を算出し、少なくともメモリに一時格納する。声道長正規化パラメータ算出手段１０７８は、例えば、予め格納している数式１２の情報を読み出し、線形周波数伸縮比（ρ）を代入し、数式１２の演算式を実行し、声道長正規化パラメータ（γ）を得て、処理を終了する。

（ステップＳ２８１３）最終ケプストラム変換パラメータ取得手段１０７７は、ステップＳ２８０９で算出した（α^＊）をαに代入する。そして、ステップＳ２８０７に戻る。

以下、図２９の概念図を用いて、本実施の形態における音声処理装置における声道長正規化パラメータ算出処理の概念について説明する。声道長正規化パラメータの算出は、システム設計用に用いられる話者（基準話者）のある音素（教師データのある音素）の平均ケプストラムベクトルμと、同じ音素のユーザ発話音声の変換されたケプストラムベクトルＯ_ｔとの自乗誤差が最小になるように求められる。ただし、求まるパラメータ（α^＊）はケプストラム変換（ケプストラムワーピング）パラメータであり、このままでは声道長の変換を直接表わすものではないため、近似変換式（１／ρ）を用いて最終的な声道長正規化パラメータ（サンプリング周波数変換率）γを計算する。

以上、本実施の形態によれば、ユーザが入力した発音を、教師データである教師第一言語音声情報に対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。また、かかる場合、本実施の形態によれば、個人差、特に声道長の違いに影響を受けない、特に、精度の高い評定ができる。

また、本実施の形態において、ユーザの母国語と、音声処理対象の音声の言語が異なる場合でも、言語の特徴に影響されない、精度の高い音声処理ができる。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、図３０は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図３０は、このコンピュータシステム３４０の概観図であり、図３１は、コンピュータシステム３４０のブロック図である。

図３０において、コンピュータシステム３４０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４と、マイク３４５とを含む。

図３１において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３４１３と、ＣＰＵ３４１３、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３４１５と、ＣＰＵ３４１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の音声処理装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の音声処理装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音声処理装置は、ユーザの母国語と、音声処理対象の音声の母語が異なる場合でも、言語の特徴に影響されない、精度の高い音声処理ができる、という効果を有し、発音評定装置等として有用である。

実施の形態１における音声処理装置のブロック図同音声処理装置のブロック図同音声処理部のブロック図同音声処理装置の動作について説明するフローチャート同声道長正規化パラメータ算出処理について説明するフローチャート同第一言語の音声処理について説明するフローチャート同音声処理装置の処理の概念図同ＨＭＭの仕様の例を示す図同音声分析条件の例を示す図同ＤＡＰスコアの例を示す図同ＤＡＰスコアの例を示す図同出力例を示す図同出力例を示す図実施の形態２における音声処理装置のブロック図同第二声道長正規化パラメータ算出部ブロック図同第二声道長正規化パラメータ算出部の処理について説明するフローチャート同第二声道長正規化パラメータを算出する処理について説明するフローチャート同他者第一言語音声情報を構成する処理の概念図同グリッドサーチ法の概略を説明する図実施の形態３における音声処理装置のブロック図同音声処理部のブロック図同音声処理装置の動作について説明するフローチャート同第一言語の音声処理について説明するフローチャート同評定値結果を示す図同出力例を示す図実施の形態４における音声処理装置のブロック図同声道長正規化パラメータ算出部のブロック図同声道長正規化パラメータ算出処理について説明するフローチャート同声道長正規化パラメータ算出処理の概念について説明する図同音声処理装置を実現するコンピュータの外観図同コンピュータシステムのブロック図

符号の説明

１０１入力受付部
１０２、１４０２教師データ格納部
１０３音声受付部
１０４第一サンプリング周波数格納部
１０５第二サンプリング周波数格納部
１０６サンプリング部
１０７、２６０７声道長正規化パラメータ算出部
１０８第二サンプリング周波数算出部
１０９声道長正規化処理部
１１０、２０１０音声処理部
１０７１周波数範囲指定情報格納手段
１０７２学習音響データ格納手段
１０７３第二ケプストラムベクトル系列算出手段
１０７４ケプストラム変換手段
１０７５占有度数算出手段
１０７６ケプストラム変換パラメータ算出手段
１０７７最終ケプストラム変換パラメータ取得手段
１０７８声道長正規化パラメータ算出手段
１１０１フレーム区分手段
１１０２フレーム音声データ取得手段
１１０３、２０１０３評定手段
１１０４出力手段
１４１１第一言語話者音声受付部
１４１２第二声道長正規化パラメータ算出部
１４１３第三サンプリング周波数算出部
１４１４第二声道長正規化処理部
１１０３１最適状態決定手段
１１０３２最適状態確率値取得手段
１１０３３、２０１０３３評定値算出手段
１４１２１パラメータ候補値範囲情報格納手段
１４１２２パラメータ候補値取得手段
１４１２３第一言語話者用サンプリング周波数取得手段
１４１２４他者第一言語音声候補情報取得手段
１４１２５処理結果取得手段
１４１２６第二声道長正規化パラメータ決定手段
２６０７１周波数範囲指定情報格納手段
２６０７２長時間ケプストラム平均ベクトル格納手段
２６０７６ケプストラム変換パラメータ算出手段
２０１０３２発音区間フレーム音韻確率値取得手段

Claims

バイリンガル話者の第一言語の音声に関する情報である教師第一言語音声情報を格納している教師データ格納部と、
ユーザから第一言語の音声の入力を受け付ける音声受付部と、
サンプリング周波数の変換率に関する情報である声道長正規化パラメータであり、バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報と、ユーザが発声した第二言語の音声に関する情報であるユーザ第二言語音声情報を用いて算出された声道長正規化パラメータと、前記バイリンガル話者の音声のサンプリング周波数である第一サンプリング周波数を用いて算出された第二サンプリング周波数を格納している第二サンプリング周波数格納部と、
前記第二サンプリング周波数で、前記音声受付部が受け付けた前記第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、
前記教師第一言語音声情報を用いて、前記第二音声データを処理する音声処理部を具備する音声処理装置。
前記教師データ格納部は、
バイリンガル話者の第二言語の音声に関する情報である教師第二言語音声情報をも格納しており、
前記音声受付部は、
前記ユーザから第二言語の音声の入力をも受け付け、
前記バイリンガル話者のサンプリング周波数である第一サンプリング周波数を格納している第一サンプリング周波数格納部と、
前記音声受付部が受け付けた第二言語の音声に関する情報であるユーザ第二言語音声情報と前記教師第二言語音声情報から、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出部と、
前記声道長正規化パラメータと、前記第一サンプリング周波数を用いて第二サンプリング周波数を算出する第二サンプリング周波数算出部とをさらに具備し、
前記第二サンプリング周波数格納部の第二サンプリング周波数は、前記第二サンプリング周波数算出部が算出した第二サンプリング周波数である請求項１記載の音声処理装置。
前記教師データ格納部は、
前記バイリンガル話者以外の話者であり、第一言語を母語とする話者である第一言語話者の第一言語の音声に関する情報である他者第一言語音声情報をも格納しており、
前記音声処理部は、
前記教師第一言語音声情報と前記他者第一言語音声情報を用いて、前記第二音声データを処理する請求項１または請求項２記載の音声処理装置。
第一言語話者が発声した音声である第一言語話者音声を受け付ける第一言語話者音声受付部と、
前記教師第一言語音声情報と前記第一言語話者音声から、第一言語話者の音声を正規化するパラメータである第二声道長正規化パラメータを算出する第二声道長正規化パラメータ算出部と、
前記第二声道長正規化パラメータと、前記第一サンプリング周波数を用いて第三サンプリング周波数を算出する第三サンプリング周波数算出部と、
前記第三サンプリング周波数で、前記第一言語話者音声受付部が受け付けた前記第一言語話者音声に対して、サンプリング処理を行い、前記他者第一言語音声情報を得る第二声道長正規化処理部をさらに具備する請求項３記載の音声処理装置。
前記第二声道長正規化パラメータ算出部は、
第二声道長正規化パラメータの候補値であるパラメータ候補値の範囲を示す情報であるパラメータ候補値範囲情報を格納しているパラメータ候補値範囲情報格納手段と、
前記パラメータ候補値範囲情報が示す範囲のうちの所定の２以上のパラメータ候補値を取得するパラメータ候補値取得手段と、
前記パラメータ候補値取得手段が取得した２以上のパラメータ候補値と前記第一サンプリング周波数を用いて、前記第一言語話者音声に対するサンプリング周波数である第一言語話者用サンプリング周波数を２以上取得する第一言語話者用サンプリング周波数取得手段と、
前記第一言語話者用サンプリング周波数取得手段が取得した２以上の第一言語話者用サンプリング周波数をそれぞれ用いて、前記第一言語話者音声受付部が受け付けた前記第一言語話者音声に対して、サンプリング処理を行い、２以上の他者第一言語音声候補情報を得る他者第一言語音声候補情報取得手段と、
前記音声処理部に前記２以上の他者第一言語音声候補情報をそれぞれ渡し、前記教師第一言語音声情報を用いて、前記２以上の他者第一言語音声候補情報をそれぞれ処理させ、２以上の処理結果を得る処理結果取得手段と、
前記処理結果取得手段が得た２以上の処理結果のうち、最適な処理結果に対応するパラメータ候補値を第二声道長正規化パラメータと決定する第二声道長正規化パラメータ決定手段を具備する請求項４記載の音声処理装置。
前記声道長正規化パラメータ算出部は、
音素ＨＭＭを指定された発話内容に従って連結した連結ＨＭＭである学習音響データを格納している学習音響データ格納手段と、
前記音声受付部が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、
前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、
指定された発話内容に従って受け付けた音声の事後確率である占有度数を算出する占有度算出手段と、
前記学習音響データおよび前記第三のケプストラムベクトル系列および前記占有度数に基づいて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、
所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記占有度算出手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、
前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する請求項２から請求項５いずれか記載の音声処理装置。
前記声道長正規化パラメータ算出部は、
周波数範囲を指定する情報である周波数範囲指定情報を格納している周波数範囲指定情報格納手段をさらに具備し、
前記ケプストラム変換パラメータ算出手段は、
前記周波数範囲指定情報、学習音響データ、第三のケプストラムベクトル系列および占有度数を用いて、ケプストラム変換パラメータを算出する請求項６記載の音声処理装置。
前記音声処理部は、
前記第二音声データを、フレームに区分するフレーム区分手段と、
前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得手段と、
前記第一言語音声情報と前記１以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定手段と、
前記評定手段における評定結果を出力する出力手段を具備する請求項１から請求項７いずれか記載の音声処理装置。
前記評定手段は、
前記１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態における確率値を取得する最適状態確率値取得手段と、
前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項８記載の音声処理装置。
コンピュータに、
ユーザから第一言語の音声の入力を受け付ける音声受付ステップと、
格納している第二サンプリング周波数で、前記音声受付ステップで受け付けた前記第一言語の音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理ステップと、
格納している教師第一言語音声情報を用いて、前記第二音声データを処理する音声処理ステップを実行させるためのプログラム。