JP2007199654A

JP2007199654A - 音声処理装置、およびプログラム

Info

Publication number: JP2007199654A
Application number: JP2006161918A
Authority: JP
Inventors: Hideyuki Watanabe; 秀行渡辺; Reiko Yamada; 玲子山田; Hiroaki Tagawa; 博章田川; Takahiro Adachi; 隆弘足立
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-12-26
Filing date: 2006-06-12
Publication date: 2007-08-09
Anticipated expiration: 2026-06-12
Also published as: JP5028599B2

Abstract

【課題】従来の音声処理装置においては、音声の話者である評価対象者の話者特性に応じた音声処理（歌声評定など）が行えず、その結果、精度の高い音声処理ができない、という課題があった。
【解決手段】音声を受け付ける音声受付部と、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記第二音声データを処理する音声処理部を具備する音声処理装置により、話者特性に応じた音声処理ができる。
【選択図】図１

Description

本発明は、入力された音声を評価したり、入力された音声を認識したりする音声処理装置等に関するものである。

従来の技術として、以下の音声処理装置がある（特許文献１参照）。本音声処理装置は、語学学習装置であり、当該語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の音声処理装置は、入力された音声信号は音声認識技術により分析された後、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。そして、従来の技術においては、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される。

また、従来の技術として、以下の音声処理装置がある（特許文献２参照）。本音声処理装置は歌唱音声評価装置であり、本歌唱音声評価装置は、歌唱音声の周波数成分を抽出する抽出手段と、当該抽出された周波数成分から基本周波数成分と倍音周波数成分とをそれぞれ抽出する特定周波数成分抽出手段と、特定周波数成分抽出手段によって抽出された基本周波数成分に対する倍音周波数成分の比率に応じて、歌唱音声の評価を示す評価値を算出する評価手段とを備える。そして、本歌唱音声評価装置は、歌唱音声の周波数成分に基づいてその声質の良否を適正に評価し、これを歌唱音声の採点結果に反映させることにより、歌唱音声の採点をより人間の感性に近づけることを狙いとしている。

さらに、従来の技術として、以下の音声処理装置がある（特許文献３参照）。本音声処理装置は音声認識装置であり、入力音声パターンと標準パターンを、ＤＰ法を用いて照合し、最も照合距離の小さい標準パターンを認識結果とする音声認識装置であり、照合結果を用いて入力パターンを音素に分割し、各音素の継続時間と標準継続時間とのずれの分散を計算し、これを照合距離に付加することで距離を補正することを特徴とする。そして、分割部で照合結果を用いて音素に分割し、時間長ずれ計算部で標準継続時間とのずれの分散を計算し、距離補正部で照合距離を補正するように構成する。また、本音声認識装置は、時間長のずれを計算する対象音素を選択する音素選択部、距離補正する対象単語を選択する単語選択部を有し、単語の認識性能を高できる、というものである。
特開２００３−２２８２７９（第１頁、第１図等）特開２００５−１０７０８８（第１頁、第１図等）特開平６−４０９６（第１頁、第１図等）

しかしながら、特許文献１や特許文献２の従来の技術においては、音声（歌声も含む）の話者である評価対象者の話者特性に応じた音声処理が行えず、その結果、精度の高い音声処理ができなかった。具体的には、従来の技術においては、例えば、評価対象者の声道長の違いにより、スペクトル包絡が高周波数域または低周波数域に伸縮するが、従来の発音評定装置や歌唱音声評価装置などの音声処理装置において、かかるスペクトル包絡の伸縮により、評価結果が異なる。つまり、従来の技術においては、同様の上手さの発音や歌唱でも、評価対象者の声道長の違いにより、発音や歌唱の評価結果が異なり、精度の高い評価ができなかった。

また、特許文献１の音声処理装置において、標準音データと学習者の発音のスペクトル、および抑揚が比較されて点数が表示される構成であるので、両者の類似度の評定の精度が低く、また、リアルタイムに高速に点数を表示するためには、処理能力が極めて高いＣＰＵ、多量のメモリが必要であった。

また、特許文献１の音声処理装置において、無音区間があれば、類似度が低く評価されると考えられ、評価の精度が低かった。また、音素の置換や挿入や欠落など、特殊な事象が発生していることを検知できなかった。

さらに、例えば、特許文献３に示すような音声認識処理を行う音声処理装置において、評価対象者の声道長の違いにより、スペクトル包絡の伸縮が生じるが、かかる評価対象者の話者特性に応じた音声認識処理を行っておらず、精度の高い音声認識ができなかった。

本第一の発明の音声処理装置は、音声を受け付ける音声受付部と、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記第二音声データを処理する音声処理部を具備する音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた音声処理ができる。

また、本第二の発明の音声処理装置は、第一の発明に対して、比較される対象の音声に関するデータであり、１以上の音韻毎のデータである教師データを１以上格納している教師データ格納部と、前記教師データのフォルマント周波数である教師データフォルマント周波数を格納している教師データフォルマント周波数格納部と、前記音声受付部が受け付けた音声の話者である評価対象者のフォルマント周波数である評価対象者フォルマント周波数を格納している評価対象者フォルマント周波数格納部とをさらに具備し、前記声道長正規化パラメータは、「評価対象者フォルマント周波数／教師データフォルマント周波数」により算出される値であり、前記声道長正規化処理部は、「前記第一サンプリング周波数×声道長正規化パラメータ」の演算式により、第二サンプリング周波数を算出し、当該第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた精度の高い音声処理ができる。

また、本第三の発明の音声処理装置は、第二の発明に対して、前記第一サンプリング周波数で、前記音声受付部が受け付けた音声をサンプリングし、第一音声データを取得するサンプリング部をさらに具備し、前記声道長正規化処理部は、「前記第一サンプリング周波数×声道長正規化パラメータ」の演算式により、第二サンプリング周波数を算出し、当該第二サンプリング周波数で、前記第一音声データに対して、サンプリング処理を行い、第二音声データを得る音声処理装置である。

また、本第四の発明の音声処理装置は、第一の発明に対して、比較される対象の音声に関するデータであり、１以上の音韻毎のデータである教師データを１以上格納している教師データ格納部と、前記教師データおよび前記音声受付部が受け付けた音声に基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出部とをさらに具備し、前記声道長正規化パラメータ格納部の声道長正規化パラメータは、前記声道長正規化パラメータ算出部が算出した声道長正規化パラメータである音声処理装置である。

かかる構成により、動的に評価対象者ごとの声道長正規化パラメータでき、かつ、話者特性に応じた精度の高い音声処理ができる。

また、本第五の発明の音声処理装置は、第四の発明に対して、前記声道長正規化パラメータ算出部は、音素ＨＭＭを指定された発話内容に従って連結した連結ＨＭＭである学習音響データを格納している学習音響データ格納手段と、前記音声受付部が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、指定された発話内容に従って受け付けた音声の事後確率である占有度数を算出する占有度算出手段と、前記学習音響データおよび前記第三のケプストラムベクトル系列および前記占有度数に基づいて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記占有度算出手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する音声処理装置である。

また、本第六の発明の音声処理装置は、第四の発明に対して、前記声道長正規化パラメータ算出部は、音素平均ケプストラムベクトルを指定された発話内容に従って並べた音素平均ケプストラムベクトル列である学習音響データを格納している学習音響データ格納手段と、前記音声受付部が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、ユーザが発声した発話音声を構成する各フレームに対応する音素を識別する情報の列である音素系列を取得する最適音素系列取得手段と、前記学習音響データおよび前記第三のケプストラムベクトル系列および前記音素系列を用いて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記最適音素系列取得手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する音声処理装置である。

また、本第七の発明の音声処理装置は、第五、第六の発明に対して、前記声道長正規化パラメータ算出手段は、前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータから線形周波数伸縮比を算出し、当該線形周波数伸縮比から前記声道長正規化パラメータを算出する音声処理装置である。

かかる構成により、動的に評価対象者ごとの声道長正規化パラメータでき、かつ、話者特性に応じた、精度の高い音声処理ができる。

また、本第八の発明の音声処理装置は、第五、第六の発明に対して、前記声道長正規化パラメータ算出部は、周波数範囲を指定する情報である周波数範囲指定情報を格納している周波数範囲指定情報格納手段をさらに具備し、前記ケプストラム変換パラメータ算出手段は、前記周波数範囲指定情報を用いて、ケプストラム変換パラメータを算出する音声処理装置である。

かかる構成により、動的に評価対象者ごとの声道長正規化パラメータでき、かつ、話者特性に応じた、さらに精度の高い音声処理ができる。

また、本第九の発明の音声処理装置は、第一から第八いずれかの発明に対して、前記音声処理部は、前記第二音声データを、フレームに区分するフレーム区分手段と、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得手段と、前記教師データと前記１以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定手段と、前記評定手段における評定結果を出力する出力手段を具備する音声処理装置である。

かかる構成により、話者特性に応じた、さらに精度の高い音声の評定ができる。

また、本第十の発明の音声処理装置は、第九の発明に対して、前記評定手段は、前記１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した最適状態における確率値を取得する最適状態確率値取得手段と、前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた精度の高い音声の評定ができる。

また、本第十一の発明の音声処理装置は、第九の発明に対して、前記評定手段は、前記１以上のフレーム音声データの最適状態を決定する最適状態決定手段と、前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、前記発音区間フレーム音韻確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた、さらに精度の高い音声の評定ができる。

また、本第十二の発明の音声処理装置は、第九の発明に対して、前記音声処理部は、前記フレーム毎の入力音声データに基づいて、特殊な音声が入力されたことを検知する特殊音声検知手段をさらに具備し、前記評定手段は、前記教師データと前記入力音声データと前記特殊音声検知手段における検知結果に基づいて、前記音声受付部が受け付けた音声の評定を行う音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた精度の高い音声の評定ができ、かつ特殊音声を検知し、かかる特殊音声に対応した音声の評定ができる。

また、本第十三の発明の音声処理装置は、第十二の発明に対して、前記特殊音声検知手段は、無音を示すＨＭＭに基づくデータである無音データを格納している無音データ格納手段と、前記入力音声データおよび前記無音データに基づいて、無音の区間を検出する無音区間検出手段を具備する音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた精度の高い音声の評定ができ、かつ無音区間を検知し、かかる無音区間に対応した音声の評定ができる。

また、本第十四の発明の音声処理装置は、第十二の発明に対して、前記特殊音声検知手段は、一の音素の後半部および当該音素の次の音素の前半部の評定値が所定の条件を満たすことを検知し、前記評定手段は、前記特殊音声検知手段が前記所定の条件を満たすことを検知した場合に、少なくとも音素の挿入があった旨を示す評定結果を構成する音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた精度の高い音声の評定ができ、かつ音素の挿入を検知し、かかる音素の挿入に対応した音声の評定ができる。

また、本第十五の発明の音声処理装置は、第十二の発明に対して、前記特殊音声検知手段は、一の音素の評定値が所定の条件を満たすことを検知し、前記評定手段は、前記特殊音声検知手段が前記所定の条件を満たすことを検知した場合に、少なくとも音素の置換または欠落があった旨を示す評定結果を構成する音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた精度の高い音声の評定ができ、かつ音素の置換または欠落を検知し、かかる音素の置換または欠落に対応した音声の評定ができる。

また、本第十六の発明の音声処理装置は、第一から第十五いずれかの発明に対して、前記音声処理装置は、カラオケ評価装置であって、前記音声受付部は、評価対象者の歌声の入力を受け付け、前記音声処理部は、前記歌声を評価する音声処理装置である。

かかる構成により、優れたカラオケ評価装置として利用できる。

また、本第十七の発明の音声処理装置は、第十六の発明に対して、前記音声受付部は、所定の母音の音声を受け付けた後、評価対象者の歌声の入力を受け付け、前記サンプリング部は、前記第一サンプリング周波数で、前記母音の音声をもサンプリングし、前記サンプリングした母音の音声に基づいて、評価対象者のフォルマント周波数である評価対象者フォルマント周波数を取得する評価対象者フォルマント周波数取得部をさらに具備し、前記評価対象者フォルマント周波数格納部の評価対象者フォルマント周波数は、前記評価対象者フォルマント周波数取得部が取得した評価対象者フォルマント周波数である音声処理装置である。

また、本第十八の発明の音声処理装置は、第一から第八いずれかの発明に対して、前記音声処理部は、前記第二音声データに基づいて、音声認識処理を行う音声処理装置である。

かかる構成により、評価対象者の話者特性に応じた精度の高い音声認識ができる。

また、本第十九の発明は、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部を具備するデジタルシグナルプロセッサである。

かかる構成により、評価対象者の話者特性に応じた精度の高い音声処理ができるＤＳＰを提供できる。

本発明による音声処理装置によれば、評価対象者の話者特性に応じた精度の高い音声処理ができる。

以下、音声処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態において、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる音声処理装置について説明する。本音声処理装置は、音声（歌唱を含む）を評価する発音評定装置である。特に、本音声処理装置は、入力音声のフレームに対する最適状態の事後確率を、動的計画法を用いて算出することから、当該事後確率をＤＡＰ（ＤｙｎａｍｉｃＡＰｏｓｔｅｒｉｏｒｉＰｒｏｂａｂｉｌｉｔｙ）と呼び、ＤＡＰに基づく類似度計算法および発音評定装置をＤＡＰＳと呼ぶ。

また、本実施の形態における音声処理装置は、例えば、語学学習や物真似練習やカラオケ評定などに利用できる。図１は、本実施の形態における音声処理装置のブロック図である。本音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、教師データフォルマント周波数格納部１０４、第一サンプリング周波数格納部１０５、サンプリング部１０６、評価対象者フォルマント周波数取得部１０７、評価対象者フォルマント周波数格納部１０８、声道長正規化処理部１０９、音声処理部１１０を具備する。

音声処理部１１０は、フレーム区分手段１１０１、フレーム音声データ取得手段１１０２、評定手段１１０３、出力手段１１０４を具備する。

評定手段１１０３は、最適状態決定手段１１０３１、最適状態確率値取得手段１１０３２、評定値算出手段１１０３３を具備する。

なお、音声処理装置は、キーボード３４２、マウス３４３などの入力手段からの入力を受け付ける。また、音声処理装置は、マイク３４５などの音声入力手段から音声入力を受け付ける。さらに、音声処理装置は、ディスプレイ３４４などの出力デバイスに情報を出力する。

入力受付部１０１は、音声処理装置の動作開始を指示する動作開始指示や、入力した音声の評定結果の出力態様の変更を指示する出力態様変更指示や、処理を終了する終了指示などの入力を受け付ける。かかる指示等の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部１０１は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

教師データ格納部１０２は、教師データとして比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータを１以上格納している。教師データは、音韻毎の隠れマルコフモデル（ＨＭＭ）を連結したＨＭＭに基づくデータであることが好適である。また、教師データは、入力される音声を構成する音素に対応するＨＭＭを、入力順序に従って連結されているＨＭＭに基づくデータであることが好適である。ただし、教師データは、必ずしも、音韻毎のＨＭＭを連結したＨＭＭに基づくデータである必要はない。教師データは、全音素のＨＭＭの、単なる集合であっても良い。また、教師データは、必ずしもＨＭＭに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づくデータでも良い。ＨＭＭに基づくデータは、例えば、フレーム毎に、状態識別子と遷移確率の情報を有する。また、ＨＭＭに基づくデータは、例えば、複数の学習対象言語を母国語として話す外国人が発声した２以上のデータから学習した（推定した）モデルでも良い。教師データ格納部１０２は、ハードディスクやＲＯＭなどの不揮発性の記録媒体が好適であるが、ＲＡＭなどの揮発性の記録媒体でも実現可能である。

音声受付部１０３は、音声を受け付ける。音声受付部１０３は、例えば、マイク３４５のドライバーソフトで実現され得る。また、なお、音声受付部１０３は、マイク３４５とそのドライバーから実現されると考えても良い。音声は、マイク３４５から入力されても良いし、磁気テープやＣＤ−ＲＯＭなどの記録媒体から読み出すことにより入力されても良い。

教師データフォルマント周波数格納部１０４は、教師データのフォルマント周波数である教師データフォルマント周波数を格納している。教師データフォルマント周波数は、第一フォルマント周波数（Ｆ１）でも、第二フォルマント周波数（Ｆ２）でも、第三フォルマント周波数（Ｆ３）等でも良い。教師データフォルマント周波数格納部１０４の教師データフォルマント周波数は、予め格納されていても良いし、評価時に、動的に、教師データから取得しても良い。音声データからフォルマント周波数を取得する技術は、公知技術であるので説明を省略する。教師データフォルマント周波数格納部１０４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

第一サンプリング周波数格納部１０５は、第一のサンプリング周波数である第一サンプリング周波数を格納している。第一サンプリング周波数は、評価対象者の音声を、最初にサンプリングする場合のサンプリング周波数である。第一サンプリング周波数格納部１０５は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

サンプリング部１０６は、第一サンプリング周波数格納部１０５の第一サンプリング周波数で、音声受付部１０３が受け付けた音声をサンプリングし、第一音声データを取得する。なお、受け付けた音声をサンプリングする技術は公知技術であるので、詳細な説明を省略する。サンプリング部１０６は、通常、ＭＰＵやメモリ等から実現され得る。サンプリング部１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評価対象者フォルマント周波数取得部１０７は、サンプリング部１０６が取得した第一音声データから、評価対象者のフォルマント周波数である評価対象者フォルマント周波数を取得する。評価対象者フォルマント周波数も、第一フォルマント周波数（Ｆ１）でも、第二フォルマント周波数（Ｆ２）でも、第三フォルマント周波数（Ｆ３）でも良い。ただし、評価対象者フォルマント周波数と教師データフォルマント周波数は同一種のフォルマント周波数である。サンプリングして取得した第一音声データから、フォルマント周波数を取得する技術は公知技術であるので、詳細な説明を省略する。評価対象者フォルマント周波数取得部１０７は、通常、ＭＰＵやメモリ等から実現され得る。評価対象者フォルマント周波数取得部１０７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評価対象者フォルマント周波数格納部１０８は、音声受付部１０３が受け付けた音声の話者である評価対象者のフォルマント周波数である評価対象者フォルマント周波数を、少なくとも一時的に格納している。評価対象者フォルマント周波数格納部１０８の評価対象者フォルマント周波数は、通常、評価対象者フォルマント周波数取得部１０７が取得したフォルマント周波数であるが、予め評価対象者フォルマント周波数を格納していても良い。評価対象者フォルマント周波数格納部１０８に、予め評価対象者フォルマント周波数が格納されている場合、本音声処理装置において、評価対象者フォルマント周波数取得部１０７は不要である。評価対象者フォルマント周波数格納部１０８は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。

声道長正規化処理部１０９は、第二サンプリング周波数で、音声受付部１０３が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る。第二サンプリング周波数は、「第一サンプリング周波数／（教師データフォルマント周波数／評価対象者フォルマント周波数）」で算出されるサンプリング周波数である。声道長正規化処理部１０９は、音声受付部１０３が受け付けた音声をサンプリング処理して得られた第一音声データを、リサンプリング処理して第二音声データを得ることが好適であるが、音声受付部１０３が受け付けた音声をサンプリング処理し、直接的に第二音声データを得ても良い。直接的に第二音声データを得る場合、例えば、サンプリング処理を行うハードウェアが可変のサンプリング周波数でサンプリング処理を行えることが必要である。声道長正規化処理部１０９は、通常、演算「教師データフォルマント周波数／評価対象者フォルマント周波数」を行い、周波数軸変換率（「ｒ」とする）を得る。そして、声道長正規化処理部１０９は、第一サンプリング周波数格納部１０５の第一サンプリング周波数（Ｆｓ）と「ｒ」に基づいて、演算「Ｆｓ／ｒ」を行い、新しいサンプリング周波数（Ｆｓ／ｒ）を得る。この新しいサンプリング周波数（Ｆｓ／ｒ）が第二サンプリング周波数である。次に、声道長正規化処理部１０９は、第一音声データに対して、第二サンプリング周波数（Ｆｓ／ｒ）で、リサンプリング処理を行い、第二音声データを得る。声道長正規化処理部１０９は、通常、ＭＰＵやメモリ等から実現され得る。声道長正規化処理部１０９の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。なお、周波数軸変換率「ｒ」の逆数「１／ｒ」は、後述する声道長パラメータである、と言える。また、声道長パラメータは、声道長の正規化のためのパラメータであるので、周波数軸変換率「ｒ」を声道長パラメータと考えても良い。

音声処理部１１０は、第二音声データを処理する。音声処理部１１０は、ここでは、評定処理である。ただし、音声処理部１１０は、音声認識や音声出力などの他の音声処理を行っても良い。音声出力は、単に、リサンプリング処理された音声を出力する処理である。なお、本実施の形態において、音声処理部１１０は、評定処理を行うものとして、説明する。音声処理部１１０は、通常、ＭＰＵやメモリ等から実現され得る。音声処理部１１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

音声処理部１１０を構成しているフレーム区分手段１１０１は、第二音声データを、フレームに区分する。フレーム区分手段１１０１は、通常、ＭＰＵやメモリ等から実現され得る。フレーム区分手段１１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

音声処理部１１０を構成しているフレーム音声データ取得手段１１０２は、区分されたフレーム毎の音声データであるフレーム音声データを１以上得る。フレーム音声データ取得手段１１０２は、通常、ＭＰＵやメモリ等から実現され得る。フレーム音声データ取得手段１１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

音声処理部１１０を構成している評定手段１１０３は、教師データ格納部１０２の教師データと１以上のフレーム音声データに基づいて、音声受付部１０３が受け付けた音声の評定を行う。評定方法の具体例は、後述する。「音声受付部１０３が受け付けた音声を評定する」の概念には、第二音声データを評定することも含まれることは言うまでもない。評定手段１１０３は、通常、ＭＰＵやメモリ等から実現され得る。評定手段１１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定手段１１０３を構成している最適状態決定手段１１０３１は、１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する。最適状態決定手段１１０３１は、例えば、全音韻ＨＭＭから、比較される対象（学習対象）の単語や文章などの音声を構成する１以上の音素に対応するＨＭＭを取得し、当該取得した１以上のＨＭＭから、音素の順序で連結したデータ（比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したＨＭＭに基づくデータ）を構成する。そして、構成した当該データ、および取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。なお、最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムである。また、教師データは、上述の比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデルを連結したＨＭＭに基づくデータと考えても良いし、連結される前のデータであり、全音韻ＨＭＭのデータと考えても良い。

評定手段１１０３を構成している最適状態確率値取得手段１１０３２は、最適状態決定手段１１０３１が決定した最適状態における確率値を取得する。

評定手段１１０３を構成している評定値算出手段１１０３３は、最適状態確率値取得手段１１０３２が取得した確率値をパラメータとして音声の評定値を算出する。評定値算出手段１１０３３は、上記確率値を如何に利用して、評定値を算出するかは問わない。評定値算出手段１１０３３は、例えば、最適状態確率値取得手段１１０３２が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。評定値算出手段１１０３３は、ここでは、通常、フレームごとに評定値を算出する。

最適状態決定手段１１０３１、最適状態確率値取得手段１１０３２、評定値算出手段１１０３３は、通常、ＭＰＵやメモリ等から実現され得る。最適状態決定手段１１０３１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力手段１１０４は、評定手段１１０３における評定結果を出力する。出力手段１１０４の出力態様は、種々考えられる。出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力手段１１０４は、例えば、評定結果を視覚的に表示する。出力手段１１０４は、例えば、フレーム単位、または／および音素・単語単位、または／および発声全体の評定結果を視覚的に表示する。出力手段１１０４は、ディスプレイ３４４やスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力手段１１０４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、本音声処理装置の動作について図２、図３のフローチャートを用いて説明する。

（ステップＳ２０１）入力受付部１０１は、音声処理装置の動作開始を指示する動作開始指示を受け付けたか否かを判断する。動作開始指示を受け付ければステップＳ２０２に行き、動作開始指示を受け付けなければステップＳ２１７に飛ぶ。

（ステップＳ２０２）音声受付部１０３は、音声を受け付けたか否かを判断する。音声を受け付ければステップＳ２０３に行き、音声を受け付けなければステップＳ２１６に飛ぶ。

（ステップＳ２０３）サンプリング部１０６は、第一サンプリング周波数格納部１０５に格納されている第一サンプリング周波数を読み込み、当該第一サンプリング周波数で、音声受付部１０３が受け付けた音声をサンプリングし、第一音声データを得る。

（ステップＳ２０４）声道長正規化処理部１０９は、音声受付部１０３が受け付けた音声から、第二音声データを得る。かかる第二音声データを得る処理である声道長正規化処理の詳細については、図３のフローチャートを用いて、詳細に説明する。なお、声道長正規化処理は、個人差を吸収する評定のための前処理である。

（ステップＳ２０５）フレーム区分手段１１０１は、ステップＳ２０４で得た第二音声データを図示しないバッファに一時格納する。

（ステップＳ２０６）フレーム区分手段１１０１は、バッファに一時格納した第二音声データをフレームに区分する。かかる段階で、区分されたフレーム毎の音声データであるフレーム音声データが構成されている。フレーム区分手段１１０１が行うフレーム分割の処理は、例えば、フレーム音声データ取得手段１１０２がフレーム音声データを取り出す際の前処理であり、入力された音声のデータを、すべてのフレームに一度に分割するとは限らない。

（ステップＳ２０７）フレーム音声データ取得手段１１０２は、カウンタｉに１を代入する。

（ステップＳ２０８）フレーム音声データ取得手段１１０２は、ｉ番目のフレームが存在するか否かを判断する。ｉ番目のフレームが存在すればステップＳ２０９に行き、ｉ番目のフレームが存在しなければステップＳ２１１に行く。

（ステップＳ２０９）フレーム音声データ取得手段１１０２は、ｉ番目のフレーム音声データを取得する。フレーム音声データの取得とは、例えば、当該分割された音声データを音声分析し、特徴ベクトルデータを抽出することである。なお、フレーム音声データは、例えば、入力された音声データをフレーム分割されたデータである。また、フレーム音声データは、例えば、当該分割された音声データから音声分析され、抽出された特徴ベクトルデータを有する。本特徴ベクトルデータは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。

（ステップＳ２１０）フレーム音声データ取得手段１１０２は、カウンタｉを１、インクリメントする。ステップＳ２０８に戻る。

（ステップＳ２１１）最適状態決定手段１１０３１は、全フレームの最適状態を決定する。最適状態決定手段１１０３１が最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムによる。Ｖｉｔｅｒｂｉアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。

（ステップＳ２１２）最適状態確率値取得手段１１０３２は、全フレームの全状態の前向き尤度、および後向き尤度を算出する。最適状態確率値取得手段１１０３２は、例えば、全てのＨＭＭを用いて、フォワード・バックワードアルゴリズムにより、前向き尤度、および後向き尤度を算出する。

（ステップＳ２１３）最適状態確率値取得手段１１０３２は、ステップＳ２１２で取得した前向き尤度、および後向き尤度を用いて、最適状態の確率値（最適状態確率値）を、すべて算出する。

（ステップＳ２１４）評定値算出手段１１０３３は、ステップＳ２１３で算出した１以上の最適状態確率値から、１以上のフレームの音声の評定値を算出する。評定値算出手段１１０３３が評定値を算出する関数は問わない。評定値算出手段１１０３３は、例えば、取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。詳細については、後述する。

（ステップＳ２１５）出力手段１１０４は、ステップＳ２１４における評定結果（ここでは、音声の評定値）を、設定されている出力モードに従って、出力する。ステップＳ２０２に戻る。出力モードとは、評定値を数値で画面に表示するモード、評定値の遷移をグラフで画面に表示するモード、評定値を音声で出力するモード、評定値が所定の数値より低い場合に警告を示す情報を表示するモードなど、何でも良い。なお、ここでの出力モードは、ステップＳ２１８で設定されるモードである。

（ステップＳ２１６）音声受付部１０３は、タイムアウトか否かを判断する。つまり、音声受付部１０３は、所定の時間以上、音声の入力を受け付けなかったか否かを判断する。タイムアウトであればステップＳ２０１に戻り、タイムアウトでなければステップＳ２０２に戻る。

（ステップＳ２１７）入力受付部１０１は、出力態様変更指示を受け付けたか否かを判断する。出力態様変更指示を受け付ければステップＳ２１８に行き、出力態様変更指示を受け付なければステップＳ２１９に飛ぶ。出力態様変更指示は、上述した出力モードを有する情報である。

（ステップＳ２１８）出力手段１１０４は、ステップＳ２１７で受け付けた出力態様変更指示が有する出力モードを示す情報を書き込み、出力モードを設定する。ステップＳ２０１に戻る。

（ステップＳ２１９）入力受付部１０１は、終了指示を受け付けたか否かを判断する。終了指示を受け付ければ処理を終了し、終了指示を受け付なければステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、本発音評定装置は、出力モードの設定機能を有しなくても良い。

次に、ステップＳ２０４における声道長正規化処理の詳細について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）評価対象者フォルマント周波数取得部１０７は、サンプリング部１０６のサンプリング処理により得られた第一音声データから、評価対象者フォルマント周波数（Ｆｉ）を取得し、評価対象者フォルマント周波数格納部１０８に一時格納する。評価対象者フォルマント周波数は、例えば、第二フォルマント周波数（Ｆ２）である。

（ステップＳ３０２）声道長正規化処理部１０９は、第一サンプリング周波数格納部１０５の第一サンプリング周波数（Ｆｓ）を読み出す。

（ステップＳ３０３）声道長正規化処理部１０９は、教師データフォルマント周波数格納部１０４の教師データフォルマント周波数を読み出す。

（ステップＳ３０４）声道長正規化処理部１０９は、ステップＳ３０１で取得した評価対象者フォルマント周波数と、ステップＳ３０３で読み出した教師データフォルマント周波数から周波数軸変換率を算出する。具体的には、声道長正規化処理部１０９は、演算「教師データフォルマント周波数／評価対象者フォルマント周波数」を行い、周波数軸変換率（ｒ）を得る。

（ステップＳ３０５）声道長正規化処理部１０９は、ステップＳ３０２で読み出した第一サンプリング周波数（Ｆｓ）と周波数軸変換率（ｒ）に基づいて、演算「Ｆｓ／ｒ」を行い、第二サンプリング周波数（Ｆｓ／ｒ）を得る。

（ステップＳ３０６）声道長正規化処理部１０９は、サンプリング部１０６がサンプリングして得た第一音声データに対して、第二サンプリング周波数（Ｆｓ／ｒ）で、リサンプリング処理を行い、第二音声データを得る。なお、リサンプリング処理は公知技術であるので、詳細な説明を省略する。上位関数にリターンする。

なお、図２、図３のフローチャートにおいて、声道長正規化処理を行う対象の音声と、評価対象の音声が異なっても良い。つまり、例えば、音声受付部１０３は、所定の１以上の母音（例えば、「う」）の音声を受け付けた後、評価対象者の音声を受け付け、評価対象者フォルマント周波数取得部１０７は、当該１以上の母音の音声に基づいて、評価対象者フォルマント周波数を取得し、声道長正規化処理部１０９は、当該評価対象者フォルマント周波数をパラメータとして、声道長正規化処理を行う。そして、音声処理部１１０は、所定の母音の音声を受け付けた後に受け付けた音声を処理し、当該音声の評価を行っても良い。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。本具体例において、音声処理装置が語学学習に利用される場合について説明する。

まず、本音声処理装置において、図示しない手段により、ネイティブ発音の音声データベースからネイティブ発音の音韻ＨＭＭを学習しておく。ここで、音韻の種類数をＬとし、ｌ番目の音韻に対するＨＭＭをλ_ｌとする。なお、かかる学習の処理については、公知技術であるので、詳細な説明は省略する。なお、ＨＭＭの仕様の例について、図４に示す。なお、ＨＭＭの仕様は、他の実施の形態における具体例の説明においても同様である。ただし、ＨＭＭの仕様が、他の仕様でも良いことは言うまでもない。

そして、図示しない手段により、学習したＬ種類の音韻ＨＭＭから、学習対象の単語や文章などの音声を構成する１以上の音素に対応するＨＭＭを取得し、当該取得した１以上のＨＭＭを、音素の順序で連結した教師データを構成する。そして、当該教師データを教師データ格納部１０２に保持しておく。ここでは、例えば、比較される対象の音声は、単語「ｒｉｇｈｔ」の音声である。また、ここでは、教師データを発声した者（教師）は、大人である、とする。

次に、学習者（評価対象者）が、語学学習の開始の指示である動作開始指示を入力する。かかる指示は、例えば、マウスで所定のボタンを押下することによりなされる。なお、ここでは、学習者は、例えば、子供（５歳から１１歳）である、とする。

まず、学習者は、母音「う」を発音する、とする。かかる場合、本音声処理装置は、学習に、「う」を発声するように促すことは好適である。「う」を発声するように促すために、音声処理装置は、例えば、「"う"と発声してください。」と画面出力しても良いし、「"う"と発声してください。」と音声出力しても良い。また、母音「う」は、学習者の評価対象者フォルマント周波数を取得するために好適である。また、本音声処理装置は、第一サンプリング周波数として、「２２．０５ＫＨｚ」を保持している、とする。

そして、次に、サンプリング部１０６は、音声受付部１０３が受け付けた音声「う」をサンプリングし、「う」の第一音声データを得る。

次に、評価対象者フォルマント周波数取得部１０７は、サンプリング部１０６が音声「う」をサンプリングして得た第一音声データから、第二フォルマント周波数を取得する。そして、この第二フォルマント周波数を評価対象者フォルマント周波数（Ｆｉとする。今、このＦｉが「１７２５Ｈｚ」であった、とする。そして、評価対象者フォルマント周波数取得部１０７は、Ｆｉ（１７２５Ｈｚ）を、評価対象者フォルマント周波数格納部１０８に一時格納する。

次に、声道長正規化処理部１０９は、教師データフォルマント周波数格納部１０４の教師データフォルマント周波数を読み出す。教師データフォルマント周波数格納部１０４に格納されている教師データフォルマント周波数は、大人の第二フォルマント周波数であり、今、「１１８４Ｈｚ」である、とする。また、教師データフォルマント周波数は、例えば、教師データを構築する場合に、教師に、例えば、「う」と発声してもらい、当該音声「う」をサンプリング処理した後、取得した第二フォルマント周波数である。

なお、図５に、年齢層別、性別ごとの、「う」の第一フォルマント周波数（Ｆ１）、第二フォルマント周波数（Ｆ２）の計測結果を示す。図５により、年齢、性別により、第一フォルマント周波数（Ｆ１）、第二フォルマント周波数（Ｆ２）の値が大きく異なることが分る。

そして、次に、声道長正規化処理部１０９は、評価対象者フォルマント周波数「１７２５Ｈｚ」と教師データフォルマント周波数「１１８４Ｈｚ」から演算「教師データフォルマント周波数／評価対象者フォルマント周波数」を行い、周波数軸変換率（ｒ）を得る。具体的には、声道長正規化処理部１０９は、「１１８４／１７２５」により、周波数軸変換率「０．６８６」を得る。

次に、声道長正規化処理部１０９は、第一サンプリング周波数（Ｆｓ）と「ｒ」に基づいて、演算「Ｆｓ／ｒ」を行い、第二サンプリング周波数（Ｆｓ／ｒ）を得る。ここで、得た第二サンプリング周波数は、「２２．０５／０．６８６」により、「３２．１」である。そして、声道長正規化処理部１０９は、第二サンプリング周波数「３２．１ＫＨｚ」を一時格納する。

次に、学習者は、学習対象の音声「ｒｉｇｈｔ」を発音する。そして、音声受付部１０３は、学習者が発音した音声の入力を受け付ける。なお、音声処理装置は、学習者に「"ｒｉｇｈｔ"を発音してください。」などを表示、または音声出力するなどして、学習者に「ｒｉｇｈｔ」の発声を促すことは好適である。

次に、サンプリング部１０６は、受け付けた音声「ｒｉｇｈｔ」をサンプリング周波数「２２．０５ＫＨｚ」でサンプリング処理する。そして、サンプリング部１０６は、音声「ｒｉｇｈｔ」の第一音声データを得る。

次に、声道長正規化処理部１０９は、「ｒｉｇｈｔ」の第一音声データを第二サンプリング周波数「３２．１ＫＨｚ」でリサンプリング処理する。そして、声道長正規化処理部１０９は、第二音声データを得る。

次に、音声処理部１１０は、第二音声データを、以下のように処理する。

まず、フレーム区分手段１１０１は、第二音声データを、短時間フレームに区分する。なお、フレームの間隔は、予め決められている、とする。

そして、フレーム音声データ取得手段１１０２は、フレーム区分手段１１０１が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。なお、Ｔは、系列長である。ここで、特徴ベクトル系列は、各フレームの特徴ベクトルの集合である。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数２４のフィルタバンク出力を離散コサイン変換したＭＦＣＣであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ１２次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー（３９次元）を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。なお、音声分析条件の例を図６の表に示す。なお、音声分析条件は、他の実施の形態における具体例の説明においても同様である。ただし、音声分析条件が、他の条件でも良いことは言うまでもない。また、音声分析の際のサンプリング周波数は、第一サンプリング周波数「２２．０５ＫＨｚ」である。

次に、最適状態決定手段１１０３１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。最適状態決定手段１１０３１が最適状態を決定するアルゴリズムは、例えば、Ｖｉｔｅｒｂｉアルゴリズムによる。かかる場合、最適状態決定手段１１０３１は、上記で連結したＨＭＭを用いて最適状態を決定する。最適状態決定手段１１０３１は、２以上のフレームの最適状態である最適状態系列を求めることとなる。

次に、最適状態確率値取得手段１１０３２は、以下の数式１により、最適状態（ｑ_ｔ ^＊）における最適状態確率値（γ_ｔ（ｑ_ｔ ^＊））を算出する。なお、γ_ｔ（ｑ_ｔ ^＊）は、状態ｊの事後確率関数γ_ｔ（ｊ）のｊにｑ_ｔ ^＊を代入した値である。そして、状態ｊの事後確率関数γ_ｔ（ｊ）は、数式２を用いて算出される。この確率値（γ_ｔ（ｊ））は、ｔ番目の特徴ベクトルｏ_ｔが状態ｊから生成された事後確率であり、動的計画法を用いて算出される。なお、ｊは、状態を識別する状態識別子である。

数式２において、ｑ_ｔは、ｏ_ｔに対する状態識別子を表す。この確率値（γ_ｔ（ｊ））は、ＨＭＭの最尤推定におけるＢａｕｍ−Ｗｅｌｃｈアルゴリズムの中で表れる占有度数に対応する。

数式２において、「α_ｔ（ｊ）」「β_ｔ（ｊ）」は、全部のＨＭＭを用いて、ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムにより算出される。「α_ｔ（ｊ）」は前向き尤度、「β_ｔ（ｊ）」は後向き尤度である。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズム、ｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムは、公知のアルゴリズムであるので、詳細な説明は省略する。

また、数式２において、Ｎは、全ＨＭＭに渡る状態の総数を示す。

なお、評定手段１１０３は、まず最適状態を求め、次に、最適状態の確率値（なお、確率値は、０以上、１以下である。）を求めても良いし、評定手段１１０３は、まず、全状態の確率値を求め、その後、特徴ベクトル系列の各特徴ベクトルに対する最適状態を求め、当該最適状態に対応する確率値を求めても良い。

次に、評定値算出手段１１０３３は、例えば、上記の取得した最適状態確率値と、当該最適状態確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。かかる場合、もし学習者のｔフレーム目に対応する発声が、教師データが示す発音（例えば、正しいネイティブな発音）に近ければ、数式２の（２）式の分子の値が、他の全ての可能な音韻の全ての状態と比較して大きくなり、結果的に最適状態の確率値（評定値）が大きくなる。逆にその区間が、教師データが示す発音に近くなければ、評定値は小さくなる。なお、どのネイティブ発音にも近くないような場合は、評定値はほぼ１／Ｎに等しくなる。Ｎは全ての音韻ＨＭＭにおける全ての状態の数であるから、通常、大きな値となり、この評定値は十分小さくなる。また、ここでは、評定値は最適状態における確率値と全ての可能な状態における確率値との比率で定義されている。したがって、収音環境等の違いにより多少のスペクトルの変動があったとしても、学習者が正しい発音をしていれば、その変動が相殺され評定値が高いスコアを維持する。よって、評定値算出手段１１０３３は、最適状態確率値取得手段１１０３２が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出することは、極めて好適である。

かかる評定値算出手段１１０３３が算出した評定値（「ＤＡＰスコア」とも言う。）の出力例を、図７、図８に示す。図７、図８において、横軸は分析フレーム番号、縦軸はスコアを％で表わしたものである。太い破線は音素境界，細い点線は状態境界（いずれもＶｉｔｅｒｂｉアルゴリズムで求まったもの）を表わしており，図の上部に音素名を表記している。図７は、アメリカ人男性による英語「ｒｉｇｈｔ」の発音のＤＡＰスコアを示す。なお、評定値を示すグラフの横軸、縦軸は、後述するグラフにおいても同様である。

図８は、日本人男性による英語「ｒｉｇｈｔ」の発音のＤＡＰスコアを示す。アメリカ人の発音は、日本人の発音と比較して、基本的にスコアが高い。なお、図７において、状態の境界において所々スコアが落ち込んでいることがわかる。

そして、出力手段１１０４は、評定手段１１０３の評定結果を出力する。具体的には、例えば、出力手段１１０４は、図９に示すような態様で、評定結果を出力する。つまり、出力手段１１０４は、各フレームにおける発音の良さを表すスコア（スコアグラフ）として、各フレームの評定値を表示する。その他、出力手段１１０４は、学習対象の単語の表示（単語表示）、音素要素の表示（音素表示）、教師データの波形の表示（教師波形）、学習者の入力した発音の波形の表示（ユーザ波形）を表示しても良い。なお、図９において、「録音」ボタンを押下すれば、動作開始指示が入力されることとなり、「停止」ボタンを押下すれば、終了指示が入力されることとなる。また、音素要素の表示や波形の表示をする技術は公知技術であるので、その詳細説明を省略する。また、本音声処理装置は、学習対象の単語（図９の「ｗｏｒｄ１」など）や、音素（図９の「ｐ１」など）や、教師波形を出力されるためのデータを予め格納している、とする。

また、図９において、フレーム単位以外に、音素単位、単語単位、発声全体の評定結果を表示しても良い。上記の処理において、フレーム単位の評定値を算出するので、単語単位、発声全体の評定結果を得るためには、フレーム単位の１以上の評定値をパラメータとして、単語単位、発声全体の評定値を算出する必要がある。かかる算出式は問わないが、例えば、単語を構成するフレーム単位の１以上の評定値の平均値を単語単位の評定値とする、ことが考えられる。

なお、図９において、音声処理装置は、波形表示（教師波形またはユーザ波形）の箇所においてクリックを受け付けると、再生メニューを表示し、音素区間内ではその音素またはその区間が属する単語、波形全体を再生し、単語区間外（無音部）では波形全体のみを再生するようにしても良い。

また、出力手段１１０４の表示は、図１０に示すような態様でも良い。図１０において、音素ごとのスコア、単語のスコア、総合スコアが、数字で表示されている。

なお、出力手段１１０４の表示は、図７、図８のような表示でも良いことは言うまでもない。

以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。また、かかる場合、本実施の形態によれば、個人差、特に声道長の違いに影響を受けない、精度の高い評定ができる。

また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、フレームごと、音素ごと、単語ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。また、本実施の形態によれば、フレームごとに確率値を算出するので、上述したように、フレーム単位だけではなく、または／および音素・単語単位、または／および発声全体の評定結果を出力でき、出力態様の自由度が高い。

また、本実施の形態によれば、音声処理装置は、語学学習に利用することを主として説明したが、物真似練習や、カラオケ評定や、歌唱評定などに利用できる。つまり、本音声処理装置は、比較される対象の音声に関するデータとの類似度を精度良く、高速に評定し、出力でき、そのアプリケーションは問わない。つまり、例えば、本音声処理装置は、カラオケ評価装置であって、音声受付部は、評価対象者の歌声の入力を受け付け、音声処理部は、前記歌声を評価する、という構成でも良い。かかることは、他の実施の形態においても同様である。

また、本実施の形態において、音声の入力を受け付けた後または停止ボタン操作後に、スコアリング処理を実行するかどうかをユーザに問い合わせ、スコアリング処理を行うとの指示を受け付けた場合のみ、図１０に示すような音素スコア、単語スコア、総合スコアを出力するようにしても良い。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、教師データは、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル（ＨＭＭ）に基づくデータであるとして、主として説明したが、必ずしもＨＭＭに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や統計モデルなど、他のモデルに基づくデータでも良い。かかることも、他の実施の形態においても同様である。

また、本実施の形態の具体例において、学習者は、母音「う」を発音し、音声処理装置は、かかる音声から第二サンプリング周波数を得た。しかし、学習者は、例えば、母音「あいえお」等、１以上の母音を発音し、かかる母音の音声から、音声処理装置は、第二サンプリング周波数を得ても良い。つまり、第二サンプリング周波数を得るために、学習者が発音する音は「う」に限られない。

また、本実施の形態において、音声処理装置は、声道長正規化処理部１０９において、声道長正規化パラメータ「ｒ」を算出した。しかし、別途、声道長正規化パラメータ「１／ｒ」を算出しておいて、かかる声道長正規化パラメータ「１／ｒ」を声道長正規化パラメータ格納部に格納していても良い。かかる場合、音声処理装置は、音声を受け付ける音声受付部と、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記第二音声データを処理する音声処理部を具備する音声処理装置、である。かかる場合、音声処理装置は、教師データフォルマント周波数格納部１０４、評価対象者フォルマント周波数取得部１０７、評価対象者フォルマント周波数格納部１０８は、必須ではない。かかることも、他の実施の形態においても同様である。

また、本実施の形態において、音声処理装置が行う下記の処理を、一のＤＳＰ（デジタルシグナルプロセッサ）で行っても良い。つまり、本ＤＳＰは、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、前記第一サンプリング周波数で、受け付けた音声をサンプリングし、第一音声データを取得するサンプリング部と、前記教師データのフォルマント周波数である教師データフォルマント周波数を格納している教師データフォルマント周波数格納部と、前記音声の話者である評価対象者のフォルマント周波数である評価対象者フォルマント周波数を格納している評価対象者フォルマント周波数格納部と、第二サンプリング周波数「前記第一サンプリング周波数／（教師データフォルマント周波数／評価対象者フォルマント周波数）」で、前記受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部を具備するデジタルシグナルプロセッサ、である。かかることも、他の実施の形態でも同様である。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における音声処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、第一サンプリング周波数で、受け付けた音声をサンプリングし、第一音声データを取得するサンプリングステップと、第二サンプリング周波数「第一サンプリング周波数／（教師データフォルマント周波数／評価対象者フォルマント周波数）」で、前記音声受付ステップで受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理ステップと、前記第二音声データを処理する音声処理ステップを実行させるためのプログラム、である。

また、上記プログラムにおいて、音声処理ステップは、前記第二音声データを、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得ステップと、前記教師データと前記１以上のフレーム音声データに基づいて、前記受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを具備する、ことは好適である。

さらに、上記プログラムにおいて、前記評定ステップは、前記１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定ステップと、前記最適状態決定ステップで決定した最適状態における確率値を取得する最適状態確率値取得ステップと、前記最適状態確率値取得ステップで取得した確率値をパラメータとして音声の評定値を算出する評定値算出ステップを具備することは好適である。
（実施の形態２）

本実施の形態における音声処理装置は、実施の形態１の音声処理装置と比較して、評定部における評定アルゴリズムが異なる。本実施の形態において、評定値は、最適状態を含む音韻の中の全状態の確率値を発音区間で評価して、算出される。本実施の形態における音声処理装置が算出する事後確率を、実施の形態１におけるＤＡＰに対してｔ−ｐ−ＤＡＰと呼ぶ。

図１１は、本実施の形態における音声処理装置のブロック図である。本音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、教師データフォルマント周波数格納部１０４、第一サンプリング周波数格納部１０５、サンプリング部１０６、評価対象者フォルマント周波数取得部１０７、評価対象者フォルマント周波数格納部１０８、声道長正規化処理部１０９、音声処理部１１１０、発声催促部１１０９を具備する。

音声処理部１１１０は、フレーム区分手段１１０１、フレーム音声データ取得手段１１０２、評定手段１１１０３、出力手段１１０４を具備する。

評定手段１１１０３は、最適状態決定手段１１０３１、発音区間フレーム音韻確率値取得手段１１１０３２、評定値算出手段１１１０３３を具備する。

発音区間フレーム音韻確率値取得手段１１１０３２は、最適状態決定手段１１０３１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する。

評定値算出手段１１１０３３は、発音区間フレーム音韻確率値取得手段１１１０３２が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する。評定値算出手段１１１０３３は、例えば、最適状態決定手段１１０３１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間毎の確率値の総和の時間平均値を１以上得て、当該１以上の時間平均値をパラメータとして音声の評定値を算出する。

発音区間フレーム音韻確率値取得手段１１１０３２、および評定値算出手段１１１０３３は、通常、ＭＰＵやメモリ等から実現され得る。発音区間フレーム音韻確率値取得手段１１１０３２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

発声催促部１１０９は、入力受付部１０１が、動作開始指示を受け付けた場合、第二サンプリング周波数を算出するために、評価対象者に発声を促す処理を行ったり、評価対象者の発音評定のために発声を促す処理を行ったりする。評価対象者に発声を促す処理は、例えば、「〜を発音してください。」とディスプレイに表示したり、「〜を発音してください。」とスピーカーから音出力したりする処理である。発声催促部１１０９は、ディスプレイ３４４やスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。発声催促部１１０９は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、本音声処理装置の動作について図１２から図１４のフローチャートを用いて説明する。図１２等のフローチャートにおいて、図２、図３のフローチャートと異なるステップについてのみ説明する。

（ステップＳ１２０１）発声催促部１１０９は、第二サンプリング周波数算出用の発声を促すために、例えば、母音「う」と発声してください、とディスプレイに表示する。

（ステップＳ１２０２）音声受付部１０３は、音声を受け付けたか否かを判断する。音声を受け付ければステップＳ１２０３に行き、音声を受け付けなければステップＳ２１３に行く。

（ステップＳ１２０３）サンプリング部１０６は、第一サンプリング周波数格納部１０５に格納されている第一サンプリング周波数を読み込み、当該第一サンプリング周波数で、ステップＳ１２０２で受け付けた音声をサンプリングし、第一音声データを得る。

（ステップＳ１２０４）声道長正規化処理部１０９は、ステップＳ１２０３で得た第一音声データから、第二サンプリング周波数を得る。かかる第二サンプリング周波数算出処理は、図１３のフローチャートを用いて説明する。

（ステップＳ１２０５）発声催促部１１０９は、評定用の発声を促すために、例えば、「ｒｉｇｈｔ」と発声してください、とディスプレイに表示する。

（ステップＳ１２０６）音声受付部１０３は、音声を受け付けたか否かを判断する。音声を受け付ければステップＳ１２０７に行き、音声を受け付けなければステップＳ２１３に行く。

（ステップＳ１２０７）サンプリング部１０６は、第一サンプリング周波数格納部１０５に格納されている第一サンプリング周波数を読み込み、当該第一サンプリング周波数で、ステップＳ１２０６で受け付けた音声をサンプリングし、第一音声データを得る。

（ステップＳ１２０８）声道長正規化処理部１０９は、ステップＳ１２０７で得た第一音声データに対して、ステップＳ１２０４で得た第二サンプリング周波数で、リサンプリングし、第二音声データを得る。

（ステップＳ１２０９）音声処理部１１１０は、ステップＳ１２０８で得た第二音声データに対して、評定処理を行う。評定処理の詳細は、図１４のフローチャートを用いて説明する。ステップＳ１２０２に戻る。

なお、図１２のフローチャートにおいて、第二サンプリング周波数を算出するための音声と、評定するための音声が同一または包含されていても良い。

ステップＳ１２０４の第二サンプリング周波数算出処理について、図１３のフローチャートを用いて説明する。図１３のフローチャートにおいて、図３のフローチャートにおけるステップＳ３０１からステップＳ３０５の処理を行う。

ステップＳ１２０９の評定処理について、図１４のフローチャートを用いて説明する。

（ステップＳ１４０１）発音区間フレーム音韻確率値取得手段１１１０３２は、全フレームの全状態の前向き尤度と後向き尤度を算出する。そして、全フレーム、全状態の確率値を得る。具体的には、発音区間フレーム音韻確率値取得手段１１１０３２は、例えば、各特徴ベクトルが対象の状態から生成された事後確率を算出する。この事後確率は、ＨＭＭの最尤推定におけるＢａｕｍ−Ｗｅｌｃｈアルゴリズムの中で現れる占有度数に対応する。Ｂａｕｍ−Ｗｅｌｃｈアルゴリズムは、公知のアルゴリズムであるので、説明は省略する。

（ステップＳ１４０２）発音区間フレーム音韻確率値取得手段１１１０３２は、全フレームの最適状態確率値を算出する。

（ステップＳ１４０３）発音区間フレーム音韻確率値取得手段１１１０３２は、ｊに１を代入する。

（ステップＳ１４０４）発音区間フレーム音韻確率値取得手段１１１０３２は、次の評定対象の発音区間である、ｊ番目の発音区間が存在するか否かを判断する。ｊ番目の発音区間が存在すればステップＳ１４０５に行き、ｊ番目の発音区間が存在しなければ上位関数にリターンする。

（ステップＳ１４０５）発音区間フレーム音韻確率値取得手段１１１０３２は、カウンタｋに１を代入する。

（ステップＳ１４０６）発音区間フレーム音韻確率値取得手段１１１０３２は、ｋ番目のフレームが、ｊ番目の発音区間に存在するか否かを判断する。ｋ番目のフレームが存在すればステップＳ１４０７に行き、ｋ番目のフレームが存在しなければステップＳ１４１０に飛ぶ。

（ステップＳ１４０７）発音区間フレーム音韻確率値取得手段１１１０３２は、ｋ番目のフレームの最適状態を含む音韻の全ての確率値を取得する。

（ステップＳ１４０８）評定値算出手段１１１０３３は、ステップＳ１４０７で取得した１以上の確率値をパラメータとして、１フレームの音声の評定値を算出する。

（ステップＳ１４０９）発音区間フレーム音韻確率値取得手段１１１０３２は、ｋを１、インクメントする。ステップＳ１４０６に戻る。

（ステップＳ１４１０）評定値算出手段１１１０３３は、ｊ番目の発音区間の評定値を算出する。評定値算出手段１１１０３３は、例えば、最適状態決定手段１１０３１が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値の総和を、フレーム毎に得て、当該フレーム毎の確率値の総和に基づいて、発音区間の確率値の総和の時間平均値を、当該発音区間の音声の評定値として算出する。

（ステップＳ１４１１）出力手段１１０４は、ステップＳ１４１０で算出した評定値を出力する。

（ステップＳ１４１２）発音区間フレーム音韻確率値取得手段１１１０３２は、ｊを１、インクメントする。ステップＳ１４０４に戻る。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。本実施の形態において、評定値の算出アルゴリズムが実施の形態１とは異なるので、その動作を中心に説明する。

まず、学習者（評価対象者）が、語学学習の開始の指示である動作開始指示を入力する。そして、音声処理装置は、当該動作開始指示を受け付け、次に、発声催促部１１０９は、例えば、「"う"と発声してください。」と画面出力する。

なお、ここでも、例えば、学習者は、実施の形態１と同様に子供である。また、教師データを作成するために発声した教師は、ネイティブの大人である、とする。かかることは、他の実施の形態の具体例の記載においても同様である、とする。

そして、評価対象者は、"う"と発声し、音声処理装置は、当該発声から、第二ンプリング周波数「３２．１ＫＨｚ」を得る。かかる処理は、実施の形態１において説明した処理と同様である。

次に、発声催促部１１０９は、例えば、「"ｒｉｇｈｔ"と発声してください。」と画面出力する。そして、学習者は、学習対象の音声「ｒｉｇｈｔ」を発音する。そして、音声受付部１０３は、学習者が発音した音声の入力を受け付ける。

次に、サンプリング部１０６は、受け付けた音声「ｒｉｇｈｔ」をサンプリング周波数「２２．０５ＫＨｚ」でサンプリング処理する。そして、サンプリング部１０６は、「ｒｉｇｈｔ」の第一音声データを得る。

次に、声道長正規化処理部１０９は、「ｒｉｇｈｔ」の第一音声データを第二サンプリング周波数「３２．１ＫＨｚ」でリサンプリング処理する。そして、声道長正規化処理部１０９は、第二音声データを得る。次に、音声処理部１１１０は、第二音声データを、以下のように処理する。

まず、フレーム区分手段１１０１は、「ｒｉｇｈｔ」の第二音声データを、短時間フレームに区分する。

そして、フレーム音声データ取得手段１１０２は、フレーム区分手段１１０１が区分した音声データを、スペクトル分析し、特徴ベクトル系列「Ｏ＝ｏ_１，ｏ_２，・・・，ｏ_Ｔ」を算出する。

次に、発音区間フレーム音韻確率値取得手段１１１０３２は、各フレームの各状態の事後確率（確率値）を算出する。確率値の算出は、上述した数式１、数式２により算出できる。

次に、最適状態決定手段１１０３１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、各フレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。つまり、最適状態決定手段１１０３１は、最適状態系列を得る。なお、各フレームの各状態の事後確率（確率値）を算出する処理と、最適状態を決定する処理の処理順序は問わない。

次に、発音区間フレーム音韻確率値取得手段１１１０３２は、発音区間ごとに、当該発音区間に含まれる各フレームの最適状態を含む音韻の全ての確率値を取得する。そして、評定値算出手段１１１０３３は、各フレームの最適状態を含む音韻の全ての確率値の総和を、フレーム毎に算出する。そして、評定値算出手段１１１０３３は、フレーム毎に算出された確率値の総和を、発音区間毎に時間平均し、発音区間毎の評定値を算出する。具体的には、評定値算出手段１１１０３３は、数式３により評定値を算出する。数式３において、ｐ−ＤＡＰ（τ）は、各フレームにおける、すべての音韻の中で最適な音韻の事後確率（確率値）を表すように算出される評定値であり、数式４で算出され得る。なお、数式３のｔ−ｐ−ＤＡＰは、最適状態を含む音韻の中の全状態の確率値を発音区間で評価して、算出される評定値である。また、数式３において、Τ（ｑ_ｔ ^＊）は、状態ｑ_ｔ ^＊を含むＨＭＭが含まれる評定対象の発音区間である。｜Τ（ｑ_ｔ ^＊）｜は、Τ（ｑ_ｔ ^＊）の区間長である。また、数式４において、Ｐ（ｑ_ｔ ^＊）は、状態ｑ_ｔ ^＊を含むＨＭＭが有する全状態識別子の集合である。

かかる評定値算出手段１１１０３３が算出した評定値（「ｔ−ｐ−ＤＡＰスコア」とも言う。）の出力例を、図１５の表に示す。図１５において、アメリカ人男性と日本人男性の評定結果を示す。ＰｈｏｎｅｍｅおよびＷｏｒｄは，ｔ−ｐ−ＤＡＰにおける時間平均の範囲を示す。ここでは、ＤＡＰの代わりにｐ−ＤＡＰの時間平均を採用したものである。図１５において、アメリカ人男性の発音の評定値が日本人男性の発音の評定値より高く、良好な評定結果が得られている。

そして、出力手段１１０４は、算出した発音区間ごと（ここでは、音素毎）の評定値を、順次出力する。かかる出力例は、図１６である。

また、本実施の形態によれば、連結されたＨＭＭである連結ＨＭＭを用いて最適状態を求め、評定値を算出するので、高速に評定値を求めることができる。したがって、上記の具体例で述べたように、リアルタイムに、発音区間ごとの評定値を出力できる。また、本実施の形態によれば、動的計画法に基づいた事後確率を確率値として算出するので、さらに高速に評定値を求めることができる。

また、本実施の形態によれば、評定値を、発音区間の単位で算出でき、実施の形態１におけるような状態単位のＤＡＰと比較して、本来、測定したい類似度（発音区間の類似度）を精度良く、安定して求めることができる。

さらに、本実施の形態における音声処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、第一サンプリング周波数で、受け付けた音声をサンプリングし、第一音声データを取得するサンプリングステップと、第二サンプリング周波数「第一サンプリング周波数／（教師データフォルマント周波数／評価対象者フォルマント周波数）」で、前記音声受付ステップで受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理ステップと、前記第二音声データを処理する音声処理ステップを実行させるためのプログラム、である。

また、上記プログラムにおいて、前記評定ステップは、前記１以上のフレーム音声データの最適状態を決定する最適状態決定ステップと、前記最適状態決定ステップで決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得ステップと、前記発音区間フレーム音韻確率値取得ステップで取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出ステップを具備する、ことは好適である。
（実施の形態３）

本実施の形態において、比較対象の音声と入力音声の類似度を精度高く評定できる音声処理装置について説明する。特に、本音声処理装置は、無音区間を検知し、無音区間を考慮した類似度評定が可能な音声処理装置である。

図１７は、本実施の形態における音声処理装置のブロック図である。本音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、教師データフォルマント周波数格納部１０４、第一サンプリング周波数格納部１０５、サンプリング部１０６、評価対象者フォルマント周波数取得部１０７、評価対象者フォルマント周波数格納部１０８、声道長正規化処理部１０９、音声処理部１７１０、発声催促部１１０９を具備する。

音声処理部１７１０は、フレーム区分手段１１０１、フレーム音声データ取得手段１１０２、特殊音声検知手段１７１０１、評定手段１７１０３、出力手段１１０４を具備する。

特殊音声検知手段１７１０１は、無音データ格納手段１７１０１１、無音区間検出手段１７１０１２を具備する。

評定手段１７１０３は、最適状態決定手段１１０３１、最適状態確率値取得手段１１０３２、評定値算出手段１７１０３３を具備する。

特殊音声検知手段１７１０１は、フレーム毎の入力音声データに基づいて、特殊な音声が入力されたことを検知する。なお、ここで特殊な音声は、無音も含む。また、特殊音声検知手段１７１０１は、例えば、フレームの最適状態の確率値を、ある音素区間において取得し、ある音素区間の１以上の確率値の総和が所定の値より低い場合（想定されている音素ではない、と判断できる場合）、当該音素区間において特殊な音声が入力されたと、検知する。かかる検知の具体的なアルゴリズムの例は後述する。特殊音声検知手段１７１０１は、通常、ＭＰＵやメモリ等から実現され得る。特殊音声検知手段１７１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

無音データ格納手段１７１０１１は、無音を示すデータであり、ＨＭＭに基づくデータである無音データを格納している。無音データ格納手段１７１０１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

無音区間検出手段１７１０１２は、フレーム音声データ取得手段１１０２が取得したフレーム音声データ、および無音データ格納手段１７１０１１の無音データに基づいて、無音の区間を検出する。無音区間検出手段１７１０１２は、フレーム音声データ取得手段１１０２が取得したフレーム音声データと無音データの類似度が所定の値以上である場合に、当該フレーム音声データは無音区間のデータであると判断しても良い。また、無音区間検出手段１７１０１２は、下記で述べる最適状態確率値取得手段１１０３２が取得した確率値が所定の値以下であり、かつ、フレーム音声データ取得手段１１０２が取得したフレーム音声データと無音データの類似度が所定の値以上である場合に、当該フレーム音声データは無音区間のデータであると判断しても良い。無音区間検出手段１７１０１２は、通常、ＭＰＵやメモリ等から実現され得る。無音区間検出手段１７１０１２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定手段１７１０３は、教師データと入力音声データと特殊音声検知手段１７１０１における検知結果に基づいて、音声受付部１０３が受け付けた音声の評定を行う。「特殊音声検知手段１７１０１における検知結果に基づく」とは、例えば、特殊音声検知手段１７１０１が無音を検知した場合、当該無音の区間を無視することである。また、「特殊音声検知手段１７１０１における検知結果に基づく」とは、例えば、特殊音声検知手段１７１０１が置換や脱落などを検知した場合、当該置換や脱落などの検知により、評定値を所定数値分、減じて、評定値を算出することである。評定手段１７１０３は、通常、ＭＰＵやメモリ等から実現され得る。評定手段１７１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定値算出手段１７１０３３は、無音区間検出手段１７１０１２が検出した無音区間を除いて、かつ最適状態確率値取得手段１１０３２が取得した確率値をパラメータとして音声の評定値を算出する。なお、評定値算出手段１７１０３３は、上記確率値を如何に利用して、評定値を算出するかは問わない。評定値算出手段１７１０３３は、例えば、最適状態確率値取得手段１１０３２が取得した確率値と、当該確率値に対応するフレームの全状態における確率値の総和をパラメータとして音声の評定値を算出する。評定値算出手段２１０２３は、ここでは、通常、無音区間検出手段１７１０１２が検出した無音区間を除いて、フレームごとに評定値を算出する。なお、評定値算出手段１７１０３３は、かならずしも無音区間を除いて、評定値を算出する必要はない。評定値算出手段１７１０３３は、無音区間の影響を少なくするように評定値を算出しても良い。評定値算出手段１７１０３３は、通常、ＭＰＵやメモリ等から実現され得る。評定値算出手段１７１０３３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音声処理装置の動作について図１８、図１９のフローチャートを用いて説明する。なお、図１８のフローチャートは、図１２のフローチャートと比較して、ステップＳ１８０１の評定処理のみが異なるので、図１８のフローチャートの説明は省略する。ステップＳ１８０１の評定処理の詳細について、図１９のフローチャートを用いて説明する。

（ステップＳ１９０１）評定手段１７１０３は、ＤＡＰの評定値を算出する。ＤＡＰの評定値を算出するアルゴリズムは、実施の形態１で説明済みであるので、詳細な説明は省略する。ＤＡＰの評定値を算出する処理は、図２のフローチャートの、ステップＳ２１１からＳ２１４の処理により行う。

（ステップＳ１９０２）特殊音声検知手段１７１０１は、ステップＳ１９０１で算出した値が、所定の値より低いか否かを判断する。所定の値より低ければステップＳ１９０３に行き、所定の値より低くなければステップＳ１９０６に飛ぶ。

（ステップＳ１９０３）無音区間検出手段１７１０１２は、無音データと全教師データの確率値を取得する。

（ステップＳ１９０４）無音区間検出手段１７１０１２は、ステップＳ１９０３で取得した確率値の中で、無音データの確率値が最も高いか否かを判断する。無音データの確率値が最も高ければ（かかる場合、無音の区間であると判断する）ステップＳ１９０５に行き、無音データの確率値が最も高くなければステップＳ１９０６に行く。

（ステップＳ１９０５）無音区間検出手段１７１０１２は、カウンタｉを１、インクリメントする。ステップＳ２０８に戻る。

（ステップＳ１９０６）出力手段１１０４は、ステップＳ１９０１で算出した評定値を出力する。

なお、図１９のフローチャートにおいて、出力手段１１０４は、無音区間と判定した区間の評定値は出力しなかった（無音区間を無視した）が、特殊音声が検知された区間が無音区間である旨を明示したり、無音区間が存在する旨を明示したりする態様で出力しても良い。また、評定値算出手段１７１０３３は、発音区間や、それ以上の単位のスコアを算出する場合に、無音区間の評定値を無視して、スコアを算出することが好適であるが、無音区間の評定値の影響を、例えば、１／１０にして、発音区間や発音全体のスコアを算出するなどしても良い。評定手段１７１０３は、教師データと入力音声データと特殊音声検知手段１７１０１における検知結果に基づいて、音声受付部１０３が受け付けた音声の評定を行えばよい。

また、図１９のフローチャートにおいて、特殊音声検知手段１７１０１は、ｉ番目のフレーム音声データのＤＡＰスコアに基づいて特殊音声を検知したが、例えば、実施の形態２で説明したｔ−ｐ−ＤＡＰスコアに基づいて特殊音声を検知しても良い。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。本実施の形態において、無音区間を考慮して評定値を算出するので、評定値の算出アルゴリズムが実施の形態１、実施の形態２とは異なる。そこで、その異なる処理を中心に説明する。

まず、学習者（評価対象者）が、語学学習の開始の指示である動作開始指示を入力する。そして、音声処理装置は、当該動作開始指示を受け付け、次に、例えば、「"う"と発声してください。」と画面出力する。

そして、評価対象者は、"う"と発声し、音声処理装置は、当該発声から、第二ンプリング周波数「３２．１ＫＨｚ」を得る。かかる処理は、実施の形態１等において説明した処理と同様である。

次に、声道長正規化処理部１０９は、「ｒｉｇｈｔ」の第一音声データを、第二サンプリング周波数「３２．１ＫＨｚ」でリサンプリング処理する。そして、声道長正規化処理部１０９は、第二音声データを得る。次に、音声処理部１７１０は、第二音声データを、以下のように処理する。

次に、最適状態決定手段１１０３１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。

次に、最適状態確率値取得手段１１０３２は、上述した数式１、２により、最適状態における確率値を算出する。

次に、評定値算出手段１７１０３３は、例えば、最適状態決定手段１１０３１が決定した最適状態を有する音韻全体の状態における１以上の確率値を取得し、当該１以上の確率値の総和をパラメータとして音声の評定値を算出する。つまり、評定値算出手段１７１０３３は、例えば、ＤＡＰスコアをフレーム毎に算出する。

そして、特殊音声検知手段１７１０１は、算出されたフレームに対応する評定値（ＤＡＰスコア）を用いて、特殊な音声が入力されたか否かを判断する。具体的には、特殊音声検知手段１７１０１は、例えば、評価対象のフレームに対して算出された評定値が、所定の数値より低ければ、特殊な音声が入力された、と判断する。なお、特殊音声検知手段１７１０１は、一のフレームに対応する評定値が小さいからといって、直ちに特殊な音声が入力された、と判断する必要はない。つまり、特殊音声検知手段１７１０１は、フレームに対応する評定値が小さいフレームが所定の数以上、連続する場合に、当該連続するフレーム群に対応する区間が特殊な音声が入力された区間と判断しても良い。

特殊音声検知手段１７１０１が、特殊音声を検知する場合について説明する図を図２０に示す。図２０（ａ）の縦軸は、ＤＡＰスコアであり、横軸はフレームを示す。図２０（ａ）において、（Ｖ）は、Ｖｉｔｅｒｂｉアライメントを示す。図２０（ａ）において、網掛けのフレーム群のおけるＤＡＰスコアは、所定の値より低く、特殊音声の区間である、と判断される。

次に、特殊な音声が入力された、と判断した場合、無音区間検出手段１７１０１２は、無音データ格納手段１７１０１１から無音データを取得し、当該フレーム群と無音データとの類似度を算定し、類似度が所定値以上であれば当該フレーム群に対応する音声データが、無音データであると判断する。図２０（ｂ）は、無音データとの比較の結果、当該無音データとの類似度を示す事後確率の値（「ＤＡＰスコア」）が高いことを示す。その結果、無音区間検出手段１７１０１２は、当該特殊音声の区間は、無音区間である、と判断する。なお、図２０（ａ）において、網掛けのフレーム群のおけるＤＡＰスコアは、所定の値より低く、特殊音声の区間である、と判断され、かつ、無音データとの比較の結果、ＤＡＰスコアが低い場合には、無音区間ではない、と判断される。そして、かかる区間において、例えば、単に、発音が上手くなく、低い評定値が出力される。なお、図２０（ａ）に示しているように、通常、無音区間は、第一のワード（「ｗｏｒｄ１」）の最終音素の後半部、および第一のワードに続く第二のワード（「ｗｏｒｄ２」）の第一音素の前半部のスコアが低い。

そして、出力手段１１０４は、出力する評定値から、無音データの区間の評定値を考慮しないように、無視する。

そして、出力手段１１０４は、各フレームに対応する評定値を出力する。この場合、例えば、無音データの区間の評定値は、出力されない。

かかる評定値の出力態様例は、例えば、図９、図１０である。

なお、出力手段１１０４が行う出力は、無音区間の存在を示すだけの出力でも良い。

以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。また、かかる場合、本実施の形態によれば、個人差、特に声道長の違いに影響を受けない、精度の高い評定ができる。さらに、本音声処理装置は、無音区間を考慮して類似度を評定するので、極めて正確な評定結果が得られる。

なお、無音区間のデータは、無視して評定結果を算出することは好適である。ただし、本実施の形態において、例えば、無音区間の評価の影響を他の区間と比較して少なくするなど、無視する以外の方法で、無音区間のデータを考慮して、評定値を出力しても良い。

また、本実施の形態の具体例によれば、ＤＡＰスコアを用いて、評定値を算出したが、無音の区間を考慮して評定値を算出すれば良く、上述した他のアルゴリズム（ｔ−ｐ−ＤＡＰ等）、または、本明細書では述べていない他のアルゴリズムにより評定値を算出しても良い。つまり、本実施の形態によれば、教師データと入力音声データと特殊音声検知手段における検知結果に基づいて、音声受付部が受け付けた音声の評定を行い、特に、無音データを考慮して、評定値を算出すれば良い。

また、本実施の形態によれば、まず、ＤＡＰスコアが低い区間を検出してから、無音区間の検出をした。しかし、ＤＡＰスコアが低い区間を検出せずに、無音データとの比較により、無音区間を検出しても良い。

また、上記プログラムにおいて、音声処理ステップは、前記第二音声データを、フレームに区分するフレーム区分ステップと、前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得ステップと、前記フレーム毎の入力音声データに基づいて、特殊な音声が入力されたことを検知する特殊音声検知ステップと、教師データと前記入力音声データと前記特殊音声検知ステップにおける検知結果に基づいて、前記受け付けた音声の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する出力ステップを具備する、ことは好適である。

また、上記プログラムにおいて、特殊音声検知ステップは、無音を示すＨＭＭに基づくデータである無音データと、前記入力音声データに基づいて、無音の区間を検出する、ことは好適である。
（実施の形態４）

本実施の形態において、入力音声において、特殊音声を検知し、比較対象の音声と入力音声の類似度を精度高く評定できる音声処理装置について説明する。特に、本音声処理装置は、音韻の挿入を検知できる音声処理装置である。

図２１は、本実施の形態における音声処理装置のブロック図である。本音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、教師データフォルマント周波数格納部１０４、第一サンプリング周波数格納部１０５、サンプリング部１０６、評価対象者フォルマント周波数取得部１０７、評価対象者フォルマント周波数格納部１０８、声道長正規化処理部１０９、音声処理部２１１０、発声催促部１１０９を具備する。

音声処理部２１１０は、フレーム区分手段１１０１、フレーム音声データ取得手段１１０２、特殊音声検知手段２１１０１、評定手段２１１０３、出力手段２１１０４を具備する。なお、評定手段２１１０３は、最適状態決定手段１１０３１、最適状態確率値取得手段１１０３２を具備する。

特殊音声検知手段２１１０１は、一の音素の後半部および当該音素の次の音素の前半部の評定値が所定の条件を満たすことを検知する。後半部、および前半部の長さは問わない。特殊音声検知手段２１１０１は、通常、ＭＰＵやメモリ等から実現され得る。特殊音声検知手段２１１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定手段２１１０３は、特殊音声検知手段２１１０１が所定の条件を満たすことを検知した場合に、少なくとも音素の挿入があった旨を示す評定結果を構成する。なお、評定手段２１１０３は、実施の形態３で述べたアルゴリズムにより、特殊音声検知手段２１１０１が所定の条件を満たすことを検知した区間に無音が挿入されたか否かを判断し、無音が挿入されていない場合に、他の音素が挿入されたと検知しても良い。また、評定手段２１１０３は、無音が挿入されていない場合に、他の音韻ＨＭＭに対する確率値を算出し、所定の値より高い確率値を得た音韻が挿入された、との評定結果を得ても良い。なお、実施の形態３で述べた無音区間の検知は、無音音素の挿入の検知である、とも言える。評定手段２１１０３は、通常、ＭＰＵやメモリ等から実現され得る。評定手段２１１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力手段２１１０４は、評定手段２１１０３における評定結果を出力する。ここでの評定結果は、音素の挿入があった旨を示す評定結果を含む。また、評定結果は、音素の挿入があった場合に、所定数値分、減じられて算出された評定値（スコア）のみでも良い。また、評定結果は、音素の挿入があった旨、および評定値（スコア）の両方であっても良い。なお、教師データにおいて想定されていない音素の挿入を検知した場合、通常、評定値は低くなる。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力手段２１１０４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力手段２１１０４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、音声処理装置の動作について、図２２、図２３のフローチャートを用いて説明する。なお、図２２のフローチャートは、図１２のフローチャートと比較して、ステップＳ２２０１の評定処理のみが異なるので、図２２のフローチャートの説明は省略する。ステップＳ２２０１の評定処理の詳細について、図２３のフローチャートを用いて説明する。図２３のフローチャートにおいて、図２、図１９のフローチャートの処理と同様の処理については、その説明を省略する。

（ステップＳ２３０１）特殊音声検知手段２１１０１は、フレームに対応するデータを一時的に蓄積するバッファにデータが格納されているか否かを判断する。なお、格納されているデータは、ステップＳ１９０２で、所定の値より低い評定値と評価されたフレーム音声データ、または当該フレーム音声データから取得できるデータである。データが格納されていればステップＳ２３０７に行き、データが格納されていなければ上位関数にリターンする。

（ステップＳ２３０２）特殊音声検知手段２１１０１は、バッファにデータが格納されているか否かを判断する。データが格納されていればステップＳ２３０７に行き、データが格納されていなければステップステップＳ２３０３に行く。

（ステップＳ２３０３）出力手段２１１０４は、ステップＳ１９０１で算出した評定値を出力する。

（ステップＳ２３０４）特殊音声検知手段２１１０１は、カウンタｉを１、インクリメントする。ステップＳ２０８に戻る。

（ステップＳ２３０５）特殊音声検知手段２１１０１は、バッファに、所定の値より低い評定値と評価されたフレーム音声データ、または当該フレーム音声データから取得できるデータを一時蓄積する。

（ステップＳ２３０６）特殊音声検知手段２１１０１は、カウンタｉを１、インクリメントする。ステップＳ２０８に戻る。

（ステップＳ２３０７）特殊音声検知手段２１１０１は、カウンタｊに１を代入する。

（ステップＳ２３０８）特殊音声検知手段２１１０１は、ｊ番目のデータが、バッファに存在するか否かを判断する。ｊ番目のデータが存在すればステップＳ２３０９に行き、ｊ番目のデータが存在しなければステップＳ２３１５に飛ぶ。

（ステップＳ２３０９）特殊音声検知手段２１１０１は、ｊ番目のデータに対応する最適状態の音素を取得する。

（ステップＳ２３１０）特殊音声検知手段２１１０１は、ｊ番目のデータに対する全教師データの確率値を算出し、最大の確率値を持つ音素を取得する。

（ステップＳ２３１１）特殊音声検知手段２１１０１は、ステップＳ２３０９で取得した音素とステップＳ２３１０で取得した音素が異なる音素であるか否かを判断する。異なる音素であればステップＳ２３１２に行き、異なる音素でなければステップＳ２３１４に飛ぶ。

（ステップＳ２３１２）評定手段２１１０３は、音素の挿入があった旨を示す評定結果を構成する。

（ステップＳ２３１３）特殊音声検知手段２１１０１は、カウンタｊを１、インクリメントする。ステップＳ２３０８に戻る。

（ステップＳ２３１４）出力手段２１１０４は、バッファ中の全データに対応する全評定値を出力する。ここで、全評定値とは、例えば、フレーム毎のＤＡＰスコアである。ステップＳ２３１３に行く。

（ステップＳ２３１５）出力手段２１１０４は、評定結果に「挿入の旨」の情報が入っているか否かを判断する。「挿入の旨」の情報が入っていればステップＳ２３１６に行き、「挿入の旨」の情報が入っていなければステップＳ２３１７に行く。

（ステップＳ２３１６）出力手段２１１０４は、評定結果を出力する。

（ステップＳ２３１７）出力手段２１１０４は、バッファをクリアする。ステップＳ２０８に戻る。

なお、図２３のフローチャートにおいて、評定値の低いフレームが２つの音素に渡って存在すれば、音素の挿入があったと判断した。つまり、一の音素の後半部（少なくとも最終フレーム）および当該音素の次の音素の第一フレームの評定値が所定値より低い場合に、音素の挿入があったと判断した。しかし、図２３のフローチャートにおいて、一の音素の所定区間以上の後半部、および当該音素の次の音素の所定区間以上の前半部の評定値が所定値よりすべて低い場合に、音素の挿入があったと判断するようにしても良い。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。本実施の形態において、音素の挿入の検知を行う処理が実施の形態３等とは異なる。そこで、その異なる処理を中心に説明する。

まず、学習者（評価対象者）が、語学学習の開始の指示である動作開始指示を入力する。そして、音声処理装置は、当該動作開始指示を受け付け、次に、例えば、「"あ"と発声してください。」と画面出力する。

そして、学習者は、"あ"と発声し、音声処理装置は、当該発声から、第二ンプリング周波数「３２．１ＫＨｚ」を得る。かかる処理は、実施の形態１等において説明した処理と同様である。

次に、声道長正規化処理部１０９は、「ｒｉｇｈｔ」の第一音声データを第二サンプリング周波数「３２．１ＫＨｚ」でリサンプリング処理する。そして、声道長正規化処理部１０９は、第二音声データを得る。次に、音声処理部２１１０は、第二音声データを、以下のように処理する。

次に、評定手段２１１０３の最適状態決定手段１１０３１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。

次に、評定手段２１１０３は、例えば、最適状態決定手段１１０３１が決定した最適状態を有する音韻全体の状態における１以上の確率値を取得し、当該１以上の確率値の総和をパラメータとして音声の評定値を算出する。つまり、評定手段２１１０３は、例えば、ＤＡＰスコアをフレーム毎に算出する。ここで、算出するスコアは、上述したｔ−ｐ−ＤＡＰスコア等でも良い。

そして、特殊音声検知手段２１１０１は、算出されたフレームに対応する評定値を用いて、特殊な音声が入力されたか否かを判断する。つまり、評定値（例えば、ＤＡＰスコア）が、所定の値より低い区間が存在するか否かを判断する。

次に、特殊音声検知手段２１１０１は、図２４に示すように、評定値（例えば、ＤＡＰスコア）が、所定の値より低い区間が、２つの音素に跨っているか否かを判断し、２つの音素に跨がっていれば、当該区間に音素が挿入された、と判断する。なお、かかる場合の詳細なアルゴリズムの例は、図２３で説明した。また、図２４において、斜線部が、予期しない音素が挿入された区間である。

次に、評定手段２１１０３は、音素の挿入があった旨を示す評定結果（例えば、「予期しない音素が挿入されました。」）を構成する。なお、予期しない音素が挿入された場合、評定手段２１１０３は、例えば、所定数値分、減じて、評定値を算出することは好適である。そして、出力手段２１１０４は、構成した評定結果（評定値を含んでも良い）を出力する。図２５は、評定結果の出力例である。なお、出力手段２１１０４は、通常の入力音声に対しては、上述したように評定値を出力することが好適である。

以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。また、かかる場合、本実施の形態によれば、個人差、特に声道長の違いに影響を受けない、精度の高い評定ができる。さらに、本音声処理装置は、特殊音声、特に、予期せぬ音素の挿入を検知できるので、極めて精度の高い評定結果が得られる。

なお、本実施の形態において、音素の挿入を検知できれば良く、評定値の算出アルゴリズムは問わない。評定値の算出アルゴリズムは、上述したアルゴリズム（ＤＡＰ、ｔ−ｐ−ＤＡＰ）でも良く、または、本明細書では述べていない他のアルゴリズムでも良い。

また、上記プログラムにおいて、特殊音声検知ステップは、一の音素の後半部および当該音素の次の音素の前半部の評定値が所定の条件を満たすことを検知する、ことは好適である。
（実施の形態５）

本実施の形態において、入力音声において、特殊音声を検知し、比較対象の音声と入力音声の類似度を精度高く評定できる音声処理装置について説明する。特に、本音声処理装置は、音韻の置換を検知できる音声処理装置である。

図２６は、本実施の形態における音声処理装置のブロック図である。本音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、教師データフォルマント周波数格納部１０４、第一サンプリング周波数格納部１０５、サンプリング部１０６、評価対象者フォルマント周波数取得部１０７、評価対象者フォルマント周波数格納部１０８、声道長正規化処理部１０９、音声処理部２６１０、発声催促部１１０９を具備する。

音声処理部２６１０は、フレーム区分手段１１０１、フレーム音声データ取得手段１１０２、特殊音声検知手段２６１０１、評定手段２６１０３、出力手段２１１０４を具備する。なお、評定手段２６１０３は、最適状態決定手段１１０３１、最適状態確率値取得手段１１０３２を具備する。

音声処理部２６１０は、第二音声データを処理する。音声処理部２６１０は、フレーム毎の入力音声データに基づいて、特殊な音声が入力されたことを検知する特殊音声検知手段２６１０１を具備する。音声処理部２６１０は、通常、ＭＰＵやメモリ等から実現され得る。音声処理部２６１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

特殊音声検知手段２６１０１は、一の音素の評定値が所定の値より低いことを検知する。また、特殊音声検知手段２６１０１は、一の音素の評定値が所定の値より低く、かつ当該音素の直前の音素および当該音素の直後の音素の評定値が所定の値より高いことをも検知しても良い。また、特殊音声検知手段２６１０１は、一の音素の評定値が所定の値より低く、かつ、想定していない音素のＨＭＭに基づいて算出された評定値が所定の値より高いことを検知しても良い。つまり、特殊音声検知手段２６１０１は、所定のアルゴリズムで、音韻の置換を検知できれば良い。そのアルゴリズムは種々考えられる。特殊音声検知手段２６１０１は、通常、ＭＰＵやメモリ等から実現され得る。特殊音声検知手段２６１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定手段２６１０３は、特殊音声検知手段２６１０１が所定の条件を満たすことを検知した場合に、少なくとも音素の置換があった旨を示す評定結果を構成する。評定手段２６１０３は、音素の置換があった場合に、所定数値分、減じられて算出された評定値（スコア）を算出しても良い。評定手段２６１０３は、通常、ＭＰＵやメモリ等から実現され得る。評定手段２６１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音声処理装置の動作について、図２７、図２８のフローチャートを用いて説明する。なお、図２７のフローチャートは、図１２のフローチャートと比較して、ステップＳ２７０１の評定処理のみが異なるので、図２７のフローチャートの説明は省略する。ステップＳ２７０１の評定処理の詳細について、図２８のフローチャートを用いて説明する。図２８のフローチャートにおいて、図２、図１９、図２３のフローチャートの処理と同様の処理については、その説明を省略する。

（ステップＳ２８０１）特殊音声検知手段２６１０１は、バッファに蓄積されているデータに対応するフレーム音声データ群が一の音素に対応するか否かを判断する。一の音素であればステップＳ２８０２に行き、一の音素でなければステップＳ２８１０に行く。

（ステップＳ２８０２）特殊音声検知手段２６１０１は、バッファに蓄積されているデータに対応するフレーム音声データ群の音素の直前の音素の評定値を算出する。かかる評定値は、例えば、上述したＤＡＰスコアである。なお、直前の音素とは、現在評定中の音素に対して直前の音素である。音素の区切りは、Ｖｉｔｅｒｂｉアルゴリズムにより算出できる。

（ステップＳ２８０３）特殊音声検知手段２６１０１は、ステップＳ２８０２で算出した評定値が所定の値以上であるか否かを判断する。所定の値以上であればステップＳ２８０４に行き、所定の値より小さければステップＳ２８１０に行く。

（ステップＳ２８０４）特殊音声検知手段２６１０１は、直後の音素の評定値を算出する。かかる評定値は、例えば、上述したＤＡＰスコアである。直後の音素とは、現在評定中の音素に対して直後の音素である。

（ステップＳ２８０５）特殊音声検知手段２６１０１は、ステップＳ２８０４で算出した評定値が所定の値以上であるか否かを判断する。所定の値以上であればステップＳ２８０６に行き、所定の値より小さければステップＳ２８１０に行く。

（ステップＳ２８０６）特殊音声検知手段２６１０１は、予め格納されている音韻ＨＭＭ（予期する音韻のＨＭＭは除く）の中で、所定の値以上の評定値が得られる音韻ＨＭＭが一つ存在するか否かを判断する。所定の値以上の評定値が得られる音韻ＨＭＭが存在すればステップＳ２８０７に行き、所定の値以上の評定値が得られる音韻ＨＭＭが存在しなければステップＳ２８１０に行く。なお、予め格納されている音韻ＨＭＭは、通常、すべての音韻に対する多数の音韻ＨＭＭである。なお、本ステップにおいて、予め格納されている音韻ＨＭＭの確率値を算出し、最大の確率値を持つ音素を取得し、当該音素と最適状態の音素が異なるか否かを判断し、異なる場合に音素の置換があったと判断しても良い。

（ステップＳ２８０７）評定手段２６１０３は、音素の置換があった旨を示す評定結果を構成する。

（ステップＳ２８０８）出力手段２１１０４は、ステップＳ２８０７で構成した評定結果を出力する。

（ステップＳ２８０９）出力手段２１１０４は、バッファをクリアする。ステップＳ２０８に戻る。

（ステップＳ２８１０）出力手段２１１０４は、バッファ中の全データに対応する全評定値を出力する。ステップＳ２８０９に行く。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。本実施の形態において、音素の置換の検知を行う処理が実施の形態４等とは異なる。そこで、その異なる処理を中心に説明する。

次に、声道長正規化処理部１０９は、「ｒｉｇｈｔ」の第一音声データを第二サンプリング周波数「３２．１ＫＨｚ」でリサンプリング処理する。そして、声道長正規化処理部１０９は、第二音声データを得る。次に、音声処理部２６１０は、第二音声データを、以下のように処理する。

次に、評定手段２６１０３の最適状態決定手段１１０３１は、取得した特徴ベクトル系列を構成する各特徴ベクトルｏ_ｔに基づいて、所定のフレームの最適状態（特徴ベクトルｏ_ｔに対する最適状態）を決定する。

次に、評定手段２６１０３は、例えば、最適状態決定手段１１０３１が決定した最適状態を有する音韻全体の状態における１以上の確率値を取得し、当該１以上の確率値の総和をパラメータとして音声の評定値を算出する。つまり、評定手段２６１０３は、例えば、ＤＡＰスコアをフレーム毎に算出する。ここで、算出するスコアは、上述したｔ−ｐ−ＤＡＰスコア等でも良い。

そして、特殊音声検知手段２６１０１は、算出されたフレームに対応する評定値を用いて、特殊な音声が入力されたか否かを判断する。つまり、評定値（例えば、ＤＡＰスコア）が、所定の値より低い区間が存在するか否かを判断する。

次に、特殊音声検知手段２６１０１は、図２９に示すように、評定値（例えば、ＤＡＰスコア）が、所定の値より低い区間が、一つの音素内（ここでは音素２）であるか否かを判断する。そして、一つの音素内で評定値が低ければ、次に、特殊音声検知手段２６１０１は、直前の音素（音素１）および／または直後の音素（音素３）に対する評定値（例えば、ＤＡＰスコア）を算出し、当該評定値が所定の値より高ければ、音素の置換が発生している可能性があると判断する。次に、特殊音声検知手段２６１０１は、予め格納されている音韻ＨＭＭ（予期する音韻のＨＭＭは除く）の中で、所定の値以上の評定値が得られる音韻ＨＭＭが一つ存在すれば、音素の置換が発生していると判断する。なお、図２９において、音素２において、音素の置換が発生した区間である。なお、図２９において縦軸は評定値であり、当該評定値は、ＤＡＰ、ｔ−ｐ−ＤＡＰ等、問わない。

次に、評定手段２６１０３は、音素の置換があった旨を示す評定結果（例えば、「音素の置換が発生しました。」）を構成する。そして、出力手段２１１０４は、構成した評定結果を出力する。なお、出力手段２１１０４は、通常の入力音声に対しては、上述したように評定値を出力することが好適である。

以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。また、かかる場合、本実施の形態によれば、個人差、特に声道長の違いに影響を受けない、精度の高い評定ができる。さらに、本音声処理装置は、特殊音声、特に、音素の置換を検知できるので、極めて精度の高い評定結果が得られる。

なお、本実施の形態において、音素の置換を検知できれば良く、評定値の算出アルゴリズムは問わない。評定値の算出アルゴリズムは、上述したアルゴリズム（ＤＡＰ、ｔ−ｐ−ＤＡＰ）でも良く、または、本明細書では述べていない他のアルゴリズムでも良い。

また、本実施の形態において、音素の置換の検知アルゴリズムは、他のアルゴリズムでも良い。例えば、音素の置換の検知において、所定以上の長さの区間を有することを置換区間の検知で必須としても良い。その他、置換の検知アルゴリズムの詳細は種々考えられる。

また、上記プログラムにおいて、特殊音声検知ステップは、一の音素の評定値が所定の条件を満たすことを検知し、特殊音声検知ステップで前記所定の条件を満たすことを検知した場合に、少なくとも音素の置換があった旨を示す評定結果を構成する、ことは好適である。
（実施の形態６）

本実施の形態において、入力音声において、特殊音声を検知し、比較対象の音声と入力音声の類似度を精度高く評定できる音声処理装置について説明する。特に、本音声処理装置は、音韻の欠落を検知できる音声処理装置である。

図３０は、本実施の形態における音声処理装置のブロック図である。本音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、教師データフォルマント周波数格納部１０４、第一サンプリング周波数格納部１０５、サンプリング部１０６、評価対象者フォルマント周波数取得部１０７、評価対象者フォルマント周波数格納部１０８、声道長正規化処理部１０９、音声処理部３０１０、発声催促部１１０９を具備する。

音声処理部３０１０は、フレーム区分手段１１０１、フレーム音声データ取得手段１１０２、特殊音声検知手段３０１０１、評定手段３０１０３、出力手段２１１０４を具備する。なお、評定手段３０１０３は、最適状態決定手段１１０３１、最適状態確率値取得手段１１０３２を具備する。

特殊音声検知手段３０１０１は、一の音素の評定値が所定の値より低く、かつ当該音素の直前の音素または当該音素の直後の音素の評定値が所定の値より高いことを検知する。また、特殊音声検知手段３０１０１は、一の音素の評定値が所定の値より低く、かつ当該音素の直前の音素または当該音素の直後の音素の評定値が所定の値より高く、かつ当該音素の区間長が所定の長さよりも短いことを検知しても良い。また、特殊音声検知手段３０１０１は、直前の音素に対応する確率値、または直後の音素に対応する確率値が、当該一の音素の確率値より高いことを検知しても良い。かかる場合に、特殊音声検知手段３０１０１は、音韻の欠落を検知することは好適である。さらに、音素の区間長が所定の長さよりも短いことを欠落の条件に含めることにより、音韻の欠落の検知の精度は向上する。特殊音声検知手段３０１０１は、通常、ＭＰＵやメモリ等から実現され得る。特殊音声検知手段３０１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

評定手段３０１０３は、特殊音声検知手段３０１０１が所定の条件を満たすことを検知した場合に、少なくとも音素の欠落があった旨を示す評定結果を構成する。評定手段３０１０３は、通常、ＭＰＵやメモリ等から実現され得る。評定手段３０１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、音声処理装置の動作について、図３１、図３２のフローチャートを用いて説明する。なお、図３１のフローチャートは、図１２のフローチャートと比較して、ステップＳ３１０１の評定処理のみが異なるので、図３１のフローチャートの説明は省略する。ステップＳ３１０１の評定処理の詳細について、図３２のフローチャートを用いて説明する。図３２のフローチャートにおいて、図２、図１９、図２３、図２８のフローチャートの処理と同様の処理については、その説明を省略する。

（ステップＳ３２０１）特殊音声検知手段３０１０１は、バッファに蓄積されているデータに対して、直前の音素に対応する教師データの確率値または、直後の音素に対応する教師データの確率値が、予定されている音素に対応する教師データの確率値より高いか否かを判断する。高ければステップＳ３２０２に行き、高くなければステップＳ２８１０に行く。なお、ステップＳ３２０２に行くための条件として、バッファに蓄積されているデータに対応するフレーム音声データ群の区間長が所定の長さ以下であることを付加しても良い。

（ステップＳ３２０２）評定手段３０１０３は、音素の欠落があった旨を示す評定結果を構成する。ステップＳ２８０８に行く。

なお、図３２のフローチャートにおいて、評定対象の音素（欠落したであろう音素）の区間長が、所定の長さ（例えば、３フレーム）よりも短いことを条件としても良いし、かかる条件は無くても良い。

以下、本実施の形態における音声処理装置の具体的な動作について説明する。本実施の形態において、音素の欠落の検知を行う処理が実施の形態５等とは異なる。そこで、その異なる処理を中心に説明する。

次に、声道長正規化処理部１０９は、「ｒｉｇｈｔ」の第一音声データを第二サンプリング周波数「３２．１ＫＨｚ」でリサンプリング処理する。そして、声道長正規化処理部１０９は、第二音声データを得る。次に、音声処理部３０１０は、第二音声データを、以下のように処理する。

次に、評定手段３０１０３は、例えば、最適状態決定手段１１０３１が決定した最適状態を有する音韻全体の状態における１以上の確率値を取得し、当該１以上の確率値の総和をパラメータとして音声の評定値を算出する。つまり、評定手段３０１０３は、例えば、ＤＡＰスコアをフレーム毎に算出する。ここで、算出するスコアは、上述したｔ−ｐ−ＤＡＰスコア等でも良い。

そして、特殊音声検知手段３０１０１は、算出されたフレームに対応する評定値を用いて、特殊な音声が入力されたか否かを判断する。つまり、評定値（例えば、ＤＡＰスコア）が、所定の値より低い区間が存在するか否かを判断する。

次に、特殊音声検知手段３０１０１は、図３３に示すように、評定値（例えば、ＤＡＰスコア）が、所定の値より低い区間が、一つの音素内（ここでは音素２）であるか否かを判断する。そして、一つの音素内で評定値が低ければ、特殊音声検知手段３０１０１は、直前の音素（音素１）または直後の音素（音素３）に対する評定値（例えば、ＤＡＰスコア）を算出し、当該評定値が所定の値より高ければ、音素の欠落が発生している可能性があると判断する。そして、当該区間長が、例えば、３フレーム以下の長さであれば、かかる音素は欠落したと判断する。なお、図３３において、音素２の欠落が発生したことを示す。なお、図３３において縦軸は評定値であり、当該評定値は、ＤＡＰ、ｔ−ｐ−ＤＡＰ等、問わない。また、上記区間長の所定値は、「３フレーム以下」ではなく、「５フレーム以下」でも、「６フレーム以下」でも良い。

次に、評定手段３０１０３は、音素の欠落があった旨を示す評定結果（例えば、「音素の欠落が発生しました。」）を構成する。そして、出力手段２１１０４は、構成した評定結果を出力する。なお、出力手段２１１０４は、通常の入力音声に対しては、上述したように評定値を出力することが好適である。

以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。また、かかる場合、本実施の形態によれば、個人差、特に声道長の違いに影響を受けない、精度の高い評定ができる。さらに、本音声処理装置は、特殊音声、特に、音素の欠落を検知できるので、極めて精度の高い評定結果が得られる。

なお、本実施の形態において、音素の欠落を検知できれば良く、評定値の算出アルゴリズムは問わない。評定値の算出アルゴリズムは、上述したアルゴリズム（ＤＡＰ、ｔ−ｐ−ＤＡＰ）でも良く、または、本明細書では述べていない他のアルゴリズムでも良い。

また、本実施の形態において、音素の欠落の検知アルゴリズムは、他のアルゴリズムでも良い。例えば、音素の欠落の検知において、所定長さ未満の区間であることを欠落区間の検知で必須としても良いし、区間長を考慮しなくても良い。

また、上記プログラムにおいて、特殊音声検知ステップは、一の音素の評定値が所定の条件を満たすことを検知し、特殊音声検知ステップで前記所定の条件を満たすことを検知した場合に、少なくとも音素の欠落があった旨を示す評定結果を構成する、ことは好適である。
（実施の形態７）

本実施の形態における音声処理装置の音声処理は、音声認識である。

図３４は、本実施の形態における音声処理装置のブロック図である。

本音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、教師データフォルマント周波数格納部１０４、第一サンプリング周波数格納部１０５、サンプリング部１０６、評価対象者フォルマント周波数取得部１０７、評価対象者フォルマント周波数格納部１０８、声道長正規化処理部１０９、音声処理部３４１０、発声催促部１１０９を具備する。

音声処理部３４１０は、音声認識手段３４１０１、出力手段３４１０２を具備する。

音声処理部３４１０の音声認識手段３４１０１は、第二音声データに基づいて、音声認識処理を行う。音声認識のアルゴリズムは、問わない。音声認識処理は、公知のアルゴリズムで良い。本実施の形態において、リサンプリングした第二音声データに基づいて音声認識することにより、精度の高い音声認識が可能である。音声処理部３４１０は、通常、ＭＰＵやメモリ等から実現され得る。音声処理部３４１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力手段３４１０２は、音声認識結果を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力手段３４１０２は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力手段３４１０２は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、音声処理装置の動作について図３５のフローチャートを用いて説明する。なお、図３７のフローチャートにおいて、図２、図１２のフローチャートの処理と同様の処理については、その説明を省略する。

（ステップＳ３５０１）音声認識手段３４１０１は、ステップＳ１２０８でリサンプリング処理され、得られた第二音声データに基づいて、音声認識処理を行う。なお、音声認識手段３４１０１は、教師データとのマッチングを取り、教師データに近い音であると認識することにより、認識結果を得る。

（ステップＳ３５０２）出力手段３４１０２は、ステップＳ３５０１における音声認識結果を出力する。ステップＳ１２０６に戻る。

以上、本実施の形態によれば、精度高く音声認識できる。

なお、本実施の形態における音声処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、第一サンプリング周波数で、受け付けた音声をサンプリングし、第一音声データを取得するサンプリングステップと、第二サンプリング周波数「第一サンプリング周波数／（教師データフォルマント周波数／評価対象者フォルマント周波数）」で、前記音声受付ステップで受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理ステップと、前記第二音声データに基づいて、音声認識処理を行う音声処理ステップを実行させるためのプログラム、である。
（実施の形態８）

本実施の形態において、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる音声処理装置について説明する。本音声処理装置は、主として、音声（歌唱を含む）を評価する発音評定装置である、として説明する。さらに、本実施の形態において、上記の実施の形態で記載した音声処理装置よりもさらに精度高く、評価対象者の話者特性に応じた発音評定が可能な音声処理装置について説明する。具体的には、本実施の形態において、最小自乗誤差基準に基づく、簡潔な声道長正規化法に基づいて、評価対象者の話者特性に左右されにくい音声処理装置について説明する。

また、本実施の形態における音声処理装置は、例えば、語学学習や物真似練習やカラオケ評定などに利用できる。

図３６は、本実施の形態における音声処理装置のブロック図である。

本音声処理装置は、入力受付部１０１、教師データ格納部１０２、音声受付部１０３、第一サンプリング周波数格納部１０５、サンプリング部１０６、声道長正規化パラメータ算出部３６０１、声道長正規化パラメータ格納部３６０２、声道長正規化処理部３６０９、音声処理部１１０を具備する。

声道長正規化パラメータ算出部３６０１は、周波数範囲指定情報格納手段３６０１１、長時間ケプストラム平均ベクトル格納手段３６０１２、第二ケプストラムベクトル系列算出手段３６０１３、ケプストラム変換手段３６０１４、ケプストラム変換パラメータ算出手段３６０１５、最終ケプストラム変換パラメータ取得手段３６０１６、声道長正規化パラメータ算出手段３６０１７を具備する。

声道長正規化パラメータ算出部３６０１は、教師データ格納部１０２の教師データおよび音声受付部１０３が受け付けた音声に基づいて、声道長正規化パラメータを算出する。声道長正規化パラメータとは、評価対象者の話者特性（声道長の違い）を吸収するためのサンプリング周波数変換率である。なお、本実施の形態において、まず、算出されるのは、ケプストラム変換（ケプストラムワーピング）パラメータである。このケプストラム変換パラメータは、声道長の変換を直接表わすものではないため、声道長正規化パラメータ算出部３６０１は、後述の近似変換式を用いて最終的な声道長正規化パラメータ（サンプリング周波数変換率）を算出する。声道長正規化パラメータ算出部３６０１は、通常、ＭＰＵやメモリ等から実現され得る。声道長正規化パラメータ算出部の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

周波数範囲指定情報格納手段３６０１１は、周波数範囲を指定する情報である周波数範囲指定情報（Ｗ）を格納している。周波数範囲指定情報（Ｗ）は、後述する最適なケプストラム変換パラメータ（α）を算出する場合に、１次オールパス関数等の双１次変換による周波数ワーピングが線形の周波数伸縮で近似できる範囲に、周波数範囲を限定するための情報である。かかる周波数範囲は、０周波数からナイキストレートの１／３から１／２程度が好適である。ただし、双１次変換は、スペクトル領域ではなく、ケプストラム領域で行われるため、周波数範囲指定情報（Ｗ）は、例えば、以下に述べる行列の情報であることが好適である。周波数範囲指定情報は、例えば、図示しない周波数範囲指定情報算出手段により、以下のように算出される。サンプリング周波数をＦ_ｓ（Ｈｚ）、指定される周波数範囲の最高周波数をＦ_ｍａｘ（Ｈｚ）とし，Ｎを十分大きな自然数（５１２や１０２４など）、「Ｎ_ｍ＝Ｎ×Ｆ_ｍａｘ／Ｆ_ｓ」とおいて，ケプストラムベクトルに対する周波数範囲指定行列Ｗの（ｉ，ｊ）成分を、周波数範囲指定情報算出手段は、以下の数式５に従って計算する。具体的には、周波数範囲指定情報算出手段は、コンピュータの記録媒体（図示しない）に格納されているサンプリング周波数（Ｆ_ｓ）、最高周波数（Ｆ_ｍａｘ）、予め決められた十分大きな自然数（Ｎ）を読み出す。そして、周波数範囲指定情報算出手段は、自ら保持している演算式の情報「Ｎ_ｍ＝Ｎ×Ｆ_ｍａｘ／Ｆ_ｓ」を読み出し、読み出したＦ_ｓ、Ｆ_ｍａｘ、Ｎを演算式に代入し、Ｎ_ｍを算出する。そして、周波数範囲指定情報算出手段は、格納している以下の数式５の情報を読み出し、ｉ、ｊを０から順に、１ずつインクリメントさせながら、ループ処理（２重ループの処理になる）により、｛Ｗ｝_ｉ，ｊを算出する。そして、周波数範囲指定情報算出手段は、算出した｛Ｗ｝_ｉ，ｊのすべてを、少なくとも一時的に周波数範囲指定情報格納手段３６０１１に格納する。なお、数式５において、「k」は、周波数インデクスであり、「ｋ」の範囲は、「ｋ＝０，１，２，...，Ｎ／２」である。また、「ｎ」は、離散時間インデクスであり、「ｎ」の範囲は、「ｎ＝...−２，−１，０，１，２，...」である。

なお、周波数範囲指定情報のデータ構造は問わない。また、周波数範囲指定情報格納手段３６０１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

長時間ケプストラム平均ベクトル格納手段３６０１２は、長時間ケプストラム平均ベクトル（μ）を格納している。長時間ケプストラム平均ベクトル（μ）は、教師データを構成するデータから、短区間分析により算出された第一のケプストラムベクトル系列の時間平均である。第一のケプストラムベクトル系列（ｘ_ｔ（ｔ＝１，２，・・・，Ｔ_０））は、通常、教師データを構成する単一音素（例えば、／ｕ／）を短区間分析し、取得される。そして、長時間ケプストラム平均ベクトル（μ）は、ベクトル（ｘ_ｔ）から、以下の数式６により算出される。

なお、ケプストラムベクトルは０次係数も含めたＭ＋１次元であり，ベクトル（ｘ_ｔ）およびベクトル（μ）は、それぞれ数式７、数式８で表わされる。

数式７、数式８において、（・・・）^Ｔは行列またはベクトルの転置を表わす。

また、第一のケプストラムベクトル系列（ｘ_ｔ）は、図示しない第一ケプストラムベクトル系列算出手段が、教師データを構成するデータ（単一音素（例えば、／ｕ／））から、短区間分析により算出しても良い。

また、図示しない長時間ケプストラム平均ベクトル取得手段が、第一のケプストラムベクトル系列（ｘ_ｔ）の時間平均を、数式６により算出し、長時間ケプストラム平均ベクト（μ）を取得しても良い。長時間ケプストラム平均ベクトル格納手段３６０１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

第二ケプストラムベクトル系列算出手段３６０１３は、音声受付部１０３が受け付けた音声（通常、単一音素（例えば、／ｕ／）である。）から、短区間分析により第二のケプストラムベクトル系列（Ｃ_ｔ）を算出する。第二ケプストラムベクトル系列算出手段３６０１３は、サンプリング部１０６がサンプリングして得た第一音声データから、第二のケプストラムベクトル系列（Ｃ_ｔ）を算出しても良く、かかる場合も音声受付部１０３が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列（Ｃ_ｔ）を算出した、と言える。なお、音素を短区間分析し、ケプストラムベクトル系列を算出する処理は、公知技術による処理であるので、説明は省略する。第二ケプストラムベクトル系列算出手段３６０１３は、通常、ＭＰＵやメモリ等から実現され得る。第二ケプストラムベクトル系列算出手段３６０１３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。なお、第二ケプストラムベクトル系列算出手段３６０１３が処理する音声であり音声受付部１０３が受け付ける音素（例えば、／ｕ／）は、長時間ケプストラム平均ベクトルの元になる音声と同一の音素（例えば、／ｕ／）である。また、この第二のケプストラムベクトル系列（Ｃ_ｔ）は、やはり０次係数も含めたＭ＋１次元ベクトルとして数式９で表わされる。

また、第二ケプストラムベクトル系列算出手段３６０１３は、後述するケプストラム変換パラメータ算出手段３６０１５の処理のために、算出した第二のケプストラムベクトル系列（Ｃ_ｔ）に対して、以下の数式１０の処理を行い、ベクトル（Ｃ_ｔ ⁻）（ｔ＝１，２，・・・，Ｔ）を取得することは好適である。

ケプストラム変換手段３６０１４は、第二のケプストラムベクトル系列（Ｃ_ｔ）を、ケプストラム変換パラメータ（α）を要素とする行列（Ｆ（α））を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列（Ｏ_ｔ）を算出する。具体的には、まず、ケプストラム変換手段３８０１４は、ケプストラム変換パラメータ（α）の初期値（α^〜）を設定する。（α^〜）はαの最適値の近似値であることが望ましく、通常はα＝０とおくが、例えば、最適値が「α＞０」であると予想できる場合は、小さな正の値のαでも良い。なお、初期値（α^〜）は、ケプストラム変換手段３８０１４が、予め記憶媒体やメモリ等に格納している。次に、ケプストラム変換手段３８０１４は、与えられたケプストラム変換パラメータ（α）をパラメータとして、以下の数式１１により、周波数ワープされた第三のケプストラムベクトル系列（Ｏ_ｔ）を算出する。なお、ケプストラム変換手段３８０１４は、最初に、（Ｏ_ｔ（α^〜））を算出する。

ケプストラム変換手段３６０１４は、通常、ＭＰＵやメモリ等から実現され得る。ケプストラム変換手段段３６０１４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

ケプストラム変換パラメータ算出手段３６０１５は、長時間ケプストラム平均ベクトル（μ）および第三のケプストラムベクトル系列（Ｏ_ｔ）に基づいて、ケプストラム変換パラメータ（α）を算出する。ケプストラム変換パラメータ算出手段３６０１５は、さらに好ましくは、周波数範囲指定情報（Ｗ）で示される周波数範囲における長時間ケプストラム平均ベクトルおよび第三のケプストラムベクトル系列（Ｏ_ｔ）に基づいて、ケプストラム変換パラメータを算出する。

具体的には、まず、ケプストラム変換パラメータ算出手段３６０１５は、以下の数式１２により、ベクトル（ｕ_ｔ（α））を算出する。そして、次に、ケプストラム変換パラメータ算出手段３６０１５は、以下の数式１３により、αの最適値（α^＊）を算出する。なお、αの最適値（α^＊）は、現繰り返しステップにおける最適値である。

ケプストラム変換パラメータ算出手段３６０１５は、通常、ＭＰＵやメモリ等から実現され得る。ケプストラム変換パラメータ算出手段３６０１５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

最終ケプストラム変換パラメータ取得手段３６０１６は、所定のルールに基づいて、ケプストラム変換手段３６０１４における処理、およびケプストラム変換パラメータ算出手段３６０１５における処理を繰り返えさせ、最終的な最適なケプストラム変換パラメータを得る。ここで、所定のルールとは、例えば、予め決められた所定の繰り返し回数だけ、処理を繰り返し行われたことである。また、所定のルールとは、例えば、αの最適値（α^＊）の変化が所定の値より小さくなった（先の（α^＊）と今回の（α^＊）の差が閾値以下など）ことである。また、所定のルールとは、その他のルールでも良い。最終ケプストラム変換パラメータ取得手段３６０１６は、通常、ＭＰＵやメモリ等から実現され得る。最終ケプストラム変換パラメータ取得手段３６０１６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

声道長正規化パラメータ算出手段３６０１７は、最終ケプストラム変換パラメータ取得手段３６０１６が得たケプストラム変換パラメータに基づいて、声道長正規化パラメータ（γ）を算出する。さらに具体的には、声道長正規化パラメータ算出手段３６０１７は、まず、最終ケプストラム変換パラメータ取得手段３６０１６が得たケプストラム変換パラメータから、例えば、以下の数式１４に従って、線形周波数伸縮比（ρ）を算出する。

次に、声道長正規化パラメータ算出手段３６０１７は、当該線形周波数伸縮比（ρ）から、例えば、以下の数式１５に従って、声道長正規化パラメータ（γ）を算出する。

声道長正規化パラメータ算出手段３６０１７は、通常、ＭＰＵやメモリ等から実現され得る。声道長正規化パラメータ算出手段３６０１７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

声道長正規化パラメータ格納部３６０２は、サンプリング周波数の変換率に関する情報である声道長正規化パラメータ（γ）を格納している。声道長正規化パラメータ（γ）は、声道長正規化パラメータ算出部３６０１が取得した声道長正規化パラメータである。声道長正規化パラメータ格納部３６０２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。なお、声道長正規化パラメータ算出部３６０１は、ここでは、算出した声道長正規化パラメータ（γ）を、声道長正規化パラメータ格納部３６０２に蓄積する処理も行う。

声道長正規化処理部３６０９は、声道長正規化パラメータ（γ）と第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、音声受付部１０３が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る。「音声受付部１０３が受け付けた音声に対して」とは、サンプリング部１０６がサンプリングして取得した第一音声データに対して、第二サンプリング周波数でリサンプリング処理を行い、第二音声データを得ることも含むし、サンプリング部１０６が第一音声データを取得することなく、直接的に音声受付部１０３が受け付けた音声に対して、第二サンプリング周波数でサンプリング処理し、第二音声データを得ることも含む。声道長正規化処理部３６０９は、通常、ＭＰＵやメモリ等から実現され得る。声道長正規化処理部３６０９の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、本音声処理装置の動作について説明する。まず、本音声処理装置における、声道長正規化パラメータを算出する処理について、図３７のフローチャートを用いて説明する。なお、本声道長正規化パラメータ算出処理は、必ずしも音声処理装置で行う必要はない。

（ステップＳ３７０１）音声処理装置は、初期化処理を行う。初期化処理とは、例えば、ユーザ（評価対象者）に対して、「／ｕ／」と発声するように促す処理（例えば、ディスプレイに「「う」と発音してください。」と表示する処理）と、周波数範囲指定情報格納手段３６０１１の周波数範囲指定情報、および長時間ケプストラム平均ベクトル格納手段３６０１２の長時間ケプストラム平均ベクトルを読み出す処理である。

（ステップＳ３７０２）音声受付部１０３が、評価対象者からの音声を受け付けたか否かを判断する。音声を受け付ければステップＳ３７０３に行き、音声を受け付けなければステップＳ３７０２に戻る。

（ステップＳ３７０３）サンプリング部１０６は、ステップＳ３７０２で受け付けた音声をサンプリングし、第一音声データを得て、メモリ上に、少なくとも一時格納する。なお、音声をサンプリングする処理は公知技術である。

（ステップＳ３７０４）第二ケプストラムベクトル系列算出手段３６０１３は、ステップＳ３７０３で得た第一音声データを取得し、当該第一音声データから、短区間分析により第二のケプストラムベクトル系列（Ｃ_ｔ）を算出し、第二のケプストラムベクトル系列（Ｃ_ｔ）をメモリ上に、少なくとも一時格納する。

（ステップＳ３７０５）第二ケプストラムベクトル系列算出手段３６０１３は、ステップＳ３７０４で算出した第二のケプストラムベクトル系列（Ｃ_ｔ）を取得し、当該第二のケプストラムベクトル系列（Ｃ_ｔ）から、ベクトル（Ｃ_ｔ ⁻）（ｔ＝１，２，・・・，Ｔ）を取得し、ベクトル（Ｃ_ｔ ⁻）をメモリ上に、少なくとも一時格納する。

（ステップＳ３７０６）ケプストラム変換手段３６０１４は、予め格納しているケプストラム変換パラメータの初期値（α^〜）を読み出し、変数（α）に（α^〜）を設定する。

（ステップＳ３７０７）ケプストラム変換手段３６０１４は、第二のケプストラムベクトル系列（Ｃ_ｔ）を読み出し、当該第二のケプストラムベクトル系列（Ｃ_ｔ）を、ケプストラム変換パラメータ（α）を要素とする行列を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列（Ｏ_ｔ）を算出し、メモリ上に、少なくとも一時格納する。

（ステップＳ３７０８）ケプストラム変換パラメータ算出手段３６０１５は、ステップＳ３７０７で算出した第三のケプストラムベクトル系列（Ｏ_ｔ）、およびステップＳ３７０５で算出したベクトル（Ｃ_ｔ ⁻）を読み出し、当該第三のケプストラムベクトル系列（Ｏ_ｔ）およびベクトル（Ｃ_ｔ ⁻）から、ベクトル（ｕ_ｔ（α））を算出する（数式１２参照）。ベクトル（ｕ_ｔ（α））を算出する場合に、格納している数式１２の情報を読み出して、演算することは言うまでもない。

（ステップＳ３７０９）ケプストラム変換パラメータ算出手段３６０１５は、予め格納している数式１３の情報を読み出し、当該数式１３の数式に、ベクトル（ｕ_ｔ（α））、長時間ケプストラム平均ベクトル（μ）、ベクトル（Ｃ_ｔ ⁻）、周波数範囲指定情報（Ｗ）の情報（Ｗ^Ｔ等も含む）を与え、数式１３を演算し、αの最適値（α^＊）を算出する。このαの最適値（α^＊）は、本ループにおける最適値である。そして、ケプストラム変換パラメータ算出手段３６０１５は、αの最適値（α^＊）を、少なくともメモリに一時格納する。

（ステップＳ３７１０）最終ケプストラム変換パラメータ取得手段３６０１６は、予め決められた所定のルール（ルールの情報は、予め格納されている）に合致するか否かを判断する。ルールに合致すればステップＳ３７１１に行き、ルールに合致しなければステップＳ３７１３に行く。なお、ルールとは、上述したように、例えば、予め決められた所定の繰り返し回数（この回数の情報は、予めメモリ等に格納されている）だけ、本ループ処理（αの最適値（α^＊）を算出し、α^＊をαに代入する処理）が繰り返し行われたことである。

（ステップＳ３７１１）声道長正規化パラメータ算出手段３６０１７は、最終ケプストラム変換パラメータ取得手段３６０１６が得たケプストラム変換パラメータ（最終のα^＊）を取得し、当該パラメータを数式１４の演算式に与え、線形周波数伸縮比（ρ）を算出する。なお、数式１４の演算式の情報は、声道長正規化パラメータ算出手段３６０１７が予め格納している。また、声道長正規化パラメータ算出手段３６０１７は、算出した線形周波数伸縮比（ρ）を、少なくともメモリに一時格納する。

（ステップＳ３７１２）声道長正規化パラメータ算出手段３６０１７は、線形周波数伸縮比（ρ）を読み出し、当該線形周波数伸縮比（ρ）から、声道長正規化パラメータ（γ）を算出し、少なくともメモリに一時格納する。声道長正規化パラメータ算出手段３６０１７は、例えば、予め格納している数式１５の情報を読み出し、線形周波数伸縮比（ρ）を代入し、数式１５の演算式を実行し、声道長正規化パラメータ（γ）を得る。

（ステップＳ３７１３）最終ケプストラム変換パラメータ取得手段３６０１６は、ステップＳ３７０９で算出した（α^＊）をαに代入する。そして、ステップＳ３７０７に戻る。

本音声処理装置の動作（音声の評定処理）について、図３８、図３９のフローチャートを用いて説明する。図３８のフローチャートにおいて、図２において説明した音声処理装置の動作と比較して、ステップＳ２０４の声道長正規化処理の内容のみが異なる。

次に、図３９のフローチャートを用いて声道長正規化処理の内容について説明する。

（ステップＳ３９０１）声道長正規化処理部３６０９は、第一サンプリング周波数を、第一サンプリング周波数格納部１０５から読み出す。

（ステップＳ３９０２）声道長正規化処理部３６０９は、声道長正規化パラメータ（γ）を、声道長正規化パラメータ格納部３６０２から読み出す。

（ステップＳ３９０３）声道長正規化処理部３６０９は、予め決められた第二サンプリング周波数（Ｆ_２）を算出する演算式の情報を読み出し、当該演算式の情報に、声道長正規化パラメータ（γ）と第一サンプリング周波数（Ｆ_１）をパラメータとして代入し、演算式を実行し、第二サンプリング周波数（Ｆ_２）を算出する。予め決められた第二サンプリング周波数（Ｆ_２）を算出する演算式は、例えば、（Ｆ_２＝Ｆ_１×γ）である。

（ステップＳ３９０４）声道長正規化処理部３６０９は、第二サンプリング周波数で、第一音声データに対して、リサンプリング処理を行い、第二音声データを得る。

なお、図３８のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以下、図４０の概念図を用いて、本実施の形態における音声処理装置における声道長正規化パラメータ算出処理の概念について説明する。声道長正規化パラメータの算出は、システム設計用に用いられる話者（基準話者）のある音素（教師データのある音素）の平均ケプストラムベクトルμと、同じ音素のユーザ発話音声の変換されたケプストラムベクトルＯ_ｔとの自乗誤差が最小になるように求められる。ただし、求まるパラメータ（α?）はケプストラム変換（ケプストラムワーピング）パラメータであり、このままでは声道長の変換を直接表わすものではないため、近似変換式（１／ρ）を用いて最終的な声道長正規化パラメータ（サンプリング周波数変換率）γを計算する。なお、声道長正規化パラメータを算出するための数式は、上記の数式５から数式１５により行われる。

以上、本実施の形態によれば、ユーザが入力した発音を、教師データに対して、如何に似ているかを示す類似度（評定値）を算出し、出力できる。また、かかる場合、本実施の形態によれば、個人差、特に声道長の違いに影響を受けない、特に、精度の高い評定ができる。

なお、本実施の形態によれば、音声処理装置が声道長正規化パラメータを算出する処理と、声道長正規化処理を行った。しかし、声道長正規化パラメータを算出する処理と声道長正規化処理を、異なる装置が行う構成でも良い。かかる場合、本音声処理装置は、音声を受け付ける音声受付部と、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記第二音声データを処理する音声処理部を具備する音声処理装置である。また、声道長正規化パラメータを算出する装置は、教師データを構成するデータから、短区間分析により算出された第一のケプストラムベクトル系列の時間平均である長時間ケプストラム平均ベクトルを格納している長時間ケプストラム平均ベクトル格納手段と、受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、前記長時間ケプストラム平均ベクトルおよび前記第三のケプストラムベクトル系列に基づいて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する装置である。

また、本実施の形態によれば、ケプストラム変換パラメータの算出の際に、周波数範囲を限定したが、かかる処理は必須ではない。かかることは、実施の形態９、実施の形態１０においても同様である。

また、本実施の形態によれば、音声処理部は、ＤＡＰに基づき発音評定を行った。しかし、他のアルゴリズムにより、発音評定を行っても良い。他のアルゴリズムとは、例えば、実施の形態２で述べたｔ−ｐ−ＤＡＰや、実施の形態３で述べた無音区間を考慮した類似度評定や、実施の形態４で述べた音韻の挿入を考慮した類似度評定や、実施の形態５で述べた音韻の置換を考慮した類似度評定や、実施の形態６で述べた音韻の欠落を考慮した類似度評定等である。かかることも、実施の形態９、実施の形態１０においても同様である。

また、本実施の形態によれば、音声処理装置における音声処理部は、主として、発音評定を行ったが、音声処理部は、第二音声データに基づいて音声認識処理を行っても良い。かかることも、実施の形態９、実施の形態１０においても同様である。

また、本実施の形態において、音声処理装置が行う下記の処理を、一のＤＳＰ（デジタルシグナルプロセッサ）で行っても良い。つまり、本ＤＳＰは、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部を具備するデジタルシグナルプロセッサ、である。かかることも、実施の形態９、実施の形態１０においても同様である。

さらに、本実施の形態における音声処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を受け付ける音声受付ステップと、格納している声道長正規化パラメータと格納している第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付ステップで受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理ステップと、前記第二音声データを処理する音声処理ステップを実行させるためのプログラム、である。

また、上記プログラムにおいて、比較される対象の音声に関するデータであり、1以上の音韻毎のデータである教師データを１以上格納しており、前記教師データおよび前記音声受付ステップで受け付けた音声に基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出ステップとをさらにコンピュータに実行させ、前記格納している声道長正規化パラメータは、前記声道長正規化パラメータ算出ステップで算出した声道長正規化パラメータであることは好適である。
（実施の形態９）

本実施の形態において、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる音声処理装置について説明する。本音声処理装置は、主として、音声（歌唱を含む）を評価する発音評定装置である、として説明する。さらに、本実施の形態において、上記の実施の形態で記載した音声処理装置よりもさらに精度高く、評価対象者の話者特性に応じた発音評定が可能な音声処理装置について説明する。具体的には、本実施の形態において、出現確率最大化基準に基づく、簡潔な声道長正規化法に基づいて、評価対象者の話者特性に左右されにくい音声処理装置について説明する。なお、本実施の形態における音声処理装置は、実施の形態８の音声処理装置と比較して、声道長正規化パラメータの算出アルゴリズムが異なる。

図４１は、本実施の形態における音声処理装置のブロック図である。

本音声処理装置は、図３６における音声処理装置と比較して、声道長正規化パラメータ算出部４１０１が異なる。

声道長正規化パラメータ算出部４１０１は、周波数範囲指定情報格納手段４１０１１、学習音響データ格納手段４１０１２、第二ケプストラムベクトル系列算出手段３６０１３、ケプストラム変換手段３６０１４、占有度数算出手段４１０１３、ケプストラム変換パラメータ算出手段４１０１５、最終ケプストラム変換パラメータ取得手段３６０１６、声道長正規化パラメータ算出手段３６０１７を具備する。なお、ここでの最終ケプストラム変換パラメータ取得手段３６０１６は、所定のルールに基づいて、ケプストラム変換手段３６０１４における処理、ケプストラム変換パラメータ算出手段４１０１５における処理だけではなく、占有度数算出手段４１０１３における処理をも繰り返えさせ、最終的な最適なケプストラム変換パラメータを得る。

周波数範囲指定情報格納手段４１０１１は、周波数範囲を指定する情報である周波数範囲指定情報（Ｗ）を格納している。周波数範囲指定情報（Ｗ）は、後述する最適なケプストラム変換パラメータ（α）を算出する場合に、１次オールパス関数等の双１次変換による周波数ワーピングが線形の周波数伸縮で近似できる範囲に、周波数範囲を限定するための情報である。かかる周波数範囲は、０周波数からナイキストレートの１／３から１／２程度が好適である。ただし、双１次変換は、スペクトル領域ではなく、ケプストラム領域で行われるため、周波数範囲指定情報（Ｗ）は、例えば、以下に述べる行列の情報であることが好適である。周波数範囲指定情報（Ｗ）は、例えば、図示しない周波数範囲指定情報算出手段により、以下のように算出される。サンプリング周波数をＦ_ｓ（Ｈｚ）、指定される周波数範囲の最高周波数をＦ_ｍａｘ（Ｈｚ）とし，「ω_ｍａｘ＝２πＦ_ｍａｘ／Ｆ_ｓ」と置いて、ケプストラムベクトルに対する周波数範囲指定行列Ｗの（ｉ，ｊ）成分を、周波数範囲指定情報算出手段は、以下の数式１６に従って計算する。具体的には、周波数範囲指定情報算出手段は、コンピュータの記録媒体（図示しない）に格納されているサンプリング周波数（Ｆ_ｓ）、最高周波数（Ｆ_ｍａｘ）を読み出す。そして、周波数範囲指定情報算出手段は、自ら保持している演算式の情報「ω_ｍａｘ＝２πＦ_ｍａｘ／Ｆ_ｓ」を読み出し、ω_ｍａｘを算出する。そして、周波数範囲指定情報算出手段は、格納している以下の数式１６の情報を読み出し、ｉ、ｊを０から順に、１ずつインクリメントさせながら、ループ処理（２重ループの処理になる）により、｛Ｗ｝_ｉ，ｊを算出する。そして、周波数範囲指定情報算出手段は、算出した｛Ｗ｝_ｉ，ｊのすべてを、少なくとも一時的に周波数範囲指定情報格納手段４１０１１に格納する。

なお、周波数範囲指定情報のデータ構造は問わない。また、周波数範囲指定情報格納手段４１０１１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

学習音響データ格納手段４１０１２は、学習音響データを格納している。学習音響データとは、以下のように生成される。つまり、図示しない学習音響データ生成手段が、教師データを構成するデータ（例えば、教師データ格納部１０２のデータ）から、話者の音声のケプストラムベクトル系列を短区間分析で求め、それを用いて２以上の基準話者音素ＨＭＭを取得し、メモリ上に、少なくとも一時格納する。そして、学習音響データ生成手段は、２以上の基準話者音素ＨＭＭを声道長正規化用の指定された発話内容（例えば／あいうえお／）に従って連結し、連結ＨＭＭを生成する。なお、ケプストラムベクトルは０次係数も含めたＭ＋１次元である。また、連結ＨＭＭのｊ番目状態におけるｍ番目ガウス分布成分の平均ベクトルおよび共分散行列を、それぞれμ_ｊ，ｍ、Σ_ｊ，ｍとすると、μ_ｊ，ｍは、以下の数式１７で表される。

なお、（・・・）^Ｔは、行列またはベクトルの転置を示す。

そして、図示しない学習音響データ生成手段は、生成した学習音響データを、学習音響データ格納手段４１０１２に蓄積する。

なお、学習音響データは、連結ＨＭＭが好適であるが、単一ガウス分布モデルや、確率モデル（ＧＭＭ：ガウシャンミクスチャモデル）や、統計モデルなど、他のモデルに基づくデータでも良い。また、学習音響データ格納手段４１０１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

占有度数算出手段４１０１３は、占有度数（γ_ｔ（ｊ，ｍ））を算出し、メモリ上に書き込み、少なくとも一時的に保持する。占有度数（γ_ｔ（ｊ，ｍ））とは、ｔ番目のフレームがｊ番目状態のｍ番目ガウス成分から生成された事後確率である。ｔ番目のフレームとは、例えば、音声受付部１０３が、声道長正規化用の指定された発話内容（例えば／あいうえお／）の発声をユーザから受け付け、当該受け付けた音声から得られたｔ番目のフレームである。占有度数算出手段４１０１３は、ケプストラム変換手段３６０１４が算出した第三のケプストラムベクトル系列（Ｏ_ｔ）と学習音響データ格納手段４１０１２の学習音響データを用いて、占有度数（γ_ｔ（ｊ，ｍ））を算出する。占有度数算出手段４１０１３は、さらに好ましくは、第三のケプストラムベクトル系列（Ｏ_ｔ）と学習音響データと周波数範囲指定情報格納手段４１０１１の周波数範囲指定情報（Ｗ）を用いて、占有度数（γ_ｔ（ｊ，ｍ））を算出する。占有度数算出手段４１０１３は、占有度数（γ_ｔ（ｊ，ｍ））を、フォワード・バックワードアルゴリズムにより算出する。フォワード・バックワードアルゴリズムは、公知技術であるので、詳細な説明を省略する。

さらに具体的には、占有度数算出手段４１０１３は、以下の処理により、占有度数（γ_ｔ（ｊ，ｍ））を算出する。ここで、教師データの音声から学習される学習音素ＨＭＭを，声道長正規化パラメータ推定のために指定した発話内容（例えば/あいうえお/）にしたがって連結した連結ＨＭＭをΛとする。そして、ケプストラム変換パラメータ推定処理に使用される占有度数（γ_ｔ（ｊ，ｍ））は、第三ケプストラム系列を周波数範囲指定情報Ｗにより周波数範囲指定されたケプストラムベクトル系列「Ｗｏ_１（α），Ｗｏ_２（α），...，Ｗｏ_Ｔ（α）」およびΛが与えられたときのｔ番目フレームがΛのｊ番目状態のｍ番目ガウス成分から生起した事後確率として定義されるので、占有度数（γ_ｔ（ｊ，ｍ））は、数式１８で定義される。

また、数式１８における占有度数（γ_ｔ（ｊ，ｍ））は、前向き尤度Ａ_ｔ（ｊ）および後向き尤度Ｂ_ｔ（ｊ）を使って数式１９のように計算される。つまり、占有度数算出手段４１０１３は、数式１９で示される式の情報を保持しており、与えられるケプストラムベクトル系列、およびΛを用いて、占有度数（γ_ｔ（ｊ，ｍ））を算出する。

なお、占有度数算出手段４１０１３は、数式１９のＡｔ（ｊ）およびＢｔ（ｊ）を、ケプストラムベクトル系列「Ｗｏ_１（α）...Ｗｏ_Ｔ（α）」およびΛから公知のｆｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムを用いて算出する。

また、ｖ_ｊ，ｍは、ｊ番目状態のｍ番目ガウス成分に対する重み係数である。さらに、占有度数算出手段４１０１３は、出力分布ｂ_ｊ，ｍ（Ｗｏ_ｔ（α））を、数式２０を用いて算出する。占有度数算出手段４１０１３は、数式２０の情報を予め保持しており、当該情報を読み出して、演算を実行し、出力分布ｂ_ｊ，ｍ（Ｗｏ_ｔ（α））を得る。

なお、数式２０において、Ｍはケプストラム次数、|Ａ|は行列Ａのdeterminantを表わす。

占有度数算出手段４１０１３は、通常、ＭＰＵやメモリ等から実現され得る。占有度数算出手段４１０１３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

ケプストラム変換パラメータ算出手段４１０１５は、学習音響データ格納手段４１０１２の学習音響データを読み出し、およびメモリ上に一時格納されている第三のケプストラムベクトル系列（Ｏ_ｔ）を読み出し、読み出した学習音響データおよび第三のケプストラムベクトル系列（Ｏ_ｔ）に基づいて、ケプストラム変換パラメータ（α）を算出する。ケプストラム変換パラメータ算出手段４１０１５は、さらに好ましくは、周波数範囲指定情報（Ｗ）で示される周波数範囲における学習音響データ、第三のケプストラムベクトル系列（Ｏ_ｔ）および占有度数（γ_ｔ（ｊ，ｍ））に基づいて、ケプストラム変換パラメータを算出する。なお、第三のケプストラムベクトル系列（Ｏ_ｔ）は、ケプストラム変換手段３６０１４が算出したデータである。

具体的には、まず、ケプストラム変換パラメータ算出手段４１０１５は、上述の数式１２により、ベクトル（ｕ_ｔ（α））を算出する。なお、ケプストラム変換パラメータ算出手段４１０１５は、上述の数式１２を示す情報を格納しており、かかる数式１２の情報を読み出し、当該数式に、第三のケプストラムベクトル系列（Ｏ_ｔ）、ケプストラム変換パラメータ（α）、ベクトル（Ｃ_ｔ ⁻）の情報を与え、当該数式を演算する。そして、次に、ケプストラム変換パラメータ算出手段４１０１５は、以下の数式２１により、αの最適値（α^＊）を算出する。なお、αの最適値（α^＊）は、繰り返しステップ（ループ処理）における現在のループ内の処理での最適値である。また、ケプストラム変換パラメータ算出手段４１０１５は、以下の数式２１を示す情報を、予め格納している。

ケプストラム変換パラメータ算出手段４１０１５は、通常、ＭＰＵやメモリ等から実現され得る。ケプストラム変換パラメータ算出手段４１０１５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、本音声処理装置の動作について説明する。まず、本音声処理装置における、声道長正規化パラメータを算出する処理について、図４２のフローチャートを用いて説明する。図４２のフローチャートにおいて、図３７のフローチャートと比較して差異のあるステップのみ説明する。なお、本声道長正規化パラメータ算出処理は、必ずしも音声処理装置で行う必要はない。また、図４２における初期化処理は、例えば、ユーザ（評価対象者）に対して、「／ａｉｕｅｏ／」と発声するように促す処理と、周波数範囲指定情報格納手段４１０１１の周波数範囲指定情報、および学習音響データ格納手段４１０１２の学習音響データを読み出す処理である。

（ステップＳ４２０１）占有度数算出手段４１０１３は、ステップＳ３７０７で得られた第三のケプストラムベクトル系列（Ｏ_ｔ）と学習音響データ格納手段４１０１２の学習音響データと周波数範囲指定情報（Ｗ）を用いて、占有度数（γ_ｔ（ｊ，ｍ））を算出し、メモリに一時記憶する。

（ステップＳ４２０２）ケプストラム変換パラメータ算出手段４１０１５は、周波数範囲指定情報（Ｗ）で示される周波数範囲における学習音響データ、ベクトル（ｕ_ｔ（α））および占有度数（γ_ｔ（ｊ，ｍ））に基づいて、本ループにおける最適なケプストラム変換パラメータ（α^＊）を算出する。ケプストラム変換パラメータ算出手段４１０１５は、例えば、格納している数式２１の情報を読み出し、また、メモリ上の学習音響データ、ベクトル（ｕ_ｔ（α））および占有度数（γ_ｔ（ｊ，ｍ））を読み出し、数式２１に代入し、ケプストラム変換パラメータ（α^＊）を算出する。

次に、本音声処理装置の動作（音声の評定処理）について説明する。本音声処理装置の動作は、図３８、図３９のフローチャートにおける動作と同様である。

以下、図４３の概念図を用いて、本実施の形態における音声処理装置における声道長正規化パラメータ算出処理の概念について説明する。まず、システム設計用音声データベースから、指定された発話内容（例えば／あいうえお／）に従って音素ＨＭＭ（教師データが有する音素ＨＭＭ）を連結し連結ＨＭＭ（図４３の基準話者ＨＭＭ）を構成する。そして、連結ＨＭＭと、同じ音素列のユーザ発話音声の変換されたケプストラムベクトルＯ_ｔの、Λ（Λは、ユーザ発話音声にしたがって連結された連結ＨＭＭ）に対する出現確率が最大になるように（図４３の最適化に相当）パラメータを算出する。ただし、求まるパラメータ（α?）はケプストラム変換（ケプストラムワーピング）パラメータであり、このままでは声道長の変換を直接表わすものではないため、近似変換式（１／ρ）を用いて最終的な声道長正規化パラメータ（サンプリング周波数変換率）γを計算する。なお、声道長正規化パラメータを算出するための数式は、上記の数式１６から数式２１、数式９から数式１２、数式１４、数式１５により行われる。

なお、本実施の形態によれば、音声処理装置が声道長正規化パラメータを算出する処理と、声道長正規化処理を行った。しかし、声道長正規化パラメータを算出する処理と声道長正規化処理を、異なる装置が行う構成でも良い。かかる場合、本音声処理装置は、音声を受け付ける音声受付部と、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記第二音声データを処理する音声処理部を具備する音声処理装置である。また、声道長正規化パラメータを算出する装置は、教師データを構成するデータから、話者の音声のケプストラムベクトル系列を短区間分析で求め、それを用いて２以上の基準話者音素ＨＭＭを取得し、当該２以上の基準話者音素ＨＭＭを声道長正規化用の指定された発話内容（例えば／あいうえお／）に従って連結して得られた連結ＨＭＭである学習音響データを格納している学習音響データ格納手段と、受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、指定された発話内容に従って受け付けた音声の事後確率である占有度数を算出する占有度算出手段と、前記学習音響データおよび前記第三のケプストラムベクトル系列および前記占有度数に基づいて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記占有度算出手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する装置である。

また、上記プログラムにおいて、比較される対象の音声に関するデータであり、1以上の音韻毎のデータである教師データを１以上格納しており、前記教師データおよび前記音声受付ステップで受け付けた音声に基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出ステップとをさらにコンピュータに実行させ、前記格納している声道長正規化パラメータは、前記声道長正規化パラメータ算出ステップで算出した声道長正規化パラメータであることは好適である。

また、上記プログラムにおいて、音素ＨＭＭを指定された発話内容に従って連結した連結ＨＭＭである学習音響データを格納しており、前記声道長正規化パラメータ算出ステップは、前記音声受付ステップで受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出ステップと、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換ステップと、指定された発話内容に従って受け付けた音声の事後確率である占有度数を算出する占有度算出ステップと、前記学習音響データおよび前記第三のケプストラムベクトル系列および前記占有度数に基づいて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出ステップと、所定のルールに基づいて、前記ケプストラム変換ステップにおける処理、および前記占有度算出ステップにおける処理、および前記ケプストラム変換パラメータ算出ステップにおける処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得ステップと、前記最終ケプストラム変換パラメータ取得ステップで得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出ステップを具備することは好適である。

また、上記プログラムにおいて、前記声道長正規化パラメータ算出ステップにおいて、前記最終ケプストラム変換パラメータ取得ステップで得たケプストラム変換パラメータから線形周波数伸縮比を算出し、当該線形周波数伸縮比から前記声道長正規化パラメータを算出することは好適である。

また、上記プログラムにおいて、周波数範囲を指定する情報である周波数範囲指定情報を格納しており、前記ケプストラム変換パラメータ算出ステップにおいて、前記周波数範囲指定情報で示される周波数範囲における学習音響データ、第三のケプストラムベクトル系列および占有度数に基づいて、ケプストラム変換パラメータを算出することは好適である。
（実施の形態１０）

本実施の形態において、比較対象の音声と入力音声の類似度の評定を精度高く、かつ高速にできる音声処理装置について説明する。本音声処理装置は、主として、音声（歌唱を含む）を評価する発音評定装置である、として説明する。さらに、本実施の形態において、上記の実施の形態で記載した音声処理装置よりもさらに精度高く、評価対象者の話者特性に応じた発音評定が可能な音声処理装置について説明する。具体的には、本実施の形態において、複数の音素を用いた最小自乗誤差基準に基づく、簡潔な声道長正規化法に基づいて、評価対象者の話者特性に左右されにくい音声処理装置について説明する。

さらに具体的には、本実施の形態において、基準話者（システム設計用の話者）の音声から、音素毎に基準話者平均ケプストラムベクトルを計算しておく。そして、ユーザ音声の周波数ワープされたケプストラムベクトル系列と上記の基準話者平均ケプストラムベクトルの系列との自乗誤差が最小になるように、最適なワーピングパラメータを求める。このとき、ユーザ音声は指定された発話内容にしたがって発声されたものであり、基準話者平均ケプストラムの系列は同じ発話内容にしたがって音素毎の基準話者平均ケプストラムを並べたものであることが好適である。ただし、ここで算出されるパラメータはケプストラムワーピングパラメータであり、声道長変換を直接表わすものではないため、予め決まられた近似変換式を用いて最終的な声道長正規化パラメータ（サンプリング周波数変換率）を算出する。

なお、本実施の形態における音声処理装置は、実施の形態８、９の音声処理装置と比較して、声道長正規化パラメータの算出アルゴリズムが異なる。

図４４は、本実施の形態における音声処理装置のブロック図である。

本音声処理装置は、図４１における音声処理装置と比較して、声道長正規化パラメータ算出部４４０１が異なる。

声道長正規化パラメータ算出部４４０１は、周波数範囲指定情報格納手段４１０１１、学習音響データ格納手段４４０１２、第二ケプストラムベクトル系列算出手段３６０１３、ケプストラム変換手段３６０１４、最適音素系列取得手段４４０１３、ケプストラム変換パラメータ算出手段４４０１５、最終ケプストラム変換パラメータ取得手段３６０１６、声道長正規化パラメータ算出手段３６０１７を具備する。なお、ここでの最終ケプストラム変換パラメータ取得手段３６０１６は、所定のルールに基づいて、ケプストラム変換手段３６０１４における処理、ケプストラム変換パラメータ算出手段４４０１５における処理だけではなく、最適音素系列取得手段４４０１３における処理をも繰り返えさせ、最終的な最適なケプストラム変換パラメータを得る。

学習音響データ格納手段４４０１２は、学習音響データを格納している。ここでの学習音響データは、音素平均ケプストラムベクトルを指定された発話内容に従って並べた音素平均ケプストラムベクトル列である。学習音響データは、例えば、以下のように生成される。つまり、図示しない学習音響データ生成手段が、教師データを構成するデータ（例えば、教師データ格納部１０２のデータ）から、各音素ｌ（ｌ＝１，２，...．，Ｌ）に対して、基準話者の音声ケプストラムベクトル系列を短区間分析で求め，その時間平均（μ_ｌ）を算出する。なお、ケプストラムベクトルは０次係数も含めたＭ＋１次元である。そして、時間平均（μ_ｌ）は、以下の数式２２で表される。

そして、図示しない学習音響データ生成手段は、生成した学習音響データを、学習音響データ格納手段４４０１２に蓄積する。

なお、学習音響データ格納手段４４０１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

最適音素系列取得手段４４０１３は、ユーザが発声した発話音声を構成する各フレームｔに対応する音素番号の情報である音素系列（ｓ^＊ _ｔ（ｔ＝１，２，...．，Ｔ））を取得する。最適音素系列取得手段４４０１３が音素系列（ｓ^＊ _ｔ）を取得するアルゴリズムは問わない。最適音素系列取得手段４４０１３は、例えば、ユーザ（キーボードなど）からの音素系列（ｓ^＊ _ｔ）の入力を受け付けても良い。また、最適音素系列取得手段４４０１３は、ユーザケプストラムベクトル系列（Ｃ_ｔ）からオートセグメンテーションにより、音素系列（ｓ^＊ _ｔ）を算出しても良い。オートセグメンテーションは、公知技術であるので説明を省略する。また、最適音素系列取得手段４４０１３は、動的計画法（ＤＰマッチング）により、以下の数式２３のＪを最小にする音素系列Ｓ_ｔ（ｔ＝１，２，...．，Ｔ）を取得し、そのＳ_ｔを音素系列（ｓ^＊ _ｔ）として取得しても良い。また、音素系列は、音素番号の列の情報でなくても良い。音素系列は、音素を識別する情報の列であれば良い。

ケプストラム変換パラメータ算出手段４４０１５は、学習音響データ格納手段４４０１２の学習音響データを読み出し、およびメモリ上に一時格納されている第三のケプストラムベクトル系列（Ｏ_ｔ）を読み出し、および最適音素系列取得手段４４０１３が取得した音素系列（ｓ^＊ _ｔ）を読み出し、読み出した学習音響データおよび第三のケプストラムベクトル系列（Ｏ_ｔ）および音素系列（ｓ^＊ _ｔ）を用いて、ケプストラム変換パラメータ（α）を算出する。ケプストラム変換パラメータ算出手段４４０１５は、さらに好ましくは、周波数範囲指定情報（Ｗ）および読み出した学習音響データおよび第三のケプストラムベクトル系列（Ｏ_ｔ）および音素系列（ｓ^＊ _ｔ）に基づいて、ケプストラム変換パラメータを算出する。

具体的には、まず、ケプストラム変換パラメータ算出手段３６０１５は、以下の数式２４により、ベクトル（ｕ_ｔ（α））を算出する。そして、次に、ケプストラム変換パラメータ算出手段４４０１５は、以下の数式２５により、αの最適値（α^＊）を算出する。なお、αの最適値（α^＊）は、現繰り返しステップにおける最適値である。

なお、ケプストラム変換パラメータ算出手段４４０１５は、通常、上記の数式２４、２５の情報を格納しており、当該数式の情報を読み出し、演算を行う。ケプストラム変換パラメータ算出手段４４０１５は、通常、ＭＰＵやメモリ等から実現され得る。ケプストラム変換パラメータ算出手段４４０１５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

なお、声道長正規化パラメータ算出手段３６０１７は、実施の形態９において、最終ケプストラム変換パラメータ取得手段３６０１６が得たケプストラム変換パラメータから、数式１４に従って、線形周波数伸縮比（ρ）を算出した。しかし、声道長正規化パラメータ算出手段３６０１７は、最終ケプストラム変換パラメータ取得手段３６０１６が得たケプストラム変換パラメータから、以下の数式２６に従って、線形周波数伸縮比（ρ）を算出しても良い。

次に、本音声処理装置の動作について説明する。まず、本音声処理装置における、声道長正規化パラメータを算出する処理について、図４５のフローチャートを用いて説明する。図４５のフローチャートにおいて、図３７、図４２のフローチャートと比較して差異のあるステップのみ説明する。なお、本声道長正規化パラメータ算出処理は、必ずしも音声処理装置で行う必要はない。また、図４５における初期化処理は、例えば、ユーザ（評価対象者）に対して、「／あいうえお／」と発声するように促す処理と、周波数範囲指定情報格納手段４１０１１の周波数範囲指定情報、および学習音響データ格納手段４４０１２の学習音響データを読み出す処理である。

（ステップＳ４５０１）最適音素系列取得手段４４０１３は、ユーザが発声した発話音声を構成する各フレームｔに対応する音素系列（ｓ^＊ _ｔ（ｔ＝１，２，...．，Ｔ））を取得する。

（ステップＳ４５０２）ケプストラム変換パラメータ算出手段４４０１５は、周波数範囲指定情報（Ｗ）で示される周波数範囲における学習音響データ、ベクトル（ｕ_ｔ（α））およびステップＳ４５０１で取得した音素系列（ｓ^＊ _ｔ）に基づいて、本ループにおける最適なケプストラム変換パラメータ（α^＊）を算出する。ケプストラム変換パラメータ算出手段４４０１５は、例えば、格納している数式２５の情報を読み出し、また、メモリ上の学習音響データ、ベクトル（ｕ_ｔ（α））および音素系列（ｓ^＊ _ｔ）を読み出し、数式２５に代入し、ケプストラム変換パラメータ（α^＊）を算出する。

以下、図４６の概念図を用いて、本実施の形態における音声処理装置における声道長正規化パラメータ算出処理の概念について説明する。まず、基準話者音声データベースから算出された音素毎の平均ケプストラムベクトルを、指定された発話内容（例えば／あいうえお／）の音素列に従って並べたベクトル列と、同じ音素列のユーザ発話音声の変換されたケプストラムベクトルとの自乗誤差が最小になるようにパラメータ（α^＊）が求められる。ただし、求まるパラメータ（α^＊）はケプストラム変換（ケプストラムワーピング）パラメータであり、このままでは声道長の変換を直接表わすものではないため、近似変換式（１／ρ）を用いて最終的な声道長正規化パラメータ（サンプリング周波数変換率）γを計算する。なお、声道長正規化パラメータを算出するための数式は、上記の数式２２から数式２６、数式９から数式１１、数式１４から数式１６等により行われる。

なお、本実施の形態によれば、音声処理装置が声道長正規化パラメータを算出する処理と、声道長正規化処理を行った。しかし、声道長正規化パラメータを算出する処理と声道長正規化処理を、異なる装置が行う構成でも良い。かかる場合、本音声処理装置は、音声を受け付ける音声受付部と、第一サンプリング周波数を格納している第一サンプリング周波数格納部と、サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、前記第二音声データを処理する音声処理部を具備する音声処理装置である。また、声道長正規化パラメータを算出する装置は、教師データを構成するデータから、話者の音声のケプストラムベクトル系列を短区間分析で求め、それを用いて２以上の基準話者音素平均ケプストラムベクトルを取得し、当該２以上の基準話者音素平均ケプストラムベクトルを声道長正規化用の指定された発話内容（例えば／あいうえお／）に従って並べて得られた平均ケプストラムベクトル列である学習音響データを格納している学習音響データ格納手段と、受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて線形変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、ユーザが発声した発話音声を構成する各フレームｔに対応する音素を識別する情報の列である音素系列を取得する最適音素系列取得手段と、前記学習音響データおよび前記第三のケプストラムベクトル系列および前記音素系列に基づいて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記最適音素系列取得手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する装置である。

また、上記プログラムにおける声道長正規化パラメータ算出ステップは、前記音声受付ステップで受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出ステップと、前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換ステップと、ユーザが発声した発話音声を構成する各フレームｔに対応する音素を識別する情報の列である音素系列を取得する最適音素系列取得ステップと、格納している学習音響データおよび前記第三のケプストラムベクトル系列および前記音素系列を用いて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出ステップと、所定のルールに基づいて、前記ケプストラム変換ステップにおける処理、および前記最適音素系列取得ステップにおける処理、および前記ケプストラム変換パラメータ算出ステップにおける処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、
前記最終ケプストラム変換パラメータ取得ステップが得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出サブステップを具備することは好適である。

また、上記プログラムの声道長正規化パラメータ算出サブステップにおいて、前記最終ケプストラム変換パラメータ取得ステップで得たケプストラム変換パラメータから線形周波数伸縮比を算出し、当該線形周波数伸縮比から前記声道長正規化パラメータを算出することは好適である。

また、上記プログラムにおいて、周波数範囲を指定する情報である周波数範囲指定情報を格納しており、前記ケプストラム変換パラメータ算出ステップにおいて、前記周波数範囲指定情報で示される周波数範囲における学習音響データ、第三のケプストラムベクトル系列および音素系列に基づいて、ケプストラム変換パラメータを算出することは好適である。

また、上記の実施の形態において検出した特殊音声は、無音、挿入、置換、欠落であった。音声処理装置は、かかるすべての特殊音声について検知しても良いことはいうまでもない。また、音声処理装置は、主として、実施の形態１、実施の形態２において述べた評定値の算出アルゴリズムを利用して、特殊音声の検出を行ったが、他の評定値の算出アルゴリズムを利用しても良い。

また、特殊音声は、無音、挿入、置換、欠落に限られない。例えば、特殊音声は、ｇａｒｂａｇｅ（雑音などの雑多な音素等）であっても良い。受け付けた音声にｇａｒｂａｇｅが混入している場合、その区間は類似度の計算対象から除外するのがしばしば望ましい。例えば、発音評定においては、学習者の発声には通常、息継ぎや無声区間などが数多く表れ、それらに対応する発声区間を評定対象から取り除くことが好適である。なお、無音は、一般に、ｇａｒｂａｇｅの一種である、と考える。

そこで，どの音素にも属さない雑多な音素（ｇａｒｂａｇｅ音素）を設定し、ｇａｒｂａｇｅのＨＭＭをあらかじめ格納しておく。スコア低下区間において、ｇａｒｂａｇｅのＨＭＭに対する評定値（γ_ｔ（ｊ））が所定の値より大きい場合，その区間はｇａｒｂａｇｅ区間と判定することは好適である。特に、発音評定において，ｇａｒｂａｇｅ区間が２つの単語にまたがっている場合、息継ぎなどが起こったものとして、評定値の計算対象から除外することは極めて好適である。

また、図４７は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音声処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図４７は、このコンピュータシステム３４０の概観図であり、図４８は、コンピュータシステム３４０のブロック図である。

図４７において、コンピュータシステム３４０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４と、マイク３４５とを含む。

図４８において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３４１３と、ＣＰＵ３４１３、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３４１５と、ＣＰＵ３４１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の音声処理装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の音声処理装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、上記のプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる音声処理装置は、評価対象者の話者特性に応じた精度の高い音声処理ができるという効果を有し、発音評定装置やカラオケ評定装置や音声認識装置等として有用である。

実施の形態１における音声処理装置のブロック図同音声処理装置の動作について説明するフローチャート同声道長正規化処理について説明するフローチャート同ＨＭＭの仕様の例を示す図同Ｆ１、Ｆ２の計測結果を示す図同音声分析条件を示す図同算出した評定値をグラフで表した例を示す図同算出した評定値をグラフで表した例を示す図同出力例を示す図同出力例を示す図実施の形態２における音声処理装置のブロック図同音声処理装置の動作について説明するフローチャート同第二サンプリング周波数算出処理について説明するフローチャート同評定処理について説明するフローチャート同評定結果（ｔ−ｐ−ＤＡＰスコア）を示す図同出力例を示す図実施の形態３における音声処理装置のブロック図同音声処理装置の動作について説明するフローチャート同評定処理について説明するフローチャート同無音データの検知について説明する図実施の形態４における音声処理装置のブロック図同音声処理装置の動作について説明するフローチャート同評定処理について説明するフローチャート同音素の挿入の検知について説明する図同出力例を示す図実施の形態５における音声処理装置のブロック図同音声処理装置の動作について説明するフローチャート同評定処理について説明するフローチャート同音素の置換の検知について説明する図実施の形態６における音声処理装置のブロック図同音声処理装置の動作について説明するフローチャート同評定処理について説明するフローチャート同音素の欠落の検知について説明する図実施の形態７における音声処理装置のブロック図同音声処理装置の動作について説明するフローチャート実施の形態８における音声処理装置のブロック図同声道長正規化パラメータ算出処理について説明するフローチャート同音声処理装置の動作について説明するフローチャート同声道長正規化処理について説明するフローチャート同声道長正規化パラメータ算出処理の概念について説明する図実施の形態９における音声処理装置のブロック図同声道長正規化パラメータ算出処理について説明するフローチャート同声道長正規化パラメータ算出処理の概念について説明する図実施の形態１０における音声処理装置のブロック図同声道長正規化パラメータ算出処理について説明するフローチャート同声道長正規化パラメータ算出処理の概念について説明する図音声処理装置を構成するコンピュータシステムの概観図音声処理装置を構成するコンピュータのブロック図

符号の説明

１０１入力受付部
１０２教師データ格納部
１０３音声受付部
１０４教師データフォルマント周波数格納部
１０５第一サンプリング周波数格納部
１０６サンプリング部
１０７評価対象者フォルマント周波数取得部
１０８評価対象者フォルマント周波数格納部
１０９、３６０９声道長正規化処理部
１１０、１１１０、１７１０、２１１０、２６１０、３０１０、３４１０音声処理部
１１０１、３４１０１フレーム区分手段
１１０２、３４１０２フレーム音声データ取得手段
１１０３、１１１０３、１７１０３、２１１０３、２６１０３、３０１０３評定手段
１１０４、２１１０４、３４１０２出力手段
１１０９発声催促部
３６０１、４１０１、４４０１声道長正規化パラメータ算出部
３６０２声道長正規化パラメータ格納部
１１０３１最適状態決定手段
１１０３２最適状態確率値取得手段
１１０３３、２１０２３、１１１０３３、１７１０３３評定値算出手段
１７１０１、２１１０１、２６１０１、３０１０１特殊音声検知手段
３４１０１音声認識手段
１１１０３２発音区間フレーム音韻確率値取得手段
１７１０１１無音データ格納手段
１７１０１２無音区間検出手段
３６０１１、４１０１１周波数範囲指定情報格納手段
３６０１２長時間ケプストラム平均ベクトル格納手段
３６０１３第二ケプストラムベクトル系列算出手段
３６０１４ケプストラム変換手段
３６０１５、４１０１５、４４０１５ケプストラム変換パラメータ算出手段
３６０１６最終ケプストラム変換パラメータ取得手段
３６０１７声道長正規化パラメータ算出手段
４１０１２、４４０１２学習音響データ格納手段
４１０１３占有度数算出手段
４４０１３最適音素系列取得手段

Claims

音声を受け付ける音声受付部と、
第一サンプリング周波数を格納している第一サンプリング周波数格納部と、
サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、
前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部と、
前記第二音声データを処理する音声処理部を具備する音声処理装置。
比較される対象の音声に関するデータであり、１以上の音韻毎のデータである教師データを１以上格納している教師データ格納部と、
前記教師データのフォルマント周波数である教師データフォルマント周波数を格納している教師データフォルマント周波数格納部と、
前記音声受付部が受け付けた音声の話者である評価対象者のフォルマント周波数である評価対象者フォルマント周波数を格納している評価対象者フォルマント周波数格納部とをさらに具備し、
前記声道長正規化パラメータは、「評価対象者フォルマント周波数／教師データフォルマント周波数」により算出される値であり、
前記声道長正規化処理部は、
第二サンプリング周波数「前記第一サンプリング周波数×声道長正規化パラメータ」で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る請求項１記載の音声処理装置。
前記第一サンプリング周波数で、前記音声受付部が受け付けた音声をサンプリングし、第一音声データを取得するサンプリング部をさらに具備し、
前記声道長正規化処理部は、
第二サンプリング周波数「前記第一サンプリング周波数×声道長正規化パラメータ」で、前記第一音声データに対して、サンプリング処理を行い、第二音声データを得る請求項２記載の音声処理装置。
比較される対象の音声に関するデータであり、１以上の音韻毎のデータである教師データを１以上格納している教師データ格納部と、
前記教師データおよび前記音声受付部が受け付けた音声に基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出部とをさらに具備し、
前記声道長正規化パラメータ格納部の声道長正規化パラメータは、前記声道長正規化パラメータ算出部が算出した声道長正規化パラメータである請求項１記載の音声処理装置。
前記声道長正規化パラメータ算出部は、
音素ＨＭＭを指定された発話内容に従って連結した連結ＨＭＭである学習音響データを格納している学習音響データ格納手段と、
前記音声受付部が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、
前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、
指定された発話内容に従って受け付けた音声の事後確率である占有度数を算出する占有度算出手段と、
前記学習音響データおよび前記第三のケプストラムベクトル系列および前記占有度数を用いて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、
所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記占有度算出手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、
前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する請求項４記載の音声処理装置。
前記声道長正規化パラメータ算出部は、
音素平均ケプストラムベクトルを指定された発話内容に従って並べた音素平均ケプストラムベクトル列である学習音響データを格納している学習音響データ格納手段と、
前記音声受付部が受け付けた音声から、短区間分析により第二のケプストラムベクトル系列を算出する第二ケプストラムベクトル系列算出手段と、
前記第二のケプストラムベクトル系列を、ケプストラム変換パラメータを要素とする行列を用いて変換し、周波数ワープされた第三のケプストラムベクトル系列を算出するケプストラム変換手段と、
ユーザが発声した発話音声を構成する各フレームに対応する音素を識別する情報の列である音素系列を取得する最適音素系列取得手段と、
前記学習音響データおよび前記第三のケプストラムベクトル系列および前記音素系列を用いて、ケプストラム変換パラメータを算出するケプストラム変換パラメータ算出手段と、
所定のルールに基づいて、前記ケプストラム変換手段における処理、および前記最適音素系列取得手段における処理、および前記ケプストラム変換パラメータ算出手段における処理を繰り返えさせ、ケプストラム変換パラメータを得る最終ケプストラム変換パラメータ取得手段と、
前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータに基づいて、前記声道長正規化パラメータを算出する声道長正規化パラメータ算出手段を具備する請求項４記載の音声処理装置。
前記声道長正規化パラメータ算出手段は、
前記最終ケプストラム変換パラメータ取得手段が得たケプストラム変換パラメータから線形周波数伸縮比を算出し、当該線形周波数伸縮比から前記声道長正規化パラメータを算出する請求項５または請求項６記載の音声処理装置。
前記声道長正規化パラメータ算出部は、
周波数範囲を指定する情報である周波数範囲指定情報を格納している周波数範囲指定情報格納手段をさらに具備し、
前記ケプストラム変換パラメータ算出手段は、
前記周波数範囲指定情報をも用いて、ケプストラム変換パラメータを算出する請求項５または請求項６記載の音声処理装置。
前記音声処理部は、
前記第二音声データを、フレームに区分するフレーム区分手段と、
前記区分されたフレーム毎の音声データであるフレーム音声データを１以上得るフレーム音声データ取得手段と、
前記教師データと前記１以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定手段と、
前記評定手段における評定結果を出力する出力手段を具備する請求項１から請求項８いずれか記載の音声処理装置。
前記評定手段は、
前記１以上のフレーム音声データのうちの少なくとも一のフレーム音声データに対する最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した最適状態における確率値を取得する最適状態確率値取得手段と、
前記最適状態確率値取得手段が取得した確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項９記載の音声処理装置。
前記評定手段は、
前記１以上のフレーム音声データの最適状態を決定する最適状態決定手段と、
前記最適状態決定手段が決定した各フレームの最適状態を有する音韻全体の状態における１以上の確率値を、発音区間毎に取得する発音区間フレーム音韻確率値取得手段と、
前記発音区間フレーム音韻確率値取得手段が取得した１以上の発音区間毎の１以上の確率値をパラメータとして音声の評定値を算出する評定値算出手段を具備する請求項９記載の音声処理装置。
前記音声処理部は、
前記フレーム毎の入力音声データに基づいて、特殊な音声が入力されたことを検知する特殊音声検知手段をさらに具備し、
前記評定手段は、
前記教師データと前記入力音声データと前記特殊音声検知手段における検知結果に基づいて、前記音声受付部が受け付けた音声の評定を行う請求項９記載の音声処理装置。
前記特殊音声検知手段は、
無音を示すＨＭＭに基づくデータである無音データを格納している無音データ格納手段と、
前記入力音声データおよび前記無音データに基づいて、無音の区間を検出する無音区間検出手段を具備する請求項１２記載の音声処理装置。
前記特殊音声検知手段は、
一の音素の後半部および当該音素の次の音素の前半部の評定値が所定の条件を満たすことを検知し、
前記評定手段は、
前記特殊音声検知手段が前記所定の条件を満たすことを検知した場合に、少なくとも音素の挿入があった旨を示す評定結果を構成する請求項１２記載の音声処理装置。
前記特殊音声検知手段は、
一の音素の評定値が所定の条件を満たすことを検知し、
前記評定手段は、
前記特殊音声検知手段が前記所定の条件を満たすことを検知した場合に、少なくとも音素の置換または欠落があった旨を示す評定結果を構成する請求項１２記載の音声処理装置。
前記音声処理装置は、カラオケ評価装置であって、
前記音声受付部は、
評価対象者の歌声の入力を受け付け、
前記音声処理部は、
前記歌声を評価する請求項１から請求項１５いずれか記載の音声処理装置。
前記音声受付部は、
所定の母音の音声を受け付けた後、評価対象者の歌声の入力を受け付け、
前記サンプリング部は、
前記第一サンプリング周波数で、前記母音の音声をもサンプリングし、
前記サンプリングした母音の音声に基づいて、評価対象者のフォルマント周波数である評価対象者フォルマント周波数を取得する評価対象者フォルマント周波数取得部をさらに具備し、
前記評価対象者フォルマント周波数格納部の評価対象者フォルマント周波数は、前記評価対象者フォルマント周波数取得部が取得した評価対象者フォルマント周波数である請求項１６記載の音声処理装置。
前記音声処理部は、
前記第二音声データに基づいて、音声認識処理を行う請求項１から請求項８いずれか記載の音声処理装置。
第一サンプリング周波数を格納している第一サンプリング周波数格納部と、
サンプリング周波数の変換率に関する情報である声道長正規化パラメータを格納している声道長正規化パラメータ格納部と、
前記声道長正規化パラメータと前記第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記音声受付部が受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理部を具備するデジタルシグナルプロセッサ。
コンピュータに、
音声を受け付ける音声受付ステップと、
格納している声道長正規化パラメータと格納している第一サンプリング周波数をパラメータとして算出される第二サンプリング周波数で、前記受け付けた音声に対して、サンプリング処理を行い、第二音声データを得る声道長正規化処理ステップと、
前記第二音声データを処理する音声処理ステップを実行させるためのプログラム。