JPH02275499A - 発音評価法 - Google Patents

発音評価法

Info

Publication number
JPH02275499A
JPH02275499A JP1097735A JP9773589A JPH02275499A JP H02275499 A JPH02275499 A JP H02275499A JP 1097735 A JP1097735 A JP 1097735A JP 9773589 A JP9773589 A JP 9773589A JP H02275499 A JPH02275499 A JP H02275499A
Authority
JP
Japan
Prior art keywords
speaker
voice
evaluated
standard
correspondence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1097735A
Other languages
English (en)
Other versions
JP2834471B2 (ja
Inventor
Satoshi Miki
三樹 聡
Hiroshi Hamada
浜田 洋
Ryohei Nakatsu
良平 中津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1097735A priority Critical patent/JP2834471B2/ja
Publication of JPH02275499A publication Critical patent/JPH02275499A/ja
Application granted granted Critical
Publication of JP2834471B2 publication Critical patent/JP2834471B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は評価対象の話者が外国語等を発声した時に、
その発音の良さを評価する発音評価法に関するものであ
る。
[従来の技術] 通常、外国語発音の韻律的な良さに関する定量的な評価
は、評価する外国語の発音が良い音声、例えばその外国
語を母国語とする者(以後、標準話者と呼ぶ)の音声を
基準とし、それと評価対象となる話者(以後、被評価話
者と呼ぶ)における同じ発声内容の音声がどれほど近い
か、という観点で行うのが一般的である。この場合、時
間軸方向における発声の非線形な変動の違いを無視し、
同じ音韻を発声している部分同士の韻律を比較できるよ
うにするため、音声をスペクトルの変化がないと見なせ
る一定時間間隔(これをフレームと呼ぶ、以下同じ)に
分け、フレーム単位でスペクトル類似性に基づく標準話
者の音声と被評価話者の音声との時間対応をきった後、
スペクトル特性が対応している、つまり音韻が一致して
いると考えられるフレーム同士で被評価話者と標準話者
の韻律的特徴がどれほど異なっているかを比較し、評価
するといった方法をとる。
[発明が解決しようとする課題] この評価法において従来の技術では、上記フレーム対応
を、標準話者と被評価話者の音声をそのままDPマツチ
ング法、HMMなどでマツチングし、その対応結果によ
って定めていた。しかし、発声者が異なる音声に単純に
DPマンチング法などを適応した場合、各音韻における
スペクトル特性の個人差によって、被評価話者と標準話
者の物理的スペクトル類似性によるフレーム対応が音韻
対応とうまく一致しないことが多く、そのため音韻対応
が誤った状態で被評価話者と標準話者との韻律的特徴の
比較を行ってしまい、評価に悪影響を及ぼしていた。
また、韻律的特徴の比較において、従来の単純にそのパ
ラメータ同士を比較する方法では、その平均基本周波数
・平均音声パワーの個人差やダイナミックレンジの個人
差等の個人性と、韻律パラメータの基本形状の差を分離
して評価することができず、これも評価に悪影響を及ぼ
していた。
この発明の目的は、従来の技術では不正確であったスペ
クトル類似性に基づく被評価話者と標準話者のフレーム
対応による音韻対応の精度を上げ、より正確な韻律的特
徴の評価を行えるようにし、かつ平均基本周波数・平均
音声パワーの個人差やダイナミックレンジの個人差等の
個人性と韻律パラメータの基本形状の差とを分離して評
価することができる発音評価法を提供することにある。
[課題を解決するための手段] この発明は、被評価話者の音声を例えばヒストグラムを
用いたコードブックマツピングなどの手法により標準話
者の音声に話者適応化し、その話者適応化した後の被評
価話者の音声と標準話者の音声とのスペクトル類似性に
基づいたフレーム対応を計算することによって、音韻対
応の精度を上げ、その対応フレームごとに被評価話者と
標準話者の韻律的特徴を比較することによって、発音の
韻律的な良さのより正確な評価が行えることおよび被評
価話者と標準話者の韻律的特徴をその平均値・分散値を
用いて正規化した後、上記のフレーム対応ごとにその差
異を比較することによって、韻律パラメータの基本形状
の差のより正確な評価が行えることを最も主要な特徴と
する。
[作 用] 話者適応化によってスペクトル特性の個人差の関係がよ
り明確になり、それによって個人差を吸収でき、スペク
トル類似性に基づくフレーム対応手法による音韻対応精
度が向上する。
また平均および分散を正規化することによって、平均基
本周波数・平均音声パワーの個人差やダイナミックレン
ジの個人差等の個人性を吸収し、韻律パラメータの基本
形状の差のみを分離評価できる。
[実施例] 第1図はこの発明の一実施例を説明する図であって、被
評価話者の発声した音声の韻律的な良さを評価するもの
である。
最初に標準話者と被評価話者が同一の音声セット(単語
、単文等)を発声する。次にこの音声データを用いて被
評価話者の音声を標準話者の音声に話者適応化する。こ
こで用いる方法を以下に示す。
まず、コードブック生成部1において話者ごとのコード
ブックを作成する。発声された標準話者の音声2を音声
分析部3においてフレーム単位に分析する。分析手法と
しては、バンドパスフィルタ分析、線形予測分析、FF
T分析などが提案されているが、そのいずれかを用いて
分析を行えばよい。ここで2次のLPCケプストラム係
数をフレームのスペクトルに関する特徴バラメークとし
て用いる。次に分析後の音声をクラスタリング演算部4
でクラスタリングし、標準話者音声の代表的なスペクト
ルバタンである、あらかじめ定められた数nのコードベ
クトルからなる標準話者のコードブック5を作成する。
このクラスタリングの手法についてはLinde、 B
uzo+ and Gray : ” AnA1gor
ithI@for Vector Quantizer
 DesignIEEE Trans、  Comm、
、 VoL C0M−28+ 1980に詳しい。
被評価話者の音声6も同様な手続きで音声分析部7で分
析し、クラスタリング演算部8でクラスタリングを行い
、コードブック9を作成する。
次にコード列生成部10において上記で作成した標準話
者のコードブック5を用いて、標準話者の音声2をベク
トル量子化部IIでフレーム単位ニヘクトル量子化し、
ベクトルコード列12を作成する。被評価話者の音声6
も同様にベクトル量子化部13でヘクトル量子化し、ベ
クトルコード列14を作成する。
ここで話者適応化部15において、被評価話者の音声を
標準話者の音声に適応化を行う。話者適応化については
、いくつかの手法が提案されているがここでは5hik
ano、 Lee+ and Reddy :“5pe
akerAdaptation through Ve
ctor Quantization + Proc。
ICASSP−86,49,5,1986で提案された
ヒストグラムを用いた方法による例を示す。
まずマツチング演算部16において同一対象音声での標
準話者のへクトルコード列12と被評価話者のベクトル
コード列14との間でマツチング演算を行い、2つのベ
クトルコード列のフレーム対応を計算する。この対応を
利用して、ヒストグラム生成部17において、被評価話
者のコードブック内での個々のコードベクトルに対する
標準話者のコードブック内でのコードベクトルの対応を
ヒストグラムの形で表す。そこで適応化コードブック生
成部18において、話者適応化前の被評価話者の各コー
ドベクトルに対応する話者適応化後のコードベクトルを
、適応化前コードブックに対するヒストグラムを重みと
して標準話者のコードベクトルを重み付き平均すること
によって作成する。そしてこの適応化後のコードベクト
ルを集め、話者適応化した被評価話者のコードブック1
9を作成する。
次にフレーム対応計算部20において、上記のようにし
て作成した適応化した被評価話者コードブック19内の
コードベクトルと標準評価コードブック5内のコードベ
クトルを特徴パラメータとして用い、それぞれのベクト
ルコード列12.14から上記コードブック5,19を
参照しながらフレーム間のスペクトル類似性を計算し、
マツチング手法によりフレーム対応21を決定する。マ
ツチング手法としてはDPマツチング法、HMMなど提
案されているいずれかの方法が利用できる。
DPマツチング法を用いたこのマツチング方法の報告が
鹿野: “人力音声のベクトル量子化による単語音声認
識”、音響学会音声研究会資料、58260、1982
になされている。
最後に韻律評価部22において、韻律の良さの評価値を
計算する。
ここでは評価する韻律的特徴として基本周波数と音声パ
ワーを用い、またその正規化は以下の方法をとることに
する。まず、対象音声の基本周波数はピッチ抽出・スム
ージング部23において変形相関法などのピッチ抽出手
法により抽出した後、倍・半ピツチなどの抽出エラーを
除くためスムージングをかける。次にピッチ正規化部2
4において対数をとり、平均基本周波数の個人差を正規
化するため抽出した基本周波数の有声部の平均を全体か
ら引き、さらにダイナミックレンジの個人差を正規化す
るため同じく有声部の標準偏差で割る。
音声パワーも同じくパワー計算部25により計算され、
パワー正規化部26において対数をとった後、平均音声
パワーを正規化するため音声パワーの音声区間の平均を
全体から引き、さらにダイナミックレンジの個人差を正
規化するため音声区間の標準偏差で割る。正規化はこの
ように、単純に平均・分散を一致させるだけでなく、人
間の感覚にあわせてパラメータを非線形伸縮させる方法
も可能である。
次に適応化後のフレーム対応21を基に韻律的特徴の比
較を行う。ここでは、比較方法として差の絶対値を用い
ることとする。この他にも上記絶対値に重み付けを行う
、対応する韻律的特徴パラメータの相関をとる、など話
者適応化後の被評価話者音声と標準話者音声のフレーム
対応21に基づいた種々の比較方法が可能である。ここ
で正規化した基本周波数と音声パワーはそれぞれの韻律
比較部すなわちピッチ比較部27、パワー比較部28に
おいて上記の方法で計算した対応フレームごとに差の絶
対値を計算し、たとえば基本周波数は有声部のみで平均
、音声パワーは音声区間全体で平均し評価値29.30
とする。この評価値29゜30は他の方法で計算した音
韻的な評価と組み合わせて、総合的な発音の良さの評価
値とすることが可能である。
このようにこの方法は、標準話者に話者適応化して個人
性を吸収した後の被評価話者の音声と標準話者の音声と
のフレーム対応を計算する構造になっているから、被評
価話者と標準話者の音韻の対応がより正確にとれ、また
、基本周波数の有声部での平均・分散、音声パワーの音
声区間での平均・分散で正規化することにより、平均基
本周波数・平均音声パワーの個人差やダイナミックレン
ジの個人差等の個人性が吸収できる。
その効果としては、より精度の高い音韻の対応に基づく
韻律的特徴の比較が可能になり、かつ韻律パラメータの
基本形状のみを分離評価できるため、より正確な評価が
できる。
[発明の効果] 以上説明したように、この発明は話者適応化つまりスペ
クトル的な個人性を吸収した後の被評価話者の音声と標
準話者の音声とのフレーム対応をとることにより、音韻
の対応精度が向上し、韻律的特徴評価がより正確になり
、かつ、韻律パラメータをその平均値・分散値を用いて
正規化することにより、韻律的特徴の基本形状のみを分
離評価できる利点がある。
【図面の簡単な説明】
第1図はこの発明による発音評価法の実施例を示すブロ
ック図である。 特許出願人 日本電信電話株式会社

Claims (1)

    【特許請求の範囲】
  1. (1)被評価話者の音声を標準話者の音声に話者適応化
    し、その話者適応化された被評価話者の音声と上記標準
    話者の音声とのフレームの対応をスペクトル類似性に基
    づいてとり、その後パラメータの平均値・分散値を用い
    て正規化した被評価話者と標準話者の韻律的特徴を上記
    対応づけたフレームごとに比較することを特徴とする発
    音評価法。
JP1097735A 1989-04-17 1989-04-17 発音評価法 Expired - Lifetime JP2834471B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1097735A JP2834471B2 (ja) 1989-04-17 1989-04-17 発音評価法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1097735A JP2834471B2 (ja) 1989-04-17 1989-04-17 発音評価法

Publications (2)

Publication Number Publication Date
JPH02275499A true JPH02275499A (ja) 1990-11-09
JP2834471B2 JP2834471B2 (ja) 1998-12-09

Family

ID=14200155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1097735A Expired - Lifetime JP2834471B2 (ja) 1989-04-17 1989-04-17 発音評価法

Country Status (1)

Country Link
JP (1) JP2834471B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171944A (ja) * 1996-10-02 2007-07-05 Sri Internatl 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3520022B2 (ja) 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 外国語学習装置、外国語学習方法および媒体
JP4961565B2 (ja) * 2005-08-01 2012-06-27 国立大学法人九州工業大学 音声検索装置及び音声検索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007171944A (ja) * 1996-10-02 2007-07-05 Sri Internatl 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム

Also Published As

Publication number Publication date
JP2834471B2 (ja) 1998-12-09

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
US7996222B2 (en) Prosody conversion
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
US20080059156A1 (en) Method and apparatus for processing speech data
Takaki et al. A deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes for statistical parametric speech synthesis
JPH075892A (ja) 音声認識方法
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
Agbolade Vowels and prosody contribution in neural network based voice conversion algorithm with noisy training data
Helander et al. LSF mapping for voice conversion with very small training sets
JPH02275499A (ja) 発音評価法
WO2004111999A1 (en) An amplitude warping approach to intra-speaker normalization for speech recognition
Irino et al. Evaluation of a speech recognition/generation method based on HMM and straight.
Lilley et al. Unsupervised training of a DNN-based formant tracker
JPH0293500A (ja) 発音評価法
Correia et al. Anti-spoofing: Speaker verification vs. voice conversion
JPH07210197A (ja) 話者識別方法
KR100346790B1 (ko) 음소분할 후처리 방법
Parihar Performance analysis of advanced front ends on the Aurora Large Vocabulary Evaluation
Pellom et al. Spectral normalization employing hidden Markov modeling of line spectrum pair frequencies
Tolba et al. Comparative experiments to evaluate the use of auditory-based acoustic distinctive features and formant cues for automatic speech recognition using a multi-stream paradigm
Sangwan Feature Extraction for Speaker Recognition: A Systematic Study
Tolba et al. Comparative experiments to evaluate the use of auditory-based acoustic distinctive features and formant cues for robust automatic speech recognition in low-SNR car environments.
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081002

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091002

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091002

Year of fee payment: 11