JPH08166796A - 連続音声認識のためのアクセント句境界検出装置 - Google Patents

連続音声認識のためのアクセント句境界検出装置

Info

Publication number
JPH08166796A
JPH08166796A JP6310455A JP31045594A JPH08166796A JP H08166796 A JPH08166796 A JP H08166796A JP 6310455 A JP6310455 A JP 6310455A JP 31045594 A JP31045594 A JP 31045594A JP H08166796 A JPH08166796 A JP H08166796A
Authority
JP
Japan
Prior art keywords
accent
phrase
template
model
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6310455A
Other languages
English (en)
Other versions
JP2793137B2 (ja
Inventor
Mitsuru Nakai
満 中井
Shingaa Hararudo
ハラルド・シンガー
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP6310455A priority Critical patent/JP2793137B2/ja
Publication of JPH08166796A publication Critical patent/JPH08166796A/ja
Application granted granted Critical
Publication of JP2793137B2 publication Critical patent/JP2793137B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 連続音声認識のためのアクセント句境界を従
来に比較してより小さい誤り率で検出することができ、
しかも検出のための処理時間を大幅に短縮することがで
きるアクセント句境界検出装置を提供する。 【構成】 学習用発声音声に基づいて検出されたポーズ
とピッチパターンに基づいて当該音声をアクセント成分
とフレーズ成分のパラメータによって表されたアクセン
トモデルにモデル化してアクセントモデルパターンを検
出する。検出されたアクセントモデルパターンをピッチ
パターンに変換した後クラスタンリングして各クラスタ
に属するアクセントモデルパターンの平均を計算するこ
とにより各クラスタの参照用の複数のテンプレートを計
算する。検出用発声音声に基づいて検出されたポーズと
ピッチパターンに基づいてピッチパターンと参照用テン
プレートとの間の距離が小さくなるように整合して各テ
ンプレートの接続境界に基づいてアクセント句境界を検
出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、連続音声認識のための
アクセント句境界検出装置に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】従来の
音声認識装置では、ポーズを挿入して離散的に発声する
ことによって認識対象となる区間を短くしていたが、自
由発話の連続音声認識装置では、認識対象区間が長くな
りすぎて、認識処理の負荷が大きくなってしまうという
問題点があった。
【0003】この問題点を解決するために、次の従来技
術の文献において、ピッチパターンとテンプレートとの
連続整合による不特定話者連続音声のアクセント句境界
検出法を提案している。「中井満ほか,”ピッチパター
ンのクラスタリングに基づく不特定話者連続音声の句境
界検出”,電子情報通信学会論文誌(A),Vol.J
77−A,No.2,pp206−214,1994年
2月(以下、文献1という。)」
【0004】アクセント句に相当するピッチパターン
(アクセントパターン)をクラスタリング分類すると、
そのクラスタの代表パターン(テンプレート)の形状
は、不特定の話者に対してほぼ同様の形になるが、ピッ
チの高さ(又は最低基本周波数の高さ)に関しては話者
への依存が強い。そこで、文献1では、高さを固定した
従来のF0テンプレートをA型とし、ピッチの高さ方向
にバイアスを与えることのできる新たなF0テンプレー
トをR型として提案している。R型はアクセントパター
ンを句の開始からの相対的なパターンとして把えること
により、A型と同様の学習アルゴリズムで実現してい
る。アクセント句境界検出においても、高さ方向のバイ
アスの値をOne−Stage DP探索の中で動的に
変化させることが可能である。
【0005】この文献1のアクセント句境界検出法で検
出すると、不特定話者に対する句境界検出率は上昇する
が、テンプレートの自由度が高くなったことに起因する
挿入誤りが増加する。また、テンプレートの長さが固定
長であること、かつパターンの形状の著しい非線形伸縮
を抑制するために設定したDPパスの傾斜が1/2乃至
2の範囲であることにより、整合不可能なアクセント句
が生じ、そのアクセント句が必然的に挿入又は脱落して
エラーになるという問題点があった。
【0006】上記の問題点を解決するために、次の文献
において改良されたアクセント句境界検出法が提案され
ている。「M. Nakaiほか,“Accent Phrase Segmentati
on by Finding N-best Sequencesof Pitch Pattern Tem
plates”,ICSLP−94,1994年9月(以下、
文献2という。)」
【0007】上記文献1のテンプレートの長さによる問
題は、テンプレートの長さが固定長ではあるが、複数の
時間長のテンプレートを準備することにより、脱落誤り
についてはある程度回避できるようになった。また、最
良の候補のみの1−best句境界候補では境界推定が
不安定であることや、確率的なテンプレート接続制御を
行なったときに最適解が保証されないという問題があ
り、複数N個の最良の候補を検出するN−best句境
界検出に拡張した。この結果、下位の候補からより精度
の良い句境界候補が得られた。また、N個の複数候補に
よる境界信頼度の推定も可能になる。しかしながら、依
然としてテンプレートの自由度が高いことによる挿入誤
りが比較的高いという問題は残る。また、N−best
の探索による処理時間の増加が問題となるという問題点
があった。
【0008】本発明の目的は以上の問題点を解決し、連
続音声認識のためのアクセント句境界を従来に比較して
より小さい誤り率で検出することができ、しかも検出の
ための処理時間を大幅に短縮することができる連続音声
認識のためのアクセント句境界検出装置を提供すること
にある。
【0009】
【課題を解決するための手段】本発明に係る請求項1記
載の連続音声認識のためのアクセント句境界検出装置
は、入力される発声音声に基づいて上記発声音声におけ
るポーズを検出するとともに、ピッチ周波数の時間的に
連続的なピッチパターンを検出する特徴抽出手段と、入
力される学習用発声音声に基づいて上記特徴抽出手段に
よって検出されたポーズとピッチパターンに基づいて、
上記学習用発声音声をアクセント成分とフレーズ成分の
パラメータによって表された所定のアクセントモデルに
モデル化してアクセントモデルパターンを検出するモデ
ル処理手段と、上記モデル処理手段によって検出された
アクセントモデルパターンをピッチパターンに変換した
後クラスタリングして各クラスタに属するアクセントモ
デルパターンの平均を計算することにより、経過時間に
対するピッチパターンで表された各クラスタの参照用の
複数のテンプレートを計算するクラスタリング処理手段
と、入力される検出用発声音声に基づいて上記特徴抽出
手段によって検出されたポーズとピッチパターンに基づ
いて、上記ピッチパターンと上記参照用の複数のテンプ
レートとの間の距離が小さくなるように整合することに
より、上記各テンプレートの接続境界に基づいてアクセ
ント句境界を検出して出力する照合手段とを備えたこと
を特徴とする。
【0010】また、請求項2記載のアクセント句境界検
出装置は、請求項1記載のアクセント句境界検出装置に
おいて、上記照合手段は、上記参照用の複数のテンプレ
ートを用いて上記各テンプレートの接続境界に相当する
入力された発声音声上の時刻をアクセント句境界として
検出することを特徴とする。さらに、請求項3記載のア
クセント句境界検出装置は、請求項1又は2記載のアク
セント句境界検出装置において、上記照合手段は、On
e Stage DP法を用いて、上記ピッチパターン
と上記参照用の複数のテンプレートとの間で、傾きが1
である線形整合で整合処理することを特徴とする。また
さらに、請求項4記載のアクセント句境界検出装置は、
請求項3記載のアクセント句境界検出装置において、上
記照合手段は、テンプレートが構成するクラスタに属す
るアクセントモデルパターンに基づいて、上記整合処理
における上記テンプレートに終端領域を設定することを
特徴とする。さらに、請求項5記載のアクセント句境界
検出装置は、請求項3又は4記載のアクセント句境界検
出装置において、上記照合手段は、上記整合処理におい
て、上記参照用の複数のテンプレートの中で、テンプレ
ートからテンプレートへの遷移に関するバイグラム確率
に基づいて、2つのテンプレートの接続コストを表し、
上記接続コストが小さくなるようにアクセント句境界を
検出することを特徴とする。
【0011】また、請求項6記載のアクセント句境界検
出装置は、請求項1乃至5のうちの1つに記載のアクセ
ント句境界検出装置において、上記特徴抽出手段は、入
力される発声音声のパワーが所定のしきい値以下である
ことが所定の時間以上続いたときポーズとして検出する
ことを特徴とする。さらに、請求項7記載のアクセント
句境界検出装置は、請求項1乃至6のうちの1つに記載
のアクセント句境界検出装置において、上記アクセント
モデルは、特定のアクセント句のアクセント指令と、上
記特定のアクセント句の1つ前のアクセント句の直前に
存在するフレーズ指令と上記特定のアクセント句の直前
に存在するアクセント句のフレーズ指令と、上記特定の
アクセント句内のアクセント指令の直後に存在するフレ
ーズ指令とのそれぞれの大きさと時間的なタイミングの
データを含むことを特徴とする。
【0012】
【作用】請求項1記載のアクセント句境界検出装置にお
いては、上記特徴抽出手段は、入力される発声音声に基
づいて上記発声音声におけるポーズを検出するととも
に、ピッチ周波数の時間的に連続的なピッチパターンを
検出する。上記モデル処理手段は、入力される学習用発
声音声に基づいて上記特徴抽出手段によって検出された
ポーズとピッチパターンに基づいて、上記学習用発声音
声中の視察で与えられたアクセント句をアクセント成分
とフレーズ成分のパラメータによって表された所定のア
クセントモデルにモデル化してアクセントモデルパター
ンを検出し、上記クラスタリング処理手段は、上記モデ
ル処理手段によって検出されたアクセントモデルパター
ンをピッチパターンに変換した後クラスタリングして各
クラスタに属するアクセントモデルパターンの平均を計
算することにより、経過時間に対するピッチパターンで
表された各クラスタの参照用の複数のテンプレートを計
算する。さらに、上記照合手段は、入力される検出用発
声音声に基づいて上記特徴抽出手段によって検出された
ポーズとピッチパターンに基づいて、上記ピッチパター
ンと上記参照用の複数のテンプレートとの間の距離が小
さくなるように整合することにより、上記各テンプレー
トの接続境界に基づいてアクセント句境界を検出して出
力する
【0013】また、請求項2記載のアクセント句境界検
出装置においては、上記照合手段は、好ましくは、上記
参照用の複数のテンプレートを用いて上記各テンプレー
トの接続境界に相当する入力された発声音声上の時刻を
アクセント句境界として検出する。さらに、請求項3記
載のアクセント句境界検出装置においては、上記照合手
段は、好ましくは、One Stage DP法を用い
て、上記ピッチパターンと上記参照用の複数のテンプレ
ートとの間で、傾きが1である線形整合で整合処理す
る。またさらに、請求項4記載のアクセント句境界検出
装置においては、上記照合手段は、好ましくは、テンプ
レートが構成するクラスタに属するアクセントモデルパ
ターンに基づいて、上記整合処理における上記テンプレ
ートに終端領域を設定する。さらに、請求項5記載のア
クセント句境界検出装置においては、上記照合手段は、
好ましくは、上記整合処理において、上記参照用の複数
のテンプレートの中で、テンプレートからテンプレート
への遷移に関するバイグラム確率に基づいて、2つのテ
ンプレートの接続コストを表し、上記接続コストが小さ
くなるようにアクセント句境界を検出する。
【0014】また、請求項6記載のアクセント句境界検
出装置においては、上記特徴抽出手段は、好ましくは、
入力される発声音声のパワーが所定のしきい値以下であ
ることが所定の時間以上続いたときポーズとして検出す
る。さらに、請求項7記載のアクセント句境界検出装置
においては、上記アクセントモデルは、好ましくは、特
定のアクセント句のアクセント指令と、上記特定のアク
セント句の1つ前のアクセント句の直前に存在するフレ
ーズ指令と上記特定のアクセント句の直前に存在するア
クセント句のフレーズ指令と、上記特定のアクセント句
内のアクセント指令の直後に存在するフレーズ指令との
それぞれの大きさと時間的なタイミングのデータを含
む。
【0015】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1に本発明に係る一実施例である連
続音声認識のためのアクセント句境界検出装置を示す。
このアクセント境界検出装置は、(a)マイクロホン1
を介して入力される発声音声に基づいて上記発声音声に
おけるポーズを検出するとともに、ピッチ周波数の時間
的に連続的なパターンであるピッチパターンを検出する
特徴抽出部2と、(b)入力される学習用発声音声に基
づいて上記特徴抽出部2によって検出されたポーズとピ
ッチパターンに基づいて、上記学習用発声音声をアクセ
ント成分とフレーズ成分のパラメータによって表された
所定のアクセントモデルにモデル化してアクセントモデ
ルパターンを検出するアクセントモデル処理部11と、
(c)上記アクセントモデル処理部11によって検出さ
れたアクセントモデルパターンをピッチパターンに変換
した後クラスタリングして各クラスタに属するアクセン
トモデルパターンの平均を計算することにより、経過時
間に対するピッチパターンで表された各クラスタの参照
用の複数のテンプレートを計算するクラスタリング処理
部12と、(d)入力される検出用発声音声に基づいて
上記特徴抽出部2によって検出されたポーズとピッチパ
ターンに基づいて、上記ピッチパターンと上記参照用の
複数のテンプレートとの間の距離が小さくなるように整
合することにより、上記各テンプレートの接続境界に基
づいてアクセント句境界を検出して出力するOneSt
age DP照合部4とを備える。
【0016】図1において、話者音声はマイクロホン1
に入力されて音声信号に変換された後、特徴抽出部2に
入力され、特徴抽出部2は、アナログ音声信号からディ
ジタル音声信号にA/D変換した後、ポーズを検出する
とともにピッチ周波数F0(以下、ピッチという。)を
検出する。次いで、検出されたピッチとポーズの情報デ
ータはバッファメモリ3に一時的に格納された後に、O
ne Stage DP照合部(以下、照合部とい
う。)4と、アクセントモデル化処理部11に入力され
る。バッファメモリ3に格納される情報は、時間的に連
続した情報データであり、それぞれピッチの連続量のパ
ターンであるピッチパターンとポーズデータである。な
お、ポーズとは発声音声における韻律節と韻律節との間
の無音区間をいう。
【0017】この装置では、ピッチパターンに基づいて
アクセントモデル化処理とクラスタリング処理を実行し
てアクセントモデルテンプレートを生成する学習モード
と、学習モードで得られたアクセントモデルテンプレー
トを参照して、連続的に発声されて入力される話者音声
に基づいて、連続音声認識のためのアクセント句境界を
検出する検出モードとを備える。
【0018】特徴抽出部2においては、ポーズは、入力
される音声信号のパワーを検出し、検出したパワーを所
定のしきい値とを比較して、そのパワーがそのしきい値
以下でありかつそれが所定の時間(好ましくは、30ミ
リ秒)以上だけ継続するときにポーズと判断する。ま
た、特徴抽出部2で認識される入力音声文データはポー
ズ毎に分割されて、バッファメモリ3を介して照合部4
に、アクセント句境界検出の処理のために送られる。ポ
ーズによる認識対象区間の分割は、最良のN個の候補で
あるN−best候補の探索に拡張したときに効果が表
れ、ポーズ検出を行わない場合に比較して、アクセント
句境界候補の検出精度が確実に向上する。また、ピッチ
の抽出には基本的には公知のlag−window法
(嵯峨山茂樹ほか,“ラグ窓を用いたピッチの抽出の一
方法”,昭和53年度電子通信学会総合全国大会講演
集,1235,pp.5−263,1978年3月参
照。)を用いる。
【0019】この装置の特徴は参照用のテンプレートと
して、後述するようにモデル化されたアクセント成分及
びフレーズ成分のパラメータを使用していることであ
る。入力音声の全区間に対応するパラメータを抽出する
ために、平井俊男ほかによって提案された方法(平井俊
雄ほか,“統計的手法による基本周波数パターンの制
御”,平成5年秋季音響学会講演論文集I,2−8−
3,pp.225−226,1993年10月参照。
(以下、文献3という。))を、アクセントモデル処理
部11のために用いる。ここで特筆することは、この装
置においてモデルパラメータはテンプレートの学習時に
しか使用されないので、完全に自動化されたモデルパラ
メータの抽出アルゴリズムは必要としないということで
ある。従って、この装置の学習モードのときには、半自
動的に抽出されたモデルパラメータと視察で与えられた
アクセント句を照らし合わせてアクセントパターンをモ
デル化し、クラスタリングの手法を用いて複数のテンプ
レートを作成することができる。
【0020】この装置の検出モードには、照合部4は、
入力された連続音声のピッチパターンに対してテンプレ
ートによるOne Stage DP(Dynamic Progra
mming)整合処理を行い、入力音声区間全体における最
小二乗誤差基準による最適テンプレート系列を求める。
そして、得られたテンプレート系列の接続境界に対応す
る箇所を未知の入力音声のアクセント句境界として検出
する。
【0021】特徴抽出部2における入力パワーpnの計
算は次の数1を用いて行う。
【0022】
【数1】
【0023】ここで、Nは入力フレーム数であり、xi
は入力された音声信号であり、rはパワーの有効範囲で
あり、H(n,j)はスムージング窓又はハミング窓で
ある。本実施例においては、1フレームは10ミリ秒で
あり、r=15ミリ秒であり、ハミング窓長は100ミ
リ秒に設定している。また、特徴抽出部2におけるしき
い値pthは次の数2と数3とによって定義される数4
によって計算される。
【0024】
【数2】phigh=min(βmaxnn+(1−β)minnn,E
(pn)+σ(pn))
【数3】plow=max((1−β)maxnn+βminnn,E
(pn)−σ(pn))
【数4】pth=α・E(pn>phigh)+(1−α)・E
(pn<plow)
【0025】ここで、「maxnn」は、nを変化した
ときのpnで最大の値を示す一方、「minnn」は、
nを変化したときのpnで最小の値を示す。また、mi
n(・)は複数の引数のうちの最小値を選択する関数で
あり、max(・)は複数の引数のうちの最大値を選択
する関数であり、以下同様である。さらに、E(pn)は
n(1<n<N)の平均値であり、σ(pn)はpn(1
<n<N)の標準偏差である。本実施例においては、α
=0.15、β=0.10に設定した。この実施例の装
置では、入力は1文章毎に行ない、Nは入力の全フレー
ム数としているが、リアルタイム処理のためには、上記
しきい値を固定してもよい。さらに、特徴抽出部2にお
けるピッチ抽出は、前述のように、公知のlag−wi
ndow法を用いてピッチ抽出を行なう。ただし、この
とき自己相関関数から得られるピークの高さをピッチの
信頼度として付与する。
【0026】次に、テンプレートパラメータの学習につ
いて述べる。一般に、ピッチパターンは文頭から文末に
向かって緩やかに下降するフレーズ成分と、局所的に起
伏するアクセント成分との和で表現されることが知られ
ている。このアクセントモデルの対数ピッチ基本周波数
lnF0は時刻tの関数として次の数5で与えられる。
【0027】
【数5】
【0028】ここで、Fminは声帯振動が可能な最低周
波数であり、IとJはそれぞれ1文中でのフレーズ指令
数及びアクセント指令数であり、ApiとAajはi番
目のフレーズ指令及びj番目のアクセント指令の大きさ
であり、T0iはi番目のフレーズ指令の開始点、T1
jとT2jはそれぞれj番目のアクセント指令の開始点
及び終了点である。またGpi(t)とGaj(t)は
それぞれ、フレーズ制御機構のインパルス応答関数及び
アクセント制御機構のステップ応答関数であり、これら
の応答関数Gpi(t)とGaj(t)は、αiとβj
をそれぞれの固有角周波数とすれば、次の数6と数7と
によって表される。
【0029】
【数6】Gpi(t)= αi・t・e-αit
【数7】Gaj(t)=min[1−(1+βj・t)e
-βjt,θ]
【0030】ここで、これらの応答関数Gpi(t)と
Gaj(t)は、t≦0ではともに0であり、θは応答
関数Gaj(t)の上限値(約0.9)である。本実施
例において、アクセントモデル処理部11は、これらの
アクセント成分及びフレーズ成分のパラメータを用い
て、1つのアクセント句に対し、図2のようなモデル化
を行なう。図2における各パラメータは次の通りであ
る。 (a)当該アクセント指令: τb:アクセントパターンの継続時間長。 Aa1:アクセント指令の大きさ(又は振幅)。 ta1:アクセン指令のオンのタイミング。 τa1:アクセント指令の継続時間長。 (b)先行フレーズ指令: Ap0:大きさ。 tp0:生起のタイミング。 (c)当該フレーズ指令 Ap1:大きさ。 tp1:生起のタイミング。 (d)後続フレーズ指令: Ap2:大きさ。 tp2:生起のタイミング。
【0031】すなわち、上記アクセントモデルは、特定
のアクセント句のアクセント指令と、上記特定のアクセ
ント句の1つ前のアクセント句の直前に存在するフレー
ズ指令と上記特定のアクセント句の直前に存在するアク
セント句のフレーズ指令と、上記特定のアクセント句内
のアクセント指令の直後に存在するフレーズ指令とのそ
れぞれの大きさと時間的なタイミングのデータを含む。
【0032】本実施例においては、アクセント指令、フ
レーズ指令、フレーズは以下のように定義される。すな
わち、複数の語にわたるゆるやかな抑揚を生成するイン
パルス状の指令又は指令をフレーズ指令、語アクセント
を表す局所的な起伏を生成するステップ状の指令をアク
セント指令と呼ぶ。さらには、それぞれの指令によって
生成されるピッチパターンの成分をフレーズ成分、アク
セント成分と定義する。
【0033】本実施例においては、今着目している当該
アクセント句に影響を及ぼすパラメータはそのアクセン
ト句内に発生している各指令と直前のフレーズ指令、及
び1つ前のアクセント句の直前のフレーズ指令のみを考
えている。すなわち、図2にある指令はp0,p1,p
2,a1の4つであり、フレーズ指令piについては大
きさと時刻のパラメータが、アクセント指令a1につい
ては大きさと開始時刻と継続時間のパラータがある。従
って、ここでは、今着目している当該アクセント句に影
響を及ぼすパラメータはそのアクセント句内に発生して
いる各指令(a1,p2)と直前のフレーズ指令(p
1)、および1つ前のアクセント句の直前のフレーズ指
令(p0)のみを考えている。実際には1つ前のアクセ
ント成分も少なからず影響しているのであるが、アクセ
ント指令は正と負のステップ応答によって打ち消し合
い、後続のアクセント句にあまり影響を与えないことか
ら、ここでは考慮しない。また、アクセント句内で後続
のアクセント指令が開始することがあるが、後述のテン
プレートの性質上、無視することにする。さらに、本実
施例においては、パラメータαiとβjについてはそれ
ぞれ3.0,20.0として固定した。これらの値は話
者や発話様式の違いによる差が一般に他のパラメータに
比べて小さく、ましてや、詳細後述するシミュレーショ
ンで扱うデータベースに関してはほとんど差が見られな
いと予想されるからである。
【0034】図3は、「あらゆる現実を、すべて自分の
方へねじまげたのだ」という1文章中の5つのアクセン
ト句についてモデルパターンを表現したものであり、図
3において、(a)は図1の装置に入力される音声信号
の信号波形を示すタイミングチャートであり、(b)は
上記(a)の音声信号の信号波形に対応し、図1の装置
で検出されるピッチパターンのタイミングチャートであ
り、(c)は上記(a)の音声信号の信号波形に対応
し、図1の装置で検出されるモデルパラメータのタイミ
ングチャートであり、(d)は上記(a)の音声信号の
信号波形に対応し、図1の装置で検出されるアクセント
フレーズモデルである。
【0035】図3(a)の音声信号の波形を区切ってい
る縦線は視察によって付与したアクセント句境界であっ
て、ポーズ(図においてpauと示す。)を除く5つの
区間がアクセント句として切り出されている。この入力
音声のピッチパターンにフィッティングの良いモデルの
パラメータは文献3の平井ほかの方法で推定可能であっ
て、推定検出されたモデルパラメータを図3(c)に示
す。個々のアクセント句のピッチパターンをモデルのパ
ラメータで正確に表現する場合には発声開始から当該ア
クセントまでの全ての指令のパラメータを必要とする
が、後続のアクセント句になるほど次元が大きくなる。
そこで、本実施例においては、1つのアクセント句に対
しては図2に示された限定区間のパラメータのみで表現
する。これは、アクセント句毎にパラメータからピッチ
パターンを再生成したときの誤差ができるだけ小さくな
るようなセットを選んで決定する。そして、5つのアク
セント句をそれぞれモデルパラメータで表現したものが
図3(d)に、5つのアクセントフレーズモデル101
乃至105で図示されているものである。
【0036】アクセントフレーズモデルの検出において
は、アクセント指令については当該アクセント句の要素
をそのまま取り出し、フレーズ指令については先行と当
該の2つのアクセント句に影響を及ぼす2つの要素、も
しくは、当該アクセント句内で後続のフレーズ指令が発
生した場合には、それを含めて3つの要素を抽出してい
る。ただし、先行アクセント句に影響を及ぼすフレーズ
指令とは1つ前のアクセント句の開始直前の指令であっ
て、指令が無い場合には無くても構わず、2つも3つも
前のアクセント句まで逆昇ることはしない。また、図3
のように途中でポーズが検出されれば、その次のアクセ
ント句を先頭アクセント句として処理する。
【0037】すなわち、アクセントモデル処理部11
は、バッファメモリ3から出力されるピッチパターンの
データに基づいて上述のように、アクセントモデルのモ
デル化を実行し、すなわちピッチパターンモデルのパラ
メータ推定を行い、図3(c)に示すモデルパラメータ
を検出した後、視察で与えたアクセント句の区間に基づ
いて、図3(d)に示すようなアクセントフレーズモデ
ル101乃至105を検出して、当該モデルをアクセン
トモデルパターンとしてアクセントモデルパターンメモ
リ20に格納する。さらに、クラスタリング処理部12
は、アクセントモデルパターンメモリ20に格納された
アクセントモデルパターンを一度アクセントパターンに
変換して公知のLBG法(Y.Linde et al.,“An Algori
thm for Vector Quantizer Design",IEEE Transactions
Communications,Vol.COM-28,1,pp.85-95,1980年
1月参照。)によるクラスタリング処理を行なった後、
各クラスタに属しているアクセントモデルパラメータの
平均を計算して、テンプレートにしている。平均を計算
する際に注意すべきことは、アクセント句の数とフレー
ズ指令の数が一致しないということである。つまり、モ
デル表記上のフレーズ指令i(Pi)の大きさApi
(i=0,1,2)が0のときには、タイミングtpi
の値は特定されない。これについては、大きさApiは
クラスタのメンバー数の平均値を計算するとともに、タ
イミングtpiはクラスタのメンバー中のPiの個数の
平均値を計算することにする。例えば、図3の場合、ア
クセントの数は5である。ここで、5つのアクセントを
先頭から順に1,2,3,4,5としたとき、各指令の
有無について表にすると、表1のようになる。
【0038】
【表1】
【0039】当該アクセント句で当該フレーズ(p1)
であったものは先行アクセント句では後続フレーズ(p
2)であり、後続アクセント句では先行フレーズ(p
0)としてみなされます。表1から明らかなように、先
行フレーズ指令p0のフレーズ数と、当該フレーズ指令
p1のフレーズ数と、後続フレーズ指令p2のフレーズ
数はそれぞれ、3、4、1となる。
【0040】このとき大きさAp0,Ap1,Ap2は
アクセント数5で割って平均値を計算し、タイミングt
p0,tp1,tp2はそれぞれのフレーズ数3、4、
1で割って位置を決定する。この方法ではクラスタ数の
小さい時にはフレーズの有無による分類が不十分で、平
均をとったためにフレーズ指令が小さくなったテンプレ
ートが続出するであろうが、クラスタ数が増すにつれて
解消されると予想される。また、クラスタリングの手法
は従来のものを使い、ピッチ周波数F0表現の領域で計
算しているため、実際のピッチ周波数F0のクラスタ重
心とモデルテンプレートのパラメータで生成されるF0
パターンはおそらく大きく異なると推定される。
【0041】本実施例においては、上述のクラスタリン
グ方法を用いているが、本発明はこれに限らず、クラス
タを生成した後にパラメータ重心を計算し、再び重心パ
ターンに変換して再度クラスタリングするというように
パラメータとピッチ周波数F0間の変換を密にした方法
を用いてもよい。この変形例の方法では、同様に、LB
G法を用いる。これは初期値クラスタを1つとし、逐次
2、4、8とステップアップしてクラスタ分割する方法
である。本実施例では、学習データとしてアクセントモ
デルのパラメータで生成されるF0パターンを用いる。
これらのF0パターンとクラスタの重心パターンとの距
離は、後述の数12で定義される。各ステップにおいて
は公知のk−means法により、(1)重心パターン
との距離計算に基づく学習データの分類処理と、(2)
分類された学習データによる重心パターンの再計算処理
とを繰り返し、重心パターンが所定の収束条件まで収束
するまで再分類を繰り返す。収束したならば、それぞれ
のクラスタに属しているアクセントモデルのパラメータ
の平均を計算してテンプレートのパラメータに設定す
る。このテンプレートのパラメータから数5でF0パタ
ーンを生成し、クラスタを分割して次のステップに進
む。最終的に得られるものは各ステップ毎のテンプレー
トのパラメータである。
【0042】図4は、テンプレート数が4であるときの
クラスタリング処理の結果の一例を示す。横軸は時間
で、0がアクセント句の開始時間を示す。縦軸は指令の
大きさである。この例では、大別して、アクセント指令
がアクセント句内で発生しているものと、アクセント句
の前に発生しているものの2種類、直前のフレーズ指令
が大きいものと小さいものの2種類、それぞれの組み合
わせで合計4種類のアクセントモデルテンプレートを得
ることができる。クラスタリング処理部12によって得
られた代表アクセントモデルパターンは、参照用アクセ
ントモデルテンプレートとしてアクセントモデルテンプ
レートメモリ21に格納される。
【0043】さらに、上記クラスタリング処理部12に
おいて用いる距離尺度について説明する。異なるアクセ
ントパターン間の距離を定義するために、ここでは2つ
の距離尺度を定義する。1つはパターンの形状に関する
距離であり、もう1つは長さに関する距離で、アクセン
トパターン間の距離はこれらの距離の和で定義する。い
ま、ここに学習アクセントパターンの集合Pのうちj番
目のアクセントパターンが次の数8のような時系列のベ
クトルで表されるものとする。
【0044】
【数8】Pj=(pj1,…,pji,…,pjLj)
【0045】ここで、pjiはj番目のアクセントのiフ
レームにおける対数ピッチ値である。パターンの形状に
関する距離を最小二乗誤差基準で簡単に定義するために
等しい長さに線形伸縮したパターンPhjは次の数9で
表される。
【0046】
【数9】Phj=(phj1,…,phji,…,phjL)
【0047】このとき、2つのパターンPhjとPhk
の距離は次の数10で定義される。
【0048】
【数10】
【0049】ここで、aはバイアスであり、従来の方法
におけるR型テプレートであれば、a=phj1−phk1
であるが、本実施例のアクセントモデルにおいては、相
対的なピッチではなく、ピッチの高さそのものを使用す
るので、a=0である。一方、長さに関する距離は次の
数11で定義される。
【0050】
【数11】DL(Phj,Phk)=(Lj−Lk)2
【0051】これらの2つの距離尺度を使って、2つの
パターンを次の数12で定義する。
【0052】
【数12】Dλ(Phj,Phk)=(1−λ)DS(Phj,Phk)+
λγDL(Phj,Phk)
【0053】ここでλは距離DLに対する重み係数であ
り、γは距離DLの正規化係数であり、次の数13で表
される。
【0054】
【数13】
【0055】ここで、PbはPhの平均(クラスタ数1
の場合の重心)である。
【0056】さらに、検出モードにおける照合部4によ
って実行されるアクセント句境界の自動検出処理につい
て述べる。まず、図6及び図7を参照してアクセント句
境界検出処理の流れを簡単に説明する。まず、入力音声
信号(図6及び図7の(a))からピッチ抽出を行な
い、ピッチパターン(図6及び図7の(c))を推定す
る。このとき同時に自己相関関数のピークの高さ(図6
及び図7の(b))を記憶装置に記憶してピッチの信頼
度として利用する。図5は学習モードの処理によって得
られた8つのアクセントモデルテンプレートのうちの前
半4つであり、これらとピッチパターンとをDP整合法
により時間的に連続に整合することにより、アクセント
句境界候補(図6及び図7の(d))が検出される。図
5に示すように、照合部4は、参照用の複数のテンプレ
ートを用いて上記ピッチパターンと上記参照用の複数の
テンプレートとの間の距離が小さくなるように整合する
ことにより、上記各テンプレートの接続境界に基づいて
アクセント句境界を検出して出力する。
【0057】なお、図6及び図7において、(a)の音
声信号の波形を分割している線は視察によって与えたア
クセント句境界であり、波形の上の文字列は音韻ラベル
である。また横軸の目盛は分析の10フレーム単位で刻
まれていて、1目盛は100ミリ秒(1フレーム=10
ミリ秒に換算する。)である。図6及び図7の(d)に
おける横棒それぞれが1つのテンプレートと整合してい
ることを表し、線上に添えられたRで始まる文字が図5
のアクセントモデルテンプレートと対応している。時間
軸方向に見て、アクセントモデルテンプレートとの整合
処理が行なわれていない区間は、ポーズ(pau)検出
によって予め除去された区間であって、N−best候
補検出はポーズの前後で別々に処理される。
【0058】次いで、照合部4におけるアクセントモデ
ルテンプレートの連続整合処理について述べる。アクセ
ントモデルテンプレートの連続整合処理は、基本的に
は、バッファメモリ3から照合部4に入力されるF0
ターンと、学習モードで検出されてアクセントモデルテ
ンプレートメモリ21に格納されたアクセントモデルテ
ンプレートから生成されるF0パターンに関するOne
Stage DPの処理(この処理方法は、例えば、
Hermann Ney et al.,"The Use of a One-Stage Dynamic
Programming Algorithm for Connected Word Recognit
ion".Vol.ASSP-32,2,pp.263-271,1984年4年参
照。)である。ここで、パターン間の距離は全て対数尺
度を用いて二乗誤差基準でDP整合する。
【0059】図8は、従来のF0テンプレートによる整
合パスと、本実施例の方法におけるアクセントモデルテ
ンプーレートによる整合パスを比較したものである。横
軸は未知入力音声のピッチ分析フレームであり、縦軸は
テンプレートのフレームであって、どちらも1フレーム
=10ミリ秒である。公知のOne Stage DP
法ではすべての格子上の点に対してその時刻までの累積
距離を計算する。黒で塗り潰した点までの累積距離を計
算するとき、従来のF0テンプレート(図8の(a))
では実線で黒までに至る4種類の経路が必要であり、傾
きにして1/2から2までの非線形整合が必要である。
これは、F0テンプレートがピッチパターンの生成モデ
ルに基づいてなく、固有の長さを有するテンプレートで
あることに起因する。しかしながら、本実施例のアクセ
ントモデルテンプレート(図8の(b))ではアクセン
トモデルを仮定しているため、非線形な整合はしないと
いう拘束条件を設定することができる。
【0060】すなわち、従来のF0テンプレートでは、
図8(a)のようなパスを与えていたことに対して、本
実施例のアクセントモデルテンプレートでは、図8
(b)のような非線形の伸縮を許さないパス制限を与え
る。これはアクセントモデルで生成されるF0パターン
上のあらゆる時間におけるピッチ周波数F0の値が、各
指令の大きさと指令発生からの経過時間によって一意に
定まるためであり、不規則な変化を考慮する必要がない
からである。また、上述のように数6及び数7における
固有角周波数α及βの値を固定にしているため、各指令
によるピッチ成分の増加速度及び減衰速度も等しく、傾
きが1、すなわち45゜の1つの経路だけを考えれば良
い。このとき問題になるのは、アクセントモデルテンプ
レートの終端条件である。従来のF0テンプレートと同
様に、アクセントモデルテンプレートの最終端フレーム
だけでしか、次のテンプレートに遷移できないのであれ
ば、テンプレート系列のパターン長と入力パターン長が
一致することは極めて稀である。従って、テンプレート
の終端に幅を設けて遷移をある程度自由にする必要があ
る。本実施例においては、終端条件として次のような範
囲を設定する。
【0061】(a)テンプレート終端の開始点:以下の
全ての条件を見たすとき: (a−1)テンプレートが構成するクラスタに属するア
クセントパターンの最小の長さ。 (a−2)テンプレートが構成するクラスタに属するア
クセントパターンの平均の長さ/2(これは、F0テン
プレートが1/2乃至2の傾斜で伸縮していることに起
因する。)。 (a−3)テンプレートのアクセント指令の終わる時間
(これは、アクセント指令が終了する前に新たなアクセ
ント句が始まることは無いことに起因する。)。 (b)テンプレート終端の終了点:テンプレートが構成
するクラスタに属するアクセントパターンの最大の長
さ。 上記開始点と終了点によって決定されるこの範囲におい
てテンプレートは終端することが可能であり、次のテン
プレートの先頭フレームに接続することができる。
【0062】図9は図8のパス制限によるテンプレート
と入力ピッチパターンの整合の一例を示す。縦軸、横軸
は図8と同じである。傾き1の線形パスなので、イメー
ジとしてはテンプレートから生成するF0パターンとピ
ッチパターンの始点を合わせて対比して処理することに
なる。すなわち、照合部4は、ピッチパターンと複数の
アクセントモデルテンプレートとのOne Stage
DP法を用いた整合において、傾きが1の線形パスを
用いた整合処理である。
【0063】ここで、説明を簡単にするため、テンプレ
ート数が1の場合で説明する。まず、テンプレートの開
始点と、ピッチパターンの開始点のフレームを合わせ、
開始フレームでの対数ピッチ値の差の二乗が累積距離の
初期値になる。以降、ピッチパターンとテンプレートと
がともに、1フレームずつずらしながら対数ピッチ値の
差の二乗を累積してゆく。そのときの経路を格子上で表
したものが、45゜の実線になる。また、アクセントモ
デルから生成されるピッチ周波数F0の値は半無限遠ま
で範囲があり得るので、テンプレートとの整合終了のタ
イミング(つまり、アクセント句の区間の決定のタイミ
ング)を与える必要がある。その基準として、テンプレ
ートのクラスタを構成するアクセントパターンの最小
長、平均長の1/2、アクセント指令の終了するタイミ
ングの3つを与え、いずれの長さ及び時刻を超えた時点
からテンプレートが終端可能となる。また、テンプレー
トの長さの上限はアクセントパターンの最大長とする。
図9ではこの区間を矢印で示す。入力ピッチパターンの
上の白丸の点が最短の場合であり、このとき、次のフレ
ームをテンプレートの開始フレームに揃えて、第2アク
セント句の検出のための整合が始まる。すなわち、照合
部4は、テンプレートが構成するクラスタに属するアク
セントモデルパターンに基づいて、上記整合処理におけ
る上記テンプレートに終端領域を設定する。
【0064】さらに、遷移確率による接続コストについ
て述べる。モデルテンプレートはフレーズ指令の特徴に
よって、発声の開始時に現れるパターンと他のアクセン
ト句の後に現れるパターンとに比較的顕著な差がみられ
る。接続コストはアクセント句境界の挿入誤りの抑制に
有効である。接続コストを与えない場合、ピッチ推定エ
ラー等に起因するピッチパターンの不連続点での大きな
整合歪み(二乗誤差)を回避しようとして、他のテンプ
レートに遷移するケースがしばしば本発明者のシミュレ
ーションにおいて観測される。これらについてはピッチ
の信頼度による重みをかけることで対処するが、これだ
けでは十分な効果が得られない。従って、接続の頻度を
減少させるようなコストが必要になる。接続コストとし
て、学習データにおけるテンプレートの遷移確率を使用
する。これは、不規則なテンプレート系列が生成されな
いように制御するためである。
【0065】図10は、アクセントモデルテンプレート
間の遷移頻度についてまとめたものである。縦軸が遷移
前の状態、横軸が遷移後の状態であり、遷移頻度は四角
の面積に比例している。ポーズについては、アクセント
モデルテンプレートが用意されているわけではなく、単
にテンプレートの遷移の初期状態と終了状態として図示
している。ポーズ検出によって分割されたアクセント句
境界の検出の対象はおよそ平均して2乃至3個程度のア
クセント句で構成されているので統計的にポーズの出現
頻度が多くなる。この図10から推測できるテンプレー
トの系列は始めにR2,R4,R5,R6のいずれかの
パターンが現われて、それにR0,R1のパターンが続
き、ポーズになるといったものである。複数のアクセン
トモデルテンプレートのうちの1つのテンプレートから
もう1つのテンプレートへのバイグラムの情報を用いれ
ば、アクセント句境界検出の誤りが抑制できると考えら
れる。距離計算は全て対数値の加算によって行なってい
るので、このテンプレートのバイグラムによる接続コス
トを、−(スケール)・log10(遷移確率)で与え
る。ここで、スケールはバイグラムの制約の強さを表わ
す変数である。本実施例では、照合部4は、上記整合処
理において、上記参照用の複数のテンプレートの中で、
テンプレートからテンプレートへの遷移に関するバイグ
ラム確率に基づいて、2つのテンプレートの接続コスト
を表し、上記接続コストが小さくなるようにアクセント
句境界を検出する。
【0066】現在、終端可能範囲のいずれの点からも等
しいコストで遷移が可能なため、接続コストを与えた場
合には可能な限り接続回数を少なくしようとする傾向が
あるし、逆に接続コストを与えない場合にはしばしば終
端して新しいテンプレートへと接続しようとする傾向が
ある。これらの問題を解決するためには、アクセントパ
ターンの平均長に対する正規分布的な確率によって遷移
をコントロールするなどの方法が考えられる。
【0067】さらに、照合部4によって実行されるアク
セント句境界検出処理のフローについて、図13を参照
して説明する。この処理で用いるパラメータを以下に定
義する。 (a)未知の入力パターンのフレーム:i=1,…,
N。 (b)モデルテンプレートのテンプレート番号:k=
1,…,K。 (c)モデルテンプレートkのフレーム番号:j=1,
…,J。 (d)(i,j,k)における累積距離:D(i,j,
k)。この(i,j,k)における累積距離とは、On
e Stage DP上の入力音声フレームiの時刻に
おいてテンプレートkのjフレームと整合していると仮
定した場合の、その時刻までの対数ピッチによる最小二
乗誤差である。ただし、それを好ましくは、N−bes
t候補を記憶しているが、当該処理では最良の1個のみ
の1−bestの例で記述している。 (e)(i,j,k)における高さ方向の対数移動幅:
O(i,j,k)。 (f)(i,j,k)におけるフレーム間距離:d
(i,j,k,O)。 (g)対数ピッチ周波数値:P(i)。 (h)モデルテンプレート番号kにおけるフレームjの
対数ピッチ周波数値:Tk(j)。 (i)入力フレームiにおけるピッチ周波数の信頼度:
r(i)。 (j)フレーム間距離:次の数14で表される。
【数14】d(i,j,k,O)=r(i)(P(i)
−(Tk(j)+O))。 (k)バイアスの上限:B。 (l)テンプレートk’からkへの接続コスト:big
ram(k’,k)。
【0068】数5におけるFminの値は話者に依存して
さまざまな値をとるが、アクセントモデルテンプレート
のFminの値は学習話者のもので固定されている。この
ため、従来の方法におけるR型(高さ方向に移動可能
な)テンプレートの方法と同様にテンプレートに若干の
上下移動を与えることにする。バイアスBはその時の上
限である。
【0069】図13に示すように、アクセント句境界検
出処理では、ステップS1において初期化処理を実行す
る。具体的には以下の通りである。 (I)ステップS101:パラメータkを1からKまで
1ずつインクリメントしてステップS102乃至S10
3を実行する。 (II)ステップS102:数15を実行する。
【数15】D(1,1,k)=0 (III)ステップS103:パラメータjを2からJk
で1ずつインクリメントして数16を実行する。
【数16】D(1,j,k)=∞
【0070】次いで、ステップS2では、累積距離D
(i,j,k)と対数移動幅O(i,j,k)とを計算
する処理を実行する。具体的には以下の通りである。 (IV)ステップS201:パラメータiを2からNまで
1ずつインクリメントしてステップS202乃至S20
5を実行する。 (V)ステップS202:パラメータkを1からKまで
1ずつインクリメントしてステップS203乃至205
を実行する。 (VI)ステップS203:次の数17乃至数19を実行
する。
【0071】
【数17】
【0072】ここで、関数argminは、引数を最小
にするようなパラメータj’,k’の値を関数値として
計算する。なお、j’はテンプレートk’における終端
可能範囲である。
【0073】
【数18】O(i,1,k)=min[P(i)−Tk
(1),B]
【数19】D(i,1,k)=D(i−1,j*,k*)
+d(i,1,k,O(i,1,k))+bigram(k',k)
【0074】ここで、bigram(k',k)はテンプ
レートk’とテンプレートkとの間のバイグラム値であ
る。 (VII)ステップS204:パラメータjを2からJk
で1ずつインクリメントしてステップS205を実行す
る。 (VIII)次の数20及び数21を実行する。
【0075】
【数20】D(i,j,k)=D(i−1,j−1,k)
+d(i,j,k,O(i−1,j−1,k))
【数21】 O(i,j,k)=O(i−1,j−1,k)
【0076】さらに、ステップS3では、テンプレート
の履歴をトレースバックして、テンプレートの接続境界
をアクセント句境界として検出する。すなわち、入力音
声の終端までの整合が終ったときに得られる整合テンプ
レート履歴がテンプレート数Kと、テンプレートkの終
端可能区間幅Wkと、N−best候補数Nであれば、
次の数22で表される個数が存在する。
【0077】
【数22】
【0078】このうち累積距離の小さいものから順にN
−bestの候補を選択し、それぞれのテンプレートの
履歴を遡って、すなわちトレースバックしてテンプレー
トの接続境界を句境界として検出する。実際には、公知
のN−best法(例えば、R.Schwartz et al.,“The
N-best Algorithm: an efficient and extract procedu
re for finding the N most likely sentence hypothes
es",In ICASSP-90,pp.81-84,1990年参照。)を用い
て、N位までの候補を記憶している。
【0079】ただし、ここでいうN−bestの基準は
テンプレートの系列に対してである。実際には異なるテ
ンプレート系列であっても、境界候補としては全く同等
な候補となる場合もあり得るし、またテンプレート系列
と最適に整合しなければならないという条件を除けば、
同一系列に対しても複数の候補が存在する。従って句境
界候補としてはN−bestではないが、この条件によ
ってOne Stage DP上での実装が容易にな
り、高速に複数N候補を検出できることが可能となる。
【0080】なお、「トレースバック」とはOne S
tage DPの性質によるもので、メモリの節約のた
め履歴は直前のンプレートとの接続境界のみしか記憶し
ていないからである。また、N−bestの基準はテン
プレートの履歴が異なるものうち、累積距離最小を基準
としてN個選択したものである。ここでいうテンプレー
トの履歴とは、テンプレートの接続時刻を指すのではな
く、どのテンプレートと接続したかというテンプレート
の並びを指す。従って、図6及び図7に示したようなア
クセント句境界検出の例では、1位R2−R2−R1、
2位R2−R0−R2−R1のように1つの系列には1
通りの検出結果しか存在しない。
【0081】本発明者は、図1のアクセント句境界検出
装置の性能を検証するために、以下のようにシミュレー
ションを行った。ここで、連続音声のデータベースとし
ては、本出願人が所有の日本語連続音声データベースを
用いてアクセント句境界の検出シミュレーションを行っ
た。MHT、MSH、MTKの3名について、本実施例
のピッチパターンモデルのパラメータが与えられてい
る。ただし、それぞれ503文章中の200文程度であ
り、発話内容については特に統一されていない。学習デ
ータとしては、男性話者のMHT、MSH、MTKの発
話音声No.51乃至503のうち、アクセントモデル
パラメータが与えられている資料を学習に用いる。ま
た、シミュレーションデータとしては、男性話者のMY
I、MHO、並びに女性話者のFKN、FKSの発話音
声No.1乃至50をアクセント句境界検出の対象と
し、話者性と発声内容とともにオープンシミュレーショ
ンとした。
【0082】まず、シミュレーションに使用したパラメ
ータを表2及び表3に示す。
【0083】
【表2】 特徴抽出部2のピッチ抽出処理 ──────────────────────────────── FFT 512ポイント(42.7ミリ秒) 分析シフト 120ポイント(10.0ミリ秒) ピッチ抽出時の探索範囲 70乃至300Hz 抽出法 lag−window法(自動抽出) ────────────────────────────────
【0084】
【表3】 照合部4の句境界検出処理 ───────────────────── モデルテンプレート数 8個 N−best 候補数 10位 バイアスの上限 60Hz バイグラムの強さ(スケール) 0.1 ─────────────────────
【0085】まず、アクセント句境界検出評価基準につ
いて説明する。まず、本実施例におけるアクセント句境
界とはアクセント句とアクセント句の境界である。ポー
ズとアクセント句の境界はポーズ境界として定義する。
ただし、ポーズ検出処理において検出されなかった文中
のポーズは句境界として扱う。このとき、 (a)未検出ポーズ時間が長く、ポーズの両端がアクセ
ント句境界として検出された場合は2つの句境界に対し
て2つ正解検出されたものとする。 (b)未検出ポーズ時間が短く、ポーズ間、もしくはそ
の周辺に1つのアクセント句境界が検出された場合は
1つの句境界に対して1つ正解検出されたものとする。
【0086】また、句境界検出の結果は、次の数23及
び数24とによって評価する。
【0087】
【数23】句境界検出率=(正解検出数)/(視察によ
る句境界の総数)
【数24】句境界挿入誤り率=(不正解検出数)/(視
察による句境界の総数)
【0088】ここで、正解検出句境界とは視察によるア
クセント句境界の前後100ミリ秒内に自動検出された
ものを指す。また、N−best候補に対しては、n位
候補までの平均句境界検出率、n位候補までの平均句境
界挿入誤り率、n位候補までの累積句境界検出率、及び
n位候補中の最大句境界検出率を挙げた候補についての
句境界検出率と句境界挿入誤り率を評価する。
【0089】従来のF0テンプレートによる句境界検出
法を用いた話者MYIのシミュレーション結果を表4に
示す。なお、これまで複数のピッチ候補を抽出してその
中からF0パターンの連続性を保証するようなピッチを
選択し、100%の信頼度を与えてきたが、本報告では
ピッチ候補は1つとし、ピッチ抽出時の自己相関関数の
ピークの高さを信頼度として与える。
【0090】
【表4】 F0テンプレートによる句境界検出精度(話者MYI) ─────────────────────────────────── MYI 句境界検出率(%) 句境界挿入誤り率(%) ─────────────────────────────────── 候補数 最大検出率候補(平 均)[累 積] 最大検出率候補(平 均) ─────────────────────────────────── 1 71.4 (71.4)[71.4] 102.3(102.3) 3 80.5 (72.6)[81.0] 80.5 (98.6) 5 86.0 (72.8)[86.5] 71.0 (98.8) 10 89.6 (72.3)[91.2] 65.8(100.1) ───────────────────────────────────
【0091】本発明に係る実施例のアクセントモデルテ
ンプレートを使用して以下の3種類のシミュレーション
を行った。 (a)バイグラム(bigram)をテンプレートの接
続コストとして使用しないシミュレーションとして、F
0テンプレートを使用した従来の句境界検出法と比較の
ためのシミュレーションを行った。その結果を表5に示
す。 (b)バイグラム(bigram)の代わりに等確率で
テンプレートが接続すると仮定したシミュレーションを
行った。その結果を表6に示す。 (c)バイグラム(bigram)をテンプレートの接
続コストとして与えたシミュレーションを行った。その
結果を表7に示す。
【0092】
【表5】 モデルテンプレートによる句境界検出精度(話者MYI) ─────────────────────────────────── MYI 句境界検出率(%) 句境界挿入誤り率(%) ─────────────────────────────────── 候補数 最大検出率候補(平 均)[累 積] 最大検出率候補(平 均) ─────────────────────────────────── 1 82.5 (82.5)[82.5] 77.1 (77.1) 3 90.1 (81.9)[90.2] 64.1 (83.5) 5 93.3 (81.0)[93.8] 59.8 (88.9) 10 96.4 (81.7)[97.4] 49.3 (95.1) ───────────────────────────────────
【0093】
【表6】 ─────────────────────────────────── MYI 句境界検出率(%) 句境界挿入誤り率(%) ─────────────────────────────────── 候補数 最大検出率候補(平 均)[累 積] 最大検出率候補(平 均) ─────────────────────────────────── ─────────────────────────────────── 1 61.9 (61.9)[61.9] 42.2 (42.2) 3 80.1 (63.5)[83.5] 34.4 (52.2) 5 85.9 (64.6)[90.0] 31.8 (57.3) 10 92.3 (66.6)[96.1] 28.1 (64.8) ───────────────────────────────────
【0094】
【表7】 モデルテンプレート(Bigram)による句境界検出精度(話者MYI) ─────────────────────────────────── MYI 句境界検出率(%) 句境界挿入誤り率(%) ─────────────────────────────────── 候補数 最大検出率候補(平 均)[累 積] 最大検出率候補(平 均) ─────────────────────────────────── 1 59.4 (59.4)[59.4] 41.0 (41.0) 3 76.5 (61.0)[81.2] 30.0 (45.6) 5 81.2 (62.1)[87.1] 28.4 (52.0) 10 91.4 (64.9)[94.7] 25.5 (59.4) ───────────────────────────────────
【0095】上記のシミュレーションの結果について以
下に考察する。図11及び図12はそれぞれ話者MYI
についての従来のF0テンプレートとモデルテンプレー
トによる句境界検出率と句境界挿入誤り率の比較であ
る。黒く塗り潰してプロットしたものはN位候補を個別
に評価したもののうち、最大の検出率を挙げた候補につ
いてであり、白抜きでプロットしたものはN位候補まで
の累積である。図11及び図12から明らかなように、
いずれの候補数においても従来のF0テンプレートに比
べて、モデルテンプレートによる句境界検出率は7%以
上増加している。また、どちらのテンプレートにおいて
も累積検出率に着目した場合、最大句境界検出率とあま
り大きな差がないことがわかる。累積検出率とは平たく
言えば1位候補で検出されなかった句境界が下位候補で
検出されていれば、加算していくといったものである
が、単一候補による最大句境界検出率と複数候補からな
る累積句境界検出率にあまり差がないというのは、挿入
誤りが関与しているからであると考えられる。
【0096】従来のパターン連続整合法では、アクセン
ト句のF0パターンをクラスタリングすることによりア
クセントF0テンプレートを作成し、アクセント句境界
検出を行なっていた。しかしながら、アクセントモデル
を仮定していないため単なるアクセントパターン認識の
範疇に止まっていた。これに対して、本発明では、上述
のアクセントモデルを使用してアクセントモデルテンプ
レートによるアクセント句境界検出装置を開示してい
る。これによりテンプレートの整合規則がアクセントモ
デルによって図られ、処理速度は従来の方法に比較して
1/7乃至1/8になった。
【0097】以上説明したように、本発明に係る実施例
によれば、連続音声認識のためのアクセント句境界を従
来に比較してより小さい誤り率で検出することができ、
しかも検出のための処理時間を大幅に短縮することがで
きる。
【0098】
【発明の効果】以上詳述したように本発明によれば、入
力される発声音声に基づいて上記発声音声におけるポー
ズを検出するとともに、ピッチ周波数の時間的に連続的
なピッチパターンを検出する特徴抽出手段と、入力され
る学習用発声音声に基づいて上記特徴抽出手段によって
検出されたポーズとピッチパターンに基づいて、上記学
習用発声音声をアクセント成分とフレーズ成分のパラメ
ータによって表された所定のアクセントモデルにモデル
化してアクセントモデルパターンを検出するモデル処理
手段と、上記モデル処理手段によって検出されたアクセ
ントモデルパターンをピッチパターンに変換した後クラ
スタンリングして各クラスタに属するアクセントモデル
パターンの平均を計算することにより、経過時間に対す
るピッチパターンで表された各クラスタの参照用の複数
のテンプレートを計算するクラスタンリング処理手段
と、入力される検出用発声音声に基づいて上記特徴抽出
手段によって検出されたポーズとピッチパターンに基づ
いて、上記ピッチパターンと上記参照用の複数のテンプ
レートとの間の距離が小さくなるように整合することに
より、上記各テンプレートの接続境界に基づいてアクセ
ント句境界を検出して出力する照合手段とを備える。従
って、連続音声認識のためのアクセント句境界を従来に
比較してより小さい誤り率で検出することができ、しか
も検出のための処理時間を大幅に短縮することができ
る。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である連続音声認識の
ためのアクセント句境界検出装置のブロック図である。
【図2】 図1の装置で用いるアクセントモデルの各パ
ラメータを示すタイミングチャートである。
【図3】 (a)は図1の装置に入力される音声信号の
信号波形を示すタイミングチャートであり、(b)は上
記(a)の音声信号の信号波形に対応し、図1の装置で
検出されるピッチパターンのタイミングチャートであ
り、(c)は上記(a)の音声信号の信号波形に対応
し、図1の装置で検出されるモデルパラメータのタイミ
ングチャートであり、(d)は上記(a)の音声信号の
信号波形に対応し、図1の装置で検出されるアクセント
フレーズモデルである。
【図4】 図1のクラスタリング処理部12によって処
理結果であるアクセントモデルの例を示す図である。
【図5】 図1の装置で用いるアクセントモデルテンプ
レートの一例を示すタイミングチャートである。
【図6】 (a)は図1の装置に入力される音声信号の
信号波形の第1の部分を示すタイミングチャートであ
り、(b)は上記(a)の音声信号の信号波形に対応
し、図1の装置で検出されるピークの高さのタイミング
チャートであり、(c)は上記(a)の音声信号の信号
波形に対応し、図1の装置で検出されるピッチパターン
のタイミングチャートであり、(d)は上記(a)の音
声信号の信号波形に対応し、図1の装置で検出されるア
クセント句境界候補である。
【図7】 (a)は図1の装置に入力される音声信号の
信号波形の第2の部分を示すタイミングチャートであ
り、(b)は上記(a)の音声信号の信号波形に対応
し、図1の装置で検出されるピークの高さのタイミング
チャートであり、(c)は上記(a)の音声信号の信号
波形に対応し、図1の装置で検出されるピッチパターン
のタイミングチャートであり、(d)は上記(a)の音
声信号の信号波形に対応し、図1の装置で検出されるア
クセント句境界候補である。
【図8】 (a)は図1の装置で用いるF0テンプレー
トの一例を示す図であり、(b)は図1の装置で用いる
モデルテンプレートの一例を示す図である。
【図9】 図1の装置で用いるアクセントモデルテンプ
レートの整合パスに関する制約を示す図である。
【図10】 図1の装置で用いるテンプレート間の遷移
頻度を示す図である。
【図11】 図1の装置で実行されたシミュレーション
結果の一例である候補数に対する句境界検出率の関係を
示すグラフである。
【図12】 図1の装置で実行されたシミュレーション
結果の一例である候補数に対する句境界挿入誤り率の関
係を示すグラフである。
【図13】 図1のOne Stage DP照合部4
によって実行される句境界検出処理のフローチャートで
ある。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…One Stage DP照合部、 11…アクセントモデル化処理部、 12…クラスタリング処理部、 20…アクセントモデルパターンメモリ、 21…アクセントモデルテンプレートメモリ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 入力される発声音声に基づいて上記発声
    音声におけるポーズを検出するとともに、ピッチ周波数
    の時間的に連続的なピッチパターンを検出する特徴抽出
    手段と、 入力される学習用発声音声に基づいて上記特徴抽出手段
    によって検出されたポーズとピッチパターンに基づい
    て、上記学習用発声音声をアクセント成分とフレーズ成
    分のパラメータによって表された所定のアクセントモデ
    ルにモデル化してアクセントモデルパターンを検出する
    モデル処理手段と、 上記モデル処理手段によって検出されたアクセントモデ
    ルパターンをピッチパターンに変換した後クラスタリン
    グして各クラスタに属するアクセントモデルパターンの
    平均を計算することにより、経過時間に対するピッチパ
    ターンで表された各クラスタの参照用の複数のテンプレ
    ートを計算するクラスタリング処理手段と、 入力される検出用発声音声に基づいて上記特徴抽出手段
    によって検出されたポーズとピッチパターンに基づい
    て、上記ピッチパターンと上記参照用の複数のテンプレ
    ートとの間の距離が小さくなるように整合することによ
    り、上記各テンプレートの接続境界に基づいてアクセン
    ト句境界を検出して出力する照合手段とを備えたことを
    特徴とする連続音声認識のためのアクセント句境界検出
    装置。
  2. 【請求項2】 上記照合手段は、上記参照用の複数のテ
    ンプレートを用いて上記各テンプレートの接続境界に相
    当する入力された発声音声上の時刻をアクセント句境界
    として検出することを特徴とする請求項1記載のアクセ
    ント句境界検出装置。
  3. 【請求項3】 上記照合手段は、One Stage
    DP法を用いて、上記ピッチパターンと上記参照用の複
    数のテンプレートとの間で、傾きが1である線形整合で
    整合処理することを特徴とする請求項1又は2記載のア
    クセント句境界検出装置。
  4. 【請求項4】 上記照合手段は、テンプレートが構成す
    るクラスタに属するアクセントモデルパターンに基づい
    て、上記整合処理における上記テンプレートに終端領域
    を設定することを特徴とする請求項3記載のアクセント
    句境界検出装置。
  5. 【請求項5】 上記照合手段は、上記整合処理におい
    て、上記参照用の複数のテンプレートの中で、テンプレ
    ートからテンプレートへの遷移に関するバイグラム確率
    に基づいて、2つのテンプレートの接続コストを表し、
    上記接続コストが小さくなるようにアクセント句境界を
    検出することを特徴とする請求項3又は4記載のアクセ
    ント句境界検出装置。
  6. 【請求項6】 上記特徴抽出手段は、入力される発声音
    声のパワーが所定のしきい値以下であることが所定の時
    間以上続いたときポーズとして検出することを特徴とす
    る請求項1乃至5のうちの1つに記載のアクセント句境
    界検出装置。
  7. 【請求項7】 上記アクセントモデルは、特定のアクセ
    ント句のアクセント指令と、上記特定のアクセント句の
    1つ前のアクセント句の直前に存在するフレーズ指令と
    上記特定のアクセント句の直前に存在するアクセント句
    のフレーズ指令と、上記特定のアクセント句内のアクセ
    ント指令の直後に存在するフレーズ指令とのそれぞれの
    大きさと時間的なタイミングのデータを含むことを特徴
    とする請求項1乃至6のうちの1つに記載のアクセント
    句境界検出装置。
JP6310455A 1994-12-14 1994-12-14 連続音声認識のためのアクセント句境界検出装置 Expired - Fee Related JP2793137B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6310455A JP2793137B2 (ja) 1994-12-14 1994-12-14 連続音声認識のためのアクセント句境界検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6310455A JP2793137B2 (ja) 1994-12-14 1994-12-14 連続音声認識のためのアクセント句境界検出装置

Publications (2)

Publication Number Publication Date
JPH08166796A true JPH08166796A (ja) 1996-06-25
JP2793137B2 JP2793137B2 (ja) 1998-09-03

Family

ID=18005461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6310455A Expired - Fee Related JP2793137B2 (ja) 1994-12-14 1994-12-14 連続音声認識のためのアクセント句境界検出装置

Country Status (1)

Country Link
JP (1) JP2793137B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
CN109036437A (zh) * 2018-08-14 2018-12-18 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及计算机可读存储介质
CN109961794A (zh) * 2019-01-14 2019-07-02 湘潭大学 一种基于模型聚类的分层说话人识别方法
CN113470698A (zh) * 2021-06-30 2021-10-01 北京有竹居网络技术有限公司 一种说话人转换点检测方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3403838B2 (ja) 1994-10-28 2003-05-06 三菱電機株式会社 句境界確率計算装置および句境界確率利用連続音声認識装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
CN109036437A (zh) * 2018-08-14 2018-12-18 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及计算机可读存储介质
CN109961794A (zh) * 2019-01-14 2019-07-02 湘潭大学 一种基于模型聚类的分层说话人识别方法
CN113470698A (zh) * 2021-06-30 2021-10-01 北京有竹居网络技术有限公司 一种说话人转换点检测方法、装置、设备及存储介质
CN113470698B (zh) * 2021-06-30 2023-08-08 北京有竹居网络技术有限公司 一种说话人转换点检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2793137B2 (ja) 1998-09-03

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP3049259B2 (ja) 音声認識方法
JP3053711B2 (ja) 音声認識装置およびそのトレーニング方法ならびに装置
JP2965537B2 (ja) 話者クラスタリング処理装置及び音声認識装置
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP2823469B2 (ja) 文脈依存型音声認識装置および方法
US6236963B1 (en) Speaker normalization processor apparatus for generating frequency warping function, and speech recognition apparatus with said speaker normalization processor apparatus
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
Witt et al. Language learning based on non-native speech recognition.
EP0750293A2 (en) State transition model design method and voice recognition method and apparatus using same
US20060074674A1 (en) Method and system for statistic-based distance definition in text-to-speech conversion
JPH01102599A (ja) 音声認識方法
CN111179917B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
US20130211839A1 (en) Feature sequence generating device, feature sequence generating method, and feature sequence generating program
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
KR20160098910A (ko) 음성 인식 데이터 베이스 확장 방법 및 장치
JP2002215187A (ja) 音声認識方法及びその装置
Rosdi et al. Isolated malay speech recognition using Hidden Markov Models
US8185393B2 (en) Human speech recognition apparatus and method
JP2793137B2 (ja) 連続音声認識のためのアクセント句境界検出装置
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
Gómez et al. Improvements on automatic speech segmentation at the phonetic level
JP2004139033A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP2011053312A (ja) 適応化音響モデル生成装置及びプログラム
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees