JP2001125584A - 言い淀み検出方法及び装置 - Google Patents

言い淀み検出方法及び装置

Info

Publication number
JP2001125584A
JP2001125584A JP30576899A JP30576899A JP2001125584A JP 2001125584 A JP2001125584 A JP 2001125584A JP 30576899 A JP30576899 A JP 30576899A JP 30576899 A JP30576899 A JP 30576899A JP 2001125584 A JP2001125584 A JP 2001125584A
Authority
JP
Japan
Prior art keywords
voiced
reliability
pause
voiced pause
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30576899A
Other languages
English (en)
Other versions
JP3376487B2 (ja
Inventor
Masataka Goto
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP30576899A priority Critical patent/JP3376487B2/ja
Publication of JP2001125584A publication Critical patent/JP2001125584A/ja
Application granted granted Critical
Publication of JP3376487B2 publication Critical patent/JP3376487B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】本発明は、自然な発話による音響信号に対し
て、有声休止と音節の引き延ばしの二つの言い淀み現象
を検出することを目的としている。 【解決手段】本発明の言い淀み検出方法及び装置は、音
声を含む入力音響信号に対して周波数解析をおこない有
声休止の音響的特徴を定量的に捉え、それらに基づい
て、有声休止であると判定する信頼度を評価し、前記信
頼度とそれに基づいて決定した有声休止区間を出力す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、計算機の音声理解能力
を向上させ、人間と計算機との間で自然なマルチモーダ
ル対話を実現する自然発話中の言い淀み箇所の検出方法
及び装置に関する。
【0002】
【従来の技術】計算機の音声理解能力を向上させ、人間
と計算機との間で自然なマルチモーダル対話を実現する
ためには、話者がその場で内容を考えながら自発的に発
話した音声を、計算機が理解できる必要がある。そのよ
うな自然な発話には、有声休止、無声休止、音節の引き
延ばし、言い直しといった、書き言葉には通常現れな
い、話し言葉特有の言い淀み現象が頻繁に現れる。特
に、有声休止(filled pause)と音節の引き延ばし(word
lengthening)の二つの言い淀み現象は、音声対話におい
て、これらが共通して、発話権の保持や心的状態・思考
状態の表出といった大切な役割を果たしている。音声対
話システムの性能を向上させるには、言い淀み現象を冗
長語や不用語等とみなして単に無視するのではなく、言
い淀みが起きていることを的確に認識し、それらの役割
を把握して活用することが重要である。
【0003】典型的な音声認識システムは、言い淀み現
象を含まない、書き言葉を読み上げたような朗読音声を
前提としてきたため、自然な発話を認識することは一般
に困難である。例えば、HMMに基づく音韻モデルを、有
声休止や音節の引き延ばしを伴う音声に適用すると、音
韻の継続時間が突然大きく延びることがあるため、有効
に機能しなくなる。また、言語モデルに関しても、有声
休止はほとんど任意の単語間に入りうるため、それを網
羅的に記述したような文法は、制約としては弱くなって
しまい効果的でない。そこでこれまでに、このように誤
認識の原因となる有声休止を、サブワード単位に基づく
連続音声認識やワードスポッティングの枠組みで部分的
に扱う手法が提案されてきた。例えば、10個のつなぎ語
(多くの論文では、言い淀む際に用いる「えーと」や
「あのー」等の語を間投詞と呼んでいるが、場つなぎ的
な役割をより明確に表すために、本明細書ではつなぎ語
(filler)という用語を用いる。)を語彙に追加登録する
ことによって連続音声認識システムで扱えるようにする
手法(中川聖一, 小林聡: 自然な音声対話における間投
詞・ポーズ・言い直しの出現パターンと音響的性質, 日
本音響学会誌,Vol.51,No.3, pp.202-210,(1995))や、
つなぎ語を未知語とみなして、サブワード系列照合に基
づく未知語処理で対処する手法(Kai, A. and Nakagaw
a, S.:Investigation on unknown word processing and
strategies for spontaneous speech understanding,
Proc. of Eurospeech '95, pp.2095-2098,(1995))等が
既に提案されている。しかしこれらは、言い淀み現象を
個々に検出し、その役割まで把握しながら適切に扱うよ
うなアプローチではなかった。
【0004】そこで本発明は、有声休止と音節の引き延
ばしの箇所を、ボトムアップな音響分析によって個々に
検出するアプローチをとる。つなぎ語の韻律的特徴に関
する従来研究(Quimbo, F. C.M., Kawahara, T. and Do
shita, S.: Prosodic analysisof fillers and self-re
pair in Japanese speech, Proc. of ICSLP 98 (199
8))では、韻律的特徴の調査に留まっており、自動的に
有声休止を検出するシステムはまだ構築されていなかっ
た。
【0005】
【発明が解決しようとする課題】有声休止と音節の引き
延ばしの二つの言い淀み現象は同様な音響的特徴を持っ
ており、音声対話の観点からは同じ機能を果たしている
と考えられる。本明細書では以下、「有声休止」を両者
を指す用語として用いる。
【0006】有声休止が自然な発話において本質的に不
可避なのは、それが、思考プロセスが発話プロセスに追
い付かない場合に表れる現象であるからだと考えられ
る。その場で内容を思考しながら発話する場合、発話ス
ピードとその内容を準備する思考スピードとは必ずしも
一致しない。そこで、思考スピードの方が遅い場合(そ
もそも思考対象が何かわからない場合等も含む)、思考
プロセスの結果である次の発話内容が発話プロセスに届
くまでの間、話者は時間を稼ぐために有声休止や無声休
止を用いる。
【0007】音響信号中の有声休止の区間を検出するこ
とは、大別して二つの意義を持つ。一つは音声認識に対
する貢献で、例えば、検出した有声休止の区間を除いて
から認識処理をおこなうことで、自然発話に対する音声
認識システムの性能を向上させられることが期待でき
る。これについての詳細は後述する。もう一つは音声対
話に対する貢献で、有声休止の役割を考慮した音声対話
システムを実現することが可能になる。有声休止は、対
話において、少なくとも次の二つの大切な役割を担って
いると考えられている。
【0008】1)発話権の保持、場つなぎの機能 音声対話では、その進行に伴い、話者間で発話権が移動
していく。話者の立場からは、次の発話が準備できてい
ないにも関わらず発話権を持ち続けたいとき(あるいは
とりあえず何か発話しなければならない状況のとき)、
発話を準備しながら有声休止をおこなうことで、聴取者
に次の発話を待って欲しいと伝えることができる。逆に
聴取者の立場からは、有声休止を聞くと、割り込んで発
話権を奪うのを控え、話者の次の発話を待った方がよい
等と判断できる。
【0009】2)話者の心的状態・思考状態を表す機能 円滑な対話を進めるために、話者は自分の心的状態・思
考状態を、無意識のうちに聴取者と共有する行動をと
る。話者の立場からは、有声休止の方法(音韻やイント
ネーション、発声法等)によって、発話内容に対する自
信のなさ、不安、躊躇、謙遜といった心的状態を表現で
きる。また、そのつなぎ語の種類等によって、何かを思
い出そうとしているのか、あるいは聴取者にとって適切
な表現を探しているのかといった、異なる思考状態を表
現することができる。逆に聴取者の立場からは、有声休
止を解釈することで、話者の現在の心的状態・思考状態
を推測することができ、それを言語情報以外の付加情報
(別のモダリティ)として利用できる。さらに、次の発話
内容をある程度予測することも、場合によっては可能と
なる。その際には、前述のように話者の発話を待つだけ
でなく、話者の手助けとなるような発話をおこなうこと
もある。
【0010】そこで、本発明は、自然な発話による音響
信号に対して、有声休止と音節の引き延ばしの二つの言
い淀み現象を検出することを目的としている。
【0011】
【課題を解決するための手段】本発明は、音声音響信号
中の有声休止の音響的特徴を、ボトムアップな周波数解
析によって検出する。前述したように、発話プロセスが
思考プロセスから次の発話内容が届くのを待っている間
に、有声休止が発声されるのであれば、話者は調音器官
(喉頭を含む)の位置・状態を有声休止中は変化させるこ
とができない。調音器官をどう動かすかを決めるはずの
次の発話内容が、まだ準備されていないからである。そ
こで、有声休止は、調音器官がほぼ一定のまま(声道形
状がほとんど変化しない状態で)声帯が振動し続けると
きの音声、つまり、音韻的に変化が少ない持続した有声
音(以下、有声休止音)を伴っていると仮定する。実際
に、有声休止で典型的に用いられる「えー」「うー
(ん)」「あー」「まー」「んー」「あのー」「そのー」
「このー」等や、音節中の母音の引き延ばし箇所には、
このような有声休止音が含まれており、これが妥当な仮
定であることがわかる。
【0012】本発明は、有声休止音が持つ次の二つの特
徴に基づいて、有声休止を検出する。 1)基本周波数の変動が小さい。 調音器官の状態が一定であれば、声帯の緊張条件は変化
せず、声の基本周波数はほぼ一定のままとなる。 2)スペクトル包絡の変形が小さい。 調音器官の位置が一定であれば、声道形状は変化せず、
フォルマントを反映したスペクトル包絡はほぼ一定のま
まとなる。ただし、有声休止中でも肺からの呼気量は変
化するため、そのAM変調成分を取り除いて、スペクトル
包絡の変形量を評価する必要がある。
【0013】
【発明の実施の形態】図1は、本発明を適用する有声休
止検出の処理の流れを示す。まず、入力音響信号から音
響的特徴を推定する。ここでは、基本周波数を推定し、
その結果に基づいてスペクトル包絡を推定する。これら
を得るにはLPC等の単一音源を前提とした分析等様々な
実施の形態が考えられる。ここでは、背景雑音や背景音
楽を伴う入力に対してもロバストに機能するように、最
も優勢な高調波構造に基づく推定をおこなう。そのため
に、周波数成分を抽出する必要があるが、その一手法と
して、入力音響信号に対して瞬時周波数を計算し、瞬時
周波数に関連した尺度に基づいて周波数成分を抽出す
る。次に、最も優勢な高調波構造に基づいて基本周波数
を推定し、その結果に基づいてスペクトル包絡を推定す
る。そして、前述した有声休止音の二つの特徴を定量的
に捉え、それらを統合して、有声休止であると判定する
信頼度「有声休止らしさ」を評価する。最後に、有声休
止らしさとそれに基づいて決定した有声休止区間を出力
する。以下、個々の構成についてさらに詳述する。
【0014】瞬時周波数の算出 本発明は、まず、フィルタバンクの各出力信号に対し、
位相の時間微分である瞬時周波数(Flanagan, J.L. and
Golden, R.M.: Phase Vocoder, The Bell System Tech
nical J., Vol.45, pp.1493-1509 (1966)参照)を計算
する。ここでは、前者のFlanaganの手法を用い、短時間
フーリエ変換(STFT)の出力をフィルタバンク出力と解釈
して、効率良く瞬時周波数を計算する。入力音響信号 x
(t) に対する窓関数 h(t) のSTFTが
【0015】
【数1】
【数2】 で定義されるとき、瞬時周波数 λ(ω,t) は次式で求め
ることができる。
【数3】
【0016】現在の実装では、音響信号を標本化周波数
16 kHz、量子化ビット数 16 bitでA/D変換し、窓関数
h(t) として窓幅1024点のハニング窓を用いたSTFTを、
高速フーリエ変換(FFT)によって計算する。その際、FFT
のフレームを160点ずつシフトするため、フレームシフ
ト時間(1フレームシフト)は 10 msec となる。このフレ
ームシフトを、すべての処理の時間単位とする。
【0017】周波数成分の抽出 フィルタの中心周波数からその瞬時周波数への写像に基
づいて、周波数成分を抽出する。(Charpentier, F.J.:
Pitch detection using the short-term phase spectr
um, Proc. of ICASSP 86, pp.113-116 (1986)参照)。
あるSTFTフィルタの中心周波数 ω からその出力の瞬時
周波数 λ(ω,t) への写像を考える。すると、もし周波
数 ψ の周波数成分があるときには、ψ がこの写像の
不動点に位置し、その周辺の瞬時周波数の値はほぼ一定
となる。つまり、全周波数成分の瞬時周波数ψf(t)
は、次式によって抽出することができる。
【0018】
【数4】 これらの周波数成分のパワーは、ψf(t) の各周波数に
おけるSTFTパワースペクトルの値として得られるため、
周波数成分のパワー分布関数 ψp(ω,t) を次のように
定義できる。
【数5】
【0019】基本周波数の推定 抽出した周波数成分に基づいて、話者の音声の基本周波
数を推定する。その際、実験環境における話者単独の音
声だけでなく、背景雑音や背景音楽を伴うような、実世
界の音響信号中の話者の音声にも適用できるようにすべ
きである。そこで、非周期的な雑音に加え、高調波構造
を持つ弱い雑音も含まれる場合を考慮して、入力信号中
で最も優勢な(パワーの大きい)高調波構造の基本周波数
を、音声の基本周波数として抽出する。そのために、時
刻 t において周波数 F が基本周波数となる可能性 PF0
(F,t)を評価する。なお、本明細書では以下、対数スケ
ールの周波数をcentの単位(本来は音高差(音程)を表す
尺度)で表し、Hzで表された周波数 fHz を、次のように
centで表された周波数 fcent に変換する。
【0020】
【数6】
【数7】 基本周波数の可能性 PF0(F,t) は、次式のように定義す
る。
【数8】
【0021】ここで、周波数を表す x と F の単位はce
ntとし、p(x;F) は基本周波数が F の高調波成分だけを
通過させるフィルタ関数、ψ'p(x,t) は、周波数軸がce
ntで表されていることを除けばψp(ω,t)(前記5)と同
じパワー分布関数であるとする。フィルタ関数 p(x;F)
は次式のように与える(図2)。
【0022】
【数9】
【数10】 ここで、N(現在の実装では8)は考慮する高調波成分の数
(基本周波数成分も数える)、Wf (20 cent) はガウス分
布 G(x;m,σ) の標準偏差を表す。c(h) は、第h次高調
波成分の通過量を決める関数で、ここでは c(h) = H
h(h-1) (H = 0.9849)とする。
【0023】こうして求めた PF0(F,t) は、各高調波構
造が相対的にどれくらい優勢かを表しているため、話者
の音声の基本周波数 FF0(t) は、PF0(F,t)を最大にする
周波数として求めることができる。
【数11】
【0024】スペクトル包絡の推定 実環境でロバストにスペクトル包絡を推定するために、
得られた基本周波数FF0(t) の高調波構造上にある、局
所的な情報だけを利用する。まず、FF0(t) の第k次高調
波成分のパワー Pow(k,t;FF0(t)) を、基本周波数の整
数倍の周波数を中心とするガウス分布で重み付けしなが
ら、その近傍の最大パワーを検出することで求める。
【0025】
【数12】 ここで、Ws(35 cent) はガウス分布の標準偏差を表す。
【0026】次に、線形スケールの周波数軸上で、隣接
する Pow(k,t;FF0(t)) の間を直線補間して、スペクト
ル包絡を求める。この包絡の計算は、日本語の母音の第
一、第二フォルマントを捉えられるような上限周波数(3
200 Hz)を設けておこなう。有声休止音の特徴として
は、包絡の大局的な変形を捉えた方が良いため、直線補
間した包絡を粗い周波数分解能 ζ(200 Hz)でリサンプ
リングし、低い方から n(1 ≦n≦ Nmax(15)) 点目の周
波数 nζ におけるスペクトル包絡 Env(n,t) を求め
る。最後に、肺からの呼気によるAM変調の影響を除去す
るために、条件
【0027】
【数13】 を満たすように Env(n,t) を正規化する。
【0028】有声休止音の二つの特徴の抽出 有声休止音の二つの特徴として、基本周波数の変動量 A
f(t) とスペクトル包絡の変形量 As(t) を求める。前者
は、基本周波数の変動がどれくらい大きいかを表し、後
者は、スペクトル包絡の変形がどれくらい大きく、一様
でないかを表す。基本周波数の変動量 Af(t) は、対数
スケールの基本周波数 FF0(t) の過去一定期間の変化
を、最小自乗法で直線近似した直線の傾き bF0 を用い
て、次式のように定義する。
【0029】
【数14】 bF0は、aF0 と bF0 をパラメータとして次式を最小化す
ることで得られる。
【数15】 ここで、PeriodF0(5フレームシフト)は直線近似する期
間である。
【0030】一方、スペクトル包絡の変形量 As(t)
は、スペクトル包絡 Env(n,t)の対数スケールのパワー
の過去一定期間の変化を、最小自乗法で直線近似した際
の直線の傾き bs(n) と誤差 errs(n) を用いて、次式の
ように定義する。
【数16】 bs(n) と errs(n) は、as(n) と bs(n) をパラメータと
して次式を最小化することで得られる。
【数17】 ここで、 Periods(10フレームシフト)は直線近似する期
間である。
【0031】有声休止らしさの評価 有声休止らしさ Pfp(t) (0 ≦ Pfp(t) ≦ 1)は、こうし
て得た二つの特徴 Ai(t) (i = f,s) の短時間平均
【数18】 に基づいて、
【数19】 のように定義する。ここで、 Periodfp (10フレームシ
フト)は平均する期間であり、R (0.034) は二つの特徴
に対する重み付けを決める定数、 W (0.575) は主に考
慮する変動・変形の範囲を決める定数である。
【0032】本発明では、有声休止らしさが一定期間十
分高い値のときに、話者が有声休止をおこなったと判定
する。そのために、条件 Pfp(t) > e-1 を満たし続ける
限りPfp(t) を累積加算して、合計値 Sumfp(t) を求め
る。満たさない場合には Sumfp(t) = 0 にリセットす
る。そして、Sumfp(t)が一定の閾値 Thfp(7 e-1) より
大きいとき、現在の時刻 t が有声休止区間内であると
判定する。
【0033】音声対話システムへの適用 本発明は音声対話システムに適用することができ、その
場合に、例えば、ユーザが有声休止をしていることを音
声対話システム側が検出したとき、システムに次のよう
な対応をとらせることが可能である。
【0034】1)検出した有声休止の区間では、ユーザの
思考を妨げないように、システム側は相槌を打ったり確
認発話をしたりせずに次の発話を待つ。
【0035】2)有声休止を検出した時点で、システム側
がユーザの次の発話を予測できれば、その予測内容を提
示してユーザの発話の手助けをする。そのためには、次
の発話の予測を常におこなうような仕組みを導入する必
要がある。スロットを埋めるようなタスクの場合には、
スロットに入りうる候補を提示するのもよい。
【0036】3)文献(伊藤克亘, 秋葉友良, 上條俊一,
田中和世: 休止を区切りとした対話処理, 情処研報音声
言語情報処理 95-SLP-7-21, pp.135-138 (1995))で提
案された、休止を区切りとした対話処理において、提案
時には無声休止しか言及されていなかったが、有声休止
(特に、音節の引き延ばし)箇所も区切りの候補として利
用する。
【0037】また、逆に、システム側の発話に関して
も、前述の機能を効果的に使う目的で、有声休止を導入
することが可能である。
【0038】
【実施例】音声音響信号を入力し、有声休止らしさとそ
れに基づく有声休止区間の判定結果をリアルタイムに出
力するシステムを、本発明に基づいて構築した。出力形
式として、視覚化のためのコンピュータグラフィック
ス、聴覚化のための音響信号、音声認識・対話システム
等で使用するための連続的に変化する数値(タイムスタ
ンプ付き)の三種類に対応した。コンピュータグラフィ
ックスの出力では、中間結果や出力が確認できるよう、
時間周波数平面上をスクロールする基本周波数と高調波
構造の軌跡を表示するウィンドウ、スペクトル包絡を3
次元表示するウィンドウ、基本周波数の変動量、スペク
トル包絡の変形量、有声休止らしさ、有声休止区間の判
定結果を表示するウィンドウなどが表示される。出力音
響信号は、推定した高調波構造が適切かどうかを確認で
きるよう、Pow(k,t;FF0(t)) に基づいて、正弦波重畳モ
デルで合成される。
【0039】本システムを分散環境で実装し、音響信号
の入出力、前述の有声休止検出手法の計算、中間結果や
出力の視覚化といったシステムを構成する各機能を、LA
N (Ethernet)上に分散した異なるプロセスとして実行で
きるようにした。その際、システムの拡張や音声認識・
対話システム等との接続を容易にするために、RACP (Re
mote Audio Control Protocol)を設計し、それに基づい
て実装した。RACPは、RMCP(Remote Music Control Prot
ocol) (後藤真孝, 根山亮, 村岡洋一: RMCP:遠隔音楽
制御用プロトコルを中心とした音楽情報処理, 情報処理
学会論文誌, Vol.40, No.3, pp.1335-1345 (1999)参
照)を音響信号の伝送用に拡張したネットワークプロト
コルである。本システムでは、計算はパーソナルコンピ
ュータ(Pentium MMX 200 MHz CPU, Linux 2.0)上で実行
され、音響信号の入出力や視覚化の処理はワークステー
ション(SGI Octane R10000 250MHz CPU, Irix 6.4)上で
実行される。
【0040】日本語の音声対話コーパスから100発話を
抜粋した評価用音声データを用意し、それを対象に実験
をおこなった。使用したコーパスは、Wizard of Oz方式
を用いて収録した自由発声音声の対話コーパス(Itou,
K., Akiba, T., Hasegawa, O., Hayamizu, S. and Tana
ka, K.: A Japanese spontaneous speech corpus colle
cted using automatically inferencing Wizard of OZ
system, J. Acoust. Soc. Jpn. (E), Vol.20, No.3 (19
99)参照)であり、渋谷のレストラン、デパートなどの
道案内をタスクとするものである。100発話は、10名の
話者(成人男性5名、成人女性5名)の発話から、有声休止
を最低一つ含む発話だけを、各話者につき10発話抜粋し
て構成した。ここでの発話は、無音で区切られた音声区
間を意味し、300 ms以上の無音区間を自動検出して切り
出された。本実験では、再現率(recall rate)と適合率
(precision rate)の観点から評価をおこなった。以下に
これらの定義を示す。
【0041】 再現率 = 正しく検出した有声休止の数/有声休止の総数 (20) 適合率 = 正しく検出した有声休止の数/有声休止として検出した数 (21) 実験の結果、再現率は 84.9% (107 / 126)、適合率は
91.5% (107 / 117)であった。ここでは、システムが有
声休止として検出した区間が実際の有声休止区間に含ま
れているとき、正しく検出したと判定した。正しく検出
した例の書き起こしテキストを以下に示す。システムが
検出した箇所の後に ”@” マークをつけた。
【0042】「えー@っと」 「うんとー@」 「はい、ではー@」 「あのー@、道を曲がる前にー@」 「えー@と、西武A<e->館を知っていますか」 「あー@んと,パルコパート1<ichi>ごぞんじですか」 「ルームとしか言ってー@、ないんでお店の名前忘れち
ゃったんですけど」 「いや、ちょっとわからないんですけどー@、もう一度
説明していただけません」
【0043】システムの出力例を図3に示す。これは、
男性の自由発話の一部である「一階にー」/iqkaini-/
を入力し終わった時点での画面表示である。左側のグラ
フが、基本周波数(F0) FF0(t)、基本周波数の変動量 Af
(t)、スペクトル包絡の変形量 As(t)、有声休止らしさ
(possibility of filled pauses) Pfp(t)、有声休止区
間(”FILLED PAUSE”と書かれた濃い領域のある区間)を
表し、右側のグラフが、対応するスペクトル包絡 Env
(n,t) を表す。ここでは、/ni-/の有声休止が適切に検
出できている。実際にはこれらの表示はスクロールして
おり、リアルタイムに確認可能である。次に、音素系列
と検出した有声休止区間の対応を調べた例を図4に示
す。図中上段が、男性の自由発話「一階にー、あります
ね」/iqkaini-#arimasune/ に対して、人間が音を聞き
ながら手作業でアラインメントを調節した音素系列を表
す。図中下段のシステムが検出した有声休止(音節の引
き延ばし)区間が、適切であることがわかる。
【0044】音声認識システムへの適用 提案した有声休止検出手法を音声認識の枠組みで活用す
る方法を述べる。検出した有声休止区間を用いること
で、音声認識性能を向上させることが可能である。例え
ば、音素系列のアラインメントの改善は、有声休止検出
結果に基づいて、状態継続時間長を動的に制御すること
により実現できる。具体的な一つの方法は、検出した有
声休止区間において、ある母音の音素から次の音素への
状態遷移を抑制することである。
【0045】実験として、入力に対応した正解の音素系
列は与えるものとし、その系列に合わせて連結した音素
HMMと、入力とのマッチングをおこなった。標本化周波
数は16kHz、フレームシフト時間は10msecとし、音響特
徴量としては、16次のLPCメルケプストラム係数とその
時間方向の変化量の計32次元を用いた。一般に、有声休
止は、ビタービ(Viterbi)アルゴリズムによって決定さ
れる音素系列のアラインメントに対して、悪影響を与え
る。このアラインメントを改善するために、上記の方法
を用いる。
【0046】こうして音素系列のアラインメントが改善
された例を図5に示す。図中上段が、図4と同一の発話
に対する元のアラインメントの結果を表し、下段が、有
声休止区間を用いた場合のアラインメントの結果を表
す。実際に、有声休止が含まれる/ni-/の箇所で、アラ
インメントが改善されていること。このような結果か
ら、有声休止を含む発話に関しては、有声休止検出手法
を用いることで、音声認識システムの性能を向上するこ
とが可能である。
【0047】
【発明の効果】本発明は、有声休止の音響的な特徴量
(基本周波数の変動とスペクトル包絡の変形が共に小さ
い箇所)をボトムアップに検出することで、音韻やつな
ぎ語の種類を問わずに有声休止を検出することを可能に
した。また、本発明を、音声認識システムに適用して、
有声休止の検出結果を用いることで音声認識の性能向上
を図ることができる。さらに、対話において大切な役割
を持つ有声休止を積極的に活用した音声対話システムの
構築も可能になるという効果がある。
【図面の簡単な説明】
【図1】本発明を適用する有声休止検出手法の処理の流
れを示す図である。
【図2】基本周波数Fの高調波成分だけを通過させるフ
ィルタ関数を例示する図である。
【図3】本発明を適用するシステムの画面表示例を示す
図である。
【図4】有声休止区間の検出例を示す図である。
【図5】音素系列のアラインメントの改善例を示す図で
ある。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) // G10L 101:02 G10L 7/08 A

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】音声を含む入力音響信号に対して周波数解
    析をおこない有声休止の音響的特徴を定量的に捉え、そ
    れらに基づいて、有声休止であると判定する信頼度を評
    価し、前記信頼度とそれに基づいて決定した有声休止区
    間を出力する、から成る言い淀み検出方法。
  2. 【請求項2】前記音響的特徴として基本周波数の変動量
    とスペクトル包絡の変形量を用いる請求項1に記載の言
    い淀み検出方法。
  3. 【請求項3】前記音響的特徴を捉えるための基本周波数
    とスペクトル包絡の推定は、最も優勢な高調波構造に基
    づき行う請求項2に記載の言い淀み検出方法。
  4. 【請求項4】音声を含む入力音響信号に対して周波数解
    析をおこない有声休止の音響的特徴を定量的に捉える手
    段と、それらに基づいて、有声休止であると判定する信
    頼度を評価する手段と、前記信頼度とそれに基づいて決
    定した有声休止区間を出力する手段と、から成る言い淀
    み検出装置。
  5. 【請求項5】前記音響的特徴として基本周波数の変動量
    とスペクトル包絡の変形量を用いる請求項4に記載の言
    い淀み検出装置。
  6. 【請求項6】前記音響的特徴を捉えるための基本周波数
    とスペクトル包絡の推定する手段は、最も優勢な高調波
    構造に基づき行う請求項5に記載の言い淀み検出装置。
  7. 【請求項7】音声を含む入力音響信号に対して周波数解
    析をおこない有声休止の音響的特徴を定量的に捉える手
    段と、それらに基づいて、有声休止であると判定する信
    頼度を評価する手段と、前記信頼度とそれに基づいて決
    定した有声休止区間を出力する手段と、から成り、前記
    有声休止区間が検出された際に、ユーザの思考を妨げな
    いように次の発話を待つか、或いは、ユーザの次の発話
    を予測して、その予測内容を提示してユーザの発話の手
    助けをする音声対話システム。
  8. 【請求項8】音声を含む入力音響信号に対して周波数解
    析をおこない有声休止の音響的特徴を定量的に捉える手
    段と、それらに基づいて、有声休止であると判定する信
    頼度を評価する手段と、前記信頼度とそれに基づいて決
    定した有声休止区間を出力する手段と、から成り、前記
    有声休止区間が検出された際に、有声休止箇所も無声休
    止箇所に加えて区切りの候補として利用する音声対話シ
    ステム。
  9. 【請求項9】音声を含む入力音響信号に対して周波数解
    析をおこない有声休止の音響的特徴を定量的に捉える手
    段と、それらに基づいて、有声休止であると判定する信
    頼度を評価する手段と、前記信頼度とそれに基づいて決
    定した有声休止区間を出力する手段と、から成り、前記
    信頼度とそれに基づいて決定した有声休止区間を考慮し
    て音声認識性能を向上させる音声認識システム。
JP30576899A 1999-10-27 1999-10-27 言い淀み検出方法及び装置 Expired - Fee Related JP3376487B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30576899A JP3376487B2 (ja) 1999-10-27 1999-10-27 言い淀み検出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30576899A JP3376487B2 (ja) 1999-10-27 1999-10-27 言い淀み検出方法及び装置

Publications (2)

Publication Number Publication Date
JP2001125584A true JP2001125584A (ja) 2001-05-11
JP3376487B2 JP3376487B2 (ja) 2003-02-10

Family

ID=17949123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30576899A Expired - Fee Related JP3376487B2 (ja) 1999-10-27 1999-10-27 言い淀み検出方法及び装置

Country Status (1)

Country Link
JP (1) JP3376487B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242891A (ja) * 2004-02-27 2005-09-08 Fujitsu Ltd 事例検索プログラム
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP2008049462A (ja) * 2006-08-28 2008-03-06 National Institute Of Advanced Industrial & Technology 叫び声を用いたロボットの緊急停止方法及びシステム
WO2008069187A1 (ja) * 2006-12-05 2008-06-12 The University Of Tokyo プレゼンテーション支援装置および方法並びにプログラム
JP2014077969A (ja) * 2012-10-12 2014-05-01 Honda Motor Co Ltd 対話システム及び対話システム向け発話の判別方法
JP2018146905A (ja) * 2017-03-09 2018-09-20 日本電信電話株式会社 有声休止検出装置、その方法、及びプログラム
JP2020052256A (ja) * 2018-09-27 2020-04-02 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11024316B1 (en) 2017-07-09 2021-06-01 Otter.ai, Inc. Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements
US10770069B2 (en) * 2018-06-07 2020-09-08 International Business Machines Corporation Speech processing and context-based language prompting

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP2005242891A (ja) * 2004-02-27 2005-09-08 Fujitsu Ltd 事例検索プログラム
JP2008049462A (ja) * 2006-08-28 2008-03-06 National Institute Of Advanced Industrial & Technology 叫び声を用いたロボットの緊急停止方法及びシステム
WO2008069187A1 (ja) * 2006-12-05 2008-06-12 The University Of Tokyo プレゼンテーション支援装置および方法並びにプログラム
JP2008139762A (ja) * 2006-12-05 2008-06-19 Univ Of Tokyo プレゼンテーション支援装置および方法並びにプログラム
JP2014077969A (ja) * 2012-10-12 2014-05-01 Honda Motor Co Ltd 対話システム及び対話システム向け発話の判別方法
JP2018146905A (ja) * 2017-03-09 2018-09-20 日本電信電話株式会社 有声休止検出装置、その方法、及びプログラム
JP2020052256A (ja) * 2018-09-27 2020-04-02 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP7176325B2 (ja) 2018-09-27 2022-11-22 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Also Published As

Publication number Publication date
JP3376487B2 (ja) 2003-02-10

Similar Documents

Publication Publication Date Title
Goto et al. A real-time filled pause detection system for spontaneous speech recognition
Rudzicz Adjusting dysarthric speech signals to be more intelligible
JP4085130B2 (ja) 感情認識装置
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
Yegnanarayana et al. Epoch-based analysis of speech signals
US20080082320A1 (en) Apparatus, method and computer program product for advanced voice conversion
EP2048655A1 (en) Context sensitive multi-stage speech recognition
Kontio et al. Neural network-based artificial bandwidth expansion of speech
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
EP2737480A1 (en) System and method for acoustic transformation
Raitio et al. Synthesis and perception of breathy, normal, and lombard speech in the presence of noise
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Chakraborty et al. Issues and limitations of HMM in speech processing: a survey
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
Ibrahim et al. Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition
CA2483607C (en) Syllabic nuclei extracting apparatus and program product thereof
JP3376487B2 (ja) 言い淀み検出方法及び装置
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
Chadha et al. A comparative performance of various speech analysis-synthesis techniques
Goronzy et al. Is non-native pronunciation modelling necessary?
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Yadava et al. Creation and comparison of language and acoustic models using Kaldi for noisy and enhanced speech data
Nurminen et al. A parametric approach for voice conversion
JPH05289691A (ja) 発話速度測定装置
JP4749990B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081206

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091206

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101206

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111206

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees