JPH04130499A - 音声のセグメンテーション方法 - Google Patents

音声のセグメンテーション方法

Info

Publication number
JPH04130499A
JPH04130499A JP2252992A JP25299290A JPH04130499A JP H04130499 A JPH04130499 A JP H04130499A JP 2252992 A JP2252992 A JP 2252992A JP 25299290 A JP25299290 A JP 25299290A JP H04130499 A JPH04130499 A JP H04130499A
Authority
JP
Japan
Prior art keywords
lpc
lpc cepstrum
segmentation
cepstrum
change rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2252992A
Other languages
English (en)
Inventor
Keisuke Oda
啓介 小田
Akihiko Watanabe
彰彦 渡邉
Yumi Takizawa
滝沢 由美
Atsushi Fukazawa
敦司 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2252992A priority Critical patent/JPH04130499A/ja
Publication of JPH04130499A publication Critical patent/JPH04130499A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は連続して発生する音声信号を音節や音韻に区分
する音声のセグメンテーション方法に関する。
(従来の技術) セグメンテーションの方法としては、多くの方式が提案
されているが、従来から広く用いられてきた方法として
は、音声パワーに着目する方法で、音声信号のパワーが
単音節ごとに大きな値をもっているので、パワーの極小
となる時間点に挟まれた1個の極大値を持つ区間を1個
の音節または音韻区間として検出する方法である。
この方法は例えば「コンピュータ音声処理、安居院猛、
中島正之著、秋葉出版、1986年6月、頁175」に
開示されている。
(発明が解決しようとする課題) しかしこの音声パワーに着目する方法では、音声パワー
という尺度に対してセグメンテーションを行っているた
め、セグメンテーション結果が音声パワーに依存したも
のとなる。一般に音声パヮ−は個人差により大きく異な
り、また同一人物でも音声パワーは一定でないことを考
慮すると、安定したセグメンテーションを行うためには
個人差によらない尺度を用いてセグメンテーションを行
う必要がある。さらに音声パワーという尺度によってセ
グメンテーションを行った場合、母音や有声子音等の比
較的音声パワーが大きな音節または音韻に対しては有効
にセグメンテーションができるが、/s/、/l h/
に代表される無声摩擦音に対しては、音声パワーが小さ
いためセグメンテーションが不完全となるという問題が
ある。
本発明は上述した問題点すなわちセグメンテーション結
果が個人差に依存したり無声摩擦音に対してセグメンテ
ーションが不完全であるという点を解消するためになさ
れたもので、音声パワーに依存せず音節または音韻を完
全に区分することの出来る音声のセグメンテーション方
法を提供することを目的とする。
(II[を解決するための手段) 本発明のセグメンテーション方法は、入力音声データの
各フレームに線形予測分析を行い、LPC係数を算出し
、算出されたL P G係数に基づいてLPCケプスト
ラムを算出し、隣接するフレーム間での前記LPCケプ
ストラムの変化量を算出し、前記LPCケプストラムの
変化量が一定の閾値以上で極大となる時、隣接する2つ
の極大値区間を1単位の音節または音韻区間として検出
するようにしたものである。
(作用) 本発明では音声パワーの尺度に代えて、LPCケプスト
ラム変化量という尺度を用いてセグメンテーションをお
こなっている。このLPCケプストラム変化量という尺
度は音声信号のスペクトル形状の時間変化を記述するも
のであり、音声のスペクトル構造が音節または音韻ごと
に異なる点に着目している。したがって無声摩擦音であ
っても音節または音韻毎にスペクトル変化が表れるため
完全なセグメンテーションを行うことができる。
また音声信号のスペクトル形状の時間変化は音声パワー
に依存しないため個人差によらない完全なセグメンテー
ションが可能である。
(実施例) 第2図は本発明の一実施例にかかるセグメンテーション
方法を実施するための装置の概略構成を示したブロック
図である0本発明を実施するためには入力信号lからL
PC係数を算出するための算出手段2と、LPCケプス
トラム算出手段3と、LPCケプストラム変化量算出手
段4と、音節または音韻区間検出手段5とを必要とし、
これら一連の手段2〜5を経て検出信号出力6を得るこ
とが出来る。入力信号1は2例えばサンプリング周波数
8KHzでA/D変換された音声信号X(n)、n=o
、±Δt、±2Δt、±3Δt。
・・で、Δt =1/8000 (see )となって
いるものと仮定する。LPC係数算出手段2はこの入力
信号x (n)に対して、分析フレーム長Nサンプル、
分析フレーム周期T■secでm次の線形予測分析を行
い、LPC係数を決定する。
なお線形予測分析法には、入力信号1に関する相関関数
の定義の仕方に応じて、自己相関法や共分散法、さらに
最大エントロピー法等があるが、どの分析方法によって
もLPC係数の算出は可能である。ここでは最大エント
ロピー法を用いてLPC係数を算出するものとし、LP
C係数をa。
、人力信号をx (n)とすれば1両者は次式で関係づ
けられる。
x(n)=Σa、x  (n−i)     (1)1
@ ここでmは最大予測次数である。
LPCケプストラム算出手段3はLRC係数算出手段2
で得られたLPC係数に基づいて次式にしたがってLP
Cケプストラム係数を算出する。
ここでC3はLPCケプストラム係数で、1≦i≦mで
ある。
ついでLPCケプストラム変化量算出手段4によりLP
Cケプストラム変化量を算出する。LPCケプストラム
変化量は、分析フレーム間のLPC係数の変化量を次式
により定義し、その値を算出するものである。
ここでCI(・)は時刻nで分析したLPCケプストラ
ム、C,i″′TIは直前のフレームで分析したLPC
ケプストラムである。
ついで音節または音韻区間検出手段5は、LPCケプス
トラム変化量検出手段4で算出したLPCケプストラム
変化量を時系列信号とみなし、LPCケプストラム変化
量が一定の閾値以上で極大値となる区間を音節または音
韻区間として検出し、セグメンテーションを行って、こ
れを検出信号6として出力する。得られた検出信号6は
図示しないマツチング装置に送り出され、そこであらか
じめ記憶されている基準パターンとの類似度が演算され
、もっとも類似しているパターンをその音節または音韻
として出力する。
第1図は、音節または音韻区間の検出方法を示す説明図
である。横軸は時間、縦軸はLPCケプストラム変化量
の値をそれぞれ示している。ここでLPCケプス1−ラ
ム変化量δC01,がある閾値δCo以上で極大値を持
つ時刻を検出し、隣接する2つの極大値で挟まれた区間
を1単位の音節または音韻区間として検出する。
第3図は入力単語「あさひ」に対するセグメンテーショ
ン結果を平均パワーを用いる従来の方法と対比して示し
た図である。図より明らかなようにLPCケプストラム
変化量が閾値600以上で極大値を持つ点が6箇所あり
、a−s−a−h−1という5つの音節または音韻区間
にセグメンテーションされていることがわかる。一方従
来の音声パワーによるセグメンテーション方法では、無
声摩擦音/ s /の区間にパワーの極大値が見られず
、セグメンテーションが不完全であることがわかる。
[発明の効果] 以上実施例に基づいて説明したように、本発明ではLP
Cケプストラム変化量を用いてセグメンテーションを行
っている。このLPCケプストラム変化量という尺度は
音声信号のスペクトル形状の時間変化を記述したもので
、音声のスペクトル構造が音節または音韻ごとに異なる
点に着目している。したがって音声パワーに依存せずし
かも無声摩擦音においても、完全に音節又は音韻単位で
のセグメンテーションが可能となる。
【図面の簡単な説明】
第1図は本発明によるセグメンテーション方法にしたが
った音節または音韻区間の検出方法の説明図、第2図は
本発明の一実施例にかかるセグメンテーション方法を実
施するための装置の概略構成を示したブロック図、第3
図は本発明によるセグメンテーション結果の一例を示す
図である。 図において、1・・・・・・入力信号、2・・・・・・
LPC係数算出手段、3・・・・・・LPCケプストラ
ム算出手段、4・・・・・・LPCケプストラム変化量
算出手段、5・・・・・・音節または音韻区間検出手段
、6・・・・・・検出信号出力。 δ C0,。 ・・・・・・LPCケプストラム変化量δ C0 −・・・・・LPCケプストラム変化量の閾値。

Claims (1)

  1. 【特許請求の範囲】 音声信号を音節や音韻に区分する音声のセグメンテーシ
    ョン方法において、 (1)入力音声データの各フレームに線形予測分析を行
    いLPC係数を算出する第1の工程と、(2)算出され
    たLPC係数に基づいてLPCケプストラムを算出する
    第2の工程と、 (3)隣接するフレーム間での前記LPCケプストラム
    の変化量を算出する第3の工程と、(4)前記LPCケ
    プストラムの変化量が一定の閾値以上で極大となる時、
    隣接する2つの極大値区間を1単位の音節または音韻区
    間として検出する第4の工程と、 を有することを特徴とする音声のセグメンテーシヨン方
    法。
JP2252992A 1990-09-21 1990-09-21 音声のセグメンテーション方法 Pending JPH04130499A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2252992A JPH04130499A (ja) 1990-09-21 1990-09-21 音声のセグメンテーション方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2252992A JPH04130499A (ja) 1990-09-21 1990-09-21 音声のセグメンテーション方法

Publications (1)

Publication Number Publication Date
JPH04130499A true JPH04130499A (ja) 1992-05-01

Family

ID=17244996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2252992A Pending JPH04130499A (ja) 1990-09-21 1990-09-21 音声のセグメンテーション方法

Country Status (1)

Country Link
JP (1) JPH04130499A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0764937A2 (en) * 1995-09-25 1997-03-26 Nippon Telegraph And Telephone Corporation Method for speech detection in a high-noise environment
JP2002287785A (ja) * 2001-03-28 2002-10-04 Nec Corp 音声セグメンテーション装置及びその方法並びにその制御プログラム
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0764937A2 (en) * 1995-09-25 1997-03-26 Nippon Telegraph And Telephone Corporation Method for speech detection in a high-noise environment
EP0764937A3 (en) * 1995-09-25 1998-06-17 Nippon Telegraph And Telephone Corporation Method for speech detection in a high-noise environment
JP2002287785A (ja) * 2001-03-28 2002-10-04 Nec Corp 音声セグメンテーション装置及びその方法並びにその制御プログラム
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム

Similar Documents

Publication Publication Date Title
Drugman et al. Glottal source processing: From analysis to applications
Wallen et al. A screening test for speech pathology assessment using objective quality measures
Dissen et al. Formant Estimation and Tracking Using Deep Learning.
Tamburini Prosodic prominence detection in speech
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
Afroz et al. Recognition and classification of pauses in stuttered speech using acoustic features
Ramteke et al. Phoneme boundary detection from speech: A rule based approach
Cordeiro et al. Spectral envelope first peak and periodic component in pathological voices: A spectral analysis
Korkmaz et al. Classification of Turkish vowels based on formant frequencies
KR100738332B1 (ko) 성대신호 인식 장치 및 그 방법
Cherif et al. Pitch detection and formant analysis of Arabic speech processing
Narendra et al. Generation of creaky voice for improving the quality of HMM-based speech synthesis
Yadav et al. Epoch detection from emotional speech signal using zero time windowing
Karabetsos et al. One-class classification for spectral join cost calculation in unit selection speech synthesis
Papakyritsis Acoustic phonetics for the speech clinician
Chen et al. Pitch marking based on an adaptable filter and a peak-valley estimation method
Jayasankar et al. Automatic continuous speech segmentation to improve Tamil text-to-speech synthesis
JPH04130499A (ja) 音声のセグメンテーション方法
Mathad et al. Vowel onset point based screening of misarticulated stops in cleft lip and palate speech
Thirumuru et al. Application of non-negative frequency-weighted energy operator for vowel region detection
Sawusch Acoustic analysis and synthesis of speech
Mittal et al. An impulse sequence representation of the excitation source characteristics of nonverbal speech sounds
Tripathi et al. VOP detection for read and conversation speech using CWT coefficients and phone boundaries
Feng et al. The Research of Forensic Voiceprint Identification Based on WMFCC
CN113436649B (zh) 一种语音情感标定辅助方法及系统