JPH0222399B2 - - Google Patents

Info

Publication number
JPH0222399B2
JPH0222399B2 JP58238415A JP23841583A JPH0222399B2 JP H0222399 B2 JPH0222399 B2 JP H0222399B2 JP 58238415 A JP58238415 A JP 58238415A JP 23841583 A JP23841583 A JP 23841583A JP H0222399 B2 JPH0222399 B2 JP H0222399B2
Authority
JP
Japan
Prior art keywords
syllable
speech
length
boundary
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58238415A
Other languages
English (en)
Other versions
JPS60129796A (ja
Inventor
Shin Kamya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP58238415A priority Critical patent/JPS60129796A/ja
Publication of JPS60129796A publication Critical patent/JPS60129796A/ja
Publication of JPH0222399B2 publication Critical patent/JPH0222399B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〈発明の技術分野〉 本発明は音声入力装置に関し、更に詳細には音
声入力装置において、発声速度の変化に対応して
音節境界を精度よく検出し得るようにしたもので
ある。
〈発明の技術的背景とその問題点〉 一般に連続して発声された音声において、前の
音節の母音から次の音節先頭の子音(または母
音)へのわたり部では、音声信号のパワーが下が
つたりスペクトル変化が大きくなつたりする。
従来の音声入力装置においてはこのような点を
利用してパワー、スペクトル等の特徴パラメータ
毎に一定レベルのしきい値を設定し、特徴パラメ
ータが設定されたしきい値を横切つた時間を音節
境界とみなすようにしている。
しかし、このような従来の装置によれば、しき
い値によつて音節境界の挿入誤り数や脱落誤り数
が左右されるため、しきい値の設定が困難であつ
た。またしきい値は、発音速度や前の音節境界か
らの経過時間に対して固定されているため、音節
境界を高精度に検出することが出来なかつた。
〈発明の目的〉 本発明は上記従来の問題点を除去し、より高い
精度で音節境界を検出することが出来る音声入力
装置を提供することを目的とし、この目的を達成
するため、本発明は、入力された連続音声のフレ
ーム毎に特徴パラメータを抽出する音声分析部
と、 発声内容が既知である音声から抽出された各フ
レームの前記特徴パラメータに基づいて有声区間
における継続時間の総和をその音声に含まれる音
節数で割つた平均音節長を算出する発声速度推定
部と、 前記特徴パラメータに対して所定のしきい値を
保持するしきい値テーブルと、 認識すべき連続音声から抽出された各フレーム
の前記特徴パラメータと前記しきい値テーブルの
しきい値とを比較して音節境界を求める音節境界
検出部と、 を有する音声入力装置において、 前記しきい値テーブルに保持されるしきい値
は、前記音節境界検出部で検出された前の音節境
界からの経過時間が前記算出された平均音節長の
整数倍のときに、極小値をとるように設定されて
いることを特徴とするものである。
〈発明の実施例〉 以下、図面を参照して本発明を詳細に説明す
る。
第1図は本発明を実施した音声入力装置の全体
構成を示すブロツク図である。
第1図において、入力された音声は、音声分析
部1において、音声信号からパワーp(t)、スペ
クトルy(t)等の特徴パラメータが抽出される。
具体的には例えば音声信号を16KHzでサンプリン
グし、16m秒のハニング窓をかけて、フレーム周
期8m秒毎に窓内のサンプリング値の2乗和であ
るパワーpを求め、この窓内でフーリエ変換して
スペクトルyを求める(t番目のフレームのパワ
ースペクトルをそれぞれp(t),y(t)と表わ
す)。この音声分析部1において抽出された特徴
パラメータが発生速度検出部2に入力され、この
発生速度検出部2内の無音区間検出部21及び有
音区間検出部22によつて入力されたパワーの強
弱等にもとずいて有音区間及び無音区間が区別さ
れる。
また発生速度検出部2内の発声速度推定部23
によつて音節数が既知である訓練用文章の音声入
力の有音区間の継続時間にもとずいて平均音節長
Lが推定され、出力される。
即ち、音声入力装置を使用する時に、最初に音
節数が既知である訓練用文章をユーザが発話して
発声速度推定部23において音節の平均継続時間
である平均音節長(1/平均発声速度)を推定
することになる。
今、音節数がn個含まれる文章を発話した際の
有音区間検出部22において検出されたi番目の
有音区間の継続時間をL(i)とすると(ただし
i=1,2,3…,m)、発声速度推定部23に
おいて 音節の平均継続時間 =1/nni=1 L(i)(平均 音節長) が算出され、出力される。
文節境界検出部3では無音区間検出部21にお
いて検出された無音区間の継続時間にもとずい
て、無音区間の継続時間長が所定の長さを越えて
いる場合を検出して、その無音区間を文節境界と
みなしてその旨を出力する。
音節境界検出部4では、上記文節境界検出部3
によつて文節毎に区切られた音声を単位として、
音声分析部1で抽出された特徴パラメータを用い
て音節境界を検出する(音節境界間の間隔が音節
長となる)。
この際スベクトル変化 y′(t)≡{y(t−6)−y(t)}2 及びパワーの一次微係数 −p′(t)≡−{−2p(t−4)−p(t−3)+

(t−1)+2p(t)} があるしきい値θy,θpを越えた時間を音節境界と
みなすことになる。
従来これらのしきい値は第2図に示すように一
定レベルに固定されていた(なお第2図において
θは特徴パラメータのしきい値、tは前の音節境
界からの経過時間を表わしている)。
しかし、音節の継続時間に関する音節の頻度を
みると、第3図に示すように音節の平均継続時間
の整数倍(長音の場合は2倍)の所に集まつてい
ることが判明した(なお、第3図において0
音節の平均継続時間、lは音節の継続時間を表わ
している)。
このような点を考慮して、本発明においては、
第4図に示すように前の音節境界からの経過時間
tが音節の平均継続時間0の整数倍のときに音
節の境界がより検出し易いように極小値をとるよ
うなしきい値θ(t)を設定し、このしきい値θ
(t)と上記したスペクトル変化y′(t)、パワー
の一次微係数p′(t)とを比較して音節の境界を
検出する。
より具体的には第4図に示したある音節の平均
継続時間0に対し、この0の整数倍のときに極
小値をとるようなしきい値θ(t)をメモリ8に
テーブルとして記憶しておき、時間計測部9にお
いて前の音節境界からの経過時間tを計測し、時
間変換部10において経過時間tを発声速度推定
部23で推定した音節の平均継続時間及び基本
の音節平均継続時間0を用いて t′=t×L0/L の演算によつて正規化し、この時間t′の値に対
するθ(t)′の値をメモリ8より読み出して音節
境界検出部4に供給し、スペクトル変化y′(t)、
パワーの一次微係数−p′(t)がこのしきい値θ
(t′)を越えたときを音節境界をみなすように成
されている。
この音節境界検出部4において、第5図に示す
ように時刻t1と時刻t3において、音節境界が明確
に検出されたが、時刻t2において音節境界が存在
するか否かを決定し難い場合があるが、このよう
な場合には、音節境界の最終決定は音節境界選択
部5が行なう。
音節境界選択部5は音節境界検出部4において
検出された音節境界の候補の音節長と発声速度推
定部23により推定された平均音節長とを比較
して音節境界を決定する。
今、第5図に示す例において、もし時刻t2が音
節境界でないならば、時間領域t1<t<t3におい
て長さt3−t1(図中A1の長さ)の音節が存在す
ることになり、もし音節境界ならば、長さt2−t1
(図中B1の長さ)と長さt3−t2(図中B2の長
さ)の音節が存在することになるが、音節境界選
択部5はこれらの音節長の候補A1,B1,B2
と平均音節長とを比較して音節境界を決定す
る。第5図に示した例では、A1の長さの方がB
1及びB2の長さより、平均音節長に近いた
め、長さA1の音節を選択して、時刻t2は音節境
界でないと判断される。
上記音節境界選択部5において行なわれる音節
境界の選択アルゴリズムをより一般化して以下に
説明する。
今、第6図に示すように、ある時間領域T1
t<T2において、音節境界の決定が困難なため、
音節境界検出部3がいくつかの音節候補列A,
B,C,…を作成して出力したとする(ただし、
音節候補列Aはa個の長さA1,A2,…,A
(a)の音節候補から成り、音節候補列B,C,
…も同様とする)。
この音節候補列A,B,C,…が音節境界選択
部5に入力されて、音節候補A,B,C,…の平
均音節長からのずれDA,DB,DC,…がそれぞ
れ DA=1/ani=1 d(A(i),) DB=1/bni=1 d(B(i),) DC=1/cni=1 d(C(i),) ただし、d(x,y)=|x−k1y| if長
さxの音節の前に無音区間有 |x−k2y| if長さxの音節の後に文節境界有 |x−y| if上記以外 として算出される。
ここで、文節の最初に来る音節や破裂音は平均
音節長より短くなることが多いため、0<k1
1と設定され、文節の終りの音節は長くなること
が多いため、k2>1と設定される。
音節境界選択部5は、上記のようにして算出さ
れた平均音節長からのずれDA,DB,DC,…の
中で最も小さな平均音節長からのずれを有する
音節候補列を選択して音節列として出力する。
音節認識部6では、上記のようにして求められ
た有節区間に対して音節標準パターンメモリ7に
記憶された音節の標準パターンとのマツチングを
行なつて認識結果を出力する。
なお、上記実施例においては、音声入力装置を
使用する時に最初に既知の訓練用文章を発声して
平均音節長を算出するようにしたが、本発明
は、これに限定されることなく、例えば複数の話
者について予め平均音節長を算出して記憶してお
くように成してもよい。また同一話者における発
声速度の速い、普通、遅い状態における複数の平
均音節長を算出して記憶しておき、認識時の発
声状態により平均音節長を選択するようにしても
よい。
〈発明の効果〉 以上説明したように、本発明によれば、平均音
節長を算出し、この平均音節長に基づいて適応的
に変化するしきい値でもつて音節境界を検出する
ため、より高い積度で正確に音節境界を求めるこ
とができる。
【図面の簡単な説明】
第1図は本発明を実施した音声入力装置の構成
を示すブロツク図、第2図は従来のしきい値θ
(t)の設定レベルを示す図、第3図は平均音節
0と音節境界検出頻度の関係を示す図、第4
図は本発明におけるしきい値θ(t)の設定レベ
ルを示す図、第5図は検出された音節境界の一例
を示す図、第6図は検出された音節境界候補の他
の例を示す図である。 1…音声分析部、21…無音区間検出部、22
…有音区間検出部、23…発声速度推定部、3…
文節境界検出部、4…音節境界検出部、8…しき
い値テーブルメモリ。

Claims (1)

  1. 【特許請求の範囲】 1 入力された連続音声のフレーム毎に特徴パラ
    メータを抽出する音声分析部と、 発声内容が既知である音声から抽出された各フ
    レームの前記特徴パラメータに基づいて有声区間
    における継続時間の総和をその音声に含まれる音
    節数で割つた平均音節長を算出する発声速度推定
    部と、 前記特徴パラメータに対して所定のしきい値を
    保持するしきい値テーブルと、 認識すべき連続音声から抽出された各フレーム
    の前記特徴パラメータと前記しきい値テーブルの
    しきい値とを比較して音節境界を求める音節境界
    検出部と、 を有する音声入力装置において、 前記しきい値テーブルに保持されるしきい値
    は、前記音節境界検出部で検出された前の音節境
    界からの経過時間が前記算出された平均音節長の
    整数倍のときに、極小値をとるように設定されて
    いることを特徴とする音声入力装置。
JP58238415A 1983-12-17 1983-12-17 音声入力装置 Granted JPS60129796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58238415A JPS60129796A (ja) 1983-12-17 1983-12-17 音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58238415A JPS60129796A (ja) 1983-12-17 1983-12-17 音声入力装置

Publications (2)

Publication Number Publication Date
JPS60129796A JPS60129796A (ja) 1985-07-11
JPH0222399B2 true JPH0222399B2 (ja) 1990-05-18

Family

ID=17029863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58238415A Granted JPS60129796A (ja) 1983-12-17 1983-12-17 音声入力装置

Country Status (1)

Country Link
JP (1) JPS60129796A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0740797U (ja) * 1993-12-28 1995-07-21 敷島紡績株式会社 抄紙用ドライヤーカンバスの継手
JPH0740798U (ja) * 1993-12-28 1995-07-21 敷島紡績株式会社 抄紙用ドライヤーカンバスの継手
WO2009025155A1 (ja) * 2007-08-21 2009-02-26 Voxmol Llc 音声再生方法、音声再生装置およびコンピュータ・プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4576612B2 (ja) * 2005-09-13 2010-11-10 独立行政法人産業技術総合研究所 音声認識方法および音声認識装置
JP4881625B2 (ja) * 2006-02-03 2012-02-22 東芝テック株式会社 音声検出装置及び音声検出プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0740797U (ja) * 1993-12-28 1995-07-21 敷島紡績株式会社 抄紙用ドライヤーカンバスの継手
JPH0740798U (ja) * 1993-12-28 1995-07-21 敷島紡績株式会社 抄紙用ドライヤーカンバスの継手
WO2009025155A1 (ja) * 2007-08-21 2009-02-26 Voxmol Llc 音声再生方法、音声再生装置およびコンピュータ・プログラム

Also Published As

Publication number Publication date
JPS60129796A (ja) 1985-07-11

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US9002709B2 (en) Voice recognition system and voice recognition method
JPH0990974A (ja) 信号処理方法
Xie et al. Robust acoustic-based syllable detection.
Richardson et al. Improvements on speech recognition for fast talkers
JP3069531B2 (ja) 音声認識方法
JPS60200300A (ja) 音声の始端・終端検出装置
JPH0222399B2 (ja)
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
CN106920558B (zh) 关键词识别方法及装置
JPH06110488A (ja) 音声検出方法および音声検出装置
JPS59149400A (ja) 音声入力装置
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP2006010739A (ja) 音声認識装置
JPS60198596A (ja) 音声入力装置
JPH07295588A (ja) 発話速度推定方法
Malcangi Softcomputing approach to segmentation of speech in phonetic units
JP2007079072A (ja) 音声認識方法および音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPH0377998B2 (ja)
JPH05303391A (ja) 音声認識装置
JPH02254500A (ja) 発声速度推定装置
JPH02240700A (ja) 音声処理装置
JPH026078B2 (ja)
JPS6039691A (ja) 音声認識方法