JPH0562756B2 - - Google Patents

Info

Publication number
JPH0562756B2
JPH0562756B2 JP59235635A JP23563584A JPH0562756B2 JP H0562756 B2 JPH0562756 B2 JP H0562756B2 JP 59235635 A JP59235635 A JP 59235635A JP 23563584 A JP23563584 A JP 23563584A JP H0562756 B2 JPH0562756 B2 JP H0562756B2
Authority
JP
Japan
Prior art keywords
data
audio
register
cross number
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59235635A
Other languages
English (en)
Other versions
JPS61113100A (ja
Inventor
Masao Sakama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP59235635A priority Critical patent/JPS61113100A/ja
Publication of JPS61113100A publication Critical patent/JPS61113100A/ja
Publication of JPH0562756B2 publication Critical patent/JPH0562756B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は音声認識の分野において用いられる
音声パラメータ検出装置に関する。
〔従来技術〕
一般的な音声認識装置は、音声信号から音声の
特徴パラメータを抽出し、この特徴パラメータ
と、辞書と呼ばれるメモリ内に記憶されている標
準パラメータとを比較(パターンマツチング)す
ることによつて音声認識を行う。この場合、音声
の特徴パラメータとしては、パーコール係数、線
形予測係数、零クロス回数(音声信号が零レベル
を横切る回数)等が用いられるが、特に零クロス
回数を特徴パラメータとして用い、かつ、線形マ
ツチングあるいはDP(ダイナミツクプログラム)
マツチングを採用した音声認識装置は、価格が安
価であるところから簡易型の認識装置としてしば
しば用いられている。そして、この発明は零クロ
ス回数を特徴パラメータとして用いた音声認識装
置において用いられる音声パラメータ検出装置に
関する。
〔発明が解決しようとする問題点〕
ところで、この種の音声パラメータ検出装置に
おいては、音声の始端および終端、言い換えれば
音声区間を正確に検出することが必要である。従
来、この音声区間(始端、終端)の検出は、一定
のしきい値を定め、音声信号がたのしきい値を越
えたか否かに基づいて行つていた。例えば第6図
の音声信号の場合、しきい値をレベルL1とする
と、区間Taを音声区間として検出していた。し
かしながら、このように始端、終端を共に一定の
しきい値に基づいて検出すると、次の様な問題が
生じる。すなわち、音声には例えば鼻音“n”の
ように終端付近の信号レベルが小さいものがあ
る。このような音声の終端を正確に検出すべく、
しきい値レベルを小さくすると、始端検出時にお
いて雑音を音声始端として検出してしまう。一
方、この雑音の影響を除去すべく、しきい値レベ
ルを大とすると、上述した鼻音等の場合に終端を
正確に検出し得なくなる。
この発明は上記の事情に鑑み、音声始端検出時
において雑音の影響を受けることがなく、しかも
信号レベルの小さい音声終端をも正確に検出する
ことができる音声パラメータ検出装置を提供する
ことを目的とする。
〔問題を解決するための手段〕
この発明は、音声始端および音声終端を各々異
なる値のしきい値によつて検出するようにしたも
のである。すなわち、音声始端は雑音の影響を受
けにくい、比較的高い値のしきい値によつて検出
し、一方、音声終端は信号レベルの小さい終端を
も検出できるように、低い値のしきい値によつて
検出する。
〔実施例〕
第1図はこの発明の一実施例の構成を示すブロ
ツク図である。この図において、符号1は音声を
音声信号に変換するマイクロフオン、2は音声信
号の高域成分を強調するブリエンフアシス回路で
あり、フイルタ回路が用いられている。ADC(ア
ナログ/デイジタル変換器)3はブリエンフアシ
ス回路2を通過した音声信号を例えば周波数10K
Hzでサンプリングしてデイジタル音声データVD
に変換し、出力する。クロス数カウント回路4
は、パルス発生部と、カウンタ部とから構成され
る。パルス発生部は音声データVDが制御回路5
から供給されるしきい値SHを横切る毎にパルス
信号を出力する回路である。すなわち、このパル
ス発生部は、今回ADC3から出力された音声デ
ータVDと、前回ADC3から出力された音声デー
タVDとを比較し、前回の音声データVDが今回
の音声データVDに変化する際しきい値SHを横
切つている場合にパルス信号を出力する。カウン
タ部はカウンタとラツチとから構成される。カウ
ンタは上記パルス発生部から出力されるパルス信
号をアツプカウントするもので、この実施例にお
いては10msecが経過する毎にリセツトされる。ラ
ツチは、上記カウンタがリセツトされる直前のカ
ウント値をラツチし、このラツチしたデータをク
ロス数データCDとして逐次出力する。すなわち、
クロス数データCDは一定時間(10msec)内に音
声信号がしきい値SHを横切った回数を示すもの
である。なお、上述したクロス数データCDは、
電源投入以後常時出力される。また、以下の説明
においては、クロス数カウントの単位(10msec
をフレームと称する。制御回路5は、クロス数デ
ータCDに基づいて音声の始端および終端を検出
し、検出した始端および終端間の各クロス数デー
タCDをその間のフレーム数と共に音声パラメー
タPRとして音声認識回路6へ出力し、また、し
きい値SHをクロス数カウント回路4へ出力する。
音声認識回路6は音声パラメータPRに基づいて
音声認識を行う。
次に、制御回路5の詳細を第2図〜第5図を参
照して説明する。この制御回路5は、プログラム
コントロールによるCPU(中央処理装置)と、記
憶回路とを具備しており、記憶回路は、CPUに
おいて用いられるプログラムが記憶されている
ROMと、データ記憶用のRAMとから構成され
ている。そして、RAM内には、第2図に示す各
内部レジスタが設定されている。これらの内部レ
ジスタの名称は次の通りである。
IR:インプアトレジスタ FC:フレームカウンタ EFR:エンドフレームレジスタ CFR:中間フレームレジスタ CDR:クロス数データレジスタ 次に、上記CPUの動作を第3図に示す流れ図
を参照して説明する。電源が投入されると、ま
ず、ステツプS1の処理へ進み、各内部レジスタ
(第2図)を各々クリアする。次に、ステツプS2
へ進むと、しきい値SHとしてデータαを出力す
る。このデータαは、音声信号の始端を検出する
ためのしきい値であり、雑音の影響を受けないよ
うに、比較的高い値となつている。そして、この
データαはクロス数カウント回路4内にラツチさ
れる。
次にステツプS3へ進むと、まずフレーム時間
と同じ時間10msecを計測した後、クロス数カウン
ト回路4から出力されているクロス数データCD
をインプツトレジスタIR内に書込む。次にステ
ツプS4へ進むと、インプツトレジスタIRの内容
が「0」か否かを判断する。ここで、マイクロフ
オン1にまだ音声が入力されていないとすると、
クロス数データCDは「0」であり、したがつて、
ステツプS4の判断結果は「YES」と、なり、ス
テツプS1へ戻る。以下、マイクロフオン1に音
声が入力されるまで、上記のステツプS1〜S4を
繰返す。
次に、マイクロフオン1に音声が入力される
と、クロス数データCDが「0」以外の値となり、
したがつてステツプS4における判断結果が
「NO」となり、ステツプS5へ進む。ステツプS5
では、しきい値SHとしてデータβを出力する。
このデータβは、クロス数カウント回路4内にラ
ツチされる。このデータβの値は、信号レベルが
小さい音声信号終端をも検出できるように、前述
したデータαより小さい値となつている。なお、
第4図にデータαとデータβの各値の一例を示
す。図に示す波形は音声信号の一例であり、ま
た、図に示す区間Tαはクロス数カウント回路4
においてデータαがしきい値SHとして用いられ
る区間、区間Tβはデータβがしきい値SHとして
用いられる区間である。次に、ステツプS6へ進
むと、フレームカウンタFCの内容(この場合
「0」をインクリメントする。これにより、同フ
レームカウンタFCの内容が「1」となる。次に、
ステツプS7へ進むと、インプツトレジスタIRの
内容をフレームカウンタFCが指示するクロス数
データレジスタCDR1へ転送する。なお、この
レジスタCDR1へ転送されたデータは、ステツ
プS3においてインプツトレジスタIRへ入力され
たクロス数データCDであり、音声信号の立上り
に対応する最初のクロス数データCDである。次
にステツプS8へ進むと、10msecの時間計測をし
た後、クロス数カウント回路4から出力されてい
るクロス数データCDをインプツトレジスタIRへ
入力する。次にステツプS9では、インプツトレ
ジスタIRの内容が「0」か否かを判断する。音
声信号が連続してマイクロフオン1から出力され
ている時はこの判断結果が「NO」となり、ステ
ツプS6へ戻る。以後、ステツプS9の判断結果が
「YES」となるまでステツプS6〜S9の過程を繰返
す。これにより、クロス数データレジスタCDR
(1),CDR(2)…に順次クロス数データCDが書込ま
れ、また、フレームカウンタFCの内容が「1」
づつ順次大きくなる。
次に、音声信号が途切れると、ステツプS9の
判断結果が「YES」となり、ステツプS10へ進
む。ステツプS10では、フレームカウンタFCの内
容(いま、この内容を「M」とする)がエンドフ
レームレジスタEFRへ転送される。次いでステ
ツプS11へ進むと、フレームカウンタFCの内容
「M」が一定値D1(例えば「10」)より小か否かが
判断される。
そして、この判断結果が「YES」の場合はス
テツプS1に戻る。このステツプS11は雑音を検出
するためのステツプである。すなわち、マイクロ
フオン1には、しきい値SH「α」よりレベルの大
きい雑音が入力される場合がある。そこでこの実
施例においては、「0」でないクロス数データCD
が一定時間(D1×10msec)以上連続しなかつた
場合は、マイクロフオン1に入力された音を雑音
とみなし、パラメータ検出処理を行わないように
なつてぢる。ステツプS11におけるフレームカウ
ンタFCの内容「M」は、「0」でないクロス数デ
ータCDが連続して出力されたフレーム数を示し、
また1フレームの時間は10msecであり、したがつ
て、M<D1の場合は、「0」でないクロス数デー
タCDが一定時間(D1×10msec)連続しなかつた
場合、すなわち雑音の場合に相当する。
次に、ステツプS11の判断結果が「NO」の場
合は、ステツプS12へ進み、フレームカウンタFC
をインクリメントする。次いでステツプS13へ進
むと、インプツトレジスタIRの内容を、フレー
ムカウンタFCが示すクロス数レジスタCDR(M
+1)へ転送する。なお、この時点におけるイン
プツトレジスタIRの内容は、最後に実行された
ステツプS8においてレジスタIRに書込まれたク
ロス数データCDであり、したがつて、その値は
「0」である(ステツプS9の判断結果が
「YES」)。次に、ステツプS14へ進むと、フレー
ムカウンタFCの内容からエンドフレームレジス
タEFRの内容「M」を減算し、次いでこの減算
結果が一定値D2(例えば「20」〜「30」)より大
か否かを判断する。そして、この判断結果が
「NO」の場合は、ステツプS15へ進む。ステツプ
S15では、10msecの時間計測を行つた後、クロス
数データCDをインプツトレジスタIRへ入力す
る。次いで、ステツプS16へ進むと、インプツト
レジスタIRの内容が「2」より小か否かを判断
する。そして、この判断結果が「YES」の場合
は再びステツプS12へ戻る。以下、ステツプS12
〜S16が繰返えされる。そして、ステツプS14に
おける判断結果が「YES」になると、ステツプ
S17へ進み、エンドフレームレジスタEFRの内
容、および、クロス数データレジスタCDR(1)か
らエンドフレームレジスタEFRによつて指示さ
れるクロス数データレジスタCDR(X)までの各
レジスタCDRの内容を各々、音声パラメータPR
として音声認識回路6へ出力し、全処理を終了す
る。また、ステツプS16の判断結果が「NO」と
なつた場合は、ステツプS18以下の各処理を行
う。
次に、上述したステツプS12〜S16の処理の意
味を説明する。いま、例えば「前進」(ぜんし
ん)」という音声をマイクロフオン1に入力した
とする。この場合、クロス数データCDは時間の
経過と共に第5図に示すように変化する。ここ
で、曲線E1は「前」の音声に対応し、また曲線
E2は「進」の音声に対応する。この図に示すよ
うに、1つの言葉が発音された場合においても、
音声の途中で区切れが発生する。この区切れは全
く発生しない場合もあり、また複数回発生する場
合もある。そして、この区切れにおいては、クロ
ス数データCDが「0」となる。したがつて、第
5図に示す時刻t2においてクロス数データCDが
「0」となり(この時、ステツプS9の判断が
「YES」となる)、ステツプS11の判断が「NO」
であつても(雑音ではない)、この時刻t2におい
て音声が終了したか否かの判断はできない。そこ
で、この実施例においては、クロス数データCD
が一旦「0」となつた時点以後、(D2×10msec
の時間連続してクロス数データCDが「2」以下
であつた場合に音声の終了と判断するようになつ
ている。すなわち、クロス数データCDが一旦
「0」になつた時点以後、ステツプS16の判断が
「YES」である間はステツプS12〜S16が繰返し実
行される。この際フレームカウンタFCの内容は
順次インクリメントされ(ステツプS12)、した
がつて、ステツプS14における(FC−EFR)の
値はクロス数データCDが「2」以下を続けてい
るフレーム数を示す。そして、このフレーム数が
D2より大になると、すなわち、(D2×10msec)の
時間が経過すると、ステツプS14における判断が
「YES」となり、音声終了と判断され、ステツプ
S17の処理へ進む。一方、クロス数データCDが
一旦「0」となつた時点以降、上述した(D2×
10msec)の時間が経過する前にクロス数データ
CDが「2」以上になつた場合(第5図における
時刻t3参照)は、ステツプS18の処理へ進む。
ステツプS18では、この時のフレームカウンタ
FCの内容(「N」とする)を中間フレームレジス
タCFRに転送し、次いでステツプS19へ進むと、
フレームカウンタFCの内容をインクリメントと
する。次に、ステツプS20へ進むと、インプツト
レジスタIRの内容(ステツプS15において入力さ
れたクロス数データCD)をフレームカウンタFC
が示すクロス数データレジスタCDR(N+1)へ
転送する。次に、ステツプS21では、10msecの時
間を計測した後、クロス数データCDをインプツ
トレジスタIRへ入力する。次いでステツプS22で
は、インプツトレジスタIRの内容が「0」か否
かを判断する。そして、この判断結果が「NO」
の場合は、再びステツプS19へ戻り、以後、ステ
ツプS22の判断結果が「YES」となるまでステツ
プS19〜S22の過程を繰返す。この繰返しにより、
第5図の音声の場合は、「進」に対応する各クロ
ス数データCDがクロス数データレジスタCDR
(N+1),(N+2)…に順次書込まれる。次に、
ステツプS22における判断結果が「YES」になる
と、ステツプS23へ進む。ステツプS23では、そ
の時点におけるフレームカウンタFCの内容から
中間フレームレジスタCFRの内容「N」を減算
する。この減算結果は、第5図の例の場合、時刻
t3〜t4のフレーム数を示している。次に同減算結
果が前述した一定数D1より小か否かを判断する。
そしてこの判断結果が「YES」の場合(第5図
の例の場合は「NO」となる)、すなわち、ステ
ツプS19〜S22の繰返しによつてクロス数データ
レジスタCDRに収録したデータが雑音のデータ
であつた場合は、ステツプS17へ進む。この処理
は、ステツプS19〜S22の繰返しによつてレジス
タCDRに収録したデータを無視し、ステツプS10
の時点で音声が終了していると判断することを意
味する。一方、ステツプS23の判断結果が「NO」
の場合は、ステツプS24へ進み、その時のフレー
ムカウンタFCの内容をエンドフレームレジスタ
EFRへ転送する。そして、ステツプS12へ戻る。
以後、再びステツプS12〜S16の過程を繰返す。
そして、ステツプS14の判断が「YES」となれば
ステツプS17へ進み、パラメータ出力を行い、ま
た、ステツプS14の判断が「YES」になる前に、
ステツプS16の判断が「NO」になれば、再びス
テツプS18以降の処理を行う。
以上が第1図〜第3図に示す実施例の詳細であ
る。なお、第3図の流れ図においては記載を省略
しているが、この実施例においては、音声が
1.6sec以上継続した場合、すなわち、フレームカ
ウンタECの内容が「160」を越えた場合は、パラ
メータ検出を中止し、ステツプS1へ戻るように
なつている。このため、クロス数データレジスタ
CDRの数も160となつている。このようにしてい
る理由は、音声認識回路6において認識し得る音
声の最大継続時間が1.6secであるあらである。ま
た、上記実施例においては、ADC3から出力さ
れるデイジタル音声データVDに基づいてクロス
数データCDを得ているが、これに代えて、プリ
エンフアシス回路2から出力されるアナログ音声
信号をレベル比較することによりクロス数データ
CDを得るようにしてもよい。また、上記実施例
においては、音声データVDがしきい値SHを下
から上に横切つた場合、あるいは上から下に横切
つた場合のいずれの場合においてもクロス数をカ
ウントしているが、しずれか一方の場合のみカウ
ントするようにしてもよい。
〔発明の効果〕
以上説明したように、この発明によれば音声始
端および音声終端を各々異なる値のしいき値によ
つて検出するようにしたので、音声始端の検出時
においては雑音の影響を受けることがなく、しか
も音声終端の検出時においては信号レベルの小さ
い音声終端をも正確に検出することができる効果
がある。
【図面の簡単な説明】
第1図はこの発明の一実施例の出成を示すブロ
ツク図、第2図は同実施例における制御回路5内
に設けられている内部レジスタを示す図、第3図
は同制御回路5内に設けられているCPUの動作
を説明するための流れ図、第4図はしきい値αお
よびβの大きさの一例を音声信号との関連の上で
示す図、第5図はクロス数データCDの変化状態
の一例を示す図、第6図は従来の音声認識装置に
おけるしきい値L1を音声信号との関連の上で示
す図である。 1……マイクロフオン、4……クロス数カウン
ト回路、5……制御回路。

Claims (1)

    【特許請求の範囲】
  1. 1 入力される音声信号が所定時間内にしきい値
    を交差する数を時間の経過と共に逐次計数し、こ
    の計数結果をクロス数データとして順次出力する
    クロス数カウント手段と、前記クロス数データに
    基づいて音声信号の始端および終端を検出する検
    出手段と、音声信号の始端検出前において前記し
    きい値を第1の値に設定し、前記検出手段が音声
    信号の始端を検出した時点以後前記しきい値を前
    記第1の値より零レベルに近い第2の値に変更制
    御する制御手段とを具備してなり、前記検出手段
    によつて検出された音声信号の始端および終端に
    基づいて音声パラメータを検出することを特徴と
    する音声パラメータ検出装置。
JP59235635A 1984-11-08 1984-11-08 音声パラメ−タ検出装置 Granted JPS61113100A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59235635A JPS61113100A (ja) 1984-11-08 1984-11-08 音声パラメ−タ検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59235635A JPS61113100A (ja) 1984-11-08 1984-11-08 音声パラメ−タ検出装置

Publications (2)

Publication Number Publication Date
JPS61113100A JPS61113100A (ja) 1986-05-30
JPH0562756B2 true JPH0562756B2 (ja) 1993-09-09

Family

ID=16988938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59235635A Granted JPS61113100A (ja) 1984-11-08 1984-11-08 音声パラメ−タ検出装置

Country Status (1)

Country Link
JP (1) JPS61113100A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8613327D0 (en) * 1986-06-02 1986-07-09 British Telecomm Speech processor
JP2656069B2 (ja) * 1988-05-13 1997-09-24 富士通株式会社 音声検出装置
JP2708566B2 (ja) * 1989-09-06 1998-02-04 株式会社日立製作所 音声認識制御装置

Also Published As

Publication number Publication date
JPS61113100A (ja) 1986-05-30

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
US20080262856A1 (en) Method and system for enabling audio speed conversion
JPH0562756B2 (ja)
US7231346B2 (en) Speech section detection apparatus
JP3961616B2 (ja) 話速変換方法および話速変換機能付補聴器
JP3422716B2 (ja) 話速変換方法および装置および話速変換プログラムを格納した記録媒体
JP2737109B2 (ja) 音声区間検出方式
JP3584157B2 (ja) 雑音低減装置
JPS6120880B2 (ja)
JP3360370B2 (ja) 波形検出装置
JPS61140999A (ja) 音声区間検出方式
KR970002195B1 (ko) 디지탈기기의 음소거장치 및 음소거 제어방법
JP2967783B2 (ja) ミユーテイング回路
JP2772598B2 (ja) 音声符号化装置
JPS62237498A (ja) 音声区間検出方法
JP4007628B2 (ja) 音声ピッチの周期の正規化を行う音声合成装置
JPS60498A (ja) 音声検出装置
JPS5817497A (ja) 音声ピッチ検出装置
JP3378635B2 (ja) 音声領域検出装置
JPS60101598A (ja) 音声区間検出装置
JPH0329531A (ja) ミユーテイング回路
JPH0394300A (ja) 音声検出器
Baba et al. Development of a voice speed control system LSI
JPH0513407B2 (ja)
JPH04301700A (ja) デジタル音声信号再生装置