JPH0441356B2 - - Google Patents

Info

Publication number
JPH0441356B2
JPH0441356B2 JP57029471A JP2947182A JPH0441356B2 JP H0441356 B2 JPH0441356 B2 JP H0441356B2 JP 57029471 A JP57029471 A JP 57029471A JP 2947182 A JP2947182 A JP 2947182A JP H0441356 B2 JPH0441356 B2 JP H0441356B2
Authority
JP
Japan
Prior art keywords
signal
circuit
supplied
parameter
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57029471A
Other languages
English (en)
Other versions
JPS58145998A (ja
Inventor
Masao Watari
Makoto Akaha
Hisao Nishioka
Toshihiko Waku
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP57029471A priority Critical patent/JPS58145998A/ja
Priority to CA000422146A priority patent/CA1193732A/en
Priority to US06/469,114 priority patent/US4592085A/en
Priority to KR1019830000745A priority patent/KR910002198B1/ko
Priority to NL8300718A priority patent/NL192701C/nl
Priority to FR8303208A priority patent/FR2522179B1/fr
Priority to DE19833306730 priority patent/DE3306730A1/de
Priority to GB08305292A priority patent/GB2118343B/en
Publication of JPS58145998A publication Critical patent/JPS58145998A/ja
Priority to GB08429480A priority patent/GB2153127B/en
Publication of JPH0441356B2 publication Critical patent/JPH0441356B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Character Discrimination (AREA)
  • Telephonic Communication Services (AREA)
  • Image Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】
本発明は音声認識に使用して好適な音声過渡点
検出方法に関する。 音声認識においては、特定話者に対する単語認
識によるものがすでに実用化されている。これは
認識対象とする全ての単語について特定話者にこ
れらを発音させ、バンドパスフイルタバンク等に
よりその音響パラメータを検出して記憶(登録)
しておく。そして特定話者が発声したときその音
響パラメータを検出し、登録された各単語の音響
パラメータと比較し、これらが一致したときその
単語であるとの認識を行う。 このような装置において、話者の発声の時間軸
が登録時と異なつている場合には、一定時間(5
〜20msec)毎に抽出される音響パラメータの時
系列を伸縮して時間軸を整合させる。これによつ
て発声速度の変動に対処させるようにしている。 ところがこの装置の場合、認識対象とする全て
の単語についてその単語の全体の音響パラメータ
をあらかじめ登録格納しておかなければならず、
膨大な記憶容量と演算を必要とする。このため認
識語い数に限界があつた。 一方音韻(日本語でいえばローマ字表記したと
きのA、I、U、E、O、K、S、T等)あるい
は音節(KA、KI、KU等)単位での認識を行う
ことが提案されている。しかしこの場合に、母音
等の準定常部を有する音韻の認識は容易であつて
も、破裂音(K、T、P等)のように音韻的特徴
が非常に短いものを音響パラメータのみで一つの
音韻に特定することは極めて困難である。 そこで従来は、各音節ごとに離散的に発音され
た音声を登録し、離散的に発声された音声を単語
認識と同様に時間軸整合させて認識を行つてお
り、特殊な発声を行うために限定された用途でし
か利用できなかつた。 さらに不特定話者を認識対象とした場合には、
音響パラメータに個人差による大きな分散があ
り、上述のように時間軸の整合だけでは認識を行
うことができない。そこで例えば一つの単語につ
いて複数の音響パラメータを登録して近似の音響
パラメータを認識する方法や、単語全体を固定次
元のパラメータに変換し、識別函数によつて判別
する方法が提案されているが、いづれも膨大な記
憶容量を必要としたり、演算量が多く、認識語い
数が極めて少くなつてしまう。 これに対して本願発明者は先に、不特定話者に
対しても、容易かつ確実に音声認識を行えるよう
にした新規な音声認識方法を提案した。以下にま
ずその一例について説明しよう。 ところで音韻の発声現象を観察すると、母音や
摩擦音(S、H等)の音韻は長く伸して発声する
ことができる。例えば“はい”という発声を考え
た場合に、この音韻は第1図Aに示すように、
「無音→H→A→I→無音」に変化する。これに
対して同じ“はい”の発声を第1図Bのように行
うこともできる。ここでH、A、Iの準定常部の
長さは発声ごとに変化し、これによつて時間軸の
変動を生じる。ところがこの場合に、各音韻間の
過渡部(斜線で示す)は比較的時間軸の変動が少
いことが判明した。 そこで第2図において、マイクロフオン1に供
給された音声信号がマイクアンプ2、5.5kHz以下
のローパスフイルタ3を通じてAD変換回路4に
供給される。またクロツク発生器5からの12.5k
Hz(80μsec間隔)のサンプリングクロツクがAD
変換回路4に供給され、このタイミングで音声信
号がそれぞれ所定ビツト数(=1ワード)のデジ
タル信号に変換される。この変換された音声信号
が5×64ワードのレジスタ6に供給される。また
クロツク発生器5からの5.12msec間隔のフレー
ムクロツクが5進カウンタ7に供給され、このカ
ウント値がレジスタ6に供給されて音声信号が64
ワードずつシフトされ、シフトされた4×64ワー
ドの信号がレジスタ6から取り出される。 このレジスタ6から取り出された4×64=256
ワードの信号が高速フーリエ変換(FFT)回路
8に供給される。ここでこのFFT回路8におい
て、例えばTの時間長に含まれるn個のサンプ
リングデータによつて表される波形函数を UofT() ……(1) としたとき、これをフーリエ変換して、 Uo T()=∫T/2 -T/2Uo T()e
-2j tdt≡U1o T()+jU2o T()……(2) の信号が得られる。 さらにこのFFT回路8からの信号がパワース
ペクトルの検出回路9に供給され、 |U2|=U21o T()+U22o T() ……(3) のパワースペクトル信号が取り出される。ここで
フーリエ変換された信号は周波数軸上で対称にな
つているので、フーリエ変換によつて取り出され
るn個のデータの半分は冗長データである。そ
こで半分のデータを排除して1/2n個のデータが 取り出される。すなわち上述のFFT回路8に供
給された256ワードの信号が変換されて128ワード
のパワースペクトル信号が取り出される。 このパワースペクトル信号がエンフアシス回路
10に供給されて聴感上の補正を行うための重み
付けが行われる。ここで重み付けとしては、例え
ば周波数の高域成分を増強する補正が行われる。 この重み付けされた信号が帯域分割回路11に
供給され、聴感特性に合せた周波数メルスケール
に応じて例えば32の帯域に分割される。ここでパ
ワースペクトルの分割点と異なる場合にはその信
号が各帯域に接分されてそれぞれの帯域の信号の
量に応じた信号が取り出される。これによつて上
述の128ワードのパワースペクトル信号が、音響
的特徴を保存したまま32ワードに圧縮される。 この信号が対数回路12に供給され、各信号の
対数値に変換される。これによつて上述のエンフ
アシス回路10での重み付け等による冗長度が排
除される。ここでこの対数パワースペクトル log|U2 o T()| ……(4) をスペクトルパラメータx(i)(i=0、1…31)と
称する。 このスペクトルパラメータx(i)が離散的フーリ
エ変換(DFT)回路13に供給される。ここで
このDFT回路13において、例えば分割された
帯域の数をMとすると、このM次元スペクトルパ
ラメータx(i)(i=0、1…M−1)を2M−1点
の実数対称パラメータとみなして2M−2点の
DFTを行なう。従つて X(m)=2M-3i=0 x(i)Wmi 2M-2 ……(5) 但し
【式】 m=0、1、…2M−3 となる。さらにこのDFTを行う函数は偶函数と
みなされるため Wmi 2M-2=cos(2π・i・m/2M−2) =cos(π・i・m/M−1) となり、これらより X(m)=2M-3i=0 x(i)cosπ・i・m/M−1 ……(6) となる。このDFTによりスペクトルの包絡特性
を表現する音響パラメータが抽出される。 このようにしてDFTされたスペクトラムパラ
メータx(i)について、0〜P−1(例えばP=8)
次までのP次元の値を取り出し、これをローカル
パラメータL(p)(p=0、1…P−1)とすると L(p)=2M-3i=0 x(i)cosπ・i・p/M−1 ……(7) となり、ここでスペクトルパラメータが対称であ
ることを考慮して X(i)=x(2M-i-2) とおくと、ローカルパラメータL(p)は L(p)=x(φ)+M-2 〓 〓i=1 x(i){cosπ・i・p/M−1+cosπ・(2M−2−
i)・P/M−1}+x(M−1)cosπ・p/M−1
……(9) 但し、p=0、1―P−1 となる。このようにして32ワードの信号がP(例
えば8)ワードに圧縮される。 このローカルパラメータL(p)がメモリ装置14
に供給される。このメモリ装置14は1行Pワー
ドの記憶部が例えば16行マトリクス状に配された
もので、ローカルパラメータL(p)が各次元ごとに
順次記憶されると共に、上述のクロツク発生器5
からの5.12msec間隔のフレームクロツクが供給
されて、各行のパラメータが順次横方向へシフト
される。これによつてメモリ装置14には5.12m
sec間隔のP次元のローカルパラメータL(p)が16フ
レーム(81.92msec)分記憶され、フレームクロ
ツクごとに順次新しいパラメータに更新される。 さらに例えばエンフアシス回路10からの信号
が音声過渡点検出回路20に供給されて音韻間の
過渡点が検出される。 この過渡点検出信号T(t)がメモリ装置14に供
給され、この検出信号のタイミングに相当するロ
ーカルパラメータL(p)が8番目の行にシフトされ
た時点でメモリ装置14の読み出しが行われる。
ここでメモリ装置14の読み出しは、各次元Pご
とに16フレーム分の信号が横方向に読み出され
る。そして読み出された信号がDFT回路15に
供給される。 この回路15において上述と同様にDFTが行
われ、音響パラメータの時系列変化の包絡特性が
抽出される。このDFTされた信号の内から0〜
Q−1(例えばQ=3)次までのQ次元の値を取
り出す。このDFTを各次元Pごとに行い、全体
でP×Q(=24)ワードの過渡点パラメータ
K(pq)(p=0、1…P−1)(q=0、1…Q
−1)が形成される。ここで、K(00)は音声波
形のパワーを表現しているので、パワー正規化の
ため、p=0のときにq=1〜Qとしてもよい。 すなわち第3図において、Aのような入力音声
信号(HAI)に対してBのような過渡点が検出
されている場合に、この信号の全体のパワースペ
クトルはCのようになつている。そして例えば
「H→A」の過渡点のパワースペクトルがDのよ
うであつたとすると、この信号がエンフアシスさ
れてEのようになり、メルスケールで圧縮されて
Fのようになる。この信号がDFTされてGのよ
うになり、Hのように前後の16フレーム分がマト
リツクされ、この信号が順次時間軸t方向に
DFTされて過渡点パラメータK(pq)が形成され
る。 この過渡点パラメータK(pq)がマハラノビス
距離算出回路16に供給されると共に、メモリ装
置17からのクラスタ系数が回路16に供給され
て各クラスタ系数とのマハラノビス距離が算出さ
れる。ここでクラスタ系数は複数の話者の発音か
ら上述と同様に過渡点パラメータを抽出し、これ
を音韻の内容に応じて分類し統計解析して得られ
たものである。 そしてこの算出されたマハラノビス距離が判定
回路18に供給され、検出された過渡点が、何の
音韻から何の音韻への過渡点であるかが判定さ
れ、出力端子19に取り出される。 すなわち例えば“はい”“いいえ”“0(ゼロ)”
〜“9(キユウ)”の12単語について、あらかじめ
多数(百人以上)の話者の音声を前述の装置に供
給し、過渡点を検出し過渡点パラメータを抽出す
る。この過渡点パラメータを例えば第4図に示す
ようなテーブルに分類し、この分類(クラスタ)
ごとに統計解析する。図中*は無音を示す。 これらの過渡点パラメータについて、任意のサ
ンプルR(a) r,o(r=1、2…24)(aはクラスタ指標
で例えばa=1は*→H、a=2はH→Aに対応
する。nは話者番号)として、共分散マトリクス A(a) r,s≡E(R(a) r,o(a) r)(R(a) s,o(a) s
)……(15) 但し、(a) r)=E(R(a) r,o) Eはアンサンブル平均 を計数し、この逆マトリクス B(a) r,s=(A(a) tu-1r,s……(16) を求める。 ここで任意の過渡点パラメータKrとクラスタ
aとの距離が、マハラノビスの距離 D(Kr,a)d ≡ 〓rs (Kr(a) r)・B(a) r,s・(Kr(a) s) ……(17) で求められる。 従つてメモリ装置17に上述のB(a) r,s及び(a) r
求めて記憶しておくことにより、マハラノビス距
離算出回路16にて入力音声の過渡点パラメータ
とのマハラノビス距離が算出される。 これによつて回路16から入力音声の過渡点ご
とに各クラスタとの最小距離と過渡点の順位が取
り出される。これらが判定回路18に供給され、
入力音声が無声になつた時点において認識判定を
行う。例えば各単語ごとに、各過渡点パラメータ
とクラスタとの最小距離の平方根の平均値による
単語距離を求める。なお過渡点の一部脱落を考慮
して各単語は脱落を想定した複数のタイプについ
て単語距離を求める。ただし過渡点の順位関係が
テーブルと異なつているものはリジエクトする。
そしてこの単語距離が最小になる単語を認識判定
する。 従つてこの装置によれば音声の過渡点の音韻の
変化を検出しているので、時間軸の変動がなく、
不特定話者について良好な認識を行うことができ
る。 また過渡点において上述のようなパラメータの
抽出を行つたことにより、一つの過渡点を例えば
24次元で認識することができ、認識を極めて容易
かつ正確に行うことができる。 なお上述の装置において120名の話者にて学習
を行い、この120名以外の話者にて上述12単語に
ついて実験を行つた結果、98.2%の平均認識率が
得られた。 さらに上述の例で“はい”の「H→A」と“8
(ハチ)”の「H→A」は同じクラスタに分類可能
である。従つて認識すべき言語の音韻数をαとし
てαP2個程度のクラスタをあらかじめ計算してク
ラスタ係数をメモリ装置17に記憶させておけ
ば、種種の単語の認識に適用でき、多くの語いの
認識を容易に行うことができる。 本発明はこのような装置において、検出回路2
0に使用して好適な音声過渡点検出方法に関す
る。 ところで従来の過渡点検出としては例えば音響
パラメータL(p)の変化量の総和を用いる方法があ
る。すなわちフレームごとにP次のパラメータが
抽出されている場合に、Gフレームのパラメータ
をL(p)(G)(p=0、1……P−1)としたとき T(G)=P-1p=0 |L(p)(G)−L(p)(G−1)| ……(9′) のような差分量の絶対値の総和を利用して検出を
行う。 ここでP=1次元のときには、第5図A,Bに
示すようにパラメータL(p)(G)の変化点においてパ
ラメータT(G)のピークが得られる。ところが例え
ばP=2次元の場合に、C、Dに示す0次、1次
のパラメータL(0)(G)、L(1)(G)が上述と同様の変化で
あつても、それぞれの差分量の変化がE、Fのよ
うであつた場合に、パラメータT(G)のピークが2
つになつて過渡点を一点に定めることができなく
なつてしまう。これは2次元以上のパラメータを
取つた場合に一般的に起こりうる。 また上述の説明ではL(p)(G)を連続量としたが、
実際にはこのパラメータL(p)(G)は離散量である。
さらに一般の音声には微少な変動があるために、
実際のパラメータL(p)(G)の変化は第5図Hのよう
になり、これから検出されたパラメータT(G)には
Iに示すように多数の凹凸が生じてしまう。 このため上述の方法では、検出が不正確である
と共に、検出のレベルも不安定であるなど、種々
の欠点があつた。 本発明はこのような点にかんがみ、容易かつ安
定な音声過渡点検出方法を提供するものである。
以下に図面を参照しながら本発明の一実施例につ
いて説明しよう。 第6図において、第2図のエンフアシス回路1
0からの重み付けされた信号が帯域分割回路21
に供給され、上述と同様にメルスケールに応じて
N(例えば20)の帯域に分割され、それぞれの帯
域の信号の量に応じた信号V(o)(n=0、1…N
−1)が取り出される。この信号がバイアス付き
対数回路22に供給されて ν′(o)=log(V(o)+B) ……(10) が形成される。また信号V(o)が累積回路23に供
給されて Va=20n=1 V(n)/20 が形成され、この信号Vaが対数回路22に供給
されて ν′a=log(Va+B) ……(11) が形成される。そしてこれらの信号が演算回路2
4に供給されて ν(o)=ν′a−ν′(o) ……(12) が形成される。 ここで上述のような信号V(o)を用いることによ
り、この信号は音韻から音韻への変化に対して各
次(n=0、1……N−1)の変化が同程度とな
り、音韻の種類による変化量のばらつきを回避で
きる。また対数をとり演算を行つて正規化パラメ
ータν(o)を形成したことにより、入力音声のレベ
ルの変化によるパラメータν(o)の変動が排除され
る。さらにバイアスBを加算して演算を行つたこ
とにより、仮りにB→∞とするとパラメータν(o)
→0となることから明らかなように、入力音声の
微少成分(ノイズ等)に対する感度を下げること
ができる。 このパラメータν(o)がメモリ装置25に供給さ
れて2w+1(例えば9)フレーム分が記憶され
る。この記憶された信号が演算回路26に供給さ
れて Yot= min I∈GFN{ν(o)(I)} ……(13) 但し、GFN={I;−w+t≦I≦w+t} が形成され、この信号とパラメータy(e)が演算回
路27に供給されて T(t)N-1n=0 wI=-w (v(o)(I+t)−Yo,t) ……(14) が形成される。このT(t)が過渡点検出パラメータ
であつて、このT(t)がピーク判別回路28に供給
されて、入力音声信号の音韻の過渡点が検出さ
れ、出力端子29に取り出されて例えば第2図の
メモリ装置14の出力回路に供給される。 ここでパラメータT(t)が、フレームtを挾んで
前後wフレームずつで定義されているので、不要
な凹凸や多極を生じるおそれがない。なお第7図
は例えば“ゼロ”という発音を、サンプリング周
波数12.5kHz、12ビツトデジタルデータとし、
5.12msecフレーム周期で256点のFFTを行い、帯
域数N=20、バイアスB=0、検出フレーム数
2w+1=9で上述の検出を行つた場合を示して
いる。図中Aは音声波形、Bは音韻、Cは検出信
号であつて、「無音→Z」「Z→E」「E→R」「R
→0」「0→無音」の各過渡部で顕著なピークを
発生する。ここで無音部にノイズによる多少の凹
凸が形成されるがこれはバイアスBを大きくする
ことにより破線図示のように略0になる。 こうして音声過渡点が検出されるわけである
が、本発明によれば音韻の種類や入力音声のレベ
ルの変化による検出パラメータの変動が少く、常
に安定な検出を行うことができる。 なお本発明は上述の新規な音声認識方法に限ら
ず、検出された過渡点と過渡点の間の定常部を検
出したり、検出された過渡点を用いて定常部の時
間軸を整合する場合にも適用できる。また音声合
成において、過渡点の解析を行う場合などにも有
効に利用できる。
【図面の簡単な説明】
第1図〜第4図は音声認識装置の説明のための
図、第5図は過渡点検出の説明のための図、第6
図は本発明の一例の系統図、第7図はその説明の
ための図である。 1はマイクロフオン、3はローパスフイルタ、
4はAD変換回路、5はクロツク発生器、6はレ
ジスタ、7はカウンタ、8は高速フーリエ変換回
路、9はパワースペクトル検出回路、10はエン
フアシス回路、21は帯域分割回路、22は対数
回路、23,24,26,27は演算回路、25
はメモリ装置、28はピーク判別回路、29は出
力端子である。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声信号を人間の聴覚特性に応じて等し
    く重み付けして音響パラメータを抽出し、この音
    響パラメータのレベルに対して正規化を行い、こ
    の正規化された音響パラメータを複数フレームに
    亘つて監視し、上記音響パラメータのピークを検
    出するようにした音声過渡点検出方法。
JP57029471A 1982-02-25 1982-02-25 音声過渡点検出方法 Granted JPS58145998A (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP57029471A JPS58145998A (ja) 1982-02-25 1982-02-25 音声過渡点検出方法
CA000422146A CA1193732A (en) 1982-02-25 1983-02-22 Speech-recognition method and apparatus for recognizing phonemes in a voice signal
US06/469,114 US4592085A (en) 1982-02-25 1983-02-23 Speech-recognition method and apparatus for recognizing phonemes in a voice signal
KR1019830000745A KR910002198B1 (ko) 1982-02-25 1983-02-24 음성인식방법과 그 장치
FR8303208A FR2522179B1 (fr) 1982-02-25 1983-02-25 Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
NL8300718A NL192701C (nl) 1982-02-25 1983-02-25 Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal.
DE19833306730 DE3306730A1 (de) 1982-02-25 1983-02-25 Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal
GB08305292A GB2118343B (en) 1982-02-25 1983-02-25 Phoneme recognition
GB08429480A GB2153127B (en) 1982-02-25 1984-11-22 Phoneme transition recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57029471A JPS58145998A (ja) 1982-02-25 1982-02-25 音声過渡点検出方法

Publications (2)

Publication Number Publication Date
JPS58145998A JPS58145998A (ja) 1983-08-31
JPH0441356B2 true JPH0441356B2 (ja) 1992-07-08

Family

ID=12277008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57029471A Granted JPS58145998A (ja) 1982-02-25 1982-02-25 音声過渡点検出方法

Country Status (8)

Country Link
US (1) US4592085A (ja)
JP (1) JPS58145998A (ja)
KR (1) KR910002198B1 (ja)
CA (1) CA1193732A (ja)
DE (1) DE3306730A1 (ja)
FR (1) FR2522179B1 (ja)
GB (2) GB2118343B (ja)
NL (1) NL192701C (ja)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
JPS5997200A (ja) * 1982-11-26 1984-06-04 株式会社日立製作所 音声認識方式
JPS59166999A (ja) * 1983-03-11 1984-09-20 ソニー株式会社 音声過渡点検出方法
JPS59170897A (ja) * 1983-03-17 1984-09-27 ソニー株式会社 音声過渡点検出方法
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
DE3514286A1 (de) * 1985-04-19 1986-10-23 Siemens AG, 1000 Berlin und 8000 München System zur erkennung einzeln gesprochener woerter
CA1250368A (en) * 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
JPS63158596A (ja) * 1986-12-23 1988-07-01 株式会社東芝 音韻類似度計算装置
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US5136653A (en) * 1988-01-11 1992-08-04 Ezel, Inc. Acoustic recognition system using accumulate power series
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
JPH03120598A (ja) * 1989-10-03 1991-05-22 Canon Inc 音声認識方法及び装置
EP0438662A2 (en) * 1990-01-23 1991-07-31 International Business Machines Corporation Apparatus and method of grouping utterances of a phoneme into context-de-pendent categories based on sound-similarity for automatic speech recognition
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
US5724410A (en) * 1995-12-18 1998-03-03 Sony Corporation Two-way voice messaging terminal having a speech to text converter
KR0173923B1 (ko) * 1995-12-22 1999-04-01 양승택 다층구조 신경망을 이용한 음소 분할 방법
JP3447749B2 (ja) 1996-08-29 2003-09-16 富士通株式会社 設備故障診断方法及びその装置並びにその方法に従った処理をコンピュータに実行させるためのプログラムを格納した記緑媒体
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
US6230122B1 (en) 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6768979B1 (en) 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US7139708B1 (en) 1999-03-24 2006-11-21 Sony Corporation System and method for speech recognition using an enhanced phone set
US20010029363A1 (en) * 1999-05-03 2001-10-11 Lin J. T. Methods and apparatus for presbyopia correction using ultraviolet and infrared lasers
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
JP2013164572A (ja) * 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3344233A (en) * 1967-09-26 Method and apparatus for segmenting speech into phonemes
GB981154A (en) * 1961-03-20 1965-01-20 Nippon Telegraph & Telephone Improved phonetic typewriter system
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
JPS5850360B2 (ja) * 1978-05-12 1983-11-10 株式会社日立製作所 音声認識装置における前処理方法
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
US4454586A (en) * 1981-11-19 1984-06-12 At&T Bell Laboratories Method and apparatus for generating speech pattern templates

Also Published As

Publication number Publication date
KR910002198B1 (ko) 1991-04-06
DE3306730C2 (ja) 1991-10-17
GB8429480D0 (en) 1985-01-03
DE3306730A1 (de) 1983-09-01
GB2153127A (en) 1985-08-14
FR2522179A1 (fr) 1983-08-26
US4592085A (en) 1986-05-27
CA1193732A (en) 1985-09-17
FR2522179B1 (fr) 1986-05-02
GB8305292D0 (en) 1983-03-30
KR840003871A (ko) 1984-10-04
GB2153127B (en) 1986-01-15
GB2118343A (en) 1983-10-26
NL192701B (nl) 1997-08-01
NL8300718A (nl) 1983-09-16
JPS58145998A (ja) 1983-08-31
NL192701C (nl) 1997-12-02
GB2118343B (en) 1986-01-02

Similar Documents

Publication Publication Date Title
JPH0441356B2 (ja)
Patil et al. Automatic Speech Recognition of isolated words in Hindi language using MFCC
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
JPH0441357B2 (ja)
JPH0552509B2 (ja)
Chen et al. Teager Mel and PLP fusion feature based speech emotion recognition
JPH0552510B2 (ja)
JPH0546558B2 (ja)
JPH0552511B2 (ja)
JPH0546559B2 (ja)
Majidnezhad A HTK-based method for detecting vocal fold pathology
JPH0546560B2 (ja)
JPH0552515B2 (ja)
Tabassum et al. Speaker independent speech recognition of isolated words in room environment
Naing et al. Comparison of Three Auditory Frequency Scales in Feature Extraction on Myanmar Digits Recognition
JPH0552512B2 (ja)
Huckvale 12 Data Processing: Digital Analysis of Speech Audio Signals
JPS6069697A (ja) 音声認識装置
JPH0469800B2 (ja)
JPS6086599A (ja) 音声認識装置
JPH0451039B2 (ja)
JPS58146000A (ja) 音声認識方法
JPS6069696A (ja) 音声認識装置
JPH026078B2 (ja)