JPS58145998A - 音声過渡点検出方法 - Google Patents

音声過渡点検出方法

Info

Publication number
JPS58145998A
JPS58145998A JP57029471A JP2947182A JPS58145998A JP S58145998 A JPS58145998 A JP S58145998A JP 57029471 A JP57029471 A JP 57029471A JP 2947182 A JP2947182 A JP 2947182A JP S58145998 A JPS58145998 A JP S58145998A
Authority
JP
Japan
Prior art keywords
signal
circuit
supplied
detection
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57029471A
Other languages
English (en)
Other versions
JPH0441356B2 (ja
Inventor
雅男 渡
誠 赤羽
久雄 西岡
俊彦 和久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP57029471A priority Critical patent/JPS58145998A/ja
Priority to CA000422146A priority patent/CA1193732A/en
Priority to US06/469,114 priority patent/US4592085A/en
Priority to KR1019830000745A priority patent/KR910002198B1/ko
Priority to NL8300718A priority patent/NL192701C/nl
Priority to GB08305292A priority patent/GB2118343B/en
Priority to DE19833306730 priority patent/DE3306730A1/de
Priority to FR8303208A priority patent/FR2522179B1/fr
Publication of JPS58145998A publication Critical patent/JPS58145998A/ja
Priority to GB08429480A priority patent/GB2153127B/en
Publication of JPH0441356B2 publication Critical patent/JPH0441356B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音声昭謙に使用して好適な音声過渡点検出方法
に関する。
音−1#謙においては、特定話者に対する雛飴蘭瞼によ
るものがすでに実用化されている。これはV謙対象とす
る全ての雛飴について特定話者にこれらを発音させ、バ
ンド/9スフイルタパンク等によ)+の音勢・譬うメー
タを検出して配憶(登録)しておく。そして特定話者が
発声したときその音曽・母うメータ1慎出し、登録され
た谷*飴の貴書ノ譬うメータと比較し、これらが一致し
九ときその雛飴であるとの瞳識を行う。
このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間(5〜20m5ec
)毎に抽出される音響ノナラメータの時系列を伸縮して
時間軸を整容させる。これによって発声速度の変動に対
処させるようKしている。
ところがこの装置の場合、認識対象とする全ての雛語に
ついてその拳蒔の全体の音響/fラメータをあらかじめ
登録格納しておかなければならず、膨大な配憶容量′左
演算を必要とする。この九め歓識梧い数に@界が6つf
e。
一方音韻(日本語でいえばローi字表記したときのA、
I、U、E、、0.に、8.T等)あるbは音節(KA
 、 Kl 、 KU等)琳位でのIa!識を行うこと
が提案されている。しかしこの場合に、・母音婢の準定
常部を有する音韻の虻峻は容易で−あって゛も、破裂音
(K、T、P等)のように音韻的特徴が非常に短いもの
を音響・ヤラメータのみで−?の好−に特定すること社
極めて困難である。
そこで従来は、各音節ごとく離散的に発音され友音声を
登録し、−数的に発声された音声を巣語m織と同様に時
間軸整合させて認識を行っておシ、特殊な発声を行うた
めに限定された用途でしか利用で亀なかつ友。
さらに不特定話者を認識対象とした場合には、奮譬・奢
うメータに個人差による大きな分散があり、上述のよう
に時間軸の整合だけでは認識を行うことができない、そ
こで例えば一つの雛語について嶺数の音響・母うメータ
を登録して近似の音響・昔うメータt−靴綴する方法や
、巣語全体を固定次元のノ譬うメータに変換し、識別函
数によって判別する方法が提案されているが、いづれも
膨大な配憶容量を必要とシたり、演算量が多く、認!I
!語い数が極めて少くなってしまう。
これに対して本願発明者は先に、不特定話者に対しても
、容易かつ確実に音−、認識を行えるようにした新規な
音声1鐵方法を提案した。以下Ktずその一例について
説明しよう。
ところでfThの晃声現象倉#1察すると、母音や摩擦
音(8,H等)等の音韻は長く伸して発声することがで
きる0例えば1はい”という発声を考えた場合に1この
音韻は第1図ムに示すように、「無音→■→A→■→無
音」に変化する。これに対して同じ1は12の発声を第
1図Bのように行うこともできる。こむでH,ム、Iの
準定常部の長さは発声ととに変化し、これによって時間
軸の変動を生じる。ところがこの場合に1各音−間の過
渡部(斜線で示す)は比較的時間軸の変動が少いことが
判明し友。
そこで第2図において、マイクロフォン(13に供給さ
れた音声信号がマイクアンプ(2)、5.5 kHz以
下の0−/譬スフィルタ(3)會通じてAD変換回路(
4)に供給される。またクロック発生器(5)からの1
2.5kHi (80声−・・間隔)のサンプリンダク
ロックがAD変換回路(4)K供給され、このタイiン
グで音声信号がそれぞれ所定ビット数(s= lワード
)のデジタル信号に変換される。この変換され友音声信
号が5×64ワードのレジスタ(6)K供給される・オ
たクロック発生器(5)からの5.12m5ec間隔の
7レームタロツクが54カランタ(7)に供給湯れ、こ
0カウント値がレジスタ(6)に供給されて音声信号が
64ワーrずつシフトされ、シフトされた4×64ワー
ドの(I!号がレジスタ(6)から峨ル出される。
このレジスタ(句から職り出され九4X64−2541
ワードの信号が高速7−リエ変換(FFT)回路(8)
K供給される。ここで仁OFF?回路(8)におiて、
例えばTの時間傘に含まれる11f−のフンlリングr
−7によって表される波形函数を 11.に)          ・・・・・・(1)と
し友と自、これ′に7−リエ変換して、■u、、、!(
ハ+ jU2m 、(1)        ・・・・・
・(2)O信号が得られる・ さらにこのFFi’ 1ljj路(8)からの信号がノ
譬ワースベクトルの構出1&!1ii6 (9)に供給
湯れ、Iu” 1 m111v)+4...v)−・−
・−<s>O/4ワース(クトル匍号が1@ル出δれる
。ここでフーリエ変換され良信号は周波数軸上で対称に
なっているので、フーリエ変換によって取)出される1
17個のデータの半分は冗長データである。そζで半分
のデータを排除してT11個のデータが取)出される。
すなわち上述のPFT回路(8)に供給され九256ワ
ードの信号が変換されて128ワードの・臂ワースベク
トル信号が取〕出される。
この・譬ワース(クトル信号がエン7アシス回路四に供
給されて聴感上の補正を行う九めの重み付けが行われる
。こむで重み付けとしては、例えば周波数の高域成分を
増強する補正が行われる。
、この重み付けされ良信号が帯域分割回路alK供給さ
れ、聴感特性に合せ九周波数メルスクールに応じて例え
ば32の帯域に分割される。ζζで71ワースベクトル
の分割点と異なる場合KFJ、その信号が各帯域に按分
されてそれヤれの帯域の信号の量に応じ良信号が取シ出
される。これによって上述の128ワードの49−スペ
クトル信号が、音會的%黴を保存し九まま32ワードに
圧縮される。
この信号が対数回路(2)に供給され、各信号の対数値
に変換される。これによって上述のエンファシス回路(
至)での重み付は等による冗長度が排除される。ここで
この対数ノやワースベクトルlag IUnftωl 
      −・−・−(4)をスペクトルパラメータ
”(i)(し0 、1 ・31 )と称する。
このスペクトルパラメータ”(1)が離散的フーリエ変
換(DFT)回路(至)に供給される。ここでこのDF
TFT回路おいて、例えば分割された帯域の数をMとす
ると、このM次元スペクトル・9ラメータX(1)(1
=o 、 1・・・M−1)を2M点の実数対称ノぐ2
メータとみなしてDFTを行う。従って m−0、1−2M−1:□ となる。さらにこのDFTを行う函数は偶函数とみなさ
れるため l    2π・i−m <つ=頼−西−) とな9、これらよ) となる、仁のDFTによりスペクトルの包絡特性を表現
する貴書・ザラメータが抽出される。
このようにしてDF’?されたスペクトラ五ノ譬うメー
タ”(1) Kついて、o〜p−i(例えばP;8)次
までのP次元の値を取り出し、これt−a−カルパラメ
ータL(1)(p=0 、1・・・P−1)とすると・
・・・・・(7) となり、ここでスペクトル・ザラメータが対称であるこ
とを考慮して x(1)””  (21g−血−、)        
                  −−(8)とお
くと、ローカルノ奢うメータL (p)は但し、p=0
1・・・P−1 となる。このようにして32ワードの信号がP(例えば
8)ワードに圧縮される。
とのQ−カル・母うメータLc)がメモリ装置tα◆に
供給される。このメモリ装置a→は1行Pワードの記憶
部が例えば16行マドIJクス状に配されたもので、ロ
ーカル・ザラメータL(1)が各次元ごとに鵬次記憶さ
れると共に1上述のクロック発生器(5)からの5.1
2m5ec間隔のフレームクロックが供給されて、各行
の・ザラメータが順次横方向ヘシフトされる。これによ
ってメモリ装置0◆には5.12a>100間隔のP次
元のローカル/lラメータ”(p)が16フレーム(8
1,92maq@)分配憶され、フレームクロックごと
に順次耕しい・ザラメータに更新される。
さらK例えばエンファシス回路(ト)からの信号が音声
過渡点検出回路(ホ)に供給されて音韻間の過渡点が検
出される。
この過渡点検出信号T(t)がメモリ装置a◆に供給さ
れ、この検出信号のタイミングに相当するローカル・ザ
ラメータLe)が8番目の行にシフトされた時点でメモ
リ装置1iα◆の読み出しが行われる。ここでメモリ装
置Q4の読み出しは、各次元Pとと[16フレ一ム分の
信号が横方向に読み出される。そしてパ砂み出された信
号がI)FT回路(ハ)K供給される。
この(ロ)路四において上述と同様にDFTが行われ、
t w−eラメータの時系列変化の包絡特性が抽出され
る。このT)FTされた信号の内から0〜Q−1(例え
ばQ=3)次までのQ次元の値を取り出す、このDFT
 ’i各次元Pごとに行い、全体でPXQ(=24)ワ
ードの過渡点・争うメータK   (’p=0’、1・
・・(p、q) P−1)(q=o、t・・・Q−1)が形成される。こ
こで、K(。、。)は定数なので、p=06ときにq 
=E 1〜Qとしてもよい。
すなわち第3図において、ムのような入力音声信号(I
AI)に対してBのような過渡点が検出されている場合
に、この信号の全体のツタワースベクトルはCのように
なっている。そして例えば「H→ム」の過渡点の、eワ
ース(クトルがDのようであったとすると、このイぎ号
がエンファシスされてEOようになり、メルスケールで
圧縮されてFのようKなる。この信号がI)FTされて
Gのよう罠なり、Hのように#後の16フレ一ム分がマ
トリックされ、この信号が11次時間軸を方向にDFT
されて過渡点・豐うメータK(p、q)が形成される。
この過渡点、?ラメータK(p、q)がマ2、ジノビス
距離算出回路0Oに供給されると共に、メモリ装置的か
らのクラスタ糸#りが1川路(ロ)罠供給されて各クラ
スタ系数とのマハラノビス距離が算出される。
ここでクラスタ糸数は複数の話者の発音から上述と同様
に過渡点・fラメータを抽出し、これ【faの内宮に応
じて分類し統計解析して得られたものである。
そしてこの請出されたマハラノビス鉗離が判定回路−に
供給され、検出された過渡点が、何の音−から何の音韻
への過渡点であるかが判定され、出力端子(至)に取9
出される。
すなわち例えば1はいmlいいえ1@0(ゼO)1〜@
9(キュウ)mの12曝語について、あらかじめ多数(
百Å以上)の話者の音声を前述の装置に供給し、過渡点
を検出し過渡点・譬うメーーを抽出する。この過渡点・
量ラメータ會例えば第4図に示すようなテーブルに分類
し、この分類(クラスタ)ごとに統計解析する1図中本
は無音を示す。
これらの過渡点・譬うメータについて、任意のサンプル
R”)(r=1.2−24 )(aはクラスタlD 指標で例えばm = 1は本→)i 、 @ 冨2はH
→Aに対応する。nii話者番号)として、共分散マド
ljクス 但し、可’−g(硬い Eはアンサン!ル〒均。
を計数し、この逆マトリクス H汽=(A2%);j、       ・・・・・・に
)を求める。
ここで任意の過渡点ノ苧うメータに、とクラスタaとの
距離が、マパラノぐスの距離 で求にノらねる。
値ってメモリ装Vαカに上述のBr、*及び−を求(て
記憶しておくことにより、マノ・ジノビス距離算出回路
(ロ)にて人力f%lIの通渡漬・譬うメータとのマハ
ラノビス1呻が梼出壜れる。
これKよで7・て、f” Nへ鴫から人力音声の過渡点
ととV(省クラスタとの鮒小距離と2#0傾点の順位が
取〉II、される。これらが刊定回路a場に供給され、
入カー声が無−になった時点において認識判定を行う。
也オげ111拳結ごJに、%過渡点・ンラメータとクラ
スタとのル小距町の平方根の平拘儲による一一距III
IIi*める6iお遇柊点の一部脱落を考慮して各−g
H々J睨鵡葡想にした置数のタイグについて単語距離を
求める。友だし過渡点の順位関係がテーブルと異なって
いるものはリゾエタトする。そしてこの単語距離が最小
になる琳@t&!識判定する。
従って仁の装着によれば音声の過渡点の音韻の変化を検
出しているので、時間軸の変動がなく、不特定話者につ
いて良好1kl!!!1llVt行うことができる。
ま九過渡点くおいて上述のよりな)譬うメータの抽出を
行つ良ことにより、一つの過渡点を例えば24次瓦で&
鎌することができ、認識を極めて容易かつ正確に行うこ
とができ石。
なおF述の装置において120名の話者にて学1yth
い、この120名以外の話者にて上述12**について
実験を行っ九結果、96.5鳴の平均認−率が得られ九
さらに上述の例で1はい”の「H→ム」と18(へチ)
”の「H→A」は同じクラスタに分類可能である。従っ
て認識すべき言語のfll数tαとして。C2個のクラ
スタをあらかじめ計算してクラスタ係数會メモリ装置(
ロ)に記憶させておけば、穐@o44o薗kK適用で麹
、多くの紛いの麹−【11JIK打うことができる・ 本発明はこのような装置において、検出回路(ホ)に使
用して好適な音声過渡点検出方法に関する。
ところで従来の過渡点検出としては例えば音響−4′ラ
メータ怖)の変化量の総和を用いる方法がある。すなわ
ちフレームととKP次のノヤラメータが抽出されている
場合に、Gフレー羞のパラメータをL(p沸)(p=0
.1・・・・・・P−1)としたときのような差分量の
絶対値の総和を利用して検出を行う。
ここでP=1次元のときには、第5図A、Hに示すよう
にパラメータL(p)(G)の変化点においてノ臂うメ
ータT((i)のピークが得られる。ところが例えばP
−2次元の場合に、C,Dに示す0次、1次の・ぐラメ
ータL(。)(G) 、L(1)(Qが上述と同様の変
化であって吃、それぞれめ差分量の肇化がE、Fのよう
であった場合に%/母ラう−タT(。)のピークが2つ
になって過渡点を一点に定めることができなくなってし
まう、これは2次元以上のパラメータを取った場合に一
般的に起こりつる。
また上述の股間ではL(p) (G)を連続蓄としたが
、実際にはこの・ンラメータL(1) (G)は離散童
である。
さらに一般の音声には微少な変動があるために、実際の
・IラメータL(1)(G)の変化は第5図Hのように
なり、これから検出された・(ラメータT(。)KFi
Iに示すように多数の凹凸が生じてしまう。
このため上述の方法では、検出が不正確であると共に、
検Wのレベルも不安定であるなど、糧々の欠涜があった
本発明はこのような点にかんがみ、容易かつ安定な音声
過渡点検出方法を提供するものである。
以下に図面を参照しながら本発明の一実施例について説
明しよう。
第6図において、第2図のエンファシス回路(ト)から
の重みイ・まけされた信号が帯域分割回路な])に供給
され、上述と同様にメルスケールに応じてN(例えば2
0)の帯域に分割され、それぞれの帯域の信号の量に応
じた信号V(わ)(n=0−1・・・N−1)が取り串
される。この信号がバイアス付き対数回路(イ)に供給
されて V’(n) = log (V(n) + B)  −
・・・・・・・−・・α1が形成される。着た信号v(
n)が累算回路(ハ)に供給されて v、=  Σ■(n) w1 が形成され、この信号■1が対数回路(2)に供給され
て τ’a ”” log (Va + B )  ・・・
・・−・・・・・α珍が形成される。そしてこれらの信
号が演算回路(ハ)に供給されて ν(nl−ツー  ”(n)      ・・・・・・
・・・・・・(6)が形成される。
こζで上述のような信号■(n)を用いることにより、
この信号は音韻から音韻への変化に対して各法(n ;
Ot 1・・・・・・N−1)の変化が同程度となり、
音韻の種類による変化量のばらつきを回避できる。また
対数をとり演算を行って正規化ノ臂うメータ論)を形成
したことにょ9、入力音声のレベルの変化による・ダラ
メータシ体)の変動が排除される。さらにバイアスBを
加算して演算を行ったことにより、仮りにB→ωとする
と・1ラメータv(n)→Oとなることから明らかなよ
うに、入力音声の微少成分(ノイズ等)に刻する感度を
下けることができる。
このノ豐うメータv(n)がメモリ装置It(ハ)に供
給されて2W+1(例えば9)フレーム分が記憶される
この配憶された信号が演算回路(イ)に供給されてyn
、t =min (v(n) (1) l  ・・・・
・=・・=・Q’116G F M 世し、GFN −(1;−v+t≦夏≦w十t)が形成
され、この信号とパラメータy(。)が演算回路−に供
給されて が形成される。このT(1)が過渡点検出ノ9ラメータ
であって、とのT(1)がピーク判別回路翰に供給され
て、入力音声信号の音韻の過渡点が検出され、出力端子
−に取り出されて例えば第2図のメモリ@110◆の出
力回路に供給される。
ここでノ9ラメータT(1)が、フレームtを挾んで前
後Wフレームずつで定義されているので、不要な凹凸や
多極を生じるおそれがない。なお第7図は例えば1ゼロ
”という発音を、サンプリング拘波数12.5 kHz
、12ビツトデジタルデータとし、5.12m冠フレー
ム周期で256点のFFTを行い、帯域数N=20、バ
イアスB−0、検出フレーム数2 W + 1.−9で
上述の検出を行った場合を示している。図中A#′i音
声波形、Bii音韻、Cは検出信号であって、「無音→
z」「z−+E」「E−+R」rR−+0JrO→無音
」の各過渡部で顕著なピークを発生する。仁とで無音部
にノイズによる多少の凹凸が形成されるがこれはバイア
スBを大きくすることにより破線図示のように略0にな
る。
こうして音声過渡点が検出されるわけであるが、本発明
によれば音韻の種類や入力音声のレベルの変化による横
用パラメータの変動が少く、常に安定な検出を行うこと
がてきる。
なお本発明は上述の新規な音声gR方法に限らず、検出
され九過渡点と過渡点の間の定常部を検出し九シ、検出
された過渡点を用いて定常部の時間軸を整合する場合に
も適用できる。また音声合成において、過渡点の解析を
行う場合などにも有効に利用できる。
【図面の簡単な説明】
W、1図〜第4図は音声蛯識装置の説明のだめの図、第
5図社過渡点検出の説明のだめの図、第6図は本発明の
一例の系統図、第7図はその説明のための図である。 (1)Hマイクロフォン、(3)はロー・9スフイルタ
、(4)はAD変換回路、(5) Fiミクロ2発生器
、(6) t′iレノスタ、(7)はカウンタ、(8)
は高速フーリエ変換回路、(9)riパワースイクトル
検出回路、(至)はエンファシス回路、Qlは帯緘分割
回路、に)は対数回路、(イ)、(ハ)、(ハ)、(財
)は演算回路、(ハ)はメモリ装置、(ハ)はピーク判
別回路、凶は出力端子でちる。 手続補正書 昭和器8年5月 25目 1、 +Ji f4の人手 昭和I$7年特許願第  29471号2・l ’Jl
 ” ’f Gl・  音声過渡点検出方法31山11
を−4る名” セ1′1ビッツ関係   ’j、’r’ +j’を出願
人イ111ノ] 東糸部品用区北品用6j’L47番3
5号名+7+、(2+8+  ソニー株式会社代表取締
役 大 賀 典 雄 6 、 ?+Ii +l’、により増j)「j−る発明
の数r 2M〜1点」と訂正する。 (21同、同頁12行1− DFTな行う」とあるをr
2Mi点のDFTを行なう」と訂正する。 (3)同、同頁13行〜16行 mWo 11−662M−I Jとあるなm =0 、
1. ・・・・2M−84ト釘止丁ル。 (4)同、絽11ji1〜2行 冨・1・m 麗 」とあるな I 〜Vπ−3−釦〜子) = txm (M−1) 、と訂正する。 (5)同、P4廁4行 (61同、−画11−13行 とあるな (71−1第9貴3打 r   X(1)−X(1M−j−1)     ””
18)Jとあるをr  X(:) =xOM−i−*)
Jと訂正する。 (8)  同、同JjS行 とあるな +X(M−1)鴎−・・・・(9)」と訂正する。 −1 (91同、第1O員18行「定数なので」とあるな「音
声技形のパワー1に威現しているので、パワー正風化の
ため」と訂正する。 tllJIj’1%gt+貞14 h’r 96.5 
* J トあルwr9s、2−」と訂正する。 O1l同、1111 N 18 行1 act 111
J t’ r (IF5 m4!4[Jと釘止する。 u’a  同、縞18 jj 5行 al  同、Hlo 頁is 行 とあるな と訂正する。 以上

Claims (1)

    【特許請求の範囲】
  1. 入力音声信号を人間の聴覚特性に応じて等しく重み付け
    して音響・Iラメータを抽出する手段と、この音響・ダ
    ラメータのレベルに対して正規化を行う手段とを有し、
    この正規化され九音醤ノ母うメ一一を複数7レー五に亘
    って監視し、上記音響・譬うメータのピークを検出する
    ようにした音声過渡点検出方法。
JP57029471A 1982-02-25 1982-02-25 音声過渡点検出方法 Granted JPS58145998A (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP57029471A JPS58145998A (ja) 1982-02-25 1982-02-25 音声過渡点検出方法
CA000422146A CA1193732A (en) 1982-02-25 1983-02-22 Speech-recognition method and apparatus for recognizing phonemes in a voice signal
US06/469,114 US4592085A (en) 1982-02-25 1983-02-23 Speech-recognition method and apparatus for recognizing phonemes in a voice signal
KR1019830000745A KR910002198B1 (ko) 1982-02-25 1983-02-24 음성인식방법과 그 장치
GB08305292A GB2118343B (en) 1982-02-25 1983-02-25 Phoneme recognition
NL8300718A NL192701C (nl) 1982-02-25 1983-02-25 Werkwijze en inrichting voor het herkennen van een foneem in een stemsignaal.
DE19833306730 DE3306730A1 (de) 1982-02-25 1983-02-25 Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal
FR8303208A FR2522179B1 (fr) 1982-02-25 1983-02-25 Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
GB08429480A GB2153127B (en) 1982-02-25 1984-11-22 Phoneme transition recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57029471A JPS58145998A (ja) 1982-02-25 1982-02-25 音声過渡点検出方法

Publications (2)

Publication Number Publication Date
JPS58145998A true JPS58145998A (ja) 1983-08-31
JPH0441356B2 JPH0441356B2 (ja) 1992-07-08

Family

ID=12277008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57029471A Granted JPS58145998A (ja) 1982-02-25 1982-02-25 音声過渡点検出方法

Country Status (8)

Country Link
US (1) US4592085A (ja)
JP (1) JPS58145998A (ja)
KR (1) KR910002198B1 (ja)
CA (1) CA1193732A (ja)
DE (1) DE3306730A1 (ja)
FR (1) FR2522179B1 (ja)
GB (2) GB2118343B (ja)
NL (1) NL192701C (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59166999A (ja) * 1983-03-11 1984-09-20 ソニー株式会社 音声過渡点検出方法
JPS59170897A (ja) * 1983-03-17 1984-09-27 ソニー株式会社 音声過渡点検出方法
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
JPS5997200A (ja) * 1982-11-26 1984-06-04 株式会社日立製作所 音声認識方式
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
DE3514286A1 (de) * 1985-04-19 1986-10-23 Siemens AG, 1000 Berlin und 8000 München System zur erkennung einzeln gesprochener woerter
CA1250368A (en) * 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
JPS63158596A (ja) * 1986-12-23 1988-07-01 株式会社東芝 音韻類似度計算装置
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US5136653A (en) * 1988-01-11 1992-08-04 Ezel, Inc. Acoustic recognition system using accumulate power series
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
JPH03120598A (ja) * 1989-10-03 1991-05-22 Canon Inc 音声認識方法及び装置
EP0438662A2 (en) * 1990-01-23 1991-07-31 International Business Machines Corporation Apparatus and method of grouping utterances of a phoneme into context-de-pendent categories based on sound-similarity for automatic speech recognition
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
US5724410A (en) * 1995-12-18 1998-03-03 Sony Corporation Two-way voice messaging terminal having a speech to text converter
KR0173923B1 (ko) * 1995-12-22 1999-04-01 양승택 다층구조 신경망을 이용한 음소 분할 방법
US6351723B1 (en) 1996-08-29 2002-02-26 Fujitsu Limited Failure diagnostic method and apparatus for equipment and recording medium in which program causing computer system to execute process in accordance with such method is stored
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
US6230122B1 (en) 1998-09-09 2001-05-08 Sony Corporation Speech detection with noise suppression based on principal components analysis
US6173258B1 (en) * 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6768979B1 (en) 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US7139708B1 (en) 1999-03-24 2006-11-21 Sony Corporation System and method for speech recognition using an enhanced phone set
US20010029363A1 (en) * 1999-05-03 2001-10-11 Lin J. T. Methods and apparatus for presbyopia correction using ultraviolet and infrared lasers
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
US8903847B2 (en) * 2010-03-05 2014-12-02 International Business Machines Corporation Digital media voice tags in social networks
US8688090B2 (en) 2011-03-21 2014-04-01 International Business Machines Corporation Data session preferences
US20120246238A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Asynchronous messaging tags
US20120244842A1 (en) 2011-03-21 2012-09-27 International Business Machines Corporation Data Session Synchronization With Phone Numbers
JP2013164572A (ja) * 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3344233A (en) * 1967-09-26 Method and apparatus for segmenting speech into phonemes
GB981154A (en) * 1961-03-20 1965-01-20 Nippon Telegraph & Telephone Improved phonetic typewriter system
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
JPS5850360B2 (ja) * 1978-05-12 1983-11-10 株式会社日立製作所 音声認識装置における前処理方法
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
US4454586A (en) * 1981-11-19 1984-06-12 At&T Bell Laboratories Method and apparatus for generating speech pattern templates

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59166999A (ja) * 1983-03-11 1984-09-20 ソニー株式会社 音声過渡点検出方法
JPH0552509B2 (ja) * 1983-03-11 1993-08-05 Sony Corp
JPS59170897A (ja) * 1983-03-17 1984-09-27 ソニー株式会社 音声過渡点検出方法
JPH0552510B2 (ja) * 1983-03-17 1993-08-05 Sony Corp
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition

Also Published As

Publication number Publication date
GB2118343B (en) 1986-01-02
GB2153127B (en) 1986-01-15
DE3306730C2 (ja) 1991-10-17
FR2522179B1 (fr) 1986-05-02
DE3306730A1 (de) 1983-09-01
GB2153127A (en) 1985-08-14
NL8300718A (nl) 1983-09-16
KR910002198B1 (ko) 1991-04-06
NL192701B (nl) 1997-08-01
GB2118343A (en) 1983-10-26
US4592085A (en) 1986-05-27
CA1193732A (en) 1985-09-17
GB8429480D0 (en) 1985-01-03
KR840003871A (ko) 1984-10-04
FR2522179A1 (fr) 1983-08-26
NL192701C (nl) 1997-12-02
JPH0441356B2 (ja) 1992-07-08
GB8305292D0 (en) 1983-03-30

Similar Documents

Publication Publication Date Title
JPS58145998A (ja) 音声過渡点検出方法
US4100370A (en) Voice verification system based on word pronunciation
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
Nwe et al. Detection of stress and emotion in speech using traditional and FFT based log energy features
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Płonkowski Using bands of frequencies for vowel recognition for Polish language
JPH0441357B2 (ja)
Pal et al. Modified energy based method for word endpoints detection of continuous speech signal in real world environment
JPH0552509B2 (ja)
JPH0546558B2 (ja)
JPH0552510B2 (ja)
Tabassum et al. Speaker independent speech recognition of isolated words in room environment
JPS6086599A (ja) 音声認識装置
JPS59172699A (ja) 音声認識デ−タ作成方法
JPH0552511B2 (ja)
JPH0546559B2 (ja)
JPH0552515B2 (ja)
JPH0552512B2 (ja)
JPH0246960B2 (ja)
JPS6069696A (ja) 音声認識装置
JPS6227798A (ja) 音声認識装置
Vyas et al. Detection of chorus from an audio clip using dynamic time warping algorithm
JPS6069697A (ja) 音声認識装置
JPH0398098A (ja) 音声認識装置
JPH0469800B2 (ja)