JPS58136098A - 認識パタ−ン学習方式 - Google Patents
認識パタ−ン学習方式Info
- Publication number
- JPS58136098A JPS58136098A JP57018662A JP1866282A JPS58136098A JP S58136098 A JPS58136098 A JP S58136098A JP 57018662 A JP57018662 A JP 57018662A JP 1866282 A JP1866282 A JP 1866282A JP S58136098 A JPS58136098 A JP S58136098A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- recognition pattern
- recognition
- sample information
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 230000001568 sexual effect Effects 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 101100412093 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rec16 gene Proteins 0.000 description 2
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 102100031437 Cell cycle checkpoint protein RAD1 Human genes 0.000 description 1
- 101001130384 Homo sapiens Cell cycle checkpoint protein RAD1 Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004898 kneading Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000009941 weaving Methods 0.000 description 1
Landscapes
- Image Processing (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
本ず1゛明は音声認識装置における認識パターン学習方
式に係り、特に使用する各用語ごとに作成される照合パ
ターントレーニングのために入力される音声により加1
平均化学習せしめ、より安定した認識結果を得ることが
できる認識パターン学習方式に関するものでを〕る。 従来、入力音声をスペクトル分析フィルタを用いて所定
周波数帯域別にサンプリングした後正知化して所定の情
報−リイズに圧縮し、音声認識のだめの認識パターンを
作成する方式としては種々のものが提案されている。 そして、この発明の出願人は最近、スペクトル分析フィ
ルタを用いてサンプリングした各周波数帯域における入
カザンプル情報を入力音声の語。 句、音韻の長さおよび発声の時間変化、音量の時間変化
に関係なく一定数のセグメントにグループ化した上、各
セグメントにおける周波数帯域別サンプル情報の総和を
求め、各セグメント内の総和のうち最大値に刻
式に係り、特に使用する各用語ごとに作成される照合パ
ターントレーニングのために入力される音声により加1
平均化学習せしめ、より安定した認識結果を得ることが
できる認識パターン学習方式に関するものでを〕る。 従来、入力音声をスペクトル分析フィルタを用いて所定
周波数帯域別にサンプリングした後正知化して所定の情
報−リイズに圧縮し、音声認識のだめの認識パターンを
作成する方式としては種々のものが提案されている。 そして、この発明の出願人は最近、スペクトル分析フィ
ルタを用いてサンプリングした各周波数帯域における入
カザンプル情報を入力音声の語。 句、音韻の長さおよび発声の時間変化、音量の時間変化
に関係なく一定数のセグメントにグループ化した上、各
セグメントにおける周波数帯域別サンプル情報の総和を
求め、各セグメント内の総和のうち最大値に刻
【7て正
規化のための基準数価を与え、他の総和にれ1最人総和
との比に比例し、た数値を与えることにより人力音声の
サンプル情報を正規什して認識バタ一二/を作成する1
1式を榔案し。 ている。 この方店によりy川内な極めて優れ六認識装置が得られ
ているが、本来の発明の方式におしするjl(1合パタ
ーンは各用語ごとに1回だけの発声人力によって作成さ
れるだめ、作成時の入力音声が史f′9:に使用される
W)台の発声と異なるS@も考メ亡1れ、また、夕1来
M音が滑入し、悪い認識パターンを作成することもあり
イ11ろ。!?#、% fist合パターン作成時と実
際に使用すZ)どきが時間的に舒過1.てB声のjpi
が相当変ることもあり得る。 このようが場合、最新の入ノ)音声のパターンを重ねて
学習するとどにより、より安定した良好なパターンに改
良する必要751 ltgじてくる3、ぞ【71、実際
に使用する場合、h、2識装楢はこのよう庁パターンの
学習機能を持っていた方がより安定した認識性能を発揮
することができる。 本発明は1臥土の点に鑑み、このようh問題を解決しか
かる?望fθ〜足すべくなされた認識パターン学習方式
を提供するもので、学習のための人力音声の開繊パター
ンを71応するエレメントごとに加重平均1HJl−て
学習パターンを作りソするようにしたものである。 」ソ下、図面に基づき庫発明の実施例を詳細に説明する
。 まず、実施例を酪)3明する前に本発明の理解を容易に
するため、本発明に用いる認識パターン作成方式につい
て説明−4乙。 第1図はこの認識パターン作成方式を適用した音声自v
I認識装置の一例を示すブロック図である。 図において、入力音声はマイクロフォンMICによって
収集された拶、増幅器Aにより適当々レベルに増幅され
てスペクトル分析器SAに供給される。 このスペクトル分析器SAケf/11えば、16チヤン
ネルの帯域フィルタ旧’F+−BPF]6を有し、入力
音声はこのスペクトル分析器SAによって所定周波数帯
域別のエネルギーlとして分解される。 そして、各帯域フィルタBPFI〜BPF]6 の出
力けぞれぞれ整流器REC] ]ヘーREC16によっ
て直流信号に唆捗されてアナログマルチプレクサMPを
介してAn変換器ADCに伊、給される。このアリログ
マルチプレクサMPはf流器REC1−REC16の出
力信号を+I:1分割でAD変換器Ar)Cに供給り2
、AD<σ中黒At)Cに各帯域別の直流信局を所定時
間間隔でサンプリングしてテイジタル値に変検させるも
のである。こねにより、AD変捧器ADCからは入力音
声に含まれる各帯域別のエネルギーを表わすサンプル情
報が得られる。そして、このサンプル情報は語領域検出
器DIDTの制御により原始テ・−タメモリMEMに一
時記惰される。この場合は、原始データメモリMgMに
は藺の始1りからpV)tでのサンプル情報が記・隠さ
れることに々るそシテ、こog領域検出器DETは、秒
11えV、丁M l!]lのサンプリング時における全
帯域のサンプノド情報を Fc=(fl(tc)、fz(tc)、 +++++
fl6(te))−ftlとし、今回のサンプリング時
に」、・け乙全帝城の″!Jンプル情報を FL=(fl(tTJ)、fz(tL)・・・・・・f
l6(tL))・・・ (21とした時、 (j=1.2. ・・・・・・・・・・・・16)を
計算し、dCがある変化限界Tを越えている条件(da
>T)においては入力音声が持続しているものと見做し
、各サンブリンク動作毎のサンプル情報を原始データメ
モリMEMに記憶させるように構成されるものである。 原始データメモQMEMK配憶された入力音声のサンプ
ル情報は、本発明による認識パターン作成方式を利用し
た認識パターン作成部CPDにおいて正規化圧縮処理さ
れて音声認識用の認識パターンに質請される。・ぞし、
−C1この認識パターンは、認mパターンメモリCP−
MEMに配憶されるが、この後、照合パターンメモIJ
RF・MIEMに予め記憶されている複数の語に関する
照合パターン(リファレンスパターン)と照合部REF
において照合され、入力音声に該当する飴の判定がなさ
ハる。この藺の判定結栄は出力部OUTを介して文字情
報等の形態で出力される。これによって、マイクロフォ
ンMICから収集さ第1る入力音声の目脂riiJ!F
#を行うことができる。 さて\認識パターン作成部CPDはまず次のようにして
認識パターンを作成する。 まず、原始データメモリMEMには、第2図のデータマ
ツプに示すように入力音声の時間長に1−1′例してi
個のサンプル情報がスペクトル分析器SAの各周6Q数
帯域別に?すられる。なお、第2図において、81〜S
iはザンブリングタイムスロットの番号、fl〜fn(
n:実施例では16)ldスペクトル分析器SAにおけ
るフィルタチャンネル、032゜028 ・・・の数字
はサンプル情報を表わしている。 この場合、入力音声のザンブリング間隔は例えば5ms
程度に選ばれるが、畑い語や単音節の場合には約100
m5程度の発声時間となり、>rr+常使用される語句
は約1秒程度の発声時間と庁るため、約20〜200側
根度のサンプル情報が得られる。 そこで、このように入力音声の時間長に応じて情報数が
変化すZ)サンプル情報を、入力音声の時間長に関係力
〈正規化するため、1個のサンプリング情報は第3図に
示すように所定数却位で均一に例えば8個のセグメン)
Tl〜T8にグループ化され、各セグメント内でのサン
プル情報の総和が求められる。この場合、セグメント数
は認識yrR度を勘案して決定されるが、飴の長さに関
係々く一定とすれば照合パターンとの照合処理が簡単に
なる。 ここで、セグメン)TN(N=1〜8)におけるフィル
タチャンネルfn(n=1〜16)のサンプル情報総和
を f−7”表わすと、各セグメントT1〜T8 にお
けるサンプル情報総和のデータ群1i’ −Fに。 F−(f、、f 2≧・・・・・・・f16)として表
わすことができる。これにより、1個のサンプル情報の
時間軸上での正規化が行表われたことに々る。 次に−もセグメン)Tl〜T8のそれぞれに卦いてエネ
ルギーの正規化を行うため、各セグメント内のザンブル
情報縫和f のうち最大値を基準に正規化の数値が各総
和f に与えられる。この場1 合の数値は例えば4ビツトのバイナリデータによ’)4
9成され、10i1fi衣示の基準数値「15」がf0
の最大値に幻し2て割当てられ、最大値J〕ノ下の総和
f には基準数値に当該総和と最大総和とのitf:乗
じた数値「O〜15」が割当てられる。例えば、セグメ
ントT】におけるザンブル情報総2+1のデータ群Fl
の各総和f 、f ・・・・・・f が第3図に示
j 2 16 すようなものであった場合、最大総和はf の「6 432」であるからこれに正規化用の基準数値「15」
の正規化用の数値が割当てられる。とれにより、各セグ
メントT1〜T8におけるサンプル情報総和のデータ群
は基準数値「】5」に比f!l して正規化されたこと
になる。この結果、認識パターンメモリCP−MEMV
Cは、第4図に示すような正規化数値「0〜15」で表
わされた認識パターンが少られる。 すなわち、入力音声が 8(セグメント) X ]、 6 (フィルタチャンネ
ル)×4(ピッ1−)=512(ビット) に圧縮された認識パターンがイ信らノする。 このように、i個のづンプル情報をN個のセグメントに
グループ什し、各セグメント内の各フィルタチャンネル
別のサンプル情報の総和を求めることにより、時間11
41+−上でのH1tl化を行い、この後裔セグメント
内の総和の最大値f基準にし、てエネルギーの正規化を
行うことにより、入力音声の時間長、音10時間変化に
関係なく、時間軸に泊ったNセグメントから力る正帰化
情報、す彦わち認識パターンを得ることができる。特に
、エネルギ−面での正規化によシ、各セグメントの正帰
化情報は入力音声のフォルマント情報をほぼ忠実に反映
したものとなり、入力音声のビッグが若干ずわた場合で
あってもフォルマン1の顔向を調べるととにより入力音
声に該当する語を簡単に判定することができる。さらに
、このような照合処理は認識パターンのビット長が短い
ため、汎用の演a装置を利用して央時間で処理すること
が可能に々る。 女お、以上の説明においては、各セグメントの最大総和
を基準として比例的に小さく々る正月化用の数値を割当
てる場合を例にとって説明したが、照合処理の都合によ
っては比例的に大きく々る1規化用の数値を割当てるよ
うにしても構わ彦い。 さて、本発明は次のように実施される。 第5図は本発明による認識パターン学習方式の一実施例
を示すブロック図で、説明に必要々部分のみを示す。図
において、RFPは用語NKγIする照合パターン、C
Pは学習時に得られる人力音声の認識パターン、ADD
は照合パターンRFPと認識パターンcpとを加重する
加重計算機部である。そ[7応するエレメント毎に加重
平均計算して学習パターンを作成するようにm成されて
いる。 つぎにこの第5図に左す実施例の動作を説明する。捷ず
、実際にこのよう力学習方式を使用すると、在来の方デ
ーに較べ相当の認識性能の改善が期待できる。 いま、R1は用語Nに対して配憶されている照合パター
ン、Rpに]学習時に入力された音声の認識パターンと
する。 そして、第5図の照合パターンRFPに対応する照合パ
ターンRPNは RPN:(Ell 、E]2・・・・・・Eij ・・
・・・・E8.16)で表わされ、第5図の認識パター
ンCPK対応する認識パターンRP’Nは RP’N=(E’1] 、E’+ 2・・・・・・E’
ij ・叩・E’8.16)で表わされる。ただし、i
=1・・・8.j=1・・・16である。 上記式でBi j si’lj はそれぞれのパターン
の各エレメントであり、lはセグメントを示し、jは周
波数チャンネルを示す。 そして、学習の加重引算は第5図に示す加重計嘗機部A
I)Dにおいて、 の引算式により行なわれ、新らしいnl・算値Eijが
配憶されることになる。なお上記式、において、nは力
0重値で経験上゛3″が使用されているが、これはパ2
”でも”′4”でも弗支4ない。 以上薄明したように、本発明は認識バ・ターンを作成す
る方式において、学習のための入力音声の認識パターン
を対応するエレメント毎に加重平均計aして学習パター
ンを作成するようにしたものであるから、従来のこの種
の方式に辻し7て相当の認識性能を改善することができ
るので、実用上の効果は極めて犬である。また、よシ安
tピI7た開織結果を得ることができるという点におい
て極めて有効である。
規化のための基準数価を与え、他の総和にれ1最人総和
との比に比例し、た数値を与えることにより人力音声の
サンプル情報を正規什して認識バタ一二/を作成する1
1式を榔案し。 ている。 この方店によりy川内な極めて優れ六認識装置が得られ
ているが、本来の発明の方式におしするjl(1合パタ
ーンは各用語ごとに1回だけの発声人力によって作成さ
れるだめ、作成時の入力音声が史f′9:に使用される
W)台の発声と異なるS@も考メ亡1れ、また、夕1来
M音が滑入し、悪い認識パターンを作成することもあり
イ11ろ。!?#、% fist合パターン作成時と実
際に使用すZ)どきが時間的に舒過1.てB声のjpi
が相当変ることもあり得る。 このようが場合、最新の入ノ)音声のパターンを重ねて
学習するとどにより、より安定した良好なパターンに改
良する必要751 ltgじてくる3、ぞ【71、実際
に使用する場合、h、2識装楢はこのよう庁パターンの
学習機能を持っていた方がより安定した認識性能を発揮
することができる。 本発明は1臥土の点に鑑み、このようh問題を解決しか
かる?望fθ〜足すべくなされた認識パターン学習方式
を提供するもので、学習のための人力音声の開繊パター
ンを71応するエレメントごとに加重平均1HJl−て
学習パターンを作りソするようにしたものである。 」ソ下、図面に基づき庫発明の実施例を詳細に説明する
。 まず、実施例を酪)3明する前に本発明の理解を容易に
するため、本発明に用いる認識パターン作成方式につい
て説明−4乙。 第1図はこの認識パターン作成方式を適用した音声自v
I認識装置の一例を示すブロック図である。 図において、入力音声はマイクロフォンMICによって
収集された拶、増幅器Aにより適当々レベルに増幅され
てスペクトル分析器SAに供給される。 このスペクトル分析器SAケf/11えば、16チヤン
ネルの帯域フィルタ旧’F+−BPF]6を有し、入力
音声はこのスペクトル分析器SAによって所定周波数帯
域別のエネルギーlとして分解される。 そして、各帯域フィルタBPFI〜BPF]6 の出
力けぞれぞれ整流器REC] ]ヘーREC16によっ
て直流信号に唆捗されてアナログマルチプレクサMPを
介してAn変換器ADCに伊、給される。このアリログ
マルチプレクサMPはf流器REC1−REC16の出
力信号を+I:1分割でAD変換器Ar)Cに供給り2
、AD<σ中黒At)Cに各帯域別の直流信局を所定時
間間隔でサンプリングしてテイジタル値に変検させるも
のである。こねにより、AD変捧器ADCからは入力音
声に含まれる各帯域別のエネルギーを表わすサンプル情
報が得られる。そして、このサンプル情報は語領域検出
器DIDTの制御により原始テ・−タメモリMEMに一
時記惰される。この場合は、原始データメモリMgMに
は藺の始1りからpV)tでのサンプル情報が記・隠さ
れることに々るそシテ、こog領域検出器DETは、秒
11えV、丁M l!]lのサンプリング時における全
帯域のサンプノド情報を Fc=(fl(tc)、fz(tc)、 +++++
fl6(te))−ftlとし、今回のサンプリング時
に」、・け乙全帝城の″!Jンプル情報を FL=(fl(tTJ)、fz(tL)・・・・・・f
l6(tL))・・・ (21とした時、 (j=1.2. ・・・・・・・・・・・・16)を
計算し、dCがある変化限界Tを越えている条件(da
>T)においては入力音声が持続しているものと見做し
、各サンブリンク動作毎のサンプル情報を原始データメ
モリMEMに記憶させるように構成されるものである。 原始データメモQMEMK配憶された入力音声のサンプ
ル情報は、本発明による認識パターン作成方式を利用し
た認識パターン作成部CPDにおいて正規化圧縮処理さ
れて音声認識用の認識パターンに質請される。・ぞし、
−C1この認識パターンは、認mパターンメモリCP−
MEMに配憶されるが、この後、照合パターンメモIJ
RF・MIEMに予め記憶されている複数の語に関する
照合パターン(リファレンスパターン)と照合部REF
において照合され、入力音声に該当する飴の判定がなさ
ハる。この藺の判定結栄は出力部OUTを介して文字情
報等の形態で出力される。これによって、マイクロフォ
ンMICから収集さ第1る入力音声の目脂riiJ!F
#を行うことができる。 さて\認識パターン作成部CPDはまず次のようにして
認識パターンを作成する。 まず、原始データメモリMEMには、第2図のデータマ
ツプに示すように入力音声の時間長に1−1′例してi
個のサンプル情報がスペクトル分析器SAの各周6Q数
帯域別に?すられる。なお、第2図において、81〜S
iはザンブリングタイムスロットの番号、fl〜fn(
n:実施例では16)ldスペクトル分析器SAにおけ
るフィルタチャンネル、032゜028 ・・・の数字
はサンプル情報を表わしている。 この場合、入力音声のザンブリング間隔は例えば5ms
程度に選ばれるが、畑い語や単音節の場合には約100
m5程度の発声時間となり、>rr+常使用される語句
は約1秒程度の発声時間と庁るため、約20〜200側
根度のサンプル情報が得られる。 そこで、このように入力音声の時間長に応じて情報数が
変化すZ)サンプル情報を、入力音声の時間長に関係力
〈正規化するため、1個のサンプリング情報は第3図に
示すように所定数却位で均一に例えば8個のセグメン)
Tl〜T8にグループ化され、各セグメント内でのサン
プル情報の総和が求められる。この場合、セグメント数
は認識yrR度を勘案して決定されるが、飴の長さに関
係々く一定とすれば照合パターンとの照合処理が簡単に
なる。 ここで、セグメン)TN(N=1〜8)におけるフィル
タチャンネルfn(n=1〜16)のサンプル情報総和
を f−7”表わすと、各セグメントT1〜T8 にお
けるサンプル情報総和のデータ群1i’ −Fに。 F−(f、、f 2≧・・・・・・・f16)として表
わすことができる。これにより、1個のサンプル情報の
時間軸上での正規化が行表われたことに々る。 次に−もセグメン)Tl〜T8のそれぞれに卦いてエネ
ルギーの正規化を行うため、各セグメント内のザンブル
情報縫和f のうち最大値を基準に正規化の数値が各総
和f に与えられる。この場1 合の数値は例えば4ビツトのバイナリデータによ’)4
9成され、10i1fi衣示の基準数値「15」がf0
の最大値に幻し2て割当てられ、最大値J〕ノ下の総和
f には基準数値に当該総和と最大総和とのitf:乗
じた数値「O〜15」が割当てられる。例えば、セグメ
ントT】におけるザンブル情報総2+1のデータ群Fl
の各総和f 、f ・・・・・・f が第3図に示
j 2 16 すようなものであった場合、最大総和はf の「6 432」であるからこれに正規化用の基準数値「15」
の正規化用の数値が割当てられる。とれにより、各セグ
メントT1〜T8におけるサンプル情報総和のデータ群
は基準数値「】5」に比f!l して正規化されたこと
になる。この結果、認識パターンメモリCP−MEMV
Cは、第4図に示すような正規化数値「0〜15」で表
わされた認識パターンが少られる。 すなわち、入力音声が 8(セグメント) X ]、 6 (フィルタチャンネ
ル)×4(ピッ1−)=512(ビット) に圧縮された認識パターンがイ信らノする。 このように、i個のづンプル情報をN個のセグメントに
グループ什し、各セグメント内の各フィルタチャンネル
別のサンプル情報の総和を求めることにより、時間11
41+−上でのH1tl化を行い、この後裔セグメント
内の総和の最大値f基準にし、てエネルギーの正規化を
行うことにより、入力音声の時間長、音10時間変化に
関係なく、時間軸に泊ったNセグメントから力る正帰化
情報、す彦わち認識パターンを得ることができる。特に
、エネルギ−面での正規化によシ、各セグメントの正帰
化情報は入力音声のフォルマント情報をほぼ忠実に反映
したものとなり、入力音声のビッグが若干ずわた場合で
あってもフォルマン1の顔向を調べるととにより入力音
声に該当する語を簡単に判定することができる。さらに
、このような照合処理は認識パターンのビット長が短い
ため、汎用の演a装置を利用して央時間で処理すること
が可能に々る。 女お、以上の説明においては、各セグメントの最大総和
を基準として比例的に小さく々る正月化用の数値を割当
てる場合を例にとって説明したが、照合処理の都合によ
っては比例的に大きく々る1規化用の数値を割当てるよ
うにしても構わ彦い。 さて、本発明は次のように実施される。 第5図は本発明による認識パターン学習方式の一実施例
を示すブロック図で、説明に必要々部分のみを示す。図
において、RFPは用語NKγIする照合パターン、C
Pは学習時に得られる人力音声の認識パターン、ADD
は照合パターンRFPと認識パターンcpとを加重する
加重計算機部である。そ[7応するエレメント毎に加重
平均計算して学習パターンを作成するようにm成されて
いる。 つぎにこの第5図に左す実施例の動作を説明する。捷ず
、実際にこのよう力学習方式を使用すると、在来の方デ
ーに較べ相当の認識性能の改善が期待できる。 いま、R1は用語Nに対して配憶されている照合パター
ン、Rpに]学習時に入力された音声の認識パターンと
する。 そして、第5図の照合パターンRFPに対応する照合パ
ターンRPNは RPN:(Ell 、E]2・・・・・・Eij ・・
・・・・E8.16)で表わされ、第5図の認識パター
ンCPK対応する認識パターンRP’Nは RP’N=(E’1] 、E’+ 2・・・・・・E’
ij ・叩・E’8.16)で表わされる。ただし、i
=1・・・8.j=1・・・16である。 上記式でBi j si’lj はそれぞれのパターン
の各エレメントであり、lはセグメントを示し、jは周
波数チャンネルを示す。 そして、学習の加重引算は第5図に示す加重計嘗機部A
I)Dにおいて、 の引算式により行なわれ、新らしいnl・算値Eijが
配憶されることになる。なお上記式、において、nは力
0重値で経験上゛3″が使用されているが、これはパ2
”でも”′4”でも弗支4ない。 以上薄明したように、本発明は認識バ・ターンを作成す
る方式において、学習のための入力音声の認識パターン
を対応するエレメント毎に加重平均計aして学習パター
ンを作成するようにしたものであるから、従来のこの種
の方式に辻し7て相当の認識性能を改善することができ
るので、実用上の効果は極めて犬である。また、よシ安
tピI7た開織結果を得ることができるという点におい
て極めて有効である。
第1図は本発明に用いる認識パターン作成方式の一例を
示すブロック図、第2図〜第4図は認識パターン作威力
法の説明に供するデータマツプ、第5図は本発明による
認識パターン学習方式の一実施例を示すブロック図であ
る。 MIC・・・愉マイクロフォン、5A−−・・スペクト
ル分析器、ADC−・・・AD変換器、DET−−・・
語領域検出器、MEM・・・・原始データメモリ、CP
D・・・・認識パターン作成部、Cp−MEM# @
6 a Bi&ハターンメモリ、RF・MEM・・・・
照合パターンメモIJ、REF・・・・照合部、RFP
・・−0照合パターン、cPe・、・認識パターン、A
DD・・・・加1i計舅磯部。 特許出願人 株式会社 京三製作所 代理人 山川政樹(ほか1名) 第1図 第2図 第3図 第4図 645−
示すブロック図、第2図〜第4図は認識パターン作威力
法の説明に供するデータマツプ、第5図は本発明による
認識パターン学習方式の一実施例を示すブロック図であ
る。 MIC・・・愉マイクロフォン、5A−−・・スペクト
ル分析器、ADC−・・・AD変換器、DET−−・・
語領域検出器、MEM・・・・原始データメモリ、CP
D・・・・認識パターン作成部、Cp−MEM# @
6 a Bi&ハターンメモリ、RF・MEM・・・・
照合パターンメモIJ、REF・・・・照合部、RFP
・・−0照合パターン、cPe・、・認識パターン、A
DD・・・・加1i計舅磯部。 特許出願人 株式会社 京三製作所 代理人 山川政樹(ほか1名) 第1図 第2図 第3図 第4図 645−
Claims (1)
- 入力音声をスペクトル分析フィルタを用いて所定周波数
帯域別にサンプリングした拶、そのサンプル情報を入力
音声の語1句、音韻の長さおよび発声の時間変化、音量
の時間変化に関係なく一定のセグメントにグループ分け
した上、各セグメントにおける周波数帯域別サンプル情
報の総和を求め、その総和のうち最大値に正規化のため
の基準値を与え、他の総和には前記基準の数値に比例し
た数値を与えることによ多入力音声のサンプル情報を正
規化して認識パターンを作成する方式において、学習の
ための入力音声の認識パターン今対応するエレメント毎
に加重平均計算して学習パターンを作成し得るようにし
たことを性徴とする認識パターン学習方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57018662A JPS58136098A (ja) | 1982-02-08 | 1982-02-08 | 認識パタ−ン学習方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57018662A JPS58136098A (ja) | 1982-02-08 | 1982-02-08 | 認識パタ−ン学習方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS58136098A true JPS58136098A (ja) | 1983-08-12 |
Family
ID=11977818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57018662A Pending JPS58136098A (ja) | 1982-02-08 | 1982-02-08 | 認識パタ−ン学習方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58136098A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6227798A (ja) * | 1985-07-29 | 1987-02-05 | 株式会社日立製作所 | 音声認識装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4919324A (ja) * | 1972-06-14 | 1974-02-20 | ||
JPS53114601A (en) * | 1977-03-17 | 1978-10-06 | Fujitsu Ltd | Voice recognition system |
JPS5651799A (en) * | 1979-10-04 | 1981-05-09 | Sanyo Electric Co | Sound signal handling system in acoustic device |
JPS5683800A (en) * | 1979-12-11 | 1981-07-08 | Sanyo Electric Co | Voice handler |
JPS5688199A (en) * | 1979-12-21 | 1981-07-17 | Hitachi Ltd | Pattern pretreatment method in voice identifier |
JPS5713498A (en) * | 1980-06-28 | 1982-01-23 | Tokyo Shibaura Electric Co | Voice recognition device |
-
1982
- 1982-02-08 JP JP57018662A patent/JPS58136098A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4919324A (ja) * | 1972-06-14 | 1974-02-20 | ||
JPS53114601A (en) * | 1977-03-17 | 1978-10-06 | Fujitsu Ltd | Voice recognition system |
JPS5651799A (en) * | 1979-10-04 | 1981-05-09 | Sanyo Electric Co | Sound signal handling system in acoustic device |
JPS5683800A (en) * | 1979-12-11 | 1981-07-08 | Sanyo Electric Co | Voice handler |
JPS5688199A (en) * | 1979-12-21 | 1981-07-17 | Hitachi Ltd | Pattern pretreatment method in voice identifier |
JPS5713498A (en) * | 1980-06-28 | 1982-01-23 | Tokyo Shibaura Electric Co | Voice recognition device |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6227798A (ja) * | 1985-07-29 | 1987-02-05 | 株式会社日立製作所 | 音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5056150A (en) | Method and apparatus for real time speech recognition with and without speaker dependency | |
US4624011A (en) | Speech recognition system | |
US6691090B1 (en) | Speech recognition system including dimensionality reduction of baseband frequency signals | |
Ali et al. | Gender recognition system using speech signal | |
JPS58134698A (ja) | 音声認識方法および装置 | |
EP0950239A1 (en) | Method and recognizer for recognizing a sampled sound signal in noise | |
GB1569990A (en) | Frequency compensation method for use in speech analysis apparatus | |
JPS634200B2 (ja) | ||
Sugamura et al. | Isolated word recognition using phoneme-like templates | |
JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
Elenius et al. | Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system | |
Li et al. | A high-performance auditory feature for robust speech recognition. | |
JPS58136098A (ja) | 認識パタ−ン学習方式 | |
JPH04369698A (ja) | 音声認識方式 | |
JP2983364B2 (ja) | 隠れマルコフモデルと音声信号との類似度計算方法 | |
Saha et al. | Modified mel-frequency cepstral coefficient | |
Makhoul | Methods for nonlinear spectral distortion of speech signals | |
JPS61228500A (ja) | 音声認識方法 | |
JPS6126680B2 (ja) | ||
Nikhate et al. | Determination of Extent of Similarity between Mimic and Genuine Voice Signals Using MFCC Features | |
Tomas et al. | Determination and evaluation pitch harmonics parameters with emotions classification | |
JPS58136096A (ja) | 認識パタ−ン作成方式 | |
JPH0323920B2 (ja) | ||
JPS60200296A (ja) | 音声認識装置 | |
JPS5999500A (ja) | 音声認識方法 |