JPH07146696A - 音声認識における単語テンプレートの自動作成方法 - Google Patents

音声認識における単語テンプレートの自動作成方法

Info

Publication number
JPH07146696A
JPH07146696A JP6035132A JP3513294A JPH07146696A JP H07146696 A JPH07146696 A JP H07146696A JP 6035132 A JP6035132 A JP 6035132A JP 3513294 A JP3513294 A JP 3513294A JP H07146696 A JPH07146696 A JP H07146696A
Authority
JP
Japan
Prior art keywords
word
recognition
duration
phoneme
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6035132A
Other languages
English (en)
Other versions
JP3438293B2 (ja
Inventor
Yoshimasa Sawada
喜正 澤田
Hidetaka Miyazawa
秀毅 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP03513294A priority Critical patent/JP3438293B2/ja
Publication of JPH07146696A publication Critical patent/JPH07146696A/ja
Application granted granted Critical
Publication of JP3438293B2 publication Critical patent/JP3438293B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 認識対象単語の追加、変更が容易にできるよ
うにしたものである。 【構成】 継続時間長テーブル部1の継続時間テ−ブル
と認識用単語部2の単語とを突き合わせて、標準テンプ
レートを作成したい単語を、継続時間長の表記にしてが
って記述する。その後、継続時間長のテーブルを参照し
て、各音素の継続時間を継続時間長計算部3で求める。
計算結果はms(ミリ秒)単位であるが、DPマッチン
グする際には、フレーム数が必要なのでmsをフレーム
単位に変換する。継続時間の計算の結果は例外処理部4
で処理した後、標準テンプレート生成部5に送られて最
終的な単語の標準テンプレートが得られる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音素系列を基にした音
声認識における単語テンプレートの自動作成方法に関す
る。
【0002】
【従来の技術】人間の発生した音声を、コンピュータに
認識させる”音声認識”において、まず単語を認識させ
る事が基本となる。この単語認識手段に”DPマッチン
グ”と言われる手段がある。次に上記”DPマッチン
グ”について簡単に述べる。
【0003】単語認識を行う際、音声波形はある時間間
隔で標本化され、スペクトル等の多次元特徴ベクトルの
時系列に変換されてから取り扱われる。また、同様に認
識の対象となる単語を多次元特徴ベクトルの時系列に変
換しておき、これらを標準パターンとしてコンピュータ
に登録しておく。その後、認識過程において、入力され
た特徴ベクトル時系列と標準パターンの特徴ベクトル時
系列の類似度を全て標準パターンについて求め、一番類
似している標準パターンを認識単語として出力する。
【0004】しかし、一般的に入力された特徴ベクトル
時系列と標準パターンの特徴ベクトル時系列を直接その
まま比較することはできない。この理由は人間がある文
章なり単語なりを発声する時間の長さは個人差があり、
また、同じ人が同じ言葉を発声しても日により気分によ
り大きく変動するからである。しかも、この発声時間の
伸縮は一様ではなく、非線形に変動する。DPマッチン
グ法とは、入力された音声の特徴ベクトル時系列が標準
パターンの特徴ベクトル時系列と最も良く一致するよう
に動的計画法を用いて時間軸を変換し、その後類似度を
求める手段である。
【0005】また、入力された特徴ベクトル時系列と標
準パターンの時系列を比較して単語認識を行うのではな
く、入力された特徴ベクトル時系列から一旦音素の認識
を行い、その後音素表記された標準パターンと音素認識
結果とをDPマッチングすることにより、単語認識を行
う手段もある。ここで、音素とは、例えば「赤い(AK
AI)」という単語の「A」、「K」、「A」、「I」
のことである。音素認識の手段の一つにニューラルネッ
トワークを用いた手段がある。これは、どの特徴ベクト
ルがどの音素に対応しているのかを予めニュラルネット
ワークに学習させておくことにより、入力された特徴ベ
クトルのそれぞれの音素の確からしさ(スコア)を得る
手段である。
【0006】
【発明が解決しようとする課題】上述のニューラルネッ
トワークを用いて、まず音素認識を行い、その音素認識
の結果(一番確からしい音素)と、音素の時系列で記述
されている標準パターンとを用いてDPマッチングする
場合、言うまでもなく、標準パターンの音素系列が認識
単語毎に必要になる。従って、認識対象単語が変更され
たり、増加されたりした場合にその都度標準パターンを
変更したり、増加したりしなければならない。この標準
パターンを構築する際、どの音素がどれくらいの長さで
その単語の中に存在しているのかという情報(継続時間
情報)を各単語に持たせる必要がある。認識対象単語を
変更する場合、継続時間情報を得るためには、前述した
従来の方法では実際に音声(実音声)を集めなければな
らないため、多大な時間を要した。すなわち、認識対象
単語の追加、変更が簡単にできなかった。
【0007】この発明は上記の事情に鑑みてなされたも
ので、認識対象単語の追加、変更が容易にできるように
するとともに、単語認識率の向上を図った音声認識にお
ける単語テンプレートの自動作成方法を提供することを
目的とする。
【0008】
【課題を解決するための手段および作用】この発明は上
記の目的を達成するために、第1発明は、認識用単語を
継続時間長テーブル部の継続時間長の表記にしたがって
記述した後、継続時間長のテーブルを参照して各音素の
継続時間を求めてから単語の標準テンプレートを生成し
たことを特徴とするものである。
【0009】第2発明は、継続時間長のテーブルを参照
して各音素の継続時間を求めたとき、例外処理を行って
高精度な音素認識を行うことを特徴とするものである。
【0010】第3発明は、多種類の単語に対して用意さ
れた複数の音声データから有効なデータを取り出した
後、そのデータの音素認識を行って、1種類の単語複数
に対する認識を行い、その認識結果の平均認識率を継続
時間長変更部で計測し、その計測値で単語の標準テンプ
レートを生成することを特徴とするものである。
【0011】第4発明は、継続時間長変更部で計測する
認識率が設定値以下ならば、その単語の標準テンプレー
トの先頭音素の時間長を当初設定値から1フレームずら
して、再度認識を行い、この認識行為を全音素に対して
実行した後、設定値に到達したときには、そのときの認
識率を、設定値に到達しなかったときには、最大の認識
率を示した時間長を最終の単語の標準テンプレートとし
て生成したことを特徴とするものである。
【0012】
【実施例】以下この発明の実施例を図面に基づいて説明
する。図1は第1実施例を示すフローチャートで、この
図1において、1は継続時間長テーブル部、2は認識用
単語部であり、両者を突き合わせて、標準テンプレート
を作成したい単語を、継続時間長の表記にしてがって記
述する。その後、継続時間長のテーブルを参照して、各
音素の継続時間を継続時間長計算部3で求める。計算結
果はms(ミリ秒)単位であるが、DPマッチングする
際には、フレーム数が必要なのでmsをフレーム単位に
変換する。継続時間の計算の結果は例外処理部4で処理
した後、標準テンプレート生成部5に送られて最終的な
標準テンプレートが得られる。
【0013】次に上記実施例の各部の動作を述べる。継
続時間長テーブル部1は以下に示す表1のように予め作
成される。すなわち表1に示す音素グループに対して、
先行、当該、後続の全ての組み合わせに対応する継続時
間長テーブルが作成される。
【0014】
【表1】
【0015】継続時間長テーブルから前後の音素環境を
考慮するのは、音素(特に母音)の継続時間は、先行の
音素と後続の音素によって影響を受けるためである。こ
のデータは、実音声の分析により各組につき複数個用意
し、その中の平均値を継続時間(ms単位)とする。ま
た、この時間データを作成する際、各サンプル音声のモ
ーラ数を考慮し、各組での平均モーラ数を上記継続時間
でのモーラ数とする。さらに、モーラ数が平均モーラ数
から1モーラ変化した際の継続時間長の変化量を最小2
乗法を用いて各組毎に用意し、これを継続時間長変化量
データとする。
【0016】ここで言う音素グループとは、例えば、無
声破裂音(P,T,K)はグループ(UP)にまとめら
れており、同一の継続時間を有している。また、単語中
の無声破裂音は通常、その前に無音が生ずるが(音素で
記述すると−P,−T,−Kなお、−は無音を表す)、
継続時間長テーブルではこの無音も含まれた形で記述さ
れている。同様に、「みゃ」、「ぴゅ」などの拗音も、
標準音素表記はそれぞれ(MYA,PYU)となるが、
継続時間長テーブルではMとYに分かれおらず、MYと
いう一つの音素として、また、P,Yという一つの音素
として継続時間長が記述されている。
【0017】上記の継続時間長テーブル部1の継続時間
長と認識用単語部2の認識用単語から、標準テンプレー
トを作成したい単語を継続時間長の表記にしたがって記
述する。例えば、「東京」は「TOKYO」と記述す
る。
【0018】次に上記のように記述された単語を継続時
間長計算部3で継続時間長テーブルを参照して、各音素
の継続時間を求める。結果はms単位であるが、DPマ
ッチングする際には、フレーム数が必要なのでmsをフ
レーム単位に変換する。この結果が例えば「東京」なら
T=9、O=56、KY=30、O=63フレームとな
る。
【0019】継続時間長計算部3において例外的なこと
があるため、例外処理部4では次のような処理を行う。
より高精度な音素認識を行うために、音素判別器となる
ニューラルネットは、例えば、単語中の無声破裂音Pは
「−P」と学習される。つまり、破裂音前の無音区間は
無音「−」として、破裂が開始してからが破裂音Pとし
て学習される。その結果、音素判別器は語中の無声破裂
音に対して「−−−−・・・−−−PP・・・PPP」
といったような音素系列を出力する。拗音も同じで、例
えば、「RY」なら「RR・・・RRYYY・・YY
Y」といった系列を音素判別器は出力する。
【0020】しかしながら、表1で示したように、継続
時間テーブルには、これらの音素は分離していない。例
えば、Pならば、無音区間も含まれた継続時間長が記述
されており、また、RYならRとYが分離された形でな
くRYとして記述されている。そこで、これらの音素の
継続時間Wを求めるため、つまり、結合した音素を分離
するために、次の表2で示す例外処理を行う。
【0021】
【表2】
【0022】上述の表2において、記号”(”は単語の
前の無音区間を、記号”$”は先行音素を、記号”#”
は後続音素を示す。
【0023】例外処理を完了したなら標準テンプレート
生成部5で最終的な標準テンプレートが得られる。例え
ば、「東京」なら、T=9、O=56、−=9、K=
9、Y=12、O=63フレームとなる。ここで、従来
手段により作成されたテンプレートと上記実施例により
作成されたテンプレートを用いた単語認識実験を次表3
に示す。
【0024】
【表3】
【0025】表3に示した実験結果からこの発明の実施
例により自動的に作成された単語テンプレートは、高認
識率が得られ、実用的に充分使用可能である。
【0026】図2はこの発明の第2実施例を示すフロー
チャートで、この図2において、21は入力音声データ
部で、この入力音声データ部21では多種類の単語に対
して複数の音声データを用意する。22は特徴抽出部
で、この特徴抽出部22で用意された音声データから有
効なデータを取り出す。特徴抽出部22により取り出さ
れたデータは音素認識部23で前記第1実施例で述べた
例外処理部と同様にして音素認識される。音素認識され
たデータは単語認識部24により1種類の単語複数に対
する認識実験が行われる。この単語認識部24の認識結
果は認識結果部25を介して継続時間長変更部26に入
力され、ここで認識結果の平均の認識率が計測される。
この継続時間長変更部26は認識率がある設定値以下で
あれば、その単語の標準テンプレートの先頭音素の時間
長を当初設定値から1フレームずらして、再度認識実験
を行うために、前記認識結果を標準テンプレート生成部
27から単語認識部24に送る。このような工程を全音
素に対して実行し、この工程で当該単語認識率が設定値
に到達すれば実行を中止して、そのときの認識率を示し
た時間長を単語の標準テンプレートとし、到達しなけれ
ば、最大の認識率を示した時間長を最終の単語の標準テ
ンプレートとする。このようにして、認識単語の自動作
成テンプレートとすれば、当該対象単語の認識率が最良
になるようにテンプレートを作成できる。
【0027】
【発明の効果】以上述べたように、この発明によれば、
従来は単語認識用の単語テンプレートを実音声から求め
ていたため、認識対象単語が追加、変更されるとき、そ
の都度、実音声からテンプレートを作成しなければなら
なかったけれども、認識単語のテンプレートを自動的に
作成することができるので、単語認識において対象単語
の追加、変更が容易に行うことができ、よりフレキシブ
ルな音声認識装置が構築可能となる。また、継続時間長
変更部を用いて単語認識率に設定値を設けることによ
り、対象単語の認識率が最良になるテンプレートが作成
できる。
【図面の簡単な説明】
【図1】この発明の第1実施例を示すフローチャート。
【図2】この発明の第2実施例を示すフローチャート。
【符号の説明】
1…継続時間長テーブル部 2…認識用単語部 3…継続時間長計算部 4…例外処理部 5、27…標準テンプレート生成部 21…入力音声データ部 22…特徴抽出部 23…音素認識部 24…単語認識部 25…認識結果部 26…継続時間長変更部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 認識用単語を継続時間長テーブル部の継
    続時間長の表記にしたがって記述した後、継続時間長の
    テーブルを参照して各音素の継続時間を求めてから単語
    の標準テンプレートを生成したことを特徴とする音声認
    識における単語テンプレートの自動作成方法。
  2. 【請求項2】 継続時間長のテーブルを参照して各音素
    の継続時間を求めたとき、例外処理を行って高精度な音
    素認識を行うことを特徴とする請求項1記載の音声認識
    における単語テンプレートの自動作成方法。
  3. 【請求項3】 多種類の単語に対して用意された複数の
    音声データから有効なデータを取り出した後、そのデー
    タの音素認識を行って、1種類の単語複数に対する認識
    を行い、その認識結果の平均認識率を継続時間長変更部
    で計測し、その計測値で単語の標準テンプレートを生成
    することを特徴とする音声認識における単語テンプレー
    トの自動作成方法。
  4. 【請求項4】 継続時間長変更部で計測する認識率が設
    定値以下ならば、その単語の標準テンプレートの先頭音
    素の時間長を当初設定値から1フレームずらして、再度
    認識を行い、この認識行為を全音素に対して実行した
    後、設定値に到達したときには、そのときの認識率を、
    設定値に到達しなかったときには、最大の認識率を示し
    た時間長を最終の単語の標準テンプレートとして生成し
    たことを特徴とする請求項3記載の音声認識における単
    語テンプレートの自動作成方法。
JP03513294A 1993-09-30 1994-03-07 音声認識における単語テンプレートの自動作成方法 Expired - Fee Related JP3438293B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03513294A JP3438293B2 (ja) 1993-09-30 1994-03-07 音声認識における単語テンプレートの自動作成方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-244205 1993-09-30
JP24420593 1993-09-30
JP03513294A JP3438293B2 (ja) 1993-09-30 1994-03-07 音声認識における単語テンプレートの自動作成方法

Publications (2)

Publication Number Publication Date
JPH07146696A true JPH07146696A (ja) 1995-06-06
JP3438293B2 JP3438293B2 (ja) 2003-08-18

Family

ID=26374062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03513294A Expired - Fee Related JP3438293B2 (ja) 1993-09-30 1994-03-07 音声認識における単語テンプレートの自動作成方法

Country Status (1)

Country Link
JP (1) JP3438293B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
WO2013061857A1 (ja) 2011-10-25 2013-05-02 オリンパスメディカルシステムズ株式会社 内視鏡手術システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP4532862B2 (ja) * 2002-09-25 2010-08-25 日本放送協会 音声合成方法、音声合成装置および音声合成プログラム
WO2013061857A1 (ja) 2011-10-25 2013-05-02 オリンパスメディカルシステムズ株式会社 内視鏡手術システム
US8903728B2 (en) 2011-10-25 2014-12-02 Olympus Medical Systems Corp. System for endoscopic surgery having a function of controlling through voice recognition

Also Published As

Publication number Publication date
JP3438293B2 (ja) 2003-08-18

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
Ghai et al. Literature review on automatic speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
EP0549265A2 (en) Neural network-based speech token recognition system and method
JP3299408B2 (ja) 動的特徴を使用した音声認識方法及び装置
JPH07506198A (ja) 複合エキスパート
Shaikh Naziya et al. Speech recognition system—a review
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
JP2955297B2 (ja) 音声認識システム
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3378547B2 (ja) 音声認識方法及び装置
JP3039399B2 (ja) 非母国語音声認識装置
JP3438293B2 (ja) 音声認識における単語テンプレートの自動作成方法
Alashban et al. Language effect on speaker gender classification using deep learning
Kuzdeuov et al. Speech Command Recognition: Text-to-Speech and Speech Corpus Scraping Are All You Need
Jalalvand et al. A classifier combination approach for Farsi accents recognition
JP2862306B2 (ja) 音声認識装置
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JPH03116100A (ja) 大語彙音声認識装置
Kerle et al. Speaker Interpolation based Data Augmentation for Automatic Speech Recognition
JP3029654B2 (ja) 音声認識装置
JPH04271397A (ja) 音声認識装置
JP2004309654A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees