JPS5915993A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS5915993A
JPS5915993A JP57125346A JP12534682A JPS5915993A JP S5915993 A JPS5915993 A JP S5915993A JP 57125346 A JP57125346 A JP 57125346A JP 12534682 A JP12534682 A JP 12534682A JP S5915993 A JPS5915993 A JP S5915993A
Authority
JP
Japan
Prior art keywords
dictionary
speech
pattern
patterns
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57125346A
Other languages
English (en)
Inventor
博 松浦
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP57125346A priority Critical patent/JPS5915993A/ja
Publication of JPS5915993A publication Critical patent/JPS5915993A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は音声を精度良く認識することのできる音声認識
装置に関する。
〔発明の技術的背景とその問題点〕
不特定話者を対象とした音声認識装置では、一般に認識
処理に用いる音声辞書パターンを、話者の相違や発話毎
の相違を包含した形の標準パターンとして与えている。
そして、この標準パターンと入力音声を分析してなる音
声パタ゛−ンとの間の距離関係を例えば複合類似度法を
用いたり、或いは・やターンの平均値と共分散行列とを
用いる等して求め、その結果から入力音声が該当する音
声カテゴリを判定することにより、その認識を行ってい
る。然し乍ら、上記辞書ツクターンが標準パターンとし
て与えら扛る為に、話者個有の特徴によるパターン変形
に十分対処できず、現在の技術レベルでは10〜50程
度の単語しか認識できないと云う問題を有している。こ
れを解決する為には複雑な構成の音声辞書を必要とする
上、認識処理に必要な計算量が非常に膨大となり、実用
性に極めて乏しいと云う不具合が生じる。
一方、特定話者用の音声認識装置では、かなりの精度で
多くの単語を認識できるようになっている。ところが、
この装置にあっては、上記特定話者に予め総ての単語の
音声入力を伺し、これを分析して求めた音声iRパター
ン辞書パターンとして登録しておく必要がある。しかも
、その認識処理もDPマツチング法を用いることが多く
、一般に計算量が多いと云う問題がある。
これ故、特定話者用の音声認識法を不特定話者の音声認
識に利用することが非常に困難であった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、音声g識を、多くの音声カテゴ
リについて精度良く行い得る実用性の高い音声認識装置
を提供することにある。
〔発明の概要〕
本発明は音声の認識対象カテゴリ毎に複数の種類の異な
る辞書パターンを音声辞書として登録し、入力音声を分
析して求められる音声パターンと上記辞書登録された種
類の異なる辞書ノ(ターンとそれぞれ比較し、その比較
結果から認識処理に適した種類の辞書パターンを選択し
、この選択された種類の各認識対象カテゴリと前記音声
パターンとを照合してその認識処理を行うようにしたも
のである。
〔発明の効果〕
従って本発明によれば、話者の相違や発話の相違等に応
じて認識処理に適した種類の辞書パターンを音声辞書と
して用いてその認識処理を行い得るので、例えば複合類
似度法の利点を活かして高精度に且つ簡易に多くの音声
カテゴリを対象として入力音声を認識することが可能と
なる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明する
第1図は実施例装置の概略構成図で、第2図はその処理
動作の流れを示す図である。第1図において、例えばマ
イクロホンを介して入力された音声は電気信号に変換さ
れ、A/D変換器等によって構成される音声入力部1に
導ひかれる。
この入力された音声に対して、帯域フィルタ群やLPG
分析回路等により構成さnた特徴抽出部2は、その音声
特徴量を抽出して、入力音声パターンを求めている。こ
の入力音声パターンがスイッチ3を介して学習部4或い
は認識処理部′5に与えられる。学習認識部4は、音声
辞書部6に予め登録された複数の辞書i!ターンと上記
入力音声ノ9ターンとを複合類似度法を用いる等して比
較し、この比較結果から認識処理に最適な種類の辞書パ
ターンを判定している。この判定結果が前記音声辞書部
6に与えられ、上記認識処理に最適な種類の各認識対象
カテゴリの辞書パターンが選択的に読出され、前記認識
処理部5に与えられる。この選択された種類の辞書パタ
ーンを用いて、認識処理部5では、例えば複合類似度法
により、入力音声パターンを認識処理し、その認識結果
を得ている。
ところで、前記音声辞1部6に登録された音声の認識対
象カテゴリの辞書パターンは、次のように構成されてい
る。上記認識対象カテゴリとは、例えば「ザクラ」「ト
ウキヨウ」「ハイ」等の単語からなる互いに区別される
音声を示している。音声辞書は、このような複数からな
る各認識対象カテゴリ毎に複数の異なった種類の辞書パ
ターンをそれぞれ準備して構成されるものである。この
ような種類の異なる辞書ツクターンは、例えばクラスタ
リング等の手法を用いて、話者の相違、つまり性別、年
令、方言、調音器官の相違等を反映して、各カテゴリ毎
にそれぞれ複数個ずつ求められるものである。そして、
これらの種類の異なる辞書パターンは、例えばカテゴリ
tについて(φ雷)として与えらn、mの値によって規
定さ扛る各辞書・七ターンが相互に直交する関係となっ
ている。
しかして今、音声が入力されると、その音声側ターンは
第2図に示すように、先ず学習部4に与えられる。学習
部4では上記入力音声パターンに対して、前記登録され
た辞書パターンの例えば平均的な音声成分を示す第1面
特徴パターンを音声辞書よりそれぞれ入力し、パターン
マツチング法等を用いて前記入力音声パターンとの比較
を行う。この比較計算は、例えば入力[Pパターンのベ
クトルをf、カテゴリtにおける複数の辞書・ぐターン
の各第1面の特徴ベクトルを(心、1)として、 なる計算を施こすことによって行われる。但しくa雷、
1)は定数、(1)は内積演算、1111はノルムであ
る。また成る辞書・やターン(φ雷)は、第1面から第
n面に至るn面の特徴ベクトル(φ(4)In として与えられる。そしてIIφ3′11は1としてm
、n 与えられるものとする。
このような比較結果を行うことによシ、その概略的な特
徴成分から前記入力音声パターンの認識処理に適した種
類mの辞書ノやターンが見出される。これにより、認識
処理に用いる辞書パターンの種類mを決定し、音声辞書
部6よシ、この最適な種類の各カテゴリの辞書パターン
を認識処理部5に読出す。尚、上記辞書・やターンの種
類の決定に際しては、2面以上の特徴ベクトルを用いる
ことも勿論可能である。また学習用として、話者に予め
定められたカテゴリの音声を先ず入力してもらい、この
音声のカテゴリの代数の辞書パターンの第1面の特徴ベ
クトルだけを用いて最適な辞書・ぐターンの種類を決定
するようにしてもよい。そして、この決定された辞書パ
ターンの種類に従って他のカテゴリの同一種類の辞書パ
ターンをそれぞれ選択するようにすることも有用である
。つまシ、上述した学習処理は、各カテゴリ毎に行うこ
とが最も確実であるが、辞書ツヤターンの種類の別を、
各カテゴリ間で相互に対応させて登録しておけば、一部
のカテコ8りの学習により、他のカテゴリの最適辞書パ
ターンを効果的に類推し、これを用いることが可能とな
る。
しかるのち、この選択された種類mの辞薔パターン(φ
34)の各面のベクトル成分と、入力音In 声Aターンのベクトルfとの間で なる複合類似度計算を行う。そして、この計算処理を、
各カテゴリの同一種類の辞書ノ平ターンに対してそれぞ
れ行い、その結果を相互に比較する。これによシ、例え
ば最も類似度の高い辞書パターンのカテゴリを前記入力
音声の認識結果として求めることが可能となる。
第3図は、上記した学習処理を模式的に示したものであ
υ、111.11b〜11mはカテゴリtについての種
類の異なる辞書i!ターンをそれぞれ示している。そし
て、各辞書ノやターンは、それぞれn面からなる特徴ベ
クトルによって構成され、その第1面が学習用の計算に
供されることを示している。これらの第1面の辞書パタ
ーン(%徴ベクトル)と、入力音声・やターンとの類似
度言」算結果に従って、認識処理に最適な種類の辞書i
jクター12が選択され、本来の認識処理に供されるの
である。
以上のように本装置によれは、同一カテゴリについて複
数種類準備された辞書パターンのうち、最適な辞書パタ
ーンを簡易な処理によって選択し、これによって入力音
声パターンの認識処理を行うので、個人性に起因するパ
ターンの変形に十分対処して精度良くその認識を行うこ
とができる。しかも、複合類似脱法の利点を十分に活か
して上記認識処理を行うことができ、その計算量もさほ
ど多くない。つまり認識処理に適切な種類の辞書ノソタ
ーンのみを選択して認識の為の計算処理を行うので、従
来装置に比してその割算量が大幅に低減する。これ故認
識対象カテゴリの数を増すことも容易であり、そのそれ
ぞれについて十分高い精度で認識結果を得ることが可能
となる。従って、その実用的利点は絶大であり、多大な
る効果が奏せられる。
尚、本発明は上記実施例に限定されるものではない。例
えば各カテゴリ毎に準備される種類の異った辞書パター
ンの数は、音声パターンの変形の度合、その他に応じて
定めればよいものであり、認識対象カテゴリの数も特に
制限されない。また必ずしも各カテゴリの辞1パターン
の種類を同一化する必要もない。また認識処理として、
複合類似変法以外の手法を適宜用いることも勿論可能で
あり、要するに本発明はその要旨を逸脱しない範囲で種
々変形して実施することができる。
【図面の簡単な説明】
第1図は本発明の一実施例装置の概略構成図、第2図は
同実施例における処理の流れを示す図、第3図は同実施
例における学習処理の概念を示す図である。 1・・・音声入力部、2・・・特徴抽出部、3・・・ス
イッチ、4・・・学習部、5・・・認識処理部、6・・
・音声辞書部。 出願人代理人 弁理士 鈴 江 武 彦第1− ム 第2図 第3図

Claims (4)

    【特許請求の範囲】
  1. (1)  音声の認識対象カテゴリ毎に複数の種類の異
    なる辞書パターンをそれぞれ登録した音声辞書と、入力
    音声を分析してその音声ノ母ターンを求める手段と、こ
    の音声パターンと前記音声辞書に登録された複数の種類
    の異なる辞書パターンとをそれぞれ比較゛して認識処理
    に適した辞書・ぐターンの種類を選択する手段と、この
    選択された種類の前記各認識対象カテゴリの辞書パター
    ンと前記音声パターンとを照合して前記入力音声を認識
    する手段とを具備したことを特徴とする音声認識装置。
  2. (2)学習部は、1つの認識対象カテゴリにおける複数
    種類の辞書パターンと音声ノ?ターンとをそれぞれ比較
    して認識処理に適した辞書パターンの種類を決定し、こ
    の決定された種類の辞書パターンを複数の認識対象カテ
    ゴリの各辞書)J?ターン群からそれぞれ選択するもの
    である特許請求の範囲第1項記載の音声認識装置。
  3. (3)  認識処理に適した種類の辞書パターンの選択
    は、各種類の辞書パターンと音声パターンとの類似度を
    それぞれ計算し、これらの類似度を相互に比較して選択
    すべき辞書パターンの種類を決定して行われるものであ
    る特許請求の範囲第1項記載の音声認識装置。
  4. (4)認識対象カテゴリ毎の複数の種類の辞書パターン
    は、相互に直交したベクトル成分で示される特徴パター
    ンとして与えられるものである特許請求の範囲第1項記
    載の音声認識装置。
JP57125346A 1982-07-19 1982-07-19 音声認識装置 Pending JPS5915993A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57125346A JPS5915993A (ja) 1982-07-19 1982-07-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57125346A JPS5915993A (ja) 1982-07-19 1982-07-19 音声認識装置

Publications (1)

Publication Number Publication Date
JPS5915993A true JPS5915993A (ja) 1984-01-27

Family

ID=14907837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57125346A Pending JPS5915993A (ja) 1982-07-19 1982-07-19 音声認識装置

Country Status (1)

Country Link
JP (1) JPS5915993A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184694A (ja) * 1984-10-02 1986-04-30 株式会社東芝 認識用辞書学習方法
JPS62143100A (ja) * 1985-12-17 1987-06-26 株式会社東芝 音声パタ−ンマツチング方式
JPH01290000A (ja) * 1988-05-17 1989-11-21 Sharp Corp 音声認識方式
JPH0413891A (ja) * 1990-05-07 1992-01-17 C Uyemura & Co Ltd ガラス―金属複合物の電気めっき方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184694A (ja) * 1984-10-02 1986-04-30 株式会社東芝 認識用辞書学習方法
JPS62143100A (ja) * 1985-12-17 1987-06-26 株式会社東芝 音声パタ−ンマツチング方式
JPH01290000A (ja) * 1988-05-17 1989-11-21 Sharp Corp 音声認識方式
JPH0413891A (ja) * 1990-05-07 1992-01-17 C Uyemura & Co Ltd ガラス―金属複合物の電気めっき方法

Similar Documents

Publication Publication Date Title
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
Mansour et al. Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms
JPS5972496A (ja) 単音識別装置
Lepage et al. Label-efficient self-supervised speaker verification with information maximization and contrastive learning
Noor et al. Efficient language identification using anchor models and support vector machines
Gupta et al. A study on speech recognition system: a literature review
Vélez et al. One-shot speaker identification for a service robot using a cnn-based generic verifier
JPS5915993A (ja) 音声認識装置
Nijhawan et al. Speaker recognition using support vector machine
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
CN110047491A (zh) 一种随机数字口令相关的说话人识别方法及装置
Milošević et al. Speaker modeling using emotional speech for more robust speaker identification
JPS5915994A (ja) 音声認識装置
JPS58223193A (ja) 多数単語音声認識方式
Kanrar Speaker Identification by GMM based i Vector
Li et al. Model Compression for DNN-based Speaker Verification Using Weight Quantization
Haris et al. Sparse representation of total variability smoothed GMM mean supervectors for speaker verification
AbuAladas et al. Speaker identification based on curvlet transform technique
Tahir et al. Extracting accent information from Urdu speech for forensic speaker recognition
John et al. Prosody based speaker verification system: Effect of voice disguise
JP2989231B2 (ja) 音声認識装置
Chaubey et al. Meta-Learning Framework for End-to-End Imposter Identification in Unseen Speaker Recognition
Senoussaoui et al. Speaker Sincerity Detection based on Covariance Feature Vectors and Ensemble Methods
CN114203159A (zh) 语音情感识别方法、终端设备及计算机可读存储介质
Lei et al. GMM-ResNet2: Ensemble of Group Resnet Networks for Synthetic Speech Detection