JPH0574080B2 - - Google Patents

Info

Publication number
JPH0574080B2
JPH0574080B2 JP59055806A JP5580684A JPH0574080B2 JP H0574080 B2 JPH0574080 B2 JP H0574080B2 JP 59055806 A JP59055806 A JP 59055806A JP 5580684 A JP5580684 A JP 5580684A JP H0574080 B2 JPH0574080 B2 JP H0574080B2
Authority
JP
Japan
Prior art keywords
value
similarity
speech
subintervals
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59055806A
Other languages
English (en)
Other versions
JPS60200296A (ja
Inventor
Teruhiko Ukita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP59055806A priority Critical patent/JPS60200296A/ja
Publication of JPS60200296A publication Critical patent/JPS60200296A/ja
Publication of JPH0574080B2 publication Critical patent/JPH0574080B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は単語や文等を連続発声した入力音声を
高精度に認識することのできる音声認識装置に関
する。
〔発明の技術的背景とその問題点〕
音声を通じて情報を入力する装置にあつては、
連続的に発声入力される単語や文等を如何に高精
度に認識するかが重要な課題となる。しかし、連
続的に発声された音声を高精度に認識処理するこ
とは一般に甚だ困難である。例えば音声入力され
た連続数字を認識処理する場合には次のような問
題がある。即ち、単語単位でパターンマツチング
を行なう従来の音声認識処理にあつては、数字列
“23”(ニーサン)を発声した場合、その認識結果
が“213”となることがある。これは、“23”
(nisaN)なる発音に対して、 ni→2、 is→1、 saN→3 なる対応付がなされる為である。これは、数字単
語“1”の音素記号が/it∫i/で示され、/t∫/
と/s/とが同じ摩擦性の音である為であり、こ
れ故その音響的特徴だけから両者を区別すること
が困難である。しかも/t∫i/中の/i/の部分
が無声化されることも多いことから、一般に/
it∫i/や/it∫/の両者に対処できるものが標準パ
ターンとして辞書に用意される。その結果、前述
したような単語の対応付けが行われることにな
る。しかもこの時、認識結果を判定する評価尺度
として、各単語のマツチング結果として得られる
類似度値の和を用いると、一般に単語数の多いも
のほど高い評価値が得られる。この為、“213”の
方が“23”より高い評価値を得るので、結局誤認
識を招いていた。
このような不具合は、例えば単語認識における
音節や音素、あるいは文認識における単語等のよ
うに、その音声認識における本来の認識対象より
小さな単位を認識処理単位として採用した場合に
共通に生じた。これ故、如何にしてその構成単位
数とは独立に認識対象全体を評価すればよいかが
問題となつていた。
このような不具合を解消するべく、例えば「単
語単位のパターンマツチングによる不特定話者向
き連続単語音声認識」(日本音響学会音声研究会
資料S83−19)に紹介されるような、事後確率を
用いる音声認識法が考えられている。この手法
は、単語をマツチング処理する際に得られる類似
度値の分布を考え、類似度値Sのときにそのマツ
チング区間Kが正しい単語区間である確率p
(K/S)を p(K/S)=p(S/K)/p(S)・p(K)≒a・10S
+b ……(1) なる指数の関係式(a、bは定数)で求め、その
確率の積により全音区間に対応する部分区間の組
合せを評価するものである。
このような手法によれば、認識単位の数に依存
することのない評価尺度が得られ、比較的高精度
の認識結果を得ることができる等の利点がある。
然し乍ら、上述したように音声認識の評価処理の
演算(第(1)式)に指数関数を用い、しかも確率の
積として全体を評価しているので、装置構成規模
が大きくなり、また多大な処理時間を必要とする
等の問題があつた。
〔発明の目的〕
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、話者が連続発声
した入力音声を少ない計算量で高精度に、且つ効
率良く認識することのできる実用性の高い音声認
識装置を提供することにある。
〔発明の概要〕
本発明は入力音声の特徴パラメータの一部と、
音素・音節または単語等からなる認識単位とのマ
ツチング処理を行ない、これによつて得られる類
似度値に対応して、そのマツチング区間が正しい
認識単位の存在位置である確率の近似値としての
スコアを求め、このスコアの和によつて前記入力
音声の全体に対する評価を行つて、その認識結果
を得るようにしたものである。
即ち本発明は、入力音声の特徴パラエータの時
系列を音声の認識単位が存在可能な部分区間毎に
分割し、例えばある部分区間Kにマツチングした
結果として得られた類似度値Sから所定の値S0
減算して q=S−S0 なるスコア(評価値)qを得、このスコアqの和
から入力音声全体を評価してその認識結果を得る
ようにしたものである。
〔発明の効果〕
かくして本発明によれば、スコアqの和を求め
ると云う簡単な演算によつて入力音声の全体を高
精度に、且つ効果的に評価することが可能とな
る。従つて、連続発声された音声を高精度に認識
することができ、また装置の構成規模の簡素化、
処理時間の短縮化を図り得る等の絶大なる効果が
奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき
説明する。
先ず、第1図を参照して本発明の基本的な処理
概念を説明する。本発明では入力音声の特徴パラ
メータを音声認識単位の存在可能な部分区間毎に
分割し、各部分区間の特徴パラメータ時系列のマ
ツチング結果である類似度値Sから所定の値S0
減算してスコアqを求め、このスコアqの和を求
めて前記入力音声を評価するものである。今、あ
る部分区間Kに関して得られた類似度値がSであ
る場合、その区間Kが正しい単語区間である確率
p(K/S)が p(K/S)≒A・BS ……(2) (A>0、B>1) なる式で近似されるものとする。これは第1図a
に示される p=a・10S なる前述した第(1)式の関係と、同図bに示す上記
第(2)式の関係とが、第(2)式中の定数A、Bを操作
することにより実質的に等しいものを表わしてい
ることに立脚している。
ところで確率の積の対数は、各確率の値の対数
の和として表わされる。そこで今、対数が単調関
数であることを考慮すると、上記確率の積の最大
値を求める為の処理は、各確率の値の対数の和の
最大値を求めることを意味する。この関係は、 log{max ipi}=max{ 〓 i(pi)} で示される。ここで前記第(2)式の両辺の対数(底
B)を考えると logBp=logBA+S ……(3) となる。しかし第1図bに示されるように、その
類似度値S(=S0)の場合、その確率が1.0に対応
するので、 1.0=A・BS0 ……(4) であるから、 logBA=−S0 ……(5) になる。従つて前記第(3)式は q=logBp=S−S0 ……(6) と書改めることができる。
即ち、このことは前記第(1)式に示される近似式
により部分区間の類似度Sを確率pに変換し、そ
の積により全体を評価することと、前記第(2)式に
基く近似を行なつて、前記類似度Sを第(6)式によ
りスコアqに変換し、その和をもつて全体を評価
することとが等しいことを意味している。従つ
て、上述したスコアqを導入することにより、従
来の指数関数演算処理を減算処理により行うこと
が可能となり、また全体の評価の為の処理を従来
の積に代えて和の演算処理によつて行うことが可
能となる。この結果、その処理時間の短縮化、並
びに装置実現の規模縮小等を図ることが可能とな
る。
次に、本発明の実施例装置につき説明する。
尚、ここでは入力音声の認識単位の単語として説
明するが、この単語は言語学的な意味ではなく、
音声認識処理における認識の基本単位として定義
されるものである。従つて上記単語は、例えば音
節や母音−子音−母音の音韻連鎖またはこれらに
類するものであつてもよい。
第2図は実施例装置の概略構成図である。入力
音声は音響分析部1に入力されて一定の分析時間
毎に分析されて、その特徴パラメータが求められ
る。この分析時間はフレーム周期と称され、典型
的には数msec〜10msec、長くても20msec程度
に設定される。この音響分析部1は、例えば帯域
通過フイルターを利用したフイルタ・バンクによ
り構成されるもので、例えば音声帯域を16〜30程
度の帯域に分割してスペクトル分析を行ない、そ
の特徴パラメータを求めるものであり、その特徴
パラメータはある所定の時間間隔(フレーム周
期)毎にサンプリングされて出力される。
しかして上記音響分析部1で求められた特徴パ
ラメータの時系列は部分区間設定部2に入力され
る。この部分区間設定部2は、上記特徴パラメー
タの時系列に対して単語マツチングを行なうべく
部分区間を決定するもので、前記音響分析の各分
析時間毎に形成可能なある条件を満たす部分区間
をそれぞれ抽出している。例えば第3図に示すよ
うに、入力音声(特徴パラメータ:音声パワーの
時系列)Pについて、ある範囲内で変化する認識
対象単語の継続時間に関し、その最大値
(dmax)とその最小値(dmin)との間に存在す
る部分区間を、ある分析時刻を基準としてそれぞ
れ求める。尚、第3図中τは分析時間を示してい
る。このようにして、認識単位が存在すると見込
まれる1つまたは複数の部分区間が、その分析時
間毎に順次求められる。
このようにして設定された各部分区間の位置
と、その部分区間における特徴パラメータ時系列
は、類似度計算部3に与えられて単語辞書記憶部
4に予め登録された辞書パターンとの間で照合さ
れる。この照合処理は、例えば入力音声の部分区
間の特徴パラメータ時系列で示される入力パター
ンと上記単語辞書記憶部4に登録された辞書パタ
ーンとの類似度を、複合類似度法により算出する
等して行なわれる。この複合類似度法を用いる場
合、辞書登録された単語を表現する特徴ベクトル
(辞書パターン)は、例えば周波数でM次元の分
析フイルタ数、時間軸でN次元からなる(M×
N)次元の固定ベクトルとして表現される。従つ
て、前記音響分析部1にて周波数軸上でM次元に
分析された特徴パラメータは、前記部分区間毎に
時間点数がN点からなる時系列として再サンプリ
ングされ、上記辞書パターンと同じ次元のベクト
ルとして表現するようにしておけばよい。尚、前
記時間軸方向N点の決定方法は、部分区間をN等
分する位置の最近傍フレームを取出せば十分であ
る。この各フレームの現フレームからの相対位置
は、区間長を変数とする関数の形で与えられ、テ
ーブル化して予め準備しておけばよい。
類似度計算部3では、このような(M×N)次
元の入力パターンベクトルと、予め準備された各
単語の(M×N)次元の辞書パターンとの間で、
その複合類似度値を計算している。複合類似度法
によるマツチング処理においては、各認識単位の
カテゴリ毎に互いに直交する数個のベルトルが用
意されており、上記入力パターンベクトルとの間
の内積の2乗和を基本として、各類似度値が計算
される。このような類似度計算の結果得られる類
似度の中から最大の類似度をとる単語名(標準パ
ターン名)と、その類似度値が、その部分区間に
おける局部的な認識結果として、その部分区間に
位置情報と共に単語評価部5に与えられる。
しかして単語評価部5では、上記類似度Sを次
の関係に従つてスコアqに変換している。
q=0.0…(S≧S0) S−S0(S<S0) ……(7) ここで上記S0は、例えば予め単語辞書構成時に
用いる学習用のパターン集合に対する類似度演算
を行ない、その際に求められる最大の類似度値と
して設定されるものである。尚、上記第(7)式にお
ける所定値S0は全カテゴリーに共通に設定されて
いるが、各カテゴリ毎にそのカテゴリに応じた所
定値S0をそれぞれ用意し、単語評価部5に入力さ
れる単語名に応じて上記S0の値を変るようにして
もよい。また所定値S0を、入力音声に対する種々
の類似度中の最大値として定めるようにしてもよ
い。この場合、入力音声に対して設定される部分
区間の位置、単語名、および類似度値を単語評価
部5に全て記憶しておき、それらの中から最大類
似度を選んで上記所定値S0とすればよい。このよ
うにして得られたスコアqは、その単語名、部分
区間位置の情報と共に文評価部6に送られる。
文評価部6では、上記と如く求められた単語名
と、そのスコアq、およびその部分区間の位置情
報を入力し、まず入力音声区間と等しい区間をな
す部分区間の列を見出す。そして、これらの部分
区間の列に対応する認識単語列の、これに付随す
るスコアqの和を算出し、その和の最大値を検出
することにより前記部分区間列に対する評価を行
なう。例えば、第4図に示すように7分析区間か
らなる入力音声が与えられ、その部分区間が同図
中A,B〜Lに示すように求められたとする。こ
のとき、入力音声区間と等しい区間をなす部分区
間の列は(L、J、B)(K、H、C)(L、G、
C)(I、B)として求められる。このような部
分区間列を構成する単語列のスコアq和がそれぞ
れ求められ、その最大値を得る単語列、例えば
(L、J、B)が前記入力音声の認識結果として
求められることになる。
以上詳述したように本発明は、認識単位である
単語のマツチングによつて求められる類似度値か
ら、そのマツチング区間に応じて上記単語の正し
い存在区間である確率に対応するスコアqを所定
値S0の減算処理により求め、そのスコアqの和を
もつて入力音声の全体を評価している。その結
果、従来必要であつた指数関数の計算や確率の積
計算を加減算の演算だけによつて行うことがで
き、装置実現上の規模縮小、および処理時間の大
幅な短縮化を図り得る等の絶大なる効果が得らえ
る。
尚、本発明は上記実施例に限定されるものでは
ない。例えば前記第(7)式による変換に代えて q′=S0−S…(S0>S) 0.0(S0≦S) としてスコアq′を求め、その和の最小値を選ぶこ
とにより文評価を行なつても上記実施例と実質的
に等価であり、従つて同様な効果が得られること
は明らかである。また、認識単位を音節や母音−
子音−母音の音韻連鎖とすることも可能であり、
要するに本発明はその要旨を逸脱しない範囲で
種々変形して実施することが出来る。
【図面の簡単な説明】
図は本発明の実施例を示すもので、第1図は本
発明の原理を示す為の図、第2図は一実施例装置
の概略構成図、第3図は部分区間の設定を示す
図、第4図は部分区間の列を説明する為の図であ
る。 1……音響分析部、2……部分区間設定部、3
……単語類似度計算部、4……単語辞書記憶部、
5……単語評価部、6……文評価部。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声を一定時間毎に分析してその特徴パ
    ラメータの時系列を得る手段と、この特徴パラメ
    ータの時系列を音声の認識単位が存在可能な部分
    区間に分割する手段と、これらの各部分区間の特
    徴パラメータ時系列と予め辞書登録された複数の
    認識単位の各標準パターンとの類似度をそれぞれ
    計算して前記各部分区間毎に最大類似度値をとる
    標準パターン名とその類似度値とを求める手段
    と、これらの各部分区間毎に求められた最大類似
    度値と所定の値との差を求めて上記各部分間毎に
    求められた上記最大類似度値をそれぞれスコアに
    変換する手段と、前記入力音声の全区間と等しい
    区間をなす組合せの前記部分区間の列の各部分区
    間毎に求められた上記スコアの和を求める手段
    と、このスコアの和が最大または最小となる上記
    部分区間の列が示す前記標準パターン名の列の認
    識結果として求める手段とを具備したことを特徴
    とする音声認識装置。 2 音声の認識単位は、入力音声中の音素、音節
    あるいは単語として定められるものである特許請
    求範囲第1項記載の音声認識装置。 3 最大類似度値のスコアへの変換に用いられる
    所定の値は、認識単位の標準パターンとの間で求
    められる類似度がとりうる最大値S0として定めら
    れるものである特許請求範囲第1項記載の音声認
    識装置。 4 最大類似度値のスコアへ変換に用いられる所
    定の値S0は、各認識単位のカテゴリ毎に設定され
    るものである特許請求範囲第3項記載の音声認識
    装置。 5 最大類似度値のスコアへの変換に用いられる
    所定の値S0は、入力音声に対する認識処理中に求
    められる全類似度値の中の最大値として決定され
    るものである特許請求範囲第2項記載の音声認識
    装置。
JP59055806A 1984-03-23 1984-03-23 音声認識装置 Granted JPS60200296A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59055806A JPS60200296A (ja) 1984-03-23 1984-03-23 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59055806A JPS60200296A (ja) 1984-03-23 1984-03-23 音声認識装置

Publications (2)

Publication Number Publication Date
JPS60200296A JPS60200296A (ja) 1985-10-09
JPH0574080B2 true JPH0574080B2 (ja) 1993-10-15

Family

ID=13009162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59055806A Granted JPS60200296A (ja) 1984-03-23 1984-03-23 音声認識装置

Country Status (1)

Country Link
JP (1) JPS60200296A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2879989B2 (ja) * 1991-03-22 1999-04-05 松下電器産業株式会社 音声認識方法

Also Published As

Publication number Publication date
JPS60200296A (ja) 1985-10-09

Similar Documents

Publication Publication Date Title
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
JP3055691B2 (ja) 音声認識装置
EP4018437B1 (en) Optimizing a keyword spotting system
Zwicker et al. Automatic speech recognition using psychoacoustic models
JPH0816187A (ja) 音声分析における音声認識方法
JPH036517B2 (ja)
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
JP2955297B2 (ja) 音声認識システム
JPH0772900A (ja) 音声合成の感情付与方法
Syfullah et al. Efficient vector code-book generation using K-means and Linde-Buzo-Gray (LBG) algorithm for Bengali voice recognition
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
RU2597498C1 (ru) Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа
Cettolo et al. Automatic detection of semantic boundaries based on acoustic and lexical knowledge.
JPH0574080B2 (ja)
JPH1097274A (ja) 話者認識方法及び装置
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
Li Speech recognition of mandarin monosyllables
JP2753255B2 (ja) 音声による対話型情報検索装置
TWI460718B (zh) 一個辨認所有語言句子方法
Singh et al. Phoneme Based Hindi Speech Recognition Using Deep Learning
JPH0211919B2 (ja)
Scagliola et al. Continuous speech recognition via diphone spotting a preliminary implementation
JPS61128300A (ja) ピツチ抽出装置
JP2862306B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term