JPS60129799A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS60129799A JPS60129799A JP58236343A JP23634383A JPS60129799A JP S60129799 A JPS60129799 A JP S60129799A JP 58236343 A JP58236343 A JP 58236343A JP 23634383 A JP23634383 A JP 23634383A JP S60129799 A JPS60129799 A JP S60129799A
- Authority
- JP
- Japan
- Prior art keywords
- standard
- result
- recognition
- speech
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(技術分野)
本発明は、単語音声認識における認識性能を維持、向上
させながら、マツチング回数の削減を可能とする音声認
識方式に関するものである。
させながら、マツチング回数の削減を可能とする音声認
識方式に関するものである。
(従来技術)
従来の音声認識装置の一般的構成は第1図に示す通りで
あり、1は入力端子、2は周波数分析部、3はスペクト
ル変換部、4は音声区間決定部、5は再サンプル部、6
はマツチング距離演算部、6は標準パターン部、7は判
定部、8は認識結果出力端子である。
あり、1は入力端子、2は周波数分析部、3はスペクト
ル変換部、4は音声区間決定部、5は再サンプル部、6
はマツチング距離演算部、6は標準パターン部、7は判
定部、8は認識結果出力端子である。
従来の音声認識装置では、スペクトル変換部一定数のサ
ンプル数に再サングルされた音声スペクトルパターント
、標準スd り) /レノe−p−7゜k (k、、=
1〜K)との距離演算において、マツチング距離へを
入カスベクトルパターンの時間標本点第n番目のmチャ
ネル目の要素をA(m、n)とし、標準スペクトルパタ
ーンにの時間標本点n番目のmチャネル目の要素を3.
(m 、 n’)とした時に(1)式により計算し1
、K個の標準スペクトル・ぐターンの中でDkを最小と
する標準スペクトルiRターンのカテゴリを認識結果と
している。ここで重みw(m+n)の計算方法は種々の
方式があるが、本発明の目的ではないので省略する。
ンプル数に再サングルされた音声スペクトルパターント
、標準スd り) /レノe−p−7゜k (k、、=
1〜K)との距離演算において、マツチング距離へを
入カスベクトルパターンの時間標本点第n番目のmチャ
ネル目の要素をA(m、n)とし、標準スペクトルパタ
ーンにの時間標本点n番目のmチャネル目の要素を3.
(m 、 n’)とした時に(1)式により計算し1
、K個の標準スペクトル・ぐターンの中でDkを最小と
する標準スペクトルiRターンのカテゴリを認識結果と
している。ここで重みw(m+n)の計算方法は種々の
方式があるが、本発明の目的ではないので省略する。
ここで、認識カテゴリ数が非常に多い場合、またはカテ
ゴリ数は比較的少いが、1カテゴリ当シの標準・ぐター
ン数が多い場合(マルチテングレート)、距離Dkの演
算回数が多く認識の所要時間が長くなシ認゛識装置の実
用性が損われる。認識所要時間を短縮するために考えら
れた方法が大分類または1次選択方式である。従来実施
されている大分類方式は、入力音声の大局的特徴をみて
、マツチング対象カテゴリを絞り込む方法がとられてい
る。例えば仮名音節単位の認識装置においては、音節中
の母音定常部を抽出し、その特徴から母音系列をめるも
の。また比較的大語いの単語認識装置においては、標準
・リーンの要素% (m、 、 n )から時間方向n
またはチャネル方向mを間引きして、マツチングし、概
略の類似度をみて大分類する方法等が実施されている。
ゴリ数は比較的少いが、1カテゴリ当シの標準・ぐター
ン数が多い場合(マルチテングレート)、距離Dkの演
算回数が多く認識の所要時間が長くなシ認゛識装置の実
用性が損われる。認識所要時間を短縮するために考えら
れた方法が大分類または1次選択方式である。従来実施
されている大分類方式は、入力音声の大局的特徴をみて
、マツチング対象カテゴリを絞り込む方法がとられてい
る。例えば仮名音節単位の認識装置においては、音節中
の母音定常部を抽出し、その特徴から母音系列をめるも
の。また比較的大語いの単語認識装置においては、標準
・リーンの要素% (m、 、 n )から時間方向n
またはチャネル方向mを間引きして、マツチングし、概
略の類似度をみて大分類する方法等が実施されている。
大分類によって絞られだカテゴリ群は、更に詳細な識別
演算にょっで最終的な認識が行なわれる。
演算にょっで最終的な認識が行なわれる。
さて、ここで不特定話者を対象とする単語認識について
考える。例えば、対象とする話者が多数で、かつ音声品
質の劣化が大きい電話音声の認識においては、通常声の
変動をカバーする為1カテゴリ当り多数の平均化標準パ
ターンを用意している。このような場合の大分類を考え
ると、前述した母音%勧抽出方式では、声質の変動、ス
ペクトル歪などの要因により正確な母音認識は困難であ
る。例えば母音1aIと1oI、litとleIなどは
そのスペクトル特徴の違いよりも話者によるスペクトル
特徴の変動の方が大きい等の問題がある。また標準・ぐ
ターンの要素の間引きによる方法は、通常の時間正規化
では吸収が困難な発声の変動や単語中の部分特徴のみの
マツチングからくる認識率の低下があシ、このような条
件下での認識装置には適用は困難である。
考える。例えば、対象とする話者が多数で、かつ音声品
質の劣化が大きい電話音声の認識においては、通常声の
変動をカバーする為1カテゴリ当り多数の平均化標準パ
ターンを用意している。このような場合の大分類を考え
ると、前述した母音%勧抽出方式では、声質の変動、ス
ペクトル歪などの要因により正確な母音認識は困難であ
る。例えば母音1aIと1oI、litとleIなどは
そのスペクトル特徴の違いよりも話者によるスペクトル
特徴の変動の方が大きい等の問題がある。また標準・ぐ
ターンの要素の間引きによる方法は、通常の時間正規化
では吸収が困難な発声の変動や単語中の部分特徴のみの
マツチングからくる認識率の低下があシ、このような条
件下での認識装置には適用は困難である。
(発明の目的)
本発明は、不特定話者認識における、単語大分類方式に
おいて、これらの従来技術の欠点を解決するだめの方法
を提供し、マツチング処理に要する時間の短縮を可能と
するものであり、以下その内容を詳細に説明する。
おいて、これらの従来技術の欠点を解決するだめの方法
を提供し、マツチング処理に要する時間の短縮を可能と
するものであり、以下その内容を詳細に説明する。
(発明の構成)
第2図は本発明の一実施例のブロック図を示す。
第2図において、入力端子100から入力された音声信
号は周波数分析部200で分析され、チャネル出力が得
られ、ス“ベクトル変換部300でスにクトル傾斜や・
ぐワ−の正規化がなされる。音声区間決定部400では
音声全域パワー等の情報を用いて単語区間の切り出しを
行ない、それに基づいて再サンプル部500にて音声区
間のデータが1定サンダル数(例えば32サンプル)に
再サンプルされ入カバターンとしてマツチング600に
入力される。距離演算部601では入カバターンと標準
パターンメモリ700より選択出力される各カテゴーリ
ー毎の標準パターンと逐一距離演算を行なう。距離演算
の対象となる標準ノやターンメモリの指定はマツチング
制御部604の指定の下にメモリ制御部603にて行な
い、最初は全カテゴリの各々の定められた標準パターン
を順次指定する。
号は周波数分析部200で分析され、チャネル出力が得
られ、ス“ベクトル変換部300でスにクトル傾斜や・
ぐワ−の正規化がなされる。音声区間決定部400では
音声全域パワー等の情報を用いて単語区間の切り出しを
行ない、それに基づいて再サンプル部500にて音声区
間のデータが1定サンダル数(例えば32サンプル)に
再サンプルされ入カバターンとしてマツチング600に
入力される。距離演算部601では入カバターンと標準
パターンメモリ700より選択出力される各カテゴーリ
ー毎の標準パターンと逐一距離演算を行なう。距離演算
の対象となる標準ノやターンメモリの指定はマツチング
制御部604の指定の下にメモリ制御部603にて行な
い、最初は全カテゴリの各々の定められた標準パターン
を順次指定する。
各々のカテゴリとの距離演算結果はまず1次判定部60
2に入力される。また同時に後処理の為判定部80θに
も送られる。1次判定部602では演算結果にもとづき
、2次判定の為の予め決められた数のカテゴリ群を選択
する。その結果が再びメモリ制御部603に与えられ、
標準パターンメ、モIJ 700の該当するカテゴリ群
の各々定められた標準・eターンをよみ出し、距離演算
部6θ1で順次演算を行ない、その結果を2次判定結果
として判定部800に送る。判定部800では1次判定
、2次判定の結果を合せ、その内最小の距離を有するカ
テコ8り名を判定し、認識結果として出力端子900に
出力する。
2に入力される。また同時に後処理の為判定部80θに
も送られる。1次判定部602では演算結果にもとづき
、2次判定の為の予め決められた数のカテゴリ群を選択
する。その結果が再びメモリ制御部603に与えられ、
標準パターンメ、モIJ 700の該当するカテゴリ群
の各々定められた標準・eターンをよみ出し、距離演算
部6θ1で順次演算を行ない、その結果を2次判定結果
として判定部800に送る。判定部800では1次判定
、2次判定の結果を合せ、その内最小の距離を有するカ
テコ8り名を判定し、認識結果として出力端子900に
出力する。
以上認識処理の流れを説明したが、その内容をよシ明確
にする為第3図、第4図にて説明する。
にする為第3図、第4図にて説明する。
第3図は標準パターンメモIJ 700の溝成図を示す
。横方向はカテゴリの種類を表わしに個あることを示す
。縦方向、は各カテゴリの標準パターンの数であり、各
々のカテゴリが2個のマルチテンプレートであることを
示す。標準・ぐターン■〜■と(iliE)〜■で領域
がX部、Y部に分割されている。X部は1次判定用の標
準ツクターンでありY部は2次判定用の標準パターンで
ある。1次判定においてはX部の全ての標準A’ターン
を対象に入カバターンとの距離計算が行われる。1次判
定部602ではその結果によシ距離の小さい順に予め定
められた数a個(a<k)のカテゴリが選択される。第
4図は1次判定の状況を説明する図である。図のA。
。横方向はカテゴリの種類を表わしに個あることを示す
。縦方向、は各カテゴリの標準パターンの数であり、各
々のカテゴリが2個のマルチテンプレートであることを
示す。標準・ぐターン■〜■と(iliE)〜■で領域
がX部、Y部に分割されている。X部は1次判定用の標
準ツクターンでありY部は2次判定用の標準パターンで
ある。1次判定においてはX部の全ての標準A’ターン
を対象に入カバターンとの距離計算が行われる。1次判
定部602ではその結果によシ距離の小さい順に予め定
められた数a個(a<k)のカテゴリが選択される。第
4図は1次判定の状況を説明する図である。図のA。
B 、 C・・・はカテコ゛り名を、添字は各カテゴリ
の標準i9ターン番号を示し、左から右へ距離の小さい
順に配列されている。ここで1次選択の選択個数aを4
と仮定すると、順次力テコ゛すの種類を見ていき、図の
Lを付したカテゴリ即ち、A、B、C。
の標準i9ターン番号を示し、左から右へ距離の小さい
順に配列されている。ここで1次選択の選択個数aを4
と仮定すると、順次力テコ゛すの種類を見ていき、図の
Lを付したカテゴリ即ち、A、B、C。
Dが1次選択されることを示している。次に2次選択に
おいては、第3図Y部の該当する4つのカテゴリの各標
準パターンが指定され順次距離演算が行なわれることに
なる。
おいては、第3図Y部の該当する4つのカテゴリの各標
準パターンが指定され順次距離演算が行なわれることに
なる。
以上の説明で1次および2次選択において、入力・母タ
ーンと距離演算される標準・ぞター/は第3図のX部お
よびY部の一部分ですむことが分る。
ーンと距離演算される標準・ぞター/は第3図のX部お
よびY部の一部分ですむことが分る。
X部とY部の割合(即ちn対tの比)および1次選択力
テコ゛り数aの値により、通常の全数マツチングの場合
に対する距離演算回数の減少率が決定される。これらは
、1次選択による誤認識を無視できる範囲にする条件の
下で、実験的に決定する。
テコ゛り数aの値により、通常の全数マツチングの場合
に対する距離演算回数の減少率が決定される。これらは
、1次選択による誤認識を無視できる範囲にする条件の
下で、実験的に決定する。
ここで各カテコ゛すを個の標準パターンをX部とY部に
振り分ける方法について説明する。第5図は不特定話者
用標準・々ターン作成を示す図である。
振り分ける方法について説明する。第5図は不特定話者
用標準・々ターン作成を示す図である。
標準パターンの作成の具体的方法を示すことは本発明の
目的ではないのでここでは詳細は述べない。
目的ではないのでここでは詳細は述べない。
まず多数の話者の発声データからなる音声データファイ
ル901により、各カテゴリ毎に複数のパターンを有す
る標準パターンメモリ902を作成する。ここで別に収
集した多数の話者の発声データからなる音声データファ
イル903を音声認識/ステム904に入力し、標準パ
ターン902を用いて認識する。標準・ぐターン判定部
905においては、認識結果・をみて、各カテコ゛りの
標準パターンの内、認識時に選択された回数の多い順に
標準パターンを並べる。この内上位のものは、標準ツク
ターンとして利用価値の高い代表的なパターンであると
言える。従ってこの順に1次選択用標準ノRターン(第
3図におけるX部のパターン)全選択することになる。
ル901により、各カテゴリ毎に複数のパターンを有す
る標準パターンメモリ902を作成する。ここで別に収
集した多数の話者の発声データからなる音声データファ
イル903を音声認識/ステム904に入力し、標準パ
ターン902を用いて認識する。標準・ぐターン判定部
905においては、認識結果・をみて、各カテコ゛りの
標準パターンの内、認識時に選択された回数の多い順に
標準パターンを並べる。この内上位のものは、標準ツク
ターンとして利用価値の高い代表的なパターンであると
言える。従ってこの順に1次選択用標準ノRターン(第
3図におけるX部のパターン)全選択することになる。
本発明の有効性を示す為、実際の音声認識/ステムを構
成し、電話口、線を通した実音声データにて認識実験し
だ結果を説明する。認識力テコ8りは、10数字、ハイ
、イイエ、ドーゾ、オワリ、ポリュウ、モーイチドの1
6語。標準パターン作成の為の音声データは500人の
発声した電話回線音声を用い、各カテゴリ当り平均12
飼、合11192個の標準パターンを作成した。認識・
ぐターンは120人の発声した同様の音声・ぐターンを
用意した。認識結果は予備選択なしの全数マツチングの
時98.11係、1次選択用標準パターン割合(第4図
X部)30チ、1次選択用カテコゝり数(aの値)8の
場合マツチングする標準パターン数は全数の63チとな
り認識率は9799%、次にX=40%a = 8の場
合、マツチングする標準・ぐターン数は全数の68%と
なり、認識率は98.00%と1次選択無しの場合と同
等の認識率が得られ、本発明の有効性が証明された。
成し、電話口、線を通した実音声データにて認識実験し
だ結果を説明する。認識力テコ8りは、10数字、ハイ
、イイエ、ドーゾ、オワリ、ポリュウ、モーイチドの1
6語。標準パターン作成の為の音声データは500人の
発声した電話回線音声を用い、各カテゴリ当り平均12
飼、合11192個の標準パターンを作成した。認識・
ぐターンは120人の発声した同様の音声・ぐターンを
用意した。認識結果は予備選択なしの全数マツチングの
時98.11係、1次選択用標準パターン割合(第4図
X部)30チ、1次選択用カテコゝり数(aの値)8の
場合マツチングする標準パターン数は全数の63チとな
り認識率は9799%、次にX=40%a = 8の場
合、マツチングする標準・ぐターン数は全数の68%と
なり、認識率は98.00%と1次選択無しの場合と同
等の認識率が得られ、本発明の有効性が証明された。
(発明の効果)
以上、説明したように本発明は標準パターンを有効性の
高い順に選択された1次選択用標準・ぐターンとそれ以
外の2次選択用標準パターンに分割し、1次および2次
判定基準によって定められた条件下でマツチングを行な
う機能を有することにより、認識率の低下を招くことな
く、マツチング回数の低減を可能とする音声認識方式を
提供することができ、音声認識装置の機能、性能の向上
に貢献するものである。
高い順に選択された1次選択用標準・ぐターンとそれ以
外の2次選択用標準パターンに分割し、1次および2次
判定基準によって定められた条件下でマツチングを行な
う機能を有することにより、認識率の低下を招くことな
く、マツチング回数の低減を可能とする音声認識方式を
提供することができ、音声認識装置の機能、性能の向上
に貢献するものである。
第1図は従来の音声認識装置の一般的構成図、第2図は
本発明の認識処理のブロック図、第3図は標準パターン
メモリの構成図、第4図は1次4−1]定の状況を示す
図、第5図は不特定話者用標準パターン作成を示す1図
である。 100・・音声入力端子、20O・・・周波数分析部、
300・・・スイクトル変換部、400・・・音声区間
決定部、5O0・・・再サンプル部、600・・・マツ
チング部、60ノ・・・距離演算部、602・・・1次
判定部、603・・・メモリ制御部、604・・・マツ
チング制御部、7θθ・・標準パターンメモリ、8θ0
・・判定部、9θ0・・・出力端子、901・・・音声
データファイル1.902・・・標準ノぐターンメモリ
、903・・音声データファイル2.904・・・音声
認識ンスデム、905・・・標準パターン判定部。 特許出願人 沖電気工業株式会社 第3図 → 〃デコ゛すa頚 一一一口 第5図 特許庁長官 殿 1 事件の表示 昭和58年特 許 願第236343号2 発明の名称 音声認識方式 1刀ティ1)#に堕
本発明の認識処理のブロック図、第3図は標準パターン
メモリの構成図、第4図は1次4−1]定の状況を示す
図、第5図は不特定話者用標準パターン作成を示す1図
である。 100・・音声入力端子、20O・・・周波数分析部、
300・・・スイクトル変換部、400・・・音声区間
決定部、5O0・・・再サンプル部、600・・・マツ
チング部、60ノ・・・距離演算部、602・・・1次
判定部、603・・・メモリ制御部、604・・・マツ
チング制御部、7θθ・・標準パターンメモリ、8θ0
・・判定部、9θ0・・・出力端子、901・・・音声
データファイル1.902・・・標準ノぐターンメモリ
、903・・音声データファイル2.904・・・音声
認識ンスデム、905・・・標準パターン判定部。 特許出願人 沖電気工業株式会社 第3図 → 〃デコ゛すa頚 一一一口 第5図 特許庁長官 殿 1 事件の表示 昭和58年特 許 願第236343号2 発明の名称 音声認識方式 1刀ティ1)#に堕
Claims (1)
- 【特許請求の範囲】 入力音声をスペクトル分析する音声分析部と、音声・ぐ
ワ−やスペクトル傾斜の差異を正規化するス被りトル変
換部と、音声区間を切り出す音声区間決定部と、切りは
された音声区間を時間正規化する再サンプル部と、カテ
ゴリ毎に複数の標準パターンを有する標準パターンメモ
リと、再サンプルされた入力計声パターンと標準ノRタ
ーンとのマツチングを行ない且つその演算結果に基づい
て認識結果を判定する手段とを有する音声認識装置にお
いて、 [)1J記標準パターンメモリが予め作成した各カテゴ
リ毎の多数の標準・ぐターンの内、所定の方法で選択さ
れる頻度の高い順位からある一定数の標準パターンを1
次判定用標準・ぐターンとして1次判定領域に格納し、
゛各カテゴリ毎の残りの標準・やターンを2次判定用標
準パターンとして2次判定領域に格納して構成されてお
シ、 前記標準ノeターンメモリの1次判定領域を指定し、入
力音声パターンと各々の標準パターンとのマツチングを
行い、その結果を1次判定結果として保持し、 1次判定結果から一定数の上位のカテゴリを認識候補と
して判別し、 上記判別結果に基づき標準パターンメモリの2次判定領
域の各識別候補カテゴリの標準i+ターンを指定し、入
力音声・ぐターンと各々の標準パターンとのマツチング
を行い、その結果を2次判定結果として保持し、 前記1次判定結果および前記2次判定結果の各マツチン
グ結果を総合し、最も距離の小さいカテコ゛りを入力音
声の認識結果として判定することを特徴とする音声認識
方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58236343A JPS60129799A (ja) | 1983-12-16 | 1983-12-16 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58236343A JPS60129799A (ja) | 1983-12-16 | 1983-12-16 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60129799A true JPS60129799A (ja) | 1985-07-11 |
JPH0369120B2 JPH0369120B2 (ja) | 1991-10-30 |
Family
ID=16999401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58236343A Granted JPS60129799A (ja) | 1983-12-16 | 1983-12-16 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60129799A (ja) |
-
1983
- 1983-12-16 JP JP58236343A patent/JPS60129799A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPH0369120B2 (ja) | 1991-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8249870B2 (en) | Semi-automatic speech transcription | |
US9466289B2 (en) | Keyword detection with international phonetic alphabet by foreground model and background model | |
EP1909263B1 (en) | Exploitation of language identification of media file data in speech dialog systems | |
US7869997B2 (en) | System and method of pattern recognition in very high dimensional space | |
US20100094626A1 (en) | Method and apparatus for locating speech keyword and speech recognition system | |
CN1315809A (zh) | 用于移动通信的拼写语音识别装置和方法 | |
CN103053173B (zh) | 兴趣区间确定装置、兴趣区间确定方法及兴趣区间确定集成电路 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
Lounnas et al. | CLIASR: a combined automatic speech recognition and language identification system | |
Kurzekar et al. | Continuous speech recognition system: A review | |
Kao et al. | Feature analysis for emotion recognition from Mandarin speech considering the special characteristics of Chinese language. | |
Myers et al. | A boosting approach to topic spotting on subdialogues | |
US20070129946A1 (en) | High quality speech reconstruction for a dialog method and system | |
CN109635151A (zh) | 建立音频检索索引的方法、装置及计算机设备 | |
Miller et al. | Statistical dialect classification based on mean phonetic features | |
JP6322125B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JPS60129799A (ja) | 音声認識方法 | |
WO2014155652A1 (ja) | 話者検索システム、プログラム | |
Villing et al. | Performance limits for envelope based automatic syllable segmentation | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
Liu et al. | Supra-Segmental Feature Based Speaker Trait Detection. | |
KR101066472B1 (ko) | 초성 기반 음성인식장치 및 음성인식방법 | |
JP2009058548A (ja) | 音声検索装置 | |
KR100236962B1 (ko) | 음소별 화자 종속 변이음 모델링 방법 | |
Kinoshita et al. | Forensic voice comparison using sub-band cepstral distances as features: A first attempt with vowels from 306 Japanese speakers under channel mismatch conditions |