JPH10198397A - 音声認識処理装置および音声認識処理方法 - Google Patents
音声認識処理装置および音声認識処理方法Info
- Publication number
- JPH10198397A JPH10198397A JP9001007A JP100797A JPH10198397A JP H10198397 A JPH10198397 A JP H10198397A JP 9001007 A JP9001007 A JP 9001007A JP 100797 A JP100797 A JP 100797A JP H10198397 A JPH10198397 A JP H10198397A
- Authority
- JP
- Japan
- Prior art keywords
- recording
- recognition
- voice
- phoneme
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 音声認識結果が音声終了とほぼ同時に求める
ことができる。 【解決手段】 音声入力装置21よりの音声データは音
声処理部22にに取り込まれた後、逐次録音処理部23
に供給されて録音用バッファメモリに逐次的に録音され
る。録音用バッファメモリは、複数個にメモリが区画さ
れ、一つのメモリへの録音が終了すると、次のメモリへ
の録音が開始されるように構成されるとともに、録音が
終了したバッファメモリの音声データは認識処理部24
を構成する特徴抽出部24aに入力された後、音声デー
タは周波数分析されてスペクトル列を得、このスペクト
ル列がニューラルネットワークから構成される音素認識
部24bに入力されて、出力に音素候補列が得られる。
この候補列はワードスポット24cに入力されて辞書テ
ンプレート24dとDTWによって照合されて最も類似
する単語を結果として出力する。出力結果は累積距離計
算部25で計算され、バックトレース部26に供給して
認識された単語列を取り出す。
ことができる。 【解決手段】 音声入力装置21よりの音声データは音
声処理部22にに取り込まれた後、逐次録音処理部23
に供給されて録音用バッファメモリに逐次的に録音され
る。録音用バッファメモリは、複数個にメモリが区画さ
れ、一つのメモリへの録音が終了すると、次のメモリへ
の録音が開始されるように構成されるとともに、録音が
終了したバッファメモリの音声データは認識処理部24
を構成する特徴抽出部24aに入力された後、音声デー
タは周波数分析されてスペクトル列を得、このスペクト
ル列がニューラルネットワークから構成される音素認識
部24bに入力されて、出力に音素候補列が得られる。
この候補列はワードスポット24cに入力されて辞書テ
ンプレート24dとDTWによって照合されて最も類似
する単語を結果として出力する。出力結果は累積距離計
算部25で計算され、バックトレース部26に供給して
認識された単語列を取り出す。
Description
【0001】
【発明の属する技術分野】この発明は、逐次音声処理方
式による音声認識装置および音声認識処理方法に関す
る。
式による音声認識装置および音声認識処理方法に関す
る。
【0002】
【従来の技術】音声認識装置として図12に示す離散単
語音声認識システムがある。このシステムは図12に示
すように、電話やマイクロフォンなどの音声入力装置1
1から音声データが音声入力部12に入力される。この
音声入力部12に入力された音声データは特徴抽出部1
3に供給され、ここで音声データは周波数分析される。
この周波数分析の結果からスペクトル列を得て音素認識
部14に入力される。音素認識部14は出力を二重化し
たニューラルネットワークによって構成されている。こ
のニューラルネットワークは入力層、隠れ層、出力層か
らなりなり、入力層に例えば1時刻毎に5フレームのス
ペクトルが入力され、それの中央のスペクトルが、該当
する音素がどれであるかを、出力層のユニットの値によ
って送出する。出力ユニットは二重化されているため、
各音素カテゴリ毎にユニットは2個づつ対応づけられて
いる。それに対して結果は最大の出力値を示すものから
2つのユニットを選び、それが対応する音素を第1位、
第2位音素候補として得る。
語音声認識システムがある。このシステムは図12に示
すように、電話やマイクロフォンなどの音声入力装置1
1から音声データが音声入力部12に入力される。この
音声入力部12に入力された音声データは特徴抽出部1
3に供給され、ここで音声データは周波数分析される。
この周波数分析の結果からスペクトル列を得て音素認識
部14に入力される。音素認識部14は出力を二重化し
たニューラルネットワークによって構成されている。こ
のニューラルネットワークは入力層、隠れ層、出力層か
らなりなり、入力層に例えば1時刻毎に5フレームのス
ペクトルが入力され、それの中央のスペクトルが、該当
する音素がどれであるかを、出力層のユニットの値によ
って送出する。出力ユニットは二重化されているため、
各音素カテゴリ毎にユニットは2個づつ対応づけられて
いる。それに対して結果は最大の出力値を示すものから
2つのユニットを選び、それが対応する音素を第1位、
第2位音素候補として得る。
【0003】その認識された音素候補列と、認識させた
い語彙の音素パターンを持たせた辞書中のテンプレート
15との類似度を、テンプレート中の音素と認識された
音素候補列中の第1位および第2位候補との類似度を局
所スコアとし、その局所スコアをDTW法によってマッ
チング部16でマッチングされ、最も類似する単語を累
積することで全体の類似度スコアを求め、認識させたい
全ての語彙の中で、その類似度スコアが最小となる単語
を認識結果としてマッチング部16から出力する。
い語彙の音素パターンを持たせた辞書中のテンプレート
15との類似度を、テンプレート中の音素と認識された
音素候補列中の第1位および第2位候補との類似度を局
所スコアとし、その局所スコアをDTW法によってマッ
チング部16でマッチングされ、最も類似する単語を累
積することで全体の類似度スコアを求め、認識させたい
全ての語彙の中で、その類似度スコアが最小となる単語
を認識結果としてマッチング部16から出力する。
【0004】
【発明が解決しようとする課題】上述した離散単語音声
認識システムでは、入力音声が終了したとみなされた
後、はじめて認識処理を行うようになっている。そのた
め、連続音声認識のような計算時間のかかる認識の場合
には、音声終了から認識結果の出力までにかなりの時間
を要するために、実用にはてきさなくってしまう。ま
た、単語認識のような短い音声の入力に対しても、高速
なワークステーションと比べ、比較的計算処理の遅いパ
ソコンなどを用いた場合には、処理時間が大幅に要し、
パソコンでそのような装置を構築することが困難であっ
た問題がある。
認識システムでは、入力音声が終了したとみなされた
後、はじめて認識処理を行うようになっている。そのた
め、連続音声認識のような計算時間のかかる認識の場合
には、音声終了から認識結果の出力までにかなりの時間
を要するために、実用にはてきさなくってしまう。ま
た、単語認識のような短い音声の入力に対しても、高速
なワークステーションと比べ、比較的計算処理の遅いパ
ソコンなどを用いた場合には、処理時間が大幅に要し、
パソコンでそのような装置を構築することが困難であっ
た問題がある。
【0005】この発明は上記の事情に鑑みてなされたも
ので、音声認識結果が音声終了とほぼ同時に求めること
ができる音声認識装置および音声認識処理方法を提供す
ることを課題とする。
ので、音声認識結果が音声終了とほぼ同時に求めること
ができる音声認識装置および音声認識処理方法を提供す
ることを課題とする。
【0006】
【課題を解決するための手段】この発明は、上記の課題
を達成するために、第1発明は、電話等からなる音声入
力装置と、この音声入力装置より入力された音声データ
を音素認識する認識処理部とを有し、認識処理部は、音
声データを周波数分析し、それを出力多重化ニューラル
ネットに入力させて音素認識を行わせて、認識音素第1
位音素候補と第2音素候補を得、その認識された音素候
補列と、認識させたい語彙の音素パターンを持たせた辞
書中のテンプレートとの類似度を、テンプレート中の音
素と認識された音素候補列中の第1位および第2位候補
との類似度を局所スコアとし、その局所スコアをDTW
法によって累積することで全体の類似度スコアを求め、
認識させたい全ての語彙の中で、その類似度スコアが最
小となる単語を認識結果として出力するように構成され
た音声認識処理装置において、前記音声入力装置から出
力された音声データが入力され、このデータを音声処理
する音声処理部と、この音声処理部で処理された音声デ
ータを複数個に区画されたメモリに逐次録音されるバッ
ファメモリ部と、このメモリ部の一つのメモリへの録音
が終了したかを検出する録音終了検出部と、この検出部
がメモリの録音終了を検出したときに前記バッファメモ
リ部の出力を前記認識処理部へ入力させるとともに、バ
ッファメモリ部の次の録音開始メモリへ切り替えるメモ
リ切換部とを備えたことを特徴とするものである。
を達成するために、第1発明は、電話等からなる音声入
力装置と、この音声入力装置より入力された音声データ
を音素認識する認識処理部とを有し、認識処理部は、音
声データを周波数分析し、それを出力多重化ニューラル
ネットに入力させて音素認識を行わせて、認識音素第1
位音素候補と第2音素候補を得、その認識された音素候
補列と、認識させたい語彙の音素パターンを持たせた辞
書中のテンプレートとの類似度を、テンプレート中の音
素と認識された音素候補列中の第1位および第2位候補
との類似度を局所スコアとし、その局所スコアをDTW
法によって累積することで全体の類似度スコアを求め、
認識させたい全ての語彙の中で、その類似度スコアが最
小となる単語を認識結果として出力するように構成され
た音声認識処理装置において、前記音声入力装置から出
力された音声データが入力され、このデータを音声処理
する音声処理部と、この音声処理部で処理された音声デ
ータを複数個に区画されたメモリに逐次録音されるバッ
ファメモリ部と、このメモリ部の一つのメモリへの録音
が終了したかを検出する録音終了検出部と、この検出部
がメモリの録音終了を検出したときに前記バッファメモ
リ部の出力を前記認識処理部へ入力させるとともに、バ
ッファメモリ部の次の録音開始メモリへ切り替えるメモ
リ切換部とを備えたことを特徴とするものである。
【0007】第2発明は、前記バッファメモリ部への音
声データの録音が終了したなら、前記認識処理部から認
識単語列を取り出すためにバックトレースを行って認識
結果を求めることを特徴とするものである。
声データの録音が終了したなら、前記認識処理部から認
識単語列を取り出すためにバックトレースを行って認識
結果を求めることを特徴とするものである。
【0008】第3発明は、音声入力装置から出力された
音声データを音声処理部で処理した後、処理した音声を
複数個に区画された録音用バッファメモリに逐次録音さ
せて行き、区画された一つの録音用バッファメモリの録
音が終了したなら次のメモリへの録音を開始させるとと
もに、並行して音素認識処理を行うことを特徴とするも
のである。
音声データを音声処理部で処理した後、処理した音声を
複数個に区画された録音用バッファメモリに逐次録音さ
せて行き、区画された一つの録音用バッファメモリの録
音が終了したなら次のメモリへの録音を開始させるとと
もに、並行して音素認識処理を行うことを特徴とするも
のである。
【0009】
【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。図1はこの発明の実施の形態を示
す概略構成説明図で、図1において、21は電話やマイ
クロフォンなどからなる音声入力装置で、この音声入力
装置21よりの音声データは音声処理部22に入力され
る。この音声処理部(サウンドボード)22に取り込ま
れた音声データは、逐次録音処理部23に供給されて録
音用バッファメモリ(後述する)に逐次的に録音され
る。録音用バッファメモリは、複数個にメモリが区画さ
れ、一つのメモリへの録音が終了(メモリがいっぱいに
成る)すると、次のメモリへの録音が開始されるように
構成されるとともに、録音が終了したバッファメモリの
音声データは認識処理部24を構成する特徴抽出部24
aに入力されて、認識処理が並行して行われるように構
成される。
に基づいて説明する。図1はこの発明の実施の形態を示
す概略構成説明図で、図1において、21は電話やマイ
クロフォンなどからなる音声入力装置で、この音声入力
装置21よりの音声データは音声処理部22に入力され
る。この音声処理部(サウンドボード)22に取り込ま
れた音声データは、逐次録音処理部23に供給されて録
音用バッファメモリ(後述する)に逐次的に録音され
る。録音用バッファメモリは、複数個にメモリが区画さ
れ、一つのメモリへの録音が終了(メモリがいっぱいに
成る)すると、次のメモリへの録音が開始されるように
構成されるとともに、録音が終了したバッファメモリの
音声データは認識処理部24を構成する特徴抽出部24
aに入力されて、認識処理が並行して行われるように構
成される。
【0010】特徴抽出部24aに入力されたバッファメ
モリからの音声データは周波数分析されてスペクトル列
を得、このスペクトル列がニューラルネットワークから
構成される音素認識部24bに入力されて、出力に音素
候補列が得られる。この候補列はワードスポット24c
(ワードスポットとは連続音声中の指定されたフレーム
を辞書単語の終端と仮定したときに、最適な始端と、照
合距離を求める計算を言う)に入力されて辞書テンプレ
ート24dとDTWによって照合されて最も類似する単
語を結果として出力する。出力結果は累積距離計算部2
5で計算され、音声入力があるときには、再び逐次録音
処理部23から処理を行い、音声入力が終了したならバ
ックトレース(認識単語を後から取り出す計算方法)部
26に供給して認識された単語列を取り出す。
モリからの音声データは周波数分析されてスペクトル列
を得、このスペクトル列がニューラルネットワークから
構成される音素認識部24bに入力されて、出力に音素
候補列が得られる。この候補列はワードスポット24c
(ワードスポットとは連続音声中の指定されたフレーム
を辞書単語の終端と仮定したときに、最適な始端と、照
合距離を求める計算を言う)に入力されて辞書テンプレ
ート24dとDTWによって照合されて最も類似する単
語を結果として出力する。出力結果は累積距離計算部2
5で計算され、音声入力があるときには、再び逐次録音
処理部23から処理を行い、音声入力が終了したならバ
ックトレース(認識単語を後から取り出す計算方法)部
26に供給して認識された単語列を取り出す。
【0011】図2は上述した逐次録音処理部23の詳細
を示すブロック構成図で、逐次録音処理部23は、複数
個にメモリが区画された録音用バッファメモリ部23a
を有し、このメモリ部23aには一つのメモリへの音声
録音が終了したことを検出する録音終了検出部23bが
設けられるとともに、メモリ切換部23cが設けられ
る。メモリ切換部23cは、前記録音終了検出部23b
が検出出力を送出したとき、次のメモリへ録音開始を切
り替えるためのものである。
を示すブロック構成図で、逐次録音処理部23は、複数
個にメモリが区画された録音用バッファメモリ部23a
を有し、このメモリ部23aには一つのメモリへの音声
録音が終了したことを検出する録音終了検出部23bが
設けられるとともに、メモリ切換部23cが設けられ
る。メモリ切換部23cは、前記録音終了検出部23b
が検出出力を送出したとき、次のメモリへ録音開始を切
り替えるためのものである。
【0012】図3はサイクリック式の録音用バッファメ
モリ部23aの構造図で、このバッファメモリ部23a
は、複数個に区画されたバッファメモリ1、2…(n−
1)、nから構成され、バッファメモリ1、2…nには
音声データが並列的に入力されるように構成されている
が、一つのメモリが録音でいっぱいにならないと次のメ
モリには録音されないように制御されている。その制御
は図2に示すように行われる。
モリ部23aの構造図で、このバッファメモリ部23a
は、複数個に区画されたバッファメモリ1、2…(n−
1)、nから構成され、バッファメモリ1、2…nには
音声データが並列的に入力されるように構成されている
が、一つのメモリが録音でいっぱいにならないと次のメ
モリには録音されないように制御されている。その制御
は図2に示すように行われる。
【0013】図4は録音用バックメモリ部23aへの録
音動作の概要を述べる説明図で、図4(A)は初期状態
から無音アイドル状態までの動作概要を示し、A1は初
期状態を示し、このときは録音バッファ数は「0」であ
る。A2はバッファメモリ1が録音終了した状態を示
し、順次A3はバッファメモリ1、2が録音終了し、A
4はバッファメモリ1、、2、3が録音終了、すなわち
録音バッファ数が「4」になったことを示したものであ
る。そして、アイドル状態で一番上のバッファメモリは
一旦登録解除した後に再登録される。
音動作の概要を述べる説明図で、図4(A)は初期状態
から無音アイドル状態までの動作概要を示し、A1は初
期状態を示し、このときは録音バッファ数は「0」であ
る。A2はバッファメモリ1が録音終了した状態を示
し、順次A3はバッファメモリ1、2が録音終了し、A
4はバッファメモリ1、、2、3が録音終了、すなわち
録音バッファ数が「4」になったことを示したものであ
る。そして、アイドル状態で一番上のバッファメモリは
一旦登録解除した後に再登録される。
【0014】図4(B)は音声部検出後の動作を述べる
もので、有声が継続したときには音声バッファを追加す
る。
もので、有声が継続したときには音声バッファを追加す
る。
【0015】図4(C)は無音部検出から録音終了まで
の動作を述べるもので、無声が継続したときには録音を
終了する。
の動作を述べるもので、無声が継続したときには録音を
終了する。
【0016】次に上記のように構成された図1の実施の
形態の処理の流れを図5により述べる。この実施の形態
では認識のための処理として、逐次認識処理と逐次録音
処理を並行して行わせている。図5において、ステップ
S1で処理開始の命令が出ると、バッファメモリ(以下
バッファとする)への逐次録音処理(S2)が開始され
る。録音中のバッファの録音終了のイベントが発行され
たかを、ステップS3で判断し、(Y)ならそのバッフ
ァの音声チェックをステップS4で行う。バッファが音
声部であると判定(Y)されたなら、逐次認識処理を行
わせ(S5)、ステップS2の逐次録音処理に戻る。ス
テップS4でバッファが無音部であると認識(N)され
たなら、終了条件を満たすかをステップS6で判定し、
終了条件を満たせば(Y)、認識結果を出力し、録音バ
ッファをリセット(S7)し、処理を終了する(S
8)。
形態の処理の流れを図5により述べる。この実施の形態
では認識のための処理として、逐次認識処理と逐次録音
処理を並行して行わせている。図5において、ステップ
S1で処理開始の命令が出ると、バッファメモリ(以下
バッファとする)への逐次録音処理(S2)が開始され
る。録音中のバッファの録音終了のイベントが発行され
たかを、ステップS3で判断し、(Y)ならそのバッフ
ァの音声チェックをステップS4で行う。バッファが音
声部であると判定(Y)されたなら、逐次認識処理を行
わせ(S5)、ステップS2の逐次録音処理に戻る。ス
テップS4でバッファが無音部であると認識(N)され
たなら、終了条件を満たすかをステップS6で判定し、
終了条件を満たせば(Y)、認識結果を出力し、録音バ
ッファをリセット(S7)し、処理を終了する(S
8)。
【0017】ここで、上記逐次録音処理について述べ
る。この処理は、バッファがいっぱいになるまで録音を
行い、バッファがいっぱいになったところで次のバッフ
ァに録音するという制御を、音声の入力が終わったと判
断されるまで継続することを言う。この処理は、(1)
録音開始処理、(2)サウンドデバイスドライバでの処
理、(3)録音処理、(4)録音中止処理から構成され
ている。以下それぞれの処理の内容について述べる。
る。この処理は、バッファがいっぱいになるまで録音を
行い、バッファがいっぱいになったところで次のバッフ
ァに録音するという制御を、音声の入力が終わったと判
断されるまで継続することを言う。この処理は、(1)
録音開始処理、(2)サウンドデバイスドライバでの処
理、(3)録音処理、(4)録音中止処理から構成され
ている。以下それぞれの処理の内容について述べる。
【0018】(1)録音開始処理 (a)サウンドデバイスを録音用にオープンする (b)録音用バッファメモリとして実現した録音用バッ
ファ群を登録する (c)録音開始コマンドを発行する。
ファ群を登録する (c)録音開始コマンドを発行する。
【0019】(2)サウンドデバイスドライバでの処理 (a)各録音用バッファに登録した順に連続して音声デ
ータを録音する (b)各録音用バッファへの録音が終了する毎に、録音
データ数を記憶し、録音終了イベントを発行する。
ータを録音する (b)各録音用バッファへの録音が終了する毎に、録音
データ数を記憶し、録音終了イベントを発行する。
【0020】(3)録音処理 録音処理は図6に示すアルゴリズムのように処理され
る。図6において、まず、録音終了イベントの原因とな
ったバッファのバッファデータ数は零であるかを判断し
(S11)、(N)ならデータが音声部か無音部かの音
声チェックを行う(S12)。そのチェックでデータが
有声であるかを判断し(S13)、(Y)なら音声中で
あるかをステップS14で判断する。その判断の結果、
(Y)なら音声バッファを追加して処理を終了し、
(N)なら音声数をカウントし(S15)、音声数が予
め定めたNR BUF START(S16)以上音声が継続したな
ら(Y)、音声中のフラグをONして(S17)、バッ
ファのアイドル状態を更新する(S18)。
る。図6において、まず、録音終了イベントの原因とな
ったバッファのバッファデータ数は零であるかを判断し
(S11)、(N)ならデータが音声部か無音部かの音
声チェックを行う(S12)。そのチェックでデータが
有声であるかを判断し(S13)、(Y)なら音声中で
あるかをステップS14で判断する。その判断の結果、
(Y)なら音声バッファを追加して処理を終了し、
(N)なら音声数をカウントし(S15)、音声数が予
め定めたNR BUF START(S16)以上音声が継続したな
ら(Y)、音声中のフラグをONして(S17)、バッ
ファのアイドル状態を更新する(S18)。
【0021】一方、前記ステップS13で(N)なら音
声中であるかステップS19で判断する。その判断の結
果、(Y)なら無音数をカウントし(S20)、無音数
が予め定めたNR BUF END(S21)以上無音が継続した
なら(Y)、無音部とみなして録音中止処理を行って録
音を終了する(S22)。なお、ステップS19の判断
で無音中(N)ならバッファのアイドル状態を更新する
(S23)。
声中であるかステップS19で判断する。その判断の結
果、(Y)なら無音数をカウントし(S20)、無音数
が予め定めたNR BUF END(S21)以上無音が継続した
なら(Y)、無音部とみなして録音中止処理を行って録
音を終了する(S22)。なお、ステップS19の判断
で無音中(N)ならバッファのアイドル状態を更新する
(S23)。
【0022】(4)録音中止処理 (a)録音中止コマンドとリセットコマンドを発行し、
録音を中断する (b)録音用バッファの登録解除 (c)サウンドデバイスのクローズを行う。
録音を中断する (b)録音用バッファの登録解除 (c)サウンドデバイスのクローズを行う。
【0023】次に上記逐次認識処理について述べる。逐
次認識処理は、録音済みバッファが送られてくる度に、
それまでの計算結果も考慮して認識計算を行うような処
理である。この処理として離散単語認識と連続単語認識
の2つの方式を実施した。どちらも録音済みバッファが
逐次的に入力されてくるのに対応したものになってい
る。また、認識処理部の処理の終了を待たずに、別の処
理を行えるようにし、処理の効率化と高速化を図ってい
る。ここで、上記2方式の例を示す。
次認識処理は、録音済みバッファが送られてくる度に、
それまでの計算結果も考慮して認識計算を行うような処
理である。この処理として離散単語認識と連続単語認識
の2つの方式を実施した。どちらも録音済みバッファが
逐次的に入力されてくるのに対応したものになってい
る。また、認識処理部の処理の終了を待たずに、別の処
理を行えるようにし、処理の効率化と高速化を図ってい
る。ここで、上記2方式の例を示す。
【0024】例1:離散単語認識方式 図7において、認識開始をしてステップS31でinvoic
e flg(音声検出フラグ)=OFFとbuff count(バッファ
のカウンタ)=0を確認した後、録音済みバッファの音
声チェックで音声が検出(S32)される度に、音声検
出フラグinvoice flgをオンにセット(S33)し、そ
うでないときはオフ(S34)にセットする。音声検出
フラグinvoice flg(S35)がオン(Y)なら、認識
処理部が認識処理中であるか判断し(S36)、処理中
なら(Y)録音済みバッファの転送を見送りステップS
32に戻る。ステップS36で処理中でないなら
(N)、録音済みバッファを認識処理部へ転送して認識
処理を行う(S37)とともに、buff countをインクリ
メントし、認識処理部の終了を待たずにステップS32
に戻る。なお、認識処理は、buff countの値により異な
る。
e flg(音声検出フラグ)=OFFとbuff count(バッファ
のカウンタ)=0を確認した後、録音済みバッファの音
声チェックで音声が検出(S32)される度に、音声検
出フラグinvoice flgをオンにセット(S33)し、そ
うでないときはオフ(S34)にセットする。音声検出
フラグinvoice flg(S35)がオン(Y)なら、認識
処理部が認識処理中であるか判断し(S36)、処理中
なら(Y)録音済みバッファの転送を見送りステップS
32に戻る。ステップS36で処理中でないなら
(N)、録音済みバッファを認識処理部へ転送して認識
処理を行う(S37)とともに、buff countをインクリ
メントし、認識処理部の終了を待たずにステップS32
に戻る。なお、認識処理は、buff countの値により異な
る。
【0025】buff count=1のとき、認識処理部は、周
波数分析、音素認識、DTWを実施する。その後、次の
バッファの計算に必要な、各辞書テンプレートとのDT
Wの結果を指定された場所へ格納する。
波数分析、音素認識、DTWを実施する。その後、次の
バッファの計算に必要な、各辞書テンプレートとのDT
Wの結果を指定された場所へ格納する。
【0026】buff count=2のとき、認識処理部は、格
納されている計算結果を取り出し、DTWの初期値とす
る。以下上記と同様に、入力されたバッファの周波数分
析、音素認識、DTWを実施し、各辞書テンプレートの
DTWの結果を指定された場所へ格納する。
納されている計算結果を取り出し、DTWの初期値とす
る。以下上記と同様に、入力されたバッファの周波数分
析、音素認識、DTWを実施し、各辞書テンプレートの
DTWの結果を指定された場所へ格納する。
【0027】前記音声検出フラグinvoice flg(S3
5)がオンでないなら、すなわちオフ(N)なら、録音
済みバッファで認識未処理のものがあるかを判断し(S
38)、認識未処理のものがある(Y)なら全ての未処
理バッファが認識処理終了するまで認識処理部への転送
と認識を繰り返す(S39)。その後、認識結果を求
め、処理を終了する。なお、ステップS38で(N)な
ら認識処理を終了する。図8は上述した認識処理と録音
のタイミングチャートである。
5)がオンでないなら、すなわちオフ(N)なら、録音
済みバッファで認識未処理のものがあるかを判断し(S
38)、認識未処理のものがある(Y)なら全ての未処
理バッファが認識処理終了するまで認識処理部への転送
と認識を繰り返す(S39)。その後、認識結果を求
め、処理を終了する。なお、ステップS38で(N)な
ら認識処理を終了する。図8は上述した認識処理と録音
のタイミングチャートである。
【0028】例2:連続単語認識方式 図9において、認識開始をしてステップS41でinvoic
e flg(音声検出フラグ)=OFFとbuff count(バッファ
のカウンタ)=0を確認した後、録音済みバッファの音
声チェックで音声が検出(S42)される度に、音声検
出フラグinvoice flgをオンにセット(S43)し、そ
うでないときはオフ(S44)にセットする。音声検出
フラグinvoice flg(S45)がオン(Y)なら、認識
処理部が認識処理中であるか判断し(S46)、処理中
なら(Y)録音済みバッファの転送を見送りステップS
42に戻る。ステップS46で処理中でないなら
(N)、録音済みバッファを認識処理部へ転送して認識
処理を行う(S47)とともに、buff countをインクリ
メントする。なお、認識処理は、buff countの値により
異なる。この判断はステップS48で行う。
e flg(音声検出フラグ)=OFFとbuff count(バッファ
のカウンタ)=0を確認した後、録音済みバッファの音
声チェックで音声が検出(S42)される度に、音声検
出フラグinvoice flgをオンにセット(S43)し、そ
うでないときはオフ(S44)にセットする。音声検出
フラグinvoice flg(S45)がオン(Y)なら、認識
処理部が認識処理中であるか判断し(S46)、処理中
なら(Y)録音済みバッファの転送を見送りステップS
42に戻る。ステップS46で処理中でないなら
(N)、録音済みバッファを認識処理部へ転送して認識
処理を行う(S47)とともに、buff countをインクリ
メントする。なお、認識処理は、buff countの値により
異なる。この判断はステップS48で行う。
【0029】ステップS48で(N)ならbuff count=
1であるからbuff count=1のとき、認識処理部は、周
波数分析、音素認識、ワードスポットDTWを実施す
る。その後、次のバッファの計算に必要な、ワードスポ
ットの結果を指定された場所へ格納する。認識処理部の
終了を待たずにステップS42に戻る。
1であるからbuff count=1のとき、認識処理部は、周
波数分析、音素認識、ワードスポットDTWを実施す
る。その後、次のバッファの計算に必要な、ワードスポ
ットの結果を指定された場所へ格納する。認識処理部の
終了を待たずにステップS42に戻る。
【0030】前記ステップS48で(Y)なら、buff c
ount=2であるからbuff count=2のとき、認識処理部
は、格納されている計算結果を取り出し、ワードスポッ
ト値を初期値とする。以下上記と同様に、入力されたバ
ッファの周波数分析、音素認識、ワードスポットDTW
を実施し、次の計算に必要な結果を格納する。その後、
認識処理部の処理の終了を待たずに、前のバッファまで
の累積距離の計算をステップS49で行ってからステッ
プS42に戻る。
ount=2であるからbuff count=2のとき、認識処理部
は、格納されている計算結果を取り出し、ワードスポッ
ト値を初期値とする。以下上記と同様に、入力されたバ
ッファの周波数分析、音素認識、ワードスポットDTW
を実施し、次の計算に必要な結果を格納する。その後、
認識処理部の処理の終了を待たずに、前のバッファまで
の累積距離の計算をステップS49で行ってからステッ
プS42に戻る。
【0031】前記音声検出フラグinvoice flg(S4
5)がオンでないなら、すなわちオフ(N)なら、録音
済みバッファで認識未処理のものがあるかを判断し(S
50)、認識未処理のものがある(Y)なら全ての未処
理バッファが認識処理終了するまで認識処理部への転送
と認識を行う(S51)。認識処理後、累積距離計算を
ステップS52で行って、計算した累積距離結果を用い
てバックトレース(S53)を行い、認識結果を求め、
処理を終了する。なお、ステップS50で(N)ならバ
ックトレース(S53)を行って認識処理を終了する。
図10は上述した認識処理と録音のタイミングチャート
である。
5)がオンでないなら、すなわちオフ(N)なら、録音
済みバッファで認識未処理のものがあるかを判断し(S
50)、認識未処理のものがある(Y)なら全ての未処
理バッファが認識処理終了するまで認識処理部への転送
と認識を行う(S51)。認識処理後、累積距離計算を
ステップS52で行って、計算した累積距離結果を用い
てバックトレース(S53)を行い、認識結果を求め、
処理を終了する。なお、ステップS50で(N)ならバ
ックトレース(S53)を行って認識処理を終了する。
図10は上述した認識処理と録音のタイミングチャート
である。
【0032】図11は上述した実施の形態をパソコンに
て処理する際のシステム構成図で、図11において、電
話などの音声入力装置21からの音声を公衆回線網10
0を介してネットワークコントローラ101に入力し、
ネットワークコントローラ101からパソコン102の
音声処理部22に音声処理して連続単語認識をパソコン
102で行うようにしたものである。103は音声合成
装置である。
て処理する際のシステム構成図で、図11において、電
話などの音声入力装置21からの音声を公衆回線網10
0を介してネットワークコントローラ101に入力し、
ネットワークコントローラ101からパソコン102の
音声処理部22に音声処理して連続単語認識をパソコン
102で行うようにしたものである。103は音声合成
装置である。
【0033】なお、認識処理部24は並列処理するよう
に構成すれば、処理の高速化を図ることができる。
に構成すれば、処理の高速化を図ることができる。
【0034】
【発明の効果】以上述べたように、この発明によれば、
認識と録音の処理を一つのバッファへの録音が終了する
度に逐次的に行っていて、また認識処理部とパソコンで
の処理を並行して行わせているので、認識結果が音声終
了とほとんど同時に高速に求められる利点がある。ま
た、パソコンを利用しているので、手軽にシステムを構
成することができる。
認識と録音の処理を一つのバッファへの録音が終了する
度に逐次的に行っていて、また認識処理部とパソコンで
の処理を並行して行わせているので、認識結果が音声終
了とほとんど同時に高速に求められる利点がある。ま
た、パソコンを利用しているので、手軽にシステムを構
成することができる。
【図1】この発明の実施の形態を述べる概略構成説明
図。
図。
【図2】実施の形態の要部の逐次録音処理の構成図。
【図3】サイクリック式録音用バッファメモリの構造
図。
図。
【図4】サイクリック式録音用バッファメモリへの録音
動作概要図
動作概要図
【図5】実施の形態の流れを述べるフローチャート。
【図6】録音処理のアルゴリズムのフローチャート。
【図7】離散単語認識方式の認識処理のフローチャー
ト。
ト。
【図8】離散単語認識方式の認識と録音のタイミングチ
ャート。
ャート。
【図9】連続単語認識方式の認識処理のフローチャー
ト。
ト。
【図10】連続単語認識方式の認識と録音のタイミング
チャート。
チャート。
【図11】実施の形態のシステム構成図。
【図12】音声認識システムの概要図。
21…音声入力装置 22…音声処理部 23…逐次録音処理部 24…認識処理部 25…累積距離計算部 26…バックトレース部
Claims (3)
- 【請求項1】 電話等からなる音声入力装置と、この音
声入力装置より入力された音声データを音素認識する認
識処理部とを有し、 認識処理部は、音声データを周波数分析し、それを出力
多重化ニューラルネットに入力させて音素認識を行わせ
て、認識音素第1位音素候補と第2音素候補を得、その
認識された音素候補列と、認識させたい語彙の音素パタ
ーンを持たせた辞書中のテンプレートとの類似度を、テ
ンプレート中の音素と認識された音素候補列中の第1位
および第2位候補との類似度を局所スコアとし、その局
所スコアをDTW法によって累積することで全体の類似
度スコアを求め、認識させたい全ての語彙の中で、その
類似度スコアが最小となる単語を認識結果として出力す
るように構成された音声認識処理装置において、 前記音声入力装置から出力された音声データが入力さ
れ、このデータを音声処理する音声処理部と、この音声
処理部で処理された音声データを複数個に区画されたメ
モリに逐次録音されるバッファメモリ部と、このメモリ
部の一つのメモリへの録音が終了したかを検出する録音
終了検出部と、この検出部がメモリの録音終了を検出し
たときに前記バッファメモリ部の出力を前記認識処理部
へ入力させるとともに、バッファメモリ部の次の録音開
始メモリへ切り替えるメモリ切換部とを備えたことを特
徴とする音声認識処理装置。 - 【請求項2】 前記請求項1記載の音声認識処理装置に
おいて、前記バッファメモリ部への音声データの録音が
終了したなら、前記認識処理部から認識単語列を取り出
すためにバックトレースを行って認識結果を求めること
を特徴とする音声認識処理装置。 - 【請求項3】 音声入力装置から出力された音声データ
を音声処理部で処理した後、処理した音声を複数個に区
画された録音用バッファメモリに逐次録音させて行き、
区画された一つの録音用バッファメモリの録音が終了し
たなら次のメモリへの録音を開始させるとともに、並行
して音素認識処理を行うことを特徴とする音素認識処理
方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9001007A JPH10198397A (ja) | 1997-01-08 | 1997-01-08 | 音声認識処理装置および音声認識処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9001007A JPH10198397A (ja) | 1997-01-08 | 1997-01-08 | 音声認識処理装置および音声認識処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10198397A true JPH10198397A (ja) | 1998-07-31 |
Family
ID=11489534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9001007A Pending JPH10198397A (ja) | 1997-01-08 | 1997-01-08 | 音声認識処理装置および音声認識処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10198397A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091487A (ja) * | 2000-07-10 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
EP3726856B1 (en) | 2019-04-17 | 2022-11-16 | Oticon A/s | A hearing device comprising a keyword detector and an own voice detector |
-
1997
- 1997-01-08 JP JP9001007A patent/JPH10198397A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091487A (ja) * | 2000-07-10 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
EP3726856B1 (en) | 2019-04-17 | 2022-11-16 | Oticon A/s | A hearing device comprising a keyword detector and an own voice detector |
US11968501B2 (en) | 2019-04-17 | 2024-04-23 | Oticon A/S | Hearing device comprising a transmitter |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
USRE38101E1 (en) | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
US20050033575A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
JPH10187709A (ja) | 音声認識中に可変数の代替ワードを表示する方法及びシステム | |
JPS603699A (ja) | 適応性自動離散音声認識方法 | |
JPH10133685A (ja) | 連続音声認識中にフレーズを編集する方法及びシステム | |
JPH01167898A (ja) | 音声認識装置 | |
JP4408490B2 (ja) | データベース照会を実行する方法及びその装置 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP3526101B2 (ja) | 音声認識装置 | |
CN117634471A (zh) | 一种nlp质检方法及计算机可读存储介质 | |
JP3468572B2 (ja) | 対話処理装置 | |
JP3444108B2 (ja) | 音声認識装置 | |
JPH10198397A (ja) | 音声認識処理装置および音声認識処理方法 | |
JPH1083195A (ja) | 入力言語認識装置及び入力言語認識方法 | |
JP3846896B2 (ja) | 音声入力された複合名詞の検索装置、検索方法およびデータベース | |
JP3682958B2 (ja) | 音声入力された複合名詞の検索装置、検索方法およびデータベース | |
JP2002215184A (ja) | 音声認識装置、及びプログラム | |
JPH06175698A (ja) | 音声検索装置 | |
JP3478171B2 (ja) | 音声認識装置及び音声認識方法 | |
JPH06161488A (ja) | 音声認識装置 | |
JP2003022091A (ja) | 音声認識方法および音声認識装置ならびに音声認識プログラム | |
JP4056546B2 (ja) | 音声入力された複合名詞の検索装置、検索方法およびデータベース | |
JPH11202890A (ja) | 音声検索装置 |