JP3436184B2 - 多チャンネル入力音声認識装置 - Google Patents

多チャンネル入力音声認識装置

Info

Publication number
JP3436184B2
JP3436184B2 JP13328299A JP13328299A JP3436184B2 JP 3436184 B2 JP3436184 B2 JP 3436184B2 JP 13328299 A JP13328299 A JP 13328299A JP 13328299 A JP13328299 A JP 13328299A JP 3436184 B2 JP3436184 B2 JP 3436184B2
Authority
JP
Japan
Prior art keywords
recognition
input
voice
channels
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP13328299A
Other languages
English (en)
Other versions
JP2000322087A (ja
Inventor
香一郎 畑崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP13328299A priority Critical patent/JP3436184B2/ja
Publication of JP2000322087A publication Critical patent/JP2000322087A/ja
Application granted granted Critical
Publication of JP3436184B2 publication Critical patent/JP3436184B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、1つ以上のプロセ
ッサ上で複数の音声入力チャンネルから検出された入力
音声を認識する多チャンネル入力音声認識装置に関す
る。
【0002】
【従来の技術】1入力当たりのコストを下げられる点や
保守管理の容易さから、1台の音声認識装置で複数のマ
イクロホンや電話回線等の音声入力チャンネルからの入
力音声をそれぞれ認識し、認識結果を出力する多チャン
ネル入力音声認識装置の実現が望まれる。
【0003】従来、このような多チャンネル入力音声認
識装置では、複数のチャンネルから入力される音声のそ
れぞれの認識処理を1つ以上のプロセッサで並列処理ま
たは逐次処理することにより行っていた。音声認識処理
では、通常、入力された音声信号を例えば10ミリ秒毎
に音声分析した特徴量の時系列と標準パターンとを順次
照合する。この、例えば10ミリ秒の周期を1フレーム
と呼ぶ。1チャンネル分の音声信号の1フレーム当たり
の認識処理に要するプロセッサの処理時間が例えば5ミ
リ秒であれば、10ミリ秒の間に2チャンネル分の音声
信号を認識処理できる。
【0004】前述した並列処理とは、例えば1フレーム
毎に各チャンネルの音声信号を交互に認識処理するとい
う意味である。前記の例であれば、2チャンネルから同
時に音声入力された場合にも、音声の入力に遅れること
なくそれぞれのチャンネルの音声信号を認識処理するこ
とができ、それぞれの認識結果を高速に出力することが
できる。
【0005】一方、前述した逐次処理とは、音声信号が
入力された時間順序に従って、順番に認識処理を行うと
いう意味である。逐次処理は例えば特開平1−2163
98号公報に示されている。図4は従来の多チャンネル
入力音声認識装置の構成の一例を示している。同図にお
いて、認識装置30は3つの音声入力チャンネルを持
ち、それぞれから入力される音声信号を並列に認識処理
する。第1の音声入力チャンネルから入力された音声信
号はA/D変換部301でディジタル信号に変換された
後、音声検出・分析部302で音声区間の検出、周波数
分析が行われ、フレーム毎に求められた特徴量の時系列
が順次、照合部303に送られる。
【0006】照合部303では、特徴量の時系列と標準
パタンメモリ304中の標準パターンとを照合し、認識
対象辞書305に格納されている単語の中で入力された
音声信号に最も類似する単語を選択し、それを認識結果
として出力する。第2の音声入力チャンネルから入力さ
れる音声信号、第3の音声入力チャンネルから入力され
る音声信号に対しても同様に認識処理が行われる。この
例では、これらの認識処理が1つのプロセッサ上で行わ
れる。
【0007】
【発明が解決しようとする課題】しかしながら、上述し
た従来の多チャンネル入力音声認識装置では、次のよう
な問題が有った。すなわち、第1には、音声入力のある
すべてのチャンネルの認識処理が並列動作するように認
識部を制御した場合に、複数のチャンネルからの入力音
声が時間的に重なり、かつそれらの入力音声の1フレー
ム毎の認識に要するプロセッサの処理時間の合計が1フ
レームの時間長を超えたときに、すべてのチャンネルの
入力音声に対して認識処理の遅れが生じ、この結果、認
識結果の出力に遅れを生じる結果、応答の表示または音
声出力に遅れが生じるという問題が有った。例えば、前
述した従来例において、第1の音声入力チャンネルと第
2の音声入力チャンネルとから音声が同時に入力され、
これらを認識している間に、さらに第3の音声入力チャ
ンネルから音声が入力されると、3チャンネル分の認識
処理を同時に行うことになる。この結果、1フレーム1
0ミリ秒当たりのプロセッサの処理時間が合計で5ミリ
秒×3チャンネル=15ミリ秒となり、1フレーム当た
り5ミリ秒の遅れが生じることになる。この結果、音声
入力終了後も認識を継続する必要が生じ、認識結果の出
力に遅れが生ずることになる。
【0008】第2には、各音声入力チャンネルへの音声
入力が開始された時刻の順番で、認識処理が逐次動作す
るように認識部を制御した場合に、複数の音声入力チャ
ンネルからの入力音声が重なったとき、時間的に後に入
力された音声入力チャンネルに対する音声認識の処理に
遅れが生じ、この結果、応答の表示または音声出力に遅
れが生じるという問題が有った。
【0009】図5は上述した第1の問題点を説明するた
めのタイムチャートである。同図において、時刻aから
時刻bまで第1の音声入力チャンネルに、時刻cから時
刻dまで第2の音声入力チャンネルにそれぞれ、音声が
入力され、さらに時刻eから時刻fまで第3の音声入力
チャンネルに音声が入力された場合を例に説明する。時
刻aから時刻cまでは第1の音声入力チャンネルの入力
音声だけの認識を行うため、処理時間は1フレーム当た
り5ミリ秒である。また、時刻cから時刻eまでは第1
および第2の音声入力チャンネルの2チャンネル分の入
力音声の認識を行うため、処理時間は1フレーム当たり
合計10ミリ秒となり、音声入力に遅れることなく認識
することができる。
【0010】ところが、時刻eから時刻bまでは第1か
ら第3の音声入力チャンネルの3チャンネル分の入力音
声を認識することから、処理時間は1フレーム当たり合
計15ミリ秒となり、1フレーム当たり5ミリ秒の遅れ
が生じることになる。この結果、第1チャンネルの入力
音声の認識が終了するのは時刻gとなる。従って、さら
に時刻bから時刻gまでは引き続き3チャンネル分を認
識することになり、この結果、第2チャンネルの入力音
声の認識が終了するのは時刻hとなる。また第3の音声
入力チャンネルの入力音声の認識は時刻fに終了する。
このように、第1、第2、第3の音声入力チャンネルの
いずれの入力音声に対しても、音声入力終了後も認識処
理が継続し、認識結果の出力に遅れを生ずる。
【0011】本発明はこのような事情に鑑みてなされた
ものであり、複数の音声入力チャンネルからの音声入力
が重なった場合でも、認識結果出力の遅れを抑制するこ
とができ、かつユーザの満足度の高い多チャンネル入力
音声認識装置を提供することを目的とする。
【0012】
【課題を解決するための手段】上記目的を達成するため
に請求項1に記載の発明は、1つ以上のプロセッサ上で
複数の音声入力チャンネルから検出された入力音声を認
識する多チャンネル入力音声認識装置において、前記プ
ロセッサに対する認識処理の負荷量に応じて、前記複数
の音声入力チャンネルのうち一部の音声入力チャネルか
らの入力音声の認識処理の実行を一時停止し、またはす
べてのチャンネルからの入力音声の認識処理の実行を続
行するように前記プロセッサの認識動作を制御する認識
動作制御手段を有し、前記認識動作制御手段は、前記複
数の音声チャンネルの各々に対する音声検出状態、およ
び各音声入力チャンネルに対する前記プロセッサの認識
処理の動作状態、および入力音声の特徴量の時系列と照
合される標準パターンのサイズや複雑さ、および認識対
象となる入力音声に対応する単語が格納されている認識
辞書の内容に応じて、プロセッサに対する認識処理の負
荷量を求めることを特徴とする。
【0013】請求項1に記載の発明によれば、プロセッ
サに対する認識処理の負荷量に応じて、前記複数の音声
入力チャンネルのうち一部の音声入力チャネルからの入
力音声の認識処理の実行を一時停止し、またはすべての
チャンネルからの入力音声の認識処理の実行を続行する
ように前記プロセッサの認識動作を制御する認識動作制
御手段を有し、前記認識動作制御手段は、前記複数の音
声チャンネルの各々に対する音声検出状態、および各音
声入力チャンネルに対する前記プロセッサの認識処理の
動作状態、および入力音声の特徴量の時系列と照合され
る標準パターンのサイズや複雑さ、および認識対象とな
る入力音声に対応する単語が格納されている認識辞書の
内容に応じて、プロセッサに対する認識処理の負荷量を
求めるようにしたので、複数の音声入力チャンネルから
の音声入力が重なった場合でも、認識結果出力の遅れを
抑制することができると共に、サイズが小さい標準パタ
ーンや小さい認識対象辞書ではより多くの認識処理を同
時に動作させる等、プロセッサをより有効に動作させる
ことができる。
【0014】また請求項2に記載の発明は、1つ以上の
プロセッサ上で複数の音声入力チャンネルから検出され
た入力音声を認識する多チャンネル入力音声認識装置に
おいて、前記プロセッサに対する認識処理の負荷量が大
きいときに、前記複数の音声入力チャンネルのうち一部
の音声入力チャンネルからの入力音声の認識処理の実行
を一時停止するように前記プロセッサの認識動作を制御
する認識動作制御手段を有し、前記認識動作制御手段
は、前記複数の音声チャンネルの各々に対する音声検出
状態、および各音声入力チャンネルに対する前記プロセ
ッサの認識処理の動作状態、および入力音声の特徴量の
時系列と照合される標準パターンのサイズや複雑さ、お
よび認識対象となる入力音声に対応する単語が格納され
ている認識辞書の内容に応じて、プロセッサに対する認
識処理の負荷量を求めることを特徴とする。
【0015】請求項2に記載の発明によれば、プロセッ
サに対する認識処理の負荷量が大きいときに、前記複数
の音声入力チャンネルのうち一部の音声入力チャンネル
からの入力音声の認識処理の実行を一時停止するように
前記プロセッサの認識動作を制御する認識動作制御手段
を有し、前記認識動作制御手段は、前記複数の音声チャ
ンネルの各々に対する音声検出状態、および各音声入力
チャンネルに対する前記プロセッサの認識処理の動作状
態、および入力音声の特徴量の時系列と照合される標準
パターンのサイズや複雑さ、および認識対象となる入力
音声に対応する単語が格納されている認識辞書の内容に
応じて、プロセッサに対する認識処理の負荷量を求める
ようにしたので、複数の音声入力チャンネルからの音声
入力が重なった場合でも、認識結果出力の遅れを防止ま
たは低減することができると共に、サイズが小さい標準
パターンや小さい認識対象辞書ではより多くの認識処理
を同時に動作させる等、プロセッサをより有効に動作さ
せることができる。
【0016】
【0017】
【0018】
【0019】
【0020】
【0021】
【0022】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。図1に本発明の実施
の形態に係る多チャンネル入力音声認識装置の構成を示
す。同図において、認識装置10は複数の音声入力チャ
ンネルから入力される音声波形信号を取り込み、それぞ
れの入力音声を認識し、認識結果を出力する。図1では
第1から第3までの3個の音声入力チャンネルを有する
実施例を示しているが、音声入力チャンネル数はこれに
限るものではない。
【0023】認識装置10は、A/D変換部101、1
11、121と、音声検出部102、112、122
と、バッファ103、113、123と、認識部10
4、114、124と、認識動作制御部130とを有し
ている。ここで認識部104、114、124の機能は
本実施の形態では、1つのプロセッサにより実現されて
いるものとする。
【0024】A/D変換部101は第1の音声入力チャ
ンネルに入力された音声信号をディジタル化し、出力す
る。音声検出部102はディジタル化された音声信号の
うち音声が存在する区間すなわち音声区間の音声信号を
バッファ103に出力する。バッファ103は音声区間
の音声信号を一時保持し、認識部104からの要求に応
じて、音声信号を順次に出力する。認識部104は音声
信号に対して音声認識処理を行い、その結果を認識結果
として出力する。以上は、第2、第3の音声入力チャン
ネルについても、第1の音声入力チャンネルに対する構
成と同様であるので重複する説明は省略する。
【0025】また、認識部104、114,124は認
識処理の状態を認識動作制御部130に出力する。ま
た、音声検出部102、112、122は音声検出状態
を認識動作制御部130に出力する。認識動作制御部1
30は各音声入力チャンネルに入力された音声信号の認
識処理の状態及び音声検出状態とからプロセッサに対す
る認識処理の負荷を求め、その結果と設定された最大負
荷率とからどの音声入力チャンネルの認識部の処理を実
行するかを決定し、認識処理の一時停止あるいは再開を
指示する動作制御信号を認識部104,114,124
にそれぞれ出力する。認識部104、114,124は
それぞれ動作制御信号に従って、認識処理を実行あるい
は停止する。
【0026】図2に図1に示す認識部104の具体的構
成を示す。認識部114、124についても同様の構成
となる。同図において、音声分析部201はバッファ1
03から受け取った音声信号を分析し、特徴量の時系列
を照合部202に出力する。ここで、音声分析部201
では、例えば、入力された音声信号を例えば10ミリ秒毎
に周波数分析し、その結果の特徴量の時系列を出力す
る。この10ミリ秒毎の単位をフレームと呼ぶ。照合部
202はフレーム毎に求められた特徴量の時系列と標準
パタンメモリ203中の標準パターンとを照合し、認識
対象辞書204に含まれる単語の中で音声信号にもっと
も類似する単語を認識結果として出力する。また、音声
分析部201および照合部202は処理の状況を負荷情
報として認識動作制御部111に出力する。
【0027】また、標準パターンメモリ203中の標準
パターンのサイズや複雑さなどの負荷情報および認識対
象辞書204の語彙数などを負荷情報として認識動作制
御部130に出力する。また、音声分析部201および
照合部202は認識動作制御部130から認識動作制御
信号を受け取り、その結果に従って処理を一時停止ある
いは再開する。次に図1に示した多チャンネル入力音声
認識装置の動作の一例を図3のタイムチャートを参照し
て説明する。図3では、第1の音声入力チャンネルには
時刻aから時刻bの間に、第2の音声入力チャンネルに
は時刻cから時刻dの間に、第3の音声入力チャンネル
には時刻eから時刻fの間に、それぞれ音声が入力され
る例を示している。
【0028】時刻aで第1の音声入力チャンネルへの音
声入力が開始されると、A/D変換部101は入力され
た音声信号を順次ディジタル信号に変換し、音声検出部
102に順次出力する。音声検出部102は時刻aで音
声の始端を検出し、それ以降の音声信号をバッファ10
3に出力する。それと同時に、第1の音声入力チャンネ
ルで音声入力が開始されたことを認識動作制御部130
に通知する。この通知に対応して、認識動作制御部13
0は認識部104に認識処理の開始を指示する。図3で
太線の部分が認識処理動作中の時間である。
【0029】認識部104はバッファ103からデジタ
ル化された音声信号を順次取り出し、音声認識処理す
る。音声認識処理では、まず図2の音声分析部201に
よって例えば1フレーム10ミリ秒毎に音声信号の特徴
量を求めた後、照合部202で認識対象辞書204の内
容に従って、音声信号の特徴量と標準パタンメモリ20
3中の標準パターンとの照合を行う。音声認識処理に必
要なプロセッサの処理時間が1フレーム当たり5ミリ秒
であるならば、1フレーム分の音声分析、照合の処理は
フレーム周期10ミリ秒の半分の時間で終了するため、
10ミリ秒毎に上記の音声分析、照合の処理を逐次実行
する。
【0030】続いて、時刻cで第2の音声入力チャンネ
ルへの音声入力が開始されると、上記と同様にして、認
識動作制御部130は第2の音声入力チャンネルの認識
部114に認識動作の開始を指示する。ここで、認識部
104と認識部114の両方の認識動作が開始されるこ
とになるが、1フレーム当たりの処理時間がそれぞれ5
ミリ秒であるならば、合計して10ミリ秒となる。従っ
て、1フレーム10ミリ秒の例えば前半に認識部104
が動作し、後半に認識部114が動作するようにすれ
ば、1台のプロセッサで第1の音声入力チャンネルと、
第2の音声入力チャンネルの両方の認識処理を音声入力
からの時間遅れなしに実行することができる。
【0031】続いて、時刻eで第3の音声入力チャンネ
ルへの音声入力が開始されるが、この場合、すでに認識
部104と認識部114の両方が動作中であることか
ら、さらに別の認識部を動作させると、フレーム当たり
のプロセッサの処理時間の合計が15ミリ秒となり、フ
レーム周期10ミリ秒を超える。このことから、認識動
作制御部130は第3の音声入力チャンネルから入力さ
れる音声信号を認識する認識部124の動作を開始せ
ず、一時停止状態とする指示を出す。この結果、認識部
104と認識部114は引き続き、音声入力からの時間
遅れなしに認識処理を実行することができる。
【0032】続いて、時刻bで第1の音声入力チャンネ
ルの音声入力が終了すると、音声検出部102は音声の
終端を検出する。また認識部104はバッファ103に
音声信号が無くなった時点で、音声区間全体の照合結果
から認識結果を求め、出力すると同時に、動作を停止す
る。認識動作制御部130は認識部104が動作を停止
したことを検知すると、一時停止状態であった第3の音
声入力チャンネルの認識部124に対し、動作開始を指
示する。この結果、時刻b以降は第2の音声入力チャン
ネルと第3の音声入力チャンネルに対する2つの認識処
理が動作することになる。ここで、第3の音声入力チャ
ンネルにおいては、時刻e以降の音声信号がバッファ1
23に蓄えられているため、認識部124はその音声信
号を順次読み出し、認識処理を実行する。第2の音声入
力チャンネルの認識部114は引き続き、音声入力から
の時間遅れなしに認識処理を実行する。
【0033】続いて、時刻dで第2の音声入力チャンネ
ルの音声入力が終了すると、前述と同様に、認識部11
4は認識結果を出力すると同時に、動作を停止する。こ
の時点で、第3の音声入力チャンネルのバッファ123
には時刻gから時刻dまでの音声信号が蓄えられてい
る。一方、認識部124のみが動作することになるた
め、1フレーム周期の間に2フレーム分の認識処理を行
うことができる。従って、(f−g)/2 <(f−
d)であれば、時刻fに達するまでに、認識処理は第3
の音声入力チャンネルの音声入力に追いつくことがで
き、この結果、時刻fで第3の音声入力チャンネルの音
声入力が終了した時点で、前述と同様に、認識部124
は認識結果を出力する。
【0034】以上のように、この例では、第1、第2、
第3のすべての音声入力チャンネルからの音声入力に対
して、時間遅れなしに、認識結果を出力することができ
る。上記の実施例ではチャンネル数が3の場合について
説明したが、チャンネル数はこれに限らない。上記の実
施例では、1チャンネル分のプロセッサのフレーム当た
りの処理時間は予め設定されているものとしたが、標準
パターンメモリ203中の標準パターンのサイズや複雑
さ、および認識対象辞書204の単語数から、認識動作
制御部130においてフレーム当たりの処理時間を推定
するようにしてもよい。この場合、標準パターンのサイ
ズや複雑さ、および、認識対象辞書の内容、すなわち単
語数に応じて、プロセッサに対する認識処理の負荷を求
めることができるため、サイズの小さい標準パターンが
格納されている標準パターンメモリや単語数の少ない認
識対象辞書を参照して認識処理を行う音声入力チャンネ
ルに対してはより多くの認識処理を同時に動作させるな
ど、プロセッサをより有効に動作させることができる。
【0035】上述した本発明の実施の形態では、1フレ
ーム当たりのプロセッサの処理時間の合計がフレーム周
期の超えないように、認識動作の制御を行ったが、プロ
セッサに対する認識処理の最大負荷率を与えることによ
って、その負荷率を超えないように認識動作を制御する
ことができる。例えば、フレーム周期が10ミリ秒、一
つの認識部の1フレーム当たりの処理時間が2.5ミリ
秒、最大負荷率を75%とするならば、最大3つの認識
処理を同時に動作させることになる。最大負荷率を設定
することによって、プロセッサが認識処理以外の処理を
実行する時間を確保することができ、ユーザの満足度を
高めることができる。
【0036】
【発明の効果】以上説明したように、請求項1に記載の
発明によれば、プロセッサに対する認識処理の負荷量に
応じて、前記複数の音声入力チャンネルのうち一部の音
声入力チャネルからの入力音声の認識処理の実行を一時
停止し、またはすべてのチャンネルからの入力音声の認
識処理の実行を続行するように前記プロセッサの認識動
作を制御する認識動作制御手段を有し、前記認識動作制
御手段は、前記複数の音声チャンネルの各々に対する音
声検出状態、および各音声入力チャンネルに対する前記
プロセッサの認識処理の動作状態、および入力音声の特
徴量の時系列と照合される標準パターンのサイズや複雑
さ、および認識対象となる入力音声に対応する単語が格
納されている認識辞書の内容に応じて、プロセッサに対
する認識処理の負荷量を求めるようにしたので、複数の
音声入力チャンネルからの音声入力が重なった場合で
も、認識結果出力の遅れを抑制することができると共
に、サイズが小さい標準パターンや小さい認識対象辞書
ではより多くの認識処理を同時に動作させる等、プロセ
ッサをより有効に動作させることができる。
【0037】また請求項2に記載の発明によれば、プロ
セッサに対する認識処理の負荷量が大きいときに、前記
複数の音声入力チャンネルのうち一部の音声入力チャン
ネルからの入力音声の認識処理の実行を一時停止するよ
うに前記プロセッサの認識動作を制御する認識動作制御
手段を有し、前記認識動作制御手段は、前記複数の音声
チャンネルの各々に対する音声検出状態、および各音声
入力チャンネルに対する前記プロセッサの認識処理の動
作状態、および入力音声の特徴量の時系列と照合される
標準パターンのサイズや複雑さ、および認識対象となる
入力音声に対応する単語が格納されている認識辞書の内
容に応じて、プロセッサに対する認識処理の負荷量を求
めるようにしたので、複数の音声入力チャンネルからの
音声入力が重なった場合でも、認識結果出力の遅れを防
止または低減することができると共に、サイズが小さい
標準パターンや小さい認識対象辞書ではより多くの認識
処理を同時に動作させる等、プロセッサをより有効に動
作させることができる。
【0038】
【0039】
【0040】
【図面の簡単な説明】
【図1】 本発明の実施の形態に係る多チャンネル入力
音声認識装置の構成を示すブロック図。
【図2】 図1に示した多チャンネル入力音声認識装置
における認識部の具体的構成を示すブロック図。
【図3】 図1に示した多チャンネル入力音声認識装置
の動作の一例を示すタイムチャート。
【図4】 従来の多チャンネル入力音声認識装置の構成
を示すブロック図。
【図5】 図4に示した従来の多チャンネル入力音声認
識装置の動作の一例を示すタイムチャート。
【符号の説明】
10 認識装置 101、111、121 A/D変換部 102、112、122 音声検出部 103、113、123 バッファ 104、114、124 認識部 130 認識動作制御部(認識動作制御手段)
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/28

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 1つ以上のプロセッサ上で複数の音声入
    力チャンネルから検出された入力音声を認識する多チャ
    ンネル入力音声認識装置において、 前記プロセッサに対する認識処理の負荷量に応じて、前
    記複数の音声入力チャンネルのうち一部の音声入力チャ
    ネルからの入力音声の認識処理の実行を一時停止し、ま
    たはすべてのチャンネルからの入力音声の認識処理の実
    行を続行するように前記プロセッサの認識動作を制御す
    る認識動作制御手段を有し、 前記認識動作制御手段は、前記複数の音声チャンネルの
    各々に対する音声検出状態、および各音声入力チャンネ
    ルに対する前記プロセッサの認識処理の動作状態、およ
    び入力音声の特徴量の時系列と照合される標準パターン
    のサイズや複雑さ、および認識対象となる入力音声に対
    応する単語が格納されている認識辞書の内容に応じて、
    プロセッサに対する認識処理の負荷量を求める ことを特
    徴とする多チャンネル入力音声認識装置。
  2. 【請求項2】 1つ以上のプロセッサ上で複数の音声入
    力チャンネルから検出された入力音声を認識する多チャ
    ンネル入力音声認識装置において、 前記プロセッサに対する認識処理の負荷量が大きいとき
    に、前記複数の音声入力チャンネルのうち一部の音声入
    力チャンネルからの入力音声の認識処理の実行を一時停
    止するように前記プロセッサの認識動作を制御する認識
    動作制御手段を有し、 前記認識動作制御手段は、前記複数の音声チャンネルの
    各々に対する音声検出状態、および各音声入力チャンネ
    ルに対する前記プロセッサの認識処理の動作状態、およ
    び入力音声の特徴量の時系列と照合される標準パターン
    のサイズや複雑さ、および認識対象となる入力音声に対
    応する単語が格納されている認識辞書の内容に応じて、
    プロセッサに対する認識処理の負荷量を求める ことを特
    徴とする多チャンネル入力音声認識装置。
JP13328299A 1999-05-13 1999-05-13 多チャンネル入力音声認識装置 Expired - Fee Related JP3436184B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13328299A JP3436184B2 (ja) 1999-05-13 1999-05-13 多チャンネル入力音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13328299A JP3436184B2 (ja) 1999-05-13 1999-05-13 多チャンネル入力音声認識装置

Publications (2)

Publication Number Publication Date
JP2000322087A JP2000322087A (ja) 2000-11-24
JP3436184B2 true JP3436184B2 (ja) 2003-08-11

Family

ID=15101007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13328299A Expired - Fee Related JP3436184B2 (ja) 1999-05-13 1999-05-13 多チャンネル入力音声認識装置

Country Status (1)

Country Link
JP (1) JP3436184B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5381973B2 (ja) * 2008-02-28 2014-01-08 日本電気株式会社 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
WO2011043380A1 (ja) * 2009-10-09 2011-04-14 日本電気株式会社 音声認識装置および音声認識方法
US10199035B2 (en) 2013-11-22 2019-02-05 Nuance Communications, Inc. Multi-channel speech recognition
JP7186375B2 (ja) 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
KR20220041413A (ko) * 2020-09-25 2022-04-01 삼성전자주식회사 전자장치 및 그 제어방법

Also Published As

Publication number Publication date
JP2000322087A (ja) 2000-11-24

Similar Documents

Publication Publication Date Title
US4567606A (en) Data processing apparatus and method for use in speech recognition
US7103157B2 (en) Audio quality when streaming audio to non-streaming telephony devices
US4811399A (en) Apparatus and method for automatic speech recognition
JPH03206521A (ja) 音声認識システム
CA3158930A1 (en) Arousal model generating method, intelligent terminal arousing method, and corresponding devices
JP3436184B2 (ja) 多チャンネル入力音声認識装置
JPH08146991A (ja) 情報処理装置及びその制御方法
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JP2001343983A (ja) 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP2001042886A (ja) 音声入出力システムおよび音声入出力方法
JPS63179398A (ja) 音声認識方法
KR102632806B1 (ko) Stt결과 조기 확정을 위한 음성 인식 방법 및 장치
Ronssin et al. Application for Real-time Personalized Speaker Extraction.
JP2017201348A (ja) 音声対話装置、音声対話装置の制御方法、および制御プログラム
JPH08314489A (ja) 音声認識装置
JP2000089799A (ja) 音声認識システム及び方法並びに音声認識用ソフトウェアを記録した記録媒体
JP3707809B2 (ja) 音声認識方法及び音声認識システム
JPS63158595A (ja) 音声認識装置
JPH08194491A (ja) 音声認識装置
JPS61256397A (ja) 音声認識装置
JPH07219585A (ja) 情報処理装置及び方法
JP2004271607A (ja) 音声認識装置および音声認識方法
JPS5915999A (ja) 単音節認識装置
KR20010036352A (ko) 디 에스 피의 음성인식방법

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030506

LAPS Cancellation because of no payment of annual fees