JP2004361604A - Voice input device and voice recognition processing system - Google Patents

Voice input device and voice recognition processing system Download PDF

Info

Publication number
JP2004361604A
JP2004361604A JP2003159025A JP2003159025A JP2004361604A JP 2004361604 A JP2004361604 A JP 2004361604A JP 2003159025 A JP2003159025 A JP 2003159025A JP 2003159025 A JP2003159025 A JP 2003159025A JP 2004361604 A JP2004361604 A JP 2004361604A
Authority
JP
Japan
Prior art keywords
data
voice
analog
input device
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003159025A
Other languages
Japanese (ja)
Other versions
JP4531350B2 (en
Inventor
Shingo Kiuchi
真吾 木内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2003159025A priority Critical patent/JP4531350B2/en
Publication of JP2004361604A publication Critical patent/JP2004361604A/en
Application granted granted Critical
Publication of JP4531350B2 publication Critical patent/JP4531350B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice input device which can make a recognition rate to voice having a wide dynamic range higher and a voice recognition processing system. <P>SOLUTION: The voice input device 100 is equipped with an attenuator 16 which forms a plurality of voice signals varying in gains, two analog-to-digital converters 14 and 18 which convert each of the plurality of the speech signals to intermediate data of a prescribed number of bits, and a waveform estimating section 20 which synthesizes two sets of the intermediate data outputted from the analog-to-digital converters 14 and 18, extracts a part thereof and forms the data for recognition processing of the prescribed number of bits. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、入力された音声信号を音声認識処理の対象となる音声データに変換する音声入力装置に関する。
【0002】
【従来の技術】
マイクロホンで収集した音声の内容を認識する音声認識装置が知られており、車載のナビゲーション装置の入力装置等に応用されている。このような音声認識装置では、利用者が自然に発声した音声に対して完全にその内容を認識するまでには至っておらず、認識率を高める各種の工夫がなされている。例えば、入力音声を増幅する増幅器の利得を、入力音声のダイナミックレンジに応じて設定することにより、認識対象となる音声の振幅を調整した音声認識装置が知られている(例えば、特許文献1参照。)。この音声認識装置では、小さな声の利用者に対しては増幅器の利得が高く設定され、反対に大きな声の利用者に対しては増幅器の利得が低く設定されるため、認識対象となる音声のダイナミックレンジを常に最適レベルに維持することが可能になり、認識率を高めることができる。
【0003】
【特許文献1】
特開昭61−180296号公報(第2頁、図1)
【0004】
【発明が解決しようとする課題】
ところで、上述した特許文献1に開示された音声認識装置では、入力音声のダイナミックレンジに基づいて増幅器の利得が設定され、その後の入力音声に対して最適なダイナミックレンジが設定されるため、音声が最初に入力されてから増幅器の利得設定が終了するまでは、認識率を高めることができないという問題があった。また、同じ利用者あるいは複数の利用者が大きな声と小さな声を交互に発声した場合のように、入力音声のダイナミックレンジ自体が変化する場合には適用できず、認識率を高めることができないという問題があった。
【0005】
一般に、人の声のダイナミックレンジは、ささやき声から怒鳴り声まで60dB程度あるといわれている。しかも、声の大きさが人によってばらつくことを考慮すると、音声全体のダイナミックレンジは、さらに大きくなると考えられる。このような入力音声を、一般に用いられる16ビット量子化のアナログ−デジタル変換器を用いて音声データに変換した場合には、15ビットから5ビットの範囲のデータに相当する。
【0006】
一方、音声認識処理の認識可能な入力音声のダイナミックレンジは、現状では40dB程度が上限であり、16ビット量子化のアナログ−デジタル変換器を用いた場合に15ビットから9ビットの範囲のデータに相当する。すなわち、大きな声に対応する利得の設定がなされているときに小さな声に対応する音声が入力されると、この内容については認識することができなくなってしまう。
【0007】
本発明は、このような点に鑑みて創作されたものであり、その目的は、広いダイナミックレンジを有する音声に対する認識率を高めることができる音声入力装置を提供することにある。
【0008】
【課題を解決するための手段】
上述した課題を解決するために、本発明の音声入力装置は、音声認識装置の前段に設けられ、入力音声信号に対応する音声データを生成する音声入力装置であって、入力音声信号に対して、振幅が異なる複数の音声信号を生成する信号生成手段と、信号生成手段によって生成された複数の音声信号のそれぞれをデジタルデータに変換する複数のアナログ−デジタル変換手段と、複数のアナログ−デジタル変換手段から出力される複数のデジタルデータを合成するデータ合成手段とを備えている。これにより、一つのアナログ−デジタル変換手段の量子化ビット数では足りないようなダイナミックレンジの広い音声信号に対しても、波形の部分的な欠落がない符号化処理を行うことが可能になり、広いダイナミックレンジの確保とともに、音声波形全体が含まれるデータを生成して音声認識装置に入力することによって音声認識処理の認識率を高めることが可能になる。
【0009】
また、音声を集音して入力音声信号を出力するマイクロホンをさらに備えることが望ましい。これにより、マイクロホンで集音したダイナミックレンジが広い各種の音声をそのまま音声認識用のデジタルデータに変換することが可能になる。
【0010】
また、上述した信号生成手段は、入力音声信号に対して所定の利得で減衰あるいは増幅を行う少なくとも一の利得変更手段を有することが望ましい。これにより、一の入力音声信号に対して、振幅(利得)が異なる複数の音声信号を容易に生成することができる。
【0011】
また、上述したデータ合成手段は、一のアナログ−デジタル変換手段の出力データが飽和していない場合にこの出力データを用い、この出力データが飽和した場合にはこの飽和した部分の波形形状を他のアナログ−デジタル変換手段の飽和していない出力データに基づいて推定することが望ましい。これにより、一のアナログ−デジタル変換手段のダイナミックレンジを超える広いダイナミックレンジを確保することが可能になる。
【0012】
また、上述したデータ合成手段は、複数のアナログ−デジタル変換手段から出力される複数のデジタルデータのそれぞれのビット位置を、利得変更手段の利得に応じたビット数分ずらして合成することが望ましい。これにより、ビット数が少ない複数の音声信号に対応するデジタルデータを合成して、元の入力音声信号の波形全体を含むビット数が多いデータを生成することが可能になる。
【0013】
また、上述した信号生成手段によって生成される複数の音声信号のそれぞれのレベル検出を行うレベル検出手段をさらに備え、データ合成手段は、レベル検出手段によって検出された複数の音声信号のそれぞれのレベルの比に応じて、合成処理の際にずらすビット数を決定することが望ましい。これにより、素子定数や製造上のばらつきを考慮したデータの合成を行うことが可能になり、入力音声信号に対応する歪みの少ないデータを生成することができる。
【0014】
また、上述したアナログ−デジタル変換手段の数は2であり、ステレオ用のアナログ−デジタル変換器を用いることが望ましい。これにより、一般にステレオ用として市販されている2個一組のアナログ−デジタル変換器を用いることにより、部品コストを下げることができる。
【0015】
また、上述したデータ合成手段は、所定期間に入力されるデジタルデータを蓄積し、この期間内で最も振幅が大きな音声信号が含まれる所定ビット数のデータを、蓄積された各デジタルデータの中から切り出して出力する処理を行うことが望ましい。これにより、音声認識に必要な音声波形のピークを含む所定ビット数のデータを生成することが可能になる。また、所定ビット数のデータを生成することにより、所定ビット数のデータに対して音声認識処理を行う従来の音声認識装置を用いることができるため、音声認識処理システム全体のコスト上昇を抑えることが可能になる。
【0016】
また、上述した所定期間は、入力音声信号が途切れるまでの音声入力区間であることが望ましい。これにより、音声認識の対象となる一連の音声について、その波形に含まれるピークの情報を保持した所定ビット数のデータを切り出すことが可能になり、認識率を高めることができる。
【0017】
また、上述した所定期間は、入力音声信号が途切れるまでの音声入力区間よりも短い分割期間であり、後の分割期間に対応する音声信号の振幅がそれ以前の分割期間に対応する音声信号の振幅よりも大きい場合には、蓄積された各デジタルデータの中から切り出して出力する処理をそれ以前の分割期間から繰り返すことが望ましい。これにより、音声認識処理の遅延時間を少なくすることが可能になる。
【0018】
また、本発明の音声認識処理システムは、上述した音声入力装置と、この音声入力装置から出力されるデータに対して音声認識処理を行う音声認識装置とを備えており、音声認識装置は、データ合成手段から出力されるデータが一のアナログ−デジタル変換手段から出力されるデジタルデータを用いて生成される場合と、複数のアナログ−デジタル変換手段から出力されるデジタルデータを用いて生成される場合とで、音声認識処理に用いられる複数の音響辞書を使い分けている。特に、上述した複数の音響辞書には、一のアナログ−デジタル変換手段から出力されるデジタルデータを合成する際に発生する歪みを考慮した歪み学習音響辞書と、この歪みが考慮されていない通常音響辞書が含まれていることが望ましい。これにより、データの合成に伴って発生する歪みを考慮した音声認識処理が可能になり、認識率を高めることができる。
【0019】
【発明の実施の形態】
以下、本発明を適用した一実施形態の音声入力装置について、図面を参照しながら詳細に説明する。
〔第1の実施形態〕
図1は、第1の実施形態の音声入力装置の構成を示す図である。図1に示す本実施形態の音声入力装置100は、音声認識装置の前段に設けられて入力音声信号に対応する音声データを生成するためのものであり、マイクロホン10、増幅器12、アナログ−デジタル変換器(A/D)14、18、減衰器16、波形推定部20を含んで構成されている。また、この音声入力装置100とその後段に接続された音声認識装置200を含んで音声認識処理システムが構成されている。
【0020】
マイクロホン10は、音声認識対象となる利用者の音声を集音して、この音声に対応する入力音声信号を出力する。増幅器12は、アナログ−デジタル変換器14、18による処理が可能な振幅レベルになるように、入力音声信号を所定のゲインで増幅する。一方のアナログ−デジタル変換器14は、増幅器12から出力される増幅後の音声信号を所定ビット数のデジタルデータに変換する。例えば音声信号は、符号ビットが1、データビットが15の合計16ビットの音声データ(中間データ)に変換される。
【0021】
減衰器16は、増幅器12から出力される音声信号を減衰させて、減衰後の音声信号を出力する。例えば、減衰の利得が(1/2)15倍に設定されている。他方のアナログ−デジタル変換器18は、減衰器16から出力される減衰後の音声信号を所定ビット数のデジタルデータに変換する。例えば、一方のアナログ−デジタル変換器14と同様に、音声信号は符号ビットが1、データビットが15の合計16ビットの音声データ(中間データ)に変換される。なお、一般にステレオ用として市販されている2個一組のアナログ−デジタル変換器14、18を用いることにより、部品コストを下げることができる。
【0022】
波形推定部20は、2つのアナログ−デジタル変換器14、18のそれぞれから出力される16ビットの中間データを合成して、符号ビットが1、データビットが30の合計31ビットの合成データを生成する。例えば、波形推定部20は、アナログ−デジタル変換器14の出力データが飽和していない場合にこの出力データを用い、この出力データが飽和した場合にはこの飽和した部分の波形形状を他のアナログ−デジタル変換器18の飽和していない出力データに基づいて推定することにより、中間データの合成処理を行う。
【0023】
図2は、波形推定部20の詳細構成を示す図である。図2に示すように、波形推定部20は、倍精度データ生成部22、音声区間終了判定部24、有効データ位置監視部26、認識処理用データ生成部28を備えている。
上述したように、一方のアナログ−デジタル変換器14に入力される音声信号に対して、他方のアナログ−デジタル変換器18に入力される音声信号は、信号レベルが(1/2)15倍に減衰しているため、これらの音声信号を31ビット長のデジタルデータに変換すると、それぞれの音声信号の波形情報が現れる位置は15ビットシフトしている。実際には、アナログ−デジタル変換器14、18は、入力される音声信号を15ビットのデータにしか変換できない。
【0024】
このため、大きな信号レベルの音声信号が入力された場合には、一方のアナログ−デジタル変換器14では、許容入力電圧を超えてしまい、音声波形のピーク部分が飽和した状態で音声データに変換される。このとき、他方のアナログ−デジタル変換器18では、大きな信号レベルの音声信号が減衰した状態で入力されるため、音声波形のピーク部分が正常に音声データに変換される。
【0025】
また、小さな信号レベルの音声信号が入力された場合には、一方のアナログ−デジタル変換器14では、許容入力電圧の範囲内の音声信号が入力されるため、音声波形のピーク部分が正常に音声データに変換される。
倍精度データ生成部22は、一方のアナログ−デジタル変換器14から出力される中間データが飽和していない場合にはこの中間データをそのまま用いて30ビットのデータビットを生成し、一方のアナログ−デジタル変換器14から出力される中間データが飽和している場合には他方のアナログ−デジタル変換器18から出力される中間データを215倍して30ビットのデータビットを生成し、符号ビット1、データビット30で合計31ビットの倍精度データ(合成データ)を生成する。合成データに含まれる符号ビットは、アナログ−デジタル変換器14、18から出力される中間データの符号ビットがそのまま用いられる。
【0026】
なお、倍精度データ生成部22の他の動作例としては、31ビットの音声データに含まれるデータビットの中の上位15ビットに、他方のアナログ−デジタル変換器18から出力される中間データの中のデータビットを当てはめ、31ビットの音声データに含まれるデータビットの中の下位15ビットに、一方のアナログ−デジタル変換器14から出力される中間データの中のデータビットを当てはめることにより(この中間データが飽和している場合には下位15ビットの各ビットを“0”とする)、符号ビット1、データビット30で合計31ビットの合成データを生成するようにしてもよい。
【0027】
音声区間終了判定部24は、倍精度データ生成部22によって生成される合成データを監視することにより、音声区間の終了タイミングを判定する。例えば、音声信号の入力が開始された後、合成データの値が「0」あるいは所定値よりも小さくなったときに、認識対象としてのひとまとまりの音声入力が終了したものとして判定される。
【0028】
有効データ位置監視部26は、合成データに含まれる30ビットのデータビットの各値を調べ、値が“1”となる最上位のビット位置を検出し、そのビット位置を有効データ位置として抽出する。この有効データ位置は、次に入力される合成データに対応する有効データ位置の方が上位ビット側にある場合には、それまでの値が更新され、それ以外の場合には廃棄される。このようにして、最も信号レベルが大きい音声データに対応する有効データ位置が保持される。
【0029】
認識処理用データ生成部28は、音声区間終了判定部24によって音声区間の終了タイミングが判定されるまでの間、倍精度データ生成部22から出力される合成データを蓄積する。また、認識処理用データ生成部28は、この蓄積期間終了後に、有効データ位置監視部26で検出された有効データ位置を含む下位15ビットの抽出位置を決定し、蓄積順に合成データを読み出してこの抽出位置に対応する15ビットデータを抽出し、さらに符号ビットを加えた合計16ビットの認識処理用データを生成する。このようにして生成された認識処理用データは、音声入力装置100の後段に接続された音声認識装置200に入力される。
【0030】
上述した増幅器12、減衰器16が信号生成手段、利得変更手段に、アナログ−デジタル変換器14、18がアナログ−デジタル変換手段に、波形推定部20がデータ合成手段にそれぞれ対応する。
このように、本実施形態の音声入力装置100では、一つのアナログ−デジタル変換器の量子化ビット数では足りないようなダイナミックレンジの広い入力音声信号に対しても、2つのアナログ−デジタル変換器14、18を用いることにより波形の部分的な欠落がない符号化処理を行うことが可能になり、広いダイナミックレンジの確保とともに、音声波形全体が含まれるデータを生成して音声認識装置200に入力することによって音声認識処理の認識率を高めることが可能になる。
【0031】
また、増幅器12や減衰器16のそれぞれを単独であるいは組み合わせて用いることにより、一の入力音声信号に対して、振幅(利得)が異なる2つの音声信号を生成することが可能になる。
また、波形推定部20では、減衰器16の利得に対応してビット数をシフトして2つの中間データを合成することにより、元の入力音声信号の波形全体を含むビット数が多い合成データを容易に生成することができる。
【0032】
また、波形推定部20においてビット長の多い合成データの中から所定ビット数の認識処理用データを切り出して出力することにより、所定ビット数のデータに対して音声認識処理を行う従来の音声認識装置200を用いることができるため、音声認識システム全体のコスト上昇を抑えることが可能になる。
【0033】
また、波形推定部20は、音声区間が終了するまでの一連の合成データ蓄積し、この区間が終了した後に認識処理用データを切り出しているため、音声認識の対象となる一連の音声について、その波形に含まれるピークの情報を保持した所定ビット数の認識処理用データを切り出すことが可能になり、認識率を高めることができる。
【0034】
なお、上述した本実施形態の音声入力装置100では、波形推定部20内の認識処理用データ生成部28は、音声区間終了判定部24によって音声区間の終了タイミングが判定されるまでの期間合成データを蓄積し、この蓄積期間が終了した後認識処理用データを出力していたため、この蓄積期間に相当する遅延時間が発生する。この遅延時間を短くするために、例えば、短い分割期間を設定し、この分割期間毎に認識処理用データ生成部28から認識処理用データを出力するようにしてもよい。但し、それ以前の分割期間に対応して出力された認識処理用データよりも大きな値を有する認識処理用データが出力されると、これ以後の分割期間における認識処理用データの合成データ中の切り出し位置が変更されてしまい、それ以前の認識処理用データが無効になってしまう。この時点で、後段の音声認識装置200にその旨を通知して音声認識処理を中断させるとともに、最初から切り出し位置を変更した認識処理用データを再度出力する必要がある。後段の音声認識装置200では、このようにして再度出力された一連の認識処理用データを用いて音声認識処理を行う。
【0035】
また、上述した本実施形態の音声入力装置100を用いて16ビットの認識処理用データを生成した場合には、信号レベルが小さな入力音声信号に対しては音声データの合成が行われない認識処理用データが生成され、信号レベルが大きな入力音声信号に対しては音声データの合成が行われて認識処理用データが生成される。合成処理によって認識処理用データに含まれる歪み(誤差)が増加する場合には、合成処理の有無に応じて音声認識装置200での認識方式を変更することが望ましい。
【0036】
図3は、音声入力装置および音声認識装置の変形例を示す図である。図3に示す音声入力装置100Aは、図1に示した音声入力装置100に対してレベルメータ30を追加した点が異なっている。レベルメータ30は、増幅器12から出力される音声信号の信号レベルを検出する。この信号レベルが所定値以上になったときに、アナログ−デジタル変換器14の入力許容電圧範囲を超えて音声データの合成処理が行われるため、レベルメータ30の検出出力を監視することにより、波形推定部20から出力される認識処理用データが合成処理によって生成されたものであるか否かを判別することが可能になる。
【0037】
また、図3に示す音声認識装置200Aは、認識処理部210、通常音響辞書212、歪み学習音響辞書214、切替部216を備えている。通常音響辞書212には、合成処理が行われていない認識処理用データの内容を認識するための照合用波形データが格納されている。また、歪み学習音響辞書214には、合成処理が行われた認識処理用データの内容を認識するための照合用波形データが格納されている。切替部216は、レベルメータ30によって検出された音声信号のレベル値が所定値を超えていないときに通常音響辞書212を認識処理部210に接続し、所定値を超えているときに歪み学習音響辞書214を認識処理部210に接続する。認識処理部210は、音声入力装置100A内の波形推定部20から出力される16ビットの認識処理用データに対して、接続された通常音響辞書212あるいは歪み学習音響辞書214に格納された照合用波形データを用いて音声認識処理を実行する。
【0038】
このように、同じ16ビットの認識処理用データであっても、合成処理によって得られたものか否かによって、使用する辞書を切り替えることにより、認識率をさらに向上させることが可能になる。
〔第2の実施形態〕
図4は、第2の実施形態の音声入力装置の構成を示す図である。図4に示す本実施形態の音声入力装置100Bは、マイクロホン10、増幅器12、アナログ−デジタル変換器(A/D)14、18、減衰器16、波形推定部20B、レベルメータ32、34を含んで構成されている。この音声入力装置100Bは、図1に示した音声入力装置100に対して、レベルメータ32、34を追加するとともに、波形推定部20を波形推定部20Bに変更した点が異なっている。
【0039】
一方のレベルメータ32は、一方のアナログ−デジタル変換器14に入力される音声信号の信号レベルを検出する。また、他方のレベルメータ34は、他方のアナログ−デジタル変換器18に入力される音声信号の信号レベルを検出する。これらのレベルメータ32、34がレベル検出手段に対応する。
【0040】
波形推定部20Bは、レベルメータ32、34によって検出される2つの音声信号のレベル比に基づいて、アナログ−デジタル変換器14、18から出力される2つの中間データを合成する。
上述した第1の実施形態では、減衰器16の利得が(1/2)15倍に設定されているものとしたが、実際には減衰器16を構成する素子の製造上のばらつき等があるため、正確にこの利得を実現することは難しい。本実施形態の波形推定部20Bは、レベルメータ32、34によって検出される2つの音声信号のレベル比に基づいて2つの中間データを合成する際のビット位置を決定している。例えば、減衰器16の設計上の利得を(1/2)15倍に設定したときに、レベルメータ32、34の検出結果からこの設計値に一致する音声信号のレベル比(減衰比)が確かめられた場合には、アナログ−デジタル変換器14、18から出力される2つの中間データを15ビットシフトさせて合成データが生成される。また、レベルメータ32、34の検出結果から、減衰器16の実際の利得が(1/2)14倍であることが確かめられた場合には、アナログ−デジタル変換器14、18から出力される2つの中間データを14ビットシフトさせて合成データが生成される。
【0041】
このように、本実施形態の音声入力装置100Bでは、製造上のばらつき等を考慮して音声データの合成を行うこにより、歪みの少ない認識処理用データを生成することが可能になり、後段の音声認識装置200における音声認識処理の認識率を高めることが可能になる。
【0042】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。上述した実施形態では、2つのアナログ−デジタル変換器を用いて音声入力装置100、100A、100Bを構成したが、3つ以上のアナログ−デジタル変換器を用いて音声入力装置を構成するようにしてもよい。
【0043】
図5は、3つ以上のアナログ−デジタル変換器を用いた音声入力装置の構成を示す図である。図5に示す音声入力装置100Cは、マイクロホン10、増幅器12、アナログ−デジタル変換器14、複数の減衰器16、複数のアナログ−デジタル変換器18、波形推定部20Cを含んで構成されている。例えば、アナログ−デジタル変換器14、18の合計の個数をn、それぞれから出力される中間データの符号ビットを除くデータビットのビット長をmとすると、波形推定部20Cは、n×mビットのデータビットに1ビットの符号ビットを加えた合成データを生成し、その中から所定ビット数の認識処理用データを生成する。このように、アナログ−デジタル変換器の数を増やすことにより、入力音声信号を認識処理用データに変換する際のダイナミックレンジをさらに広くすることができる。また、それぞれのアナログ−デジタル変換器は、ビット数の少ない安価なものを用いることができるようになるため、装置全体のコストダウンを図ることが可能になる。
【0044】
また、上述した各実施形態では、各アナログ−デジタル変換器によって変換される中間データのビット数を全て同じにしたが、異なるビット数のアナログ−デジタル変換器を組み合わせて用いるようにしてもよい。
また、上述した各実施形態では、波形推定部20等において生成したビット数の多い合成データの中から所定ビット数の認識処理用データを抜き出しているが、音声認識装置200、200Aにおいてこの合成データをそのまま処理することができる場合には、合成データそのものを認識処理用データとして出力するようにしてもよい。このような場合であっても、ビット数が少ないアナログ−デジタル変換器を用いることが可能であり、入力音声信号に対して広いダイナミックレンジを確保しつつ、コストダウンを図ることが可能になる。
【0045】
また、上述した各実施形態では、減衰器16を用いて振幅が異なる複数の音声信号を生成しているが、増幅器を用いたり、増幅器と減衰器16とを組み合わせて用いて振幅が異なる複数の音声信号を生成するようにしてもよい。
【0046】
【発明の効果】
上述したように、本発明によれば、一つのアナログ−デジタル変換手段の量子化ビット数では足りないようなダイナミックレンジの広い音声信号に対しても、波形の部分的な欠落がない符号化処理を行うことが可能になり、広いダイナミックレンジの確保とともに、音声波形全体が含まれるデータを生成して音声認識装置に入力することによって音声認識処理の認識率を高めることが可能になる。
【図面の簡単な説明】
【図1】第1の実施形態の音声入力装置の構成を示す図である。
【図2】波形推定部の詳細構成を示す図である。
【図3】音声入力装置および音声認識装置の変形例を示す図である。
【図4】第2の実施形態の音声入力装置の構成を示す図である。
【図5】3つ以上のアナログ−デジタル変換器を用いた音声入力装置の構成を示す図である。
【符号の説明】
10 マイクロホン
12 増幅器
14、18 アナログ−デジタル変換器(A/D)
16 減衰器
20、20B、20C 波形推定部
22 倍精度データ生成部
24 音声区間終了判定部
26 有効データ位置監視部
28 認識処理用データ生成部
100、100A、100B、100C 音声入力装置
200、200A 音声認識装置
210 認識処理部
212 通常音響辞書
214 歪み学習音響辞書
216 切替部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice input device that converts an input voice signal into voice data to be subjected to voice recognition processing.
[0002]
[Prior art]
2. Description of the Related Art A voice recognition device that recognizes the content of voice collected by a microphone is known, and is applied to an input device of a vehicle-mounted navigation device. In such a voice recognition device, the user has not yet completely recognized the content of a naturally uttered voice, and various measures have been taken to increase the recognition rate. For example, there is known a speech recognition device in which the amplitude of an audio to be recognized is adjusted by setting the gain of an amplifier for amplifying input speech in accordance with the dynamic range of the input speech (for example, see Patent Document 1). .). In this speech recognition device, the gain of the amplifier is set high for a user with a small voice, and the gain of the amplifier is set low for a user with a loud voice. The dynamic range can always be maintained at the optimal level, and the recognition rate can be increased.
[0003]
[Patent Document 1]
JP-A-61-180296 (page 2, FIG. 1)
[0004]
[Problems to be solved by the invention]
By the way, in the voice recognition device disclosed in Patent Document 1 described above, the gain of the amplifier is set based on the dynamic range of the input voice, and the optimal dynamic range is set for the subsequent input voice. There has been a problem that the recognition rate cannot be increased until the gain setting of the amplifier is completed after the first input. In addition, it cannot be applied when the dynamic range itself of the input voice changes, such as when the same user or multiple users utter a loud voice and a low voice alternately, and the recognition rate cannot be increased. There was a problem.
[0005]
Generally, it is said that the dynamic range of a human voice is about 60 dB from a whisper to a shout. Moreover, considering that the loudness of the voice varies from person to person, the dynamic range of the entire voice is considered to be further increased. When such input voice is converted into voice data using a commonly used 16-bit quantized analog-to-digital converter, it corresponds to data in the range of 15 bits to 5 bits.
[0006]
On the other hand, the upper limit of the dynamic range of input speech that can be recognized by the speech recognition processing is currently about 40 dB, and when a 16-bit quantization analog-to-digital converter is used, data in a range of 15 bits to 9 bits is obtained. Equivalent to. That is, if a voice corresponding to a small voice is input while a gain corresponding to a large voice is set, the content cannot be recognized.
[0007]
The present invention has been made in view of such a point, and an object of the present invention is to provide a voice input device capable of increasing a recognition rate for voice having a wide dynamic range.
[0008]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, a voice input device of the present invention is a voice input device that is provided before a voice recognition device and generates voice data corresponding to an input voice signal. Signal generating means for generating a plurality of audio signals having different amplitudes, a plurality of analog-digital converting means for converting each of the plurality of audio signals generated by the signal generating means into digital data, and a plurality of analog-digital conversions Data combining means for combining a plurality of digital data output from the means. As a result, even for an audio signal having a wide dynamic range such that the number of quantization bits of one analog-to-digital converter is insufficient, it is possible to perform encoding processing without partial loss of a waveform, Along with securing a wide dynamic range, it is possible to increase the recognition rate of the voice recognition process by generating data including the entire voice waveform and inputting the data to the voice recognition device.
[0009]
Further, it is desirable to further include a microphone that collects audio and outputs an input audio signal. This makes it possible to convert various sounds collected by the microphone with a wide dynamic range into digital data for voice recognition without any change.
[0010]
Further, it is preferable that the above-mentioned signal generating means has at least one gain changing means for attenuating or amplifying the input audio signal with a predetermined gain. This makes it possible to easily generate a plurality of audio signals having different amplitudes (gains) for one input audio signal.
[0011]
Further, the data synthesizing means uses the output data when the output data of the one analog-digital conversion means is not saturated. When the output data is saturated, the data synthesizing means changes the waveform shape of the saturated part to another. It is desirable to estimate based on the non-saturated output data of the analog-to-digital conversion means. As a result, it is possible to secure a wide dynamic range exceeding the dynamic range of one analog-digital conversion unit.
[0012]
In addition, it is desirable that the data synthesizing unit described above synthesizes the bit positions of the plurality of digital data output from the plurality of analog-to-digital converting units by shifting the bit positions by the number of bits corresponding to the gain of the gain changing unit. This makes it possible to combine digital data corresponding to a plurality of audio signals having a small number of bits to generate data having a large number of bits including the entire waveform of the original input audio signal.
[0013]
In addition, the apparatus further includes level detection means for detecting the level of each of the plurality of audio signals generated by the signal generation means described above, wherein the data synthesizing means detects the level of each of the plurality of audio signals detected by the level detection means. It is desirable to determine the number of bits to be shifted during the combining process according to the ratio. This makes it possible to combine data in consideration of element constants and manufacturing variations, and to generate data with little distortion corresponding to the input audio signal.
[0014]
The number of the analog-to-digital conversion means is two, and it is desirable to use a stereo analog-to-digital converter. Thus, the parts cost can be reduced by using a pair of analog-to-digital converters that are generally commercially available for stereo use.
[0015]
Further, the above-described data synthesizing means accumulates digital data input in a predetermined period, and converts data of a predetermined number of bits including an audio signal having the largest amplitude in this period from among the stored digital data. It is desirable to perform a process of cutting out and outputting. This makes it possible to generate data of a predetermined number of bits including a peak of a voice waveform required for voice recognition. In addition, by generating data of a predetermined number of bits, a conventional voice recognition device that performs a voice recognition process on data of a predetermined number of bits can be used, thereby suppressing an increase in the cost of the entire voice recognition processing system. Will be possible.
[0016]
Further, it is desirable that the above-mentioned predetermined period is a voice input section until the input voice signal is interrupted. This makes it possible to cut out a predetermined number of bits of data holding the information on the peaks contained in the waveform of a series of voices to be recognized, thereby increasing the recognition rate.
[0017]
Further, the above-mentioned predetermined period is a divided period shorter than the audio input section until the input audio signal is interrupted, and the amplitude of the audio signal corresponding to the subsequent divided period is the amplitude of the audio signal corresponding to the earlier divided period. If it is larger, it is desirable to repeat the process of cutting out and outputting the stored digital data from the previous divided period. This makes it possible to reduce the delay time of the voice recognition processing.
[0018]
Further, a voice recognition processing system according to the present invention includes the above-described voice input device and a voice recognition device that performs voice recognition processing on data output from the voice input device. When the data output from the synthesizing means is generated using digital data output from one analog-digital converting means, and when the data output is generated using digital data output from a plurality of analog-digital converting means. Thus, a plurality of acoustic dictionaries used for speech recognition processing are selectively used. In particular, the plurality of acoustic dictionaries described above include a distortion learning acoustic dictionary in which distortion generated when synthesizing digital data output from one analog-to-digital converter is considered, and a normal acoustic dictionary in which the distortion is not considered. It is desirable to include a dictionary. This makes it possible to perform speech recognition processing in consideration of distortion generated due to data synthesis, and to increase the recognition rate.
[0019]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a voice input device according to an embodiment of the present invention will be described in detail with reference to the drawings.
[First Embodiment]
FIG. 1 is a diagram illustrating a configuration of the voice input device according to the first embodiment. The voice input device 100 of the present embodiment shown in FIG. 1 is provided at a preceding stage of a voice recognition device to generate voice data corresponding to an input voice signal, and includes a microphone 10, an amplifier 12, an analog-digital conversion (A / D) 14, 18, an attenuator 16, and a waveform estimating unit 20. A speech recognition processing system includes the speech input device 100 and a speech recognition device 200 connected to the subsequent stage.
[0020]
The microphone 10 collects the voice of the user to be recognized, and outputs an input voice signal corresponding to the voice. The amplifier 12 amplifies the input audio signal with a predetermined gain so as to have an amplitude level that can be processed by the analog-digital converters 14 and 18. One analog-digital converter 14 converts the amplified audio signal output from the amplifier 12 into digital data having a predetermined number of bits. For example, an audio signal is converted into 16-bit audio data (intermediate data) having 1 sign bit and 15 data bits.
[0021]
The attenuator 16 attenuates the audio signal output from the amplifier 12 and outputs the attenuated audio signal. For example, the attenuation gain is (1/2) Fifteen It is set to double. The other analog-digital converter 18 converts the attenuated audio signal output from the attenuator 16 into digital data of a predetermined number of bits. For example, similarly to the analog-to-digital converter 14, the audio signal is converted into audio data (intermediate data) having a total of 16 bits with 1 sign bit and 15 data bits. By using a pair of analog-to-digital converters 14 and 18 that are generally sold for stereo use, the cost of parts can be reduced.
[0022]
The waveform estimating unit 20 combines the 16-bit intermediate data output from each of the two analog-to-digital converters 14 and 18 to generate a total of 31-bit combined data having 1 sign bit and 30 data bits. I do. For example, the waveform estimating unit 20 uses the output data of the analog-to-digital converter 14 when the output data is not saturated. When the output data is saturated, the waveform estimating unit 20 converts the waveform shape of the saturated portion into another analog data. Performing synthesis processing of intermediate data by estimating based on output data of the digital converter 18 which is not saturated.
[0023]
FIG. 2 is a diagram illustrating a detailed configuration of the waveform estimating unit 20. As shown in FIG. 2, the waveform estimating unit 20 includes a double precision data generating unit 22, a voice section end determining unit 24, a valid data position monitoring unit 26, and a recognition processing data generating unit 28.
As described above, the signal level of the audio signal input to one analog-digital converter 14 is (() that of the audio signal input to the other analog-digital converter 18. Fifteen Since these sound signals are attenuated by a factor of two, when these sound signals are converted into 31-bit digital data, the positions where the waveform information of each sound signal appears are shifted by 15 bits. In practice, the analog-to-digital converters 14 and 18 can only convert an input audio signal into 15-bit data.
[0024]
For this reason, when an audio signal of a large signal level is input, one of the analog-to-digital converters 14 exceeds the allowable input voltage and is converted into audio data in a state where the peak portion of the audio waveform is saturated. You. At this time, since the other analog-to-digital converter 18 receives the attenuated audio signal of a large signal level, the peak portion of the audio waveform is normally converted to audio data.
[0025]
When an audio signal with a small signal level is input, the analog-to-digital converter 14 receives an audio signal within the range of the allowable input voltage, so that the peak portion of the audio waveform normally Converted to data.
When the intermediate data output from one of the analog-to-digital converters 14 is not saturated, the double-precision data generating unit 22 generates a 30-bit data bit using the intermediate data as it is, If the intermediate data output from the digital converter 14 is saturated, the intermediate data output from the other Fifteen The data bits are multiplied to generate 30 data bits, and a total of 31 bits of double-precision data (synthesized data) are generated from the sign bit 1 and the data bit 30. As the sign bit included in the synthesized data, the sign bit of the intermediate data output from the analog-digital converters 14 and 18 is used as it is.
[0026]
Another example of the operation of the double-precision data generation unit 22 is that the upper 15 bits of the data bits included in the 31-bit audio data are added to the intermediate data output from the other analog-digital converter 18. By applying the data bits of the intermediate data output from one of the analog-digital converters 14 to the lower 15 bits of the data bits included in the 31-bit audio data, When the data is saturated, each of the lower 15 bits is set to “0”), the sign bit 1 and the data bit 30 may generate combined data of 31 bits in total.
[0027]
The voice section end determination unit 24 determines the end timing of the voice section by monitoring the combined data generated by the double precision data generation unit 22. For example, when the value of the combined data becomes “0” or smaller than a predetermined value after the input of the audio signal is started, it is determined that the input of a group of audio as a recognition target has been completed.
[0028]
The valid data position monitoring unit 26 checks each value of the 30 data bits included in the combined data, detects the most significant bit position where the value is “1”, and extracts the bit position as a valid data position. . If the valid data position corresponding to the next input composite data is on the upper bit side, the valid data position is updated, and otherwise, the valid data position is discarded. In this way, the valid data position corresponding to the audio data having the highest signal level is held.
[0029]
The recognition processing data generation unit 28 accumulates the combined data output from the double precision data generation unit 22 until the voice section end determination unit 24 determines the end timing of the voice section. After the accumulation period, the recognition processing data generation unit 28 determines the extraction position of the lower 15 bits including the effective data position detected by the effective data position monitoring unit 26, reads out the synthesized data in the accumulation order, and The 15-bit data corresponding to the extraction position is extracted, and a total of 16-bit data for recognition processing is generated by adding a sign bit. The recognition processing data generated in this way is input to the speech recognition device 200 connected to the subsequent stage of the speech input device 100.
[0030]
The above-described amplifier 12 and attenuator 16 correspond to a signal generating unit and a gain changing unit, the analog-digital converters 14 and 18 correspond to an analog-digital converting unit, and the waveform estimating unit 20 corresponds to a data combining unit.
As described above, in the audio input device 100 of the present embodiment, the two analog-to-digital converters are used even for an input audio signal having a wide dynamic range where the number of quantization bits of one analog-to-digital converter is insufficient. 14 and 18, it is possible to perform encoding processing without partial loss of the waveform, secure a wide dynamic range, generate data including the entire speech waveform, and input the data to the speech recognition device 200. By doing so, it becomes possible to increase the recognition rate of the voice recognition processing.
[0031]
Further, by using the amplifier 12 and the attenuator 16 alone or in combination, it is possible to generate two audio signals having different amplitudes (gains) from one input audio signal.
Further, the waveform estimating unit 20 shifts the number of bits in accordance with the gain of the attenuator 16 and synthesizes the two intermediate data, thereby synthesizing the synthesized data having a large number of bits including the entire waveform of the original input audio signal. Can be easily generated.
[0032]
A conventional speech recognition apparatus that performs speech recognition processing on data having a predetermined number of bits by extracting and outputting recognition processing data having a predetermined number of bits from synthesized data having a large bit length in the waveform estimating unit 20. Since 200 can be used, it is possible to suppress an increase in cost of the entire speech recognition system.
[0033]
In addition, since the waveform estimation unit 20 accumulates a series of synthesized data until the end of the voice section and cuts out the data for recognition processing after the end of the section, the waveform estimating unit 20 outputs a series of voices to be subjected to voice recognition. This makes it possible to cut out a predetermined number of bits of recognition processing data holding information on peaks included in the waveform, thereby increasing the recognition rate.
[0034]
In the above-described speech input device 100 of the present embodiment, the recognition processing data generation unit 28 in the waveform estimating unit 20 outputs the period synthesis data until the speech segment end determination unit 24 determines the end timing of the speech segment. Is accumulated, and the data for recognition processing is output after the end of the accumulation period, so that a delay time corresponding to the accumulation period occurs. In order to shorten the delay time, for example, a short divided period may be set, and the recognition processing data generator 28 may output the recognition processing data for each of the divided periods. However, if recognition processing data having a larger value than the recognition processing data output corresponding to the previous divided period is output, the cut-out of the combined data of the recognition processing data in the subsequent divided periods is performed. The position is changed, and the previous recognition processing data becomes invalid. At this point, it is necessary to notify the subsequent speech recognition apparatus 200 of the fact and interrupt the speech recognition processing, and output again the recognition processing data whose cutout position has been changed from the beginning. The subsequent speech recognition device 200 performs the speech recognition process by using the series of recognition process data output again in this manner.
[0035]
Also, when 16-bit recognition processing data is generated using the above-described voice input device 100 of the present embodiment, the recognition processing in which voice data is not synthesized for an input voice signal having a small signal level is performed. Data is generated, and voice data is synthesized for an input voice signal having a large signal level to generate recognition processing data. When the distortion (error) included in the recognition processing data increases due to the synthesis processing, it is desirable to change the recognition method in the speech recognition device 200 according to the presence or absence of the synthesis processing.
[0036]
FIG. 3 is a diagram illustrating a modification of the voice input device and the voice recognition device. The voice input device 100A shown in FIG. 3 is different from the voice input device 100 shown in FIG. 1 in that a level meter 30 is added. Level meter 30 detects the signal level of the audio signal output from amplifier 12. When the signal level becomes equal to or higher than a predetermined value, the synthesis processing of the audio data is performed beyond the allowable input voltage range of the analog-to-digital converter 14, so that the detection output of the level meter 30 is monitored, It is possible to determine whether or not the recognition processing data output from the estimating unit 20 is generated by the combining processing.
[0037]
3 includes a recognition processing unit 210, a normal acoustic dictionary 212, a distortion learning acoustic dictionary 214, and a switching unit 216. The normal acoustic dictionary 212 stores collation waveform data for recognizing the contents of the recognition processing data that has not been subjected to the synthesis processing. Further, the distortion learning acoustic dictionary 214 stores collation waveform data for recognizing the contents of the recognition processing data that has undergone the synthesis processing. The switching unit 216 connects the normal acoustic dictionary 212 to the recognition processing unit 210 when the level value of the audio signal detected by the level meter 30 does not exceed the predetermined value, and outputs the distortion learning sound when the level value exceeds the predetermined value. The dictionary 214 is connected to the recognition processing unit 210. The recognition processing unit 210 compares the 16-bit recognition processing data output from the waveform estimating unit 20 in the voice input device 100A with the collation data stored in the connected normal acoustic dictionary 212 or distortion learning acoustic dictionary 214. A speech recognition process is performed using the waveform data.
[0038]
As described above, even if the same 16-bit data for recognition processing is used, it is possible to further improve the recognition rate by switching the dictionary to be used depending on whether or not the data is obtained by the synthesis processing.
[Second embodiment]
FIG. 4 is a diagram illustrating a configuration of the voice input device according to the second embodiment. 4 includes a microphone 10, an amplifier 12, analog-to-digital converters (A / D) 14, 18, an attenuator 16, a waveform estimating unit 20B, and level meters 32, 34. It is composed of The voice input device 100B is different from the voice input device 100 shown in FIG. 1 in that level meters 32 and 34 are added and the waveform estimating unit 20 is changed to a waveform estimating unit 20B.
[0039]
One level meter 32 detects the signal level of the audio signal input to one analog-digital converter 14. The other level meter 34 detects the signal level of the audio signal input to the other analog-digital converter 18. These level meters 32 and 34 correspond to level detecting means.
[0040]
The waveform estimating unit 20B combines the two intermediate data output from the analog-digital converters 14 and 18 based on the level ratio between the two audio signals detected by the level meters 32 and 34.
In the first embodiment, the gain of the attenuator 16 is (1 /). Fifteen Although it is assumed that the gain is set to twice, it is difficult to accurately realize this gain due to manufacturing variations of elements constituting the attenuator 16. The waveform estimating unit 20B of the present embodiment determines the bit position when combining two intermediate data based on the level ratio of the two audio signals detected by the level meters 32 and 34. For example, the design gain of the attenuator 16 is (1/2) Fifteen If the level ratio (attenuation ratio) of the audio signal that matches this design value is confirmed from the detection results of the level meters 32 and 34 when the frequency is set to double, the audio signals are output from the analog-digital converters 14 and 18. The composite data is generated by shifting the two intermediate data by 15 bits. From the detection results of the level meters 32 and 34, the actual gain of the attenuator 16 is (1/2) 14 If it is confirmed that the data is double, the two intermediate data output from the analog-to-digital converters 14 and 18 are shifted by 14 bits to generate composite data.
[0041]
As described above, in the voice input device 100B of the present embodiment, by synthesizing voice data in consideration of manufacturing variations and the like, it is possible to generate recognition processing data with less distortion, and It is possible to increase the recognition rate of the voice recognition processing in the voice recognition device 200.
[0042]
Note that the present invention is not limited to the above embodiment, and various modifications can be made within the scope of the present invention. In the above-described embodiment, the audio input devices 100, 100A, and 100B are configured using two analog-digital converters. However, the audio input device is configured using three or more analog-digital converters. Is also good.
[0043]
FIG. 5 is a diagram showing a configuration of a voice input device using three or more analog-digital converters. The audio input device 100C shown in FIG. 5 includes a microphone 10, an amplifier 12, an analog-digital converter 14, a plurality of attenuators 16, a plurality of analog-digital converters 18, and a waveform estimating unit 20C. For example, assuming that the total number of the analog-to-digital converters 14 and 18 is n and the bit length of the data bits excluding the sign bit of the intermediate data output from each is m, the waveform estimating unit 20C has n × m bits. Synthesized data is generated by adding one sign bit to the data bits, and recognition processing data of a predetermined number of bits is generated from the synthesized data. As described above, by increasing the number of analog-to-digital converters, it is possible to further widen the dynamic range when converting an input audio signal into recognition processing data. In addition, since each analog-digital converter can use an inexpensive one having a small number of bits, it is possible to reduce the cost of the entire apparatus.
[0044]
Further, in each of the embodiments described above, the number of bits of the intermediate data converted by each analog-to-digital converter is all the same, but analog-to-digital converters having different numbers of bits may be used in combination.
Further, in each of the above-described embodiments, the predetermined number of bits of the data for recognition processing is extracted from the synthesized data having a large number of bits generated by the waveform estimating unit 20 and the like. Can be processed as it is, the combined data itself may be output as data for recognition processing. Even in such a case, it is possible to use an analog-digital converter having a small number of bits, and it is possible to reduce the cost while securing a wide dynamic range for the input audio signal.
[0045]
Further, in each of the above-described embodiments, a plurality of audio signals having different amplitudes are generated using the attenuator 16, but a plurality of audio signals having different amplitudes are used using an amplifier or a combination of the amplifier and the attenuator 16. An audio signal may be generated.
[0046]
【The invention's effect】
As described above, according to the present invention, even for an audio signal having a wide dynamic range where the number of quantization bits of one analog-to-digital conversion means is not enough, there is no coding process in which a waveform is partially lost. It is possible to secure a wide dynamic range and increase the recognition rate of the voice recognition process by generating data including the entire voice waveform and inputting the data to the voice recognition device.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration of a voice input device according to a first embodiment.
FIG. 2 is a diagram illustrating a detailed configuration of a waveform estimating unit.
FIG. 3 is a diagram showing a modification of the voice input device and the voice recognition device.
FIG. 4 is a diagram illustrating a configuration of a voice input device according to a second embodiment.
FIG. 5 is a diagram showing a configuration of a voice input device using three or more analog-digital converters.
[Explanation of symbols]
10 microphone
12 Amplifier
14, 18 Analog-digital converter (A / D)
16 Attenuator
20, 20B, 20C Waveform estimation unit
22 Double precision data generator
24 Voice section end determination unit
26 Valid data position monitoring unit
28 Data generation unit for recognition processing
100, 100A, 100B, 100C Voice input device
200, 200A speech recognition device
210 Recognition processing unit
212 Normal Sound Dictionary
214 distortion learning acoustic dictionary
216 Switching unit

Claims (12)

音声認識装置の前段に設けられ、入力音声信号に対応する音声データを生成する音声入力装置であって、
前記入力音声信号に対して、振幅が異なる複数の音声信号を生成する信号生成手段と、
前記信号生成手段によって生成された複数の前記音声信号のそれぞれをデジタルデータに変換する複数のアナログ−デジタル変換手段と、
前記複数のアナログ−デジタル変換手段から出力される複数の前記デジタルデータを合成するデータ合成手段と、
を備えることを特徴とする音声入力装置。
A voice input device that is provided before the voice recognition device and generates voice data corresponding to the input voice signal,
For the input audio signal, signal generating means for generating a plurality of audio signals having different amplitudes,
A plurality of analog-digital conversion means for converting each of the plurality of audio signals generated by the signal generation means into digital data,
Data synthesizing means for synthesizing the plurality of digital data output from the plurality of analog-digital conversion means,
A voice input device comprising:
請求項1において、
音声を集音して前記入力音声信号を出力するマイクロホンをさらに備えることを特徴とする音声入力装置。
In claim 1,
An audio input device further comprising a microphone that collects audio and outputs the input audio signal.
請求項1または2において、
前記信号生成手段は、前記入力音声信号に対して所定の利得で減衰あるいは増幅を行う少なくとも一の利得変更手段を有することを特徴とする音声入力装置。
In claim 1 or 2,
The audio input device according to claim 1, wherein the signal generation unit includes at least one gain changing unit that attenuates or amplifies the input audio signal with a predetermined gain.
請求項3において、
前記データ合成手段は、一の前記アナログ−デジタル変換手段の出力データが飽和していない場合にこの出力データを用い、この出力データが飽和した場合にはこの飽和した部分の波形形状を他の前記アナログ−デジタル変換手段の飽和していない出力データに基づいて推定することを特徴とする音声入力装置。
In claim 3,
The data synthesizing unit uses the output data when the output data of one of the analog-digital conversion units is not saturated, and when the output data is saturated, converts the waveform shape of the saturated portion to the other one. A speech input device for estimating based on output data of an analog-digital converter that is not saturated.
請求項3において、
前記データ合成手段は、複数の前記アナログ−デジタル変換手段から出力される複数の前記デジタルデータのそれぞれのビット位置を、前記利得変更手段の利得に応じたビット数分ずらして合成することを特徴とする音声入力装置。
In claim 3,
The data combining means combines bit positions of a plurality of digital data output from a plurality of the analog-digital conversion means by shifting by a bit number corresponding to a gain of the gain changing means. Voice input device.
請求項5において、
前記信号生成手段によって生成される複数の前記音声信号のそれぞれのレベル検出を行うレベル検出手段をさらに備え、
前記データ合成手段は、前記レベル検出手段によって検出された前記複数の音声信号のそれぞれのレベルの比に応じて、合成処理の際にずらすビット数を決定することを特徴とする音声入力装置。
In claim 5,
Further comprising a level detecting means for detecting the level of each of the plurality of audio signals generated by the signal generating means,
The audio input device, wherein the data synthesizing unit determines the number of bits to be shifted during the synthesizing process according to a ratio between respective levels of the plurality of audio signals detected by the level detecting unit.
請求項1〜6のいずれかにおいて、
前記アナログ−デジタル変換手段の数は2であり、ステレオ用のアナログ−デジタル変換器を用いることを特徴とする音声入力装置。
In any one of claims 1 to 6,
The audio input device according to claim 1, wherein the number of the analog-digital conversion means is two, and an analog-digital converter for stereo is used.
請求項1〜7のいずれかにおいて、
前記データ合成手段は、所定期間に入力される前記デジタルデータを蓄積し、この期間内で最も振幅が大きな音声信号が含まれる所定ビット数のデータを、蓄積された各デジタルデータの中から切り出して出力する処理を行うことを特徴とする音声入力装置。
In any one of claims 1 to 7,
The data synthesizing means accumulates the digital data input during a predetermined period, and cuts out a predetermined number of bits of data including the audio signal having the largest amplitude from the accumulated digital data during the period. A voice input device for performing output processing.
請求項8において、
前記所定期間は、前記入力音声信号が途切れるまでの音声入力区間であることを特徴とする音声入力装置。
In claim 8,
The voice input device, wherein the predetermined period is a voice input section until the input voice signal is interrupted.
請求項8において、
前記所定期間は、前記入力音声信号が途切れるまでの音声入力区間よりも短い分割期間であり、後の分割期間に対応する前記音声信号の振幅がそれ以前の分割期間に対応する前記音声信号の振幅よりも大きい場合には、蓄積された各デジタルデータの中から切り出して出力する処理をそれ以前の分割期間から繰り返すことを特徴とする音声入力装置。
In claim 8,
The predetermined period is a divided period shorter than an audio input section until the input audio signal is interrupted, and the amplitude of the audio signal corresponding to the subsequent divided period is the amplitude of the audio signal corresponding to the earlier divided period. If it is larger than the above, a process of cutting out and outputting the stored digital data from the previous divided period is repeated from the preceding divided period.
請求項8〜10のいずれかの音声入力装置と、この音声入力装置から出力されるデータに対して音声認識処理を行う音声認識装置とを備える音声認識処理システムであって、
前記音声認識装置は、前記データ合成手段から出力されるデータが一の前記アナログ−デジタル変換手段から出力される前記デジタルデータを用いて生成される場合と、複数の前記アナログ−デジタル変換手段から出力される前記デジタルデータを用いて生成される場合とで、音声認識処理に用いられる複数の音響辞書を使い分けることを特徴とする音声認識処理システム。
A voice recognition processing system comprising: the voice input device according to any one of claims 8 to 10; and a voice recognition device that performs voice recognition processing on data output from the voice input device.
The voice recognition device may be configured such that data output from the data synthesizing unit is generated using the digital data output from one of the analog-to-digital conversion units, and output from a plurality of the analog-to-digital conversion units. A plurality of acoustic dictionaries used for a speech recognition process when the speech data is generated using the digital data.
請求項11において、
前記複数の音響辞書には、一の前記アナログ−デジタル変換手段から出力される前記デジタルデータを合成する際に発生する歪みを考慮した歪み学習音響辞書と、この歪みが考慮されていない通常音響辞書が含まれていることを特徴とする音声認識処理システム。
In claim 11,
The plurality of acoustic dictionaries include a distortion learning acoustic dictionary in which distortion generated when synthesizing the digital data output from one of the analog-digital conversion means is considered, and a normal acoustic dictionary in which the distortion is not considered. A speech recognition processing system comprising:
JP2003159025A 2003-06-04 2003-06-04 Voice input device and voice recognition processing system Expired - Fee Related JP4531350B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003159025A JP4531350B2 (en) 2003-06-04 2003-06-04 Voice input device and voice recognition processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003159025A JP4531350B2 (en) 2003-06-04 2003-06-04 Voice input device and voice recognition processing system

Publications (2)

Publication Number Publication Date
JP2004361604A true JP2004361604A (en) 2004-12-24
JP4531350B2 JP4531350B2 (en) 2010-08-25

Family

ID=34052210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003159025A Expired - Fee Related JP4531350B2 (en) 2003-06-04 2003-06-04 Voice input device and voice recognition processing system

Country Status (1)

Country Link
JP (1) JP4531350B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133035A (en) * 2005-11-08 2007-05-31 Sony Corp Digital sound recording device, digital sound recording method, and program and storage medium thereof
JP2011064845A (en) * 2009-09-16 2011-03-31 Yamaha Corp Speech recognition device and program
JP2011114663A (en) * 2009-11-27 2011-06-09 Canon Inc Audio signal processing apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210122348A (en) 2020-03-30 2021-10-12 삼성전자주식회사 Digital microphone interface circuit for voice recognition and including the same

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6242198A (en) * 1985-08-20 1987-02-24 松下電器産業株式会社 Voice recognition equipment
JPH0332227A (en) * 1989-06-29 1991-02-12 Yamaha Corp A/d converter
JPH0521298U (en) * 1991-09-04 1993-03-19 沖電気工業株式会社 Voice recognizer
JPH0786943A (en) * 1993-09-13 1995-03-31 Matsushita Electric Ind Co Ltd A/d converter with gain control function
JPH07254965A (en) * 1995-02-15 1995-10-03 Olympus Optical Co Ltd Electronic image pickup device
JPH0887298A (en) * 1994-09-16 1996-04-02 Sony Corp Method and device for processing audio signal
JPH08278797A (en) * 1995-04-10 1996-10-22 Fujitsu Ten Ltd Voice processing device
JPH09184823A (en) * 1995-12-28 1997-07-15 Shimadzu Corp Apparatus for processing detection signal of analyzing apparatus
JP2000112500A (en) * 1998-10-06 2000-04-21 Alpine Electronics Inc Sound input level adjusting device
JP2004523788A (en) * 2001-01-12 2004-08-05 クゥアルコム・インコーポレイテッド System and method for efficient storage of speech recognition models

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6242198A (en) * 1985-08-20 1987-02-24 松下電器産業株式会社 Voice recognition equipment
JPH0332227A (en) * 1989-06-29 1991-02-12 Yamaha Corp A/d converter
JPH0521298U (en) * 1991-09-04 1993-03-19 沖電気工業株式会社 Voice recognizer
JPH0786943A (en) * 1993-09-13 1995-03-31 Matsushita Electric Ind Co Ltd A/d converter with gain control function
JPH0887298A (en) * 1994-09-16 1996-04-02 Sony Corp Method and device for processing audio signal
JPH07254965A (en) * 1995-02-15 1995-10-03 Olympus Optical Co Ltd Electronic image pickup device
JPH08278797A (en) * 1995-04-10 1996-10-22 Fujitsu Ten Ltd Voice processing device
JPH09184823A (en) * 1995-12-28 1997-07-15 Shimadzu Corp Apparatus for processing detection signal of analyzing apparatus
JP2000112500A (en) * 1998-10-06 2000-04-21 Alpine Electronics Inc Sound input level adjusting device
JP2004523788A (en) * 2001-01-12 2004-08-05 クゥアルコム・インコーポレイテッド System and method for efficient storage of speech recognition models

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133035A (en) * 2005-11-08 2007-05-31 Sony Corp Digital sound recording device, digital sound recording method, and program and storage medium thereof
JP2011064845A (en) * 2009-09-16 2011-03-31 Yamaha Corp Speech recognition device and program
JP2011114663A (en) * 2009-11-27 2011-06-09 Canon Inc Audio signal processing apparatus

Also Published As

Publication number Publication date
JP4531350B2 (en) 2010-08-25

Similar Documents

Publication Publication Date Title
JP3623449B2 (en) Method and apparatus for concealing errors in an encoded audio signal and method and apparatus for decoding an encoded audio signal
US5117228A (en) System for coding and decoding an orthogonally transformed audio signal
JP4660578B2 (en) Signal correction device
JPH05304479A (en) High efficient encoder of audio signal
CN1416564A (en) Noise reduction appts. and method
US20080164942A1 (en) Audio data processing apparatus, terminal, and method of audio data processing
US7003126B2 (en) Dynamic range analog to digital converter suitable for hearing aid applications
US20150348525A1 (en) Electronic musical instrument, method of controlling sound generation, and computer readable recording medium
JP4531350B2 (en) Voice input device and voice recognition processing system
JP3354252B2 (en) Voice recognition device
JP2010026323A (en) Speech speed detection device
DK162557B (en) Hearing aid
JP2008058727A (en) Speech coding device
JP3284968B2 (en) Hearing aid with speech speed conversion function
JP2009265422A (en) Information processing apparatus and information processing method
JP3863706B2 (en) Speech coding method
JP3255077B2 (en) Phone
JP3110589B2 (en) A / D converter and D / A converter
JP3753956B2 (en) Encoder
JP2870421B2 (en) Hearing aid with speech speed conversion function
JP2001148632A (en) Encoding device, encoding method and recording medium
JPH08298698A (en) Environmental sound analyzer
JP2975808B2 (en) Voice recognition device
JPH07334189A (en) Sound information analysis device
JPH02127700A (en) Voice response device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100609

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4531350

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140618

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees