JP2006058395A - Sound signal input/output device - Google Patents
Sound signal input/output device Download PDFInfo
- Publication number
- JP2006058395A JP2006058395A JP2004237530A JP2004237530A JP2006058395A JP 2006058395 A JP2006058395 A JP 2006058395A JP 2004237530 A JP2004237530 A JP 2004237530A JP 2004237530 A JP2004237530 A JP 2004237530A JP 2006058395 A JP2006058395 A JP 2006058395A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- acoustic signal
- sound
- signal input
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認識機能を備えるカーナビゲーションシステムや人認証システムなど、人の声の認識とその音源の方位が重要となる各種システムの音声認識装置への音響信号の入出力インターフェイスの技術に関するものである。 The present invention relates to a technology of an input / output interface of an acoustic signal to a voice recognition device of various systems in which recognition of a human voice and a direction of a sound source are important, such as a car navigation system or a human authentication system having a voice recognition function. It is.
従来、音声認識機能を備えるカーナビゲーションシステムや人認証システムに内蔵されている音声認識装置(音声認識回路)への音響信号の入力は、概ね所定の場所に居る対象となる人の顔の位置と思われる方向に向けられた一つのマイクロフォンが拾った音響信号がそのまま入力されている。 Conventionally, the input of an acoustic signal to a voice recognition device (speech recognition circuit) built in a car navigation system or a human authentication system having a voice recognition function generally includes the position of the face of a person who is in a predetermined place. The acoustic signal picked up by one microphone directed in the expected direction is input as it is.
例えば、音声認識機能を備えるカーナビゲーションシステムでは、車両の天井やダッシュボード或いはハンドルに配設された運転手の口近辺に向けられた指向性のマイクロフォンにて運転手の声を拾い、音声認識装置がマイクロフォンで拾った音声(運転手の声(指示命令))を解析してシステムコントローラ(制御用マイクロコンピュータ)に伝送してシステムの制御を行うようになっている。 For example, in a car navigation system having a voice recognition function, a voice recognition device is provided by picking up a driver's voice with a directional microphone directed to the vicinity of the driver's mouth disposed on the ceiling, dashboard or steering wheel of the vehicle. The voice (driver's voice (instruction command)) picked up by the microphone is analyzed and transmitted to the system controller (control microcomputer) to control the system.
したがって、前記マイクロフォンが拾った音響信号には、いかに指向性を持たせても、近くに居る他の人(助手席や後席の同乗者)の声やラジオの音声、その他の雑音などが多少とも含まれていることになり、これが無条件に前記音声認識装置に入力されている。 Therefore, the acoustic signal picked up by the microphone may have some voices from other people (passengers and passengers in the front seat), radio sound, and other noises, no matter how directional. This is included in the voice recognition device unconditionally.
なお、音声認識に関する公知技術として、入力された音響信号が人の声か否かを判定する音声分析装置に関する技術が下記[特許文献1]に記載されている。 In addition, as a known technique related to speech recognition, a technique related to a speech analysis apparatus that determines whether or not an input acoustic signal is a human voice is described in [Patent Document 1] below.
この[特許文献1]に記載された第1の音声分析装置は、正規化平均振幅差関数の極小値と直近の極大値とを検出器で検出して、この検出された極小値から真の極小値を補間器で求めてピッチ検出器に入力し、更にこのピッチ検出器で検出されたピッチの予想領域を与えるガイドピッチをガイドピッチ演算器で求めてピッチ検出器に入力し、ピッチ検出器に重み変数を導入するように構成されており、ピッチ抽出の誤り率を著しく低減でき、音質の劣化を極力防止することができるというものである。 The first speech analyzer described in [Patent Document 1] detects the minimum value of the normalized average amplitude difference function and the latest maximum value with a detector, and detects the true value from the detected minimum value. The minimum value is obtained by an interpolator and input to a pitch detector, and a guide pitch that gives an expected area of the pitch detected by the pitch detector is obtained by a guide pitch calculator and input to the pitch detector. Is configured to introduce a weight variable to the pitch, and the error rate of pitch extraction can be significantly reduced, and deterioration of sound quality can be prevented as much as possible.
また、第2の音声分析装置は、アナログ−デジタル変換器で変換された音声信号と、スペクトル包絡パラメータ抽出器で抽出されたパラメータと、ピッチ検出器で検出されたピッチに対応する正規化平均振幅差関数の真の極小値と直近の極大値との差分の各値を有声音・無声音判別器に入力するように構成されており、有声音・無声音の判別誤り率を著しく低減できるというものである。 In addition, the second speech analysis apparatus includes a speech signal converted by the analog-digital converter, a parameter extracted by the spectrum envelope parameter extractor, and a normalized average amplitude corresponding to the pitch detected by the pitch detector. It is configured to input each difference value between the true minimum value of the difference function and the latest maximum value to the voiced / unvoiced sound discriminator, which can significantly reduce the discrimination error rate of voiced / unvoiced sound. is there.
次に、何処から音が聞こえてくるかを定める音源定位の聴覚センサシステムとして、下記[特許文献2]及び下記[非特許文献1]には、時空間微分法(時空間勾配法)と微分積和量を用いた音源定位アルゴリズムによる音源定位技術を駆使した3次元音源定位センサシステムに関する技術が記載されている。その音源定位の原理は以下の通りである。 Next, the following [Patent Document 2] and [Non-Patent Document 1] include a spatiotemporal differential method (a spatiotemporal gradient method) and a differential as a sound source localization auditory sensor system that determines where sound is heard. A technique related to a three-dimensional sound source localization sensor system using a sound source localization technique based on a sound source localization algorithm using a sum of products is described. The principle of sound source localization is as follows.
即ち、球面波として一定速度で伝播する音波は、球面の面積が距離の2乗に比例して拡がるために音波の振幅は距離に逆比例して減衰する。そこで、音波の振幅を近接した正方形上に設置された4つのマイクロフォンの4点で観測すると、音波の波面は音源に近いマイクロフォンではやや早く、遠いマイクロフォンではやや遅く到達する。音波の伝播速度とマイクロフォンの互いの間隔は既知なので、4つのマイクロフォンの捉えた音響信号の時間差から波面法線、つまり音源の方向が解る。 That is, a sound wave propagating as a spherical wave at a constant velocity has a spherical surface area that expands in proportion to the square of the distance, so that the amplitude of the sound wave attenuates in inverse proportion to the distance. Therefore, when the amplitude of the sound wave is observed at four points of four microphones installed on adjacent squares, the wavefront of the sound wave reaches a little earlier for a microphone close to the sound source and a little later for a far microphone. Since the propagation speed of the sound wave and the distance between the microphones are known, the wavefront normal, that is, the direction of the sound source can be determined from the time difference between the acoustic signals captured by the four microphones.
また、音波の振幅が距離に逆比例して減衰する性質から、音源との距離も、音源に近いマイクロフォンと遠いマイクロフォンでの振幅比とマイクロフォン同士の音源からの距離差から簡単に求められる。 Further, because of the property that the amplitude of the sound wave attenuates in inverse proportion to the distance, the distance to the sound source can also be easily obtained from the amplitude ratio between the microphones close to and far from the sound source and the distance difference between the microphones.
上記原理に基づく音源定位センサシステムは、集音装置の方位角を制御して音源を定位する時空間微分法を用いたシステムであり、音源から出力された音響信号が前記集音装置に到達するまでの時間差を所定時間ごとに演算する時間差演算手段と、前記演算された時間差の有効度を判定するための基準となる自己評価量を演算する自己評価量演算手段と、前記演算された自己評価量に基づいて、前記演算された時間差の有効度を判定する判定手段と、前記有効度が低いと判定された場合に前記方位角を変更する方位角制御手段と、前記有効度が高いと判定された前記時間差に基づいて前記音源を定位する音源定位手段とを備える構成である。 The sound source localization sensor system based on the above principle is a system using a spatio-temporal differential method in which the sound source is localized by controlling the azimuth angle of the sound collector, and an acoustic signal output from the sound source reaches the sound collector. A time difference calculating means for calculating a time difference until a predetermined time, a self-evaluation amount calculating means for calculating a self-evaluation amount serving as a reference for determining the effectiveness of the calculated time difference, and the calculated self-evaluation A determination unit that determines the effectiveness of the calculated time difference based on a quantity; an azimuth angle control unit that changes the azimuth when it is determined that the effectiveness is low; and a determination that the effectiveness is high And a sound source localization unit that localizes the sound source based on the time difference.
前述のように、従来の音声認識機能を備えるカーナビゲーションシステムや人認証システムなどでは、対象となるべき人の声以外の、近辺に居る他人の声や人の声でない雑音などが不可避的に前記音声認識装置に入力されてしまい、少なからず音声認識装置の誤認識、延いてはシステムの誤動作を誘発していた。 As described above, in a car navigation system or a human authentication system having a conventional voice recognition function, other than the voice of the person to be targeted, other people's voice in the vicinity or noise that is not the voice of the person is unavoidable. It was input to the voice recognition device, and it caused a number of misrecognitions by the voice recognition device, which in turn caused a malfunction of the system.
本発明は、音声認識機能を有する種々のシステムにおける音声認識装置(音声認識回路)に入力される対象となる人以外の音声とそれによるシステム誤動作の問題点に鑑み、予めシステムの音声認識装置に入力されるマイクロフォンが拾った音響信号に条件を与えて選別することにより、前記音声認識機能を備えるシステムの誤動作を極力低減するようにした音響信号入出力装置を提供するものである。 The present invention provides a speech recognition apparatus for a system in advance in view of the problem of speech other than a person to be input to a speech recognition apparatus (speech recognition circuit) in various systems having a speech recognition function and a system malfunction caused thereby. It is an object of the present invention to provide an acoustic signal input / output device capable of reducing malfunctions of a system having the voice recognition function as much as possible by selecting and selecting conditions for acoustic signals picked up by an input microphone.
本発明は、
(1)複数のマイクロフォン1a、1b、1c、1dを所定間隔d離して組み合わせてなる音響信号入力手段1と、前記音響信号入力手段1によって得られた前記各マイクロフォン1a、1b、1c、1dのアナログ音響信号Sa、Sb、Sc、Sdをデジタル音響信号Da、Db、Dc、Ddに変換するA/Dコンバータ2と、前記A/Dコンバータ2にて変換された前記各マイクロフォン1a、1b、1c、1dのデジタル音響信号Da、Db、Dc、Ddを分析して音源の方向を検出する音源定位手段3と、前記音源定位手段3にて定位された音源Aが予め設定された角度範囲δ内の方向からの音源か否かを判定する音源角度判定手段11と、前記音源Aが人の音声か否かを前記A/Dコンバータ2にて変換された前記マイクロフォン1dのデジタル音響信号Ddを分析して判定する音声検出手段12と、前記音響信号入力手段1で得られた音源Aが予め設定された前記角度範囲δ内の方向であり且つ人の音声が含まれる場合のみ前記デジタル音響信号Ddを出力するゲート回路20と、を備えることを特徴とする音響信号入出力装置30、を提供することにより上記課題を解決する。
The present invention
(1) An acoustic signal input means 1 formed by combining a plurality of
(2)また、複数のマイクロフォン1a、1b、1c、1dを所定間隔d離して組み合わせてなる音響信号入力手段1と、前記音響信号入力手段によって得られた前記各マイクロフォン1a、1b、1c、1dのアナログ音響信号Sa、Sb、Sc、Sdをデジタル音響信号に変換するA/Dコンバータ2と、前記A/Dコンバータ2にて変換された前記各マイクロフォン1a、1b、1c、1dのデジタル音響信号Da、Db、Dc、Ddを分析して音源の方向を検出する音源定位手段3と、前記音源定位手段3にて定位された音源が予め設定された角度範囲δ内の方向からの音源か否かを判定する音源角度判定手段11と、前記音源Aが人の音声か否かを前記A/Dコンバータ2にて変換された前記マイクロフォン1dのデジタル音響信号Ddを分析して判定する音声検出手段12と、前記音響信号入力手段1で得られた音源Aが予め設定された前記角度範囲δ内の方向であり且つ人の音声が含まれる場合のみ前記アナログ音響信号Sdを出力するゲート回路21と、を備えることを特徴とする音響信号入出力装置40、を提供することにより上記課題を解決する。
(2) Also, an acoustic signal input means 1 formed by combining a plurality of
本音響信号入出力装置は、入力設定角を所定角に設定した場合に、設定角の範囲内にある音源の音のみに対して且つそれが人の声である場合に対してのみ、対象システムの音声認識装置に音声を出力するので、上記の如く限定された範囲の人の音声の音源がある場合にのみ、カーナビゲーションや人認証システムなどのシステムに内蔵されている音声認識装置へ音源の音響信号が入力されて音声認識が起動するので、音声認識装置の誤認識が大幅に低減される。 This acoustic signal input / output device is applicable only to the sound of the sound source within the range of the set angle and when it is a human voice when the input set angle is set to a predetermined angle. Therefore, only when there is a sound source of human voice in a limited range as described above, the sound source is not transmitted to the voice recognition device built in a system such as a car navigation system or a human authentication system. Since the sound signal is input and the voice recognition is activated, the erroneous recognition of the voice recognition device is greatly reduced.
本発明の請求項1の音響信号入出力装置は、対象システムにおけるデジタル音声入力の音声認識装置の誤認識を低減し、延いては対象システムの誤動作を低減することができる。 The acoustic signal input / output device according to claim 1 of the present invention can reduce misrecognition of a digital speech input speech recognition device in the target system, and thereby reduce malfunction of the target system.
また、本発明の請求項2の音響信号入出力装置は、対象システムにおけるアナログ音声入力の音声認識装置の誤認識を低減することができ、延いては対象システムの誤動作を低減することができる。
The acoustic signal input / output device according to
本発明に係る音響信号入出力装置の実施の形態について図面に基づいて説明する。 An embodiment of an acoustic signal input / output device according to the present invention will be described with reference to the drawings.
図1は本発明に係る第1の音響信号入出力装置の構成例を示すブロック図である。図2は本発明に係る第2の音響信号入出力装置の構成例を示すブロック図である。図3は本発明に係る複数のマイクロフォンを所定間隔離して組み合わせてなる音響信号入力手段の構成を示す斜視図である。図4は本発明のデジタル出力の音響信号入出力装置とデジタル入力の音声認識装置を内蔵するカーナビゲーションシステムとを組み合わせたシステムを説明するための図である。図5は本発明のアナログ出力の音響信号入出力装置とアナログ入力の音声認識装置を内蔵する人認証システムとを組み合わせたシステムを説明するための図である。 FIG. 1 is a block diagram showing a configuration example of a first acoustic signal input / output device according to the present invention. FIG. 2 is a block diagram showing a configuration example of a second acoustic signal input / output device according to the present invention. FIG. 3 is a perspective view showing the configuration of an acoustic signal input means formed by combining a plurality of microphones according to the present invention at a predetermined interval. FIG. 4 is a diagram for explaining a system in which a digital output acoustic signal input / output device of the present invention and a car navigation system incorporating a digital input speech recognition device are combined. FIG. 5 is a diagram for explaining a system in which an analog output acoustic signal input / output device of the present invention and a human authentication system incorporating an analog input speech recognition device are combined.
図1において、音響信号入出力装置30は、図3に示されるように4つのマイクロフォン1a、1b、1c、1dを所定間隔d離して組み合わせてなる(一辺の長さがdの正方形の角の位置にそれぞれ向きを揃えて平行に配置する。)音響信号入力手段1と、前記音響信号入力手段1によって得られた前記各マイクロフォン1a、1b、1c、1dのアナログ音響信号Sa、Sb、Sc、Sdをデジタル音響信号Da、Db、Dc、Dd(例えば12ビット)に変換するA/Dコンバータ2と、前記A/Dコンバータ2にて変換された前記各マイクロフォン1a、1b、1c、1dのデジタル音響信号Da、Db、Dc、Ddを分析して音源Aの方向を検出する音源定位手段3と、前記音源定位手段3にて定位された音源Aが予め設定された角度範囲δ内の方向からの音源か否かを判定する音源角度判定手段11と、前記音源Aが人の音声か否かを前記A/Dコンバータ2にて変換された前記マイクロフォン1dのデジタル音響信号Ddを分析して判定する音声検出手段12と、前記音響信号入力手段1で得られた音源Aが予め設定された前記角度範囲δ内の方向であり且つ人の音声が含まれる場合のみ前記デジタル音響信号Ddを出力するゲート回路20と、を備える構成である。
In FIG. 1, an acoustic signal input /
以下、詳細に述べると、先ず、上記音声検出手段12に入力されるデジタル音響信号は、前記マイクロフォン1dのデジタル音響信号Ddに限らず、他のマイクロフォン1a、1b、1cのデジタル音響信号Da、Db、Dcの何れか1つでもよく、複数でもよい。また、前記ゲート回路20に出力されるデジタル音響信号は、図1のデジタル音響信号Ddに限らず、他のマイクロフォン1a、1b、1cのデジタル音響信号Da、Db、Dcの何れか1つでもよく、複数でもよい。尤も、一般のシステムでは何れか1つで十分である。
Hereinafter, in detail, first, the digital acoustic signal input to the sound detection means 12 is not limited to the digital acoustic signal Dd of the
上記音響信号入出力装置30では、ゲート回路20が音源角度判定手段11の出力信号E1と音声検出手段12の出力信号E2とデジタル音響信号Ddとを入力するAND論理回路で構成されている。
In the acoustic signal input /
前記各マイクロフォン1a、1b、1c、1dの配置は、例えばその隣り合う間隔dが一辺の長さd=30mmの正方形の角にそれぞれ位置するように平行に配置する。また、人間の聴覚との対応を考慮して、一辺の長さdの正方形の対角線の長さが人の両耳間隔とほぼ等しい150mmとなるようにd=106mm程度に離して配置してもよい。
The
前記音源定位手段3は、公知技術の前記[特許文献2]及び[非特許文献1]に記載された聴覚センサシステムが利用できる。 As the sound source localization means 3, the auditory sensor system described in [Patent Document 2] and [Non-Patent Document 1] of publicly known technology can be used.
即ち、図1において、A/D変換されたデジタル音響信号Da、Db、Dc、Ddは、それぞれサンプリング・データ・バッファ4、・・・に記憶され、それらデータの和(合成音場f)を合成演算器5aで求め、その合成音場fをローパスフィルタ6に入力するとともに時間微分演算器7に入力して時間勾配ftを求める。
That is, in FIG. 1, A / D converted digital acoustic signals Da, Db, Dc, Dd are respectively stored in the
また、X方向,Y方向の空間勾配fx,fyをそれぞれX方向空間勾配演算器5b、Y方向空間勾配演算器5cで求めて、前記X方向空間勾配演算器5bの出力fxをローパスフィルタ8に入力し、前記Y方向空間勾配演算器5cの出力fyをローパスフィルタ9に入力する。
Further, the spatial gradients fx and fy in the X direction and the Y direction are obtained by the X direction
次に、音源角度演算器10は、前記ローパスフィルタ6と時間微分演算器7とローパスフィルタ8とローパスフィルタ9のそれぞれの出力信号f,ft,fx,fyを用いて音源の方向(マイクロフォンの集音中心位置を原点とし、マイクロフォンの向きを極軸とする3次元の球座標(r,θ,φ)で表示されるところの音源の極軸からの角度θ。)を算出する。
Next, the sound
前記音源角度判定手段11は、算出された音源の方向が予め設定した角度範囲δ内であるか否かを判定して論理信号E1を出力する比較演算器である。単純に上記音源定位手段3で得られた音源の所定基準線(極軸)からの円錐角θ1(3次元なので球座標(r,θ,φ)の円錐角(余緯度)θと極角(経度)φで方位が表示される。)が所定角度δの範囲内か否かを両者の差分(δ−θ1)を求める減算にて判定する論理回路が適用でき、角度範囲内であれば論理「1」の信号を出力し角度範囲外であれば論理「0」の信号を出力する。 The sound source angle determination means 11 is a comparator for determining whether or not the calculated direction of the sound source is within a preset angle range δ and outputting a logic signal E1. The cone angle θ1 from the predetermined reference line (polar axis) of the sound source obtained by the sound source localization means 3 (the three-dimensional cone angle (coordinate latitude) θ and the polar angle of the spherical coordinates (r, θ, φ)) (Longitude) The direction is displayed with φ.) A logic circuit that can determine whether or not is within the range of the predetermined angle δ by subtraction to obtain the difference (δ−θ1) between the two can be applied. A “1” signal is output, and if it is out of the angle range, a logic “0” signal is output.
前記音声検出手段12は、公知技術の前記[特許文献1]に記載された音声分析装置を利用するのが好ましい。 The voice detection means 12 preferably uses a voice analysis device described in the above-mentioned [Patent Document 1].
即ち、図1において、A/D変換されたデジタル音響信号Ddは、線形予測分析器13に入力されて、偏自己相関関数K[i]と残差ENを算出する。これらはPARCOR分析フィルタ14で予測残差ed[i]が算出され、ローパスフィルタ15を介して平均振幅差関数演算器16にて平均振幅差関数ra[k]を算出する。次に、極小点検出器17にて前記平均振幅差関数の極小点raminを検出し、ピッチ抽出器18でピッチpitchを抽出する。音声区間判定器19は前記偏自己相関関数K[i]と残差EN、前記ピッチpitch、前記平均振幅差関数の極小点raminのデータから人の音声か否かを判定し、論理信号E2を出力する。例えば人の音声であれば「1」を出力しそれ以外の音であれば「0」を出力する。
That is, in FIG. 1, the A / D converted digital acoustic signal Dd is input to the
而して、前記ゲート回路20のAND論理回路に入力されるデジタル音響信号Ddと論理信号E1、E2から、ゲート回路20の出力は、所定角度範囲δ内の音源からの音であり、且つ人の音声である場合に限ってそのデジタル音響信号Ddが出力されることになり、図4に示されるように、音声認識機能を備えるカーナビゲーションシステム32の音声認識装置31に本音響信号入出力装置30を介して入力されるのは所定角度範囲δ内の音源Aである人の音声となる。なお、人の音声帯域以外の音は可及的に図示されないフィルタを介して除去することが望ましい。
Thus, from the digital acoustic signal Dd and the logic signals E1 and E2 input to the AND logic circuit of the
次に、図2に示される音響信号入出力装置40は、前述の音響信号入出力装置30と同様に、複数のマイクロフォン1a、1b、1c、1dを所定間隔d離して組み合わせてなる音響信号入力手段1と、前記音響信号入力手段1によって得られた前記各マイクロフォン1a、1b、1c、1dのアナログ音響信号Sa、Sb、Sc、Sdをデジタル音響信号に変換するA/Dコンバータ2と、前記A/Dコンバータ2にて変換された前記各マイクロフォン1a、1b、1c、1dのデジタル音響信号Da、Db、Dc、Ddを分析して音源の方向を検出する音源定位手段3と、前記音源定位手段3にて定位された音源Aが予め設定された角度範囲δの方向からの音源か否かを判定する音源角度判定手段11と、前記音源Aが人の音声か否かを前記A/Dコンバータ2にて変換された前記マイクロフォン1dのデジタル音響信号Ddを分析して判定する音声検出手段12と、を備え、且つ、前記音響信号入力手段1で得られた音源Aが予め設定された前記角度範囲δ内の方向であり且つ人の音声が含まれる場合のみ前記アナログ音響信号Sdを出力するゲート回路21と、を備える構成である。
Next, the acoustic signal input /
この音響信号入出力装置40では、ゲート回路21が音源角度判定手段11の出力信号E1と音声検出手段12の出力信号E2との論理積をAND論理回路21bで取り、そのAND論理出力E3でマイクロフォン1dのアナログ音響信号Sdの出力ゲートスイッチ21a(スイッチングトランジスタなどで構成)の開閉を行う構成となっていて、前記音響信号入出力装置30との相違点はデジタル音響信号Ddを出力するゲート回路20に代えてアナログ音響信号Sdを出力するゲート回路21を備える点にある。
In this acoustic signal input /
なお、上記音声検出手段12に入力されるデジタル音響信号は図2のマイクロフォン1dのデジタル音響信号Ddに限らず、他のマイクロフォン1a、1b、1cのデジタル音響信号Da、Db、Dcの何れか1つでもよく、複数でもよい。また、前記ゲート回路21に出力されるアナログ音響信号は、図2のアナログ音響信号Sdに限らず、他のマイクロフォン1a、1b、1cのアナログ音響信号Sa、Sb、Scの何れかでもよく、複数でもよい。尤も、一般のシステムでは何れか1つで十分である。
The digital sound signal input to the sound detection means 12 is not limited to the digital sound signal Dd of the
上記音響信号入出力装置30または40の出力であるデジタル音響信号Ddまたはアナログ音響信号Sdは、図4のカーナビゲーションシステム32や図5の人認証システム42のようなデジタル入力またはアナログ入力の音声認識機能を備える種々のシステムの音声認識装置(音声認識回路)31、41に入力される。
The digital acoustic signal Dd or the analog acoustic signal Sd, which is the output of the acoustic signal input /
而して、前記角度範囲δ外の音源B、音源Cからの音は、たとえそれが人の声であっても、本音響信号入出力装置30、40から音声認識装置31、41へ出力されず、音声認識装置31、41の誤認識、延いてはカーナビゲーションシステム32や人認証システム42などの各種システムの誤動作は格段に低減されることになる。
Thus, sounds from the sound source B and the sound source C outside the angle range δ are output from the sound signal input /
なお、図4、図5では2次元で設定範囲の角度δ、δ´を表記しているが、実際の入力設定角δ、δ´は3次元の球座標の極軸Zからの円錐角θで表される角度表示として設定される。 In FIGS. 4 and 5, the angles δ and δ ′ of the setting range are shown in two dimensions, but the actual input setting angles δ and δ ′ are the cone angles θ from the polar axis Z of the three-dimensional spherical coordinates. Is set as an angle display.
本音響信号入出力装置30または40は、設定角度範囲δを図4のようにマイクロフォン1a、・・・の正面側のみならず、図5のように任意の角度範囲δ´の設定が可能である。
In the acoustic signal input /
例えば、図4のカーナビゲーションシステム32における音声認識装置31の音響信号入力インターフェイスに本音響信号入出力装置30を接続し、音源Aが運転手の声、音源Bが助手席の人の声、音源Cがラジオのスピーカの出力音声とした場合に、図のように入力設定角を設定すると、運転手の発する音源Aの音声のみにより本装置が起動して、音源Aの運転手が発する声のみがカーナビゲーションシステム32の音声認識装置31に入力される。したがって、音源Bの助手席の人の声やラジオの音源Cの音声は角度δの範囲外であるために音声認識装置31には音響信号として入力されず、音声認識装置31の誤動作が防止されるのである。仮に助手席の人の声(音源B)を対象の音源とする場合は、音源定位手段3の設定角度範囲δを変更するだけで簡単に変更が可能である。
For example, the sound signal input /
本発明は、従来のカーナビゲーションシステムや人認証システムなどの音声認識機能を備える各種システムにおける音声認識装置の誤認識の低減を目的として、元々ロボットの聴覚センサシステムとして開発された3次元音源定位センサシステムの作用効果と、精密な音声分析のための音声分析装置の作用効果の両者に着眼して、それらを有機的に組み合わせて新たな音声認識のための精度向上の手段とした点に創意工夫が存し、既存の音声認識装置(音声認識回路)の入力側に付加することで簡単且つ飛躍的に音声認識の精度が向上する誠に有益なものであることは言うまでもない。 The present invention is a three-dimensional sound source localization sensor that was originally developed as an auditory sensor system for a robot in order to reduce misrecognition of a voice recognition device in various systems having a voice recognition function such as a conventional car navigation system and a human authentication system. Focusing on both the system effects and the effects of the speech analysis device for precise speech analysis, the idea is to organically combine them into a means for improving accuracy for new speech recognition. Needless to say, it is very useful to add to the input side of an existing speech recognition device (speech recognition circuit) and to improve speech recognition accuracy easily and dramatically.
1 音響信号入力手段
1a、1b、1c、1d マイクロフォン
2 A/Dコンバータ
3 音源定位手段
4 サンプリング・データ・バッファ
5a 合成演算器
5b X方向空間勾配演算器
5c Y方向空間勾配演算器
6、8、9 ローパスフィルタ
7 時間微分演算器
10 音源角度演算器
11 音源角度判定手段
12 音声検出手段
13 線形予測分析器
14 PARCOR分析フィルタ
15 ローパスフィルタ
16 平均振幅差関数演算器
17 極小点検出器
18 ピッチ抽出器
19 音声区間判定器
20、21 ゲート回路
21a 出力ゲートスイッチ
21b AND論理回路
30、40 音響信号入出力装置
A、B、C 音源
Da、Db、Dc、Dd デジタル音響信号
Sa、Sb、Sc、Sd アナログ音響信号
E1 音源角度判定手段の出力の論理信号
E2 音声検出手段の出力の論理信号
E3 AND論理回路のAND論理出力
δ、δ´ 予め設定された角度範囲
d 所定間隔
θ1 円錐角
f 合成音場
ft 時間勾配
fx X方向の空間勾配
fy Y方向の空間勾配
DESCRIPTION OF SYMBOLS 1 Acoustic signal input means 1a, 1b, 1c, 1d Microphone 2 A /
Claims (2)
An acoustic signal input means formed by combining a plurality of microphones with a predetermined separation, an A / D converter for converting an analog acoustic signal of each microphone obtained by the acoustic signal input means into a digital acoustic signal, and the A / D Sound source localization means for detecting the direction of the sound source by analyzing the digital sound signal of each microphone converted by the converter, and the sound source localized by the sound source localization means from a direction within a preset angle range Sound source angle determining means for determining whether the sound source is sound source; sound detecting means for determining whether the sound source is a human voice by analyzing the digital acoustic signal of the microphone converted by the A / D converter; Only when the sound source obtained by the acoustic signal input means is in a direction within the preset angle range and includes human speech. Acoustic signal output device, characterized in that it comprises a gate circuit which outputs the log acoustic signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004237530A JP2006058395A (en) | 2004-08-17 | 2004-08-17 | Sound signal input/output device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004237530A JP2006058395A (en) | 2004-08-17 | 2004-08-17 | Sound signal input/output device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006058395A true JP2006058395A (en) | 2006-03-02 |
Family
ID=36105929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004237530A Pending JP2006058395A (en) | 2004-08-17 | 2004-08-17 | Sound signal input/output device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006058395A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008304555A (en) * | 2007-06-05 | 2008-12-18 | Panasonic Electric Works Co Ltd | Sound input apparatus |
WO2010137069A1 (en) * | 2009-05-27 | 2010-12-02 | 株式会社サスティーン・アーキテクト | Answer verification device and problem generation device |
JP2011179888A (en) * | 2010-02-26 | 2011-09-15 | Nissan Motor Co Ltd | Method and device for calculating wave source position |
WO2015029296A1 (en) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Speech recognition method and speech recognition device |
WO2018173526A1 (en) * | 2017-03-21 | 2018-09-27 | 富士通株式会社 | Computer program for sound processing, sound processing device, and sound processing method |
JP7435948B2 (en) | 2019-11-18 | 2024-02-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Sound collection device, sound collection method and sound collection program |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63262576A (en) * | 1987-04-20 | 1988-10-28 | Sony Corp | Microphone apparatus |
JPH04186399A (en) * | 1990-11-21 | 1992-07-03 | Seiko Epson Corp | Speech recognition device |
JPH0683371A (en) * | 1992-08-31 | 1994-03-25 | Sanyo Electric Co Ltd | Sound collecting and correcting device |
JPH0792988A (en) * | 1993-09-27 | 1995-04-07 | Matsushita Electric Ind Co Ltd | Speech detecting device and video switching device |
JPH1118191A (en) * | 1997-06-23 | 1999-01-22 | Nippon Telegr & Teleph Corp <Ntt> | Sound pickup method and its device |
JPH1152977A (en) * | 1997-07-31 | 1999-02-26 | Toshiba Corp | Method and device for voice processing |
JP2001166025A (en) * | 1999-12-14 | 2001-06-22 | Matsushita Electric Ind Co Ltd | Sound source direction estimating method, sound collection method and device |
JP2001337694A (en) * | 2000-03-24 | 2001-12-07 | Akira Kurematsu | Method for presuming speech source position, method for recognizing speech, and method for emphasizing speech |
JP2002186084A (en) * | 2000-12-14 | 2002-06-28 | Matsushita Electric Ind Co Ltd | Directive sound pickup device, sound source direction estimating device and system |
-
2004
- 2004-08-17 JP JP2004237530A patent/JP2006058395A/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63262576A (en) * | 1987-04-20 | 1988-10-28 | Sony Corp | Microphone apparatus |
JPH04186399A (en) * | 1990-11-21 | 1992-07-03 | Seiko Epson Corp | Speech recognition device |
JPH0683371A (en) * | 1992-08-31 | 1994-03-25 | Sanyo Electric Co Ltd | Sound collecting and correcting device |
JPH0792988A (en) * | 1993-09-27 | 1995-04-07 | Matsushita Electric Ind Co Ltd | Speech detecting device and video switching device |
JPH1118191A (en) * | 1997-06-23 | 1999-01-22 | Nippon Telegr & Teleph Corp <Ntt> | Sound pickup method and its device |
JPH1152977A (en) * | 1997-07-31 | 1999-02-26 | Toshiba Corp | Method and device for voice processing |
JP2001166025A (en) * | 1999-12-14 | 2001-06-22 | Matsushita Electric Ind Co Ltd | Sound source direction estimating method, sound collection method and device |
JP2001337694A (en) * | 2000-03-24 | 2001-12-07 | Akira Kurematsu | Method for presuming speech source position, method for recognizing speech, and method for emphasizing speech |
JP2002186084A (en) * | 2000-12-14 | 2002-06-28 | Matsushita Electric Ind Co Ltd | Directive sound pickup device, sound source direction estimating device and system |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008304555A (en) * | 2007-06-05 | 2008-12-18 | Panasonic Electric Works Co Ltd | Sound input apparatus |
WO2010137069A1 (en) * | 2009-05-27 | 2010-12-02 | 株式会社サスティーン・アーキテクト | Answer verification device and problem generation device |
JP2011179888A (en) * | 2010-02-26 | 2011-09-15 | Nissan Motor Co Ltd | Method and device for calculating wave source position |
WO2015029296A1 (en) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Speech recognition method and speech recognition device |
JPWO2015029296A1 (en) * | 2013-08-29 | 2017-03-02 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Speech recognition method and speech recognition apparatus |
US9818403B2 (en) | 2013-08-29 | 2017-11-14 | Panasonic Intellectual Property Corporation Of America | Speech recognition method and speech recognition device |
WO2018173526A1 (en) * | 2017-03-21 | 2018-09-27 | 富士通株式会社 | Computer program for sound processing, sound processing device, and sound processing method |
US10951978B2 (en) | 2017-03-21 | 2021-03-16 | Fujitsu Limited | Output control of sounds from sources respectively positioned in priority and nonpriority directions |
JP7435948B2 (en) | 2019-11-18 | 2024-02-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Sound collection device, sound collection method and sound collection program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102015745B1 (en) | Personalized Real-Time Audio Processing | |
CN104136299B (en) | For the system, method and the device that in car, sound are led | |
JP3780516B2 (en) | Robot hearing device and robot hearing system | |
EP2737727B1 (en) | Method and apparatus for processing audio signals | |
JP7419270B2 (en) | Wearable system speech processing | |
US9530406B2 (en) | Apparatus and method for recognizing voice | |
US20120121103A1 (en) | Audio/sound information system and method | |
KR20030077797A (en) | Orthogonal circular microphone array system and method for detecting 3 dimensional direction of sound source using thereof | |
CN103180900A (en) | Systems, methods, and apparatus for voice activity detection | |
KR102176098B1 (en) | Method and apparatus for recognizing sound source | |
JP2009080309A (en) | Speech recognition device, speech recognition method, speech recognition program and recording medium in which speech recogntion program is recorded | |
JP2010121975A (en) | Sound-source localizing device | |
JP2006194700A (en) | Sound source direction estimation system, sound source direction estimation method and sound source direction estimation program | |
EP3495942B1 (en) | Head-mounted display and control method thereof | |
KR20130046759A (en) | Apparatus and method for recogniting driver command in a vehicle | |
Fazenda et al. | Acoustic based safety emergency vehicle detection for intelligent transport systems | |
King et al. | Audio-visual based non-line-of-sight sound source localization: A feasibility study | |
JP2006058395A (en) | Sound signal input/output device | |
CN110366852A (en) | Information processing equipment, information processing method and recording medium | |
JP2006023588A (en) | In-vehicle noise suppressing system | |
WO2006131959A1 (en) | Signal separating apparatus | |
US20220272448A1 (en) | Enabling environmental sound recognition in intelligent vehicles | |
KR102324283B1 (en) | Sound detecting system based phase-error filter using a dual microphone and its method | |
JP2019080246A (en) | Directivity control device and directivity control method | |
KR101090182B1 (en) | Dynamic detector of sound direction and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100326 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100817 |