JP2010271712A - Sound data processing device and sound data processing method - Google Patents
Sound data processing device and sound data processing method Download PDFInfo
- Publication number
- JP2010271712A JP2010271712A JP2010101023A JP2010101023A JP2010271712A JP 2010271712 A JP2010271712 A JP 2010271712A JP 2010101023 A JP2010101023 A JP 2010101023A JP 2010101023 A JP2010101023 A JP 2010101023A JP 2010271712 A JP2010271712 A JP 2010271712A
- Authority
- JP
- Japan
- Prior art keywords
- sound data
- operation state
- template
- data processing
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims description 17
- 230000001133 acceleration Effects 0.000 claims description 10
- 230000004886 head movement Effects 0.000 description 14
- 238000000926 separation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 101001120757 Streptococcus pyogenes serotype M49 (strain NZ131) Oleate hydratase Proteins 0.000 description 2
- 229940083712 aldosterone antagonist Drugs 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Abstract
Description
本発明は、ロボットなどの機械装置が発生するノイズを低減するように信号音を含む音データを処理する音データ処理装置及び音データ処理方法に関する。 The present invention relates to a sound data processing device and a sound data processing method for processing sound data including a signal sound so as to reduce noise generated by a mechanical device such as a robot.
たとえば、動作しながら自動音声認識を行うロボットには、ロボット自身の動作によるノイズ、すなわち自己ノイズを抑制する機能が必要である(特許文献1など)。
For example, a robot that performs automatic speech recognition while operating needs a function of suppressing noise caused by the operation of the robot itself, that is, self-noise (
一般に、ノイズ低減のための音源特定及び音源分離が研究されているが、自己ノイズの下での自動音声認識に向けられたものではない(非特許文献1など)。また、スペクトル減算などの従来のノイズ低減方法は、実際にはうまく機能しない場合が多い(非特許文献2など)。また、動作ごとにスペクトル減算を行う方法も知られているが、多数の種類の動作に対応することは、実際上不可能である。さらに、ロボットの自己ノイズのノイズ源は、近距離場に存在するので、従来の遠距離場のノイズ低減方法の性能は大幅に低下する。
In general, sound source identification and sound source separation for noise reduction have been studied, but they are not directed to automatic speech recognition under self-noise (Non-Patent
このように、ロボットの自己ノイズのような、機械装置が発生するノイズを効率的に低減するように信号音を含む音データを処理する音データ処理装置及び方法は開発されていない。 Thus, a sound data processing apparatus and method for processing sound data including signal sound so as to efficiently reduce noise generated by a mechanical device such as robot self-noise has not been developed.
したがって、たとえば、ロボットの自己ノイズのような、機械装置が発生するノイズを効率的に低減するように信号音を含む音データを処理する音データ処理装置及び音データ処理方法に対するニーズがある。 Therefore, there is a need for a sound data processing device and a sound data processing method for processing sound data including signal sound so as to efficiently reduce noise generated by a mechanical device such as robot self-noise.
本発明の一つの態様による音データ処理装置は、機械装置が発生するノイズを低減するように信号音を含む音データを処理する音データ処理装置である。本態様による音データ処理装置は、該機械装置の動作状態を取得する動作状態取得部と、取得された動作状態に対応する音データを取得する音データ取得部と、単位時間における該機械装置の種々の動作状態及び対応する音データをテンプレートとして記憶するデータベースと、を備えている。本発明による音データ処理装置は、該データベースから、取得された動作状態に最も近い動作状態のテンプレートを検索するデータベース検索部と、取得された音データから、取得された動作状態に最も近い動作状態のテンプレートの音データを減算して機械装置が発生するノイズを低減するテンプレート減算部と、をさらに備えている。 A sound data processing apparatus according to one aspect of the present invention is a sound data processing apparatus that processes sound data including a signal sound so as to reduce noise generated by a mechanical device. The sound data processing device according to this aspect includes an operation state acquisition unit that acquires an operation state of the machine device, a sound data acquisition unit that acquires sound data corresponding to the acquired operation state, and the machine device in unit time And a database for storing various operation states and corresponding sound data as templates. The sound data processing apparatus according to the present invention includes a database search unit that searches the database for an operation state closest to the acquired operation state from the database, and an operation state that is closest to the operation state acquired from the acquired sound data. A template subtracting unit that subtracts the sound data of the template to reduce noise generated by the mechanical device.
本態様による音データ処理装置においては、データベースに記憶された、単位時間における機械装置の種々の動作状態に対応する音データを表すテンプレートの内、取得された動作状態に最も近い動作状態のテンプレートの音データが、該取得された動作状態の音データの予測値として使用される。したがって、取得された音データから該予測値を減算することによって、動作状態に応じて、機械装置が発生するノイズを効率的に低減することができる。 In the sound data processing device according to the present aspect, the template of the operation state closest to the acquired operation state among the templates representing the sound data corresponding to the various operation states of the machine device per unit time stored in the database. Sound data is used as a predicted value of the sound data of the acquired operation state. Therefore, by subtracting the predicted value from the acquired sound data, it is possible to efficiently reduce noise generated by the mechanical device according to the operating state.
本発明の一つの実施形態による音データ処理装置は、多チャンネルの音データに基づいてノイズを低減する多チャンネルノイズ低減部と、取得された動作状態に基づいて、該テンプレート減算部の出力及び該多チャンネルノイズ低減部の出力のいずれかを選択する出力選択部と、をさらに備えている。 A sound data processing device according to an embodiment of the present invention includes a multi-channel noise reduction unit that reduces noise based on multi-channel sound data, an output of the template subtraction unit based on the acquired operation state, and the An output selection unit that selects one of the outputs of the multi-channel noise reduction unit.
本実施形態によれば、テンプレート減算部の出力及び多チャンネルノイズ低減部の出力のうち、取得された動作状態に応じて、ノイズ低減効果の高い方の出力を選択することができる。 According to the present embodiment, it is possible to select an output having a higher noise reduction effect among the outputs of the template subtraction unit and the multi-channel noise reduction unit according to the acquired operation state.
本発明の一つの実施形態による音データ処理装置において、該機械装置はロボットである。 In the sound data processing device according to one embodiment of the present invention, the mechanical device is a robot.
本実施形態によれば、ロボットの動作状態に応じて、ロボットが発生するノイズを効率的に低減することができる。 According to the present embodiment, it is possible to efficiently reduce noise generated by the robot according to the operation state of the robot.
本発明の一つの実施形態による音データ処理装置において、該ロボットの動作状態が関節モータの角度、角速度及び角加速度のデータによって表される。 In the sound data processing apparatus according to one embodiment of the present invention, the operation state of the robot is represented by data on the angle, angular velocity, and angular acceleration of the joint motor.
本実施形態によれば、関節モータの角度、角速度及び角加速度のデータを使用することによって、該ロボットの動作状態を容易且つ確実に把握することができる。 According to the present embodiment, the operation state of the robot can be easily and reliably grasped by using the data of the angle, angular velocity, and angular acceleration of the joint motor.
本発明の一つの実施形態による音データ処理装置において、取得された動作状態に最も近い動作状態のテンプレートが、モータの角度、角速度及び角加速度のデータによって構成される3次元空間における距離によって定められる。 In the sound data processing device according to one embodiment of the present invention, the template of the operation state closest to the acquired operation state is determined by the distance in the three-dimensional space constituted by the motor angle, angular velocity and angular acceleration data. .
本実施形態によれば、該3次元空間における距離を使用することにより、取得された動作状態に最も近い動作状態のテンプレートを、容易且つ確実に定めることができる。 According to the present embodiment, by using the distance in the three-dimensional space, it is possible to easily and reliably determine the template having the operation state closest to the acquired operation state.
本発明の一つの実施形態による音データ処理装置において、該テンプレートの音データが周波数スペクトルによって表される。 In the sound data processing apparatus according to one embodiment of the present invention, the sound data of the template is represented by a frequency spectrum.
本実施形態によれば、音データが周波数スペクトルによって表すことによって効率的にデータを記憶することができる。 According to the present embodiment, sound data can be efficiently stored by representing it by a frequency spectrum.
本発明の一つの実施形態による音データ処理装置は、単位時間における該機械装置の種々の動作状態及び該動作状態に対応する音データを採取して該データベースを作成するデータベース作成部をさらに備えている。 The sound data processing device according to one embodiment of the present invention further includes a database creation unit that creates the database by collecting various operation states of the mechanical device in unit time and sound data corresponding to the operation states. Yes.
本実施形態によれば、データベースを作成するための作業負荷が大幅に軽減される。 According to this embodiment, the work load for creating a database is greatly reduced.
本発明の一つの態様による音データ処理方法は、機械装置が発生するノイズを低減するように信号音を含む音データを処理する音データ処理方法である。本態様による音データ処理方法は、該機械装置の動作状態を取得するステップと、取得された動作状態に対応する音データを取得するステップと、を含む。本態様による音データ処理は、単位時間における該機械装置の種々の動作状態及び対応する音データをテンプレートとして記憶するデータベースから、取得された動作状態に最も近い動作状態のテンプレートの音データを検索するステップと、取得された音データから、取得された動作状態に最も近い動作状態のテンプレートの音データを減算して機械装置が発生するノイズを低減した出力を求めるステップと、をさらに含む。 A sound data processing method according to one aspect of the present invention is a sound data processing method for processing sound data including a signal sound so as to reduce noise generated by a mechanical device. The sound data processing method according to this aspect includes a step of acquiring an operation state of the mechanical device and a step of acquiring sound data corresponding to the acquired operation state. In the sound data processing according to this aspect, the sound data of the template in the operation state closest to the acquired operation state is searched from the database that stores the various operation states of the mechanical device in the unit time and the corresponding sound data as templates. And subtracting the sound data of the template in the operation state closest to the acquired operation state from the acquired sound data to obtain an output with reduced noise generated by the mechanical device.
本態様による音データ処理方法においては、データベースに記憶された、単位時間における機械装置の種々の動作状態に対応する音データを表すテンプレートの内、取得された動作状態に最も近い動作状態のテンプレートの音データが、該取得された動作状態の音データの予測値として使用される。したがって、取得された音データから該予測値を減算することによって、動作状態に応じて、機械装置が発生するノイズを効率的に低減することができる。 In the sound data processing method according to this aspect, the template of the operation state closest to the acquired operation state among the templates representing the sound data corresponding to various operation states of the mechanical device in the unit time stored in the database is stored. Sound data is used as a predicted value of the sound data of the acquired operation state. Therefore, by subtracting the predicted value from the acquired sound data, it is possible to efficiently reduce noise generated by the mechanical device according to the operating state.
本発明の一つの実施形態による音データ処理方法は、取得された動作状態に基づいて、テンプレート減算によってノイズを低減した出力及び多チャンネルの音データを使用してノイズを低減した出力のいずれかを選択するステップをさらに含む。 A sound data processing method according to an embodiment of the present invention is configured to output either noise-reduced output by template subtraction or noise-reduced output using multi-channel sound data based on the acquired operation state. The method further includes a step of selecting.
本実施形態によれば、テンプレート減算によってノイズを低減した出力及び多チャンネルの音データを使用してノイズを低減した出力のうち、取得された動作状態に応じて、ノイズ低減効果の高い方の出力を選択することができる。 According to the present embodiment, the output with the higher noise reduction effect among the output with reduced noise by template subtraction and the output with reduced noise using multi-channel sound data, depending on the acquired operating state. Can be selected.
図1は、本発明の一実施形態による音データ処理装置のテンプレート減算ノイズ低減部100の構成を示す図である。本実施形態における機械装置は、ロボットである。テンプレート減算ノイズ低減部100は、ロボットの動作状態を取得する動作状態取得部101と、信号及びノイズを含む音データを取得する音データ取得部103と、単位時間の機械装置の種々の動作状態及び対応する音データをテンプレートとして記憶するデータベース105と、データベースを作成するデータベース作成部111と、を備えている。このように、テンプレートとは、単位時間のロボットの種々の動作状態で生じる音データ(音響信号)を表すものである。テンプレート減算ノイズ低減部100は、データベース105から、取得された動作状態に最も近い動作状態のテンプレートを検索するデータベース検索部107と、取得された音データから、取得された動作状態に最も近い動作状態のテンプレートの音データを減算して機械装置が発生するノイズを低減するテンプレート減算部109と、をさらに備えている。
FIG. 1 is a diagram illustrating a configuration of a template subtraction
動作状態取得部101は、ロボットの関節モータの角度センサに接続され、角度センサからの角度データを取得する。ロボットの動作状態は、ロボットの各関節モータの角度、角速度及び角加速度によって表される。動作状態取得部101は、取得した角度データに微分処理を行って角速度データ及び角加速度データを得る。
The operation
音データ取得部103は、ロボットに設置されたマイクロフォン201に接続され、マイクロフォン201が集めた音データを取得する。音データ取得部103は、たとえば、MCRA(I. Cohen, “Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, in IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSSP-27, No. 2, (1979))などを使用した背景ノイズ低減機能を備えていてもよい。
The sound
データベース105のデータ構造及びデータベース作成部111の機能、データベース検索部107の機能、ならびにテンプレート減算部109の機能については後で詳細に説明する。
The data structure of the
図2は、本発明の一実施形態による音データ処理装置150の構成を示す図である。音データ処理装置150は、図1を使用して説明したテンプレート減算ノイズ低減部100、従来技術である幾何学的音源分離法(Geometric Source Separation,GSS, L. C. Parra and C. V. Alvino, “Geometric Source Separation* Merging Convolutive Source Separation with Geometric Beanforming”, in IEEE Trans. Speech Audio Process., vol. 10, No. 6, pp. 352-362,(2002))を使用してノイズを低減する多チャンネルノイズ低減部121、ノイズ処理後の音データから音の特徴を抽出する音特徴抽出部123及び125、テンプレート減算ノイズ低減部100の出力及び多チャンネルノイズ低減部121の出力のいずれか選択する出力選択部127ならびに選択された出力を使用して音声認識を行う音声認識部129を備える。
FIG. 2 is a diagram illustrating a configuration of the sound
多チャンネルノイズ低減部121は、ロボットの頭部に設置された8個のマイクロフォン201・・・203から音データを取得し、音源位置を特定し、特定した音源位置を使用して音源分離を行なった後、ポストフィルタリング処理(Ephraim and D.Malah,“ Speech enhancement using a minimum mean-square error short -time spectral amplitude estimator“, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.901-904, (2002))を行う。ポストフィルタリング処理は、たとえば、背景ノイズなどの定常ノイズ、及び個別の音源の分離段階の出力チャネル間の漏れエネルギにより生じる非定常ノイズを減少させる。多チャンネルノイズ低減部121は、方向を持った音源を分離することのできる多チャンネルを使用する、上記の構成以外のどのような構成によって実現してもよい。
The multi-channel
出力選択部127は、テンプレート減算ノイズ低減部100の動作状態取得部101からロボットの動作状態の情報を受け取り、その情報に基づいて、テンプレート減算ノイズ低減部100及び多チャンネルノイズ低減部121のうち、その動作状態においてより効率的にノイズを低減する方の出力を選択し、その出力を音声認識部129へ送る。ロボットの動作状態と、テンプレート減算ノイズ低減部100及び多チャンネルノイズ低減部121の性能との関係は後で説明する。
The
図3は、データベース105の構造を示す図である。
FIG. 3 is a diagram showing the structure of the
図4は、データベース105を作成する手順を示す流れ図である。
FIG. 4 is a flowchart showing a procedure for creating the
データベース105を作成する際には、ロボットが、個々の運動の間に1秒より短い休止を設けながら、多数の運動からなる連続した運動のシーケンスを実行して、動作状態取得部101が動作状態を取得し、音データ取得部103が音データを取得する。「腕の運動」は、腕全体をリーチの範囲の空間でランダムに動かし、「脚の運動」は、足踏み及び短距離歩行を行い、「頭の運動」は、頭をランダムに回転させる(上下[-30°30°]、方位[-90°90°])。
When creating the
図4のステップS1010において、動作状態取得部101が、所定の時間のロボットの動作状態を取得する。
In step S1010 of FIG. 4, the operation
上述のように、ロボットの動作状態は、ロボットの各関節モータの角度θ、角速度
具体的に、ロボットは、頭の動作に2個のモータ、各脚の動作に5個のモータおよび各腕の動作に4個のモータを使用する。このように全体で20個のモータを使用するので、Jは、20である。 Specifically, the robot uses two motors for head movement, five motors for each leg movement, and four motors for each arm movement. Thus, since 20 motors are used in total, J is 20.
図4のステップS1020において、音データ取得部103が、所定の時間の音データを取得する。具体的に、上記のロボットの動作状態に対応する音データ、すなわち、モータ・ノイズに対応する音データを取得し、以下の周波数スペクトルによって表す。
図4のステップS1030において、データベース作成部111は、動作状態取得部101から、動作状態を表す特徴ベクトル
動作状態を表す特徴ベクトル及び音データの周波数スペクトルには、時刻タグが付されている。したがって、時刻タグが一致した特徴ベクトル及び周波数スペクトルを組み合わせることによりテンプレートが生成される。図3に示すデータベース105は、このようにして生成されたテンプレートの集合として作成される。上述のように、動作状態を表す特徴ベクトルの期間は5ミリ秒であるので、テンプレートの期間も5ミリ秒である。
A time tag is attached to the frequency vector of the feature vector representing the operating state and the sound data. Therefore, a template is generated by combining the feature vector and the frequency spectrum having the same time tag. The
本発明においては、単位時間(上記の例では5ミリ秒)のロボットの種々の動作状態で生じる音データ(音響信号)を表す多数のテンプレートを集め、データベースを構築する。その後、ロボットの動作中に、データベースに記憶されたテンプレートの内、ある時点で取得された動作状態に最も近い動作状態のテンプレートの音データを、その時点で取得された動作状態の音データの予測値として使用する。このように、本発明は、単位時間(上記の例では5ミリ秒)のロボットの種々の動作状態で生じる音データ(音響信号)を表す多数のテンプレートの集合は、ロボットのあらゆる動作状態の音データの予測に対応することができるという考えに基づいている。この考えは、以下の仮定に基づいている。 In the present invention, a large number of templates representing sound data (acoustic signals) generated in various operation states of a robot for a unit time (5 milliseconds in the above example) are collected to construct a database. After that, during the robot operation, the sound data of the template in the operation state closest to the operation state acquired at a certain time among the templates stored in the database is predicted, and the sound data of the operation state acquired at that time is predicted. Use as a value. As described above, the present invention provides a set of a large number of templates representing sound data (acoustic signals) generated in various operation states of the robot in unit time (5 milliseconds in the above example). It is based on the idea that it can cope with the prediction of data. This idea is based on the following assumptions.
1)その時点のモータ・ノイズは、特定のモータの角度、角速度及び角加速度に依存する。
2)どの時点においても、類似する動作状態(関節の状態)の組み合わせによって、類似するノイズの周波数スペクトルが生じる。
3)任意の時点における単一の関節モータ・ノイズの重ね合わせは、該時点における全体ノイズに等しい。
1) The motor noise at that time depends on the angle, angular velocity and angular acceleration of the specific motor.
2) At any point in time, a similar noise frequency spectrum is produced by a combination of similar motion states (joint states).
3) The superposition of a single joint motor noise at any time is equal to the total noise at that time.
図4のステップS1040において、データベース105に十分なテンプレートが格納されたかどうか判断される。たとえば、一連の「腕の運動」、一連の「脚の運動」及び一連の「頭の運動」を含む運動のシーケンスについてテンプレートをデータベース105に格納した後に、十分なテンプレートが格納されたと判断してもよい。
In step S1040 of FIG. 4, it is determined whether or not sufficient templates are stored in the
上記の手順により、ロボットのあらゆる動作状態の音データの予測に使用することができるデータベースを、簡単に作成することができる。 According to the above procedure, a database that can be used for prediction of sound data in all operating states of the robot can be easily created.
図5は、テンプレート減算を使用したノイズ低減の手順を示す流れ図である。 FIG. 5 is a flowchart showing a noise reduction procedure using template subtraction.
図5のステップS2010において、動作状態取得部101が、ロボットの動作状態(特徴ベクトル)を取得する。
In step S2010 of FIG. 5, the operation
図5のステップS2020において、音データ取得部103が、音データを取得する。
In step S2020 of FIG. 5, the sound
図5のステップS2030において、データベース検索部107が、動作状態取得部101から、取得された動作状態(特徴ベクトル)を受け取り、データベース105から、取得された動作状態に最も近い動作状態のテンプレートを検索する。
In step S2030 of FIG. 5, the
ここで、ロボットの関節の数をJとすると、動作状態の特徴ベクトルは3J次元空間の点に対応する。データベース105の任意のテンプレートの動作状態の特徴ベクトルを
図5のステップS2040において、テンプレート減算部109は、音データ取得部103から、取得された音データを受け取り、データベース検索部107から、検索されたテンプレートの周波数スペクトルを受け取る。つぎに、テンプレート減算部109は、取得された音データの周波数スペクトルから、モータ・ノイズの予測値であるテンプレートの周波数スペクトルを減算する。取得された音データの周波数スペクトルを
ここで、αは過大評価係数であり、知覚の信号の歪みとノイズ低減レベルとの折り合いを可能にする。また、βはスペクトルの下限であり、周波数スペクトルの急峻なピーク及び谷の影響を低減する。一例として
図5のステップS2050において、出力選択部127は、テンプレート減算ノイズ低減部100の動作状態取得部101からロボットの動作状態の情報を受け取り、その情報に基づいて、テンプレート減算ノイズ低減部100及び多チャンネルノイズ低減部121のいずれかの出力を選択する。頭を上下・左右に振る運動または頭を傾ける運動の速度を
以下において、本実施形態の音声処理装置を使用した音声認識の実験について説明する。実験において、音声認識の対象は、自己ノイズ及び背景ノイズからなるノイズ信号に、明瞭なスピーチの発話が混合されたものである。発話は、4人ずつの男性及び女性の話者に対応する236語を含む日本語データベースを使用して実施した。スピーカの位置は、実験を通して正面(0°)に固定される。録音環境は、4.0mx7.0mx3.0mの寸法の部屋で、残響時間は0.2秒である。音声認識の結果は、語正解率(word correct rates, WCR)で与えられる。 In the following, a speech recognition experiment using the speech processing apparatus of this embodiment will be described. In the experiment, the target of speech recognition is a noise signal composed of self noise and background noise mixed with a clear speech utterance. The utterances were conducted using a Japanese database containing 236 words corresponding to four male and female speakers. The position of the speaker is fixed to the front (0 °) throughout the experiment. The recording environment is a room having a size of 4.0 mx 7.0 mx 3.0 m, and the reverberation time is 0.2 seconds. The result of speech recognition is given in terms of word correct rates (WCR).
ノイズ及びスピーチを混合する前に、種々のSN比(信号対ノイズ比)の条件に対して、ノイズ及びスピーチのエネルギの正確な量を生成するように、以下に示すセグメントSN比
図6は、「頭の運動」のノイズがある場合の、SN比(信号対ノイズ比)と語正解率(WCR)との関係を示す図である。図6は、ノイズ低減部不使用の場合のWCR、多チャンネルノイズ低減部を使用した場合のWCR、及びテンプレート減算ノイズ低減部を使用した場合のWCRを示している。いずれのSN比の場合も、テンプレート減算ノイズ低減部を使用した場合のWCRが他の二つの場合のWCRよりも高い。 FIG. 6 is a diagram illustrating the relationship between the SN ratio (signal-to-noise ratio) and the word accuracy rate (WCR) when there is “head movement” noise. FIG. 6 shows the WCR when the noise reduction unit is not used, the WCR when the multi-channel noise reduction unit is used, and the WCR when the template subtraction noise reduction unit is used. In any S / N ratio, the WCR when the template subtraction noise reduction unit is used is higher than the WCR in the other two cases.
図7は、「腕の運動」のノイズがある場合の、SN比(信号対ノイズ比)と語正解率(WCR)との関係を示す図である。図7は、ノイズ低減部不使用の場合のWCR、多チャンネルノイズ低減部を使用した場合のWCR、及びテンプレート減算ノイズ低減部を使用した場合のWCRを示している。SN比が低い場合を除いて、テンプレート減算ノイズ低減部を使用した場合のWCRは、多チャンネルノイズ低減部を使用した場合のWCRよりも低い。 FIG. 7 is a diagram illustrating the relationship between the SN ratio (signal-to-noise ratio) and the word accuracy rate (WCR) when there is noise of “arm movement”. FIG. 7 shows WCR when the noise reduction unit is not used, WCR when the multi-channel noise reduction unit is used, and WCR when the template subtraction noise reduction unit is used. Except when the S / N ratio is low, the WCR when the template subtraction noise reduction unit is used is lower than the WCR when the multi-channel noise reduction unit is used.
図8は、「頭の運動」及び「腕の運動」のノイズがある場合の、SN比(信号対ノイズ比)と語正解率(WCR)との関係を示す図である。図8は、ノイズ低減部不使用の場合のWCR、多チャンネルノイズ低減部を使用した場合のWCR、及びテンプレート減算ノイズ低減部を使用した場合のWCRを示している。いずれのSN比の場合も、テンプレート減算ノイズ低減部を使用した場合のWCRが他の二つの場合のWCRよりも高い。 FIG. 8 is a diagram illustrating the relationship between the SN ratio (signal-to-noise ratio) and the word accuracy rate (WCR) when there is noise of “head movement” and “arm movement”. FIG. 8 shows the WCR when the noise reduction unit is not used, the WCR when the multi-channel noise reduction unit is used, and the WCR when the template subtraction noise reduction unit is used. In any S / N ratio, the WCR when the template subtraction noise reduction unit is used is higher than the WCR in the other two cases.
表1は、種々のノイズがあり、SN比が−5dBである場合に対して、ノイズ低減部不使用の場合のWCR、多チャンネルノイズ低減部を使用した場合のWCR、及びテンプレート減算低減部を使用した場合のWCRを示した表である。表1中のWCRの単位は、パーセントである。
図6乃至図8及び表1から理解されるように、「頭の運動」及び「頭及び腕の運動」のノイズがある場合には、テンプレート減算ノイズ低減部を使用した場合のWCRが多チャンネルノイズ低減部を使用した場合のWCRよりも高い。これに対して、「腕の運動」のノイズがある場合は、多チャンネルノイズ低減部を使用した場合のWCRがテンプレート減算ノイズ低減部を使用した場合のWCRテンプレート減算ノイズ低減部を使用した場合のWCRよりも高い。 As understood from FIGS. 6 to 8 and Table 1, when there is noise of “head movement” and “head and arm movement”, the WCR when the template subtraction noise reduction unit is used is multi-channel. It is higher than WCR when the noise reduction unit is used. On the other hand, when there is noise of “arm movement”, the WCR when using the multi-channel noise reduction unit uses the WCR template subtraction noise reduction unit when using the template subtraction noise reduction unit. Higher than WCR.
その理由は以下のとおりである。腕の位置は、ロボットの正面に位置するスピーカから遠く離れている。したがって、「腕の運動」のノイズがある場合に、多チャンネルノイズ低減部において、ロボットの頭に設置した複数のマイクロフォンを使用した音源分離によるノイズ低減が特に効率的に行われる。また、「脚の運動」のノイズがある場合も、同様に、複数のマイクロフォンを使用した音源分離によるノイズ低減が効率的に行われる。 The reason is as follows. The position of the arm is far from the speaker located in front of the robot. Therefore, when there is noise of “arm movement”, noise reduction by sound source separation using a plurality of microphones installed at the head of the robot is performed particularly efficiently in the multi-channel noise reduction unit. Similarly, when there is noise of “leg motion”, noise reduction is efficiently performed by sound source separation using a plurality of microphones.
一方、「頭の運動」のノイズがある場合に、頭部のモータによるノイズは、マイクロフォンの近傍において、大きな残響を伴いながら、頭部内を伝播する。マイクロフォンの近距離場における強いノイズ源は、伝播パターンを極めて複雑にする。結果として、該ノイズ源は、多チャンネルノイズ低減部における音源分離の分離品質を劣化させる。 On the other hand, when there is noise of “head movement”, the noise due to the head motor propagates in the head with a large reverberation in the vicinity of the microphone. Strong noise sources in the near field of the microphone make the propagation pattern extremely complex. As a result, the noise source deteriorates the separation quality of the sound source separation in the multi-channel noise reduction unit.
これに対して、テンプレート減算ノイズ低減部は、指向拡散性に基づいてノイズをモデル化しておらず、動作状態に基づいて、データベースからのテンプレートの予測を使用する。したがって、「頭の運動」のノイズがある場合に、音源分離を使用する場合よりも良好な結果が得られる。 On the other hand, the template subtraction noise reduction unit does not model the noise based on the directional diffusivity, and uses the prediction of the template from the database based on the operation state. Therefore, better results are obtained when there is noise of “head movement” than when using sound source separation.
上記の結果から、「頭の運動」及び「頭及び腕の運動」のノイズがある場合には、テンプレート減算ノイズ低減部を使用するのが有利である。これに対して、「腕の運動」、「脚の運動」及びその組み合わせのノイズがある場合に、多チャンネルノイズ低減部を使用するのが有利である。そこで、出力選択部127は、「頭の運動」がある場合には、テンプレート減算ノイズ低減部100の出力を選択し、「頭の運動」がない場合には、多チャンネルノイズ低減部121の出力を選択する。
From the above results, it is advantageous to use the template subtraction noise reduction unit when there is noise of “head movement” and “head and arm movement”. On the other hand, it is advantageous to use a multi-channel noise reduction unit when there is noise of “arm movement”, “leg movement”, and combinations thereof. Therefore, the
100…テンプレート減算ノイズ低減部、101…動作状態取得部、103…音データ取得部、105…データベース、107…データベース検索部、109…テンプレート減算部、111…データベース作成部
DESCRIPTION OF
Claims (10)
該機械装置の動作状態を取得する動作状態取得部と、
取得された動作状態に対応する音データを取得する音データ取得部と、
単位時間における該機械装置の種々の動作状態及び対応する音データをテンプレートとして記憶するデータベースと、
該データベースから、取得された動作状態に最も近い動作状態のテンプレートを検索するデータベース検索部と、
取得された音データから、取得された動作状態に最も近い動作状態のテンプレートの音データを減算して機械装置が発生するノイズを低減するテンプレート減算部と、を備えた音データ処理装置。 A sound data processing device for processing sound data including signal sound so as to reduce noise generated by a mechanical device,
An operation state acquisition unit for acquiring an operation state of the mechanical device;
A sound data acquisition unit for acquiring sound data corresponding to the acquired operation state;
A database for storing various operating states of the mechanical device in unit time and corresponding sound data as a template;
A database search unit that searches the database for the operation state closest to the acquired operation state from the database;
A sound data processing apparatus comprising: a template subtraction unit that subtracts sound data of a template in an operation state closest to the acquired operation state from acquired sound data to reduce noise generated by the mechanical device.
該機械装置の動作状態を取得するステップと、
取得された動作状態に対応する音データを取得するステップと、
単位時間における該機械装置の種々の動作状態及び対応する音データをテンプレートとして記憶するデータベースから、取得された動作状態に最も近い動作状態のテンプレートの音データを検索するステップと、
取得された音データから、取得された動作状態に最も近い動作状態のテンプレートの音データを減算して機械装置が発生するノイズを低減した出力を求めるステップと、を含む音データ処理方法。 A sound data processing method for processing sound data including a signal sound so as to reduce noise generated by a mechanical device,
Obtaining an operating state of the mechanical device;
Obtaining sound data corresponding to the obtained operating state;
Searching for sound data of a template in an operation state closest to the acquired operation state from a database storing various operation states of the mechanical device in a unit time and corresponding sound data as a template;
Subtracting the sound data of the template in the operation state closest to the acquired operation state from the acquired sound data to obtain an output with reduced noise generated by the mechanical device, and a sound data processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/784,119 US8548802B2 (en) | 2009-05-22 | 2010-05-20 | Acoustic data processor and acoustic data processing method for reduction of noise based on motion status |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US21327709P | 2009-05-22 | 2009-05-22 | |
US61/213,277 | 2009-05-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010271712A true JP2010271712A (en) | 2010-12-02 |
JP5535746B2 JP5535746B2 (en) | 2014-07-02 |
Family
ID=43419734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010101023A Expired - Fee Related JP5535746B2 (en) | 2009-05-22 | 2010-04-26 | Sound data processing apparatus and sound data processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5535746B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012088390A (en) * | 2010-10-15 | 2012-05-10 | Honda Motor Co Ltd | Voice recognition device and voice recognition method |
US8995671B2 (en) | 2011-07-06 | 2015-03-31 | Honda Motor Co., Ltd. | Sound processing device, sound processing method, and sound processing program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001215990A (en) * | 2000-01-31 | 2001-08-10 | Japan Science & Technology Corp | Robot hearing device |
JP2001318694A (en) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | Device and method for signal processing and recording medium |
JP2002351488A (en) * | 2001-05-28 | 2002-12-06 | Matsushita Electric Ind Co Ltd | Noise canceller and on-vehicle system |
JP2004341339A (en) * | 2003-05-16 | 2004-12-02 | Mitsubishi Electric Corp | Noise restriction device |
JP2008250059A (en) * | 2007-03-30 | 2008-10-16 | Advanced Telecommunication Research Institute International | Voice recognition device, voice recognition system and voice recognition method |
-
2010
- 2010-04-26 JP JP2010101023A patent/JP5535746B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001215990A (en) * | 2000-01-31 | 2001-08-10 | Japan Science & Technology Corp | Robot hearing device |
JP2001318694A (en) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | Device and method for signal processing and recording medium |
JP2002351488A (en) * | 2001-05-28 | 2002-12-06 | Matsushita Electric Ind Co Ltd | Noise canceller and on-vehicle system |
JP2004341339A (en) * | 2003-05-16 | 2004-12-02 | Mitsubishi Electric Corp | Noise restriction device |
JP2008250059A (en) * | 2007-03-30 | 2008-10-16 | Advanced Telecommunication Research Institute International | Voice recognition device, voice recognition system and voice recognition method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012088390A (en) * | 2010-10-15 | 2012-05-10 | Honda Motor Co Ltd | Voice recognition device and voice recognition method |
US8995671B2 (en) | 2011-07-06 | 2015-03-31 | Honda Motor Co., Ltd. | Sound processing device, sound processing method, and sound processing program |
Also Published As
Publication number | Publication date |
---|---|
JP5535746B2 (en) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5328744B2 (en) | Speech recognition apparatus and speech recognition method | |
EP3707716B1 (en) | Multi-channel speech separation | |
Nakadai et al. | Design and Implementation of Robot Audition System'HARK'—Open Source Software for Listening to Three Simultaneous Speakers | |
JP5738020B2 (en) | Speech recognition apparatus and speech recognition method | |
Valin et al. | Robust recognition of simultaneous speech by a mobile robot | |
JP4964204B2 (en) | Multiple signal section estimation device, multiple signal section estimation method, program thereof, and recording medium | |
JP2011191423A (en) | Device and method for recognition of speech | |
JP5041934B2 (en) | robot | |
Ince et al. | Assessment of general applicability of ego noise estimation | |
Saffari et al. | Ava (a social robot): Design and performance of a robotic hearing apparatus | |
US8548802B2 (en) | Acoustic data processor and acoustic data processing method for reduction of noise based on motion status | |
Delcroix et al. | Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds | |
JP5535746B2 (en) | Sound data processing apparatus and sound data processing method | |
Lecouteux et al. | Distant speech recognition for home automation: Preliminary experimental results in a smart home | |
Ishi et al. | A robust speech recognition system for communication robots in noisy environments | |
Okuno et al. | Robot audition: Missing feature theory approach and active audition | |
Yamamoto et al. | Design and implementation of a robot audition system for automatic speech recognition of simultaneous speech | |
Nishimura et al. | Speech recognition for a robot under its motor noises by selective application of missing feature theory and MLLR. | |
Ince et al. | Whole body motion noise cancellation of a robot for improved automatic speech recognition | |
Novoa et al. | Robustness over time-varying channels in DNN-hmm ASR based human-robot interaction. | |
Lee et al. | DNN-based speech recognition system dealing with motor state as auxiliary information of DNN for head shaking robot | |
Chu et al. | Automatic speech recognition and speech activity detection in the CHIL smart room | |
GB2601018A (en) | Acoustic source classification using hyperset of fused voice biometric and spatial features | |
Zuo et al. | Detecting robot-directed speech by situated understanding in object manipulation tasks | |
Masumura et al. | Context-aware neural voice activity detection using auxiliary networks for phoneme recognition, speech enhancement and acoustic scene classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5535746 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |