JP2012058314A - Acoustic processing system and machine employing the same - Google Patents
Acoustic processing system and machine employing the same Download PDFInfo
- Publication number
- JP2012058314A JP2012058314A JP2010198815A JP2010198815A JP2012058314A JP 2012058314 A JP2012058314 A JP 2012058314A JP 2010198815 A JP2010198815 A JP 2010198815A JP 2010198815 A JP2010198815 A JP 2010198815A JP 2012058314 A JP2012058314 A JP 2012058314A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound
- processing system
- output
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Component Parts Of Construction Machinery (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に適用して有効な技術に関する。 The present invention relates to an acoustic processing technique suitable for an operator or driver operating a relatively large machine such as a construction machine, a vehicle, or a work machine to grasp the situation of a person around the machine, and more particularly, to a person around the machine. The present invention relates to a sound processing system suitable for safety and a technology effective when applied to a machine using the same.
建設機械、車両、作業機械などの比較的大型の機械では、機械周囲の人物の安全のために、オペレータもしくは運転者(以下、オペレータという)が常に機械周囲の人物の状況を把握して、その都度危険を回避する必要がある。オペレータが機械周囲の人物の状況を知る上で重要な情報の一つが、周囲の人物が発声する音声である。 In relatively large machines such as construction machines, vehicles, and work machines, the operator or driver (hereinafter referred to as the operator) always knows the situation of the person around the machine for the safety of the person around the machine. It is necessary to avoid danger each time. One of the important information for the operator to know the situation of the person around the machine is the voice uttered by the person around.
周囲の人物の音声を収音するために機械外部にマイクロホンを設置し、収音された音をオペレータに提示することで、オペレータに周囲の人物の状況を把握させることを想定する。マイクロホンで収音される音には、周囲の人物の音声だけでなく、機械動作にともなうエンジン音、機械駆動音、掘削音などが同時に混入するので、収音される音から周囲の人物の音声のみを抽出し、オペレータに提示する必要がある。 It is assumed that a microphone is installed outside the machine in order to pick up the voices of the surrounding people and the collected sounds are presented to the operator so that the operator can grasp the situation of the surrounding people. The sound picked up by the microphone includes not only the sounds of the surrounding people but also the engine sounds, machine driving sounds, excavation sounds, etc. that accompany machine operation. Only need to be extracted and presented to the operator.
複数のマイクロホン(マイクロホンアレー)を用いた音源分離技術を用いれば、特定の位置から到来する音声のみを抽出することが可能である。ただし、以下の2点の課題がある。 If a sound source separation technique using a plurality of microphones (microphone arrays) is used, it is possible to extract only sound coming from a specific position. However, there are the following two problems.
一つ目に、音源分離では、音声を抽出する位置、すなわち人物が存在する位置を指定しなければならない点が課題である。たとえば、スパース性を仮定した位置推定に基づく音源分離方式(たとえば、特許文献1)は、指定した抽出位置を目的音源位置、それ以外を妨害音源位置としてフィルタを適応し、音源分離を行う。このため、位置の指定が必要である。また、音源の位置を指定せずに各音源の音を抽出するブラインド音源分離という技術も存在するが、その場合にも、複数個得られた音響信号のうち、どの音が抽出すべき信号であったのかを判断する問題が残る。 First, in sound source separation, the problem is that it is necessary to specify the position where the voice is extracted, that is, the position where the person exists. For example, a sound source separation method based on position estimation assuming sparsity (for example, Patent Document 1) performs sound source separation by applying a filter with a designated extraction position as a target sound source position and the other as a disturbing sound source position. For this reason, it is necessary to specify the position. In addition, there is a technique called blind sound source separation that extracts the sound of each sound source without specifying the position of the sound source, but even in that case, which sound is to be extracted from among the plurality of obtained acoustic signals. The problem remains to determine if there was.
二つ目に、音源分離の「精度」とフィルタ適応時間のトレードオフが存在する点が課題である。ここでの精度とは、抽出された音が元の目的音源の音にどれだけ近いかを意味する。一般的に、高精度に抽出するための適応方式(たとえば、非特許文献1の独立成分分析)は、瞬時的な入力信号だけではフィルタの適応ができず、オペレータが周囲の人物の状況を把握し危険回避の判断をすることはできない(以下、「瞬時的」とは、音の提示を受けてからオペレータが危険回避行動を実施するまでの時間より十分短い時間であることを意味する)。 The second problem is that there is a trade-off between “accuracy” of sound source separation and filter adaptation time. The accuracy here means how close the extracted sound is to the sound of the original target sound source. In general, an adaptive method for extracting with high accuracy (for example, independent component analysis of Non-Patent Document 1) cannot apply a filter only with an instantaneous input signal, and an operator grasps the situation of surrounding people. However, it is not possible to make a decision to avoid danger (hereinafter, “instantaneous” means that the time from when the sound is presented until the operator performs the danger avoidance action is sufficiently shorter).
その一方で、瞬時的な入力信号だけを用いて抽出が可能な音源分離アルゴリズムが存在する(たとえば、非特許文献2のバイナリマスキング)が、一般にその精度は低く、騒音が混入するので、周囲の人物が何を話しているかまでをオペレータが認識することは困難である。また、常にオペレータが分離されずに残留した騒音にさらされるという問題もある。 On the other hand, there are sound source separation algorithms that can be extracted using only an instantaneous input signal (for example, binary masking in Non-Patent Document 2), but the accuracy is generally low and noise is mixed. It is difficult for an operator to recognize what a person is talking about. There is also a problem that the operator is always exposed to residual noise without being separated.
また、リアルタイム処理と分離精度を両立するために、状況に応じて前記独立成分分析と音量差に基づくバイナリマスキングとを選択する方式がある(たとえば、特許文献2)。特許文献2では、独立成分分析の分離行列の収束度によって選択を行う実施例が示されている。
In order to achieve both real-time processing and separation accuracy, there is a method of selecting the independent component analysis and binary masking based on the volume difference according to the situation (for example, Patent Document 2).
ところで、前記した特許文献2において、収束度の基準で選択するメリットは、分離精度がバイナリマスキング未満まで低下しないという安定性である。周囲の人物の安全を最重要とする本発明においては、危険回避が必要な場合であるほど瞬時性が必要であるが、この課題は分離精度の安定性を重視する特許文献2の発明によっては解決できない。また、そもそも前記で述べた抽出すべき位置の指定の課題も解決できない。
By the way, in the above-mentioned
そこで、本発明は、前記課題を解決するためになされたものであり、その代表的な目的は、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することにある。 Therefore, the present invention has been made to solve the above-mentioned problems, and its typical purpose is to extract the voice of the person at the position to be extracted for the safety of the person around the machine and to avoid danger. It is an object of the present invention to provide an acoustic processing system for instantaneously extracting speech useful for a person.
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。 The above and other objects and novel features of the present invention will be apparent from the description of this specification and the accompanying drawings.
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。 Of the inventions disclosed in the present application, the outline of typical ones will be briefly described as follows.
すなわち、代表的な音響処理システムは、音を収音する複数のマイクロホンからなる音入力部と、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする。さらに、以下のような特徴を有しても良い。 That is, a typical acoustic processing system includes a sound input unit including a plurality of microphones that collect sound, a risk calculation unit that calculates a risk associated with contact with a surrounding person or object due to the operation of the machine, A sound extraction unit that outputs a separation signal corresponding to the degree of risk calculated by the risk level calculation unit using the signal output from the sound input unit, and a sound that outputs the separation signal output from the sound extraction unit And an output unit. Furthermore, you may have the following characteristics.
前記音抽出部は、相対的に危険度が高い各位置を抽出位置とする複数の音源分離ユニットから構成される。各音源分離ユニットの抽出方式は、対応する抽出位置の危険度が高い場合には瞬時的に抽出可能な方式とし、抽出位置の危険度が低い場合には高精度に抽出可能な方式とする。 The sound extraction unit is composed of a plurality of sound source separation units with each position having a relatively high risk as an extraction position. The extraction method of each sound source separation unit is a method that can be extracted instantaneously when the risk of the corresponding extraction position is high, and a method that can extract with high accuracy when the risk of the extraction position is low.
前記危険度は、機械の運動状態と人物位置の検出結果から算出される。機械の運動状態は、機械運動状態推定部により作業機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される。人物検出は、音声非音声判別結果と映像に基づく動体検出結果を組み合わせることで行う。音声非音声判別は、前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、該音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部により実現する。動体検出は、可視光線カメラもしくは赤外線カメラなどの1以上のカメラからなる映像入力部と、該映像入力部が出力する映像に基づいて動体検出を行う動体検出部により実現する。また、位置ごとの危険度に応じて音源位置推定部は推定方法を変え、動体検出部は検出方法を変える。 The degree of risk is calculated from the motion state of the machine and the detection result of the person position. The machine motion state is estimated based on sensor information or a machine operation signal installed in the work machine by the machine motion state estimation unit. The person detection is performed by combining the voice non-voice discrimination result and the moving object detection result based on the video. The sound non-speech discrimination includes a sound source position estimation unit that estimates a sound source position from a signal output from the sound input unit, and a voice non-speech discrimination unit that determines speech non-speech based on a sound source position output from the sound source position estimation unit. To achieve. The moving object detection is realized by a video input unit including one or more cameras such as a visible light camera or an infrared camera, and a moving object detection unit that detects a moving object based on an image output from the video input unit. Further, the sound source position estimation unit changes the estimation method according to the risk level for each position, and the moving object detection unit changes the detection method.
前記危険度に応じて映像を表示する映像出力部と、前記危険度に基づいて機械外部に対する外部向け出力音を生成する外部向け出力音生成部と、該外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、前記危険度に基づいて機械の動作を制御する機械制御部を有する。 A video output unit that displays video in accordance with the risk level, an external output sound generation unit that generates an external output sound to the outside of the machine based on the risk level, and an external that is generated by the external output sound generation unit An external sound output unit that outputs a direct output sound, and a machine control unit that controls the operation of the machine based on the degree of risk.
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば、以下のとおりである。 Of the inventions disclosed in the present application, effects obtained by typical ones will be briefly described as follows.
すなわち、代表的な音響処理システムによれば、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することができる。 That is, according to a typical acoustic processing system, for the safety of a person around the machine, the acoustic processing for extracting the voice of the person at the position to be extracted and instantaneously extracting the voice useful for danger avoidance A system can be provided.
以下、本発明の実施の形態を、たとえば建設機械と一体となった音響処理システムを例に図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings, taking, as an example, an acoustic processing system integrated with a construction machine. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.
<実施の形態1>
以下、本発明の実施の形態1を、図1〜図9、図12、図13を用いて説明する。
<
Hereinafter,
図1は、本発明の実施の形態1における音響処理システムのハードウェア構成の一例を示す図である。
FIG. 1 is a diagram illustrating an example of a hardware configuration of a sound processing system according to
本実施の形態における音響処理システム100のハードウェア構成は、マイクロホンアレー1011〜101M、スピーカアレー1021〜102S、可視光線カメラ1031〜103A、赤外線カメラ1041〜104B、マイクロホン105、ヘッドホン106、A/D−D/A変換装置107、中央演算装置108、揮発性メモリ109、記憶媒体110、画像表示装置111、オーディオケーブル1141〜114M,1151〜115S,116,117、モニタケーブル118、デジタルケーブル119,1201〜120A,1211〜121Bなどから構成される。この音響処理システム100は、作業機械112、機械操作入力部113などから構成される建設機械と一体となっている。
The hardware configuration of the
マイクロホンアレー1011〜101Mは、建設機械外部に装着した、各アレーがN個のマイクロホンからなるマイクロホン群である。スピーカアレー1021〜102Sは、建設機械外部に装着したS個のスピーカ1021〜102Sからなるスピーカ群である。
The
可視光線カメラ1031〜103Aは、建設機械外部に装着した可視光線カメラ群である。赤外線カメラ1041〜104Bは、建設機械外部に装着した赤外線カメラ群である。
The
マイクロホン105は、オペレータが装着するマイクロホンである。ヘッドホン106は、オペレータが装着するヘッドホンである。
The
A/D−D/A変換装置107は、マイクロホンアレー1011〜101Mから出力される信号とマイクロホン105から出力される信号をデジタルデータに変換すると同時に、スピーカアレー1021〜102Sとヘッドホン106にアナログ音圧信号を出力するA/D−D/A変換装置である。
The A / D-D / A
中央演算装置108は、A/D−D/A変換装置107の出力を処理する中央演算装置である。揮発性メモリ109は、中央演算装置108における演算処理のデータなどを一時的に格納する揮発性のメモリである。記憶媒体110は、プログラムなどの情報を記憶する記憶媒体である。画像表示装置111は、中央演算装置108における演算処理の情報や画像などを表示する表示装置である。
The
オーディオケーブル1141〜114Mは、マイクロホンアレー1011〜101MとA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル1151〜115Sは、スピーカアレー1021〜102SとA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル116は、マイクロホン105とA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル117は、ヘッドホン106とA/D−D/A変換装置107とを接続するケーブルである。
The audio cables 1141 to 114M are cables that connect the
モニタケーブル118は、画像表示装置111と中央演算装置108とを接続するケーブルである。
The
デジタルケーブル119は、A/D−D/A変換装置107と中央演算装置108とを接続するケーブルである。デジタルケーブル1201〜120Aは、可視光線カメラ1031〜103Aと中央演算装置108とを接続するケーブルである。デジタルケーブル1211〜121Bは、赤外線カメラ1041〜104Bと中央演算装置108とを接続するケーブルである。
The
作業機械112は、アームなどを持つ建設機械である。機械操作入力部113は、建設機械の各種操作を入力する部分である。
The
以上のように構成される音響処理システム100のハードウェアの動作は、以下の通りである。
The hardware operation of the
マイクロホンアレー1011〜101Mが出力する音圧データは、オーディオケーブル1141〜114Mを介してA/D−D/A変換装置107に送られる。このマイクロホンアレー1011〜101Mからの音圧データは、A/D−D/A変換装置107によってそれぞれデジタル音圧データに変換される。この変換では、信号間で変換タイミングを同期して変換する。変換後のデジタル音圧データは、デジタルケーブル119を介して中央演算装置108に送られ、中央演算装置108で音響信号処理が施される。この音響信号処理後のデジタル音圧データはデジタルケーブル119を介して、A/D−D/A変換装置107に送られる。この中央演算装置108からのデジタル音圧データは、A/D−D/A変換装置107によってアナログ音圧データに変換され、オーディオケーブル117を介してヘッドホン106より出力される。
The sound pressure data output from the
マイクロホンアレー1011〜101Mで収音され、中央演算装置108に送られてきたデジタル音圧データXには、作業機械112外部の作業員の声と作業機械112が発するエンジン音やアーム駆動音などの雑音とが混入して含まれている。中央演算装置108では、デジタル音圧データXと、可視光線カメラ1031〜103Aから得られる画像データVIと、赤外線カメラ1041〜104Bから得られる画像データIIと、機械操作入力部113から得られる操作信号と、作業機械112が持つ速度情報とに基づいて、位置ごとの危険度Hを算出する。危険度Hは揮発性メモリ109に記憶される。中央演算装置108は、危険度Hに基づいて、音源位置推定方式を変え、さらに、動体検出方式を変え、さらに、危険度が比較的高い位置を音抽出位置とし、その中でも危険度が特に高い位置に対しては瞬時的に抽出可能な方式での音抽出を行い、危険度が低い位置に対しては高精度に抽出可能な方式での音抽出を行う。抽出信号Yは、デジタルケーブル119を介してA/D−D/A変換装置107に送られ、アナログ信号に変換されてオーディオケーブル117を介してヘッドホン106から出力される。
The digital sound pressure data X collected by the
揮発性メモリ109に蓄えられた位置ごとの危険度Hは、中央演算装置108において、画像に変換され、モニタケーブル118を介して画像表示装置111より出力される。
The risk level H for each position stored in the
マイクロホン105で収音される音声信号は、オーディオケーブル116を介して、A/D−D/A変換装置107にてデジタル音圧データに変換され、デジタルケーブル119を介して、中央演算装置108に入力される。また、スピーカアレー1021〜102Sを用いた指向性フィルタが、その指向性を向ける位置ごとに予め記憶媒体110に格納されている。前記デジタル音圧データに対して、危険度Hが比較的高い位置に指向性を向ける指向性フィルタを選択して畳み込み、複数チャンネルデジタル信号データを生成する。デジタルケーブル119を介して、この複数チャンネルデジタル信号データをA/D−D/A変換装置107に入力し、A/D−D/A変換装置107が複数チャンネルアナログ信号に変換し、オーディオケーブル1151〜115Sを介してスピーカアレー1021〜102Sより出力する。
The audio signal collected by the
中央演算装置108は、作業機械112に対して、危険度Hに応じた移動の種類、移動速度、動作の種類、動作速度などの制御を行う。
The
デジタルケーブル119は、USBケーブルなどを用いる。デジタルケーブル1201〜120A、デジタルケーブル1211〜121Bは、USBケーブルやLANケーブルなどを用いる。
The
図13は、本実施の形態における音響処理システム100を建設機械に適用した場合の外観の一例を示す図である。図13は、建設機械を上面から見た模式図である。
FIG. 13 is a diagram illustrating an example of an external appearance when the
この図13の例では、建設機械は、キャビネット13001、エンジン部13002、アーム部13003などから構成される。マイクロホンアレー1011〜1014を建設機械外部の四隅に配置している。キャビネット13001内でオペレータが操作する。
In the example of FIG. 13, the construction machine includes a
たとえば、本発明を用いない場合、キャビネット13001の内部では外部の音はほとんど聞こえない。また、建設機械自身がエンジン部13002やアーム部13003といった騒音源を有しており、マイクロホンアレー1011〜1014が収音した音をそのまま聞いても、それらの騒音に埋もれた周囲の人物の音声はほとんど聞こえない。本発明では、これらの課題を解決するものである。
For example, when the present invention is not used, external sounds are hardly audible inside the
図2は、本実施の形態における音響処理システム100のブロック構成の一例を示す図である。この図2に示すブロック構成は、図1に示す中央演算処理装置108が、記憶媒体110に記憶されているプログラムを読み出して実行することで実現されるソフトウェアによる機能構成である。ただし、一部の構成要素は図1に示すハードウェア構成を含むものもある。
FIG. 2 is a diagram illustrating an example of a block configuration of the
本実施の形態における音響処理システム100は、音入力部201と、音入力部201に繋がっている音源位置推定部202と、音入力部201に繋がっている音抽出部203と、音源位置推定部202に繋がっている音声非音声判別部204と、音声非音声判別部204に繋がっている人物検出部205と、人物検出部205に繋がっており、音源位置推定部202と音抽出部203に繋がる危険度算出部206と、機械センサ入力部207と、機械センサ入力部207に繋がっており、危険度算出部206に繋がる機械運動状態推定部209と、可視光線入力部210と、赤外線入力部211と、可視光線入力部210及び赤外線入力部211と危険度算出部206に繋がっており、人物検出部205に繋がる動体検出部212と、人物検出部205と危険度算出部206に繋がっている映像出力部213と、操作者音声入力部215と、操作者音声入力部215と危険度算出部206に繋がっている外部向け出力音生成部216と、外部向け出力音生成部216に繋がっている外部向け音出力部217と、危険度算出部206に繋がっている機械動作制御部218と、音抽出部203に繋がっている音出力部219と、機械運動状態推定部209に繋がる機械操作入力部221などから構成される。
The
また、音声非音声判別部204と機械運動状態推定部209では、機械の寸法208が用いられる。音源位置推定部202と音抽出部203では、マイク配置214の情報が用いられる。動体検出部212では、カメラ投影行列220が用いられる。
The voice
以上のように構成される音響処理システム100のソフトウェアによる主な機能(一部の構成要素はハードウェア構成を含む)は、以下の通りである。
The main functions by software of the
音入力部201は、音を収音する複数のマイクロホンからなる機能部である。詳細は図3を用いて後述する。音源位置推定部202は、音入力部201が出力する信号から音源位置を推定したり、または音抽出部203が出力する信号から音源位置を推定する機能部である。また、音源位置推定部202は、危険度算出部206が出力する位置ごとの危険度に基づいて推定方式を変化させる。詳細は図4を用いて後述する。音抽出部203は、音入力部201から出力された信号を入力として危険度算出部206で算出された危険度に応じた分離信号を出力する機能部である。この音抽出部203は、複数の音源分離ユニットを備え、各音源分離ユニットは危険度に応じて抽出位置を設定し、さらに危険度に応じて音源分離ユニットが分離方式を変化させる。詳細は図6を用いて後述する。
The
音声非音声判別部204は、音源位置推定部202が出力する音源位置に基づいて音声非音声を判別する機能部である。人物検出部205は、音声非音声判別部204が出力する音声非音声判別結果に基づいて人物位置を検出する機能部である。この人物検出部205は、また動体検出部212の出力する信号に基づいて人物検出を行う。
The speech
危険度算出部206は、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する機能部である。この危険度算出部206は、位置ごとの危険度を算出する。さらに、危険度算出部206は、機械運動状態推定部209の出力する運動状態に基づいて危険度を算出したり、人物検出部205が出力する人物位置検出結果に基づいて危険度を算出する。機械運動状態推定部209は、機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機能部である。
The risk
映像入力部は、可視光線入力部210及び赤外線入力部211からなり、可視光線カメラもしくは赤外線カメラの1以上のカメラからなる機能部である。動体検出部212は、映像入力部が出力する映像に基づいて動体検出を行う機能部である。また、動体検出部212は、危険度算出部206が出力する位置ごとの危険度に基づいて検出方式を変化させる。詳細は図5を用いて後述する。映像出力部213は、危険度算出部206が出力する危険度に基づいて映像を表示する機能部である。
The video input unit includes a visible
外部向け出力音生成部216は、危険度算出部206が出力する危険度に基づいて機械の外部に対する外部向け出力音を生成する機能部である。外部向け音出力部217は、外部向け出力音生成部216が生成する外部向け出力音を出力する機能部である。
The external output
機械動作制御部218は、危険度算出部206が出力する危険度に基づいて機械の動作を制御する機能部である。音出力部219は、音抽出部203から出力された分離信号を出力する機能部である。
The machine
以下において、音響処理システム100のソフトウェアによる主な機能部を詳細に説明する。
Below, the main function parts by the software of the
図3に、音入力部201のブロック構成の一例を示す。音入力部201は、多チャンネルAD変換器301、多チャンネルフレーム処理部302、多チャンネル短時間周波数分析部303などから構成される。多チャンネルAD変換器301は、A/D−D/A変換装置107に含まれる。
FIG. 3 shows an example of a block configuration of the
音入力部201において、マイクロホンアレー1011〜101Mから得た多チャンネルアナログ音圧データは多チャンネルAD変換器301でデジタル音圧データx_11(t)〜x_MN(t)に変換される。tはサンプリング周期毎の離散時間である。変換されたデジタル音圧データx_11(t)〜x_MN(t)は、多チャンネルフレーム処理部302に渡る。
In the
多チャンネルフレーム処理部302では、t=τsからt=τs+F_s−1までのx_ij(t)をそれぞれt=0からt=F−1までのXf_ij(t,τ)に移し変える。ここで、τはフレームインデックスと呼び、多チャンネルフレーム処理部302から音出力部219までの処理が完了した後で、1インクリメントされる。sはフレームシフトと呼び、フレーム毎にずらすサンプル数を意味する。F_sはフレームサイズと呼び、フレーム毎に一度に処理するサンプル数を意味する。iはマイクロホンアレー番号を意味するインデックス(1,…,M)とする。jはマイクロホン番号を意味するインデックス(1,…,N)とする。
The multi-channel
その後、Xf_ij(t,τ)は多チャンネル短時間周波数分析部303に渡される。多チャンネル短時間周波数分析部303では、Xf_ij(t,τ)に、直流成分カット及びハミング窓、ハニング窓、ブラックマン窓などの窓処理を施した後、短時間フーリエ変換を施し、それぞれ周波数領域の信号Xf_ij(f,τ)に変換する。ここでの周波数ビン数をFとする。あるフレームτでのXf_ij(f,τ)は、図7のようなデータ構造をとる。周波数領域信号Xf_ij(f,τ)は、音源位置推定部202と音抽出部203に送られる。
Thereafter, Xf_ij (t, τ) is passed to the multi-channel short-time
図4に、音源位置推定部202のブロック構成の一例を示す。音源位置推定部202は、周波数毎方向推定部4011〜401M、方向推定統合部402などから構成される。
FIG. 4 shows an example of a block configuration of the sound source
まず、周波数毎方向推定部401iは、一つのマイクロホンアレー101iに対応する多チャンネル周波数領域信号Xf_i1(f,τ)〜Xf_iN(f,τ)に対して、各周波数インデックスfに対する音の到来方向θ_i(f)を推定する。マイクロホンアレーのマイク素子数が二つの場合、θを[数1]で推定する。 First, the direction estimator 401i for each frequency receives the sound arrival direction θ_i for each frequency index f with respect to the multi-channel frequency domain signals Xf_i1 (f, τ) to Xf_iN (f, τ) corresponding to one microphone array 101i. Estimate (f). When the number of microphone elements in the microphone array is two, θ is estimated by [Equation 1].
ここで、ρ(f,τ)は、二つのマイク素子の入力信号の、フレームτ、周波数インデックスfにおける位相差とする。freq(f)は周波数インデックスfの周波数(Hz)であり、[数2]で計算される。 Here, ρ (f, τ) is a phase difference between the input signals of the two microphone elements at the frame τ and the frequency index f. freq (f) is the frequency (Hz) of the frequency index f, and is calculated by [Equation 2].
ただし、FSはA/D変換装置のサンプリングレートである。dは二つのマイク素子の物理的な間隔(m)とする。cは音速(m/s)とする。音速は、厳密には温度や媒質の密度に依存して変化するが、通常340m/sなどの一つの値に固定して用いる。ここでの雑音除去処理は、前述の「スパース性」の仮定に基づけば、時間−周波数毎に同一の処理を別々に行えばよいため、以後、時間−周波数のサフィックス(f,τ)は省略して表記する。 However, F S is the sampling rate of the A / D converter. d is the physical distance (m) between the two microphone elements. c is the speed of sound (m / s). Strictly speaking, the speed of sound changes depending on the temperature and the density of the medium, but is usually fixed to one value such as 340 m / s. Since the noise removal processing here may be performed separately for each time-frequency based on the above-mentioned assumption of “sparseness”, the time-frequency suffix (f, τ) is omitted hereinafter. It describes as.
マイクロホンアレーのマイク素子数が三つ以上の場合、SPIREアルゴリズム(非特許文献3参照)により、その方向を高精度に算出することが可能である。SPIREアルゴリズムでも、前述の「スパース性」の仮定に基づき、時間−周波数毎に同一の処理を別々に行うものとする。図12に、SPIREアルゴリズムのフローチャートを示す。 When the number of microphone elements in the microphone array is three or more, the direction can be calculated with high accuracy by the SPIRE algorithm (see Non-Patent Document 3). Also in the SPIRE algorithm, the same processing is performed separately for each time-frequency based on the above-described assumption of “sparseness”. FIG. 12 shows a flowchart of the SPIRE algorithm.
まず、SPIREアルゴリズムでは、マイク素子の配置読み込みを行う(S1201)。次に、SPIREアルゴリズムでは、それぞれが二つのマイク素子で構成されるマイクペアとなるように、各マイクペアを構成するマイク素子の選択を行う(S1202)。このとき、マイクペアを構成する二つのマイク素子間のマイク間隔が、マイクペアごとに異なるように分けることが望ましい。 First, in the SPIRE algorithm, the arrangement of microphone elements is read (S1201). Next, in the SPIRE algorithm, the microphone elements constituting each microphone pair are selected so that each microphone pair is composed of two microphone elements (S1202). At this time, it is desirable to divide the microphone interval between the two microphone elements constituting the microphone pair so as to be different for each microphone pair.
次に、SPIREアルゴリズムは、各マイクペアをマイク間隔が小さいものから順にソートし、マイクペア待ち行列に格納する(S1203)。ここで、lを一つのマイクペアを特定するためのインデックスとし、l=1をマイク間隔が最も短いマイクペア、l=Lをマイク間隔が最も長いマイクペアとする。マイクペア待ち行列の要素数が0かどうかの比較演算を行う(S1204)。要素数が0でない間(S1204−No)、次に述べるS1205及びS1206を繰り返す。 Next, the SPIRE algorithm sorts each microphone pair in ascending order of the microphone interval and stores it in the microphone pair queue (S1203). Here, l is an index for specifying one microphone pair, l = 1 is a microphone pair with the shortest microphone interval, and l = L is a microphone pair with the longest microphone interval. A comparison operation is performed to determine whether the number of elements in the microphone pair queue is 0 (S1204). While the number of elements is not 0 (S1204-No), S1205 and S1206 described below are repeated.
すなわち、次に、マイクペア待ち行列から間隔が最短の一つのマイクペアlを読み込み、かつ、マイクペア待ち行列から除く処理を行う(S1205)。そして、続く位相差推定処理では、読み込んだlに対して、まず[数3]を満たす整数nlをみつける(S1206)。不等式で囲まれた範囲が2πに相当するため、必ず一つだけ解が見つかる。そして、[数4]を実行する。
That is, next, the process of reading one
また、上記の処理をl=1に対して行う前に初期値として、[数5]を設定する。S1205及びS1206をP回繰り返し、マイクペア待ち行列の要素数が0となると(S1204−Yes)、[数6]に従って、位相差から方向計算を行い、θ(f,τ)を計算する(S1207)。 Also, [Formula 5] is set as an initial value before the above processing is performed for l = 1. When S1205 and S1206 are repeated P times and the number of elements in the microphone pair queue becomes 0 (S1204-Yes), direction calculation is performed from the phase difference according to [Equation 6], and θ (f, τ) is calculated (S1207). .
ここで、dlはl番目のマイクペアのマイク素子間の間隔とする。 Here, d l is the distance between the microphone elements of the l th microphone pair.
音源方向推定の推定精度は、マイク間隔が長い程、高まることが知られているが、方向を推定する信号の半波長以上マイク間隔が長ければ、マイク間の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまうことが知られている(空間的エイリアシング)。SPIRE法では、長いマイク間隔で生じた二つ以上の推定方向のうち、短いマイク間隔で求めた音源方向に近い方向を選択するような機構を備えている。したがって、空間的エイリアシングが生じるような長いマイク間隔でも高精度に音源方向を推定することができるという利点を備えている。 It is known that the estimation accuracy of sound source direction estimation increases as the microphone interval increases, but if the microphone interval is longer than the half wavelength of the signal for estimating the direction, one direction is specified from the phase difference between the microphones. It is known that there are two or more directions with the same phase difference (spatial aliasing). The SPIRE method includes a mechanism that selects a direction close to a sound source direction obtained at a short microphone interval from two or more estimated directions generated at a long microphone interval. Therefore, there is an advantage that the sound source direction can be estimated with high accuracy even with a long microphone interval that causes spatial aliasing.
周波数毎方向推定部4011〜401Mから出力される方向推定結果θ_i(f,τ)は、方向推定統合部402に入力される。[数7]により音源が存在する位置インデックスpほど大きな値を持つ位置ヒストグラムh(p,τ)を得ることが可能である。
The direction estimation result θ_i (f, τ) output from the frequency direction
ここで、前のフレームで算出された危険度マップデータH(p,τ)に応じて、[数7]の加算処理を間引いた[数8]を用いれば、危険度が高い位置に対して追従性高く位置ヒストグラムを算出することができる。 Here, according to the risk map data H (p, τ) calculated in the previous frame, if [Expression 8] obtained by thinning out the addition process of [Expression 7] is used, a position with a high risk is used. A position histogram can be calculated with high follow-up performance.
音声非音声判別部204は、音源位置推定部202から入力された位置ヒストグラムh(p,τ)に基づいて、位置pごとに音声の有無を表わす音声非音声判別マップv(p,τ)を判定する。音声非音声判別には、h(p,τ)を位置pに存在する人の雑音混入音声信号とみなし、MCRAに基づく雑音推定を行ってから、入力信号対雑音比(事後SNR)γ(p,τ)に基づく判別方式[数9]などの一般的なアルゴリズムを用いて判別すればよく、本質的な機能の差にはならない。
The speech
また、機械の寸法208に基づいて機械内部のpに対し、v(p,τ)は常に0とすることで計算コストを削減することができる。音声非音声判別マップv(p,τ)は人物検出部205に送られる。
Further, the calculation cost can be reduced by setting v (p, τ) to be always 0 with respect to p inside the machine based on the
可視光線カメラ1031〜103Aからなる可視光線入力部210は可視光線画像データVIを動体検出部212に送る。
The visible
赤外線カメラ1041〜104Bからなる赤外線入力部211は赤外線画像データIIを動体検出部212に送る。
The
図5に、動体検出部212のブロック構成の一例を示す。動体検出部212は、背景差分・フレーム間差分算出部501、体表面検出部502、視錐体交差算出部503などから構成される。
FIG. 5 shows an example of a block configuration of the moving
背景差分・フレーム間差分算出部501は、可視光線画像データVI_1〜VI_Aに基づき、それぞれの画像に対して背景差分処理およびフレーム間差分処理により物体領域を抽出した画像EI_1〜EI_Aを計算する。体表面検出部502は、赤外線画像データII_1〜II_Bに基づき、それぞれの画像に対して温度の高いピクセル領域を体表面領域として抽出した画像BI_1〜BI_Bを計算する。視錐体交差算出部503では、画像EI_1〜EI_Aの物体領域と画像BI_1〜BI_Bの体表面領域のそれぞれの視錐体を、カメラ投影行列220に基づいて3次元空間内に逆投影する。[数10]により得られるカメラ間で視野が交差する3次元領域のうち、視体積が交差する領域について、[数11]のように動体存在マップe(p,τ)を更新する。
Based on the visible light image data VI_1 to VI_A, the background difference / interframe
ここで、weはまた、前のフレームで算出された危険度マップデータH(p,τ)に応じて、[数10]の逆投影処理を間引いた[数12]を用いれば、動体存在マップe(p,τ)算出での危険度が高い位置に対して追従性が高くなる。 Here, w e also, depending on the calculated in the previous frame the risk map data H (p, tau), the use of the [number 12] obtained by thinning the back projection processing in the number 10, the moving object existence The followability becomes high with respect to a position having a high degree of risk in calculating the map e (p, τ).
人物検出部205は、音声非音声判別マップv(p,τ)と動体存在マップe(p,τ)に基づき、[数13]により人物検出マップd(p,τ)を計算する。ここで、wvは0以上1以下の重み係数である。
The
機械センサ入力部207は、たとえば機械の速度計や機械のアームの油圧センサなどのセンサからなり、それぞれのセンサ信号をベクトルC(t)=(c_1(t),…,c_Ω(t))として出力する。
The machine
機械運動状態推定部209では、機械の寸法208から各小部位z_kの3次元位置P_k(t)を得る。ここで、k(k=1,…,K)は部位インデックスである。また、前記センサ信号のベクトルC(t)とベクトルP(t)=(P_1(t),…,P_K(t))との組に対する、小部位z_kの運動速度V_k(t)のベクトルV(t)=(V_1(t),…,V_K(t))のテーブルを予め記憶媒体110に記憶しているものとする。このテーブルは、設計時にシミュレーションで容易に得ることができる。このテーブルにより小部位z_kの速度V_k(t)が得られる。
The machine motion
さらに、機械操作入力部221から操作信号μ(t)を得る。操作信号μ(t)とP(t)との組みについても対応する加速度A(t)=(A_1(t),…,A_k(t))のテーブルを記憶しておくことで、操作信号μ(t)から小部位z_kの加速度A_k(t)が得られる。[数14]により時刻t+Δtでの小部位z_kの予測位置P(t+Δt)が求まる。最後に、[数15]により、接触までにかかる最短時間のマップg(p,t)が求まる。
Further, an operation signal μ (t) is obtained from the machine
危険度算出部206は、人物検出部205から入力される人物検出マップd(p,τ)と、機械運動状態推定部209から入力される接触最短時間のマップg(p,t)とに基づいて、[数16]により、危険度マップH(p,τ)を算出する。ここで、ε、νはそれぞれ適当な定数とする。
The risk
映像出力部213では、人物検出マップd(p,τ)と危険度マップH(p,τ)を重畳して提示する。
In the
音抽出部203では、音入力部201から入力される周波数領域信号Xf_11(f,τ)〜Xf_MN(f,τ)と危険度マップH(p,τ)とに基づいて、抽出信号Yf(f,τ)を計算する。
The
図6に、音抽出部203のブロック構成の一例を示す。音抽出部203は、抽出方向選択部601、音源分離ユニット6021〜602R、混合部603などから構成される。
FIG. 6 shows an example of a block configuration of the
まず、抽出方向選択部601では、すべての位置インデックスpのH(p,τ)をソートし、上位R個の位置p_1〜p_Rを抽出位置と定める。音源分離ユニット6021〜602Rは、それぞれ抽出位置p_1〜p_Rに対応する。r番目の音源分離ユニット602r(たとえば602R)のフローチャートを、図9に示す。
First, the extraction
S901では、H(p_r,τ)>T_hか、H(p_r,τ)≦T_hかで場合分けを行う。危険度H(p_r,τ)が高いH(p_r,τ)>T_hの場合(S901−Yes)は、特に高速性が求められると判断し、S902にて瞬時的に抽出可能な方式である方式1を選択する。方式1は、たとえば前述したSPIREのような方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ(f,τ)が抽出位置p_rと重なる場合にその周波数成分を残し、重ならない場合にその周波数成分を0とするようなバイナリマスキングであってもよい。
In S901, the case is divided according to H (p_r, τ)> T_h or H (p_r, τ) ≦ T_h. When H (p_r, τ)> T_h with a high degree of risk H (p_r, τ) (S901—Yes), it is determined that particularly high speed is required, and a method that can be instantaneously extracted at
それに対して、危険度H(p_r,τ)が相対的に低いH(p_r,τ)≦T_hの場合(S901−No)は、円滑なコミュニケーションのために高精度な抽出が求められると判断し、S903にて瞬時的に抽出可能な方式である方式2を選択する。
On the other hand, when H (p_r, τ) ≦ T_h where the risk level H (p_r, τ) is relatively low (S901-No), it is determined that high-precision extraction is required for smooth communication. In step S903, the
図8に、方式2の例として、スパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す。方式2は、目的音/雑音分離部801、目的音ステアリングベクトル更新部802、雑音共分散行列更新部803、フィルタ更新部804、及び、フィルタ乗算部805の詳細構成となる。図8に基づいて説明する。
FIG. 8 shows an example of a block configuration in the case of a minimum dispersion beamformer by adaptation based on sparsity as an example of
目的音/雑音分離部801は、前述のバイナリマスキングと同様に、方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ(f,τ)によって、[数17]のように目的音信号X_des(f,τ)とX_int(f,τ)に分離する。X_des(f,τ)は、目的音/雑音分離部801から目的音ステアリングベクトル更新部802に送られる。X_int(f,τ)は、目的音/雑音分離部801から雑音共分散行列更新部803に送られる。
Similar to the above-described binary masking, the target sound /
目的音ステアリングベクトル更新部802では、[数18]に基づき、目的音ステアリングベクトルa(f,τ)=[a_0(f,τ),…,a_M−1(f,τ)]Tを更新する。ただし、γsは0以上1未満の適当な定数パラメタである。もちろん、安定のために、|X_des_i(f,τ)|が十分に大きいときだけに更新するようにしてもよい。
The target sound steering
雑音共分散行列更新部803では、[数19]に基づき、雑音共分散行列R(f,τ)を更新する。ただし、X_int(f,τ)=[X_int_0(f,τ),…,X_int_M−1(f,τ)]Tとし、γnは0以上1未満の適当な定数パラメタとする。もちろん、安定のために、|X_int(f,τ)|が十分に大きいときだけに更新するようにしてもよい。
The noise covariance
フィルタ更新部804では、目的音ステアリングベクトルa(f,τ)と雑音共分散行列R(f,τ)から、[数20]に基づき、フィルタw(f,τ)を計算する。ただし、γwは0以上1未満の適当な定数パラメタである。
The
最後に、フィルタ乗算部805では、[数21]に基づいて、フィルタw(f,τ)をXf(f,τ)=[Xf_0(f,τ),…,Xf_M−1(f,τ)]Tに乗算することで、指定された方向から到来する音を除去した信号Yf(f,τ)が得られる。 Finally, the filter multiplier 805 converts the filter w (f, τ) to Xf (f, τ) = [Xf_0 (f, τ),..., Xf_M−1 (f, τ) based on [Equation 21]. By multiplying T , a signal Yf (f, τ) from which the sound coming from the designated direction is removed is obtained.
この例では、方式2にスパース性に基づく適応による最小分散ビームフォーマを用いているが、方式2は他の高精度な抽出手法であるICAを用いてもよい。ICAは高次統計量を用いるため、適応のために数秒程度の音声信号が必要であり、瞬時的な抽出は困難である一方で、高精度な抽出が可能である。また、この例では2通りの方式1、方式2のみを選択、実行したが、方式の個数は3以上であってもよく、それらを危険度に応じて選択、実行してもよい。
In this example, the minimum dispersion beamformer based on sparsity is used for
混合部603では、音源分離ユニット6021〜602Rが出力した各周波数領域信号を混合し、抽出信号Yf(f,τ)を出力する。
The
以上の手順によって計算された周波数領域フレーム信号Yf(f,τ)は、音出力部219に送られ、そこで、逆FFTを掛けられ、時間領域信号y(t,τ)に変換される。y(t,τ)は、フレーム周期毎にオーバーラップし、加算され、かつ窓関数の逆数を施されたy(t)に変換され、y(t)がDA変換を介してヘッドホン106から出力される。
The frequency domain frame signal Yf (f, τ) calculated by the above procedure is sent to the
外部向け出力音生成部216は、危険度マップH(p,τ)に基づき、そのH(p,τ)が大きい位置p_rにスピーカアレーの指向性を持つようなフィルタを選択する。オペレータ側のマイクロホン105からなる操作者音声入力部215から入力される音声信号に対し、前記フィルタを乗算し、複数チャンネル信号を生成し、外部向け音出力部217によりDA変換を介してスピーカアレー1021〜102Sから出力する。
The external output
機械動作制御部218は、危険度マップH(p,τ)が、あるpに対して非常に大きい場合に機械の動作を減速、もしくは、停止する。
The machine
以上説明した本実施の形態における音響処理システムによれば、以下のような効果を得ることができる。
(1)危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができ、さらに外部向け音出力部217を介してオペレータと周囲の人物の間で円滑な会話が可能である。
(4)危険度算出部206が算出した位置ごとの危険度に応じて、音源位置推定部202が推定方式を変え、動体検出部212が検出方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
(5)映像出力部213に危険度を映像で視覚的に提示するため、オペレータが電話や無線で会話中である場合など、なんらかの原因で聴覚が使えない場合でも危険回避が可能である。
(6)外部向け音出力部217は、危険度が高い位置に指向性を向けて音声を出力するため、機械の騒音により聞きづらい環境であっても、機械周囲の人物に注意喚起を行うことができる。
(7)機械動作制御部218は、危険度が高い場合に、緊急に機械自体を制御して危険を回避するので、オペレータの回避判断が間に合わない場合に事故を回避できる可能性がある。
According to the sound processing system in the present embodiment described above, the following effects can be obtained.
(1) Since the risk
(2) In the
(3) In the
(4) Calculation for a position with a high degree of risk by the sound source
(5) Since the degree of danger is visually presented to the
(6) Since the external
(7) Since the machine
<実施の形態2>
以下、本発明の実施の形態2を、前述した図6を用いて説明する。
<
The second embodiment of the present invention will be described below with reference to FIG.
前記実施の形態1においては、音抽出部203のr番目の音源分離ユニット602r(たとえば602R)が位置ごとに方式を切り替える例を説明したが、本実施の形態では、位置ごとに方式を切り替えるのではなく、時刻によってのみ方式を切り替える構成に適用した例である。
In the first embodiment, the example in which the r-th sound source separation unit 602r (for example, 602R) of the
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態1の効果に加えて、たとえば、あるpについてH(p,τ)>T_hである場合に全音源分離ユニットで方式1を選択するという構成であっても、危険度が高い時刻はリアルタイムで抽出し、危険度が低い時刻は高精度に抽出することができるという効果がある。
According to the acoustic processing system in the present embodiment having such a configuration, in addition to the effects of the first embodiment, for example, when H (p, τ)> T_h for a certain p, Even when the
<実施の形態3>
以下、本発明の実施の形態3を、図10を用いて説明する。図10は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
<Embodiment 3>
The third embodiment of the present invention will be described below with reference to FIG. FIG. 10 is a diagram illustrating an example of a block configuration of the sound processing system according to the present embodiment.
本実施の形態は、前記実施の形態1に対して、可視光線入力部210、赤外線入力部211、動体検出部212、映像出力部213、操作者音声入力部215、外部向け出力音生成部216、外部向け音出力部217、機械動作制御部218、カメラ投影行列220を持たない構成である。
The present embodiment is different from the first embodiment in the visible
すなわち、本実施の形態における音響処理システムは、図10に示すように、音入力部201と、音源位置推定部202と、音抽出部203と、音声非音声判別部204と、人物検出部205と、危険度算出部206と、機械センサ入力部207と、機械運動状態推定部209と、音出力部219と、機械操作入力部221などから構成され、各機能部は前記実施の形態1と同様の機能を有している。
That is, as shown in FIG. 10, the sound processing system according to the present embodiment includes a
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態1の効果のうち、(5)〜(7)を除く、以下の(1)〜(4)のような効果を得ることができる。
(1)危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
(4)危険度算出部206が算出した位置ごとの危険度に応じて、音源位置推定部202が推定方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
According to the acoustic processing system in the present embodiment having such a configuration, the following effects (1) to (4) excluding (5) to (7) among the effects of the first embodiment. Can be obtained.
(1) Since the risk
(2) In the
(3) In the
(4) The sound source
<実施の形態4>
以下、本発明の実施の形態4を、図11を用いて説明する。図11は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
<Embodiment 4>
Embodiment 4 of the present invention will be described below with reference to FIG. FIG. 11 is a diagram illustrating an example of a block configuration of the sound processing system according to the present embodiment.
本実施の形態は、前記実施の形態3に対して、さらに、音源位置推定部202、音声非音声判別部204、人物検出部205を持たない構成である。
The present embodiment is a configuration that does not further include the sound source
すなわち、本実施の形態における音響処理システムは、図11に示すように、音入力部201と、音抽出部203と、危険度算出部206と、機械センサ入力部207と、機械運動状態推定部209と、音出力部219と、機械操作入力部221などから構成され、各機能部は前記実施の形態1と同様の機能を有している。
That is, as shown in FIG. 11, the sound processing system according to the present embodiment includes a
このような構成による本実施の形態における音響処理システムによれば、前記実施の形態3の効果のうち、(4)を除く、以下の(1)〜(3)のような効果を得ることができる。
(1)人物検出部を備えない場合であっても、危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
According to the acoustic processing system in the present embodiment having such a configuration, the following effects (1) to (3) other than (4) among the effects of the third embodiment can be obtained. it can.
(1) Even if the person detection unit is not provided, the risk
(2) In the
(3) In the
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.
たとえば、前記実施の形態においては、音響処理システムが建設機械と一体となった構成例について説明したが、本発明は、建設機械に限らず、一般の車両、作業機械などにもそのまま適用可能である。 For example, in the above-described embodiment, the configuration example in which the sound processing system is integrated with the construction machine has been described. However, the present invention is not limited to the construction machine but can be applied to general vehicles, work machines, and the like. is there.
本発明の音響処理システムは、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に利用可能である。 The acoustic processing system of the present invention relates to an acoustic processing technique suitable for an operator or driver operating a relatively large machine such as a construction machine, a vehicle, or a work machine to grasp the situation of a person around the machine. The present invention is applicable to a sound processing system suitable for safety of persons around the machine and a machine using the sound processing system.
100…音響処理システム、1011〜101M…マイクロホンアレー、1021〜102S…スピーカアレー、1031〜103A…可視光線カメラ、1041〜104B…赤外線カメラ、105…マイクロホン、106…ヘッドホン、107…A/D−D/A変換装置、108…中央演算装置、109…揮発性メモリ、110…記憶媒体、111…画像表示装置、112…作業機械、113…機械操作入力部、1141〜114M,1151〜115S,116,117…オーディオケーブル、118…モニタケーブル、119,1201〜120A,1211〜121B…デジタルケーブル、
201…音入力部、202…音源位置推定部、203…音抽出部、204…音声非音声判別部、205…人物検出部、206…危険度算出部、207…機械センサ入力部、208…機械の寸法、209…機械運動状態推定部、210…可視光線入力部、211…赤外線入力部、212…動体検出部、213…映像出力部、214…マイク配置、215…操作者音声入力部、216…外部向け出力音生成部、217…外部向け音出力部、218…機械動作制御部、219…音出力部、220…カメラ投影行列、221…機械操作入力部、
301…多チャンネルAD変換器、302…多チャンネルフレーム処理部、303…多チャンネル短時間周波数分析部、
4011〜401M…周波数毎方向推定部、402…方向推定統合部、
501…背景差分・フレーム間差分算出部、502…体表面検出部、503…視錐体交差算出部、
601…抽出方向選択部、6021〜602R…音源分離ユニット、603…混合部、
801…目的音/雑音分離部、802…目的音ステアリングベクトル更新部、803…雑音共分散行列更新部、804…フィルタ更新部、805…フィルタ乗算部、
13001…キャビネット、13002…エンジン部、13003…アーム部。
DESCRIPTION OF
DESCRIPTION OF
301 ... multi-channel AD converter, 302 ... multi-channel frame processing unit, 303 ... multi-channel short-time frequency analysis unit,
4011-401M ... Direction estimation unit for each frequency, 402 ... Direction estimation integration unit,
501 ... Background difference / interframe difference calculation unit, 502 ... Body surface detection unit, 503 ... Visual cone intersection calculation unit,
601 ... Extraction direction selection unit, 6021-602R ... Sound source separation unit, 603 ... Mixing unit,
801... Target sound / noise separator, 802... Target sound steering vector update unit, 803... Noise covariance matrix update unit, 804.
13001 ... Cabinet, 13002 ... Engine part, 13003 ... Arm part.
Claims (14)
機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、
前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、
前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする音響処理システム。 A sound input unit composed of a plurality of microphones for collecting sound;
A risk level calculation unit for calculating a level of risk associated with contact with a person or object in the vicinity due to the operation of the machine;
A sound extraction unit that outputs a separation signal corresponding to the degree of risk calculated by the risk level calculation unit by using the signal output from the sound input unit;
A sound output unit that outputs a separation signal output from the sound extraction unit.
前記危険度算出部は、位置ごとの危険度を算出することを特徴とする音響処理システム。 The sound processing system according to claim 1,
The sound processing system, wherein the risk calculating unit calculates a risk for each position.
前記音抽出部は、複数の音源分離ユニットを備え、
前記複数の音源分離ユニットは、前記危険度に応じて抽出位置を設定することを特徴とする音響処理システム。 The sound processing system according to claim 1 or 2,
The sound extraction unit includes a plurality of sound source separation units,
The sound processing system according to claim 1, wherein the plurality of sound source separation units set extraction positions according to the degree of risk.
前記危険度に応じて前記音源分離ユニットが分離方式を変化させることを特徴とする音響処理システム。 The sound processing system according to claim 3,
The sound processing system, wherein the sound source separation unit changes a separation method according to the degree of risk.
前記機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機械運動状態推定部をさらに有し、
前記危険度算出部は、前記機械運動状態推定部の出力する運動状態に基づいて前記危険度を算出することを特徴とする音響処理システム。 The sound processing system according to claim 4,
A machine motion state estimation unit for estimating a motion state of the machine estimated based on sensor information or a machine operation signal installed in the machine;
The risk processing unit calculates the risk based on a motion state output from the mechanical motion state estimation unit.
前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。 The sound processing system according to claim 5,
A sound source position estimating unit that estimates a sound source position from a signal output from the sound input unit;
A sound non-speech discrimination unit that discriminates speech non-speech based on a sound source position output by the sound source position estimation unit;
A person detection unit that detects a person position based on a voice non-voice discrimination result output by the voice non-speech discrimination unit;
The acoustic processing system, wherein the risk level calculation unit calculates the risk level based on a person position detection result output by the person detection unit.
前記音抽出部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。 The sound processing system according to claim 5,
A sound source position estimating unit that estimates a sound source position from a signal output by the sound extraction unit;
A sound non-speech discrimination unit that discriminates speech non-speech based on a sound source position output by the sound source position estimation unit;
A person detection unit that detects a person position based on a voice non-voice discrimination result output by the voice non-speech discrimination unit;
The acoustic processing system, wherein the risk level calculation unit calculates the risk level based on a person position detection result output by the person detection unit.
可視光線カメラもしくは赤外線カメラの1以上のカメラからなる映像入力部と、
前記映像入力部が出力する映像に基づいて動体検出を行う動体検出部と、をさらに有し、
前記人物検出部は、前記動体検出部の出力する信号に基づいて人物検出を行うことを特徴とする音響処理システム。 The sound processing system according to claim 7,
A video input unit composed of one or more cameras such as a visible light camera or an infrared camera;
A moving object detection unit that detects a moving object based on the video output from the video input unit;
The acoustic processing system, wherein the person detection unit detects a person based on a signal output from the moving object detection unit.
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記音源位置推定部が推定方式を変化させることを特徴とする音響処理システム。 The sound processing system according to claim 8.
The sound processing system, wherein the sound source position estimation unit changes an estimation method based on a risk level for each position output by the risk level calculation unit.
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記動体検出部が検出方式を変化させることを特徴とする音響処理システム。 The sound processing system according to claim 8 or 9,
The acoustic processing system, wherein the moving body detection unit changes a detection method based on a risk level for each position output by the risk level calculation unit.
前記危険度算出部が出力する前記危険度に基づいて映像を表示する映像出力部をさらに有することを特徴とする音響処理システム。 In the sound processing system according to any one of claims 1 to 10,
The acoustic processing system further comprising: a video output unit that displays video based on the risk level output by the risk level calculation unit.
前記危険度算出部が出力する前記危険度に基づいて前記機械の外部に対する外部向け出力音を生成する外部向け出力音生成部と、
前記外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、をさらに有することを特徴とする音響処理システム。 In the sound processing system according to any one of claims 1 to 11,
An external output sound generator for generating an external output sound to the outside of the machine based on the risk output by the risk calculator;
The sound processing system further comprising: an external sound output unit that outputs an external output sound generated by the external output sound generation unit.
前記危険度算出部が出力する前記危険度に基づいて前記機械の動作を制御する機械動作制御部をさらに有することを特徴とする音響処理システム。 In the sound processing system according to any one of claims 1 to 12,
The acoustic processing system further comprising a machine operation control unit that controls the operation of the machine based on the risk level output by the risk level calculation unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010198815A JP5451562B2 (en) | 2010-09-06 | 2010-09-06 | Sound processing system and machine using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010198815A JP5451562B2 (en) | 2010-09-06 | 2010-09-06 | Sound processing system and machine using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012058314A true JP2012058314A (en) | 2012-03-22 |
JP5451562B2 JP5451562B2 (en) | 2014-03-26 |
Family
ID=46055524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010198815A Expired - Fee Related JP5451562B2 (en) | 2010-09-06 | 2010-09-06 | Sound processing system and machine using the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5451562B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013047427A (en) * | 2011-08-29 | 2013-03-07 | Sumitomo (Shi) Construction Machinery Co Ltd | Shovel and abnormality management system thereof |
WO2014126281A1 (en) * | 2013-02-18 | 2014-08-21 | 볼보 컨스트럭션 이큅먼트 에이비 | Construction machine provided with device for listening to voice of auxiliary worker around working device |
WO2014148204A1 (en) * | 2013-03-19 | 2014-09-25 | 住友重機械工業株式会社 | Periphery monitoring device for work machine |
JP2019167680A (en) * | 2018-03-22 | 2019-10-03 | 住友重機械工業株式会社 | Shovel |
JP2021033373A (en) * | 2019-08-15 | 2021-03-01 | 日立建機株式会社 | Work machine |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06214652A (en) * | 1993-01-13 | 1994-08-05 | Toshiba Corp | Maneuvering device |
JP2007049543A (en) * | 2005-08-11 | 2007-02-22 | Nissan Motor Co Ltd | In-vehicle information presenting device, and device, method and system for providing information for vehicle |
JP2008035472A (en) * | 2006-06-28 | 2008-02-14 | National Univ Corp Shizuoka Univ | In-vehicle outside-vehicle acoustic transmission system |
JP2010198519A (en) * | 2009-02-27 | 2010-09-09 | Hitachi Constr Mach Co Ltd | Periphery monitoring device |
-
2010
- 2010-09-06 JP JP2010198815A patent/JP5451562B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06214652A (en) * | 1993-01-13 | 1994-08-05 | Toshiba Corp | Maneuvering device |
JP2007049543A (en) * | 2005-08-11 | 2007-02-22 | Nissan Motor Co Ltd | In-vehicle information presenting device, and device, method and system for providing information for vehicle |
JP2008035472A (en) * | 2006-06-28 | 2008-02-14 | National Univ Corp Shizuoka Univ | In-vehicle outside-vehicle acoustic transmission system |
JP2010198519A (en) * | 2009-02-27 | 2010-09-09 | Hitachi Constr Mach Co Ltd | Periphery monitoring device |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013047427A (en) * | 2011-08-29 | 2013-03-07 | Sumitomo (Shi) Construction Machinery Co Ltd | Shovel and abnormality management system thereof |
WO2014126281A1 (en) * | 2013-02-18 | 2014-08-21 | 볼보 컨스트럭션 이큅먼트 에이비 | Construction machine provided with device for listening to voice of auxiliary worker around working device |
WO2014148204A1 (en) * | 2013-03-19 | 2014-09-25 | 住友重機械工業株式会社 | Periphery monitoring device for work machine |
JP2014182038A (en) * | 2013-03-19 | 2014-09-29 | Sumitomo Heavy Ind Ltd | Periphery monitoring device for work machine |
JP2019167680A (en) * | 2018-03-22 | 2019-10-03 | 住友重機械工業株式会社 | Shovel |
JP7206052B2 (en) | 2018-03-22 | 2023-01-17 | 住友重機械工業株式会社 | Excavator |
JP2021033373A (en) * | 2019-08-15 | 2021-03-01 | 日立建機株式会社 | Work machine |
Also Published As
Publication number | Publication date |
---|---|
JP5451562B2 (en) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20120162259A1 (en) | Sound information display device, sound information display method, and program | |
CN103811023B (en) | Apparatus for processing audio and audio-frequency processing method | |
JP5451562B2 (en) | Sound processing system and machine using the same | |
KR20090037692A (en) | Method and apparatus for extracting the target sound signal from the mixed sound | |
CN104123948B (en) | Sound processing apparatus, sound processing method and storage medium | |
JPWO2019049276A1 (en) | Noise removal apparatus and noise removal method | |
JP6591477B2 (en) | Signal processing system, signal processing method, and signal processing program | |
CN111899756B (en) | Single-channel voice separation method and device | |
EP3185243A1 (en) | Voice processing device, voice processing method, and program | |
US20110022361A1 (en) | Sound processing device, sound processing method, and program | |
JP2008236077A (en) | Target sound extracting apparatus, target sound extracting program | |
JP6078461B2 (en) | Sound processing apparatus, sound processing method, and sound processing program | |
US8200488B2 (en) | Method for processing speech using absolute loudness | |
CN111863015A (en) | Audio processing method and device, electronic equipment and readable storage medium | |
KR101812159B1 (en) | Method and apparatus for localizing sound source using deep learning | |
KR20090037845A (en) | Method and apparatus for extracting the target sound signal from the mixed sound | |
JP5255467B2 (en) | Noise suppression device, noise suppression method, and program | |
JP2011071686A (en) | Video sound processor, and video sound processing method, and program | |
KR101704510B1 (en) | Method for enhancement of speech of interest, an apparatus for enhancement of speech of interest and a vehicle equipped with the apparatus | |
JP2005227512A (en) | Sound signal processing method and its apparatus, voice recognition device, and program | |
JP2007034238A (en) | On-site operation support system | |
JP6794887B2 (en) | Computer program for voice processing, voice processing device and voice processing method | |
JP5405130B2 (en) | Sound reproducing apparatus and sound reproducing method | |
US20230005488A1 (en) | Signal processing device, signal processing method, program, and signal processing system | |
JP6961545B2 (en) | Sound signal processor, sound signal processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5451562 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |