JP2012058314A - Acoustic processing system and machine employing the same - Google Patents

Acoustic processing system and machine employing the same Download PDF

Info

Publication number
JP2012058314A
JP2012058314A JP2010198815A JP2010198815A JP2012058314A JP 2012058314 A JP2012058314 A JP 2012058314A JP 2010198815 A JP2010198815 A JP 2010198815A JP 2010198815 A JP2010198815 A JP 2010198815A JP 2012058314 A JP2012058314 A JP 2012058314A
Authority
JP
Japan
Prior art keywords
unit
sound
processing system
output
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010198815A
Other languages
Japanese (ja)
Other versions
JP5451562B2 (en
Inventor
Yohei Kawaguchi
洋平 川口
Masato Togami
真人 戸上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010198815A priority Critical patent/JP5451562B2/en
Publication of JP2012058314A publication Critical patent/JP2012058314A/en
Application granted granted Critical
Publication of JP5451562B2 publication Critical patent/JP5451562B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Component Parts Of Construction Machinery (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an acoustic processing system for instantaneously extracting voices useful for avoiding danger by extracting voices of a person at a position to be extracted for the safety of the person around a machine.SOLUTION: An acoustic processing system has: a sound input section 201 comprised of a plurality of microphones for collecting sounds; a danger level calculation section 206 for calculating a danger level associated with contact with a person or an object around a machine caused by operating the machine; a sound extraction section 203 which inputs a signal outputted from the sound input section 201 and outputs a separation signal corresponding to the danger level calculated by the danger level calculation section 206; and a sound output section 219 for outputting the separation signal outputted from the sound extraction section 203.

Description

本発明は、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に適用して有効な技術に関する。   The present invention relates to an acoustic processing technique suitable for an operator or driver operating a relatively large machine such as a construction machine, a vehicle, or a work machine to grasp the situation of a person around the machine, and more particularly, to a person around the machine. The present invention relates to a sound processing system suitable for safety and a technology effective when applied to a machine using the same.

建設機械、車両、作業機械などの比較的大型の機械では、機械周囲の人物の安全のために、オペレータもしくは運転者(以下、オペレータという)が常に機械周囲の人物の状況を把握して、その都度危険を回避する必要がある。オペレータが機械周囲の人物の状況を知る上で重要な情報の一つが、周囲の人物が発声する音声である。   In relatively large machines such as construction machines, vehicles, and work machines, the operator or driver (hereinafter referred to as the operator) always knows the situation of the person around the machine for the safety of the person around the machine. It is necessary to avoid danger each time. One of the important information for the operator to know the situation of the person around the machine is the voice uttered by the person around.

周囲の人物の音声を収音するために機械外部にマイクロホンを設置し、収音された音をオペレータに提示することで、オペレータに周囲の人物の状況を把握させることを想定する。マイクロホンで収音される音には、周囲の人物の音声だけでなく、機械動作にともなうエンジン音、機械駆動音、掘削音などが同時に混入するので、収音される音から周囲の人物の音声のみを抽出し、オペレータに提示する必要がある。   It is assumed that a microphone is installed outside the machine in order to pick up the voices of the surrounding people and the collected sounds are presented to the operator so that the operator can grasp the situation of the surrounding people. The sound picked up by the microphone includes not only the sounds of the surrounding people but also the engine sounds, machine driving sounds, excavation sounds, etc. that accompany machine operation. Only need to be extracted and presented to the operator.

複数のマイクロホン(マイクロホンアレー)を用いた音源分離技術を用いれば、特定の位置から到来する音声のみを抽出することが可能である。ただし、以下の2点の課題がある。   If a sound source separation technique using a plurality of microphones (microphone arrays) is used, it is possible to extract only sound coming from a specific position. However, there are the following two problems.

一つ目に、音源分離では、音声を抽出する位置、すなわち人物が存在する位置を指定しなければならない点が課題である。たとえば、スパース性を仮定した位置推定に基づく音源分離方式(たとえば、特許文献1)は、指定した抽出位置を目的音源位置、それ以外を妨害音源位置としてフィルタを適応し、音源分離を行う。このため、位置の指定が必要である。また、音源の位置を指定せずに各音源の音を抽出するブラインド音源分離という技術も存在するが、その場合にも、複数個得られた音響信号のうち、どの音が抽出すべき信号であったのかを判断する問題が残る。   First, in sound source separation, the problem is that it is necessary to specify the position where the voice is extracted, that is, the position where the person exists. For example, a sound source separation method based on position estimation assuming sparsity (for example, Patent Document 1) performs sound source separation by applying a filter with a designated extraction position as a target sound source position and the other as a disturbing sound source position. For this reason, it is necessary to specify the position. In addition, there is a technique called blind sound source separation that extracts the sound of each sound source without specifying the position of the sound source, but even in that case, which sound is to be extracted from among the plurality of obtained acoustic signals. The problem remains to determine if there was.

二つ目に、音源分離の「精度」とフィルタ適応時間のトレードオフが存在する点が課題である。ここでの精度とは、抽出された音が元の目的音源の音にどれだけ近いかを意味する。一般的に、高精度に抽出するための適応方式(たとえば、非特許文献1の独立成分分析)は、瞬時的な入力信号だけではフィルタの適応ができず、オペレータが周囲の人物の状況を把握し危険回避の判断をすることはできない(以下、「瞬時的」とは、音の提示を受けてからオペレータが危険回避行動を実施するまでの時間より十分短い時間であることを意味する)。   The second problem is that there is a trade-off between “accuracy” of sound source separation and filter adaptation time. The accuracy here means how close the extracted sound is to the sound of the original target sound source. In general, an adaptive method for extracting with high accuracy (for example, independent component analysis of Non-Patent Document 1) cannot apply a filter only with an instantaneous input signal, and an operator grasps the situation of surrounding people. However, it is not possible to make a decision to avoid danger (hereinafter, “instantaneous” means that the time from when the sound is presented until the operator performs the danger avoidance action is sufficiently shorter).

その一方で、瞬時的な入力信号だけを用いて抽出が可能な音源分離アルゴリズムが存在する(たとえば、非特許文献2のバイナリマスキング)が、一般にその精度は低く、騒音が混入するので、周囲の人物が何を話しているかまでをオペレータが認識することは困難である。また、常にオペレータが分離されずに残留した騒音にさらされるという問題もある。   On the other hand, there are sound source separation algorithms that can be extracted using only an instantaneous input signal (for example, binary masking in Non-Patent Document 2), but the accuracy is generally low and noise is mixed. It is difficult for an operator to recognize what a person is talking about. There is also a problem that the operator is always exposed to residual noise without being separated.

また、リアルタイム処理と分離精度を両立するために、状況に応じて前記独立成分分析と音量差に基づくバイナリマスキングとを選択する方式がある(たとえば、特許文献2)。特許文献2では、独立成分分析の分離行列の収束度によって選択を行う実施例が示されている。   In order to achieve both real-time processing and separation accuracy, there is a method of selecting the independent component analysis and binary masking based on the volume difference according to the situation (for example, Patent Document 2). Patent Document 2 shows an example in which selection is performed based on the degree of convergence of a separation matrix for independent component analysis.

特開2007−47427号公報JP 2007-47427 A 特開2007−33825号公報JP 2007-33825 A

T.Takatani,T.Nishikawa,H.Saruwatari,and K.Shikano, “Blind separation of binaural sound mixtures using SIMO−model−based independent component analysis,” ICASSP2004,vol.4,pp.113−116,2004.T.A. Takatani, T .; Nishikawa, H .; Saruwatari, and K.A. Shikano, “Blind separation of binaural sound mixtures using SIMO-model-based independent component analysis,” ICASSP2004, vol. 4, pp. 113-116, 2004. O.Yilmaz and S.Rickard, “Blind separation of speech mixtures via time−frequency masking,” IEEE Trans. Signal Process.,vol.52,no.7,pp.1830−1847,July 2004.O. Yilmaz and S.J. Rickard, “Blind separation of speed mixture via time-frequency masking,” IEEE Trans. Signal Process. , Vol. 52, no. 7, pp. 1830-1847, July 2004. M.Togami,T.Sumiyoshi, and A.Amano, “Stepwise phase difference restoration method for sound source localization using multiple microphone pairs,” ICASSP2007,vol.I,pp.117−120,2007.M.M. Togami, T .; Sumioshi, and A.A. Amano, “Stepwise phase difference restoration method for sound source localization using multiple microphone pairs,” ICASP2007, vol. I, pp. 117-120, 2007.

ところで、前記した特許文献2において、収束度の基準で選択するメリットは、分離精度がバイナリマスキング未満まで低下しないという安定性である。周囲の人物の安全を最重要とする本発明においては、危険回避が必要な場合であるほど瞬時性が必要であるが、この課題は分離精度の安定性を重視する特許文献2の発明によっては解決できない。また、そもそも前記で述べた抽出すべき位置の指定の課題も解決できない。   By the way, in the above-mentioned patent document 2, the merit to select on the basis of the degree of convergence is the stability that the separation accuracy does not decrease to less than the binary masking. In the present invention in which the safety of surrounding people is the most important, instantaneousness is necessary so that danger avoidance is necessary, but this problem depends on the invention of Patent Document 2 that places importance on stability of separation accuracy. It cannot be solved. Also, the problem of specifying the position to be extracted as described above cannot be solved.

そこで、本発明は、前記課題を解決するためになされたものであり、その代表的な目的は、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することにある。   Therefore, the present invention has been made to solve the above-mentioned problems, and its typical purpose is to extract the voice of the person at the position to be extracted for the safety of the person around the machine and to avoid danger. It is an object of the present invention to provide an acoustic processing system for instantaneously extracting speech useful for a person.

本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。   The above and other objects and novel features of the present invention will be apparent from the description of this specification and the accompanying drawings.

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。   Of the inventions disclosed in the present application, the outline of typical ones will be briefly described as follows.

すなわち、代表的な音響処理システムは、音を収音する複数のマイクロホンからなる音入力部と、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする。さらに、以下のような特徴を有しても良い。   That is, a typical acoustic processing system includes a sound input unit including a plurality of microphones that collect sound, a risk calculation unit that calculates a risk associated with contact with a surrounding person or object due to the operation of the machine, A sound extraction unit that outputs a separation signal corresponding to the degree of risk calculated by the risk level calculation unit using the signal output from the sound input unit, and a sound that outputs the separation signal output from the sound extraction unit And an output unit. Furthermore, you may have the following characteristics.

前記音抽出部は、相対的に危険度が高い各位置を抽出位置とする複数の音源分離ユニットから構成される。各音源分離ユニットの抽出方式は、対応する抽出位置の危険度が高い場合には瞬時的に抽出可能な方式とし、抽出位置の危険度が低い場合には高精度に抽出可能な方式とする。   The sound extraction unit is composed of a plurality of sound source separation units with each position having a relatively high risk as an extraction position. The extraction method of each sound source separation unit is a method that can be extracted instantaneously when the risk of the corresponding extraction position is high, and a method that can extract with high accuracy when the risk of the extraction position is low.

前記危険度は、機械の運動状態と人物位置の検出結果から算出される。機械の運動状態は、機械運動状態推定部により作業機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される。人物検出は、音声非音声判別結果と映像に基づく動体検出結果を組み合わせることで行う。音声非音声判別は、前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、該音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部により実現する。動体検出は、可視光線カメラもしくは赤外線カメラなどの1以上のカメラからなる映像入力部と、該映像入力部が出力する映像に基づいて動体検出を行う動体検出部により実現する。また、位置ごとの危険度に応じて音源位置推定部は推定方法を変え、動体検出部は検出方法を変える。   The degree of risk is calculated from the motion state of the machine and the detection result of the person position. The machine motion state is estimated based on sensor information or a machine operation signal installed in the work machine by the machine motion state estimation unit. The person detection is performed by combining the voice non-voice discrimination result and the moving object detection result based on the video. The sound non-speech discrimination includes a sound source position estimation unit that estimates a sound source position from a signal output from the sound input unit, and a voice non-speech discrimination unit that determines speech non-speech based on a sound source position output from the sound source position estimation unit. To achieve. The moving object detection is realized by a video input unit including one or more cameras such as a visible light camera or an infrared camera, and a moving object detection unit that detects a moving object based on an image output from the video input unit. Further, the sound source position estimation unit changes the estimation method according to the risk level for each position, and the moving object detection unit changes the detection method.

前記危険度に応じて映像を表示する映像出力部と、前記危険度に基づいて機械外部に対する外部向け出力音を生成する外部向け出力音生成部と、該外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、前記危険度に基づいて機械の動作を制御する機械制御部を有する。   A video output unit that displays video in accordance with the risk level, an external output sound generation unit that generates an external output sound to the outside of the machine based on the risk level, and an external that is generated by the external output sound generation unit An external sound output unit that outputs a direct output sound, and a machine control unit that controls the operation of the machine based on the degree of risk.

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば、以下のとおりである。   Of the inventions disclosed in the present application, effects obtained by typical ones will be briefly described as follows.

すなわち、代表的な音響処理システムによれば、機械周囲の人物の安全のために、抽出すべき位置の人物の音声を抽出し、危険回避にとって有用な音声を瞬時的に抽出するための音響処理システムを提供することができる。   That is, according to a typical acoustic processing system, for the safety of a person around the machine, the acoustic processing for extracting the voice of the person at the position to be extracted and instantaneously extracting the voice useful for danger avoidance A system can be provided.

本発明の実施の形態1における音響処理システムのハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the sound processing system in Embodiment 1 of this invention. 本発明の実施の形態1における音響処理システムのブロック構成の一例を示す図である。It is a figure which shows an example of the block configuration of the sound processing system in Embodiment 1 of this invention. 図2に示す音入力部のブロック構成の一例を示す図である。It is a figure which shows an example of the block configuration of the sound input part shown in FIG. 図2に示す音源位置推定部のブロック構成の一例を示す図である。It is a figure which shows an example of the block configuration of the sound source position estimation part shown in FIG. 図2に示す動体検出部のブロック構成の一例を示す図である。It is a figure which shows an example of the block configuration of the moving body detection part shown in FIG. 図2に示す音抽出部のブロック構成の一例を示す図である。It is a figure which shows an example of the block configuration of the sound extraction part shown in FIG. 図2において、あるフレームτにおける周波数領域信号Xf(f,τ)のデータ構造の一例を示す図である。In FIG. 2, it is a figure which shows an example of the data structure of the frequency domain signal Xf (f, (tau)) in a certain frame (tau). 図2において、音源分離ユニットが選択する方式2がスパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す図である。In FIG. 2, it is a figure which shows an example of a block configuration in case the method 2 which a sound source separation unit selects is the minimum dispersion | distribution beamformer by the adaptation based on sparsity. 図2に示す音抽出部の処理フローの一例を示すフローチャートである。It is a flowchart which shows an example of the processing flow of the sound extraction part shown in FIG. 本発明の実施の形態3における音響処理システムのブロック構成の一例を示す図である。It is a figure which shows an example of the block configuration of the sound processing system in Embodiment 3 of this invention. 本発明の実施の形態4における音響処理システムのブロック構成の一例を示す図である。It is a figure which shows an example of the block configuration of the sound processing system in Embodiment 4 of this invention. 図2に示す音源位置推定部におけるSPIREアルゴリズムの一例を示すフローチャートである。3 is a flowchart illustrating an example of a SPIRE algorithm in the sound source position estimation unit illustrated in FIG. 2. 本発明の実施の形態1における音響処理システムを建設機械に適用した場合の外観の一例を示す図である。It is a figure which shows an example of the external appearance at the time of applying the sound processing system in Embodiment 1 of this invention to a construction machine.

以下、本発明の実施の形態を、たとえば建設機械と一体となった音響処理システムを例に図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。   DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings, taking, as an example, an acoustic processing system integrated with a construction machine. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.

<実施の形態1>
以下、本発明の実施の形態1を、図1〜図9、図12、図13を用いて説明する。
<Embodiment 1>
Hereinafter, Embodiment 1 of the present invention will be described with reference to FIGS. 1 to 9, 12, and 13.

図1は、本発明の実施の形態1における音響処理システムのハードウェア構成の一例を示す図である。   FIG. 1 is a diagram illustrating an example of a hardware configuration of a sound processing system according to Embodiment 1 of the present invention.

本実施の形態における音響処理システム100のハードウェア構成は、マイクロホンアレー1011〜101M、スピーカアレー1021〜102S、可視光線カメラ1031〜103A、赤外線カメラ1041〜104B、マイクロホン105、ヘッドホン106、A/D−D/A変換装置107、中央演算装置108、揮発性メモリ109、記憶媒体110、画像表示装置111、オーディオケーブル1141〜114M,1151〜115S,116,117、モニタケーブル118、デジタルケーブル119,1201〜120A,1211〜121Bなどから構成される。この音響処理システム100は、作業機械112、機械操作入力部113などから構成される建設機械と一体となっている。   The hardware configuration of the sound processing system 100 according to the present embodiment includes a microphone array 1011 to 101M, a speaker array 1021 to 102S, a visible light camera 1031 to 103A, an infrared camera 1041 to 104B, a microphone 105, a headphone 106, and A / D−. D / A converter 107, central processing unit 108, volatile memory 109, storage medium 110, image display device 111, audio cables 1141 to 114M, 1151 to 115S, 116, 117, monitor cable 118, digital cables 119, 1201 120A, 1211-121B, etc. The sound processing system 100 is integrated with a construction machine including a work machine 112, a machine operation input unit 113, and the like.

マイクロホンアレー1011〜101Mは、建設機械外部に装着した、各アレーがN個のマイクロホンからなるマイクロホン群である。スピーカアレー1021〜102Sは、建設機械外部に装着したS個のスピーカ1021〜102Sからなるスピーカ群である。   The microphone arrays 1011 to 101M are a group of microphones that are mounted outside the construction machine and each array is composed of N microphones. The speaker arrays 1021 to 102S are a speaker group including S speakers 1021 to 102S mounted outside the construction machine.

可視光線カメラ1031〜103Aは、建設機械外部に装着した可視光線カメラ群である。赤外線カメラ1041〜104Bは、建設機械外部に装着した赤外線カメラ群である。   The visible light cameras 1031 to 103A are a visible light camera group mounted outside the construction machine. The infrared cameras 1041 to 104B are a group of infrared cameras mounted outside the construction machine.

マイクロホン105は、オペレータが装着するマイクロホンである。ヘッドホン106は、オペレータが装着するヘッドホンである。   The microphone 105 is a microphone worn by the operator. The headphone 106 is a headphone worn by an operator.

A/D−D/A変換装置107は、マイクロホンアレー1011〜101Mから出力される信号とマイクロホン105から出力される信号をデジタルデータに変換すると同時に、スピーカアレー1021〜102Sとヘッドホン106にアナログ音圧信号を出力するA/D−D/A変換装置である。   The A / D-D / A conversion device 107 converts the signal output from the microphone array 1011 to 101M and the signal output from the microphone 105 into digital data, and simultaneously converts the analog sound pressure to the speaker array 1021 to 102S and the headphone 106. This is an A / D-D / A converter that outputs a signal.

中央演算装置108は、A/D−D/A変換装置107の出力を処理する中央演算装置である。揮発性メモリ109は、中央演算装置108における演算処理のデータなどを一時的に格納する揮発性のメモリである。記憶媒体110は、プログラムなどの情報を記憶する記憶媒体である。画像表示装置111は、中央演算装置108における演算処理の情報や画像などを表示する表示装置である。   The central processing unit 108 is a central processing unit that processes the output of the A / D-D / A conversion unit 107. The volatile memory 109 is a volatile memory that temporarily stores data of arithmetic processing in the central processing unit 108. The storage medium 110 is a storage medium that stores information such as programs. The image display device 111 is a display device that displays arithmetic processing information and images in the central processing unit 108.

オーディオケーブル1141〜114Mは、マイクロホンアレー1011〜101MとA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル1151〜115Sは、スピーカアレー1021〜102SとA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル116は、マイクロホン105とA/D−D/A変換装置107とを接続するケーブルである。オーディオケーブル117は、ヘッドホン106とA/D−D/A変換装置107とを接続するケーブルである。   The audio cables 1141 to 114M are cables that connect the microphone arrays 1011 to 101M and the A / D / D / A converter 107. The audio cables 1151 to 115S are cables that connect the speaker arrays 1021 to 102S and the A / D / D / A converter 107. The audio cable 116 is a cable that connects the microphone 105 and the A / D / D / A converter 107. The audio cable 117 is a cable for connecting the headphones 106 and the A / D / D / A converter 107.

モニタケーブル118は、画像表示装置111と中央演算装置108とを接続するケーブルである。   The monitor cable 118 is a cable for connecting the image display device 111 and the central processing unit 108.

デジタルケーブル119は、A/D−D/A変換装置107と中央演算装置108とを接続するケーブルである。デジタルケーブル1201〜120Aは、可視光線カメラ1031〜103Aと中央演算装置108とを接続するケーブルである。デジタルケーブル1211〜121Bは、赤外線カメラ1041〜104Bと中央演算装置108とを接続するケーブルである。   The digital cable 119 is a cable that connects the A / D / D / A converter 107 and the central processing unit 108. The digital cables 1201 to 120A are cables that connect the visible light cameras 1031 to 103A and the central processing unit 108. The digital cables 1211 to 121B are cables that connect the infrared cameras 1041 to 104B and the central processing unit 108.

作業機械112は、アームなどを持つ建設機械である。機械操作入力部113は、建設機械の各種操作を入力する部分である。   The work machine 112 is a construction machine having an arm or the like. The machine operation input unit 113 is a part for inputting various operations of the construction machine.

以上のように構成される音響処理システム100のハードウェアの動作は、以下の通りである。   The hardware operation of the sound processing system 100 configured as described above is as follows.

マイクロホンアレー1011〜101Mが出力する音圧データは、オーディオケーブル1141〜114Mを介してA/D−D/A変換装置107に送られる。このマイクロホンアレー1011〜101Mからの音圧データは、A/D−D/A変換装置107によってそれぞれデジタル音圧データに変換される。この変換では、信号間で変換タイミングを同期して変換する。変換後のデジタル音圧データは、デジタルケーブル119を介して中央演算装置108に送られ、中央演算装置108で音響信号処理が施される。この音響信号処理後のデジタル音圧データはデジタルケーブル119を介して、A/D−D/A変換装置107に送られる。この中央演算装置108からのデジタル音圧データは、A/D−D/A変換装置107によってアナログ音圧データに変換され、オーディオケーブル117を介してヘッドホン106より出力される。   The sound pressure data output from the microphone arrays 1011 to 101M is sent to the A / D / D / A converter 107 via the audio cables 1141 to 114M. The sound pressure data from the microphone arrays 1011 to 101M is converted into digital sound pressure data by the A / D-D / A converter 107, respectively. In this conversion, conversion is performed by synchronizing the conversion timing between signals. The converted digital sound pressure data is sent to the central processing unit 108 through the digital cable 119, and the central processing unit 108 performs acoustic signal processing. The digital sound pressure data after the acoustic signal processing is sent to the A / D-D / A converter 107 via the digital cable 119. The digital sound pressure data from the central processing unit 108 is converted to analog sound pressure data by the A / D-D / A converter 107 and output from the headphones 106 via the audio cable 117.

マイクロホンアレー1011〜101Mで収音され、中央演算装置108に送られてきたデジタル音圧データXには、作業機械112外部の作業員の声と作業機械112が発するエンジン音やアーム駆動音などの雑音とが混入して含まれている。中央演算装置108では、デジタル音圧データXと、可視光線カメラ1031〜103Aから得られる画像データVIと、赤外線カメラ1041〜104Bから得られる画像データIIと、機械操作入力部113から得られる操作信号と、作業機械112が持つ速度情報とに基づいて、位置ごとの危険度Hを算出する。危険度Hは揮発性メモリ109に記憶される。中央演算装置108は、危険度Hに基づいて、音源位置推定方式を変え、さらに、動体検出方式を変え、さらに、危険度が比較的高い位置を音抽出位置とし、その中でも危険度が特に高い位置に対しては瞬時的に抽出可能な方式での音抽出を行い、危険度が低い位置に対しては高精度に抽出可能な方式での音抽出を行う。抽出信号Yは、デジタルケーブル119を介してA/D−D/A変換装置107に送られ、アナログ信号に変換されてオーディオケーブル117を介してヘッドホン106から出力される。   The digital sound pressure data X collected by the microphone arrays 1011 to 101M and sent to the central processing unit 108 includes voices of workers outside the work machine 112, engine sounds and arm drive sounds generated by the work machine 112, and the like. It is mixed with noise. In the central processing unit 108, digital sound pressure data X, image data VI obtained from the visible light cameras 1031 to 103A, image data II obtained from the infrared cameras 1041 to 104B, and operation signals obtained from the machine operation input unit 113. And the risk level H for each position is calculated based on the speed information of the work machine 112. The risk level H is stored in the volatile memory 109. Based on the risk level H, the central processing unit 108 changes the sound source position estimation method, further changes the moving object detection method, further sets the position with a relatively high risk level as the sound extraction position, and has a particularly high risk level. Sound extraction is performed for a position by a method that can be extracted instantaneously, and sound extraction is performed for a position with a low degree of danger by a method that can be extracted with high accuracy. The extracted signal Y is sent to the A / D / D / A converter 107 via the digital cable 119, converted into an analog signal, and output from the headphones 106 via the audio cable 117.

揮発性メモリ109に蓄えられた位置ごとの危険度Hは、中央演算装置108において、画像に変換され、モニタケーブル118を介して画像表示装置111より出力される。   The risk level H for each position stored in the volatile memory 109 is converted into an image by the central processing unit 108 and output from the image display device 111 via the monitor cable 118.

マイクロホン105で収音される音声信号は、オーディオケーブル116を介して、A/D−D/A変換装置107にてデジタル音圧データに変換され、デジタルケーブル119を介して、中央演算装置108に入力される。また、スピーカアレー1021〜102Sを用いた指向性フィルタが、その指向性を向ける位置ごとに予め記憶媒体110に格納されている。前記デジタル音圧データに対して、危険度Hが比較的高い位置に指向性を向ける指向性フィルタを選択して畳み込み、複数チャンネルデジタル信号データを生成する。デジタルケーブル119を介して、この複数チャンネルデジタル信号データをA/D−D/A変換装置107に入力し、A/D−D/A変換装置107が複数チャンネルアナログ信号に変換し、オーディオケーブル1151〜115Sを介してスピーカアレー1021〜102Sより出力する。   The audio signal collected by the microphone 105 is converted into digital sound pressure data by the A / D-D / A converter 107 via the audio cable 116 and is sent to the central processing unit 108 via the digital cable 119. Entered. In addition, a directional filter using the speaker arrays 1021 to 102S is stored in advance in the storage medium 110 for each position where the directivity is directed. The digital sound pressure data is convolved by selecting a directional filter that directs the directivity to a position where the degree of risk H is relatively high, and multi-channel digital signal data is generated. The multi-channel digital signal data is input to the A / D-D / A converter 107 via the digital cable 119, and the A / D-D / A converter 107 converts it into a multi-channel analog signal. Are output from the speaker arrays 1021 to 102S through .about.115S.

中央演算装置108は、作業機械112に対して、危険度Hに応じた移動の種類、移動速度、動作の種類、動作速度などの制御を行う。   The central processing unit 108 controls the work machine 112 such as the type of movement, the movement speed, the type of movement, and the movement speed according to the degree of risk H.

デジタルケーブル119は、USBケーブルなどを用いる。デジタルケーブル1201〜120A、デジタルケーブル1211〜121Bは、USBケーブルやLANケーブルなどを用いる。   The digital cable 119 uses a USB cable or the like. As the digital cables 1201 to 120A and the digital cables 1211 to 121B, USB cables or LAN cables are used.

図13は、本実施の形態における音響処理システム100を建設機械に適用した場合の外観の一例を示す図である。図13は、建設機械を上面から見た模式図である。   FIG. 13 is a diagram illustrating an example of an external appearance when the sound processing system 100 according to the present embodiment is applied to a construction machine. FIG. 13 is a schematic view of the construction machine as viewed from above.

この図13の例では、建設機械は、キャビネット13001、エンジン部13002、アーム部13003などから構成される。マイクロホンアレー1011〜1014を建設機械外部の四隅に配置している。キャビネット13001内でオペレータが操作する。   In the example of FIG. 13, the construction machine includes a cabinet 13001, an engine unit 13002, an arm unit 13003, and the like. Microphone arrays 1011 to 1014 are arranged at the four corners outside the construction machine. An operator operates in the cabinet 13001.

たとえば、本発明を用いない場合、キャビネット13001の内部では外部の音はほとんど聞こえない。また、建設機械自身がエンジン部13002やアーム部13003といった騒音源を有しており、マイクロホンアレー1011〜1014が収音した音をそのまま聞いても、それらの騒音に埋もれた周囲の人物の音声はほとんど聞こえない。本発明では、これらの課題を解決するものである。   For example, when the present invention is not used, external sounds are hardly audible inside the cabinet 13001. In addition, the construction machine itself has noise sources such as the engine part 13002 and the arm part 13003. Even if the sound collected by the microphone arrays 1011 to 1014 is heard as it is, the voices of surrounding people buried in those noises are not heard. I can hardly hear. The present invention solves these problems.

図2は、本実施の形態における音響処理システム100のブロック構成の一例を示す図である。この図2に示すブロック構成は、図1に示す中央演算処理装置108が、記憶媒体110に記憶されているプログラムを読み出して実行することで実現されるソフトウェアによる機能構成である。ただし、一部の構成要素は図1に示すハードウェア構成を含むものもある。   FIG. 2 is a diagram illustrating an example of a block configuration of the sound processing system 100 according to the present embodiment. The block configuration shown in FIG. 2 is a functional configuration by software realized by the central processing unit 108 shown in FIG. 1 reading out and executing a program stored in the storage medium 110. However, some components include the hardware configuration shown in FIG.

本実施の形態における音響処理システム100は、音入力部201と、音入力部201に繋がっている音源位置推定部202と、音入力部201に繋がっている音抽出部203と、音源位置推定部202に繋がっている音声非音声判別部204と、音声非音声判別部204に繋がっている人物検出部205と、人物検出部205に繋がっており、音源位置推定部202と音抽出部203に繋がる危険度算出部206と、機械センサ入力部207と、機械センサ入力部207に繋がっており、危険度算出部206に繋がる機械運動状態推定部209と、可視光線入力部210と、赤外線入力部211と、可視光線入力部210及び赤外線入力部211と危険度算出部206に繋がっており、人物検出部205に繋がる動体検出部212と、人物検出部205と危険度算出部206に繋がっている映像出力部213と、操作者音声入力部215と、操作者音声入力部215と危険度算出部206に繋がっている外部向け出力音生成部216と、外部向け出力音生成部216に繋がっている外部向け音出力部217と、危険度算出部206に繋がっている機械動作制御部218と、音抽出部203に繋がっている音出力部219と、機械運動状態推定部209に繋がる機械操作入力部221などから構成される。   The acoustic processing system 100 according to the present embodiment includes a sound input unit 201, a sound source position estimation unit 202 connected to the sound input unit 201, a sound extraction unit 203 connected to the sound input unit 201, and a sound source position estimation unit. The voice non-voice discrimination unit 204 connected to 202, the person detection unit 205 connected to the voice non-speech discrimination unit 204, and the person detection unit 205 are connected to the sound source position estimation unit 202 and the sound extraction unit 203. A risk calculation unit 206, a machine sensor input unit 207, and a machine sensor input unit 207 are connected to the machine motion state estimation unit 209, a visible light input unit 210, and an infrared input unit 211 connected to the risk calculation unit 206. And a visible light input unit 210, an infrared input unit 211, and a risk level calculation unit 206, a moving object detection unit 212 connected to the person detection unit 205, and a person The video output unit 213 connected to the output unit 205 and the risk level calculation unit 206, the operator voice input unit 215, and the output sound generation unit 216 for the outside connected to the operator voice input unit 215 and the risk level calculation unit 206. An external sound output unit 217 connected to the external output sound generation unit 216, a machine operation control unit 218 connected to the risk level calculation unit 206, and a sound output unit 219 connected to the sound extraction unit 203 And a machine operation input unit 221 connected to the machine motion state estimation unit 209.

また、音声非音声判別部204と機械運動状態推定部209では、機械の寸法208が用いられる。音源位置推定部202と音抽出部203では、マイク配置214の情報が用いられる。動体検出部212では、カメラ投影行列220が用いられる。   The voice non-voice discrimination unit 204 and the machine motion state estimation unit 209 use the machine size 208. The sound source position estimation unit 202 and the sound extraction unit 203 use information on the microphone arrangement 214. In the moving object detection unit 212, a camera projection matrix 220 is used.

以上のように構成される音響処理システム100のソフトウェアによる主な機能(一部の構成要素はハードウェア構成を含む)は、以下の通りである。   The main functions by software of the sound processing system 100 configured as described above (some components include a hardware configuration) are as follows.

音入力部201は、音を収音する複数のマイクロホンからなる機能部である。詳細は図3を用いて後述する。音源位置推定部202は、音入力部201が出力する信号から音源位置を推定したり、または音抽出部203が出力する信号から音源位置を推定する機能部である。また、音源位置推定部202は、危険度算出部206が出力する位置ごとの危険度に基づいて推定方式を変化させる。詳細は図4を用いて後述する。音抽出部203は、音入力部201から出力された信号を入力として危険度算出部206で算出された危険度に応じた分離信号を出力する機能部である。この音抽出部203は、複数の音源分離ユニットを備え、各音源分離ユニットは危険度に応じて抽出位置を設定し、さらに危険度に応じて音源分離ユニットが分離方式を変化させる。詳細は図6を用いて後述する。   The sound input unit 201 is a functional unit including a plurality of microphones that collect sound. Details will be described later with reference to FIG. The sound source position estimation unit 202 is a functional unit that estimates a sound source position from a signal output from the sound input unit 201 or estimates a sound source position from a signal output from the sound extraction unit 203. The sound source position estimation unit 202 changes the estimation method based on the risk level for each position output by the risk level calculation unit 206. Details will be described later with reference to FIG. The sound extraction unit 203 is a functional unit that outputs a separation signal corresponding to the risk calculated by the risk calculation unit 206 using the signal output from the sound input unit 201 as an input. The sound extraction unit 203 includes a plurality of sound source separation units. Each sound source separation unit sets an extraction position according to the degree of danger, and the sound source separation unit changes the separation method according to the degree of risk. Details will be described later with reference to FIG.

音声非音声判別部204は、音源位置推定部202が出力する音源位置に基づいて音声非音声を判別する機能部である。人物検出部205は、音声非音声判別部204が出力する音声非音声判別結果に基づいて人物位置を検出する機能部である。この人物検出部205は、また動体検出部212の出力する信号に基づいて人物検出を行う。   The speech non-speech determination unit 204 is a functional unit that determines speech non-speech based on the sound source position output from the sound source position estimation unit 202. The person detection unit 205 is a functional unit that detects a person position based on the voice / non-voice discrimination result output by the voice / non-voice discrimination unit 204. The person detection unit 205 performs person detection based on a signal output from the moving object detection unit 212.

危険度算出部206は、機械の動作による周囲の人物または物体との接触に伴う危険度を算出する機能部である。この危険度算出部206は、位置ごとの危険度を算出する。さらに、危険度算出部206は、機械運動状態推定部209の出力する運動状態に基づいて危険度を算出したり、人物検出部205が出力する人物位置検出結果に基づいて危険度を算出する。機械運動状態推定部209は、機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機能部である。   The risk level calculation unit 206 is a functional unit that calculates the level of risk associated with contact with surrounding people or objects due to machine operations. The risk level calculation unit 206 calculates the risk level for each position. Further, the risk level calculation unit 206 calculates the risk level based on the motion state output by the machine motion state estimation unit 209 or calculates the risk level based on the person position detection result output by the person detection unit 205. The machine motion state estimation unit 209 is a functional unit that estimates the motion state of the machine estimated based on sensor information or a machine operation signal installed in the machine.

映像入力部は、可視光線入力部210及び赤外線入力部211からなり、可視光線カメラもしくは赤外線カメラの1以上のカメラからなる機能部である。動体検出部212は、映像入力部が出力する映像に基づいて動体検出を行う機能部である。また、動体検出部212は、危険度算出部206が出力する位置ごとの危険度に基づいて検出方式を変化させる。詳細は図5を用いて後述する。映像出力部213は、危険度算出部206が出力する危険度に基づいて映像を表示する機能部である。   The video input unit includes a visible light input unit 210 and an infrared light input unit 211, and is a functional unit including a visible light camera or one or more cameras of an infrared camera. The moving object detection unit 212 is a functional unit that performs moving object detection based on the video output from the video input unit. In addition, the moving object detection unit 212 changes the detection method based on the risk level for each position output by the risk level calculation unit 206. Details will be described later with reference to FIG. The video output unit 213 is a functional unit that displays a video based on the risk level output by the risk level calculation unit 206.

外部向け出力音生成部216は、危険度算出部206が出力する危険度に基づいて機械の外部に対する外部向け出力音を生成する機能部である。外部向け音出力部217は、外部向け出力音生成部216が生成する外部向け出力音を出力する機能部である。   The external output sound generation unit 216 is a functional unit that generates an external output sound for the outside of the machine based on the risk level output by the risk level calculation unit 206. The external sound output unit 217 is a functional unit that outputs an external output sound generated by the external output sound generation unit 216.

機械動作制御部218は、危険度算出部206が出力する危険度に基づいて機械の動作を制御する機能部である。音出力部219は、音抽出部203から出力された分離信号を出力する機能部である。   The machine operation control unit 218 is a functional unit that controls the operation of the machine based on the risk level output from the risk level calculation unit 206. The sound output unit 219 is a functional unit that outputs the separated signal output from the sound extraction unit 203.

以下において、音響処理システム100のソフトウェアによる主な機能部を詳細に説明する。   Below, the main function parts by the software of the sound processing system 100 will be described in detail.

図3に、音入力部201のブロック構成の一例を示す。音入力部201は、多チャンネルAD変換器301、多チャンネルフレーム処理部302、多チャンネル短時間周波数分析部303などから構成される。多チャンネルAD変換器301は、A/D−D/A変換装置107に含まれる。   FIG. 3 shows an example of a block configuration of the sound input unit 201. The sound input unit 201 includes a multi-channel AD converter 301, a multi-channel frame processing unit 302, a multi-channel short-time frequency analysis unit 303, and the like. The multi-channel AD converter 301 is included in the A / D-D / A conversion device 107.

音入力部201において、マイクロホンアレー1011〜101Mから得た多チャンネルアナログ音圧データは多チャンネルAD変換器301でデジタル音圧データx_11(t)〜x_MN(t)に変換される。tはサンプリング周期毎の離散時間である。変換されたデジタル音圧データx_11(t)〜x_MN(t)は、多チャンネルフレーム処理部302に渡る。   In the sound input unit 201, the multichannel analog sound pressure data obtained from the microphone arrays 1011 to 101M is converted into digital sound pressure data x_11 (t) to x_MN (t) by the multichannel AD converter 301. t is a discrete time for each sampling period. The converted digital sound pressure data x_11 (t) to x_MN (t) is passed to the multi-channel frame processing unit 302.

多チャンネルフレーム処理部302では、t=τsからt=τs+F_s−1までのx_ij(t)をそれぞれt=0からt=F−1までのXf_ij(t,τ)に移し変える。ここで、τはフレームインデックスと呼び、多チャンネルフレーム処理部302から音出力部219までの処理が完了した後で、1インクリメントされる。sはフレームシフトと呼び、フレーム毎にずらすサンプル数を意味する。F_sはフレームサイズと呼び、フレーム毎に一度に処理するサンプル数を意味する。iはマイクロホンアレー番号を意味するインデックス(1,…,M)とする。jはマイクロホン番号を意味するインデックス(1,…,N)とする。   The multi-channel frame processing unit 302 changes x_ij (t) from t = τs to t = τs + F_s−1 to Xf_ij (t, τ) from t = 0 to t = F−1, respectively. Here, τ is called a frame index, and is incremented by 1 after the processing from the multi-channel frame processing unit 302 to the sound output unit 219 is completed. s is called a frame shift and means the number of samples shifted for each frame. F_s is called a frame size, and means the number of samples processed at one time for each frame. i is an index (1,..., M) indicating a microphone array number. j is an index (1,..., N) indicating a microphone number.

その後、Xf_ij(t,τ)は多チャンネル短時間周波数分析部303に渡される。多チャンネル短時間周波数分析部303では、Xf_ij(t,τ)に、直流成分カット及びハミング窓、ハニング窓、ブラックマン窓などの窓処理を施した後、短時間フーリエ変換を施し、それぞれ周波数領域の信号Xf_ij(f,τ)に変換する。ここでの周波数ビン数をFとする。あるフレームτでのXf_ij(f,τ)は、図7のようなデータ構造をとる。周波数領域信号Xf_ij(f,τ)は、音源位置推定部202と音抽出部203に送られる。   Thereafter, Xf_ij (t, τ) is passed to the multi-channel short-time frequency analysis unit 303. The multi-channel short-time frequency analysis unit 303 performs a DC component cut and window processing such as a Hamming window, a Hanning window, and a Blackman window on Xf_ij (t, τ), and then performs a short-time Fourier transform on each frequency domain. Signal Xf_ij (f, τ). The frequency bin number here is F. Xf_ij (f, τ) in a certain frame τ has a data structure as shown in FIG. The frequency domain signal Xf_ij (f, τ) is sent to the sound source position estimation unit 202 and the sound extraction unit 203.

図4に、音源位置推定部202のブロック構成の一例を示す。音源位置推定部202は、周波数毎方向推定部4011〜401M、方向推定統合部402などから構成される。   FIG. 4 shows an example of a block configuration of the sound source position estimation unit 202. The sound source position estimation unit 202 includes frequency direction estimation units 4011 to 401M, a direction estimation integration unit 402, and the like.

まず、周波数毎方向推定部401iは、一つのマイクロホンアレー101iに対応する多チャンネル周波数領域信号Xf_i1(f,τ)〜Xf_iN(f,τ)に対して、各周波数インデックスfに対する音の到来方向θ_i(f)を推定する。マイクロホンアレーのマイク素子数が二つの場合、θを[数1]で推定する。   First, the direction estimator 401i for each frequency receives the sound arrival direction θ_i for each frequency index f with respect to the multi-channel frequency domain signals Xf_i1 (f, τ) to Xf_iN (f, τ) corresponding to one microphone array 101i. Estimate (f). When the number of microphone elements in the microphone array is two, θ is estimated by [Equation 1].

Figure 2012058314
Figure 2012058314

ここで、ρ(f,τ)は、二つのマイク素子の入力信号の、フレームτ、周波数インデックスfにおける位相差とする。freq(f)は周波数インデックスfの周波数(Hz)であり、[数2]で計算される。   Here, ρ (f, τ) is a phase difference between the input signals of the two microphone elements at the frame τ and the frequency index f. freq (f) is the frequency (Hz) of the frequency index f, and is calculated by [Equation 2].

Figure 2012058314
Figure 2012058314

ただし、FはA/D変換装置のサンプリングレートである。dは二つのマイク素子の物理的な間隔(m)とする。cは音速(m/s)とする。音速は、厳密には温度や媒質の密度に依存して変化するが、通常340m/sなどの一つの値に固定して用いる。ここでの雑音除去処理は、前述の「スパース性」の仮定に基づけば、時間−周波数毎に同一の処理を別々に行えばよいため、以後、時間−周波数のサフィックス(f,τ)は省略して表記する。 However, F S is the sampling rate of the A / D converter. d is the physical distance (m) between the two microphone elements. c is the speed of sound (m / s). Strictly speaking, the speed of sound changes depending on the temperature and the density of the medium, but is usually fixed to one value such as 340 m / s. Since the noise removal processing here may be performed separately for each time-frequency based on the above-mentioned assumption of “sparseness”, the time-frequency suffix (f, τ) is omitted hereinafter. It describes as.

マイクロホンアレーのマイク素子数が三つ以上の場合、SPIREアルゴリズム(非特許文献3参照)により、その方向を高精度に算出することが可能である。SPIREアルゴリズムでも、前述の「スパース性」の仮定に基づき、時間−周波数毎に同一の処理を別々に行うものとする。図12に、SPIREアルゴリズムのフローチャートを示す。   When the number of microphone elements in the microphone array is three or more, the direction can be calculated with high accuracy by the SPIRE algorithm (see Non-Patent Document 3). Also in the SPIRE algorithm, the same processing is performed separately for each time-frequency based on the above-described assumption of “sparseness”. FIG. 12 shows a flowchart of the SPIRE algorithm.

まず、SPIREアルゴリズムでは、マイク素子の配置読み込みを行う(S1201)。次に、SPIREアルゴリズムでは、それぞれが二つのマイク素子で構成されるマイクペアとなるように、各マイクペアを構成するマイク素子の選択を行う(S1202)。このとき、マイクペアを構成する二つのマイク素子間のマイク間隔が、マイクペアごとに異なるように分けることが望ましい。   First, in the SPIRE algorithm, the arrangement of microphone elements is read (S1201). Next, in the SPIRE algorithm, the microphone elements constituting each microphone pair are selected so that each microphone pair is composed of two microphone elements (S1202). At this time, it is desirable to divide the microphone interval between the two microphone elements constituting the microphone pair so as to be different for each microphone pair.

次に、SPIREアルゴリズムは、各マイクペアをマイク間隔が小さいものから順にソートし、マイクペア待ち行列に格納する(S1203)。ここで、lを一つのマイクペアを特定するためのインデックスとし、l=1をマイク間隔が最も短いマイクペア、l=Lをマイク間隔が最も長いマイクペアとする。マイクペア待ち行列の要素数が0かどうかの比較演算を行う(S1204)。要素数が0でない間(S1204−No)、次に述べるS1205及びS1206を繰り返す。   Next, the SPIRE algorithm sorts each microphone pair in ascending order of the microphone interval and stores it in the microphone pair queue (S1203). Here, l is an index for specifying one microphone pair, l = 1 is a microphone pair with the shortest microphone interval, and l = L is a microphone pair with the longest microphone interval. A comparison operation is performed to determine whether the number of elements in the microphone pair queue is 0 (S1204). While the number of elements is not 0 (S1204-No), S1205 and S1206 described below are repeated.

すなわち、次に、マイクペア待ち行列から間隔が最短の一つのマイクペアlを読み込み、かつ、マイクペア待ち行列から除く処理を行う(S1205)。そして、続く位相差推定処理では、読み込んだlに対して、まず[数3]を満たす整数nをみつける(S1206)。不等式で囲まれた範囲が2πに相当するため、必ず一つだけ解が見つかる。そして、[数4]を実行する。 That is, next, the process of reading one microphone pair 1 with the shortest interval from the microphone pair queue and removing it from the microphone pair queue is performed (S1205). In the subsequent phase difference estimation process, an integer n 1 satisfying [Equation 3] is first found for the read l (S1206). Since the range surrounded by inequalities corresponds to 2π, only one solution can be found. Then, [Formula 4] is executed.

Figure 2012058314
Figure 2012058314

Figure 2012058314
Figure 2012058314

また、上記の処理をl=1に対して行う前に初期値として、[数5]を設定する。S1205及びS1206をP回繰り返し、マイクペア待ち行列の要素数が0となると(S1204−Yes)、[数6]に従って、位相差から方向計算を行い、θ(f,τ)を計算する(S1207)。   Also, [Formula 5] is set as an initial value before the above processing is performed for l = 1. When S1205 and S1206 are repeated P times and the number of elements in the microphone pair queue becomes 0 (S1204-Yes), direction calculation is performed from the phase difference according to [Equation 6], and θ (f, τ) is calculated (S1207). .

Figure 2012058314
Figure 2012058314

Figure 2012058314
Figure 2012058314

ここで、dはl番目のマイクペアのマイク素子間の間隔とする。 Here, d l is the distance between the microphone elements of the l th microphone pair.

音源方向推定の推定精度は、マイク間隔が長い程、高まることが知られているが、方向を推定する信号の半波長以上マイク間隔が長ければ、マイク間の位相差から一つの方向を特定することができず、同じ位相差を持つ二つ以上の方向が存在してしまうことが知られている(空間的エイリアシング)。SPIRE法では、長いマイク間隔で生じた二つ以上の推定方向のうち、短いマイク間隔で求めた音源方向に近い方向を選択するような機構を備えている。したがって、空間的エイリアシングが生じるような長いマイク間隔でも高精度に音源方向を推定することができるという利点を備えている。   It is known that the estimation accuracy of sound source direction estimation increases as the microphone interval increases, but if the microphone interval is longer than the half wavelength of the signal for estimating the direction, one direction is specified from the phase difference between the microphones. It is known that there are two or more directions with the same phase difference (spatial aliasing). The SPIRE method includes a mechanism that selects a direction close to a sound source direction obtained at a short microphone interval from two or more estimated directions generated at a long microphone interval. Therefore, there is an advantage that the sound source direction can be estimated with high accuracy even with a long microphone interval that causes spatial aliasing.

周波数毎方向推定部4011〜401Mから出力される方向推定結果θ_i(f,τ)は、方向推定統合部402に入力される。[数7]により音源が存在する位置インデックスpほど大きな値を持つ位置ヒストグラムh(p,τ)を得ることが可能である。   The direction estimation result θ_i (f, τ) output from the frequency direction direction estimation units 4011 to 401M is input to the direction estimation integration unit 402. According to [Expression 7], it is possible to obtain a position histogram h (p, τ) having a larger value as the position index p where the sound source exists.

Figure 2012058314
Figure 2012058314

ここで、前のフレームで算出された危険度マップデータH(p,τ)に応じて、[数7]の加算処理を間引いた[数8]を用いれば、危険度が高い位置に対して追従性高く位置ヒストグラムを算出することができる。   Here, according to the risk map data H (p, τ) calculated in the previous frame, if [Expression 8] obtained by thinning out the addition process of [Expression 7] is used, a position with a high risk is used. A position histogram can be calculated with high follow-up performance.

Figure 2012058314
Figure 2012058314

音声非音声判別部204は、音源位置推定部202から入力された位置ヒストグラムh(p,τ)に基づいて、位置pごとに音声の有無を表わす音声非音声判別マップv(p,τ)を判定する。音声非音声判別には、h(p,τ)を位置pに存在する人の雑音混入音声信号とみなし、MCRAに基づく雑音推定を行ってから、入力信号対雑音比(事後SNR)γ(p,τ)に基づく判別方式[数9]などの一般的なアルゴリズムを用いて判別すればよく、本質的な機能の差にはならない。   The speech non-speech discrimination unit 204 generates a speech non-speech discrimination map v (p, τ) indicating the presence / absence of speech for each position p based on the position histogram h (p, τ) input from the sound source position estimation unit 202. judge. For speech non-speech discrimination, h (p, τ) is regarded as a speech signal with human noise present at the position p, noise estimation based on MCRA is performed, and then the input signal-to-noise ratio (post SNR) γ (p , Τ) may be discriminated by using a general algorithm such as a discriminating method [Equation 9], which is not an essential functional difference.

Figure 2012058314
Figure 2012058314

また、機械の寸法208に基づいて機械内部のpに対し、v(p,τ)は常に0とすることで計算コストを削減することができる。音声非音声判別マップv(p,τ)は人物検出部205に送られる。   Further, the calculation cost can be reduced by setting v (p, τ) to be always 0 with respect to p inside the machine based on the machine size 208. The voice / non-voice discrimination map v (p, τ) is sent to the person detection unit 205.

可視光線カメラ1031〜103Aからなる可視光線入力部210は可視光線画像データVIを動体検出部212に送る。   The visible light input unit 210 including the visible light cameras 1031 to 103A sends the visible light image data VI to the moving object detection unit 212.

赤外線カメラ1041〜104Bからなる赤外線入力部211は赤外線画像データIIを動体検出部212に送る。   The infrared input unit 211 including the infrared cameras 1041 to 104B sends the infrared image data II to the moving object detection unit 212.

図5に、動体検出部212のブロック構成の一例を示す。動体検出部212は、背景差分・フレーム間差分算出部501、体表面検出部502、視錐体交差算出部503などから構成される。   FIG. 5 shows an example of a block configuration of the moving object detection unit 212. The moving object detection unit 212 includes a background difference / interframe difference calculation unit 501, a body surface detection unit 502, a visual cone intersection calculation unit 503, and the like.

背景差分・フレーム間差分算出部501は、可視光線画像データVI_1〜VI_Aに基づき、それぞれの画像に対して背景差分処理およびフレーム間差分処理により物体領域を抽出した画像EI_1〜EI_Aを計算する。体表面検出部502は、赤外線画像データII_1〜II_Bに基づき、それぞれの画像に対して温度の高いピクセル領域を体表面領域として抽出した画像BI_1〜BI_Bを計算する。視錐体交差算出部503では、画像EI_1〜EI_Aの物体領域と画像BI_1〜BI_Bの体表面領域のそれぞれの視錐体を、カメラ投影行列220に基づいて3次元空間内に逆投影する。[数10]により得られるカメラ間で視野が交差する3次元領域のうち、視体積が交差する領域について、[数11]のように動体存在マップe(p,τ)を更新する。   Based on the visible light image data VI_1 to VI_A, the background difference / interframe difference calculation unit 501 calculates images EI_1 to EI_A in which object regions are extracted by background difference processing and interframe difference processing for each image. Based on the infrared image data II_1 to II_B, the body surface detection unit 502 calculates images BI_1 to BI_B in which pixel regions having high temperatures are extracted as body surface regions for the respective images. The visual cone intersection calculation unit 503 back-projects the respective visual cones of the object areas of the images EI_1 to EI_A and the body surface areas of the images BI_1 to BI_B into the three-dimensional space based on the camera projection matrix 220. The moving object existence map e (p, τ) is updated as in [Equation 11] for the region in which the visual volume intersects among the three-dimensional regions in which the visual fields intersect between the cameras obtained by [Equation 10].

Figure 2012058314
Figure 2012058314

Figure 2012058314
Figure 2012058314

ここで、wはまた、前のフレームで算出された危険度マップデータH(p,τ)に応じて、[数10]の逆投影処理を間引いた[数12]を用いれば、動体存在マップe(p,τ)算出での危険度が高い位置に対して追従性が高くなる。 Here, w e also, depending on the calculated in the previous frame the risk map data H (p, tau), the use of the [number 12] obtained by thinning the back projection processing in the number 10, the moving object existence The followability becomes high with respect to a position having a high degree of risk in calculating the map e (p, τ).

Figure 2012058314
Figure 2012058314

人物検出部205は、音声非音声判別マップv(p,τ)と動体存在マップe(p,τ)に基づき、[数13]により人物検出マップd(p,τ)を計算する。ここで、wは0以上1以下の重み係数である。 The person detection unit 205 calculates the person detection map d (p, τ) from [Equation 13] based on the voice / non-voice discrimination map v (p, τ) and the moving object existence map e (p, τ). Here, wv is a weighting coefficient of 0 or more and 1 or less.

Figure 2012058314
Figure 2012058314

機械センサ入力部207は、たとえば機械の速度計や機械のアームの油圧センサなどのセンサからなり、それぞれのセンサ信号をベクトルC(t)=(c_1(t),…,c_Ω(t))として出力する。   The machine sensor input unit 207 includes sensors such as a machine speedometer and a machine arm hydraulic pressure sensor, for example, and each sensor signal is set as a vector C (t) = (c_1 (t),..., C_Ω (t)). Output.

機械運動状態推定部209では、機械の寸法208から各小部位z_kの3次元位置P_k(t)を得る。ここで、k(k=1,…,K)は部位インデックスである。また、前記センサ信号のベクトルC(t)とベクトルP(t)=(P_1(t),…,P_K(t))との組に対する、小部位z_kの運動速度V_k(t)のベクトルV(t)=(V_1(t),…,V_K(t))のテーブルを予め記憶媒体110に記憶しているものとする。このテーブルは、設計時にシミュレーションで容易に得ることができる。このテーブルにより小部位z_kの速度V_k(t)が得られる。   The machine motion state estimation unit 209 obtains the three-dimensional position P_k (t) of each small part z_k from the machine dimension 208. Here, k (k = 1,..., K) is a part index. Further, the vector V () of the motion velocity V_k (t) of the small part z_k with respect to the set of the vector C (t) of the sensor signal and the vector P (t) = (P_1 (t),..., P_K (t)). It is assumed that a table of t) = (V_1 (t),..., V_K (t)) is stored in the storage medium 110 in advance. This table can be easily obtained by simulation at the time of design. With this table, the velocity V_k (t) of the small part z_k is obtained.

さらに、機械操作入力部221から操作信号μ(t)を得る。操作信号μ(t)とP(t)との組みについても対応する加速度A(t)=(A_1(t),…,A_k(t))のテーブルを記憶しておくことで、操作信号μ(t)から小部位z_kの加速度A_k(t)が得られる。[数14]により時刻t+Δtでの小部位z_kの予測位置P(t+Δt)が求まる。最後に、[数15]により、接触までにかかる最短時間のマップg(p,t)が求まる。   Further, an operation signal μ (t) is obtained from the machine operation input unit 221. By storing a table of corresponding accelerations A (t) = (A_1 (t),..., A_k (t)) for combinations of the operation signals μ (t) and P (t), the operation signal μ From (t), the acceleration A_k (t) of the small part z_k is obtained. [Expression 14] The predicted position P (t + Δt) of the small part z_k at time t + Δt is obtained. Finally, a map g (p, t) of the shortest time required for contact is obtained from [Equation 15].

Figure 2012058314
Figure 2012058314

Figure 2012058314
Figure 2012058314

危険度算出部206は、人物検出部205から入力される人物検出マップd(p,τ)と、機械運動状態推定部209から入力される接触最短時間のマップg(p,t)とに基づいて、[数16]により、危険度マップH(p,τ)を算出する。ここで、ε、νはそれぞれ適当な定数とする。   The risk level calculation unit 206 is based on the person detection map d (p, τ) input from the person detection unit 205 and the map g (p, t) of the shortest contact time input from the machine motion state estimation unit 209. Thus, the risk map H (p, τ) is calculated from [Equation 16]. Here, ε and ν are appropriate constants.

Figure 2012058314
Figure 2012058314

映像出力部213では、人物検出マップd(p,τ)と危険度マップH(p,τ)を重畳して提示する。   In the video output unit 213, the person detection map d (p, τ) and the risk map H (p, τ) are superimposed and presented.

音抽出部203では、音入力部201から入力される周波数領域信号Xf_11(f,τ)〜Xf_MN(f,τ)と危険度マップH(p,τ)とに基づいて、抽出信号Yf(f,τ)を計算する。   The sound extraction unit 203 extracts the extracted signal Yf (f) based on the frequency domain signals Xf_11 (f, τ) to Xf_MN (f, τ) and the risk map H (p, τ) input from the sound input unit 201. , Τ).

図6に、音抽出部203のブロック構成の一例を示す。音抽出部203は、抽出方向選択部601、音源分離ユニット6021〜602R、混合部603などから構成される。   FIG. 6 shows an example of a block configuration of the sound extraction unit 203. The sound extraction unit 203 includes an extraction direction selection unit 601, sound source separation units 6021 to 602R, a mixing unit 603, and the like.

まず、抽出方向選択部601では、すべての位置インデックスpのH(p,τ)をソートし、上位R個の位置p_1〜p_Rを抽出位置と定める。音源分離ユニット6021〜602Rは、それぞれ抽出位置p_1〜p_Rに対応する。r番目の音源分離ユニット602r(たとえば602R)のフローチャートを、図9に示す。   First, the extraction direction selection unit 601 sorts H (p, τ) of all the position indexes p, and determines the top R positions p_1 to p_R as extraction positions. The sound source separation units 6021 to 602R correspond to the extraction positions p_1 to p_R, respectively. A flowchart of the r-th sound source separation unit 602r (for example, 602R) is shown in FIG.

S901では、H(p_r,τ)>T_hか、H(p_r,τ)≦T_hかで場合分けを行う。危険度H(p_r,τ)が高いH(p_r,τ)>T_hの場合(S901−Yes)は、特に高速性が求められると判断し、S902にて瞬時的に抽出可能な方式である方式1を選択する。方式1は、たとえば前述したSPIREのような方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ(f,τ)が抽出位置p_rと重なる場合にその周波数成分を残し、重ならない場合にその周波数成分を0とするようなバイナリマスキングであってもよい。   In S901, the case is divided according to H (p_r, τ)> T_h or H (p_r, τ) ≦ T_h. When H (p_r, τ)> T_h with a high degree of risk H (p_r, τ) (S901—Yes), it is determined that particularly high speed is required, and a method that can be instantaneously extracted at S902 Select 1. The method 1 leaves the frequency component when the direction θ (f, τ) obtained for each frequency index by the direction estimation algorithm such as SPIRE described above overlaps the extraction position p_r, and the frequency component when the direction θ does not overlap. Binary masking in which the component is 0 may be used.

それに対して、危険度H(p_r,τ)が相対的に低いH(p_r,τ)≦T_hの場合(S901−No)は、円滑なコミュニケーションのために高精度な抽出が求められると判断し、S903にて瞬時的に抽出可能な方式である方式2を選択する。   On the other hand, when H (p_r, τ) ≦ T_h where the risk level H (p_r, τ) is relatively low (S901-No), it is determined that high-precision extraction is required for smooth communication. In step S903, the method 2, which is a method that can be instantaneously extracted, is selected.

図8に、方式2の例として、スパース性に基づく適応による最小分散ビームフォーマである場合のブロック構成の一例を示す。方式2は、目的音/雑音分離部801、目的音ステアリングベクトル更新部802、雑音共分散行列更新部803、フィルタ更新部804、及び、フィルタ乗算部805の詳細構成となる。図8に基づいて説明する。   FIG. 8 shows an example of a block configuration in the case of a minimum dispersion beamformer by adaptation based on sparsity as an example of method 2. Method 2 has a detailed configuration of a target sound / noise separation unit 801, a target sound steering vector update unit 802, a noise covariance matrix update unit 803, a filter update unit 804, and a filter multiplication unit 805. This will be described with reference to FIG.

目的音/雑音分離部801は、前述のバイナリマスキングと同様に、方向推定アルゴリズムにより各周波数インデックスに対して求めた方向θ(f,τ)によって、[数17]のように目的音信号X_des(f,τ)とX_int(f,τ)に分離する。X_des(f,τ)は、目的音/雑音分離部801から目的音ステアリングベクトル更新部802に送られる。X_int(f,τ)は、目的音/雑音分離部801から雑音共分散行列更新部803に送られる。   Similar to the above-described binary masking, the target sound / noise separation unit 801 uses the direction θ (f, τ) obtained for each frequency index by the direction estimation algorithm, and the target sound signal X_des (Equation 17). f, τ) and X_int (f, τ). X_des (f, τ) is sent from the target sound / noise separation unit 801 to the target sound steering vector update unit 802. X_int (f, τ) is sent from the target sound / noise separation unit 801 to the noise covariance matrix update unit 803.

Figure 2012058314
Figure 2012058314

目的音ステアリングベクトル更新部802では、[数18]に基づき、目的音ステアリングベクトルa(f,τ)=[a_0(f,τ),…,a_M−1(f,τ)]を更新する。ただし、γは0以上1未満の適当な定数パラメタである。もちろん、安定のために、|X_des_i(f,τ)|が十分に大きいときだけに更新するようにしてもよい。 The target sound steering vector update unit 802 updates the target sound steering vector a (f, τ) = [a — 0 (f, τ),..., A_M−1 (f, τ)] T based on [Equation 18]. . However, γ s is an appropriate constant parameter of 0 or more and less than 1. Of course, for the sake of stability, it may be updated only when | X_des_i (f, τ) | is sufficiently large.

Figure 2012058314
Figure 2012058314

雑音共分散行列更新部803では、[数19]に基づき、雑音共分散行列R(f,τ)を更新する。ただし、X_int(f,τ)=[X_int_0(f,τ),…,X_int_M−1(f,τ)]とし、γは0以上1未満の適当な定数パラメタとする。もちろん、安定のために、|X_int(f,τ)|が十分に大きいときだけに更新するようにしてもよい。 The noise covariance matrix updating unit 803 updates the noise covariance matrix R (f, τ) based on [Equation 19]. However, X_int (f, τ) = [X_int_0 (f, τ),..., X_int_M−1 (f, τ)] T, and γ n is an appropriate constant parameter of 0 or more and less than 1. Of course, for the sake of stability, it may be updated only when | X_int (f, τ) | is sufficiently large.

Figure 2012058314
Figure 2012058314

フィルタ更新部804では、目的音ステアリングベクトルa(f,τ)と雑音共分散行列R(f,τ)から、[数20]に基づき、フィルタw(f,τ)を計算する。ただし、γは0以上1未満の適当な定数パラメタである。 The filter update unit 804 calculates a filter w (f, τ) from the target sound steering vector a (f, τ) and the noise covariance matrix R (f, τ) based on [Equation 20]. However, γ w is an appropriate constant parameter of 0 or more and less than 1.

Figure 2012058314
Figure 2012058314

最後に、フィルタ乗算部805では、[数21]に基づいて、フィルタw(f,τ)をXf(f,τ)=[Xf_0(f,τ),…,Xf_M−1(f,τ)]に乗算することで、指定された方向から到来する音を除去した信号Yf(f,τ)が得られる。 Finally, the filter multiplier 805 converts the filter w (f, τ) to Xf (f, τ) = [Xf_0 (f, τ),..., Xf_M−1 (f, τ) based on [Equation 21]. By multiplying T , a signal Yf (f, τ) from which the sound coming from the designated direction is removed is obtained.

Figure 2012058314
Figure 2012058314

この例では、方式2にスパース性に基づく適応による最小分散ビームフォーマを用いているが、方式2は他の高精度な抽出手法であるICAを用いてもよい。ICAは高次統計量を用いるため、適応のために数秒程度の音声信号が必要であり、瞬時的な抽出は困難である一方で、高精度な抽出が可能である。また、この例では2通りの方式1、方式2のみを選択、実行したが、方式の個数は3以上であってもよく、それらを危険度に応じて選択、実行してもよい。   In this example, the minimum dispersion beamformer based on sparsity is used for method 2, but ICA, which is another highly accurate extraction method, may be used for method 2. Since ICA uses high-order statistics, an audio signal of about several seconds is required for adaptation, and instantaneous extraction is difficult, but high-precision extraction is possible. In this example, only two methods 1 and 2 are selected and executed. However, the number of methods may be three or more, and may be selected and executed according to the degree of risk.

混合部603では、音源分離ユニット6021〜602Rが出力した各周波数領域信号を混合し、抽出信号Yf(f,τ)を出力する。   The mixing unit 603 mixes the frequency domain signals output from the sound source separation units 6021 to 602R, and outputs an extraction signal Yf (f, τ).

以上の手順によって計算された周波数領域フレーム信号Yf(f,τ)は、音出力部219に送られ、そこで、逆FFTを掛けられ、時間領域信号y(t,τ)に変換される。y(t,τ)は、フレーム周期毎にオーバーラップし、加算され、かつ窓関数の逆数を施されたy(t)に変換され、y(t)がDA変換を介してヘッドホン106から出力される。   The frequency domain frame signal Yf (f, τ) calculated by the above procedure is sent to the sound output unit 219, where it is subjected to inverse FFT and converted to a time domain signal y (t, τ). y (t, τ) overlaps every frame period, is added, and is converted into y (t) subjected to the inverse of the window function, and y (t) is output from the headphone 106 via the DA conversion. Is done.

外部向け出力音生成部216は、危険度マップH(p,τ)に基づき、そのH(p,τ)が大きい位置p_rにスピーカアレーの指向性を持つようなフィルタを選択する。オペレータ側のマイクロホン105からなる操作者音声入力部215から入力される音声信号に対し、前記フィルタを乗算し、複数チャンネル信号を生成し、外部向け音出力部217によりDA変換を介してスピーカアレー1021〜102Sから出力する。   The external output sound generation unit 216 selects a filter having the directivity of the speaker array at a position p_r where the H (p, τ) is large, based on the risk map H (p, τ). The voice signal input from the operator voice input unit 215 including the operator-side microphone 105 is multiplied by the filter to generate a multi-channel signal, and the speaker output 1021 via the DA conversion by the external sound output unit 217. -102S.

機械動作制御部218は、危険度マップH(p,τ)が、あるpに対して非常に大きい場合に機械の動作を減速、もしくは、停止する。   The machine operation control unit 218 decelerates or stops the operation of the machine when the risk map H (p, τ) is very large with respect to a certain p.

以上説明した本実施の形態における音響処理システムによれば、以下のような効果を得ることができる。
(1)危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができ、さらに外部向け音出力部217を介してオペレータと周囲の人物の間で円滑な会話が可能である。
(4)危険度算出部206が算出した位置ごとの危険度に応じて、音源位置推定部202が推定方式を変え、動体検出部212が検出方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
(5)映像出力部213に危険度を映像で視覚的に提示するため、オペレータが電話や無線で会話中である場合など、なんらかの原因で聴覚が使えない場合でも危険回避が可能である。
(6)外部向け音出力部217は、危険度が高い位置に指向性を向けて音声を出力するため、機械の騒音により聞きづらい環境であっても、機械周囲の人物に注意喚起を行うことができる。
(7)機械動作制御部218は、危険度が高い場合に、緊急に機械自体を制御して危険を回避するので、オペレータの回避判断が間に合わない場合に事故を回避できる可能性がある。
According to the sound processing system in the present embodiment described above, the following effects can be obtained.
(1) Since the risk level calculation unit 206 calculates the risk level for each position, and the sound extraction unit 203 automatically selects a position with a high risk level as an extraction position, speech should be extracted for safety. It is possible to extract the voice of a person present at a high risk level.
(2) In the sound extraction unit 203, a sound source separation unit that selects a position with a high degree of danger as the extraction position is selected so that a method that can be extracted instantaneously is selected. . As a result, the operator can instantly avoid danger.
(3) In the sound extraction unit 203, the sound source separation unit having a position with a relatively low degree of risk as the extraction position selects a high-accuracy separation method, and therefore outputs extracted speech with little residual noise. As a result, the operator can recognize the content of the voices of the surrounding people, and further, a smooth conversation is possible between the operator and the surrounding people via the external sound output unit 217.
(4) Calculation for a position with a high degree of risk by the sound source position estimation unit 202 changing the estimation method and the moving object detection unit 212 changing the detection method according to the risk level calculated by the risk level calculation unit 206. Can be preferentially performed, and the frequency of calculation for a position with a low risk level can be reduced. Therefore, the update of the risk level calculation is shortened for a position with a high risk level that requires quick action by the operator.
(5) Since the degree of danger is visually presented to the video output unit 213 as a video, it is possible to avoid danger even when the operator cannot use hearing for some reason, such as when the operator is talking by telephone or wirelessly.
(6) Since the external sound output unit 217 outputs sound with directivity to a position with a high degree of danger, even in an environment where it is difficult to hear due to the noise of the machine, it is possible to call attention to persons around the machine it can.
(7) Since the machine operation control unit 218 urgently controls the machine itself to avoid danger when the degree of danger is high, there is a possibility that an accident can be avoided if the operator's avoidance decision is not in time.

<実施の形態2>
以下、本発明の実施の形態2を、前述した図6を用いて説明する。
<Embodiment 2>
The second embodiment of the present invention will be described below with reference to FIG.

前記実施の形態1においては、音抽出部203のr番目の音源分離ユニット602r(たとえば602R)が位置ごとに方式を切り替える例を説明したが、本実施の形態では、位置ごとに方式を切り替えるのではなく、時刻によってのみ方式を切り替える構成に適用した例である。   In the first embodiment, the example in which the r-th sound source separation unit 602r (for example, 602R) of the sound extraction unit 203 switches the method for each position has been described. However, in this embodiment, the method is switched for each position. Instead, this is an example applied to a configuration in which the method is switched only by time.

このような構成による本実施の形態における音響処理システムによれば、前記実施の形態1の効果に加えて、たとえば、あるpについてH(p,τ)>T_hである場合に全音源分離ユニットで方式1を選択するという構成であっても、危険度が高い時刻はリアルタイムで抽出し、危険度が低い時刻は高精度に抽出することができるという効果がある。   According to the acoustic processing system in the present embodiment having such a configuration, in addition to the effects of the first embodiment, for example, when H (p, τ)> T_h for a certain p, Even when the method 1 is selected, it is possible to extract a time with a high degree of risk in real time and extract a time with a low degree of danger with high accuracy.

<実施の形態3>
以下、本発明の実施の形態3を、図10を用いて説明する。図10は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
<Embodiment 3>
The third embodiment of the present invention will be described below with reference to FIG. FIG. 10 is a diagram illustrating an example of a block configuration of the sound processing system according to the present embodiment.

本実施の形態は、前記実施の形態1に対して、可視光線入力部210、赤外線入力部211、動体検出部212、映像出力部213、操作者音声入力部215、外部向け出力音生成部216、外部向け音出力部217、機械動作制御部218、カメラ投影行列220を持たない構成である。   The present embodiment is different from the first embodiment in the visible light input unit 210, the infrared input unit 211, the moving object detection unit 212, the video output unit 213, the operator voice input unit 215, and the output sound generation unit 216 for the outside. The external sound output unit 217, the machine operation control unit 218, and the camera projection matrix 220 are not provided.

すなわち、本実施の形態における音響処理システムは、図10に示すように、音入力部201と、音源位置推定部202と、音抽出部203と、音声非音声判別部204と、人物検出部205と、危険度算出部206と、機械センサ入力部207と、機械運動状態推定部209と、音出力部219と、機械操作入力部221などから構成され、各機能部は前記実施の形態1と同様の機能を有している。   That is, as shown in FIG. 10, the sound processing system according to the present embodiment includes a sound input unit 201, a sound source position estimation unit 202, a sound extraction unit 203, a voice non-speech discrimination unit 204, and a person detection unit 205. A risk degree calculation unit 206, a machine sensor input unit 207, a machine motion state estimation unit 209, a sound output unit 219, a machine operation input unit 221, and the like. It has the same function.

このような構成による本実施の形態における音響処理システムによれば、前記実施の形態1の効果のうち、(5)〜(7)を除く、以下の(1)〜(4)のような効果を得ることができる。
(1)危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
(4)危険度算出部206が算出した位置ごとの危険度に応じて、音源位置推定部202が推定方式を変えることにより、危険度の高い位置に対する計算を優先的に行い、危険度の低い位置に対する計算の頻度を下げることができるので、オペレータの迅速な行動が必要である危険度が高い位置ほど、危険度算出の更新が短縮される。
According to the acoustic processing system in the present embodiment having such a configuration, the following effects (1) to (4) excluding (5) to (7) among the effects of the first embodiment. Can be obtained.
(1) Since the risk level calculation unit 206 calculates the risk level for each position, and the sound extraction unit 203 automatically selects a position with a high risk level as an extraction position, speech should be extracted for safety. It is possible to extract the voice of a person present at a high risk level.
(2) In the sound extraction unit 203, a sound source separation unit that selects a position with a high degree of danger as the extraction position is selected so that a method that can be extracted instantaneously is selected. . As a result, the operator can instantly avoid danger.
(3) In the sound extraction unit 203, the sound source separation unit having a position with a relatively low degree of risk as the extraction position selects a high-accuracy separation method, and therefore outputs extracted speech with little residual noise. Thereby, the operator can recognize the content of the voice of the surrounding person.
(4) The sound source position estimation unit 202 changes the estimation method according to the risk level for each position calculated by the risk level calculation unit 206, thereby preferentially calculating a position with a high risk level and having a low risk level. Since the frequency of calculation with respect to the position can be lowered, the update of the risk level calculation is shortened as the position has a high level of risk that requires quick action by the operator.

<実施の形態4>
以下、本発明の実施の形態4を、図11を用いて説明する。図11は、本実施の形態における音響処理システムのブロック構成の一例を示す図である。
<Embodiment 4>
Embodiment 4 of the present invention will be described below with reference to FIG. FIG. 11 is a diagram illustrating an example of a block configuration of the sound processing system according to the present embodiment.

本実施の形態は、前記実施の形態3に対して、さらに、音源位置推定部202、音声非音声判別部204、人物検出部205を持たない構成である。   The present embodiment is a configuration that does not further include the sound source position estimation unit 202, the voice / non-speech discrimination unit 204, and the person detection unit 205 as compared with the third embodiment.

すなわち、本実施の形態における音響処理システムは、図11に示すように、音入力部201と、音抽出部203と、危険度算出部206と、機械センサ入力部207と、機械運動状態推定部209と、音出力部219と、機械操作入力部221などから構成され、各機能部は前記実施の形態1と同様の機能を有している。   That is, as shown in FIG. 11, the sound processing system according to the present embodiment includes a sound input unit 201, a sound extraction unit 203, a risk level calculation unit 206, a machine sensor input unit 207, and a machine motion state estimation unit. 209, a sound output unit 219, a machine operation input unit 221, and the like, and each functional unit has the same function as in the first embodiment.

このような構成による本実施の形態における音響処理システムによれば、前記実施の形態3の効果のうち、(4)を除く、以下の(1)〜(3)のような効果を得ることができる。
(1)人物検出部を備えない場合であっても、危険度算出部206で位置ごとに危険度を算出し、音抽出部203でその危険度が高い位置を抽出位置として自動的に選択するので、安全性のために音声を抽出すべきである、危険度が高い位置に存在する人物の音声を抽出することが可能である。
(2)音抽出部203において、危険度が高い位置を抽出位置とする音源分離ユニットほど瞬時的に抽出可能な方式を選択するので、危険度が高い位置の人物の音声はリアルタイムで抽出される。これにより、オペレータは瞬時的に危険回避を行うことができる。
(3)音抽出部203において、相対的に危険度が低い位置を抽出位置とする音源分離ユニットは高精度な分離方式を選択するので、残留騒音が少ない抽出音声を出力する。これにより、オペレータは周囲の人物の音声の内容を認識することができる。
According to the acoustic processing system in the present embodiment having such a configuration, the following effects (1) to (3) other than (4) among the effects of the third embodiment can be obtained. it can.
(1) Even if the person detection unit is not provided, the risk level calculation unit 206 calculates the risk level for each position, and the sound extraction unit 203 automatically selects a position with a high risk level as the extraction position. Therefore, it is possible to extract the voice of a person who should be extracted for safety and is present at a high risk level.
(2) In the sound extraction unit 203, a sound source separation unit that selects a position with a high degree of danger as the extraction position is selected so that a method that can be extracted instantaneously is selected. . As a result, the operator can instantly avoid danger.
(3) In the sound extraction unit 203, the sound source separation unit having a position with a relatively low degree of risk as the extraction position selects a high-accuracy separation method, and therefore outputs extracted speech with little residual noise. Thereby, the operator can recognize the content of the voice of the surrounding person.

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。   As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.

たとえば、前記実施の形態においては、音響処理システムが建設機械と一体となった構成例について説明したが、本発明は、建設機械に限らず、一般の車両、作業機械などにもそのまま適用可能である。   For example, in the above-described embodiment, the configuration example in which the sound processing system is integrated with the construction machine has been described. However, the present invention is not limited to the construction machine but can be applied to general vehicles, work machines, and the like. is there.

本発明の音響処理システムは、建設機械、車両、作業機械などの比較的大型の機械を操作するオペレータもしくは運転者が機械周囲の人物の状況を把握するために適した音響処理技術に関し、特に、機械周囲の人物の安全に適した音響処理システム及びこれを用いた機械に利用可能である。   The acoustic processing system of the present invention relates to an acoustic processing technique suitable for an operator or driver operating a relatively large machine such as a construction machine, a vehicle, or a work machine to grasp the situation of a person around the machine. The present invention is applicable to a sound processing system suitable for safety of persons around the machine and a machine using the sound processing system.

100…音響処理システム、1011〜101M…マイクロホンアレー、1021〜102S…スピーカアレー、1031〜103A…可視光線カメラ、1041〜104B…赤外線カメラ、105…マイクロホン、106…ヘッドホン、107…A/D−D/A変換装置、108…中央演算装置、109…揮発性メモリ、110…記憶媒体、111…画像表示装置、112…作業機械、113…機械操作入力部、1141〜114M,1151〜115S,116,117…オーディオケーブル、118…モニタケーブル、119,1201〜120A,1211〜121B…デジタルケーブル、
201…音入力部、202…音源位置推定部、203…音抽出部、204…音声非音声判別部、205…人物検出部、206…危険度算出部、207…機械センサ入力部、208…機械の寸法、209…機械運動状態推定部、210…可視光線入力部、211…赤外線入力部、212…動体検出部、213…映像出力部、214…マイク配置、215…操作者音声入力部、216…外部向け出力音生成部、217…外部向け音出力部、218…機械動作制御部、219…音出力部、220…カメラ投影行列、221…機械操作入力部、
301…多チャンネルAD変換器、302…多チャンネルフレーム処理部、303…多チャンネル短時間周波数分析部、
4011〜401M…周波数毎方向推定部、402…方向推定統合部、
501…背景差分・フレーム間差分算出部、502…体表面検出部、503…視錐体交差算出部、
601…抽出方向選択部、6021〜602R…音源分離ユニット、603…混合部、
801…目的音/雑音分離部、802…目的音ステアリングベクトル更新部、803…雑音共分散行列更新部、804…フィルタ更新部、805…フィルタ乗算部、
13001…キャビネット、13002…エンジン部、13003…アーム部。
DESCRIPTION OF SYMBOLS 100 ... Sound processing system, 1011-101M ... Microphone array, 1021-102S ... Speaker array, 1031-103A ... Visible light camera, 1041-104B ... Infrared camera, 105 ... Microphone, 106 ... Headphone, 107 ... A / D-D / A converter, 108 ... central processing unit, 109 ... volatile memory, 110 ... storage medium, 111 ... image display device, 112 ... work machine, 113 ... machine operation input unit, 1141 to 114M, 1151 to 115S, 116, 117 ... Audio cable, 118 ... Monitor cable, 119, 1201-120A, 1211-121B ... Digital cable,
DESCRIPTION OF SYMBOLS 201 ... Sound input part, 202 ... Sound source position estimation part, 203 ... Sound extraction part, 204 ... Voice non-speech discrimination part, 205 ... Person detection part, 206 ... Risk level calculation part, 207 ... Machine sensor input part, 208 ... Machine 209 ... mechanical motion state estimation unit, 210 ... visible light input unit, 211 ... infrared input unit, 212 ... moving object detection unit, 213 ... video output unit, 214 ... microphone arrangement, 215 ... operator voice input unit, 216 ... external output sound generation unit, 217 ... external sound output unit, 218 ... machine operation control unit, 219 ... sound output unit, 220 ... camera projection matrix, 221 ... machine operation input unit,
301 ... multi-channel AD converter, 302 ... multi-channel frame processing unit, 303 ... multi-channel short-time frequency analysis unit,
4011-401M ... Direction estimation unit for each frequency, 402 ... Direction estimation integration unit,
501 ... Background difference / interframe difference calculation unit, 502 ... Body surface detection unit, 503 ... Visual cone intersection calculation unit,
601 ... Extraction direction selection unit, 6021-602R ... Sound source separation unit, 603 ... Mixing unit,
801... Target sound / noise separator, 802... Target sound steering vector update unit, 803... Noise covariance matrix update unit, 804.
13001 ... Cabinet, 13002 ... Engine part, 13003 ... Arm part.

Claims (14)

音を収音する複数のマイクロホンからなる音入力部と、
機械の動作による周囲の人物または物体との接触に伴う危険度を算出する危険度算出部と、
前記音入力部から出力された信号を入力として前記危険度算出部で算出された危険度に応じた分離信号を出力する音抽出部と、
前記音抽出部から出力された分離信号を出力する音出力部と、を有することを特徴とする音響処理システム。
A sound input unit composed of a plurality of microphones for collecting sound;
A risk level calculation unit for calculating a level of risk associated with contact with a person or object in the vicinity due to the operation of the machine;
A sound extraction unit that outputs a separation signal corresponding to the degree of risk calculated by the risk level calculation unit by using the signal output from the sound input unit;
A sound output unit that outputs a separation signal output from the sound extraction unit.
請求項1に記載の音響処理システムにおいて、
前記危険度算出部は、位置ごとの危険度を算出することを特徴とする音響処理システム。
The sound processing system according to claim 1,
The sound processing system, wherein the risk calculating unit calculates a risk for each position.
請求項1または2に記載の音響処理システムにおいて、
前記音抽出部は、複数の音源分離ユニットを備え、
前記複数の音源分離ユニットは、前記危険度に応じて抽出位置を設定することを特徴とする音響処理システム。
The sound processing system according to claim 1 or 2,
The sound extraction unit includes a plurality of sound source separation units,
The sound processing system according to claim 1, wherein the plurality of sound source separation units set extraction positions according to the degree of risk.
請求項3に記載の音響処理システムにおいて、
前記危険度に応じて前記音源分離ユニットが分離方式を変化させることを特徴とする音響処理システム。
The sound processing system according to claim 3,
The sound processing system, wherein the sound source separation unit changes a separation method according to the degree of risk.
請求項4に記載の音響処理システムにおいて、
前記機械に設置されたセンサ情報もしくは機械操作信号に基づいて推定される機械の運動状態を推定する機械運動状態推定部をさらに有し、
前記危険度算出部は、前記機械運動状態推定部の出力する運動状態に基づいて前記危険度を算出することを特徴とする音響処理システム。
The sound processing system according to claim 4,
A machine motion state estimation unit for estimating a motion state of the machine estimated based on sensor information or a machine operation signal installed in the machine;
The risk processing unit calculates the risk based on a motion state output from the mechanical motion state estimation unit.
請求項5に記載の音響処理システムにおいて、
前記音入力部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。
The sound processing system according to claim 5,
A sound source position estimating unit that estimates a sound source position from a signal output from the sound input unit;
A sound non-speech discrimination unit that discriminates speech non-speech based on a sound source position output by the sound source position estimation unit;
A person detection unit that detects a person position based on a voice non-voice discrimination result output by the voice non-speech discrimination unit;
The acoustic processing system, wherein the risk level calculation unit calculates the risk level based on a person position detection result output by the person detection unit.
請求項5に記載の音響処理システムにおいて、
前記音抽出部が出力する信号から音源位置を推定する音源位置推定部と、
前記音源位置推定部が出力する音源位置に基づいて音声非音声を判別する音声非音声判別部と、
前記音声非音声判別部が出力する音声非音声判別結果に基づいて人物位置を検出する人物検出部と、をさらに有し、
前記危険度算出部は、前記人物検出部が出力する人物位置検出結果に基づいて前記危険度を算出することを特徴とする音響処理システム。
The sound processing system according to claim 5,
A sound source position estimating unit that estimates a sound source position from a signal output by the sound extraction unit;
A sound non-speech discrimination unit that discriminates speech non-speech based on a sound source position output by the sound source position estimation unit;
A person detection unit that detects a person position based on a voice non-voice discrimination result output by the voice non-speech discrimination unit;
The acoustic processing system, wherein the risk level calculation unit calculates the risk level based on a person position detection result output by the person detection unit.
請求項7に記載の音響処理システムにおいて、
可視光線カメラもしくは赤外線カメラの1以上のカメラからなる映像入力部と、
前記映像入力部が出力する映像に基づいて動体検出を行う動体検出部と、をさらに有し、
前記人物検出部は、前記動体検出部の出力する信号に基づいて人物検出を行うことを特徴とする音響処理システム。
The sound processing system according to claim 7,
A video input unit composed of one or more cameras such as a visible light camera or an infrared camera;
A moving object detection unit that detects a moving object based on the video output from the video input unit;
The acoustic processing system, wherein the person detection unit detects a person based on a signal output from the moving object detection unit.
請求項8に記載の音響処理システムにおいて、
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記音源位置推定部が推定方式を変化させることを特徴とする音響処理システム。
The sound processing system according to claim 8.
The sound processing system, wherein the sound source position estimation unit changes an estimation method based on a risk level for each position output by the risk level calculation unit.
請求項8または9に記載の音響処理システムにおいて、
前記危険度算出部が出力する位置ごとの危険度に基づいて、前記動体検出部が検出方式を変化させることを特徴とする音響処理システム。
The sound processing system according to claim 8 or 9,
The acoustic processing system, wherein the moving body detection unit changes a detection method based on a risk level for each position output by the risk level calculation unit.
請求項1〜10のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて映像を表示する映像出力部をさらに有することを特徴とする音響処理システム。
In the sound processing system according to any one of claims 1 to 10,
The acoustic processing system further comprising: a video output unit that displays video based on the risk level output by the risk level calculation unit.
請求項1〜11のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて前記機械の外部に対する外部向け出力音を生成する外部向け出力音生成部と、
前記外部向け出力音生成部が生成する外部向け出力音を出力する外部向け音出力部と、をさらに有することを特徴とする音響処理システム。
In the sound processing system according to any one of claims 1 to 11,
An external output sound generator for generating an external output sound to the outside of the machine based on the risk output by the risk calculator;
The sound processing system further comprising: an external sound output unit that outputs an external output sound generated by the external output sound generation unit.
請求項1〜12のいずれか一項に記載の音響処理システムにおいて、
前記危険度算出部が出力する前記危険度に基づいて前記機械の動作を制御する機械動作制御部をさらに有することを特徴とする音響処理システム。
In the sound processing system according to any one of claims 1 to 12,
The acoustic processing system further comprising a machine operation control unit that controls the operation of the machine based on the risk level output by the risk level calculation unit.
請求項1〜13のいずれか一項に記載の音響処理システムを用いたことを特徴とする機械。   A machine using the sound processing system according to claim 1.
JP2010198815A 2010-09-06 2010-09-06 Sound processing system and machine using the same Expired - Fee Related JP5451562B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010198815A JP5451562B2 (en) 2010-09-06 2010-09-06 Sound processing system and machine using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010198815A JP5451562B2 (en) 2010-09-06 2010-09-06 Sound processing system and machine using the same

Publications (2)

Publication Number Publication Date
JP2012058314A true JP2012058314A (en) 2012-03-22
JP5451562B2 JP5451562B2 (en) 2014-03-26

Family

ID=46055524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010198815A Expired - Fee Related JP5451562B2 (en) 2010-09-06 2010-09-06 Sound processing system and machine using the same

Country Status (1)

Country Link
JP (1) JP5451562B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013047427A (en) * 2011-08-29 2013-03-07 Sumitomo (Shi) Construction Machinery Co Ltd Shovel and abnormality management system thereof
WO2014126281A1 (en) * 2013-02-18 2014-08-21 볼보 컨스트럭션 이큅먼트 에이비 Construction machine provided with device for listening to voice of auxiliary worker around working device
WO2014148204A1 (en) * 2013-03-19 2014-09-25 住友重機械工業株式会社 Periphery monitoring device for work machine
JP2019167680A (en) * 2018-03-22 2019-10-03 住友重機械工業株式会社 Shovel
JP2021033373A (en) * 2019-08-15 2021-03-01 日立建機株式会社 Work machine

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06214652A (en) * 1993-01-13 1994-08-05 Toshiba Corp Maneuvering device
JP2007049543A (en) * 2005-08-11 2007-02-22 Nissan Motor Co Ltd In-vehicle information presenting device, and device, method and system for providing information for vehicle
JP2008035472A (en) * 2006-06-28 2008-02-14 National Univ Corp Shizuoka Univ In-vehicle outside-vehicle acoustic transmission system
JP2010198519A (en) * 2009-02-27 2010-09-09 Hitachi Constr Mach Co Ltd Periphery monitoring device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06214652A (en) * 1993-01-13 1994-08-05 Toshiba Corp Maneuvering device
JP2007049543A (en) * 2005-08-11 2007-02-22 Nissan Motor Co Ltd In-vehicle information presenting device, and device, method and system for providing information for vehicle
JP2008035472A (en) * 2006-06-28 2008-02-14 National Univ Corp Shizuoka Univ In-vehicle outside-vehicle acoustic transmission system
JP2010198519A (en) * 2009-02-27 2010-09-09 Hitachi Constr Mach Co Ltd Periphery monitoring device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013047427A (en) * 2011-08-29 2013-03-07 Sumitomo (Shi) Construction Machinery Co Ltd Shovel and abnormality management system thereof
WO2014126281A1 (en) * 2013-02-18 2014-08-21 볼보 컨스트럭션 이큅먼트 에이비 Construction machine provided with device for listening to voice of auxiliary worker around working device
WO2014148204A1 (en) * 2013-03-19 2014-09-25 住友重機械工業株式会社 Periphery monitoring device for work machine
JP2014182038A (en) * 2013-03-19 2014-09-29 Sumitomo Heavy Ind Ltd Periphery monitoring device for work machine
JP2019167680A (en) * 2018-03-22 2019-10-03 住友重機械工業株式会社 Shovel
JP7206052B2 (en) 2018-03-22 2023-01-17 住友重機械工業株式会社 Excavator
JP2021033373A (en) * 2019-08-15 2021-03-01 日立建機株式会社 Work machine

Also Published As

Publication number Publication date
JP5451562B2 (en) 2014-03-26

Similar Documents

Publication Publication Date Title
JP6644197B2 (en) Noise removal device and noise removal method
US10353198B2 (en) Head-mounted display with sound source detection
JP5451562B2 (en) Sound processing system and machine using the same
KR20090037692A (en) Method and apparatus for extracting the target sound signal from the mixed sound
JP5375400B2 (en) Audio processing apparatus, audio processing method and program
EP3185243A1 (en) Voice processing device, voice processing method, and program
CN103811023B (en) Apparatus for processing audio and audio-frequency processing method
JP6591477B2 (en) Signal processing system, signal processing method, and signal processing program
CN111899756B (en) Single-channel voice separation method and device
US9549274B2 (en) Sound processing apparatus, sound processing method, and sound processing program
JP2008236077A (en) Target sound extracting apparatus, target sound extracting program
US8200488B2 (en) Method for processing speech using absolute loudness
JP5565552B2 (en) Audiovisual processing apparatus, audiovisual processing method, and program
CN111863015A (en) Audio processing method and device, electronic equipment and readable storage medium
KR101812159B1 (en) Method and apparatus for localizing sound source using deep learning
KR20090037845A (en) Method and apparatus for extracting the target sound signal from the mixed sound
JP2005227512A (en) Sound signal processing method and its apparatus, voice recognition device, and program
JP2007034238A (en) On-site operation support system
KR20160034192A (en) Method for enhancement of speech of interest, an apparatus for enhancement of speech of interest and a vehicle equipped with the apparatus
JP5255467B2 (en) Noise suppression device, noise suppression method, and program
US20130253923A1 (en) Multichannel enhancement system for preserving spatial cues
JP5405130B2 (en) Sound reproducing apparatus and sound reproducing method
JP6794887B2 (en) Computer program for voice processing, voice processing device and voice processing method
US20230005488A1 (en) Signal processing device, signal processing method, program, and signal processing system
JP2010152107A (en) Device and program for extraction of target sound

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131226

R150 Certificate of patent or registration of utility model

Ref document number: 5451562

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees