JP5515709B2 - 制御装置および方法、並びにプログラム - Google Patents

制御装置および方法、並びにプログラム Download PDF

Info

Publication number
JP5515709B2
JP5515709B2 JP2009281964A JP2009281964A JP5515709B2 JP 5515709 B2 JP5515709 B2 JP 5515709B2 JP 2009281964 A JP2009281964 A JP 2009281964A JP 2009281964 A JP2009281964 A JP 2009281964A JP 5515709 B2 JP5515709 B2 JP 5515709B2
Authority
JP
Japan
Prior art keywords
sound
value
low
frequency component
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009281964A
Other languages
English (en)
Other versions
JP2011123751A (ja
Inventor
徹 知念
優樹 山本
光行 畠中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2009281964A priority Critical patent/JP5515709B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to PCT/JP2010/071606 priority patent/WO2011070971A1/ja
Priority to EP10835892.0A priority patent/EP2386943B1/en
Priority to CN201080006668.7A priority patent/CN102308277B/zh
Priority to BRPI1007881A priority patent/BRPI1007881A2/pt
Priority to KR1020117018142A priority patent/KR101669302B1/ko
Priority to US13/147,858 priority patent/US9053709B2/en
Publication of JP2011123751A publication Critical patent/JP2011123751A/ja
Application granted granted Critical
Publication of JP5515709B2 publication Critical patent/JP5515709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2200/00Indexing scheme relating to G06F1/04 - G06F1/32
    • G06F2200/16Indexing scheme relating to G06F1/16 - G06F1/18
    • G06F2200/163Indexing scheme relating to constructional details of the computer
    • G06F2200/1636Sensing arrangement for detection of a tap gesture on the housing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)
  • Headphones And Earphones (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)

Description

本発明は制御装置および方法、並びにプログラムに関し、特に、より簡単な構成で操作性を向上させることができるようにした制御装置および方法、並びにプログラムに関する。
近年、音楽プレーヤや携帯電話機、さらにはIC(Integrated Circuit)レコーダなど、マイクロホンを入力装置として持つ電子機器は増加の傾向にある。現在、これらの電子機器では、主にボタンやタッチパネルの操作により、音量の上げ下げ、再生の開始や停止、曲送りや曲戻しなどの電子機器の機能制御が行われている。
このような電子機器には、例えば、ユーザの耳に装着されるイヤホンと、電子機器本体とを接続するコードにコントローラを設け、コントローラの操作により電子機器による楽曲の再生を制御できるようにしたものがある(例えば、特許文献1参照)。この電子機器では、コントローラにカメラが設けられており、ユーザは、コントローラや電子機器本体を操作することで、写真を撮像させることもできる。
特開2003−52089号公報
しかしながら、電子機器やコントローラに多くの機能を持たせようとすると、その分だけ多くのボタンを設けなければならず、電子機器等の構成が複雑になってしまう。また、電子機器やコントローラに多くのボタンが設けられると、各ボタンが小さくなったり、目的とするボタンを見つけにくくなったりして、操作性が低下してしまう。
特に、電車、バス、徒歩などでの移動中に、電子機器を使用する場合、ユーザはカバンやポケットから電子機器本体を取り出したり、コントローラを覗き込んだりしてボタン操作をしなければならないため、電子機器等に多くのボタンが設けられていると操作がしにくくなる。
本発明は、このような状況に鑑みてなされたものであり、より簡単な構成で操作性を向上させることができるようにするものである。
本発明の一側面の制御装置は、周囲の音声を収音する収音部と、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第1の閾値未満である場合、前記収音部が叩かれていないと判別し、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第2の閾値以下であるか否かを判定し、実効値が前記第2の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第3の閾値未満である場合、前記収音部が叩かれていないと判別し、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第4の閾値以上であるか否かを判定し、実効値が前記第4の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別する判別手段と、前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段とを備える。
前記実行手段には、前記判別手段による判別結果に基づいて、所定時間内に前記収音部が叩かれた回数を特定させ、特定された前記回数に対して定められた処理を実行させることができる。
前記第1の閾値乃至前記第4の閾値は、判別分析またはSVMにより予め定められるようにすることができる。
前記高域成分の複数区間のそれぞれを、互いに異なる長さの区間とし、前記低域成分の複数区間のそれぞれを、互いに異なる長さの区間とすることができる。
前記判別手段には、さらに前記高域成分の絶対値が、時間方向の特定位置において最大となるか否かを判定させ、前記絶対値が前記特定位置において最大とならない場合、前記収音部が叩かれていないと判別させることができる。
前記判別手段には、さらに前記音声のゼロクロス値が第5の閾値以下であるか否かを判定させ、前記ゼロクロス値が前記第5の閾値を超える場合、前記収音部が叩かれていないと判別させることができる。
前記実行手段には、複数の前記収音部のうち、叩かれた前記収音部により定まる処理を実行させることができる。
本発明の一側面の制御方法またはプログラムは、収音部に周囲の音声を収音させ、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第1の閾値未満である場合、前記収音部が叩かれていないと判別し、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第2の閾値以下であるか否かを判定し、実効値が前記第2の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第3の閾値未満である場合、前記収音部が叩かれていないと判別し、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第4の閾値以上であるか否かを判定し、実効値が前記第4の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別し、前記収音部が叩かれたと判別された場合、所定の処理を実行するステップを含む。
本発明の一側面においては、収音部により周囲の音声が収音され、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第1の閾値未満である場合、前記収音部が叩かれていないと判別され、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第2の閾値以下であるか否かが判定され、実効値が前記第2の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別され、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第3の閾値未満である場合、前記収音部が叩かれていないと判別され、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第4の閾値以上であるか否かが判定され、実効値が前記第4の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別され、前記収音部が叩かれたと判別された場合、所定の処理が実行される。
本発明の一側面によれば、より簡単な構成で操作性を向上させることができる。
本発明を適用した再生装置の一実施の形態の構成例を示す図である。 判別部の構成例を示す図である。 再生制御処理を説明するフローチャートである。 低域通過フィルタと高域通過フィルタの周波数振幅特性を示す図である。 判別処理を説明するフローチャートである。 高域最大値の出現確率を示す図である。 高域実効値の分布例を示す図である。 高域実効値の閾値の例を示す図である。 低域最大値の出現確率を示す図である。 低域実効値の分布例を示す図である。 低域実効値の閾値の例を示す図である。 ゼロクロス値の出現確率を示す図である。 コンピュータの構成例を示す図である。
以下、図面を参照して、本発明を適用した実施の形態について説明する。
[再生装置の構成]
図1は、本発明を適用した再生装置の一実施の形態の構成例を示す図である。
再生装置11は、例えば楽曲などの音声を再生する携帯型の音楽プレーヤであり、ユーザの耳に装着されるイヤホン21と、イヤホン21が接続され、ユーザに所持される本体22とから構成される。
イヤホン21には、収音部31−1、収音部31−2、スピーカ32−1、およびスピーカ32−2が設けられている。
収音部31−1および収音部31−2は、例えばマイクロホンなどから構成され、再生装置11の周囲の音声を収音し、その結果得られた音声信号を本体22に供給する。
スピーカ32−1およびスピーカ32−2は、本体22から供給された、楽曲等の音声信号に基づいて音声を再生する。
なお、以下、収音部31−1および収音部31−2を特に区別する必要のない場合、単に収音部31とも称する。また、スピーカ32−1およびスピーカ32−2を特に区別する必要のない場合、単にスピーカ32とも称する。
再生装置11では、収音部31およびスピーカ32が一体となってユーザの右側または左側の耳に装着されるイヤホンが形成されている。そして、収音部31により収音されて本体22に供給される音声は、いわゆるノイズキャンセリングと、楽曲等の音声の再生制御のために用いられる。
具体的には、ユーザが指の腹などで収音部31を直接叩くと、本体22は、収音された音声からユーザによる収音部31へのタップ操作を識別し、その操作に応じた処理を実行する。
また、再生装置11の本体22には、A/D(Analog/Digital)変換部33−1、A/D変換部33−2、判別部34−1、判別部34−2、制御部35、音声供給部36、ノイズ除去処理部37、加算部38、および再生制御部39が設けられている。
A/D変換部33−1およびA/D変換部33−2は、収音部31−1および収音部31−2から供給されたアナログ信号である音声信号を、デジタル信号に変換する。デジタル信号に変換された音声信号は、A/D変換部33−1から判別部34−1およびノイズ除去処理部37に供給される。また、デジタル信号に変換された音声信号は、A/D変換部33−2から判別部34−2およびノイズ除去処理部37に供給される。
判別部34−1および判別部34−2は、A/D変換部33−1およびA/D変換部33−2から供給された音声に基づいて、収音部31が直接叩かれたか否かを判別し、その判別結果を制御部35に供給する。すなわち、収音された音声が、収音部31がユーザにより叩かれたときに生じる音であるか否かが識別される。
なお、以下、A/D変換部33−1およびA/D変換部33−2を特に区別する必要のない場合、単にA/D変換部33とも称し、判別部34−1および判別部34−2を特に区別する必要のない場合、単に判別部34と称する。
制御部35は、再生装置11全体の動作を制御する。例えば、制御部35は、判別部34から供給された判別結果に基づいて、音声供給部36に楽曲等の音声を出力させたり、再生制御部39における音声の再生を制御したりする。
音声供給部36は、楽曲等の音声のデータを記録しており、制御部35の指示に応じて音声のデータをデコードし、加算部38に供給する。ノイズ除去処理部37は、A/D変換部33から供給された音声に基づいて、再生装置11の周囲の音声と逆位相の音声を生成し、加算部38に供給する。
加算部38は、音声供給部36から供給された音声に、ノイズ除去処理部37から供給された音声を加算して再生制御部39に供給する。再生制御部39は、制御部35の指示に従って、加算部38から供給された音声をスピーカ32−1およびスピーカ32−2に供給し、音声を出力させる。加算部38において、再生する楽曲の音声に、収音された周囲の音声と逆位相の音声を加えることで、周囲の環境雑音が打ち消され、ユーザの耳には楽曲だけが聞こえることになる。
[判別部の構成]
また、図1の判別部34は、より詳細には図2に示すように構成される。
すなわち、判別部34は、低域フィルタ処理部61、低域最大値算出部62、低域実効値算出部63、高域フィルタ処理部64、高域最大値算出部65、高域実効値算出部66、ゼロクロス値算出部67、および判別処理部68から構成される。
低域フィルタ処理部61は、A/D変換部33から供給された音声信号にフィルタ処理を施して低域成分を抽出し、その結果得られた低域信号を低域最大値算出部62および低域実効値算出部63に供給する。
低域最大値算出部62は、低域フィルタ処理部61から供給された低域信号の最大値(以下、低域最大値とも称する)を算出し、判別処理部68に供給する。低域実効値算出部63は、低域フィルタ処理部61から供給された低域信号の実効値(以下、低域実効値とも称する)を算出し、判別処理部68に供給する。
高域フィルタ処理部64は、A/D変換部33から供給された音声信号にフィルタ処理を施して高域成分を抽出し、その結果得られた高域信号を高域最大値算出部65および高域実効値算出部66に供給する。
高域最大値算出部65は、高域フィルタ処理部64から供給された高域信号の最大値(以下、高域最大値とも称する)を算出し、判別処理部68に供給する。高域実効値算出部66は、高域フィルタ処理部64から供給された高域信号の実効値(以下、高域実効値とも称する)を算出し、判別処理部68に供給する。
ゼロクロス値算出部67は、A/D変換部33から供給された音声信号のゼロクロス値を算出して判別処理部68に供給する。判別処理部68は、低域最大値算出部62、低域実効値算出部63、高域最大値算出部65、高域実効値算出部66、およびゼロクロス値算出部67から供給された最大値、実効値、およびゼロクロス値を用いて、収音された音声の識別を行う。すなわち、判別処理部68は、収音部31がユーザにより直接叩かれたか否かを判別し、その判別結果を制御部35に供給する。
[再生制御処理の説明]
ところで、ユーザにより再生装置11が操作され、楽曲等の再生が指示されると、再生装置11は、楽曲の再生を開始する。すなわち、音声供給部36は制御部35の指示に従って、指定された楽曲の音声(音声信号)を加算部38に供給する。また、ノイズ除去処理部37は、収音部31からA/D変換部33を介して供給された音声(環境音)を用いて、その音声とは逆位相の音声を生成し、加算部38に供給する。
そして、加算部38は、音声供給部36およびノイズ除去処理部37からの音声を加算し、再生制御部39は、加算部38で得られた音声をスピーカ32に供給して出力させる。
例えば、このような状態で、ユーザはイヤホン21を耳に装着し、本体22を着ている服のポケット等に入れる。そして、ユーザは、次の楽曲の再生や音量調整などの操作をする場合、指の腹で直接イヤホン21の収音部31を叩き、所望の処理の実行を指示する。
再生装置11では、ユーザのこのような操作に応じた処理を行うために、再生装置11の電源がオンされると、ユーザの収音部31への操作を検出し、その操作に応じた処理を実行する処理である再生制御処理を繰り返し行う。
以下、図3のフローチャートを参照して、再生装置11による再生制御処理について説明する。
ステップS11において、収音部31は、周囲の音声を収音し、その結果得られた音声信号をA/D変換部33に供給する。また、A/D変換部33は、収音部31からの音声信号を、アナログ信号からデジタル信号に変換し、低域フィルタ処理部61、高域フィルタ処理部64、およびゼロクロス値算出部67に供給する。
例えばA/D変換部33は、供給された音声信号を44.1kHzのサンプリング周波数でサンプリングする。そして、A/D変換部33は、得られた各サンプリング値を−1から1までの間の値となるように正規化し、その結果得られた値x(n)(但し、n=0,1,2,・・・)をデジタル信号である音声信号として出力する。
なお、デジタル信号とされた音声信号の値x(n)における「n」は、時間インデックス、つまり何番目のサンプリング値であるかを表している。
また、サンプリング周波数は44.1kHzに限らず、16kHz程度以上であればよい。サンプリング周波数が16kHz程度以上であれば、収音部31が直接叩かれたときの音声の検出性能にほとんど影響はないからである。さらに、収音部31による収音の帯域幅を8kHz以上とすれば、収音部31が直接叩かれたか否かの判別が充分に可能な音声信号を得ることができる。
ステップS12において、低域フィルタ処理部61は、低域通過フィルタを用いたフィルタ処理により、A/D変換部33から供給された音声信号から低域信号を抽出し、低域最大値算出部62および低域実効値算出部63に供給する。
具体的には、低域フィルタ処理部61は次式(1)を計算することにより、音声信号から低域信号xl(n)を抽出する。
Figure 0005515709
なお、式(1)において、Nlは低域通過フィルタのタップ数を示しており、hl(i)は低域通過フィルタの係数を示している。したがって、最も新しくサンプリングされて得られた音声信号の値x(n)から値x(n−Nl+1)までの、時間的に連続するNl個の音声信号の値が重み付き加算されて、低域信号xl(n)とされる。
ステップS13において、高域フィルタ処理部64は、高域通過フィルタを用いたフィルタ処理により、A/D変換部33から供給された音声信号から高域信号を抽出し、高域最大値算出部65および高域実効値算出部66に供給する。
具体的には、高域フィルタ処理部64は次式(2)を計算することにより、音声信号から高域信号xh(n)を抽出する。
Figure 0005515709
なお、式(2)において、Nhは高域通過フィルタのタップ数を示しており、hh(i)は高域通過フィルタの係数を示している。したがって、最も新しくサンプリングされて得られた音声信号の値x(n)から値x(n−Nh+1)までの、時間的に連続するNh個の音声信号の値が重み付き加算されて、高域信号xh(n)とされる。
また、例えば式(1)および式(2)における係数hl(i)および係数hh(i)は、FIR(Finite Impulse Response)型で直線位相をもつ係数とされ、低域通過フィルタおよび高域通過フィルタのカットオフ周波数は、5512.5Hzとされる。すなわち、音声信号のうち、5512.5Hz以下の周波数成分が低域信号とされ、5512.5Hzよりも大きい周波数成分が高域信号とされる。さらに、例えば低域通過フィルタのタップ数Nlと、高域通過フィルタのタップ数Nhは、ともに128などとされる。
このような場合、低域通過フィルタおよび高域通過フィルタは、図4に示す周波数振幅特性をもつことになる。なお、図4において、図中、上側には低域通過フィルタの周波数振幅特性が示されており、図中、下側には高域通過フィルタの周波数振幅特性が示されている。また、図4において、縦軸は振幅(dB)を示しており、横軸は正規化周波数を示している。
図中、上側に示す低域通過フィルタでは、正規化周波数が0から約0.25までは振幅がほぼ0dBとされており、正規化周波数0.25付近で急激に振幅が小さくなっている。また、正規化周波数が0.3以上では正規化周波数が大きくなるにつれて振幅が小さくなっていく。
これに対して、図中、下側に示す高域通過フィルタでは、正規化周波数が0から約0.2までは振幅がほぼ−60dBとされており、正規化周波数0.2付近で急激に振幅が大きくなっている。また、正規化周波数が0.25以上では振幅がほぼ0dBとされている。このように、高域通過フィルタでは、阻止域減衰量が−60dBとされている。
なお、高域通過フィルタの阻止域減衰量が−60dBである例について説明したが、阻止域減衰量は−40dB程度以下であればよい。阻止域減衰量が−40dB程度以下であれば、収音部31が直接叩かれたときの音声の検出性能にほとんど影響は生じない。
また、低域通過フィルタの阻止域減衰量は、収音部31が直接叩かれたときの音声の検出性能にほとんど影響を与えないため、低域通過フィルタはオールパスフィルタであってもよい。さらに、低域通過フィルタと高域通過フィルタのカットオフ周波数が、5512.5Hzである例について説明したが、カットオフ周波数は2kHzから10kHz程度であればよく、そのような場合、収音部31が直接叩かれたときの音声の検出性能にほとんど影響は生じない。
さらに、低域通過フィルタおよび高域通過フィルタとして、IIR(Infinite Impulse Response)型のフィルタを用いてもよい。但し、そのような場合、直線位相特性を実現することが困難であるため、収音部31が直接叩かれたときの音声の検出性能が劣化する可能性がある。
図3のフローチャートの説明に戻り、低域信号および高域信号が抽出されると、処理はステップS13からステップS14へと進む。
ステップS14において、低域最大値算出部62は、低域フィルタ処理部61から供給された低域信号に基づいて低域最大値Pl(n)を算出し、判別処理部68に供給する。具体的には、低域最大値算出部62は、次式(3)を計算することにより、低域最大値Pl(n)を算出する。
Figure 0005515709
すなわち、低域信号の最も新しいn番目の値xl(n)から、過去の(n−2047)番目の値xl(n−2047)までの値のそれぞれについて絶対値が求められ、それらの絶対値のうちの最大値(最大値ノルム)が低域最大値Pl(n)とされる。
式(3)では、現在の時刻nから過去の時刻(n−2047)までの2048サンプルの低域信号が処理対象とされて、低域最大値Pl(n)の算出が行われるが、処理対象とするサンプル数は512サンプル程度以上であればよい。低域最大値Pl(n)の算出時に処理対象とするサンプル数が、512サンプル程度以上であれば、収音部31が直接叩かれたときの音声の検出性能に影響は生じない。
例えば、512サンプルの低域信号が処理対象とされる場合、過去の時刻(n−1536)から過去の時刻(n−2047)までの512サンプルの低域信号が用いられ、それらの値の絶対値のうちの最大値が低域最大値Pl(n)とされる。
ステップS15において、低域実効値算出部63は、低域フィルタ処理部61から供給された低域信号に基づいて低域実効値rmsl(n,m)(但し、m=0,1,2,3)を算出し、判別処理部68に供給する。具体的には、低域実効値算出部63は、次式(4)を計算することにより、4つの低域実効値rmsl(n,m)を算出する。
Figure 0005515709
すなわち、低域実効値算出部63は、現在の時刻nから過去の時刻(n−2047)までの2048サンプルの低域信号を4つの区間に等間隔で分割する。分割により得られた4つの区間LS0乃至区間LS3は、それぞれ連続する512サンプルの低域信号の値からなる。
低域実効値算出部63は、各区間LSm(但し、m=0,1,2,3)について、その区間を構成する512サンプル分の低域信号の値の二乗平均値(ユークリッドノルム)を算出し、得られた二乗平均値を区間LSmの低域実効値rmsl(n,m)とする。
したがって、例えば区間LS3の低域実効値rmsl(n,3)は、低域信号の時刻nの値xl(n)から、時刻(n−511)の値xl(n−511)までの各時刻における低域信号の値の二乗平均値とされる。このようにして得られた低域実効値rmsl(n,m)は、音声信号の低域成分の各区間における実効値である。
なお、低域信号の二乗平均値を求めると説明したが、収音部31が叩かれたときの音声の検出性能の改善や演算量低減のため、低域信号の絶対値平均値(一次平均ノルム)を低域実効値としてもよい。
また、式(4)の例では、現在の時刻nから過去の時刻(n−2047)までの2048サンプルの低域信号が処理対象とされて、低域実効値rmsl(n,m)の算出が行われるが、処理対象とするサンプル数は1024サンプル程度以上であればよい。処理対象とするサンプル数が、1024サンプル程度以上であれば、収音部31が直接叩かれたときの音声の検出性能に影響は生じない。
例えば、1024サンプルの低域信号が処理対象とされる場合、現在の時刻nから、過去の時刻(n−1023)までの低域信号が2区間に等間隔で分割される。そして、分割により得られた各区間について、その区間を構成する512サンプルの低域信号の値の二乗平均値が低域実効値として算出される。
さらに、低域実効値の算出にあたり、処理対象の区間(サンプル数)が等間隔に分割されると説明したが、低域信号の波形が有する特徴に合わせて、低域信号が不等間隔に分割されるようにしてもよい。これにより、低域信号の特徴的な波形部分の区間をより狭くし、低域実効値を用いて、収音部31が直接叩かれたときの音声を検出するときに、検出性能を向上させることができる。
ステップS16において、高域最大値算出部65は、高域フィルタ処理部64から供給された高域信号に基づいて高域最大値Ph(n)を算出する。具体的には、高域最大値算出部65は、次式(5)を計算することにより、高域最大値Ph(n)を算出する。
Figure 0005515709
すなわち、高域信号の現在の時刻nの値xh(n)から、過去の時刻(n−2047)の値xh(n−2047)までの値のそれぞれについて絶対値が求められ、それらの絶対値のうちの最大値(最大値ノルム)が高域最大値Ph(n)とされる。
また、高域最大値算出部65は、高域最大値Ph(n)とされたサンプル、つまり処理対象のサンプルのうち、高域信号の値の絶対値が最大であったサンプルの時刻(時間インデックス)hiを、高域最大値Ph(n)とともに判別処理部68に供給する。
ステップS17において、高域実効値算出部66は、高域フィルタ処理部64から供給された高域信号に基づいて高域実効値rmsh(n,m)(但し、m=0,1,2,…,31)を算出し、判別処理部68に供給する。具体的には、高域実効値算出部66は、次式(6)を計算することにより、32個の高域実効値rmsh(n,m)を算出する。
Figure 0005515709
すなわち、高域実効値算出部66は、現在の時刻nから過去の時刻(n−2047)までの2048サンプルの高域信号を32個の区間に等間隔で分割する。分割により得られた32個の区間HS0乃至区間HS31は、それぞれ連続する64サンプルの高域信号の値からなる。
高域実効値算出部66は、各区間HSm(但し、m=0,1,2,…,31)について、その区間を構成する64サンプル分の高域信号の値の二乗平均値(ユークリッドノルム)を算出し、得られた二乗平均値を区間HSmの高域実効値rmsh(n,m)とする。
なお、高域信号の二乗平均値を求めると説明したが、収音部31が叩かれたときの音声の検出性能の改善や演算量低減のため、高域信号の絶対値平均値(一次平均ノルム)を高域実効値としてもよい。
また、式(6)の例では、現在の時刻nから過去の時刻(n−2047)までの2048サンプルの高域信号が処理対象とされて、高域実効値rmsh(n,m)の算出が行われるが、処理対象とするサンプル数は1024サンプル程度以上であればよい。処理対象とするサンプル数が、1024サンプル程度以上であれば、収音部31が直接叩かれたときの音声の検出性能に影響は生じない。
例えば、1024サンプルの高域信号が処理対象とされる場合、過去の時刻(n−1024)から、過去の時刻(n−2047)までの高域信号が16区間に等間隔で分割される。そして、分割により得られた各区間について、その区間を構成する64サンプルの高域信号の値の二乗平均値が高域実効値として算出される。
さらに、高域実効値の算出にあたり、処理対象の区間(サンプル数)が等間隔に分割されると説明したが、高域信号の波形が有する特徴に合わせて、高域信号が不等間隔に分割されるようにしてもよい。これにより、高域信号の特徴的な波形部分の区間をより狭くし、高域実効値を用いて、収音部31が直接叩かれたときの音声の検出するときに、検出性能を向上させることができる。
ステップS18において、ゼロクロス値算出部67は、A/D変換部33から供給された音声信号x(n)に基づいて、次式(7)を計算することにより、ゼロクロス値zcr(n)を算出し、判別処理部68に供給する。
Figure 0005515709
なお、式(7)において、negative(A)は、引数Aが負の場合に1とされ、引数Aが負でない場合に0とされる関数である。したがって、ゼロクロス値zcr(n)は、現在の時刻nから過去の時刻(n−2048)までの間における、音声信号(音声の波形)が0と交差する率を示している。
以上において説明した処理により、音声信号の特徴の特徴量として、低域最大値、低域実効値、高域最大値、高域実効値、およびゼロクロス値が判別処理部68に供給される。なお、以下において、これらの低域最大値、低域実効値、高域最大値、高域実効値、およびゼロクロス値を特に区別する必要のない場合、単に音声信号の特徴量とも称する。
ステップS19において、判別部34は、判別処理を行って、収音部31により収音された音声が、収音部31がユーザの指の腹により直接叩かれたときの音声であるか否かを判別し、その判別結果を制御部35に供給する。
なお、判別処理の詳細は後述するが、判別処理では、音声信号の各特徴量が所定の条件を満たす場合、収音部31が直接叩かれた旨の判別結果が出力され、各特徴量が所定の条件を満たさない場合、収音部31が直接叩かれていない旨の判別結果が出力される。以下、収音部31が直接叩かれた旨の判別結果をポジティブな判別結果とも称し、収音部31が直接叩かれていない旨の判別結果をネガティブな判別結果とも称することとする。
判別処理が行われると、判別部34−1および判別部34−2から、それぞれ判別結果が制御部35に供給される。すなわち、ステップS11乃至ステップS19の処理は、収音部31−1、A/D変換部33−1、および判別部34−1と、収音部31−2、A/D変換部33−2、および判別部34−2とにより、それぞれ行われる。
ステップS20において、制御部35は、判別部34の判別処理部68から供給された判別結果に基づいて、ユーザにより実行が指示された処理を特定する。
例えば、再生装置11では、収音部31ごとに、収音部31が所定の時間内に叩かれた回数に対して予め特定の処理が対応付けられている。例えば、収音部31−1のみが所定時間内に1度だけ叩かれた場合、再生中の楽曲の音量が上げられ、収音部31−2のみが所定時間内に1度だけ叩かれた場合、再生中の楽曲の音量が下げられ、収音部31−1のみが所定時間内に2度叩かれた場合、楽曲の再生が停止される。
制御部35は、判別部34から順次供給される判別結果に基づいて、どの収音部31が所定時間内に何回叩かれたか(操作されたか)を特定し、その特定結果に対して予め定められた処理を特定する。
したがって、収音部31−1から所定時間内にポジティブな判別結果が2回供給され、収音部31−2からはネガティブな判別結果が供給された場合、上述の例では、楽曲の再生を停止する処理が特定される。
なお、収音部31の操作に割り当てられる機能(処理)は、音量の上げ下げ、楽曲の再生や停止、曲送り、曲戻しなどの他、設定の切り替えや電源のオフ等、再生装置11において実行される処理であれば、どのようなものであってもよい。また、所定時間内に収音部31−1と収音部31−2が交互に叩かれた場合や、同時に叩かれた場合など、2つの収音部31の組み合わせ操作に対しても処理が割り当てられるようにしてもよい。
ステップS21において、制御部35は、ステップS20において特定された処理を実行し、再生制御処理は終了する。
例えば、楽曲の再生を一時停止する処理が特定された場合、制御部35は、再生制御部39を制御して、再生制御部39からスピーカ32への音声の供給を一時的に停止させる。また、例えば、音量を上げる処理が特定された場合、制御部35は、再生制御部39からスピーカ32に供給される音声の音量が大きくなるように、再生制御部39を制御する。
以上のようにして再生装置11は、収音部31により収音された音声の特徴量を算出し、それらの特徴量に基づいて、収音された音声が、収音部31を直接叩いたときの音声であるか否かを判別し、その判別結果に応じた処理を実行する。
これにより、より簡単な構成で再生装置11の操作性を向上させることができる。すなわち、再生装置11では、いわゆるノイズキャンセリング用に設けられた収音部31により周囲の音声を取り込んで、その音声について各特徴の特徴量が求められ、それらの特徴量が用いられて、ユーザの操作が特定される。
したがって、ユーザは、ポケットなどからいちいち再生装置を取り出して、再生装置本体に設けられたボタンやタッチパネルに直接触れる必要はなく、収音部31を叩くだけで再生装置11による楽曲等の再生制御を実行させることができる。しかも、収音部31により収音された音声に基づいて、ユーザの操作を特定するため、再生装置11に再生制御用のボタン等を設ける必要がなく、再生装置11の構成をより簡単なものとすることができる。
[判別処理の説明]
次に、図5のフローチャートを参照して、図3のステップS19の処理に対応する判別処理について説明する。なお、この判別処理は、判別部34−1および判別部34−2のそれぞれにおいて行われる。
ステップS51において、判別処理部68は、高域最大値算出部65から供給された時間インデックスhiが、次式(8)を満たすか否かを判定する。
Figure 0005515709
なお、式(8)において、hi_peakは予め定められた定数であり、例えば1791とされる。また、時間インデックスhiは、高域信号の絶対値が最大となる時刻である。したがって、ステップS51では、高域信号の絶対値が、時刻(n−hi_peak)で最大となっているか否かが判定される。
高域信号では、収音部31がユーザにより直接叩かれた時刻において、高域信号の絶対値が最大となるはずである。そこで、処理基準となる現在時刻nから予め定められた所定の時間(ここではhi_peak)だけ過去の時刻において絶対値が最大となる音声信号を、収音部31が直接叩かれたときの音声の判別対象とすれば、判別精度を向上させることができる。すなわち、収音部31がユーザにより直接叩かれた前後の期間の同期のとれた音声信号の波形、つまり特定の位相の波形を処理対象とすることができ、より簡単かつ精度よく音声の判別を行うことができるようになる。
なお、所定の時間hi_peakは、(1791−128)≦hi_peak≦(1791+128)程度であれば、収音部31が叩かれたときの音声の検出性能にほとんど影響が生じないため、時間hi_peakは1791程度の値であればよい。
ステップS51において、高域信号の絶対値が時刻(n−hi_peak)で最大となっていないと判定された場合、ステップS52において、判別処理部68は、収音部31が叩かれていない旨の判別結果、つまりネガティブな判別結果を制御部35に供給する。そして、判別結果が出力されると、判別処理は終了し、その後、処理は図3のステップS20へと進む。
これに対して、ステップS51において高域信号の絶対値が時刻(n−hi_peak)で最大となっていると判定された場合、ステップS53において、判別処理部68は高域最大値算出部65から供給された高域最大値Ph(n)が、次式(9)を満たすか否かを判定する。
Figure 0005515709
なお、式(9)において、ph_lowは予め定められた閾値であり、ステップS53では、高域最大値Ph(n)が閾値ph_low以上であるか否かが判定される。
ステップS53において、高域最大値が閾値ph_low未満であると判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
収音部31が直接叩かれた場合、収音された音声の高域成分は、ある程度の強度(振幅)を有しているはずである。そこで、高域最大値が閾値ph_lowに満たない場合には、処理対象となっている音声(音声信号)は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
一方、ステップS53において、高域最大値が閾値ph_low以上であると判定された場合、ステップS54において、判別処理部68は、高域実効値算出部66から供給された各高域実効値rmsh(n,m)が、次式(10)を満たすか否かを判定する。
Figure 0005515709
なお、式(10)において、rmsh_high(m)(但し、m=0,1,2,…,31)は予め定められた閾値であり、ステップS54では、各区間HSmの高域実効値rmsh(n,m)が、閾値rmsh_high(m)以下であるか否かが判定される。すなわち、高域実効値rmsh(n,0)乃至高域実効値rmsh(n,31)のそれぞれが、閾値rmsh_high(0)乃至閾値rmsh_high(31)のそれぞれ以下であるか否かが判定される。
ステップS54において、高域実効値が閾値rmsh_high(m)以下でないと判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
収音部31が直接叩かれた場合、収音された音声の高域成分は、叩かれた時刻付近の区間では実効値が大きく、それ以外の区間ではあまり実効値が大きくないという特徴を有しており、そのような特徴に合わせて、各区間の閾値rmsh_high(m)が予め定められる。そして、各区間の高域実効値のうち、1つでも閾値rmsh_high(m)を超えるものがある場合には、処理対象となっている音声は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
また、ステップS54において、高域実効値が閾値rmsh_high(m)以下であると判定された場合、ステップS55において、判別処理部68は、低域最大値算出部62から供給された低域最大値Pl(n)が、次式(11)を満たすか否かを判定する。
Figure 0005515709
なお、式(11)において、pl_lowは予め定められた閾値であり、ステップS55では、低域最大値Pl(n)が閾値pl_low以上であるか否かが判定される。
ステップS55において、低域最大値が閾値pl_low未満であると判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
収音部31が直接叩かれた場合、特に収音部31に設けられたマイクロホンの穴が、ユーザの指の腹で塞がれるように叩かれた場合、収音された音声の低域成分は、ある程度の強度(振幅)を有しているはずである。そこで、低域最大値が閾値pl_lowに満たない場合には、処理対象となっている音声は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
一方、ステップS55において、低域最大値が閾値pl_low以上であると判定された場合、ステップS56において、判別処理部68は、低域実効値算出部63から供給された各低域実効値rmsl(n,m)が、次式(12)を満たすか否かを判定する。
Figure 0005515709
なお、式(12)において、rmsl_low(m)(但し、m=0,1,2,3)は予め定められた閾値であり、ステップS56では、各区間LSmの低域実効値rmsl(n,m)が、閾値rmsl_low(m)以上であるか否かが判定される。すなわち、低域実効値rmsl(n,0)乃至低域実効値rmsl(n,3)のそれぞれが、閾値rmsl_low(0)乃至閾値rmsl_low(3)のそれぞれ以上であるか否かが判定される。
ステップS56において、低域実効値が閾値rmsl_low(m)以上でないと判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
収音部31が直接叩かれた場合、収音された音声の低域成分は、叩かれた時刻後においてもある程度長い期間、実効値が大きい値となるという特徴を有しており、そのような特徴に合わせて、各区間の閾値rmsl_low(m)が予め定められる。そして、各区間の低域実効値のうち、1つでも閾値rmsl_low(m)未満となるものがある場合には、処理対象となっている音声は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
また、ステップS56において、低域実効値が閾値rmsl_low(m)以上であると判定された場合、ステップS57において、判別処理部68は、ゼロクロス値算出部67から供給されたゼロクロス値zcr(n)が、次式(13)を満たすか否かを判定する。
Figure 0005515709
なお、式(13)において、zcr_highは予め定められた閾値であり、ステップS57では、ゼロクロス値zcr(n)が、閾値zcr_high以下であるか否かが判定される。
ステップS57において、ゼロクロス値が閾値zcr_highよりも大きいと判定された場合、ステップS52においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図3のステップS20に進む。
収音部31が直接叩かれた場合、収音された音声には低域成分が多く含まれているため、収音された音声のゼロクロス値は、ある程度小さいはずである。そこで、ゼロクロス値zcr(n)が、閾値zcr_highを超える場合には、処理対象となっている音声は、収音部31が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。
一方、ステップS57において、ゼロクロス値zcr(n)が閾値zcr_high以下であると判定された場合、処理はステップS58に進む。
ステップS58において、判別処理部68は、収音部31が叩かれた旨の判別結果、つまりポジティブな判別結果を制御部35に供給する。そして、判別結果が出力されると、判別処理は終了し、その後、処理は図3のステップS20へと進む。
このようにして判別処理部68は、収音された音声の各特徴の特徴量が、収音部31が直接叩かれたときの音声が満たすべき条件を満たしているか否かを判定することで、収音された音声が、収音部31が直接叩かれたときの音声であるか否かを判別する。収音された音声の特徴ごとに条件を満たしているか否かを判定することで、より確実に音声の判別を行うことができる。
[高域最大値の閾値ph_lowについて]
ところで、以上において説明した判別処理において用いられる閾値ph_low、閾値rmsh_high(m)、閾値pl_low、閾値rmsl_low(m)、および閾値zcr_highは、多数のサンプルから予め求められ、判別処理部68に記録される。
例えば電車、バス、徒歩などの様々な環境下で、収音部31を直接叩いたときの音声と、収音部31を叩いていないときの音声とが多数集められ、それらの音声が正判定または負判定の学習データとされて、特徴量からなる特徴空間上の判別境界が閾値として求められる。
以下、これらの閾値の算出方法について説明する。
まず、高域最大値Ph(n)の閾値ph_lowについて説明する。図6は、電車、バス、徒歩などのさまざまな環境下での高域最大値Ph(n)の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声の高域最大値(dB)を示しており、縦軸は出現確率を示している。
図6では、図中、左側には収音部31が叩かれていないときの音声(以下、環境音と称する)についての出現確率が示されており、図中、右側には収音部31が直接叩かれたときの音声(以下、操作音と称する)についての出現確率が示されている。
環境音の高域最大値は−45dB付近に多く分布しているのに対し、操作音の高域最大値は0dB付近に多く分布しており、高域最大値が0dB程度である環境音は殆どない。つまり、操作音の高域最大値は、環境音の高域最大値よりも大きな値に分布していることが分かる。このような環境音と操作音の高域最大値Ph(n)の統計的な分布の違いが用いられて、環境音または操作音の何れであるかの予測(判別)が行われる。
例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を高域最大値Ph(n)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(14)に示す判別式が得られる。
Figure 0005515709
例えば、図6に示したサンプルが用いられる場合、定数項ph_lowとして0.0679が得られる。この定数項ph_lowは、図6の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。
式(14)では、判別得点zphが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zphが0未満である場合、処理対象の音声は操作音ではない、つまり環境音であると判別される。この判別式の定数項ph_lowが、高域最大値の閾値ph_lowとされ、判別処理部68に記録される。
なお、式(14)による1つの特徴量、つまり高域最大値Ph(n)による判別では、操作音を環境音と判別してしまう漏れ検出や、環境音を操作音として判別してしまう過剰検出が多い。
漏れ検出を少なくしたい場合、閾値ph_lowを負の方向、つまりより小さくなるように変更することで最適化することはできるが、そうすると過剰検出が多くなってしまう。逆に、過剰検出を少なくしたい場合には、閾値ph_lowを正の方向、つまりより大きくなるように変更することで最適化することはできるが、漏れ検出が多くなってしまう。
判別処理部68による判別処理では、図5を参照して説明したように、多段判別を行っているので、高域最大値Ph(n)による判別では、漏れ検出が少なくなり、過剰検出が多くなるように閾値ph_lowを負の方向に変更し、最適化するのが好ましい。そして、それ以降において行われる高域実効値、低域最大値、低域実効値、ゼロクロス値を用いた判別では、段階的に過剰検出が少なくなるようにすると、より確実に操作音の判別を行うことができる。
[高域実効値の閾値rmsh_high(m)について]
次に、高域実効値rmsh(n,m)の閾値rmsh_high(m)について説明する。図7は、電車、バス、徒歩などのさまざまな環境下での高域実効値rmsh(n,m)を示す図である。
なお、図中、横軸は各区間HSm、つまり高域実効値rmsh(n,m)の変数m(但し、m=0,1,2,…,31)を示しており、縦軸は各区間HSmの高域実効値(dB)を示している。
図7では、図中、上側には環境音の高域実効値が示されており、図中、下側には操作音の高域実効値が示されている。また、図7に示す高域実効値は、図5のステップS51で説明した、時間インデックスhi=n−hi_peakの条件を満たすサンプル(音声)の高域実効値であり、hi_peak=1791とされている。
そのため、環境音の高域実効値も操作音の高域実効値もm=2,3付近では、ともに大きな値に分布している。また、操作音の高域実効値は、m=2以下と、m=5以上である区間において、環境音の高域実効値よりも小さい値に分布していることが分かる。
このように、操作音には、収音部31が直接叩かれた時刻付近の区間の高域実効値が大きく、その区間とは異なる区間の高域実効値は比較的小さいという特徴があるが、環境音の高域実効値は、どの区間においてもある程度の大きさとなっている。
このような環境音と操作音の各区間の高域実効値rmsh(n,m)の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測(判別)が行われる。
例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を高域実効値rmsh(n,m)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(15)に示す判別式が得られる。
Figure 0005515709
例えば、図7に示したサンプルが用いられる場合、各変数mについての定数項rmsh_high(m)、つまり定数項rmsh_high(0)乃至定数項rmsh_high(31)として、図8に示す値が得られる。各定数項のうち、定数項rmsh_high(3)乃至定数項rmsh_high(5)が、図7に示した操作音の高域実効値に対応して、特に大きな値となっている。
式(15)では、区間HS0乃至区間HS31の全ての判別得点zrmsh(m)が0以上である場合、処理対象の音声は操作音であるとされ、1つでも判別得点zrmsh(m)が0未満となる区間HSmがある場合、処理対象の音声は環境音であると判別される。この判別式の定数項rmsh_high(m)が、高域実効値の閾値rmsh_high(m)とされ、判別処理部68に記録される。
なお、上述した閾値ph_lowの変更による漏れ検出や過剰検出の最適化と同様に、高域実効値の閾値rmsh_high(m)を変更することでも、漏れ検出や過剰検出の最適化を行うことは可能であるが、閾値(定数項)が32個もあるため、その変更は極めて困難である。
これに対して、説明変量を32次元の高域実効値rmsh(n,m)(但し、m=0,1,2,…,31)として線形判別分析を行うと、次式(16)に示す判別式が得られる。
Figure 0005515709
式(16)において、a_rmsh(m)(但し、m=0,1,2,…,31)は線形判別係数であり、b_rmshは線形判別の定数項である。そして、式(16)の判別得点zrmshが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zrmshが0未満である場合、処理対象の音声は環境音であると判別される。
式(16)の判別式においては、閾値ph_lowの変更による漏れ検出や過剰検出の最適化と同様に、定数項b_rmshを変更することにより、式(15)の判別式の場合よりも簡単に漏れ検出や過剰検出の最適化を行うことができる。
この定数項b_rmshが閾値とされる場合、図5のステップS54では、線形判別係数a_rmsh(m)と高域実効値rmsh(n,m)の積の総和が、閾値(−b_rmsh)と比較されて、操作音の判別が行われる。すなわち、線形判別係数が乗算された高域実効値の総和が−b_rmshを超える場合、処理対象の音声は環境音であると判別される。
さらに、式(16)における説明変量である32次元の高域実効値rmsh(n,m)を、次式(17)に示すように対数尺度に変換すると、漏れ検出や過剰検出をより低減させることができる。
Figure 0005515709
なお、式(17)において、al_rmsh(m)(但し、m=0,1,2,…,31)は線形判別係数であり、bl_rmshは線形判別の定数項である。式(17)の判別式においても、判別得点zrmshが0以上であれば操作音と判別され、判別得点zrmshが0未満であれば環境音であると判別される。
また、式(17)の判別式においては、定数項bl_rmshを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項bl_rmshが閾値とされる場合、図5のステップS54では、線形判別係数al_rmsh(m)と、10を底とする高域実効値rmsh(n,m)の対数値との積の総和が閾値(−bl_rmsh)と比較され、操作音の判別が行われる。つまり、線形判別係数と、高域実効値の対数値との積の総和が−bl_rmshを超える場合、処理対象の音声は環境音であると判別される。
なお、式(15)乃至式(17)の何れの判別式を用いるかは、演算量、漏れ検出、過剰検出のバランスに応じて定めればよい。
[低域最大値の閾値pl_lowについて]
次に、低域最大値Pl(n)の閾値pl_lowについて説明する。図9は、電車、バス、徒歩などのさまざまな環境下での低域最大値Pl(n)の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声の低域最大値(dB)を示しており、縦軸は出現確率を示している。
図9では、図中、左側には環境音についての出現確率が示されており、図中、右側には操作音についての出現確率が示されている。
環境音の低域最大値は−28dB付近を中心に広く分布しているのに対し、操作音の低域最大値は−10dB付近に多く分布している。つまり、操作音の低域最大値は、環境音の低域最大値よりも大きな値に分布していることが分かる。このような環境音と操作音の低域最大値Pl(n)の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測(判別)が行われる。
例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を低域最大値Pl(n)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(18)に示す判別式が得られる。
Figure 0005515709
例えば、図9に示したサンプルが用いられる場合、定数項pl_lowとして0.644が得られる。この定数項pl_lowは、図9の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。
式(18)では、判別得点zplが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zplが0未満である場合、処理対象の音声は環境音であると判別される。この判別式の定数項pl_lowが、低域最大値の閾値pl_lowとされ、判別処理部68に記録される。なお、上述した閾値ph_lowの場合と同様に、低域最大値の閾値pl_lowを変更することでも、漏れ検出や過剰検出の最適化を行うことが可能である。
[低域実効値の閾値rmsl_low(m)について]
さらに、低域実効値rmsl(n,m)の閾値rmsl_low(m)について説明する。
図10は、電車、バス、徒歩などのさまざまな環境下での低域実効値rmsl(n,m)を示す図である。なお、図中、横軸は各区間LSm、つまり低域実効値rmsl(n,m)の変数m(但し、m=0,1,2,3)を示しており、縦軸は各区間LSmの低域実効値(dB)を示している。
図10では、図中、上側には環境音の低域実効値が示されており、図中、下側には操作音の低域実効値が示されている。また、図10に示す低域実効値は、図5のステップS51で説明した、時間インデックスhi=n−hi_peakの条件を満たすサンプル(音声)の低域実効値であり、hi_peak=1791とされている。
そのため、環境音の低域実効値も操作音の低域実効値もm=0では、ともに大きな値に分布している。また、操作音の低域実効値は、m=0,1,2,3の全ての区間において、環境音の低域実効値よりも大きい値に分布していることが分かる。
このように、操作音には、収音部31が直接叩かれた後、緩やかに低域実効値が減少していくという特徴があるが、環境音の低域実効値は、m=2,3の区間において急激に低域実効値が減少している。
このような環境音と操作音の各区間の低域実効値rmsl(n,m)の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測(判別)が行われる。
例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を低域実効値rmsl(n,m)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(19)に示す判別式が得られる。
Figure 0005515709
例えば、図10に示したサンプルが用いられる場合、各変数mについての定数項rmsl_low(m)、つまり定数項rmsl_low(0)乃至定数項rmsl_low(3)として、図11に示す値が得られる。各定数項のうち、定数項rmsl_low(0)および定数項rmsl_low(1)が、図10に示した操作音の低域実効値に対応して、特に大きな値となっている。
式(19)では、区間LS0乃至区間LS3の全ての判別得点zrmsl(m)が0以上である場合、処理対象の音声は操作音であるとされ、1つでも判別得点zrmsl(m)が0未満となる区間LSmがある場合、処理対象の音声は環境音であると判別される。この判別式の定数項rmsl_low(m)が、低域実効値の閾値rmsl_low(m)とされ、判別処理部68に記録される。
なお、低域実効値の閾値rmsl_low(m)を変更することでも、漏れ検出や過剰検出の最適化を行うことは可能であるが、閾値(定数項)が4個もあるため、その変更は困難である。
これに対して、説明変量を4次元の低域実効値rmsl(n,m)(但し、m=0,1,2,3)として線形判別分析を行うと、次式(20)に示す判別式が得られる。
Figure 0005515709
式(20)において、a_rmsl(m)(但し、m=0,1,2,3)は線形判別係数であり、b_rmslは線形判別の定数項である。そして、式(20)の判別得点zrmslが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zrmslが0未満である場合、処理対象の音声は環境音であると判別される。
式(20)の判別式においては、定数項b_rmslを変更することにより、式(19)の判別式の場合よりも簡単に漏れ検出や過剰検出の最適化を行うことができる。
この定数項b_rmslが閾値とされる場合、図5のステップS56では、線形判別係数a_rmsl(m)と低域実効値rmsl(n,m)の積の総和が、閾値(−b_rmsl)と比較されて、操作音の判別が行われる。すなわち、線形判別係数が乗算された低域実効値の総和が−b_rmslを超える場合、処理対象の音声は環境音であると判別される。
また、式(20)における説明変量である4次元の低域実効値rmsl(n,m)を、次式(21)に示すように対数尺度に変換すると、漏れ検出や過剰検出をより低減させることができる。
Figure 0005515709
なお、式(21)において、al_rmsl(m)(但し、m=0,1,2,3)は線形判別係数であり、bl_rmslは線形判別の定数項である。式(21)の判別式においても、判別得点zrmslが0以上であれば操作音と判別され、判別得点zrmslが0未満であれば環境音であると判別される。
また、式(21)の判別式においては、定数項bl_rmslを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項、bl_rmslが閾値とされる場合、図5のステップS56では、線形判別係数al_rmsl(m)と、10を底とする低域実効値rmsl(n,m)の対数値との積の総和が閾値(−bl_rmsl)と比較されて、操作音の判別が行われる。つまり、線形判別係数と、低域実効値の対数値との積の総和が−bl_rmslを超える場合、処理対象の音声は環境音であると判別される。
さらに、漏れ検出や過剰検出の最適化のために、説明変量を32次元の高域実効値rmsh(n,m)(但し、m=0,1,2,…,31)と、4次元の低域実効値rmsl(n,m)(但し、m=0,1,2,3)として線形判別分析を行うことも可能である。そのような場合、次式(22)に示す判別式が得られる。
Figure 0005515709
式(22)において、al_rmsh(m)(但し、m=0,1,2,…,31)、およびal_rmsl(m)(但し、m=0,1,2,3)は線形判別係数であり、bl_rmsは線形判別の定数項である。式(22)の判別式においても、判別得点zrmsが0以上であれば操作音と判別され、判別得点zrmsが0未満であれば環境音であると判別される。
また、式(22)の判別式においては、定数項bl_rmsを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項、bl_rmsが閾値とされる場合、図5のステップS56では、線形判別係数al_rmsh(m)と、10を底とする高域実効値rmsh(n,m)の対数値との積の総和、および線形判別係数al_rmsl(m)と、10を底とする低域実効値rmsl(n,m)の対数値との積の総和が求められる。そして求められた2つの総和の和が閾値(−bl_rms)と比較されて、操作音の判別が行われる。つまり、求められた2つの総和の和が−bl_rmsを超える場合、処理対象の音声は環境音であると判別される。この場合、低域実効値と高域実効値とのバランスが音声の判別に考慮されることになる。
なお、式(19)乃至式(22)の何れの判別式を用いるかは、演算量、漏れ検出、過剰検出のバランスに応じて定めればよい。
[ゼロクロス値の閾値zcr_highについて]
最後に、ゼロクロス値zcr(n)の閾値zcr_highについて説明する。図12は、電車、バス、徒歩などのさまざまな環境下でのゼロクロス値zcr(n)の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声のゼロクロス値を示しており、縦軸は出現確率を示している。
図12では、図中、左側には環境音についての出現確率が示されており、図中、右側には操作音についての出現確率が示されている。
環境音のゼロクロス値は比較的小さい値で広く分布しているのに対し、操作音のゼロクロス値は0付近に多く分布している。また、操作音のゼロクロス値は、0付近において環境音のゼロクロス値よりも多く分布している。このような環境音と操作音のゼロクロス値の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測(判別)が行われる。
例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量をゼロクロス値zcr(n)とし、目的変量を環境音と操作音の2群のデータとして線形判別分析を行うと、次式(23)に示す判別式が得られる。
Figure 0005515709
例えば、図12に示したサンプルが用いられる場合、定数項zcr_highとして0.013が得られる。この定数項zcr_highは、図12の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。
式(23)では、判別得点zzcrが0以上である場合、処理対象の音声は操作音であるとされ、判別得点zzcrが0未満である場合、処理対象の音声は環境音であると判別される。この判別式の定数項zcr_highが、ゼロクロス値の閾値zcr_highとされ、判別処理部68に記録される。なお、ゼロクロス値の閾値zcr_highを変更することでも、漏れ検出や過剰検出の最適化を行うことが可能である。
以上のように、判別境界を求めて、その判別境界を閾値として用いることで、収音部31が直接叩かれたときの操作音と、収音部31が叩かれていないときの環境音とを判別することが可能となる。
また、以上においては、線形判別分析を用いて判別関数(判別式)を作成する例について説明したが、非線形判別、さらには線形SVM(Support Vector Machine)や非線形SVMなどを用いることも可能である。閾値を得るための判別関数の作成方法や、どのような特徴量を用いて判別関数を作成するかは、漏れ検出や過剰検出などの判別性能、演算量等のバランスにより定めればよい。
さらに、判別分析の際に、電車、バス、徒歩など様々な環境下で操作音と環境音を多数集め、それらの音声を正判定と負判定の学習データとすると説明したが、判別性能をあげるために、環境音を操作音と類似しているものだけに限定するようにしてもよい。そのような場合、例えば、判別得点が零値付近の環境音だけが操作音と類似する音声とされ、学習データとして採用される。
また、以上においては、収音部31により収音された音声が操作音であるか否かを判別し、その判別結果に応じた処理を行う装置の例として、携帯型の音楽プレーヤである再生装置11について説明したが、その他、ICレコーダなどどのような装置でもよい。
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インターフェース205が接続されている。入出力インターフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記録部208、ネットワークインターフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
以上のように構成されるコンピュータでは、CPU201が、例えば、記録部208に記録されているプログラムを、入出力インターフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インターフェース205を介して、記録部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記録部208にインストールすることができる。その他、プログラムは、ROM202や記録部208に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
11 再生装置, 21 イヤホン, 22 本体, 31−1,31−2,31 収音部, 34−1,34−2,34 判別部, 35 制御部, 39 再生制御部, 61 低域フィルタ処理部, 62 低域最大値算出部, 63 低域実効値算出部, 64 高域フィルタ処理部, 65 高域最大値算出部, 66 高域実効値算出部, 67 ゼロクロス値算出部, 68 判別処理部

Claims (10)

  1. 周囲の音声を収音する収音部と、
    前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第1の閾値未満である場合、前記収音部が叩かれていないと判別し、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第2の閾値以下であるか否かを判定し、実効値が前記第2の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第3の閾値未満である場合、前記収音部が叩かれていないと判別し、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第4の閾値以上であるか否かを判定し、実効値が前記第4の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別する判別手段と、
    前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段と
    を備える制御装置。
  2. 前記実行手段は、前記判別手段による判別結果に基づいて、所定時間内に前記収音部が叩かれた回数を特定し、特定された前記回数に対して定められた処理を実行する
    請求項1に記載の制御装置。
  3. 前記実行手段は、複数の前記収音部のうち、叩かれた前記収音部により定まる処理を実行する
    請求項1に記載の制御装置。
  4. 前記第1の閾値乃至前記第4の閾値は、判別分析またはSVMにより予め定められる
    請求項1に記載の制御装置。
  5. 前記高域成分の複数区間のそれぞれは、互いに異なる長さの区間とされ、前記低域成分の複数区間のそれぞれは、互いに異なる長さの区間とされる
    請求項1に記載の制御装置。
  6. 前記判別手段は、さらに前記高域成分の絶対値が、時間方向の特定位置において最大となるか否かを判定し、前記絶対値が前記特定位置において最大とならない場合、前記収音部が叩かれていないと判別する
    請求項1または請求項5の何れかに記載の制御装置。
  7. 前記判別手段は、さらに前記音声のゼロクロス値が第5の閾値以下であるか否かを判定し、前記ゼロクロス値が前記第5の閾値を超える場合、前記収音部が叩かれていないと判別する
    請求項6に記載の制御装置。
  8. 前記収音部はイヤホンに設けられている
    請求項1に記載の制御装置。
  9. 周囲の音声を収音する収音部と、
    前記収音部が叩かれたか否かを判別する判別手段と、
    前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段と
    を備える制御装置の制御方法であって、
    前記収音部が前記音声を収音し、
    前記判別手段が、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第1の閾値未満である場合、前記収音部が叩かれていないと判別し、
    前記判別手段が、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第2の閾値以下であるか否かを判定し、実効値が前記第2の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、
    前記判別手段が、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第3の閾値未満である場合、前記収音部が叩かれていないと判別し、
    前記判別手段が、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第4の閾値以上であるか否かを判定し、実効値が前記第4の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別し、
    前記実行手段が、前記判別手段による判別結果に応じて前記所定の処理を実行する
    ステップを含む制御方法。
  10. 収音部に周囲の音声を収音させ、
    前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第1の閾値未満である場合、前記収音部が叩かれていないと判別し、
    前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第2の閾値以下であるか否かを判定し、実効値が前記第2の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、
    前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第3の閾値未満である場合、前記収音部が叩かれていないと判別し、
    前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第4の閾値以上であるか否かを判定し、実効値が前記第4の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別し、
    前記収音部が叩かれたと判別された場合、所定の処理を実行する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2009281964A 2009-12-11 2009-12-11 制御装置および方法、並びにプログラム Active JP5515709B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2009281964A JP5515709B2 (ja) 2009-12-11 2009-12-11 制御装置および方法、並びにプログラム
EP10835892.0A EP2386943B1 (en) 2009-12-11 2010-12-02 Mobile audio reproducing apparatus, corresponding method and computer program
CN201080006668.7A CN102308277B (zh) 2009-12-11 2010-12-02 控制装置、控制方法和程序
BRPI1007881A BRPI1007881A2 (pt) 2009-12-11 2010-12-02 dispositivo de controle, método de controle de um dispositivo de controle, e, programa.
PCT/JP2010/071606 WO2011070971A1 (ja) 2009-12-11 2010-12-02 制御装置および方法、並びにプログラム
KR1020117018142A KR101669302B1 (ko) 2009-12-11 2010-12-02 제어 장치
US13/147,858 US9053709B2 (en) 2009-12-11 2010-12-12 Control device, control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009281964A JP5515709B2 (ja) 2009-12-11 2009-12-11 制御装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2011123751A JP2011123751A (ja) 2011-06-23
JP5515709B2 true JP5515709B2 (ja) 2014-06-11

Family

ID=44145516

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009281964A Active JP5515709B2 (ja) 2009-12-11 2009-12-11 制御装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US9053709B2 (ja)
EP (1) EP2386943B1 (ja)
JP (1) JP5515709B2 (ja)
KR (1) KR101669302B1 (ja)
CN (1) CN102308277B (ja)
BR (1) BRPI1007881A2 (ja)
WO (1) WO2011070971A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9599981B2 (en) 2010-02-04 2017-03-21 Echostar Uk Holdings Limited Electronic appliance status notification via a home entertainment system
JP5352634B2 (ja) * 2011-07-11 2013-11-27 株式会社エヌ・ティ・ティ・ドコモ 入力装置
CN102435885B (zh) * 2011-10-09 2013-09-11 绵阳市维博电子有限责任公司 一种道岔转辙机动作电压检测方法、设备和系统
KR102018654B1 (ko) * 2013-06-07 2019-09-05 엘지전자 주식회사 이어 마이크가 장착되는 이동 단말기 및 그 동작방법
US20150161452A1 (en) 2013-12-11 2015-06-11 Echostar Technologies, Llc Home Monitoring and Control
US9900177B2 (en) 2013-12-11 2018-02-20 Echostar Technologies International Corporation Maintaining up-to-date home automation models
US9769522B2 (en) 2013-12-16 2017-09-19 Echostar Technologies L.L.C. Methods and systems for location specific operations
US9723393B2 (en) 2014-03-28 2017-08-01 Echostar Technologies L.L.C. Methods to conserve remote batteries
KR101486194B1 (ko) * 2014-06-09 2015-02-11 박미경 이어폰을 이용한 입력 방법 및 장치
US9621959B2 (en) 2014-08-27 2017-04-11 Echostar Uk Holdings Limited In-residence track and alert
US9824578B2 (en) 2014-09-03 2017-11-21 Echostar Technologies International Corporation Home automation control using context sensitive menus
US9989507B2 (en) 2014-09-25 2018-06-05 Echostar Technologies International Corporation Detection and prevention of toxic gas
US9511259B2 (en) 2014-10-30 2016-12-06 Echostar Uk Holdings Limited Fitness overlay and incorporation for home automation system
US9983011B2 (en) 2014-10-30 2018-05-29 Echostar Technologies International Corporation Mapping and facilitating evacuation routes in emergency situations
US9967614B2 (en) 2014-12-29 2018-05-08 Echostar Technologies International Corporation Alert suspension for home automation system
US9729989B2 (en) 2015-03-27 2017-08-08 Echostar Technologies L.L.C. Home automation sound detection and positioning
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
US9948477B2 (en) 2015-05-12 2018-04-17 Echostar Technologies International Corporation Home automation weather detection
US9946857B2 (en) 2015-05-12 2018-04-17 Echostar Technologies International Corporation Restricted access for home automation system
US9632746B2 (en) * 2015-05-18 2017-04-25 Echostar Technologies L.L.C. Automatic muting
US9960980B2 (en) 2015-08-21 2018-05-01 Echostar Technologies International Corporation Location monitor and device cloning
US10589051B2 (en) 2015-10-20 2020-03-17 Steven Salter CPAP compliance notification apparatus and method
US9996066B2 (en) 2015-11-25 2018-06-12 Echostar Technologies International Corporation System and method for HVAC health monitoring using a television receiver
US10101717B2 (en) 2015-12-15 2018-10-16 Echostar Technologies International Corporation Home automation data storage system and methods
US10091573B2 (en) 2015-12-18 2018-10-02 Bose Corporation Method of controlling an acoustic noise reduction audio system by user taps
US9798309B2 (en) 2015-12-18 2017-10-24 Echostar Technologies International Corporation Home automation control based on individual profiling using audio sensor data
US9930440B2 (en) 2015-12-18 2018-03-27 Bose Corporation Acoustic noise reduction audio system having tap control
US10110987B2 (en) * 2015-12-18 2018-10-23 Bose Corporation Method of controlling an acoustic noise reduction audio system by user taps
US9743170B2 (en) 2015-12-18 2017-08-22 Bose Corporation Acoustic noise reduction audio system having tap control
US10091017B2 (en) 2015-12-30 2018-10-02 Echostar Technologies International Corporation Personalized home automation control based on individualized profiling
US10060644B2 (en) 2015-12-31 2018-08-28 Echostar Technologies International Corporation Methods and systems for control of home automation activity based on user preferences
US10073428B2 (en) 2015-12-31 2018-09-11 Echostar Technologies International Corporation Methods and systems for control of home automation activity based on user characteristics
US9628286B1 (en) 2016-02-23 2017-04-18 Echostar Technologies L.L.C. Television receiver and home automation system and methods to associate data with nearby people
US9882736B2 (en) 2016-06-09 2018-01-30 Echostar Technologies International Corporation Remote sound generation for a home automation system
US10294600B2 (en) 2016-08-05 2019-05-21 Echostar Technologies International Corporation Remote detection of washer/dryer operation/fault condition
US10049515B2 (en) 2016-08-24 2018-08-14 Echostar Technologies International Corporation Trusted user identification and management for home automation systems
WO2018167901A1 (ja) * 2017-03-16 2018-09-20 ヤマハ株式会社 ヘッドフォン
CN106814670A (zh) * 2017-03-22 2017-06-09 重庆高略联信智能技术有限公司 一种河道采砂智能监管方法及系统
US10354641B1 (en) 2018-02-13 2019-07-16 Bose Corporation Acoustic noise reduction audio system having tap control
CN112468918A (zh) * 2020-11-13 2021-03-09 北京安声浩朗科技有限公司 主动降噪方法、装置、电子设备以及主动降噪耳机

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6772094B2 (en) * 2000-10-23 2004-08-03 James Tyson Sound-based vessel cleaner inspection
JP2004340706A (ja) * 2003-05-15 2004-12-02 Toshiba Mitsubishi-Electric Industrial System Corp 機器の診断装置
JP2005250584A (ja) * 2004-03-01 2005-09-15 Sharp Corp 入力装置
JP2006323943A (ja) * 2005-05-19 2006-11-30 Sony Corp 再生装置,プログラム及び再生制御方法
KR100677613B1 (ko) * 2005-09-09 2007-02-02 삼성전자주식회사 멀티미디어 기기의 동작을 제어하는 방법 및 그 장치
JP2008054103A (ja) * 2006-08-25 2008-03-06 Nec Corp 携帯電子機器及びその制御方法
CN100555353C (zh) * 2006-08-28 2009-10-28 日本胜利株式会社 电子设备的控制装置及电子设备的控制方法
JP4997962B2 (ja) * 2006-12-27 2012-08-15 ソニー株式会社 音声出力装置、音声出力方法、音声出力処理用プログラムおよび音声出力システム
JP4671055B2 (ja) * 2007-11-26 2011-04-13 セイコーエプソン株式会社 叩きコマンド処理システム、電子機器の操作システム及び電子機器

Also Published As

Publication number Publication date
KR101669302B1 (ko) 2016-10-25
BRPI1007881A2 (pt) 2016-02-23
EP2386943A1 (en) 2011-11-16
KR20120111917A (ko) 2012-10-11
EP2386943A4 (en) 2012-08-01
US9053709B2 (en) 2015-06-09
US20110295396A1 (en) 2011-12-01
EP2386943B1 (en) 2018-11-14
JP2011123751A (ja) 2011-06-23
WO2011070971A1 (ja) 2011-06-16
CN102308277A (zh) 2012-01-04
CN102308277B (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
JP5515709B2 (ja) 制御装置および方法、並びにプログラム
JP4640461B2 (ja) 音量調整装置およびプログラム
JP4640463B2 (ja) 再生装置、表示方法および表示プログラム
US9998081B2 (en) Method and apparatus for processing an audio signal based on an estimated loudness
JP5922742B2 (ja) デジタル音声信号からハプティック・イベントを自動生成するシステム及び方法
CA2650612C (en) An adaptive user interface
JP5493611B2 (ja) 情報処理装置、情報処理方法およびプログラム
US8804976B2 (en) Content reproduction device and method, and program
JP4623124B2 (ja) 楽曲再生装置、楽曲再生方法および楽曲再生プログラム
JP2012027186A (ja) 音声信号処理装置、音声信号処理方法及びプログラム
JP2010021627A (ja) 音量調整装置、音量調整方法および音量調整プログラム
JP3810257B2 (ja) 音声帯域拡張装置及び音声帯域拡張方法
US8103504B2 (en) Electronic appliance and voice signal processing method for use in the same
CA2869884C (en) A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal
JP2011237753A (ja) 信号処理装置および方法、並びにプログラム
US20120024130A1 (en) Tempo detection device, tempo detection method and program
JP6235198B2 (ja) 音声信号処理方法、音声信号処理装置およびプログラム
CN114143667A (zh) 音量调节方法、存储介质及电子设备
JP4495704B2 (ja) 音像定位強調再生方法、及びその装置とそのプログラムと、その記憶媒体
JP5126281B2 (ja) 楽曲再生装置
JP4381383B2 (ja) 判別装置、判別方法、プログラム、及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140317

R151 Written notification of patent or utility model registration

Ref document number: 5515709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250