JP5515709B2

JP5515709B2 - 制御装置および方法、並びにプログラム

Info

Publication number: JP5515709B2
Application number: JP2009281964A
Authority: JP
Inventors: 徹知念; 優樹山本; 光行畠中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-12-11
Filing date: 2009-12-11
Publication date: 2014-06-11
Anticipated expiration: 2029-12-11
Also published as: KR101669302B1; BRPI1007881A2; EP2386943A1; KR20120111917A; EP2386943A4; US9053709B2; US20110295396A1; EP2386943B1; JP2011123751A; WO2011070971A1; CN102308277A; CN102308277B

Description

本発明は制御装置および方法、並びにプログラムに関し、特に、より簡単な構成で操作性を向上させることができるようにした制御装置および方法、並びにプログラムに関する。

近年、音楽プレーヤや携帯電話機、さらにはＩＣ（Integrated Circuit）レコーダなど、マイクロホンを入力装置として持つ電子機器は増加の傾向にある。現在、これらの電子機器では、主にボタンやタッチパネルの操作により、音量の上げ下げ、再生の開始や停止、曲送りや曲戻しなどの電子機器の機能制御が行われている。

このような電子機器には、例えば、ユーザの耳に装着されるイヤホンと、電子機器本体とを接続するコードにコントローラを設け、コントローラの操作により電子機器による楽曲の再生を制御できるようにしたものがある（例えば、特許文献１参照）。この電子機器では、コントローラにカメラが設けられており、ユーザは、コントローラや電子機器本体を操作することで、写真を撮像させることもできる。

特開２００３−５２０８９号公報

しかしながら、電子機器やコントローラに多くの機能を持たせようとすると、その分だけ多くのボタンを設けなければならず、電子機器等の構成が複雑になってしまう。また、電子機器やコントローラに多くのボタンが設けられると、各ボタンが小さくなったり、目的とするボタンを見つけにくくなったりして、操作性が低下してしまう。

特に、電車、バス、徒歩などでの移動中に、電子機器を使用する場合、ユーザはカバンやポケットから電子機器本体を取り出したり、コントローラを覗き込んだりしてボタン操作をしなければならないため、電子機器等に多くのボタンが設けられていると操作がしにくくなる。

本発明は、このような状況に鑑みてなされたものであり、より簡単な構成で操作性を向上させることができるようにするものである。

本発明の一側面の制御装置は、周囲の音声を収音する収音部と、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第１の閾値未満である場合、前記収音部が叩かれていないと判別し、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第２の閾値以下であるか否かを判定し、実効値が前記第２の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第３の閾値未満である場合、前記収音部が叩かれていないと判別し、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第４の閾値以上であるか否かを判定し、実効値が前記第４の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別する判別手段と、前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段とを備える。

前記実行手段には、前記判別手段による判別結果に基づいて、所定時間内に前記収音部が叩かれた回数を特定させ、特定された前記回数に対して定められた処理を実行させることができる。

前記第１の閾値乃至前記第４の閾値は、判別分析またはSVMにより予め定められるようにすることができる。

前記高域成分の複数区間のそれぞれを、互いに異なる長さの区間とし、前記低域成分の複数区間のそれぞれを、互いに異なる長さの区間とすることができる。

前記判別手段には、さらに前記高域成分の絶対値が、時間方向の特定位置において最大となるか否かを判定させ、前記絶対値が前記特定位置において最大とならない場合、前記収音部が叩かれていないと判別させることができる。

前記判別手段には、さらに前記音声のゼロクロス値が第５の閾値以下であるか否かを判定させ、前記ゼロクロス値が前記第５の閾値を超える場合、前記収音部が叩かれていないと判別させることができる。

前記実行手段には、複数の前記収音部のうち、叩かれた前記収音部により定まる処理を実行させることができる。

本発明の一側面の制御方法またはプログラムは、収音部に周囲の音声を収音させ、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第１の閾値未満である場合、前記収音部が叩かれていないと判別し、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第２の閾値以下であるか否かを判定し、実効値が前記第２の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第３の閾値未満である場合、前記収音部が叩かれていないと判別し、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第４の閾値以上であるか否かを判定し、実効値が前記第４の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別し、前記収音部が叩かれたと判別された場合、所定の処理を実行するステップを含む。

本発明の一側面においては、収音部により周囲の音声が収音され、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第１の閾値未満である場合、前記収音部が叩かれていないと判別され、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第２の閾値以下であるか否かが判定され、実効値が前記第２の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別され、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第３の閾値未満である場合、前記収音部が叩かれていないと判別され、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第４の閾値以上であるか否かが判定され、実効値が前記第４の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別され、前記収音部が叩かれたと判別された場合、所定の処理が実行される。

本発明の一側面によれば、より簡単な構成で操作性を向上させることができる。

本発明を適用した再生装置の一実施の形態の構成例を示す図である。判別部の構成例を示す図である。再生制御処理を説明するフローチャートである。低域通過フィルタと高域通過フィルタの周波数振幅特性を示す図である。判別処理を説明するフローチャートである。高域最大値の出現確率を示す図である。高域実効値の分布例を示す図である。高域実効値の閾値の例を示す図である。低域最大値の出現確率を示す図である。低域実効値の分布例を示す図である。低域実効値の閾値の例を示す図である。ゼロクロス値の出現確率を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

［再生装置の構成］
図１は、本発明を適用した再生装置の一実施の形態の構成例を示す図である。

再生装置１１は、例えば楽曲などの音声を再生する携帯型の音楽プレーヤであり、ユーザの耳に装着されるイヤホン２１と、イヤホン２１が接続され、ユーザに所持される本体２２とから構成される。

イヤホン２１には、収音部３１−１、収音部３１−２、スピーカ３２−１、およびスピーカ３２−２が設けられている。

収音部３１−１および収音部３１−２は、例えばマイクロホンなどから構成され、再生装置１１の周囲の音声を収音し、その結果得られた音声信号を本体２２に供給する。

スピーカ３２−１およびスピーカ３２−２は、本体２２から供給された、楽曲等の音声信号に基づいて音声を再生する。

なお、以下、収音部３１−１および収音部３１−２を特に区別する必要のない場合、単に収音部３１とも称する。また、スピーカ３２−１およびスピーカ３２−２を特に区別する必要のない場合、単にスピーカ３２とも称する。

再生装置１１では、収音部３１およびスピーカ３２が一体となってユーザの右側または左側の耳に装着されるイヤホンが形成されている。そして、収音部３１により収音されて本体２２に供給される音声は、いわゆるノイズキャンセリングと、楽曲等の音声の再生制御のために用いられる。

具体的には、ユーザが指の腹などで収音部３１を直接叩くと、本体２２は、収音された音声からユーザによる収音部３１へのタップ操作を識別し、その操作に応じた処理を実行する。

また、再生装置１１の本体２２には、Ａ／Ｄ（Analog/Digital）変換部３３−１、Ａ／Ｄ変換部３３−２、判別部３４−１、判別部３４−２、制御部３５、音声供給部３６、ノイズ除去処理部３７、加算部３８、および再生制御部３９が設けられている。

Ａ／Ｄ変換部３３−１およびＡ／Ｄ変換部３３−２は、収音部３１−１および収音部３１−２から供給されたアナログ信号である音声信号を、デジタル信号に変換する。デジタル信号に変換された音声信号は、Ａ／Ｄ変換部３３−１から判別部３４−１およびノイズ除去処理部３７に供給される。また、デジタル信号に変換された音声信号は、Ａ／Ｄ変換部３３−２から判別部３４−２およびノイズ除去処理部３７に供給される。

判別部３４−１および判別部３４−２は、Ａ／Ｄ変換部３３−１およびＡ／Ｄ変換部３３−２から供給された音声に基づいて、収音部３１が直接叩かれたか否かを判別し、その判別結果を制御部３５に供給する。すなわち、収音された音声が、収音部３１がユーザにより叩かれたときに生じる音であるか否かが識別される。

なお、以下、Ａ／Ｄ変換部３３−１およびＡ／Ｄ変換部３３−２を特に区別する必要のない場合、単にＡ／Ｄ変換部３３とも称し、判別部３４−１および判別部３４−２を特に区別する必要のない場合、単に判別部３４と称する。

制御部３５は、再生装置１１全体の動作を制御する。例えば、制御部３５は、判別部３４から供給された判別結果に基づいて、音声供給部３６に楽曲等の音声を出力させたり、再生制御部３９における音声の再生を制御したりする。

音声供給部３６は、楽曲等の音声のデータを記録しており、制御部３５の指示に応じて音声のデータをデコードし、加算部３８に供給する。ノイズ除去処理部３７は、Ａ／Ｄ変換部３３から供給された音声に基づいて、再生装置１１の周囲の音声と逆位相の音声を生成し、加算部３８に供給する。

加算部３８は、音声供給部３６から供給された音声に、ノイズ除去処理部３７から供給された音声を加算して再生制御部３９に供給する。再生制御部３９は、制御部３５の指示に従って、加算部３８から供給された音声をスピーカ３２−１およびスピーカ３２−２に供給し、音声を出力させる。加算部３８において、再生する楽曲の音声に、収音された周囲の音声と逆位相の音声を加えることで、周囲の環境雑音が打ち消され、ユーザの耳には楽曲だけが聞こえることになる。

［判別部の構成］
また、図１の判別部３４は、より詳細には図２に示すように構成される。

すなわち、判別部３４は、低域フィルタ処理部６１、低域最大値算出部６２、低域実効値算出部６３、高域フィルタ処理部６４、高域最大値算出部６５、高域実効値算出部６６、ゼロクロス値算出部６７、および判別処理部６８から構成される。

低域フィルタ処理部６１は、Ａ／Ｄ変換部３３から供給された音声信号にフィルタ処理を施して低域成分を抽出し、その結果得られた低域信号を低域最大値算出部６２および低域実効値算出部６３に供給する。

低域最大値算出部６２は、低域フィルタ処理部６１から供給された低域信号の最大値（以下、低域最大値とも称する）を算出し、判別処理部６８に供給する。低域実効値算出部６３は、低域フィルタ処理部６１から供給された低域信号の実効値（以下、低域実効値とも称する）を算出し、判別処理部６８に供給する。

高域フィルタ処理部６４は、Ａ／Ｄ変換部３３から供給された音声信号にフィルタ処理を施して高域成分を抽出し、その結果得られた高域信号を高域最大値算出部６５および高域実効値算出部６６に供給する。

高域最大値算出部６５は、高域フィルタ処理部６４から供給された高域信号の最大値（以下、高域最大値とも称する）を算出し、判別処理部６８に供給する。高域実効値算出部６６は、高域フィルタ処理部６４から供給された高域信号の実効値（以下、高域実効値とも称する）を算出し、判別処理部６８に供給する。

ゼロクロス値算出部６７は、Ａ／Ｄ変換部３３から供給された音声信号のゼロクロス値を算出して判別処理部６８に供給する。判別処理部６８は、低域最大値算出部６２、低域実効値算出部６３、高域最大値算出部６５、高域実効値算出部６６、およびゼロクロス値算出部６７から供給された最大値、実効値、およびゼロクロス値を用いて、収音された音声の識別を行う。すなわち、判別処理部６８は、収音部３１がユーザにより直接叩かれたか否かを判別し、その判別結果を制御部３５に供給する。

［再生制御処理の説明］
ところで、ユーザにより再生装置１１が操作され、楽曲等の再生が指示されると、再生装置１１は、楽曲の再生を開始する。すなわち、音声供給部３６は制御部３５の指示に従って、指定された楽曲の音声（音声信号）を加算部３８に供給する。また、ノイズ除去処理部３７は、収音部３１からＡ／Ｄ変換部３３を介して供給された音声（環境音）を用いて、その音声とは逆位相の音声を生成し、加算部３８に供給する。

そして、加算部３８は、音声供給部３６およびノイズ除去処理部３７からの音声を加算し、再生制御部３９は、加算部３８で得られた音声をスピーカ３２に供給して出力させる。

例えば、このような状態で、ユーザはイヤホン２１を耳に装着し、本体２２を着ている服のポケット等に入れる。そして、ユーザは、次の楽曲の再生や音量調整などの操作をする場合、指の腹で直接イヤホン２１の収音部３１を叩き、所望の処理の実行を指示する。

再生装置１１では、ユーザのこのような操作に応じた処理を行うために、再生装置１１の電源がオンされると、ユーザの収音部３１への操作を検出し、その操作に応じた処理を実行する処理である再生制御処理を繰り返し行う。

以下、図３のフローチャートを参照して、再生装置１１による再生制御処理について説明する。

ステップＳ１１において、収音部３１は、周囲の音声を収音し、その結果得られた音声信号をＡ／Ｄ変換部３３に供給する。また、Ａ／Ｄ変換部３３は、収音部３１からの音声信号を、アナログ信号からデジタル信号に変換し、低域フィルタ処理部６１、高域フィルタ処理部６４、およびゼロクロス値算出部６７に供給する。

例えばＡ／Ｄ変換部３３は、供給された音声信号を44.1kHzのサンプリング周波数でサンプリングする。そして、Ａ／Ｄ変換部３３は、得られた各サンプリング値を−１から１までの間の値となるように正規化し、その結果得られた値ｘ（ｎ）（但し、ｎ＝０，１，２，・・・）をデジタル信号である音声信号として出力する。

なお、デジタル信号とされた音声信号の値ｘ（ｎ）における「ｎ」は、時間インデックス、つまり何番目のサンプリング値であるかを表している。

また、サンプリング周波数は44.1kHzに限らず、16kHz程度以上であればよい。サンプリング周波数が16kHz程度以上であれば、収音部３１が直接叩かれたときの音声の検出性能にほとんど影響はないからである。さらに、収音部３１による収音の帯域幅を8kHz以上とすれば、収音部３１が直接叩かれたか否かの判別が充分に可能な音声信号を得ることができる。

ステップＳ１２において、低域フィルタ処理部６１は、低域通過フィルタを用いたフィルタ処理により、Ａ／Ｄ変換部３３から供給された音声信号から低域信号を抽出し、低域最大値算出部６２および低域実効値算出部６３に供給する。

具体的には、低域フィルタ処理部６１は次式（１）を計算することにより、音声信号から低域信号ｘｌ（ｎ）を抽出する。

なお、式（１）において、Ｎｌは低域通過フィルタのタップ数を示しており、ｈｌ（ｉ）は低域通過フィルタの係数を示している。したがって、最も新しくサンプリングされて得られた音声信号の値ｘ（ｎ）から値ｘ（ｎ−Ｎｌ＋１）までの、時間的に連続するＮｌ個の音声信号の値が重み付き加算されて、低域信号ｘｌ（ｎ）とされる。

ステップＳ１３において、高域フィルタ処理部６４は、高域通過フィルタを用いたフィルタ処理により、Ａ／Ｄ変換部３３から供給された音声信号から高域信号を抽出し、高域最大値算出部６５および高域実効値算出部６６に供給する。

具体的には、高域フィルタ処理部６４は次式（２）を計算することにより、音声信号から高域信号ｘｈ（ｎ）を抽出する。

なお、式（２）において、Ｎｈは高域通過フィルタのタップ数を示しており、ｈｈ（ｉ）は高域通過フィルタの係数を示している。したがって、最も新しくサンプリングされて得られた音声信号の値ｘ（ｎ）から値ｘ（ｎ−Ｎｈ＋１）までの、時間的に連続するＮｈ個の音声信号の値が重み付き加算されて、高域信号ｘｈ（ｎ）とされる。

また、例えば式（１）および式（２）における係数ｈｌ（ｉ）および係数ｈｈ（ｉ）は、FIR（Finite Impulse Response）型で直線位相をもつ係数とされ、低域通過フィルタおよび高域通過フィルタのカットオフ周波数は、5512.5Hzとされる。すなわち、音声信号のうち、5512.5Hz以下の周波数成分が低域信号とされ、5512.5Hzよりも大きい周波数成分が高域信号とされる。さらに、例えば低域通過フィルタのタップ数Ｎｌと、高域通過フィルタのタップ数Ｎｈは、ともに１２８などとされる。

このような場合、低域通過フィルタおよび高域通過フィルタは、図４に示す周波数振幅特性をもつことになる。なお、図４において、図中、上側には低域通過フィルタの周波数振幅特性が示されており、図中、下側には高域通過フィルタの周波数振幅特性が示されている。また、図４において、縦軸は振幅（ｄＢ）を示しており、横軸は正規化周波数を示している。

図中、上側に示す低域通過フィルタでは、正規化周波数が０から約０．２５までは振幅がほぼ０ｄＢとされており、正規化周波数０．２５付近で急激に振幅が小さくなっている。また、正規化周波数が０．３以上では正規化周波数が大きくなるにつれて振幅が小さくなっていく。

これに対して、図中、下側に示す高域通過フィルタでは、正規化周波数が０から約０．２までは振幅がほぼ−６０ｄＢとされており、正規化周波数０．２付近で急激に振幅が大きくなっている。また、正規化周波数が０．２５以上では振幅がほぼ０ｄＢとされている。このように、高域通過フィルタでは、阻止域減衰量が−６０ｄＢとされている。

なお、高域通過フィルタの阻止域減衰量が−６０ｄＢである例について説明したが、阻止域減衰量は−４０ｄＢ程度以下であればよい。阻止域減衰量が−４０ｄＢ程度以下であれば、収音部３１が直接叩かれたときの音声の検出性能にほとんど影響は生じない。

また、低域通過フィルタの阻止域減衰量は、収音部３１が直接叩かれたときの音声の検出性能にほとんど影響を与えないため、低域通過フィルタはオールパスフィルタであってもよい。さらに、低域通過フィルタと高域通過フィルタのカットオフ周波数が、5512.5Hzである例について説明したが、カットオフ周波数は2kHzから10kHz程度であればよく、そのような場合、収音部３１が直接叩かれたときの音声の検出性能にほとんど影響は生じない。

さらに、低域通過フィルタおよび高域通過フィルタとして、IIR（Infinite Impulse Response）型のフィルタを用いてもよい。但し、そのような場合、直線位相特性を実現することが困難であるため、収音部３１が直接叩かれたときの音声の検出性能が劣化する可能性がある。

図３のフローチャートの説明に戻り、低域信号および高域信号が抽出されると、処理はステップＳ１３からステップＳ１４へと進む。

ステップＳ１４において、低域最大値算出部６２は、低域フィルタ処理部６１から供給された低域信号に基づいて低域最大値Ｐｌ（ｎ）を算出し、判別処理部６８に供給する。具体的には、低域最大値算出部６２は、次式（３）を計算することにより、低域最大値Ｐｌ（ｎ）を算出する。

すなわち、低域信号の最も新しいｎ番目の値ｘｌ（ｎ）から、過去の（ｎ−２０４７）番目の値ｘｌ（ｎ−２０４７）までの値のそれぞれについて絶対値が求められ、それらの絶対値のうちの最大値（最大値ノルム）が低域最大値Ｐｌ（ｎ）とされる。

式（３）では、現在の時刻ｎから過去の時刻（ｎ−２０４７）までの２０４８サンプルの低域信号が処理対象とされて、低域最大値Ｐｌ（ｎ）の算出が行われるが、処理対象とするサンプル数は５１２サンプル程度以上であればよい。低域最大値Ｐｌ（ｎ）の算出時に処理対象とするサンプル数が、５１２サンプル程度以上であれば、収音部３１が直接叩かれたときの音声の検出性能に影響は生じない。

例えば、５１２サンプルの低域信号が処理対象とされる場合、過去の時刻（ｎ−１５３６）から過去の時刻（ｎ−２０４７）までの５１２サンプルの低域信号が用いられ、それらの値の絶対値のうちの最大値が低域最大値Ｐｌ（ｎ）とされる。

ステップＳ１５において、低域実効値算出部６３は、低域フィルタ処理部６１から供給された低域信号に基づいて低域実効値rmsl(n,m)（但し、ｍ＝0，1，2，3）を算出し、判別処理部６８に供給する。具体的には、低域実効値算出部６３は、次式（４）を計算することにより、４つの低域実効値rmsl(n,m)を算出する。

すなわち、低域実効値算出部６３は、現在の時刻ｎから過去の時刻（ｎ−２０４７）までの２０４８サンプルの低域信号を４つの区間に等間隔で分割する。分割により得られた４つの区間ＬＳ０乃至区間ＬＳ３は、それぞれ連続する５１２サンプルの低域信号の値からなる。

低域実効値算出部６３は、各区間ＬＳｍ（但し、ｍ＝0，1，2，3）について、その区間を構成する５１２サンプル分の低域信号の値の二乗平均値（ユークリッドノルム）を算出し、得られた二乗平均値を区間ＬＳｍの低域実効値rmsl(n,m)とする。

したがって、例えば区間ＬＳ３の低域実効値rmsl(n,3)は、低域信号の時刻ｎの値ｘｌ（ｎ）から、時刻（ｎ−５１１）の値ｘｌ（ｎ−５１１）までの各時刻における低域信号の値の二乗平均値とされる。このようにして得られた低域実効値rmsl(n,m)は、音声信号の低域成分の各区間における実効値である。

なお、低域信号の二乗平均値を求めると説明したが、収音部３１が叩かれたときの音声の検出性能の改善や演算量低減のため、低域信号の絶対値平均値（一次平均ノルム）を低域実効値としてもよい。

また、式（４）の例では、現在の時刻ｎから過去の時刻（ｎ−２０４７）までの２０４８サンプルの低域信号が処理対象とされて、低域実効値rmsl(n,m)の算出が行われるが、処理対象とするサンプル数は１０２４サンプル程度以上であればよい。処理対象とするサンプル数が、１０２４サンプル程度以上であれば、収音部３１が直接叩かれたときの音声の検出性能に影響は生じない。

例えば、１０２４サンプルの低域信号が処理対象とされる場合、現在の時刻ｎから、過去の時刻（ｎ−１０２３）までの低域信号が２区間に等間隔で分割される。そして、分割により得られた各区間について、その区間を構成する５１２サンプルの低域信号の値の二乗平均値が低域実効値として算出される。

さらに、低域実効値の算出にあたり、処理対象の区間（サンプル数）が等間隔に分割されると説明したが、低域信号の波形が有する特徴に合わせて、低域信号が不等間隔に分割されるようにしてもよい。これにより、低域信号の特徴的な波形部分の区間をより狭くし、低域実効値を用いて、収音部３１が直接叩かれたときの音声を検出するときに、検出性能を向上させることができる。

ステップＳ１６において、高域最大値算出部６５は、高域フィルタ処理部６４から供給された高域信号に基づいて高域最大値Ｐｈ（ｎ）を算出する。具体的には、高域最大値算出部６５は、次式（５）を計算することにより、高域最大値Ｐｈ（ｎ）を算出する。

すなわち、高域信号の現在の時刻ｎの値ｘｈ（ｎ）から、過去の時刻（ｎ−２０４７）の値ｘｈ（ｎ−２０４７）までの値のそれぞれについて絶対値が求められ、それらの絶対値のうちの最大値（最大値ノルム）が高域最大値Ｐｈ（ｎ）とされる。

また、高域最大値算出部６５は、高域最大値Ｐｈ（ｎ）とされたサンプル、つまり処理対象のサンプルのうち、高域信号の値の絶対値が最大であったサンプルの時刻（時間インデックス）ｈｉを、高域最大値Ｐｈ（ｎ）とともに判別処理部６８に供給する。

ステップＳ１７において、高域実効値算出部６６は、高域フィルタ処理部６４から供給された高域信号に基づいて高域実効値rmsh(n,m)（但し、ｍ＝0，1，2，…，31）を算出し、判別処理部６８に供給する。具体的には、高域実効値算出部６６は、次式（６）を計算することにより、３２個の高域実効値rmsh(n,m)を算出する。

すなわち、高域実効値算出部６６は、現在の時刻ｎから過去の時刻（ｎ−２０４７）までの２０４８サンプルの高域信号を３２個の区間に等間隔で分割する。分割により得られた３２個の区間ＨＳ０乃至区間ＨＳ３１は、それぞれ連続する６４サンプルの高域信号の値からなる。

高域実効値算出部６６は、各区間ＨＳｍ（但し、ｍ＝0，1，2，…，31）について、その区間を構成する６４サンプル分の高域信号の値の二乗平均値（ユークリッドノルム）を算出し、得られた二乗平均値を区間ＨＳｍの高域実効値rmsh(n,m)とする。

なお、高域信号の二乗平均値を求めると説明したが、収音部３１が叩かれたときの音声の検出性能の改善や演算量低減のため、高域信号の絶対値平均値（一次平均ノルム）を高域実効値としてもよい。

また、式（６）の例では、現在の時刻ｎから過去の時刻（ｎ−２０４７）までの２０４８サンプルの高域信号が処理対象とされて、高域実効値rmsh(n,m)の算出が行われるが、処理対象とするサンプル数は１０２４サンプル程度以上であればよい。処理対象とするサンプル数が、１０２４サンプル程度以上であれば、収音部３１が直接叩かれたときの音声の検出性能に影響は生じない。

例えば、１０２４サンプルの高域信号が処理対象とされる場合、過去の時刻（ｎ−１０２４）から、過去の時刻（ｎ−２０４７）までの高域信号が１６区間に等間隔で分割される。そして、分割により得られた各区間について、その区間を構成する６４サンプルの高域信号の値の二乗平均値が高域実効値として算出される。

さらに、高域実効値の算出にあたり、処理対象の区間（サンプル数）が等間隔に分割されると説明したが、高域信号の波形が有する特徴に合わせて、高域信号が不等間隔に分割されるようにしてもよい。これにより、高域信号の特徴的な波形部分の区間をより狭くし、高域実効値を用いて、収音部３１が直接叩かれたときの音声の検出するときに、検出性能を向上させることができる。

ステップＳ１８において、ゼロクロス値算出部６７は、Ａ／Ｄ変換部３３から供給された音声信号ｘ（ｎ）に基づいて、次式（７）を計算することにより、ゼロクロス値zcr(n)を算出し、判別処理部６８に供給する。

なお、式（７）において、negative(A)は、引数Ａが負の場合に１とされ、引数Ａが負でない場合に０とされる関数である。したがって、ゼロクロス値zcr(n)は、現在の時刻ｎから過去の時刻（ｎ−２０４８）までの間における、音声信号（音声の波形）が０と交差する率を示している。

以上において説明した処理により、音声信号の特徴の特徴量として、低域最大値、低域実効値、高域最大値、高域実効値、およびゼロクロス値が判別処理部６８に供給される。なお、以下において、これらの低域最大値、低域実効値、高域最大値、高域実効値、およびゼロクロス値を特に区別する必要のない場合、単に音声信号の特徴量とも称する。

ステップＳ１９において、判別部３４は、判別処理を行って、収音部３１により収音された音声が、収音部３１がユーザの指の腹により直接叩かれたときの音声であるか否かを判別し、その判別結果を制御部３５に供給する。

なお、判別処理の詳細は後述するが、判別処理では、音声信号の各特徴量が所定の条件を満たす場合、収音部３１が直接叩かれた旨の判別結果が出力され、各特徴量が所定の条件を満たさない場合、収音部３１が直接叩かれていない旨の判別結果が出力される。以下、収音部３１が直接叩かれた旨の判別結果をポジティブな判別結果とも称し、収音部３１が直接叩かれていない旨の判別結果をネガティブな判別結果とも称することとする。

判別処理が行われると、判別部３４−１および判別部３４−２から、それぞれ判別結果が制御部３５に供給される。すなわち、ステップＳ１１乃至ステップＳ１９の処理は、収音部３１−１、Ａ／Ｄ変換部３３−１、および判別部３４−１と、収音部３１−２、Ａ／Ｄ変換部３３−２、および判別部３４−２とにより、それぞれ行われる。

ステップＳ２０において、制御部３５は、判別部３４の判別処理部６８から供給された判別結果に基づいて、ユーザにより実行が指示された処理を特定する。

例えば、再生装置１１では、収音部３１ごとに、収音部３１が所定の時間内に叩かれた回数に対して予め特定の処理が対応付けられている。例えば、収音部３１−１のみが所定時間内に１度だけ叩かれた場合、再生中の楽曲の音量が上げられ、収音部３１−２のみが所定時間内に１度だけ叩かれた場合、再生中の楽曲の音量が下げられ、収音部３１−１のみが所定時間内に２度叩かれた場合、楽曲の再生が停止される。

制御部３５は、判別部３４から順次供給される判別結果に基づいて、どの収音部３１が所定時間内に何回叩かれたか（操作されたか）を特定し、その特定結果に対して予め定められた処理を特定する。

したがって、収音部３１−１から所定時間内にポジティブな判別結果が２回供給され、収音部３１−２からはネガティブな判別結果が供給された場合、上述の例では、楽曲の再生を停止する処理が特定される。

なお、収音部３１の操作に割り当てられる機能（処理）は、音量の上げ下げ、楽曲の再生や停止、曲送り、曲戻しなどの他、設定の切り替えや電源のオフ等、再生装置１１において実行される処理であれば、どのようなものであってもよい。また、所定時間内に収音部３１−１と収音部３１−２が交互に叩かれた場合や、同時に叩かれた場合など、２つの収音部３１の組み合わせ操作に対しても処理が割り当てられるようにしてもよい。

ステップＳ２１において、制御部３５は、ステップＳ２０において特定された処理を実行し、再生制御処理は終了する。

例えば、楽曲の再生を一時停止する処理が特定された場合、制御部３５は、再生制御部３９を制御して、再生制御部３９からスピーカ３２への音声の供給を一時的に停止させる。また、例えば、音量を上げる処理が特定された場合、制御部３５は、再生制御部３９からスピーカ３２に供給される音声の音量が大きくなるように、再生制御部３９を制御する。

以上のようにして再生装置１１は、収音部３１により収音された音声の特徴量を算出し、それらの特徴量に基づいて、収音された音声が、収音部３１を直接叩いたときの音声であるか否かを判別し、その判別結果に応じた処理を実行する。

これにより、より簡単な構成で再生装置１１の操作性を向上させることができる。すなわち、再生装置１１では、いわゆるノイズキャンセリング用に設けられた収音部３１により周囲の音声を取り込んで、その音声について各特徴の特徴量が求められ、それらの特徴量が用いられて、ユーザの操作が特定される。

したがって、ユーザは、ポケットなどからいちいち再生装置を取り出して、再生装置本体に設けられたボタンやタッチパネルに直接触れる必要はなく、収音部３１を叩くだけで再生装置１１による楽曲等の再生制御を実行させることができる。しかも、収音部３１により収音された音声に基づいて、ユーザの操作を特定するため、再生装置１１に再生制御用のボタン等を設ける必要がなく、再生装置１１の構成をより簡単なものとすることができる。

［判別処理の説明］
次に、図５のフローチャートを参照して、図３のステップＳ１９の処理に対応する判別処理について説明する。なお、この判別処理は、判別部３４−１および判別部３４−２のそれぞれにおいて行われる。

ステップＳ５１において、判別処理部６８は、高域最大値算出部６５から供給された時間インデックスｈｉが、次式（８）を満たすか否かを判定する。

なお、式（８）において、hi_peakは予め定められた定数であり、例えば1791とされる。また、時間インデックスｈｉは、高域信号の絶対値が最大となる時刻である。したがって、ステップＳ５１では、高域信号の絶対値が、時刻（ｎ−hi_peak）で最大となっているか否かが判定される。

高域信号では、収音部３１がユーザにより直接叩かれた時刻において、高域信号の絶対値が最大となるはずである。そこで、処理基準となる現在時刻ｎから予め定められた所定の時間（ここではhi_peak）だけ過去の時刻において絶対値が最大となる音声信号を、収音部３１が直接叩かれたときの音声の判別対象とすれば、判別精度を向上させることができる。すなわち、収音部３１がユーザにより直接叩かれた前後の期間の同期のとれた音声信号の波形、つまり特定の位相の波形を処理対象とすることができ、より簡単かつ精度よく音声の判別を行うことができるようになる。

なお、所定の時間hi_peakは、（1791−128）≦hi_peak≦（1791＋128）程度であれば、収音部３１が叩かれたときの音声の検出性能にほとんど影響が生じないため、時間hi_peakは1791程度の値であればよい。

ステップＳ５１において、高域信号の絶対値が時刻（ｎ−hi_peak）で最大となっていないと判定された場合、ステップＳ５２において、判別処理部６８は、収音部３１が叩かれていない旨の判別結果、つまりネガティブな判別結果を制御部３５に供給する。そして、判別結果が出力されると、判別処理は終了し、その後、処理は図３のステップＳ２０へと進む。

これに対して、ステップＳ５１において高域信号の絶対値が時刻（ｎ−hi_peak）で最大となっていると判定された場合、ステップＳ５３において、判別処理部６８は高域最大値算出部６５から供給された高域最大値Ｐｈ（ｎ）が、次式（９）を満たすか否かを判定する。

なお、式（９）において、ph_lowは予め定められた閾値であり、ステップＳ５３では、高域最大値Ｐｈ（ｎ）が閾値ph_low以上であるか否かが判定される。

ステップＳ５３において、高域最大値が閾値ph_low未満であると判定された場合、ステップＳ５２においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図３のステップＳ２０に進む。

収音部３１が直接叩かれた場合、収音された音声の高域成分は、ある程度の強度（振幅）を有しているはずである。そこで、高域最大値が閾値ph_lowに満たない場合には、処理対象となっている音声（音声信号）は、収音部３１が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。

一方、ステップＳ５３において、高域最大値が閾値ph_low以上であると判定された場合、ステップＳ５４において、判別処理部６８は、高域実効値算出部６６から供給された各高域実効値rmsh(n,m)が、次式（１０）を満たすか否かを判定する。

なお、式（１０）において、rmsh_high(m)（但し、ｍ＝0，1，2，…，31）は予め定められた閾値であり、ステップＳ５４では、各区間ＨＳｍの高域実効値rmsh(n,m)が、閾値rmsh_high(m)以下であるか否かが判定される。すなわち、高域実効値rmsh(n,0)乃至高域実効値rmsh(n,31)のそれぞれが、閾値rmsh_high(0)乃至閾値rmsh_high(31)のそれぞれ以下であるか否かが判定される。

ステップＳ５４において、高域実効値が閾値rmsh_high(m)以下でないと判定された場合、ステップＳ５２においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図３のステップＳ２０に進む。

収音部３１が直接叩かれた場合、収音された音声の高域成分は、叩かれた時刻付近の区間では実効値が大きく、それ以外の区間ではあまり実効値が大きくないという特徴を有しており、そのような特徴に合わせて、各区間の閾値rmsh_high(m)が予め定められる。そして、各区間の高域実効値のうち、１つでも閾値rmsh_high(m)を超えるものがある場合には、処理対象となっている音声は、収音部３１が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。

また、ステップＳ５４において、高域実効値が閾値rmsh_high(m)以下であると判定された場合、ステップＳ５５において、判別処理部６８は、低域最大値算出部６２から供給された低域最大値Ｐｌ（ｎ）が、次式（１１）を満たすか否かを判定する。

なお、式（１１）において、pl_lowは予め定められた閾値であり、ステップＳ５５では、低域最大値Ｐｌ（ｎ）が閾値pl_low以上であるか否かが判定される。

ステップＳ５５において、低域最大値が閾値pl_low未満であると判定された場合、ステップＳ５２においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図３のステップＳ２０に進む。

収音部３１が直接叩かれた場合、特に収音部３１に設けられたマイクロホンの穴が、ユーザの指の腹で塞がれるように叩かれた場合、収音された音声の低域成分は、ある程度の強度（振幅）を有しているはずである。そこで、低域最大値が閾値pl_lowに満たない場合には、処理対象となっている音声は、収音部３１が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。

一方、ステップＳ５５において、低域最大値が閾値pl_low以上であると判定された場合、ステップＳ５６において、判別処理部６８は、低域実効値算出部６３から供給された各低域実効値rmsl(n,m)が、次式（１２）を満たすか否かを判定する。

なお、式（１２）において、rmsl_low(m)（但し、ｍ＝0，1，2，3）は予め定められた閾値であり、ステップＳ５６では、各区間ＬＳｍの低域実効値rmsl(n,m)が、閾値rmsl_low(m)以上であるか否かが判定される。すなわち、低域実効値rmsl(n,0)乃至低域実効値rmsl(n,3)のそれぞれが、閾値rmsl_low(0)乃至閾値rmsl_low(3)のそれぞれ以上であるか否かが判定される。

ステップＳ５６において、低域実効値が閾値rmsl_low(m)以上でないと判定された場合、ステップＳ５２においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図３のステップＳ２０に進む。

収音部３１が直接叩かれた場合、収音された音声の低域成分は、叩かれた時刻後においてもある程度長い期間、実効値が大きい値となるという特徴を有しており、そのような特徴に合わせて、各区間の閾値rmsl_low(m)が予め定められる。そして、各区間の低域実効値のうち、１つでも閾値rmsl_low(m)未満となるものがある場合には、処理対象となっている音声は、収音部３１が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。

また、ステップＳ５６において、低域実効値が閾値rmsl_low(m)以上であると判定された場合、ステップＳ５７において、判別処理部６８は、ゼロクロス値算出部６７から供給されたゼロクロス値zcr(n)が、次式（１３）を満たすか否かを判定する。

なお、式（１３）において、zcr_highは予め定められた閾値であり、ステップＳ５７では、ゼロクロス値zcr(n)が、閾値zcr_high以下であるか否かが判定される。

ステップＳ５７において、ゼロクロス値が閾値zcr_highよりも大きいと判定された場合、ステップＳ５２においてネガティブな判別結果が出力されて判別処理は終了し、その後、処理は図３のステップＳ２０に進む。

収音部３１が直接叩かれた場合、収音された音声には低域成分が多く含まれているため、収音された音声のゼロクロス値は、ある程度小さいはずである。そこで、ゼロクロス値zcr(n)が、閾値zcr_highを超える場合には、処理対象となっている音声は、収音部３１が直接叩かれたときの音声ではないと判別され、ネガティブな判別結果が出力される。

一方、ステップＳ５７において、ゼロクロス値zcr(n)が閾値zcr_high以下であると判定された場合、処理はステップＳ５８に進む。

ステップＳ５８において、判別処理部６８は、収音部３１が叩かれた旨の判別結果、つまりポジティブな判別結果を制御部３５に供給する。そして、判別結果が出力されると、判別処理は終了し、その後、処理は図３のステップＳ２０へと進む。

このようにして判別処理部６８は、収音された音声の各特徴の特徴量が、収音部３１が直接叩かれたときの音声が満たすべき条件を満たしているか否かを判定することで、収音された音声が、収音部３１が直接叩かれたときの音声であるか否かを判別する。収音された音声の特徴ごとに条件を満たしているか否かを判定することで、より確実に音声の判別を行うことができる。

［高域最大値の閾値ph_lowについて］
ところで、以上において説明した判別処理において用いられる閾値ph_low、閾値rmsh_high(m)、閾値pl_low、閾値rmsl_low(m)、および閾値zcr_highは、多数のサンプルから予め求められ、判別処理部６８に記録される。

例えば電車、バス、徒歩などの様々な環境下で、収音部３１を直接叩いたときの音声と、収音部３１を叩いていないときの音声とが多数集められ、それらの音声が正判定または負判定の学習データとされて、特徴量からなる特徴空間上の判別境界が閾値として求められる。

以下、これらの閾値の算出方法について説明する。

まず、高域最大値Ｐｈ（ｎ）の閾値ph_lowについて説明する。図６は、電車、バス、徒歩などのさまざまな環境下での高域最大値Ｐｈ（ｎ）の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声の高域最大値（ｄＢ）を示しており、縦軸は出現確率を示している。

図６では、図中、左側には収音部３１が叩かれていないときの音声（以下、環境音と称する）についての出現確率が示されており、図中、右側には収音部３１が直接叩かれたときの音声（以下、操作音と称する）についての出現確率が示されている。

環境音の高域最大値は−４５ｄＢ付近に多く分布しているのに対し、操作音の高域最大値は０ｄＢ付近に多く分布しており、高域最大値が０ｄＢ程度である環境音は殆どない。つまり、操作音の高域最大値は、環境音の高域最大値よりも大きな値に分布していることが分かる。このような環境音と操作音の高域最大値Ｐｈ（ｎ）の統計的な分布の違いが用いられて、環境音または操作音の何れであるかの予測（判別）が行われる。

例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を高域最大値Ｐｈ（ｎ）とし、目的変量を環境音と操作音の２群のデータとして線形判別分析を行うと、次式（１４）に示す判別式が得られる。

例えば、図６に示したサンプルが用いられる場合、定数項ph_lowとして0.0679が得られる。この定数項ph_lowは、図６の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。

式（１４）では、判別得点zphが０以上である場合、処理対象の音声は操作音であるとされ、判別得点zphが０未満である場合、処理対象の音声は操作音ではない、つまり環境音であると判別される。この判別式の定数項ph_lowが、高域最大値の閾値ph_lowとされ、判別処理部６８に記録される。

なお、式（１４）による１つの特徴量、つまり高域最大値Ｐｈ（ｎ）による判別では、操作音を環境音と判別してしまう漏れ検出や、環境音を操作音として判別してしまう過剰検出が多い。

漏れ検出を少なくしたい場合、閾値ph_lowを負の方向、つまりより小さくなるように変更することで最適化することはできるが、そうすると過剰検出が多くなってしまう。逆に、過剰検出を少なくしたい場合には、閾値ph_lowを正の方向、つまりより大きくなるように変更することで最適化することはできるが、漏れ検出が多くなってしまう。

判別処理部６８による判別処理では、図５を参照して説明したように、多段判別を行っているので、高域最大値Ｐｈ（ｎ）による判別では、漏れ検出が少なくなり、過剰検出が多くなるように閾値ph_lowを負の方向に変更し、最適化するのが好ましい。そして、それ以降において行われる高域実効値、低域最大値、低域実効値、ゼロクロス値を用いた判別では、段階的に過剰検出が少なくなるようにすると、より確実に操作音の判別を行うことができる。

［高域実効値の閾値rmsh_high(m)について］
次に、高域実効値rmsh(n,m)の閾値rmsh_high(m)について説明する。図７は、電車、バス、徒歩などのさまざまな環境下での高域実効値rmsh(n,m)を示す図である。

なお、図中、横軸は各区間ＨＳｍ、つまり高域実効値rmsh(n,m)の変数ｍ（但し、ｍ＝0，1，2，…，31）を示しており、縦軸は各区間ＨＳｍの高域実効値（ｄＢ）を示している。

図７では、図中、上側には環境音の高域実効値が示されており、図中、下側には操作音の高域実効値が示されている。また、図７に示す高域実効値は、図５のステップＳ５１で説明した、時間インデックスｈｉ＝ｎ−hi_peakの条件を満たすサンプル（音声）の高域実効値であり、hi_peak＝1791とされている。

そのため、環境音の高域実効値も操作音の高域実効値もｍ＝２，３付近では、ともに大きな値に分布している。また、操作音の高域実効値は、ｍ＝２以下と、ｍ＝５以上である区間において、環境音の高域実効値よりも小さい値に分布していることが分かる。

このように、操作音には、収音部３１が直接叩かれた時刻付近の区間の高域実効値が大きく、その区間とは異なる区間の高域実効値は比較的小さいという特徴があるが、環境音の高域実効値は、どの区間においてもある程度の大きさとなっている。

このような環境音と操作音の各区間の高域実効値rmsh(n,m)の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測（判別）が行われる。

例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を高域実効値rmsh(n,m)とし、目的変量を環境音と操作音の２群のデータとして線形判別分析を行うと、次式（１５）に示す判別式が得られる。

例えば、図７に示したサンプルが用いられる場合、各変数ｍについての定数項rmsh_high(m)、つまり定数項rmsh_high(0)乃至定数項rmsh_high(31)として、図８に示す値が得られる。各定数項のうち、定数項rmsh_high(3)乃至定数項rmsh_high(5)が、図７に示した操作音の高域実効値に対応して、特に大きな値となっている。

式（１５）では、区間ＨＳ０乃至区間ＨＳ３１の全ての判別得点zrmsh(m)が０以上である場合、処理対象の音声は操作音であるとされ、１つでも判別得点zrmsh(m)が０未満となる区間ＨＳｍがある場合、処理対象の音声は環境音であると判別される。この判別式の定数項rmsh_high(m)が、高域実効値の閾値rmsh_high(m)とされ、判別処理部６８に記録される。

なお、上述した閾値ph_lowの変更による漏れ検出や過剰検出の最適化と同様に、高域実効値の閾値rmsh_high(m)を変更することでも、漏れ検出や過剰検出の最適化を行うことは可能であるが、閾値（定数項）が３２個もあるため、その変更は極めて困難である。

これに対して、説明変量を３２次元の高域実効値rmsh(n,m)（但し、ｍ＝0，1，2，…，31）として線形判別分析を行うと、次式（１６）に示す判別式が得られる。

式（１６）において、a_rmsh(m)（但し、ｍ＝0，1，2，…，31）は線形判別係数であり、b_rmshは線形判別の定数項である。そして、式（１６）の判別得点zrmshが０以上である場合、処理対象の音声は操作音であるとされ、判別得点zrmshが０未満である場合、処理対象の音声は環境音であると判別される。

式（１６）の判別式においては、閾値ph_lowの変更による漏れ検出や過剰検出の最適化と同様に、定数項b_rmshを変更することにより、式（１５）の判別式の場合よりも簡単に漏れ検出や過剰検出の最適化を行うことができる。

この定数項b_rmshが閾値とされる場合、図５のステップＳ５４では、線形判別係数a_rmsh(m)と高域実効値rmsh(n,m)の積の総和が、閾値（−b_rmsh）と比較されて、操作音の判別が行われる。すなわち、線形判別係数が乗算された高域実効値の総和が−b_rmshを超える場合、処理対象の音声は環境音であると判別される。

さらに、式（１６）における説明変量である３２次元の高域実効値rmsh(n,m)を、次式（１７）に示すように対数尺度に変換すると、漏れ検出や過剰検出をより低減させることができる。

なお、式（１７）において、al_rmsh(m)（但し、ｍ＝0，1，2，…，31）は線形判別係数であり、bl_rmshは線形判別の定数項である。式（１７）の判別式においても、判別得点zrmshが０以上であれば操作音と判別され、判別得点zrmshが０未満であれば環境音であると判別される。

また、式（１７）の判別式においては、定数項bl_rmshを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項bl_rmshが閾値とされる場合、図５のステップＳ５４では、線形判別係数al_rmsh(m)と、１０を底とする高域実効値rmsh(n,m)の対数値との積の総和が閾値（−bl_rmsh）と比較され、操作音の判別が行われる。つまり、線形判別係数と、高域実効値の対数値との積の総和が−bl_rmshを超える場合、処理対象の音声は環境音であると判別される。

なお、式（１５）乃至式（１７）の何れの判別式を用いるかは、演算量、漏れ検出、過剰検出のバランスに応じて定めればよい。

［低域最大値の閾値pl_lowについて］
次に、低域最大値Ｐｌ（ｎ）の閾値pl_lowについて説明する。図９は、電車、バス、徒歩などのさまざまな環境下での低域最大値Ｐｌ（ｎ）の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声の低域最大値（ｄＢ）を示しており、縦軸は出現確率を示している。

図９では、図中、左側には環境音についての出現確率が示されており、図中、右側には操作音についての出現確率が示されている。

環境音の低域最大値は−２８ｄＢ付近を中心に広く分布しているのに対し、操作音の低域最大値は−１０ｄＢ付近に多く分布している。つまり、操作音の低域最大値は、環境音の低域最大値よりも大きな値に分布していることが分かる。このような環境音と操作音の低域最大値Ｐｌ（ｎ）の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測（判別）が行われる。

例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を低域最大値Ｐｌ（ｎ）とし、目的変量を環境音と操作音の２群のデータとして線形判別分析を行うと、次式（１８）に示す判別式が得られる。

例えば、図９に示したサンプルが用いられる場合、定数項pl_lowとして0.644が得られる。この定数項pl_lowは、図９の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。

式（１８）では、判別得点zplが０以上である場合、処理対象の音声は操作音であるとされ、判別得点zplが０未満である場合、処理対象の音声は環境音であると判別される。この判別式の定数項pl_lowが、低域最大値の閾値pl_lowとされ、判別処理部６８に記録される。なお、上述した閾値ph_lowの場合と同様に、低域最大値の閾値pl_lowを変更することでも、漏れ検出や過剰検出の最適化を行うことが可能である。

［低域実効値の閾値rmsl_low(m)について］
さらに、低域実効値rmsl(n,m)の閾値rmsl_low(m)について説明する。

図１０は、電車、バス、徒歩などのさまざまな環境下での低域実効値rmsl(n,m)を示す図である。なお、図中、横軸は各区間ＬＳｍ、つまり低域実効値rmsl(n,m)の変数ｍ（但し、ｍ＝0，1，2，3）を示しており、縦軸は各区間ＬＳｍの低域実効値（ｄＢ）を示している。

図１０では、図中、上側には環境音の低域実効値が示されており、図中、下側には操作音の低域実効値が示されている。また、図１０に示す低域実効値は、図５のステップＳ５１で説明した、時間インデックスｈｉ＝ｎ−hi_peakの条件を満たすサンプル（音声）の低域実効値であり、hi_peak＝1791とされている。

そのため、環境音の低域実効値も操作音の低域実効値もｍ＝０では、ともに大きな値に分布している。また、操作音の低域実効値は、ｍ＝０，１，２，３の全ての区間において、環境音の低域実効値よりも大きい値に分布していることが分かる。

このように、操作音には、収音部３１が直接叩かれた後、緩やかに低域実効値が減少していくという特徴があるが、環境音の低域実効値は、ｍ＝２，３の区間において急激に低域実効値が減少している。

このような環境音と操作音の各区間の低域実効値rmsl(n,m)の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測（判別）が行われる。

例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量を低域実効値rmsl(n,m)とし、目的変量を環境音と操作音の２群のデータとして線形判別分析を行うと、次式（１９）に示す判別式が得られる。

例えば、図１０に示したサンプルが用いられる場合、各変数ｍについての定数項rmsl_low(m)、つまり定数項rmsl_low(0)乃至定数項rmsl_low(3)として、図１１に示す値が得られる。各定数項のうち、定数項rmsl_low(0)および定数項rmsl_low(1)が、図１０に示した操作音の低域実効値に対応して、特に大きな値となっている。

式（１９）では、区間ＬＳ０乃至区間ＬＳ３の全ての判別得点zrmsl(m)が０以上である場合、処理対象の音声は操作音であるとされ、１つでも判別得点zrmsl(m)が０未満となる区間ＬＳｍがある場合、処理対象の音声は環境音であると判別される。この判別式の定数項rmsl_low(m)が、低域実効値の閾値rmsl_low(m)とされ、判別処理部６８に記録される。

なお、低域実効値の閾値rmsl_low(m)を変更することでも、漏れ検出や過剰検出の最適化を行うことは可能であるが、閾値（定数項）が４個もあるため、その変更は困難である。

これに対して、説明変量を４次元の低域実効値rmsl(n,m)（但し、ｍ＝0，1，2，3）として線形判別分析を行うと、次式（２０）に示す判別式が得られる。

式（２０）において、a_rmsl(m)（但し、ｍ＝0，1，2，3）は線形判別係数であり、b_rmslは線形判別の定数項である。そして、式（２０）の判別得点zrmslが０以上である場合、処理対象の音声は操作音であるとされ、判別得点zrmslが０未満である場合、処理対象の音声は環境音であると判別される。

式（２０）の判別式においては、定数項b_rmslを変更することにより、式（１９）の判別式の場合よりも簡単に漏れ検出や過剰検出の最適化を行うことができる。

この定数項b_rmslが閾値とされる場合、図５のステップＳ５６では、線形判別係数a_rmsl(m)と低域実効値rmsl(n,m)の積の総和が、閾値（−b_rmsl）と比較されて、操作音の判別が行われる。すなわち、線形判別係数が乗算された低域実効値の総和が−b_rmslを超える場合、処理対象の音声は環境音であると判別される。

また、式（２０）における説明変量である４次元の低域実効値rmsl(n,m)を、次式（２１）に示すように対数尺度に変換すると、漏れ検出や過剰検出をより低減させることができる。

なお、式（２１）において、al_rmsl(m)（但し、ｍ＝0，1，2，3）は線形判別係数であり、bl_rmslは線形判別の定数項である。式（２１）の判別式においても、判別得点zrmslが０以上であれば操作音と判別され、判別得点zrmslが０未満であれば環境音であると判別される。

また、式（２１）の判別式においては、定数項bl_rmslを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項、bl_rmslが閾値とされる場合、図５のステップＳ５６では、線形判別係数al_rmsl(m)と、１０を底とする低域実効値rmsl(n,m)の対数値との積の総和が閾値（−bl_rmsl）と比較されて、操作音の判別が行われる。つまり、線形判別係数と、低域実効値の対数値との積の総和が−bl_rmslを超える場合、処理対象の音声は環境音であると判別される。

さらに、漏れ検出や過剰検出の最適化のために、説明変量を３２次元の高域実効値rmsh(n,m)（但し、ｍ＝0，1，2，…，31）と、４次元の低域実効値rmsl(n,m)（但し、ｍ＝0，1，2，3）として線形判別分析を行うことも可能である。そのような場合、次式（２２）に示す判別式が得られる。

式（２２）において、al_rmsh(m)（但し、ｍ＝0，1，2，…，31）、およびal_rmsl(m)（但し、ｍ＝0，1，2，3）は線形判別係数であり、bl_rmsは線形判別の定数項である。式（２２）の判別式においても、判別得点zrmsが０以上であれば操作音と判別され、判別得点zrmsが０未満であれば環境音であると判別される。

また、式（２２）の判別式においては、定数項bl_rmsを変更することにより、漏れ検出や過剰検出の最適化を行うことができる。この定数項、bl_rmsが閾値とされる場合、図５のステップＳ５６では、線形判別係数al_rmsh(m)と、１０を底とする高域実効値rmsh(n,m)の対数値との積の総和、および線形判別係数al_rmsl(m)と、１０を底とする低域実効値rmsl(n,m)の対数値との積の総和が求められる。そして求められた２つの総和の和が閾値（−bl_rms）と比較されて、操作音の判別が行われる。つまり、求められた２つの総和の和が−bl_rmsを超える場合、処理対象の音声は環境音であると判別される。この場合、低域実効値と高域実効値とのバランスが音声の判別に考慮されることになる。

なお、式（１９）乃至式（２２）の何れの判別式を用いるかは、演算量、漏れ検出、過剰検出のバランスに応じて定めればよい。

［ゼロクロス値の閾値zcr_highについて］
最後に、ゼロクロス値zcr(n)の閾値zcr_highについて説明する。図１２は、電車、バス、徒歩などのさまざまな環境下でのゼロクロス値zcr(n)の出現確率を示す図である。なお、図中、横軸はサンプルとされた各音声のゼロクロス値を示しており、縦軸は出現確率を示している。

図１２では、図中、左側には環境音についての出現確率が示されており、図中、右側には操作音についての出現確率が示されている。

環境音のゼロクロス値は比較的小さい値で広く分布しているのに対し、操作音のゼロクロス値は０付近に多く分布している。また、操作音のゼロクロス値は、０付近において環境音のゼロクロス値よりも多く分布している。このような環境音と操作音のゼロクロス値の統計的な分布の違いが用いられて、過剰検出が少なくなるように、環境音または操作音の何れであるかの予測（判別）が行われる。

例えば、環境音と操作音の判別には、線形判別分析が用いられる。説明変量をゼロクロス値zcr(n)とし、目的変量を環境音と操作音の２群のデータとして線形判別分析を行うと、次式（２３）に示す判別式が得られる。

例えば、図１２に示したサンプルが用いられる場合、定数項zcr_highとして0.013が得られる。この定数項zcr_highは、図１２の環境音の分布の重心と、操作音の分布の重心との中点に相当する値である。

式（２３）では、判別得点zzcrが０以上である場合、処理対象の音声は操作音であるとされ、判別得点zzcrが０未満である場合、処理対象の音声は環境音であると判別される。この判別式の定数項zcr_highが、ゼロクロス値の閾値zcr_highとされ、判別処理部６８に記録される。なお、ゼロクロス値の閾値zcr_highを変更することでも、漏れ検出や過剰検出の最適化を行うことが可能である。

以上のように、判別境界を求めて、その判別境界を閾値として用いることで、収音部３１が直接叩かれたときの操作音と、収音部３１が叩かれていないときの環境音とを判別することが可能となる。

また、以上においては、線形判別分析を用いて判別関数（判別式）を作成する例について説明したが、非線形判別、さらには線形SVM（Support Vector Machine）や非線形SVMなどを用いることも可能である。閾値を得るための判別関数の作成方法や、どのような特徴量を用いて判別関数を作成するかは、漏れ検出や過剰検出などの判別性能、演算量等のバランスにより定めればよい。

さらに、判別分析の際に、電車、バス、徒歩など様々な環境下で操作音と環境音を多数集め、それらの音声を正判定と負判定の学習データとすると説明したが、判別性能をあげるために、環境音を操作音と類似しているものだけに限定するようにしてもよい。そのような場合、例えば、判別得点が零値付近の環境音だけが操作音と類似する音声とされ、学習データとして採用される。

また、以上においては、収音部３１により収音された音声が操作音であるか否かを判別し、その判別結果に応じた処理を行う装置の例として、携帯型の音楽プレーヤである再生装置１１について説明したが、その他、ＩＣレコーダなどどのような装置でもよい。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インターフェース２０５が接続されている。入出力インターフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７、ハードディスクや不揮発性のメモリなどよりなる記録部２０８、ネットワークインターフェースなどよりなる通信部２０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア２１１を駆動するドライブ２１０が接続されている。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記録部２０８に記録されているプログラムを、入出力インターフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU２０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インターフェース２０５を介して、記録部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記録部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記録部２０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１１再生装置，２１イヤホン，２２本体，３１−１，３１−２，３１収音部，３４−１，３４−２，３４判別部，３５制御部，３９再生制御部，６１低域フィルタ処理部，６２低域最大値算出部，６３低域実効値算出部，６４高域フィルタ処理部，６５高域最大値算出部，６６高域実効値算出部，６７ゼロクロス値算出部，６８判別処理部

Claims

周囲の音声を収音する収音部と、
前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第１の閾値未満である場合、前記収音部が叩かれていないと判別し、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第２の閾値以下であるか否かを判定し、実効値が前記第２の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第３の閾値未満である場合、前記収音部が叩かれていないと判別し、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第４の閾値以上であるか否かを判定し、実効値が前記第４の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別する判別手段と、
前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段と
を備える制御装置。
前記実行手段は、前記判別手段による判別結果に基づいて、所定時間内に前記収音部が叩かれた回数を特定し、特定された前記回数に対して定められた処理を実行する
請求項１に記載の制御装置。
前記実行手段は、複数の前記収音部のうち、叩かれた前記収音部により定まる処理を実行する
請求項１に記載の制御装置。
前記第１の閾値乃至前記第４の閾値は、判別分析またはSVMにより予め定められる
請求項１に記載の制御装置。
前記高域成分の複数区間のそれぞれは、互いに異なる長さの区間とされ、前記低域成分の複数区間のそれぞれは、互いに異なる長さの区間とされる
請求項１に記載の制御装置。
前記判別手段は、さらに前記高域成分の絶対値が、時間方向の特定位置において最大となるか否かを判定し、前記絶対値が前記特定位置において最大とならない場合、前記収音部が叩かれていないと判別する
請求項１または請求項５の何れかに記載の制御装置。
前記判別手段は、さらに前記音声のゼロクロス値が第５の閾値以下であるか否かを判定し、前記ゼロクロス値が前記第５の閾値を超える場合、前記収音部が叩かれていないと判別する
請求項６に記載の制御装置。
前記収音部はイヤホンに設けられている
請求項１に記載の制御装置。
周囲の音声を収音する収音部と、
前記収音部が叩かれたか否かを判別する判別手段と、
前記収音部が叩かれたと判別された場合、所定の処理を実行する実行手段と
を備える制御装置の制御方法であって、
前記収音部が前記音声を収音し、
前記判別手段が、前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第１の閾値未満である場合、前記収音部が叩かれていないと判別し、
前記判別手段が、前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第２の閾値以下であるか否かを判定し、実効値が前記第２の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、
前記判別手段が、前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第３の閾値未満である場合、前記収音部が叩かれていないと判別し、
前記判別手段が、前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第４の閾値以上であるか否かを判定し、実効値が前記第４の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別し、
前記実行手段が、前記判別手段による判別結果に応じて前記所定の処理を実行する
ステップを含む制御方法。
収音部に周囲の音声を収音させ、
前記音声の所定周波数よりも高い周波数の高域成分の最大値が、第１の閾値未満である場合、前記収音部が叩かれていないと判別し、
前記高域成分の時間方向の複数区間のそれぞれについて、前記高域成分の区間の実効値が、区間ごとに定められた第２の閾値以下であるか否かを判定し、実効値が前記第２の閾値を超える前記高域成分の区間がある場合、前記収音部が叩かれていないと判別し、
前記音声の前記高域成分よりも低い周波数の低域成分の最大値が、第３の閾値未満である場合、前記収音部が叩かれていないと判別し、
前記低域成分の時間方向の複数区間のそれぞれについて、前記低域成分の区間の実効値が、区間ごとに定められた第４の閾値以上であるか否かを判定し、実効値が前記第４の閾値未満となる前記低域成分の区間がある場合、前記収音部が叩かれていないと判別し、
前記収音部が叩かれたと判別された場合、所定の処理を実行する
ステップを含む処理をコンピュータに実行させるプログラム。