JP6737342B2 - 信号処理装置および信号処理方法 - Google Patents

信号処理装置および信号処理方法 Download PDF

Info

Publication number
JP6737342B2
JP6737342B2 JP2018547230A JP2018547230A JP6737342B2 JP 6737342 B2 JP6737342 B2 JP 6737342B2 JP 2018547230 A JP2018547230 A JP 2018547230A JP 2018547230 A JP2018547230 A JP 2018547230A JP 6737342 B2 JP6737342 B2 JP 6737342B2
Authority
JP
Japan
Prior art keywords
user
sound
content
environmental sound
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018547230A
Other languages
English (en)
Other versions
JPWO2018079850A1 (ja
Inventor
康平 関口
康平 関口
雄太 湯山
雄太 湯山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of JPWO2018079850A1 publication Critical patent/JPWO2018079850A1/ja
Application granted granted Critical
Publication of JP6737342B2 publication Critical patent/JP6737342B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

この発明に係る一実施形態は、オーディオ信号に定位付加処理を行なう信号処理装置、信号処理方法およびプログラムに関するものである。
従来、オーディオ信号に定位付加処理を行なう信号処理装置として、例えば特許文献1に記載の密閉型ヘッドフォン用信号処理装置がある。
特許文献1に記載の密閉型ヘッドフォン用信号処理装置は、コンテンツ音と周囲の音とを異なる位置に定位させる処理を行うため、これらの音が重ならずに、コンテンツ音も周囲の音も明瞭に聴くことができる。
特開2014−174430号公報
近年、ユーザは、音楽等の目的のコンテンツだけではなく、環境音等をBGMとして加えて聴くことがある。
しかし、目的のコンテンツと環境音等のBGMとを単純にミックスした場合、音が入り混じるため、聞きづらい音になる。
また、特許文献1の装置では、両方のコンテンツを分離することができるが、環境音が所定の位置に定位するため、不自然になる可能性がある。
そこで、本発明に係る一実施形態は、環境音等のBGMを自然に聴きながらも目的のコンテンツを自然に聴くことができる信号処理装置、信号処理方法およびプログラムを提供することを目的とする。
この発明に係る一実施形態の信号処理装置は、入力部と、定位処理部と、を備えている。入力部は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、を入力する。定位処理部は、前記第1オーディオ信号を聴取者の周囲に定位させる第1定位処理と、前記第2オーディオ信号を前記第1定位処理とは異なる位置に定位させる第2定位処理と、を行なう。
本発明に係る一実施形態の信号処理装置は、環境音等のBGMを自然に聴きながらも目的のコンテンツを自然に聴くことができる。
図1(A)および図1(B)は、オーディオ信号処理システムを示す概略図である。 信号処理装置の構成を示すブロック図である。 応用例1に係る信号処理装置の構成を示すブロック図である。 応用例2に係る信号処理装置の構成を示すブロック図である。 応用例3に係る信号処理装置の構成を示すブロック図である。 図6(A)は、ユーザの気分を入力するためのチャートを示す図である。図6(B)は、環境音とコンテンツの組み合わせの一例を示す図である。 信号処理装置の動作を示すフローチャートである。 データ選択の動作を示すフローチャートである。 データ選択の動作を示すフローチャートである。 ユーザの気分と選出される音の関係を示す図である。 応用例4に係る信号処理装置の構成を示すブロック図である。 図12(A)及び図12(B)は、ユーザが選択肢に対する評価を入力する画面を示したものである。 時間とユーザのストレス度合いを示したものである。
図1(A)および図1(B)は、オーディオ信号処理システムを示す概略図(上面図)である。図2は、信号処理装置の構成を示すブロック図である。
図1(A)に示すように、オーディオ信号処理システムは、信号処理装置1と、ヘッドフォンユニット2Lと、ヘッドフォンユニット2Rと、を備えている。
信号処理装置1は、入力インタフェース(I/F)11、定位処理部12、増幅部13L、増幅部13R、出力インタフェース(I/F)14、記憶部15、ユーザインタフェース(I/F)16、および制御部19を備えている。信号処理装置1は、ヘッドフォンの専用ユニット(ポータブルアンプ)であってもよいが、一般的な情報処理装置(例えばスマートフォン)であってもよい。信号処理装置1における各構成は、ハードウェアであってもよいが、制御部19の機能により構成されてもよい。制御部19は、IC、CPU、MPU、LSI、またはマイクロコントローラ、等と称されるハードウェアである。制御部19は、記憶部15に記憶されているプログラム151を実行することにより、各構成をソフトウェアで実現することが可能である。記憶部15は、プログラム151を記憶するメモリ(記憶媒体)である。記憶部15は、HDD、SSD、フラッシュメモリ、またはEEPROM、等と称されるハードウェアである。定位処理部12は、例えばDSP(Digital Signal Processor)からなる。定位処理部12は、入力したオーディオ信号に種々の信号処理を施す。なお、定位処理部12は、制御部19が実行するプログラム151により実現することも可能である。
入力I/F11は、オーディオプレーヤ等の他装置、または記憶部15から、オーディオ信号を入力する。入力されるオーディオ信号は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、が含まれる。環境音は、メロディおよびリズムを含まない自然界の音に対応する。環境音は、例えば、たき火、雨音、波の音、森林の音、雷の音、虫の声、または動物の声等である。また、街の喧騒音、乗り物の音、またはカフェ等の雑踏音等も、環境音に含まれる。コンテンツは、一般的なメロディまたはリズムを含む音楽である。また、朗読などの発話を含む音声も、コンテンツに含まれる。環境音と、コンテンツの種類は、ユーザI/F16を介してユーザが選択する。
これら環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、は、定位処理部12に入力される。第1オーディオ信号および第2オーディオ信号は、それぞれモノラル信号であってもよいし、ステレオ信号であってもよい。また、第1オーディオ信号および第2オーディオ信号は、3チャンネル以上のマルチチャンネルオーディオ信号であってもよい。
定位処理部12は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、のそれぞれについて、定位処理を行なう。定位処理は、所定の聴取者の頭部形状に対応する頭部伝達関数(以下、HRTFと言う。)を用いる。なお、左右のミキシングバランスによっても、定位処理を実現することが可能である。
HRTFは、ある位置に設置した仮想スピーカからそれぞれ左右の耳に至る音の大きさ、到達時間、および周波数特性の差を表現したインパルス応答である。定位処理部12は、例えば、図1(A)に示すように、右前方に位置する仮想スピーカVR1に定位させるHRTFおよび左前方に位置する仮想スピーカVL1に定位させるHRTFを、第2オーディオ信号に付与する。これにより、ユーザは、仮想スピーカVL1および仮想スピーカVR1の位置における音源から、コンテンツに係る音が出力されている様に知覚することができる。
図2に示すように、定位処理部12は、フィルタ121L、フィルタ121R、フィルタ122L、フィルタ122R、加算器123L、および加算器123Rを備えている。
フィルタ121Lは、仮想スピーカVL1から左耳に至る経路のHRTFを、コンテンツに係る第2オーディオ信号に付与する。第2オーディオ信号が2チャンネル以上の信号である場合には、フィルタ121Lには、左側チャンネルのオーディオ信号が入力される。
フィルタ121Rは、仮想スピーカVL1から右耳に至る経路のHRTFを、コンテンツに係る第2オーディオ信号に付与する。第2オーディオ信号が2チャンネル以上の信号である場合には、フィルタ121Rには、右側チャンネルのオーディオ信号が入力される。
加算器123Lは、フィルタ121Lおよびフィルタ122Lの出力信号を合成する。加算器123Rは、フィルタ121Rおよびフィルタ122Rの出力信号を合成する。
加算器123Lの出力信号は、増幅部13Lで増幅され、出力部14から出力される。これにより、ヘッドフォンユニット2Lには、Lチャンネルのオーディオ信号が入力される。加算器123Rの出力信号は、増幅部13Rで増幅され、出力部14から出力される。これにより、ヘッドフォンユニット2Rには、Rチャンネルのオーディオ信号が入力される。
よって、ユーザは、仮想スピーカVL1および仮想スピーカVR1の位置における音源から、コンテンツに係る音が出力されている様に知覚することができる。
ヘッドフォンで音を聞く場合には、聴取環境における間接音(壁または床等からの反射音および残響音)が存在しない。そのため、ユーザは、仮想スピーカVL1および仮想スピーカVR1の位置における音源からの直接音だけが聞こえる状態となる。そこで、定位処理部12は、間接音に対応する複数の音源位置に音像が定位するように、HRTFを付与する処理を行ない、任意の領域に音場を形成させることもできる。例えば、定位処理部12は、図1(A)に示すように、ユーザの前方の領域Zone2に音場を形成させることができる。この場合、フィルタ121Lは、間接音に対応する複数の音源位置から左耳に至る経路のHRTFを、コンテンツに係る第2オーディオ信号に付与する。また、フィルタ121Rは、間接音に対応する複数の音源位置から右耳に至る経路のHRTFを、コンテンツに係る第2オーディオ信号に付与する。また、各間接音は、不図示の遅延器およびゲイン制御部で、遅延およびゲインの制御が行なわれてもよい。
以上の処理により、ユーザは、前方設置されたスピーカから音が出力され、前方の領域Zone2に音像を認識することができる。
次に、フィルタ122Lは、遠方の複数の所定位置から左耳に至る経路のHRTFを、環境音に係る第1オーディオ信号に付与する。フィルタ122Rは、遠方の複数の所定位置から右耳に至る経路のHRTFを、環境音に係る第1オーディオ信号に付与する。
これにより、ユーザは、自身の周囲の領域Zone1に環境音の音像を認識する。すなわち、ユーザは、環境音の音源位置を明確に認識することなく、周囲から包まれる様な音像として認識することになる。
以下、定位処理部12における第1オーディオ信号及び第2オーディオ信号の定位処理の代表的な3つのパターンについて説明する。
一つ目のパターンは、定位処理部12が第1オーディオ信号をユーザ自身の周囲へ定位させ、第2オーディオ信号を第1オーディオ信号の定位させた位置より前記聴取者から近い特定の位置に定位させる場合である。例えば、定位処理部12は、図1(A)に示すZone1に環境音である第1オーディオ信号を、仮想スピーカVR1の位置にコンテンツである第2オーディオ信号を定位させる。ユーザは、自身の周囲の領域に環境音を、仮想スピーカVR1の位置にコンテンツを認識する。これにより、ユーザは、コンテンツが仮想スピーカVR1の位置から流れつつ、環境音に囲まれているように認識することができる。
例えば、コンテンツとして英会話が選択され、環境音としてその英会話が行われている場所、例えば外国の市場の雑踏の音が選択されている場合を想定する。定位処理部12は、英会話の第2オーディオ信号を仮想スピーカVR1の位置に定位させる。ユーザは、仮想スピーカVR1の位置に英会話の音像を認識する。定位処理部12は、外国の市場の雑踏の音をZone1に定位させる。ユーザは、自身の周囲の領域Zone1に外国の市場の雑踏の音の音像を認識する。これにより、ユーザはあたかも外国の市場でユーザの前方左前にいる人物と会話しているような臨場感を得ることができるため、より効率的な学習効果が得られる。
二つ目のパターンは、定位処理部12が第1オーディオ信号をユーザ自身の周囲へ定位させ、第2オーディオ信号を頭内定位させる場合である。例えば、定位処理部12は、環境音である第1オーディオ信号を図1(A)に示すZone1に定位させ、コンテンツである第2オーディオ信号を頭内定位させる。ユーザは、頭内にコンテンツを、ユーザ自身の周囲に環境音を認識する。これにより、ユーザは、環境音に包まれつつも、コンテンツを明確に聴くことができる。
例えば、コンテンツとしてクラシック音楽が選択され、環境音として森林の音が選択されている場合を想定する。定位処理部12は、クラシック音楽の第2オーディオ信号を頭内定位させる。ユーザは、頭内にクラシック音楽の音像を認識する。定位処理部12は、森林の音をZone1に定位させる。ユーザは、自身の周囲の領域Zone1に森林の音の音像を認識する。ユーザは森林の音で包まれているような感覚を得ながらも、頭内定位されたクラシック音楽を明確に聞き取ることができる。これにより、ユーザは森林にいるようなリラックス効果を得ながらクラシック音楽を視聴できるため、より効率的なリラックス効果が得られる。
三つ目のパターンは、定位処理部12が第1オーディオ信号をユーザ自身の周囲における特定の位置に定位させ、第2オーディオ信号をユーザ自身の周囲における第1オーディオ信号とは異なる位置に定位させる場合である。例えば、定位処理部12は、図1(B)に示す仮想スピーカVR3の位置に環境音である第1オーディオ信号を、仮想スピーカVR4の位置にコンテンツである第2オーディオ信号を定位させる。ユーザは、仮想スピーカVR3の位置に第1オーディオ信号を、仮想スピーカVR4の位置に第2オーディオ信号を認識する。これにより、ユーザは、第1オーディオ信号及び第2オーディオ信号を傍から流れてくる音として認識することとなるため、音から感じる負担が少なく、ユーザはストレスなく自然に音を聴くことができる。
例えば、環境音として焚火の音が選択され、コンテンツとして楽曲が選択されている場合を想定する。定位処理部12は、焚火の音の第1オーディオ信号を仮想スピーカVR3の位置に定位させる。ユーザは、仮想スピーカVR3の位置に焚火の音の音像を認識する。定位処理部12は、楽曲の第2オーディオ信号を仮想スピーカVR4の位置に定位させる。ユーザは、仮想スピーカVR4の位置に楽曲の音像を認識する。ユーザは前方左側の方向から聞こえてくる焚火の音と、前方右側の方向から流れてくるコンテンツを同時に認識することができる。これにより、ユーザは、ストレスがなく音を感じることができるため、リラックス感が得られる。例えば、ユーザが混雑した電車の中にいる場合に、別の異空間にいる感覚を得られるため、リラックス効果がより高まる。
図7は、信号処理装置1の動作を示すフローチャートである。まず、信号処理装置1は、環境音およびコンテンツに係るデータを選択する(s11)。データの選択は、例えばユーザがユーザI/F16を用いて指定する。入力I/F11は、記憶部15から、ユーザが指定した環境音およびコンテンツに係るデータを読み出す。
次に、定位処理部12は、環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、のそれぞれについて、定位処理を行なう(s12,s13)。その後、定位処理部12は、定位処理後の各オーディオ信号を合成する(s14)。合成後のオーディオ信号は、出力部14を介して出力される(s15)。
以上の様にして、信号処理装置1は、環境音等のBGMを聴取者の周囲(領域Zone1)に定位させ、コンテンツの音を周囲以外(例えば前方の領域Zone2)に定位させることで、環境音等のBGMとコンテンツの音が入り混じることがない。また、環境音は、音源位置を明確に認識することなく、周囲から包まれる様な音像として認識することになるため、聴取者が不自然に感じることもない。したがって、信号処理装置1によれば、ユーザは、環境音を自然に聴きながらも目的のコンテンツを自然に聴くことができる。
次に、図3は、応用例1に係る信号処理装置の構成を示すブロック図である。この例では、信号処理装置1は、選出部17を備えている。選出部17は、信号処理装置1のCPU等が実行するプログラム151により実現される機能部である。
選出部17は、環境音とコンテンツとを選出する。すなわち、上記の例では、環境音およびコンテンツは、ユーザが手動で指定していたが、応用例1においては、環境音およびコンテンツは、自動選択される。
応用例1に係る選出部17は、ユーザI/F16を介してユーザの気分が入力される。選出部17は、入力されたユーザの気分に適した環境音およびコンテンツの組み合わせを選出する。
図6(A)は、ユーザの気分と選択される音の関係を示す図である。図6(B)は、環境音とコンテンツの組み合わせの一例を示す図である。図8は、データ選出の動作を示すフローチャートである。
図6(A)に示すように、まず、ユーザは、現在の自身の気分を、チャート上で選択する(s21)。この例では、ユーザは、縦軸に沿って、穏やかな状態から興奮状態まで選択することができ、横軸に沿って、暗い気分から明るい気分まで選択することができる。
チャート上で選択した各位置には、環境音またはコンテンツが関連付けられている。ユーザの気分と環境音の対応付けを示す情報は、記憶部15に記憶されている。例えば、図6(A)および図6(B)の例では、最もユーザの気分が高い興奮状態であり、明るい気分である場合には、草原の環境音が対応付けられている。したがって、選出部17は、環境音として草原を選出する。
さらに、選出部17は、選出した環境音に対応するコンテンツを選出する。環境音とコンテンツの対応付けを示す情報も、記憶部15に記憶されている。例えば、草原の環境音には、ロックのジャンルのコンテンツが対応付けられている。したがって、選出部17は、草原の環境音と、ロックのコンテンツを選出する(s22)。
ただし、環境音およびコンテンツの選出の両方を行なうことは、必須ではない。例えば、選出部17は、環境音だけを選出してもよいし、コンテンツだけを選出してもよい。環境音だけを選出する場合には、コンテンツは、ユーザが手動で選択する。
また、ユーザの気分と環境音またはコンテンツとの関係は、予め対応付けられていてもよいが、選出部17が、ユーザの気分に応じて、その都度、対応するコンテンツを選出してもよい。例えば、図10に示すように、ユーザが選択するチャート上において、縦軸は、演奏テンポを示すBPM(Beats Per Minute)および音の情報量(楽器の数の多さ等)に対応する。横軸は、音色(周波数特性)および響きに対応している。選出部17は、入力されたユーザの気分に対応するBPM、音の情報量、音色、および響きに対応する環境音およびコンテンツのデータを選出する。
例えば、ユーザの気分が高い興奮状態であり、明るい気分である場合には、BPMが高く、音の情報量が多い環境音を選出する。BPM、音の情報量、音色、および響きに関する情報は、各環境音のデータに付加されている。例えば環境音のデータがMP3データである場合には、ID3タグにこれら情報が含まれている。また、例えば、環境音およびコンテンツのデータがMIDIデータである場合には、当該MIDIデータに演奏テンポおよび楽器の数を示す情報が含まれている。
したがって、選出部17は、入力されたユーザの気分に応じて、その都度、対応するコンテンツを選出することができる。
次に、図4は、応用例2に係る信号処理装置の構成を示すブロック図である。この例では、信号処理装置1は、センサ18を備えている。センサ18は、ユーザの状態(状態情報)を検出するセンサであり、例えば加速度センサ、温度センサ、またはカメラ等である。この例では、選出部17は、センサ18で検出されたユーザの状態に応じて、ユーザの気分を受け付け、環境音またはコンテンツを選出する。
例えば、選出部17は、加速度センサで、ユーザが走っている状態であると判定し、さらに走行ピッチに応じて、ユーザの気分を推定する。走行ピッチが速い場合には、ユーザが興奮状態であると推定する。走行ピッチが遅い場合には、ユーザが穏やかな状態であると推定する。例えば、選出部17は、興奮状態であるときは、BPMが高い環境音またはコンテンツを、穏やかな状態であるときはBPMが低い環境音またはコンテンツを選出する。また、例えば、選出部17は、予めセンサの値と環境音またはコンテンツとを対応付けて記憶部15に記憶しておくことで、ユーザの状態に応じた環境音またはコンテンツを選択することができる。
また、センサ18は、表示部(不図示)を指でタッチしたときのタッチ操作を検知するタッチセンサを備えていてもよい。制御部19は、スマートフォンの制御部にユーザにタッチ操作を促す指示を出力する。スマートフォンの制御部は、「タッチパネルを複数回タップして下さい」という表示を画面に表示させる。制御部19は、センサ18で検知したタップの間隔の平均時間を算出する。ユーザのタップの間隔とその時のユーザの状態とを予め対応付けたデータとして記憶部15に記憶しておく。
制御部19は、センサ18で検知したタップの間隔から、ユーザの状態を推定する。興奮状態であるときはユーザのタップの間隔が短く、穏やかな状態であるときはユーザのタップの間隔が長い。制御部19は、センサ18で検知した結果を記憶部15に予め記憶されたデータに照らし合わせて、ユーザのタップの間隔に近いユーザの状態を選択し、ユーザの状態を推定することができる。
これにより、ユーザは、気分の選択を行なう必要なく、選出部17が環境音またはコンテンツを選出することができる。
次に、図5は、応用例3に係る信号処理装置の構成を示すブロック図である。図9は、応用例3に係る信号処理装置1の動作を示すフローチャートである。この例では、信号処理装置1は、マイク101を備えている。マイク101は、周囲の環境音を取得する。マイク101で取得された環境音は、記憶部15に記憶され、録音される(s31)。
そして、選出部17は、録音された環境音の解析を行ない(s32)、対応するコンテンツを選出する(s33)。すなわち、選出部17は、環境音の種類(例えば、たき火、雨音、波の音、森林の音、雷の音、虫の声、または動物の声等)を推定し、推定した環境音に対応するコンテンツを選択する。
この場合、現在のユーザの周囲の環境に応じた適切なコンテンツが選出される。また、録音された環境音が、周囲遠方に定位するため、より自然な状態で、環境音を聴きながらも目的のコンテンツを聴くことができる。
図11は、応用例4に係る信号処理装置の構成を示すブロック図である。環境音の取得は、バイノーラル録音であってもよい。バイノーラル録音をする場合の信号処理装置は複数のマイクが必要である。例えば、図11に示すように、応用例4に係る信号処理装置1はマイク101及び102を備える。マイク101及び102は、それぞれの録音時に配置された空間においてHRTFが含まれた音情報を取得する。ユーザは、例えば、仮想スピーカVR1の位置における音源から、環境音が出力されている様に知覚することができる。したがって、ユーザはより自然な状態で環境音を聴くことが可能となる。
また、選出部17は、カメラ等で取得された画像や映像を解析して、ユーザが室外にいるかいないかを推定することができる。例えば、選出部17は、画像の色を解析する。記憶部15は、画像の色と室内又は室外であるかとを対応付けた情報を記憶する。選出部17は、ユーザが所有するスマートフォンなどで取得した画像をユーザインタフェース(I/F)16を介して選出部17に入力する。選出部17は、取得された画像と記憶部15に記憶された情報とを照らし合わせて、室内又は室外であるかを判断する。選出部17は、ユーザいる場所が例えば、室外と判断するとアップテンポな曲を選出する。これに対して、選出部17は、ユーザいる場所が例えば、室内と判断すると落ち着いた曲を選出する。これにより、選出部17は、ユーザいる場所に応じた環境音またはコンテンツを選択することができる。
なお、選出部17は、コンテンツまたは環境音に関連する映像、光、風、匂いなどの音以外の視覚や嗅覚等で感じる要素をさらに選出することも可能である。例えば、環境音に関連する要素が光である場合について説明する。記憶部15は、予めコンテンツまたは環境音に対応付けられた光に関する情報を記憶する。光に関する情報とは、例えば、光の色や発光時間、点滅の有無、又は照度などの情報である。信号処理装置1又はこれと同時に使用されるスマートフォン等は、光を発する表示部(LED、LCD、又はOLED等)を備える。
選出部17がコンテンツまたは環境音を選出すると、制御部19は、選出されたコンテンツまたは環境音に対応付けられた光の情報を記憶部15から取得する。記憶部15で取得された情報を基に、制御部19は、信号処理装置1又はこれと同時に使用されるスマートフォン等の表示部に、コンテンツまたは環境音の再生とともに光を発する指示を入力する。表示部は、コンテンツまたは環境音に対応付けられた光を発する。これにより、ユーザはさらにコンテンツまたは環境音をリアルに体感することができる。
なお、応用例においては、いずれも記憶部15に記憶されている環境音またはコンテンツを選出する例を示したが、例えば、選出した環境音またはコンテンツに係るデータを識別する情報を用いて、対応するデータを外部のサーバ等からダウンロードしてもよい。
また、選出部17は、過去にユーザが選択した環境音およびコンテンツの組み合わせを学習し、学習結果に基づいて選出を行なってもよい。この場合、ユーザは、環境音またはコンテンツのいずれかを手動で選択するだけで、対応するコンテンツまたは環境音が自動で選出される。例えば、選出部17は、ユーザが選択したコンテンツのBPMと環境音とを学習することで、ユーザが選択したコンテンツに応じた環境音を自動で選出することができる。また、選出部17は、ユーザが選択したコンテンツのジャンルと環境音とを学習することで、ユーザが選択したコンテンツのジャンルに応じた環境音を自動で選出することができる。以下、選出部17の学習について説明する。
選出部17の学習においては、例えば、コンテンツ又は環境音のパラメータとユーザの状態を示すパラメータとを関連付けて記憶部15に蓄積させる。
図12(A)及び図12(B)は、ユーザが再生中の音声に対する評価を入力する画面を示したものである。選出部17の学習においては、図12(A)及び図12(B)に示すように、ユーザが所有するスマートフォンなどの表示部(不図示)に、画面121又は画面122が表示される。例えば、図12(A)に示すように、「楽曲Aは今の気分に合っていますか?」という質問に対して、ユーザI/F16は、「はい」又は「いいえ」の選択肢を表示する。また、図12(B)に示すように、「環境音は今の気分に合っていますか?」という質問に対して、ユーザI/F16は、「はい」又は「いいえ」の選択肢を表示する。
ユーザI/F16は、画面121及び画面122を表示させて、再生中の音声に対するユーザからの評価を受け付ける。すなわち、コンテンツ及び環境音がその時の気分に適しているか否かをユーザは、ユーザI/F16を介してセンサ18に入力する。画面121又は画面122が受け付けた選択肢が「はい」の場合、制御部19は再生中のコンテンツのBPM、音数等の各種パラメータと、センサ18のパラメータ(例えば、温度、天気、心拍数等)と、を対応付ける。制御部19は、対応付けた再生中の音声に対するユーザからの評価を、記憶部15に記憶する。
受け付けた選択肢が「いいえ」の場合、制御部19は再生中のコンテンツ又は環境音から別のコンテンツ又は環境音を選出部17へ選択させる命令を行う。これにより、別のコンテンツ又は環境音が再生され、ユーザに新たな画面121又は画面122が提示される。制御部19は、新たな画面121又は画面122で受け付けた選択肢が「はい」になるまで繰り返す。これにより、センサ18のパラメータと対応付けられたコンテンツ又は環境音に対するユーザの評価のデータが、記憶部15に蓄積される。
選出部17は、記憶部15に蓄積されたデータを基に、現在のユーザの状態に適したコンテンツ又は環境音を選択する。ユーザの置かれた状況等に変化が生じると、センサ18のパラメータには変化が生じる。例えば、ユーザが室外から室内へ移動した場合、温度センサにおいて検出される温度に変化が生じる場合が挙げられる。
ユーザの状態に変化が生じると、選出部17は、記憶部15に蓄積されたデータを基に、現在検出されているセンサ18のパラメータに対応付けられたコンテンツのBPM、音数等の値が近いコンテンツ又は環境音を選択する。これにより、選出部17は、ユーザの置かれた状況に適したコンテンツ又は環境音を自動で選択することができる。したがって、ユーザは心理状態に対応したコンテンツ又は環境音を聴くことができる。
なお、選出部17の学習は、人工知能で自動化してもよい。例えば、記憶部15に蓄積されたデータを複数端末から不図示のサーバへ送信する。サーバでは例えばニューラルネットワークが形成されている。ニューラルネットワークにおいては、心拍数、体温、周囲の音、気温、等のセンサ18において検出される値等が入力層となる。さらに、センサ18において検出される興奮又は落ち着き、明又は暗の2つの要素がニューラルネットワークの中間層となる。コンテンツ又は環境音が出力層となる。ニューラルネットワークは、センサ18の値に応じたコンテンツ又は環境音を結果として出力する。そして、ニューラルネットワークは、複数の端末からデータを集めることにより、ディープラーニングで入力に対する出力の精度を高めることができる。選出部17は、サーバにセンサ18において検出される値を送信することにより、対応するコンテンツ又は環境音を得る。これにより、選出部17は、ユーザの気分に応じたコンテンツ又は環境音を選出する精度を上げることができる。
このように、選出部17は、学習機能により、ユーザの心理状態、時間等を基にユーザにその場に応じたコンテンツと環境音とを提供することができる。また、選出部17は、ユーザの心理状態、時間だけでなく、その日の天気、温度、体調、その場所等の様々な要素を判断要素とすることができる。ここで、温度又は体調などは、センサ18で取得されたものを利用可能である。また、天気等の情報はインターネットを通じて入手してもよい。
例えば、温度又は体調などに関しては、センサ18で取得されたものが使用できる。さらに、これに対してユーザの体感温度に関する評価をセンサ18で受け付けて、補正してもよい。これにより、センサ18で取得される情報の精度が高まるため、選出部17はユーザの心理状態により適した選出をすることができる。例えば、同一の温度においても暑がりの人と寒がりの人によって、感じ方は変わる。このため、同一の温度であっても人により聴いて心地よく感じるコンテンツや環境音は異なる。したがって、センサ18で受け付けた体感温度の評価により、実際の温度と感じ方のデータを蓄積し学習することによって、選出部17は、よりその状況に存在するユーザの心理状態に適したコンテンツと環境音とを提供することができる。
また、場所に関しては、市街地、草原、山、海、又はこれらのさらに細かく細分された場所に応じて、その場にユーザがいた時の心理状態が蓄積されたデータを学習することによって、選出部17は、よりその場に存在するユーザの心理状態に適したコンテンツと環境音とを提供することができる。
例えば、コンテンツとして楽曲Aが再生されている場合について説明する。ここで、朝の通勤時間帯に楽曲Aが再生されているときに、画面121において選択肢「はい」を複数回受け付ける。これにより、特定の時間帯と楽曲Aとが関連付けられたデータが記憶部15に記憶される。このデータを基に選出部17は、この時間帯において楽曲A又は、楽曲AとBPM、音数等の値が近い楽曲を自動で選出する。このような学習機能により、選出部17は、ユーザの気分に応じたコンテンツを選出することができる。また、ユーザは通勤時間帯の忙しい時間帯に楽曲を選択する煩わしさから解放される。
同様に、選出部17は、環境音についても同様の学習機能により自動で選出することができる。例えば、コンテンツとして楽曲Aが、環境音として小川のせせらぎが再生されている場合について説明する。選出部17は、上述のような学習機能により、時間と環境音とが関連付けられたデータが記憶部15に記憶される。このデータを基に選出部17は、朝の通勤時間帯に楽曲Aと小川のせせらぎとを自動で選出させてもよい。また、選出部17は、楽曲A又は小川のせせらぎとBPM、音数等の値が近いものを自動で選出させてもよい。
図13は、時間とユーザのストレス度合いを示したものである。通勤においては、例えば、徒歩、バス、電車等、様々な交通手段がある。図13に示す例は、ユーザの朝の通勤時間帯における移動が、家から徒歩、電車、徒歩、職場の順である場合を想定する。徒歩で移動している時間帯のユーザのストレスは比較的少なく、混雑した電車に乗って移動している時間帯のユーザのストレスは比較的大きい。また、同じ徒歩においても、家の近くか職場の近くであるかによってもユーザの心理状態は変化する。
ここで、図12(A)及び(B)に示すように、制御部19は、ユーザが所有するスマートフォンにユーザが選択肢に対する評価を入力するための画面121、画面122を表示する。制御部19は、その時の気分にコンテンツ及び環境音が適しているか否かについて面121及び画面122で受け付けた選択を、記憶部15へ記憶する。
例えば、ユーザが図13に示す家から徒歩で移動中の場合において、楽曲Aと小川のせせらぎが選択されている場合を想定する。この状態において、ユーザの心理状態はストレスが少ない状態であり、センサ18において検出される心拍数の値が定常状態であるとする。ここで、ユーザが電車に乗り込むと、ユーザの心理状態が変化しストレスが増加し、センサ18において検出される心拍数の値が上昇する。
選出部17は、例えば心拍数の値が所定の閾値を越えると、別のコンテンツ、例えば楽曲Bを選出することができる。
また、コンテンツの変更に合わせ、選出部17は環境音を変更する。例えば、選出部17は、環境音をより広い空間の音へ変更する。これにより、ユーザのストレスが軽減される。
また、制御部19は、日時のデータに対応付けられたイベント及びそのイベントに関連するコンテンツと環境音とを記憶部15に記憶してもよい。制御部19は、記憶部15に記憶された日時のデータを読み取ることにより、選出部17に特定の日時に対応付けられたイベントに関連するコンテンツと環境音とを選出する指示をする。これにより、ユーザにイベントに関連するコンテンツと環境音とを的確に提供することができる。
例えば、定期的にそのイベントがある場合、例えば毎週火曜日に英語のレッスンがある場合、火曜日の朝の通勤時間に選択されるコンテンツとして選出部17は、英語に関連するものを選択する。これにより、ユーザに当日のレッスンを思い出させ、学習意欲を向上させることができる。さらに、選出部17は、ユーザの心理状態にあったコンテンツ及び環境音を選択することができるため、より学習意欲を向上させることができる。
さらに、定位処理部12は、学習機能により環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、のそれぞれについて、定位させる位置を変化させてもよい。制御部19は、センサ18からユーザの心理状態が明るい情報を受け付けると、定位処理部12にコンテンツを頭内定位させる指示をする。これに対して、制御部19はセンサ18からユーザの心理状態が暗い情報を受け付けると、定位処理部12にコンテンツをユーザの前方又は遠方に定位させる指示をする。これにより、定位処理部12はユーザの心理状態に応じた、コンテンツの定位を行う。
また、選出部17は、他のユーザから、環境音とコンテンツとの組み合わせを示す組み合わせ情報を取得してもよい。この場合、ユーザは、他のユーザがお勧めする環境音とコンテンツとの組み合わせを楽しむことができる。環境音とコンテンツとの組み合わせについても、選出部17及び不図示のサーバの学習機能により、選出部17は、ユーザ毎により適した組み合わせ情報を提供することができる。例えば、ユーザがある環境、例えばカフェにいるときに特定のコンテンツとして楽曲Cと環境音Dを選択する。信号処理装置1は、サーバにこの選出データを送信し、蓄積する。また、同時に信号処理装置1は、このユーザに関する、年齢、性格、又は性別等のユーザ固有のデータも送信してサーバに蓄積する。例えば、別のユーザ2が信号処理装置1を使用する際、信号処理装置1は、ユーザ2の固有のデータがサーバに送信する。サーバは、このユーザ2の固有のデータに近い条件のコンテンツ又は環境音を選出する。サーバは、例えば、コンテンツとして楽曲Cと環境音Dを選択して、ユーザ2の使用する信号処理装置1に送信する。これによりユーザ2は、サーバに蓄積された情報から、ユーザ毎にさらに適した組み合わせ情報を提供することができる。
なお、本実施形態では、環境音およびコンテンツに係る音をヘッドフォンに出力する例をしめしたが、例えばスピーカに出力してもよい。スピーカを用いてHRTFによる定位処理を行なう場合にはクロストークキャンセルの処理を行なう。
HRTF以外の定位処理としては、環境音は、聴取位置の周囲に設置された全てのスピーカから出力させ、コンテンツは前方に設置されたスピーカから出力させる。この場合も、環境音は、聴取者の周囲に定位(第1定位処理に対応)し、コンテンツは第1定位処理とは異なる位置に定位(第2定位処理に対応)する。
最後に、前記実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲とを含む。
VL1,VR1…仮想スピーカ
1…信号処理装置
2L,2R…ヘッドフォンユニット
11…入力部
12…定位処理部
13L,13R…増幅部
14…出力部
15…記憶部
17…選出部
18…センサ
101…マイク
121L,121R,122L,122R…フィルタ
123L,123R…加算器

Claims (5)

  1. 環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、を入力する入力部と、
    前記第1オーディオ信号を聴取者の周囲に定位させる第1定位処理と、前記第2オーディオ信号を前記第1定位処理で定位させる位置とは異なる位置に定位させる第2定位処理と、を行なう定位処理部と、
    前記環境音または前記コンテンツを選出する選出部と、
    ユーザから気分の選択を受け付けるユーザインタフェースと、を備え、
    前記選出部は、受け付けた前記気分に対応付けられた演奏テンポ、音の情報量、周波数特性、および響きに基づいて前記環境音または前記コンテンツを選出する、
    信号処理装置。
  2. 前記気分は、ユーザの興奮度を含み、
    前記興奮度は、前記演奏テンポおよび前記音の情報量に対応する、
    請求項に記載の信号処理装置。
  3. 加速度センサをさらに備え、
    前記選出部は、前記加速度センサに基づいて前記興奮度を推定する、
    請求項に記載の信号処理装置。
  4. 前記選出部は、過去に選択した環境音およびコンテンツの組み合わせを学習し、学習結果に基づいて、前記選出を行なう、
    請求項1乃至請求項のいずれか1項に記載の信号処理装置。
  5. 環境音に係る第1オーディオ信号と、コンテンツに係る第2オーディオ信号と、を入力し、
    前記第1オーディオ信号を聴取者の周囲に定位させる第1定位処理と、前記第2オーディオ信号を前記第1定位処理で定位させる位置とは異なる位置に定位させる第2定位処理と、を行なう信号処理方法であって、
    ユーザから気分の選択を受け付け、
    受け付けた前記気分に対応付けられた演奏テンポ、音の情報量、周波数特性、および響きに基づいて前記環境音または前記コンテンツを選出する、
    信号処理方法。
JP2018547230A 2016-10-31 2017-10-31 信号処理装置および信号処理方法 Active JP6737342B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016213373 2016-10-31
JP2016213373 2016-10-31
PCT/JP2017/039405 WO2018079850A1 (ja) 2016-10-31 2017-10-31 信号処理装置、信号処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2018079850A1 JPWO2018079850A1 (ja) 2019-09-19
JP6737342B2 true JP6737342B2 (ja) 2020-08-05

Family

ID=62023724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018547230A Active JP6737342B2 (ja) 2016-10-31 2017-10-31 信号処理装置および信号処理方法

Country Status (2)

Country Link
JP (1) JP6737342B2 (ja)
WO (1) WO2018079850A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6756777B2 (ja) * 2018-05-30 2020-09-16 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および音発生方法
JP7125908B2 (ja) * 2019-03-19 2022-08-25 ユニ・チャーム株式会社 プログラム、コンテンツ表示方法、及びコンピュータ
CN110972053B (zh) * 2019-11-25 2021-06-25 腾讯音乐娱乐科技(深圳)有限公司 构造听音场景的方法和相关装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131674A (ja) * 2001-10-22 2003-05-09 Megafusion Corp 楽曲検索システム
JP2004086189A (ja) * 2002-07-02 2004-03-18 Matsushita Electric Ind Co Ltd 楽曲検索システム
JP2005250199A (ja) * 2004-03-05 2005-09-15 Yamaha Corp オーディオ機器
JP2007172675A (ja) * 2005-12-19 2007-07-05 Konica Minolta Photo Imaging Inc 再生装置、プログラムおよび再生システム
JP2008270901A (ja) * 2007-04-16 2008-11-06 Sony Ericsson Mobilecommunications Japan Inc 電話端末及び通信システム
JP6330251B2 (ja) * 2013-03-12 2018-05-30 ヤマハ株式会社 密閉型ヘッドフォン用信号処理装置および密閉型ヘッドフォン
JP6377935B2 (ja) * 2014-03-31 2018-08-22 株式会社東芝 音響制御装置、電子機器及び音響制御方法
JP2016066389A (ja) * 2014-09-22 2016-04-28 ヤマハ株式会社 再生制御装置及びプログラム

Also Published As

Publication number Publication date
WO2018079850A1 (ja) 2018-05-03
JPWO2018079850A1 (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
US11039264B2 (en) Method of providing to user 3D sound in virtual environment
US10964179B2 (en) Vibrotactile control systems and methods
CN108141684B (zh) 声音输出设备、声音生成方法以及记录介质
KR20220054602A (ko) 선택적 청취를 지원하는 시스템 및 방법
CN106465008B (zh) 终端混音系统和播放方法
JP6737342B2 (ja) 信号処理装置および信号処理方法
KR20160015317A (ko) 오디오 장면 장치
CN105637903A (zh) 用于产生声音的系统和方法
TW201820315A (zh) 改良型音訊耳機裝置及其聲音播放方法、電腦程式
CN110915240B (zh) 向用户提供交互式音乐创作的方法
Heller et al. Navigatone: Seamlessly embedding navigation cues in mobile music listening
JP3143324U (ja) サラウンドヘッドフォン
Jenny et al. Can I trust my ears in VR? Literature review of head-related transfer functions and valuation methods with descriptive attributes in virtual reality
JP6798561B2 (ja) 信号処理装置、信号処理方法およびプログラム
FR3110758A1 (fr) Dispositif de réalité virtuelle et/ou de réalité augmentée, système et méthodes correspondantes
Laamanen Virtual Heritage: Audio design for immersive virtual environments using researched spatializers.
US12008892B2 (en) Vibrotactile control systems and methods
US20240181201A1 (en) Methods and devices for hearing training
US11696088B1 (en) Method and apparatus to generate a six dimensional audio dataset
Kalogianni et al. The city soundscape and the brain
Murphy Production Sound Mixing: The Art and Craft of Sound Recording for the Moving Image
Lorenz Impact of Head-Tracking on the listening experience of binaural music
Morrell et al. Auditory cues for gestural control of multi-track audio
JP2022128177A (ja) 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム
Wees Reverberation as Mimetic Replication: Urban Space, Metro Buskers and Acoustic Experience

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200616

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200629

R151 Written notification of patent or utility model registration

Ref document number: 6737342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151