JP4756560B2

JP4756560B2 - 情報処理装置および情報処理方法

Info

Publication number: JP4756560B2
Application number: JP2008310317A
Authority: JP
Inventors: 真一本多; 功誠山下
Original assignee: Sony Interactive Entertainment Inc; Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2008-12-04
Filing date: 2008-12-04
Publication date: 2011-08-24
Anticipated expiration: 2028-12-04
Also published as: JP2010136117A; US8295509B2; US20100142728A1

Description

本発明は情報処理技術に関し、特に音声信号を再生する機能を含む情報処理装置、およびそれに適用される情報処理方法に関する。

近年、音声信号の圧縮率の向上、メモリ容量の増大、ネットワーク環境の充実化などによって、音楽データを携帯し、様々な場所で鑑賞することが増えてきた。また、１セグメント部分受信サービスの普及に伴い、テレビ番組を移動端末で視聴することも一般化しつつある。このようにいかなる環境にあっても、音声は常に身近に存在する。その一方で、電子メールを受信した情報端末や、ユーザが選択した処理を終了した家電製品などは、それを知らせる報知音を発するのが一般的になっている。このように現代の一般的な生活では、ユーザの好むと好まざるとに関わらず、電子機器が発する音声、報知音など、音を聴く機会が非常に多くなっている。

例えば携帯電話で音楽を鑑賞している際に電話や電子メールが着信した場合、一般的には着信を知らせる報知音を、音楽に重ねて出力する。しかし音楽が大きなボリュームで再生されている場合は、報知音を聞き逃してしまう場合がある。それを防ぐために、報知音を鳴らす間は音楽を一時停止することも考えられるが、他所より突然入った電話や電子メールのために音楽が中断されてしまうことは煩わしく感じられる場合も多い。このように、報知音は突然、ユーザの意図とは関係なく発生されることが多いため、音声を含むコンテンツ、すなわち音楽、テレビ番組、ラジオ番組などを鑑賞中に別の音が重なる、といった状況は好ましいものではなかった。

本発明はこのような課題に鑑みてなされたものであり、その目的は、音声を含むコンテンツを再生中に、報知音を確実かつ適度に聞かせる技術を提供することにある。

本発明のある態様は情報処理装置に関する。この情報処理装置は、コンテンツに含まれる音声信号を再生する再生部と、所定の情報をユーザに報知するための報知音を発生させる報知音発生部と、再生部が音声信号を再生中、報知音を発生させる必要性が生じた際、再生中の音声信号と、報知音のそれぞれに対して異なるパターンで周波数帯域を割り当てる周波数帯域割り当て部と、周波数帯域割り当て部が割り当てた周波数帯域のパターンで、再生部が再生した音声信号と、報知音発生部が発生させた報知音のそれぞれから、割り当てた周波数帯域成分を抽出して合成する音声処理部と、音声処理部が合成した音声信号を音響として出力する出力部と、を備えたことを特徴とする。

ここで「パターン」とは、可聴周波数帯域内で割り当てる帯域と割り当てない帯域の幅および周波数帯のバリエーションをいう。割り当てる領域と割り当てない領域はそれぞれ、可聴周波数帯域内に複数あってもよい。

本発明の別の態様は情報処理方法に関する。この情報処理方法は、コンテンツに含まれる音声信号をメモリより読み出し再生するステップと、音声信号を再生中、所定の情報をユーザに報知するための報知音を発生させる必要性が生じた際、再生中の音声信号と、報知音のそれぞれに対して異なるパターンで周波数帯域を割り当てるステップと、報知音を発生させるステップと、割り当てた周波数帯域のパターンで、再生した音声信号と、発生させた報知音のそれぞれから、割り当てた周波数帯域成分を抽出して合成するステップと、合成した音声信号を音響として出力するステップと、を含むことを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、コンテンツの音声を邪魔することなく報知の本来の目的にかなった報知音を聴かせることができる。

図１は本実施の形態を適用できるシステムの構成例を示している。情報受信システム１０は、複数のユーザ端末１２ａ、１２ｂ、・・・、１２ｎとメールサーバ１４がネットワーク１６を介して接続する態様を有する。ユーザ端末１２ａ、１２ｂ、・・・、１２ｎは例えば携帯電話、携帯オーディオ再生装置、携帯情報端末、複数の電子機器の音声信号を集中管理する装置などのいずれでもよく、音声を含む主たる情報を出力している間に、別の情報についてユーザに報知することのできる機能を含む。

このような環境においてユーザ端末１２ａは、音楽鑑賞、テレビ番組視聴などのために、音声を出力する機能を有する。またユーザ端末１２ａは、ネットワーク１６を介して他のユーザ端末１２ｂ、１２ｎなどから送信された電子メールをサーバ１４を介して受信する機能も有する。電子メールを受信した際、ユーザ端末１２ａは報知音を発生させてユーザに着信を知らせる。

ユーザ端末１２ａは、電子メールの他、ネットワーク１６を介して様々な情報を取得し、所定のタイミングで報知音を発生させてよい。例えば電話着信、ホームセキュリティシステムからの自宅の異常の報知、自宅の電化製品や電子機器からの通知、株の取引に係る情報の通知など、ユーザ端末１２ａを操作するユーザが加入するサービスや各電子機器の機能に応じてユーザ端末１２ａは報知音を発生させる。また、報知元はネットワーク１６を介さず、ユーザ端末１２ａ自身であってもよい。スケジュール管理の機能におけるアラートやタイマーがこれにあたる。以下の説明では、報知元の情報はネットワーク１６を介して受信されるとする。

本実施の形態では、このような環境においてユーザがユーザ端末１２ａを用いて音楽やテレビ番組などで音声を聴いている状況において、報知音を発生させる必要性が発生した際の処理について述べる。このとき、音楽に浸る気分を損ねたり、大事な会話を聞き逃したりすることなく、逆に音楽にかき消されたりすることなく確実に重要な報知を行うことを可能にする。具体的には、音楽および報知音にそれぞれ所定の周波数帯域割り当て、両方を混合して出力することにより、音楽と報知音の両方を聴くことができるようにする。なお以下の説明において音声データは音楽データとするが、それに限る趣旨ではなく、落語や会議などにおける人声、環境音、放送波に含まれる音声など、音声信号のデータであればよく、それらが混合していてもよい。

図２はユーザ端末１２ａの詳細な構成を示している。ユーザ端末１２ａは、ネットワーク１６を介して電子メールなど報知の必要な情報を受信する報知情報受信部１９、報知情報を解析する報知情報解析部２０、解析された報知情報に基づき音楽および報知音を所定の周波数帯域に割り当てる周波数帯域割り当て部２４、および周波数帯域の割り当てパターンを決定するための情報を格納する割り当て情報記憶部２２を含む。

ユーザ端末１２ａはさらに、ユーザ端末１２ａで再生できる音楽ファイルを格納する音楽ファイル記憶部２８、ユーザによる音楽の選択入力を受け付ける入力部２９、ユーザが選択した音楽ファイルを再生する再生部３０、本来の報知音を発生させる報知音発生部２６、音楽および報知音の音声信号のうち、それぞれに割り当てられた周波数帯域の成分を抽出したうえで混合する音声処理部３２、および混合された音声、あるいは再生された音楽を音響として出力する出力部３４を含む。

図２において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ（Central Processing Unit）、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

入力部２９、音楽ファイル記憶部２８、再生部３０は、一般的な音楽再生装置に設けられている入力装置、記憶装置および再生装置と同じ構成でよい。すなわち、ＭＰ３などの一般的な符号化形式によって符号化されている音楽ファイルを音楽ファイル記憶部２８に記憶させておき、ユーザが入力部２９から選択入力を行うことにより、そのうちの一つのファイルが再生部３０に送られ、復号される。従って入力部２９は、一般的な電子機器が有するキーボード、タッチパネル、ボタンなどの少なくともいずれかを備え、さらに再生する音楽を選択するための選択画面を表示する表示装置を含んでもよい。再生装置３０は、音楽ファイルの符号化形式に則り、一般的な手法で復号して音声信号を生成する。

なお報知音を発生させる必要がない状態では、再生部３０が再生した音声信号は、後に述べる音声処理部３２の周波数帯域抽出処理を受けずに出力部３４から音響信号として出力される。したがって出力部３４は、内蔵スピーカや外部に接続したスピーカ、イヤホンなど一般的な電子機器で用いられる音響出力装置で構成してよい。

報知情報受信部１９は、ネットワーク１６を介して報知を必要とする情報を受信する。報知を必要とする情報は上述のとおり、ユーザ端末１２ａを利用して実現することのできる機能やユーザがネットワークを利用して享受するサービスによって様々である。受信する情報には、報知音がどのような音であるかの情報が付加されている。あるいは、ユーザ端末１２ａにおいて、情報の種類ごとに報知音の設定が保持されている。当該設定はユーザが行ったものでもよい。

報知音発生部２６は、報知情報受信部１９が受信した情報に対しあらかじめ設定されている報知音を発生させる。なお受信した際に、再生部３０において音楽が再生されていなければ、報知情報解析部２０、周波数帯域割り当て部２４、および音声処理部３４の処理は行わなくてよく、報知音発生部２６が発生させた音をそのまま出力部３４から音響信号として出力してよい。したがって報知音発生部２６は、一般的な電子機器で用いられる報知音発生装置で構成してよい。

報知情報解析部２０は、報知情報受信部１９から報知を必要とする情報を受信すると、その情報を解析する。解析対象は、例えば当該情報を報知するために設定された報知音の周波数帯域や、音の特徴、あるいは、情報本体である電子メールのヘッダ、題名、メール本文などであり、解析内容はあらかじめ設定しておく。報知情報解析部２０は、当該解析結果に基づき、割り当て情報記憶部２２に格納しておいた重要度判定テーブルと照らし合わせ、受信した情報の重要度を判定する。

周波数帯域割り当て部２４は、報知情報解析部２０が決定した、受信した情報の重要度に基づき、報知音および再生中の音楽のそれぞれに対し、割り当てる周波数帯域の幅を定めるフォーカス値を決定する。そして報知音および音楽に対し最終的に割り当てる周波数帯域のパターンを決定する。フォーカス値、および周波数帯域の割り当てパターンについては後に詳述する。音声処理部３２は、周波数帯域割り当て部２４が決定した割り当てパターンに基づき、報知音および音楽の周波数帯のうち、それぞれに割り当てた周波数帯域のみを抽出し合成する。出力部３４は、合成された報知音および音楽を音響として出力する。

次に、音楽および報知音という２つの音に対し周波数帯域を割り当てる態様について説明する。人間は、耳における音の感知と、脳における音の解析との２段階によって音を認識する。人間が異なる音源から同時に発せられた音を聞き分けるには、この２段階のいずれかまたは双方において別の音源であることを表す情報、すなわち分離情報を取得できればよい。例えば右耳と左耳とで異なる音を聴くことは、内耳レベルで分離情報を得たことになり、脳において別の音として解析され認識できる。最初から混合されている音の場合は、音脈や音色の違いなどを、これまでの生活で学習し記憶された分離情報と照らして解析することにより、脳レベルで分離することが可能である。

複数の音を混合して１組のスピーカやイヤホンなどから聴く場合は、本来、内耳レベルでの分離情報が得られないため、上述のように音脈や音色の違いなどを頼りに脳で別の音であることを認識することになるが、そのようにして聞き分けることのできる音は限定的である。そこで、最終的に混合しても分離して認識できる音声信号を生成するために、複数の音源のそれぞれに周波数帯域を割り当て、内耳に働きかけを行う分離情報を音声信号に人工的に付加する。

図３は、周波数帯域の割り当てについて説明するための図である。図の横軸は周波数であり周波数ｆ０からｆ８までを可聴帯域とする。同図では音ａ、音ｂの２つの音声信号を混合して聴く場合について示している。本実施の形態では、可聴帯域を複数のブロックに分割し、各ブロックを複数の音声信号の少なくともいずれかに割り当てる。そして各音声信号から、割り当てられたブロックに属する周波数成分のみを抽出する。

図３では、可聴帯域をｆ１、ｆ２、・・・、ｆ７の周波数で８つのブロックに分割している。そして例えば斜線にて示すように、音ａに対し周波数ｆ１〜ｆ２、ｆ３〜ｆ４、ｆ５〜ｆ６、ｆ７〜ｆ８の４つのブロックを、音ｂに対し周波数ｆ０〜ｆ１、ｆ２〜ｆ３、ｆ４〜ｆ５、ｆ６〜ｆ７の４つのブロックを割り当てる。ここでブロックの境界となる周波数ｆ１、ｆ２、・・・、ｆ７を、例えばＢａｒｋの２４臨界帯域の境界周波数のいずれかとすることにより、周波数帯域分割の効果をより発揮することができる。

臨界帯域とは、ある周波数帯域を有する音が、それ以上帯域幅を広げても他の音に対するマスキング量が増加しなくなる周波数帯域のことである。ここでマスキングとはある音に対する最小可聴値が他の音の存在によって上昇する現象、すなわち聴きづらくなる現象であり、マスキング量はその最小可聴値の上昇量である。すなわち、異なる臨界帯域にある音どうしは互いにマスキングされにくい。実験によって判明したＢａｒｋの２４個の臨界帯域を利用して周波数帯域を分割することにより、例えば周波数ｆ１〜ｆ２のブロックに属する音ａの周波数成分が、周波数ｆ２〜ｆ３のブロックに属する音ｂの周波数成分をマスキングするなどの影響を抑えることができる。他のブロックについても同様であり、結果として、音ａと音ｂは互いに打ち消しあうことの少ない音声信号となる。

なお、ブロックへの分割は臨界帯域によらなくてもよい。いずれの場合でも、重複する周波数帯域を少なくすることにより、内耳の周波数分解能を利用して分離情報を与えることができる。また図３に示した例では、各ブロックが同程度の帯域幅を有しているが、実際には周波数帯によって変化させてもよい。例えば臨界帯域２つ分を１つのブロックとする帯域と４つ分を１つのブロックとする帯域があってもよい。ブロックへの分割の仕方は、例えば低域の周波数を有する音はマスキングされにくい、などの一般的な音の特性を考慮して決定してもよい。

また本実施の形態では、音楽を聴いている状態を継続しつつ報知音を確実に聴かせる、という特徴を有するため、元の報知音が狭い周波数帯にある音であれば、報知音に対し当該周波数帯を優先して割り当てることにより、報知音が元々存在しない周波数帯域を報知音に割り当ててしまう、という状況がないようにする。そのため報知情報解析部２０は、報知音の元の周波数帯域に係る情報も周波数帯域割り当て部２４に送信する。

一方、音楽は、周波数帯域の割り当てに際し、特徴的な周波数帯域を考慮してもよい。ここで特徴的な周波数帯域とは、例えば、主旋律が占める周波数帯域など曲の表現上、重要となる周波数帯域である。割り当てるべき周波数帯域が報知音と重なると予想される場合は、報知音を優先させるほかに、その帯域をさらに細かく分割して均等に割り当ててもよい。また図３に示した例では、一連のブロックを交互に音ａ、音ｂに割り当てたが、連続した２つのブロックを音ａに割り当てるなど、割り当て方はこれに限らない。

図４は音声処理部３２の詳細な構成を示している。音声処理部３２は、第１周波数帯域抽出部４０、第２周波数帯域抽出部４２、および合成部４４を含む。第１周波数帯域抽出部４０および第２周波数帯域抽出部４２はそれぞれ、報知音発生部２６および再生部３０から入力された報知音および音楽の音声信号から、それぞれに割り当てた周波数帯域の成分を抽出する。第１周波数帯域抽出部４０および第２周波数帯域抽出部４２には、周波数帯域割り当て部２４から入力された、報知音および音楽のそれぞれに対して割り当てる周波数帯域のブロックの情報、すなわち割り当てパターンの情報を設定しておく。第１周波数帯域抽出部４０および第２周波数帯域抽出部４２で抽出された音声信号成分は、合成部４４において合成され出力される。

図５は、第１周波数帯域抽出部４０の詳細な構成を示している。なお第２周波数帯域抽出部４２も同様の構成としてよく、周波数帯域の割り当てパターンを替えることによりそのまま適用できる。第１周波数帯域抽出部４０は、フィルタバンク５０および振幅調整部５２および合成部５４を含む。フィルタバンク５０は、入力された報知音の音声信号を、図３で示したような周波数帯域のブロック（図３の例では８個のブロック）に分離する。Ｎ個のブロックに分離する場合、フィルタバンク５０はＮ個のバンドパスフィルタで構成する。各バンドパスフィルタには、抽出する各ブロックの周波数帯域の情報をあらかじめ設定しておく。

振幅調整部５２は、フィルタバンク５０の各バンドパスフィルタが出力したブロックごとの音声信号を、あらかじめ設定された振幅にする。すなわち、割り当てられていない周波数帯域のブロックについては振幅を０とし、割り当てられている周波数帯域のブロックをそのままの振幅にする。合成部５４は、振幅調整が施された各ブロックの音声信号を合成して出力する。このような構成により、報知音および音楽のそれぞれに割り当てられた周波数帯域成分のみを抽出した音声信号を取得することができる。周波数帯域割り当て部２４は、割り当てパターンに応じて、Ｎ個のブロックに対しＮビットの選択／非選択の情報を入力し、振幅調整部５２のＮ個の振幅調整回路のそれぞれは、対応するビットの情報を参照し、非選択の振幅調性回路が振幅を０にする調整を行えばよい。

次に周波数帯域割り当て部２４が行う、周波数帯域の割り当て方について説明する。図３では複数の音声信号を分離して認識させる手法を説明するため、「音ａ」と「音ｂ」とでほぼ均等に周波数帯域のブロックの割り当てを行った。一方、ブロックを割り当てる数に大小をつけることにより、同時に聴かせる音のそれぞれの聞こえ方をさらに調整することができる。図６はブロックの割り当てパターンの例を模式的に示している。

同図は、可聴帯域を７個のブロックに分割した場合について示している。図３と同様、横軸に周波数をとり、説明の便宜上、低域側のブロックからブロック１、ブロック２、・・・、ブロック７とする。まず「パターン群Ａ」と記載された上から３つの割り当てパターンに着目する。これらのパターンのうち、最上段のパターンは最も割り当てられるブロックの数が大きいため、最も聞こえやすい。下の段に行くほど割り当てる数が減少するため、音の聞こえやすさが減少していく。ここで、割り当てるブロック数で決定される聞こえやすさの度合いを「フォーカス値」と呼ぶ。同図では、各割り当てパターンの左側に、フォーカス値として与えられる数値が例示されている。

ある音声信号の聞こえやすさの度合いを最高とする場合、すなわち他の音声信号と比較し最も聞き取り易くする場合、フォーカス値が１．０の割り当てパターンを当該音声信号に適用する。同図の「パターン群Ａ」では、ブロック２、ブロック３、ブロック５、およびブロック６の４つのブロックが同じ音声信号に割り当てられる。

ここで同じ音声信号の聞こえやすさの度合いを少し低下させる場合、割り当てパターンを例えばフォーカス値が０．５の割り当てパターンに変更する。同図の「パターン群Ａ」では、ブロック１、ブロック２、ブロック３の３つのブロックが割り当てられる。同様に同じ音声信号の聞こえやすさの度合いを最低としたい場合、すなわち聞き取れる範囲で最も目立たなくする場合は、割り当てパターンを、フォーカス値が０．１の割り当てパターンに変更する。同図の「パターン群Ａ」では、ブロック１の１つのブロックが割り当てられる。本実施の形態では、後に述べるように、報知情報受信部１９が受信した、報知を必要とする情報の重要度によって、報知音および音楽のフォーカス値を相対的に変化させる。

同図に示すとおり、強調の度合いが最高である、フォーカス値が１．０の音声信号に対しても、全てのブロックを割り当ててしまわないようにすることが望ましい。同図ではブロック１、ブロック４、およびブロック７が割り当てられていない。これは、例えばブロック１をフォーカス１．０の音声信号にも割り当ててしまうと、ブロック１のみを割り当てられたフォーカス値０．１の別の音声信号の周波数成分をマスキングしてしまう可能性があるためである。本実施の形態では、複数の音声信号を分離して聴かせつつ、フォーカス値が低くても聞き取りが可能となることが望ましい。そのため、フォーカス値が低い音声信号に割り当てられたブロックは、フォーカス値が高い音声信号には割り当てないようにする。

以上の説明は「パターン群Ａ」に着目して行ったが、「パターン群Ｂ」、「パターン群Ｃ」のように、同じフォーカス値でも様々な割り当てパターンが存在する。周波数帯域割り当て部２４は、報知情報解析部２０から、報知音の周波数帯域についての情報を取得すると、最低のフォーカス値であっても、報知音の周波数帯域とかけ離れた帯域を割り当てないように、好ましくは報知音の周波数帯域は報知音に割り当てられるように、あらかじめ割り当て情報記憶部２２に用意しておいた割り当てパターン群から最適なものを決定する。

音楽についても同様に、最低のフォーカス値でも、特徴的な周波数帯域が可能な限り抽出されるように、割り当て情報記憶部２２に用意しておいた割り当てパターン群から最適なものを選択する。音楽の特徴的な周波数帯域は、音楽ファイルとともに音楽ファイル記憶部２８に格納されたメタデータなどから取得する。このとき、特徴的な周波数帯域についての直接的な情報を取得してもよいし、ジャンルや楽器名、女声か男声か、などの一般的な書誌情報から、推奨されるパターン群を導出するルールをあらかじめ割り当て情報記憶部２２に設定しておいてもよい。なおいずれのパターン群においても、フォーカス値０．１で割り当てられるブロックは、フォーカス値１．０では割り当てられないブロックである。この理由は既に述べたとおりである。

ここで割り当て情報記憶部２２に記憶させておく割り当てパターンは、フォーカス値０．１、０．５、１．０以外のフォーカス値を含んでよい。しかしながらブロックの個数は有限であるため、あらかじめ準備できる割り当てパターンは限られる。そのため割り当て情報記憶部２２に記憶されていないフォーカス値の場合は、その前後のフォーカス値で、割り当て情報記憶部２２に記憶されている直近のフォーカス値の割り当てパターンを補間することによって割り当てパターンを決定する。補間の方法としては、ブロックをさらに分割して割り当てる周波数帯域を調整したり、あるブロックに属する周波数成分の振幅を調整したりする。

次に、報知情報解析部２０が行う、受信した情報の重要度の判定について説明する。図７は、割り当て情報記憶部２２に格納され、報知情報解析部２０が参照する重要度判定テーブルの例を示している。なお同図に示す重要度判定の根拠は、理解を容易にするために概念的に記載しているが、実際には周波数の値や音色の種類、設定されたテキストデータなど、さらに具体的に設定してよい。重要度判定テーブル６０は、重要度欄６２、報知音欄６４、および電子メール・報知内容欄６６を含む。

報知音欄６４および電子メール・報知内容欄６６に記載されている内容は、報知情報解析部２０が報知音の設定および受信した電子メールや報知の内容を解析した結果、それぞれ得られる特徴を示しており、各特徴を、重要度欄６２に示した「大」、「中」、「小」の三段階の重要度で区別している。例えば報知音の設定が、「スイープ音」や「サイレン音」であることが受信した情報から取得できたら、それは重要度を「大」と設定する。この場合は「報知音」を解析対象としているので、受信した情報の種類は問わなくてよい。一方、受信した情報が電子メールである場合、当該電子メールの題名に「緊急」の文字が含まれていたり、顧客など重要な相手からの電子メールである場合、重要度を「大」とする。

ここで電子メールの題名は、形態素解析など一般的な文書解析技術で解析することにより、「緊急」など特定の単語を抽出することができる。電子メールの送信元は、ユーザがあらかじめ重要と考える送信元のアドレスを設定しておき、報知情報解析部２０が受信した電子メールのヘッダに含まれる送信元アドレスと比較するなどして判断する。また、電子メール以外でも、報知システムからの報知であれば、あらかじめ設定されたアドレスやＩＤなどで「災害緊急連絡」の報知であることを判断する。電話の送信元も電子メールの送信元と同様である。

同様に、報知音の設定が「ビープ音」である場合は重要度を「中」、「メロディ音」である場合は重要度を「小」とする。一方、電子メールの本文を形態素解析した結果、ユーザが設定した定型文が含まれていた場合や、ベイジアンフィルタを用いた解析によりスパムメールであると判定された場合に重要度を「小」とする。電子メール・報知内容で解析する場合、上述した例以外は重要度を「中」とする。なお図７で示したテーブルの内容はあくまで例示であり、受信する情報の種類やユーザの好みなどにより適宜設定を行う。

また、報知音欄６４および電子メール・報知内容欄６６は、報知情報解析部２０が受信した情報のうち、設定された報知音、あるいは情報そのものの内容のいずれかを解析して、いずれかの欄を参照し、あてはまる特徴を検索するものであるが、報知音と情報そのものの内容とを組み合わせた条件で重要度を判定するようにしてもよい。

重要度判定テーブル６０を参照して報知情報解析部２０が重要度を判定すると、周波数帯域割り当て部２４は、当該情報に基づき、音楽および報知音のフォーカス値を決定する。図８は割り当て情報記憶部２２に格納され、周波数帯域割り当て部２４が参照するフォーカス値テーブルの例を示している。フォーカス値テーブル７０は、重要度欄７２、音楽欄７４、および報知音７６を含む。周波数帯域割り当て部２４は、受信した情報の重要度を重要度欄７２より検索し、その状況における音楽および報知音のフォーカス値の最適値を、音楽欄７４および報知音欄７６からそれぞれ取得する。

例えば情報の重要度が「大」であると判定されたら、音楽のフォーカス値を「０．１」とし、報知音のフォーカス値を「０．９」とする。すなわち、音楽を少ない周波数帯域で出力して控えめに聴かせるとともに、報知音をより大きな周波数帯域で出力して強調する。同様に重要度が「中」であれば音楽のフォーカス値、報知音のフォーカス値をいずれも「０．５」とする。これは、音楽の周波数帯域をある程度下げ、報知音も同程度の聞き取りやすさで出力する、ということになる。また重要度が「小」であれば、音楽のフォーカス値を「０．９」とし、報知音のフォーカス値を「０．１」とする。これは、音楽の周波数帯域をほとんど変化させずに、報知音を控えめに聞かせる状態である。

本実施の形態では、音を単に振幅のみで調整するのではなく、周波数帯で調整し、報知音が有する周波数帯域は優先させるなどの規則のもと、調整を行うため、例えば重要度の小さい情報の場合、聴いている音楽はほぼそのままの状態で、それでも報知音が確実にユーザの耳に届くように聴かせることができる。そのため周波数帯域割り当て部２４は、フォーカス値のみならず上述のように周波数帯域の割り当てパターンも、音に合わせて選択する。したがって、重要度が「中」の場合に音楽と報知音のフォーカス値がどちらも「０．５」であっても、互いを打ち消し合うことのない異なるパターン群から割り当てパターンを選択すれば、２つの音を独立して同程度の聞き取りやすさで聴くことができる。

なお図８のフォーカス値テーブル７０の各欄に記載された値は例示であり、実際の聞きやすさなどを試験したうえで決定してもよい。また同図では、音楽と報知音のフォーカス値は、各重要度において和を１としているが、それに限定する趣旨ではない。

次にこれまで述べた構成による動作を説明する。図９はユーザ端末１２ａが音楽を再生中に、報知の必要な情報を処理する手順を示すフローチャートである。まずユーザが、入力部２９に対し、音楽ファイル記憶部２８に格納された音楽ファイルからの選択入力を行うと、再生部３０は当該ファイルを読み出して再生し、出力部３４がその音響を出力する（Ｓ１０）。報知情報受信部１９が、報知の必要な情報を取得しない間は（Ｓ１２のＮ）、音楽の通常再生および出力を継続する（Ｓ１０）。このとき、全周波数帯域が音楽に割り当てられている。

報知情報受信部１９が、報知の必要な情報を受信したら（Ｓ１２のＹ）、報知情報解析部２０は、当該情報に含まれる報知音の設定や、情報として受信した電子メールの内容、電話の送信元、情報の種類など所定の情報を取得し、重要度判定テーブル６０を参照して当該情報の重要度を判定する（Ｓ１４）。すると周波数帯域割り当て部２４は、重要度に基づきフォーカス値テーブル７０を参照し、再生中の音楽および報知音のフォーカス値を決定する（Ｓ１６）。

次に周波数帯域割り当て部２４は、割り当て情報記憶部２２に格納された、周波数帯域の割り当てパターン群から、音楽および報知音に適した割り当てパターン群を選択し、音声処理部３２の２つの周波数帯域抽出部に、選択した割り当てパターン群およびフォーカス値で決定される割り当てパターンの情報をそれぞれ設定する（Ｓ１８）。音楽の割り当てパターン群は、報知音の有無に関わらず、再生を開始した時点で決定してもよい。あるいは、報知音に適した割り当てパターン群を決定してから、当該パターン群と別のパターン群を音楽に割り当てることにより、報知音の聞こえやすさを優先させるようにしてもよい。

一方、報知音発生部２６は、受信した情報で設定されている報知音を発生させる（Ｓ２０）。すると音声処理部３２は、設定された割り当てパターンで、報知音および音楽の周波数帯域成分を抽出し、合成する（Ｓ２２）。そして出力部３４が合成された音を出力する（Ｓ２４）。その後、ユーザが音楽を停止する指示入力を入力部２９に対し行った場合は（Ｓ２６のＹ）、音に係るそれまでの処理を停止する。この場合、ユーザが電子メールを開く、電話に出るなどの行為を携帯端末１２ａを用いて行うことが考えられるが同図ではそれらの処理は省略している。

ユーザが音楽を停止する指示入力を行わなかった場合は（Ｓ２６のＮ）、音楽の通常再生および出力処理が引き続き行われる。設定された報知音が鳴り続ける種類のものであった場合は、Ｓ２４以後、いずれかの段階でユーザが報知音の停止を指示入力した後、Ｓ１０の、音楽の通常再生、出力処理に切り替える。このときの通常再生は、報知音を同時に発生させる前の通常再生時と同様、全ての周波数帯域を音楽に割り当てた状態である。なお、Ｓ２４で合成音を出力する直前まで、Ｓ１０音楽の通常再生、出力の処理は継続しているものとする。

以上述べた本実施の形態によれば、ユーザが端末を用いて音楽、テレビ、ラジオなどを楽しんでいる最中に、報知の必要な情報を受信したら、再生中の音楽および報知音に、それぞれに適した周波数帯域を割り当てて出力することにより同時に聴かせる。このとき割り当てる周波数帯域の少なくとも一部が重ならないようにすることで、音楽を聴きながら報知音を認識することが可能になる。結果として、音楽などを楽しんでいる気分を報知音で害されたり、テレビの音声などで重要な部分を聞き逃したりすることなく、報知があったことも同時に認識できる。また、報知音によって音楽を一時停止したりすることもないため、音楽の連続性も保たれる。

周波数帯域の割り当てには、報知音が有する周波数帯域を設定から確認し、報知音には含まれない周波数帯域を報知音に割り当てないようにする。これにより、抽出した周波数帯域成分に報知音が含まれていなかったり、音楽にかき消されてしまったりすることが少なくなる。

また報知音の元となる、受信した情報を解析し、その重要度を判定する。そしてその重要度に基づき、割り当てる周波数帯域のブロックの数を、音楽と報知音で相対的に調整する。これにより、緊急に対処しなければならない情報、重要であるが緊急でない情報、それほど重要でなく緊急でもない情報、などの場合分けを、報知音のみで判断することができる。このとき、報知音の周波数帯域のみならず、音楽の周波数帯域も調整することにより、ロックなどの激しい曲を聴いているときでも、バラードなど静かな曲を聴いているときでも、ほぼ同じ条件で報知音の重要性を認識することができ、報知音に音楽がかぶさり聞こえづらかったため重要と思わなかった、といった過誤の発生を防止することができる。

以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

本実施の形態を適用できるシステムの構成例を示す図である。本実施の形態におけるユーザ端末の詳細な構成を示す図である。本実施の形態における周波数帯域の割り当てについて説明するための図である。本実施の形態における音声処理部の詳細な構成を示す図である。本実施の形態における第１周波数帯域抽出部の詳細な構成を示す図である。本実施の形態においてブロックの割り当て方のパターンを模式的に示す図である。本実施の形態において割り当て情報記憶部に格納される重要度判定テーブルの例を示す図である。本実施の形態において割り当て情報記憶部に格納されるフォーカス値テーブルの例を示す図である。本実施の形態にいてユーザ端末が音楽を再生中に報知の必要な情報を処理する手順を示すフローチャートである。

符号の説明

１情報受信システム、１２ａユーザ端末、１９報知情報受信部、２０報知情報解析部、２２割り当て情報記憶部、２４周波数帯域割り当て部、２６報知音発生部、２８音楽ファイル記憶部、２９入力部、３０再生部、３２音声処理部、３４出力部、４０第１周波数帯域抽出部、４２第２周波数帯域抽出部、５０フィルタバンク、５２振幅調整部。

Claims

コンテンツに含まれる音声信号を再生する再生部と、
所定の情報をユーザに報知するための報知音を発生させる報知音発生部と、
前記再生部が音声信号を再生中、前記報知音を発生させる必要性が生じた際、当該報知音によって報知すべき情報を解析し、あらかじめ定められた、情報の重要度を決定づける条件と照合することにより、前記報知すべき情報の重要度を判定する報知情報解析部と、
前記報知情報解析部が判定した重要度に応じて、再生中の音声信号と、報知音に割り当てる周波数帯域の総帯域幅を調整したうえ、当該音声信号と報知音のそれぞれに対して異なるパターンで周波数帯域を割り当てる周波数帯域割り当て部と、
前記周波数帯域割り当て部が割り当てた周波数帯域のパターンで、前記再生部が再生した音声信号と、前記報知音発生部が発生させた報知音のそれぞれから、割り当てた周波数帯域成分を抽出して合成する音声処理部と、
前記音声処理部が合成した音声信号を音響として出力する出力部と、
を備えたことを特徴とする情報処理装置。
前記報知音発生部が発生させる報知音の周波数帯域を特定する報知情報解析部をさらに備え、
前記周波数帯域割り当て部は、前記報知情報解析部が特定した報知音の周波数帯域を、報知音に優先的に割り当てることを特徴とする請求項１に記載の情報処理装置。
ネットワークを介して接続されたサーバから、前記報知すべき情報を受信する報知情報受信部をさらに備え、
前記報知音発生部は、前記報知情報受信部が前記報知すべき情報を受信することにより、当該情報にて設定された報知音を発生させることを特徴とする請求項１に記載の情報処理装置。
前記周波数帯域割り当て部は、前記重要度が高いほど、前記報知音に割り当てる周波数帯域の総帯域幅を大きくし、前記再生中の音声信号に割り当てる周波数帯域の総帯域幅を小さくすることを特徴とする請求項１から３のいずれかに記載の情報処理装置。
前記重要度を決定づける条件は、前記報知すべき情報にて設定された報知音の音の種類によって重要度を決定づけることを特徴とする請求項１から４のいずれかに記載の情報処理装置。
前記重要度を決定づける条件は、前記報知すべき情報である電子メールまたは電話の送信元がユーザが設定した人物であるか否かによって重要度を決定づけることを特徴とする請求項１から４のいずれかに記載の情報処理装置。
前記重要度を決定づける条件は、あらかじめユーザが設定した、前記報知すべき情報である電子メールにユーザが設定した定型文が含まれるか否かによって重要度を決定づけることを特徴とする請求項１から４のいずれかに記載の情報処理装置。
情報処理装置において再生部が、コンテンツに含まれる音声信号をメモリより読み出し再生するステップと、
報知情報解析部が、前記再生部が前記音声信号を再生中、所定の情報をユーザに報知するための報知音を発生させる必要性が生じた際、当該報知音によって報知すべき情報を解析し、あらかじめ定められた、情報の重要度を決定づける条件と照合することにより、前記報知すべき情報の重要度を判定するステップと、
周波数帯域割り当て部が、前記報知情報解析部が判定した重要度に応じて、再生中の音声信号と、報知音に割り当てる周波数帯域の総帯域幅を調整したうえ、当該音声信号と報知音のそれぞれに対して異なるパターンで周波数帯域を割り当てるステップと、
報知音発生部が、前記報知音を発生させるステップと、
音声処理部が、前記周波数帯域割り当て部が割り当てた周波数帯域のパターンで、前記再生部が再生した音声信号と、前記報知音発生部が発生させた報知音のそれぞれから、割り当てた周波数帯域成分を抽出して合成するステップと、
出力部が、前記音声処理部が合成した音声信号を音響として出力するステップと、
を含むことを特徴とする情報処理方法。
コンテンツに含まれる音声信号をメモリより読み出し再生する機能と、
前記音声信号を再生中、所定の情報をユーザに報知するための報知音を発生させる必要性が生じた際、当該報知音によって報知すべき情報を解析し、あらかじめ定められた、情報の重要度を決定づける条件と照合することにより、前記報知すべき情報の重要度を判定する機能と、
判定した重要度に応じて、再生中の音声信号と、報知音に割り当てる周波数帯域の総帯域幅を調整したうえ、当該音声信号と、前記報知音のそれぞれに対して異なるパターンで周波数帯域を割り当てる機能と、
前記報知音を発生させる機能と、
割り当てた周波数帯域のパターンで、再生した音声信号と、発生させた報知音のそれぞれから、割り当てた周波数帯域成分を抽出して合成する機能と、
合成した音声信号を音響として出力する機能と、
をコンピュータ実現させることを特徴とするコンピュータプログラム。