JP7131550B2 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP7131550B2
JP7131550B2 JP2019519059A JP2019519059A JP7131550B2 JP 7131550 B2 JP7131550 B2 JP 7131550B2 JP 2019519059 A JP2019519059 A JP 2019519059A JP 2019519059 A JP2019519059 A JP 2019519059A JP 7131550 B2 JP7131550 B2 JP 7131550B2
Authority
JP
Japan
Prior art keywords
voice
information processing
utterance
information
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019519059A
Other languages
English (en)
Other versions
JPWO2018211750A1 (ja
Inventor
広 岩瀬
真里 斎藤
真一 河野
祐平 滝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018211750A1 publication Critical patent/JPWO2018211750A1/ja
Application granted granted Critical
Publication of JP7131550B2 publication Critical patent/JP7131550B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Description

本開示は、情報処理装置および情報処理方法に関する。
近年、音声を用いてユーザに情報通知などを行う種々の装置が普及している。また、上記のようなエージェント装置による情報通知に関し、出力時の状況に応じた制御を行う技術も多く開発されている。例えば、特許文献1には、音楽の再生時に情報通知を行う場合、再生中の音楽のジャンルに調和する発話形式を選択する技術が開示されている。
国際公開第2007/091475号
しかし、特許文献1に開示される技術では、情報通知の重要度が高い場合であっても、再生中の音楽と調和する発話形式が選択されることとなる。この場合、音声発話が音楽に埋没してしまい、ユーザが重要な情報通知を見逃す可能性も生じ得る。
そこで、本開示では、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。
本開示によれば、通知情報に対応する音声発話の出力を制御する発話制御部、を備え、前記発話制御部は、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御する、情報処理装置が提供される。
また、本開示によれば、プロセッサが、通知情報に対応する音声発話の出力を制御すること、を含み、前記制御することは、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御すること、をさらに含む、情報処理方法が提供される。
以上説明したように本開示によれば、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示に係る技術思想の概要について説明するための図である。 本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。 同実施形態に係る再生装置の機能ブロック図の一例である。 同実施形態に係る情報処理端末の機能ブロック図の一例である。 同実施形態に係る情報処理サーバの機能ブロック図の一例である。 同実施形態に係る判定部による通知情報の重要度判定について説明するための図である。 同実施形態に係る発話制御部により制御される出力態様の一例を示す図である。 同実施形態に係る発話制御部による複数の音声発話に係る同時制御について説明するための図である。 同実施形態に係る背景音と調和した関連通知の制御について説明するための図である。 同実施形態に係る環境音との親和性に係る出力態様の制御について説明するための図である。 同実施形態に係るゲーム中の背景音との親和性に係る出力態様の制御について説明するための図である。 同実施形態に係る歌声や発話などのキャンセル処理を伴う出力態様の制御について説明するための図である。 同実施形態に係る情報処理サーバによる制御の流れを示すフローチャートである。 本開示の一実施形態に係るハードウェア構成例を示す図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.実施形態
1.1.概要
1.2.システム構成例
1.3.再生装置10の機能構成例
1.4.情報処理端末20の機能構成例
1.5.情報処理サーバ30の機能構成例
1.6.制御の具体例
1.7.制御の流れ
2.ハードウェア構成例
3.まとめ
<1.実施形態>
<<1.1.概要>>
上述したように、近年においては、音声発話により情報通知などを行う種々の装置が普及している。上記のような装置が情報通知を行う際の状況は多様であり、例えば、音楽などの背景音が存在する状況で音声発話による情報通知が行われる場合も少なくない。
しかし、例えば、音楽の再生時に音声発話が出力される場合、音声発話が音楽の雰囲気を著しく損ねたり、音声発話と歌声とが拮抗することによりユーザが情報通知の内容を把握し損ねたりする場合も想定される。
このため、音声発話による情報通知においては、背景音に調和する音声を適切なタイミングで出力することが求められる。
しかし、上記のような制御が常時行われる場合、反対に利便性を損ねるケースも考えられる。例えば、情報通知の重要度が高い場合、背景音と調和する音声を用いることで、情報通知が背景音に埋没してしまい、ユーザが重要な情報通知を見逃す懸念が生じる。したがって、音声発話による情報通知は、当該情報通知の重要度および背景音との親和性の両者を考慮して制御されることが望ましい。
本開示に係る技術思想は、上記の点に着目して発想されたものであり、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能とする。このために、本開示の一実施形態に係る情報処理装置および情報処理方法は、通知情報の重要度、および背景音との親和性に基づいて、音声発話の出力態様を制御すること、を特徴の一つとする。
図1は、本開示に係る技術思想の概要について説明するための図である。図1に示す再生装置10は、音楽や動画などのコンテンツを再生する装置であり、情報処理端末20は、本実施形態に係る情報処理サーバ30による制御に基づいて音声発話による情報通知を行う装置である。
図1の上段には、情報通知の重要度が比較的低い場合における音声発話の出力制御の例が示されている。情報通知の重要度が比較的低い場合、本実施形態に係る情報処理サーバ30は、背景音BSに対し親和性の高い出力態様で情報処理端末20に音声発話SO1を出力させることができる。すなわち、本実施形態に係る情報処理サーバ30は、再生装置10から出力される背景音BSに調和する出力態様で情報処理端末20に音声発話SO1を出力させる。
ここで、上記の出力態様には、音声発話の出力タイミング、声質、韻律、効果などが含まれる。情報通知の重要度が比較的低い場合、情報処理サーバ30は、例えば、音楽である背景音BSに含まれるヴォーカルと類似する声質、韻律、効果を設定し、情報処理端末20による音声発話SO1の出力を制御してもよい。
ここで、上記の声質には、話者の性別や高さ、音声の高低などが含まれる。また、上記の韻律には、音声のリズム、強弱、長短などが含まれる。また、上記の効果には、例えば、音声の音質や信号処理による種々の加工状態が含まれる。
なお、本開示に係る図面において、背景音と発話音声に係る文字装飾は上記の声質、韻律、効果など示すものとする。例えば、図1の上段においては、背景音BSと音声発話SO1とに係る文字装飾が同一であることにより、音声発話SO1が背景音BSと類似する声質、韻律、または効果で出力されていることが示されている。
また、情報通知の重要度が比較的低い場合、情報処理サーバ30は、背景音BSが含む主要部を阻害しない出力タイミングを設定し、当該出力タイミングで音声発話SO1を情報処理端末20に出力させることができる。ここで、上記の主要部は、例えば、楽曲におけるヴォーカル部分、コーラス、主題など、動画やゲームにおける発話部分、クライマックスなどの盛り上がりを指す。図1の上段に示す一例の場合、情報処理サーバ30は、背景音BSのヴォーカルと重複しないように、音声発話SO1を出力させている。
このように、本実施形態に係る情報処理サーバ30は、重要度の比較的低い情報通知に関しては、背景音BSとの親和性が高くなるように、すなわち背景音BSと調和するように、音声発話SO1の出力態様を制御することができる。情報処理サーバ30が有する上記の機能によれば、音楽などの背景音BSの雰囲気を阻害することなく、より自然な情報通知を実現することが可能となる。
一方、図1の下段には、情報通知の重要度が比較的高い場合における音声発話の出力制御の例が示されている。情報通知の重要度が比較的高い場合、本実施形態に係る情報処理サーバ30は、背景音BSに対し親和性の低い出力態様で情報処理端末20に音声発話SO2を出力させてよい。すなわち、本実施形態に係る情報処理サーバ30は、再生装置10から出力される背景音BSに対し音声発話SO2が強調される出力態様を設定し、情報処理端末20に音声発話SO2を出力させることができる。
図1の下段においては、背景音BSと音声発話SO2とに係る文字装飾が異なることにより、音声発話SO2が背景音BSと類似しない声質、韻律、または効果で出力されていることが示されている。
また、情報通知の重要度が比較的高い場合、情報処理サーバ30は、背景音BSに対し音声発話SO2が強調される出力タイミングを設定し、当該出力タイミングで音声発話SO2を情報処理端末20に出力させることができる。情報処理サーバ30は、例えば、図示するように、音声発話SO2を背景音BSに含まれるヴォーカルと重複するように出力させることで、音声発話SO2を強調してもよい。一方、情報処理サーバ30は、例えば、背景音BSの主要部など、盛り上がりの激しい部分では、ユーザの注意が情報通知に向かないことを想定し、主要部を避けて出力を行わせることで、音声発話SO2を強調することもできる。
このように、本実施形態に係る情報処理サーバ30は、重要度の比較的高い情報通知に関しては、背景音BSとの親和性が低くなるように、すなわち背景音BSに対して音声発話SO2が強調されるように出力態様を制御することができる。情報処理サーバ30が有する上記の機能によれば、音楽などの背景音BSが存在する場合、背景音BSに対して音声発話SO2を強調することで、ユーザが重要な情報通知を見逃す恐れを効果的に低減することが可能となる。
以上、本開示に係る技術思想の概要について説明した。なお、上記では、背景音が再生装置10により再生される音楽などのコンテンツである場合を例に挙げて説明したが、本実施形態に係る背景音には、音楽、発話、環境音などの種々の音が含まれる。また、本実施形態に係る背景音は、再生装置10から出力される音に限らず、情報処理端末20により収集され得る種々の音であってよい。本実施形態に係る背景音の具体例については、別途詳細に説明する。
<<1.2.システム構成例>>
次に、本実施形態に係るシステム構成例について説明する。図2は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理システムは、再生装置10、情報処理端末20、および情報処理サーバ30を含み得る。また、再生装置10と情報処理サーバ30、情報処理端末20と情報処理サーバ30は、ネットワーク40を介して互いに通信が行えるように接続される。
(再生装置10)
本実施形態に係る再生装置10は、背景音に該当する音楽や音声、その他の音などを再生する装置である。再生装置10は、音楽コンテンツや動画コンテンツなどを再生する種々の装置であり得る。本実施形態に係る再生装置10は、例えば、オーディオ機器、テレビジョン装置、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、エージェント装置、電話機などであってもよい。
(情報処理端末20)
本実施形態に係る情報処理端末20は、情報処理サーバ30による制御に基づいて、音声発話を出力する装置である。また、本実施形態に係る情報処理端末20は、再生装置10により出力される音や、周囲で生じた種々の音を背景音として収集する機能を有する。本実施形態に係る情報処理端末20は、例えば、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、エージェント装置などであってよい。
(情報処理サーバ30)
本実施形態に係る情報処理サーバ30は、情報処理端末20が収集した背景音と情報通知の重要度とに基づいて、情報処理端末20による音声発話の出力態様を制御する情報処理装置である。上述したように、本実施形態に係る情報処理サーバ30は、情報通知の重要度が比較的低い場合においては、背景音に対し親和性の高い出力態様を設定し、情報処理端末20に音声発話を行わせることができる。一方、情報通知の重要度が比較的高い場合においては、背景音に対し親和性の低い出力態様を設定し、情報処理端末20に音声発話を行わせることができる。
(ネットワーク40)
ネットワーク40は、再生装置10と情報処理サーバ30、情報処理端末20と情報処理サーバ30を接続する機能を有する。ネットワーク40は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク40は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク40は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図2を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理システムの機能構成は係る例に限定されない。例えば、本実施形態に係る背景音は、再生装置10から出力される音に限定されない。このため、本実施形態に係る情報処理システムは、必ずしも再生装置10を含まなくてもよい。また、再生装置10と情報処理端末20が有する機能は、単一の装置により実現されてもよい。同様に、情報処理端末20と情報処理サーバ30が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.3.再生装置10の機能構成例>>
次に、本実施形態に係る再生装置10の機能構成例について詳細に説明する。図3は、本実施形態に係る再生装置10の機能ブロック図の一例である。図3を参照すると、本実施形態に係る再生装置10は、再生部110、処理部120、および通信部130を備える。
(再生部110)
本実施形態に係る再生部110は、音楽コンテンツや動画コンテンツなどを再生する機能を有する。このために、本実施形態に係る再生部110は、各種の表示装置やアンプ、スピーカなどを備える。
(処理部120)
本実施形態に係る処理部120は、再生部110によるコンテンツ再生に係る種々の処理を実行する。本実施形態に係る処理部120は、例えば、後述する歌声や発話などのキャンセル処理を実行することができる。また、本実施形態に係る処理部120は、コンテンツ再生に係る処理のほか、再生装置10の特性に応じた種々の制御を行ってよい。
(通信部130)
本実施形態に係る通信部130は、ネットワーク40を介して情報処理サーバ30との情報通信を実現する機能を有する。具体的には、通信部130は、再生部110が再生するコンテンツに係る情報を情報処理サーバ30に送信してもよい。また、通信部130は、歌声や発話などのキャンセル処理に係る制御信号を情報処理サーバ30から受信してもよい。
以上、本実施形態に係る再生装置10の機能構成例について詳細に説明した。なお、図3を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る再生装置10の機能構成は係る例に限定されない。本実施形態に係る再生装置10は、図3に示す以外の構成をさらに含んでもよい。再生装置10は、例えば、ユーザによる入力操作を受け付ける入力部などをさらに含み得る。また、再生部110や処理部120が有する機能は、情報処理端末20により実現されてもよい。本実施形態に係る再生装置10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.4.情報処理端末20の機能構成例>>
次に、本実施形態に係る情報処理端末20の機能構成例について詳細に説明する。図4は、本実施形態に係る情報処理端末20の機能ブロック図の一例である。図4を参照すると、本実施形態に係る情報処理端末20は、音声入力部210、センサ部220、音声出力部230、および通信部240を備える。
(音声入力部210)
本実施形態に係る音声入力部210は、背景音やユーザによる発話を収集する機能を有する。上述したように、本実施形態に係る背景音には、再生装置10により再生される音の他、情報処理端末20の周囲で生じる種々の音が含まれる。本実施形態に係る音声入力部210は、背景音を収集するためのマイクロフォンを備える。
(センサ部220)
本実施形態に係るセンサ部220は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。本実施形態に係るセンサ部220は、例えば、加速度センサ、角速度センサ、地磁気センサ、光センサ、温度センサ、GNSS(Global Navigation Satellite System)信号受信機、各種の生体センサなどを含む。なお、上記の生体センサは、例えば、ユーザの脈拍、血圧、脳波、呼吸、体温などに関する情報を収集するセンサを含む。本実施形態に係るセンサ部220が収集したセンサ情報は、情報処理サーバ30による情報通知の重要度判定に用いられ得る。
(音声出力部230)
本実施形態に係る音声出力部230は、情報処理サーバ30による制御に基づいて、音声発話を出力する機能を有する。この際、本実施形態に係る音声出力部230は、情報処理サーバ30が設定した出力態様に対応する音声発話を出力することを特徴の一つとする。音声出力部230は、音声発話を出力するためのアンプやスピーカを備える。
(通信部240)
本実施形態に係る通信部240は、ネットワーク40を介して情報処理サーバ30との情報通信を行う機能を有する。具体的には、通信部240は、音声入力部210が収集した背景音やセンサ部220が収集したセンサ情報を情報処理サーバ30に送信する。また、通信部240は、情報処理サーバ30から音声発話に用いられる人工音声を受信する。
以上、本実施形態に係る情報処理端末20の機能構成例について詳細に説明した。なお、図4を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理端末20の機能構成は係る例に限定されない。本実施形態に係る情報処理端末20は、図4に示す以外の構成をさらに備えてもよい。情報処理端末20は、例えば、再生装置10の再生部110に相当する構成をさらに備えてもよい。また、上述したように、本実施形態に係る情報処理端末20が有する機能は、情報処理サーバ30の機能として実現されてもよい。本実施形態に係る情報処理端末20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.5.情報処理サーバ30の機能構成例>>
次に、本実施形態に係る情報処理サーバ30の機能構成例について詳細に説明する。図5は、本実施形態に係る情報処理サーバ30の機能ブロック図の一例である。図5を参照すると、本実施形態に係る情報処理サーバ30は、解析部310、判定部320、プロパティDB330、発話制御部340、音声合成部350、信号処理部360、および通信部370を備える。
(解析部310)
本実施形態に係る解析部310は、情報処理端末20が収集した背景音や再生装置10から送信されるコンテンツの情報に基づいて、背景音に係る解析を行う機能を有する。具体的には、本実施形態に係る解析部310は、背景音に係る声質、韻律、音質、主要部などの解析を行うことができる。この際、解析部310は、音解析部分野において広く用いられる手法により上記の解析を行ってよい。
(判定部320)
本実施形態に係る判定部320は、通知情報の重要度を判定する機能を有する。なお、本実施形態に係る通知情報の重要度には、通知に係る緊急度が含まれる。図6は、本実施形態に係る判定部320による通知情報の重要度判定について説明するための図である。図示するように、本実施形態に係る判定部320は、入力される種々の情報に基づいて、通知情報の重要度を判定することができる。
具体的には、判定部320は、音声発話の内容を示す発話テキスト、通知情報の特性、通知情報に係るコンテキストデータ、通知情報を提示するユーザのユーザプロパティなどに基づいて、通知情報の重要度を判定してよい。
ここで、上記の通知情報の特性とは、通知情報の内容や分類を含んでよい。判定部320は、例えば、通知情報が、ニュース、天気、広告、コンテンツに関する関連情報、SNS(social networking service)を含むWeb情報の読み上げなど、不特定多数に配信される情報である場合には、当該通知情報の重要度が比較的低いと判定してもよい。判定部320が重要度が比較的低いと判定する通知情報には、上記の例のほか、ユーザが聞き逃した場合であっても損害が少なく、選択的に聴き取ることで利益となる種々の情報が含まれる。
一方、判定部320は、例えば、通知情報が、スケジュール、メッセージ、ユーザによる問い合わせへの応答、ナビゲーションなど、ユーザ個人に向けて通知される情報である場合には、当該通知情報の重要度が比較的高いと判定してもよい。判定部320が重要度が比較的高いと判定する通知情報には、上記の例のほか、ユーザが聞き逃した場合に不利益となり得る種々の情報が含まれる。
以上説明したように、本実施形態に係る判定部320は、通知情報の特性に基づいて、通知情報の重要度を判定することが可能である。なお、判定部320は、上記に例示したような通知情報の特性をメタデータとして取得してもよいし、発話テキストを解析することで取得してもよい。
また、通知情報の特性が同一である場合であっても、通知情報を出力する際の状況によっては、ユーザにっと当該通知情報の重要度が変化することも想定される。このために、本実施形態に係る判定部320は、情報通知に係るコンテキストデータに基づいて、通知情報の重要度を判定してもよい。ここで、上記のコンテキストデータとは、通知情報が出力される際の状況を示す種々の情報を指す。本実施形態に係るコンテキストデータには、例えば、情報処理端末20が収集したセンサ情報や発話情報、ユーザのスケジュールなどが含まれる。
例えば、通知情報が地点Aの天気予報に関する情報である場合、当該通知情報の重要度は、通常時には比較的低いが、ユーザが地点Aに向かう予定である場合には、一時的に重要度が高くなると考えられる。この場合、判定部320は、収集された発話情報やスケジュール、ユーザにより入力された目的地情報などのコンテキストデータに基づいて、地点Aの天気予報に係る通知情報の重要度を判定することができる。
また、ユーザに警告や注意を促す通知情報も状況に応じて重要度が変化することが想定される。例えば、ユーザが音楽を聴きながらジョギングなどを行っている場合において、背後から車両が接近してきた状況、ユーザの体温や血圧の急激な上昇が検出された状況などには、判定部320は、当該状況に関する通知情報の重要度が高いと判定してよい。この際、判定部320は、情報処理端末20やその他の外部装置により収集されるセンサ情報などに基づいて、上記の判定を行うことができる。本実施形態に係る判定部320が有する上記の機能によれば、状況に応じて通知情報の重要度を適切に判定することができ、当該重要度に応じた音声発話の出力制御を実現することが可能となる。
また、通知情報の重要度は、全ユーザに共通するものではなく、ユーザごとに異なることも想定される。このために、本実施形態に係る判定部320は、通知情報を提示するユーザに関するユーザプロパティに基づいて、通知情報の重要度を判定してもよい。ここで、上記のユーザプロパティには、ユーザの特性や傾向などが含まれる。
例えば、判定部320は通知情報がニュースの配信に関するものであっても、ユーザが頻繁に閲覧するカテゴリのニュースである場合には、当該通知情報の重要度が高いと判定してもよい。一方、判定部320は、通知情報がメッセージの受信に関するものであっても、過去の傾向としてユーザによる返信が行われていない、または返信が遅い送信元からのメッセージである場合には、当該通知情報の重要度が低いと判定してもよい。
通知情報の重要度は、ユーザの性別や年齢、居住地などの特性に応じて変化することが想定される。このため、本実施形態に係る判定部320は、上記のような特性に基づいて、通知情報の重要度を判定してもよい。本実施形態に係る判定部320は、プロパティDB330に保持されるユーザプロパティの情報に基づいて、上記に例示したような判定を行うことができる。このように、本実施形態に係る判定部320が有する上記の機能によれば、ユーザの傾向や特性に応じたより柔軟な重要度判定が可能となる。
なお、本実施形態に係る判定部320は、通知情報に対し予め静的に設定される重要度を取得してもよい。予め静的に設定される重要度の例としては、メッセージ送信時に送信元が設定する重要度の情報や、通知情報のカテゴリなどに対しユーザが明示的に設定した重要度が挙げられる。
(プロパティDB330)
本実施形態に係るプロパティDB330は、上述したユーザプロパティに関する情報を保持、蓄積するデータベースである。なお、プロパティDB330は、ユーザプロパティに関する情報の他、情報処理端末20などにより収集されたセンサ情報や、音声発話の出力に対するユーザからのフィードバック情報などを蓄積してもよい。判定部320は、プロパティDB330が蓄積する種々の情報を分析、学習することで、判定精度を向上させることも可能である。
(発話制御部340)
本実施形態に係る発話制御部340は、通知情報に対応する音声発話の出力を制御する機能を有する。上述したように、本実施形態に係る発話制御部340は、通知情報の重要度、および背景音との親和性に基づいて、情報処理端末20による音声発話の出力態様を制御することを特徴の一つとする。本実施形態に係る発話制御部340による制御の具体例については、別途詳細に説明する。
(音声合成部350)
本実施形態に係る音声合成部350は、発話制御部340による制御に基づいて、音声発話に用いられる人工音声を合成する機能を有する。音声合成部350が生成する人工音声は、通信部370およびネットワーク40を介して情報処理端末20に送信され、音声出力部230により音声出力される。
(信号処理部360)
本実施形態に係る信号処理部360は、発話制御部340による制御に基づいて、音声合成部350が合成した人工音声に対する種々の信号処理を実行する。信号処理部360は、例えば、サンプリングレートの変更処理、フィルタによる特定の周波数成分のカット処理、ノイズ重畳によるSN比の変更処理などを行ってもよい。
(通信部370)
本実施形態に係る通信部370は、ネットワーク40を介して再生装置10や情報処理端末20などの装置と情報通信を行う機能を有する。具体的には、通信部370は、情報処理端末20などから、背景音、発話、センサ情報などを受信する。また、通信部370は、音声合成部350が合成した人工音声や当該人工音声に係る制御信号を情報処理端末20に送信する。また、通信部370は、後述する歌声や発話のキャンセル処理に係る制御信号を再生装置10に送信する。
以上、本実施形態に係る情報処理サーバ30の機能構成例について詳細に説明した。なお、図5を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ30に機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理サーバ30は、再生装置10や情報処理端末20と同一の装置として実現されてもよい。本実施形態に係る情報処理サーバ30の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.6.制御の具体例>>
次に、本実施形態に係る情報処理サーバ30による制御の詳細について具体例を挙げながら説明する。
(出力態様制御の具体例)
まず、本実施形態に係る出力態様制御の具体例について説明する。本実施形態に係る発話制御部340は、判定部320が通知情報の重要度が比較的低いと判定したことに基づいて、音楽などの背景音に対して親和性の高い出力態様を設定する。一方、発話制御部340は、判定部320が通知情報の重要度が比較的高いと判定したことに基づいて、背景音に対して親和性の低い出力態様を設定する。
図7は、本実施形態に係る発話制御部340により制御される出力態様の一例を示す図である。図7には、発話制御部340が通知情報の重要度に基づいて、音声発話に係る声質、効果、および韻律を制御する場合の一例が示されている。なお、図7では、デフォルト設定においては、話者設定が、声の高さが標準的である30代の女性であり、音声発話が高い音質かつ標準の速度で出力される場合の制御例が示される。
また、図7では、背景音に係る話者が、声の高さが低い60代の男性であり、また背景音の音質が低く、遅い速度である場合の一例が示されている。上記の話者は、例えば、音楽におけるヴォーカル、動画や現実世界における発話者などが含まれ得る。
ここで、通知情報の重要度が比較的高い場合、発話制御部340は、背景音に対し親和性の低い出力態様を設定することで、背景音に対し音声発話を際立たせることができる。具体的には、発話制御部340は、背景音に係る話者の声質とは類似しない話者を設定してもよい。図7に示す一例の場合、発話制御部340は、声の高さが高い10代の女性を設定することで、背景音に対し親和性の低い声質を実現している。また、発話制御部340は、音声発話が高い音質かつ早い速度で出力されるよう制御を行うことで、背景音に対し音声発話を強調してもよい。
一方、通知情報の重要度が比較的低い場合、発話制御部340は、背景音に対し親和性の高い出力態様を設定することで、背景音と調和した音声発話を実現することができる。具体的には、発話制御部340は、背景音に係る話者の声質と類似する話者を設定することができる。図7に示す一例の場合、発話制御部340は、背景音に係る話者と同一である、声の低い60代の男性を設定すること、背景音と調和する音声発話を出力させている。なお、発話制御部340は、背景音の話者と類似する声質の話者を設定するほか、例えば、ヴォーカルの声やユーザの好む声などを予め学習し、音声発話が学習済みの声質で出力されるよう制御を行ってもよい。
また、発話制御部340は、音声発話が低い音質かつ遅い速度で出力されるよう制御を行うことで、音声発話を背景音に調和させてもよい。発話制御部340は、音楽コンテンツの制作や発表時期などに応じて音声発話の音質を制御することも可能である。例えば、背景音として収集された音楽コンテンツの制作時期が比較定期古い場合にあっては、発話制御部340は、信号処理部360に音声発話の帯域を限定させたりノイズを付加させたりすることで、背景音と調和する音質で音声発話を出力させることができる。
以上説明したように、本実施形態に係る発話制御部340は、通知情報の重要度に応じて、声質、効果、韻律などの出力態様に係るパラメータを設定し、当該パラメータを音声合成部350や信号処理部360に引き渡すことで、音声発話に係る背景音との親和性を制御することが可能である。また、上述したように、本実施形態に係る発話制御部340は、音声発話の出力タイミングをさらに制御してよい。
(複数の音声発話に係る同時制御)
次に、本実施形態に係る発話制御部340による複数の音声発話に係る同時制御について説明する。本実施形態に係る発話制御部340は、複数の情報処理端末20による音声発話を同時に制御することも可能である。図8は、本実施形態に係る発話制御部340による複数の音声発話に係る同時制御について説明するための図である。
図8には、例えば、飛行機などにおいて、異なるユーザが異なる再生装置10aおよび10bをそれぞれ用いて動画コンテンツを視聴している状況が示されている。この際、本実施形態に係る発話制御部340は、機内アナウンスの重要度と、それぞれの動画コンテンツ、すなわち背景音との親和性とに基づいて、複数の音声発話SO3aおよびSO3bの出力態様を制御することができる。
例えば、機内アナウンスが目的地の天気に関する情報など、比較的重要度が低い場合、発話制御部340は、再生装置10aおよび10bにより再生される動画コンテンツに音声発話SO3aおよびSO3bが調和するように、それぞれの出力態様を制御してよい。すなわち、発話制御部340は、再生装置10aにより再生される動画コンテンツに調和するように音声発話SO3aの出力態様を設定し、再生装置10bにより再生される動画コンテンツに調和するように音声発話SO3bの出力態様を設定することができる。発話制御部340が有する上記の機能によれば、複数の再生装置10や情報処理端末20が存在する場合であっても、ユーザごとに状況に応じた適切な情報通知を行うことが可能となる。
(背景音と調和した関連通知の制御)
次に、本実施形態に係る背景音と調和した関連通知の制御について説明する。本実施形態に係る発話制御部340は、通知情報が背景音に係るコンテンツの内容と関連する場合、当該通知情報が背景音と調和するように出力態様を設定することで、より自然な情報通知を実現することも可能である。
図9は、本実施形態に係る背景音と調和した関連通知の制御について説明するための図である。図9には、再生装置10により全国の天気予報に関する放送プログラムが再生されている状況が示されている。この際、本実施形態に係る発話制御部340は、プロパティDB330に保持されるユーザの居住地やスケジュール情報として取得したユーザの目的地の天気に関する音声発話SO4を背景音に調和させて出力させることができる。具体的には、発話制御部340は、上記の放送プログラムにおけるキャスターの発話UO1と類似する声質を設定した音声発話SO4を発話UO1に続けて出力させることで、ユーザ個人に向けた情報をあたかもキャスターが発しているように、違和感のない情報通知を実現することができる。
(環境音との親和性に係る出力態様の制御)
次に、本実施形態に係る環境音との親和性に係る出力態様の制御について説明する。上述したように、本実施形態に係る背景音には、環境音が含まれる。本実施形態に係る発話制御部340は、背景音との親和性を考慮した出力態様の制御を行うことができる。
図10は、本実施形態に係る環境音との親和性に係る出力態様の制御について説明するための図である。図10には、ユーザがビーチにおいてくつろいでいる際に、発話制御部340が、緊急度の比較的低い通知情報に係る音声発話SO5を情報処理端末20に出力させる場合の一例が示されている。
この際、本実施形態に係る発話制御部340は、情報処理端末20により収集された波の音である背景音BSに対し親和性の高い出力態様を設定し、音声発話SO5を出力させてよい。発話制御部340は、例えば、波の音の高さに調和する声質や波のリズムに調和する韻律で音声発話SO5を出力させることができる。
本実施形態に係る発話制御部340が有する上記の機能によれば、環境音に応じた適切な出力態様で音声発話を出力させることが可能となり、例えば、休暇中であるユーザの気分を損なわない情報通知を実現することができる。なお、図10では、環境音が波の音である場合の一例を示したが、本実施形態に係る環境音には、例えば、鳥や虫の鳴き声、雨や風の音、花火の音、乗り物の進行に伴い発せられる音、雑踏の音など、種々の音が含まれる。
(ゲーム中の背景音との親和性に係る出力態様の制御)
次に、本実施形態に係るゲーム中の背景音との親和性に係る出力態様の制御について説明する。本実施形態に係る背景音には、例えば、ゲーム中において出力される種々の音が含まれる。このため、本実施形態に係る発話制御部340は、上記のような音との親和性を考慮して音声発話に係る出力態様を設定してよい。
図11は、本実施形態に係るゲーム中の背景音との親和性に係る出力態様の制御について説明するための図である。図11には、ユーザがアイグラス型やヘッドマウント型のウェアラブル装置である再生装置10を装着し、AR(Augmented Reality)やVR(virtual reality)技術を用いたサバイバルゲームを行っている際の視野V1が例示されている。
この際、本実施形態に係る発話制御部340は、ゲーム中におけるナビゲータなどのキャラクターC1が発する音声などとの親和性を考慮した出力態様を設定し、音声発話SO6を出力させることができる。具体的には、通知情報の重要度が比較的低い場合、発話制御部340は、キャラクターC1と類似する声質で音声発話SO6を出力させることで、背景音と調和した情報通知を実現することが可能である。
この際、発話制御部340は、通信部370が受信したキャラクターC1の声質に係るパラメータに基づいて、キャラクターC1と類似する声質の人工音声を音声合成部350に合成させることができる。このように、本実施形態に係る通信部370は、再生装置10などから出力態様に係るパラメータを受信してもよい。なお、上記の出力態様に係るパラメータには、図7に例示した声質、効果、韻律などに係るパラメータが含まれる。
(歌声や発話などのキャンセル処理を伴う音声発話の制御)
次に、本実施形態に係る歌声や発話などのキャンセル処理を伴う出力態様の制御について説明する。本実施形態に係る発話制御部340は、背景音の一部の音をキャンセルさせることにより、より背景音に調和した情報通知を実現することが可能である。具体的には、発話制御部340は、背景音に含まれる歌声や発話などをキャンセルさせると同時に、当該歌声や発話などと類似した出力態様で音声発話を出力させることができる。
図12は、本実施形態に係る歌声や発話などのキャンセル処理を伴う出力態様の制御について説明するための図である。図12に示す一例の場合、発話制御部340は、再生装置10により再生される音楽である背景音BSにおいて歌声SVをキャンセルさせ、歌声SVと類似する出力態様を有する音声発話SO7を出力させている。すなわち、発話制御部340は、歌声SVと類似する声質、韻律、効果で通知情報に対応する歌声を合成し、当該歌声を音声発話SO7として出力させることができる。
本実施形態に係る発話制御部340が有する上記の機能によれば、音楽などの背景音により調和した情報通知を実現することができ、またユーザの興味を効果的に引き付けることが可能となる。
<<1.7.制御の流れ>>
次に、本実施形態に係る情報処理サーバ30による制御の流れについて詳細に説明する。図13は、本実施形態に係る情報処理サーバ30による制御の流れを示すフローチャートである。
図13を参照すると、まず、判定部320が通知情報の重要度を判定する(S1101)。
ここで、判定部320が通知情報の重要度が高いと判定した場合(S1102:Yes)、発話制御部340は、収集された背景音と類似しない声質を設定する(S1103)。
また、発話制御部340は、背景音と類似しない韻律を設定する(S1104)。
また、発話制御部340は、音声発話を背景音に対して強調するよう、すなわち音声発話を聞き取りやすくするための信号処理に係るパラメータを設定してもよい(S1105)。
また、発話制御部340は、背景音に対し音声発話が強調される出力タイミングを設定する(S1106)
一方、判定部320が通知情報の重要度が高くないと判定した場合(S1102:No)、発話制御部340は、収集された背景音と類似する声質を設定する(S1107)。
また、発話制御部340は、背景音と類似する韻律を設定する(S1108)。
また、発話制御部340は、背景音と類似する効果を施すための信号処理に係るパラメータを設定する(S1109)。
また、発話制御部340は、背景音の主要部を阻害しない出力タイミングを設定する(S1110)。
続いて、音声合成部350および信号処理部360が、ステップS1103~1110において設定された出力態様に係るパラメータに基づく人工音声の合成と信号処理を実行し、当該人工音声と制御信号とが情報処理端末20に送信される。
<2.ハードウェア構成例>
次に、本開示の一実施形態に係る再生装置10、情報処理端末20および情報処理サーバ30に共通するハードウェア構成例について説明する。図14は、本開示の一実施形態に係る再生装置10、情報処理端末20および情報処理サーバ30のハードウェア構成例を示すブロック図である。図14を参照すると、再生装置10、情報処理端末20および情報処理サーバ30は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(CPU871)
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
(ROM872、RAM873)
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
(入力装置878)
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置879)
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ880)
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信装置883)
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
<3.まとめ>
以上説明したように、本開示の一実施形態に係る情報処理サーバ30は、通知情報の重要度に基づいて、背景音との親和性が変化するよう音声発話の出力態様を制御する機能を有する。係る構成によれば、情報通知の重要度に応じて、音声発話に係る背景音との親和性をより柔軟に制御することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、本明細書の情報処理サーバ30の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ30の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
通知情報に対応する音声発話の出力を制御する発話制御部、
を備え、
前記発話制御部は、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御する、
情報処理装置。
(2)
前記出力態様は、前記音声発話の出力タイミング、声質、韻律、効果のうち少なくともいずれかを含む、
前記(1)に記載の情報処理装置。
(3)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に対し親和性の高い前記出力態様を設定し、前記音声発話を出力させる、
前記(1)または(2)に記載の情報処理装置。
(4)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る声質と類似する声質を設定し、前記音声発話を出力させる、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る韻律と類似する韻律を設定し、前記音声発話を出力させる、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る音質と類似する音質を設定し、前記音声発話を出力させる、
前記(1)~(5)のいずれかに記載の情報処理装置。
(7)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音が含む主要部を阻害しない出力タイミングを設定し、前記音声発話を出力させる、
前記(1)~(6)のいずれかに記載の情報処理装置。
(8)
前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に適合する歌声を設定し、前記歌声を出力させる、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し親和性の低い前記出力態様を設定し、前記音声発話を出力させる、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る声質と類似しない声質を設定し、前記音声発話を出力させる、
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る韻律と類似しない韻律を設定し、前記音声発話を出力させる、
前記(1)~(10)のいずれかに記載の情報処理装置。
(12)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る音質と類似しない音質を設定し、前記音声発話を出力させる、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し前記音声発話が強調される出力タイミングを設定し、前記音声発話を出力させる、
前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
前記背景音は、音楽、発話、環境音のうち少なくともいずれかを含む、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
前記通知情報の重要度を判定する判定部、
をさらに備える、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
前記判定部は、前記通知情報に係るコンテキストデータに基づいて前記通知情報の重要度を判定する、
前記(15)に記載の情報処理装置。
(17)
前記判定部は、前記通知情報を提示するユーザに関するユーザプロパティに基づいて、前記通知情報の重要度を判定する、
前記(15)または(16)に記載の情報処理装置。
(18)
前記判定部は、前記通知情報の特性に基づいて、前記通知情報の重要度を判定する、
前記(15)~(17)のいずれかに記載の情報処理装置。
(19)
前記出力態様に係るパラメータを受信する通信部、
をさらに備える、
前記(1)~(18)のいずれかに記載の情報処理装置。
(20)
プロセッサが、通知情報に対応する音声発話の出力を制御すること、
を含み、
前記制御することは、前記通知情報の重要度、および背景音との親和性に基づいて、前記音声発話の出力態様を制御すること、
をさらに含む、
情報処理方法。
10 再生装置
110 再生部
120 処理部
130 通信部
20 情報処理端末
210 音声入力部
220 センサ部
230 音声出力部
240 通信部
30 情報処理サーバ
310 解析部
320 判定部
330 プロパティDB
340 発話制御部
350 音声合成部
360 信号処理部
370 通信部

Claims (20)

  1. 通知情報の重要度および背景音との親和性に基づいて、前記通知情報に対応する音声発話の出力態様を制御する発話制御部、
    を備え、
    前記発話制御部は、
    前記重要度に応じて、前記背景音のうち合成音声を発するキャラクターの音声と類似もしくは非類似の音質とするよう前記音声発話の出力態様を制御する、
    情報処理装置。
  2. 前記出力態様は、前記音声発話の出力タイミング、声質、韻律、効果のうち少なくともいずれかを含む、
    請求項1に記載の情報処理装置。
  3. 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に対し親和性の高い前記出力態様を設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  4. 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る声質と類似する声質を設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  5. 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る韻律と類似する韻律を設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  6. 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に係る音質と類似する音質を設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  7. 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音が含む主要部を阻害しない出力タイミングを設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  8. 前記発話制御部は、前記通知情報の重要度が低いと判定されたことに基づいて、前記背景音に適合する歌声を設定し、前記歌声を出力させる、
    請求項1に記載の情報処理装置。
  9. 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し親和性の低い前記出力態様を設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  10. 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る声質と類似しない声質を設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  11. 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る韻律と類似しない韻律を設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  12. 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に係る音質と類似しない音質を設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  13. 前記発話制御部は、前記通知情報の重要度が高いと判定されたことに基づいて、前記背景音に対し前記音声発話が強調される出力タイミングを設定し、前記音声発話を出力させる、
    請求項1に記載の情報処理装置。
  14. 前記背景音は、前記合成音声に加えて、音楽、発話、環境音のうち少なくともいずれかを含む、
    請求項1に記載の情報処理装置。
  15. 前記通知情報の重要度を判定する判定部、
    をさらに備える、
    請求項1に記載の情報処理装置。
  16. 前記判定部は、前記通知情報に係るコンテキストデータに基づいて前記通知情報の重要度を判定する、
    請求項15に記載の情報処理装置。
  17. 前記判定部は、前記通知情報を提示するユーザに関するユーザプロパティに基づいて、前記通知情報の重要度を判定する、
    請求項15に記載の情報処理装置。
  18. 前記判定部は、前記通知情報の特性に基づいて、前記通知情報の重要度を判定する、
    請求項15に記載の情報処理装置。
  19. 前記出力態様に係るパラメータを受信する通信部、
    をさらに備える、
    請求項1に記載の情報処理装置。
  20. プロセッサが、通知情報の重要度および背景音との親和性に基づいて、前記通知情報に対応する音声発話の出力態様を制御すること、
    を含み、
    前記制御することは、前記重要度に応じて、前記背景音のうち合成音声を発するキャラクターの音声と類似もしくは非類似の音質とするよう前記音声発話の出力態様を制御すること、
    をさらに含む、
    情報処理方法。
JP2019519059A 2017-05-16 2018-02-06 情報処理装置および情報処理方法 Active JP7131550B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017096977 2017-05-16
JP2017096977 2017-05-16
PCT/JP2018/003881 WO2018211750A1 (ja) 2017-05-16 2018-02-06 情報処理装置および情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2018211750A1 JPWO2018211750A1 (ja) 2020-03-19
JP7131550B2 true JP7131550B2 (ja) 2022-09-06

Family

ID=64273532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019519059A Active JP7131550B2 (ja) 2017-05-16 2018-02-06 情報処理装置および情報処理方法

Country Status (4)

Country Link
US (1) US11138991B2 (ja)
EP (1) EP3627496A4 (ja)
JP (1) JP7131550B2 (ja)
WO (1) WO2018211750A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170754B2 (en) * 2017-07-19 2021-11-09 Sony Corporation Information processor, information processing method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000244609A (ja) 1999-02-23 2000-09-08 Omron Corp 話者状況適応型音声対話装置及び発券装置
JP2003131700A (ja) 2001-10-23 2003-05-09 Matsushita Electric Ind Co Ltd 音声情報出力装置及びその方法
JP2006048377A (ja) 2004-08-04 2006-02-16 Pioneer Electronic Corp 報知制御装置、報知制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2009222993A (ja) 2008-03-17 2009-10-01 Honda Motor Co Ltd 車両用音声案内装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3595041B2 (ja) * 1995-09-13 2004-12-02 株式会社東芝 音声合成システムおよび音声合成方法
JPH1020885A (ja) * 1996-07-01 1998-01-23 Fujitsu Ltd 音声合成装置
JPH11166835A (ja) * 1997-12-03 1999-06-22 Alpine Electron Inc ナビゲーション音声補正装置
JP4700904B2 (ja) * 2003-12-08 2011-06-15 パイオニア株式会社 情報処理装置及び走行情報音声案内方法
CN101379549B (zh) 2006-02-08 2011-11-23 日本电气株式会社 声音合成装置、声音合成方法
WO2012077954A2 (en) * 2010-12-07 2012-06-14 Samsung Electronics Co., Ltd. Health care device, method and graphical user interface for health care
US9704361B1 (en) * 2012-08-14 2017-07-11 Amazon Technologies, Inc. Projecting content within an environment
US10231056B2 (en) * 2014-12-27 2019-03-12 Intel Corporation Binaural recording for processing audio signals to enable alerts
WO2018096599A1 (en) * 2016-11-22 2018-05-31 Sony Mobile Communications Inc. Environment-aware monitoring systems, methods, and computer program products for immersive environments

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000244609A (ja) 1999-02-23 2000-09-08 Omron Corp 話者状況適応型音声対話装置及び発券装置
JP2003131700A (ja) 2001-10-23 2003-05-09 Matsushita Electric Ind Co Ltd 音声情報出力装置及びその方法
JP2006048377A (ja) 2004-08-04 2006-02-16 Pioneer Electronic Corp 報知制御装置、報知制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2009222993A (ja) 2008-03-17 2009-10-01 Honda Motor Co Ltd 車両用音声案内装置

Also Published As

Publication number Publication date
EP3627496A1 (en) 2020-03-25
US20200111505A1 (en) 2020-04-09
JPWO2018211750A1 (ja) 2020-03-19
WO2018211750A1 (ja) 2018-11-22
EP3627496A4 (en) 2020-05-27
US11138991B2 (en) 2021-10-05

Similar Documents

Publication Publication Date Title
JP6316208B2 (ja) 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US8095527B2 (en) Reproducing apparatus and method, information processing apparatus and method, recording medium, and program
US10687145B1 (en) Theater noise canceling headphones
JP2004267433A (ja) 音声チャット機能を提供する情報処理装置、サーバおよびプログラム並びに記録媒体
JP7167910B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109257659A (zh) 字幕添加方法、装置、电子设备及计算机可读存储介质
TW201820315A (zh) 改良型音訊耳機裝置及其聲音播放方法、電腦程式
JP2002366166A (ja) コンテンツ提供システム及び方法、並びにそのためのコンピュータプログラム
CN108012173A (zh) 一种内容识别方法、装置、设备和计算机存储介质
WO2010041147A2 (en) A music or sound generation system
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
JP7131550B2 (ja) 情報処理装置および情報処理方法
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
CN103729121A (zh) 图像显示设备及其操作方法
JP7070546B2 (ja) 情報処理装置および情報処理方法
JPH1020867A (ja) 口対向型消音装置
DeLaurenti Imperfect sound forever: a letter to a young phonographer
JP4772315B2 (ja) 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
JPWO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2013097240A (ja) 聴覚障がい者支援装置およびその動作方法
US20240087597A1 (en) Source speech modification based on an input speech characteristic
JP7151707B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2023084933A1 (ja) 情報処理装置、情報処理方法およびプログラム
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220808

R151 Written notification of patent or utility model registration

Ref document number: 7131550

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151