JP6760394B2 - コンテンツ再生機器、収音機器、及びコンテンツ再生システム - Google Patents

コンテンツ再生機器、収音機器、及びコンテンツ再生システム Download PDF

Info

Publication number
JP6760394B2
JP6760394B2 JP2018554275A JP2018554275A JP6760394B2 JP 6760394 B2 JP6760394 B2 JP 6760394B2 JP 2018554275 A JP2018554275 A JP 2018554275A JP 2018554275 A JP2018554275 A JP 2018554275A JP 6760394 B2 JP6760394 B2 JP 6760394B2
Authority
JP
Japan
Prior art keywords
voice
information
content
sound collecting
input direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018554275A
Other languages
English (en)
Other versions
JPWO2018101459A1 (ja
Inventor
須山 明彦
明彦 須山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of JPWO2018101459A1 publication Critical patent/JPWO2018101459A1/ja
Application granted granted Critical
Publication of JP6760394B2 publication Critical patent/JP6760394B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/805Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal
    • G01S3/8055Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal adjusting orientation of a single directivity characteristic to produce maximum or minimum signal
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Description

本発明は、コンテンツ再生機器、収音機器、及びコンテンツ再生システムに関する。
下記特許文献1には、マイクから入力された音声を認識する音声認識モジュールを備え、この音声認識モジュールが認識した音声を適用して予め設定された動作の遂行をアシストする技術が開示されている。
特開2014−78007号公報
従来のコンテンツ再生機器では、ユーザからのマイクに対する音声入力方向は様々であるにもかかわらず、コンテンツ再生機器に含まれるスピーカは、当該音声入力方向とは無関係に、例えばその正面方向に放音を行っていた。
本発明は、上記問題点に鑑みてなされたものであり、その目的は、コンテンツ再生機器において、ユーザからの音声入力方向に応じて、コンテンツの出力に指向性を持たせる構成を実現することである。
本開示に係るコンテンツ再生機器は、音声を収音する収音部と、前記音声に関する音声入力方向情報を取得し、前記音声入力方向情報に基づき、コンテンツ出力方向を決定する制御部と、を含む。あるいは、本開示に係るコンテンツ再生機器は、音声入力方向情報を取得する通信部と、前記音声入力方向情報に基づきコンテンツ出力方向を決定する制御部と、を含む。
本開示に係る収音機器は、音声を収音する収音部と、前記音声に基づき音声入力方向情報を取得し、前記音声入力方向情報に基づきコンテンツ出力方向を決定する制御部と、前記コンテンツ出力方向に関する情報を送信する通信部と、を含む。
本開示に係るコンテンツ再生システムは、音声入力方向情報を取得し、前記音声入力方向情報を送信する収音機器と、前記収音機器からの前記音声入力方向情報を受信し、前記音声入力方向情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含む。
本開示に係るコンテンツ再生システムは、音声入力方向情報を取得し、前記音声入力方向情報に基づきコンテンツ出力方向を決定し、前記コンテンツ出力方向に関する情報を送信する収音機器と、前記コンテンツ出力方向に関する情報を受信し、前記コンテンツ出力方向に関する情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含む。
本開示に係るコンテンツ再生機器の制御方法は、音声に関する音声入力方向情報を取得するステップと、前記音声入力方向情報に基づき、コンテンツ出力方向を決定するステップと、を含む。
図1は第1の実施形態に係るコンテンツ再生システムの概要図である。 図2は第1の実施形態に係るコンテンツ再生機器のブロック図である。 図3は第1の実施形態に係るコンテンツ再生システムの動作例を示すフローチャートである。 図4は第2の実施形態に係るコンテンツ再生システムの概要図である。 図5は第2の実施形態に係るコンテンツ再生機器のブロック図である。 図6は第2の実施形態に係るコンテンツ再生システムの動作例を示すフローチャートである。 図7は第2の実施形態に係る原点調整ステップを示す概念図である。 図8は第2の実施形態に係る軸調整ステップを示す概念図である。 図9は第2の実施形態に係る収音機器のブロック図である。
[第1の実施形態]
第1の実施形態について、図面を用いて以下に説明する。
[コンテンツ再生システム300]
図1は、本実施形態に係るコンテンツ再生システム300の概念図である。本実施形態において、コンテンツ再生システム300は、サーバー200と、コンテンツ再生機器100とを有している。コンテンツ再生機器100は、ネットワーク1を介してサーバー200に接続されている。なお、本開示におけるコンテンツとは、例えば音声や映像などを含む。
[ネットワーク1]
ネットワーク1は、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、赤外線、電波、Bluetooth(登録商標)などを含み、コンテンツ再生機器100とサーバー200との間の信号伝達経路として利用される。
[サーバー200]
サーバー200は、ネットワーク1を介して、後述するコンテンツ再生機器100からの音声情報を受信する。サーバー200は、受信した音声情報に基づきコマンド信号を作成し、ネットワーク1を介して、コマンド信号をコンテンツ再生機器100に送信する。なお、本実施形態において、サーバー200は、インターネットのネットワークでの利用を前提とした、クラウドサーバーを含む。
[コンテンツ再生機器100]
図2は、本実施形態に係るコンテンツ再生機器100のブロック図である。本実施形態において、コンテンツ再生機器100は、音楽や映像などのコンテンツを再生する機器であり、特定の方向に当該コンテンツを出力することが可能な、サウンドプロジェクター等である。コンテンツ再生機器100は、収音部30、記憶部40、制御部50、通信部60、コンテンツ出力部80等を有している。コンテンツ再生機器100は、記憶部40に保存されたプログラム42に基づいて、後述する音声入力方向情報取得ステップS1、送信ステップS2、コマンド信号生成ステップS3、コマンド信号送信ステップS4、コマンド信号受信ステップS5、コンテンツ出力方向決定ステップS6などを実行するコンピュータである。当該プログラム42は、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
[収音部30]
収音部30は、例えばコンテンツ再生機器100に内蔵された複数のマイクである。収音部30は、ユーザが発した音声を収音するとともに、当該音声に関する情報を制御部50に送信する。
[記憶部40]
記憶部40は、例えばHDD(Hard Disc Drive)として実現される。記録媒体としては、フラッシュメモリ等の固体メモリ、固体メモリを内蔵したメモリカード、光ディスク、光磁気ディスク、ホログラムメモリなど各種考えられ、記憶部40としては採用する記録媒体に応じて記録再生を実行できる構成とされればよい。記憶部40には、制御部50が使用するプログラム42が保存されている。
[制御部50]
制御部50はCPUとメモリを含む。制御部50は、記憶部40に保存されたプログラム42を用いて、収音部30、記憶部40、通信部60、コンテンツ出力部80の動作を制御する。
制御部50は、収音部30から受信したユーザの音声情報に基づき、音声入力方向情報を取得する。音声入力方向情報とは、収音部30に対してユーザから発せられた音声の入力方向に関する情報である。音声入力方向情報の取得方法としては、例えば、複数のマイクに到達する音声の時間差を検出して取得する方法や、鋭い指向性を持つビームを走査して取得する方法等があるが、本実施形態においては、収音部30が、横方向に並べて配置された複数のマイクを含み、この複数のマイクに到達する音声の時間差を制御部50が検出して、音声入力方向情報を取得する方法を採用する。なお、収音部30、記憶部40、通信部60、コンテンツ出力部80の動作を制御する制御部と、音声入力方向情報を取得するための制御部とを、一体とする構成としてもよく、別体とする構成としてもよい。別体構成とする場合、音声入力方向情報を取得するための制御部が、収音部30から受信したユーザの音声情報に基づき音声入力方向情報を取得し、当該音声入力方向情報を動作制御用の制御部に送信する構成とすればよい。
制御部50は、収音部30から取得したユーザの音声を、ネットワーク1を経由してサーバー200に送信する。制御部50がユーザの音声を、音声状態のままでサーバー200に送信することにより、サーバー200として、既存の音声認識を行うインターネットサーバーを流用することができる。なお、制御部50が、ユーザの音声のみならず、音声入力方向情報も合成音声に変換してサーバー200に送信する構成としても構わない。
また、制御部50は、通信部60を介して、サーバー200により作成され、送信されたコマンド信号を受信する。制御部50は、受信したコマンド信号に基づき、コンテンツを再生する、ボリュームをコントロールする、などの動作遂行内容の決定を行う。コンテンツを再生する際、制御部50は、上述した音声入力方向情報に基づき、コンテンツ出力方向の決定を行う。
[通信部60]
通信部60は、無線LAN、有線LAN、WAN、赤外線、電波、Bluetooth(登録商標)などに対応しており、ネットワーク1を介して、サーバー200との信号伝達を行う。
[コンテンツ出力部80]
コンテンツ出力部80は、複数のスピーカやディスプレイ装置等を含み、制御部50の指示に応じて、音声、映像などのコンテンツを出力する。
本実施形態においては、コンテンツ出力部80が、横方向に並べた複数の小口径のスピーカを含み、それらの出力タイミング揃える、あるいはずらす等、精密に制御することで、特定方向に音声を出力することを可能としている。出力タイミングの制御は、制御部50で行ってもよく、あるいはコンテンツ出力部80が出力タイミング制御用の制御部を備えていてもよい。
[コンテンツ再生システム300の動作例]
次に、図3を用いて、本実施形態のコンテンツ再生システム300の動作例について説明する。図3は、本実施形態におけるコンテンツ再生システム300の動作例を示すフローチャートである。
[音声入力方向情報取得ステップS1]
コンテンツ再生機器100の収音部30、制御部50は、ユーザが発した音声から音声入力方向情報を取得する音声入力方向情報取得ステップS1を実施する。
本実施形態においては、収音部30の正面方向に対して45度傾いた位置から、ユーザが「コンテンツAを再生」という音声を発した場合について説明する。
収音部30は、ユーザが発した音声である「コンテンツAを再生」を収音するとともに、当該音声を制御部50に送信する。音声を受信した制御部50は、上述した複数のマイクに到達する音声の時間差検出により、当該ユーザが音声を発した位置が、収音部30の正面方向に対して45度傾いた位置であることを認識する。即ち、制御部50は、「ユーザは収音部30の正面方向に対して45度傾いた位置から音声を発している」との音声入力方向情報を取得する。
[送信ステップS2]
コンテンツ再生機器100の制御部50は、ネットワーク1を介して、ユーザが発した音声を、サーバー200に送信する。
本実施形態においては、制御部50は、ユーザが発した音声である「コンテンツAを再生」をサーバー200に送信する。
[コマンド信号生成ステップS3]
サーバー200は、制御部50からネットワーク1を介して受信した、ユーザが発した音声からコマンド信号を生成する。
本実施形態においては、サーバー200は、コンテンツAの再生を要求するコマンド信号を生成する。
[コマンド信号送信ステップS4]
サーバー200は、コマンド信号生成ステップS3にて生成したコマンド信号を、コンテンツ再生機器100に送信する。
本実施形態においては、サーバー200は、コンテンツAの再生を要求するコマンド信号をコンテンツ再生機器100に送信する。
[コマンド信号受信ステップS5]
コンテンツ再生機器100の制御部50は、ネットワーク1を介して、サーバー200から送信されたコマンド信号を受信する。
本実施形態においては、制御部50は、コンテンツAの再生を要求するコマンド信号を受信する。
[コンテンツ出力方向決定ステップS6]
コンテンツ再生機器100の制御部50は、音声入力方向情報取得ステップS1において取得した音声入力方向情報に基づき、コンテンツの出力方向を決定する。
本実施形態においては、制御部50は、「角度は右方向に45度」という音声入力方向情報に基づき、コンテンツの出力方向を決定する。そして、制御部50は、サーバー200から受信した、コンテンツAの再生を要求するコマンド信号に基づきコンテンツAを再生するとともに、決定した出力方向に対して、当該コンテンツAを出力する指示をコンテンツ出力部80に対して行う。なお、上述した送信ステップS2において、制御部50が、ユーザが発した音声のみならず、音声入力方向情報も合成音声に変換してサーバー200に送信し、サーバー200から、当該音声入力方向情報を含めたコマンド信号を受信し、コンテンツの出力方向を決定する構成としてもよい。
なお、本実施形態においては、コンテンツ再生システム300がサーバー200を有し、コンテンツ再生機器100とサーバー200とが、ユーザの音声、コマンド信号等の送受信を行って、コンテンツを再生する実施例を説明したが、コンテンツ再生システム300がサーバー200を有しない構成としても構わない。即ち、コンテンツ再生機器100が、認識した音声からコマンド信号を生成することができる場合、コンテンツ再生機器100の収音部30が、ユーザが発した音声を収音し、制御部50が当該音声を認識してコマンド信号を生成し、当該コマンド信号に基づいてコンテンツを再生する構成としても構わない。
なお、音声入力方向情報取得ステップS1において、制御部50がユーザの音声について話者認識を行い、特定ユーザの音声のみに反応して音声入力方向情報を取得する構成としても構わない。このような構成にすれば、複数のユーザの音声が収音部30に入力されたとしても、コンテンツ再生機器100が、特定ユーザの音声入力方向情報に基づきコンテンツ出力方向を決定する構成とすることができる。
なお、本実施形態においては、コンテンツ再生機器100が、音声入力方向情報に基づき、当該音声入力方向、即ちユーザがいる方向に向けてコンテンツを出力する構成を例に挙げて説明したが、コンテンツ再生機器100が、音声入力方向と反対方向にコンテンツを出力する、あるいは、音声入力方向に対して所定の角度をなす方向にコンテンツを出力する構成としてもよい。
[第2の実施形態]
第2の実施形態について、図面を用いて以下に説明する。なお、第1の実施形態と共通する構成要素については、同一の符号を付して、その説明を省略することがある。
[コンテンツ再生システム300B]
図4は、本実施形態に係るコンテンツ再生システム300Bの概念図である。本実施形態において、コンテンツ再生システム300Bは、サーバー200と、収音機器130と、コンテンツ再生機器100Bとを有している。コンテンツ再生機器100B、収音機器130、サーバー200は、それぞれネットワーク1を介して接続されている。なお、本開示におけるコンテンツとは、例えば音声や映像などを含む。
なお、ネットワーク1、サーバー200の構成は、第1の実施形態と共通の構成であるため、その説明を省略する。
[収音機器130]
図9は、本実施形態に係る収音機器130のブロック図である。収音機器130は、通信部132、記憶部134、制御部136、収音部138等を有し、記憶部134に保存されたプログラム134Bに基づいて、後述する情報取得ステップS201、第1の合成音声への変換ステップS202、送信ステップS203などを実行するコンピュータである。当該プログラム134Bは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。収音機器130の通信部132は、無線LAN、有線LAN、WAN、赤外線、電波、Bluetooth(登録商標)などに対応しており、ネットワーク1を介して、サーバー200、コンテンツ再生機器100Bとの信号伝達を行う。
また、収音機器130に含まれる収音部138は、複数のマイクを含み、ユーザが発した音声を収音するとともに、当該音声を制御部136に送信する。ユーザの音声を受信した制御部136は、上述した複数のマイクに到達する音声の時間差検出により、当該音声から音声入力方向情報を取得する。この音声入力方向情報とは、収音機器130に対してユーザから発せられた音声の入力方向に関する情報である。
更に、本実施形態においては、収音機器130の制御部136は、当該音声からユーザとの距離情報を取得する。ユーザとの距離情報とは、収音機器130とユーザとの距離に関する情報である。
そして、収音機器130の制御部136は、音声入力方向情報を第1の合成音声に変換する。第1の合成音声とは、ユーザから発せられた音声の入力方向に関する合成音声であり、例えば、ユーザが収音機器130に対して45度の角度から音声を入力した場合には、収音機器130は音声入力方向情報を「角度は45度」という第1の合成音声に変換する。
更に、本実施形態においては、収音機器130が、ユーザとの距離情報も第1の合成音声に含ませる。例えば、ユーザが収音機器130から3m離れた位置から音声を発した場合には、収音機器130は、音声入力方向情報とユーザとの距離情報とを「角度は45度、距離は3m」という第1の合成音声に変換する。このユーザとの距離情報は、例えば、事前にユーザの音声を所定の距離から収音しておき、事前に収音した音声スペクトルと今回収音した音声スペクトルとを比較することにより推定することが可能である。距離に伴う減衰率の低い低周波数の音波の割合が増加していれば、事前収音時の距離よりも離れた位置にユーザがいることを推定でき、逆に高周波数の音波の割合が増加していれば、事前収音時の距離よりも近い位置にユーザがいることを推定できる。
そして、収音機器130の通信部132は、ネットワーク1を経由して、サーバー200に対し、ユーザからの音声を送信する。その際、収音機器130は、当該ユーザの音声に上述した第1の合成音声を付加して、一つの音声データとして送信する。
[コンテンツ再生機器100B]
図5は、本実施形態に係るコンテンツ再生機器100Bのブロック図である。本実施形態において、コンテンツ再生機器100Bは、音楽や映像などのコンテンツを再生する機器であり、特定の方向に当該コンテンツを出力することが可能な、サウンドプロジェクター等である。コンテンツ再生機器100Bは、記憶部40B、制御部50B、通信部60、コンテンツ出力部80等を有している。コンテンツ再生機器100Bは、記憶部40Bに保存されたプログラム42Bに基づいて、後述する情報取得ステップS201、第1の合成音声への変換ステップS202、送信ステップS203、コマンド信号生成ステップS204、コマンド信号送信ステップS205、コマンド信号受信ステップS206、コンテンツ出力方向決定ステップS207、原点調整ステップS208、軸調整ステップS209などを実行するコンピュータである。当該プログラム42Bは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
なお、通信部60、コンテンツ出力部80の構成は、第1の実施形態と共通の構成であるため、その説明を省略する。ただし、本実施形態においては、通信部60が、ネットワーク1を介して、収音機器130から音声入力方向情報を取得する点が、第1の実施形態と異なる。
[記憶部40B]
記憶部40Bは、後述する制御部50Bが使用するプログラム42Bを記憶している点を除いては、上述した第1の実施形態における記憶部40と同様の構成であるため、その説明を省略する。
[制御部50B]
制御部50BはCPUとメモリを含む。制御部50Bは、記憶部40Bに保存されたプログラム42Bを用いて、記憶部40B、通信部60の動作を制御する。
制御部50Bは、通信部60を介して、サーバー200から送信されたコマンド信号を受信する。コマンド信号は、サーバー200がユーザからの音声に基づき認識したコマンド情報と、サーバー200が第1の合成音声に基づき認識した音声入力方向情報、及びユーザとの距離情報とを含む。制御部50Bは、受信したコマンド信号に含まれるコマンド情報に基づき、コンテンツを再生する、ボリュームをコントロールする、などの動作遂行内容の決定を行う。また、制御部50Bは、受信したコマンド信号に含まれる音声入力方向情報に基づき、コンテンツ出力方向の決定を行う。
[コンテンツ再生システム300Bの動作例]
次に、図6を用いて、本実施形態のコンテンツ再生システム300Bの動作例について説明する。図6は、本実施形態におけるコンテンツ再生システム300Bの動作例を示すフローチャートである。
[情報取得ステップS201]
収音機器130は、ユーザが発した音声から音声入力方向情報、ユーザとの距離情報を取得する情報取得ステップS201を実施する。
本実施形態においては、収音機器130の正面方向に対して45度傾いた、3m離れた位置から、ユーザが「コンテンツAを再生」という音声を発した場合について説明する。
収音機器130は、ユーザが発した音声である「コンテンツAを再生」を収音するとともに、当該ユーザが音声を発した位置が、収音機器130の正面方向に対して45度傾いた位置であることを認識する。即ち、収音機器130は、「ユーザは収音機器130の正面方向に対して45度傾いた位置から音声を発している」との音声入力方向情報を取得する。
更に、本実施形態においては、収音機器130は、ユーザが音声を発した位置が、収音機器130から3m離れた位置であることを認識する。即ち、収音機器130は、「ユーザは収音機器130に対して3m離れた位置から音声を発している」とのユーザとの距離情報を取得する。
[第1の合成音声への変換ステップS202]
収音機器130は、取得した音声入力方向情報、及びユーザとの距離情報を第1の合成音声に変換する。この第1の合成音声は、音声入力方向情報、及びユーザとの距離情報を含んでおり、サーバー200が認識可能な音声信号として生成される。
本実施形態においては、収音機器130は、上記情報取得ステップS201において取得された音声入力方向情報、及びユーザとの距離情報を「角度は右方向に45度、距離は3m」という第1の合成音声に変換する。収音機器130が音声入力方向情報、及びユーザとの距離情報を、音声データとしてサーバー200に送信することにより、サーバー200として、既存の音声認識を行うインターネットサーバーを流用することができる。
[送信ステップS203]
収音機器130は、ネットワーク1を介して、ユーザが発した音声と、第1の合成音声とを、サーバー200に送信する。
本実施形態においては、収音機器130は、ユーザが発した音声である「コンテンツAを再生」と、第1の合成音声である「角度は右方向に45度、距離は3m」とを、一つの音声データとしてサーバー200に送信する。その際、例えばユーザが発した音声「コンテンツAを再生」の後に数秒間の無音状態があったとしたら、当該無音状態を音声データの先頭に持ってくることにより、ユーザが発した音声と第1の合成音声との間に数秒間の無音状態が含まれることを回避し、ユーザが発した音声と第1の合成音声とをひとつの音声データとして送信することができる。
[コマンド信号生成ステップS204]
サーバー200は、収音機器130からネットワーク1を介して受信した、ユーザが発した音声と、第1の合成音声からコマンド信号を生成する。
本実施形態においては、サーバー200は、コンテンツAに関するコンテンツソースを取得し、当該コンテンツソースに基づいてコンテンツAを再生することを指示する動作指示情報と、第1の合成音声に含まれる音声入力方向情報、及びユーザとの距離情報と、を含むコマンド信号を生成する。
[コマンド信号送信ステップS205]
サーバー200は、コマンド信号生成ステップS4にて生成したコマンド信号を、コンテンツ再生機器100に送信する。
本実施形態においては、サーバー200は、コンテンツAに関するコンテンツソースをコンテンツ再生機器100Bに送信するとともに、当該コンテンツAを再生することを指示する動作指示情報と、「角度は右方向に45度」を意味する音声入力方向情報と、「距離は3m」を意味するユーザとの距離情報と、を含むコマンド信号をコンテンツ再生機器100Bに送信する。
[コマンド信号受信ステップS206]
コンテンツ再生機器100Bの制御部50Bは、ネットワーク1を介して、サーバー200から送信されたコマンド信号を受信する。
本実施形態においては、制御部50Bは、コンテンツAのコンテンツソースを受信するとともに、コンテンツAの再生を指示する動作指示情報と、音声入力方向情報、及びユーザとの距離情報と、を含むコマンド信号を受信する。
[コンテンツ出力方向決定ステップS207]
コンテンツ再生機器100Bの制御部50Bは、受信したコマンド信号に含まれる音声入力方向情報、及びユーザとの距離情報に基づき、コンテンツの出力方向を決定する。
また、本実施形態においては、収音機器130とコンテンツ再生機器100Bとが別体であるため、コンテンツ出力方向決定ステップS207が、収音機器130の原点位置とコンテンツ再生機器100Bの原点位置とのずれを調整する原点調整ステップS208と、収音機器130の軸方向とコンテンツ再生機器100Bの軸方向とのずれを調整する軸調整ステップS209と、を含む。
なお、収音機器130とコンテンツ再生機器100Bが略同一の位置に配置され、軸方向のずれも無いような場合は、後述する原点調整ステップS208と軸調整ステップS209とを経ることなく、収音機器130がコンテンツ出力方向を決定してもよい。またこの場合は、制御部50Bがユーザとの距離情報を受信しない構成としても良い。
[原点調整ステップS208]
収音機器130の原点位置とコンテンツ再生機器100Bの原点位置とにずれがある場合、この原点位置のずれを調整する原点調整ステップS208を行う。この原点調整ステップS208は、コンテンツ再生機器100Bによって行われてもよく、収音機器130によって行われてもよい。本実施形態においては、コンテンツ再生機器100Bによって原点調整ステップS208を行う例を用いて説明する。
図7は、収音機器130の原点位置とコンテンツ再生機器100Bの原点位置がずれた状態で配置されたコンテンツ再生システム300Bの概念図である。図7に示すように、X軸方向において、コンテンツ再生機器100Bは、収音機器130と比較して、ユーザから距離x1だけ離れた位置に配置されている。また、図7に示すように、Y軸方向において、コンテンツ再生機器100Bは、収音機器130と比較して、ユーザから距離y1だけ近い位置に配置されている。コンテンツ再生機器100Bの記憶部40Bは、この原点位置ずれ情報を記憶している。
コンテンツ再生機器100Bの制御部50Bは、受信したコマンド信号に含まれる音声入力方向情報とユーザとの距離情報から、X軸方向におけるユーザと収音機器130との距離x2と、Y軸方向におけるユーザと収音機器130との距離y2を算出する。音声入力方向をθ1、ユーザと収音機器130との距離をdとした場合、距離x2と距離y2は、以下の数式であらわされる。
[式1]x2=d×sin(θ1)
[式2] y2=d×cos(θ1)
コンテンツ再生機器100Bの制御部50Bは、記憶部40Bに保存されたコンテンツ再生機器100Bと収音機器130の原点位置ずれ情報と、下記の式を用いて、コンテンツの出力方向を決定する。
[式3] θ2=arctan((y2−y1)/(x2+x1))
そして、コンテンツ再生機器100Bは、受信したコンテンツソースに基づきコンテンツを再生するとともに、決定した出力方向θ2に従って、コンテンツ出力部80からコンテンツを出力する。
なお、X軸方向において、コンテンツ再生機器100Bが、収音機器130と比較してユーザに近い位置に配置されている場合、上記x1にマイナスの値を代入すればよい。また、Y軸方向において、コンテンツ再生機器100Bが、収音機器130と比較してユーザから離れた位置に配置されている場合、上記y1にマイナスの値を代入すればよい。
なお、本実施形態においては、収音機器130が音声入力方向情報とユーザとの距離情報とを送信し、これらを受信したコンテンツ再生機器100Bが、あらかじめ記憶した原点位置ずれ情報を用いて、コンテンツ出力方向θ2を算出する実施例を示した。しかし、収音機器130が、原点位置ずれ情報を記憶し、これをコンテンツ再生機器100Bに送信し、コンテンツ再生機器100Bが、原点位置ずれ情報を用いてコンテンツ出力方向θ2を算出する構成としてもよい。または、収音機器130が原点位置ずれ情報を記憶し、且つ音声入力方向情報とユーザとの距離情報とを用いてコンテンツ出力方向θ2を算出した上で、このコンテンツ出力方向θ2を直接的又は間接的にコンテンツ再生機器100Bに送信する構成としても構わない。収音機器130がサーバー200を介してコンテンツ出力方向θ2を送信する場合は、音声入力方向情報、及びユーザとの距離情報を第1の合成音声に変換する代わりに、当該コンテンツ出力方向θ2を第1の合成音声に変換して送信すればよい。例えば、収音機器130が、原点位置ずれ情報と、音声入力方向情報とユーザとの距離情報とを用いて、コンテンツ出力方向θ2が右方向に45度であると算出した場合、このコンテンツ出力方向θ2を「角度は右方向に45度」という第1の合成音声に変換する。そして、ユーザが発した音声「コンテンツAを再生」の後に続けて第1の合成音声である「角度は右方向に45度」をサーバー200に送信する。収音機器130が直接コンテンツ再生機器100Bにコンテンツ出力方向θ2を送信する場合は、第1の合成音声に変換することなく、直接、コンテンツ出力方向θ2を送信すればよい。
[軸調整ステップS209]
収音機器130の軸方向とコンテンツ再生機器100Bの軸方向とにずれがある場合、この軸方向のずれを調整する軸調整ステップS209を行う。この軸調整ステップS209は、コンテンツ再生機器100Bによって行われてもよく、収音機器130によって行われてもよい。本実施形態においては、コンテンツ再生機器100Bによって軸調整ステップS209を行う例を用いて説明する。
図8は、収音機器130の軸方向とコンテンツ再生機器100Bの軸方向がずれた状態で配置されたコンテンツ再生システム300Bの概念図である。図8に示すように、コンテンツ再生機器100Bの正面方向は、収音機器130の正面方向と比較して、ユーザから角度θ3だけ離れた方向を向いている。コンテンツ再生機器100Bの記憶部40Bは、この軸ずれ情報を記憶している。
コンテンツ再生機器100Bの制御部50Bは、受信したコマンド信号に含まれる音声入力方向情報θ1と以下の数式から、コンテンツ出力方向θ4を算出する。
[式4]θ4=θ1+θ3
そして、コンテンツ再生機器100Bは、受信したコンテンツソースに基づきコンテンツを再生するとともに、決定した出力方向θ4に従って、コンテンツ出力部80からコンテンツを出力する。
なお、コンテンツ再生機器100Bの正面方向が、収音機器130の正面方向と比較して、ユーザに近い方向を向いている場合には、上記θ3にマイナスの値を代入すればよい。
なお、収音機器130の原点位置とコンテンツ再生機器100Bの原点位置がずれており、且つ収音機器130の軸方向とコンテンツ再生機器100Bの軸方向がずれている場合は、上述した原点調整ステップS208と軸調整ステップS209の双方を実施する。例えば、原点位置を調整したコンテンツ出力方向θ2を算出した上で、このθ2に軸方向のずれを示す角度θ3を加算することにより、最終的なコンテンツ出力方向θ4を算出すればよい。
なお、本実施形態においては、収音機器130が音声入力方向情報を送信し、これを受信したコンテンツ再生機器100Bが、あらかじめ記憶した軸ずれ情報(及び原点位置ずれ情報)を用いて、コンテンツ出力方向θ4を算出する実施例を示した。しかし、収音機器130が、軸ずれ情報(及び原点位置ずれ情報)を記憶し、これらをコンテンツ再生機器100Bに送信し、コンテンツ再生機器100Bがこれらを用いてコンテンツ出力方向θ4を算出する構成としてもよい。または、収音機器130が軸ずれ情報(及び原点位置ずれ情報)を記憶し、且つ音声入力方向情報(及びユーザとの距離情報)を用いてコンテンツ出力方向θ4を算出した上で、このコンテンツ出力方向θ4に関する情報を直接的又は間接的にコンテンツ再生機器100Bに送信する構成としても構わない。収音機器130がサーバー200を介してコンテンツ出力方向θ4に関する情報を送信する場合は、音声入力方向情報(及びユーザとの距離情報)を第1の合成音声に変換する代わりに、当該コンテンツ出力方向θ4に関する情報を第1の合成音声に変換して送信すればよい。例えば、収音機器130が、コンテンツ出力方向θ4が右方向に45度であると算出した場合、このコンテンツ出力方向θ4を「角度は右方向に45度」という第1の合成音声に変換する。そして、ユーザが発した音声「コンテンツAを再生」の後に続けて第1の合成音声である「角度は右方向に45度」をサーバー200に送信する。収音機器130が直接コンテンツ再生機器100Bにコンテンツ出力方向θ4に関する情報を送信する場合は、第1の合成音声に変換することなく、直接、コンテンツ出力方向θ4に関する情報を送信すればよい。収音機器130がコンテンツ出力方向θ4に関する情報を音声データとしてサーバー200に送信することにより、サーバー200として、既存の音声認識を行うインターネットサーバーを流用することができる。
なお、本実施形態においては、収音機器130が、音声入力方向情報から変換した第1の合成音声と、ユーザからの音声の双方をサーバー200に送信し、サーバー200が第1の合成音声とユーザからの音声とに基づきコマンド信号を作成し、コンテンツ再生機器100Bに送信する実施例を示した。しかし、収音機器130が、第1の合成音声を生成することなく、音声入力方向情報を直接コンテンツ再生機器100Bに送信し、ユーザからの音声をサーバー200経由でコンテンツ再生機器100Bに送信する構成としてもよい。この場合、ユーザからの音声と、音声入力方向情報の双方に信号識別情報を付加しておくことで、コンテンツ再生機器100Bが、当該信号識別情報に基づき、サーバー200から送信されたコマンド信号と、収音機器130から送信された音声入力方向情報とを対応させることができる。このような構成により、ユーザから複数の音声入力があった場合においても、コンテンツ再生機器100Bが、各コマンド信号と各音声入力方向情報とを対応付けることができる。なお、収音機器130が、ユーザが発した音声に信号識別情報を付加する際には、信号識別情報を第2の合成音声に変換し、第2の合成音声を前記ユーザが発した音声に付加してサーバー200に送信する構成としてもよい。収音機器130が信号識別情報を音声データとしてサーバー200に送信することにより、サーバー200として、既存の音声認識を行うインターネットサーバーを流用することができる。
また、収音機器130が、軸ずれ情報、及び原点位置ずれ情報を記憶し、音声入力方向情報、及びユーザとの距離情報等に基づきコンテンツ出力方向を決定する場合、収音機器130がコンテンツ出力方向に関する情報を直接コンテンツ再生機器100Bに送信し、ユーザからの音声をサーバー200経由でコンテンツ再生機器100Bに送信する構成としてもよい。この場合、ユーザからの音声と、コンテンツ出力方向に関する情報の双方に信号識別情報を付加しておくことで、コンテンツ再生機器100Bが、当該信号識別情報に基づき、サーバー200から送信されたコマンド信号と、収音機器130から送信されたコンテンツ出力方向に関する情報とを対応させることができる。このような構成により、ユーザから複数の音声入力があった場合においても、コンテンツ再生機器100Bが、各コマンド信号と各コンテンツ出力方向に関する情報とを対応付けることができる。なお、収音機器130が、ユーザが発した音声に信号識別情報を付加する際には、信号識別情報を第2の合成音声に変換し、第2の合成音声を前記ユーザが発した音声に付加してサーバー200に送信する構成としてもよい。収音機器130が信号識別情報を音声データとしてサーバー200に送信することにより、サーバー200として、既存の音声認識を行うインターネットサーバーを流用することができる。
なお、第1の実施形態及び第2の実施形態において、コンテンツ出力部80がコンテンツ再生機器100、及びコンテンツ再生機器100Bに含まれる構成を用いて説明したが、コンテンツ出力部80がコンテンツ再生機器100、コンテンツ再生機器100Bに含まれない構成としてもよい。その場合、上述した原点調整ステップS208、軸調整ステップS209を適用して、コンテンツ再生機器100Bに対するコンテンツ出力部80の原点ずれ、軸ずれを調整すればよい。
なお、情報取得ステップS201において、収音機器130がユーザの音声について話者認識を行い、特定ユーザの音声のみに反応して音声入力方向情報を取得する構成としても構わない。このような構成にすれば、複数のユーザの音声が収音機器130に入力されたとしても、コンテンツ再生機器100Bが、特定ユーザの音声入力方向情報に基づきコンテンツ出力方向を決定する構成とすることができる。
なお、本実施形態においては、コンテンツ再生機器100Bが、音声入力方向情報に基づき、当該音声入力方向、即ちユーザがいる方向に向けてコンテンツを出力する構成を例に挙げて説明したが、コンテンツ再生機器100Bが、音声入力方向と反対方向にコンテンツを出力する、あるいは、音声入力方向に対して所定の角度をなす方向にコンテンツを出力する構成としてもよい。

Claims (10)

  1. 音声を収音する収音部と、
    前記音声に関する音声入力方向情報を取得し、前記音声入力方向情報に基づき、コンテンツ出力方向を決定する制御部と、
    を含み、
    前記制御部が、前記音声入力方向情報を合成音声に変換し、前記収音部が収音した音声と前記合成音声とをサーバーに送信し、前記サーバーからのコマンド信号を受信し、前記コマンド信号に基づきコンテンツを再生する、
    コンテンツ再生機器。
  2. 音声を収音する収音部と、
    前記音声に基づき音声入力方向情報を取得し、前記音声入力方向情報に基づきコンテンツ出力方向を決定する制御部と、
    前記コンテンツ出力方向に関する情報を送信する通信部と、
    を含む、収音機器。
  3. 前記制御部が、前記コンテンツ出力方向に関する情報を第1の合成音声に変換し、前記通信部が、前記音声と前記第1の合成音声とをサーバーに送信する、
    請求項2に記載の収音機器。
  4. 音声入力方向情報を取得し、前記音声入力方向情報を送信する収音機器と、
    前記収音機器からの前記音声入力方向情報を受信し、前記音声入力方向情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含み、
    前記収音機器が、前記音声入力方向情報を第1の合成音声に変換し、前記収音機器により収音される音声と前記第1の合成音声とを送信し、
    前記収音機器が送信した音声と前記第1の合成音声に基づきコマンド信号を生成するサーバーを更に含み、
    前記コンテンツ再生機器が、前記サーバーからのコマンド信号を受信し、前記コマンド信号に含まれる前記音声入力方向情報に基づきコンテンツ出力方向を決定する、
    コンテンツ再生システム。
  5. 音声入力方向情報を取得し、前記音声入力方向情報を送信する収音機器と、
    前記収音機器からの前記音声入力方向情報を受信し、前記音声入力方向情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含み、
    前記収音機器が、該収音機器により収音される音声に信号識別情報を付加して送信し、前記音声から取得した前記音声入力方向情報に前記信号識別情報を付加して送信し、
    前記信号識別情報が付加された前記音声に基づきコマンド信号を生成するサーバーを更に含み、
    前記コンテンツ再生機器が、前記収音機器からの前記信号識別情報が付加された前記音声入力方向情報と、前記サーバーからの前記信号識別情報を含む前記コマンド信号と、を受信し、前記信号識別情報に基づき前記音声入力方向情報と前記コマンド信号とを対応させる、
    コンテンツ再生システム。
  6. 前記収音機器が、ユーザが発した音声に前記信号識別情報を付加する際には、前記信号識別情報を第2の合成音声に変換し、前記第2の合成音声を前記ユーザが発した音声に付加して前記サーバーに送信する、
    請求項5に記載のコンテンツ再生システム。
  7. 前記コンテンツ再生機器が、前記収音機器との原点ずれ情報と軸ずれ情報の内の少なくとも一方を記憶し、
    前記原点ずれ情報と前記軸ずれ情報の内の少なくとも一方と、前記音声入力方向情報とに基づきコンテンツ出力方向を決定する、請求項4乃至6のいずれか一つに記載のコンテンツ再生システム。
  8. 前記収音機器が、前記コンテンツ再生機器との原点ずれ情報と軸ずれ情報の内の少なくとも一方を送信し、
    前記コンテンツ再生機器が、前記原点ずれ情報と前記軸ずれ情報の内の少なくとも一方を受信し、受信した前記原点ずれ情報と前記軸ずれ情報の内の少なくとも一方と、前記音声入力方向情報とに基づきコンテンツ出力方向を決定する、請求項4乃至6のいずれか一つに記載のコンテンツ再生システム。
  9. 音声入力方向情報を取得し、前記音声入力方向情報に基づきコンテンツ出力方向を決定し、前記コンテンツ出力方向に関する情報を送信する収音機器と、
    前記コンテンツ出力方向に関する情報を受信し、前記コンテンツ出力方向に関する情報に基づきコンテンツ出力方向を決定するコンテンツ再生機器と、を含む、コンテンツ再生システム。
  10. 音声に関する音声入力方向情報を取得するステップと、
    前記音声入力方向情報に基づき、コンテンツ出力方向を決定するステップと、
    前記音声入力方向情報を合成音声に変換するステップと、
    前記音声と前記合成音声とをサーバーに送信するステップと、
    前記サーバーからのコマンド信号を受信するステップと、
    前記コマンド信号に基づきコンテンツを再生するステップと、
    を含む、コンテンツ再生機器の制御方法。
JP2018554275A 2016-12-02 2017-12-01 コンテンツ再生機器、収音機器、及びコンテンツ再生システム Active JP6760394B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016235437 2016-12-02
JP2016235437 2016-12-02
PCT/JP2017/043271 WO2018101459A1 (ja) 2016-12-02 2017-12-01 コンテンツ再生機器、収音機器、及びコンテンツ再生システム

Publications (2)

Publication Number Publication Date
JPWO2018101459A1 JPWO2018101459A1 (ja) 2019-06-27
JP6760394B2 true JP6760394B2 (ja) 2020-09-23

Family

ID=62241724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018554275A Active JP6760394B2 (ja) 2016-12-02 2017-12-01 コンテンツ再生機器、収音機器、及びコンテンツ再生システム

Country Status (3)

Country Link
US (1) US11289114B2 (ja)
JP (1) JP6760394B2 (ja)
WO (1) WO2018101459A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101459A1 (ja) * 2016-12-02 2018-06-07 ヤマハ株式会社 コンテンツ再生機器、収音機器、及びコンテンツ再生システム
CN112017636B (zh) * 2020-08-27 2024-02-23 大众问问(北京)信息科技有限公司 基于车辆的用户发音模拟方法、系统、设备及存储介质

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53166306U (ja) 1978-06-08 1978-12-26
JPS61138999A (ja) 1984-12-12 1986-06-26 株式会社神戸製鋼所 音声認識装置
JPH01318444A (ja) 1988-06-20 1989-12-22 Canon Inc 自動ダイヤル装置
US5010495A (en) * 1989-02-02 1991-04-23 American Language Academy Interactive language learning system
US6199076B1 (en) * 1996-10-02 2001-03-06 James Logan Audio program player including a dynamic program selection controller
EP0911808B1 (en) 1997-10-23 2002-05-08 Sony International (Europe) GmbH Speech interface in a home network environment
JP3507681B2 (ja) * 1998-01-08 2004-03-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理方法及び情報処理装置、情報処理システム、情報処理装置を制御するプログラムを格納した記憶媒体
JP2000099076A (ja) 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2000157357A (ja) * 1998-11-26 2000-06-13 Toto Ltd 台所用装置
JP2000211177A (ja) 1999-01-25 2000-08-02 Minolta Co Ltd 直接記録装置
JP2002315069A (ja) 2001-04-17 2002-10-25 Misawa Homes Co Ltd 遠隔制御装置
JP2003195939A (ja) 2001-12-26 2003-07-11 Toshiba Corp プラント監視制御システム
US7711847B2 (en) 2002-04-26 2010-05-04 Sony Computer Entertainment America Inc. Managing users in a multi-user network game environment
JP2003330485A (ja) 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
US20030217135A1 (en) 2002-05-17 2003-11-20 Masayuki Chatani Dynamic player management
US8560707B2 (en) 2007-10-05 2013-10-15 Sony Computer Entertainment America Llc Seamless host migration based on NAT type
US8060626B2 (en) 2008-09-22 2011-11-15 Sony Computer Entertainment America Llc. Method for host selection based on discovered NAT type
US8224985B2 (en) 2005-10-04 2012-07-17 Sony Computer Entertainment Inc. Peer-to-peer communication traversing symmetric network address translators
US8131802B2 (en) 2007-10-05 2012-03-06 Sony Computer Entertainment America Llc Systems and methods for seamless host migration
KR20050023941A (ko) 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
DE602004016681D1 (de) 2003-12-05 2008-10-30 Kenwood Corp Audioeinrichtungs-steuereinrichtung, audioeinrichtungs-steuerverfahren und programm
US7995768B2 (en) * 2005-01-27 2011-08-09 Yamaha Corporation Sound reinforcement system
JP4867579B2 (ja) * 2005-11-02 2012-02-01 ヤマハ株式会社 遠隔会議装置
EP1962547B1 (en) 2005-11-02 2012-06-13 Yamaha Corporation Teleconference device
JP2008021366A (ja) 2006-07-12 2008-01-31 Sharp Corp コンテンツ再生装置、コンテンツ再生方法、コンピュータプログラム、及びコンピュータプログラム記録媒体
US20110054894A1 (en) 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US9043474B2 (en) * 2010-01-20 2015-05-26 Microsoft Technology Licensing, Llc Communication sessions among devices and interfaces with mixed capabilities
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
JP2011232521A (ja) 2010-04-27 2011-11-17 On Semiconductor Trading Ltd 音声認識装置
EP2597893A4 (en) * 2010-07-23 2017-12-27 NEC Corporation Acoustic apparatus and oscillating unit
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US20130089300A1 (en) 2011-10-05 2013-04-11 General Instrument Corporation Method and Apparatus for Providing Voice Metadata
WO2013175629A1 (ja) * 2012-05-25 2013-11-28 任天堂株式会社 操作装置、情報処理システム、および通信方法
EP2706432B1 (en) * 2012-05-25 2017-12-06 Nintendo Co., Ltd. Operation device, information processing system, and information processing method
KR102009423B1 (ko) 2012-10-08 2019-08-09 삼성전자주식회사 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치
KR101977317B1 (ko) * 2012-10-10 2019-05-10 삼성전자주식회사 사용자 단말 장치, sns 제공 서버 및 그들의 컨텐츠 제공 방법
US8977555B2 (en) 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
CN103077165A (zh) 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
CN103020047A (zh) 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统
JP6534926B2 (ja) 2013-06-10 2019-06-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別方法、話者識別装置及び話者識別システム
JP5897527B2 (ja) * 2013-09-26 2016-03-30 シャープ株式会社 発話サーバ、発話方法およびプログラム
JP6195073B2 (ja) 2014-07-14 2017-09-13 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム
US9779752B2 (en) 2014-10-31 2017-10-03 At&T Intellectual Property I, L.P. Acoustic enhancement by leveraging metadata to mitigate the impact of noisy environments
JP6611474B2 (ja) * 2015-06-01 2019-11-27 クラリオン株式会社 集音装置、及び集音装置の制御方法
JP6632855B2 (ja) * 2015-10-15 2020-01-22 株式会社ディーアンドエムホールディングス ワイヤレススピーカ、コントローラ、ワイヤレスオーディオシステム、およびコンピュータで読み取り可能なプログラム
JP6572737B2 (ja) * 2015-10-30 2019-09-11 ヤマハ株式会社 オーディオシステム制御プログラムおよび制御端末装置
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
WO2018055738A1 (ja) * 2016-09-23 2018-03-29 ヤマハ株式会社 コンテンツ再生機器、コンテンツ再生システム、及びコンテンツ再生機器の制御方法
WO2018101459A1 (ja) * 2016-12-02 2018-06-07 ヤマハ株式会社 コンテンツ再生機器、収音機器、及びコンテンツ再生システム
WO2018100743A1 (ja) 2016-12-02 2018-06-07 ヤマハ株式会社 制御装置および機器制御システム
JP6677343B2 (ja) * 2017-03-09 2020-04-08 ヤマハ株式会社 操作装置、コマンド処理装置、及びコンテンツ再生システム

Also Published As

Publication number Publication date
JPWO2018101459A1 (ja) 2019-06-27
US11289114B2 (en) 2022-03-29
US20190279658A1 (en) 2019-09-12
WO2018101459A1 (ja) 2018-06-07

Similar Documents

Publication Publication Date Title
KR102015745B1 (ko) 개인화된 실시간 오디오 프로세싱
CN109804559B (zh) 空间音频系统中的增益控制
US9699556B2 (en) Enhancing audio using a mobile device
US9402145B2 (en) Wireless speaker system with distributed low (bass) frequency
US8767975B2 (en) Sound discrimination method and apparatus
JP5493611B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2020500480A (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
JP4670682B2 (ja) オーディオ装置及び指向音生成方法
JP2020500480A5 (ja)
KR102374054B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
JP6760394B2 (ja) コンテンツ再生機器、収音機器、及びコンテンツ再生システム
JP2007068000A (ja) 音場再生装置および音場再生装置用リモコン
CN112672251B (zh) 一种扬声器的控制方法和系统、存储介质及扬声器
JP5543106B2 (ja) 空間オーディオ信号再生装置及び空間オーディオ信号再生方法
KR20190101373A (ko) 오디오 신호 재생 장치 및 재생 방법, 수음 장치 및 수음 방법, 그리고 프로그램
US10616684B2 (en) Environmental sensing for a unique portable speaker listening experience
KR101659895B1 (ko) 소음 제어 및 감쇄 유도를 위한 장치 및 방법
US20220390580A1 (en) Audio-based method for determining device distance
KR20150107699A (ko) 잔향음을 이용하여 공간을 인지하고 고유의 엔빌로프를 비교하여 음향을 보정하는 장치 및 방법
JP7461771B2 (ja) マルチチャンネルオーディオシステム、マルチチャンネルオーディオ装置、プログラム、およびマルチチャンネルオーディオ再生方法
US20140324418A1 (en) Voice input/output device, method and programme for preventing howling
JP5489537B2 (ja) 音響再生システム、音響再生装置、及びそれらの制御方法
JP6194740B2 (ja) 音声処理装置、音声処理方法、及びプログラム
US11114082B1 (en) Noise cancelation to minimize sound exiting area
JP2019537071A (ja) 分散したマイクロホンからの音声の処理

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200311

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200701

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200817

R151 Written notification of patent or utility model registration

Ref document number: 6760394

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151