JP7483970B2 - 情報処理方法 - Google Patents

情報処理方法 Download PDF

Info

Publication number
JP7483970B2
JP7483970B2 JP2023036259A JP2023036259A JP7483970B2 JP 7483970 B2 JP7483970 B2 JP 7483970B2 JP 2023036259 A JP2023036259 A JP 2023036259A JP 2023036259 A JP2023036259 A JP 2023036259A JP 7483970 B2 JP7483970 B2 JP 7483970B2
Authority
JP
Japan
Prior art keywords
main device
sound data
destination
user
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023036259A
Other languages
English (en)
Other versions
JP2023081985A (ja
Inventor
康宣 橋本
貞雄 鶴賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maxell Ltd
Original Assignee
Maxell Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maxell Ltd filed Critical Maxell Ltd
Priority to JP2023036259A priority Critical patent/JP7483970B2/ja
Publication of JP2023081985A publication Critical patent/JP2023081985A/ja
Application granted granted Critical
Publication of JP7483970B2 publication Critical patent/JP7483970B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、ユーザとの対話を通じて、必要とされるタスクを実行し、結果をユーザに提供するデジタルアシスタント技術に関する。特に、リモートでデジタルアシスタント機能を実現する技術に関する。
デジタルアシスタント機能を有する主デバイスと、デジタルアシスタント機能を持たない副デバイスとによりアシスタント機能を実現するシステムがある。例えば、特許文献1には、「パーソナルアシスタント情報を提供するための1つまたは複数の技法および/またはシステムが提供される。例えば、主デバイスが、副デバイスとの通信チャネルを確立することができる。主デバイスは、ユーザに関連付けられたコンテキストを受け取ることができる。デジタルパーソナルアシスタント機能により使用可能となるまたはそのような機能にアクセスすることができる主デバイスは、デジタルパーソナルアシスタント機能を呼び出してコンテキストを評価し、パーソナルアシスタント結果を生成することができる。パーソナルアシスタント結果は、ユーザへの提示のために主デバイスから副デバイスに提供することができる。このようにして、副デバイスは、そのような機能を備えなくても、またはそのような機能にアクセスすることができなくても、デジタルパーソナルアシスタント機能を提供するように見える(要約抜粋)」システムが開示される。
特表2017-538985号公報
スマートフォン等、携帯型デバイスにおいて、音声コマンドによるデジタルアシスタント機能を利用する場合、手元にデバイスがある場合は、問題なく使用できる。しかしながら、携帯型デバイスとはいえ、ユーザから離れた場所に置かれることも多い。例えば、ユーザは、帰宅すると、充電等のため、手元から離すことが多い。
特許文献1に開示の技術によれば、ユーザによる音声コマンドの受け取りは、デジタルアシスタント機能を備える主デバイスを介して行われる。従って、主デバイスがユーザの手元から離れた場合は、使用できない。
また、特許文献1に開示の技術は、ユーザは1人であることが前提である。しかしながら、家庭などでは、個々の家人がスマートフォン等のデジタルアシスタント機能を有する主デバイスを保持する。また、個々の家人は、複数の主デバイスを所持することもある。つまり、複数のユーザとユーザの数以上の主デバイスが存在し得る。しかしながら、特許文献1に開示の技術では、このような環境での使用は想定されていない。
本発明は、上記事情に鑑みてなされたもので、デジタルアシスタント機能を有するデバイスがユーザの手元から離れた場所にある場合であっても、個々のユーザにデジタルアシスタント機能を提供可能な技術を提供することを目的とする。
本発明は、デジタルアシスタント処理を実行する主デバイスに取得した音データを中継する中継デバイスの情報処理方法であって、周囲の音を前記音データとして取得する音取得ステップと、前記音データの送信先の前記主デバイスである送信先主デバイスを決定する送信先デバイス決定ステップと、前記送信先主デバイスが決定された場合に、前記音データを送信するとともに、当該音データに応じて実行されたデジタルアシスタント処理結果を回答として前記送信先主デバイスから受信する送受信ステップと、前記送受信ステップで受信した回答を提示する回答提示ステップと、を備え、前記送信先デバイス決定ステップでは、前記音データを解析して発声主であるユーザを判別してユーザが特定できた場合に当該ユーザに対応づけて登録されている前記主デバイスを、前記送信先主デバイスと決定し、ユーザが特定できない場合は前記送信先主デバイスを決定しないことを特徴とする。また本発明は、デジタルアシスタント処理を実行する主デバイスに取得した音データを中継する中継デバイスの情報処理方法であって、周囲の音を前記音データとして取得する音取得ステップと、前記音データの送信先の前記主デバイスである送信先主デバイスを決定する送信先デバイス決定ステップと、前記送信先主デバイスに、前記音データを送信するとともに、当該音データに応じて実行されたデジタルアシスタント処理結果を回答として前記送信先主デバイスから受信する送受信ステップと、前記送受信ステップで受信した回答を提示する回答提示ステップと、を備え、前記音取得ステップでは、前記音データを音源毎に分離し、前記送信先デバイス決定ステップでは、分離された前記音データそれぞれについて、前記送信先主デバイスを決定し、前記送信先主デバイスが決定できない場合は前記送信先主デバイスを決定せず、前記送受信ステップでは、分離された前記音データを、決定された前記送信先主デバイスにそれぞれ送信するとともに、各前記送信先主デバイスからそれぞれ前記回答を受信し、前記回答提示ステップでは、各前記送信先主デバイスから受信した前記回答を、それぞれ提示することを特徴とする。
また、本発明は、デジタルアシスタント処理を実行する主デバイスに取得した音データを中継する中継デバイスの情報処理方法であって、周囲の音を前記音データとして取得する音取得ステップと、前記音データの送信先の前記主デバイスである送信先主デバイスを決定する送信先デバイス決定ステップと、前記送信先主デバイスに、前記音データを送信するとともに、当該音データに応じて実行されたデジタルアシスタント処理結果を回答として前記送信先主デバイスから受信する送受信ステップと、前記送受信ステップで受信した回答を提示する回答提示ステップと、前記デジタルアシスタント処理を実行するアシスタント処理ステップと、を備え、前記アシスタント処理ステップでは、前記音データを解析し、前記デジタルアシスタント処理を実行するために、個人情報が必要であるか否かを判別し、前記送信先デバイス決定ステップでは、前記アシスタント処理ステップにおいて、前記個人情報が必要であると判別した場合、前記送信先主デバイスを決定し、前記送信先主デバイスが決定できない場合は前記送信先主デバイスを決定せず、前記回答提示ステップでは、前記アシスタント処理ステップにおいて前記デジタルアシスタント処理を実行した場合、当該デジタルアシスタント処理結果を提示することを特徴とする。また本発明は、デジタルアシスタント処理を実行する主デバイスに取得した音データを中継する中継デバイスの情報処理方法であって、周囲の音を前記音データとして取得する音取得ステップと、前記音データの送信先の前記主デバイスである送信先主デバイスを決定する送信先デバイス決定ステップと、前記送信先主デバイスに、前記音データを送信するとともに、当該音データに応じて実行されたデジタルアシスタント処理結果を回答として前記送信先主デバイスから受信する送受信ステップと、前記送受信ステップで受信した回答を提示する回答提示ステップと、前記デジタルアシスタント処理を実行するアシスタント処理ステップと、を備え、前記アシスタント処理ステップでは、前記音データを解析し、当該音データから前記主デバイスを特定する情報を抽出し、前記送信先デバイス決定ステップでは、前記アシスタント処理ステップで抽出した情報で特定される前記主デバイスを、前記送信先主デバイスと決定し、前記送信先主デバイスが特定できない場合は前記送信先主デバイスを決定しないことを特徴とする。
本発明によれば、デジタルアシスタント機能を有するデバイスがユーザの手元から離れた場所にある場合であっても、個々のユーザにデジタルアシスタント機能を提供できる。上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。
(a)および(b)は、第一実施形態の概要を説明するための説明図である。 第一実施形態のアシスタントシステムのシステム構成図である。 第一実施形態の副デバイスのハードウェア構成図である。 第一実施形態の主デバイスのハードウェア構成図である。 第一実施形態の副デバイスの機能ブロック図である。 (a)は、第一実施形態の連携情報データベースを、(b)は、第一実施形態のユーザ情報データベースを、それぞれ説明するための説明図である。 (a)は、第一実施形態の主デバイスの機能ブロック図であり、(b)は、第一実施形態の副デバイス管理データベースを説明するための説明図である。 第一実施形態のデジタルアシスタント連携処理のフローチャートである。 (a)および(b)は、第一実施形態の画面例をそれぞれ説明するための説明図である。 (a)は、第一実施形態の変形例の画面例を、(b)は、第一実施形態の変形例の対応装置登録データベース例を、(c)は、第一実施形態の変形例の副デバイスの出力例を、それぞれ、説明するための説明図である。 第二実施形態の概要を説明するための説明図である。 第二実施形態の副デバイスの機能ブロック図である。 第二実施形態の副デバイスのデジタルアシスタント連携処理のフローチャートである。 第二実施形態の出力例を説明するための説明図である。 本発明の実施形態の変形例の概要を説明するための説明図である。 (a)は、本発明の実施形態の変形例の画面例を、(b)は、同変形例の処理の概要を、それぞれ説明するための説明図である。 本発明の実施形態の変形例のサーバのハードウェア構成図である。
<<第一実施形態>>
以下、本発明の第一実施形態を説明する。全明細書において、同じ機能を有するものには、同じ符号を付し、繰り返しの説明は省略する。
まず、本実施形態の処理の概要を説明する。図1(a)および図1(b)は、本実施形態の処理の概要を説明するための図である。
本実施形態では、ユーザとの対話を通じて、必要とされるタスクを実行し、結果をユーザに提供するデジタルアシスタント機能を、リモートで提供する。具体的には、デジタルアシスタント機能を備えるスマートフォン等の携帯型の情報処理装置に対し、ユーザからの音声コマンドを中継するとともに、ユーザに結果を提供する中継装置を設ける。以下、デジタルアシスタント機能を備える携帯型の情報処理装置を、主デバイスと呼ぶ。
自宅等では、主デバイスがユーザから離れた場所に置かれることがある。例えば、ユーザは、居間にいて、主デバイスは居間とは別の部屋で充電器に接続されている場合等である。
本実施形態では、このような時、居間に配置される、例えば、テレビ(TV)等の映像表示装置を、デジタルアシスタント機能の中継装置として機能させる。すなわち、テレビは、音声コマンドを、音声コマンドの音声の発声主のスマートフォンに中継する。以下、中継装置として機能する装置を、副デバイスと呼ぶ。
本実施形態では、図1(a)に示すように、複数のユーザA、B、Cが、それぞれ、自身の主デバイス300a、300b、300cを所持しているものとする。そして、テレビが副デバイス100として機能する。なお、デジタルアシスタント機能の中継装置として機能する副デバイスは、例えば、スマートスピーカ101であってもよい。この場合の、本実施形態の概要図を、図1(b)に示す。
図1(a)および図1(b)に示すように、副デバイス100(または、101)は、ユーザAから音声コマンドを受信すると、ユーザAの主デバイス300aにその音声コマンドを中継する。そして、主デバイス300aからの回答を受信し、出力する。また、ユーザBから音声コマンドを受信すると、ユーザBの主デバイス300bにその音声コマンドを中継し、主デバイス300bから受信した回答を出力する。ユーザCの場合も同様に、音声コマンドを受信すると、ユーザCの主デバイス300cにその音声コマンドを中継し、得られた回答を出力する。
回答の出力は、例えば、副デバイスがテレビ100の場合、スピーカからの音声出力、ディスプレイ上への表示等である。また、副デバイスがスマートスピーカ101の場合、スピーカからの音声出力等である。以下、上記機能を実現するアシスタントシステムを説明する。
[システムの全体構成]
まず、本実施形態のアシスタントシステム900の全体構成を説明する。図2は、本実施形態のアシスタントシステム900の全体構成図である。
本図に示すように、本実施形態のアシスタントシステム900は、副デバイス100と、主デバイス300と、アクセスポイント(AP)510と、を備える。なお、本実施形態のアシスタントシステム900は、さらに、外部ネットワーク520を介して、アクセスポイント510と接続されるサーバ530を備えてもよい。また、主デバイス300を充電する充電台511を備えてもよい。
主デバイス300は、個々のユーザにデジタルアシスタント機能を提供する装置である。通信機能、ユーザインタフェース、情報処理機能を備える装置であればよい。
本実施形態では、主デバイス300として、例えば、スマートフォン等の携帯型情報処理装置300a、300b、300cや、スマートウォッチ301、ヘッドマウントディスプレイ(HMD)302や、ワイヤレスヘッドフォン303等が用いられる。以下、本実施形態では、主デバイス300として、スマートフォンを用いる場合を例にあげて説明する。なお、主デバイス300の個数は限定されない。
副デバイス100は、個々のユーザのインタフェースとなるデバイスである。本実施形態では、ユーザによる音声を受け付け、音声の発声主を特定し、特定した発声主の主デバイス300に当該音声を転送する。また、主デバイス300から処理結果を受信すると、ユーザに提示する。副デバイス100の個数も限定されない。
本実施形態では、例えば、副デバイス100として、テレビ、スマートスピーカ101等が用いられる。以下、本実施形態では、副デバイス100として、表示装置であるディスプレイを有するテレビを用いる場合を例にあげて説明する。
アクセスポイント510は、無線LANクライアントを相互に接続したり、他のネットワークに接続したりするデバイスである。本実施形態では、主デバイス300と副デバイス100とを接続する。
[副デバイスのハードウェア構成]
次に、副デバイス100について説明する。図3は、本実施形態の副デバイス100のハードウェア構成図である。
本図に示すように、本実施形態の副デバイス100は、コントローラ110と、TV部120と、マイクロフォン(マイク)130と、ディスプレイ140と、音出力部150と、通信部160と、を備える。さらに、カメラ181を備えてもよい。
コントローラ110は、副デバイス100の全体の制御を行う。本実施形態では、コントローラ110は、CPU111と、メモリ112とを備える。メモリ112は、RAMとROMとを備え、ROMには、プログラム113とデータ114とが格納される。
TV部120は、映像表示装置としての通常の機能を実現する。例えば、受信選局部121と、信号分離部122と、映像処理部123と、音声処理部124と、デジタルインタフェース(I/F)部125と、ユーザインタフェース(I/F)部126と、を備える。
受信選局部121は、放送信号を受信し、信号分離部122に出力する。受信選局部121は、RFチューナー等を含み、ユーザがユーザI/F部126を介してリモコン等により指定するチャンネルを放送信号から選択する。そして、選択した放送信号を復調して放送番組の受信データとして、信号分離部122に送る。放送番組の受信データは、映像データ、音声データ、放送データなどが多重されたものである。
信号分離部122は、受信データから映像データと音声データを分離し、それぞれ映像処理部123、音声処理部124に送る。映像データ、音声データは、オリジナルデータの情報量を圧縮する符号化がなされている。
映像処理部123は、映像データに対し、伸張・復号処理を行い、TV放送番組の映像データを得、ディスプレイ140から出力する。なお、このとき、表示する映像データをプレーン単位で管理し、例えば、OSD(On Screen Display)プレーンを放送番組の映像データに重畳してもよい。
音声処理部124は、音声データに対し、伸張・復号処理を行い、TV放送番組の音声データを得、音出力部150から出力する。
デジタルI/F部125は、例えばHDMI(登録商標)、もしくはUSBのデジタルI/F機能を有する。デジタルI/F部125は、映像及び音声のコンテンツデータを外部入力として受け付け、映像処理部123および音声処理部124を介してディスプレイ140および音出力部150に出力する。
マイク130は、外界の音を取得する。
ディスプレイ140は、副デバイス100内で処理された映像データを表示する。
音出力部150は、副デバイス100内で処理された音データを出力する。音出力部150は、例えば、スピーカ151と、イヤホン152とを備えてもよい。
通信部160は、符号回路や復号回路、アンテナ等を備え、他装置とのデータの送受信(データ通信)を行う。通信部160は、AP510を介して他装置とのデータの送受信を行う通信インタフェース162と、直接他装置と通信を行う近接通信インタフェース161とを備える。AP510との接続は、例えば、Wi-Fi(登録商標)等の無線通信方式やその他の通信方式により行われる。
カメラ181は、副デバイス100の周囲の画像を取得する。
[主デバイスのハードウェア構成]
次に、主デバイス300のハードウェア構成を説明する。図4は、本実施形態の主デバイス300のハードウェア構成図である。
本図に示すように、本実施形態の主デバイス300は、コントローラ310と、マイク330と、ディスプレイ340と、音声出力部350と、通信部360と、位置検出部370と、カメラ381と、測距センサ382とを備える。
各構成は、副デバイス100の同名の構成と基本的に同様の機能を有するため、ここでは、詳細は説明しない。
なお、位置検出部370は、主デバイス300の現在位置、傾き、速度等を検出する。これらの情報を検出するためのセンサとして、例えば、加速度センサ371と、ジャイロセンサ372と、地磁気センサ373と、GPS受信器374とを備える。
カメラ381は、主デバイス300の周囲の画像を取得する。なお、カメラ381として、撮影範囲の中心軸の向きが180度異なる2種のカメラ、例えば、外向きカメラと、内向きカメラとを備えてもよい。測距センサ382は、主デバイス300の周囲の物体までの距離を取得する。
[副デバイスの機能ブロック]
次に、本実施形態の副デバイス100の機能構成について説明する。上述のように、本実施形態の副デバイス100は、通常のテレビとしての機能に加え、デジタルアシスタント機能のユーザインタフェースとして機能する。すなわち、ユーザの音声を、当該ユーザの主デバイス300に中継する。
以下、副デバイス100が、主デバイス300のデジタルアシスタント機能のユーザI/Fとして機能することを、副デバイス100と主デバイス300とのデジタルアシスタント連携、あるいは、単に、連携、と呼ぶ。主デバイス300は、例えば、連携状態である副デバイス100から受信した音データについてのみ、デジタルアシスタント処理を行い、回答を提供する。なお、副デバイス100が、デジタルアシスタント連携可能な状態を連携モードと呼ぶ。主デバイス300も同様に、デジタルアシスタント連携可能な状態を連携モードと呼ぶ。
以下、上記デジタルアシスタント連携機能を実現する本実施形態の副デバイス100の機能ブロックを説明する。ここでは、副デバイス100の機能のうち、デジタルアシスタント連携機能にのみ主眼をおいて説明する。
本実施形態の副デバイス100は、図5に示すように、デジタルアシスタント連携機能として、副デバイス側連携部210を備える。副デバイス側連携部210は、連携設定部211と、音取得部212と、送信先デバイス決定部213と、送受信部214と、回答提示部215と、を備える。
これらの各機能は、メモリ112の例えばROMに保存されたプログラム113を、CPU111がメモリ112の例えばRAMにロードして実行することにより、実現される。
また、メモリ112には、さらに、これらの処理に用いるデータ114として、連携情報データベース(DB)230と、ユーザ情報データベース(DB)240とが格納される。
連携設定部211は、デジタルアシスタント連携を行う可能性のある主デバイス300の連携状態を管理する。本実施形態では、連携情報DB230により管理する。
連携情報DB230の一例を、図6(a)に示す。連携情報DB230は、ユーザ毎に、当該ユーザの主デバイス300の情報と、当該主デバイス300との連携が確立されているか否かの情報が格納される。
具体的には、本図に示すように、ユーザID231毎に、主デバイスID232と、アクセス情報233と、連携フラグ234と、が登録される。
ユーザID231は、ユーザを特定する情報である。主デバイスID232は、そのユーザが使用する主デバイス300を識別する情報である。また、アクセス情報233は、AP510を介して、その主デバイス300にアクセスするための情報、例えば、IPアドレス等である。
ユーザID231、主デバイスID232およびアクセス情報233は、予め、ユーザにより登録される。例えば、後述するように、主デバイス300において、連携初期設定処理を行うことにより、設定される。これらの情報は、初期設定時に設定された後、メモリ112に保持される。
なお、主デバイス300の情報として、さらに、主デバイス種別235および主デバイス名称236が登録されてもよい。主デバイス種別235は、主デバイスの種類である。例えば、スマートフォン、タブレット、スマートウォッチ等が登録される。また、主デバイス名称236は、主デバイス300の呼称である。予め主デバイス300に付与されたものであってもよいし、ユーザが独自に付与したものであってもよい。これらの情報も、予めユーザにより登録される。
また、連携フラグ234は、その主デバイス300と連携状態であるか否かを示す情報が格納される。
本実施形態では、後述するように、主デバイス300がAP510を認識すると、AP510を介して連携要求コマンドを副デバイス100に送信する。連携設定部211は、主デバイス300から連携要求コマンドを受信すると、連携情報DB230の、送信元の主デバイス300のデータの連携フラグ234を設定し、送信元の主デバイス300に連携確立コマンドを返信する。なお、本図では、連携フラグ234が設定されているデータは、連携フラグ234をONで示し、設定されていないデータは、連携フラグ234をOFFで示す。連携フラグ234がONの主デバイス300とは、デジタルアシスタント連携が確立されている主デバイス300である。
なお、連携要求コマンドには、主デバイス300の主デバイスID232およびアクセス情報233が含まれる。連携設定部211は、これらの情報に基づき、連携フラグ234を設定するデータを特定する。
また、返信される連携確立コマンドには、副デバイス100の識別情報である副デバイスIDおよびアクセス情報が含まれる。
音取得部212は、マイク130で取得した音から音データを生成し、送信先デバイス決定部213に出力する。また、送信先デバイス決定部213からの指示に応じて音データを送受信部214に出力する。
本実施形態では、音取得部212は、マイク130で取得した音に対し、ノイズ除去処理を行い、音データを生成する。ここで行うノイズ除去処理は、たとえば、一定音量以下の音を除く、所定の周波数領域外(低周波、高周波)成分を除く等の処理である。なお、音取得部212は、スペクトル減算法など公知の技術を用いてノイズ除去処理を行ってもよい。
送信先デバイス決定部213は、音データの送信先の主デバイス300を送信先主デバイスとして決定する。まず、音取得部212から音データを受け取ると、当該音を解析し、ユーザ情報DB240を参照し、発声主であるユーザを特定する。なお、ユーザが特定できない場合は、音声データでないと判別し、送信先主デバイスは決定しない。
ここで、送信先デバイス決定部213がユーザを特定する際に用いるユーザ情報DB240の一例を説明する。ユーザ情報DB240は、音によりユーザを特定するための情報が格納される。本実施形態では、ユーザを特定する情報であるユーザID241に対応づけて、音声情報242が登録される。なお、さらに顔画像243が登録されてもよい。
音声情報242は、例えば、ユーザの実際の音声データであってもよい。なお、送信先デバイス決定部213は、声紋や周波数等を用いて、音声情報242と受け取った音データとを照合し、ユーザを特定する。従って、音声情報242は、ユーザの音声データそのものでなくても、声紋や周波数等が比較できる情報であればよい。また、実際の音声データは、別の領域に格納し、当該領域へのアクセス情報であってもよい。
なお、音声情報242は、予めユーザにより登録される。顔画像243も同様である。
本実施形態の送信先デバイス決定部213は、ユーザ情報DB240を参照し、受け取った音データに、所定の許容範囲内で合致する音声情報242を特定する。そして、特定した音声情報242に対応付けられたユーザID241をユーザ情報DB240から抽出する。
音データの発声主であるユーザを特定すると、送信先デバイス決定部213は、そのユーザの主デバイス300を特定し、送信先主デバイスと決定する。ここでは、連携情報DB230を参照し、抽出したユーザID241と同じユーザID231に対応づけて登録されている主デバイス300を、送信先主デバイスと決定する。決定結果は、音取得部212に出力される。本実施形態では、例えば、主デバイスID232およびアクセス情報233を決定結果として音取得部212に出力する。
なお、受け取った音データに所定の許容範囲内で合致する音声情報242がユーザ情報DB240に登録されていない場合は、送信先デバイス決定部213は、取得された音データはユーザによる音声ではないと判断し、何も出力しない。
また、送信先主デバイスと決定した主デバイス300の連携フラグ234がOFFである場合、当該主デバイス300は、この副デバイス100との間で、連携が確立されていない。従って、この場合、送信先デバイス決定部213は、その旨、ユーザに通知してもよい。例えば、ディスプレイ140に、連携が未確立であることを表示する。
なお、音取得部212は、送信先デバイス決定部213から主デバイスID232およびアクセス情報233を受信した場合、当該主デバイス300に向けて、音データを送信するよう送受信部214に指示を行う。
送受信部214は、通信インタフェース162を介してデータの送受信を行う。本実施形態では、音取得部212からの指示に従って、音データを、中継音声として主デバイス300に送信する。また、主デバイス300から処理結果を受信すると、回答提示部215に出力する。
回答提示部215は、処理結果を、ディスプレイ140および/または音出力部150を介してユーザに出力する。
[主デバイスの機能ブロック]
次に、上記デジタルアシスタント連携機能を実現する、本実施形態の主デバイス300の機能ブロックを説明する。ここでは、主デバイス300の機能のうち、デジタルアシスタント連携機能にのみ主眼をおいて説明する。
本実施形態の主デバイス300は、図7(a)に示すように、アシスタント部410と、デジタルアシスタント連携を実現する機能として、主デバイス側連携部420と、を備える。主デバイス側連携部420は、データ受信部421と、回答送信部422と、連携管理部423と、初期設定部424と、を備える。
これらの各機能は、メモリ312の例えばROMに保存されたプログラム313を、CPU311がメモリ312の例えばRAMにロードして実行することにより、実現される。
また、メモリ312には、さらに、これらの処理に用いるデータ314として、副デバイス管理データベース(DB)430が格納される。
初期設定部424は、連携初期設定処理を行う。本実施形態では、デジタルアシスタント連携処理の実行に先立ち、連携を行う副デバイス100に、自装置(主デバイス300)の情報を登録する。上述のように、自装置である主デバイス300の、主デバイスID232と、アクセス情報233とを登録する。
登録は、例えば、副デバイス100の近傍で、近接通信インタフェース161および361を介して上記情報を副デバイス100に、登録要求とともに送信することにより行う。このとき、副デバイス100側の情報として副デバイス100を特定する情報である副デバイスIDとアクセス情報とを取得してもよい。取得したこれらの情報は、例えば、後述する副デバイス管理DB430に管理してもよい。
ここで、副デバイス管理DB430の例を、図7(b)に示す。本図に示すように、副デバイス管理DB430は、副デバイス100毎の連携に必要な情報が格納される。具体的には、副デバイス100を特定する情報である副デバイスID431に対応づけて、そのアクセス情報432と、連携が設定されているか否かを示す連携フラグ433が格納される。連携フラグ433は、後述する連携管理部423により設定される。
なお、副デバイスID431およびアクセス情報432も、後述する連携管理部423により設定されてもよい。すなわち、連携要求コマンドに応じて返信された連携確立コマンドに含まれる副デバイスの識別情報およびアクセス情報を格納してもよい。また、連携確立コマンドを受信し、副デバイスIDとアクセス情報432とが設定されたデータについては、連携が解除されるまでは、連携フラグ433をONに設定する。
連携管理部423は、連携する副デバイス100を管理するとともに、当該副デバイス100との間でデジタルアシスタント連携状態であるか否かを管理する。
連携管理部423は、まず、自装置である主デバイス300が、デジタルアシスタント連携可能状態であるか否かを管理する。本実施形態では、例えば、アシスタントシステム900のAP510にアクセス可能か、すなわち、AP510を認識したか否かを判別する。
連携管理部423は、AP510を認識した場合、デジタルアシスタント連携可能状態であると判別する。
デジタルアシスタント連携可能状態と判別した場合、すなわち、AP510を認識した場合、連携管理部423は、AP510を介して、連携要求コマンドを出力する。
副デバイス100側では、連携要求コマンドを受信すると、上述のように、連携確立コマンドを、送信元の主デバイス300に送信する。なお、副デバイス100として機能するデバイスがAP510を介して複数接続されている場合、各副デバイス100から連携確立コマンドが送信される。
連携管理部423は、副デバイス100から連携確立コマンドを受信すると、当該副デバイス100との連携を確立し、当該副デバイス100との間で連携状態とする。具体的には、送信元の副デバイス100のデータの連携フラグ433を設定する(ONにする)。なお、送信元の副デバイス100のデータは、連携確立コマンドに含まれる副デバイスIDおよびアクセス情報で特定する。
また、連携管理部423は、AP510を認識しなくなると、連携フラグ433を解除する。なお、連携フラグ433は、電源がOFFされると、解除されるよう、例えば、RAM等に設定する。
データ受信部421は、通信インタフェース362を介して中継音声を受信し、送信元の副デバイス100との間で連携状態である場合、受信した中継音声をアシスタント部410に出力する。連携状態であるか否かは、副デバイス管理DB430の連携フラグ433により判別する。なお、データ受信部421は、連携状態である副デバイス100であって、通信路が未確立の副デバイス100から中継音声を受信すると、送信元の副デバイス100との間に通信路を確立させる。
アシスタント部410は、中継音声を、通常のマイク330で取得した音と同様に解析し、アシスタント処理を行い、回答を出力する。このとき、必要に応じて、AP510を介して、外部ネットワーク520に接続されたサーバ530等から情報を取得してもよい。
回答送信部422は、通信路が確立されている副デバイス100に対し、アシスタント部410が出力した回答を送信する。送信は、通信インタフェース362を介して行われる。
回答送信部422は、回答の内容だけでなく、主デバイス300のアシスタント機能において設定されている、アシスタントの音声種、キャラクタ等の情報も、回答に重畳して送信してもよい。
副デバイス100の回答提示部215は、これらの情報に基づき、主デバイス300の音声種で回答を提示したり、キャラクタ情報を重畳したりする。
[デジタルアシスタント連携処理]
本実施形態のデジタルアシスタント連携処理の流れを説明する。図8は、本実施形態のデジタルアシスタント連携処理の処理フローである。ここでは、主デバイス300のうち主デバイス300aと、副デバイス100との間で連携を行う場合を例にあげて説明する。なお、ここでは、初期設定部424と連携設定部211とにより、連携情報DB230および副デバイス管理DB430の登録は完了しているものとする。
まず、主デバイス300aの連携管理部423は、AP510を認識すると、連携要求コマンドを送信する(ステップS1101)。ここでは、AP510に向けて連携要求コマンドを送信する。副デバイス管理DB430に登録されている副デバイス100が1つの場合は、副デバイス100を特定して、連携要求コマンドを送信してもよい。
主デバイス300aから連携要求コマンドを受信した副デバイス100は(ステップS1201)、送信元の主デバイス300aとの連携を開始する(ステップS1202)。ここでは、連携設定部211は、連携情報DB230を参照し、主デバイス300aのデータの連携フラグ234を設定する。また、連携設定部211は、連携確立コマンドを、送信元の主デバイス300aに返信する。
連携確立コマンドを受信した主デバイス300aの連携管理部423は、副デバイス100との連携モードをONにする(ステップS1102)。ここでは、連携管理部423は、副デバイス管理DB430の、該当する副デバイス100のデータの連携フラグ433を設定する。
以上の処理により、主デバイス300aと、副デバイス100との間にデジタルアシスタント連携が確立される。
デジタルアシスタント連携が確立された後、副デバイス100は、音取得部212により音データが取得されたか否かを、所定の時間間隔で判別する(ステップS1203)。
音データが取得されていない場合(S1203;No)、副デバイス側連携部210は、副デバイス100の主電源がOFFされたか否かを判別し(ステップS1210)、OFFされたと判別された場合は、処理を終了する。OFFされていない場合は、ステップS1203へ戻り、処理を継続する。
一方、音データを取得した場合、送信先デバイス決定部213は、音データからユーザを特定可能か判別する(ステップS1204)。ここでは、上述のように、ユーザ情報DB240に格納されている各音声情報242と照合し、合致と判定可能なレコードがあるか否かを判別する。
ユーザ特定不可能と判別された場合(S1204;No)、すなわち、音声情報242に合致と判定可能なレコードが無い場合は、ステップS1210へ移行する。
一方、合致と判定可能なレコードが有る場合(S1204;Yes)、送信先デバイス決定部213は、音データの発声主を特定し、対応付けられた主デバイス300を特定する(ステップS1205)。ここでは、送信先デバイス決定部213は、合致と判定可能な音声情報242に対応づけて登録されているユーザID241を抽出する。そして、連携情報DB230を参照し、対応する主デバイスID232とアクセス情報233とを抽出し、音取得部212に通知する。
例えば、主デバイスID232で特定される主デバイス300が、ユーザAの主デバイス300である主デバイス300aである場合、音取得部212は、送受信部214に、主デバイス300aに向けて、音データを中継音声として送信するよう指示を行う。指示を受けて、送受信部214は、主デバイス300aに向けて中継音声を送信する(ステップS1206)。
なお、送信先デバイス決定部213が判別したユーザが、ユーザA以外である場合、送受信部214は、判別されたユーザの主デバイス300に中継音声を送信し、回答を受信する(ステップS1207)。
主デバイス300a側では、データ受信部421は、中継音声を受信すると(ステップS1103)、アシスタント部410に出力する。
アシスタント部410は、デジタルアシスタント処理を行い(ステップS1104)、回答を生成する。なお、アシスタント部410は、送られてきた中継音声が、デジタルアシスタント処理対象ではないと判別した場合、処理を行わない。
回答送信部422は、得られた回答を、送信元の副デバイス100に返信する(ステップS1105)。その後、主デバイス300aでは、連携管理部423が、連携が解除されたことを検出するまで(ステップS1106)、ステップS1103へ戻り、中継音声の受信を待つ。一方、連携が解除されたことを検出すると、処理を終了する。なお、連携が解除されるとは、例えば、外出または主電源がOFFされた状態である。
また、副デバイス100では、送受信部214が主デバイス300aから回答を受信すると(ステップS1208)、回答提示部215は、回答を提示する(ステップS1209)。ここでは、回答提示部215は、回答から映像データおよび音声データを生成し、それぞれ、ディスプレイ140および音出力部150から出力する。
このときのディスプレイ140への出力例を図9(a)に示す。図9(a)は、音データが「来週の予定を教えて欲しい」といった、スケジュールを問い合わせるものである場合の例である。本図に示すように、表示される画面例610は、回答表示領域611と、主デバイス情報表示領域612とを備える。
回答表示領域611には、回答として得た映像データが表示される。本例の場合、主デバイス300aのアシスタント部410が、メモリ312から抽出したスケジュール情報から生成された映像データが表示される。
主デバイス情報表示領域612には、回答の送信元の主デバイス300aを特定する情報、例えば、主デバイスID等が表示される。
なお、ステップS1205で、ユーザA以外と判別され、判別されたユーザの主デバイス300から回答を受信した場合も、回答提示部215は、その回答を提示する。
ただし、判別されたユーザの主デバイス300との間で連携が確立されていない場合は、連携が確立されていないことを意味する表示を行う。例えば、図9(b)に示すように、「主デバイスが見つかりません」等の表示を行うとともに、同様の音声データを出力する。このとき、回答主は、副デバイス100であるため、主デバイス情報表示領域612には、副デバイス100を表示する。なお、この映像データおよび音声データは、予めメモリ112等に記憶させておく。
ステップS1209による回答提示の後、副デバイス側連携部210は、ステップS1210へ進む。なお、ステップS1206において中継音声を送信後、副デバイス側連携部210は、時間の計測を開始する。そして、所定時間内に回答を得られない場合は、タイムアウトと判断し、そのまま、ステップS1210へ進む。
以上説明したように、本実施形態のアシスタントシステム900は、デジタルアシスタント処理を実行する主デバイスに音データを中継する副デバイス100であって、周囲の音を音データとして取得する音取得部212と、音データの送信先の主デバイス300である送信先主デバイスを決定する送信先デバイス決定部213と、送信先主デバイスに、音データを送信するとともに、音データに応じて実行されたデジタルアシスタント処理結果を回答として送信先主デバイスから受信する送受信部214と、送受信部214で受信した回答を提示する回答提示部215と、を備える副デバイスを有する。
音データの中継先である主デバイス300を決定する送信先デバイス決定部213を備えるため、主デバイス300が複数ある場合であっても、適切な主デバイス300に向けて、音データを中継できる。これにより、ユーザの手元から離れた場所にある主デバイス300であって、デジタルアシスタント機能を有する主デバイス300が複数ある場合であっても、所望のデジタルアシスタント結果を得ることができる。
例えば、送信先デバイス決定部213は、音データを解析して発声主であるユーザを判別し、判別したユーザに対応づけて登録されている主デバイス300を、送信先主デバイスと決定する。従って、本実施形態によれば、個々のユーザに、個々のユーザの主デバイス300によるデジタルアシスタント機能を提供できる。
<変形例1>
なお、上記実施形態では、主デバイス300自身がAP510を認識すると、主デバイス300は、デジタルアシスタント連携可能と判別する。そして、連携要求コマンドを副デバイス100に送信し、連携モードに移行する。しかしながら、連携モードへの移行のきっかけは、これに限定されない。例えば、充電台511に置かれたことを検出した場合、連携モードに移行してもよい。
この場合、連携管理部423は、AP510を認識したか否かを判別する代わりに、充電台511に載置されたか否かを判別する。そして、充電台511に載置されたことを検出した場合、連携管理部423は、デジタルアシスタント連携可能であると判別し、連携要求コマンドをAP510に向けて出力する。
なお、充電台511に制御部および通信インタフェースを持たせてもよい。この場合、充電台511側で、主デバイス300が載置されたことを検出すると、AP510を介して副デバイス100に対し、連携要求コマンドを出力する。
このとき、充電台511は、連携対象とする主デバイス300の主デバイスIDとアクセス情報とを合わせて送信する。
あるいは、充電台511自体のアクセス情報を送信し、その後、充電台511を介して副デバイス100と主デバイス300との間のデータの送受信を行うよう構成してもよい。
<変形例2>
また、上記実施形態および変形例では、連携管理部423は、何らかの装置を検出した場合、デジタルアシスタント連携可能と判別している。しかしながら、デジタルアシスタント連携可能か否かの判別は、これに限定されない。
例えば、主デバイス300の位置検出部370により、主デバイス300が予め定めた領域内に存在すると判別された場合、連携管理部423は、デジタルアシスタント連携可能と判別してもよい。
例えば、予め定めた領域は、自宅等とする。連携管理部423は、位置検出部370による上記判別結果を受信すると、連携要求コマンドを出力し、連携を確立する。
これにより、主デバイス300のユーザが自宅に帰宅した場合、その主デバイス300を連携状態とするよう制御を行うことができる。
<変形例3>
例えば、ユーザがウェアラブルデバイスを装着し、主デバイス300との間で近距離通信を行っている場合は、他の方法でデジタルアシスタント連携可能と判別してもよい。
すなわち、連携管理部423は、ウェアラブルデバイスとの間で近距離通信が途絶えたことを検出した場合、デジタルアシスタント連携可能と判別してもよい。ウェアラブルデバイスと主デバイス300との間の近距離通信が途絶えるのは、両者の間の距離が離れたことによる。従って、ユーザが主デバイス300から離れたと判別できる。
連携管理部423は、近距離通信インタフェース361から通信が途絶えたことを示す出力を受信すると、連携要求コマンドを出力し、連携を確立する。
なお、ウェアラブルデバイスは、例えば、スマートウォッチ301、HMD302、ワイヤレスヘッドフォン303等である。
なお、主デバイス300がHMD302の場合、HMD302のセンサにより、ユーザがHMD302を取り外したことを連携管理部423が検出した場合、デジタルアシスタント連携可能と判別してもよい。
<変形例4>
なお、上記実施形態では、デジタルアシスタント連携可能な状態で、副デバイス100から連携確立コマンドを受信した場合、主デバイス300側は、連携モードをONにしている。しかしながら、これに限定されない。主デバイス300側では、常に連携モードをONにするよう構成してもよい。すなわち、初期設定部424が初期設定を行った時点で、連携フラグ433をONにする。
この場合、上記連携処理において、ステップS1101、S1102、S1201、およびS1202の処理は不要である。
ただし、この場合、主デバイス300の位置によっては、ステップS1206において当該主デバイス300にAP510を介して中継音声を送信した際、送達できないことがある。このような場合は、ユーザにその旨出力する。
<変形例5>
また、上記実施形態では、初期設定部424が、予め、副デバイス100として機能する装置の情報を副デバイス管理DB430に登録する。しかしながら、主デバイス300側が常に連携モードONとする場合、副デバイス管理DB430は設定しなくてもよい。
例えば、連携処理において、ステップS1103で中継音声を受信した際、主デバイス側連携部420は、送信元の副デバイス100のアクセス情報を管理しておく。そして、回答を得た後、回答送信部422は、管理されたアクセス情報にもとづいて、回答を送信する。
<変形例6>
上記実施形態では、副デバイス100の送信先デバイス決定部213は、音データを解析し、ユーザを判別している。しかしながら、これに限定されない。例えば、送信先デバイス決定部213は、顔画像でユーザを判別してもよい。
この場合、副デバイス100は、ユーザの顔画像を取得するカメラ181を備える。また、ユーザ情報DB240には、図6(b)に示すように、ユーザID241に対応づけて、各ユーザの照合用の顔画像243を予め登録しておく。
送信先デバイス決定部213は、音取得部212による音データの取得に同期して、カメラ181が取得した画像を解析する。そして、顔画像243と照合し、合致した顔画像に対応付けられたユーザID241を抽出する。そして、抽出したユーザID241に合致するユーザID231に対応付けられた主デバイスID232およびアクセス情報233を、決定結果として音取得部212に出力する。
<変形例7>
また、各主デバイス300のデータ受信部421が、受信した音データを用いて本人認証処理を行う機能を有する場合、副デバイス100の送信先デバイス決定部213は、音データを解析して送信先の主デバイスを決定しなくてもよい。
このとき、送信先デバイス決定部213は、連携情報DB230において、連携フラグ234が設定される全ての主デバイス300の主デバイスID232およびアクセス情報233を、音取得部212に出力する。これにより、音取得部212は、取得した音データを、連携フラグ234が設定されている全ての主デバイス300に送信する。
各主デバイス300は、データ受信部421において、受信した音データを用いて本人認証処理を行う。そして、本人と認証された場合、受信した音データをアシスタント部410に出力し、デジタルアシスタント処理を要求する。
これにより、音データが主デバイス300のユーザの音声である場合のみ、当該主デバイス300はデジタルアシスタント処理を行い、回答を出力する。従って、この場合は、副デバイス100側で、音データにより送信先を振り分けなくても、所望の回答を得ることができる。
<変形例8>
例えば、1のユーザが複数の主デバイス300を利用していることがある。このような場合、同じユーザID231に対応づけて、複数の主デバイス300の情報を連携情報DB230に登録してもよい。例えば、図6(a)の連携情報DB230において、主デバイスID232が、300a-1と、300a-2とは、同じユーザの主デバイス300である。
この場合、上記デジタルアシスタント連携処理のステップS1204でユーザを特定した後、送信先デバイス決定部213は、連携情報DB230から抽出された主デバイス300の情報を、ユーザに提示し、ユーザからの選択を受け付ける。
ここで提示する情報は、例えば、連携情報DB230に、各主デバイスの名称(主デバイス名称236)が登録されている場合は、その名称を表示する。主デバイス名称236が登録されていない場合は、例えば、主デバイスID232等を表示させる。
選択を受け付ける際に表示される選択画面620の表示例を、図10(a)に示す。選択画面620は、例えば、メッセージ表示領域621と、選択受付領域622と、を備える。
メッセージ表示領域621には、検出された主デバイス数と、ユーザに要求する操作がメッセージとして表示される。選択受付領域622は、ユーザによる選択を受け付ける領域である。ユーザは、例えば、副デバイス100がテレビである場合、そのリモコンによる操作等で選択受付領域622を介して、主デバイス300を選択する。
送信先デバイス決定部213は、選択受付領域622を介して受け付けた主デバイス300を、送信先の主デバイス300として決定する。そして、送受信部214は、その主デバイス300に、音データを中継音声として送信する。
なお、この場合、ユーザから選択を受け付けなくてもよい。送信先デバイス決定部213は、連携情報DB230から抽出された当該ユーザの主デバイス300の情報を送受信部214に通知する。そして、送受信部214は、抽出された全ての主デバイス300に、音データを送信する。そして、送受信部214は、得られた回答を全て受信し、回答提示部215に提示させてもよい。
例えば、スマートフォンには問いかけに必要な個人情報が格納され、タブレットには格納されていない場合、スマートフォンからは所望の回答が得られ、タブレットからは、回答不能との回答、あるいは、回答が得られない。従って、いずれにしても、ユーザは、所望の回答を得ることができる。
なお、このとき、送受信部214は、抽出された主デバイス300に対し、予め定めた順に音データを送信してもよい。予め定めた順は、例えば、連携情報DB230の登録順である。1の主デバイス300に音データを送信する。そして、所定の期間内に回答の返信を受信しない場合、あるいは、回答不能との回答を受信した場合、次の主デバイス300に音データを送信する。そして、回答を得た場合、回答提示部215に提示させる。一方、いずれの主デバイス300からも回答を得ない場合は、その旨、回答提示部215に提示させる。
なお、連携情報DB230に、音データ送信の優先順を設定しておいてもよい。この場合、送受信部214は、優先順に従って、音データを送信する。
<変形例9>
なお、上記実施形態では、副デバイス100は、ディスプレイ140を備えるテレビである場合を例にあげて説明した。しかしながら、副デバイス100は、これに限定されない。例えば、ディスプレイ140を備えないスマートスピーカ101であってもよい。
この場合、スマートスピーカ101は、対応装置登録DB250を備える。対応装置登録DB250には、近傍の装置であってディスプレイ140を備える装置が映像出力用装置として予め登録される。この場合の、対応装置登録DB250の一例を、図10(b)に示す。本図に示すように、対応装置登録DB250には、副デバイス100の識別情報である副デバイスID251と、映像出力用装置の識別情報である映像出力先装置ID252とが対応づけて登録される。対応装置登録DB250は、例えば、メモリ112に登録される。
回答提示部215は、回答として得られたデータを解析する。そして、音声のみで出力可能なデータである場合、自身の音出力部150から出力する。一方、回答が映像データを含み、ディスプレイ140に出力する必要がある場合は、対応装置登録DB250を参照し、対応付けられたディスプレイ140を備える装置を特定する。そして、映像データを、当該装置に転送し、出力させる。
このとき、図10(c)に示すように、副デバイス100であるスマートスピーカ101は、回答の表示先を音声で出力するように構成してもよい。
このように構成することにより、多様なデバイスを副デバイス100として用いることができる。
なお、例えば、全ての副デバイス100が、予め近傍の装置の仕様を登録した仕様データベースを備える場合、対応装置登録DB250は備えなくてもよい。仕様データベースには、例えば、各副デバイス100が、表示装置を有するか否か、各副デバイス100の配置位置等が格納される。この場合は、回答提示部215は、このデータベースから近傍の装置であって、ディスプレイ140を備える装置を抽出し、当該装置に映像データを転送する。
なお、副デバイス100が複数ある場合、主デバイス300のデータ受信部421では、各副デバイス100からの音データを受信する。このような場合、データ受信部421は、いずれも同じ処理を指示するものであるため自身で取得した音声によるデジタルアシスタント処理と、副デバイス100を経由した音データによるデジタルアシスタント処理が競合する。
このような場合、データ受信部421は、最先の音データの送信元の副デバイス100との間で、通信路を確立する。
<<第二実施形態>>
本発明の第二実施形態を説明する。第一実施形態では、副デバイス100は、音データを主デバイス300に中継する中継装置である。本実施形態では、副デバイス100でも、アシスタント機能を備える。
本実施形態の処理の概要を、図11を用いて説明する。本実施形態の副デバイス100は、音データを受信すると、アシスタント機能で解析し、音データによるユーザからの要求が、回答を得るためにユーザの個人情報が必要であるか否かを判別する。
そして、ユーザからの要求が、その回答を得るために、ユーザの個人情報が不要な要求である場合、副デバイス100でアシスタント処理を行い、ユーザに回答を提示する。一方、ユーザの個人情報が必要な要求である場合、第一実施形態と同様に、音データを主デバイス300に転送し、主デバイス300で回答を生成し、副デバイス100においてユーザに提示する。
以下、本実施形態について、第一実施形態と異なる構成に主眼をおいて説明する。主デバイス300は、第一実施形態と同様である。また、副デバイス100は、そのハードウェア構成は、第一実施形態と同じである。ただし、機能ブロックは、第一実施形態と異なる。
図12は、本実施形態の副デバイス100の機能ブロックである。本図に示すように、本実施形態の副デバイス100は、第一実施形態同様、副デバイス側連携部210を備える。副デバイス側連携部210は、連携設定部211と、音取得部212と、送信先デバイス決定部213と、送受信部214と、回答提示部215と、を備える。さらに、副デバイス側アシスタント部220を備える。
本実施形態の音取得部212は、音データを生成すると、まず、副デバイス側アシスタント部220に送信する。
副デバイス側アシスタント部220は、主デバイス300のアシスタント部410同様、音データを解析し、アシスタント処理を行い、回答を出力する。ただし、副デバイス側アシスタント部220は、音データを解析した結果、各ユーザの個人情報が必要と判別した場合、その旨、送信先デバイス決定部213に出力する。
本実施形態の送信先デバイス決定部213は、副デバイス側アシスタント部220から個人情報要との指示を受信した場合、上述のように、ユーザの判別を行い、送信先の主デバイス300を決定する。
[デジタルアシスタント連携処理]
次に、本実施形態の副デバイス100のデジタルアシスタント連携処理の流れを説明する。図13は、本実施形態の副デバイス100におけるデジタルアシスタント連携処理の処理フローである。ここでは、少なくとも1つの主デバイス300と、連携されているものとする。
音取得部212は、所定の時間間隔で、音データを取得したか否かを判別する(ステップS1203)。音データを取得すると(S1203;Yes)、副デバイス側アシスタント部220へ音データを送信する。
副デバイス側アシスタント部220は、音データを解析し(ステップS2101)、回答を行うために、個人情報が必要であるか否かを判別する(ステップS2102)。
副デバイス側アシスタント部220は、個人情報が要と判別した場合(S2102;Yes)、その旨、送信先デバイス決定部213に通知する。通知を受けた送信先デバイス決定部213は、第一実施形態のステップS1204以降の処理を行う。
一方、副デバイス側アシスタント部220は、個人情報が不要と判別した場合(S2102;No)、そのまま当該音データに基づいて、アシスタント処理を行い(ステップS2103)、回答を生成し、ステップS1209へ移行する。以降の処理は、第一実施形態と同じである。
本実施形態において、例えば、特定の場所の天気を尋ねられた場合等、個人情報は不要である。このような場合の出力例を、図14に示す。この場合、回答表示領域611には、回答が表示される。一方、主デバイス情報表示領域612には、この副デバイス100で処理したことを示す情報として、副デバイス100を特定する情報が表示される。この場合は、副デバイス100がTVであるため、主デバイス情報表示領域612には、例えば、TVと表示される。
以上説明したように、本実施形態のアシスタントシステム900の副デバイス100は、第一実施形態の副デバイス100の機能に加え、デジタルアシスタント処理を実行する副デバイス側アシスタント部220を備える。そして、副デバイス側アシスタント部220は、音データを解析し、デジタルアシスタント処理を実行するために、個人情報が必要であるか否かを判別する。送信先デバイス決定部213は、副デバイス側アシスタント部220が、個人情報が必要であると判別した場合、送信先主デバイスを決定する。また、回答提示部215は、副デバイス側アシスタント部220がデジタルアシスタント処理を実行した場合、そのデジタルアシスタント処理結果をさらに提示する。
このため、本実施形態によれば、第一実施形態同様、主デバイス300が手元から離れている場合であっても、個々のユーザに個々のユーザの主デバイス300によるデジタルアシスタント処理結果を提示できる。さらに、本実施形態によれば、個々のユーザの主デバイス300に格納される個人情報が不要なアシスタント要求の場合は、副デバイス100側でデジタルアシスタント処理を実行して回答する。このため、迅速な回答を得ることができる。
<変形例10>
なお、上記実施形態では、副デバイス側アシスタント部220は、アシスタント処理を行うため、個人情報が必要か否かを判別している。しかしながら、これに限定されない。例えば、音データが、音声コマンドであるか否かを判別してもよい。
音声コマンドであると判別した場合、ユーザからアシスタント要求の内容によらず、第一実施形態同様、送信先デバイス決定部213にユーザを判別させ、送信先の主デバイス300を決定させる。そして、送受信部214は、決定した主デバイス300に音データを送信する。
なお、この場合、副デバイス側アシスタント部220は、音データを解析後、デジタルアシスタント処理用のコマンドを生成し、生成したコマンドを、送受信部214から、主デバイス300に送信させるようにしてもよい。
なお、個人情報の要否の判別とさらに組み合わせてもよい。すなわち、個人情報が必要と判別した場合、音データを用いて送信先デバイス決定部213に当該音の発声主であるユーザを判別させ、送信先の主デバイス300を決定させる。そして、送受信部214は、決定した主デバイス300に向けて、音データではなく、コマンドを送信する。
主デバイス300にコマンドを送信する場合、主デバイス300側のアシスタント部410は、音データを解析する必要がない。
<変形例11>
また、副デバイス100が、音データを解析する副デバイス側アシスタント部220を備える場合、ユーザの呼びかけで特定される主デバイスに音データを送信するよう構成してもよい。
例えば、「AASに聞いて」、「OK、BBB」等の音声が発せられた場合、副デバイス側アシスタント部220は、この音データを解析し、音データの送信先を特定する。すなわち、音データに、例えば、主デバイス名称236に該当する音声が含まれる場合、その旨、送信先デバイス決定部213に通知する。
送信先デバイス決定部213は、副デバイス側アシスタント部220から通知を受けた主デバイス名称236を含むデータの主デバイス300を、送信先の主デバイス300と決定する。
この場合、各主デバイス300の呼称は、主デバイス名称236として、予め、連携情報DB230に登録しておく。
このように構成することにより、より精度よく、送信先の主デバイス300を決定することができる。これにより、ユーザのアシスタント要求により適切に応答した回答を得ることができる。
<変形例12>
また、上記実施形態および変形例では、1対の問いかけと回答との送受信の間のみ、主デバイス300と副デバイス100との間で通信路を確立している。しかしながら、ユーザから明示の通信路解除の指示を受けるまで、あるいは、所定の時間が経過するまで、通信路を確立してもよい。
これにより、音データを取得する毎に、ユーザを判別する処理が不要となる。例えば、デジタルアシスタントを受けるために、複数回のやり取りが必要な場合等、スムーズに処理を進めることができる。具体的には、ユーザが、自分のスケジュールを確認し、新たなスケジュールを登録する場合などである。
この場合、最初にユーザは、特定の期間のスケジュールを問い合わせる。このとき、副デバイス100は、音データを解析し、ユーザを判別し、送信先の主デバイス300を決定する。そして、副デバイス100は、当該主デバイス300に当該音データあるいは、コマンドを送信する。
主デバイス300は、それに応じて送信元の副デバイス100に回答を返信する。副デバイス100は、回答をユーザに提示する。ユーザは、それを見て、新たな音声コマンドを発する。例えば、特定の日付に新たなスケジュールを加える、特定の日付のスケジュールを変更する、等である。
このとき、副デバイス100はこの音データを取得すると、ユーザの判別および送信先主デバイスの決定処理を行うことなく、通信路が確立している主デバイス300へ送信する。主デバイス300側では、音データを解析して、処理を行う。
<変形例13>
なお、上記アシスタントシステム900は、スマートフォン等の携帯型情報処理装置と、ウェアラブルデバイスとにより構成されてもよい。この場合、ウェアラブルデバイスを副デバイス100として用い、携帯型情報処理装置を、主デバイス300として用いる。
例えば、図15に示すように、ユーザは、携帯型情報処理装置である主デバイス300aを、鞄等に入れ、副デバイス100として機能するウェアラブルデバイス(スマートウォッチ301)を身に着けて外出する。この間、ユーザは、スマートウォッチ301に音声コマンドを発する。
スマートウォッチ301は、取得したユーザの音声コマンドを、主デバイス300である携帯型情報処理装置に送信し、アシスタント処理を実行させる。そして、その結果を、スマートウォッチ301で受け取る。
この場合、例えば、自宅など、AP510がある環境に入ると、スマートウォッチ301と携帯型情報処理装置とは、AP510を介した宅内LANの接続に切り換わる。その後、スマートウォッチ301は、宅内での副デバイス100群の中の1つのデバイスとする。
<変形例14>
上記各実施形態では、1のユーザによる音声を受け付け、そのユーザの主デバイス300または副デバイス100によるアシスタント結果を出力する場合を例に説明した。しかし、上述したように主デバイス300の個数は限定されない。従って、複数のユーザが、短い時間間隔でデジタルアシスタント機能を要求することがある。
このような場合、回答が得られるタイミングが略同時であり、回答提示部215は、各主デバイス300から受信した処理結果である回答を、ディスプレイ140または音出力部150を介してユーザに出力する。このとき、回答提示部215は、受信した処理結果(回答)の数に応じて、ディスプレイ140の表示領域を分割してそれぞれの回答を表示させる。
ユーザAおよびユーザBの2者が、略同時にアシスタント機能を利用しようとした場合の、回答の表示例を、図16(a)に示す。回答提示部215は、表示領域を2分割し、回答の送信元の主デバイス300を特定する情報とともに、回答を表示する。
回答提示部215は、例えば、ディスプレイ140の表示領域を、ユーザAへの回答を表示する第一表示領域630aと、ユーザBへの回答を表示する第二表示領域630bとに分割する。そして、各表示領域(630a、630b)内に、上記実施形態同様、主デバイス情報表示領域612(612a、612b)および回答表示領域611(611a、611b)を設ける。そして、各表示領域に、回答の送信元の主デバイス300を特定する情報および回答を、それぞれ表示させる。
なお、既存のマルチビューワを副デバイス100に外付けし、このマルチビューワにより複数の主デバイス300からの回答を1のディスプレイ140上に表示してもよい。
また、回答提示部215は、スピーカ351が複数チャネルを有する場合、チャネルごとに、異なる送信元の回答を割り当てて、出力させてもよい。このとき、チャネル数以上の送信元が有る場合は、時間差で出力させてもよい。
なお、複数のユーザによる問いかけ(デジタルアシスタントの要求)が、略同じタイミングで発生する場合、各ユーザの音声が時間的に重なることがある。この場合、本実施形態の副デバイス100は、音声を分離し、それぞれの主デバイス300に当該音声または音声コマンドを中継する。
この場合の、本実施形態の副デバイス100による処理を、図16(b)を用いて説明する。
この場合、副デバイス側連携部210の音取得部212は、音データを音源毎に分離する音声分離機能を備える。
音取得部212は、複数人の音声が混在した可能性のある音データを、まず、音源毎に分離する。本変形例では、例えば、個々人の音声データおよび/または音声以外の音データに分離する。そして、音源毎に分離された音データを、送信先デバイス決定部213に送信する。
音データの分離は、例えば、ディープラーニングやクラスタリング処理を用いてもよい。すなわち、音取得部212は、ディープラーニングにより特徴から各音声成分を分類する。そして、クラスタリング処理にて分類した音声成分をグループ化し、個々人の音声データおよび/または音声以外の音データとする。
送信先デバイス決定部213は、音取得部212から受け取った、音源毎に分離された音データそれぞれを、別個独立に解析し、その中の音声データについて、それぞれ、送信先デバイスを決定する。決定手法は、上記各実施形態と同様であるため、ここでは、説明しない。そして、上記各実施形態と同様に、音声データ毎に、主デバイスID232およびアクセス情報233を音取得部212に通知する。
音取得部212は、音源毎に分離された音声データを、それぞれ、送信先デバイス決定部213が決定した主デバイス300に送信するよう送受信部214に指示を行う。
取得した音声データを、各主デバイス300に送信するまでの処理の流れは、基本的に上記各実施形態と同様である。
ただし、第一実施形態のように、副デバイス100がアシスタント機能を備えない場合は、図8のデジタルアシスタント連携処理のステップS1203およびステップS1204の処理が以下のように変わる。
すなわち、副デバイス100では、ステップS1203において音データが取得された場合、音取得部212は、上記の手法で音データを音源毎に分離する。そして、送信先デバイス決定部213は、分離後の音データそれぞれについて、S1204において、ユーザを特定可能か、を判別する。
また、第二実施形態のように、副デバイス100がアシスタント機能を備える場合は、図13のデジタルアシスタント連携処理のS1203~S1204の処理が以下のように変わる。
すなわち、副デバイス100では、ステップS1203において音データが取得された場合、音取得部212は、上記手法で音データを、音源毎に分離する。そして、副デバイス側アシスタント部220は、分離後の各音データを解析し、回答を行うために個人情報が必要であるか否かを判別する。そして、個人情報が要と判別した場合、その分離後の音データを、送信先デバイス決定部213に通知する。通知を受けた後の送信先デバイス決定部213の処理は、同様である。
一方、個人情報が不要と判別した、分離後の音データについては、そのまま、その音データに基づいて、副デバイス側アシスタント部220が回答を生成し、回答提示部に回答を提示させる。
本機能により、複数のユーザが、略同時に、手元から離れた場所にある主デバイス300に対し、それぞれ、デジタルアシスタント機能を要求した場合であっても、個々のユーザに、それぞれ、個々のユーザの主デバイス300によるデジタルアシスタント機能を提供できる。
<変形例15>
また、上記各実施形態および各変形例において、副デバイス100および/または主デバイス300の一部の機能は、サーバ530で実現されてもよい。
サーバ530は、図17に示すように、コントローラ540と、通信インタフェース562とを備える。コントローラ540は、CPU541と、メモリ542とを備え、メモリ542には、プログラム543とデータ544とが記憶される。
サーバ530で実現される機能は、予めプログラム543としてメモリ542に保持される。サーバ530では、CPU541が、予めメモリ542に記憶したプログラム543を、メモリ542に設けられたワーク領域にロードして、データ544を用いながら実行することにより、各機能を実現する。
本発明は上記した実施形態および変形例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態および変形例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態または変形例の構成の一部を他の実施形態や変形例の構成に置き換えることが可能である。また、ある実施形態または変形例の構成に他の実施形態または変形例の構成を加えることも可能である。さらに、各実施形態または変形例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ部や、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
100:副デバイス、101:スマートスピーカ、110:コントローラ、111:CPU、112:メモリ、113:プログラム、114:データ、120:TV部、121:受信選局部、122:信号分離部、123:映像処理部、124:音声処理部、125:デジタルIF部、126:ユーザI/F部、130:マイク、140:ディスプレイ、150:音出力部、151:スピーカ、152:イヤホン、160:通信部、161:近接通信インタフェース、162:通信インタフェース、170:位置検出部、171:加速度センサ、172:ジャイロセンサ、173:地磁気センサ、174:GPS受信機、181:カメラ、182:測距センサ、
210:副デバイス側連携部、211:連携設定部、212:音取得部、213:送信先デバイス決定部、214:送受信部、215:回答提示部、220:副デバイス側アシスタント部、230:連携情報データベース、231:ユーザID、232:主デバイスID、233:アクセス情報、234:連携フラグ、235:主デバイス種別、236:主デバイス名称、240:ユーザ情報データベース、241:ユーザID、242:音声情報、243:顔画像、250:対応装置登録データベース、251:副デバイスID、252:映像出力先装置ID、
300:主デバイス、300a:主デバイス(携帯型情報処理装置)、300b:主デバイス(携帯型情報処理装置)、300c:主デバイス(携帯型情報処理装置)、301:スマートウォッチ、302:HMD、303:ワイヤレスヘッドフォン、310:コントローラ、311:CPU、312:メモリ、313:プログラム、314:データ、330:マイク、340:ディスプレイ、350:音声出力部、360:通信部、361:近距離通信インタフェース、362:通信インタフェース、370:位置検出部、371:加速度センサ、372:ジャイロセンサ、373:地磁気センサ、374:GPS受信器、381:カメラ、382:測距センサ、
410:アシスタント部、420:主デバイス側連携部、421:データ受信部、422:回答送信部、423:連携管理部、424:初期設定部、430:副デバイス管理データベース、431:副デバイスID、432:アクセス情報、433:連携フラグ、
510:アクセスポイント、511:充電台、520:外部ネットワーク、530:サーバ、540:コントローラ、541:CPU、542:メモリ、543:プログラム、544:データ、562:通信インタフェース、
610:画面例、611:回答表示領域、611a:回答表示領域、611b:回答表示領域、612:主デバイス情報表示領域、612a:主デバイス情報表示領域、612b:主デバイス情報表示領域、620:選択画面、621:メッセージ表示領域、622:選択受付領域、630a:第一表示領域、630b:第二表示領域、
900:アシスタントシステム

Claims (6)

  1. デジタルアシスタント処理を実行する主デバイスに取得した音データを中継する中継デバイスの情報処理方法であって、
    周囲の音を前記音データとして取得する音取得ステップと、
    前記音データの送信先の前記主デバイスである送信先主デバイスを決定する送信先デバイス決定ステップと、
    前記送信先主デバイスが決定された場合に、前記音データを送信するとともに、当該音データに応じて実行されたデジタルアシスタント処理結果を回答として前記送信先主デバイスから受信する送受信ステップと、
    前記送受信ステップで受信した回答を提示する回答提示ステップと、を備え、
    前記送信先デバイス決定ステップでは、前記音データを解析して発声主であるユーザを判別してユーザが特定できた場合に当該ユーザに対応づけて登録されている前記主デバイスを、前記送信先主デバイスと決定し、ユーザが特定できない場合は前記送信先主デバイスを決定しないこと
    を特徴とする情報処理方法。
  2. デジタルアシスタント処理を実行する主デバイスに取得した音データを中継する中継デバイスの情報処理方法であって、
    周囲の音を前記音データとして取得する音取得ステップと、
    前記音データの送信先の前記主デバイスである送信先主デバイスを決定する送信先デバイス決定ステップと、
    前記送信先主デバイスに、前記音データを送信するとともに、当該音データに応じて実行されたデジタルアシスタント処理結果を回答として前記送信先主デバイスから受信する送受信ステップと、
    前記送受信ステップで受信した回答を提示する回答提示ステップと、を備え、
    前記音取得ステップでは、前記音データを音源毎に分離し、
    前記送信先デバイス決定ステップでは、分離された前記音データそれぞれについて、前記送信先主デバイスを決定し、前記送信先主デバイスが決定できない場合は前記送信先主デバイスを決定せず、
    前記送受信ステップでは、分離された前記音データを、決定された前記送信先主デバイスにそれぞれ送信するとともに、各前記送信先主デバイスからそれぞれ前記回答を受信し、
    前記回答提示ステップでは、各前記送信先主デバイスから受信した前記回答を、それぞれ提示すること
    を特徴とする情報処理方法。
  3. デジタルアシスタント処理を実行する主デバイスに取得した音データを中継する中継デバイスの情報処理方法であって、
    周囲の音を前記音データとして取得する音取得ステップと、
    前記音データの送信先の前記主デバイスである送信先主デバイスを決定する送信先デバイス決定ステップと、
    前記送信先主デバイスに、前記音データを送信するとともに、当該音データに応じて実行されたデジタルアシスタント処理結果を回答として前記送信先主デバイスから受信する送受信ステップと、
    前記送受信ステップで受信した回答を提示する回答提示ステップと、
    前記デジタルアシスタント処理を実行するアシスタント処理ステップと、を備え、
    前記アシスタント処理ステップでは、前記音データを解析し、前記デジタルアシスタント処理を実行するために、個人情報が必要であるか否かを判別し、
    前記送信先デバイス決定ステップでは、前記アシスタント処理ステップにおいて、前記個人情報が必要であると判別した場合、前記送信先主デバイスを決定し、前記送信先主デバイスが決定できない場合は前記送信先主デバイスを決定せず、
    前記回答提示ステップでは、前記アシスタント処理ステップにおいて前記デジタルアシスタント処理を実行した場合、当該デジタルアシスタント処理結果を提示すること
    を特徴とする情報処理方法。
  4. 請求項3記載の情報処理方法であって、
    前記アシスタント処理ステップでは、前記音データを解析し、前記デジタルアシスタント処理を実行するためのコマンドを当該音データから生成し、
    前記送受信ステップでは、前記音データの代わりに、前記コマンドを前記送信先主デバイスに送信すること
    を特徴とする情報処理方法。
  5. 請求項1記載の情報処理方法であって、
    前記送信先デバイス決定ステップでは、前記発声主として判別されたユーザに対応づけて登録されている前記主デバイスが複数ある場合、前記ユーザから当該複数の主デバイスの中から前記送信先主デバイスとする主デバイスの選択を受け付けること
    を特徴とする情報処理方法。
  6. デジタルアシスタント処理を実行する主デバイスに取得した音データを中継する中継デバイスの情報処理方法であって、
    周囲の音を前記音データとして取得する音取得ステップと、
    前記音データの送信先の前記主デバイスである送信先主デバイスを決定する送信先デバイス決定ステップと、
    前記送信先主デバイスに、前記音データを送信するとともに、当該音データに応じて実行されたデジタルアシスタント処理結果を回答として前記送信先主デバイスから受信する送受信ステップと、
    前記送受信ステップで受信した回答を提示する回答提示ステップと、
    前記デジタルアシスタント処理を実行するアシスタント処理ステップと、を備え、
    前記アシスタント処理ステップでは、前記音データを解析し、当該音データから前記主デバイスを特定する情報を抽出し、
    前記送信先デバイス決定ステップでは、前記アシスタント処理ステップで抽出した情報で特定される前記主デバイスを、前記送信先主デバイスと決定し、前記送信先主デバイスが特定できない場合は前記送信先主デバイスを決定しないこと
    を特徴とする情報処理方法。
JP2023036259A 2019-04-18 2023-03-09 情報処理方法 Active JP7483970B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023036259A JP7483970B2 (ja) 2019-04-18 2023-03-09 情報処理方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/016597 WO2020213116A1 (ja) 2019-04-18 2019-04-18 情報処理装置およびデジタルアシスタントシステム
JP2021514736A JP7244628B2 (ja) 2019-04-18 2019-04-18 情報処理装置
JP2023036259A JP7483970B2 (ja) 2019-04-18 2023-03-09 情報処理方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021514736A Division JP7244628B2 (ja) 2019-04-18 2019-04-18 情報処理装置

Publications (2)

Publication Number Publication Date
JP2023081985A JP2023081985A (ja) 2023-06-13
JP7483970B2 true JP7483970B2 (ja) 2024-05-15

Family

ID=72837142

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021514736A Active JP7244628B2 (ja) 2019-04-18 2019-04-18 情報処理装置
JP2023036259A Active JP7483970B2 (ja) 2019-04-18 2023-03-09 情報処理方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021514736A Active JP7244628B2 (ja) 2019-04-18 2019-04-18 情報処理装置

Country Status (4)

Country Link
US (1) US20220208199A1 (ja)
JP (2) JP7244628B2 (ja)
CN (1) CN113711177A (ja)
WO (1) WO2020213116A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014013569A (ja) 2012-07-03 2014-01-23 Samsung Electronics Co Ltd ディスプレイ装置、対話型システム及び応答情報提供方法
JP2017538985A (ja) 2014-09-09 2017-12-28 マイクロソフト テクノロジー ライセンシング,エルエルシー 近接したデバイスによるデジタルパーソナルアシスタントの呼出し
US20180336905A1 (en) 2017-05-16 2018-11-22 Apple Inc. Far-field extension for digital assistant services

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4797903B2 (ja) * 2006-09-19 2011-10-19 ソニー株式会社 携帯電話及び携帯電話の制御方法
KR20170001393A (ko) * 2015-06-26 2017-01-04 삼성전자주식회사 전자 장치의 상황에 따른 외부 장치의 이용 방법 및 그 전자 장치
US10438584B2 (en) * 2017-04-07 2019-10-08 Google Llc Multi-user virtual assistant for verbal device control
US10466963B2 (en) * 2017-05-18 2019-11-05 Aiqudo, Inc. Connecting multiple mobile devices to a smart home assistant account
KR102489914B1 (ko) * 2017-09-15 2023-01-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
WO2019100289A1 (en) * 2017-11-23 2019-05-31 Harman International Industries, Incorporated Method and system for speech enhancement
JP7155605B2 (ja) * 2018-05-22 2022-10-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014013569A (ja) 2012-07-03 2014-01-23 Samsung Electronics Co Ltd ディスプレイ装置、対話型システム及び応答情報提供方法
JP2017538985A (ja) 2014-09-09 2017-12-28 マイクロソフト テクノロジー ライセンシング,エルエルシー 近接したデバイスによるデジタルパーソナルアシスタントの呼出し
US20180336905A1 (en) 2017-05-16 2018-11-22 Apple Inc. Far-field extension for digital assistant services

Also Published As

Publication number Publication date
CN113711177A (zh) 2021-11-26
JP2023081985A (ja) 2023-06-13
JPWO2020213116A1 (ja) 2020-10-22
JP7244628B2 (ja) 2023-03-22
US20220208199A1 (en) 2022-06-30
WO2020213116A1 (ja) 2020-10-22

Similar Documents

Publication Publication Date Title
US9894320B2 (en) Information processing apparatus and image processing system
EP2663064B1 (en) Method and system for operating communication service
JP6110503B2 (ja) テレビ通話装置
WO2020163722A1 (en) Assistive listening device systems, devices and methods for providing audio streams within sound fields
JP6598875B2 (ja) 情報処理システム、無線端末、及び情報処理方法
US20220224735A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and method
JP6481210B2 (ja) 情報処理装置、制御方法、およびプログラム
US20190394423A1 (en) Data Processing Apparatus, Data Processing Method and Storage Medium
US20220021980A1 (en) Terminal, audio cooperative reproduction system, and content display apparatus
US10430572B2 (en) Information processing system that recognizes a user, storage medium, and information processing method
US10298883B2 (en) Communication system, information processing apparatus, communication apparatus, and computer-readable medium
CN108076031B (zh) 通信授权获取方法
JP7483970B2 (ja) 情報処理方法
EP4243409A1 (en) System and method for displaying image, image-capturing device, and carrier means
CN112532787B (zh) 耳机音频数据处理方法、移动终端及计算机可读存储介质
JP2023505986A (ja) ユーザ入力に基づく複数出力制御
KR20170022272A (ko) 녹음 시스템 및 녹음 방법
US11900013B2 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP2019125972A (ja) 端末装置、情報処理方法、プログラム、通信システム
KR101832744B1 (ko) 음향신호 인식용 무선 원격 제어기를 이용한 실시간 정보 제공 시스템
JP2020095737A (ja) 通信装置、制御方法、およびプログラム
KR20230083463A (ko) 디스플레이 장치 및 디스플레이 장치들 간 대화 지원 방법
JP2023130837A (ja) 機器システム、音量の調整方法、第二の機器、第一の機器
CN109845246A (zh) 信息处理装置、信息处理方法、程序和通信系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230309

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240226

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240501

R150 Certificate of patent or registration of utility model

Ref document number: 7483970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150