JP7515131B2 - 音声制御方法及びサーバ装置 - Google Patents

音声制御方法及びサーバ装置 Download PDF

Info

Publication number
JP7515131B2
JP7515131B2 JP2023056203A JP2023056203A JP7515131B2 JP 7515131 B2 JP7515131 B2 JP 7515131B2 JP 2023056203 A JP2023056203 A JP 2023056203A JP 2023056203 A JP2023056203 A JP 2023056203A JP 7515131 B2 JP7515131 B2 JP 7515131B2
Authority
JP
Japan
Prior art keywords
speaking
output
voice
timing
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023056203A
Other languages
English (en)
Other versions
JP2023089039A (ja
Inventor
由暉 大橋
悟 松永
将史 鳥飼
和宏 黒山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JP2023089039A publication Critical patent/JP2023089039A/ja
Priority to JP2024072276A priority Critical patent/JP2024109603A/ja
Application granted granted Critical
Publication of JP7515131B2 publication Critical patent/JP7515131B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Description

本開示は、音声制御方法及びサーバ装置に関する。
従来、家電等の電子機器において、音声を出力(発話)する装置がある(例えば、特許文献1参照)。
特許文献1には、電子機器のユーザの属性情報と当該電子機器の属性情報との少なくとも一方に基づいて設定された特性情報に基づいて、当該電子機器が発話するための音声データを作成するサーバ装置が開示されている。
特開2015-164251号公報
特許文献1に開示されているサーバ装置を備えるシステムのように、例えば、電化製品等の情報を音声でユーザに通知するシステムがある。この種のシステムには、ユーザにとって情報が聞き取りやすいことが要求される。そのためには、情報を音声でユーザに通知する発話体が、適切なタイミングで情報を音声でユーザに通知する必要がある。
本開示は、複数の発話体のそれぞれが適切なタイミングで情報を音声で通知できる音声制御方法等を提供する。
本開示の一態様に係る音声制御方法は、サーバ装置が実行する音声制御方法であって、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップと、前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングを決定するタイミング決定ステップと、前記タイミング決定ステップで決定した前記タイミングで、前記少なくとも1つの発話体に音声を出力させる出力ステップと、を含み、前記タイミング決定ステップでは、前記複数の発話体のうち、少なくともいずれかの発話体が音声を出力している場合、当該少なくともいずれかの発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する音声制御方法である。
本開示の一態様に係る音声制御方法は、サーバ装置が実行する音声制御方法であって、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップと、前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングを決定するタイミング決定ステップと、前記タイミング決定ステップで決定した前記タイミングで、前記少なくとも1つの発話体に音声を出力させる出力ステップと、を含み、前記タイミング決定ステップでは、前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、前記複数の発話体のうち、前記少なくとも1つの発話体と同じ所有者が所有する発話体が音声を出力している場合、当該発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する音声制御方法である。
本開示の一態様に係る音声制御方法は、サーバ装置が実行する音声制御方法であって、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップと、前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングを決定するタイミング決定ステップと、前記タイミング決定ステップで決定した前記タイミングで、前記少なくとも1つの発話体に音声を出力させる出力ステップと、を含み、前記タイミング決定ステップでは、前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、前記少なくとも1つの発話体の所有者が第1ユーザ及び第2ユーザである場合、前記複数の発話体のうち、前記第1ユーザ及び前記第2ユーザの少なくとも一方が所有者である発話体が音声を出力しているとき、当該発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する音声制御方法である。
本開示の一態様に係る音声制御方法は、サーバ装置が実行する音声制御方法であって、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップと、前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングを決定するタイミング決定ステップと、前記タイミング決定ステップで決定した前記タイミングで、前記少なくとも1つの発話体に音声を出力させる出力ステップと、を含み、前記タイミング決定ステップでは、前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、前記少なくとも1つの発話体が、第1ユーザ及び第2ユーザのうち前記第1ユーザが所有者であって、前記複数の発話体において、前記第1ユーザが所有する1以上の発話体のうち、少なくともいずれかの発話体を前記第2ユーザが所有する場合、前記第2ユーザが所有する発話体が音声を出力しているとき、当該発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する音声制御方法である。
また、本開示の一態様に係るサーバ装置は、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定部と、前記判定部の判定結果、及び、前記複数の発話体のそれぞれの所有者を示す所有者情報に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングで、前記少なくとも1つの発話体に音声を出力させる出力部と、を備える。
なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本開示によれば、複数の発話体のそれぞれが適切なタイミングで情報を音声で通知できる音声制御方法等を提供できる。
図1は、実施の形態に係る音声発話システムの具体的な構成を示す模式図である。 図2は、実施の形態に係るサーバ装置の構成を示すブロック図である。 図3は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第1例を説明するための図である。 図4は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第2例を説明するための図である。 図5は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第3例を説明するための図である。 図6は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第4例を説明するための図である。 図7は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第5例を説明するための図である。 図8は、実施の形態に係るサーバ装置の処理手順を示すフローチャートである。 図9は、実施の形態に係る発話体の処理手順を示すフローチャートである。
以下では、本開示の実施の形態について、図面を用いて詳細に説明する。なお、以下に説明する実施の形態は、いずれも本開示の一具体例を示すものである。したがって、以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置及び接続形態、ステップ及びステップの順序等は、一例であり、本開示を限定する趣旨ではない。よって、以下の実施の形態における構成要素のうち、本開示の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。
(実施の形態)
[構成]
図1は、実施の形態に係る音声発話システム500の具体的な構成を示す模式図である。
音声発話システム500は、機器600において、処理の状態が変わったことを示す情報、故障を通知する情報、フィルタ等の部品の交換をユーザに促すための情報、機器600が有する機能をユーザに通知(おすすめ通知)するための情報等の情報が出力された場合に、当該情報を音声でユーザに通知(出力)する(言い換えると、当該情報を発話する)装置である。例えば、機器600が洗濯機であり、洗濯が終了したとする。この場合、例えば、機器600は、洗濯が終了したことを示す動作情報をサーバ装置100に送信する。サーバ装置100は、当該動作情報を受信した場合、音声を出力可能な機器である発話体200に、例えば、「洗濯が終わりましたよ」等の発話文を音声で出力するための音声ファイル(音声データ)を送信する。発話体200は、例えば、音声を出力するためのスピーカ等の機器を有し、受信した音声ファイルに基づいて、「洗濯が終わりましたよ」等の発話文を音声で出力する(つまり、発話する)。
音声発話システム500は、1以上の機器600と、サーバ装置100と、1以上の発話体200と、を備える。
機器600は、例えば、冷蔵庫、洗濯機、電子レンジ、照明装置、ドアホン等の電化製品等であって、機器600の情報を出力可能な機器(情報元機器)である。より具体的に例えば、機器600は、ユーザの宅内にある通信可能な電化製品(家電)である。機器600は、例えば、機器600を示す固有の識別子である識別情報、機器600の性能(スペック)等を示す機器情報、及び、処理(動作)した内容を示す動作情報、故障等の機器600の状態を示す状態情報等をサーバ装置100に送信する。なお、動作情報には、当該動作情報が示す動作内容を実行した機器600を示す機器情報が含まれていてもよい。
また、機器600は、例えば、機器600のユーザを示す情報をサーバ装置100に送信する。当該ユーザを示す情報は、例えば、機器600が有する図示しないタッチパネル等のユーザからの入力を受け付ける受付部を介してユーザから受け付ける。
なお、機器600は、例えば、スマートホン等の携帯端末とは異なる機器である。具体的には、機器600は、例えば、携帯端末とは異なり、複数のユーザに利用され得る(例えば、複数のユーザが利用することが想定された)機器である。
スマートホン等の携帯端末は、利用するユーザが特定されている。そのため、携帯端末によってユーザに情報を通知する際に、携帯端末が別の情報をユーザに通知していたとしても、携帯端末のユーザが当該通知の対象者であるユーザだけである、つまり、携帯端末をユーザが占有していることが想定されるため、携帯端末は、ユーザに複数の通知をする場合においても、当該複数の通知を順番に行えばよい。
一方、家電機器は、家族で共有されている等、通知の対象者であるユーザが占有しているとは限らず、他のユーザに占有されている可能性がある。そのため、このような家電機器である機器600に関する情報を特定のユーザに通知を行うためには、ユーザ以外に占有されている場合に通知を保留させる必要がある等の課題がある。
そこで、音声発話システム500では、機器600のユーザに対して、適切に機器600に関する情報を通知できるように、例えば、機器600は、機器600の機器情報及び動作情報等とともに、機器600のユーザを示す情報をサーバ装置100に送信する。
機器600は、例えば、サーバ装置100と通信するための通信インターフェースと、冷蔵、洗濯、加熱等の処理を実行する実行部と、機器600の状態を検出するためのセンサ等により実現される検出部と、機器600の各種処理を制御するプロセッサ及びメモリ等により実現される制御部と、を備える。
サーバ装置100は、機器600から受信した情報に基づいて、発話体200に出力させる発話文(シナリオ)を決定し、作成した発話文を発話体200に音声で出力させる。例えば、サーバ装置100は、機器600から動作情報を受信した場合に、動作情報に応じた音声ファイル(音声データ)を選択して、選択した音声ファイルを通知情報(音声情報ともいう)として発話体200に送信することで、発話体200から当該音声ファイルに基づく音声を出力させる。
発話文としては、機器600が動作を開始したことを示す文章、機器600が動作を終了したことを示す文章、他の機器600と連係して動作したことを示す文章、バージョンアップをユーザに促すための文章、機器600が有する機能の利用をユーザにおすすめするための文章、故障したことを示す文章等が例示される。
サーバ装置100は、例えば、機器600、発話体200等の装置と通信するための通信インターフェース、プログラムが格納された不揮発性メモリ、プログラムを実行するための一時的な記憶領域である揮発性メモリ、信号の送受信をするための入出力ポート、プログラムを実行するプロセッサ等を備えるコンピュータにより実現される。
発話体200は、エアコン(エアコンディショナ)、テレビ(テレビジョン)、自律走行型掃除機(いわゆる、ロボット掃除機)等の電化製品等であって、スピーカ等の音声を出力可能な部品を備える機器(スピーカ搭載家電)である。
発話体200は、例えば、サーバ装置100から音声ファイル等の音声情報を受信した場合に、受信した音声情報に基づく音声を出力する。
なお、図1には、機器600を3つ図示しているが、音声発話システム500が備える機器600の数は、1つでもよいし、複数でもよく、特に限定されない。
また、図1には、発話体200を3つ図示しているが、音声発話システム500が備える発話体200の数は、1つでもよいし、複数でもよく、特に限定されない。
サーバ装置100は、3つの機器600及び3つの発話体200のそれぞれと、インターネット等のネットワークを介して通信可能に接続されている。
サーバ装置100と、3つの機器600及び3つの発話体200のそれぞれとは、LAN(Local Area Network)等を介して通信可能に接続されていてもよいし、無線通信可能に接続されていてもよい。
また、サーバ装置100と、3つの機器600及び3つの発話体200のそれぞれとの通信に用いられる通信規格は、特に限定されない。通信規格としては、Wi-Fi(登録商標)、Bluetooth(登録商標)、又は、ZigBee(登録商標)等が例示される。
3つの機器600及び3つの発話体200のそれぞれは、例えば、ユーザが居住する家屋内に配置されている。また、サーバ装置100は、例えば、家屋の外部に配置されている。
図2は、実施の形態に係るサーバ装置100を示すブロック図である。なお、図2には、機器600を1つのみ代表して示しまた、図2には、発話体200を3つ示しているが、3つの発話体200を区別するために、発話体201、発話体202、発話体203と符号を付している。
サーバ装置100は、取得部110と、シナリオ決定部120と、発話体決定部130と、判定部140と、タイミング決定部150と、出力部160と、記憶部170と、を備える。
取得部110は、機器600の性能、種類、型番等の機器情報、及び、機器600の動作履歴(動作した内容)を示す動作情報等の機器600に関する情報を取得する処理部である。取得部110は、例えば、サーバ装置100が備える図示しない通信インターフェース等の通信部を介して機器600と通信することで、機器情報及び/又は動作情報を取得する。当該通信部は、例えば、機器600及び発話体200と通信するための通信インターフェースである。当該通信部は、例えば、発話体200及び機器600と有線通信する場合、通信線が接続されるコネクタ等により実現され、無線通信する場合、アンテナ及び無線通信回路等により実現される。
なお、サーバ装置100がユーザからの入力を受け付けるマウス、キーボード等の受付装置を備える場合、当該受付装置を介して機器情報及び/又は動作情報を取得してもよい。
取得部110は、取得した機器情報及び動作情報を記憶部170に記憶させたり、シナリオ決定部120に出力したりする。
シナリオ決定部120は、取得部110が取得した動作情報が所定の条件を満たすか否かを判定し、発話体200に発話させる発話文を決定する処理部である。具体的には、シナリオ決定部120は、取得部110が取得した動作情報に基づいて、発話体200に音声を出力させるイベントが発生したか否かを判定する。例えば、記憶部170には、イベントが発生した(つまり、所定の条件を満たす)と判定する機器600の種類に応じた動作内容が記憶されている。例えば、シナリオ決定部120は、取得部110が取得した動作情報が示す動作内容と、記憶部170に記憶されているイベントが発生したと判定する機器600の種類に応じた動作内容とが一致するか否かを判定することで、発話体200に音声を出力させるイベントが発生したか否かを判定する。
所定の条件は、機器600が動作を開始した、機器600が動作を終了した、他の機器600と連係して動作した、バージョンアップが可能となった、故障した等が例示される。
なお、所定の条件は、予め任意に定められてよい。
シナリオ決定部120は、例えば、取得部110が取得した動作情報が示す動作内容が所定の条件を満たすと判定した場合、当該動作情報に応じた発話文を決定する。例えば記憶部170には、動作内容と紐付けられた発話文が記憶されており、シナリオ決定部120は、動作情報が示す動作内容が紐付けられた発話文を選択することで、発話体200に音声で出力させる発話文を決定する。
発話体決定部130は、シナリオ決定部120が決定した発話文を複数の発話体200のうちのどの発話体200に音声で出力させるかを決定する処理部である。例えば、記憶部170には、機器600を示す機器情報と、発話体200を示す発話体情報とは、予め紐付けられて記憶されている。例えば、機器600の一例である第1機器の機器情報と、発話体201、202の発話体情報とが紐付けられている場合、第1機器の動作情報を取得部110が取得したとき、発話体201と発話体202とが当該動作情報に応じた発話文を音声で出力する。また、例えば、機器600の別の一例である第2機器の機器情報と、発話体201の発話体情報とが紐付けられている場合、第2機器の動作情報を取得部110が取得したとき、発話体201が当該動作情報に応じた発話文を音声で出力する。
また、例えば、記憶部170には、機器600及び発話体200の所有者を示す所有者情報が機器情報及び発話体情報に紐付けられて記憶されている。この場合、例えば、発話体決定部130は、機器600の動作情報を取得部110が取得したとすると、機器600と所有者が同じ発話体200に当該動作情報に応じた発話文を音声で出力させるように、発話体200を決定する。このように、例えば、発話体決定部130は、機器情報、発話体情報、及び、所有者情報に基づいて、シナリオ決定部120が決定した発話文を、音声発話システム500が備える複数の発話体200のうちのどの発話体200に音声で出力させるかを決定する。
なお、所有者情報は、予め記憶部170に記憶されていてもよい。或いは、例えば、取得部110は、ユーザから図示しないスマートホン等の受付装置で受け付けた所有者情報を上記した図示しない通信部を介して取得し、取得した所有者情報を記憶部170に記憶させてもよい。
判定部140は、複数の発話体200のそれぞれが音声を出力しているか否かを判定する処理部である。例えば、判定部140は、発話体201、発話体202、及び、発話体203のそれぞれが、音声を出力しているか否かを判定する。
なお、ここでいう複数の発話体200が音声を出力しているか否かとは、例えば、サーバ装置100が発話文を発話体200に音声で出力させているか否かを示す。例えば、発話体200によっては、自装置の情報を通知するために音声を出力していたり、発話体200がテレビである場合には、映像にあわせて音声を出力している場合がある。このように、判定部140が判定する発話体200が出力している音声は、サーバ装置100が発話体200に出力させている音声(発話文に基づく音声)以外の音声については、含まれていてもよいし、含まれていなくてもよい。
例えば、判定部140は、発話体201、発話体202、及び、発話体203のそれぞれに、シナリオ決定部120が決定した発話文を音声で出力させているか否かを判定する。例えば、判定部140は、後述するタイミング決定部150が決定したタイミングと、シナリオ決定部120が決定した発話文の長さとから、発話体201、発話体202、及び、発話体203のそれぞれが、音声を出力しているか否かを判定する。発話文の長さに応じた音声の出力時間は、例えば、予め記憶部170に記憶されていてもよいし、一音を出力するために係る時間等を示す情報が予め記憶部170に記憶されていて、当該情報と発話文とから発話文を音声で出力するために係る時間を算出してもよい。或いは、判定部140は、上記したサーバ装置100が備える上記した図示しない通信部を介して発話体201、発話体202、及び、発話体203のそれぞれと通信することで、発話体201、発話体202、及び、発話体203のそれぞれが発話しているか否かを示す情報(音声出力情報)を取得してもよい。
タイミング決定部150は、判定部140の判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で少なくとも1つの発話体200に音声を出力させるかのタイミングを決定する処理部である。
例えば、タイミング決定部150は、発話体決定部130が複数の発話体200に発話文(より具体的には、同じ発話文)を音声で出力させると決定した場合、当該複数の発話体200のうち、音声を出力していない第1発話体については、当該第1発話体にすぐに音声を出力させるタイミングを決定し、当該複数の発話体200のうち、音声を出力している第2発話体については、当該音声の出力を終了するまで待機した後で当該第2発話体に音声を出力させるタイミングを決定する。
或いは、例えば、タイミング決定部150は、発話体決定部130が複数の発話体200に発話文(より具体的には、同じ発話文)を音声で出力させると決定した場合、当該複数の発話体200のうち、少なくともいずれかの発話体200が音声を出力しているとき、当該少なくともいずれかの発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
或いは、例えば、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、複数の発話体200のうち、音声を出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
この場合、例えば、タイミング決定部150は、複数の発話体200のうち、音声で出力させる発話文の対象となるユーザが所有する、当該発話文を音声で出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。サーバ装置100は、例えば、機器600から動作情報を取得した場合、当該動作情報に基づく発話文を、機器600の所有者であるユーザに当該発話文を通知するために、当該発話文の対象(通知対象)となるユーザが所有する発話体200、つまり、機器600の所有者と同じ所有者の発話体200に音声で出力させる。例えば、このようなときに、タイミング決定部150は、発話文を音声で出力させる少なくとも1つの発話体200(例えば、発話体201)と所有者が同じユーザである発話体200(例えば、発話体202)が音声を出力しているか否かに基づいて、当該少なくとも1つの発話体200(例えば、発話体201)に音声を出力させるようにタイミングを決定する。
或いは、例えば、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200の所有者が第1ユーザ及び第2ユーザである場合、複数の発話体200のうち、第1ユーザ及び第2ユーザの少なくとも一方が所有者である発話体200が音声を出力しているとき、当該少なくとも一方が所有者である発話体200が音声の出力を終了してから、少なくとも一方が所有者である少なくとも1つの発話体200に音声を出力させるようにタイミングを決定する。
或いは、例えば、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200が、第1ユーザ及び第2ユーザのうち第1ユーザが所有者であって、複数の発話体200において、第1ユーザが所有する1以上の発話体200のうち、少なくともいずれかの発話体200を第2ユーザが所有する場合、第2ユーザが所有する発話体200が音声を出力しているとき、当該第2ユーザが所有する発話体200が音声の出力を終了してから音声を出力させる少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
なお、タイミング決定部150は、音声をすぐに出力させることを示す情報、又は、発話体200が音声の出力を終了するまで待機した後で音声を出力させる指示を示す情報をタイミング情報として音声情報とともに後述する出力部160に出力させてもよい。或いは、例えば、タイミング決定部150は、音声を出力させる時刻を示す情報、又は、音声情報を受信してからの音声を出力させるまでの時間を示す情報等をタイミング情報として音声情報とともに出力部160に出力させてもよい。
タイミング決定部150が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の具体例については、後述する。
出力部160は、発話体200の音声の出力を制御する処理部である。具体的には、出力部160は、判定部140の判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングで、当該少なくとも1つの発話体200に音声を出力させる。より具体的には、出力部160は、シナリオ決定部120が決定した発話文を、発話体決定部130が決定した少なくとも1つの発話体200に、タイミング決定部150が決定したタイミングで、音声で出力させる。例えば、出力部160は、当該発話文を音声で1以上の発話体200に出力させるための情報である音声情報と、タイミング決定部150が決定したタイミングを示すタイミング情報とを、サーバ装置100が備える上記した図示しない通信部を介して、発話体決定部130が決定した1以上の発話体200に送信する。
音声情報は、機器600の動作情報に応じた発話文を発話体200に音声で出力させるための情報である。例えば、音声情報は、機器600の動作情報に応じた音声ファイル(音声データ)である。音声ファイルは、例えば、動作内容と紐付けられて記憶部170に記憶されている。
例えば、出力部160は、取得部110が取得した動作情報に基づいてシナリオ決定部120が決定した発話文に応じた音声ファイルを記憶部170から取得し、取得した音声ファイルを音声情報として発話体200に出力(送信)する。
これにより、ユーザによって設定(選択)された発話文は、所定の条件(例えば、機器600が所定の動作を実行した、所定の状態になった等)を満たす場合に、発話体決定部130が決定した1以上の発話体200から当該発話文が音声としてタイミング決定部150が決定したタイミングで出力される。
なお、サーバ装置100は、上記した音声情報をサーバ装置100とは異なる他のサーバ装置等のコンピュータから音声情報を受信してもよい。例えば、記憶部170は、音声ファイルに対応したURL(Uniform Resource Locator)を示す情報を記憶していてもよい。例えば、シナリオ決定部120は、発話文を決定した後に、決定した発話文に応じた音声情報に対応するURLを示す情報を当該他のサーバ装置に送信することで、当該音声情報を取得してもよい。
取得部110と、シナリオ決定部120と、発話体決定部130と、判定部140と、タイミング決定部150と、出力部160との各処理部は、メモリと、当該メモリに記憶された制御プログラムと、当該制御プログラムを実行するCPU(Central Processing Unit)等のプロセッサとから実現される。また、これらの処理部は、1つのメモリ及び1つのプロセッサから実現されてもよいし、互いに異なる又は任意の組み合わせで複数のメモリ及び複数のプロセッサによって実現されてもよい。また、これらの処理部は、例えば、専用の電子回路等により実現されてもよい。
記憶部170は、機器600を示す機器情報と、発話体200を示す発話体情報と、機器600及び発話体200の所有者を示す所有者情報と、複数の発話文を示す情報(シナリオ情報)と、を記憶する記憶装置である。また、記憶部170は、発話文に応じた音声ファイルを記憶していてもよい。
記憶部170は、例えば、HDD(Hard Disk Drive)、又は、フラッシュメモリ等により実現される。
なお、例えば、記憶部170には、音声で出力させる発話文を示す設定情報が記憶されていてもよい。設定情報は、記憶部170に記憶されている1以上の発話文(より具体的には、発話文を示す情報)のうち、ユーザによって音声で出力させると設定された発話文を示す情報である。ユーザによっては、音声で通知されたい情報と音声で通知される必要がない情報とがある場合がある。そこで、例えば、取得部110は、ユーザから図示しないスマートホン等の受付装置で受け付けた発話文を音声で出力するか否かを示す情報を設定情報として上記した図示しない通信部を介して取得し、取得した設定情報を記憶部170に記憶させる。例えば、シナリオ決定部120は、取得部110が動作情報を取得した場合、記憶部170に記憶されている設定情報に基づいて、当該動作情報に関する発話文を発話体200に音声で出力させるか否かを判定してもよい。設定情報は、ユーザごとに設定されていてもよい。
発話体200は、上記した通り、例えば、エアコン、テレビ、自律走行型掃除機等の電化製品等であって、スピーカ等の音声を出力可能な部品を備える機器である。発話体200は、例えば、サーバ装置100から受信した音声ファイル等の音声情報に基づく音声を出力する。
なお、発話文及び当該発話文に応じた音声ファイルは、HDD等の図示しない記憶部に記憶され、当該記憶部を発話体200が備えてもよい。この場合、例えば、出力部160は、発話体200に音声で出力させる発話文を示す情報、又は、当該発話文と紐付く音声ファイルを示す情報を音声情報として発話体200に送信してもよい。この場合、例えば、発話体200は、当該記憶部に記憶している1以上の音声ファイルの中から、音声を出力するための音声ファイルを受信した音声情報に基づいて選択し、選択した音声ファイルに基づく音声を出力する。
発話体200は、例えば、スピーカ、アンプ、サーバ装置100から受信した音声情報に基づく音声を当該スピーカから出力させるための制御プログラムが記憶されたメモリ、当該制御プログラムを実行するプロセッサ、サーバ装置100と通信するための通信インターフェースを備える。当該通信インターフェースは、例えば、発話体200がサーバ装置100と有線通信する場合、通信線が接続されるコネクタ等により実現され、無線通信する場合、アンテナ及び無線通信回路等により実現される。
発話体200は、例えば、通信部210と、音声制御部220と、音声出力部230と、を備える。
通信部210は、サーバ装置100と通信するための通信インターフェースである。
音声制御部220は、通信部210を介してサーバ装置100(より具体的には、出力部160)から受信(取得)した音声情報に基づいて、音声出力部230から音声を出力させる処理部である。具体的には、音声制御部220は、音声出力部230から音声を出力させているか否かを示す音声出力情報を、通信部210を介してサーバ装置100に送信し、サーバ装置100から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部210を介して受信し、受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部230に出力させる。
音声制御部220は、メモリと、当該メモリに記憶された制御プログラムと、当該制御プログラムを実行するCPU等のプロセッサとから実現される。また、音声制御部220は、例えば、専用の電子回路等により実現されてもよい。
音声出力部230は、音声制御部220によって制御されて音声を出力する装置である。音声出力部230は、例えば、スピーカ等により実現される。
[具体例]
続いて、タイミング決定部150が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の具体例について説明する。なお、以下で説明する第1例~第5例では、発話体201と発話体202とは、ユーザAが所有者であるとして説明する。また、以下で説明する第1例~第5例では、発話体202と発話体203とは、ユーザBが所有者であるとして説明する。つまり、発話体202は、ユーザAとユーザBとに共有されている。また、以下で説明する第1例~第5例では、ユーザBに対して情報を音声で出力させる場合を示す。
<第1例>
図3は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第1例を説明するための図である。
本例では、発話体202及び発話体203に発話文を音声でこれから出力させ、且つ、発話体202が音声を出力しているとする。つまり、本例では、発話体202及び発話体203が発話候補であり、且つ、発話体202が発話中である。
この場合、タイミング決定部150は、発話中の発話体202には、発話が終了するまで待機した後に音声を出力させるようにタイミングを決定する。一方、タイミング決定部150は、発話していない発話体203には、発話文をすぐに発話させるようにタイミングを決定する。そのため、本例では、同じ発話文を発話する発話体202と発話体203とは、異なるタイミングで発話文を発話する。
このように、第1例では、タイミング決定部150は、2以上の発話体200のうち、音声を出力していない第1発話体については、当該第1発話体にすぐに音声を出力させるようにタイミングを決定し、当該2以上の発話体200のうち、音声を出力している第2発話体については、当該音声の出力を終了するまで待機した後で当該第2発話体に音声を出力させるようにタイミングを決定する。
なお、発話候補となる発話体200は、所有者がユーザAでもユーザBでもよく、所有者が特に限定されない。例えば、ユーザBに対しての情報を音声で出力させる場合、発話体200は、ユーザBが所有する発話体202及び発話体203の少なくとも一方であるとよい。
<第2例>
図4は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第2例を説明するための図である。
本例では、発話体202及び発話体203に発話文を音声でこれから出力させ、且つ、発話体202が音声を出力しているとする。つまり、本例では、発話体202及び発話体203が発話候補であり、且つ、発話体202が発話中である。
この場合、タイミング決定部150は、発話中の発話体202には、発話が終了するまで待機した後に発話させるようにタイミングを決定する。また、タイミング決定部150は、発話していない発話体203についても、発話体202の発話が終了するまで待機した後に発話させるようにタイミングを決定する。そのため、本例では、同じ発話文を発話する発話体202と発話体203とは、同じタイミングで発話文を発話する。
このように、第2例では、タイミング決定部150は、いずれも発話候補である2以上の発話体200のうち、少なくともいずれかの発話体200が音声を出力している場合、当該少なくともいずれかの発話体200が音声の出力を終了してから2以上の発話体200に音声を出力させるように(例えば、同じ発話文が音声で出力されるタイミングが同時になるように)タイミングを決定する。
<第3例>
図5は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第3例を説明するための図である。
本例では、発話体203に発話文を音声でこれから出力させ、且つ、発話体202が音声を出力しているとする。つまり、本例では、発話体203が発話候補であり、且つ、発話体202が発話中である。
本例では、タイミング決定部150は、発話体201、発話体202、及び、発話体203のそれぞれの所有者情報を取得することで、発話体203と所有者が同じユーザBである発話体200を特定する。本例では、タイミング決定部150は、発話体203と所有者が同じユーザBである発話体202を特定する。また、例えば、タイミング決定部150は、発話候補の発話体203と所有者が同じ発話体202が発話している場合、発話体202が発話を終了してから発話体203に発話させるようにタイミングを決定する。一方、例えば、タイミング決定部150は、発話候補の発話体203と所有者が同じ発話体202が発話しておらず、且つ、発話候補の発話体203と所有者が異なる発話体201が発話しているとしても、すぐに発話体203に発話させるようにタイミングを決定する。
このように、第3例では、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、複数の発話体200のうち、音声を出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるようにタイミングを決定する。
なお、例えば、判定部140は、発話体201、発話体202、及び、発話体203のそれぞれの所有者情報を取得し、発話体203と、発話体203と所有者が同じユーザBである発話体202とのそれぞれが発話中であるか否かを判定してもよいし、音声発話システム500が備える全ての発話体である発話体201、発話体202、及び、発話体203のそれぞれについて発話中であるか否かを判定してもよい。
<第4例>
図6は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第4例を説明するための図である。
本例では、発話体202に発話文を音声でこれから出力させ、且つ、発話体201が音声を出力しているとする。つまり、本例では、発話体202が発話候補であり、且つ、発話体201が発話中である。
本例では、タイミング決定部150は、発話体201、発話体202、及び、発話体203のそれぞれの所有者情報を取得することで、発話体202と所有者が同じユーザA及びユーザBの少なくとも一方である発話体200を特定する。本例では、タイミング決定部150は、発話体202と所有者が同じユーザAである発話体201と、発話体202と所有者が同じユーザBである発話体203と、を特定する。また、例えば、タイミング決定部150は、発話候補の発話体202と所有者が少なくとも1人は同じ発話体201及び発話体203の少なくとも一方が発話している場合、発話体201及び発話体203の両方が発話を終了してから発話体202に発話させるようにタイミングを決定する。本例では、タイミング決定部150は、発話候補の発話体202と所有者が少なくとも1人は同じ発話体201が発話しているため、発話体201が発話を終了してから発話体202に発話させるようにタイミングを決定する。そのため、本例では、例えば、タイミング決定部150は、発話候補の発話体202と所有者が少なくとも1人は同じ発話体201が発話しておらず、且つ、発話候補の発話体202と所有者が少なくとも1人は同じ発話体203が発話している場合には、発話体203が発話を終了してから発話体202に発話させるようにタイミングを決定する。
このように、第4例では、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200の所有者が第1ユーザ及び第2ユーザである場合、複数の発話体200のうち、第1ユーザ及び第2ユーザの少なくとも一方が所有者である発話体200が音声を出力しているとき、当該少なくとも一方が所有者である発話体200が音声の出力を終了してから、少なくとも一方が所有者である少なくとも1つの発話体200に音声を出力させるようにタイミングを決定する。
<第5例>
図7は、実施の形態に係るサーバ装置100が発話体200に発話文を音声で出力させるタイミングを決定する処理方法の第5例を説明するための図である。
本例では、発話体203に発話文を音声でこれから出力させ、且つ、発話体201が音声を出力しているとする。つまり、本例では、発話体203が発話候補であり、且つ、発話体201が発話中である。
本例では、タイミング決定部150は、発話体201、発話体202、及び、発話体203のそれぞれの所有者情報を取得することで、発話体203と所有者が同じユーザBが所有する発話体202及び発話体203について、ユーザB以外の所有者がいるか否かを判定する。本例では、ユーザBが所有する発話体202は、ユーザAも所有しているため、ユーザBが所有する発話体202及び発話体203について、ユーザB以外の所有者がいると判定する。さらに、タイミング決定部150は、ユーザBが所有する発話体202及び発話体203について、ユーザB以外の所有者がいると判定した場合、当該ユーザB以外の所有者が所有する発話体200を特定する。本例では、タイミング決定部150は、ユーザBが所有する発話体202及び発話体203について、ユーザB以外の所有者であるユーザAが所有する発話体201を特定する。また、例えば、タイミング決定部150は、特定した発話体200が発話している場合、特定した発話体200が発話を終了してから発話体203に発話させるようにタイミングを決定する。本例では、タイミング決定部150は、特定した発話体201が発話しているため、特定した発話体201が発話を終了してから発話体203に発話させるようにタイミングを決定する。
このように、第5例では、タイミング決定部150は、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200が、第1ユーザ(例えば、ユーザB)及び第2ユーザ(例えば、ユーザA)のうち、第1ユーザが所有者であって、複数の発話体200において、第1ユーザが所有する1以上の発話体200のうち、少なくともいずれかの発話体200を第2ユーザが所有する場合、第2ユーザが所有する発話体200が音声を出力しているとき、当該第2ユーザが所有する発話体200が音声の出力を終了してから音声を出力させる少なくとも1つの発話体200に音声を出力させるようにタイミングを決定する。
なお、上記した第1例、第2例、第3例、第4例、及び、第5例は、可能な範囲で任意に組み合わされて実現されてもよい。
例えば、上記した第5例において、第1ユーザが所有する一の発話体200から音声を出力させる場合に、第1ユーザが所有する他の発話体200が発話中である否かの判定が行われてもよい。例えば、当該他の発話体200が発話中である場合、当該他の発話体200が音声の出力を終了するまで待機した後で当該一の発話体200に音声を出力させる。ここで、当該一の発話体200の所有者が第1ユーザだけでなく第2ユーザも含まれる場合、第1ユーザが所有する他の発話体200が発話中ではないとき、さらに、第2ユーザが所有する発話体200が発話中である否かの判定が行われてもよい。この場合、例えば、第1ユーザが所有する他の発話体200が発話中ではなく、且つ、第2ユーザが所有する発話体200が発話中ではないとき、当該一の発話体200に音声を出力させる。一方、第2ユーザが所有する発話体200が発話中である場合、第2ユーザが所有する発話体200が音声の出力を終了するまで待機した後で当該一の発話体200に音声を出力させる。
[処理手順]
続いて、サーバ装置100が実行する処理の処理手順について説明する。
図8は、実施の形態に係るサーバ装置100の処理手順を示すフローチャートである。
まず、シナリオ決定部120は、取得部110が、機器600から機器600の動作情報を取得したか否かを判定する(S101)。
シナリオ決定部120は、取得部110が動作情報を取得していないと判定した場合(S101でNo)、処理をステップS101に戻す。
一方、シナリオ決定部120は、取得部110が動作情報を取得したと判定した場合(S101でYes)、動作情報に基づいて、発話文を決定する(S102)。
次に、発話体決定部130は、例えば、動作情報が示す動作を実行した機器600を示す機器情報に基づいて、シナリオ決定部120が決定した発話文を音声で出力させる少なくとも1つの発話体200を決定する(S103)。
次に、判定部140は、音声発話システム500が備える複数の発話体200(より具体的には、記憶部170に発話体200を示す発話体情報が記憶されている発話体200)が音声を出力しているか否かを判定する(S104)。
次に、タイミング決定部150は、判定部140の判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している複数の発話体200が当該音声の出力を終了するまで待機した後で少なくとも1つの発話体200に音声を出力させるかのタイミングを決定する(S105)。タイミング決定部150は、例えば、上記した第1例~第5例のいずれかの判定方法を用いて、発話体決定部130が決定した少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
次に、出力部160は、シナリオ決定部120が決定した発話文を、発話体決定部130が決定した少なくとも1つの発話体200に、タイミング決定部150が決定したタイミングで、音声で出力させる(S106)。
なお、ステップS101で扱う情報は、機器600の動作情報だけではなく、機器600のバージョンアップを示す情報、故障したことを示す情報等、ユーザに通知するための情報であれば、任意の情報でよい。ステップS102以降の処理についても、機器600のバージョンアップを示す情報、故障したことを示す情報等、ユーザに通知するための情報に基づいて、発話文を決定して当該発話文を発話体200から音声で出力させてもよい。
続いて、発話体200が実行する処理の処理手順について説明する。
図9は、実施の形態に係る発話体200の処理手順を示すフローチャートである。
まず、音声制御部220は、音声出力部230から音声を出力させているか否かを示す音声出力情報を、通信部210を介してサーバ装置100に送信する(S201)。音声制御部220がステップS201を実行するタイミングは、特に限定されない。音声制御部220は、予め任意に定められる所定の周期で繰り返しステップS201を実行してもよいし、サーバ装置100から音声出力情報を要求する情報を受信した場合にステップS201を実行してもよい。
なお、音声制御部220は、発話が終了したこと(つまり、音声出力部230から音声を出力させ終わったこと)を示す情報を音声出力情報として、通信部210を介してサーバ装置100に送信してもよい。
これによれば、発話体200に発話を開始させたことはサーバ装置100でも把握できるため、いつ発話が終了したかさえ分かれば、それぞれの発話体200が発話中であるか否かをサーバ装置100が適切に判定できる。
また、サーバ装置100は、発話が終了したことを示す音声出力情報が所定の時間受信されない場合、発話体200の発話が終了していると判定してもよい。
サーバ装置100は、例えば、受信した音声出力情報に基づいて、図8に示すステップS104を実行し、さらに、音声ファイル等の音声情報及びタイミング情報を送信する。
次に、音声制御部220は、サーバ装置100から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部210を介して受信する(S202)。
次に、音声制御部220は、ステップS202で受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部230に出力させる(S203)。
[効果等]
以上のように、実施の形態に係る音声制御方法は、音声を出力可能な複数の発話体200が音声を出力しているか否かを判定する判定ステップ(S104)と、判定ステップでの判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングで、当該少なくとも1つの発話体200に音声を出力させる出力ステップ(S106)と、を含む。
これによれば、例えば、複数の発話体200から同時に音声を出力させることで、ユーザが音声を聞き取りにくくなるようなタイミングを避けて発話体200から音声を出力させることができる。このように、実施の形態に係る音声制御方法によれば、発話体200が適切なタイミングで情報を音声で通知できる。
また、例えば、実施の形態に係る音声制御方法は、さらに、判定ステップでの判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングを決定するタイミング決定ステップ(S105)を含む。この場合、例えば、出力ステップでは、タイミング決定ステップで決定したタイミングで、当該少なくとも1つの発話体200に音声を出力させる。
これにより、出力ステップでは、判定ステップでの判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングで、当該少なくとも1つの発話体200に音声を出力させることができる。
また、例えば、タイミング決定ステップでは、複数の発話体200のうち、音声を出力していない第1発話体については、当該第1発話体にすぐに音声を出力させるタイミングを決定し、複数の発話体200のうち、音声を出力している第2発話体については、当該音声の出力を終了するまで待機した後で当該第2発話体に音声を出力させるタイミングを決定する。
これによれば、発話文を音声で出力させる際に、現在音声を出力しているか否かにより発話体200が音声を出力するか否かが決定される、そのため、タイミング決定の処理が簡便になる。
また、例えば、タイミング決定ステップでは、複数の発話体200のうち、少なくともいずれかの発話体200が音声を出力している場合、当該少なくともいずれかの発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
これによれば、ユーザは、同じ情報を同じタイミングで聞くことができる。そのため、同じ情報を同じタイミングで聞くことによってユーザに誤解が生じたり、ユーザに不快に感じさせたりすることが抑制される。
また、例えば、タイミング決定ステップでは、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、複数の発話体200のうち、音声を出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該音声を出力している発話体200が音声の出力を終了してから当該少なくとも1つの発話体に音声を出力させるタイミングを決定する。
複数の発話体200のうち、同じユーザが所有する発話体200からは、当該ユーザに対する情報が音声で出力されている可能性が高い。そのため、同じユーザが所有する複数の発話体200のそれぞれから異なる発話文を同じタイミングで音声で出力させると、ユーザは複数の情報を同時に聞く必要があり、情報を正しく聞き取れなくなる可能性がある。そこで、複数の発話体200のうち、音声を出力させる少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるようにタイミングを決定することで、同じユーザに対して異なる情報を同じタイミングで通知してしまうことが抑制される。
また、例えば、タイミング決定ステップでは、複数の発話体200のうち、音声で出力させる発話文の対象となるユーザが所有する当該少なくとも1つの発話体200と同じ所有者が所有する発話体200が音声を出力している場合、当該発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
これによれば、同じユーザに対して異なる情報を同じタイミングで通知してしまうことがさらに抑制される。
また、例えば、タイミング決定ステップでは、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200の所有者が第1ユーザ及び第2ユーザである場合、当該複数の発話体200のうち、第1ユーザ及び第2ユーザの少なくとも一方が所有者である発話体200が音声を出力しているとき、当該音声を出力している発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
例えば、図6に示すように、所有者がユーザAである発話体201が音声を出力しているときに、さらに、ユーザAも所有する発話体202から音声を出力させると、ユーザAは、発話体202から出力させる音声の情報がユーザBに対する情報であったとしても、音声が聞き取りにくくなる懸念がある。そこで、複数の発話体200のうち、第1ユーザ及び第2ユーザの少なくとも一方が所有者である発話体200が音声を出力しているとき、当該少なくとも一方が所有者である発話体200が音声の出力を終了してから、少なくとも一方が所有者である少なくとも1つの発話体200に音声を出力させるようにタイミングを決定することで、第1ユーザ及び第2ユーザのいずれにとっても情報が正しく聞き取れなくなることが抑制され得る。
また、例えば、タイミング決定ステップでは、複数の発話体200のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも1つの発話体200が、第1ユーザ及び第2ユーザのうち第1ユーザが所有者であって、複数の発話体200において、第1ユーザが所有する1以上の発話体200のうち、少なくともいずれかの発話体200を第2ユーザが所有する場合、第2ユーザが所有する発話体200が音声を出力しているとき、当該音声を出力している発話体200が音声の出力を終了してから当該少なくとも1つの発話体200に音声を出力させるタイミングを決定する。
例えば、図7に示すように、ユーザAとユーザBとが同じ発話体202を共有している場合、ユーザAとユーザBとは、同じ空間にいることが多い可能性が高い。つまり、ユーザAが所有している発話体200とユーザBが所有している発話体200とは、同じ空間に配置されている可能性が高い。そのため、ユーザAが所有している発話体200とユーザBが所有している発話体200とに同時に音声を出力させると、ユーザAに対する情報であってもユーザBに対する情報であっても聞き取りにくくなる可能性がある。そこで、音声を出力させる少なくとも1つの発話体200が、第1ユーザ及び第2ユーザのうち、第1ユーザが所有者であって、複数の発話体200において、第1ユーザが所有する1以上の発話体200のうち、少なくともいずれかの発話体200を第2ユーザが所有する場合、第2ユーザが所有する発話体200が音声を出力しているとき、当該第2ユーザが所有する発話体200が音声の出力を終了してから音声を出力させる少なくとも1つの発話体200に音声を出力させるようにタイミングを決定することで、同じ空間に位置する発話体200から同時に音声を出力させてしまうことを抑制できる。
また、実施の形態に係るサーバ装置100は、音声を出力可能な複数の発話体200のそれぞれが音声を出力しているか否かを判定する判定部140と、判定部140の判定結果に基づいて、複数の発話体200のうち、少なくとも1つの発話体200に音声をすぐに出力させるか、又は、音声を出力している発話体200が当該音声の出力を終了するまで待機した後で当該少なくとも1つの発話体200に音声を出力させるかのタイミングで、当該少なくとも1つの発話体200に音声を出力させる出力部160と、を備える。
これによれば、上記した実施の形態に係る音声制御方法と同様の効果を奏する。
また、実施の形態に係る発話体200は、音声を出力する音声出力部230と、サーバ装置100と通信するための通信部210と、通信部210を介してサーバ装置100から受信した音声情報に基づいて、音声出力部230から音声を出力させる音声制御部220と、を備える。音声制御部220は、音声出力部230から音声を出力させているか否かを示す音声出力情報を、通信部210を介してサーバ装置100に送信し、サーバ装置100から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部210を介して受信し、受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部230に出力させる。
これによれば、発話体200は、サーバ装置100から受信した音声情報に基づく音声を、他の音声とともに出力してユーザに聞き取りにくくさせてしまうことを抑制できる。
(その他の実施の形態)
以上、本開示に係る音声制御方法等について、実施の形態に基づいて説明したが、本開示は、上記実施の形態に限定されるものではない。
例えば、機器600と発話体200とは、同じ機器でもよいし、異なる機器でもよい。つまり、機器情報及び動作情報等をサーバ装置100に送信する装置と、サーバ装置100に制御されて発話文を音声で出力する装置とは、同じ装置でもよいし、異なる装置でもよい。
また、例えば、サーバ装置100は、機器600に関する機器情報及び動作情報を、機器600ではなく他のサーバ装置等から取得してもよい。また、サーバ装置100は、当該他のサーバ装置から、機器600を利用しているユーザが利用する運輸サービス、天気情報、又は、防災情報等の情報を取得して、これらの情報を発話体200から発話させてもよい。また、例えば、サーバ装置100は、ユーザが利用している、上記した運輸サービス等のサービス情報をユーザが所有する発話体200に発話させてもよい。例えば、サーバ装置100は、他のサーバ装置等から上記したサービス情報を受信した場合、「明日の午前中にお届け予定の荷物が1つあります」等の音声を、ユーザが所有する発話体200から発話させてもよい。サーバ装置100は、ユーザが利用しているサービスに関する情報を、ユーザが所有するスマートホン、タブレット端末、パーソナルコンピュータ等から受信してもよい。この場合、音声発話システムは、機器600を備えなくてもよい。
また、例えば、サーバ装置100は、機器600から取得する機器情報及び動作情報と、当該他のサーバ装置から取得する情報とに基づいて、発話文を決定してもよい。例えば、機器600が洗濯機である場合、サーバ装置100は、当該洗濯機から取得した当該洗濯機による選択が終了したことを示す情報と、当該他のサーバ装置から取得した天気情報とに基づいて、当該洗濯機の乾燥運転をユーザに推奨する発話文を発話体200に発話させてもよい。
また、例えば、判定部140が判定する複数の発話体200は、音声発話システム500が備える全ての発話体200でもよいし、音声発話システム500が備える全ての発話体200のうち、タイミング決定部150がタイミングを決定するために必要とする複数の発話体200でもよい。
また、例えば、図3~図8では、ユーザA及びユーザBがそれぞれ2つの発話体200の所有者であり、且つ、複数の発話体200のうち発話体202をユーザA及びユーザBが共有している例について説明した。ユーザA及びユーザBがそれぞれ所有する発話体200の数、及び、ユーザA及びユーザBが共有する発話体200の数は、それぞれ1つでもよいし、複数でもよいし、同じでもよいし、異なっていてもよく、任意でよい。
また、例えば、上記実施の形態では、発話待機中の発話体は、現在発話中の発話体の発話が終了してから新たな発話を開始する。しかしながら、一の発話体は、発話内容によっては、他の発話体の発話中に割り込んで発話を開始してもよい。当該発話内容は、予め任意に定められてよく、特に限定されない。
また、例えば、上記実施の形態において、サーバ装置100が備える取得部110、シナリオ決定部120、発話体決定部130等の処理部の構成要素の全部又は一部は、専用のハードウェアで構成されてもよく、或いは、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサ等のプログラム実行部が、HDD又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、例えば、上記処理部の構成要素は、1つ又は複数の電子回路で構成されてもよい。1つ又は複数の電子回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
1つ又は複数の電子回路には、例えば、半導体装置、IC(Integrated Circuit)又はLSI(Large Scale Integration)等が含まれてもよい。IC又はLSIは、1つのチップに集積されてもよく、複数のチップに集積されてもよい。ここでは、IC又はLSIと呼んでいるが、集積の度合いによって呼び方が変わり、システムLSI、VLSI(Very Large Scale Integration)、又は、ULSI(Ultra Large Scale Integration)と呼ばれるかもしれない。また、LSIの製造後にプログラムされるFPGA(Field Programmable Gate Array)も同じ目的で使うことができる。
また、発話体200が備える音声制御部220等の処理部の構成要素の全部又は一部は、専用のハードウェアで構成されてもよく、或いは、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサ等のプログラム実行部が、HDD又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
また、例えば、上記処理部の構成要素は、1つ又は複数の電子回路で構成されてもよい。
また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路又はコンピュータプログラムで実現されてもよい。或いは、当該コンピュータプログラムが記憶された光学ディスク、HDD若しくは半導体メモリ等のコンピュータ読み取り可能な非一時的記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
その他、本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲内に含まれる。
本開示は、音声を出力可能な機器を制御する装置に適用できる。
100 サーバ装置
110 取得部
120 シナリオ決定部
130 発話体決定部
140 判定部
150 タイミング決定部
160 出力部
170 記憶部
200、201、202、203 発話体
210 通信部
220 音声制御部
230 音声出力部
500 音声発話システム
600 機器

Claims (2)

  1. サーバ装置と複数の発話体とを備える音声発話システムにおける前記サーバ装置が実行する音声制御方法であって、
    前記サーバ装置は、
    音声を出力可能な前記複数の発話体のそれぞれが音声を出力しているか否かを、(i)前記複数の発話体の少なくともいずれかに音声で出力させる発話文の長さ、(ii)前記発話文を音声で出力するために係る時間、又は、(iii)前記複数の発話体のそれぞれから取得された音声出力情報であって、前記複数の発話体のそれぞれが音声を出力しているか否かを示す音声出力情報に基づいて判定する判定ステップと、
    前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングを決定するタイミング決定ステップと、
    前記タイミングを示すタイミング情報と、前記少なくとも1つの発話体に出力させる音声を示す音声情報とを前記少なくとも1つの発話体に出力することで、前記タイミング決定ステップで決定した前記タイミングで、前記少なくとも1つの発話体に前記音声情報が示す音声を出力させる出力ステップと、を含み、
    前記タイミング決定ステップでは、
    前記複数の発話体のうち、少なくともいずれかの発話体が音声を出力している場合、当該少なくともいずれかの発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する
    音声制御方法。
  2. サーバ装置と複数の発話体とを備える音声発話システムにおける前記サーバ装置であって、
    音声を出力可能な前記複数の発話体のそれぞれが音声を出力しているか否かを、(i)前記複数の発話体の少なくともいずれかに音声で出力させる発話文の長さ、(ii)前記発話文を音声で出力するために係る時間、又は、(iii)前記複数の発話体のそれぞれから取得された音声出力情報であって、前記複数の発話体のそれぞれが音声を出力しているか否かを示す音声出力情報に基づいて判定する判定部と、
    前記判定部の判定結果に基づいて、前記複数の発話体のうち、少なくとも1つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも1つの発話体に音声を出力させるかのタイミングを決定するタイミング決定部と、
    前記タイミングを示すタイミング情報と、前記少なくとも1つの発話体に出力させる音声を示す音声情報とを前記少なくとも1つの発話体に出力することで、前記タイミング決定部が決定した前記タイミングで、前記少なくとも1つの発話体に前記音声情報が示す音声を出力させる出力部と、を備え、
    前記タイミング決定部は、
    前記複数の発話体のうち、少なくともいずれかの発話体が音声を出力している場合、当該少なくともいずれかの発話体が音声の出力を終了してから前記少なくとも1つの発話体に音声を出力させる前記タイミングを決定する
    サーバ装置。
JP2023056203A 2021-02-25 2023-03-30 音声制御方法及びサーバ装置 Active JP7515131B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024072276A JP2024109603A (ja) 2021-02-25 2024-04-26 音声制御方法及びサーバ装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2021029247 2021-02-25
JP2021029247 2021-02-25
JP2021576424A JPWO2022180882A1 (ja) 2021-02-25 2021-07-15
PCT/JP2021/026612 WO2022180882A1 (ja) 2021-02-25 2021-07-15 音声制御方法、サーバ装置、及び、発話体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021576424A Division JPWO2022180882A1 (ja) 2021-02-25 2021-07-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024072276A Division JP2024109603A (ja) 2021-02-25 2024-04-26 音声制御方法及びサーバ装置

Publications (2)

Publication Number Publication Date
JP2023089039A JP2023089039A (ja) 2023-06-27
JP7515131B2 true JP7515131B2 (ja) 2024-07-12

Family

ID=83048735

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2021576424A Pending JPWO2022180882A1 (ja) 2021-02-25 2021-07-15
JP2023056203A Active JP7515131B2 (ja) 2021-02-25 2023-03-30 音声制御方法及びサーバ装置
JP2024072276A Pending JP2024109603A (ja) 2021-02-25 2024-04-26 音声制御方法及びサーバ装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021576424A Pending JPWO2022180882A1 (ja) 2021-02-25 2021-07-15

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024072276A Pending JP2024109603A (ja) 2021-02-25 2024-04-26 音声制御方法及びサーバ装置

Country Status (5)

Country Link
US (1) US20230117212A1 (ja)
EP (1) EP4328902A4 (ja)
JP (3) JPWO2022180882A1 (ja)
CN (1) CN115244615A (ja)
WO (1) WO2022180882A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240111645A1 (en) * 2021-04-06 2024-04-04 Panasonic Intellectual Property Management Co., Ltd. Utterance test method for utterance device, utterance test server, utterance test system, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265278A (ja) 2008-04-23 2009-11-12 Konica Minolta Business Technologies Inc 音声出力管理システムおよび音声出力装置
JP2011163778A (ja) 2010-02-04 2011-08-25 Navitime Japan Co Ltd ナビゲーション装置、ナビゲーションシステム、端末装置、ナビゲーションサーバ、ナビゲーション方法、および、プログラム
WO2019087546A1 (ja) 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置及び情報処理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4881934B2 (ja) * 2008-10-30 2012-02-22 株式会社コナミデジタルエンタテインメント ゲーム装置、ゲーム処理方法、ならびに、プログラム
JP2010186028A (ja) * 2009-02-12 2010-08-26 Seiko Epson Corp コマンド送信制御装置、集積回路装置、音再生評価システム及び音再生装置のテスト方法
JP4875766B1 (ja) * 2010-12-09 2012-02-15 株式会社eVOICE 音声データ通信システム
JP6355939B2 (ja) * 2014-02-28 2018-07-11 シャープ株式会社 音声サーバおよびその制御方法、並びに音声システム
JP6509701B2 (ja) * 2015-09-30 2019-05-08 シャープ株式会社 音声配信サーバ、その制御方法、および制御プログラム
JP6660808B2 (ja) * 2016-05-13 2020-03-11 シャープ株式会社 音声出力制御装置、電子機器、および音声出力制御装置の制御方法
WO2019188393A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 情報処理装置、情報処理方法、送信装置、及び送信方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265278A (ja) 2008-04-23 2009-11-12 Konica Minolta Business Technologies Inc 音声出力管理システムおよび音声出力装置
JP2011163778A (ja) 2010-02-04 2011-08-25 Navitime Japan Co Ltd ナビゲーション装置、ナビゲーションシステム、端末装置、ナビゲーションサーバ、ナビゲーション方法、および、プログラム
WO2019087546A1 (ja) 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置及び情報処理方法

Also Published As

Publication number Publication date
US20230117212A1 (en) 2023-04-20
EP4328902A4 (en) 2024-08-21
WO2022180882A1 (ja) 2022-09-01
EP4328902A1 (en) 2024-02-28
JP2023089039A (ja) 2023-06-27
CN115244615A (zh) 2022-10-25
JPWO2022180882A1 (ja) 2022-09-01
JP2024109603A (ja) 2024-08-14

Similar Documents

Publication Publication Date Title
CN111447123B (zh) 一种智慧家居的配置方法、装置、电子设备及介质
US10621980B2 (en) Execution of voice commands in a multi-device system
JP2024109603A (ja) 音声制御方法及びサーバ装置
US10185534B2 (en) Control method, controller, and recording medium
US9698999B2 (en) Natural language control of secondary device
JP2020510898A (ja) スマートデバイスを制御するための方法及び装置
US10044733B2 (en) System and method for controlling a rendering device based upon detected user proximity
JP6619488B2 (ja) 人工知能機器における連続会話機能
JP2020504413A (ja) 人工知能自動話者識別方法を用いる個人カスタマイズ型音声認識サービスの提供方法及びこれに使用されるサービス提供サーバ
CN104837157B (zh) 音箱添加方法、装置、移动终端和智能音箱
JP2018120203A (ja) 情報処理方法及びプログラム
JP6621593B2 (ja) 対話装置、対話システム、及び対話装置の制御方法
JP7456387B2 (ja) 情報処理装置、及び情報処理方法
EP3493200B1 (en) Voice-controllable device and method of voice control
CN113314115A (zh) 终端设备的语音处理方法、终端设备及可读存储介质
WO2020045021A1 (ja) 音声入力装置、その方法、およびプログラム
WO2023013094A1 (ja) 管理装置、管理システム、管理方法、及び、プログラム
CN112187701A (zh) 一种控制方法和装置
JP7466202B2 (ja) サーバ装置、表示装置、及び、表示制御方法
JP7296597B2 (ja) 制御方法、制御装置、及び、プログラム
WO2024116607A1 (ja) 通知システム、通知機器、通知方法、及びプログラム
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
WO2023013093A1 (ja) 音声通知システム、音声通知方法及びプログラム
KR101480064B1 (ko) 단말기들간의 네트워크 형성 서비스 제공방법 및 이를 제공하는 프로그램을 기록한 기록매체
WO2019100352A1 (zh) 音频处理方法及相关产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240621

R150 Certificate of patent or registration of utility model

Ref document number: 7515131

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150