JP2023100618A

JP2023100618A - 発話機器を制御する方法、サーバ、発話機器、およびプログラム

Info

Publication number: JP2023100618A
Application number: JP2023060786A
Authority: JP
Inventors: 沙良浅井; Sara Asai; 悟松永; Satoru Matsunaga; 裕樹占部; Yuki Urabe; 雅博石井; Masahiro Ishii
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2021-04-09
Filing date: 2023-04-04
Publication date: 2023-07-19
Also published as: JP7398683B2; CN115461810A; JPWO2022215284A1; WO2022215284A1

Abstract

【課題】ユーザに与える不快感を低減させ、発話機器の利便性を向上させる発話機器を制御する方法、サーバ、発話機器及びプログラムを提供する。【解決手段】複数の発話機器、複数の情報元装置、外部情報装置及び端末装置が、サーバと通信する構成において発話機器を制御する方法であって、サーバは、情報元装置から発話元情報を受信しＳ１１０、発話元情報に基づいて、発話機器を設定しＳ１２０、発話機器に応じた音源特性を有する発話音源を発話機器に提供しＳ１３０、発話機器に発話音源を用いて発話させるＳ１４０。【選択図】図２

Description

本発明は、発話機器に関し、特に発話機器を制御する方法、サーバ、発話機器、およびプログラムに関する。

家電とは、家庭用電化製品の略称であり、例えば、家庭で使うテレビ、冷蔵庫、空気調和機、洗濯機、掃除ロボット、音響機器、照明、給湯器、インターホンなどの電気器具である。従来では、ビープ音やブザー音を用いて、家電の運転状況をユーザに知らせる。例えば、洗濯機の洗濯が終了するとき、空気調和機が起動されるとき、または冷蔵庫の扉が所定時間以上に完全に閉じていないときには、これらの家電はユーザの注意力を引くようにビープ音を発する。

現在、ビープ音などに代えて、より多くの情報を家電のユーザに伝達するために、人間の言語を含む音声を用いて発話することができる発話機器としての家電が開発されてきた。このような家電は発話家電と呼ばれ、ビープ音の代わりに、例えば、「洗濯が終わりました。」や、「冷蔵庫の扉が閉じていませんよ。」のように発話して、家電に関する情報をユーザに知らせる。

特許第６６４０２６６号明細書

特許文献１には、発話機能を有する家電（被制御装置電子機器）に発話させるメッセージ通知制御システムが開示されている。具体的には、ユーザは端末装置のユーザ意向登録アプリを介して、家電に発話させたい条件を登録する。メッセージ通知制御システムは、家電の状態を検出し、検出する状態が登録された条件を満たす場合（例えば、冷蔵庫が開けている）、家電にメッセージを発話させる。

しかしながら、引用文献１のメッセージ通知制御システムは、家電の状況やユーザの状況に関わらず、同じ条件を満たせば異なる家電にも同様な音源を用いて家電に発話させる。発話する家電に適した音源を提供することに関して、改善の余地があるといえる。

本発明は、発話が聞きやすくなるように、発話機器に適した音源を提供することができる技術の提供を課題とする。

前述した課題を解決するために、本発明は、発話機器を制御する方法、サーバ、発話機器、およびプログラムを提供するものである。

本発明に係る一態様の発話機器を制御する方法は、情報元装置から発話元情報を受信するステップと、発話元情報に基づいて、発話機器を設定するステップと、発話機器に応じた音源特性を有する発話音源を発話機器に提供するステップと、発話機器に発話音源を用いて発話させるステップと、を含む。

また、本発明に係る他の態様の発話機器を制御するサーバは、サーバ記憶部とサーバ制御部とを含む。サーバ記憶部は、発話機器に提供可能な音源を記憶する。サーバ制御部は、情報元装置から発話元情報を受信し、発話元情報に基づいて、発話機器を設定し、発話機器に応じた音源特性を有する発話音源を発話機器に提供し、発話機器に発話音源を用いて発話させるように構成されている。

また、本発明に係る他の態様の発話機器は、発話可能な発話機器であり、機器記憶部と機器制御部とを含む。機器記憶部は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも１つを記憶する。機器制御部は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも１つに基づいて、発話機器に適した音源特性を設定し、設定した音源特性を用いてサーバに問い合わせ、音源特性を有する発話音源をサーバから取得し、発話音源を用いて発話するように構成されている。

また、本発明に係る他の態様のプログラムは、発話機器を制御するサーバと通信する端末または発話機器で使用されるプログラムである。

本発明においては、発話機器を制御する方法、サーバ、および発話機器によれば、発話機器の発話によってユーザに与える不快感を低減することができ、発話機器の利便性を向上することができる。

実施の形態１における発話機器および発話機器を制御するサーバの概略構成を示すブロック図実施の形態１における発話機器を制御する方法の一例のフローチャート実施の形態１における発話機器を制御する方法の一例のシーケンス図実施の形態２におけるステップＳ１３０の一例のフローチャート実施の形態２における発話機器を制御する方法の一例のシーケンス図実施の形態３における発話機器および発話機器を制御するサーバの概略構成を示すブロック図実施の形態３における発話機器を制御する方法の一例のシーケンス図実施の形態４におけるステップＳ１３０の一例のフローチャート実施の形態４における発話機器を制御する方法の一例のシーケンス図実施の形態４における発話機器を制御する方法の一例のフローチャート実施の形態５におけるステップＳ１３０の一例のフローチャート実施の形態５における発話機器を制御する方法の一例のシーケンス図実施の形態６における発話機器を制御する方法の一例のシーケンス図

先ず始めに、発話機器を制御する方法、サーバ、および発話機器の各種態様について説明する。

本発明に係る第１の態様の発話機器を制御する方法は、情報元装置から発話元情報を受信するステップと、発話元情報に基づいて、発話機器を設定するステップと、発話機器に応じた音源特性を有する発話音源を発話機器に提供するステップと、発話機器に発話音源を用いて発話させるステップと、を含む。

本発明に係る第２の態様の発話機器を制御する方法は、第１の態様において、音源特性は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも１つに基づいて設定され得る。

本発明に係る第３の態様の発話機器を制御する方法は、第１または２の態様において、音源特性は、音声データのフォーマット、音色特性、音質特性、音量、および発話内容の少なくとも１つを含んでもよい。

本発明に係る第４の態様の発話機器を制御する方法は、第１～３の態様のいずれか１つにおいて、音源特性はサンプリング周波数を含んでもよい。発話機器の発話性能に応じて、サンプリング周波数が設定され得る。

本発明に係る第５の態様の発話機器を制御する方法は、第１～４の態様のいずれか１つにおいて、音源特性はサンプリング周波数を含んでもよい。サンプリング周波数は、発話機器のスピーカの配置により発話機器に遮られて減衰する周波数成分に応じて設定され得る。

本発明に係る第６の態様の発話機器を制御する方法は、第１～５の態様のいずれか１つにおいて、音源特性は音量を含んでもよい。発話機器とユーザとの距離に応じて、音量が設定され得る。または、発話機器が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量が大きく設定され得る。

本発明に係る第７の態様の発話機器を制御する方法は、第１～６の態様のいずれか１つにおいて、音源特性は、音量、話す速さおよび周波数成分の少なくとも１つを含んでもよい。発話機器の発話対象のユーザの年齢が所定年齢以上であると判断した場合、所定年齢未満であると判断した場合に比べて、音量が大きく設定され、話す速さが遅く設定され、および／または、高い周波数成分が多く含むように設定され得る。

本発明に係る第８の態様の発話機器を制御する方法は、第１～７の態様のいずれか１つにおいて、発話音源を発話機器に提供するステップは、発話機器に応じた音源特性を設定するステップと、設定された音源特性を有する音源を複数の音源から発話音源として選択するステップと、発話機器に発話音源をダウンロードさせるように、発話音源に対応するアクセス先を発話機器に送信するステップと、を含んでもよい。

本発明に係る第９の態様の発話機器を制御する方法は、第１～７の態様のいずれか１つにおいて、発話音源を発話機器に提供するステップは、設定された音源特性を用いる問い合わせを発話機器から受信するステップと、問い合わせにおける音源特性を有する音源を複数の音源から発話音源として選択するステップと、発話機器に発話音源をダウンロードさせるように、発話音源に対応するアクセス先を発話機器に送信するステップと、含んでもよい。

本発明に係る第１０の態様の発話機器を制御する方法は、第１～７の態様のいずれか１つにおいて、発話音源を発話機器に提供するステップは、複数の音源から、音源特性に応じた複数の候補音源を選択するステップと、複数の候補音源に対応するアクセス先を発話機器に送信するステップと、複数の候補音源から選択される発話音源に対応するアクセス先を介して、発話音源を発話機器に提供するステップと、を含んでもよい。

本発明に係る第１１の態様の発話機器を制御するサーバは、サーバ記憶部とサーバ制御部とを含む。サーバ記憶部は、発話機器に提供可能な音源を記憶する。サーバ制御部は、情報元装置から発話元情報を受信し、発話元情報に基づいて、発話機器を設定し、発話機器に応じた音源特性を有する発話音源を発話機器に提供し、発話機器に発話音源を用いて発話させるように構成されている。

本発明に係る第１２の態様の発話機器を制御するサーバは、第１１の態様において、音源特性は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも１つに基づいて設定され得る。

本発明に係る第１３の態様の発話機器を制御するサーバは、第１１の態様または第１２の態様において、音源特性は、音声データのフォーマット、音色特性、音質特性、音量、および発話内容の少なくとも１つを含んでもよい。

本発明に係る第１４の態様の発話機器を制御するサーバは、第１１～１３の態様のいずれか１つにおいて、音源特性はサンプリング周波数を含んでもよい。発話機器の発話性能に応じて、サンプリング周波数が設定され得る。

本発明に係る第１５の態様の発話機器を制御するサーバは、第１１～１４の態様のいずれか１つにおいて、音源特性はサンプリング周波数を含んでもよい。サンプリング周波数は、発話機器のスピーカの配置により発話機器に遮られて減衰する周波数成分に応じて設定され得る。

本発明に係る第１６の態様の発話機器を制御するサーバは、第１１～１５の態様のいずれか１つにおいて、音源特性は音量を含んでもよい。発話機器とユーザとの距離に応じて、音量が設定され得る。または、発話機器が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量が大きく設定され得る。

本発明に係る第１７の態様の発話機器を制御するサーバは、第１１～１６の態様のいずれか１つにおいて、音源特性は、音量、話す速さおよび周波数成分の少なくとも１つを含んでもよい。発話機器の発話対象のユーザの年齢が所定年齢以上であると判断した場合、所定年齢未満であると判断した場合に比べて、音量が大きく設定され、話す速さが遅く設定され、および／または、高い周波数成分が多く含むように設定され得る。

本発明に係る第１８の態様の発話機器を制御するサーバは、第１１～１７の態様のいずれか１つにおいて、サーバ制御部は、発話音源を発話機器に提供するときには、発話機器に応じた音源特性を設定し、設定した音源特性を有する音源を複数の音源から発話音源として選択し、発話機器に発話音源をダウンロードさせるように、発話音源に対応するアクセス先を発話機器に送信するようにさらに構成され得る。

本発明に係る第１９の態様の発話機器を制御するサーバは、第１１～１７の態様のいずれか１つにおいて、サーバ制御部は、発話音源を発話機器に提供するときには、設定された音源特性を用いる問い合わせを発話機器から受信し、問い合わせにおける音源特性を有する音源を複数の音源から発話音源として選択し、発話機器に発話音源をダウンロードさせるように、発話音源に対応するアクセス先を発話機器に送信するようにさらに構成され得る。

本発明に係る第２０の態様の発話機器を制御するサーバは、第１１～１７の態様のいずれか１つにおいて、サーバ制御部は、発話音源を発話機器に提供するときには、複数の音源から、音源特性に応じた複数の候補音源を選択し、複数の候補音源に対応するアクセス先を発話機器に送信し、複数の候補音源から選択される発話音源に対応するアクセス先を介して、発話音源を発話機器に提供するようにさらに構成され得る。

本発明に係る第２１の態様の発話機器は、発話可能な発話機器であり、機器記憶部と機器制御部とを含む。機器記憶部は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも１つを記憶する。機器制御部は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも１つに基づいて、発話機器に適した音源特性を設定し、設定した音源特性を用いてサーバに問い合わせ、音源特性を有する発話音源をサーバから取得し、発話音源を用いて発話するように構成されている。

本発明に係る第２２の態様のプログラムは、第１１～２０の態様のいずれか１つにおける発話機器を制御するサーバと通信する端末、または、第２１の態様における発話機器で使用されるプログラム

《実施の形態１》
以下、本発明に係る発話機器を制御する方法、サーバ、発話機器、およびプログラムの実施の形態１について、適宜図面を参照しながら詳細に説明する。

以下で説明する実施の形態１は、本発明の一例を示すものである。以下の実施の形態１において示される数値、形状、構成、ステップ、およびステップの順序などは、一例を示すものであり、本発明を限定するものではない。以下の実施の形態１における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

以下に述べる実施の形態１において、特定の要素に関しては変形例を示す場合があり、その他の要素に関しては任意の構成を適宜組み合わせることを含むものであり、組み合わされた構成においてはそれぞれの効果を奏するものである。実施の形態１において、それぞれの変形例の構成をそれぞれ組み合わせることにより、それぞれの変形例における効果を奏するものとなる。

以下の詳細な説明において、「第１」、「第２」などの用語は、説明のためだけに用いられるものであり、相対的な重要性または技術的特徴の順位を明示または暗示するものとして理解されるべきではない。「第１」と「第２」と限定されている特徴は、１つまたはさらに多くの当該特徴を含むことを明示または暗示するものである。

図１は、実施の形態１における発話機器および発話機器を制御するサーバの概略構成を示すブロック図である。発話機器を制御するサーバ１０（「サーバ１０」と略称してもよい。）は、少なくとも１つの発話可能な発話機器２０と通信可能である。また、サーバ１０は、端末装置３０とも通信可能であり、端末装置３０を介してユーザから発話機器２０に対する指令を受けて、当該指令に基づいて発話機器２０を制御してもよい。サーバ１０は、少なくとも１つの情報元装置４０または少なくとも１つの外部情報源５０から情報を受信し、受信した情報に基づいて発話機器２０に発話させてもよい。以下、各構成要素の概略を説明する。

＜発話機器２０＞
発話機器２０は、発話機能を有する機器である。実施の形態１の発話機器２０は、発話機能を有する家電（発話家電）を含む。家電とは、家庭用電化製品の略称である。発話機器２０は、家庭で用いられる電子機器であれば任意の種類の機器であってもよく、例えば、家庭で使うテレビ、冷蔵庫、空気調和機、洗濯機、掃除ロボット、音響機器、照明、給湯器、インターホン、ペットカメラ、スマートスピーカなどの電気器具が含まれる。発話機器２０は、「民生用発話機器」、「発話家電」と称してもよい。発話機能とは、スピーカを用いて人間の言語を含む音声を発する機能という。発話機能は、人間の言語を含まない、ビープ音、ブザー音、アラーム等の音のみを発声する機能とは異なり、人間の言語を用いてより多くの情報をユーザに伝達することができる。発話家電としての発話機器２０はそれぞれの家電機能を発揮するように構成されている。例えば、空気調和機である発話機器２０は、圧縮機と熱交換器と室内温度センサとを含み、制御空間において冷房、暖房、および除湿の機能を発揮するように構成されている。また、例えば、掃除ロボットである発話機器２０は、バッテリと集塵機構と移動機構と物体検知センサとを含み、移動可能な範囲内で移動しながら掃除するように構成されている。

図１の実施例において、発話機器２０は、機能を発揮するための情報を記憶する機器記憶部２１（家電記憶部）と、発話機器２０全体を制御する機器制御部２２（家電制御部）と、サーバ１０または端末装置３０と通信可能な機器通信部２３（家電通信部）と、発話するためのスピーカ２４とを含む。発話機器２０は、機能を発揮するために様々なセンサ２５を少なくとも１つ含んでもよい。発話機器２０は、視覚的な情報をユーザに表示するためのディスプレイを含んでもよい。なお、本開示においては、この例示の発話機器２０について説明するが、他の発話機器２０において同様の構成としてもよい。

機器記憶部２１は、種々の情報や制御プログラムを記録する記録媒体であり、機器制御部２２の作業領域として機能するメモリであってもよい。機器記憶部２１は、例えば、フラッシュメモリ、ＲＡＭ、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。機器記憶部２１は、発話用の音声データまたは映像データを記憶してもよい。発話用の音声データまたは映像データは、発話機器２０の出荷前に記憶させるものであってもよく、販売者または家庭内のユーザの指令に基づいて他の記憶媒体から読み込むものであってもよく、販売者またはユーザの指令に基づいてインターネットを介してダウンロードするものであってもよい。また、以下の説明では、音声データを「音源」に略称することがある。

機器制御部２２は、発話機器２０全体の制御を司るコントローラである。機器制御部２２は、プログラムを実行することにより所定の機能を実現するＣＰＵ、ＭＰＵ、ＦＰＧＡ、ＤＳＰ、ＡＳＩＣのような汎用プロセッサを含む。機器制御部２２は、機器記憶部２１に格納された制御プログラムを呼び出して実行することにより、発話機器２０における各種の制御を実現することができる。また、機器制御部２２は機器記憶部２１と協働して、機器記憶部２１に記憶されたデータを読み取り／書き込みを行うことができる。機器制御部２２は、ハードウェアとソフトウェアの協働により所定の機能を実現するものに限定されず、所定の機能を実現する専用に設計されたハードウェア回路でもよい。

機器制御部２２は、設定ユーザインタフェースを介してユーザによる様々な設定値（例えば、空気調和機の設定温度、テレビの表示チャネル、掃除ロボットの掃除時間）を受信することができる。機器制御部２２は、これらの設定値および様々なセンサ２５から受信した検出値（例えば、室内温度、物体の有無）などに基づいて、発話機器２０の家電機能を発揮するように発話機器２０の各部品を制御する。機器制御部２２は、サーバ１０または端末装置３０から指令を受信して、当該指令にしたがって発話機器２０を制御してもよい。また、機器制御部２２は、後述する発話機器を制御する方法に基づいて、サーバ１０からの指令にしたがって発話を行う。

機器通信部２３は、サーバ１０やユーザの端末装置３０等と通信することもでき、例えば、インターネットパケットを送受信することもできる。機器制御部２２は、機器通信部２３を介してサーバ１０と協働するとき、インターネットを介してサーバ１０から発話に関するパラメータ値または指令を受信することできる。

スピーカ２４は、機器制御部２２が指定する音声データを用いて、電気信号を音響信号に変換し、音波として空間に放射するものである。スピーカ２４は音声インタフェースを介して機器制御部２２と通信してもよい。スピーカ２４は、発話機器２０の種類等に基づいて適宜に設けられ得る。例えば、テレビである発話機器２０において、スピーカ２４はテレビの正面の両側に設けられ得る。掃除ロボットである発話機器２０において、スピーカ２４は掃除ロボットのハウジング内に設けられ得る。それぞれの発話機器２０のスピーカ２４は異なる規格や発話能・発声力を有してもよい。例えば、テレビのスピーカ２４は比較的に高い発話・発声能力を有するが、洗濯機のスピーカ２４は比較的に低い発話・発声能力を有してもよい。本開示はスピーカ２４の発話・発声能力について制限しない。

発話機器２０は、ディスプレイを含む場合がある。ディスプレイは、視覚的な情報をユーザに表示するためのものである。ディスプレイは、例えば、テレビのスクリーンのように綺麗な映像を表示するために解像度が高いものであってもよく、洗濯機や電子レンジにおいて設定用のユーザインタフェース（ｕｓｅｒｉｎｔｅｒｆａｃｅ、ＵＩ）を表示するための、解像度が低いパネルディスプレイであってもよい。本開示はディスプレイの表示能力について制限しない。また、ディスプレイは表示機能を有するタッチパネルであってもよい。

センサ２５は、発話機器２０の機能を発揮するために発話機器２０の外部から様々な情報を取得するためのものである。例えば、センサ２５は、空気調和機が設けられた部屋内部の温度を検出する室内温度センサ、空気調和機が設けられた部屋の外の温度を検出する室外温度センサ、掃除ロボットの前方に物体の有無を検出する物体センサ、冷蔵庫の扉が完全に閉じているか否かを検出する開閉センサなどであってもよい。センサ２５にて検出された情報は、機器記憶部２１に入力されて記憶され、後に機器制御部２２が利用したり、端末装置３０またはサーバ１０に送信されたりする。

＜端末装置３０＞
端末装置３０は、発話機器２０に関連する装置である。端末装置３０は、例えば、発話機器２０のコントローラであってもよく、複数種類の家電製品を同時に管理・制御できるコントローラであってもよい。また、端末装置３０は、発話機器２０との間でデータ通信を行うことができる情報端末、例えば、専用の関連アプリケーション３２が組み込まれたスマートフォン、携帯電話、モバイルフォン、タブレット、ウェアラブル装置、コンピュータなどであってもよい。サーバ１０または機器制御部２２は、端末装置３０を介してユーザが入力した設定または指令を取得することができる。一般的には、端末装置３０はグラフィックユーザインタフェース（ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ、ＧＵＩ）を表示するためのディスプレイを含む。ただ、音声ユーザインタフェース（ｖｏｉｃｅＵｓｅｒＩｎｔｅｒｆａｃｅ、ＶＵＩ）を介してユーザと相互作用する場合、ディスプレイの代わりに、またはディスプレイに加えて、端末装置３０はスピーカとマイクとを含んでもよい。なお、端末装置３０を介さなくても、サーバ１０は発話機器を制御する方法を実行することができる。

＜情報元装置４０＞
情報元装置４０は、発話機器２０が発話する内容に関連する情報源である。情報元装置４０は、発話機器２０が設けられた家庭内の別の機器（家電）であってもよい。情報元装置４０が別の家電である場合、本開示では、情報元装置４０は情報元装置とも呼ばれる。情報元装置は発話機器２０であってもよく、発話機能を有しない家電であってもよい。情報元装置は、その運転状態などの機器情報を含む発話元情報をサーバ１０に送信し、サーバ１０は、受信した発話元情報に基づいて発話内容を設定してもよい。発話元情報の例としては、例えば、情報元装置の起動状態、運転モード、異常情報、現在位置、発話対象のユーザ、最寄りのユーザなどが挙げられる。

＜外部情報源５０＞
外部情報源５０は、発話機器と直接的に関わらないサービスに関する情報、例えば、気象情報や、宅配便の配送状況に関する情報を提供する情報源である。サーバ１０は、外部情報源５０から取得する情報に基づいて、発話内容を設定してもよい。

＜サーバ１０＞
サーバ１０は、少なくとも１つの発話機器２０を制御するサーバである。さらに具体的にいうと、サーバ１０は、少なくとも１つの発話機器２０に対して、人間の言語を含む音声データまたは映像データを用いて発話させるように制御する。１つの実施例において、サーバ１０は、インターネットを経由して少なくとも１つの発話機器２０に接続して発話を制御することができる。同じ家庭に設けられた複数の発話機器２０に対して、サーバ１０は一度にこれらの複数の発話機器を制御することができる。

サーバ１０は、後述する発話機器を制御する方法の実行以外、他の目的に用いられてもよい。例えば、サーバ１０は、少なくとも１つの発話機器２０を管理するため、またはデータを収集するための発話機器２０の製造会社の管理サーバであってもよい。または、サーバ１０は、アプリケーションサーバであってもよい。実施の形態１において、サーバ１０は、サーバ記憶部１２と、サーバ制御部１４とを含む。サーバ１０は、発話機器２０、端末装置３０、情報元装置４０、または外部情報源５０と通信するためのサーバ通信部１６をさらに含んでもよい。

＜サーバ記憶部１２＞
サーバ記憶部１２は、種々の情報や制御プログラムを記録する記録媒体であり、サーバ制御部１４の作業領域として機能するメモリであってもよい。サーバ記憶部１２は、例えば、フラッシュメモリ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｅｖｉｃｅ）、ハードディスク、ＲＡＭ、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。サーバ記憶部１２は、サーバ１０内部のメモリであってもよく、サーバ１０と無線通信または有線通信にて接続されているストレージ装置であってもよい。

サーバ記憶部１２は、発話用の音声データまたは映像データを記憶する。様々な発話用の音声データまたは映像データは、発話制御の対象となる発話機器２０の種類、発話機器２０の家電情報を含む発話元情報、情報元装置４０の種類、外部情報源５０の種類、情報元装置４０または外部情報源５０から取得した情報などに応じて生成され得る。１つの実施例において、サーバ１０は、発話機器２０に発話させる前に、発話用の音声データまたは映像データを事前に生成してサーバ記憶部１２に記憶させる。別の実施例において、サーバ１０は、発話させる直前に発話用の音声データまたは映像データを動的（実行時）に生成してサーバ記憶部１２に記憶させる。サーバ記憶部１２は、これらの音声データもしくは映像データを生成するための素材データ、または途中のデータを記憶してもよい。

＜サーバ制御部１４＞
サーバ１０のサーバ制御部１４は、サーバ１０全体の制御を司るコントローラである。サーバ制御部１４は、プログラムを実行することにより所定の機能を実現するＣＰＵ、ＭＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰ、ＡＳＩＣのような汎用プロセッサを含む。サーバ制御部１４は、サーバ記憶部１２に格納された制御プログラムを呼び出して実行することにより、サーバ１０における各種の制御を実現することができる。また、サーバ制御部１４は、サーバ記憶部１２と協働してサーバ記憶部１２に記憶されたデータを読み取り／書き込みを行うことができる。サーバ制御部１４は、ハードウェアとソフトウェアの協働により所定の機能を実現するものに限定されず、所定の機能を実現する専用に設計されたハードウェア回路でもよい。

＜サーバ通信部１６＞
サーバ通信部１６は、サーバ制御部１４と協働して、発話機器２０や、端末装置３０、情報元装置４０、外部情報源５０等とインターネットパケットを送受信する、すなわち、通信することもできる。例えば、サーバ１０は、サーバ通信部１６を介して端末装置３０から指令を受信してもよく、発話機器２０に対して指示を送信してもよく、情報元装置４０または外部情報源５０から情報を受信してもよい。サーバ通信部１６または機器通信部２３は、サーバ１０と、発話機器２０と、端末装置３０と、情報元装置４０と、外部情報源５０との間において、Ｗｉ－Ｆｉ（登録商標）、ＩＥＥＥ８０２．２、ＩＥＥＥ８０２．３、３Ｇ、ＬＴＥ等の規格にしたがい通信を行い、データの送受信を行ってもよい。インターネットの他、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網、電話回線網、移動体通信網、衛星通信網等、赤外線、ブルートゥース（登録商標）と通信してもよい。

＜発話機器を制御する方法＞
サーバ１０は、サーバ記憶部１２およびサーバ制御部１４を用いて、発話機器２０を制御する方法を実行する。当該方法は、ユーザによって発話が聞きやすいように、発話機器２０に応じた音源特性を有する発話音源を用いて発話機器２０に発話させる。図２は、実施の形態１における発話機器を制御する方法のフローチャートであり、発話機器を制御する方法は以下のステップＳ１１０～ステップＳ１４０を含む。図３は、実施の形態１における発話機器を制御する方法の一例のシーケンス図である。

サーバ１０のサーバ制御部１４は、情報元装置４０から発話元情報を受信する（ステップＳ１１０）。例えば、例えば、サーバ制御部１４は、情報元装置４０の起動状態、運転モード、異常情報、現在位置、発話対象のユーザ、最寄りのユーザなどの発話元情報を受信してもよい。そして、サーバ制御部１４は、発話元情報に基づいて、発話機器２０を設定する（ステップＳ１２０）。

１つの実施例において、サーバ記憶部１２は、発話機能が起こされ得る発話条件と、発話条件が対応するシナリオとを含む照合表を記憶する。それぞれのシナリオは、シナリオ識別子、シナリオ種類、シナリオ名称、発話内容、発話すべき発話機器２０などを含んでもよい。また、それぞれのシナリオは、発話優先度、再実行有無、再実行間隔、再実行回数上限などを含んでもよい。サーバ制御部１４は、受信した発話元情報をそれぞれの発話条件と照合し、発話条件を満たしているか否かを判断する。サーバ制御部１４は、このような照合によって、当該発話元情報に対応する条件およびシナリオを取得することができる。

なお、ユーザ入力に基づいて、サーバ制御部１４は、特定のシナリオと特定の発話機器２０とを紐付けてもよい。あるシナリオの発話条件が満たされれば、サーバ制御部１４は、当該シナリオに紐付けられた発話機器２０に発話させてもよい。また、サーバ制御部１４は、特定の情報元装置４０と特定の発話機器２０とを紐付けてもよい。サーバ制御部１４は、ある情報元装置４０からの発話元情報に基づいて発話することと判断した場合、当該情報元装置４０に紐付けられた発話機器２０に発話させてもよい。

例えば、ユーザ入力に基づいて、「洗濯機」の情報元装置４０と、「ペットカメラ」の発話機器２０と紐付けられ得る。サーバ制御部１４は、「洗濯機」から洗濯が終了したとの情報を受信する場合、「洗濯が終わりました。」という発話内容を、「ペットカメラ」の対象機器に発話させてもよい。

１つの実施例において、サーバ制御部１４は、ステップＳ１１０において、外部情報源５０から外部情報を受信する。ステップＳ１２０において、外部情報に基づいて、または、発話元情報と外部情報ともに基づいて、発話機器を設定する。例えば、サーバ制御部１４は、「洗濯機」の情報元装置４０から洗濯が終了したとの情報を受信し、さらに外部情報源５０から雨の予報との情報を受信する場合、「洗濯が終わりました。この後天気が崩れる予報です。」という発話内容を「ペットカメラ」の対象機器に発話させしてもよい。

次に、サーバ制御部１４は、後述するように、発話機器２０に応じた音源特性を有する発話音源を発話機器２０に提供する（ステップＳ１３０）。次いでサーバ制御部１４は、発話機器２０に発話音源を用いて発話させる（ステップＳ１４０）。１つの実施例において、サーバ制御部１４は、サーバ記憶部１２に記憶された発話音源を、発話機器２０にサーバ記憶部１２からダウンロードさせることによって、発話音源を発話機器２０に提供する。

より具体的には、サーバ制御部１４は、発話機器２０の種類、発話機器２０の識別子、発話機器２０の発話性能、発話機器２０の稼働状態、発話機器２０の設置場所、および発話機器２０とユーザとの距離のうちの少なくとも１つに基づいて音源特性を設定してもよい。また、サーバ１０は、発話機器２０のユーザのユーザ情報、および発話機器２０のスピーカ２４の配置のうちの少なくとも１つに基づいて音源特性を設定してもよい。

音源特性は、音声データのフォーマット（例えば、ＷＡＶ、ＭＰ３、ＡＡＣ，ＭＰＥＧ－４、ＦＬＡＣ）、音色特性、音質特性、音量、および発話内容の少なくとも１つを含んでもよい。

音色特性は、音声キャラクタの性別、年齢、声質種類（例えば、高め、低め、クリアボイス、ハスキーボイス）、話す速さ（例えば、遅め、通常）、および周波数成分（例えば、通常、高い周波数成分が多め、低い周波数成分が多め）の少なくとも１つを含んでもよい。１つの実施例において、音声キャラクタとは、音声合成（Ｔｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ（ＴＴＳ）とも呼ばれる）において発話するキャラクタと指す。音声データに自然人の発声が採用される場合、音声キャラクタは発声する自然人と指す。なお、本開示における周波数成分は特に可聴域内の周波数成分を指す。

音質特性は、サンプリング周波数（例えば、８ｋＨｚ、１６ｋＨｚ、３２ｋＨｚ、４８ｋＨｚ、高サンプリング周波数、中サンプリング周波数、低サンプリング周波数）およびサンプリングビット数（例えば、８ビット、１６ビット、２４ビット、量子化ビット数とも呼ばれる）の少なくとも１つを含んでもよい。

発話内容は、テキスト、言語（例えば、日本語、英語）、およびシナリオ種類の少なくとも１つを含んでもよい。

以下、様々な事例を用いて、サーバ制御部１４がどのように発話機器に２０応じた音源特性を設定するかについて説明する。

＜事例１＞
事例１において、音源特性はサンプリング周波数を含む。サーバ制御部１４は、発話機器２０の発話性能に応じて、サンプリング周波数を設定する。例えば、仮に「スマートスピーカ」の発話機器２０の発話性能が８ｋＨｚのサンプリング周波数のみに対応可能な場合、サーバ制御部１４はサンプリング周波数を「８ｋＨｚ」または「低」に設定する。一方、仮に「掃除ロボット」の発話機器２０の発話性能が１６ｋＨｚのサンプリング周波数まで対応可能な場合、サーバ制御部１４は、発話を聞きやすいように、「スマートスピーカ」に設定するサンプリング周波数よりも、サンプリング周波数を高く設定する。この場合、サーバ制御部１４は、サンプリング周波数を「１６ｋＨｚ」または「中」に設定する。なお、発話機器２０の種類または識別子からその発話性能が特定できる場合、サーバ制御部１４は、発話機器２０の種類または識別子に応じて、サンプリング周波数を設定してもよい。

＜事例２＞
事例２において、音源特性はサンプリング周波数を含む。サーバ制御部１４は、発話機器２０のスピーカ２４の配置によって、サンプリング周波数に対して細部の修正を行うことができる。発話機器２０のスピーカ２４が発話機器２０の筐体の内部に含まれるという配置の場合、特定の周波数成分は当該筐体に遮られて減衰することがある。サーバ制御部１４は、発話機器２０の種類、識別子（製品番号）、または名称に基づいて、当該発話機器２０のスピーカ２４の配置を判断してもよい。サーバ制御部１４は、スピーカ２４が遮られた配置であると判断した場合、サンプリング周波数を、発話機器２０のスピーカ２４の配置により発話機器２０に遮られて減衰する周波数成分に応じて設定する。より具体的には、発話機器２０の筐体に遮られて減衰する周波数成分を補償するように、例えば、当該周波数成分が多く含まれるように、サンプリング周波数を設定してもよい。

また、サーバ制御部１４は、スピーカ２４の配置によって、他の音源特性を設定してもよい。例えば、「冷蔵庫」や「洗濯機」の発話機器２０のスピーカ２４は概ね、発話機器２０の外部に設置されている、一方、「掃除ロボット」の発話機器２０は、その外部が障害物やゴミに接触する可能性が高いため、スピーカ２４はハウジング内部に設置されていることが好ましい。スピーカ２４の設置位置が発話機器の内部である場合、設置位置が外部である場合に比べて、発声がハウジングに部分的に遮断されて聞きにくくなる場合があるので、音量を上げる方が好ましい。発話をより聞きやすくするために、サーバ制御部１４は、スピーカ２４を内蔵した「掃除ロボット」の発話機器２０に対して、「冷蔵庫」や「洗濯機」の発話機器２０に設定されるサンプリング周波数よりも相対的に高いサンプリング周波数を設定してもよく、例えば、サンプリング周波数を「１６ｋＨｚ」または「中」に設定する。

＜事例３＞
事例３において、音源特性は音量を含む。発話機器２０は、人感センサ、ブルートゥース接続、ＧＰＳ技術などによってユーザとの距離を取得し、サーバ１０に送信する。サーバ制御部１４は、発話機器２０とユーザとの距離に応じて、音量を設定する。サーバ制御部１４は、発話機器２０とユーザとの距離が大きいほど、音量を大きく設定してもよく、これによりユーザは発話が聞こえやすくなる。例えば、１メートルと３メートルという２つの距離閾値が設けられ、サーバ制御部１４は、発話機器２０とユーザとの距離が、１メートル未満、１メートル以上かつ３メートル未満、３メートル以上であるとき、音量を「小」、「中」、「大」にそれぞれに設定する。

あるいは、発話機器２０は、発話機器２０自体が稼働状態であるかをサーバ１０に送信し、サーバ制御部１４は、発話機器２０が稼働中であるか否かに応じて音量を設定してもよい。具体的には、発話機器２０は稼働している間に定期的に稼働状態であることをサーバ１０に通知する。サーバ制御部１４は、当該通知によって発話機器２０が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量を大きく設定する。一般的に、発話機器２０は稼働中に稼働音を発するため、音量を相対的に大きく設定することが好ましい。例えば、サーバ制御部１４は、発話機器２０が待機中または充電中であると判断した場合、音量を「中」に設定し、稼働状態であると判断した場合、音量を「大」に設定する。

＜事例４＞
事例４において、音源特性は、音量、話す速さおよび周波数成分の少なくとも１つを含む。サーバ制御部１４は、発話機器２０の発話対象のユーザに応じてこれらの音源特性を設定してもよい。１つの実施例において、サーバ制御部１４は、サーバ記憶部１２に記憶された照合表によって、発話機器２０が特定のユーザと紐付けられているか否か（すなわち、発話機器２０に対して特定のユーザが登録されているか否か）を判断する。サーバ制御部１４は、紐付けられたユーザがいると判断した場合、当該ユーザを発話対象のユーザにする。別の実施例において、発話機器２０は、人感センサ、ブルートゥース接続、ＧＰＳ技術などによって最寄りのユーザを特定し、当該ユーザに関する情報をサーバ１０に送信する。サーバ制御部１４は、当該最寄りのユーザを発話対象のユーザにする。

サーバ制御部１４は、発話機器２０の発話対象のユーザの年齢に応じて、音量、話す速さおよび／又は周波数成分を設定する。具体的には、サーバ制御部１４は、発話機器２０の発話対象のユーザの年齢が所定年齢以上であると判断した場合、所定年齢未満であると判断した場合に比べて、音量を大きく設定し、話す速さを遅く設定し、および／または、高い周波数成分を多く含むように設定する。一般的に、年齢の高いユーザに対しては、音量を上げたり、話す速さを遅くしたり、周波数を高くした方が、聞きやすくなる。例えば、ユーザが所定年齢未満、例えば、７０歳未満であると判断した場合、サーバ制御部１４は、音量を「中」に設定し、話す速さおよび周波数成分を「通常」に設定する。一方、特定された発話対象のユーザが所定年齢以上、例えば、７０歳以上であると判断した場合、所定年齢以上のユーザでも発話がよく聞こえるように、サーバ制御部１４は、音量を「中」に設定し、話す速さを「遅め」に設定し、周波数成分を「高い周波数成分が多め」に設定する。

＜事例５＞
サーバ制御部１４は、発話機器２０の設置場所に基づいて、音源特性を設定してもよい。例えば、発話機器２０の設置場所が、浴室や脱衣室などのユーザの滞在する時間が比較的に少ない場所である場合、ユーザとの距離が大きいことが多いため、聞きやすくするように、音量を大きく設定したり、高い周波数成分を多めに設定したりしてもよい。

＜発話機器を制御するサーバ１０と通信する端末で使用されるプログラム＞
サーバ１０と通信する端末、例えば、発話機器２０は、上述したような制御方法を実行するために使用されるプログラムを有する。

発話制御を実行するためのプログラムが発話機器２０に使用される場合、当該プログラムは、機器記憶部２１に記憶される。機器制御部２２は当該プログラムを実行することによって、サーバ１０によって提供される発話音源を用いて発話し、発話制御の機能を実現する。

これにより、サーバ制御部１４は発話制御の処理が完了する。サーバ制御部１４は、発話機器２０やユーザに関する様々な情報に基づいて、発話機器２０に応じた音源特性を設定する。例えば、音色特性または音質特性を通常より高く設定することによって、発話機器２０の発話をより聞きやすくにすることができる。あるいは、ユーザにとってより聞きやすい発話内容を設定することによって、発話機器２０の発話をより聞きやすくにすることもできる。

《実施の形態２》
＜サーバ１０が音源特性を設定する場合＞
実施の形態２において、サーバ１０は、発話機器２０に応じた音源特性を設定し、設定した音源特性を有する発話音源を発話機器２０にダウンロードさせることによって、発話音源を提供する。

図４は、実施の形態２におけるステップＳ１３０の一例のフローチャートでる。図５は、実施の形態２における発話機器を制御する方法の一例のシーケンス図である。サーバ制御部１４は、ステップＳ１２０（図２）で設定した発話機器２０に応じた音源特性を設定する（ステップＳ２１０）。サーバ制御部１４は、実施の形態１のように、発話機器２０の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、ユーザ情報、ならびにスピーカ２４の配置のうちの少なくとも１つに基づいて音源特性を設定してもよい。

サーバ制御部１４は、設定した音源特性を有する音源を複数の音源から発話音源として選択する（ステップＳ２２０）。１つの実施例において、サーバ制御部１４は、すでにサーバ記憶部１２に記憶された複数の音源から発話音源を選択する。別の実施例において、サーバ制御部１４は、設定した音源特性に応じた音源を動的に生成し、生成した当該音源を発話音源として選択する。

次に、サーバ制御部１４は、発話機器２０に発話音源をダウンロードさせるように、発話音源に対応するアクセス先、例えば、発話音源に対応するＵＲＬ（ｕｎｉｆｏｒｍｒｅｓｏｕｒｃｅｌｏｃａｔｏｒ、統一資源位置指定子）を発話機器２０に送信する（ステップＳ２３０）。発話機器２０は、受信したアクセス先を用いて発話音源をダウンロードして発話する。

以下、ＵＲＬをアクセス先として利用される例示を用いて、発話音源の提供について説明する。１つの実施例において、サーバ制御部１４は、発話条件となる情報元装置４０の種類、シナリオ、発話キャラクタ、音質（サンプリング周波数など）、音源のフォーマット、サーバ記憶部１２における音源の記憶位置、音源のバージョン、などに基づいて、ＵＲＬを設定してもよい。一例として、ＵＲＬは「ｈｔｔｐｓ：／／ｓｅｒｖｅｒＵＲＬ／ｖ１／ｄｅｖｉｃｅＴｙｐｅ／ｓｃｅｎａｒｉｏＩｄ／ｓｃｅｎａｒｉｏＩｄ＿ｃｈａｒａｃｔｅｒＮａｍｅ＿ｖｏｉｃｅＱｕａｌｉｔｙ．ｅｘｔｅｎｓｉｏｎ」という形式にしたがって設定され得る。例えば、「洗濯機」の情報元装置４０に関するシナリオに用いられ、「Ｍｉｚｕｋｉ」という発話キャラクタかつ低サンプリング周波数で作成された音源に対応するＵＲＬは、「ｈｔｔｐｓ：／／ｓｅｒｖｅｒＵＲＬ／ｖ１／ｗａｓｈｅｒＤｒｙｅｒ／ｗａｓｈｅｒＤｒｙｅｒ．ｄｒｙｉｎｇＦｉｎｉｓｈｅｄ／ｗａｓｈｅｒＤｒｙｅｒ．ｄｒｙｉｎｇＦｉｎｉｓｈｅｄ＿Ｍｉｚｕｋｉ＿ｌｏｗ．ｗａｖ」と設定される。

発話音源に設定され得る様々な音源をサーバ１０に記憶しておき、発話機器２０が発話の直前に発話音源をダウンロードさせることによって、サーバ１０では、音源を更新しやすくなる。すなわち、サーバ１０は、記憶している音源を更新したり、発話音源を動的に生成したりでき、柔軟に発話音源を提供することができる。

別の実施例において、サーバ制御部１４は発話音源そのものを発話機器２０に送信することによって、発話音源を提供する。さらに別の実施例において、機器記憶部２１には様々な音源特性に対応する音声データがすでに記憶され、サーバ制御部１４は設定した音源特性を発話機器２０に送信する。発話機器２０は受信する音源特性に基づいて対応する音声データを選択して発話する。

実施の形態２の発話機器を制御する方法、サーバ、発話機器、およびプログラムによれば、発話機器に応じてユーザにとって聞きやすい音源特性を設定することができるとともに、容易にかつ柔軟に発話音源を提供することができる。

《実施の形態３》
＜サーバ１０が複数のサーバによって構成されている場合＞
実施の形態３において、サーバ１０は、異なる役割を持つ複数のサーバによって構成されている。

図６は、実施の形態３における発話機器および発話機器を制御するサーバの概略構成を示すブロック図である。実施の形態３において、サーバ１０は、発話指示サーバ１０ａと音源サーバ１０ｂとを含む。発話指示サーバ１０ａは、サーバ記憶部１２ａとサーバ制御部１４ａとサーバ通信部１６ａとを含む。

音源サーバ１０ｂは、サーバ記憶部１２ｂとサーバ制御部１４ｂとサーバ通信部１６ｂとを含む。音源サーバ１０ｂは、発話機器を制御する方法において、発話用の音声データ（音源）の生成、記憶およびダウンロードに関する動作を行う。一方、発話指示サーバ１０ａは、残る動作、例えば、発話機器２０と端末装置３０との通信を行う。

図７は、図６に示された構成によって実行され、実施の形態３における発話機器を制御する方法の一例のシーケンス図である。発話指示サーバ１０ａは、情報元家電４０から発話元情報を受信し、発話機器２０および音源特性を設定し、発話音源を選択し、発話機器２０に発話指示を送信する。図７の実施例において、発話音源は音源サーバ１０ｂのサーバ記憶部１２ｂに記憶されており、発話指示は当該音源をダウンロードするためのＵＲＬ（「ＤＬ用ＵＲＬ」）を含む。発話機器２０は発話指示を受信すると、ＤＬ用ＵＲＬに基づいて音源サーバ１０ｂから発話音源をダウンロードし、発話音源で発話する。

これにより、サーバ１０におけるそれぞれのサーバの処理負担を低減することができる。また、サーバ１０におけるそれぞれは担当分の動作を行うための構成だけがあればよく、例えば、発話指示サーバ１０ａは音源生成のためのハードウェアを含まなくてもよい。この構成によって、サーバ１０全体の維持および保守が容易になる。

なお、図６および図７と別の観点でサーバ１０の機能を複数のサーバに分担させてもよい。例えば、サーバ１０は、発話指示サーバと音源生成サーバと音源配信サーバとを含んでもよい。この場合、音源生成サーバが生成する発話音源は音源配信サーバのサーバ記憶部に記憶され、発話機器２０によってダウンロードされる。

《実施の形態４》
＜発話機器２０が音源特性を設定する場合＞
実施の形態４において、発話機器２０が音源特性を設定し、設定した音源特性を有する音源をサーバ１０に問い合わせる（要求する）。サーバ制御部１４は、発話機器２０からの問い合わせに基づく音源特性を有する発話音源選択し、選択した発話音源を発話機器２０に提供する。

図８は、実施の形態４における、サーバ１０が行うステップＳ１３０の一例のフローチャートである。図８におけるステップＳ３１０～ステップＳ３３０は、ステップＳ１３０の１つの具体例である。図９は、実施の形態４における発話機器を制御する方法の一例のシーケンス図である。サーバ制御部１４は、後述するように、図８および図９に示されたフローで発話音源を発話機器２０に提供する。

図１０は、実施の形態４における、発話機器２０が行う方法の一例のフローチャートである。発話機器２０の機器記憶部２１は、上述した発話機器２０の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器２０のユーザのユーザ情報、ならびに発話機器２０のスピーカ２４の配置のうちの少なくとも１つを記憶する。発話機器２０の機器制御部２２は、図１０のフローチャートを実行するように構成されている。

発話機器を制御する方法において、サーバ制御部１４はまず、発話元情報を受信して発話機器２０を設定する（図２のステップＳ１１０およびステップＳ１２０）。発話機器２０を設定した後、サーバ制御部１４は、発話機器２０が発話すべきことを発話機器２０に通知するように、発話指示を発話機器２０に送信する。この実施例の発話指示は、機器制御部２２が音源特性を設定する際に必要な情報を含み、例えば、発話元情報、または発話元情報に基づく発話条件もしくは対応するシナリオを含んでもよい。機器制御部２２は、発話指示に含まれた情報を用いて、上述した実施の形態１のように、発話機器２０の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、ユーザ情報、ならびにスピーカ２４の配置のうちの少なくとも１つに基づいて、発話機器２０に適した音源特性を設定する（ステップＳ４１０）。

機器制御部２２は、設定した音源特性を用いて、当該音源特性を有する音源（発話音源）を取得するようにサーバ１０に問い合わせる（ステップＳ４２０）。より具体的には、機器制御部２２は音源特性を有する音源のＵＲＬを問い合わせる。これに応じて、サーバ制御部１４は、機器制御部２２によって設定された音源特性を用いる問い合わせを、発話機器から受信する（ステップＳ３１０）。

サーバ制御部１４は、サーバ記憶部１２に記憶された複数の音源から、問い合わせにおける音源特性を有する音源を発話音源として選択する（ステップＳ３２０）。そして、サーバ制御部１４は、発話機器に発話音源をダウンロードさせるように、発話音源に対応するＵＲＬ（「ＤＬ用ＵＲＬ」）を発話機器に送信する（ステップＳ３３０）。これに応じて、機器制御部２２は音源特性を有する発話音源をサーバ１０から取得する（ステップＳ４３０）。具体的には、機器制御部２２は、通知されたＵＲＬ（「ＤＬ用ＵＲＬ」）を用いて発話音源をダウンロードする。その後、機器制御部２２は、スピーカ２４および発話音源を用いて発話する（ステップＳ４４０）。

発話制御を実行するためのプログラムが発話機器２０に使用される場合、当該プログラムは、機器記憶部２１に記憶される。機器制御部２２は当該プログラムを実行することによって発話制御の機能を実現する。１つの実施例において、機器制御部２２は当該プログラムを実行することによって、図１０に示されたように発話機器２０を制御する。

実施の形態４の発話機器を制御する方法、サーバ、発話機器、およびプログラムによれば、発話機器２０はそれ自体に適した音源特性を設定することができる。すなわち、発話機器２０はその発話を聞きやすくするように制御することができる。

《実施の形態５》
＜サーバ１０が複数の候補音源を発話機器２０に提供する場合＞
実施の形態５において、サーバ１０は複数の候補音源を提供し、発話機器２０は候補音源から発話音源を選択して発話する。

図１１は、実施の形態５におけるステップＳ１３０の一例のフローチャートである。図１２は、実施の形態５における発話機器を制御する方法の一例のシーケンス図である。

発話機器を制御する方法において、サーバ制御部１４はまず、発話元情報を受信して発話機器２０を設定する（図２のステップＳ１１０およびステップＳ１２０）。発話機器２０を設定した後、サーバ制御部１４は、サーバ記憶部１２に記憶された複数の音源から、音源特性に応じた複数の候補音源を選択する（ステップＳ５１０）。１つの実施例において、設定した音源特性を有する音源が複数存在しており、サーバ制御部１４は、これらの音源を候補音源として選択する。

1つの実施例において、サーバ制御部１４は、設定した音源特性を有する音源、および、設定した音源特性と類似な音源特性を有する音源を、候補音源として選択する。類似な音源特性とは、例えば、音量等の音源特性の設定値から所定範囲内の値を有する音源特性である。例えば、「音量：５０ｄＢ」という設定した音源特性に対して、１０ｄＢの所定範囲内、「音量：４０ｄＢ」～「音量：６０ｄＢ」という音源特性を有する音源は候補音源として選択され得る。例えば、「サンプリング周波数：大」という設定した音源特性に対して、「サンプリング周波数：大」および「サンプリング周波数：中」」という音源特性を有する音源は候補音源として選択され得る。また、例えば、「音声キャラクタ：男性、青年」という設定した音源特性に対して、「音声キャラクタ：男性、青年」および「音声キャラクタ：女性、青年」」という音源特性を有する音源は候補音源として選択され得る。

サーバ制御部１４は、複数の候補音源に対応するＵＲＬを発話機器２０に送信する（ステップＳ５２０）。サーバ制御部１４は、複数の候補音源から選択される発話音源に対応するＵＲＬを介して、発話音源を発話機器２０に提供する（ステップＳ５３０）。

１つの実施例において、サーバ制御部１４は、複数の候補音源に対応するＵＲＬを含む発話指示を発話機器に送信する。機器制御部２２は、複数のＵＲＬ（「ＤＬ用ＵＲＬ」）を含む発話指示を受信すると、これらのＵＲＬを用いて候補音源をダウンロードする。そして、機器制御部２２は、ダウンロードした候補音源の音源特性に基づいて、発話音源を選択し、発話音源で発話する。

別の実施例において、サーバ制御部１４は発話指示を発話機器に送信し、発話指示は、複数の候補音源に対応するＵＲＬと、これらのＵＲＬが対応する音源特性に関する情報とを含む。機器制御部２２は、複数のＵＲＬを含む発話指示を受信すると、これらのＵＲＬが対応する音源特性に基づいて、発話音源として有すべき音源特性を選択する。そして、機器制御部２２は、選択した音源特性に対応するＵＲＬを用いて発話音源をダウンロードし、発話音源で発話する。

なお、機器制御部２２が発話音源、または発話音源として有すべき音源特性を選択するときには、実施の形態１のように、発話機器２０自体の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、ユーザ情報、ならびにスピーカ２４の配置のうちの少なくとも１つに基づいて設定してもよい。

実施の形態５の発話機器を制御する方法、サーバ、発話機器、およびプログラムによれば、発話機器２０は提供された複数の候補音源から発話音源を選択することができる。よって、サーバ１０はより容易にかつ柔軟に発話音源を提供することができる。また、発話機器２０は発話直前の状態に基づいて選択するため、より精確に聞きやすい発話音源を選択することができる。

《実施の形態６》
＜ユーザに複数の候補音源から発話音源を設定／選択させる場合＞
実施の形態６において、サーバ１０または発話機器２０は、複数の候補音源を提供してユーザに発話音源を設定／選択させる。

図１３は、実施の形態６における発話機器を制御する方法の一例のシーケンス図である。実施の形態６において、サーバ１０が音源特性を設定して音源をユーザに選択させる例示を説明するが、発話機器２０が音源特性を設定して音源をユーザに選択させてもよい。

図１３の実施例において、まず、発話元情報を受信して発話機器２０を設定する（図２のステップＳ１１０およびステップＳ１２０）。発話機器２０を設定した後、サーバ制御部１４は、上述した実施の形態１～３のように発話機器２０に応じた音源特性を設定し、そして、設定した音源特性を有する音源を複数の音源から複数の候補音源として選択する。

次に、サーバ制御部１４は、複数の候補音源に関する情報を端末装置３０の関連アプリケーション３２を介してユーザに提示する。複数の候補音源に関する情報は、設定された音源特性を含んでもよく、ユーザにとってより分かりやすくするように、設定された音源特性から抽出された情報を含んでもよい。また、サーバ制御部１４は、ユーザが候補音源を試聴してから発話音源を選択することができるように、端末装置３０に候補音源をダウンロードさせてもよい。

ユーザが端末装置３０に提示された情報または試聴に基づいて発話音源を選択すると、端末装置３０は選択結果を含む選択指示をサーバ１０に送信する。サーバ制御部１４は、選択指示に基づいて、上述した実施の形態１～３のように、発話音源を発話機器２０に提供して、発話機器２０に発話音源を用いて発話させる（図２のステップＳ１３０およびステップＳ１４０）。

１つの実施例において、サーバ制御部１４は、発話機器２０に応じた複数の音源特性を候補特性として設定し、端末装置３０を介して候補特性に関する情報をユーザに提示し、採用する音源特性をユーザに選択させる。サーバ制御部１４は、端末装置３０から選択結果を含む選択指示を受信すると、選択された音源特性を有する発話音源を発話機器に提供して、発話機器２０に発話音源を用いて発話させる。

１つの実施例において、サーバ制御部１４は、発話機器２０に応じた複数の音源特性を候補特性として設定し、複数の音源から、これらの候補特性を有する複数の候補音源を選択する。サーバ制御部１４は、端末装置３０を介して、候補音源に関する情報をユーザに提示して、または候補音源をユーザに試聴させて、ユーザに発話音源を選択させる。サーバ制御部１４は、端末装置３０から選択結果を含む選択指示を受信すると、選択された発話音源を発話機器に提供して、発話機器２０に発話音源を用いて発話させる。

これにより、発話音源または音源特性をユーザに選択させることができ、よりユーザの需要に沿った発話サービスを提供することができる。

＜発話機器を制御するサーバ１０と通信する端末で使用されるプログラム＞
サーバ１０と通信する端末、例えば、発話機器２０または端末装置３０は、上述したような制御方法を実行するために使用されるプログラムを有する。発話制御を実行するためのプログラムが発話機器２０に使用される場合、当該プログラムは、機器記憶部２１に記憶される。機器制御部２２は当該プログラムを実行することによって発話制御の機能を実現する。

１つの実施例において、機器制御部２２は当該プログラムを実行することによって、実施の形態１～３、５、６のいずれかのように、発話機器２０に応じた発話音源をサーバ１０から取得して発話する。

別の実施例において、機器制御部２２は、当該プログラムを実行することによって、実施の形態４、６のように発話機器の制御方法を行う。

上述したように、サーバ１０または発話機器２０として機能させるためのプログラムは、コンピュータ読み取り可能なコンピュータ可読記憶媒体に記憶され得る。プログラムを記憶したコンピュータ可読記憶媒体を、発話テストサーバ１０または発話機器２０に供給すると、これらの制御部（例えば、ＣＰＵまたはＭＰＵ等）はコンピュータ可読記憶媒体に格納されたプログラムを読みだして実行することによって、その機能を発揮することができる。コンピュータ可読記憶媒体としては、ＲＯＭ、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード等を用いることができる。

以上は本発明の具体的な実施の形態に過ぎず、本発明の保護範囲はこれに限定されるものではない。本発明は図面および前述した具体的な実施の形態において前述された内容を含むが、本発明がそれらの内容に限定されるものではない。本発明の範囲または趣旨から逸脱することなく、開示された様々の実施の形態または実施例を組み合わせることができる。本発明の機能および構造原理から逸脱しない変更は特許請求の範囲内のものである。

１０発話機器を制御するサーバ（サーバ）
１０ａ発話指示サーバ１０ａ
１０ｂ音源サーバ
１２、１２ａ、１２ｂサーバ記憶部
１４、１４ａ、１４ｂサーバ制御部
１６、１６ａ、１６ｂサーバ通信部
２０発話機器
２１機器記憶部
２２機器制御部
２３機器通信部
２４スピーカ
２５センサ
３０端末装置
３２関連アプリケーション
４０情報元装置
５０外部情報源

Claims

発話機器を制御する方法であって、
情報元装置から発話元情報を受信するステップと、
前記発話元情報に基づいて、発話機器を設定するステップと、
前記発話機器に応じた音源特性を有する発話音源を前記発話機器に提供するステップと、
前記発話機器に前記発話音源を用いて発話させるステップと、
を含み、
前記音源特性は、前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも１つに基づいて設定される、
発話機器を制御する方法。
前記音源特性はサンプリング周波数を含み、
前記発話機器の発話性能に応じて、サンプリング周波数が設定される、
請求項１に記載の発話機器を制御する方法。
前記音源特性は音量を含み、
前記発話機器が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量が大きく設定される、
請求項１に記載の発話機器を制御する方法。
発話音源を前記発話機器に提供するステップは、
前記発話機器に応じた音源特性を設定するステップと、
設定した前記音源特性を有する音源を複数の音源から前記発話音源として選択するステップと、
前記発話機器に前記発話音源をダウンロードさせるように、前記発話音源に対応するアクセス先を前記発話機器に送信するステップと、
を含む、
請求項２に記載の発話機器を制御する方法。
発話機器を制御するサーバであって、
前記発話機器に提供可能な音源を記憶するサーバ記憶部と、
サーバ制御部であって、
情報元装置から発話元情報を受信し、
前記発話元情報に基づいて、発話機器を設定し、
前記発話機器に応じた音源特性を有する発話音源を前記発話機器に提供し、
前記発話機器に前記発話音源を用いて発話させる
ように構成された前記サーバ制御部と、
を含み、
前記音源特性は、前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも１つに基づいて設定される、
発話機器を制御するサーバ。
前記音源特性はサンプリング周波数を含み、
前記発話機器の発話性能に応じて、サンプリング周波数が設定される、
請求項５に記載の発話機器を制御するサーバ。
前記音源特性は音量を含み、
前記発話機器が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量が大きく設定される、
請求項５に記載の発話機器を制御するサーバ。
前記サーバ制御部は、発話音源を前記発話機器に提供するときには、
前記発話機器に応じた音源特性を設定し、
設定した前記音源特性を有する音源を複数の音源から前記発話音源として選択し、
前記発話機器に前記発話音源をダウンロードさせるように、前記発話音源に対応するアクセス先を前記発話機器に送信する
ようにさらに構成されている、
請求項５に記載の発話機器を制御するサーバ。
発話可能な発話機器であって、
前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも１つを記憶する機器記憶部と、
機器制御部であって、
前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも１つに基づいて、前記発話機器に適した音源特性を設定し、
設定した前記音源特性を用いてサーバに問い合わせ、
前記音源特性を有する発話音源を前記サーバから取得し、
前記発話音源を用いて発話する
ように構成された前記機器制御部と、
を含む、
発話機器。
請求項９に記載の発話機器に、前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも１つに基づいて、前記発話機器に適した音源特性を設定し、設定した前記音源特性を用いてサーバに問い合わせ、前記音源特性を有する発話音源を前記サーバから取得し、前記発話音源を用いて発話させるためのプログラム。