JP2023100618A - 発話機器を制御する方法、サーバ、発話機器、およびプログラム - Google Patents

発話機器を制御する方法、サーバ、発話機器、およびプログラム Download PDF

Info

Publication number
JP2023100618A
JP2023100618A JP2023060786A JP2023060786A JP2023100618A JP 2023100618 A JP2023100618 A JP 2023100618A JP 2023060786 A JP2023060786 A JP 2023060786A JP 2023060786 A JP2023060786 A JP 2023060786A JP 2023100618 A JP2023100618 A JP 2023100618A
Authority
JP
Japan
Prior art keywords
speech
server
utterance
sound source
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023060786A
Other languages
English (en)
Inventor
沙良 浅井
Sara Asai
悟 松永
Satoru Matsunaga
裕樹 占部
Yuki Urabe
雅博 石井
Masahiro Ishii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JP2023100618A publication Critical patent/JP2023100618A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】ユーザに与える不快感を低減させ、発話機器の利便性を向上させる発話機器を制御する方法、サーバ、発話機器及びプログラムを提供する。【解決手段】複数の発話機器、複数の情報元装置、外部情報装置及び端末装置が、サーバと通信する構成において発話機器を制御する方法であって、サーバは、情報元装置から発話元情報を受信しS110、発話元情報に基づいて、発話機器を設定しS120、発話機器に応じた音源特性を有する発話音源を発話機器に提供しS130、発話機器に発話音源を用いて発話させるS140。【選択図】図2

Description

本発明は、発話機器に関し、特に発話機器を制御する方法、サーバ、発話機器、およびプログラムに関する。
家電とは、家庭用電化製品の略称であり、例えば、家庭で使うテレビ、冷蔵庫、空気調和機、洗濯機、掃除ロボット、音響機器、照明、給湯器、インターホンなどの電気器具である。従来では、ビープ音やブザー音を用いて、家電の運転状況をユーザに知らせる。例えば、洗濯機の洗濯が終了するとき、空気調和機が起動されるとき、または冷蔵庫の扉が所定時間以上に完全に閉じていないときには、これらの家電はユーザの注意力を引くようにビープ音を発する。
現在、ビープ音などに代えて、より多くの情報を家電のユーザに伝達するために、人間の言語を含む音声を用いて発話することができる発話機器としての家電が開発されてきた。このような家電は発話家電と呼ばれ、ビープ音の代わりに、例えば、「洗濯が終わりました。」や、「冷蔵庫の扉が閉じていませんよ。」のように発話して、家電に関する情報をユーザに知らせる。
特許第6640266号明細書
特許文献1には、発話機能を有する家電(被制御装置電子機器)に発話させるメッセージ通知制御システムが開示されている。具体的には、ユーザは端末装置のユーザ意向登録アプリを介して、家電に発話させたい条件を登録する。メッセージ通知制御システムは、家電の状態を検出し、検出する状態が登録された条件を満たす場合(例えば、冷蔵庫が開けている)、家電にメッセージを発話させる。
しかしながら、引用文献1のメッセージ通知制御システムは、家電の状況やユーザの状況に関わらず、同じ条件を満たせば異なる家電にも同様な音源を用いて家電に発話させる。発話する家電に適した音源を提供することに関して、改善の余地があるといえる。
本発明は、発話が聞きやすくなるように、発話機器に適した音源を提供することができる技術の提供を課題とする。
前述した課題を解決するために、本発明は、発話機器を制御する方法、サーバ、発話機器、およびプログラムを提供するものである。
本発明に係る一態様の発話機器を制御する方法は、情報元装置から発話元情報を受信するステップと、発話元情報に基づいて、発話機器を設定するステップと、発話機器に応じた音源特性を有する発話音源を発話機器に提供するステップと、発話機器に発話音源を用いて発話させるステップと、を含む。
また、本発明に係る他の態様の発話機器を制御するサーバは、サーバ記憶部とサーバ制御部とを含む。サーバ記憶部は、発話機器に提供可能な音源を記憶する。サーバ制御部は、情報元装置から発話元情報を受信し、発話元情報に基づいて、発話機器を設定し、発話機器に応じた音源特性を有する発話音源を発話機器に提供し、発話機器に発話音源を用いて発話させるように構成されている。
また、本発明に係る他の態様の発話機器は、発話可能な発話機器であり、機器記憶部と機器制御部とを含む。機器記憶部は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも1つを記憶する。機器制御部は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも1つに基づいて、発話機器に適した音源特性を設定し、設定した音源特性を用いてサーバに問い合わせ、音源特性を有する発話音源をサーバから取得し、発話音源を用いて発話するように構成されている。
また、本発明に係る他の態様のプログラムは、発話機器を制御するサーバと通信する端末または発話機器で使用されるプログラムである。
本発明においては、発話機器を制御する方法、サーバ、および発話機器によれば、発話機器の発話によってユーザに与える不快感を低減することができ、発話機器の利便性を向上することができる。
実施の形態1における発話機器および発話機器を制御するサーバの概略構成を示すブロック図 実施の形態1における発話機器を制御する方法の一例のフローチャート 実施の形態1における発話機器を制御する方法の一例のシーケンス図 実施の形態2におけるステップS130の一例のフローチャート 実施の形態2における発話機器を制御する方法の一例のシーケンス図 実施の形態3における発話機器および発話機器を制御するサーバの概略構成を示すブロック図 実施の形態3における発話機器を制御する方法の一例のシーケンス図 実施の形態4におけるステップS130の一例のフローチャート 実施の形態4における発話機器を制御する方法の一例のシーケンス図 実施の形態4における発話機器を制御する方法の一例のフローチャート 実施の形態5におけるステップS130の一例のフローチャート 実施の形態5における発話機器を制御する方法の一例のシーケンス図 実施の形態6における発話機器を制御する方法の一例のシーケンス図
先ず始めに、発話機器を制御する方法、サーバ、および発話機器の各種態様について説明する。
本発明に係る第1の態様の発話機器を制御する方法は、情報元装置から発話元情報を受信するステップと、発話元情報に基づいて、発話機器を設定するステップと、発話機器に応じた音源特性を有する発話音源を発話機器に提供するステップと、発話機器に発話音源を用いて発話させるステップと、を含む。
本発明に係る第2の態様の発話機器を制御する方法は、第1の態様において、音源特性は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも1つに基づいて設定され得る。
本発明に係る第3の態様の発話機器を制御する方法は、第1または2の態様において、音源特性は、音声データのフォーマット、音色特性、音質特性、音量、および発話内容の少なくとも1つを含んでもよい。
本発明に係る第4の態様の発話機器を制御する方法は、第1~3の態様のいずれか1つにおいて、音源特性はサンプリング周波数を含んでもよい。発話機器の発話性能に応じて、サンプリング周波数が設定され得る。
本発明に係る第5の態様の発話機器を制御する方法は、第1~4の態様のいずれか1つにおいて、音源特性はサンプリング周波数を含んでもよい。サンプリング周波数は、発話機器のスピーカの配置により発話機器に遮られて減衰する周波数成分に応じて設定され得る。
本発明に係る第6の態様の発話機器を制御する方法は、第1~5の態様のいずれか1つにおいて、音源特性は音量を含んでもよい。発話機器とユーザとの距離に応じて、音量が設定され得る。または、発話機器が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量が大きく設定され得る。
本発明に係る第7の態様の発話機器を制御する方法は、第1~6の態様のいずれか1つにおいて、音源特性は、音量、話す速さおよび周波数成分の少なくとも1つを含んでもよい。発話機器の発話対象のユーザの年齢が所定年齢以上であると判断した場合、所定年齢未満であると判断した場合に比べて、音量が大きく設定され、話す速さが遅く設定され、および/または、高い周波数成分が多く含むように設定され得る。
本発明に係る第8の態様の発話機器を制御する方法は、第1~7の態様のいずれか1つにおいて、発話音源を発話機器に提供するステップは、発話機器に応じた音源特性を設定するステップと、設定された音源特性を有する音源を複数の音源から発話音源として選択するステップと、発話機器に発話音源をダウンロードさせるように、発話音源に対応するアクセス先を発話機器に送信するステップと、を含んでもよい。
本発明に係る第9の態様の発話機器を制御する方法は、第1~7の態様のいずれか1つにおいて、発話音源を発話機器に提供するステップは、設定された音源特性を用いる問い合わせを発話機器から受信するステップと、問い合わせにおける音源特性を有する音源を複数の音源から発話音源として選択するステップと、発話機器に発話音源をダウンロードさせるように、発話音源に対応するアクセス先を発話機器に送信するステップと、含んでもよい。
本発明に係る第10の態様の発話機器を制御する方法は、第1~7の態様のいずれか1つにおいて、発話音源を発話機器に提供するステップは、複数の音源から、音源特性に応じた複数の候補音源を選択するステップと、複数の候補音源に対応するアクセス先を発話機器に送信するステップと、複数の候補音源から選択される発話音源に対応するアクセス先を介して、発話音源を発話機器に提供するステップと、を含んでもよい。
本発明に係る第11の態様の発話機器を制御するサーバは、サーバ記憶部とサーバ制御部とを含む。サーバ記憶部は、発話機器に提供可能な音源を記憶する。サーバ制御部は、情報元装置から発話元情報を受信し、発話元情報に基づいて、発話機器を設定し、発話機器に応じた音源特性を有する発話音源を発話機器に提供し、発話機器に発話音源を用いて発話させるように構成されている。
本発明に係る第12の態様の発話機器を制御するサーバは、第11の態様において、音源特性は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも1つに基づいて設定され得る。
本発明に係る第13の態様の発話機器を制御するサーバは、第11の態様または第12の態様において、音源特性は、音声データのフォーマット、音色特性、音質特性、音量、および発話内容の少なくとも1つを含んでもよい。
本発明に係る第14の態様の発話機器を制御するサーバは、第11~13の態様のいずれか1つにおいて、音源特性はサンプリング周波数を含んでもよい。発話機器の発話性能に応じて、サンプリング周波数が設定され得る。
本発明に係る第15の態様の発話機器を制御するサーバは、第11~14の態様のいずれか1つにおいて、音源特性はサンプリング周波数を含んでもよい。サンプリング周波数は、発話機器のスピーカの配置により発話機器に遮られて減衰する周波数成分に応じて設定され得る。
本発明に係る第16の態様の発話機器を制御するサーバは、第11~15の態様のいずれか1つにおいて、音源特性は音量を含んでもよい。発話機器とユーザとの距離に応じて、音量が設定され得る。または、発話機器が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量が大きく設定され得る。
本発明に係る第17の態様の発話機器を制御するサーバは、第11~16の態様のいずれか1つにおいて、音源特性は、音量、話す速さおよび周波数成分の少なくとも1つを含んでもよい。発話機器の発話対象のユーザの年齢が所定年齢以上であると判断した場合、所定年齢未満であると判断した場合に比べて、音量が大きく設定され、話す速さが遅く設定され、および/または、高い周波数成分が多く含むように設定され得る。
本発明に係る第18の態様の発話機器を制御するサーバは、第11~17の態様のいずれか1つにおいて、サーバ制御部は、発話音源を発話機器に提供するときには、発話機器に応じた音源特性を設定し、設定した音源特性を有する音源を複数の音源から発話音源として選択し、発話機器に発話音源をダウンロードさせるように、発話音源に対応するアクセス先を発話機器に送信するようにさらに構成され得る。
本発明に係る第19の態様の発話機器を制御するサーバは、第11~17の態様のいずれか1つにおいて、サーバ制御部は、発話音源を発話機器に提供するときには、設定された音源特性を用いる問い合わせを発話機器から受信し、問い合わせにおける音源特性を有する音源を複数の音源から発話音源として選択し、発話機器に発話音源をダウンロードさせるように、発話音源に対応するアクセス先を発話機器に送信するようにさらに構成され得る。
本発明に係る第20の態様の発話機器を制御するサーバは、第11~17の態様のいずれか1つにおいて、サーバ制御部は、発話音源を発話機器に提供するときには、複数の音源から、音源特性に応じた複数の候補音源を選択し、複数の候補音源に対応するアクセス先を発話機器に送信し、複数の候補音源から選択される発話音源に対応するアクセス先を介して、発話音源を発話機器に提供するようにさらに構成され得る。
本発明に係る第21の態様の発話機器は、発話可能な発話機器であり、機器記憶部と機器制御部とを含む。機器記憶部は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも1つを記憶する。機器制御部は、発話機器の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器のユーザのユーザ情報、ならびに発話機器のスピーカの配置のうちの少なくとも1つに基づいて、発話機器に適した音源特性を設定し、設定した音源特性を用いてサーバに問い合わせ、音源特性を有する発話音源をサーバから取得し、発話音源を用いて発話するように構成されている。
本発明に係る第22の態様のプログラムは、第11~20の態様のいずれか1つにおける発話機器を制御するサーバと通信する端末、または、第21の態様における発話機器で使用されるプログラム
《実施の形態1》
以下、本発明に係る発話機器を制御する方法、サーバ、発話機器、およびプログラムの実施の形態1について、適宜図面を参照しながら詳細に説明する。
以下で説明する実施の形態1は、本発明の一例を示すものである。以下の実施の形態1において示される数値、形状、構成、ステップ、およびステップの順序などは、一例を示すものであり、本発明を限定するものではない。以下の実施の形態1における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
以下に述べる実施の形態1において、特定の要素に関しては変形例を示す場合があり、その他の要素に関しては任意の構成を適宜組み合わせることを含むものであり、組み合わされた構成においてはそれぞれの効果を奏するものである。実施の形態1において、それぞれの変形例の構成をそれぞれ組み合わせることにより、それぞれの変形例における効果を奏するものとなる。
以下の詳細な説明において、「第1」、「第2」などの用語は、説明のためだけに用いられるものであり、相対的な重要性または技術的特徴の順位を明示または暗示するものとして理解されるべきではない。「第1」と「第2」と限定されている特徴は、1つまたはさらに多くの当該特徴を含むことを明示または暗示するものである。
図1は、実施の形態1における発話機器および発話機器を制御するサーバの概略構成を示すブロック図である。発話機器を制御するサーバ10(「サーバ10」と略称してもよい。)は、少なくとも1つの発話可能な発話機器20と通信可能である。また、サーバ10は、端末装置30とも通信可能であり、端末装置30を介してユーザから発話機器20に対する指令を受けて、当該指令に基づいて発話機器20を制御してもよい。サーバ10は、少なくとも1つの情報元装置40または少なくとも1つの外部情報源50から情報を受信し、受信した情報に基づいて発話機器20に発話させてもよい。以下、各構成要素の概略を説明する。
<発話機器20>
発話機器20は、発話機能を有する機器である。実施の形態1の発話機器20は、発話機能を有する家電(発話家電)を含む。家電とは、家庭用電化製品の略称である。発話機器20は、家庭で用いられる電子機器であれば任意の種類の機器であってもよく、例えば、家庭で使うテレビ、冷蔵庫、空気調和機、洗濯機、掃除ロボット、音響機器、照明、給湯器、インターホン、ペットカメラ、スマートスピーカなどの電気器具が含まれる。発話機器20は、「民生用発話機器」、「発話家電」と称してもよい。発話機能とは、スピーカを用いて人間の言語を含む音声を発する機能という。発話機能は、人間の言語を含まない、ビープ音、ブザー音、アラーム等の音のみを発声する機能とは異なり、人間の言語を用いてより多くの情報をユーザに伝達することができる。発話家電としての発話機器20はそれぞれの家電機能を発揮するように構成されている。例えば、空気調和機である発話機器20は、圧縮機と熱交換器と室内温度センサとを含み、制御空間において冷房、暖房、および除湿の機能を発揮するように構成されている。また、例えば、掃除ロボットである発話機器20は、バッテリと集塵機構と移動機構と物体検知センサとを含み、移動可能な範囲内で移動しながら掃除するように構成されている。
図1の実施例において、発話機器20は、機能を発揮するための情報を記憶する機器記憶部21(家電記憶部)と、発話機器20全体を制御する機器制御部22(家電制御部)と、サーバ10または端末装置30と通信可能な機器通信部23(家電通信部)と、発話するためのスピーカ24とを含む。発話機器20は、機能を発揮するために様々なセンサ25を少なくとも1つ含んでもよい。発話機器20は、視覚的な情報をユーザに表示するためのディスプレイを含んでもよい。なお、本開示においては、この例示の発話機器20について説明するが、他の発話機器20において同様の構成としてもよい。
機器記憶部21は、種々の情報や制御プログラムを記録する記録媒体であり、機器制御部22の作業領域として機能するメモリであってもよい。機器記憶部21は、例えば、フラッシュメモリ、RAM、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。機器記憶部21は、発話用の音声データまたは映像データを記憶してもよい。発話用の音声データまたは映像データは、発話機器20の出荷前に記憶させるものであってもよく、販売者または家庭内のユーザの指令に基づいて他の記憶媒体から読み込むものであってもよく、販売者またはユーザの指令に基づいてインターネットを介してダウンロードするものであってもよい。また、以下の説明では、音声データを「音源」に略称することがある。
機器制御部22は、発話機器20全体の制御を司るコントローラである。機器制御部22は、プログラムを実行することにより所定の機能を実現するCPU、MPU、FPGA、DSP、ASICのような汎用プロセッサを含む。機器制御部22は、機器記憶部21に格納された制御プログラムを呼び出して実行することにより、発話機器20における各種の制御を実現することができる。また、機器制御部22は機器記憶部21と協働して、機器記憶部21に記憶されたデータを読み取り/書き込みを行うことができる。機器制御部22は、ハードウェアとソフトウェアの協働により所定の機能を実現するものに限定されず、所定の機能を実現する専用に設計されたハードウェア回路でもよい。
機器制御部22は、設定ユーザインタフェースを介してユーザによる様々な設定値(例えば、空気調和機の設定温度、テレビの表示チャネル、掃除ロボットの掃除時間)を受信することができる。機器制御部22は、これらの設定値および様々なセンサ25から受信した検出値(例えば、室内温度、物体の有無)などに基づいて、発話機器20の家電機能を発揮するように発話機器20の各部品を制御する。機器制御部22は、サーバ10または端末装置30から指令を受信して、当該指令にしたがって発話機器20を制御してもよい。また、機器制御部22は、後述する発話機器を制御する方法に基づいて、サーバ10からの指令にしたがって発話を行う。
機器通信部23は、サーバ10やユーザの端末装置30等と通信することもでき、例えば、インターネットパケットを送受信することもできる。機器制御部22は、機器通信部23を介してサーバ10と協働するとき、インターネットを介してサーバ10から発話に関するパラメータ値または指令を受信することできる。
スピーカ24は、機器制御部22が指定する音声データを用いて、電気信号を音響信号に変換し、音波として空間に放射するものである。スピーカ24は音声インタフェースを介して機器制御部22と通信してもよい。スピーカ24は、発話機器20の種類等に基づいて適宜に設けられ得る。例えば、テレビである発話機器20において、スピーカ24はテレビの正面の両側に設けられ得る。掃除ロボットである発話機器20において、スピーカ24は掃除ロボットのハウジング内に設けられ得る。それぞれの発話機器20のスピーカ24は異なる規格や発話能・発声力を有してもよい。例えば、テレビのスピーカ24は比較的に高い発話・発声能力を有するが、洗濯機のスピーカ24は比較的に低い発話・発声能力を有してもよい。本開示はスピーカ24の発話・発声能力について制限しない。
発話機器20は、ディスプレイを含む場合がある。ディスプレイは、視覚的な情報をユーザに表示するためのものである。ディスプレイは、例えば、テレビのスクリーンのように綺麗な映像を表示するために解像度が高いものであってもよく、洗濯機や電子レンジにおいて設定用のユーザインタフェース(user interface、UI)を表示するための、解像度が低いパネルディスプレイであってもよい。本開示はディスプレイの表示能力について制限しない。また、ディスプレイは表示機能を有するタッチパネルであってもよい。
センサ25は、発話機器20の機能を発揮するために発話機器20の外部から様々な情報を取得するためのものである。例えば、センサ25は、空気調和機が設けられた部屋内部の温度を検出する室内温度センサ、空気調和機が設けられた部屋の外の温度を検出する室外温度センサ、掃除ロボットの前方に物体の有無を検出する物体センサ、冷蔵庫の扉が完全に閉じているか否かを検出する開閉センサなどであってもよい。センサ25にて検出された情報は、機器記憶部21に入力されて記憶され、後に機器制御部22が利用したり、端末装置30またはサーバ10に送信されたりする。
<端末装置30>
端末装置30は、発話機器20に関連する装置である。端末装置30は、例えば、発話機器20のコントローラであってもよく、複数種類の家電製品を同時に管理・制御できるコントローラであってもよい。また、端末装置30は、発話機器20との間でデータ通信を行うことができる情報端末、例えば、専用の関連アプリケーション32が組み込まれたスマートフォン、携帯電話、モバイルフォン、タブレット、ウェアラブル装置、コンピュータなどであってもよい。サーバ10または機器制御部22は、端末装置30を介してユーザが入力した設定または指令を取得することができる。一般的には、端末装置30はグラフィックユーザインタフェース(graphical user interface、GUI)を表示するためのディスプレイを含む。ただ、音声ユーザインタフェース(voice User Interface、VUI)を介してユーザと相互作用する場合、ディスプレイの代わりに、またはディスプレイに加えて、端末装置30はスピーカとマイクとを含んでもよい。なお、端末装置30を介さなくても、サーバ10は発話機器を制御する方法を実行することができる。
<情報元装置40>
情報元装置40は、発話機器20が発話する内容に関連する情報源である。情報元装置40は、発話機器20が設けられた家庭内の別の機器(家電)であってもよい。情報元装置40が別の家電である場合、本開示では、情報元装置40は情報元装置とも呼ばれる。情報元装置は発話機器20であってもよく、発話機能を有しない家電であってもよい。情報元装置は、その運転状態などの機器情報を含む発話元情報をサーバ10に送信し、サーバ10は、受信した発話元情報に基づいて発話内容を設定してもよい。発話元情報の例としては、例えば、情報元装置の起動状態、運転モード、異常情報、現在位置、発話対象のユーザ、最寄りのユーザなどが挙げられる。
<外部情報源50>
外部情報源50は、発話機器と直接的に関わらないサービスに関する情報、例えば、気象情報や、宅配便の配送状況に関する情報を提供する情報源である。サーバ10は、外部情報源50から取得する情報に基づいて、発話内容を設定してもよい。
<サーバ10>
サーバ10は、少なくとも1つの発話機器20を制御するサーバである。さらに具体的にいうと、サーバ10は、少なくとも1つの発話機器20に対して、人間の言語を含む音声データまたは映像データを用いて発話させるように制御する。1つの実施例において、サーバ10は、インターネットを経由して少なくとも1つの発話機器20に接続して発話を制御することができる。同じ家庭に設けられた複数の発話機器20に対して、サーバ10は一度にこれらの複数の発話機器を制御することができる。
サーバ10は、後述する発話機器を制御する方法の実行以外、他の目的に用いられてもよい。例えば、サーバ10は、少なくとも1つの発話機器20を管理するため、またはデータを収集するための発話機器20の製造会社の管理サーバであってもよい。または、サーバ10は、アプリケーションサーバであってもよい。実施の形態1において、サーバ10は、サーバ記憶部12と、サーバ制御部14とを含む。サーバ10は、発話機器20、端末装置30、情報元装置40、または外部情報源50と通信するためのサーバ通信部16をさらに含んでもよい。
<サーバ記憶部12>
サーバ記憶部12は、種々の情報や制御プログラムを記録する記録媒体であり、サーバ制御部14の作業領域として機能するメモリであってもよい。サーバ記憶部12は、例えば、フラッシュメモリ、SSD(Solid State Device)、ハードディスク、RAM、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。サーバ記憶部12は、サーバ10内部のメモリであってもよく、サーバ10と無線通信または有線通信にて接続されているストレージ装置であってもよい。
サーバ記憶部12は、発話用の音声データまたは映像データを記憶する。様々な発話用の音声データまたは映像データは、発話制御の対象となる発話機器20の種類、発話機器20の家電情報を含む発話元情報、情報元装置40の種類、外部情報源50の種類、情報元装置40または外部情報源50から取得した情報などに応じて生成され得る。1つの実施例において、サーバ10は、発話機器20に発話させる前に、発話用の音声データまたは映像データを事前に生成してサーバ記憶部12に記憶させる。別の実施例において、サーバ10は、発話させる直前に発話用の音声データまたは映像データを動的(実行時)に生成してサーバ記憶部12に記憶させる。サーバ記憶部12は、これらの音声データもしくは映像データを生成するための素材データ、または途中のデータを記憶してもよい。
<サーバ制御部14>
サーバ10のサーバ制御部14は、サーバ10全体の制御を司るコントローラである。サーバ制御部14は、プログラムを実行することにより所定の機能を実現するCPU、MPU、GPU、FPGA、DSP、ASICのような汎用プロセッサを含む。サーバ制御部14は、サーバ記憶部12に格納された制御プログラムを呼び出して実行することにより、サーバ10における各種の制御を実現することができる。また、サーバ制御部14は、サーバ記憶部12と協働してサーバ記憶部12に記憶されたデータを読み取り/書き込みを行うことができる。サーバ制御部14は、ハードウェアとソフトウェアの協働により所定の機能を実現するものに限定されず、所定の機能を実現する専用に設計されたハードウェア回路でもよい。
<サーバ通信部16>
サーバ通信部16は、サーバ制御部14と協働して、発話機器20や、端末装置30、情報元装置40、外部情報源50等とインターネットパケットを送受信する、すなわち、通信することもできる。例えば、サーバ10は、サーバ通信部16を介して端末装置30から指令を受信してもよく、発話機器20に対して指示を送信してもよく、情報元装置40または外部情報源50から情報を受信してもよい。サーバ通信部16または機器通信部23は、サーバ10と、発話機器20と、端末装置30と、情報元装置40と、外部情報源50との間において、Wi-Fi(登録商標)、IEEE802.2、IEEE802.3、3G、LTE等の規格にしたがい通信を行い、データの送受信を行ってもよい。インターネットの他、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網、電話回線網、移動体通信網、衛星通信網等、赤外線、ブルートゥース(登録商標)と通信してもよい。
<発話機器を制御する方法>
サーバ10は、サーバ記憶部12およびサーバ制御部14を用いて、発話機器20を制御する方法を実行する。当該方法は、ユーザによって発話が聞きやすいように、発話機器20に応じた音源特性を有する発話音源を用いて発話機器20に発話させる。図2は、実施の形態1における発話機器を制御する方法のフローチャートであり、発話機器を制御する方法は以下のステップS110~ステップS140を含む。図3は、実施の形態1における発話機器を制御する方法の一例のシーケンス図である。
サーバ10のサーバ制御部14は、情報元装置40から発話元情報を受信する(ステップS110)。例えば、例えば、サーバ制御部14は、情報元装置40の起動状態、運転モード、異常情報、現在位置、発話対象のユーザ、最寄りのユーザなどの発話元情報を受信してもよい。そして、サーバ制御部14は、発話元情報に基づいて、発話機器20を設定する(ステップS120)。
1つの実施例において、サーバ記憶部12は、発話機能が起こされ得る発話条件と、発話条件が対応するシナリオとを含む照合表を記憶する。それぞれのシナリオは、シナリオ識別子、シナリオ種類、シナリオ名称、発話内容、発話すべき発話機器20などを含んでもよい。また、それぞれのシナリオは、発話優先度、再実行有無、再実行間隔、再実行回数上限などを含んでもよい。サーバ制御部14は、受信した発話元情報をそれぞれの発話条件と照合し、発話条件を満たしているか否かを判断する。サーバ制御部14は、このような照合によって、当該発話元情報に対応する条件およびシナリオを取得することができる。
なお、ユーザ入力に基づいて、サーバ制御部14は、特定のシナリオと特定の発話機器20とを紐付けてもよい。あるシナリオの発話条件が満たされれば、サーバ制御部14は、当該シナリオに紐付けられた発話機器20に発話させてもよい。また、サーバ制御部14は、特定の情報元装置40と特定の発話機器20とを紐付けてもよい。サーバ制御部14は、ある情報元装置40からの発話元情報に基づいて発話することと判断した場合、当該情報元装置40に紐付けられた発話機器20に発話させてもよい。
例えば、ユーザ入力に基づいて、「洗濯機」の情報元装置40と、「ペットカメラ」の発話機器20と紐付けられ得る。サーバ制御部14は、「洗濯機」から洗濯が終了したとの情報を受信する場合、「洗濯が終わりました。」という発話内容を、「ペットカメラ」の対象機器に発話させてもよい。
1つの実施例において、サーバ制御部14は、ステップS110において、外部情報源50から外部情報を受信する。ステップS120において、外部情報に基づいて、または、発話元情報と外部情報ともに基づいて、発話機器を設定する。例えば、サーバ制御部14は、「洗濯機」の情報元装置40から洗濯が終了したとの情報を受信し、さらに外部情報源50から雨の予報との情報を受信する場合、「洗濯が終わりました。この後天気が崩れる予報です。」という発話内容を「ペットカメラ」の対象機器に発話させしてもよい。
次に、サーバ制御部14は、後述するように、発話機器20に応じた音源特性を有する発話音源を発話機器20に提供する(ステップS130)。次いでサーバ制御部14は、発話機器20に発話音源を用いて発話させる(ステップS140)。1つの実施例において、サーバ制御部14は、サーバ記憶部12に記憶された発話音源を、発話機器20にサーバ記憶部12からダウンロードさせることによって、発話音源を発話機器20に提供する。
より具体的には、サーバ制御部14は、発話機器20の種類、発話機器20の識別子、発話機器20の発話性能、発話機器20の稼働状態、発話機器20の設置場所、および発話機器20とユーザとの距離のうちの少なくとも1つに基づいて音源特性を設定してもよい。また、サーバ10は、発話機器20のユーザのユーザ情報、および発話機器20のスピーカ24の配置のうちの少なくとも1つに基づいて音源特性を設定してもよい。
音源特性は、音声データのフォーマット(例えば、WAV、MP3、AAC,MPEG-4、FLAC)、音色特性、音質特性、音量、および発話内容の少なくとも1つを含んでもよい。
音色特性は、音声キャラクタの性別、年齢、声質種類(例えば、高め、低め、クリアボイス、ハスキーボイス)、話す速さ(例えば、遅め、通常)、および周波数成分(例えば、通常、高い周波数成分が多め、低い周波数成分が多め)の少なくとも1つを含んでもよい。1つの実施例において、音声キャラクタとは、音声合成(Text-To-Speech (TTS)とも呼ばれる)において発話するキャラクタと指す。音声データに自然人の発声が採用される場合、音声キャラクタは発声する自然人と指す。なお、本開示における周波数成分は特に可聴域内の周波数成分を指す。
音質特性は、サンプリング周波数(例えば、8kHz、16kHz、32kHz、48kHz、高サンプリング周波数、中サンプリング周波数、低サンプリング周波数)およびサンプリングビット数(例えば、8ビット、16ビット、24ビット、量子化ビット数とも呼ばれる)の少なくとも1つを含んでもよい。
発話内容は、テキスト、言語(例えば、日本語、英語)、およびシナリオ種類の少なくとも1つを含んでもよい。
以下、様々な事例を用いて、サーバ制御部14がどのように発話機器に20応じた音源特性を設定するかについて説明する。
<事例1>
事例1において、音源特性はサンプリング周波数を含む。サーバ制御部14は、発話機器20の発話性能に応じて、サンプリング周波数を設定する。例えば、仮に「スマートスピーカ」の発話機器20の発話性能が8kHzのサンプリング周波数のみに対応可能な場合、サーバ制御部14はサンプリング周波数を「8kHz」または「低」に設定する。一方、仮に「掃除ロボット」の発話機器20の発話性能が16kHzのサンプリング周波数まで対応可能な場合、サーバ制御部14は、発話を聞きやすいように、「スマートスピーカ」に設定するサンプリング周波数よりも、サンプリング周波数を高く設定する。この場合、サーバ制御部14は、サンプリング周波数を「16kHz」または「中」に設定する。なお、発話機器20の種類または識別子からその発話性能が特定できる場合、サーバ制御部14は、発話機器20の種類または識別子に応じて、サンプリング周波数を設定してもよい。
<事例2>
事例2において、音源特性はサンプリング周波数を含む。サーバ制御部14は、発話機器20のスピーカ24の配置によって、サンプリング周波数に対して細部の修正を行うことができる。発話機器20のスピーカ24が発話機器20の筐体の内部に含まれるという配置の場合、特定の周波数成分は当該筐体に遮られて減衰することがある。サーバ制御部14は、発話機器20の種類、識別子(製品番号)、または名称に基づいて、当該発話機器20のスピーカ24の配置を判断してもよい。サーバ制御部14は、スピーカ24が遮られた配置であると判断した場合、サンプリング周波数を、発話機器20のスピーカ24の配置により発話機器20に遮られて減衰する周波数成分に応じて設定する。より具体的には、発話機器20の筐体に遮られて減衰する周波数成分を補償するように、例えば、当該周波数成分が多く含まれるように、サンプリング周波数を設定してもよい。
また、サーバ制御部14は、スピーカ24の配置によって、他の音源特性を設定してもよい。例えば、「冷蔵庫」や「洗濯機」の発話機器20のスピーカ24は概ね、発話機器20の外部に設置されている、一方、「掃除ロボット」の発話機器20は、その外部が障害物やゴミに接触する可能性が高いため、スピーカ24はハウジング内部に設置されていることが好ましい。スピーカ24の設置位置が発話機器の内部である場合、設置位置が外部である場合に比べて、発声がハウジングに部分的に遮断されて聞きにくくなる場合があるので、音量を上げる方が好ましい。発話をより聞きやすくするために、サーバ制御部14は、スピーカ24を内蔵した「掃除ロボット」の発話機器20に対して、「冷蔵庫」や「洗濯機」の発話機器20に設定されるサンプリング周波数よりも相対的に高いサンプリング周波数を設定してもよく、例えば、サンプリング周波数を「16kHz」または「中」に設定する。
<事例3>
事例3において、音源特性は音量を含む。発話機器20は、人感センサ、ブルートゥース接続、GPS技術などによってユーザとの距離を取得し、サーバ10に送信する。サーバ制御部14は、発話機器20とユーザとの距離に応じて、音量を設定する。サーバ制御部14は、発話機器20とユーザとの距離が大きいほど、音量を大きく設定してもよく、これによりユーザは発話が聞こえやすくなる。例えば、1メートルと3メートルという2つの距離閾値が設けられ、サーバ制御部14は、発話機器20とユーザとの距離が、1メートル未満、1メートル以上かつ3メートル未満、3メートル以上であるとき、音量を「小」、「中」、「大」にそれぞれに設定する。
あるいは、発話機器20は、発話機器20自体が稼働状態であるかをサーバ10に送信し、サーバ制御部14は、発話機器20が稼働中であるか否かに応じて音量を設定してもよい。具体的には、発話機器20は稼働している間に定期的に稼働状態であることをサーバ10に通知する。サーバ制御部14は、当該通知によって発話機器20が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量を大きく設定する。一般的に、発話機器20は稼働中に稼働音を発するため、音量を相対的に大きく設定することが好ましい。例えば、サーバ制御部14は、発話機器20が待機中または充電中であると判断した場合、音量を「中」に設定し、稼働状態であると判断した場合、音量を「大」に設定する。
<事例4>
事例4において、音源特性は、音量、話す速さおよび周波数成分の少なくとも1つを含む。サーバ制御部14は、発話機器20の発話対象のユーザに応じてこれらの音源特性を設定してもよい。1つの実施例において、サーバ制御部14は、サーバ記憶部12に記憶された照合表によって、発話機器20が特定のユーザと紐付けられているか否か(すなわち、発話機器20に対して特定のユーザが登録されているか否か)を判断する。サーバ制御部14は、紐付けられたユーザがいると判断した場合、当該ユーザを発話対象のユーザにする。別の実施例において、発話機器20は、人感センサ、ブルートゥース接続、GPS技術などによって最寄りのユーザを特定し、当該ユーザに関する情報をサーバ10に送信する。サーバ制御部14は、当該最寄りのユーザを発話対象のユーザにする。
サーバ制御部14は、発話機器20の発話対象のユーザの年齢に応じて、音量、話す速さおよび/又は周波数成分を設定する。具体的には、サーバ制御部14は、発話機器20の発話対象のユーザの年齢が所定年齢以上であると判断した場合、所定年齢未満であると判断した場合に比べて、音量を大きく設定し、話す速さを遅く設定し、および/または、高い周波数成分を多く含むように設定する。一般的に、年齢の高いユーザに対しては、音量を上げたり、話す速さを遅くしたり、周波数を高くした方が、聞きやすくなる。例えば、ユーザが所定年齢未満、例えば、70歳未満であると判断した場合、サーバ制御部14は、音量を「中」に設定し、話す速さおよび周波数成分を「通常」に設定する。一方、特定された発話対象のユーザが所定年齢以上、例えば、70歳以上であると判断した場合、所定年齢以上のユーザでも発話がよく聞こえるように、サーバ制御部14は、音量を「中」に設定し、話す速さを「遅め」に設定し、周波数成分を「高い周波数成分が多め」に設定する。
<事例5>
サーバ制御部14は、発話機器20の設置場所に基づいて、音源特性を設定してもよい。例えば、発話機器20の設置場所が、浴室や脱衣室などのユーザの滞在する時間が比較的に少ない場所である場合、ユーザとの距離が大きいことが多いため、聞きやすくするように、音量を大きく設定したり、高い周波数成分を多めに設定したりしてもよい。
<発話機器を制御するサーバ10と通信する端末で使用されるプログラム>
サーバ10と通信する端末、例えば、発話機器20は、上述したような制御方法を実行するために使用されるプログラムを有する。
発話制御を実行するためのプログラムが発話機器20に使用される場合、当該プログラムは、機器記憶部21に記憶される。機器制御部22は当該プログラムを実行することによって、サーバ10によって提供される発話音源を用いて発話し、発話制御の機能を実現する。
これにより、サーバ制御部14は発話制御の処理が完了する。サーバ制御部14は、発話機器20やユーザに関する様々な情報に基づいて、発話機器20に応じた音源特性を設定する。例えば、音色特性または音質特性を通常より高く設定することによって、発話機器20の発話をより聞きやすくにすることができる。あるいは、ユーザにとってより聞きやすい発話内容を設定することによって、発話機器20の発話をより聞きやすくにすることもできる。
《実施の形態2》
<サーバ10が音源特性を設定する場合>
実施の形態2において、サーバ10は、発話機器20に応じた音源特性を設定し、設定した音源特性を有する発話音源を発話機器20にダウンロードさせることによって、発話音源を提供する。
図4は、実施の形態2におけるステップS130の一例のフローチャートでる。図5は、実施の形態2における発話機器を制御する方法の一例のシーケンス図である。サーバ制御部14は、ステップS120(図2)で設定した発話機器20に応じた音源特性を設定する(ステップS210)。サーバ制御部14は、実施の形態1のように、発話機器20の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、ユーザ情報、ならびにスピーカ24の配置のうちの少なくとも1つに基づいて音源特性を設定してもよい。
サーバ制御部14は、設定した音源特性を有する音源を複数の音源から発話音源として選択する(ステップS220)。1つの実施例において、サーバ制御部14は、すでにサーバ記憶部12に記憶された複数の音源から発話音源を選択する。別の実施例において、サーバ制御部14は、設定した音源特性に応じた音源を動的に生成し、生成した当該音源を発話音源として選択する。
次に、サーバ制御部14は、発話機器20に発話音源をダウンロードさせるように、発話音源に対応するアクセス先、例えば、発話音源に対応するURL(uniform resource locator、統一資源位置指定子)を発話機器20に送信する(ステップS230)。発話機器20は、受信したアクセス先を用いて発話音源をダウンロードして発話する。
以下、URLをアクセス先として利用される例示を用いて、発話音源の提供について説明する。1つの実施例において、サーバ制御部14は、発話条件となる情報元装置40の種類、シナリオ、発話キャラクタ、音質(サンプリング周波数など)、音源のフォーマット、サーバ記憶部12における音源の記憶位置、音源のバージョン、などに基づいて、URLを設定してもよい。一例として、URLは「https://serverURL/v1/deviceType/scenarioId/scenarioId_characterName_voiceQuality.extension」という形式にしたがって設定され得る。例えば、「洗濯機」の情報元装置40に関するシナリオに用いられ、「Mizuki」という発話キャラクタかつ低サンプリング周波数で作成された音源に対応するURLは、「https://serverURL/v1/washerDryer/washerDryer.dryingFinished/washerDryer.dryingFinished_Mizuki_low.wav」と設定される。
発話音源に設定され得る様々な音源をサーバ10に記憶しておき、発話機器20が発話の直前に発話音源をダウンロードさせることによって、サーバ10では、音源を更新しやすくなる。すなわち、サーバ10は、記憶している音源を更新したり、発話音源を動的に生成したりでき、柔軟に発話音源を提供することができる。
別の実施例において、サーバ制御部14は発話音源そのものを発話機器20に送信することによって、発話音源を提供する。さらに別の実施例において、機器記憶部21には様々な音源特性に対応する音声データがすでに記憶され、サーバ制御部14は設定した音源特性を発話機器20に送信する。発話機器20は受信する音源特性に基づいて対応する音声データを選択して発話する。
実施の形態2の発話機器を制御する方法、サーバ、発話機器、およびプログラムによれば、発話機器に応じてユーザにとって聞きやすい音源特性を設定することができるとともに、容易にかつ柔軟に発話音源を提供することができる。
《実施の形態3》
<サーバ10が複数のサーバによって構成されている場合>
実施の形態3において、サーバ10は、異なる役割を持つ複数のサーバによって構成されている。
図6は、実施の形態3における発話機器および発話機器を制御するサーバの概略構成を示すブロック図である。実施の形態3において、サーバ10は、発話指示サーバ10aと音源サーバ10bとを含む。発話指示サーバ10aは、サーバ記憶部12aとサーバ制御部14aとサーバ通信部16aとを含む。
音源サーバ10bは、サーバ記憶部12bとサーバ制御部14bとサーバ通信部16bとを含む。音源サーバ10bは、発話機器を制御する方法において、発話用の音声データ(音源)の生成、記憶およびダウンロードに関する動作を行う。一方、発話指示サーバ10aは、残る動作、例えば、発話機器20と端末装置30との通信を行う。
図7は、図6に示された構成によって実行され、実施の形態3における発話機器を制御する方法の一例のシーケンス図である。発話指示サーバ10aは、情報元家電40から発話元情報を受信し、発話機器20および音源特性を設定し、発話音源を選択し、発話機器20に発話指示を送信する。図7の実施例において、発話音源は音源サーバ10bのサーバ記憶部12bに記憶されており、発話指示は当該音源をダウンロードするためのURL(「DL用URL」)を含む。発話機器20は発話指示を受信すると、DL用URLに基づいて音源サーバ10bから発話音源をダウンロードし、発話音源で発話する。
これにより、サーバ10におけるそれぞれのサーバの処理負担を低減することができる。また、サーバ10におけるそれぞれは担当分の動作を行うための構成だけがあればよく、例えば、発話指示サーバ10aは音源生成のためのハードウェアを含まなくてもよい。この構成によって、サーバ10全体の維持および保守が容易になる。
なお、図6および図7と別の観点でサーバ10の機能を複数のサーバに分担させてもよい。例えば、サーバ10は、発話指示サーバと音源生成サーバと音源配信サーバとを含んでもよい。この場合、音源生成サーバが生成する発話音源は音源配信サーバのサーバ記憶部に記憶され、発話機器20によってダウンロードされる。
《実施の形態4》
<発話機器20が音源特性を設定する場合>
実施の形態4において、発話機器20が音源特性を設定し、設定した音源特性を有する音源をサーバ10に問い合わせる(要求する)。サーバ制御部14は、発話機器20からの問い合わせに基づく音源特性を有する発話音源選択し、選択した発話音源を発話機器20に提供する。
図8は、実施の形態4における、サーバ10が行うステップS130の一例のフローチャートである。図8におけるステップS310~ステップS330は、ステップS130の1つの具体例である。図9は、実施の形態4における発話機器を制御する方法の一例のシーケンス図である。サーバ制御部14は、後述するように、図8および図9に示されたフローで発話音源を発話機器20に提供する。
図10は、実施の形態4における、発話機器20が行う方法の一例のフローチャートである。発話機器20の機器記憶部21は、上述した発話機器20の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、発話機器20のユーザのユーザ情報、ならびに発話機器20のスピーカ24の配置のうちの少なくとも1つを記憶する。発話機器20の機器制御部22は、図10のフローチャートを実行するように構成されている。
発話機器を制御する方法において、サーバ制御部14はまず、発話元情報を受信して発話機器20を設定する(図2のステップS110およびステップS120)。発話機器20を設定した後、サーバ制御部14は、発話機器20が発話すべきことを発話機器20に通知するように、発話指示を発話機器20に送信する。この実施例の発話指示は、機器制御部22が音源特性を設定する際に必要な情報を含み、例えば、発話元情報、または発話元情報に基づく発話条件もしくは対応するシナリオを含んでもよい。機器制御部22は、発話指示に含まれた情報を用いて、上述した実施の形態1のように、発話機器20の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、ユーザ情報、ならびにスピーカ24の配置のうちの少なくとも1つに基づいて、発話機器20に適した音源特性を設定する(ステップS410)。
機器制御部22は、設定した音源特性を用いて、当該音源特性を有する音源(発話音源)を取得するようにサーバ10に問い合わせる(ステップS420)。より具体的には、機器制御部22は音源特性を有する音源のURLを問い合わせる。これに応じて、サーバ制御部14は、機器制御部22によって設定された音源特性を用いる問い合わせを、発話機器から受信する(ステップS310)。
サーバ制御部14は、サーバ記憶部12に記憶された複数の音源から、問い合わせにおける音源特性を有する音源を発話音源として選択する(ステップS320)。そして、サーバ制御部14は、発話機器に発話音源をダウンロードさせるように、発話音源に対応するURL(「DL用URL」)を発話機器に送信する(ステップS330)。これに応じて、機器制御部22は音源特性を有する発話音源をサーバ10から取得する(ステップS430)。具体的には、機器制御部22は、通知されたURL(「DL用URL」)を用いて発話音源をダウンロードする。その後、機器制御部22は、スピーカ24および発話音源を用いて発話する(ステップS440)。
発話制御を実行するためのプログラムが発話機器20に使用される場合、当該プログラムは、機器記憶部21に記憶される。機器制御部22は当該プログラムを実行することによって発話制御の機能を実現する。1つの実施例において、機器制御部22は当該プログラムを実行することによって、図10に示されたように発話機器20を制御する。
実施の形態4の発話機器を制御する方法、サーバ、発話機器、およびプログラムによれば、発話機器20はそれ自体に適した音源特性を設定することができる。すなわち、発話機器20はその発話を聞きやすくするように制御することができる。
《実施の形態5》
<サーバ10が複数の候補音源を発話機器20に提供する場合>
実施の形態5において、サーバ10は複数の候補音源を提供し、発話機器20は候補音源から発話音源を選択して発話する。
図11は、実施の形態5におけるステップS130の一例のフローチャートである。図12は、実施の形態5における発話機器を制御する方法の一例のシーケンス図である。
発話機器を制御する方法において、サーバ制御部14はまず、発話元情報を受信して発話機器20を設定する(図2のステップS110およびステップS120)。発話機器20を設定した後、サーバ制御部14は、サーバ記憶部12に記憶された複数の音源から、音源特性に応じた複数の候補音源を選択する(ステップS510)。1つの実施例において、設定した音源特性を有する音源が複数存在しており、サーバ制御部14は、これらの音源を候補音源として選択する。
1つの実施例において、サーバ制御部14は、設定した音源特性を有する音源、および、設定した音源特性と類似な音源特性を有する音源を、候補音源として選択する。類似な音源特性とは、例えば、音量等の音源特性の設定値から所定範囲内の値を有する音源特性である。例えば、「音量:50dB」という設定した音源特性に対して、10dBの所定範囲内、「音量:40dB」~「音量:60dB」という音源特性を有する音源は候補音源として選択され得る。例えば、「サンプリング周波数:大」という設定した音源特性に対して、「サンプリング周波数:大」および「サンプリング周波数:中」」という音源特性を有する音源は候補音源として選択され得る。また、例えば、「音声キャラクタ:男性、青年」という設定した音源特性に対して、「音声キャラクタ:男性、青年」および「音声キャラクタ:女性、青年」」という音源特性を有する音源は候補音源として選択され得る。
サーバ制御部14は、複数の候補音源に対応するURLを発話機器20に送信する(ステップS520)。サーバ制御部14は、複数の候補音源から選択される発話音源に対応するURLを介して、発話音源を発話機器20に提供する(ステップS530)。
1つの実施例において、サーバ制御部14は、複数の候補音源に対応するURLを含む発話指示を発話機器に送信する。機器制御部22は、複数のURL(「DL用URL」)を含む発話指示を受信すると、これらのURLを用いて候補音源をダウンロードする。そして、機器制御部22は、ダウンロードした候補音源の音源特性に基づいて、発話音源を選択し、発話音源で発話する。
別の実施例において、サーバ制御部14は発話指示を発話機器に送信し、発話指示は、複数の候補音源に対応するURLと、これらのURLが対応する音源特性に関する情報とを含む。機器制御部22は、複数のURLを含む発話指示を受信すると、これらのURLが対応する音源特性に基づいて、発話音源として有すべき音源特性を選択する。そして、機器制御部22は、選択した音源特性に対応するURLを用いて発話音源をダウンロードし、発話音源で発話する。
なお、機器制御部22が発話音源、または発話音源として有すべき音源特性を選択するときには、実施の形態1のように、発話機器20自体の種類、識別子、発話性能、稼働状態、設置場所、およびユーザとの距離、ユーザ情報、ならびにスピーカ24の配置のうちの少なくとも1つに基づいて設定してもよい。
実施の形態5の発話機器を制御する方法、サーバ、発話機器、およびプログラムによれば、発話機器20は提供された複数の候補音源から発話音源を選択することができる。よって、サーバ10はより容易にかつ柔軟に発話音源を提供することができる。また、発話機器20は発話直前の状態に基づいて選択するため、より精確に聞きやすい発話音源を選択することができる。
《実施の形態6》
<ユーザに複数の候補音源から発話音源を設定/選択させる場合>
実施の形態6において、サーバ10または発話機器20は、複数の候補音源を提供してユーザに発話音源を設定/選択させる。
図13は、実施の形態6における発話機器を制御する方法の一例のシーケンス図である。実施の形態6において、サーバ10が音源特性を設定して音源をユーザに選択させる例示を説明するが、発話機器20が音源特性を設定して音源をユーザに選択させてもよい。
図13の実施例において、まず、発話元情報を受信して発話機器20を設定する(図2のステップS110およびステップS120)。発話機器20を設定した後、サーバ制御部14は、上述した実施の形態1~3のように発話機器20に応じた音源特性を設定し、そして、設定した音源特性を有する音源を複数の音源から複数の候補音源として選択する。
次に、サーバ制御部14は、複数の候補音源に関する情報を端末装置30の関連アプリケーション32を介してユーザに提示する。複数の候補音源に関する情報は、設定された音源特性を含んでもよく、ユーザにとってより分かりやすくするように、設定された音源特性から抽出された情報を含んでもよい。また、サーバ制御部14は、ユーザが候補音源を試聴してから発話音源を選択することができるように、端末装置30に候補音源をダウンロードさせてもよい。
ユーザが端末装置30に提示された情報または試聴に基づいて発話音源を選択すると、端末装置30は選択結果を含む選択指示をサーバ10に送信する。サーバ制御部14は、選択指示に基づいて、上述した実施の形態1~3のように、発話音源を発話機器20に提供して、発話機器20に発話音源を用いて発話させる(図2のステップS130およびステップS140)。
1つの実施例において、サーバ制御部14は、発話機器20に応じた複数の音源特性を候補特性として設定し、端末装置30を介して候補特性に関する情報をユーザに提示し、採用する音源特性をユーザに選択させる。サーバ制御部14は、端末装置30から選択結果を含む選択指示を受信すると、選択された音源特性を有する発話音源を発話機器に提供して、発話機器20に発話音源を用いて発話させる。
1つの実施例において、サーバ制御部14は、発話機器20に応じた複数の音源特性を候補特性として設定し、複数の音源から、これらの候補特性を有する複数の候補音源を選択する。サーバ制御部14は、端末装置30を介して、候補音源に関する情報をユーザに提示して、または候補音源をユーザに試聴させて、ユーザに発話音源を選択させる。サーバ制御部14は、端末装置30から選択結果を含む選択指示を受信すると、選択された発話音源を発話機器に提供して、発話機器20に発話音源を用いて発話させる。
これにより、発話音源または音源特性をユーザに選択させることができ、よりユーザの需要に沿った発話サービスを提供することができる。
<発話機器を制御するサーバ10と通信する端末で使用されるプログラム>
サーバ10と通信する端末、例えば、発話機器20または端末装置30は、上述したような制御方法を実行するために使用されるプログラムを有する。発話制御を実行するためのプログラムが発話機器20に使用される場合、当該プログラムは、機器記憶部21に記憶される。機器制御部22は当該プログラムを実行することによって発話制御の機能を実現する。
1つの実施例において、機器制御部22は当該プログラムを実行することによって、実施の形態1~3、5、6のいずれかのように、発話機器20に応じた発話音源をサーバ10から取得して発話する。
別の実施例において、機器制御部22は、当該プログラムを実行することによって、実施の形態4、6のように発話機器の制御方法を行う。
上述したように、サーバ10または発話機器20として機能させるためのプログラムは、コンピュータ読み取り可能なコンピュータ可読記憶媒体に記憶され得る。プログラムを記憶したコンピュータ可読記憶媒体を、発話テストサーバ10または発話機器20に供給すると、これらの制御部(例えば、CPUまたはMPU等)はコンピュータ可読記憶媒体に格納されたプログラムを読みだして実行することによって、その機能を発揮することができる。コンピュータ可読記憶媒体としては、ROM、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、磁気テープ、不揮発性のメモリカード等を用いることができる。
以上は本発明の具体的な実施の形態に過ぎず、本発明の保護範囲はこれに限定されるものではない。本発明は図面および前述した具体的な実施の形態において前述された内容を含むが、本発明がそれらの内容に限定されるものではない。本発明の範囲または趣旨から逸脱することなく、開示された様々の実施の形態または実施例を組み合わせることができる。本発明の機能および構造原理から逸脱しない変更は特許請求の範囲内のものである。
10 発話機器を制御するサーバ(サーバ)
10a 発話指示サーバ10a
10b 音源サーバ
12、12a、12b サーバ記憶部
14、14a、14b サーバ制御部
16、16a、16b サーバ通信部
20 発話機器
21 機器記憶部
22 機器制御部
23 機器通信部
24 スピーカ
25 センサ
30 端末装置
32 関連アプリケーション
40 情報元装置
50 外部情報源

Claims (10)

  1. 発話機器を制御する方法であって、
    情報元装置から発話元情報を受信するステップと、
    前記発話元情報に基づいて、発話機器を設定するステップと、
    前記発話機器に応じた音源特性を有する発話音源を前記発話機器に提供するステップと、
    前記発話機器に前記発話音源を用いて発話させるステップと、
    を含み、
    前記音源特性は、前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも1つに基づいて設定される、
    発話機器を制御する方法。
  2. 前記音源特性はサンプリング周波数を含み、
    前記発話機器の発話性能に応じて、サンプリング周波数が設定される、
    請求項1に記載の発話機器を制御する方法。
  3. 前記音源特性は音量を含み、
    前記発話機器が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量が大きく設定される、
    請求項1に記載の発話機器を制御する方法。
  4. 発話音源を前記発話機器に提供するステップは、
    前記発話機器に応じた音源特性を設定するステップと、
    設定した前記音源特性を有する音源を複数の音源から前記発話音源として選択するステップと、
    前記発話機器に前記発話音源をダウンロードさせるように、前記発話音源に対応するアクセス先を前記発話機器に送信するステップと、
    を含む、
    請求項2に記載の発話機器を制御する方法。
  5. 発話機器を制御するサーバであって、
    前記発話機器に提供可能な音源を記憶するサーバ記憶部と、
    サーバ制御部であって、
    情報元装置から発話元情報を受信し、
    前記発話元情報に基づいて、発話機器を設定し、
    前記発話機器に応じた音源特性を有する発話音源を前記発話機器に提供し、
    前記発話機器に前記発話音源を用いて発話させる
    ように構成された前記サーバ制御部と、
    を含み、
    前記音源特性は、前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも1つに基づいて設定される、
    発話機器を制御するサーバ。
  6. 前記音源特性はサンプリング周波数を含み、
    前記発話機器の発話性能に応じて、サンプリング周波数が設定される、
    請求項5に記載の発話機器を制御するサーバ。
  7. 前記音源特性は音量を含み、
    前記発話機器が稼働状態であると判断した場合、稼働状態でないと判断した場合に比べて、音量が大きく設定される、
    請求項5に記載の発話機器を制御するサーバ。
  8. 前記サーバ制御部は、発話音源を前記発話機器に提供するときには、
    前記発話機器に応じた音源特性を設定し、
    設定した前記音源特性を有する音源を複数の音源から前記発話音源として選択し、
    前記発話機器に前記発話音源をダウンロードさせるように、前記発話音源に対応するアクセス先を前記発話機器に送信する
    ようにさらに構成されている、
    請求項5に記載の発話機器を制御するサーバ。
  9. 発話可能な発話機器であって、
    前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも1つを記憶する機器記憶部と、
    機器制御部であって、
    前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも1つに基づいて、前記発話機器に適した音源特性を設定し、
    設定した前記音源特性を用いてサーバに問い合わせ、
    前記音源特性を有する発話音源を前記サーバから取得し、
    前記発話音源を用いて発話する
    ように構成された前記機器制御部と、
    を含む、
    発話機器。
  10. 請求項9に記載の発話機器に、前記発話機器の稼働状態、前記発話機器の設置場所、および、前記発話機器のスピーカの配置のうちの少なくとも1つに基づいて、前記発話機器に適した音源特性を設定し、設定した前記音源特性を用いてサーバに問い合わせ、前記音源特性を有する発話音源を前記サーバから取得し、前記発話音源を用いて発話させるためのプログラム。
JP2023060786A 2021-04-09 2023-04-04 発話機器を制御する方法、サーバ、発話機器、およびプログラム Pending JP2023100618A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021066716 2021-04-09
JP2021066716 2021-04-09
JP2022519353A JP7398683B2 (ja) 2021-04-09 2021-08-20 発話機器を制御する方法、サーバ、発話機器、およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2022519353A Division JP7398683B2 (ja) 2021-04-09 2021-08-20 発話機器を制御する方法、サーバ、発話機器、およびプログラム

Publications (1)

Publication Number Publication Date
JP2023100618A true JP2023100618A (ja) 2023-07-19

Family

ID=83545281

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022519353A Active JP7398683B2 (ja) 2021-04-09 2021-08-20 発話機器を制御する方法、サーバ、発話機器、およびプログラム
JP2023060786A Pending JP2023100618A (ja) 2021-04-09 2023-04-04 発話機器を制御する方法、サーバ、発話機器、およびプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2022519353A Active JP7398683B2 (ja) 2021-04-09 2021-08-20 発話機器を制御する方法、サーバ、発話機器、およびプログラム

Country Status (3)

Country Link
JP (2) JP7398683B2 (ja)
CN (1) CN115461810A (ja)
WO (1) WO2022215284A1 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126548A (ja) * 2004-10-29 2006-05-18 Matsushita Electric Works Ltd 音声合成出力装置
JP2009139390A (ja) * 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
JP2010048959A (ja) * 2008-08-20 2010-03-04 Denso Corp 音声出力システム及び車載装置
JP5996603B2 (ja) * 2013-10-31 2016-09-21 シャープ株式会社 サーバ、発話制御方法、発話装置、発話システムおよびプログラム
JP6391386B2 (ja) * 2014-09-22 2018-09-19 シャープ株式会社 サーバ、サーバの制御方法およびサーバ制御プログラム
JP2018109663A (ja) * 2016-12-28 2018-07-12 シャープ株式会社 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
CN109272984A (zh) * 2018-10-17 2019-01-25 百度在线网络技术(北京)有限公司 用于语音交互的方法和装置
JP7207425B2 (ja) * 2018-12-19 2023-01-18 株式会社ニコン 対話装置、対話システムおよび対話プログラム
JP7077375B2 (ja) * 2020-09-17 2022-05-30 シャープ株式会社 応答システム

Also Published As

Publication number Publication date
JP7398683B2 (ja) 2023-12-15
WO2022215284A1 (ja) 2022-10-13
JPWO2022215284A1 (ja) 2022-10-13
CN115461810A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN111989741B (zh) 具有动态可切换端点的基于语音的用户接口
CN106297781B (zh) 控制方法和控制器
CN106257355B (zh) 设备控制方法和控制器
JP6660808B2 (ja) 音声出力制御装置、電子機器、および音声出力制御装置の制御方法
WO2016052018A1 (ja) 家電管理システム、家電、リモコン装置、ロボット
JP6928882B2 (ja) 情報処理装置、音声認識システム、及び、情報処理方法
KR20180042376A (ko) 응답을 제공하기 위한 디바이스 선택
JP2018036397A (ja) 応答システムおよび機器
CN110806849A (zh) 智能设备及其音量调节方法和计算机可读存储介质
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN115273433A (zh) 多用户环境中的智能警报
WO2022215284A1 (ja) 発話機器を制御する方法、サーバ、発話機器、およびプログラム
JP6621593B2 (ja) 対話装置、対話システム、及び対話装置の制御方法
WO2020105466A1 (ja) 情報処理装置、及び情報処理方法
WO2022215280A1 (ja) 発話機器の発話テスト方法、発話テストサーバ、発話テストシステム、および発話テストサーバと通信する端末で使用されるプログラム
JP7392125B2 (ja) 発話機器の発話を制御する方法、発話機器の発話を制御するサーバ、発話機器、およびプログラム
JP6855528B2 (ja) 制御装置、入出力装置、制御方法、および制御プログラム
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
KR20240054021A (ko) 상황 별 거동 패턴을 제안 가능한 전자 디바이스 및 그 제어 방법
JP2020024276A (ja) 情報処理装置、情報処理システム、制御プログラム、情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240514