JP6929811B2 - 音声対話端末、および音声対話端末制御方法 - Google Patents

音声対話端末、および音声対話端末制御方法 Download PDF

Info

Publication number
JP6929811B2
JP6929811B2 JP2018045903A JP2018045903A JP6929811B2 JP 6929811 B2 JP6929811 B2 JP 6929811B2 JP 2018045903 A JP2018045903 A JP 2018045903A JP 2018045903 A JP2018045903 A JP 2018045903A JP 6929811 B2 JP6929811 B2 JP 6929811B2
Authority
JP
Japan
Prior art keywords
voice
utterance
voice dialogue
volume value
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018045903A
Other languages
English (en)
Other versions
JP2019159121A (ja
Inventor
小林 丈朗
丈朗 小林
好理 大久保
好理 大久保
大 石丸
大 石丸
吉沢 純一
純一 吉沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVS Regza Corp
Original Assignee
TVS Regza Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVS Regza Corp filed Critical TVS Regza Corp
Priority to JP2018045903A priority Critical patent/JP6929811B2/ja
Priority to PCT/CN2019/078052 priority patent/WO2019174604A1/zh
Priority to CN201980016654.4A priority patent/CN112189230A/zh
Publication of JP2019159121A publication Critical patent/JP2019159121A/ja
Application granted granted Critical
Publication of JP6929811B2 publication Critical patent/JP6929811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

本実施形態は、音声対話端末および音声対話端末の制御方法に関するものである。
ユーザが発した音声を例えばマイクで収集し、収集した音声を音声認識処理により解析することでユーザが発した内容を判別し、その判別した内容に応じた応答をユーザに提供する音声対話システムがある。この音声対話システムは、音声対話サービスの部分と音声対話端末の部分の大きく2つの部分を含む。
音声対話サービスの部分は、ユーザが発した内容を入力として、入力された内容を音声認識処理により解析し、その解析結果に応じた応答をユーザに提供する機能を持つ。
音声対話端末の部分は、マイクで収集したユーザの発話内容を、音声データとして音声対話サービスに入力したり、音声対話サービスが出力する応答の内容を、ユーザに対して音声として出力したり周辺機器の制御を行ったりする機能を持つ。
さらに、音声対話サービスは、ユーザが発した内容の入力に対応した応答の提供ではなく、音声対話サービスが自発的に音声対話端末に情報を提供する場合もある。
特開2017−122930号公報
音声対話端末において出力する音声ボリュームの大きさは、ユーザが設定するのが一般的である。さらに音声対話端末の種類によっては、音声対話向けのボリュームに加え、例えば目覚まし等アラーム機能向けのボリューム等、機能ごとに個別に音声ボリュームが設定可能な機器も存在する。
一方、音声対話サービスが自発的に音声対話端末に情報を提供する場合、音声対話端末が、その提供された情報を音声として出力する場合は、音声対話向けのボリュームの値を使用するのが一般的である。
対話音声対話サービスが自発的に提供するサービスの内容は、ユーザにとっては緊急性の高い情報あるいは重要度の高い情報である。音声対話端末は、このような緊急性の高い情報あるいは重要度の高い情報を音声として出力する場合でも、通常の音声対話向けのボリューム値で出力を行う。
このため、緊急性の高い情報あるいは重要度の高い情報をユーザに伝えたい場合であっても、通常の音声対話向けのボリュームの値が低く設定されていると、その低く設定されたボリュームの値でしか音声を出力できず、ユーザが出力された音声の緊急性や重要性を認識できない、という課題があった。
そこで本実施形態では、音声対話端末が、音声対話サービスが自発的に提供する情報を、音声対話端末に設定されているボリューム値を用いて出力するのではなく、音声対話サービスから通知されたボリューム値を用いて出力する、音声対話サービスおよび音声対話装置からなる音声対話システムを提供することを目的とする。
本実施形態の音声対話端末は、外部から入力される音声を、ネットワークを介して音声対話サービスに対して送信する音声対話端末において、外部から入力される前記音声を収集する音声入力部と、前記音声入力部から入力された前記音声から第1のキーワードを検出するキーワード検出部と、前記キーワード検出部が前記第1のキーワードを検出した場合、前記音声対話サービスに対して、少なくとも、前記音声のうち前記第1のキーワードより後の前記音声を送信する制御部と、前記制御部により送信した前記音声に対応して前記音声対話サービスが送信する第1応答、または前記音声対話サービスが、前記制御部から送信した前記音声によらず自発的に送信する第1通知の内容とを音声で出力する発話部と、を有し、前記発話部は、前記第1通知の内容を、前記音声対話サービスが前記第1通知を送る際に付加したボリューム値の大きさの音声で出力する音声対話端末であって、
前記発話部は、前記第1応答の内容を、前記第1通知を送る際に付加したボリューム値を受信する前に予め前記発話部に設定されている第1応答ボリューム値の大きさの音声で出力する音声対話端末である。
図1は、一実施形態が適用された音声対話システムの概要を示す図である。 図2は、図1に示した音声対話端末および音声対話サービスの詳細な構成図である。 図3は、図2に示した音声対話端末と音声対話サービスにおいて、ユーザ5が発するトリガーワードを認識した音声対話端末1が、音声対話サービスA2−1と対話型の処理を行う場合の処理を行うシーケンスの例を示した図である。 図4は、図2に示した音声対話端末と音声対話サービスにおいて、音声対話サービスAが音声対話端末に対して自発的に情報を送信する自発型の処理を行う場合の処理シーケンスの例を示した図である。 図5Aは、音声対話サービスAが、発話音声データとその発話音声データを音声対話端末1の発話部で発話する際のボリューム値とを、1つのデータの塊として送信する場合の発話制御データのフォーマットの一例である。 図5Bは、音声対話サービスAが、発話音声データとその発話音声データを音声対話端末1の発話部で発話する際のボリューム値とを、別々のデータの塊として送信する場合の発話制御データのフォーマット501−2の一例である。 図6Aは、図5Aおよび図5Bに示すデータフォーマットの発話ボリューム値502に設定する値が数値の場合の、発話ボリューム値502に設定する値と音声対話端末1の発話部206が音声データを発話する際のボリューム値との関係を示した図である。 図6Bは、図5Aおよび図5Bに示すデータフォーマットの発話ボリューム値502に設定する値が識別子の場合の、発話ボリューム値502に設定する値と音声対話端末1の発話部206が音声データを発話する際のボリューム値との関係を示した図である。 図7は、音声対話端末が、図5に示したボリューム値を含む発話制御データを受信した場合の処理フローを示した図である。 図8Aは、図3に示す対話型の処理シーケンスの間に図4に示す自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。 図8Bは、図3に示す対話型の処理シーケンスの間に図4に示す自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の他の例を示した図である。 図8Cは、図3に示す対話型の処理シーケンスの間に図4に示す自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の他の例を示した図である。 図9Aは、音声対話サービスA2−1が、外部からのイベントA900に引き続き、外部からのイベントB910にも対応して自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。 図9Bは、音声対話端末1が音声対話サービスA2−1と音声対話サービスB2−2とを切り替えて使用することが可能な場合に、各々の音声対話サービスにおける外部イベントに対応して自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。
以下、本発明の実施の形態について図面を参照して説明する。
図1は、本発明の実施形態が適用された音声対話端末1を含む音声対話システムの概要を示す図である。本音声対話システムは、例えば家屋4に配置された音声対話端末1とクラウド上に存在する音声対話サービス2とからなる、音声対話端末1と音声対話サービス2は、ネットワーク3を介して互いに通信を行うことが可能である。
音声対話端末1は、またBluetooth(登録商標)、ZigBee(登録商標)、Wi−Fi等の近距離無線通信システムを介して、家屋4の中に設置されている照明10やエア・コンディショナー(エアコン)11、録画再生機器12と通信を行うことが可能である。また音声対話端末1は、赤外線通信のようなペアリングを必要としない通信方式を介して周辺機器を制御することも可能である。また音声対話端末1は、ここに示した電子機器以外の電子機器とも通信を行うことは可能である。
音声対話サービス2は、音声対話サービスA2−1と音声対話サービスB2−2の2つの音声対話サービスを含む。音声対話サービスA2−1と音声対話サービスB2−2のいずれを用いるかは、ユーザが発するトリガーワードによって決定される。
なお図1の例は、音声対話サービス2が音声対話サービスA2−1と音声対話サービスB2−2の2つの音声対話サービスが存在する例を示しているが、例えば1つの音声対話サービスしか存在しない場合でも、3つ以上の音声対話サービスが存在する場合であってもよい。
ユーザが音声対話端末1に対して発話すると、音声対話端末1は、備え付けのマイクから収集したユーザの発話の音声データを、ネットワーク3を介して音声対話サービス2に送る。
音声対話端末1から送られてきた音声データを受信した音声対話サービス2は、受信した音声データの解析を行い、解析した内容に応じた応答を生成する。音声対話サービス2は、応答を生成すると、ネットワーク3を介してその生成した応答を音声対話端末1に送信する。
音声対話サービス2が生成する応答は、音声による応答とコマンドによる応答の2種類の応答を含む。音声による応答は、音声対話端末1から入力される音声データに応じて音声対話サービス2が生成する応答である。コマンドによる応答は、音声対話端末1から入力される音声データに応じて音声対話端末1がもつ電子機器(デバイス)あるいは音声対話端末1と近距離無線通信システム等を介して接続されている周辺機器(周辺デバイス)を制御するコマンドである。音声対話端末1がもつ電子機器(デバイス)は、例えば付属するカメラである。音声対話端末1と近距離無線通信システム等で接続されている周辺機器(周辺デバイス)は、例えば照明10やエア・コンディショナー(エアコン)11である。
音声データによる応答の応答内容は、ユーザが音声対話端末1に対して発話した例えば「おはよう」に対する「おはようございます。今日は元気ですか?」のようにユーザが発話した内容に対応した返事である。また例えば「今から新幹線に乗って大阪に行くと何時に着くかな?」という質問に対する「今から30分後に出発すれば、夜の8時までに大阪駅に到着します」のようにユーザの問い掛けに対応した回答である。
音声対話サービス2から応答を受け取った音声対話端末1は、その応答が音声データによる応答の場合は、その応答の内容を、例えば備え付けのスピーカーより音声として出力することができる。これによりユーザは、自らの発話に対する音声対話システムの応答を聞くことができる。
コマンドによる応答の応答内容は、ユーザが音声対話端末1に対して発話した例えば「エアコンつけて」に対する「デバイス=エアコン10、操作=ON、モード=冷房、設定=温度26度、風量最大」の内容のコマンドである。また例えば「ちょっと電気つけて」に対する「デバイス=照明10、操作=ON」の内容のコマンドである。
音声対話サービス2から応答を受け取った音声対話端末1は、その応答がコマンドによる応答の場合は、コマンドに含まれている制御対象のデバイスの制御を行う。例えばコマンドの内容が「デバイス=エアコン10、操作=ON、モード=冷房、設定=温度26度、風量最大」の場合、音声対話端末1は、エアコン11を温度26度、風量最大の設定で起動するように、内部に持つWi-Fi、ZigBee、Bluetooth等の近距離無線通信システムを介して制御する。
コマンドによる応答の内容は、ユーザが音声対話端末1に対して発した例えば「AAA動画サービスのBBBコンテンツを再生して」に対する「play from www.xxxxxx.co.jp/musicBBB.wav」のように、コマンドの部分である「play」とユーザの発話の内容をもとにテキストデータに変換した部分である「www.xxxxxx.co.jp/musicBBB.wav」から構成される場合もある。
音声対話サービス2から応答を受け取った音声対話端末1は、その応答がテキストデータを含むコマンドによる応答の場合は、コマンドの解釈に加えてテキストデータ部分の解釈も行い、制御対象のデバイスの制御を行う。例えばコマンドの内容が「play from www.xxxxxx.co.jp/musicBBB.wav」の場合、音声対話端末1は、www.xxxxxx.co.jp/musicBBB.wavのデータを取得して、取得したデータを音声対話端末1内で再生してもよい。
このように音声対話サービス2は、ユーザとの対話に基づく情報の提供を行うことができる。
また音声対話サービス2は、音声対話端末1からの音声データの入力がない場合でも、自発的に音声対話端末1に情報を提供してもよい。
音声対話サービス2が自発的に提供する情報は、例えばユーザの近所のバス停へのバスの接近情報であったり、ユーザの居住地域への雨雲の接近情報であったりと、ユーザ個人のニーズに対応した情報であってもよいし、また例えば緊急地震速報や津波警報のように公共性の高い情報であってもよい。
図2は、図1に示した音声対話端末1および音声対話サービス2の詳細な構成図である。音声対話端末1と音声対話サービス2は、ネットワーク3を介して互いに通信することが可能である。
音声対話端末1は、トリガーワード検出部201、音声対話端末全体を制御する制御部202、音声対話端末1を制御するためのプログラムやワークメモリを含むシステムメモリー203、ネットワーク3を介して音声対話サービス2や周辺デバイスと通信するための通信制御部204、ユーザが発した発話を収集する音声入力部205、音声データによる応答を出力するための発話部206、音声対話端末1の状態、応答の内容、機能を設定する機能設定画面等を表示する表示部207、ユーザが操作する操作ボタン208からなる。
トリガーワード検出部(キーワード検出部と呼んでもよい)201は、ユーザが発話した内容からトリガーワードを検出する処理部である。
トリガーワードとは、ユーザが発話する、音声対話端末1との対話処理を開始するための所定のキーワードのことである。音声対話端末1は、ユーザが所定のキーワードであるトリガーワードを発話していることをトリガーワード検出部201で検出すると、トリガーワード以降のユーザの発話内容を、音声対話端末1に対して話しかけられているものとして、継続してユーザが発話した内容に対する処理を行う。
トリガーワード検出部201が検出すべきトリガーワードは、システムメモリー203のトリガーワード保存エリア(図示せず)に保存されている。トリガーワード検出部201は、設定されているどのトリガーワードがユーザから発話されても常に検出可能である。また、設定されているトリガーワードを検出した場合のみ、以降のユーザの発話内容を処理するために、検出したことを制御部202に通知する。通知を受けた制御部202は、以降のユーザの発話内容を、音声対話サービス2とデータのやり取りを行いながら処理していく。
通信制御部204は、音声対話サービス2との通信を制御する処理部である。通信制御部204は、ネットワーク3を介した音声対話サービス2との通信状態を監視し、音声対話サービス2との通信が可能かどうかを制御部202に通知する。また通信制御部204は、Bluetooth、ZigBee、Wi−Fi等の近距離無線通信システムや、赤外線通信の等の通信方式を含んでいてもよい。
音声入力部205は、例えばマイク等のユーザが発話した音声を収集できる処理部である。
発話部206は、音声対話サービス2が生成する応答が音声による応答の場合に、音声対話サービス2から送られてきた音声データの応答の内容を、音声で出力する処理部である。音声による応答の場合に、音声対話サービス2から送られてるデータは例えばテキストデータでもよく、テキストデータを受け取った発話部206は、音声合成機能を用いてテキストデータから音声データに変換し、音声で出力してもよい。また発話部206は、音声対話サービス2が自発的に情報を提供する場合でも、送られてきた音声データの内容を音声で出力する処理を行う。
音声対話サービス2は、音声対話サービスA2−1と音声対話サービスB2−2の2種類の音声対話サービスを持つ。音声対話サービスA2−1は、音声対話端末1から送られてくる音声データを認識して発話テキストに変換する音声認識システム261、発話テキストからユーザの発話の意図を理解する音声意図理解システム262、音声意図理解システム262により理解されたユーザの発した発話内容に対して応答を生成する対話処理システム263および自発処理システム265とからなる。
自発処理システム265は、音声認識システム261から対話処理システム263の音声対話端末1との対話に基づく処理とは異なり、外部からのイベントに対応して自発的に音声対話端末1に情報を提供する処理を行う。
また音声対話サービスB2−2は、音声対話サービスA2−1と同様に音声対話端末1から送られてくる音声データを認識してテキストデータに変換する音声認識システム271、音声データからテキストデータに変換された文字列の意図を理解する音声意図理解システム272、音声意図理解システム272により理解されたユーザの発した発話内容に対して応答を生成する対話処理システム273および自発処理システム275とからなる。
音声対話サービスA2−1および音声対話サービスB2−2は、それぞれ独自の得意とする音声対話サービス処理の特性を持ち、それぞれが異なる得意の処理分野(電気、医療、農業、スポーツ等の分野)を備えていてもよい。
図2の例は、音声対話サービス2が、音声対話サービスA2−1と音声対話サービスB2−2の2つの音声対話サービスを含む例を示しているが、例えば1つの音声対話サービスしか含まない場合でも、3つ以上の音声対話サービスを含む場合であってもよい。
図3は、図2に示した音声対話端末1と音声対話サービス2において、ユーザ5が発するトリガーワードを認識した音声対話端末1が、音声対話サービスA2−1と対話型の処理を行う場合の処理シーケンスの例を示した図である。なお音声対話端末1は、ユーザ5が発したトリガーワードがトリガーワードAであると判定した場合は、音声対話サービスA2−1を使用して、ユーザ5の発話に対する応答を生成するように予め設定されているものとする。
ユーザ5が発話する(S310、S311)と、ユーザ5が発話した音声を収集した音声対話端末1の音声入力部205は、その収集した音声を音声データとしてトリガーワード検出部201に送る。トリガーワード検出部201は、音声入力部205から送られてきた音声データを、音声認識処理によりシステムメモリー203に予め保存されているトリガーワードと一致するかの判定を行う。
判定の結果、ユーザ5がS310、S311で発した発話がトリガーワードAであることが判明した場合、音声対話端末1は音声対話サービスA2−1に対して対話開始指示を発行する(S312)。対話開始指示を受信(S312)した音声対話サービスA2−1は、音声対話端末1から送られてくる以降の音声データを解析するための準備を行う。
ユーザ5は、S310、S311の発話に引き続き音声対話端末1に対して発話を行う(S313、S314)。ユーザ5が発した発話の音声を収集した音声対話端末1は、ユーザ5の一連の発話(S313、S314)が終了したと認識すると、収集した発話の音声を音声データとして音声対話サービスA2−1に送信する(S315)。なお音声対話端末1は、ユーザ5の発話の途中でも、それまでに収集した発話の音声を順次音声データとして音声対話サービスA2−1に送信してもよい。
また、音声対話端末1がS315で音声対話サービスA2−1に送る音声データは、S313からS314のユーザの発話の音声データだけでも良いし、S310からS311のトリガーワードAも含めた音声データでもよい。あるいはS310からS314の間のユーザの発話における、任意の区間の発話の音声データであってもよい。
音声対話端末1から送られきた音声データを受信した音声対話サービスA2−1は、受信した音声データを解析し、解析結果に対応した応答の生成を行う。応答の生成を完了した音声対話サービスA2−1は、生成した応答である発話制御データ(2)を音声対話端末1に送信する(S316)。
音声対話サービスA2−1から応答を受信した音声対話端末1は、その応答の内容に基づいて動作を行う。図3の例は、音声対話サービスA2−1が生成する応答である発話制御データ(2)が音声データの場合である。発話制御データ(2)を受信(S316)した音声対話端末1は、その応答の内容を、発話部206より音声として出力する(S317、S318)。
音声対話端末1は、応答を出力し終わると音声対話サービスA2−1に対して発話の出力が終了した旨である対話終了通知を送信する(S319)。
発話開始(2)317から発話終了(2)の間において音声対話端末1の発話部206が出力するボリューム値は、音声対話端末1に予め設定されている通常の音声対話向けボリュームの値である。
図4は、図2に示した音声対話端末1と音声対話サービス2において、音声対話サービスA2−1が音声対話端末1に対して自発的に情報を送信する自発型の処理を行う場合の処理シーケンスの例を示した図である。
音声対話サービスA2−1は、外部からイベントを受信すると(S400)と、その受信したイベントに対応して音声対話端末1に対して発話制御データ(1)を送信する(S401)。音声対話端末1は、発話制御データ(1)を受信する(S401)と、その受信した発話制御データ(1)に対応した発話を行う(S402)。音声対話端末(1)は、受信した発話制御データ(1)に対応した発話を終了する(S403)と、終了した旨を発話終了通知として音声対話サービスA2−1に送信する(S404)。
ここで発話(1)開始(S402)から発話(1)終了(S403)の間における、音声対話端末1の発話部206が出力する発話のボリューム値は、音声対話サービスA2−1が指定した値である。
音声対話サービスA2−1が、音声対話端末1の発話部206が出力する発話のボリューム値を指定するために、音声対話サービスA2−1から音声対話端末1にボリューム値を送る必要がある。
図5Aおよび図5Bは、図4に示す自発型の処理シーケンスにおいて、音声対話サービスA2−1が音声対話端末1に送信する発話制御データにボリューム値を含む場合のフォーマット例である。
図5Aは、音声対話サービスA2−1が、発話音声データとその発話音声データを音声対話端末1の発話部206で発話する際のボリューム値とを、1つのデータの塊として送信する場合の発話制御データのフォーマット500Aの一例である。
発話音声ID501は、発話制御データの識別番号である。
発話ボリューム値502は、発話音声データ503の音声データを音声対話端末1の発話部206で発話する際のボリューム値である。
発話音声データ503は、音声対話端末1の発話部206が発話する音声データである。
この場合音声対話端末1は、発話音声データ503を含むデータの塊を発話部206で発話する際に、同一の発話音声ID501のデータの塊に含まれる発話ボリューム値502を用いて発話すればよい。
図5Bは、音声対話サービスA2−1が、発話音声データとその発話音声データを音声対話端末1の発話部206で発話する際のボリューム値とを、別々のデータの塊として送信する場合の発話制御データフォーマット500Bの一例である。
この場合音声対話端末1は、発話音声ID501と発話ボリューム値502からなるデータの塊と、同一の識別番号が設定されている発話音声データ503を含むデータの塊を検出し、その検出したデータの塊に含まれる発話音声データ503を音声対話端末1の発話部206で発話する際に、発話ボリューム値502を用いて発話すればよい。
なお、音声対話サービスA2−1が発話ボリューム値502に設定するボリューム値は、数値であっても予め決められた識別子であってもよい。
識別子とは、音声対話端末1の発話部206が設定可能なボリューム値を1、2、3という数値で絶対的に表現するのではなく、ふつう、おおきめ、というようにボリューム値を相対的に表現するものである。
発話ボリューム値502に識別子が設定されている場合、音声対話端末1の発話部206は、識別子の値から数値に置き換えた値の大きさのボリューム値で音声データを出力する。
なお、図5Aおよび図5Bでは、図4に示す自発型の処理シーケンスにおいて、音声対話サービスA2−1が音声対話端末1に送信する発話制御データにボリューム値を含む場合のフォーマット例を示したが、このフォーマットは、図3に示す対話型の処理シーケンスにおいて使用しても構わない。この場合音声対話サービスA2−1は、音声対話端末1に送信する発話制御データの発話ボリューム値502に、例えばNULLを設定してもよい。発話制御データを受信した音声対話端末1の発話部206は、発話ボリューム値502にNULLが設定されていることを認識した場合は、音声対話端末1に予め設定されているボリューム値を用いて、発話すればよい。
図6Aは、図5Aおよび図5Bに示すデータフォーマットの発話ボリューム値502に設定する値が数値の場合の、発話ボリューム値502に設定する値と音声対話端末1の発話部206が発話する際のボリューム値との関係を示した図である。
601は、音声対話サービスA2−1が発話制御データの発話ボリューム値502に設定する値である。602は、音声対話端末1の発話部206が音声データを発話する際のボリューム値である。
発話ボリューム値502に設定する値と発話部206が音声データを出力する際のボリューム値の組み合わせ610は、音声対話端末1の発話部206が、発話ボリューム値502に設定された値である5を用いて、ボリューム値5で発話した例である。
発話ボリューム値502に設定する値と発話部206が音声データを出力する際のボリューム値の組み合わせ611は、音声対話端末1の発話部206が、発話ボリューム値502に設定された値である5に対して、ボリューム値4で発話した例である。この例は
音声対話サービスA2−1が設定したボリューム値が、例えば音声対話端末1が持つボリューム値のレンジの上限を超えているため、発話部206が、設定可能なボリューム値の上限値である4に置き換えた例である。
図6Bは、図5Aおよび図5Bに示すデータフォーマットの発話ボリューム値502に設定する値が識別子の場合の、発話ボリューム値502に設定する値と音声対話端末1の発話部206が音声データを発話する際のボリューム値との関係を示した図である。
図6Bの例では、識別子は、ふつう、おおきめ、ちいさめ、の3段階の値を持つものとする。
なお音声対話端末1の発話部206は、ボリューム値を1から7の7段階の数値で設定できるとともに、ふつう、おおきめ、ちいさめ、の3段階の識別子の値でも設定できるものとする。ここで発話部206は、発話ボリューム値502に設定されているボリューム値が識別子のふつうの場合、数値の4に置き換えたものボリューム値として設定して、音声データを発話するものとする。また発話部206は、発話ボリューム値502に設定されているボリューム値が識別子のおおきめの場合、数値の5に置き換えたものをボリューム値として設定して、音声データを発話するものとする。また発話部206は、発話ボリューム値502に設定されているボリューム値が識別子のちいさめの場合、数値の3に置き換えたものをボリューム値として設定して、音声データを発話するものとする。
発話ボリューム値502に設定する識別子と発話部206が音声データを出力する際のボリューム値の組み合わせ620は、音声対話端末1の発話部206が、発話ボリューム値502に設定されたボリューム値が識別子のおおきめを、数値の5に置き換えたものをボリューム値として設定して、音声データを出力した例である。
発話ボリューム値502に設定する値と発話部206が音声データを出力する際のボリューム値の組み合わせ621は、音声対話端末1の発話部206が、発話ボリューム値502に設定された識別子の値であるおおきめを、数値の6に置き換えたものをボリューム値として設定して、音声データを出力した例である。
なお図6Bの例の、発話部206が設定するボリューム値がふつうは、数値に置き換えると4であり、また発話部206が設定するボリューム値がおおきめは、数値に置き換えると5であり、また発話部206が設定するボリューム値が小さめは、数値に置き換えると3である、は一例であり、これに限らない。例えば識別子の値各々に対応する数値は、識別子の値のふつうに対応する数値が4であり、識別子の値のおおきめに対応する数値が7であり、識別子の値の小さめに対応する数値が1であってもよい。識別子の値は、例えばやや小さい、ふつう、やや大きい、大きい、最大、の5段階の値を持ってもよい。
このように、音声対話サービス2は、自発的に音声対話端末1に情報を提供する場合、例えば緊急度や重要度あるいは突発性等の、その提供する内容に応じて音声対話端末1から発話のする際のボリューム値を設定することができる。これにより音声対話端末1の利用者は、提供された情報の緊急性、重要性あるいは突発性を簡単に認識することが可能となり、音声対話システムを使う利用者の使い勝手が向上する。
また音声対話サービス2が、発話ボリューム値502にボリューム値を設定する際に、数値を設定するか、識別子を設定するかは、自発的に提供する情報の内容に応じて選択してもよい。例えば、緊急性が高くかつ公共性の高い情報は、識別子を設定してもよい。緊急性が高くかつ公共性の高い情報として、例えば緊急地震速報を提供する場合、音声対話サービス2は、端末仕様が異なる多数の音声対話端末1に対して、それぞれの端末仕様に適合した数値でボリューム値を個々音声対話端末1に対して設定するよりは、識別子を用いて例えば最大、と設定した方がはるかに早く提供する情報の送信処理を完了させることができる。
図7は、音声対話端末1が、図5に示したボリューム値を含む発話制御データを受信した場合の処理フローを示した図である。
音声対話端末1の通信制御部204は、発話制御データを受信すると受信処理を開始する(700)。通信制御部204は、受信した発話制御データをパースして発話音声ID501、発話ボリューム値502および発話音声データ503を取得する(S701)。通信制御部204は、取得した発話ボリューム値502と発話音声データ503とを発話部206に転送する。発話部206は、転送されてきた発話音声データ503を、転送されてきた発話ボリューム値502を用いて出力する(S702)。
なお発話部206は、転送されてきた発話ボリューム値を用いて出力する発話音声データ503は、同一の発話音声IDを持つ発話音声データ503に対してのみである。発話部206は、音声データの発話が完了すると、処理を終了する(S703)。
このように音声対話端末1の発話部206は、音声対話サービス2から自発的な情報が送られてきた場合のみ、送られてきた発話制御データに含まれる発話ボリューム値502を用いて、発話音声データ503の音声データの発話を行う。
次に、図3に示すような対話型の処理シーケンスおよび図4に示すような自発型の処理シーケンスの組み合わせ方により、発話部206が発話音声データを出力する場合のボリューム値が変化する様子を説明する。
図8Aは、図3に示す対話型の処理シーケンスの間に図4に示す自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。
図8AのS800からS809の処理は、図3のS310からS319の処理と同一である。またS820からS829の処理も、図3のS310からS319の処理と同一である。また、S810からS814の処理は、図4のS400からS404の処理と同一である。
ここで音声対話端末1の発話部206が発話する通常の音声対話向けボリューム値は、例えば3として設定されているとする。一方、S813で音声対話サービスA2−1から送られてくる発話制御データに含まれる発話ボリューム値は、例えば数値の4とする。
この場合、発話(2)開始(S807)から発話(2)終了(S808)までの間の発話のボリューム値は、発話部206に設定されているボリューム値3である。一方発話(3)開始(S812)から発話(3)終了(S813)までの間の発話のボリューム値は、S811の処理で音声対話端末1が受信した発話制御データ(2)に含まれる発話ボリューム値、つまり数値の4である。またさらに発話(4)開始(S827)から発話(4)終了(S828)までの間の発話のボリューム値は、発話部206に設定されているボリューム値3である。
図8Bは、図3に示す対話型の処理シーケンスの間に図4に示す自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の他の例を示した図である。
音声対話端末1が、マイクミュートの状態であるとする。ミュートの状態とは、例えば音声対話端末1の音声入力部205が、ユーザが発した発話を収集しないように設定された状態である。
マイクミュートの状態においては、図8Bに示すようにユーザ5がS830からS831に示すようにトリガーワードAを発話し、続いてS833からS834に示すように発話(1)を行っても、音声対話端末1は、対話開始指示を音声対話サービスAに送信しない。この結果、音声対話端末1は、S830からS831およびS833からS834の発話に対する応答を、ユーザ5に対して返さない。
このような状態において図4に示す自発型の処理シーケンスと同一であるS840からS844が行われた場合、発話(3)開始(S842)から発話(3)終了(S843)までの間の発話のボリューム値は、S861の処理で音声対話端末1が受信した発話制御データ(2)に含まれる発話ボリューム値、つまり数値の4である。
また発話(3)開始(S862)から発話(3)終了(S863)の後に、再びユーザ5がS870からS871およびS873からS874に示すように発話を行っても、音声対話端末1は、応答を発話しない。
図8Cは、図3に示す対話型の処理シーケンスの間に図4に示す自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の他の例を示した図である。
ミュートの状態は、例えば音声対話端末1の発話部206が発話する際のボリューム値を0とした状態であってもよい。
発話部206が発話する際のボリューム値を0としたミュートの状態においては、図8Cに示すようにユーザ5がS860からS861に示すようにトリガーワードAを発話し、続いてS863からS864に示すように発話(1)に対応して、音声対話サービスAから発話制御データ(2)が送出されても(S866)、音声対話端末1はその発話制御データ(2)に対応して発話を行わない。この結果ユーザ5は、S860からS861およびS863からS864の発話に対する応答を聞くことができない。
このような状態において図4に示す自発型の処理シーケンスと同一であるS870からS874が行われた場合、発話(3)開始(S872)から発話(3)終了(S873)までの間の発話のボリューム値は、S871の処理で音声対話端末1が受信した発話制御データ(2)に含まれる発話ボリューム値、つまり数値の4である。
また発話(3)開始(S872)から発話(3)終了(S873)の後に、再びユーザ5がS880からS881およびS883からS884に示すように発話を行っても、音声対話端末1は、応答を発話しない。
このように音声対話端末1の発話部206は、自発型の処理シーケンスにおいてのみ、発話制御データに含まれる発話ボリューム値を用いて発話し、それ以外の場合においては、音声対話端末1に設定されているボリューム値や、ミュート状態等の設定状態に従って発話の制御を行うことができる。
さらに本実施形態の音声対話システムは、自発型の処理シーケンスが連続した場合でも、各々のシーケンスにおける発話制御データに含まれる発話ボリューム値の値に従って、発話部206が発話する音声データのボリューム値を設定することができる。
図9Aは、音声対話サービスA2−1が、外部からのイベント(S900)に引き続き、外部からのイベント(S910)にも対応して自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。S900からS904の処理は、図4のS400からS404の処理と同一である。また、S910からS914の処理も、図4のS400からS404の処理と同一である。
ここで発話(1)開始(S902)から発話(1)終了(S903)までの間の発話のボリューム値は、S901の処理で音声対話端末1が受信した発話制御データ(1)に含まれる発話ボリューム値、例えば数値の4である。一方発話(2)開始(S912)から発話(2)終了(S913)までの間の発話のボリューム値は、S911の処理で音声対話端末1が受信した発話制御データ(2)に含まれる発話ボリューム値、例えば数値の2である。
なお本実施形態の音声対話システムは、図1で説明したように音声対話端末1は、複数の音声対話サービスを切り替えて使用することが可能である。
図9Bは、音声対話端末1が音声対話サービスA2−1と音声対話サービスB2−2とを切り替えて使用することが可能な場合に、各々の音声対話サービスにおける外部イベントに対応して自発型の処理シーケンスが行われた場合の、発話部206が発話音声データを出力する場合のボリューム値の変化の様子の一例を示した図である。
S920からS924の処理は、図4のS400からS404の処理と同一である。また、S930からS934の処理も、図4のS400からS404の処理と同一である。
ここで発話(1)開始(S922)から発話(1)終了(S923)までの間の発話のボリューム値は、S921の処理で音声対話端末1が受信した発話制御データ(1)に含まれる発話ボリューム値、例えば数値の4である。一方発話(2)開始(S932)から発話(2)終了(S933)までの間の発話のボリューム値は、S931の処理で音声対話端末1が受信した発話制御データ(2)に含まれる発話ボリューム値、例えば数値の2である。
図9Bのシーケンス例は、音声対話端末1が、音声対話サービスA2−1からの発話制御データ(1)を受信し(S921)、それに対する処理を行っている(S922からS924)間に音声対話サービスB2−2からの発話制御データ(2)を受信した(S931)例である。このような場合でも音声対話端末1は、受信した発話制御データに含まれる発話音声IDにより、対応する発話音声データと発話ボリューム値を認識することが可能なため、それぞれ指定された発話ボリューム値を用いて、発話部206が発話する音声データのボリューム値を設定することが可能である。
さらに本実施形態の音声対話システムは、音声対話端末1の表示部207に表示されるメニューを用いて、音声対話サービス2が行う自発型の処理シーケンスによる自発型の情報提供サービスを選択したり、条件を設定したりすることが可能である。この音声対話サービスが行う自発型の処理シーケンスよる自発型の情報提供サービスの選択や条件設定は、自発型情報提供メニューの画面によりユーザが入力すると、その入力内容は、ネットワーク3を介して音声対話サービス2の自発処理システム265に登録される。
自発処理システム265は、外部からのイベントがあった場合、登録されている情報提供サービスの種類や条件を参照し、登録内容に合致した情報を、ユーザ5の音声対話端末5に提供する。
例えば音声対話端末1のユーザ5が、多数ある音声対話サービスが行う自発型情報提供サービスの中から、自分の好みにあった自発型情報提供サービスを選択することができる。自発処理システム265は、外部からのイベントがあった場合、登録されている情報提供サービスの種類を参照し、登録内容に合致した情報提供サービスの種類の情報を、ユーザ5の音声対話端末5に提供する。
また例えば音声対話端末1のユーザ5が、選択した自発型情報提供サービスCにおいて、さらに提供される情報を絞り込みたい場合もある。例えばユーザ5は、自発型情報提供サービスCが提供する情報のうち、自分が住んでいる場所近辺の情報だけ欲しい場合がある。この場合ユーザ5は、例えば自発型情報提供メニューの画面から音声対話端末1の位置情報を登録することができる。自発処理システム265は、外部からのイベントがあった場合、登録されている情報提供サービスCの条件を参照し、情報提供サービスCの情報のうち条件に合致した情報だけを、ユーザ5の音声対話端末5に提供する。
このように、音声対話サービスが自発的に音声対話端末に情報を提供する場合、緊急性の高い情報あるいは重要度の高い情報である場合がある。このような場合に対応するために、音声対話サービス2が音声対話端末1の発話部206が発話するボリューム値を指定する機能を用意することで、音声対話サービス2が提供する内容に応じて音声対話端末1の発話部206が発話するボリューム値を制御することが可能となり、ユーザに対して効果的に情報を提供することが可能となる。
またユーザ5は、音声対話サービス2が提供する自発型情報を、例えば提供される情報の地域性で絞り込む、等の自発型情報を絞り込むことが可能なため、ユーザのニーズにあった自発型情報を簡単に取得することが可能となる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。さらにまた、請求項の各構成要素において、構成要素を分割して表現した場合、或いは複数を合わせて表現した場合、或いはこれらを組み合わせて表現した場合であっても本発明の範疇である。また、複数の実施形態を組み合わせてもよく、この組み合わせで構成される実施例も発明の範疇である。
また、本明細書と各図において、既出の図に関して前述したものと同一又は類似した機能を発揮する構成要素には同一の参照符号を付し、重複する詳細な説明を適宜省略することがある。また請求項を制御ロジックとして表現した場合、コンピュータを実行させるインストラクションを含むプログラムとして表現した場合、及び前記インストラクションを記載したコンピュータ読み取り可能な記録媒体として表現した場合でも本発明の装置を適用したものである。また、使用している名称や用語についても限定されるものではなく、他の表現であっても実質的に同一内容、同趣旨であれば、本発明に含まれるものである。
1・・・音声対話端末、2・・・音声対話サービス、3・・・ネットワーク、201・・・トリガーワード検出部、202・・・制御部、203・・・システムメモリー、204・・・通信制御部、205・・・音声入力部、206・・・発話部、207・・・表示部、208・・・操作ボタン、261・・・音声認識システム、262・・・意図理解システム、263・・・対話処理システム、265・・・自発処理システム

Claims (3)

  1. 外部から入力される音声を、ネットワークを介して音声対話サービスに対して送信する音声対話端末において、
    外部から入力される前記音声を収集する音声入力部と、
    前記音声入力部から入力された前記音声から第1のキーワードを検出するキーワード検出部と、
    前記キーワード検出部が前記第1のキーワードを検出した場合、前記音声対話サービスに対して、少なくとも、前記音声のうち前記第1のキーワードより後の前記音声を送信する制御部と、
    前記制御部により送信した前記音声に対応して前記音声対話サービスが送信する第1応答、または前記音声対話サービスが、前記制御部から送信した前記音声によらず自発的に送信する第1通知の内容とを音声で出力する発話部と、
    を有し、
    前記発話部は、前記第1通知の内容を、前記音声対話サービスが前記第1通知を送る際に付加したボリューム値の大きさの音声で出力する音声対話端末であって、
    前記発話部は、前記第1応答の内容を、前記第1通知を送る際に付加したボリューム値を受信する前に予め前記発話部に設定されている第1応答ボリューム値の大きさの音声で出力する音声対話端末。
  2. 前記音声入力部および前記発話部は、前記第1通知の内容の出力を開始する前の前記第1応答ボリューム値を、前記第1通知の内容の出力を完了したあとも引き続き保持する、請求項1に記載の音声対話端末。
  3. 外部から入力される音声を、ネットワークを介して音声対話サービスに対して送信する音声対話端末において、
    外部から入力される前記音声を収集し、
    入力された前記音声から第1のキーワードを検出し
    前記音声対話サービスに対して、少なくとも、前記音声のうち前記第1のキーワードより後の音声を送信し、送信した前記音声に対応して前記音声対話サービスから送られてきた第1応答を受信するステップと、
    前記音声対話サービスが、前記音声対話端末から送信した前記音声によらず自発的に送信する第1通知を受信するステップと、
    を含み、
    前記第1通知の内容を、前記第1通知に付加したボリューム値の大きさの音声で出力する音声対話端末制御方法であって、
    前記第1応答の内容を、前記第1通知に付加したボリューム値を受信する前に予め発話部に設定されている第1応答ボリューム値の大きさの音声で出力する音声対話端末制御方法。
JP2018045903A 2018-03-13 2018-03-13 音声対話端末、および音声対話端末制御方法 Active JP6929811B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018045903A JP6929811B2 (ja) 2018-03-13 2018-03-13 音声対話端末、および音声対話端末制御方法
PCT/CN2019/078052 WO2019174604A1 (zh) 2018-03-13 2019-03-13 电子设备及电子设备控制方法
CN201980016654.4A CN112189230A (zh) 2018-03-13 2019-03-13 电子设备及电子设备控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018045903A JP6929811B2 (ja) 2018-03-13 2018-03-13 音声対話端末、および音声対話端末制御方法

Publications (2)

Publication Number Publication Date
JP2019159121A JP2019159121A (ja) 2019-09-19
JP6929811B2 true JP6929811B2 (ja) 2021-09-01

Family

ID=67907319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018045903A Active JP6929811B2 (ja) 2018-03-13 2018-03-13 音声対話端末、および音声対話端末制御方法

Country Status (3)

Country Link
JP (1) JP6929811B2 (ja)
CN (1) CN112189230A (ja)
WO (1) WO2019174604A1 (ja)

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
JP4080986B2 (ja) * 2003-10-28 2008-04-23 三菱電機株式会社 音声通知装置
DE602004013649D1 (de) * 2004-12-23 2008-06-19 Ericsson Telefon Ab L M Verfahren zum informieren mehrerer mobiler endgeräte über ein notereignis
CN101489091A (zh) * 2009-01-23 2009-07-22 深圳华为通信技术有限公司 一种语音信号传输处理方法及装置
CN101909105A (zh) * 2009-06-05 2010-12-08 鸿富锦精密工业(深圳)有限公司 手机音量调节方法
KR102056461B1 (ko) * 2012-06-15 2019-12-16 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
JP6068088B2 (ja) * 2012-10-22 2017-01-25 ホーチキ株式会社 防災警報システム
JP5996603B2 (ja) * 2013-10-31 2016-09-21 シャープ株式会社 サーバ、発話制御方法、発話装置、発話システムおよびプログラム
US20150127340A1 (en) * 2013-11-07 2015-05-07 Alexander Epshteyn Capture
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
JP6391386B2 (ja) * 2014-09-22 2018-09-19 シャープ株式会社 サーバ、サーバの制御方法およびサーバ制御プログラム
JP6678315B2 (ja) * 2015-04-24 2020-04-08 パナソニックIpマネジメント株式会社 音声再生方法、音声対話装置及び音声対話プログラム
JP6779659B2 (ja) * 2015-07-21 2020-11-04 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法および制御装置
CN106205648A (zh) * 2016-08-05 2016-12-07 易晓阳 一种语音控制音乐网络播放方法
CN106231108B (zh) * 2016-08-10 2019-10-29 Tcl移动通信科技(宁波)有限公司 一种移动终端音量控制方法及系统
CN107146613A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音交互方法及装置
CN107084511B (zh) * 2017-06-21 2019-09-06 广东美的暖通设备有限公司 用于指导操作空调的方法和装置、空调

Also Published As

Publication number Publication date
CN112189230A (zh) 2021-01-05
WO2019174604A1 (zh) 2019-09-19
JP2019159121A (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
JP6402748B2 (ja) 音声対話装置および発話制御方法
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP4086280B2 (ja) 音声入力システム、音声入力方法及び音声入力プログラム
JP2019086903A (ja) 音声対話端末、および音声対話端末制御方法
KR102489914B1 (ko) 전자 장치 및 이의 제어 방법
KR102249392B1 (ko) 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법
KR20200113105A (ko) 응답을 제공하는 전자 장치와 이의 동작 방법
KR20190031785A (ko) 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템
JP2016024212A (ja) 情報処理装置、情報処理方法およびプログラム
JPWO2015029304A1 (ja) 音声認識方法及び音声認識装置
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
KR101327112B1 (ko) 주변 소리 정보를 이용하여 다양한 사용자 인터페이스를 제공하는 단말기 및 그 제어방법
KR20150087687A (ko) 대화형 시스템, 디스플레이 장치 및 그 제어 방법
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
KR102594838B1 (ko) 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법
WO2020044543A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2015083741A1 (ja) 中継装置、表示装置および通信システム
WO2019187521A1 (ja) 音声情報送信装置、音声情報送信方法、音声情報送信プログラム、音声情報解析システム及び音声情報解析サーバ
JP6929811B2 (ja) 音声対話端末、および音声対話端末制御方法
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP2018055155A (ja) 音声対話装置および音声対話方法
KR102056329B1 (ko) 통역방법
US20210241755A1 (en) Information-processing device and information-processing method
JP2019191490A (ja) 音声対話端末、および音声対話端末制御方法
JP2007286376A (ja) 音声案内システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210811

R150 Certificate of patent or registration of utility model

Ref document number: 6929811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250