JP2020086943A - 情報処理装置、情報処理方法、および、プログラム - Google Patents
情報処理装置、情報処理方法、および、プログラム Download PDFInfo
- Publication number
- JP2020086943A JP2020086943A JP2018220547A JP2018220547A JP2020086943A JP 2020086943 A JP2020086943 A JP 2020086943A JP 2018220547 A JP2018220547 A JP 2018220547A JP 2018220547 A JP2018220547 A JP 2018220547A JP 2020086943 A JP2020086943 A JP 2020086943A
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- content
- information processing
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 33
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000004044 response Effects 0.000 claims abstract description 95
- 230000002123 temporal effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 18
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241001122315 Polites Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】ユーザの緊急度に応じた発話を実現する。【解決手段】通信部(31)と、制御部(32)とを備えているサーバ(3)において、制御部は、端末(2)が発話内容を発話中に、通信部を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える。【選択図】図3
Description
本発明は、情報処理装置、情報処理方法、および、プログラムに関する。
音声対話システムにおいては、当該システムと、ユーザとが交互に発話を行うことにより、対話が進行する。音声対話システムの用途は、案内システム、受付システム、雑談システム等、多岐に亘る。
このような対話システムでは、ユーザにとっての聴き取り聴き取りやすさを優先するために、システムの発話がゆっくりしていたり、正確な動作のために対話中にユーザの発話内容を確認する発話を挟んだりするので、スローテンポであることが多い。しかし、例えば、道案内を利用するユーザは急いでいることもあり、対話のテンポがユーザの気持ちとそぐわないことがある。
本発明の一態様は、ユーザの緊急度に応じた発話を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、音声情報取得部と、制御部とを備えている情報処理装置であって、上記制御部が、当該情報処理装置又は他の装置が発話内容を発話中に、上記音声情報取得部を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える。
上記の課題を解決するために、本発明の一態様に係る情報処理方法は、情報処理装置による情報処理方法であって、当該情報処理装置又は他の装置が発話内容を発話中に、ユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替えるステップを含む。
上記の課題を解決するために、本発明の一態様に係るプログラムは、情報処理装置としてコンピュータを機能させるためのプログラムであって、当該情報処理装置又は他の装置が発話内容を発話中に、ユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替えるステップを上記コンピュータに実行させるためのプログラムである。
本発明の一態様によれば、ユーザの緊急度に応じた発話を実現することができる。
〔実施形態1〕
以下、本発明の実施形態1について、詳細に説明する。本実施形態に係る対話システム1では、バージイン(システムが発話中にユーザが割り込んで発話すること)を許す仕組みを採用する。そして、対話システム1は、バージインが発生したか否か、また、発生したタイミングによりシステムの応答(セリフの内容、長さ、発話のスピード等)を変化させる。
以下、本発明の実施形態1について、詳細に説明する。本実施形態に係る対話システム1では、バージイン(システムが発話中にユーザが割り込んで発話すること)を許す仕組みを採用する。そして、対話システム1は、バージインが発生したか否か、また、発生したタイミングによりシステムの応答(セリフの内容、長さ、発話のスピード等)を変化させる。
例えば、バージインが発生しなかった場合、対話システム1は、ユーザの発話内容を丁寧に確認する。一方、バージインが発生した場合、対話システム1は、ユーザの発話内容の確認を行わなかったり、確認のセリフを短くしたりする。
従って、ユーザの性格、気持ち等に応じて会話のスピードを変えることができ、ユーザの使いやすさの向上を図ることができる。
(対話システム1)
図1は、本実施形態に係る対話システム1の構成を示す図である。対話システム1は、ユーザとの間で音声対話を行うシステムである。図1に示すように、対話システム1は、複数の端末2と、サーバ3とを備えている。端末2と、サーバ3とは、ネットワーク4を介して通信可能に構成される。端末2は、ユーザが携帯して対話の相手となる端末であり、例えば、PC(Personal Computer)、スマートフォン、タブレット端末等で構成される。サーバ3は、端末2と通信しながら、対話システム1を実現するサーバであり、サーバ用コンピュータ等で構成される。ネットワーク4は、LAN(Local Area Network)、インターネット等の通信網である。
図1は、本実施形態に係る対話システム1の構成を示す図である。対話システム1は、ユーザとの間で音声対話を行うシステムである。図1に示すように、対話システム1は、複数の端末2と、サーバ3とを備えている。端末2と、サーバ3とは、ネットワーク4を介して通信可能に構成される。端末2は、ユーザが携帯して対話の相手となる端末であり、例えば、PC(Personal Computer)、スマートフォン、タブレット端末等で構成される。サーバ3は、端末2と通信しながら、対話システム1を実現するサーバであり、サーバ用コンピュータ等で構成される。ネットワーク4は、LAN(Local Area Network)、インターネット等の通信網である。
(端末2)
図2は、本実施形態に係る端末2の構成を示すブロック図である。図2に示すように、端末2は、ハードウェアとして、通信部21、制御部22、音声再生部23、および、音声取得部24を備えている。
図2は、本実施形態に係る端末2の構成を示すブロック図である。図2に示すように、端末2は、ハードウェアとして、通信部21、制御部22、音声再生部23、および、音声取得部24を備えている。
通信部21は、ネットワーク4に接続され、ネットワーク4を介してサーバ3との間で通信を行う。
制御部22は、端末2全体を制御するものであり、図2に示すように、音声検出部221、および、割込位置計算部222として機能し、例えば、CPU等により構成される。音声検出部221は、ユーザが端末2に対して音声入力を行っているか否かを判定する。割込位置計算部222は、ユーザ音声が端末2の発話(以下、「システム発話」ともいう)に割り込んだ状況を示す割り込み情報を決定する。
音声再生部23、および、音声取得部24は、音声の入出力を制御する。音声再生部23は、ユーザに発話するものであり、例えば、スピーカ等により構成される。音声取得部24は、ユーザの音声を取得するものであり、例えば、マイク等により構成される。
(サーバ3)
図3は、本実施形態に係るサーバ3の構成を示すブロック図である。図3に示すように、サーバ(情報処理装置)3は、ハードウェアとして、通信部(音声情報取得部)31、制御部32、および、記憶部33を備えている。
図3は、本実施形態に係るサーバ3の構成を示すブロック図である。図3に示すように、サーバ(情報処理装置)3は、ハードウェアとして、通信部(音声情報取得部)31、制御部32、および、記憶部33を備えている。
通信部31は、ネットワーク4に接続され、ネットワーク4を介して端末2との間で通信を行う。
制御部32は、サーバ3全体を制御するものであり、特に、端末(他の装置)2が発話内容を発話中に、通信部31を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える。
そのため、端末2の発話中における、ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、当該緊急度に応じて応答内容を切り替えるので、ユーザの緊急度に応じた発話を実現することができる。
図3に示すように、制御部32は、音声認識部321、応答決定部322、および、音声合成部323として機能し、例えば、CPU等により構成される。
音声認識部321は、端末2から受信した、ユーザの音声データをテキストデータに変換する。応答決定部322は、音声認識部321が変換したユーザ音声のテキストデータと、端末2から受信した割り込み情報とから、端末2に発話させるテキストデータを決定する。音声合成部323は、応答決定部322が決定したテキストデータを音声データに変換する。
記憶部33は、制御部32からの指示によりデータを記憶し、また、データを読み出すものであり、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の、不揮発性記憶媒体により構成される。記憶部33には、データベースとして、応答決定DB331、および、応答内容DB332が構築され、記憶されている。応答決定DB331は、ユーザの音声から次の応答を決定するためのDBである。応答内容DB332は、ユーザの音声に対する応答内容を記憶するDBである。
なお、端末2がサーバ3の上記処理を行ってもよい。その場合、本実施形態に係る端末(情報処理装置)2では、音声取得部(音声情報取得部)24と、制御部22とを備えており、制御部22が、当該端末(当該情報処理装置)2が発話内容を発話中に、音声取得部24を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える。
すなわち、サーバ3として情報処理装置を実現する場合、請求項に係る音声情報取得部は、マイクの意味ではなく、音声信号を取得するインターフェースのことを意図している。一方、端末2として情報処理装置を実現する場合、請求項に係る音声情報取得部は、マイクであると言ってもよい。
(割り込み情報)
図4は、本実施形態に係る割り込み情報を説明するための図である。割り込み情報には、割り込みパーセント、および、割り込み位置がある。なお、図4の横軸は、時間軸である。
図4は、本実施形態に係る割り込み情報を説明するための図である。割り込み情報には、割り込みパーセント、および、割り込み位置がある。なお、図4の横軸は、時間軸である。
本実施形態に係るサーバ3では、制御部32は、割り込みパーセントに応じて、ユーザの緊急度を推定してもよい。そのため、装置の発話にユーザの音声が割り込んだときの、割り込みパーセントを応答の切り替え条件にするので、直観的な条件設定を行うことができる。
割り込みパーセントは、ユーザ音声の割り込みが発生したのが、システム発話が何%完了した時点だったか(すなわち、ユーザの音声が始まったタイミングにおける、発話内容における発話済みの内容の量の、発話内容の全体の量に対する割合)を示す。
上記内容の量は、発話済み内容に含まれる時間的長さまたは文字数であってもよいし、上記発話内容の全体の量は、発話内容の全体の時間的長さまたは文字数であってもよい。
割り込みパーセントは、以下の式1で算出される。
割り込みパーセント=(割り込み位置/音声長)×100[%]・・・式1
音声長は、システム発話全体の量を示し、図4では「A」で示される。割り込み位置は、ユーザ音声が開始したときにおける、システム発話の発話済の量を示し、図4では「B」で示される。図4のケース1、すなわち、A<Bの場合、バージインが発生しておらず、割り込みパーセントは100[%]になる。
音声長は、システム発話全体の量を示し、図4では「A」で示される。割り込み位置は、ユーザ音声が開始したときにおける、システム発話の発話済の量を示し、図4では「B」で示される。図4のケース1、すなわち、A<Bの場合、バージインが発生しておらず、割り込みパーセントは100[%]になる。
また、本実施形態に係るサーバ3では、制御部32が、割り込み位置に応じて、ユーザの緊急度を推定してもよい。そのため、装置の発話にユーザの音声が割り込んだときの、割り込み位置を応答の切り替え条件にするので、発話内容のどこを境目にするかを正確に指定した直観的な条件設定を行うことができる。
割り込み位置は、システム発話の開始から何秒の時点でユーザ音声が開始したか(すなわち、ユーザの音声が始まったタイミングにおける、発話内容における発話済み内容の量)を示す。図4では「B」で示される。なお、端末2は、システム発話の開始前に、ユーザ音声の入力を受け付けない。
上記内容の量は、発話済み内容に含まれる時間的長さ又は文字数であってもよい。
(応答決定DB331)
図5は、本実施形態に係る応答決定DB331の構成例を示す図である。図5に示すように、応答決定DB331は、現在の対話状態ID、ユーザ音声、割り込みパーセント、割り込み位置、緊急フラグ、および、次の対話状態IDを含む、複数のレコードから構成される。現在の対話状態IDは、前回応答した発話内容に対応する対話状態IDである(図6参照)。ユーザ音声は、ユーザから取得した音声を音声認識によりテキスト化したものである。割り込みパーセント、および、割り込み位置は、図4で説明した通りである。緊急フラグに関しては、後述する。次の対話状態IDは、応答内容DB332の対話状態IDを指示するものである。
図5は、本実施形態に係る応答決定DB331の構成例を示す図である。図5に示すように、応答決定DB331は、現在の対話状態ID、ユーザ音声、割り込みパーセント、割り込み位置、緊急フラグ、および、次の対話状態IDを含む、複数のレコードから構成される。現在の対話状態IDは、前回応答した発話内容に対応する対話状態IDである(図6参照)。ユーザ音声は、ユーザから取得した音声を音声認識によりテキスト化したものである。割り込みパーセント、および、割り込み位置は、図4で説明した通りである。緊急フラグに関しては、後述する。次の対話状態IDは、応答内容DB332の対話状態IDを指示するものである。
サーバ3の応答決定部322は、ユーザ音声と、割り込みパーセントまたは割り込み位置とをキーとして、応答決定DB331に対して条件検索を行うことにより、次の対話状態IDを特定する。条件検索のルールについて、以下に説明する。
(ルールR1)応答決定部322は、応答決定DB331の上の行(レコード)から順に判定する。応答決定部322は、上記のキーが行の条件に該当したら、条件検索を終了する。
(ルールR2)現在の対話状態ID、および、ユーザ音声に関しては、完全一致の場合に「真」とする。
(ルールR3)現在の対話状態ID、および、ユーザ音声のDB値が空白の場合には、ワイルドカードして扱う。
(ルールR4)割り込みパーセント、および、割り込み位置に関しては、「取得値<=DB値」の場合に「真」とする。
(ルールR5)応答決定DB331の行に、割り込みパーセント、および、割り込み位置の何れか一方が設定されている。従って、応答決定部322は、設定されている方の条件評価を行い、ユーザの緊急度を推定する。割り込みパーセント、および、割り込み位置の両方が設定されていない場合には、ワイルドカードとして扱う。
(ルールR1)応答決定部322は、応答決定DB331の上の行(レコード)から順に判定する。応答決定部322は、上記のキーが行の条件に該当したら、条件検索を終了する。
(ルールR2)現在の対話状態ID、および、ユーザ音声に関しては、完全一致の場合に「真」とする。
(ルールR3)現在の対話状態ID、および、ユーザ音声のDB値が空白の場合には、ワイルドカードして扱う。
(ルールR4)割り込みパーセント、および、割り込み位置に関しては、「取得値<=DB値」の場合に「真」とする。
(ルールR5)応答決定DB331の行に、割り込みパーセント、および、割り込み位置の何れか一方が設定されている。従って、応答決定部322は、設定されている方の条件評価を行い、ユーザの緊急度を推定する。割り込みパーセント、および、割り込み位置の両方が設定されていない場合には、ワイルドカードとして扱う。
例えば、現在の対話状態IDがA02であり、ユーザ音声が「東京駅」であり、割り込みパーセントが60[%]である場合には、上記のキーが図5の3行目に該当するので、応答決定部322は、次の対話状態IDとしてB02を特定する。
なお、緊急フラグの扱いについては、図7の説明を参照のこと。図5に示すように、緊急フラグの欄が空白の場合には、ワイルドカードの扱いとする。
(応答内容DB332)
図6は、本実施形態に係る応答内容DB332の構成例を示す図である。図6に示すように、応答内容DB332は、対話状態ID、発話内容、および、再生速度を含む、複数のレコードから構成される。
図6は、本実施形態に係る応答内容DB332の構成例を示す図である。図6に示すように、応答内容DB332は、対話状態ID、発話内容、および、再生速度を含む、複数のレコードから構成される。
対話状態IDは、応答決定DB331の「次の対話状態ID」に対応するIDである。すなわち、応答内容DB332の各レコードは、対話状態IDにより応答決定DB331から対応付けられる。発話内容は、ユーザ音声に対して端末2が応答する発話内容である。再生速度は、通常の速度を1.0として、通常より速い速度は1.0より大きい値が設定され、通常より遅い速度は1.0より小さい値が設定される。
各対話状態IDに対応する応答について、以下に説明する。B01の応答は、急いで道を聞かれた場合に簡潔に早口で案内するものである。B02の応答は、少し急いで道を聞かれた場合に簡潔に案内するものである。B03の応答は、落ち着いて道を聞かれた場合に丁寧に案内をするものである。C01の応答は、急いで会話を打ち切られた場合にすねたような返事をするものである。C02の応答は、少し急いで会話を打ち切られた場合に普通に返事をするものである。C03の応答は、落ち着いて会話を打ち切られた場合に丁寧に返事をするものである。
サーバ3の応答決定部322は、応答内容DB332を参照して、先に特定した「次の対話状態ID」に従って、応答内容を特定する。音声合成部323は、応答決定部322が特定した応答内容から、端末2に送信する音声データを合成する。ここで、発話内容の変化とは、セリフの変化、発話速度の変化、または、シナリオの変化である。シナリオの変化では、例えば、確認ステップを挟んだり、全く異なる対話に進んだりすることもある。
例えば、応答決定部322は、応答決定部DB331の「次の対話状態ID」として「B01」を特定した場合、応答内容DB332を参照して、発話内容として「東京駅へは〜」を決定し、再生速度として「1.2」を決定する。そして、音声合成部323は、「東京駅へは〜」という発話内容と、「1.2」という再生速度とから、音声データを合成する。
(緊急フラグ)
また、本実施形態に係るサーバ3では、制御部32が、緊急度に応じて、ユーザへの応答内容における、応答文の長さ、発話速度、または、応答文の数を切り替えてもよい。そのため、ユーザへの応答文の長さ、発話速度、または、応答文の数を切り替えるので、ユーザの緊急度に応じて応答内容の時間長を調整することができる。
また、本実施形態に係るサーバ3では、制御部32が、緊急度に応じて、ユーザへの応答内容における、応答文の長さ、発話速度、または、応答文の数を切り替えてもよい。そのため、ユーザへの応答文の長さ、発話速度、または、応答文の数を切り替えるので、ユーザの緊急度に応じて応答内容の時間長を調整することができる。
図7は、本実施形態に係る応答決定DB331の構成例を示す図である。図8は、本実施形態に係る応答内容DB332の構成例を示す図である。
図7に示すように、応答決定DB331は、緊急フラグを含む、レコードから構成されている。
緊急フラグは、数回の往復で構成される対話の全体を通してユーザが急いでいるか否かを判断して、その判断結果に応じて「真」または「偽」を設定することにより、対話システム1の発話を変化させる仕組みである。
緊急フラグの扱い方を、以下に説明する。まず、緊急フラグは、システム開始時(対話開始時)に「偽」に初期設定される。サーバ3の制御部32は、ユーザが発話する度に、「割り込みパーセント」を参照して、緊急フラグの更新を行う。制御部32は、割り込みパーセントが予め設定された閾値(例えば、90[%])以下になった場合、緊急フラグを「真」に設定する。すなわち、制御部32は、ユーザの音声の開始タイミングに応じて、ユーザの緊急度を推定する。制御部32は、緊急フラグを一度「真」に設定すると、その後「偽」に設定することはない。なお、上記の閾値は、対話システム1毎に任意の値を設定可能とする。
緊急フラグのDB値が空白の場合には、ワイルドカードとして扱われる。例えば、図5の応答決定DB331では、緊急フラグは、全て空白になっているので、考慮されていないことになる。
そして、本実施形態に係るサーバ3では、図7に示すように、応答決定DB331を設定することにより、会話を通してユーザが急いでいるか否かを判断する。そして、ユーザが急いでいない(緊急度が低い)場合に、ユーザへの応答内容における、応答文の数を増加させてもよい。そのため、ユーザの緊急度が低い場合に、当該ユーザへの応答文の数を増加させるので、会話終了後に、雑談、宣伝等の発話を行うことができる。
図8を参照して、各対話状態IDに対応する応答について、以下に説明する。D02の応答は、ユーザが急いでいないと判断して宣伝を始めるものである。D03の応答は、ユーザが急いでいる可能性があるので、簡潔に発話を終了するものである。
(対話システム1の処理)
図9は、本実施形態に係る対話システム1の処理を示すフローチャートである。以下に、図9を参照しながら、端末2の処理(ステップS201〜S209)、および、サーバ3の処理(ステップS301〜S309)と、それらの間でやりとりするデータとについて、説明する。
図9は、本実施形態に係る対話システム1の処理を示すフローチャートである。以下に、図9を参照しながら、端末2の処理(ステップS201〜S209)、および、サーバ3の処理(ステップS301〜S309)と、それらの間でやりとりするデータとについて、説明する。
(ステップS201)
端末2において、制御部22は、音声待ち受けを開始する。例えば、ユーザの操作に応じて、端末2が所定のサービスアプリ(例えば、道案内アプリ等)を起動した場合に、制御部22は、音声待ち受けを開始する。
端末2において、制御部22は、音声待ち受けを開始する。例えば、ユーザの操作に応じて、端末2が所定のサービスアプリ(例えば、道案内アプリ等)を起動した場合に、制御部22は、音声待ち受けを開始する。
(ステップS202)
音声取得部24は、ユーザの音声を取得する。この場合、割込位置計算部222は、音声の取得を開始したときに、ステップS208の音声再生がどのくらい進んでいたかを示すデータを音声再生部23から取得する。
音声取得部24は、ユーザの音声を取得する。この場合、割込位置計算部222は、音声の取得を開始したときに、ステップS208の音声再生がどのくらい進んでいたかを示すデータを音声再生部23から取得する。
(ステップS203)
制御部22の音声検出部221は、ユーザが端末2に対して音声入力を行っているか否かを判定する。ユーザが端末2に対して音声入力を行っている場合、制御部22は、音声取得部24に音声取得を継続させる。ユーザが端末2に対して音声入力を行っていない場合、制御部22は、音声待ち受けを終了する。
制御部22の音声検出部221は、ユーザが端末2に対して音声入力を行っているか否かを判定する。ユーザが端末2に対して音声入力を行っている場合、制御部22は、音声取得部24に音声取得を継続させる。ユーザが端末2に対して音声入力を行っていない場合、制御部22は、音声待ち受けを終了する。
(ステップS204)
割込位置計算部222は、ステップS202で取得したデータから、ユーザ音声が端末2の発話に割り込んだ状況を示す割り込み情報を生成する。そして、制御部22は、通信部21を介してサーバ3に、ユーザの音声データ、および、割り込み情報を送信する。
割込位置計算部222は、ステップS202で取得したデータから、ユーザ音声が端末2の発話に割り込んだ状況を示す割り込み情報を生成する。そして、制御部22は、通信部21を介してサーバ3に、ユーザの音声データ、および、割り込み情報を送信する。
(ステップS301)
サーバ3において、制御部32は、端末2から通信部31を介して、ユーザの音声データ、および、割り込み情報を受信する。
サーバ3において、制御部32は、端末2から通信部31を介して、ユーザの音声データ、および、割り込み情報を受信する。
(ステップS302)
制御部32は、割り込み情報の割り込みパーセントまたは割り込み位置が、予め設定された閾値以下である場合に、緊急フラグを「真」に更新する。
制御部32は、割り込み情報の割り込みパーセントまたは割り込み位置が、予め設定された閾値以下である場合に、緊急フラグを「真」に更新する。
(ステップS303)
音声認識部321は、端末2から受信した、ユーザの音声データをテキストデータに変換する。すなわち、音声認識を行う。
音声認識部321は、端末2から受信した、ユーザの音声データをテキストデータに変換する。すなわち、音声認識を行う。
(ステップS304)
応答決定部322は、音声認識部321が取得したユーザのテキストと、端末2から受信した割り込み情報をキーとして、応答決定DB331に対して条件検索を行う。
応答決定部322は、音声認識部321が取得したユーザのテキストと、端末2から受信した割り込み情報をキーとして、応答決定DB331に対して条件検索を行う。
(ステップS305)
応答決定部322は、応答決定DB331において、上記のキーに該当するレコードがあったか否かを判定する。キーに該当するレコードがあった場合(ステップS305のYES)、応答決定部322は、ステップS306の処理を実行する。キーに該当するレコードがなかった場合(ステップS305のNO)、制御部32は、ステップS309の処理を実行する。
応答決定部322は、応答決定DB331において、上記のキーに該当するレコードがあったか否かを判定する。キーに該当するレコードがあった場合(ステップS305のYES)、応答決定部322は、ステップS306の処理を実行する。キーに該当するレコードがなかった場合(ステップS305のNO)、制御部32は、ステップS309の処理を実行する。
(ステップS306:ユーザへの応答内容を切り替えるステップ)
応答決定部322は、上記のキーに該当したレコードの「次の対話状態ID」をキーとして、応答内容DB332を検索して、発話内容および再生速度を特定する。すなわち、端末2に発話させる応答内容を決定する。
応答決定部322は、上記のキーに該当したレコードの「次の対話状態ID」をキーとして、応答内容DB332を検索して、発話内容および再生速度を特定する。すなわち、端末2に発話させる応答内容を決定する。
(ステップS307)
音声合成部323は、応答決定部322が特定した、発話内容および再生速度から、端末2が発話する音声データを合成する。すなわち、応答決定部322が決定したテキストデータを音声データに変換する。
音声合成部323は、応答決定部322が特定した、発話内容および再生速度から、端末2が発話する音声データを合成する。すなわち、応答決定部322が決定したテキストデータを音声データに変換する。
(ステップS308)
制御部32は、音声合成部323が合成した音声データを、通信部31を介して端末2に送信する。
制御部32は、音声合成部323が合成した音声データを、通信部31を介して端末2に送信する。
(ステップS309)
制御部32は、音声データがない旨を示すデータを、通信部31を介して端末2に送信する。
制御部32は、音声データがない旨を示すデータを、通信部31を介して端末2に送信する。
(ステップS205)
端末2において、制御部22は、サーバ3から通信部21を介して、データを受信する。
端末2において、制御部22は、サーバ3から通信部21を介して、データを受信する。
(ステップS206)
制御部22は、受信したデータに音声データがあるか否かを判定する。受信したデータに音声データがある場合(ステップS206のYES)、制御部22は、ステップS201およびS207の処理を実行する。受信したデータに音声データがある場合(ステップS206のYES)、制御部22は、ステップS201の処理を実行する。
制御部22は、受信したデータに音声データがあるか否かを判定する。受信したデータに音声データがある場合(ステップS206のYES)、制御部22は、ステップS201およびS207の処理を実行する。受信したデータに音声データがある場合(ステップS206のYES)、制御部22は、ステップS201の処理を実行する。
(ステップS207)
制御部22は、音声再生部23に、受信した音声データの再生を開始させる。
制御部22は、音声再生部23に、受信した音声データの再生を開始させる。
(ステップS208)
音声再生部23は、音声データを再生する。
音声再生部23は、音声データを再生する。
(ステップS209)
音声再生部23は、音声データの再生を終了する。
音声再生部23は、音声データの再生を終了する。
〔実施形態2〕
上記各実施形態では、1つのサーバ3を用いる例を説明したが、サーバ3の有する各機能が、個別のサーバにて実現されていてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
上記各実施形態では、1つのサーバ3を用いる例を説明したが、サーバ3の有する各機能が、個別のサーバにて実現されていてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
〔実施形態3〕
端末2およびサーバ3の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、端末2およびサーバ3のそれぞれを、図10に示すようなコンピュータ(電子計算機)を用いて構成することができる。
端末2およびサーバ3の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、端末2およびサーバ3のそれぞれを、図10に示すようなコンピュータ(電子計算機)を用いて構成することができる。
図10は、端末2またはサーバ3として利用可能なコンピュータ910の構成を例示したブロック図である。コンピュータ910は、バス911を介して互いに接続された演算装置912と、主記憶装置913と、補助記憶装置914と、入出力インターフェース915と、通信インターフェース916とを備えている。演算装置912、主記憶装置913、および補助記憶装置914は、それぞれ、例えばプロセッサ(例えばCPU:Central Processing Unit等)、RAM(random access memory)、ハードディスクドライブであってもよい。入出力インターフェース915には、ユーザがコンピュータ910に各種情報を入力するための入力装置920、および、コンピュータ910がユーザに各種情報を出力するための出力装置930が接続される。入力装置920および出力装置930は、コンピュータ910に内蔵されたものであってもよいし、コンピュータ910に接続された(外付けされた)ものであってもよい。例えば、入力装置920は、キーボード、マウス、タッチセンサなどであってもよく、出力装置930は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置920および出力装置930の双方の機能を有する装置を適用してもよい。そして、通信インターフェース916は、コンピュータ910が外部の装置と通信するためのインターフェースである。
補助記憶装置914には、コンピュータ910を端末2またはサーバ3として動作させるための各種のプログラムが格納されている。そして、演算装置912は、補助記憶装置914に格納された上記プログラムを主記憶装置913上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ910を、端末2またはサーバ3が備える各部として機能させる。なお、補助記憶装置914が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。また、記録媒体に記録されているプログラムを、主記憶装置913上に展開することなく実行可能なコンピュータであれば、主記憶装置913を省略してもよい。なお、上記各装置(演算装置912、主記憶装置913、補助記憶装置914、入出力インターフェース915、通信インターフェース916、入力装置920、および出力装置930)は、それぞれ1つであってもよいし、複数であってもよい。
また、上記プログラムは、コンピュータ910の外部から取得してもよく、この場合、任意の伝送媒体(通信ネットワークや放送波等)を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 対話システム
2 端末(他の装置、情報処理装置)
3 サーバ(情報処理装置)
22 制御部
24 音声取得部(音声情報取得部)
31 通信部(音声情報取得部)
32 制御部
2 端末(他の装置、情報処理装置)
3 サーバ(情報処理装置)
22 制御部
24 音声取得部(音声情報取得部)
31 通信部(音声情報取得部)
32 制御部
Claims (9)
- 音声情報取得部と、制御部とを備えている情報処理装置であって、
上記制御部は、
当該情報処理装置又は他の装置が発話内容を発話中に、上記音声情報取得部を介してユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替える
ことを特徴とする情報処理装置。 - 上記制御部は、
上記ユーザの音声が始まったタイミングにおける、上記発話内容における発話済みの内容の量の、上記発話内容の全体の量に対する割合に応じて、上記ユーザの緊急度を推定する
ことを特徴とする請求項1に記載の情報処理装置。 - 上記内容の量は、発話済み内容に含まれる時間的長さまたは文字数であり、
上記発話内容の全体の量は、発話内容の全体の時間的長さまたは文字数である
ことを特徴とする請求項2に記載の情報処理装置。 - 上記制御部は、
上記ユーザの音声が始まったタイミングにおける、上記発話内容における発話済み内容の量に応じて、上記ユーザの緊急度を推定する
ことを特徴とする請求項1に記載の情報処理装置。 - 上記内容の量は、発話済み内容に含まれる時間的長さ又は文字数である
ことを特徴とする請求項4に記載の情報処理装置。 - 上記制御部は、
上記緊急度に応じて、上記ユーザへの応答内容における、
応答文の長さ、
発話速度、または、
応答文の数
を切り替える
ことを特徴とする請求項1から5の何れか1項に記載の情報処理装置。 - 上記制御部は、
上記緊急度が低い場合に、上記ユーザへの応答内容における、応答文の数を増加させる
ことを特徴とする請求項6に記載の情報処理装置。 - 情報処理装置による情報処理方法であって、
当該情報処理装置又は他の装置が発話内容を発話中に、ユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替えるステップ
を含むことを特徴とする情報処理方法。 - 情報処理装置としてコンピュータを機能させるためのプログラムであって、
当該情報処理装置又は他の装置が発話内容を発話中に、ユーザの音声を取得した場合、当該ユーザの音声の開始タイミングに応じて、当該ユーザの緊急度を推定し、推定した緊急度に応じて当該ユーザへの応答内容を切り替えるステップ
を上記コンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018220547A JP2020086943A (ja) | 2018-11-26 | 2018-11-26 | 情報処理装置、情報処理方法、および、プログラム |
US16/694,473 US20200168225A1 (en) | 2018-11-26 | 2019-11-25 | Information processing apparatus and information processing method |
CN201911164917.4A CN111312229A (zh) | 2018-11-26 | 2019-11-25 | 信息处理装置、信息处理方法以及记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018220547A JP2020086943A (ja) | 2018-11-26 | 2018-11-26 | 情報処理装置、情報処理方法、および、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020086943A true JP2020086943A (ja) | 2020-06-04 |
Family
ID=70769971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018220547A Pending JP2020086943A (ja) | 2018-11-26 | 2018-11-26 | 情報処理装置、情報処理方法、および、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200168225A1 (ja) |
JP (1) | JP2020086943A (ja) |
CN (1) | CN111312229A (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19837102A1 (de) * | 1998-08-17 | 2000-02-24 | Philips Corp Intellectual Pty | Verfahren und Anordnung zum Durchführen einer Datenbankanfrage |
JP2001272991A (ja) * | 2000-03-24 | 2001-10-05 | Sanyo Electric Co Ltd | 音声対話方法及び音声対話装置 |
JP5405381B2 (ja) * | 2010-04-19 | 2014-02-05 | 本田技研工業株式会社 | 音声対話装置 |
US9143253B2 (en) * | 2012-05-11 | 2015-09-22 | Intel Corporation | Techniques for delivering emergency payloads for non-voice emergency services |
JP6310796B2 (ja) * | 2014-07-18 | 2018-04-11 | ヤフー株式会社 | 制御装置、制御方法および制御プログラム |
JP6515897B2 (ja) * | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
-
2018
- 2018-11-26 JP JP2018220547A patent/JP2020086943A/ja active Pending
-
2019
- 2019-11-25 US US16/694,473 patent/US20200168225A1/en not_active Abandoned
- 2019-11-25 CN CN201911164917.4A patent/CN111312229A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20200168225A1 (en) | 2020-05-28 |
CN111312229A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6751433B2 (ja) | アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 | |
US11462213B2 (en) | Information processing apparatus, information processing method, and program | |
WO2015098306A1 (ja) | 応答制御装置、制御プログラム | |
KR20190075800A (ko) | 지능형 개인 보조 인터페이스 시스템 | |
CN107622768B (zh) | 音频截剪器 | |
JP2010085536A (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
JP2013200480A (ja) | 音声対話システム及びプログラム | |
EP3796316A1 (en) | Electronic device and control method thereof | |
JP6904357B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
JP2018109663A (ja) | 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 | |
JP2017138536A (ja) | 音声処理装置 | |
US10216732B2 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
JP2022101663A (ja) | ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
WO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
US20130300666A1 (en) | Voice keyboard | |
US10002611B1 (en) | Asynchronous audio messaging | |
EP3618060A1 (en) | Signal processing device, method, and program | |
JP6559417B2 (ja) | 情報処理装置、情報処理方法、対話システム、および制御プログラム | |
JP6449368B2 (ja) | 会話提供装置、会話提供方法及びプログラム | |
WO2018079294A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2010199741A (ja) | 携帯電話端末装置 | |
KR102607120B1 (ko) | 소리 데이터 노이즈 캔슬링 방법, 장치, 전자 기기, 컴퓨터 판독 가능 저장 매체 및 컴퓨터 프로그램 | |
JP2020086943A (ja) | 情報処理装置、情報処理方法、および、プログラム | |
EP3835923A1 (en) | Information processing device, information processing method, and program |