JP6721676B2 - 対話装置、対話装置の制御方法、および制御プログラム - Google Patents

対話装置、対話装置の制御方法、および制御プログラム Download PDF

Info

Publication number
JP6721676B2
JP6721676B2 JP2018515402A JP2018515402A JP6721676B2 JP 6721676 B2 JP6721676 B2 JP 6721676B2 JP 2018515402 A JP2018515402 A JP 2018515402A JP 2018515402 A JP2018515402 A JP 2018515402A JP 6721676 B2 JP6721676 B2 JP 6721676B2
Authority
JP
Japan
Prior art keywords
voice
response
user
unit
directed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018515402A
Other languages
English (en)
Other versions
JPWO2017191710A1 (ja
Inventor
史彦 鈴木
史彦 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JPWO2017191710A1 publication Critical patent/JPWO2017191710A1/ja
Application granted granted Critical
Publication of JP6721676B2 publication Critical patent/JP6721676B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声を認識する対話装置等に関し、特に、ユーザが自装置に対し発した音声を認識し返答音声を出力する対話装置等に関する。
近年、ユーザが発した音声に対し、音声認識処理を行い、その結果に応じた返事を行うことによってユーザとの対話を行う音声認識装置が存在している。また、ユーザが発した音声に基づいて、対応する処理を実行する音声認識装置も存在する。このような音声認識装置において、返事を適切なタイミングで返すためには、または処理を適切に実行するためには、ユーザが発した音声が音声認識装置に向けられたものか否かを正確に判別することが重要である。
そこで、特許文献1には、人間が発した音声が音声認識装置に向けられたものか否かを判別する方法として、身振りなどの音声以外の所定の合図を検出した場合にのみ、音声を受け付ける操作装置が記載されている。
日本国公開特許公報「特開2007−121579号公報(2007年5月17日公開)」
しかしながら、上記特許文献1では、ユーザが身振りなどの音声以外の所定の合図をした後、ユーザの近辺で別の人間が発話を行うと、当該発話を受信し、操作者の意図しない応答、または処理を行ってしまうという問題がある。
例えば、所定の合図後、ユーザの挨拶に対し音声認識装置が挨拶を返すシステムにおいて、所定の合図後、ユーザ(人物A)の人の近辺にいる人間(人物B)が「こんにちは」とユーザ(人物A)に発話した場合を考える。この場合、ユーザ(人物A)が人物Bに対し、例えば「久し振り」と発話するとともに、音声認識装置が「こんにちは」と発話してしまうように、人物Aと人物Bとの対話を音声認識装置が遮ってしまうということが起こる。
本発明は、前記の問題点に鑑みてなされたものであり、その目的は、装置に向けられた音声であることを適切に判定できる対話装置等を実現することにある。
上記の課題を解決するために、本発明に係る対話装置は、ユーザとの対話を行う対話装置であって、上記ユーザの音声を認識する音声認識部と、上記音声認識部が認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定部と、上記判定部が、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答部と、を備えている構成である。
上記の課題を解決するために、本発明に係る対話装置の制御方法は、ユーザとの対話を行う対話装置の制御方法であって、上記ユーザの音声を認識する音声認識ステップと、上記音声認識ステップで認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定ステップと、上記判定ステップで、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答ステップと、を含む方法である。
本発明によれば、音声が自装置に向けられたものである場合にのみ応答を行い、自装置に向けられたものではない場合に、応答してしまうことを防止することができるという効果を奏する。
よって、ユーザが他のユーザに話しかけている場合に、対話装置が応答してしまうことを防止することができるという効果を奏する。
本実施形態に係る対話装置の要部構成を示すブロック図である。 (a)、(b)は本実施形態の概要を説明するための図である。 (a)〜(c)は、出力音声テーブルの例を示す図である。 応答音声データの例を示す図である。 対話装置における対話処理の流れを示すフローチャートである。 (a)〜(d)は、レコードの削除のタイミングおよび発話の内容を説明するための図である。
〔実施形態1〕
以下、図1〜5を参照して、本発明の実施形態1について、詳細に説明する。まず、図2を参照して、本実施形態の概要について説明する。
〔概要〕
図2は、本実施形態の概要を説明するための図である。図2(a)に示すように、ユーザAが対話装置1に話しかける場合、対話装置1は、ユーザAの発話を認識し、当該発話に対し応答することにより対話を行うことができる。
一方、図(b)に示すように、対話装置1の近辺にユーザBおよびユーザCがおり、ユーザBがユーザCに対し、「やあ」と話しかけ、ユーザCがユーザBに「久し振り」と返したような場合、従来技術では次のような状況が生じる。すなわち、ユーザBの「やあ」がユーザCに向けられたものなのか、対話装置1に向けられたものなのか、対話装置1では認識することができず、対話装置1もユーザBに対し「こんにちは」と返してしまい、ユーザBとユーザCとの対話を対話装置1が邪魔してしまう状況となる。
そこで、本実施形態では、図2(b)に示すような場合、対話装置1は、ユーザBの発話(「やあ」)が、対話装置1に向けられたものなのか、別のユーザ(ここではユーザC)に向けられたものなのかを判定する。そして、対話装置1に向けられたものと判定した場合のみ、ユーザBに対し返答を行う。
これにより、本実施形態では、ユーザの対話を適切に実行できるとともに、ユーザ同士の対話を邪魔してしまうことを防止することができる。
〔対話装置1の構成〕
次に、図1を参照して、対話装置1の構成について説明する。図1は、対話装置1の要部構成を示すブロック図である。図1に示すように、対話装置1は、制御部10、記憶部20、入力受付部30、および音声出力部40を含む。
制御部10は、対話装置1の動作を統括的に制御するものであり、音声認識部11、ユーザ識別部12、判定部13、応答部14、タイマ部15、音声入力部16、および出力制御部17を含む。
音声認識部11は、音声入力部16から取得した音声データをテキストデータに変換する。より詳細には、音声データから音響特徴を算出し、算出した音響特徴に最も近いことばを、認識辞書データ21を用いて検索し、検索結果であるテキストデータを取得して、当該音声データをテキストデータに変換する。なお、音声認識の方法は上述した方法に限られるものではなく、その他の公知の技術を用いて行ってもよい。
また、音声認識部11は、テキストデータをキーにして、応答音声データ22を検索し、応答音声のファイルパスを取得する。そして、取得したファイルパスをユーザ識別部12に通知する。なお、応答音声のファイルパスではなく、応答音声そのものを取得してもよい。
ユーザ識別部12は、音声入力部16から取得した音声データから当該音声の発話者であるユーザを特定するための個人性情報を抽出する。そして、個人性情報毎に個人性情報を区別するための番号を付与し、記憶部20に格納する。なお、個人性情報は、音声データを周波数解析し、話者の声質を表す特徴(音響的特徴)を音声データから抽出したものである。音響的特徴の抽出は、公知の技術を用いて可能であるので、ここでは詳細な説明は割愛する。
番号の付与は、次のように行う。既に記憶部20に格納されている個人性情報がある場合、格納されている個人性情報とこれから番号を付与しようとしている個人性情報とを比較し、同じ人物と識別される場合は、同じ番号を付与する。一方、別の人物と識別される場合は、異なる番号(例えば、現在付与されている番号の最大のものに1を加えた番号)を付与する。
そして、ユーザ識別部12は、現在時刻、音声認識部11から通知された応答音声のファイルパス、および付与した個人性情報の番号を一つのレコードとして出力音声テーブル23に登録する。
判定部13は、タイマ部15によって設定されたタイマが満了したときに、出力音声テーブル23に登録されているレコードにおいて、個人性情報を示す番号が一種類か否か、すなわち、当該タイマ期間における発話者は一人か否かを判定する。そして、その結果を応答部14に通知する。
応答部14は、判定部13が個人性情報を示す番号が一種類と判定したとき、出力音声テーブル23に登録されているレコードのうち、最新のレコードに含まれる、応答音声のファイルパスを用いて当該応答音声を取得し、出力制御部17に通知する。
タイマ部15は、ユーザ識別部12が最初のレコードを出力音声テーブル23に登録したときからタイマを開始し、所定時間が経過したとき、その旨(タイマが満了した旨)を判定部13に通知する。なお、所定時間の例としては、0.5〜1.0s(秒)程度である。
音声入力部16は、入力受付部30を介して受け付けた音声(アナログデータ)を音声データ(デジタルデータ)に変換する。そして、音声データを音声認識部11およびユーザ識別部12に通知する。
出力制御部17は、応答部14から通知された応答音声を、音声出力部40を介して、外部へ出力させる。
記憶部20は、対話装置1で用いる各種データ等を格納しているものであり、認識辞書データ21、応答音声データ22、および出力音声テーブル23を含む。なお、認識辞書データ21、および応答音声データ22は、自装置に格納しておかなければならないものではなく、これらのデータを外部におき、ネットワーク等を通して必要なデータを取得するものであってもよい。
認識辞書データ21は、音響特徴と、音響特徴に対応するテキストデータとを対応付けたデータであり、音声データの音響特徴から、該音響特徴に一致するテキストデータを検索することに用いられる。
応答音声データ22は、テキストデータと応答音声とを対応付けたデータであり、テキストデータをキーに応答音声のファイルパスを検索することに用いられる。
応答音声データ22の例を図4に示す。図4は、応答音声データ22の例を示す図である。図4に示すように、応答音声データ22では、例えば、入力音声(テキストデータ)「こんにちは」と、応答音声「こんにちは」とが対応付けられている。さらに、応答音声のファイルパスは「/xxx/yyy/zzz/hello.wav」となっている。テキストデータ「おはよう」についても同様である。
出力音声テーブル23は、現在時刻、応答音声のファイルパス、音声の個人性情報の番号を対応付けて、一つのレコードとして格納しているテーブルである。出力音声テーブル23の例を図3に示す。図3は、出力音声テーブル23の例を示す図である。図3(a)に示す例では、時刻「2016/2/29 19:08:43.876」と応答音声のファイルパス「/xxx/yyy/zzz/hello.wav」と音声の個人性情報の番号「1」とが対応付けられて1つのレコードとして格納されている。
また、図3(b)に示す例では、図3(a)のレコードとともに、時刻「2016/2/29 19:08:44.990」と応答音声のファイルパス「/xxx/yyy/zzz/morning.wav」と音声の個人性情報の番号「1」とが対応付けられてもう1つのレコードとして格納されている。
また、図3(c)に示す例では、図3(a)のレコードともに、時刻「2016/2/29 19:08:44.990」と応答音声のファイルパス「/xxx/yyy/zzz/morning.wav」と音声の個人性情報の番号「2」とが対応付けられてもう1つのレコードとして格納されている。
図3(a)に示す例は、タイマの設定時間の間に、入力音声が1回だった場合を示し、図3(b)に示す例は、タイマの設定時間の間に、入力音声が2回で、それぞれの音声の発話者が同じだった場合を示し、図3(c)に示す例は、タイマの設定時間の間に、入力音声が2回で、それぞれの音声の発話者が異なる場合を示している。
入力受付部30は、例えばマイクロフォンであり、ユーザ等の音声を受け付け、受け付けた音声をアナログデータとして音声入力部16に通知する。
音声出力部40は、例えばスピーカであり、出力制御部17から通知された応答音声を音として出力する。
〔対話装置1における処理の流れ〕
次に、図5を参照して、対話装置1における対話処理の流れを説明する。図5は、対話装置1における対話処理の流れを示すフローチャートである。
図5に示すように、まず、音声入力部16が音声の入力を受け付けると(S201でYES)、受け付けた音声を音声データ(デジタルデータ)に変換し(S102)、音声認識部11およびユーザ識別部12に通知する。
音声データを取得した音声認識部11は、当該音声データに対し音声認識処理を行い、音声データをテキストデータに変換する(S103、音声認識ステップ)。次に、音声認識部11は、テキストデータをキーにして応答音声データ22を検索し、テキストデータに対応する応答音声のファイルパスを取得する(S104)。
次に、音声データを取得したユーザ識別部12は、音声データから個人性情報を抽出し、ユーザ毎に異なる番号を付し、記憶部20に格納する(S105)。さらに、ユーザ識別部12は、現在時刻を取得し(S106)、現在時刻、応答音声のファイルパス、音声の個人性情報の番号を一つのレコードとして出力音声テーブル23に登録する(S107)。
ユーザ識別部12がレコードを登録するときに、当該レコードが1件目の場合(S108でYES)、タイマ部15は、音声出力処理を行うタイミングを指定するためのタイマを設定し、カウントを開始する(S109)。また、レコードが2件目以降の場合(S108でNO)、ステップS110に進む。
その後、タイマが満了するまで(S110でNO)、ステップS101〜S109を繰り返す。
タイマが満了すると(S110でYES)、判定部13は、出力音声テーブル23に登録されているレコードを確認し(S111)、個人性情報の番号が一種類か否かを判定する(S112、判定ステップ)。個人性情報の番号が一種類であれば(S112でYES)、応答部14は、出力音声テーブル23に登録されているレコードのうち、現在時刻が最新のものと対応している応答音声のファイルパスを用いて、応答音声を取得する。そして、取得した応答音声を出力制御部17に通知する(S113)。出力制御部17は、通知された応答音声を、音声出力部40を介して外部へ出力させる(S114、応答ステップ)。
その後、ユーザ識別部12は、出力音声テーブル23に登録されているレコードを全て削除する(S115)。
一方、ステップS112で、個人性情報の番号が一種類でなければ(S112でNO)、ステップS115に進み、ユーザ識別部12は、出力音声テーブル23に登録されているレコードを全て削除する。
以上、対話装置1における対話処理の流れである。
以上のように、本実施形態によれば、タイマ設定時間における発話者が1人か否かを判定し、発話を行うか否か(換言すれば、対話を行うか否か)を決定する。これにより、対話装置1の近辺で複数の人間が会話しているときに、当該会話に対し、対話装置1が発話をしてしまうことを防止することができる。すなわち、音声が自装置に向けられたものである場合にのみ応答を行い、自装置に向けられたものではない場合に、応答してしまうことを防止することができる。
図3に示す例を用いて説明すれば、次の通りである。図3(a)または(b)に示すように、出力音声テーブル23に登録されているレコードが1人のユーザ(音声の個人性情報の番号「1」のみ)の場合、そのうちの最新の応答音声に対応する応答音声を発話する。すなわち、図3(a)では、ファイルパス「/xxx/yyy/zzz/hello.wav」に対応する応答音声を発話し、図3(b)では、ファイルパス「/xxx/yyy/zzz/morning.wav」に対応する応答音声を発話する。これにより、音声の個人性情報の番号が「1」のユーザと適切に対話を行うことができる。
一方、図3(c)に示すように、出力音声テーブル23に登録されているレコードが複数のユーザ(音声の個人性情報の番号が「1」と「2」)の場合、発話を行わない。なぜなら、図3(c)に示す例では、音声の個人性情報の番号が「1」のユーザと、音声の個人性情報の番号が「2」のユーザとの対話である可能性が高いためである。
〔実施形態2〕
本発明の他の実施形態について、図6に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本実施形態において、上記実施形態1と異なるのは、出力音声テーブル23に登録されているレコードの削除のタイミング、および発話する内容である。
より詳細に、図6を参照して説明する。図6は、レコードの削除のタイミングおよび発話の内容を説明するための図である。
図6(a)は、タイマの設定時間内に、人物Aによる「こんにちは」という発話と、人物Bによる「おはようございます」との発話があった場合の出力音声テーブル23のレコード例を示している。1行目の時刻「2016/2/29 9:08:43.876」、応答音声のファイルパス「/xxx/yyy/zzz/hello.wav」、音声の個人性情報の番号「1」が人物Aの「こんにちは」に対応する。また、2行目の時刻「2016/2/29 9:08:44.990」、応答音声のファイルパス「/xxx/yyy/zzz/morning.wav」、音声の個人性情報の番号「2」が人物Bの「おはようございます」に対応する。
この状態で、タイマが満了した場合、実施形態1では、出力音声テーブル23のレコードを削除していた。本実施形態では、タイマが満了してもこれらのレコードを削除しない。
図6(a)の状態で、次に、人物Aが「おはようございます」と発話した場合、出力音声テーブル23のレコードは、図6(b)に示すようになる。図6(b)の3行目の時刻「2016/2/29 9:15:50.001」、応答音声のファイルパス「/xxx/yyy/zzz/moring.wav」、音声の個人性情報の番号「1」が人物Aの「おはようございます」に対応する。
ここで、タイマが満了した場合、本実施形態では、出力音声テーブル23の3行目のレコードに対応する発話を行い、当該レコードを削除する。図6(c)の網掛け部分のレコードを削除する。
本実施形態では、その後、当該発話と同じユーザ(ここでは人物A)のレコードを検索し、当該レコードに対応する発話を行う。具体的には、例えば「さっき『こんにちは』って言おうとしました」と発話する(時間差応答)。そして、当該レコードを削除する(図6(d)の網掛け部分)。
これにより、人物Aの発話に対して、対話装置1が自装置に対する発話ではないと判断し応答しなった場合でも、後程、当該発話に対する応答を行うことができるので、ユーザに対し、安心感、親近感等を与えることができる。
〔実施形態3〕(ソフトウェアによる実現例)
対話装置1の制御ブロック(特に制御部10(音声認識部11、ユーザ識別部12、判定部13、応答部14、タイマ部15、音声入力部16、出力制御部17))は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、対話装置1は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る対話装置は、ユーザとの対話を行う対話装置であって、上記ユーザの音声を認識する音声認識部と、上記音声認識部が認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定部と、上記判定部が、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答部と、を備えている構成である。
上記の構成によれば、音声認識部が認識した音声が、自装置に向けられたものと判定した場合、上記音声に対する応答を行う。これにより、音声が自装置に向けられたものである場合にのみ応答を行い、自装置に向けられたものではない場合に、応答してしまうことを防止することができる。
よって、ユーザが他のユーザに話しかけている場合に、対話装置が応答してしまうことを防止することができる。
本発明の態様2に係る対話装置は、上記の態様1において、上記判定部は、所定時間内に上記音声認識部が認識した音声を発したユーザが1人かどうかを判定することによって、上記音声が、自装置に向けられたものか否かを判定する構成としてもよい。
上記の構成によれば、所定時間に認識した音声を発したユーザが1人かどうかを判定する。所定時間内に認識された音声を発したユーザが1人の場合、当該音声は、自装置に向けて発せられた可能性が非常に高い。よって、認識した音声が自装置に向けられたものか否かを適切に判定することができる。
本発明の態様3に係る対話装置は、上記の態様2において、上記判定部は、上記所定時間内に、上記音声認識部が認識した音声が複数存在した場合、それぞれの音声の音響的特徴を比較して、ユーザが1人かどうかを判定する構成としてもよい。
上記の構成によれば、音声の音響的特徴を用いてユーザが1人かどうかを判定する。そして、ユーザが異なれば、音声の音響的特徴も異なるので、上記の構成により、ユーザが1人かどうかを適切に判定することができる。
本発明の態様4に係る対話装置は、上記の態様2または3において、上記応答部は、上記所定時間内に上記音声認識部が認識した上記音声のうち、当該音声を認識した時点が最新の音声に対し、上記応答を行う構成としてもよい。
上記の構成によれば、所定時間内に認識した音声のうち、当該音声を認識した時点が最新の音声に対し応答を行うので、適切な応答を行うことができる。また、最新でない音声に対し応答を行うことにより、ユーザを戸惑わせてしまうことを防止することができる。
本発明の態様5に係る対話装置は、上記の態様1〜4のいずれか1項において、上記応答部は、上記応答後、当該応答したユーザと同じユーザに対し、上記判定部が自装置に向けられたものではないと判定し、応答しなかった音声がある場合、当該音声に対する応答である時間差応答を行う構成としてもよい。
上記の構成によれば、応答しなかった音声を発したユーザが再び、自装置に対し、音声を発した場合、当該音声対する応答とともに、応答しなかった以前の音声に対する応答も行う。これにより、ユーザに対し、今回の応答のみではなく、以前の音声も覚えていたことを印象付けることができ、温かみを感じさせることができる。
本発明の態様6に係る対話装置は、上記の態様5において、上記応答部は、上記時間差応答を実行する場合、以前に応答しなった音声に対する応答であることを明示して応答する構成としてもよい。
上記の構成によれば、以前に応答しなかった音声に対する応答であることを明示して応答を行うので、何の音声に対する応答かユーザが認識できずに、ユーザを戸惑わせることを防止することができる。
本発明の態様7に係る対話装置の制御方法は、ユーザとの対話を行う対話装置の制御方法であって、上記ユーザの音声を認識する音声認識ステップと、上記音声認識ステップで認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定ステップと、上記判定ステップで、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答ステップと、を含む方法である。
上記の方法によれば、上述した態様1と同様の効果を奏する。
本発明の各態様に係る対話装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記対話装置が備える各部(ソフトウェア要素)として動作させることにより上記対話装置をコンピュータにて実現させる対話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 対話装置
10 制御部
11 音声認識部
12 ユーザ識別部
13 判定部
14 応答部
15 タイマ部
16 音声入力部
17 出力制御部
20 記憶部
21 認識辞書データ
22 応答音声データ
23 出力音声テーブル
30 入力受付部
40 音声出力部

Claims (7)

  1. ユーザとの対話を行う対話装置であって、
    上記ユーザの音声を認識する音声認識部と、
    上記音声認識部が認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定部と、
    上記判定部が、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答部と、を備え
    上記判定部は、所定時間内に上記音声認識部が認識した音声を発したユーザが1人かどうかを判定することによって、上記音声が、自装置に向けられたものか否かを判定することを特徴とする対話装置。
  2. 上記判定部は、上記所定時間内に、上記音声認識部が認識した音声が複数存在した場合、それぞれの音声の音響的特徴を比較して、ユーザが1人かどうかを判定することを特徴とする請求項に記載の対話装置。
  3. 上記応答部は、上記所定時間内に上記音声認識部が認識した上記音声のうち、当該音声を認識した時点が最新の音声に対し、上記応答を行うことを特徴とする請求項またはに記載の対話装置。
  4. 上記応答部は、上記応答後、当該応答したユーザと同じユーザに対し、上記判定部が自装置に向けられたものではないと判定し、応答しなかった音声がある場合、当該音声に対する応答である時間差応答を行うことを特徴とする請求項1〜のいずれか1項に記載の対話装置。
  5. 上記応答部は、上記時間差応答を実行する場合、以前に応答しなった音声に対する応答であることを明示して応答することを特徴とする請求項に記載の対話装置。
  6. ユーザとの対話を行う対話装置の制御方法であって、
    上記ユーザの音声を認識する音声認識ステップと、
    上記音声認識ステップで認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定ステップと、
    上記判定ステップで、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答ステップと、を含み、
    上記判定ステップでは、所定時間内に上記音声認識ステップで認識した音声を発したユーザが1人かどうかを判定することによって、上記音声が、自装置に向けられたものか否かを判定することを特徴とする対話装置の制御方法。
  7. 請求項1〜のいずれか1項に記載の対話装置としてコンピュータを機能させるための制御プログラムであって、上記各部としてコンピュータを機能させるための制御プログラム。
JP2018515402A 2016-05-02 2017-03-14 対話装置、対話装置の制御方法、および制御プログラム Active JP6721676B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016092466 2016-05-02
JP2016092466 2016-05-02
PCT/JP2017/010060 WO2017191710A1 (ja) 2016-05-02 2017-03-14 対話装置、対話装置の制御方法、および制御プログラム

Publications (2)

Publication Number Publication Date
JPWO2017191710A1 JPWO2017191710A1 (ja) 2019-02-21
JP6721676B2 true JP6721676B2 (ja) 2020-07-15

Family

ID=60202959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018515402A Active JP6721676B2 (ja) 2016-05-02 2017-03-14 対話装置、対話装置の制御方法、および制御プログラム

Country Status (2)

Country Link
JP (1) JP6721676B2 (ja)
WO (1) WO2017191710A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases

Also Published As

Publication number Publication date
JPWO2017191710A1 (ja) 2019-02-21
WO2017191710A1 (ja) 2017-11-09

Similar Documents

Publication Publication Date Title
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
JP2019090942A (ja) 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム
WO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20170270923A1 (en) Voice processing device and voice processing method
JP2023548157A (ja) 通話およびオーディオメッセージからのその他の話者の音声フィルタリング
KR102019470B1 (ko) 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
JPWO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
JP2009175179A (ja) 音声認識装置、プログラム、及び発話信号抽出方法
US20180366127A1 (en) Speaker recognition based on discriminant analysis
JP6721676B2 (ja) 対話装置、対話装置の制御方法、および制御プログラム
JP2019045831A (ja) 音声処理装置、方法およびプログラム
JP2017211610A (ja) 出力制御装置、電子機器、出力制御装置の制御方法、および出力制御装置の制御プログラム
JP2019132997A (ja) 音声処理装置、方法およびプログラム
US20210304750A1 (en) Open Smart Speaker
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP6711343B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP2021149664A (ja) 出力装置、出力方法及び出力プログラム
WO2019138477A1 (ja) スマートスピーカー、スマートスピーカーの制御方法、及びプログラム
JP2010230994A (ja) 受付装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200618

R150 Certificate of patent or registration of utility model

Ref document number: 6721676

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150