JP2019200393A - 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム - Google Patents

判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム Download PDF

Info

Publication number
JP2019200393A
JP2019200393A JP2018096494A JP2018096494A JP2019200393A JP 2019200393 A JP2019200393 A JP 2019200393A JP 2018096494 A JP2018096494 A JP 2018096494A JP 2018096494 A JP2018096494 A JP 2018096494A JP 2019200393 A JP2019200393 A JP 2019200393A
Authority
JP
Japan
Prior art keywords
response
recognition
determination
information
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018096494A
Other languages
English (en)
Inventor
成文 後田
Narifumi Nochida
成文 後田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018096494A priority Critical patent/JP2019200393A/ja
Priority to CN201910410774.4A priority patent/CN110503950A/zh
Priority to US16/416,203 priority patent/US20190355357A1/en
Publication of JP2019200393A publication Critical patent/JP2019200393A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】テレビまたはラジオ等からの出力音声による誤反応を防止する。【解決手段】サーバ制御部(10)は、認識情報を取得する情報取得部(102)と、認識情報に応じた応答を実行させるか否かを判定する応答判定部(103)と、を備え、応答判定部(103)は、認識情報の取得前、または認識情報の取得から所定時間内に認識情報と同一内容の第2認識情報を取得した場合は、認識情報に応じた応答を実行させないと判定する。【選択図】図1

Description

本発明は電子機器が出力するメッセージの作成要否を判定する判定装置等に関する。
従来、ユーザの発話を取得して音声認識し、該音声認識の結果に応じた応答メッセージを出力する電子機器が知られている。このような電子機器について、適切なタイミングで音声認識および応答メッセージの出力を実行するための技術が種々開発されている。
例えば、特許文献1には、特定の言葉の発話をトリガとして音声認識を開始する音声認識装置が開示されている。該音声認識装置は、一般的な会話での出現頻度が低い言葉、発話者の母語でない言葉、音声操作コマンドの意味を含む言葉等の限られた言葉を前記特定の言葉として認識する。これにより、通常の会話をトリガとして、発話者の意図しない音声認識が開始されることが防止される。
特開2004−301875号公報(2004年10月26日公開)
ところが、前記特許文献1に記載の技術では、テレビまたはラジオ等からの出力音声に前記特定の言葉が含まれていた場合、発話者が意図していないタイミングで音声認識装置が音声認識を開始する虞がある。
例えば、テレビまたはラジオからは、様々な状況における会話の音声が出力されると考えられる。そのため、特定の言葉を、単に一般的な会話での出現頻度が低い言葉に設定しても、誤認識は完全には防止できない。また例えば、テレビやラジオからの出力音声にはその外国語の言葉が含まれている可能性が十分にある。そのため、特定の言葉を、発話者にとっての外国語の言葉と設定した場合でも、誤認識は完全には防止できない。
そして、応答メッセージを出力する電子機器の場合、誤って開始された音声認識の結果に基づいて、応答メッセージの出力が行われる。換言すると、電子機器は誤反応を起こす。
本開示の一態様は、前記問題点を鑑みたものであり、テレビまたはラジオ等からの出力音声による誤反応を防止可能な判定装置等を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る判定装置は、音声入力装置を備える電子機器による応答の要否を判定する判定装置であって、前記音声入力装置に入力された音声についての音声認識の結果と、該音声が入力された時刻である音声入力時刻、または前記音声認識を行った時刻である認識時刻とを対応付けた認識情報を取得する情報取得部と、前記認識情報に応じた応答を実行させるか否かを判定する応答判定部と、を備え、前記応答判定部は、前記認識情報の取得前、または前記認識情報の取得から所定時間内に、前記認識情報と同一内容の第2認識情報を取得した場合は、前記認識情報に応じた前記応答を実行させないと判定することを特徴とする。
本発明の一態様によれば、テレビまたはラジオ等からの出力音声による誤反応を防止することができる。
本発明の実施形態1に係る応答システムに含まれる、会話ロボットおよびクラウドサーバの要部構成を示すブロック図である。 前記クラウドサーバの記憶部に格納されている、判定対象データベースのデータ構造の一例を示す図である。 前記会話ロボットの動作概要を示す図である。 前記応答システムにおける応答要否判定処理の流れを示すフローチャートである。 本発明の実施形態2に係る応答システムに含まれる、会話ロボットおよびクラウドサーバの要部構成を示すブロック図である。 本発明の実施形態3に係る応答システムに含まれる、会話ロボットの要部構成を示すブロック図である。 前記応答システムにおける応答要否判定処理の流れを示すフローチャートである。 本発明の実施形態4に係る応答システムに含まれる、会話ロボットおよびクラウドサーバの要部構成を示すブロック図である。 前記クラウドサーバの記憶部に格納されている、判定対象データベースのデータ構造の一例を示す図である。 前記応答システムにおける応答要否判定処理の流れを示すフローチャートである。
本開示は、ある入力音声の音声認識の結果およびタイミングに応じて、該入力音声に対する応答の要否を判定する応答システムに関する。以下、本開示の実施形態の例を、図面を参照して説明する。
〔実施形態1〕
≪装置の要部構成≫
本開示の実施形態1について、図1〜図4を参照して説明する。図1は、本実施形態に係る応答システム100に含まれる、会話ロボット2およびクラウドサーバ1の要部構成を示すブロック図である。応答システム100は、少なくとも1台のクラウドサーバ1と、複数台の会話ロボット(電子機器)2とを含む。図示の例では会話ロボット2は2台であるが、会話ロボット2は複数台であれば、その台数は特に限定しない。また、図1における2台の会話ロボット2は同様の構成を備えている。そのため、片方の会話ロボット2については、詳細な構成を省略して掲載している。
(会話ロボット2の要部構成)
会話ロボット2は、ユーザの発話に応じた応答を返すことで、該ユーザと会話するロボットである。会話ロボット2は図示の通り、制御部(判定装置)20と、通信部21と、マイク(音声入力装置)22と、スピーカ(応答部)23とを含む。
通信部21は、クラウドサーバ1との通信を行う。マイク22は、会話ロボット2の周囲の音を入力音声として制御部20に入力する。
制御部20は会話ロボット2を統括的に制御する。制御部20は、マイク22から入力される音声を取得すると、該音声が入力された時刻(音声入力時刻)を取得する。音声入力時刻の計時方法は特に限定しないが、例えば制御部20の内部クロック等に基づいて計時してもよい。制御部20は取得した音声を、通信部21を介しクラウドサーバ1に送信する。このとき、制御部20は該音声に、音声入力時刻と、自装置(会話ロボット2)を特定可能な識別情報(ロボット識別情報)とを付して、クラウドサーバ1に送信する。また、制御部20は通信部21を介しクラウドサーバ1から受信した応答メッセージ(後述)を、スピーカ23に出力させる。スピーカ23は、制御部20の制御に従って応答メッセージを音声出力する。
なお、本実施形態では、会話ロボット2は応答を音声メッセージとして出力することとする。しかしながら、会話ロボット2は音声メッセージ以外の方法でユーザの発話に対する応答を実行してもよい。例えば、会話ロボット2はスピーカ23に加えて、またはスピーカ23の代わりにディスプレイを備え、ディスプレイにメッセージを表示させてもよい。もしくは、会話ロボット2は、可動部およびモータを備え、応答をジェスチャで示してもよい。もしくは、会話ロボット2は、ユーザが見えるような位置にLED(light emitting diode)等で構成されるランプを備え、応答を光の明滅で示してもよい。
(クラウドサーバ1の要部構成)
クラウドサーバ1は、各会話ロボット2の応答の要否を判定する。クラウドサーバ1は、複数の会話ロボット2から音声を取集し、それぞれ音声認識を実行し、該音声認識の結果と、音声認識のタイミングとに応じて応答要否を判定する。なお、本実施形態では応答システム100は図示の通り、クラウドネットワークを利用したクラウドサーバ1を用いることとする。しかしながら、応答システム100は、クラウドサーバ1の代わりに、有線または無線で会話ロボット2と通信接続する単一または複数台のサーバを用いてもよい。以降の実施形態でも同様である。
クラウドサーバ1は図示の通り、サーバ制御部(判定装置)10と、サーバ通信部11と、記憶部12とを備える。サーバ通信部11は、会話ロボット2との通信を行う。記憶部12はクラウドサーバ1に必要な各種データを格納する。
具体的には、記憶部12は少なくとも判定対象データベース(DB)121を記憶している。また、記憶部12は応答メッセージの作成に必要なデータ(例えば、応答メッセージの雛形または定型文等)を記憶している。判定対象DB121のデータ構造については後で詳述する。
サーバ制御部10は、クラウドサーバ1を統括的に制御する。サーバ制御部10は、音声認識部101と、情報取得部(認識情報格納部)102と、応答判定部(判定結果送信部)103と、応答作成部104とを含む。サーバ制御部10はサーバ通信部11を介し、会話ロボット2から音声と、該音声に対応付けられた音声入力時刻およびロボット識別情報とを受信する。図示の通り、会話ロボット2は複数台あるため、サーバ制御部10は各会話ロボット2からの音声、音声入力時刻、およびロボット識別情報を受信する。そして、サーバ制御部10は、以下で説明する処理を各音声について実行する。
音声認識部101は、会話ロボット2から受信した音声について、音声認識を実行する。音声認識の方法は特に限定されない。本実施形態では音声認識として、音声に含まれる言葉を文字列に変換することとする。音声認識部101は音声認識の結果(以下、単に認識結果と称する)を、音声認識の対象となった音声のロボット識別情報と対応付けて、応答作成部104に送信する。
音声認識部101は音声認識を実行すると、認識結果と、音声入力時刻とを対応付けた、認識情報を作成する。音声認識部101は認識情報を情報取得部102に送信する。
情報取得部102は、音声認識部101から取得した認識情報に基づいて、記憶部12の判定対象DB121を更新する。このとき、情報取得部102は今取得した認識情報と同一の認識結果および音声入力時刻を示す認識情報が、判定対象DB121に格納されているか否かに応じて、判定対象DB121の更新方法を変える。以下、判定対象DB121の詳細なデータ構成とともに、情報取得部102による判定対象DB121の更新方法を説明する。
(判定対象DB)
図2は、判定対象DB121のデータ構造の一例を示す図である。判定対象DB121は、認識情報を集積したデータベースであり、応答メッセージの作成要否を判定するために参照されるデータベースである。判定対象DB121は少なくとも、認識結果を示す情報と、音声入力時刻を示す情報とを含む。
図示の例では、判定対象DB121は「ID」列と、「日付」列と、「時刻」列と、「言語」列と、「認識結果」列と、「カウント」列とを含む。同図の1レコードは1つの認識情報についての情報を示している。「日付」列と、「時刻」列と、「言語」列と、「認識結果」列に記憶される情報は、音声認識部101が作成する認識情報そのものである。なお、「言語」列は必須の情報ではない。また「日付」列と「時刻」列は一体であってもよい。
「ID」列には、認識情報を一意に特定するための識別コードが記憶される。「日付」列および「時刻」列にはそれぞれ、音声入力時刻のうちの年月日および時刻が記憶される。「言語」列には、認識結果を規定の言語のいずれかに分類した場合の類型が記憶される。この類型は音声認識部101が認識情報を作成する際に決定してもよいし、応答判定部103が認識結果の文字列に応じて決定してもよい。「認識結果」列には認識結果の文字列が記憶される。「カウント」列には、同一の認識情報を取得した回数が記憶される。
情報取得部102は認識情報を取得すると、該認識情報と同一の認識結果および音声入力時刻を示しているレコードが有るか判定対象DB121を検索する。該レコードが無い場合、情報取得部102は判定対象DB121に、取得した認識情報についてのレコードを追加する。追加したレコードの「ID」列には新たな識別コードが記憶され、「カウント」列には取得回数、すなわち「1」が記憶される。
なお、本実施形態で「同一」と称する場合、完全一致だけではなく、予め設定されたバッファの範囲内で一致(すなわち、略同一または部分一致)している場合も含む。具体的には、例えば、認識結果の文字列の一致割合が、予め設定された閾値以上であれば「同一の認識結果である」と判定してもよい。また、音声入力時刻を比較して、両者の相違が予め設定された時間範囲内である場合は、「同一時刻である」と判定してもよい。以降の実施形態についても同様である。
一方、情報取得部102が取得した認識情報と同一の認識結果および音声入力時刻を示しているレコードが有る場合、情報取得部102は該レコードの「カウント」列の数字をカウントアップする。例えば、情報取得部102が取得した認識情報が、ID=2の認識情報と同一の認識結果および音声入力時刻を示していたとする。この場合、情報取得部102はID=2のレコードの取得回数を4189から4190へと1つカウントアップする。情報取得部102は判定対象DB121の更新が終了すると、音声認識部101から取得した認識情報を、応答判定部103に送信する。
なお、判定対象DB121の各レコードは、所定時間(例えば、10秒)が経過した場合、自動的に削除されてもよい。これにより、判定対象DB121のレコード数が時間とともに肥大化することを防止できるため、音声入力から応答メッセージの出力までの時間(すなわち、会話ロボット2のレスポンスに要する時間)を短くすることができる。
応答判定部103は、情報取得部102から取得した認識情報に応じて、応答メッセージを作成するか否か(すなわち、会話ロボット2に応答を実行させるか否か)を判定する。具体的には、応答判定部103は、取得した認識情報と同一内容(少なくとも同一の認識結果および音声入力時刻)を示す認識情報(第2認識情報)が、判定対象DB121に存在しない場合は応答メッセージを作成すると判定する。一方、応答判定部103は、第2認識情報が判定対象DB121に存在する場合は、応答メッセージを作成しないと判定する。
ここで、応答判定部103は、情報取得部102から認識情報を取得した後、所定のタイミングで判定を実行する。例えば、応答判定部103は、認識情報を受信してから所定時間(例えば、1秒程度)待機し、その後に判定を実行する。
これにより、応答判定部103は、前記認識情報の取得前に第2認識情報がすでに取得(および判定対象DB121の更新に反映)されていた場合に加えて、今取得した認識情報の取得から所定時間内に、情報取得部102が第2認識情報を取得した場合も、認識情報に応じた応答メッセージを作成しない、と判定することができる。
例えばテレビ番組の音声等では、同時刻に別の場所で(別のテレビから)同じ音声出力がなされる。この場合、複数の会話ロボット2がほぼ同時に音声を取得し、クラウドサーバ1に送信するが、会話ロボット2によって若干のタイムラグが生じる可能性がある。応答判定部103が情報取得部102における判定対象DB121の更新作業から所定時間後に判定を行う構成とすることにより、このようなタイムラグが生じた場合も、応答判定部103において正確な判定を行うことができる。なお、応答判定部103における判定の実行を遅延させるのではなく、情報取得部102から応答判定部103への認識情報の送信を遅延させてもよい。応答判定部103は判定結果を応答作成部104に送信する。
なお、応答判定部103は、取得した認識情報と同一の認識結果および音声入力時刻を示すレコードが判定対象DB121に存在し、かつ、該レコードのカウントが所定値未満である場合は応答を作成すると判定し、所定値以上である場合は応答メッセージを作成しないと判定してもよい。
もしくは、応答判定部103は、情報取得部102が判定対象DB121を更新してから所定時間(例えば、1秒)、判定を行わずに待機してもよい。そして、待機中に、判定対象DB121の、更新された認識情報のレコード(すなわち、応答判定部103が取得した認識情報に対応するレコード)の「カウント」が増加しなかった場合は応答を作成すると判定し、増加した場合は応答を作成しないと判定しても良い。
応答作成部104は、認識結果に応じた応答メッセージを作成して、該認識結果に対応付けられているロボット識別情報が示すロボットに向けて送信する。応答作成部104は、応答判定部103から応答メッセージを作成する旨の判定結果を受信した場合、記憶部12の応答メッセージの雛形等を参照して、認識結果に応じた応答メッセージを作成する。応答作成部104は作成した応答メッセージを、サーバ通信部11を介し会話ロボット2に送信する。このとき、応答作成部104は認識結果に対応付けられていたロボット識別情報が示す会話ロボット2に向けて、応答メッセージを送信する。これにより、ある会話ロボット2において取得された音声に対応する応答メッセージを、会話ロボット2に返すことができる。
≪会話ロボット2の動作概要≫
次に、本実施形態に係る応答システム100の動作概要を説明する。図3は、応答システム100に含まれる会話ロボットの動作概要を示している。図中の白抜き矢印は、時間の流れを示している。また、図示の例では、家Aと家Bに1台ずつ会話ロボット2が配置されている。また、図示の例ではクラウドサーバ1は遠隔地にあるものとして、図示していない。
時刻11:15:30に、図示のようにテレビから「こんにちは」と音声出力があったとする。この場合、各家の会話ロボット2は、「こんにちは」という音声を取得し、それぞれクラウドサーバ1に送信する。クラウドサーバ1はそれぞれの音声を音声認識する。図示の例では、家Aおよび家Bの2台の会話ロボット2から同一内容の音声が略同時にクラウドサーバ1に送信されるため、これらの認識情報の認識結果および音声入力時刻は同一となる。情報取得部102はこれらの認識情報に基づいて判定対象DB121を更新する。
その後所定時間をおいて、応答判定部103は、各会話ロボット2由来の認識情報それぞれについて、応答要否を判定する。上述のように、同一の認識結果および音声入力時刻のレコードが判定対象DB121に存在するため、応答判定部103は、各認識情報について、応答メッセージを作成しないと判定する。そのため、応答作成部104は応答メッセージを作成せず、よって家Aおよび家B両方の会話ロボット2は、何も音声出力をしない状態のままである。
一方、時刻13:07:10に、家Aでユーザが「こんにちは」と会話ロボット2に話しかけたとする。この場合、家Aの会話ロボット2からのみ、音声がクラウドサーバ1に送信される。この場合、作成される認識情報と同一の認識結果および音声入力時刻を有するレコードは、判定対象DB121に存在しない。したがって、応答判定部103は応答メッセージを作成すると判定し、応答作成部104は「こんにちは」という認識結果に対応する応答メッセージ「こんにちは」を会話ロボット2に送信する。そして、会話ロボット2はスピーカ23から、「こんにちは」と音声出力する。
さらに、時刻16:43:50にテレビから「明日の天気は」と音声出力があったとする。この場合、時刻11:15:30の場合と同様に、家Aおよび家Bの2台の会話ロボット2から同一内容の音声が略同時にクラウドサーバ1に送信されるため、これらの認識情報の認識結果および音声入力時刻は同一となる。したがって、応答判定部103は、各認識情報について、応答メッセージを作成しないと判定し、応答作成部104は応答メッセージを作成しない。よって家Aおよび家B両方の会話ロボット2は、何も音声出力をしない状態のままである。
≪処理の流れ≫
最後に、応答システム100における応答メッセージの作成要否を判定する処理(応答要否判定処理)の流れについて、図4を参照して説明する。図4は、応答システム100における応答要否判定処理の流れを示すフローチャートである。なお、図4の例は、ある入力音声についての(入力1回についての)、応答要否判定処理の流れを示している。
会話ロボット2の制御部20は、マイク22から周囲の音声を入力されると、音声入力時刻を取得する。制御部20は、入力された音声に、音声入力時刻およびロボット識別情報を対応付けてクラウドサーバ1に送信する。クラウドサーバ1のサーバ制御部10は該音声、音声入力時刻、およびロボット識別情報を取得する(S10)。音声認識部101は取得した音声について、音声認識を実行し(S12)、認識結果と音声入力時刻とを対応付けて認識情報を作成する(S14)。音声認識部101は情報取得部102に認識情報を送信する。
情報取得部102は認識情報を受信すると(情報取得ステップ)、判定対象DB121を更新して、該認識情報を応答判定部103に送信する。応答判定部103は認識情報を受信すると、所定時間後に、該認識情報が判定対象DB121の認識情報と同一か否かを判定する(S16、応答判定ステップ)。同一である場合(S16でYES)、応答判定部103は応答メッセージを作成しないと判定する(S22)。一方、同一でない場合(S16でNO)、応答判定部103は応答メッセージを作成すると判定し(S18)、応答作成部104は認識結果に応じた応答メッセージを作成する(S20)。応答作成部104は作成した応答メッセージを、ロボット識別情報が示す会話ロボット2に送信し、会話ロボット2は該応答メッセージをスピーカ23から出力する。
前記の処理によれば、クラウドサーバ1の応答判定部103は、同時に同内容の認識結果が得られた場合、該認識結果を示す認識情報については、該認識情報に応じた前記応答メッセージを作成しない(すなわち、会話ロボット2に応答を実行させない)と判定する。
テレビやラジオの音声等は、複数の場所で(別のテレビまたはラジオから)同時刻に同じ音声出力がなされる。したがって複数の会話ロボット2がほぼ同時に同じ内容の音声を取得し、クラウドサーバ1に送信すると考えられる。前記の構成によれば、このような場合に応答を実行させないと判定するため、テレビまたはラジオ等からの出力音声による誤反応を防止することができる。
本実施形態に係るクラウドサーバ1の音声認識部101は、音声認識を行う際に、音声認識を行った時刻である認識時刻を取得してもよい。認識時刻は、例えばクラウドサーバ1の計時部(図示せず)、またはサーバ制御部10の制御クロック等に基づいて取得される。そして、音声認識部101は、音声に、音声入力時刻ではなく、認識時刻を対応付けた情報を認識情報としてもよい。以降の実施形態についても同様である。
この場合、判定対象DB121の「日付」列および「時刻」列にはそれぞれ、認識時刻のうちの年月日および時刻が記憶される。また、この場合、会話ロボット2の制御部20は音声入力時刻を取得せず、音声とロボット識別情報とを対応付けてクラウドサーバ1に送信してもよい。
〔実施形態2〕
本開示に係る応答システムにおいて、音声認識および応答メッセージの作成は、会話ロボットが行っても良い。以下、本開示の実施形態2について、図5を参照して説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。以降の実施形態についても同様である。
図5は、本実施形態に係る応答システム200に含まれる、会話ロボット4およびクラウドサーバ3の要部構成を示すブロック図である。クラウドサーバ3は、音声認識部101および応答作成部104を備えていない点で、クラウドサーバ1と異なる。会話ロボット4は、記憶部24と、音声認識部201と、応答作成部202とを備える点で、会話ロボット2と異なる。
記憶部24は、応答メッセージの作成に必要なデータ(例えば、応答メッセージの雛形または定型文等)を記憶している。音声認識部201は、実施形態1にて説明した音声認識部101と同様の機能を備えている、また、応答作成部202は、実施形態1にて説明した応答作成部104と同様の機能を備えている。本実施形態に係る応答システム200では、会話ロボット4の制御部20は、マイク22から音声を入力されると、音声入力時刻を取得するとともに、音声認識部201で音声認識を実行する。音声認識部201は、音声認識の結果と音声入力時刻とを対応付けた認識情報を作成する。音声認識部201は、認識情報をロボット識別情報と対応付けて、クラウドサーバ3に送信する。また、音声認識部201は認識情報を応答作成部202に送信する。
クラウドサーバ3の情報取得部102は、会話ロボット4から認識情報を取得し、実施形態1にて説明した処理と同様の処理を実行する。応答判定部103も実施形態1と同様の判定を実行し、判定結果を、ロボット識別情報が示す会話ロボット4に送信する。会話ロボット4の応答作成部202は、応答メッセージを作成する旨の判定結果を受信した場合、記憶部24に記憶された応答メッセージの雛形等を参照して、応答メッセージを作成する。制御部20は、作成された応答メッセージをスピーカ23から出力させる。
ユーザと会話ロボット4とがリアルタイムに会話している場合、応答要否の判定を迅速に行い、会話ロボット4からの応答出力をタイミング良く行うことが重要である。以上の処理によれば、応答システム200のクラウドサーバ3は、音声認識および応答メッセージの作成を行わず、応答要否の判定のみを行う。したがって、複数の会話ロボット4についての処理を要求されるクラウドサーバ3の負荷を軽減することができる。また、以上の処理によれば、クラウドサーバ3は会話ロボット4に、応答可否の判定結果のみを送信すればよい。したがって、クラウドサーバ3において応答内容を決定し、該内容を示す情報を会話ロボット4に送信する場合に比べて、通信データの容量を削減して通信に係る負荷を軽減することができる。そのため、本実施形態に係るクラウドサーバ3は、より高速に各種処理を実行することができる。
例えば、クラウドサーバ3における応答要否の判定に係る処理速度も速くなる。したがって、会話ロボット4もより迅速に応答メッセージを出力することができる。
〔実施形態3〕
本開示に係る応答システムにおいて、会話ロボットはクラウドサーバを介さずに、会話ロボット同士で認識情報を送受信してもよい。そして、会話ロボットは、他の会話ロボットから受信した認識情報(他の認識情報)と、自装置で作成した認識情報とが同一である場合は、応答メッセージを作成しないこととしてもよい。
以下、本開示の実施形態3について、図6および図7を参照して説明する。図6は、本実施形態に係る応答システム300に含まれる、会話ロボット5の要部構成を示すブロック図である。図示の通り、応答システム300には、クラウドサーバ1は無くてもよい。会話ロボット5は、会話ロボット4の構成に加え、さらに応答判定部203を備える。
図7は、応答システム300における応答要否判定処理の流れを示すフローチャートである。図7の例も図4と同様、ある入力音声についての(入力1回についての)、応答要否判定処理の流れを示している。
会話ロボット5はマイク22で周囲の音声を取得し(S30)、音声認識部201で音声認識(S32)および認識情報の作成(S34)を行う。会話ロボット5は他の会話ロボット5と通信し(S36)、作成した認識情報を他の会話ロボット5それぞれに向けて送信する。また、他の会話ロボット5から他の会話ロボット5が作成した認識情報(他の認識情報)を受信する(S38)。
制御部20の応答判定部203は、受信した認識情報(他の認識情報)と作成した認識情報とが同一か否か判定する(S40)。同一である場合(S40でYES)、応答判定部203は応答メッセージを作成しないと判定する(S46)。一方、同一でない場合(S40でNO)、応答判定部203は応答メッセージを作成すると判定し(S42)、応答作成部202は認識結果に応じた応答メッセージを作成する(S44)。制御部20は作成された応答メッセージを、スピーカ23から出力する。
以上の処理によれば、会話ロボット5は、他の実施形態に記載のクラウドサーバ1または3のようなサーバが存在しなくとも、会話ロボット5同士で認識情報を送受信して互いの認識情報を照合することで、同時刻に同内容の認識結果が得られたか否かを判定することができる。したがって、クラウドサーバ1または3を含む大規模なシステムまたはネットワークを構築しなくとも、会話ロボット5だけでテレビ等からの出力音声による誤反応を防止することができる。
〔実施形態4〕
本開示の実施形態4について、図8〜図10を参照して説明する。図8は、本実施形態に係る応答システム400に含まれる、会話ロボット2およびクラウドサーバ6の要部構成を示すブロック図である。応答システム400は、1台以上のクラウドサーバ6と、1台以上の会話ロボット2とを含む。図示の例では会話ロボット2は2台であるが、会話ロボット2の台数は特に限定しない。例えば、会話ロボット2は1台であってもよい。
会話ロボット2は、ユーザの発話に応じた応答を返すことで、該ユーザと会話するロボットである。会話ロボット2の構成は図1と同様である。なお、会話ロボット2は、以降で説明するクラウドサーバ6の機能を備えた装置であって、単独で(クラウドサーバ6無しで)動作可能な装置であってもよい。
クラウドサーバ6は、会話ロボット2の応答の要否を判定する。クラウドサーバ6は図示の通り、サーバ制御部(判定装置)10と、サーバ通信部11と、記憶部12とを備える。
サーバ通信部11は、会話ロボット2との通信を行う。なお、応答システム400においてあるクラウドサーバ6と通信する会話ロボット2が1台だけである場合、サーバ通信部11はロボット識別情報を受信しなくてもよい。一方、応答システム400において会話ロボット2が複数台存在する場合、サーバ制御部10は各会話ロボット2からの音声および音声入力時刻に加えてロボット識別情報を受信する。
記憶部12はクラウドサーバ1に必要な各種データを格納する。具体的には、記憶部12は少なくとも判定対象データベース(DB)122を記憶している。また、記憶部12は応答メッセージの作成に必要なデータ(例えば、応答メッセージの雛形または定型文等)を記憶している。
(判定対象DB)
判定対象DB122は、応答メッセージの作成要否を判定するために参照されるDBであり、該DBには1つ以上の判定情報が記憶されている。ここで、判定情報とは、音声入力がなされる予定の時刻または時間帯と、予測される音声認識の結果の少なくとも一部を示す所定のキーワードとを対応付けた情報である。
図9は、判定対象DB122のデータ構造の一例を示す図である。図示の例では、判定対象DB122は「ID」列と、「日付」列と、「時刻」列と、「キーワード」列とを含む。同図の1レコードは1つの判定情報を示している。なお、「日付」列と「時刻」列は一体であってもよい。また、「日付」列および「時刻」列の情報で1点の時刻を指定するのではなく、ある時刻からある時刻までの時間帯を示すようにしてもよい。
「ID」列には、判定情報を一意に特定するための識別コードが記憶される。なお、判定対象DB122において「ID」列の情報は必須ではない。「日付」列および「時刻」列にはそれぞれ、音声入力がなされる予定の時刻のうちの、年月日および時刻がそれぞれ記憶される。「キーワード」列には、予測される音声認識の結果の少なくとも一部を示すキーワードが記憶される。
判定対象DB122の各レコード、すなわち各判定情報は、クラウドサーバ6、または他の装置により、予め準備されて格納される。この判定情報は、例えば、ある時刻または時間帯に、ロボット2の近傍に存在するテレビまたはラジオ等の音声放送機器から発せられる可能性のあるキーワードを指定するものであってもよい。
すなわち、判定対象DB122の「キーワード」列に記憶されたキーワードは、テレビまたはラジオ等の番組において話される予定の台詞の少なくとも一部であり、「日付」列および「時刻」列に記憶された時刻(または時間帯)は、該番組において該台詞が話されると予測される時刻または時間帯であることが望ましい。
このように、放送予定または放送中のある番組で発せられる台詞の少なくとも一部と、該台詞の発せられるタイミングとを判定情報として判定対象DB122に格納しておくことで、後述する応答判定部103は、該台詞に対してロボット2が応答しないようにすることができる。
サーバ制御部10は、クラウドサーバ6を統括的に制御する。サーバ制御部10は、音声認識部101と、情報取得部(認識情報取得部)102と、応答判定部103と、応答作成部104とを含む。音声認識部101および応答作成部104の処理内容は、図1の説明における音声認識部101および応答作成部104と同様である。
本実施形態に係る情報取得部102は、音声認識部101から取得した認識情報を応答判定部103に送る。本実施形態に係る応答判定部103は、情報取得部102から取得した認識情報に応じて、応答メッセージを作成するか否か(すなわち、会話ロボット2に応答を実行させるか否か)を判定する。具体的には、応答判定部103は、記憶部12の判定対象DB122を参照して、認識情報に含まれる時刻(音声入力時刻)と同一時刻を示し、かつ、認識情報に含まれる音声認識の結果と同一のキーワードを示すレコードが有るか否かを、判定する。なお、判定情報が時刻ではなく時間帯を指定している場合は、認識情報に含まれる時刻が、該時間帯の範囲内である場合は、「同一時刻である」とみなしてよい。
同一時刻かつ同一のキーワードを示すレコードがない場合、応答判定部103は、応答メッセージを作成すると判定する。一方、同一時刻かつ同一のキーワードを示すレコードがある場合、応答判定部103は、応答メッセージを作成しないと判定する。なお、本実施形態では、認識結果の文字列と判定情報のキーワードとの一致割合が予め設定された閾値以上である場合、これらが「同一」であると判定してよい。
応答作成部104は応答メッセージを作成して、該応答メッセージを、サーバ通信部11を介して会話ロボット2に送信する。会話ロボット2からロボット識別情報を受信していた場合、応答作成部104は、認識結果に対応付けられていたロボット識別情報が示す会話ロボット2に向けて、応答メッセージを送信してもよい。これにより、ある会話ロボット2において取得された音声に対応する応答メッセージを、該会話ロボット2に返すことができる。
≪処理の流れ≫
続いて、応答システム400における応答要否判定処理の流れについて、図10を参照して説明する。図10は、応答システム400における応答要否判定処理の流れを示すフローチャートである。なお、図10の例は、図4および図7と同様に、ある入力音声についての(入力1回についての)、応答要否判定処理の流れを示している。
会話ロボット2の制御部20は、マイク22から周囲の音声を入力されると、音声入力時刻を取得する。制御部20は、入力された音声に、音声入力時刻(および、ロボット識別情報)を対応付けてクラウドサーバ6に送信する。クラウドサーバ6のサーバ制御部10は該音声および音声入力時刻(および、ロボット識別情報)を取得する(S50)。音声認識部101は取得した音声について、音声認識を実行し(S52)、認識結果と音声入力時刻とを対応付けて認識情報を作成する(S54)。音声認識部101は情報取得部102に認識情報を送信する。
情報取得部102は認識情報を受信すると(認識情報取得ステップ)、該認識情報を応答判定部103に送信する。応答判定部103は認識情報を受信すると、該認識情報が判定対象DB122の判定情報と同一か否かを判定する(S56、応答判定ステップ)。すなわち、応答判定部103は、認識情報が示す音声入力時刻と時刻が同一(または音声入力時刻を含む時間帯の範囲内)であり、かつ、認識情報が示す音声認識の結果とキーワードが一致するレコードが判定対象DB122に存在するか否かを判定する。認識情報が判定対象DB122の判定情報と同一である場合(S56でYES)、応答判定部103は応答メッセージを作成しないと判定する(S62)。一方、同一でない場合(S56でNO)、応答判定部103は応答メッセージを作成すると判定し(S58)、応答作成部104は認識結果に応じた応答メッセージを作成する(S60)。応答作成部104は作成した応答メッセージを会話ロボット2に送信し、会話ロボット2は該応答メッセージをスピーカ23から出力する。
前記の処理によれば、応答システム400は、音声入力がなされる予定の時刻または時間帯と、予測される音声認識の結果とを含む判定情報を予め記憶部に格納しておく。そして、会話ロボット2が得た音声入力から作成された認識情報に含まれる、時刻および音声認識結果が、いずれかの判定情報の時刻または時間帯、ならびにキーワードと合致する場合は、会話ロボット2に応答させないようにすることができる。
例えば、テレビまたはラジオの放送のように、応答すべきでないキーワードがいつ発せられるか予め分かっている場合、該応答すべきでないキーワードと、該キーワードが発せられると予測される時刻とを、予め判定情報として記憶部に格納しておくことができる。
これにより、応答システム400は、ロボット2が適切でないタイミングで応答メッセージを出力することを防止することができる。したがって、応答システム400は、テレビまたはラジオ等からの出力音声に対する応答要否を、適切に判定することができる。
〔変形例〕
前記各実施形態では、制御装置を搭載した電子機器の例として、会話ロボットを例に挙げて説明を行った。しかしながら、前記各実施形態に係る応答システムに含まれる電子機器は、会話機能を有する機器でさえあればよく、その態様は会話ロボットに限定されない。例えば、応答システムは、電子機器として携帯端末やパソコンなどの情報機器、スピーカ単体、電子レンジ、ならびに冷蔵庫等の家電機器を含んでいてもよい。
〔ソフトウェアによる実現例〕
クラウドサーバ1および3、ならびに会話ロボット2、4、および5の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、クラウドサーバ1および3、ならびに会話ロボット2、4、および5は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る判定装置(サーバ制御部10または制御部20)は、音声入力装置(マイク22)を備える電子機器(会話ロボット2または4)による応答の要否を判定する判定装置であって、前記音声入力装置に入力された音声についての音声認識の結果と、該音声が入力された時刻である音声入力時刻、または前記音声認識を行った時刻である認識時刻とを対応付けた認識情報を取得する情報取得部(情報取得部102または制御部20)と、前記認識情報に応じた応答を実行させるか否かを判定する応答判定部(応答判定部103または応答判定部203)と、を備え、前記応答判定部は、前記認識情報の取得前、または前記認識情報の取得から所定時間内に、前記認識情報と同一内容の第2認識情報を取得した場合は、前記認識情報に応じた前記応答を実行させないと判定する。
例えばテレビ番組の音声等では、同時刻に別の場所で(別のテレビから)同じ音声出力がなされる。前記の構成によれば、判定装置は、同時に同内容の認識結果が得られた場合、該認識結果を示す認識情報については、該認識情報に応じた前記応答を実行させないと判定する。したがって、判定装置は、テレビまたはラジオ等からの出力音声による誤反応を防止することができる。
本発明の態様2に係る判定装置は、上記態様1において、複数の電子機器から、前記音声入力時刻および前記音声を取得して音声認識し、該音声認識の結果と前記音声入力時刻または前記認識時刻とを対応付けて認識情報を作成する音声認識部(音声認識部101)を備えていてもよい。
前記の構成によれば、電子機器は、音声さえ取得し判定装置に送信することができるならば、音声認識機能、および認識情報を作成する機能を備えていなくともよい。したがって、判定装置は、より多種の電子機器から音声を収集し応答要否の判定を行うことができる。
本発明の態様3に係る判定装置は、上記態様1において、前記情報取得部は、複数の前記電子機器から前記認識情報を取得してもよい。
前記の構成によれば、判定装置は自装置で音声認識と、音声入力時刻または認識時刻の特定とを行わなくてもよい。このように判定装置の処理負荷を軽減させることができるため、応答判定部における判定処理の速度を向上させることができる。
本発明の態様4に係る判定装置は、上記態様1から3のいずれか一態様において、前記応答判定部の判定結果に応じて、前記認識情報に応じた応答メッセージを作成する応答作成部を備えていてもよい。
前記の構成によれば、応答判定部が応答を実行させると判定した場合、認識情報に応じた応答メッセージを作成することができる。
本発明の態様5に係る判定装置は、上記態様1から3のいずれか一態様において、前記認識情報には、音声認識の対象となった音声を取得した電子機器を特定するための識別情報が含まれており、前記応答判定部の判定結果を、該判定が下された認識情報に含まれる前記識別情報に応じた電子機器に対して送信する判定結果送信部(応答判定部103)を備えていてもよい。
前記の構成によれば、判定装置は自装置で応答メッセージまたは応答動作等、応答に関する詳細な制御内容を決定しなくともよい。したがって判定装置の処理負荷を軽減させることができる。また、前記の構成によれば、判定装置は電子機器に、応答可否の判定結果のみを送信すればよい。したがって、判定装置において応答内容を決定し、該内容を示す情報を電子機器に送信する場合に比べ、通信データの容量を削減して通信に係る負荷を軽減することができる。以上のことから、前記構成によれば、判定装置における各種処理の速度を向上させることができる。
本発明の態様6に係る判定装置は、上記態様1から5のいずれか一態様において、前記情報取得部が取得した前記認識情報を記憶部に格納する認識情報格納部(情報取得部102)を備え、前記応答判定部は、所定のタイミングで、前記記憶部に格納された各認識情報について、それぞれの認識情報に応じた応答を作成するか否かを判定してもよい。
前記の構成によれば、例えば複数の電子機器からほぼ同時に音声(または認識情報)を受信した場合に、それぞれの音声(または認識情報)についての判定を、所定のタイミングで順次行うことができる。
例えばテレビ番組の音声は、同時刻に別の場所で同じ音声出力がなされる。この場合、複数の電子がほぼ同時に音声を取得し、判定装置に送信すると考えられる。前記の構成によれば、このような場合にも正確に判定処理を行うことができる。
本発明の態様7に係る判定装置は、上記態様1から6のいずれか一態様において、前記応答判定部は、記憶部に予め格納された、音声入力がなされる予定の時刻または時間帯と、予測される音声認識の結果の少なくとも一部を示す所定のキーワードとを対応付けた情報である判定情報を参照し、前記認識情報に含まれる前記音声入力時刻または前記認識時刻、および前記音声認識の結果が、前記判定情報の前記予定の時刻または時間帯、および音声認識の結果とそれぞれ合致する場合は、該認識情報に応じた応答を作成しないと判定してもよい。
前記の構成によれば、音声入力がなされる予定の時刻または時間帯と、予測される音声認識の結果とを予め判定情報として格納しておき、音声入力装置からの認識情報が、これら時刻または時間帯、および音声認識の結果と合致する場合は、電子機器に応答させないようにすることができる。
例えば、テレビまたはラジオの放送のように、応答すべきでないキーワードがいつ発せられるか予め分かっている場合、該応答すべきでないキーワードと、該キーワードが発せられると予測される時刻とを、予め判定情報として格納しておくことができる。これにより、判定装置は、電子機器が適切でないタイミングで応答メッセージを出力することを防止することができる。したがって、前記の構成によれば、テレビまたはラジオ等からの出力音声に対する応答要否を適切に判定することができる。
本発明の態様8に係る電子機器(会話ロボット2および4)は、音声入力装置(マイク22)を備えた電子機器であって、前記態様1に記載の判定装置の判定結果に従って応答を実行する応答部を備える。
本発明の態様9に係る応答システム(応答システム100、200、300、および400)は、前記態様1から7のいずれか一態様に記載の判定装置と、前記態様8に記載の電子機器と、を含む。
本発明の態様10に係る判定装置(サーバ制御部10または制御部20)の制御方法は、音声入力装置(マイク22)を備える電子機器(会話ロボット2または4)による応答の要否を判定する判定装置の制御方法であって、前記音声入力装置に入力された音声についての音声認識の結果と、該音声が入力された時刻である音声入力時刻、または前記音声認識を行った時刻である認識時刻とを対応付けた認識情報を取得する情報取得ステップと、前記認識情報に応じた応答を実行させるか否かを判定する応答判定ステップと、を含み、前記応答判定ステップでは、前記認識情報の取得前、または前記認識情報の取得から所定時間内に、前記認識情報と同一内容の第2認識情報を取得した場合は、前記認識情報に応じた前記応答を実行させないと判定する。
前記態様8から10のいずれか一態様に係る構成によれば、前記態様1に記載の判定装置と同様の効果を奏する。
本発明の各態様に係る判定装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記判定装置が備える各部(ソフトウェア要素)として動作させることにより上記判定装置をコンピュータにて実現させる判定装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
100、200、300、400 応答システム
1、3、6 クラウドサーバ
2、4、5 会話ロボット
10 サーバ制御部(判定装置)
101 音声認識部
102 情報取得部(認識情報格納部)
103 応答判定部(判定結果送信部)
104 応答作成部
11 サーバ通信部
12、24 記憶部
121、122 判定対象DB
20 制御部(判定装置)
201 音声認識部
202 応答作成部
203 応答判定部
21 通信部
22 マイク(音声入力装置)
23 スピーカ

Claims (11)

  1. 音声入力装置を備える電子機器による応答の要否を判定する判定装置であって、
    前記音声入力装置に入力された音声についての音声認識の結果と、該音声が入力された時刻である音声入力時刻、または前記音声認識を行った時刻である認識時刻とを対応付けた認識情報を取得する情報取得部と、
    前記認識情報に応じた応答を実行させるか否かを判定する応答判定部と、を備え、
    前記応答判定部は、前記認識情報の取得前、または前記認識情報の取得から所定時間内に、前記認識情報と同一内容の第2認識情報を取得した場合は、前記認識情報に応じた前記応答を実行させないと判定することを特徴とする、判定装置。
  2. 複数の電子機器から、前記音声入力時刻および前記音声を取得して音声認識し、該音声認識の結果と前記音声入力時刻または前記認識時刻とを対応付けて認識情報を作成する音声認識部を備えることを特徴とする、請求項1に記載の判定装置。
  3. 前記情報取得部は、複数の前記電子機器から前記認識情報を取得することを特徴とする、請求項1に記載の判定装置。
  4. 前記応答判定部の判定結果に応じて、前記認識情報に応じた応答メッセージを作成する応答作成部を備えることを特徴とする、請求項1〜3のいずれか1項に記載の判定装置。
  5. 前記認識情報には、音声認識の対象となった音声を取得した電子機器を特定するための識別情報が含まれており、
    前記応答判定部の判定結果を、該判定が下された認識情報に含まれる前記識別情報に応じた電子機器に対して送信する判定結果送信部を備えることを特徴とする、請求項1〜3のいずれか1項に記載の判定装置。
  6. 前記情報取得部が取得した前記認識情報を記憶部に格納する認識情報格納部を備え、
    前記応答判定部は、所定のタイミングで、前記記憶部に格納された各認識情報について、それぞれの認識情報に応じた応答を作成するか否かを判定することを特徴とする、請求項1〜5のいずれか1項に記載の判定装置。
  7. 前記応答判定部は、
    記憶部に予め格納された、音声入力がなされる予定の時刻または時間帯と、予測される音声認識の結果の少なくとも一部を示す所定のキーワードとを対応付けた情報である判定情報を参照し、
    前記認識情報に含まれる前記音声入力時刻または前記認識時刻、および前記音声認識の結果が、前記判定情報の前記予定の時刻または時間帯、および音声認識の結果とそれぞれ合致する場合は、該認識情報に応じた応答を作成しないと判定することを特徴とする、請求項1〜6のいずれか1項に記載の判定装置。
  8. 音声入力装置を備えた電子機器であって、
    請求項1に記載の判定装置の判定結果に従って応答を実行する応答部を備えることを特徴とする、電子機器。
  9. 請求項1〜7のいずれか1項に記載の判定装置と、
    請求項8に記載の電子機器と、を含む、応答システム。
  10. 音声入力装置を備える電子機器による応答の要否を判定する判定装置の制御方法であって、
    前記音声入力装置に入力された音声についての音声認識の結果と、該音声が入力された時刻である音声入力時刻、または前記音声認識を行った時刻である認識時刻とを対応付けた認識情報を取得する情報取得ステップと、
    前記認識情報に応じた応答を実行させるか否かを判定する応答判定ステップと、を含み、
    前記応答判定ステップでは、前記認識情報の取得前、または前記認識情報の取得から所定時間内に、前記認識情報と同一内容の第2認識情報を取得した場合は、前記認識情報に応じた前記応答を実行させないと判定することを特徴とする、判定装置の制御方法。
  11. 請求項1に記載の判定装置としてコンピュータを機能させるための制御プログラムであって、上記情報取得部および上記応答判定部としてコンピュータを機能させるための制御プログラム。
JP2018096494A 2018-05-18 2018-05-18 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム Pending JP2019200393A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018096494A JP2019200393A (ja) 2018-05-18 2018-05-18 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
CN201910410774.4A CN110503950A (zh) 2018-05-18 2019-05-17 判定装置、电子设备、响应系统、判定装置的控制方法
US16/416,203 US20190355357A1 (en) 2018-05-18 2019-05-18 Determining device, electronic apparatus, response system, method of controlling determining device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018096494A JP2019200393A (ja) 2018-05-18 2018-05-18 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム

Publications (1)

Publication Number Publication Date
JP2019200393A true JP2019200393A (ja) 2019-11-21

Family

ID=68533947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018096494A Pending JP2019200393A (ja) 2018-05-18 2018-05-18 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム

Country Status (3)

Country Link
US (1) US20190355357A1 (ja)
JP (1) JP2019200393A (ja)
CN (1) CN110503950A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014087495A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム
US20170076721A1 (en) * 2015-09-10 2017-03-16 Fred Bargetzi Acoustic sensory network
JP2019003010A (ja) * 2017-06-14 2019-01-10 カシオ計算機株式会社 音声応答装置、音声応答システム、音声応答方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004301875A (ja) * 2003-03-28 2004-10-28 Toyota Central Res & Dev Lab Inc 音声認識装置
JP4367005B2 (ja) * 2003-05-27 2009-11-18 パナソニック電工株式会社 音声認識による照明制御装置
DE112008001334B4 (de) * 2007-07-02 2016-12-15 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
JP5591428B2 (ja) * 2012-06-04 2014-09-17 三菱電機株式会社 自動記録装置
DE112013006728B4 (de) * 2013-02-25 2020-10-01 Mitsubishi Electric Corporation Spracherkennungssystem und Spracherkennungsgerät
CN103474063B (zh) * 2013-08-06 2015-12-23 福建华映显示科技有限公司 语音辨识系统以及方法
US10127907B2 (en) * 2014-05-13 2018-11-13 Sharp Kabushiki Kaisha Control device and message output control system
JP5951161B2 (ja) * 2014-07-23 2016-07-13 三菱電機株式会社 音声認識装置及び音声認識方法
CN106653031A (zh) * 2016-10-17 2017-05-10 海信集团有限公司 语音唤醒方法及语音交互装置
CN107393548B (zh) * 2017-07-05 2021-05-07 海信视像科技股份有限公司 多个语音助手设备采集的语音信息的处理方法及装置
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014087495A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム
US20170076721A1 (en) * 2015-09-10 2017-03-16 Fred Bargetzi Acoustic sensory network
JP2019003010A (ja) * 2017-06-14 2019-01-10 カシオ計算機株式会社 音声応答装置、音声応答システム、音声応答方法及びプログラム

Also Published As

Publication number Publication date
US20190355357A1 (en) 2019-11-21
CN110503950A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
US20210104232A1 (en) Electronic device for processing user utterance and method of operating same
KR102429436B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
CN111670471B (zh) 基于对在线语音命令的使用来学习离线语音命令
US9984563B2 (en) Method and device for controlling subordinate electronic device or supporting control of subordinate electronic device by learning IR signal
US10388277B1 (en) Allocation of local and remote resources for speech processing
CN107909998B (zh) 语音指令处理方法、装置、计算机设备和存储介质
US11188289B2 (en) Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
US11721343B2 (en) Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
KR20180064328A (ko) 홈 자동화 시스템의 음성 제어를 위한 이력 기반 핵심 구 제안
US10705789B2 (en) Dynamic volume adjustment for virtual assistants
US20200175980A1 (en) Method and Terminal for Implementing Speech Control
CN112970059A (zh) 用于处理用户话语的电子装置及其控制方法
WO2019128829A1 (zh) 动作执行方法、装置、存储介质及电子装置
CN111312253A (zh) 语音控制方法、云端服务器及终端设备
JP6255274B2 (ja) 情報処理装置、音声対話装置、および制御プログラム
US20210082401A1 (en) Electronic apparatus and method for controlling voice recognition thereof
CN113678119A (zh) 用于生成自然语言响应的电子装置及其方法
CN112700770A (zh) 语音控制方法、音箱设备、计算设备和存储介质
JP2019200393A (ja) 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
CN113314115A (zh) 终端设备的语音处理方法、终端设备及可读存储介质
JP2019200394A (ja) 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
JP7009092B2 (ja) 情報処理装置および情報処理方法
CN105824857A (zh) 一种语音搜索方法、装置及终端
KR102487078B1 (ko) 허브 디바이스, 허브 디바이스 및 복수의 디바이스를 포함하는 멀티 디바이스 시스템 및 그 동작 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220607