JP6966979B2 - 対話システムの制御方法、対話システム及びプログラム - Google Patents

対話システムの制御方法、対話システム及びプログラム Download PDF

Info

Publication number
JP6966979B2
JP6966979B2 JP2018120888A JP2018120888A JP6966979B2 JP 6966979 B2 JP6966979 B2 JP 6966979B2 JP 2018120888 A JP2018120888 A JP 2018120888A JP 2018120888 A JP2018120888 A JP 2018120888A JP 6966979 B2 JP6966979 B2 JP 6966979B2
Authority
JP
Japan
Prior art keywords
dialogue
mode
touch panel
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018120888A
Other languages
English (en)
Other versions
JP2020003925A (ja
Inventor
和将 徳橋
義崇 平松
利光 高橋
佑 曽我
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018120888A priority Critical patent/JP6966979B2/ja
Priority to EP19163997.0A priority patent/EP3588493B1/en
Priority to US16/360,048 priority patent/US11068288B2/en
Publication of JP2020003925A publication Critical patent/JP2020003925A/ja
Application granted granted Critical
Publication of JP6966979B2 publication Critical patent/JP6966979B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1637Details related to the display arrangement, including those related to the mounting of the display in the housing
    • G06F1/1643Details related to the display arrangement, including those related to the mounting of the display in the housing the display being associated to a digitizer, e.g. laptops that can be used as penpads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1686Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being an integrated camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1694Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being a single or a set of motion sensors for pointer control or gesture input obtained by sensing movements of the portable computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Description

本発明は、音声とタッチパネルを利用する対話システムに関する。
近年、機械学習の進展に伴って、音声認識技術が普及している。様々な言語での対応を求められる空港や駅での施設案内や、複雑なサービスを複数取り扱う金融機関や自治体等における窓口業務などのさまざまな対人サービスの提供は、既存の職員だけでは難しくなってきている。このような高度化するサービス業務を支援するため、ロボットや音声アシスタントなどの対話システムの実用化が進められている。
対話システムとしては、例えば、特許文献1が知られている。特許文献1では、ナビゲーション用キャラクタによる対話型のコミュニケーションを可能にし、タッチパネル入力を併用することにより、音声認識による対話型コミュニケーションを補完したコミュニケーション端末が開示されている。
特開2010−26686号公報
対話システムの利用者がタッチパネルを有する端末装置を操作してサービスを受ける際に、利用者の発話や背景の騒音によっては音声の認識精度が低い場合があり、またタッチ入力だけの場合は、大量の選択肢の中から所望の選択肢までたどり着くまでに、何度もタッチ操作が必要になる場合では、時間が掛かったりタッチ操作が煩わしい場合が生じる。
そこで本発明は、上記問題点に鑑みてなされたもので、音声入力とタッチ入力を相互に補完して、利用者にとって操作性のよい対話システムを提供することを目的とする。
本発明は、プロセッサと、メモリと、音声入力装置と、音声出力装置と、タッチ入力が可能な表示部を含むタッチパネルを有する対話システムの制御方法であって、前記プロセッサが、1以上の選択肢を含む問い合わせ情報を生成して、前記音声出力装置または前記タッチパネルから出力する問い合わせステップと、前記プロセッサが、前記音声入力装置または前記タッチパネルから前記問い合わせ情報に対する回答を受け付ける入力ステップと、前記プロセッサが、前記回答に対応する案内情報の候補を生成して、前記音声出力装置または前記タッチパネルから出力する案内ステップと、前記プロセッサが、前記問い合わせ情報に基づいて、前記タッチ入力を受け付ける領域である選択肢を前記タッチパネルに出力する第1の対話モードと、前記問い合わせ情報に基づくコメントを前記タッチパネル、或いは前記音声出力装置で出力する第2の対話モードを、当該対話システムの運用状況に応じて選択するモード切替ステップと、を含み、前記問い合わせステップ及び前記案内ステップは、前記モード切替ステップで選択された第1の対話モードまたは第2の対話モードを使用する。
したがって、本発明は、対話システムの運用状況に応じて選択肢を表示する第1の対話モードと、新たに選択肢を表示せずに利用者に提示するコメントを表示または発話する第2の対話モードを切り替えることで、音声入力と、タッチ入力を相互に補完して、利用者にとって操作性のよい対話システムを提供することができる。
本発明の実施例を示し、対話システムの一例を示すブロック図である。 本発明の実施例を示し、制御装置の構成の一例を示すブロック図である。 本発明の実施例を示し、制御装置で行われる対話処理の一例を示すフローチャートである。 本発明の実施例を示し、モード判定処理の一例を示すフローチャートである。 本発明の実施例を示し、環境及びユーザ使用状況テーブル33の一例を示す図である。 本発明の実施例を示し、タッチパネルの初期画面の一例を示す図である。 本発明の実施例を示し、タッチパネルのカテゴリ選択画面の一例を示す図である。 本発明の実施例を示し、タッチパネルの選択結果表示画面の一例を示す図である。 本発明の実施例を示し、タッチパネルの選択結果表示画面の一例を示す図である。 本発明の実施例の変形例を示し、タッチパネルの初期画面の一例を示す図である。 本発明の実施例の変形例を示し、タッチパネルの問い合わせ画面の一例を示す図である。 本発明の実施例の変形例を示し、タッチパネルの問い合わせ結果表示画面の一例を示す図である。 本発明の実施例を示し、シナリオの一例を示す図である。 本発明の実施例を示し、店舗テーブルの一例を示す図である。
以下、本発明の実施形態を添付図面に基づいて説明する。図1は、本発明の実施例を示し、対話システムの一例を示す図である。本実施例の対話システムは、利用者200と対向する位置に設置されたタッチパネル4と、タッチパネルを支持するスタンド50と、スタンド50に設置された音声入力装置5と、タッチパネル4に設けた音声出力装置6と、タッチパネル4に設けた画像入力装置8と、スタンド50に設置されたセンサ9と、スタンド50に設置された各装置を制御する制御装置100を有する。
本実施例の対話システムは、空港や駅、あるいはショッピングモールなどの施設に設置されて、利用者200に音声またはタッチによる入力を促して、施設の案内を提供する例を示す。
<システムの構成>
図2は、制御装置100の一例を示す図である。制御装置100は、プロセッサ1と、メモリ2と、ストレージ装置3と、タッチパネル4と、音声入力装置5と、音声出力装置6と、ネットワークI/F7と、画像入力装置8と、センサ9と、を含む計算機で構成される。
なお、図1では、制御装置100がタッチパネル4と分離した構成を示したが、これに限定されるものではない。例えば、タッチパネル4と制御装置100が一体の構成であってもよく、また、センサ9や音声入力装置5がタッチパネル4に設置されても良い。なお、画像入力装置8とセンサ9は、利用者200の状況を検出するセンサとして機能する。
メモリ2には、音声情報取得部20と、制御部21と、画像情報取得部22と、センサ情報取得部23が、それぞれプログラムとしてロードされ、プロセッサ1によって実行される。
プロセッサ1は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ1は、音声情報取得プログラムに従って処理することで音声情報取得部20として機能する。他のプログラムについても同様である。さらに、プロセッサ1は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
制御装置100の各機能を実現するプログラム、テーブル等の情報は、ストレージ装置3や不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
ストレージ装置3には、各プログラムが使用するデータが格納される。図示の例では、音声情報取得部20が使用する音声認識データベース31と、制御部21が使用する表示及び発話情報データベース32と、制御部21が使用するユーザ使用状況テーブル33が格納される。各データの詳細については後述する。
タッチパネル4は、タッチパネルディスプレイ40と、タッチ入力情報取得部41を含む。タッチパネルディスプレイ40は、制御部21が出力する情報を表示する。タッチ入力情報取得部41は、タッチパネル4のタッチ入力の内容を制御部21送信する。音声入力装置5は、マイクで構成されて、利用者200の発話や設置環境の騒音などを取得する。音声出力装置6は、スピーカで構成されて、制御部21からの音声を出力する。
ネットワークI/F7は、図示しないネットワークに接続される。画像入力装置8は、カメラで構成されて、利用者200を撮影する。センサ9は、利用者200の有無等を検出する。センサ9としては、例えば、赤外線(IR)センサ91や、モーションセンサ92や、温度センサ93を採用することができる。
<機能の概要>
次に、各機能部の概要について説明する。音声情報取得部20は、音声入力装置5に利用者200の発話(音声)が入力されると、音声認識を実行して音声に対応するテキストを出力する。音声認識は、例えば、隠れマルコフモデルなど周知または公知の技術を用いれば良い。音声認識データベース31は、例えば、音響モデルと、辞書と、言語モデルなど音声認識に必要な情報が予め格納されている。
また、音声情報取得部20は、タッチパネル4が設置された環境の騒音を検出し、例えば、音圧レベルとして出力する。音声情報取得部20は、認識結果のテキストと音圧レベルを制御部21へ送信する。
画像情報取得部22は、画像入力装置8が撮影した利用者200の画像を認識し、利用者200の属性や状況を算出する。画像情報取得部22の画像認識は、例えば、周知または公知の顔認識技術を利用して、利用者200の属性として年齢や性別を認識する。また、画像情報取得部22は、撮影した利用者200の画像から、利用者200の人数や位置を検出する。
また、画像情報取得部22は、利用者200がタッチパネル4を操作可能であるか否かを認識するようにしても良い。すなわち、例えば、利用者200の両手が空いているか否かを識別することで、タッチパネル4の操作が可能か否かを判定することができる。また、画像情報取得部22は、例えば、利用者200のマスクの装着の有無を判定することで、音声認識を利用するか否かの情報とすることができる。
画像情報取得部22は、上記認識したタッチパネル4の操作の可否、マスクの装着の有無などを利用者200の状況として算出する。画像情報取得部22は、上記認識した利用者200の属性や状況を制御部21へ出力する。
また、画像情報取得部22は、新たな利用者200が出現した場合には、制御部21へ処理の開始を通知しても良い。
センサ情報取得部23は、赤外線センサ91や、モーションセンサ92等の信号から利用者200の出現や、利用の終了(利用者200の立ち去り)を判定してセンサ情報として制御部21へ出力する。
制御部21は、画像情報取得部22の認識結果から利用者200の有無や属性や状況を取得し、音声情報取得部20から利用者200の発話に対応するテキストと騒音を取得し、センサ情報取得部23のセンサ情報から利用者200の有無を取得する。
そして、制御部21は、予め設定されたシナリオに応じて、利用者200に対して問い合わせと、施設の案内を実施する。制御部21は、利用者200が使用する入力デバイスを推奨する対話モードとして、タッチパネル4への入力(以下、タッチ入力)を推奨するモード1と、音声の入力を推奨するモード2を有する。制御部21は、利用者200の状況や対話システムの運用状況などに応じて対話モードを適切に切り替えて施設の案内を実行する。制御部21は、問い合わせ情報を生成する問い合わせ部と、案内情報を生成する案内部と、対話モードを切り替えるモード切替部を含むプログラムである。
制御部21は、利用者200がタッチパネル4に到着すると、画像や音声やセンサの認識結果を、環境及びユーザ使用状況テーブル33に格納し、表示及び発話情報データベース32から、シナリオ300と店舗テーブル400を読み込んで案内を開始する。制御部21は、案内の開始後に利用者200の状況などに応じて対話モードを上記モード1とモード2を、対話毎に切り替えて制御する。
対話モードのモード1では、制御部21が、音声入力ではなく、利用者200に対してタッチ入力の使用を促す画面や問いかけを行うGUI(Graphical User Interface)を提供する。一方、対話モードのモード2では、制御部21がタッチ入力ではなく、利用者200が音声入力を使用したくなる画面や問いかけを行うGUIを提供する。
対話モードの画面は、モード1では、タッチパネル4の表示領域に選択肢をボタン等のタッチ領域で表示されて、利用者200にタッチ入力を促すように構成される。一方、モード2では、タッチパネル4の表示領域には新たな選択肢を表示せずに、利用者200に音声入力を促す画面を表示する。例えば、モード2の表示領域では、利用者200に対する問いかけを、発話とテキスト表示の双方で実施する。また、モード1、モード2では、一方の入力を優先的に受け付けるのではなく、音声入力とタッチ入力の双方を均等に扱う。
なお、モード2では、タッチパネル4の表示領域にボタン等のタッチ領域を見えないように設定しておいても良い。例えば、タッチ領域を透明の領域として表示したり、数ドットの極小領域などで表示しても良い。なお、モード2において、表示領域のヘッダ部分に表示される「HOME」ボタンや、「HELP」ボタンなどのタッチ入力領域は、モード1と同様に出力される。
なお、シナリオ300には、利用者200に提示する問い合わせ情報等が設定され、店舗テーブル400には、店舗情報や店舗の候補等を含む案内情報が設定される。シナリオ300の問い合わせ情報は、複数の選択肢(カテゴリなど)を含むことができる。
<データの詳細>
以下、制御部21が利用するデータについて説明する。まず、制御部21が利用する表示及び発話情報データベース32には、シナリオ300と、店舗テーブル400が含まれる。
図8は、制御部21が使用するシナリオ300の一例を示す図である。シナリオ300の各行はリスト番号(図中#)301と対話リスト302から構成される。
対話リスト302は対話システムが利用者200に対して実施する対話のリストであり、図ではセミコロンで区切られて1以上の対話が表記されている。対話リスト302には、出力情報と入力情報と次のリスト番号が設定される。
対話リスト302の出力情報としては、リスト番号301=「1」の「QUESTION」が、利用者200への問い合わせを意味し、制御部21は現在の対話モードに応じて「こんにちは!ご用件は何でしょうか?」という対話の内容を表示または発話する。そして、「CASE」はモード1のときに表示する問い合わせ情報の選択肢「レストラン」、「ショップ」、「サービス」と、次回のリスト番号301が設定される。
例えば、利用者200が「レストラン」を選択したときには、次回の処理はリスト番号301=「2」となり、タッチ入力で取得した「レストラン」を示す値は変数「a」に格納される。
リスト番号301=「2」の「QUESTION」では、食事に関するサブカテゴリ「和食」、「洋食」、「中華」のいずれを選択するかを問い合わせる。制御部21は問い合わせに対する回答(選択結果)を入力として、店舗テーブル400を検索する。次回の処理はリスト番号301=「5」であるので、制御部21は回答に対応する検索結果である案内情報の候補を「ANSWER」として出力する。
図示の例では、リスト番号301=「5」で検索結果を出力(OUTPUT)した後には、GOTO(1)で、リスト番号301=「1」に復帰する例を示すが、これに限定されるものではない。例えば、出力した候補の中から利用者200に所望の店舗を選択させて、さらに詳細な情報を提供したり、空席の照会などを実施させてもよい。
対話リスト302は、制御部21の対話モードを制限することができる。リスト番号301=「99」の「QUESTION」では、店舗を予約するために利用者200の携帯電話の電話番号の入力を、モード1に制限する例を示す。個人情報やプライバシーに関する情報の入力は、タッチ入力を推奨することができる。
また、リスト番号301=「10」の「QUESTION」では、検索結果の案内情報の候補が多すぎてタッチ入力では煩雑になるので、音声入力によるモード2に制限する例を示す。
制御部21は、現在設定された対話モードで、上述のようなシナリオ300のリスト番号301に従って予め設定された対話を実施する。
図9は、制御部21が使用する店舗テーブル400の一例を示す図である。店舗テーブル400は、店舗の種別を格納するカテゴリ401と、詳細な種別を格納するサブカテゴリ402と、個々の店舗の情報を格納する店舗情報403から構成される。
図5は、制御部21が使用する環境及びユーザ使用状況テーブル33の一例を示す図である。環境及びユーザ使用状況テーブル33は、新たな利用者200毎に生成される。
環境及びユーザ使用状況テーブル33は、使用ユーザ数331と、ノイズ332と、直前の対話モード333と、対話回数334と、音声認識精度335と、入力までのインターバル時間336と、ユーザ状況337と、ユーザ位置338を含む。
使用ユーザ数331には、タッチパネル4の前に存在する利用者200の数が格納される。ノイズ332には、音声情報取得部20が算出した騒音の音圧レベルに応じた値が設定される。図示の例では、音圧レベルを大、中、小の3段階に区分けした例を示す。
対話モード333には、現在の対話モードが格納される。対話回数334には、現在の利用者200に対して実施した対話の回数が格納される。音声認識精度335には、音声情報取得部20が算出した音声認識精度(音声認識率)が格納される。なお、音声認識精度335には、現在の利用者200の発話を認識した回数を格納するようにしてもよい。
入力までのインターバル時間336には、利用者200が音声入力またはタッチ入力を実施する時間間隔(例えば、平均値)が格納される。ユーザ状況337には、利用者200に対して考慮すべき事項が格納される。考慮すべき事項は、マスクの装着や両手に荷物を持っている等、音声認識への影響や、タッチ入力への影響が予測される所定の事項が格納される。
ユーザ位置338には、タッチパネル4の位置に対して利用者200が存在する位置が格納される。利用者200の位置は、画像情報取得部22によって検出される。
<処理の詳細>
図3は、制御装置100で行われる対話処理の一例を示すフローチャートである。この処理は、制御部21が、センサ情報取得部23や画像情報取得部22からの情報に基づいて、新たな利用者200が出現したときに実行される。
制御部21は、ステップS1で、環境及びユーザ使用状況テーブル33を初期化してから、実行を開始するシナリオ300の最初のリスト番号301=「1」に設定する。
次に、制御部21は、ステップS2で、設定された対話モードに応じて入力を受け付ける。本実施例では、デフォルトの対話モードをモード2として、音声入力装置5からの入力を受け付ける。なお、制御装置100は、モード2であってもタッチ入力を受け付けることができ、モード1であっても音声入力を受け付けることができる。
制御部21が、音声情報取得部20からの音声認識結果と、タッチ入力情報取得部41からのタッチ入力と、画像情報取得部22からの画像認識結果と、センサ情報取得部23からのセンサ情報を取得する。
ステップS3では、制御部21が、前回の対話の実施により、次回の対話で出力する案内情報の候補の数を取得する。ステップS4では、上記画像認識結果に基づく利用者200の属性及び状況を取得する。制御部21は、現在の利用者200の上記音声認識結果と、画像認識結果と、センサ情報を環境及びユーザ使用状況テーブル33に書き込んで更新する。
制御部21は、ステップS4で、対話モードに応じた入力の有無を判定し、入力があった場合にはステップS7へ進み、入力がない場合にはステップS6で一定時間経過した後にステップS5に戻って上記処理を繰り返す。
制御部21は、ステップS7で、音声とタッチ入力と画像及びセンサの情報を取得して、現在の利用者200との対話を進行するモードを判定する。すなわち、制御部21は、利用者200の属性や状況に応じた対話モードがモード1とモード2のいずれであるかを判定する。当該ステップS7の処理については、図4で後述する。
ステップS7で、制御部21がタッチ入力を推奨するモード1を選択した場合には、ステップS8に進み、制御部21が音声入力を推奨するモード2を選択した場合には、ステップS9に進んで、指定されたリスト番号301のシナリオ300を1つ実行する。
本実施例では、シナリオ300を1つずつ実行する例を示すが、これに限定されるものではない。例えば、「こんにちは!ご用件は何でしょうか?」という問いかけに対して、最初から「カレーが食べたい」と利用者200が回答した場合には、制御部21は、直接カレーを提供するお店の候補を提示してもよい。これは「レストラン」→「洋食」→「カレー」というカテゴリを選択するシナリオを3回実施したことと同様である。
制御部21は、モード1のステップS8またはモード2のステップS9のいずれか一方で、リスト番号301を1つ実行するとステップS10に進んで終了するか否かを判定する。
制御部21は、所定の終了条件を満たしていなければステップS2へ戻って入力を受け付けて次のリスト番号301のシナリオ300に進む。一方、制御部21は、所定の終了条件を満たしていれば対話処理を終了する。
なお、所定の終了条件は、例えば、画像情報取得部22が利用者200の立ち去りを検出した場合や、センサ情報取得部23が赤外線センサ91またはモーションセンサ92で利用者200の立ち去りを検出した場合や、タッチパネル4の終了ボタンをタッチされた場合や、音声情報取得部20が利用者200の発話として「バイバイ」や「さようなら」を検出した場合である。
上記処理によって、制御部21は、シナリオ300のひとつの対話(リスト番号301)を実行するたびに、モード判定処理を行って利用者200の属性や状況に応じた対話モードを選択して、円滑に対話を進めることが可能となる。また、シナリオ300では、個人情報等の入力については音声入力を禁止してモード1に制限することができ、対話の内容に応じた対話モードに切り替えることが可能になる。
なお、上記処理の開始については、利用者200の到来の他に、利用者200がタッチパネル4のスタートをタッチした場合や、音声入力装置5へ「スタート」等の発話が入力された場合を含めることができる。
図4は、上記図3のステップS7で行われるモード判定処理の一例を示すフローチャートである。
ステップS11では、制御部21が、センサ情報や画像認識結果に基づいて、タッチパネル4の前に利用者200が存在するか否かを判定する。利用者200が立ち去った場合には処理を終了し、利用者200が存在していればステップS12へ進む。
ステップS12では、制御部21が、図3のステップS2で音声入力またはタッチ入力のいずれかがあったか否かを判定し、何れかの入力があった場合にはステップS13に進み、入力がない場合にはステップS20へ進む。
ステップS13では、制御部21が、図3のステップS2〜S4で取得した利用者200の属性や状況に基づいて音声入力の可否を判定する。例えば、利用者200の状況が、両手に荷物を持っていれば音声入力を推奨するモード2と判定してステップS14に進む。一方、利用者200がマスクを装着している場合、制御部21は音声認識精度が低下する恐れがあるのでタッチ入力を推奨するモード1(図中トーク不可)と判定してステップS20へ進む。
ステップS14では、制御部21が、音声情報取得部20から取得した騒音の音圧レベルが所定の閾値Th1を超えているか否かを判定する。制御部21は、音圧レベルが所定の閾値Th1を超えていれば、環境の騒音によって音声認識精度が低下するのでモード1を選択してステップS20へ進む。一方、制御部21は、音圧レベルが所定の閾値Th1以下であれば、騒音が音声認識精度へ与える影響は少ないのでモード2を選択してステップS15へ進む。
ステップS15では、制御部21が、図3のステップS4で取得した案内情報の候補の数が所定の閾値Th2を超えていれば、タッチパネル4へ表示するページ数やタッチ入力の数が増大するので、音声入力を推奨するモード2を選択してステップS16へ進む。一方、制御部21は、案内情報の候補の数が所定の閾値Th2以下であれば、タッチ入力を推奨するモード1を選択してステップS20へ進む。
ステップS16では、制御部21が、音声情報取得部20から音声認識精度を取得し、音声認識精度が所定の閾値Th3以下であれば、音声入力による対話が円滑に実施されていないと判定して、タッチ入力を推奨するモード1を選択してステップS20へ進み、そうでなければステップS17へ進む。
なお、音声認識精度は、例えば、音声情報取得部20が音声認識で認識した単語(認識単語)と、音声認識データベース31に予め格納された単語辞書の単語と比較して、認識単語が単語辞書と一致していれば正解単語とする。そして、正解単語数/認識単語数から音声認識精度を算出すれば良い。なお、音声認識精度の算出については上記に限定されるものではなく、BLEU(BiLingual Evaluation Understudy:自動評価)等のスコアを用いるようにしてもよい。
ステップS17では、制御部21が、次回に実行する対話リスト302を取得して、対話モードの制限があるか否かを判定して、制限がある場合には指定されたモード1またはモード2のいずれかを選択する。モード1を選択した場合にはステップS20へ進み、モード2を選択した場合にはステップS18へ進む。
ステップS18では、制御部21が、前回実行した対話モードを維持する。制御部21は、前回の対話リスト302をモード1で実行した場合にはステップS20へ進んでモード1を選択し、前回の対話リスト302をモード2で実行した場合にはステップS19へ進んでモード2を選択する。
以上の処理によって、利用者200の属性や状況あるいはタッチパネル4が設置された環境に応じてタッチ入力を推奨するモード1と、音声入力を推奨するモード2を対話リスト302の対話毎に切り替えることができる。そして、制御部21は、案内情報の候補の数が所定の閾値Th2を超えている場合には、タッチ入力から音声入力へ切り替えてタッチ入力の煩わしさを低減することができる。
なお、上記では音声入力を推奨するモード2の可否(図中トーク可、トーク不可)で判定する例を示したが、これに限定されるものではない。例えば、モード1を選択した場合はポイント=+1とし、モード2を選択した場合はポイント=−1とし、上記ステップS15〜S20でそれぞれ算出したポイントの総和の正負に基づいてモード1とモード2のいずれかを選択してもよい。
なお、上記ステップS13からS18の各判定の順番は図4に限定されるものではない。また、上記ステップS13からS18の各判定は、すべて使用しなくてもよいし、その他の判定基準を設けてもよい。
<表示画面>
以下に、上記処理によってタッチパネル4に表示される画面の一例について説明する。図6Aは、タッチパネル4の初期画面500の一例を示す図である。初期画面500は、施設の案内役としてのアバター(またはキャラクタ)600が画面の左下に表示される。吹き出し502には、アバター600からのメッセージが表示される。
なお、アバター600の位置は図示のような画面の左下に限定されるものではなく、真ん中など所定の位置に表示することができる。また、アバター600を表示しなくても良い。
図6Bは、シナリオ300のリスト番号301=「1」を実行したカテゴリ選択画面503の一例を示す。図6Bは例えば、図6Aで制御部21が発話によって問いかけた際に、利用者200からの音声入力がなかった場合(一定時間経過:ステップS6)や音声認識できなかった場合にモード1へ切り替えた例を示す。なお、図6Aで利用者200から入力を正しく受け付けた場合では、後述の図6Cまたは直接施設や店舗情報を表示することができる。
図6Bの状態で、利用者200は、カテゴリを選択してタッチ入力で回答すると、制御部21は、店舗テーブル400を検索して該当するカテゴリ401から店舗情報403を取得する。そして、制御部21は、図4のステップS15で、案内情報の候補の数が所定の閾値Th2を超えたか否かを判定する。案内情報の候補の数が閾値Th2以下であれば、候補数が少なく、ひとつの画面で表示できるので、モード1に切り替えて、図6Cの選択結果表示画面505を出力する。
図6Cの選択結果表示画面505では、候補として選択された候補506のいずれかをタッチすることで、さらに詳細な情報を提供することができる。
一方、案内情報の候補の数が所定の閾値Th2を超えている場合には、上記ステップS17で述べたように、タッチ入力が繰り返されて操作が煩雑になる。そこで、制御部21は、音声入力を推奨するモード2に設定して、図6Dに示す選択結果表示画面507を出力して声入力によって絞り込みを開始して、対話を継続する。
図6Dでは、制御部21が新たな選択肢をタッチパネル4に表示することなく、「候補数が多すぎます。キーワードを喋って下さい。」という問いかけを、音声の発話と画面表示によって出力することで、利用者200に音声入力を推奨する。
図6Dに示す選択結果表示画面507では、音声入力の認識結果を吹き出し508へ表示することで、利用者200に対して音声認識の結果を提示することで、音声入力による案内情報の候補の抽出について安心感を与えることができる。
以上のように本実施例によれば、利用者200の属性や状況に応じて音声入力を推奨するモード2と、タッチ入力を推奨するモード1とを切り替えることで、音声入力と、タッチ入力を相互に補完して、利用者200にとって操作性のよい対話システムを提供することができる。
<変形例>
図7A〜図7Cは、本実施例の変形例を示し、上記実施例のシナリオ300による対話に代わって、自然言語によるランダムな対話で施設の案内を実施する例を示す。
図7Aは、音声入力を推奨するモード2で初期画面510をタッチパネル4に表示した例を示す。初期画面510に対して利用者200が「お腹が空いた」と発話すると、制御部21は、音声情報取得部20で音声認識処理を行った結果を吹き出し512へ出力する。
制御部21は、「お腹が空いた」に対して「何を食べますか?」という文章を生成し、音声出力装置6から発話する。さらに、制御部21は、図7Bに示す問い合わせ画面513をタッチパネル4へ表示する。
問い合わせ画面513に対して、利用者200が「カレーが食べたい」と音声入力を行うと、制御部21は、音声情報取得部20が認識した結果を吹き出し515に出力して、「カレー」を含む店舗情報403を検索する。制御部21は、検索結果である案内情報の候補を、図7Cに示す問い合わせ結果表示画面516に表示する。
図7Cの例では、案内情報の候補の数が閾値Th2以下であった場合を示し、モード1に切り替えて、カレーを提供する店舗の案内情報517と、候補数517を表示する例を示す。
また、上記モード2では、利用者200へ提示するコメント(511、514、518)と、利用者200の発話の認識結果(512、515)をタッチパネル4に表示するので、制御装置100と利用者200の発話を文字列で確認することができる。
<まとめ>
なお、上記実施例では、制御装置100に、音声情報取得部20や画像情報取得部22及びセンサ情報取得部23を含む例を示したが、これらの音声認識や画像認識あるいはセンサ情報の判定処理は、ネットワーク(図示省略)を介して接続された他の計算機で実行してもよい。
また、上記実施例では、タッチ入力を推奨するモード1では音声入力を許容する例を示したが、音声入力を禁止してタッチパネル4へのタッチ入力で対話を実施しても良い。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1 プロセッサ
2 メモリ
3 ストレージ装置
4 タッチパネル
5 音声入力装置
6 音声出力装置
8 画像入力装置
9 センサ
20 音声情報取得部
21 制御部
22 画像情報取得部
23 センサ情報取得部
31 音声認識データベース
32 表示及び発話情報データベース
33 環境及びユーザ使用状況テーブル

Claims (8)

  1. プロセッサと、メモリと、音声入力装置と、音声出力装置と、タッチ入力が可能な表示部を含むタッチパネルを有する対話システムの制御方法であって、
    前記プロセッサが、1以上の選択肢を含む問い合わせ情報を生成して、前記音声出力装置または前記タッチパネルから出力する問い合わせステップと、
    前記プロセッサが、前記音声入力装置または前記タッチパネルから前記問い合わせ情報に対する回答を受け付ける入力ステップと、
    前記プロセッサが、前記回答に対応する案内情報の候補を生成する案内情報候補生成ステップと
    前記プロセッサが、複数の条件が満たされた場合に、前記回答に基づくコメントを前記タッチパネル及び前記音声出力装置で出力する第2の対話モードを選し、前記複数の条件の少なくとも一つが満たされていない場合に、前記タッチ入力を受け付ける領域である選択肢を前記タッチパネルに出力する第1の対話モードを選択する、モード切替ステップと、
    前記プロセッサが、前記モード切替ステップで前記第2の対話モードが選択された場合に、前記第2の対話モードを使用して前記問い合わせステップを繰り返すステップと、
    前記プロセッサが、前記モード切替ステップにおいて前記第1の対話モードが選択された場合に前記第1の対話モードを使用して前記音声出力装置または前記タッチパネルから前記案内情報の候補を出力する案内ステップと、を含み、
    前記複数の条件は、前記案内情報の候補の数が所定の第1の閾値を超えること、及び、画像入力装置が撮影した利用者の画像の認識結果が、前記利用者の状況又は属性が所定の条件を満たすことを示すことを含む、ことを特徴とする対話システムの制御方法。
  2. 請求項1に記載の対話システムの制御方法であって、
    前記複数の条件は、前記音声入力装置が検出した騒音の値が所定の第2の閾値以下であることを含むことを特徴とする対話システムの制御方法。
  3. 請求項1に記載の対話システムの制御方法であって、
    前記複数の条件は、前記前回選択された対話モードが前記第2の対話モードであることを含むことを特徴とする対話システムの制御方法。
  4. 請求項1に記載の対話システムの制御方法であって、
    前記複数の条件は、前記音声入力装置が受け付けた音声を音声認識した結果に基づく音声認識精度が、所定の第3の閾値を超えることを含むことを特徴とする対話システムの制御方法。
  5. 請求項1に記載の対話システムの制御方法であって、
    前記複数の条件は、前記問い合わせ情報を生成するシナリオに設定された対話モードが前記第2の対話モードを示すことを含むことを特徴とする対話システムの制御方法。
  6. 請求項1に記載の対話システムの制御方法であって、
    前記音声入力装置が受け付けた音声を音声認識した結果を前記タッチパネルに表示することを特徴とする対話システムの制御方法。
  7. プロセッサと、メモリと、音声入力装置と、音声出力装置と、タッチ入力が可能な表示部を含むタッチパネルを有する対話システムであって、
    1以上の選択肢を含む問い合わせ情報を生成して、前記音声出力装置または前記タッチパネルから出力する問い合わせ部と、
    前記音声入力装置または前記タッチパネルから前記問い合わせ情報に対する回答を受け付ける入力部と、
    前記回答に対応する案内情報の候補を生成する案内情報候補生成部と、
    複数の条件が満たされた場合に、前記回答に基づくコメントを前記タッチパネル、及び前記音声出力装置で出力する第2の対話モードを選択し、前記複数の条件の少なくとも一つが満たされていない場合に、前記タッチ入力を受け付ける領域である選択肢を前記タッチパネルに出力する第1の対話モードを選択する、モード切替部と、
    前記モード切替部によって前記第1の対話モードが選択された場合に前記第1の対話モードを使用して前記音声出力装置または前記タッチパネルから前記案内情報の候補を出力する案内部と、
    を有し、
    前記問い合わせ部は、前記モード切替部によって前記第2の対話モードが選択された場合に、前記第2の対話モードを使用して前記問い合わせを繰り返し、 前記複数の条件は、前記案内情報の候補の数が所定の第1の閾値を超えること、及び、画像入力装置が撮影した利用者の画像の認識結果が前記利用者の状況又は属性は所定の条件を満たすことを示すことを含む、ことを特徴とする対話システム。
  8. プロセッサと、メモリと、音声入力装置と、音声出力装置と、タッチ入力が可能な表示部を含むタッチパネルを有する計算機を制御させるためのプログラムであって、
    1以上の選択肢を含む問い合わせ情報を生成して、前記音声出力装置または前記タッチパネルから出力する問い合わせステップと、
    前記音声入力装置または前記タッチパネルから前記問い合わせ情報に対する回答を受け付ける入力ステップと、
    前記回答に対応する案内情報の候補を生成する案内情報候補生成ステップと、
    複数の条件が満たされた場合に、前記回答に基づくコメントを前記タッチパネル、及び前記音声出力装置で出力する第2の対話モードを選択し、前記複数の条件の少なくとも一つが満たされていない場合に、前記タッチ入力を受け付ける領域である選択肢を前記タッチパネルに出力する第1の対話モードを選択する、モード切替ステップと、
    前記モード切替ステップで前記第2の対話モードが選択された場合に、前記第2の対話モードを使用して前記問い合わせステップを繰り返すステップと、
    前記モード切替ステップにおいて前記第1の対話モードが選択された場合に前記第1の対話モードを使用して前記音声出力装置または前記タッチパネルから前記案内情報の候補を出力する案内ステップと、
    を前記計算機に実行させ、
    前記複数の条件は、前記案内情報の候補の数が所定の第1の閾値を超えること、及び、画像入力装置が撮影した利用者の画像の認識結果が前記利用者の状況又は属性は所定の条件を満たすことを示すことを含む、ことを特徴とするプログラム。
JP2018120888A 2018-06-26 2018-06-26 対話システムの制御方法、対話システム及びプログラム Active JP6966979B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018120888A JP6966979B2 (ja) 2018-06-26 2018-06-26 対話システムの制御方法、対話システム及びプログラム
EP19163997.0A EP3588493B1 (en) 2018-06-26 2019-03-20 Method of controlling dialogue system, dialogue system, and storage medium
US16/360,048 US11068288B2 (en) 2018-06-26 2019-03-21 Method of controlling communication system including mode switching between modes for receiving a touch input or an audio input, communication system, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018120888A JP6966979B2 (ja) 2018-06-26 2018-06-26 対話システムの制御方法、対話システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2020003925A JP2020003925A (ja) 2020-01-09
JP6966979B2 true JP6966979B2 (ja) 2021-11-17

Family

ID=65904074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018120888A Active JP6966979B2 (ja) 2018-06-26 2018-06-26 対話システムの制御方法、対話システム及びプログラム

Country Status (3)

Country Link
US (1) US11068288B2 (ja)
EP (1) EP3588493B1 (ja)
JP (1) JP6966979B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7339124B2 (ja) * 2019-02-26 2023-09-05 株式会社Preferred Networks 制御装置、システム及び制御方法
US11694682B1 (en) * 2019-12-11 2023-07-04 Amazon Technologies, Inc. Triggering voice control disambiguation
US11823659B2 (en) 2019-12-11 2023-11-21 Amazon Technologies, Inc. Speech recognition through disambiguation feedback
CN111625094B (zh) * 2020-05-25 2023-07-14 阿波罗智联(北京)科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
WO2022097569A1 (ja) * 2020-11-09 2022-05-12 富士フイルム株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN117396956A (zh) * 2021-06-03 2024-01-12 日产自动车株式会社 显示控制装置和显示控制方法
CN114327731B (zh) * 2021-12-31 2023-11-14 北京字跳网络技术有限公司 信息显示方法、装置、设备及介质
JP7371843B1 (ja) 2023-01-31 2023-10-31 株式会社ティファナ ドットコム 遺失物管理システム、及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3267047B2 (ja) * 1994-04-25 2002-03-18 株式会社日立製作所 音声による情報処理装置
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
JPH1124813A (ja) * 1997-07-03 1999-01-29 Fujitsu Ltd マルチモーダル入力統合システム
US20030046401A1 (en) * 2000-10-16 2003-03-06 Abbott Kenneth H. Dynamically determing appropriate computer user interfaces
JP3979209B2 (ja) 2002-07-23 2007-09-19 オムロン株式会社 データ入力方法およびデータ入力装置
WO2004053836A1 (en) * 2002-12-10 2004-06-24 Kirusa, Inc. Techniques for disambiguating speech input using multimodal interfaces
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
JP4694198B2 (ja) * 2004-12-28 2011-06-08 パイオニア株式会社 対話装置、対話方法、対話プログラムおよびコンピュータに読み取り可能な記録媒体
JP2010026686A (ja) 2008-07-17 2010-02-04 Life Interface:Kk 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
JP2011002534A (ja) * 2009-06-17 2011-01-06 Brother Industries Ltd 音声認識装置
EP2759057A2 (en) * 2011-09-22 2014-07-30 Earsoft Limited Dynamic range control
US9173074B2 (en) * 2012-05-27 2015-10-27 Qualcomm Incorporated Personal hub presence and response
BR112015018905B1 (pt) * 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US20170206064A1 (en) * 2013-03-15 2017-07-20 JIBO, Inc. Persistent companion device configuration and deployment platform
US20150314454A1 (en) * 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
US8896561B1 (en) * 2013-03-27 2014-11-25 Keysight Technologies, Inc. Method for making precise gestures with touch devices
JP2013211057A (ja) * 2013-06-19 2013-10-10 Omron Corp 制御装置および方法、並びにプログラム
KR101623856B1 (ko) * 2014-10-17 2016-05-24 현대자동차주식회사 에이브이엔 장치, 차량, 및 에이브이엔 장치의 제어방법
GB2533795A (en) * 2014-12-30 2016-07-06 Nokia Technologies Oy Method, apparatus and computer program product for input detection
JP2018120888A (ja) 2017-01-23 2018-08-02 キヤノン株式会社 半導体装置及び基板
US10558426B2 (en) * 2017-12-08 2020-02-11 Google Llc Graphical user interface rendering management by voice-driven computing infrastructure

Also Published As

Publication number Publication date
EP3588493A1 (en) 2020-01-01
US11068288B2 (en) 2021-07-20
EP3588493B1 (en) 2023-01-18
JP2020003925A (ja) 2020-01-09
US20190391828A1 (en) 2019-12-26

Similar Documents

Publication Publication Date Title
JP6966979B2 (ja) 対話システムの制御方法、対話システム及びプログラム
US11810562B2 (en) Reducing the need for manual start/end-pointing and trigger phrases
KR102086898B1 (ko) 디바이스 음성 제어
US20180108353A1 (en) Personality-based chatbot and methods including non-text input
JP6983118B2 (ja) 対話システムの制御方法、対話システム及びプログラム
US9734193B2 (en) Determining domain salience ranking from ambiguous words in natural speech
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
EP3152754B1 (en) Modification of visual content to facilitate improved speech recognition
KR101474854B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
KR102253279B1 (ko) 인공지능을 사용하는 키오스크 기반 무인결제시스템 및 그 방법
US20160092104A1 (en) Methods, systems and devices for interacting with a computing device
KR20190139489A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR102498263B1 (ko) 어시스턴트 디바이스의 디스플레이에 렌더링할 콘텐츠 선택
JP6383748B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JPWO2019103007A1 (ja) 情報処理装置及び情報処理方法
JP2020086129A (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US20230297307A1 (en) Digital signage device
KR20170123090A (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR20120134162A (ko) 전자기기에서 문자 입력 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211022

R150 Certificate of patent or registration of utility model

Ref document number: 6966979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150