JP2017117371A - 制御方法、制御装置およびプログラム - Google Patents

制御方法、制御装置およびプログラム Download PDF

Info

Publication number
JP2017117371A
JP2017117371A JP2015254845A JP2015254845A JP2017117371A JP 2017117371 A JP2017117371 A JP 2017117371A JP 2015254845 A JP2015254845 A JP 2015254845A JP 2015254845 A JP2015254845 A JP 2015254845A JP 2017117371 A JP2017117371 A JP 2017117371A
Authority
JP
Japan
Prior art keywords
utterance
control
state
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015254845A
Other languages
English (en)
Inventor
勇次 國武
Yuji Kunitake
勇次 國武
田中 敬一
Keiichi Tanaka
敬一 田中
大戸 英隆
Hidetaka Oto
英隆 大戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2015254845A priority Critical patent/JP2017117371A/ja
Priority to CN201610982603.5A priority patent/CN107068148A/zh
Priority to US15/375,075 priority patent/US10056081B2/en
Publication of JP2017117371A publication Critical patent/JP2017117371A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

【課題】ユーザの状態または機器の周囲の状態に合わせて、音声の誤認識による機器の誤動作の防止とユーザーの利便性の向上とを両立する。【解決手段】音声により機器を制御する制御装置が行う制御方法であって、集音装置に入力された音声データから、機器を制御するための発話を検知し、発話から制御の対象である制御対象機器を識別し、1以上のセンサーから取得されたセンサーデータに基づき、発話を発したユーザの状態または制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、発話を発したユーザの状態または制御対象機器の周囲の状態が制御に適した状態であると判定した場合、発話に対する確認応答文を生成せず、発話を発したユーザの状態及び制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、発話に対する確認応答文を生成し、確認応答文を音声により読み上げる。【選択図】図1

Description

本開示は、音声により機器の制御を行う制御方法、制御装置およびプログラムに関するものである。
従来から、音声により機器の制御を行う音声対話装置が知られている。しかし、従来の音声対話装置では、音声対話装置の周囲で行なわれる会話、テレビやラジオなどから発せられる音声などの雑音を音声対話装置に対するユーザの発話であると誤認識し、誤って機器を動作させてしまうという課題があった。
この課題を解決するために、特許文献1では、音声の認識結果を確認するための確認発話を行い、ユーザから肯定を意味する単語が発話されれば、認識した内容の制御を行うことが開示されている。また、特許文献2では、制御対象機器へ向けられる視線や指差し動作などを検出し、これらの動作が検出された場合にのみ、音声対話による制御を有効にすることが開示されている。
特開昭59−071927 特開2007−121576
しかし、特許文献1の方式では、ユーザの発話に対して毎回確認発話が行われるため、ユーザは、音声による機器制御を実行する度に、確認発話に対する受理応答を行う必要がある。また、特許文献2の方式では、ユーザが機器制御のための発話をしても、制御対象機器へ向けられる視線や指差し動作が検出されない場合は、音声対話による制御を実行できない。したがって、音声の誤認識による機器の誤動作の防止とユーザの利便性とを両立するためには更なる改善が求められる。
本開示の一態様は、音声により機器を制御する制御装置が行う制御方法であって、
集音装置に入力された音声データから、機器を制御するための発話を検知し、
前記発話から制御の対象である制御対象機器を識別し、
1以上のセンサーから取得されたセンサーデータに基づき、前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、
前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、
前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成し、
前記確認応答文を音声により読み上げる。
本開示によれば、音声により機器の制御を行う場合に、ユーザの状態または機器の周囲の状態に合わせて、音声の誤認識による機器の誤動作の防止とユーザーの利便性の向上とを両立することできる。
実施の形態1における音声対話装置の全体像の一例を示す図である。 実施の形態1における音声対話装置の処理フローの一例を示す図である。 実施の形態1における音声対話装置の処理フローの図1乃至2とは別の一例を示す図である。 実施の形態1における音声対話装置の処理フローの図1乃至3とは別の一例を示す図である。 実施の形態2における音声対話装置の全体像の一例を示す図である。 実施の形態2における音声対話装置の処理フローの一例を示す図である。 実施の形態3における音声対話装置の全体像の一例を示す図である。 実施の形態3における音声対話装置の処理フローの一例を示す図である。
(本発明の基礎となった知見)
ユーザの発話する音声から発話の内容を解析し、解析結果を基に機器の制御や情報提供などのサービスを提供する音声対話装置に関する技術が検討されている。音声対話装置では、画面操作やボタン操作などの複雑な操作ではなく、音声による直感的かつ容易な操作により機器の制御や情報取得が行える。一方で、周囲での会話や、テレビやラジオなどから発せられる音声を誤認識することが課題として存在する。
このような課題に対し、上記特許文献1に係る技術では、音声の認識結果を確認するステップを追加することで、音声の誤認識によって機器を誤動作させることを回避している。また、上記特許文献2に係る技術では、ユーザの視線や指差し動作を基に特定できた制御対象機器を制御することで、制御対象外の機器の制御や、雑音の入力による機器の誤動作を防止している。
しかし、ユーザが音声により制御する対象の機器やユーザが音声による制御を利用するシーンは多様であり、制御対象の機器や利用するシーンによっては、発話の都度、音声の認識結果を確認することが煩わしかったり、発話時に、視線や指差し動作を制御対象の機器に向けることができない虞がある。
例えば、冷蔵庫、電子レンジ、オーブン、家や部屋の扉などの扉の開閉動作を、機器の前で音声制御するというシーンにおいて、「扉を開けて」等の発話の都度、「扉を開けますか」等の確認発話に応答することは煩わしい。また、冷蔵庫に物を入れるなど物を運んでいる最中に音声により冷蔵庫の扉の開閉制御を行うというシーンでは、冷蔵庫の配置位置を意識して発話したり、指差し動作を行うことは困難である。また、音声制御によって水量を調節可能な蛇口や、音声制御によって点火可能なガスコンロやIHクッキングヒータを利用するシーンにおいても、キッチンでの作業中に制御対象の機器に視線を向けることは困難である。
このように、従来の音声対話装置では、音声の誤認識による機器の誤動作の防止とユーザの利便性の向上とを両立させることに関して検討はされていなかった。
本開示の目的は、音声により機器の制御を行う場合に、ユーザの状態または機器の周囲の状態に合わせて、音声の誤認識による機器の誤動作の防止とユーザーの利便性の向上とを両立することができる技術を提供することである。
本開示の一態様による制御方法は、音声により機器を制御する制御装置が行う制御方法であって、
集音装置に入力された音声データから、機器を制御するための発話を検知し、
前記発話から制御の対象である制御対象機器を識別し、
1以上のセンサから取得されたセンサーデータに基づき、前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、
前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、
前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成し、前記確認応答文を音声により読み上げる。
この構成によれば、ユーザの状態または制御対象機器の周囲の状態が制御に適した状態である場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。
一方、ユーザの状態及び制御対象機器の周囲の状態が制御に適した状態でない場合には、確認応答文を読み上げ、周囲の雑音等の音声の誤認識によって機器を誤動作させる虞を抑制することができる。
つまり、この構成によれば、ユーザの状態または機器の周囲の状態に合わせて、音声の誤認識による機器の誤動作の防止と、ユーザの利便性の向上と、を両立することができる。
上記態様において、前記制御装置は、さらに、前記制御に適した状態であると判定した場合、前記発話の意図解釈を行い、前記意図解釈の結果に基づき、前記発話に対応する機器制御命令を生成してもよい。
この構成によれば、ユーザの状態または制御対象機器の周囲の状態が制御に適した状態である場合、不必要に確認応答文を読み上げることを抑制し、ユーザの意図した制御対象機器の制御を迅速に行うことができる。
上記態様において、前記制御に適した状態とは、前記制御対象機器の周囲に人物が検出されない状態であることが好ましい。
この構成によれば、制御対象機器の周囲に人物が検出されず、制御対象機器の扉の開閉など動きのある制御を行っても事故が発生する虞が低いと考えられる場合、不必要に確認応答文を読み上げることを抑制して、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。
上記態様において、前記センサーデータは、撮像装置により撮像された前記制御対象機器の周囲の画像であり、
前記制御装置は、前記画像に基づき、前記制御対象機器の周囲に人物が検出されるか否かを判定することが好ましい。
この構成によれば、撮像装置により撮像可能な制御対象機器を含む所定の範囲内に、人物がいるか否かを適切に検出することができる。
上記態様において、前記制御に適した状態とは、前記発話を行ったユーザが前記制御対象機器の周囲において検出され、かつ前記発話を行ったユーザの視線が前記制御対象機器に向けられている状態であってもよい。
この構成によれば、制御対象機器の周囲にいる発話を行ったユーザが視線を制御対象機器に向けており、当該ユーザが制御対象機器に注目していると考えられる場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。
上記態様において、前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの目を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザが前記制御対象機器の周囲において検出されるか否か、および、前記発話を行ったユーザの視線が前記制御対象機器に向けられているか否かを判定することが好ましい。
この構成によれば、撮像装置が制御対象機器の周囲を撮像する場合には、撮像装置により撮像されたユーザの目を含む画像に基づき、制御対象機器の周囲にユーザが存在することを適切に検出することができる。一方、撮像装置が制御対象機器の周囲から離れた場所を撮像する場合には、撮像装置により撮像されたユーザの目を含む画像に基づき、制御対象機器の周囲にユーザが存在しないことを適切に検出することができる。また、撮像装置により撮像された画像に含まれたユーザの目の画像から、ユーザの視線が制御対象機器に向けられているか否かを適切に判定することができる。
上記態様において、前記制御に適した状態とは、前記発話を行ったユーザの顔が前記制御対象機器に向けられている状態であってもよい。
この構成によれば、発話を行ったユーザが顔を制御対象機器に向けており、当該ユーザが制御対象機器に注目していると考えられる場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。
上記態様において、前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの顔を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザの顔が前記制御対象機器に向けられているか否かを判定することが好ましい。
この構成によれば、撮像装置により撮像された画像に含まれたユーザの顔の画像から、ユーザの顔が制御対象機器に向けられているか否かを適切に判定することができる。
上記態様において、前記制御に適した状態とは、前記発話を行ったユーザの胴体が前記制御対象機器に向けられている状態であってもよい。
この構成によれば、発話を行ったユーザが胴体を制御対象機器に向けており、当該ユーザが制御対象機器に注目していると考えられる場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。
上記態様において、前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの胴体を含む画像であり、
前記制御装置は、前記画像に基づき、前記発話を行ったユーザの胴体が前記制御対象機器に向けられているか否かを判定することが好ましい。
この構成によれば、撮像装置により撮像された画像に含まれたユーザの胴体の画像から、ユーザの胴体が制御対象機器に向けられているか否かを適切に判定することができる。
上記態様において、前記制御装置は、さらに、
前記機器を制御するための第一発話に対する確認応答文を読み上げた後に当該確認応答文に対する第二発話を検知した場合、当該第一発話および当該第二発話の発話者が同一であるか否かを判定し、
前記第一発話および前記第二発話の発話者が同一であると判定した場合、当該第一発話に対応する機器制御命令を生成してもよい。
この構成によれば、周囲の雑音等の音声を第二発話であると誤認識した場合に、第一発話に対応する機器制御が行われることを防止することができる。
上記態様において、前記第一発話および前記第二発話の発話者が同一であるか否かの判定は、当該第一発話および当該第二発話の声紋を比較することにより行うことが好ましい。
この構成によれば、第一発話及び第二発話の声紋により、第一発話および第二発話の発話者が同一であるか否かを精度良く判定することができる。
上記態様において、前記制御装置は、さらに、
前記機器を制御するための第三発話に対応する機器制御命令が生成されてから所定の期間が経過する前に当該機器を制御するための第四発話を検知した場合、当該第三発話および当該第四発話の発話者が同一であるか否かを判定し、
前記第三発話および前記第四発話の発話者が同一であると判定された場合、前記第四発話に対応する確認応答文を生成することなく、前記第四発話に対応する機器制御命令を生成してもよい。
この構成によれば、一のユーザによって連続して同一機器を制御するための発話が行われた場合に、当該ユーザに対して、連続して確認応答文を読み上げることを回避することができる。これにより、ユーザの利便性を向上することができる。
上記態様において、前記第三発話および前記第四発話の発話者が同一であるか否かの判定は、当該第三発話および当該第四発話の声紋を比較することにより行うことが好ましい。
この構成によれば、第三発話及び第四発話の声紋により、第三発話および第四発話の発話者が同一であるか否かを精度良く判定することができる。
上記態様において、前記制御装置は、さらに、前記集音装置に入力された音声データから、音声による機器制御の契機を意味する所定の単語の検知を継続的に試み、
前記所定の単語を検知した場合、
前記制御に適した状態であるか否かの判定結果によらず、前記発話の意図解釈を行い、前記意図解釈の結果に基づき、前記発話に対応する機器制御命令を生成するようにしてもよい。
この構成によれば、ユーザが機器制御の契機を意味する所定の単語を発話し、当該ユーザが機器制御を行う意図が明確な場合には、確認応答文を読み上げることなく、迅速に発話に対応する機器制御を行うことができる。これにより、ユーザの利便性を向上することができる。
上記態様において、前記制御装置は、さらに、前記制御に適した状態でないと判定した場合、前記制御に適した状態であるか否かの判定を継続し、
前記発話を検知してから所定の期間内に、前記制御に適した状態であると判定した場合、前記発話に対応する機器制御命令を生成してもよい。
この構成によれば、ユーザの状態及び制御対象機器の周囲の状態が制御に適した状態にない場合に、機器を制御するための発話が行われたとしても、当該発話後、所定期間内に、ユーザの状態または制御対象機器の周囲の状態が制御に適した状態に遷移することで、発話に対応する機器制御を行うことができる。これにより、ユーザが移動中に機器を制御するための発話を行うといったシーンにおいてユーザの利便性を向上することができる。
また、本開示は、以上のような特徴的な処理を実行する制御方法だけでなく、制御方法に含まれる特徴的なステップを実行するための処理部を備える制御装置も開示する。また、このような制御方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムも開示する。このようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。
(実施の形態1)
図1は、実施の形態1における音声対話装置の全体像の一例を示す図である。図1に示すように、音声対話装置100は、光ファイバ、無線、公衆電話回線などの不図示のネットワークにより制御対象機器140と接続されている。尚、音声対話装置100には、少なくとも1つ以上の制御対象機器140が接続されていればよい。または、物理的に音声対話装置100を各制御対象機器140にそれぞれ組み込む構成としてもよい。
音声対話装置100は、入力部110、音声対話処理部120、及び出力部130を備えている。
入力部110は、センサ部111と音声入力部112とを備えている。センサ部111は、制御対象機器140の周囲の状態に関する情報を取得可能なデバイスを一つ以上備えている。例えば、センサ部111は、人感センサ、カメラ(撮像装置)及び視線センサを備えている。
人感センサは、赤外線や超音波等を用いて制御対象機器140から所定距離内に人物が存在するか否かを検出し、検出結果を示すデータ(センサーデータ)を後述の音声対話処理部120へ出力する。カメラは、制御対象機器140を含む所定の範囲を撮像し、撮像した画像を示すデータ(センサーデータ)を後述の音声対話処理部120へ出力する。
視線センサは、制御対象機器140を含む所定範囲を撮像するカメラ(以下、内蔵カメラ)を内蔵している。視線センサは、内蔵カメラが撮像した画像に含まれている黒目及び白目の領域に基づき人物の視線の方向を特定し、特定した人物の視線の方向を示すデータ(センサーデータ)を後述の音声対話処理部120へ出力する。人物の視線の方向は、例えば内蔵カメラが撮像した画像における垂直方向等の所定方向を基準とし、人物の視線の方向が何度傾いているかによって示される。尚、視線センサが、人物の視線の方向を他の形式で示すデータを出力するようにしてもよい。
また、センサ部111は、制御対象機器140を含む所定範囲を赤外線で撮影した画像を示すデータを出力する赤外線カメラや、制御対象機器140付近の温度を検出し、検出した温度を示すデータを出力する温度センサ等、制御対象機器140の周囲の状態に関する情報を取得可能な他のデバイスを備えていてもよい。
音声入力部112は、集音デバイス(集音装置)に入力された音声データを、後述の音声対話処理部120へ出力する。集音デバイスには、例えば、音声対話装置100の本体に取り付けられた指向性マイクや、有線または無線で音声対話装置100と接続されたハンドマイク、ピンマイク及び卓上マイク等が含まれる。また、音声入力部112が、スマートフォンやタブレット等の集音機能及び通信機能を有するデバイスとの間で通信を行うことで、当該デバイスに入力された音声データを取得し、当該取得した音声データを後述の音声対話処理部120へ出力するようにしてもよい。
音声対話処理部120は、プログラムによって動作するCPU(Central Processing Unit)によって実現される。音声対話処理部120は、状態認識部121(判定部)、音声認識部122(検知部)、意図理解部123(識別部)、行動選択部124、機器制御部125、応答生成部126(生成部)、及び音声合成部127として動作する。
状態認識部121は、センサ部111が出力した一つ以上のデータ(以下、出力データ)に基づき、ユーザの状態または制御対象機器140の周囲の状態が制御に適した状態であるか否かを判定する。
状態認識部121は、公知のパターン認識処理を実行することにより、上記カメラの出力データが示す制御対象機器140の周囲の画像に人物が含まれていないと認識した場合、制御対象機器140の周囲に人物が検出されない状態であると判断する。この場合、制御対象機器140の扉の開閉など動きのある制御を行っても事故が発生する虞が低いと考えられるので、状態認識部121は、制御対象機器140の周囲の状態が制御に適した状態であると判定する。
また、上記人感センサの出力データが示す検出結果が、制御対象機器140から所定距離内に人物が存在しないことを示していたとする。この場合も、状態認識部121は、制御対象機器140の周囲に人物が検出されない状態であると判断し、制御対象機器140の周囲の状態が制御に適した状態であると判定する。
一方、上記カメラの出力データが示す制御対象機器140の周囲の画像に人物が含まれていたとする。または、上記人感センサの出力データが示す検出結果が、制御対象機器140から所定距離内に人物が存在することを示していたとする。これらの場合、状態認識部121は、人物が制御対象機器140の周囲において検出された状態であると判断する。この場合、状態認識部121は、予め記憶されている上記視線センサ及び制御対象機器140の配置位置を示す情報に基づき、上記視線センサの出力データが示す人物の視線の方向が、上記視線センサの配置位置から制御対象機器140の配置位置に向かう方向であるか否かを判定する。
状態認識部121は、人物の視線の方向が視線センサの配置位置から制御対象機器140の配置位置に向かう方向であると判定すると、当該人物の視線が制御対象機器140に向けられていると判断する。この場合、当該人物は、制御対象機器140を使用するために制御対象機器140に視線を向け、制御対象機器140に注目している、制御対象機器140のユーザであると考えられる。このため、状態認識部121は、当該人物の視線が制御対象機器140に向けられていると判断した場合、制御対象機器140のユーザの状態が制御に適した状態であると判定する。
尚、状態認識部121が、人物が制御対象機器140の周囲において検出された状態であると判断した場合に、上記カメラの出力データが示す制御対象機器140の周囲の画像に基づき、当該人物の視線、顔、又は胴体が制御対象機器140に向けられている状態であるか否かを判断するようにしてもよい。そして、状態認識部121が、当該人物の視線、顔、又は胴体が制御対象機器140に向けられている状態であると判断した場合にも、制御対象機器140のユーザの状態が制御に適した状態であると判定するようにしてもよい。
この場合、状態認識部121が、公知のパターン認識処理を実行することにより、上記カメラの出力データが示す制御対象機器140の周囲の画像に人物の目が含まれていると認識した場合に、黒目及び白目の領域と予め記憶されている上記カメラ及び制御対象機器140の配置位置を示す情報とに基づき、人物の視線が制御対象機器140に向いているか否かを判断するようにすればよい。
同様に、状態認識部121が、公知のパターン認識技術を用いて、上記カメラの出力データが示す制御対象機器140の周囲の画像に人物の顔又は胴体が含まれていると認識した場合に、人物の顔又は胴体の領域と、予め記憶されている上記カメラ及び制御対象機器140の配置位置を示す情報と、に基づき、人物の顔又は胴体が制御対象機器140に向いているか否かを判断するようにすればよい。
音声認識部122は、公知の音声認識処理を実行することにより、音声入力部112が出力した音声データが示す音声に含まれている人物の発話の音声を検知し、当該発話の内容を表すテキストデータを生成する。
意図理解部123は、公知の言語解析処理を実行することにより、音声認識部122が生成したテキストデータが表す発話の内容を解析し、当該発話の意図解釈を行う。例えば、意図理解部123は、所謂ルールベースの言語解析処理を実行することにより、発話の内容を解析する。具体的には、意図理解部123は、予め定めたルールにおいて、音声対話装置100で実行可能なタスクに対応付けられている他動詞の単語が発話の内容に含まれていた場合、当該発話は、当該他動詞の単語に対応付けられたタスクの実行を要求する発話であると解釈する。尚、音声対話装置100で実行可能なタスクには、機器を制御するためのタスクや、インターネットで提供されている情報を取得するためのタスク等が含まれる。
また、意図理解部123は、発話の内容に含まれている名詞の単語をタスクのパラメータとして解釈する。例えば、機器を制御するためのタスクのパラメータには、制御の対象となる制御対象機器が含まれる。情報を取得するためのタスクのパラメータには、取得する対象の情報や、当該情報の取得先にアクセスするためのアドレス情報等が含まれる。つまり、意図理解部123は、機器を制御するためのタスクの実行を要求する発話の内容に含まれている名詞の単語を、当該機器を制御する対象の制御対象機器140として識別する。
意図理解部123による発話の意図解釈の具体例について以下に説明する。本具体例では、制御対象機器140として冷蔵庫及び電子レンジが音声対話装置100に接続されているとする。また、音声認識部122が生成したテキストデータが表す発話の内容が「冷蔵庫を開けて」であるとする。また、上記ルールにおいて、制御対象機器140の扉を開ける制御を行うためのタスクに、他動詞「開けて」が対応付けられているとする。
この場合、制御対象機器140の扉を開ける制御を行うためのタスクに対応付けられた他動詞「開けて」が発話の内容「冷蔵庫を開けて」に含まれている。このため、意図理解部123は、当該発話は、制御対象機器140の扉を開ける制御を行うためのタスクの実行を要求する発話であると解釈する。
また、意図理解部123は、発話の内容「冷蔵庫を開けて」に名詞の単語「冷蔵庫」が含まれているので、当該タスクのパラメータが冷蔵庫であると解釈する。つまり、意図理解部123は、冷蔵庫を制御対象機器140として識別する。このようにして、意図理解部123は、当該発話が、冷蔵庫の扉を開ける制御を行うことを要求する発話であると解釈する。
尚、意図理解部123は、所謂機械学習などの統計的な解析手法等、他の解析手法で発話の内容を解析し、発話の意図解釈を行うようにしてもよい。
行動選択部124は、意図理解部123による意図解釈の結果及び状態認識部121による判定結果に基づき、機器制御部125に機器制御を実行させるか、応答生成部126に確認応答文を生成させるか、または、他のタスクを実行するかを選択する。確認応答文については後述する。
機器制御部125は、行動選択部124による指示の下、制御対象機器140を制御するための機器制御命令を生成し、当該機器制御命令を制御対象機器140へ出力する。これにより、制御対象機器140は、機器制御部125から入力された機器制御命令に従った動作を行う。
応答生成部126は、行動選択部124による指示の下、確認応答文を生成し、当該確認応答文を表すテキストデータを音声合成部127へ出力する。確認応答文とは、発話の内容をユーザに確認させ、確認結果を回答させるための文章である。例えば、発話の内容が「冷蔵庫を開けて」の場合、確認応答文は「冷蔵庫を開けますか」となり、発話の内容を問い返すような内容となる。
具体的には、行動選択部124は、応答生成部126に確認応答文を生成させる場合、意図理解部123に入力された発話の内容を表すテキストデータを、応答生成部126へ出力する。応答生成部126は、公知の言語解析処理を実行することにより、当該入力されたテキストデータが表す発話の内容を解析し、当該発話の内容を問い返す内容の確認応答文を生成する。
音声合成部127は、公知の音声合成処理を実行することにより、応答生成部126によって入力された確認応答文を表すテキストデータを当該確認応答文を表す音声データに変換し、出力部130へ出力する。
出力部130は、一以上の音声出力部131を備えている。音声出力部131は、音声合成部127が出力した音声データが表す音声を出力する。音声出力部131は、例えば音声対話装置100に組み込まれたスピーカである。尚、音声出力部131を、有線または無線によって音声対話装置100に接続されたスピーカで構成してもよい。
実施の形態1の例では、出力部130は、一以上の音声出力部131を備えているが、音声出力部131の代わりに、音声対話装置100に組み込まれたディスプレイなどの表示デバイスや、音声対話装置100に接続された外部の表示デバイスに、応答生成部126が生成したテキストデータが表す確認応答文等を表示するようにしてもよい。
また、入力部110、状態認識部121、音声認識部122、応答生成部126、音声合成部127及び出力部130を、音声対話装置100に接続されている各制御対象機器140に設けるようにしてもよい。これに合わせて、音声対話装置100との間で通信可能な外部サーバが、意図理解部123、行動選択部124、及び機器制御部125として動作するようにしてもよい。
以下、実施の形態1において、発話したユーザの状態または制御対象機器140の周囲の状態が制御に適した状態であるか否かに応じて、確認応答文を音声出力するか否かを判断し、機器制御を行うまでの処理フローを図2を用いて説明する。図2は、実施の形態1における音声対話装置100の処理フローの一例を示す図である。
集音デバイスにユーザの発話を表す音声データが入力され、音声入力部112が当該音声データを音声認識部122へ出力すると(ステップS101:YES)、音声認識部122は、音声認識処理を実行することにより、入力された音声データが示す音声に含まれているユーザの発話の音声を検知し、当該発話の内容を表すテキストデータを生成する(ステップS102)。意図理解部123は、言語解析処理を実行することにより、音声認識部122が生成したテキストデータが表す発話の内容を解析し、当該発話の意図解釈を行う(ステップS103)。
意図理解部123によって、ユーザの発話が、機器を制御するためのタスクとは他のタスクの実行を要求する発話であると解釈された場合(ステップS104:NO)、行動選択部124は、意図理解部123による意図解釈の結果に基づき、ユーザが要求した上記他のタスクを実行する(ステップS111)。
一方、意図理解部123によって、ユーザの発話が、機器を制御するためのタスクの実行を要求する発話(以下、機器制御を要求する発話)であると解釈された場合(ステップS104:YES)、状態認識部121は、発話したユーザの状態(以下、ユーザの状態)または制御対象機器140の周囲の状態(以下、機器周囲の状態)が制御に適した状態にあるか否かを判定する(ステップS105)。
状態認識部121が、ユーザの状態または機器周囲の状態が制御に適した状態であると判定した場合(ステップS105:YES)、行動選択部124は、意図理解部123による意図解釈の結果に基づき、ユーザが要求している制御対象機器140の制御を行うよう、機器制御部125に指示する。これにより、機器制御部125は、当該指示された制御対象機器140の制御を行うための機器制御命令を生成し、当該機器制御命令を制御対象機器140へ出力する(ステップS106)。その結果、制御対象機器140は、入力された機器制御命令に従った動作を行う。
一方、状態認識部121が、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定した場合(ステップS105:NO)、行動選択部124は、応答生成部126に確認応答文を生成させる。応答生成部126が確認応答文を生成し、確認応答文を示すテキストデータを出力すると、行動選択部124は、音声合成部127に当該確認応答文を表す音声データを生成させ、音声出力部131に、当該音声データが表す確認応答文を表す音声を出力させる(ステップS107)。つまり、音声出力部131は、確認応答文を音声により読み上げる。
これに応じて、ユーザが、例えば「はい」「YES」等の確認を受理する発話(以下、確認受理発話)を行ったとする。この場合、図2においては図示を省略しているが、ステップS101〜S103と同様の処理が行われる。その結果、意図理解部123によってユーザの発話が確認受理発話であると解釈されると(ステップS108:YES)、行動選択部124は、上述のステップS106を実行する。
一方、ユーザにより確認受理発話がなされない状態で(ステップS108:NO)、予め定められた一定の時間が経過した場合、行動選択部124は、ユーザによる制御対象機器140の制御の要求をキャンセルする(ステップS110)。尚、上記の一定の時間は、制御対象機器140毎に個別に定められていてもよい。
また、ユーザにより発話がなされたことにより、ステップS101〜S102と同様の処理が行われた結果、意図理解部123によって、ユーザの発話が確認受理発話でないと解釈された場合(ステップS109:YES)も、行動選択部124は、ユーザによる制御対象機器140の制御の要求をキャンセルする(ステップS110)。
以上で述べた本実施の形態1の音声対話装置100によれば、ユーザが機器の制御を要求する発話を行った場合に、ユーザの状態または制御対象機器140の周囲の状態が制御に適した状態である場合には、不必要に確認応答文を読み上げることを抑制し、ユーザが要求する機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。一方、ユーザの状態及び制御対象機器140の周囲の状態が制御に適した状態でない場合には、確認応答文を読み上げ、周囲の雑音等の音声の誤認識によって機器を誤動作させる虞を抑制することができる。
また、状態認識部121は、発話したユーザの視線、顔または胴体が制御対象機器140に向けられていない状態であると判断した場合、ユーザの状態が制御に適した状態ではないと判定する。この場合、確認応答文が読み上げられる。これにより、ユーザが制御対象機器140に注目していない状態のときに、確認応答文が読み上げられずに、制御対象機器140の扉の開閉など動きのある制御が行われることで事故が発生する危険性を排除することができる。
尚、ステップS103において、意図理解部123は、ユーザの発話の内容に、機器制御に関連する他動詞しか含まれていない場合、当該発話が機器制御を要求する発話であると解釈できても、発話の内容に名詞が含まれていないため、制御対象機器140を識別することができない。
この場合、意図理解部123は、制御対象機器140を問い合わせる問い合わせ文を生成し、音声合成部127及び音声出力部131を用いて、当該生成した問い合わせ文を音声で出力するようにしてもよい。これに応じて、ユーザにより制御対象機器140を示す発話が行われ、ステップS101、S102と同様の処理が行われた後、意図理解部123は、当該発話の内容に含まれる制御対象機器140を示す名詞を、上記タスクのパラメータ、つまり、制御対象機器140として識別するようにしてもよい。
また、ステップS108において、ユーザの発話が確認受理発話(第二発話)であると解釈された場合、ステップS101で出力された機器制御を要求する発話(第一発話)の音声データと、当該ステップS108におけるステップS101と同様の処理で出力された確認受理発話の音声データとにおいて、声紋が一致するか否かを判定し、一致する場合にのみ、ユーザにより要求された機器制御を行うようにしてもよい。
以下、この場合の処理フローについて図3を用いて説明する。尚、状態認識部121がユーザの状態または機器周囲の状態が制御に適した状態であるか否かを判定するまでの処理フローは、図2に示したステップS101〜S105と同じであるため説明を省略する。
状態認識部121がユーザの状態及び機器周囲の状態が制御に適した状態でないと判定した場合(ステップS105:NO)、行動選択部124は、ステップS101で出力された、機器制御に関するタスクの実行を要求する発話(以下、制御要求発話)の音声データを記憶する(ステップS201)。
そして、行動選択部124は、ステップS107と同様にして、応答生成部126に確認応答文を生成させ、音声合成部127及び音声出力部131を用いて、当該確認応答文を表す音声を出力させる(ステップS202)。
これに応じて、ユーザが確認受理発話を行った結果、ステップS108と同様の処理により、意図理解部123によってユーザの発話が確認受理発話であると解釈されたとする(ステップS203:YES)。この場合、行動選択部124は、公知の声紋比較処理を実行することにより、ステップS201で記憶した制御要求発話の音声データが表す音声の声紋と、ステップS203におけるステップS101と同様の処理で出力された確認受理発話の音声データが表す音声の声紋と、が一致するか否かを判定する(ステップS204)。
行動選択部124は、声紋が一致すると判定した場合、制御要求発話を行ったユーザと確認受理発話を行ったユーザとが同一人物であると判断し(ステップS204:YES)、ステップS106と同様にして、ユーザが要求している機器制御を機器制御部125に実行させる(ステップS205)。
一方、行動選択部124は、声紋が一致しないと判定した場合(ステップS204:NO)、制御要求発話を行ったユーザと確認受理発話を行ったユーザとが同一人物でないと判断し、ユーザによる制御の要求をキャンセルする(ステップS207)。これにより、周囲の雑音等の音声を確認受理発話であるとして誤認識した場合に、制御要求発話によって要求された機器制御が行われることを防止することができる。
ユーザにより確認受理発話がなされない状態で(ステップS203:NO)、予め定められた一定の時間が経過した場合、または、ステップS203においてユーザの発話が確認受理発話でないと解釈された場合(ステップS203:YES)も、行動選択部124は、ユーザによる制御の要求をキャンセルする(ステップS207)。
また、機器を制御するための第一の発話(第三発話)が検知されたことにより、第一の発話に対応する機器制御命令が生成されてから、所定の期間が経過する前に当該機器を制御するための第二の発話(第四発話)が検知された場合、第一の発話の音声データと第二の発話の音声データとにおいて、声紋が一致するか否かを判定し、一致する場合は、確認応答文を生成することなく、第二の発話に対応する機器制御命令を生成してもよい。以下、この場合の処理フローについて図4を用いて説明する。
図2に示した処理フローに従い、第一の発話に対応する機器制御命令が機器制御部125により生成され、第一の発話に対応する機器制御が実施された場合(ステップS301:YES)、行動選択部124は、図2に示すステップS101で出力された第一の発話の音声データを記憶する(ステップS302)。
この状態で、第二の発話が行われ、ステップS101〜S103と同様の処理が行われた結果、意図理解部123により、第二の発話が、第一の発話に対応する機器制御が対象とする制御対象機器140と同じ制御対象機器140の機器制御を要求する発話であると解釈されたとする(ステップS304:YES)。この場合、状態認識部121は、ステップS105と同様、ユーザの状態または機器周囲の状態が制御に適した状態にあるか否かを判定する(ステップS305)。
状態認識部121が、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定した場合(ステップS305:NO)、行動選択部124は、公知の声紋比較処理を実行することにより、ステップS302で記憶した第一の発話の音声データが表す音声の声紋と、ステップS304におけるステップS101と同様の処理で出力された第二の発話の音声データが表す音声の声紋と、が一致するか否かを判定する(S307)。
行動選択部124は、声紋が一致すると判定した場合、第一の発話を行ったユーザと第二の発話を行ったユーザとが同一人物であると判断し(ステップS307:YES)、ステップS106と同様にして、第二発話により要求された機器制御を機器制御部125に実行させる(ステップS306)。
一方、行動選択部124は、声紋が一致しないと判定した場合(ステップS307:NO)、第一の発話を行ったユーザとは別のユーザが第二の発話を行ったと判断し、図2に示す、ステップS107を行う。これにより、第一の発話を行ったユーザとは別のユーザが機器制御を要求する第二の発話を第一の発話の次に行った場合に、当該別のユーザの状態及び制御対象機器140の状態が制御に適した状態でないにも関わらず、第二の発話に対する確認応答文を読み上げずに、第二の発話に対応する機器制御が実施されることを抑制することができる。
また、第一の発話に対応する機器制御が対象とする制御対象機器140と同じ制御対象機器140の機器制御を要求する第二の発話がなされない状態で(ステップS304:NO)、予め決められた一定の期間が経過した場合(ステップS309:YES)、行動選択部124は、ステップS302で記憶した第一の発話の音声データを破棄する(ステップS310)。
図4に示す処理フローに従って処理を行えば、同一ユーザによって連続して同一機器の機器制御を要求する発話が行われた場合に、当該ユーザが連続して確認受理発話を行うことを回避することができる。
尚、図2〜図4に示す各処理フローに従って処理が行われ、制御対象機器140の機器制御が行われた後、一定の時間が経過しても制御対象機器140を当該機器制御を行う前の状態に戻す制御が行なわれなかったとする。この場合、行動選択部124は、自動的に当該機器制御を行う前の状態に戻す制御を行うようにしてもよい。
例えば、ユーザの発話により要求された冷蔵庫の扉を開ける制御が実施されたとする。この状態で、一定の時間が経過しても、冷蔵庫の扉を閉じる制御を要求する発話が行われなかった場合、行動選択部124は、自動的に冷蔵庫の扉を閉じる制御を行うようにしてもよい。これにより、扉の閉め忘れの防止と、万が一、周囲の雑音等の音声の誤認識によって機器を誤って動作させた場合でも、扉が開いたままの状態になることを防止することができる。つまり、扉の開閉制御のように、一方の制御を行った後、元の状態に戻す制御を行う場合において本構成は有用である。
また、状態認識部121が、公知のパターン認識技術を用いて、センサ部111が備えるカメラにより撮像された画像に人物が含まれている場合に、当該画像に含まれている人物の顔や胴体等の特徴を認識し、当該特徴に基づいて当該人物を特定するようにしてもよい。これに合わせて、音声対話装置100を利用すると考えられる人物の声紋を予め記憶しておいてもよい。
そして、図3に示す処理フローにおいて、行動選択部124が、ステップS201を省略し、ステップS204において、予め記憶しておいた声紋のうち、当該状態認識部121が特定した、制御要求発話を行ったユーザの声紋を用いるようにしてもよい。同様に、図4に示す処理フローにおいて、行動選択部124が、ステップS302を省略し、ステップS307において、予め記憶しておいた声紋のうち、当該状態認識部121が特定した、第一の発話を行ったユーザの声紋を用いるようにしてもよい。
(実施の形態2)
実施の形態2では、集音デバイスに入力された音声データから、音声による機器制御の契機を意味する所定のトリガーワードの検知を継続的に試み、トリガ―ワードを検知した場合、ユーザの状態または機器周囲の状態が制御に適した状態であるか否かの判定結果によらず、発話の意図解釈を行い、当該意図解釈の結果に基づき、発話に対応する機器制御命令を生成する点に特徴がある。尚、以下の説明では、説明の簡略化のため上記実施の形態1と同様の構成については同一の符号を付して説明を簡略化する。
図5は、実施の形態2における音声対話装置200の全体像を示す図である。音声対話装置200は、音声対話処理部220が更にトリガワード認識部228として動作する点が図1に示した音声対話装置100と異なっている。また、音声認識部222が、生成したテキストデータをトリガワード認識部228にも出力する点が異なっている。また、意図理解部223が、状態認識部121による判定結果又はトリガワード認識部228による後述の判定結果に基づき、意図理解部123と同様の発話の意図解釈処理を有効にする点が異なっている。
トリガワード認識部228は、公知の言語解析処理を実行することにより、音声認識部222が生成したテキストデータが示す発話の内容を解析し、当該発話の内容に、音声による機器制御の契機を意味する所定のトリガワード(例えば、「マイクオン」等)が含まれているか否かを検知する。
以下、実施の形態2における処理フローを図6を用いて説明する。状態認識部121により、ユーザの状態または機器周囲の状態が制御に適した状態であると判定された場合(ステップS401:YES)、意図理解部223は、意図解釈処理を有効にする(ステップS403)。また、状態認識部121により、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定された場合(ステップS401:NO)、トリガワード認識部228によってトリガワードが検知されたときも(ステップS402:YES)、意図理解部223は、意図解釈処理を有効にする(ステップS403)。
状態認識部121により、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定され(ステップS401:NO)、トリガワード認識部228によってトリガワードが検知されなかったときは(ステップS402:NO)、ステップS401が行われる。これにより、トリガワード認識部228は、トリガワードの検知を継続的に試みる。
意図解釈処理が有効にされた状態で、集音デバイスにユーザの発話を表す音声データが入力され、音声入力部112が当該音声データを音声認識部222へ出力すると(ステップS404:YES)、意図理解部223は、音声認識部222が生成したテキストデータが表す発話の内容を解析し、当該発話の意図解釈を行う(ステップS405)。この場合、行動選択部124は、意図理解部223による意図解釈の結果に基づき、ユーザの発話により要求されたタスクを実行する(ステップS406)。
ステップS403で意図解釈処理が有効にされた後、ユーザによる発話がなされない状態で(ステップS404:NO)、予め決められた一定の時間が経過した場合、または、状態認識部121により、ユーザの状態もしくは機器周囲の状態が制御に適した状態ではないと判定された場合(ステップS407:YES)、意図理解部223は、意図解釈処理を無効にする(ステップS408)。
一方、予め定められた一定の時間が経過(タイムアウト)していない場合、または、状態認識部121により、ユーザの状態もしくは機器周囲の状態が制御に適した状態ではないと判定された場合(ステップS407:NO)は、ユーザによる発話を待機した状態となる。
以上で述べた実施の形態2の音声対話装置200によれば、トリガワード認識部228によって、ユーザの発話がトリガワードの発話であると解釈された場合、状態認識部121による判定結果によらず、意図理解部223の意図解釈処理が有効になり、ユーザの発話に対応する機器制御が行われる。これにより、ユーザがトリガーワードを発話し、当該ユーザが機器制御を行う意図が明確な場合には、確認応答文を読み上げることなく、迅速に発話に対応する機器制御を行うことができる。これにより、ユーザの利便性が向上する。また、ユーザの状態または機器周囲の状態が制御に適した状態にある場合には、ユーザは、トリガワードの発話を行わずに、要求した機器制御を迅速に行うことができる。これにより、ユーザの利便性を向上することができる。
尚、ステップS401を省略し、トリガワード認識部228が、トリガワードを検知するまで、ステップS402を繰り返すことで、トリガワードの検知を継続的に試みるようにしてもよい。そして、意図理解部223が、トリガワード認識部228によってトリガワードが検知された場合にのみ(ステップS402:YES)、意図解釈処理を有効にするようにしてもよい。
(実施の形態3)
実施の形態3では、ユーザの状態及び機器周囲の状態が制御に適した状態でないと判定された場合でも、ユーザの状態または機器周囲の状態が制御に適した状態であるか否かの判定を継続し、ユーザによる発話を検知してから所定の期間内に、ユーザの状態または機器周囲の状態が制御に適した状態であると判定された場合、発話に対応する機器制御命令を生成する点に特徴がある。尚、以下の説明では、説明の簡略化のため上記実施の形態1と同様の構成については同一の符号を付して説明を簡略化する。
図7は、実施の形態3における音声対話装置300の全体像を示す図である。音声対話装置300は、音声対話処理部320に更に制御受理タイマ328が設けられている点が図1に示した音声対話装置100と異なっている。また、行動選択部324が更に制御受理タイマ328による時間経過の通知に基づき、動作する点が異なっている。
制御受理タイマ328には、ユーザの状態及び機器周囲の状態が制御に適した状態ではない状態で機器制御を要求する発話が行われた場合に、当該発話が行なわれてから、ユーザの状態または機器周囲の状態が制御に適した状態へ移行するまでの許容時間が行動選択部324によって設定される。制御受理タイマ328は、当該許容時間が設定された後、当該許容時間が経過した時に、許容時間が経過したことを行動選択部324へ通知する。
行動選択部324は、ユーザの状態及び機器周囲の状態が制御に適した状態ではない状態で機器制御を要求する発話が行われた場合に、上記許容時間を制御受理タイマ328に設定する。行動選択部324は、当該設定後、制御受理タイマ328によって許容時間が経過したことが通知される前に、ユーザの状態または機器周囲の状態が制御に適した状態へ移行した場合、実施の形態1の行動選択部124と同様の動作を行う。
以下、実施の形態3における処理フローを図8を用いて説明する。尚、ステップS101〜S104、S111は、図2の処理フローと同様に実行されるため説明を省略する。ステップS102において音声認識部122によりユーザの発話が検知された後、意図理解部123によって当該ユーザの発話が機器制御を要求する発話であると解釈された場合(ステップS104:YES)、行動選択部324は、予め決められた許容時間を制御受理タイマ328に設定する(ステップS505)。許容時間が制御受理タイマ328に設定された後、状態認識部121は、ユーザの状態または機器周囲の状態が制御に適した状態であるか否かを判定する(ステップS506)。
状態認識部121がユーザの状態または機器周囲の状態が制御に適した状態であると判定した場合(ステップ506:YES)、行動選択部324は、ステップS106と同様にして、ユーザが要求している機器制御を機器制御部125に実行させる(ステップS507)。
一方、状態認識部121がユーザの状態及び機器周囲の状態が制御に適した状態ではないと判定した場合(ステップS506:NO)、行動選択部324は、制御受理タイマ328から許容時間が経過したことが通知されるまで、ユーザの状態または機器周囲の状態が制御に適した状態に移行するのを待機する(ステップS508:NO)。これにより、行動選択部324は、状態認識部121によってユーザの状態及び機器周囲の状態が制御に適した状態でないと判定された場合でも(ステップS506:NO)、状態認識部121に、ユーザの状態または機器周囲の状態が制御に適した状態であるか否かの判定を継続させている。
状態認識部121が、ユーザの状態または機器周囲の状態が制御に適した状態であると判定していない状態で、制御受理タイマ328から許容時間が経過したことが通知された場合(ステップS508:YES)、行動選択部324は、ユーザによる機器制御の要求をキャンセルする(ステップS509)。
以上で述べた実施の形態3の音声対話装置300によれば、ユーザの状態及び機器周囲の状態が制御に適した状態でない場合に、機器制御を要求する発話が行われたとしても、当該発話後、許容時間が経過するまでの間に、ユーザの状態または機器周囲の状態が制御に適した状態に遷移することで、当該機器制御を行うことができる。
例えば、冷蔵庫への収納を目的として、ユーザが、玄関先等の冷蔵庫から離れた位置で、且つ、冷蔵庫の周囲に人物が存在する状態で、収納する食品を持ちながら、冷蔵庫の扉を開ける制御を要求する発話を行ったとする。このとき、実施の形態3の音声対話装置300によれば、ステップS506において、状態認識部121は、ユーザの状態及び機器周囲の状態が制御に適した状態ではないと判定する。しかし、ユーザが上記発話後、許容時間が経過するまでの間に、冷蔵庫の前まで移動し、視線、顔、もしくは胴体を冷蔵庫に向けたとき、または、冷蔵庫の周囲に人物が存在しなくなったとき、ステップS506において、状態認識部121により、ユーザの状態が制御に適した状態になったと判定される。そして、ステップS507において、冷蔵庫の扉を開ける制御が実行される。
このように、実施の形態3の音声対話装置300によれば、特に、制御対象機器140から離れた位置から制御対象機器140に近づく移動中に、機器制御を要求する発話を行うといったシーンにおいて、ユーザの利便性を向上することができる。尚、許容時間は、当該シーンを想定して例えば十数秒に定めればよい。ただし、許容時間をこれに限定する趣旨ではない。また、ステップS505において、行動選択部324が、ステップS104において識別された制御対象機器140に応じて個別に異なる許容時間を設定するようにしてもよい。
本開示は、音声対話装置と音声対話装置によって制御可能な機器、及び、音声によって制御可能な機能を有する機器において有用である。特に、冷蔵庫、電子レンジ、オーブン、家や部屋のドアなどの音声による開閉制御可能な機器、音声による水量調節可能な蛇口、及び音声による点火制御可能なガスコンロやIHクッキングヒータなど、制御対象機器の前への移動中や別の作業を行いながら制御するシーンか想定される機器において有用である。
100、200、300 音声対話装置
110 入力部
111 センサ部
112 音声入力部
120、220、320 音声対話処理部
121 状態認識部
122、222 音声認識部
123、223 意図理解部
124、324 行動選択部
125 機器制御部
126 応答生成部
127 音声合成部
130 出力部
131 音声出力部
140 制御対象機器
228 トリガワード認識部
324 行動選択部
328 制御受理タイマ

Claims (18)

  1. 音声により機器を制御する制御装置が行う制御方法であって、
    集音装置に入力された音声データから、機器を制御するための発話を検知し、
    前記発話から制御の対象である制御対象機器を識別し、
    1以上のセンサーから取得されたセンサーデータに基づき、前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、
    前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、
    前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成し、
    前記確認応答文を音声により読み上げる、
    制御方法。
  2. 前記制御装置は、さらに、前記制御に適した状態であると判定した場合、前記発話の意図解釈を行い、前記意図解釈の結果に基づき、前記発話に対応する機器制御命令を生成する、
    請求項1記載の制御方法。
  3. 前記制御に適した状態とは、前記制御対象機器の周囲に人物が検出されない状態である、
    請求項1記載の制御方法。
  4. 前記センサーデータは、撮像装置により撮像された前記制御対象機器の周囲の画像であり、
    前記制御装置は、前記画像に基づき、前記制御対象機器の周囲に人物が検出されるか否かを判定する、
    請求項3記載の制御方法。
  5. 前記制御に適した状態とは、前記発話を行ったユーザが前記制御対象機器の周囲において検出され、かつ前記発話を行ったユーザの視線が前記制御対象機器に向けられている状態である、
    請求項1記載の制御方法。
  6. 前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの目を含む画像であり、
    前記制御装置は、前記画像に基づき、前記発話を行ったユーザが前記制御対象機器の周囲において検出されるか否か、および、前記発話を行ったユーザの視線が前記制御対象機器に向けられているか否かを判定する、
    請求項5記載の制御方法。
  7. 前記制御に適した状態とは、前記発話を行ったユーザの顔が前記制御対象機器に向けられている状態である、
    請求項1記載の制御方法。
  8. 前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの顔を含む画像であり、
    前記制御装置は、前記画像に基づき、前記発話を行ったユーザの顔が前記制御対象機器に向けられているか否かを判定する、
    請求項7記載の制御方法。
  9. 前記制御に適した状態とは、前記発話を行ったユーザの胴体が前記制御対象機器に向けられている状態である、
    請求項1記載の制御方法。
  10. 前記センサーデータは、撮像装置により撮像された前記発話を行ったユーザの胴体を含む画像であり、
    前記制御装置は、前記画像に基づき、前記発話を行ったユーザの胴体が前記制御対象機器に向けられているか否かを判定する、
    請求項9記載の制御方法。
  11. 前記制御装置は、さらに、
    前記機器を制御するための第一発話に対する確認応答文を読み上げた後に当該確認応答文に対する第二発話を検知した場合、当該第一発話および当該第二発話の発話者が同一であるか否かを判定し、
    前記第一発話および前記第二発話の発話者が同一であると判定した場合、当該第一発話に対応する機器制御命令を生成する、
    請求項1記載の制御方法。
  12. 前記第一発話および前記第二発話の発話者が同一であるか否かの判定は、当該第一発話および当該第二発話の声紋を比較することにより行う、
    請求項11記載の制御方法。
  13. 前記制御装置は、さらに、
    前記機器を制御するための第三発話に対応する機器制御命令が生成されてから所定の期間が経過する前に当該機器を制御するための第四発話を検知した場合、当該第三発話および当該第四発話の発話者が同一であるか否かを判定し、
    前記第三発話および前記第四発話の発話者が同一であると判定された場合、前記第四発話に対応する確認応答文を生成することなく、前記第四発話に対応する機器制御命令を生成する、
    請求項1記載の制御方法。
  14. 前記第三発話および前記第四発話の発話者が同一であるか否かの判定は、当該第三発話および当該第四発話の声紋を比較することにより行う、
    請求項13記載の制御方法。
  15. 前記制御装置は、さらに、前記集音装置に入力された音声データから、音声による機器制御の契機を意味する所定の単語の検知を継続的に試み、
    前記所定の単語を検知した場合、
    前記制御に適した状態であるか否かの判定結果によらず、前記発話の意図解釈を行い、前記意図解釈の結果に基づき、前記発話に対応する機器制御命令を生成する、
    請求項1記載の制御方法。
  16. 前記制御装置は、さらに、前記制御に適した状態でないと判定した場合、前記制御に適した状態であるか否かの判定を継続し、
    前記発話を検知してから所定の期間内に、前記制御に適した状態であると判定した場合、前記発話に対応する機器制御命令を生成する、
    請求項1記載の制御方法。
  17. 音声により機器を制御する制御装置であって、
    集音装置に入力された音声データから、機器を制御するための発話を検知する検知部と、
    前記発話から制御の対象である制御対象機器を識別する識別部と、
    1以上のセンサーから取得されたセンサーデータに基づき、前記発話を発した前記ユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定する判定部と、
    前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成する生成部と、
    前記確認応答文を音声により読み上げる出力部と、
    を備える制御装置。
  18. コンピュータを、音声により機器を制御する制御装置として機能させるためのプログラムであって、
    前記コンピュータに、
    集音装置に入力された音声データから、機器を制御するための発話を検知し、
    前記発話から制御の対象である制御対象機器を識別し、
    1以上のセンサーから取得されたセンサーデータに基づき、前記発話を発した前記ユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であるか否かを判定し、
    前記発話を発したユーザの状態または前記制御対象機器の周囲の状態が制御に適した状態であると判定した場合、前記発話に対する確認応答文を生成せず、前記発話を発したユーザの状態及び前記制御対象機器の周囲の状態が制御に適した状態でないと判定した場合、前記発話に対する確認応答文を生成し、
    前記確認応答文を音声により読み上げる、
    ことを実行させるプログラム。
JP2015254845A 2015-12-25 2015-12-25 制御方法、制御装置およびプログラム Pending JP2017117371A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015254845A JP2017117371A (ja) 2015-12-25 2015-12-25 制御方法、制御装置およびプログラム
CN201610982603.5A CN107068148A (zh) 2015-12-25 2016-11-09 控制方法以及控制装置
US15/375,075 US10056081B2 (en) 2015-12-25 2016-12-09 Control method, controller, and non-transitory recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015254845A JP2017117371A (ja) 2015-12-25 2015-12-25 制御方法、制御装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2017117371A true JP2017117371A (ja) 2017-06-29

Family

ID=59088536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015254845A Pending JP2017117371A (ja) 2015-12-25 2015-12-25 制御方法、制御装置およびプログラム

Country Status (3)

Country Link
US (1) US10056081B2 (ja)
JP (1) JP2017117371A (ja)
CN (1) CN107068148A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019026313A1 (ja) * 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
WO2019039352A1 (ja) * 2017-08-25 2019-02-28 日本電気株式会社 情報処理装置、制御方法、及びプログラム
WO2019159645A1 (ja) * 2018-02-14 2019-08-22 パナソニックIpマネジメント株式会社 制御システム、及び、制御方法
WO2019198405A1 (ja) * 2018-04-12 2019-10-17 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2019219886A (ja) * 2018-06-19 2019-12-26 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム
WO2020008881A1 (ja) * 2018-07-03 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法
JP2020003081A (ja) * 2018-06-25 2020-01-09 株式会社パロマ ガスコンロ用の制御装置、ガスコンロシステム、及びガスコンロ用の制御装置における指示データ生成プログラム
JP2020003076A (ja) * 2018-06-25 2020-01-09 株式会社パロマ ガスコンロ
WO2020021861A1 (ja) * 2018-07-26 2020-01-30 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
WO2020039726A1 (ja) * 2018-08-20 2020-02-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
WO2020039753A1 (ja) * 2018-08-24 2020-02-27 ソニー株式会社 マクロのセキュリティリスクの度合いを判定する情報処理装置
JP2020041720A (ja) * 2018-09-07 2020-03-19 株式会社パロマ ガスコンロ用制御装置、及びガスコンロシステム
JP2020047101A (ja) * 2018-09-20 2020-03-26 Zホールディングス株式会社 コミュニケーション支援装置、ユーザデバイス、コミュニケーション支援方法、およびプログラム
JP7442583B2 (ja) 2019-01-29 2024-03-04 グーグル エルエルシー ワイヤレススピーカーにおいて、再生を検出するため、かつ/または不整合な再生に適応するための構造化オーディオ出力の使用
CN109601017B (en) * 2017-08-02 2024-05-03 松下知识产权经营株式会社 Information processing apparatus, voice recognition system, and information processing method

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6650595B2 (ja) * 2015-09-24 2020-02-19 パナソニックIpマネジメント株式会社 機器制御装置、機器制御方法、機器制御プログラムおよび記録媒体
CA3047984A1 (en) * 2016-12-23 2018-06-28 Spectrum Brands, Inc. Electronic faucet with smart features
US10937421B2 (en) * 2016-12-23 2021-03-02 Spectrum Brands, Inc. Electronic faucet with smart features
US10599377B2 (en) * 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US20190061336A1 (en) * 2017-08-29 2019-02-28 Xyzprinting, Inc. Three-dimensional printing method and three-dimensional printing apparatus using the same
KR102429582B1 (ko) * 2017-11-06 2022-08-05 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109903769A (zh) * 2017-12-08 2019-06-18 Tcl集团股份有限公司 一种终端设备交互的方法、装置和终端设备
CN110021299B (zh) * 2018-01-08 2021-07-20 佛山市顺德区美的电热电器制造有限公司 语音交互方法、装置、系统及存储介质
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
JP7375741B2 (ja) * 2018-02-22 2023-11-08 ソニーグループ株式会社 情報処理装置、情報処理方法、および、プログラム
CN108398906B (zh) * 2018-03-27 2019-11-01 百度在线网络技术(北京)有限公司 设备控制方法、装置、电器、总控设备及存储介质
CN108833688B (zh) * 2018-05-30 2020-03-10 Oppo广东移动通信有限公司 位置提醒方法、装置、存储介质及电子设备
CN109388238A (zh) * 2018-08-31 2019-02-26 北京羽扇智信息科技有限公司 一种电子设备的控制方法及装置
JP2020112692A (ja) * 2019-01-11 2020-07-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 方法、制御装置、及びプログラム
US11302323B2 (en) * 2019-11-21 2022-04-12 International Business Machines Corporation Voice response delivery with acceptable interference and attention
CN113494797B (zh) * 2020-04-02 2024-01-05 青岛海尔电冰箱有限公司 冰箱、传声单元的控制方法和存储介质
CN113494798B (zh) * 2020-04-02 2023-11-03 青岛海尔电冰箱有限公司 冰箱、传声单元的控制方法和存储介质
CN113494796B (zh) * 2020-04-02 2024-01-05 青岛海尔电冰箱有限公司 冰箱、传声单元的控制方法和存储介质
CN112530442B (zh) * 2020-11-05 2023-11-17 广东美的厨房电器制造有限公司 语音交互方法及装置
CN112908321A (zh) * 2020-12-02 2021-06-04 青岛海尔科技有限公司 设备控制方法、装置、存储介质及电子装置
CN113488043B (zh) * 2021-06-30 2023-03-24 上海商汤临港智能科技有限公司 乘员说话检测方法及装置、电子设备和存储介质
US20230244769A1 (en) * 2022-02-03 2023-08-03 Johnson Controls Tyco IP Holdings LLP Methods and systems for employing an edge device to provide multifactor authentication

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188668A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、情報処理装置、会話処理システム、並びに記録媒体
JP2003114700A (ja) * 2001-10-05 2003-04-18 Fujitsu Ltd 音声認識装置
JP2003255987A (ja) * 2002-03-04 2003-09-10 Toshiba Corp 音声認識を利用した機器の制御方法、制御装置及び制御プログラム
JP2004283927A (ja) * 2003-03-20 2004-10-14 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
JP2006227634A (ja) * 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2006302009A (ja) * 2005-04-21 2006-11-02 Mitsubishi Electric Corp ユーザインタフェース装置、家電・住設機器およびユーザインタフェース提示方法
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2015004928A (ja) * 2013-06-24 2015-01-08 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
US20150162007A1 (en) * 2013-12-06 2015-06-11 Vivint, Inc. Voice control using multi-media rooms

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5971927A (ja) 1982-10-19 1984-04-23 Matsushita Electric Ind Co Ltd 加熱装置
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
JPH0981309A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 入力装置
US6052666A (en) * 1995-11-06 2000-04-18 Thomson Multimedia S.A. Vocal identification of devices in a home environment
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
US6952155B2 (en) * 1999-07-23 2005-10-04 Himmelstein Richard B Voice-controlled security system with proximity detector
US6230138B1 (en) * 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
US20020082835A1 (en) * 2000-12-19 2002-06-27 Hewlett-Packard Company Device group discovery method and apparatus
US7092886B2 (en) * 2000-12-19 2006-08-15 Hewlett-Packard Development Company, L.P. Controlling the order of output of multiple devices
US6662137B2 (en) * 2000-12-19 2003-12-09 Hewlett-Packard Development Company, L.P. Device location discovery by sound
US6990639B2 (en) * 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
JP3715584B2 (ja) * 2002-03-28 2005-11-09 富士通株式会社 機器制御装置および機器制御方法
JP2007121576A (ja) 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
US9250703B2 (en) * 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
US7747446B2 (en) * 2006-12-12 2010-06-29 Nuance Communications, Inc. Voice recognition interactive system with a confirmation capability
JP5452158B2 (ja) * 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8666751B2 (en) * 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation
US9526127B1 (en) * 2011-11-18 2016-12-20 Google Inc. Affecting the behavior of a user device based on a user's gaze
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
US9436287B2 (en) * 2013-03-15 2016-09-06 Qualcomm Incorporated Systems and methods for switching processing modes using gestures
US9697700B2 (en) * 2013-11-20 2017-07-04 Honeywell International Inc. Ambient condition detector with processing of incoming audible commands followed by speech recognition
US9311525B2 (en) * 2014-03-19 2016-04-12 Qualcomm Incorporated Method and apparatus for establishing connection between electronic devices
US9966079B2 (en) * 2014-03-24 2018-05-08 Lenovo (Singapore) Pte. Ltd. Directing voice input based on eye tracking
KR102216048B1 (ko) * 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US10228904B2 (en) * 2014-11-12 2019-03-12 Lenovo (Singapore) Pte. Ltd. Gaze triggered voice recognition incorporating device velocity
KR20160071732A (ko) * 2014-12-12 2016-06-22 삼성전자주식회사 음성 입력을 처리하는 방법 및 장치
US20170032783A1 (en) * 2015-04-01 2017-02-02 Elwha Llc Hierarchical Networked Command Recognition
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
US10019992B2 (en) * 2015-06-29 2018-07-10 Disney Enterprises, Inc. Speech-controlled actions based on keywords and context thereof
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10095473B2 (en) * 2015-11-03 2018-10-09 Honeywell International Inc. Intent managing system
US10289381B2 (en) * 2015-12-07 2019-05-14 Motorola Mobility Llc Methods and systems for controlling an electronic device in response to detected social cues

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188668A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、情報処理装置、会話処理システム、並びに記録媒体
JP2003114700A (ja) * 2001-10-05 2003-04-18 Fujitsu Ltd 音声認識装置
JP2003255987A (ja) * 2002-03-04 2003-09-10 Toshiba Corp 音声認識を利用した機器の制御方法、制御装置及び制御プログラム
JP2004283927A (ja) * 2003-03-20 2004-10-14 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
JP2006302009A (ja) * 2005-04-21 2006-11-02 Mitsubishi Electric Corp ユーザインタフェース装置、家電・住設機器およびユーザインタフェース提示方法
JP2006227634A (ja) * 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2015004928A (ja) * 2013-06-24 2015-01-08 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
US20150162007A1 (en) * 2013-12-06 2015-06-11 Vivint, Inc. Voice control using multi-media rooms
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109601017B (en) * 2017-08-02 2024-05-03 松下知识产权经营株式会社 Information processing apparatus, voice recognition system, and information processing method
CN109601017A (zh) * 2017-08-02 2019-04-09 松下知识产权经营株式会社 信息处理装置、声音识别系统及信息处理方法
WO2019026313A1 (ja) * 2017-08-02 2019-02-07 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
JPWO2019026313A1 (ja) * 2017-08-02 2020-05-28 パナソニックIpマネジメント株式会社 情報処理装置、音声認識システム、及び、情報処理方法
WO2019039352A1 (ja) * 2017-08-25 2019-02-28 日本電気株式会社 情報処理装置、制御方法、及びプログラム
WO2019159645A1 (ja) * 2018-02-14 2019-08-22 パナソニックIpマネジメント株式会社 制御システム、及び、制御方法
WO2019198405A1 (ja) * 2018-04-12 2019-10-17 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11545153B2 (en) 2018-04-12 2023-01-03 Sony Corporation Information processing device, information processing system, and information processing method, and program
JP2019219886A (ja) * 2018-06-19 2019-12-26 ソフトバンク株式会社 情報処理装置、情報処理方法、情報処理プログラム
JP2020003081A (ja) * 2018-06-25 2020-01-09 株式会社パロマ ガスコンロ用の制御装置、ガスコンロシステム、及びガスコンロ用の制御装置における指示データ生成プログラム
JP2020003076A (ja) * 2018-06-25 2020-01-09 株式会社パロマ ガスコンロ
JP7162865B2 (ja) 2018-06-25 2022-10-31 株式会社パロマ ガスコンロ用の制御装置、及びガスコンロシステム
JP7146240B2 (ja) 2018-06-25 2022-10-04 株式会社パロマ ガスコンロ
WO2020008881A1 (ja) * 2018-07-03 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法
JPWO2020021861A1 (ja) * 2018-07-26 2021-08-19 ソニーグループ株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US11657821B2 (en) 2018-07-26 2023-05-23 Sony Corporation Information processing apparatus, information processing system, and information processing method to execute voice response corresponding to a situation of a user
WO2020021861A1 (ja) * 2018-07-26 2020-01-30 ソニー株式会社 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
WO2020039726A1 (ja) * 2018-08-20 2020-02-27 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JPWO2020039753A1 (ja) * 2018-08-24 2021-08-26 ソニーグループ株式会社 マクロのセキュリティリスクの度合いを判定する情報処理装置
WO2020039753A1 (ja) * 2018-08-24 2020-02-27 ソニー株式会社 マクロのセキュリティリスクの度合いを判定する情報処理装置
JP7428130B2 (ja) 2018-08-24 2024-02-06 ソニーグループ株式会社 マクロのセキュリティリスクの度合いを判定する情報処理装置
JP2020041720A (ja) * 2018-09-07 2020-03-19 株式会社パロマ ガスコンロ用制御装置、及びガスコンロシステム
JP7194971B2 (ja) 2018-09-07 2022-12-23 株式会社パロマ ガスコンロ用制御装置、及びガスコンロシステム
JP2020047101A (ja) * 2018-09-20 2020-03-26 Zホールディングス株式会社 コミュニケーション支援装置、ユーザデバイス、コミュニケーション支援方法、およびプログラム
JP7182969B2 (ja) 2018-09-20 2022-12-05 ヤフー株式会社 コミュニケーション支援装置、ユーザデバイス、コミュニケーション支援方法、およびプログラム
JP7442583B2 (ja) 2019-01-29 2024-03-04 グーグル エルエルシー ワイヤレススピーカーにおいて、再生を検出するため、かつ/または不整合な再生に適応するための構造化オーディオ出力の使用

Also Published As

Publication number Publication date
CN107068148A (zh) 2017-08-18
US20170186428A1 (en) 2017-06-29
US10056081B2 (en) 2018-08-21

Similar Documents

Publication Publication Date Title
JP2017117371A (ja) 制御方法、制御装置およびプログラム
KR102293063B1 (ko) 사용자 정의 가능한 웨이크업 음성 명령
US11470382B2 (en) Methods and systems for detecting audio output of associated device
US10019992B2 (en) Speech-controlled actions based on keywords and context thereof
KR102210433B1 (ko) 전자 장치 및 이의 음성 인식 방법
US9293134B1 (en) Source-specific speech interactions
KR102339657B1 (ko) 전자 장치 및 이의 제어 방법
US20190019513A1 (en) Information processing device, information processing method, and program
EP3602241B1 (en) Method and apparatus for interaction with an intelligent personal assistant
JPWO2016157662A1 (ja) 情報処理装置、制御方法、およびプログラム
US10109294B1 (en) Adaptive echo cancellation
JP2005284492A (ja) 音声利用操作装置
KR20150112337A (ko) 디스플레이 장치 및 그 사용자 인터랙션 방법
US10984086B1 (en) Methods and systems for fingerprint sensor triggered voice interaction in an electronic device
JP6350903B2 (ja) 操作補助装置および操作補助方法
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
TW200809768A (en) Method of driving a speech recognition system
KR102374054B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
CN110858841B (zh) 通过已注册用户的认证来注册新用户的电子设备和方法
JP6719434B2 (ja) 機器制御装置、機器制御方法及び機器制御システム
JP2018045192A (ja) 音声対話装置および発話音量調整方法
JP2019174784A (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
KR20230118643A (ko) 화자 의존적인 후속 액션들 및 웜 워드들
JP6586617B2 (ja) 音声認識装置、方法、及びコンピュータプログラム
KR102071867B1 (ko) 음성 신호와 관련된 정보를 이용하여 호출어를 인식하는 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190521

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191210