JP2022051970A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2022051970A
JP2022051970A JP2019016640A JP2019016640A JP2022051970A JP 2022051970 A JP2022051970 A JP 2022051970A JP 2019016640 A JP2019016640 A JP 2019016640A JP 2019016640 A JP2019016640 A JP 2019016640A JP 2022051970 A JP2022051970 A JP 2022051970A
Authority
JP
Japan
Prior art keywords
voice
information
utterance
control unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019016640A
Other languages
English (en)
Inventor
啓 福井
Hiroshi Fukui
浩明 小川
Hiroaki Ogawa
幸徳 前田
Yukinori Maeda
智恵 鎌田
Chie KAMADA
衣未留 角尾
Emiru Tsunoo
晃 高橋
Akira Takahashi
典子 戸塚
Noriko Tozuka
和也 立石
Kazuya Tateishi
裕一郎 小山
Yuichiro Koyama
悠希 武田
Yuki Takeda
秀明 渡辺
Hideaki Watanabe
寛 黒田
Hiroshi Kuroda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2019016640A priority Critical patent/JP2022051970A/ja
Priority to US17/425,444 priority patent/US20220101850A1/en
Priority to PCT/JP2020/001413 priority patent/WO2020158435A1/ja
Publication of JP2022051970A publication Critical patent/JP2022051970A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3215Monitoring of peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3231Monitoring the presence, absence or movement of users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3265Power saving in display device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

【課題】直観的な表現による音声操作を行うことができるようにする。【解決手段】本技術の一側面の情報処理装置は、所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とを提示し、ユーザにより入力された音声を対象として音声認識を行う。本技術は、音声アシスタント機能を搭載した各種の機器に適用することができる。【選択図】図1

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、直観的な表現による音声操作を行うことができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
近年、音声操作に対応した機器が増えてきている。いわゆるスマートスピーカと呼ばれるスピーカだけでなく、テレビジョン受像機(TV)、ロボット掃除機、照明機器、エアーコンディショナなどの家電機器の中にも、音声操作の機能を搭載したものがある。
特開2013-198085号公報
ところで、上述したような家電機器の機能として、自動電源オフや自動電源オンなどのタイマー機能がある。例えば、TVをつけたまま、何の操作も行われない状態が所定の時間続いた場合、電源がまもなくオフになることを通知するメッセージの表示が行われた後、自動電源オフの機能によって、TVの電源がオフになる。
番組の視聴をそのまま続けたい場合、ユーザは、本体のボタンを押したり、リモートコントローラを手に取って操作をしたりする必要がある。本体のボタンを押すなどの操作によって、自動電源オフが解除され、番組の表示が継続される。すなわち、こうした仕組まれた遷移が意図しないタイミングで起こることがあり、ユーザは、それに対応する必要がある。
自動電源オフを解除するための操作を上述したような音声操作によって行うことができるとすれば便利である。また、自動電源オフを解除するための音声操作を、起動ワードを言わずに行うことができるとすればさらに便利である。
本技術はこのような状況に鑑みてなされたものであり、直観的な表現による音声操作を行うことができるようにするものである。
本技術の一側面の情報処理装置は、所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とを提示する提示制御部と、ユーザにより入力された音声を対象として音声認識を行う音声認識部とを備える。
本技術の一側面においては、所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とが提示され、ユーザにより入力された音声を対象として音声認識が行われる。
TVの表示例を示す図である。 TVの表示例を示す図である。 リモートコントローラを用いた操作を示す図である。 音声認識の例を示す図である。 ロボット掃除機の表示例を示す図である。 ロボット掃除機の表示例を示す図である。 情報の提示例を示す図である。 情報の他の提示例を示す図である。 制御装置の構成例を示すブロック図である。 制御装置の機能構成例を示すブロック図である。 情報処理システムの構成例を示す図である。 制御装置の動作について説明するフローチャートである。 コンピュータの構成例を示すブロック図である。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.TVの操作例
2.ロボット掃除機の操作例
3.情報の提示例
4.装置の構成と動作
5.適用例
6.その他
<<TVの操作例>>
図1は、本技術の一実施形態に係るTVの表示例を示す図である。
図1に示すTV1は、放送波を受信して番組の映像をディスプレイに表示させたり、音声をスピーカから出力させたりすることが可能な情報処理装置である。TV1は、インターネットに接続され、適宜、図示せぬサーバと通信を行う。
TV1の操作は、リモートコントローラを用いるだけでなく、音声操作によっても行うことが可能とされる。TV1は音声操作に対応した装置である。TV1の筐体の所定の位置にはマイクロフォンが設けられる。
ユーザは、番組の検索、動画配信サービスが配信する動画の検索、Webサイトの検索、チャンネルの切り替えなどの各種の操作を音声により行うことができる。TV1に接続された外部のデバイスの操作なども、音声により行うことが可能とされる。
このような音声操作の機能を使用する場合、ユーザは、基本的に、起動ワードと、依頼内容とを組み合わせた発話を行う必要がある。起動ワードの発話なしに、依頼内容の発話だけで音声操作を行うことができるシステムもある。
ここで、起動ワードは、音声認識を開始するためのトリガとなる言葉である。
TV1においては、起動ワードを検出したことに応じて、依頼内容の受け付けが可能な状態となり、起動ワードに続けて行われた発話を対象として音声認識が行われる。また、音声認識によって特定された依頼内容に応じて、チャンネルを切り替えるなどの処理が行われる。音声を用いた依頼内容の入力は、音声コマンドの入力となる。
このように、TV1の音声操作は、基本的には、起動ワードと依頼内容とを組み合わせた発話によって行われるが、TV1の状態によっては、起動ワードなしに、依頼内容の発話のみによって行われる。起動ワードなしの音声操作は、例えば、TV1において、トリガとなる所定の状態遷移が生じた場合に可能となる。
図1の左側に示すように、ユーザが所定の番組を視聴している場合において、いずれの操作も行われずに、1時間などのあらかじめ設定された時間が経過したとき、TV1の状態は、無操作電源オフの機能によって、電源を自動的にオフにする状態になる。この例においては、無操作の状態が一定時間経過したときに電源を自動的にオフにする機能である無操作電源オフの機能を、ユーザが有効なものとして設定しているものとする。
電源を自動的にオフにする状態になった場合、矢印A1の先に示すように、TV1は、無操作電源オフの機能によって電源オフになることを提示するメッセージ11を番組の映像に重ねて表示させる。図1の例においては、無操作電源オフの機能によって電源がオフになることと、リモートコントローラを用いていずれかの操作を行うことによって、電源オフを停止させ、番組の視聴を続けることができることを表す内容がメッセージ11によって提示されている。
また、TV1は、メッセージ11とともに、音声操作のための音声の入力が可能であることを表す音声入力アイコン12を表示させる。図1の例においては、マイクロフォンの図柄により構成される音声入力アイコン12がメッセージ11の上に表示されている。
音声入力アイコン12が表示されている間、起動ワードなしの音声操作が可能となる。すなわち、この例においては、無操作電源オフの機能によって電源を自動的にオフにする状態になった場合、その状態遷移をトリガとして、TV1は、起動ワードなしの音声操作の受け付けを開始する。TV1は、ユーザにより発話が行われるのを待ち、発話が行われた場合、その発話を、音声操作の発話として受け付けて音声認識を行う。
例えば、図2の吹き出し#1に示すように、ユーザが「消さないで」の発話を行った場合、TV1は、ユーザの発話を、電源オフを停止させることを依頼する発話として認識し、電源オフを停止させる。電源オフを停止させたとき、矢印A2の先に示すように、TV1は、メッセージ11と音声入力アイコン12の表示を終了させ、番組の表示を続ける。
このように、電源オフを音声操作によって停止させることができるようにすることにより、ユーザは、図3に示すように、リモートコントローラ2を探して操作する必要がない。
また、起動ワードなしの音声操作が可能となるため、ユーザは、「消さないで」などの依頼内容の発話だけで、電源オフを停止させることができる。ユーザは、起動ワードを省略した直感的な発話によって、音声操作を容易に行うことができる。
無操作電源オフの機能によって電源を自動的にオフにする状態となったことに応じて音声入力アイコン12を表示させた場合、その状態においては、無操作電源オフの機能に関する発話がユーザにより行われる可能性が高い。
TV1は、無操作電源オフの機能に関する発話が行われると想定し、音声認識の対象とする発話のドメインとして、無操作電源オフの機能に関する発話のドメインを指定して音声認識を行うことにより、音声認識の精度を向上させることが可能となる。
仮に、ドメインの指定を行わないとした場合、単に、「消さないで」の発話だけからは、ユーザの依頼内容を特定することが困難である。例えば、メッセージ11の表示を消さないようにすることを依頼していると特定することも可能である。
TV1は、無操作電源オフの機能に関する発話が行われることをTV1の状態(コンテキスト)に基づいて想定し、「消さないで」の発話が無操作電源オフの機能に関する発話であると絞り込むことにより、その「消さないで」の発話が、電源オフを停止させることの依頼であると特定することが可能となる。
なお、「消さないで」の他に、例えば、「やめて」、「だめ」、「1時間延長して」などの発話が行われた場合も同様に、ドメインを指定した音声認識により、それらの発話が、電源オフを停止させることの依頼であると特定される。例えば「1時間延長して」の発話が行われた場合、TV1においては、電源オフの時刻を1時間後の時刻に再設定することも行われる。
図4は、音声認識の例を示す図である。
図4に示すように、例えば「今日の京都の気温を教えて」の発話が行われた場合、音声認識が行われ、矢印A3の先に示すように、ドメイン(Domain)が「天気」として特定され、インテント(Intent)が「気温」として特定される。また、「今日」、「京都」などのエンティティ(Entity)が特定される。
ユーザの発話を対象とした音声認識には、テキスト化と言語解析の処理が含まれる。テキスト化は、音声をテキストデータに変換する処理である。一方、言語解析は、テキスト化によって得られたテキストデータの形態素解析などを行い、ドメイン、インテント、エンティティを特定する処理である。
このように、ドメインは、発話の範囲を表す。発話の範囲以外に、ドメインには、会話内容、話題、範囲、分類、指示、対話といった意味も含まれる。また、インテントは、ユーザの意図を表す。エンティティは、発話に含まれる単語を表す。ドメイン、インテント、エンティティにより、ユーザの依頼内容が表される。
一般的に、天気に関する発話が行われることがあらかじめ分かっている場合、ドメインを「天気」として指定して音声認識を行うことにより、インテントなどを絞り込むことができるため、天気に関する発話の認識精度を向上させることが可能となる。
TV1においては、このような音声認識によって、起動ワードなしの発話に基づいてユーザの依頼内容が特定され、依頼内容に応じた処理が行われる。
<<ロボット掃除機の操作例>>
所定の状態遷移が生じたことをトリガとして以上のような音声認識を行い、ユーザの依頼内容に応じた処理を行う情報処理装置は各種の機器に適用可能である。
図5は、ロボット掃除機の表示例を示す図である。
図5に示すロボット掃除機21は、底面に設けられた車輪によって例えば室内を移動し、各種のセンサによる検出結果に応じて自律的に掃除を行う情報処理装置である。
TV1と同様に、ロボット掃除機21の操作は、リモートコントローラを用いるだけでなく、音声操作によっても行うことが可能とされる。ロボット掃除機21は音声操作に対応した装置である。扁平円柱状の筐体の所定の位置にはマイクロフォンが設けられる。
ユーザは、掃除の開始/終了、充電器への自動帰還、掃除開始のタイマー設定などの各種の操作を音声により行うことができる。
ロボット掃除機21の音声操作も、基本的には、起動ワードと依頼内容とを組み合わせた発話によって行われるが、ロボット掃除機21の状態によっては、起動ワードなしに、依頼内容の発話のみによって行われる。起動ワードなしの音声操作は、例えば、ロボット掃除機21において、トリガとなる所定の状態遷移が生じた場合に可能となる。
図5の左側に示すように、ロボット掃除機21がスタンバイ状態で待機している場合において、掃除開始時刻として設定された時刻になったとき、ロボット掃除機21の状態は、タイマー機能によって起動し、掃除を開始する状態になる。この例においては、自動的に起動し(スタンバイ状態を解除し)、掃除を開始する機能であるタイマー機能を、ユーザが有効なものとして設定しているものとする。
掃除を開始する状態になった場合、矢印A11の先の吹き出し#11に示すように、ロボット掃除機21は、タイマー機能によって掃除を開始することを提示する合成音声を出力する。図5の例においては、「これから掃除を開始します」の合成音声が図示せぬスピーカから出力されている。
また、ロボット掃除機21は、合成音声の出力とともに、音声操作のための音声の入力が可能であることを表す音声入力アイコン41を表示する。図5の例においては、筐体上面に設けられたディスプレイ31に音声入力アイコン41が表示されている。
音声入力アイコン41が表示されている間、起動ワードなしの音声操作が可能とされる。すなわち、この例においては、タイマー機能によって掃除を開始する状態になった場合、その状態遷移をトリガとして、ロボット掃除機21は、起動ワードなしの音声操作の受け付けを開始する。ロボット掃除機21は、ユーザにより発話が行われるのを待ち、発話が行われた場合、その発話を、音声操作の発話として受け付けて音声認識を行う。
例えば、図6の吹き出し#12に示すように、ユーザが「1時間後にお願い」の発話を行った場合、ロボット掃除機21は、ユーザの発話を、掃除の開始時刻を1時間後に遅らせることを依頼する発話として認識し、掃除の開始を停止させる。掃除の開始を停止させたとき、矢印A12の先の吹き出し#13に示すように、ロボット掃除機21は、「1時間後に掃除を開始します」の合成音声を出力させた後、音声入力アイコン41の表示を終了させ、待機を続ける。ロボット掃除機21においては、掃除開始時刻の再設定が行われる。
夜中の2時に掃除を開始するようにタイマー機能の設定を行っている場合において、都合の悪いときなどに以上の発話によって掃除開始時刻の再設定を行うことにより、ユーザは、都合の悪いときに掃除が始まるのを停止させることができる。なお、「1時間後にお願い」の他に、例えば、「今日はなし」などの発話が行われた場合も同様に、ドメインを指定した音声認識により、それらの発話が、掃除の開始を停止させることの依頼であると特定される。
このように、掃除の開始を音声操作によって停止させることができるようにすることにより、ユーザは、リモートコントローラなどを操作して掃除開始時刻の再設定を行う必要がない。
また、起動ワードなしの音声操作が可能となるため、ユーザは、「1時間後にお願い」などの依頼内容の発話だけで、掃除の開始を停止させることができる。
タイマー機能によって掃除を開始する状態となったことに応じて音声入力アイコン41を表示させた場合、その状態においては、タイマー機能に関する発話がユーザにより行われる可能性が高い。
ロボット掃除機21は、タイマー機能に関する発話が行われると想定し、音声認識の対象とする発話のドメインとして、タイマー機能に関する発話のドメインを指定して音声認識を行うことにより、音声認識の精度を向上させることが可能となる。
なお、ロボット掃除機21にディスプレイ31が設けられていない場合、音声操作が可能であることがLEDの発光によってユーザに提示されるようにしてもよい。筐体の所定の位置には、ユーザに情報を提示するための発光部としてのLEDが設けられる。音声操作が可能であることが合成音声によって提示されるようにしてもよい。
このように、所定の状態遷移が生じたことをトリガとして、起動ワードなしの発話を対象として音声認識を行い、ユーザの依頼内容に応じた処理を行うことについては各種の機器に適用可能である。
<<情報の提示例>>
図7は、情報の提示例を示す図である。
音声操作が可能であることだけでなく、起動ワードなしの発話によって音声操作が可能となる発話のドメインが、音声入力モードとしてアイコンによって提示されるようにしてもよい。
図7の例においては、音声操作のための音声の入力が可能であることを表す音声入力アイコン51と並べて、音声入力モードを表す音声入力モードアイコン52乃至55が表示されている。音声入力アイコン51は、図1の音声入力アイコン12と同様のアイコンである。
スピーカの図柄により構成される音声入力モードアイコン52は、スピーカの音量調整に関する発話のドメインを表す。音声入力モードアイコン52が表示されているときに入力された音声を対象とした音声認識は、スピーカの音量調整に関する発話のドメインを指定して行われる。例えば、「大きく」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、音量を大きくすることであるものとして特定される。
「主副」の文字により構成される音声入力モードアイコン53は、主音声/副音声の音声切り替えに関する発話のドメインを表す。音声入力モードアイコン53が表示されているときに入力された音声を対象とした音声認識は、主音声/副音声の音声切り替えに関する発話のドメインを指定して行われる。例えば、「副音声」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、副音声である例えば英語の音声に切り替えることであるものとして特定される。
「OFF」の文字により構成される音声入力モードアイコン54は、電源オフに関する発話のドメインを表す。音声入力モードアイコン54が表示されているときに入力された音声を対象とした音声認識は、電源オフに関する発話のドメインを指定して行われる。例えば、「オフ」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、電源をオフにすることであるものとして特定される。
横向きU字状の矢印により構成される音声入力モードアイコン55は、画面表示に関する発話のドメインを表す。音声入力モードアイコン55が表示されているときに入力された音声を対象とした音声認識は、画面表示に関する発話のドメインを指定して行われる。例えば、「戻って」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、画面表示を1つ前の画面に戻すことであるものとして特定される。
このように、起動ワードなしで依頼内容を認識させることが可能な発話のドメインを表すアイコンが、音声操作のための音声の入力が可能であることを表すアイコンとともに表示されるようにしてもよい。
このような表示から、ユーザは、音声操作が可能であることと、起動ワードなしで依頼内容を認識させることが可能な発話のドメインを確認し、音声操作を行うことができる。
起動ワードなしで依頼内容を認識させることが可能な発話のドメインが、アイコンではなく、文字の表示、音声や効果音の出力、LEDなどの発光部の発光によって提示されるようにしてもよい。発話のドメインがLEDの発光によって提示される場合、例えば、異なる色の光によってドメインの種類が提示される。
図8は、情報の他の提示例を示す図である。
図8の例においては、音声操作のための音声の入力が可能であることを表す音声入力アイコン61と並べて、音声入力モードを表す音声入力モードアイコン62が表示されている。
音声入力アイコン61の左上には、「P」の文字であるマーク61Aが表示されている。マーク61Aは、音声を用いて操作することが可能な機器が、TV1に接続された外部の例えばゲーム機であることを表す。
音声入力アイコン61の右隣に表示された、「視聴」の文字により構成される音声入力モードアイコン62は、外部のゲーム機の映像の表示に関する発話のドメインを表す。音声入力モードアイコン62が表示されているときに入力された音声を対象とした音声認識は、外部のゲーム機の映像の表示に関する発話のドメインを指定して行われる。例えば、「ゲーム画面を表示して」の音声が入力された場合、ドメインが指定されていることにより、ユーザの依頼内容が、外部のゲーム機の映像を表示させることであるものとして特定される。
このように、TV1に接続された外部の機器の音声操作のための音声の入力が可能であることを表すアイコンが表示されるようにしてもよい。また、所定のアプリケーションの音声操作のための音声の入力が可能であることを表すアイコンが表示されるようにしてもよい。
以上のようなアイコンが、TV1のディスプレイ113だけでなく、ロボット掃除機21のディスプレイ31にも表示される。
<<装置の構成と動作>>
<制御装置の構成>
図9は、制御装置の構成例を示すブロック図である。
図9に示す制御装置101が、TV1、ロボット掃除機21などの、情報処理装置としての各種の機器に搭載される。搭載される機器に応じて、制御装置101の構成は適宜異なる構成となる。
図9に示すように、制御装置101は、制御部111、通信部112、ディスプレイ113、メモリ114、駆動部115、マイクロフォン116、およびスピーカ117により構成される。
制御部111は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部111は、所定のプログラムを実行し、制御装置101の全体の動作を制御する。
通信部112は、無線や有線による通信を介して、外部の装置との間で各種の情報の送受信を行う。
ディスプレイ113は、LCD、有機ELディスプレイなどのディスプレイにより構成される。ディスプレイ113には、制御装置101が搭載される機器に応じて、番組の映像などの各種の情報が表示される。上述したアイコンなどもディスプレイ113に表示される。制御装置101がロボット掃除機21に設けられる場合、ディスプレイ113に代えてディスプレイ31が設けられる。制御装置101が搭載される機器によってはディスプレイ113が設けられないこともある。
メモリ114は、不揮発性のメモリなどにより構成される。メモリ114は、制御部111のCPUが実行するプログラムなどの各種のデータを記憶する。
駆動部115は、制御装置101が搭載される機器の機能を実現するために動作する。
例えば、制御装置101がTV1に搭載される場合、駆動部115は、放送波の受信、受信信号に対する信号処理などの各種の処理を行う。各種の処理が行われることによって得られた番組の映像がディスプレイ113に表示される。駆動部115は、適宜、制御部111による制御に従って、電源のオン/オフ(電源をつける/切る)を切り替える。
また、制御装置101がロボット掃除機21に搭載される場合、駆動部115は、車輪や吸引用モータを駆動させ、掃除を行いながらロボット掃除機21を移動させる。駆動部115は、適宜、制御部111による制御に従って、ロボット掃除機21のスタンバイ状態/起動状態を切り替える。
マイクロフォン116は、ユーザの音声を検出する。マイクロフォン116により検出された音声は制御部111に供給される。
スピーカ117は、制御部111による制御に従って合成音声を出力することにより、ユーザの発話に対する応答を行う。
制御装置101には、制御装置101が搭載される機器に応じて、カメラや各種のセンサが適宜設けられる。制御装置101に設けられるセンサには、例えば、周囲の明るさを検出する照度センサ、周囲にある物体までの距離を測定する測距センサ、GPS(Global Positioning System)を用いた測位センサが含まれる。カメラにより撮影された画像、センサによる検出結果は、例えば、周囲の状態の認識に用いられる。
図10は、制御装置の機能構成例を示すブロック図である。
図10に示すように、制御部111においては、システム動作制御部131、状態遷移検出部132、音声入力制御部133、提示制御部134、音声認識部135、およびコマンド実行部136が実現される。図10に示す機能部のうちの少なくとも一部は、図9の制御部111を構成するCPUにより所定のプログラムが実行されることによって実現される。
システム動作制御部131は、制御装置101が搭載された機器(システム)の状態を管理し、駆動部115を駆動させることによって機器の動作を制御する。例えば、システム動作制御部131は、コマンド実行部136による制御に従って駆動部115を駆動させる。
状態遷移検出部132は、システム動作制御部131が管理するシステムの状態を監視し、状態遷移を検出する。状態遷移検出部132は、起動ワードなしの音声操作の入力を開始することのトリガとなる所定の状態遷移を検出した場合、そのことを表す情報を音声入力制御部133に出力する。音声入力制御部133に対しては、状態遷移の内容を表す情報も出力される。
例えば、無操作電源オフの機能によって電源を自動的にオフにする状態への遷移が検出された場合、トリガとなる状態遷移が検出されたことを表す情報が、状態遷移の内容を表す情報とともに出力される。
音声入力制御部133は、トリガとなる状態遷移が検出されたことを表す情報が状態遷移検出部132から供給された場合、状態遷移の内容に応じて、音声認識の対象とする発話のドメインを決定する。例えば、無操作電源オフの機能によって電源を自動的にオフにする状態への遷移が検出された場合、音声認識の対象とする発話のドメインとして、無操作電源オフの機能に関する発話のドメインを決定する。
音声入力制御部133は、起動ワードなしの音声操作の受け付けを開始することを表す情報と、決定したドメインを表す情報を出力する。音声入力制御部133から出力された情報は、提示制御部134と音声認識部135に供給される。
提示制御部134は、音声入力制御部133から供給された情報に基づいて、音声操作が可能であることと、音声入力モードを表す情報を提示する。例えば、提示制御部134は、アイコンをディスプレイ113に表示させたり、LEDを発光させたりすることによって、それらの情報を提示する。
音声認識部135は、音声操作のために入力され、マイクロフォン116において検出されたユーザの音声を対象として音声認識を行う。音声認識部135による音声認識は、音声入力制御部133から供給された情報により表されるドメインを指定して行われる。音声認識部135は、音声認識によって特定したユーザの依頼内容に応じた音声コマンドをコマンド実行部136に出力する。
コマンド実行部136は、音声認識部135から供給された音声コマンドを実行し、音声コマンドに応じた処理をシステム動作制御部131に行わせる。
図10に示す機能部のうちの少なくとも一部の機能部が、ネットワークを介して接続される外部の装置において実現されるようにすることも可能である。
図11は、情報処理システムの構成例を示す図である。
図11に示す情報処理システムは、制御装置101と情報処理サーバ201がインターネットなどのネットワーク202を介して接続されることによって構成される。制御装置101と情報処理サーバ201の間では、各種の情報の送受信がネットワーク202を介して行われる。
例えば、図10の音声認識部135が情報処理サーバ201において実現される場合、制御装置101において検出されたユーザの音声が情報処理サーバ201に対して送信される。情報処理サーバ201においては、ユーザの音声を対象として音声認識が行われ、音声認識結果を表す情報が制御装置101に対して送信される。制御装置101においては、情報処理サーバ201から送信されてきた情報に基づいて、ユーザの依頼内容に応じた音声コマンドが実行され、所定の動作が行われる。
このように、複数の装置が連携することによって、上述したような機能が実現されるようにすることも可能である。
<制御装置の動作>
ここで、図12のフローチャートを参照して、以上のような構成を有する制御装置101の動作について説明する。
ステップS1において、状態遷移検出部132は、システム動作制御部131が管理するシステムの状態を監視し、状態遷移を検出したか否かを判定する。
状態遷移を検出したとステップS1において判定した場合、ステップS2において、状態遷移検出部132は、検出した状態遷移が、起動ワードなしの音声操作の入力を開始することのトリガとなる状態遷移であるか否かを判定する。
トリガとなる状態遷移であるとステップS2において判定した場合、ステップS3において、音声入力制御部133は、音声認識の対象とする発話のドメインを状態遷移の内容に基づいて決定する。
ステップS4において、音声入力制御部133は、起動ワードなしの音声操作の受け付けを開始することを表す情報と、決定したドメインを表す情報を出力することによって、音声操作の受け付けを開始させる。
ステップS5において、提示制御部134は、音声入力制御部133から供給された情報に基づいて、音声操作のための音声の入力が可能であることを表すアイコンと、音声入力モードを表すアイコンを表示させる。
ステップS6において、音声認識部135は、マイクロフォン116において検出された、音声操作のために入力されたユーザの音声を受け付ける。また、音声認識部135は、ユーザの音声を対象とし、ドメインを指定して音声認識を行う。
ステップS7において、コマンド実行部136は、音声認識部135による音声認識の結果に基づいて、音声コマンドが入力されたか否かを判定する。
音声コマンドが入力されたとステップS7において判定した場合、ステップS8において、コマンド実行部136は、音声コマンドに応じた処理を実行し、処理を終了させる。
例えば、無操作電源オフの機能によって電源を自動的にオフにする状態への遷移が検出された場合、起動ワードなしの音声操作の受け付けが開始される。このとき、音声操作のための音声の入力が可能であることを表すアイコンなどが表示される。起動ワードの発話なしに、「消さないで」の発話が行われた場合、電源オフを停止させることの依頼であることが音声認識によって認識され、音声コマンドに応じて、電源オフを停止させるための処理が行われる。
一方、ステップS1において状態遷移を検出していないと判定された場合、または、ステップS2において、検出した状態遷移がトリガとなる状態遷移ではないと判定された場合、ステップS9において、システム動作制御部131は、状態遷移に応じた処理を実行する。
上述した例の場合、状態遷移に応じた処理として、無操作電源オフの機能によって電源を自動的にオフにする処理が行われる。
ステップS7において音声コマンドが入力されていないと判定された場合も同様に、ステップS9において状態遷移に応じた処理が実行された後、処理は終了となる。
以上のように、システムの状態遷移をトリガとして、状態遷移に応じたドメインを指定した形で音声認識が行われるため、ユーザは、起動ワードを省略しつつ、日常的に使うような発話によって音声操作を行うことができる。すなわち、ユーザは、直感的な音声操作が可能となる。
<<適用例>>
起動ワードなしの音声操作のトリガとなる状態遷移として、上述した状態遷移以外の各種の状態遷移を採用することが可能である。
また、音声認識の対象とする発話のドメインとして、上述したドメイン以外の各種のドメインを採用することが可能である。
以下、「トリガ:」に続く状態遷移は、起動ワードなしの音声操作のトリガとなる状態遷移を表す。「判断:」に続く処理は、その処理を用いた判断が行われた後に、起動ワードなしの音声操作が可能となることを表す。「ドメイン:」に続く内容は、音声認識の対象とする発話のドメインを表す。「提示:」に続く内容は、ユーザへの提示の仕方を表す。
<TVに適用した例>
・自動電源オフ機能
自動電源オフ機能は、電源を自動的にオフにする機能(スタンバイ状態にする機能)である。
トリガ:
あらかじめ設定された時刻が経過した状態への遷移
無操作の時間が一定時間以上になった状態への遷移
判断:
カメラにより撮影された画像や、マイクロフォンにより検出された音声を解析することによって、ユーザが近くにいるかどうかを認識し、ユーザが近くにいる場合に起動ワードなしの音声操作の受け付けが開始される。
ドメイン:
電源オフに関する発話
提示:
「電源をオフにしますが問題ないでしょうか」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、電源がオフになる。
・動画の続き再生機能
動画の続き再生機能は、オンラインで配信される動画や録画済み動画の再生が終了した場合に、他の動画の再生を続ける機能である。
トリガ:
現在再生中の動画の再生が終了した状態への遷移
判断:
状態遷移が生じた場合に無条件に音声操作の受け付けが開始される。
ドメイン:
再生対象の選択に関する発話
提示:
例えば、次の再生候補が画面上に複数提示され、音声操作による選択が可能とされる。それぞれの再生候補には、番号やタイトルが表示される。
「1番」、「(タイトル)」、「再生しない」などの、番号やタイトルを含む発話が行われた場合、音声操作の入力が受け付けられる。発話される対象が定まっているので、認識精度が上がることになる。
・自動起動機能
自動起動機能は、スタンバイ状態から自動的に起動する機能である。
トリガ:
視聴可能性の高い番組の開始時刻が経過した状態への遷移
放送波を用いた番組、オンライン番組の過去の視聴履歴や録画履歴に基づいて、視聴可能性の高い番組が特定される。地震情報やニュース速報を受信した状態への遷移をトリガとして、起動ワードなしの音声操作の受け付けが開始されるようにしてもよい。
判断:
カメラにより撮影された画像や、マイクロフォンにより検出された音声を解析することによって、ユーザが近くにいるかどうかを認識し、ユーザが近くにいる場合に音声操作の受け付けが開始される。
ドメイン:
起動するかどうかに関する発話
提示:
例えば、音声をミュートとした状態で起動し、このまま再生するかを問い合わせる内容のメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「そのままつけといて」、「つけて」、「見せて」などの発話が行われた場合、音声操作として受け付けられ、番組の表示が続けられる。
・目の保護機能
目の保護機能は、ディスプレイ113の表示モードを、ユーザの目に優しい保護モードに自動的に移行する機能である。保護モードには、ブルーライトをカットする表示モード、就寝前などに輝度調整を行う表示モードが含まれる。
トリガ:
特定の時刻が経過した状態への遷移
輝度変化を検出した状態への遷移
例えば、輝度センサの検出結果を用いて、トリガとなる状態遷移が検出される。
判断:
カメラにより撮影された画像や、マイクロフォンにより検出された音声を解析することによって特定された、ユーザの行動傾向に応じて音声操作の受け付けが開始される。例えば、就寝時刻や、ブルーライトモードに関する過去の設定変更履歴に基づいて特定されたユーザ嗜好が、音声操作の受け付けを開始するか否かの判断に用いられる。
ドメイン:
目に優しいモードへ移行するかどうかに関する発話
提示:
例えば、「輝度を下げています」のメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「やめて」などの発話が行われた場合、音声操作として受け付けられ、目に優しいモードに移行することが停止され、表示輝度が元の輝度に戻される。
・入力切替機能
入力切替機能は、ディスプレイ113の表示内容を自動的に切り替える機能である。
トリガ:
新しい入力を検出した状態への遷移
判断:
状態遷移が生じた場合に無条件に音声操作の受け付けが開始される。
ドメイン1:
新しい入力へ切り替えるかどうかに関する発話
提示:
新しい入力に切り替えるかどうかを問い合わせる内容のメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「切り替えて」、「OK」などの発話が行われた場合、音声操作として受け付けられ、新しい入力に応じて表示内容が切り替えられる。
ドメイン2:
元の入力に戻すかどうかに関する発話
提示:
入力の切り替え後、元の入力に戻すかどうかを問い合わせる内容のメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「戻して」、「切り替えないで」などの発話が行われた場合、音声操作として受け付けられ、新しい入力から元の入力を選択するように、表示内容が切り替えられる。
・入力消失に応じた機能
入力消失に応じた機能は、入力信号が消失した場合に電源を自動的にオフにする機能である。
トリガ:
入力信号が消失した状態への遷移
外部信号が入力されていた場合において、入力信号線が抜かれた状態への遷移
ドメイン:
電源をオフにするかどうかに関する発話
提示:
例えば、「電源オフしますか?」のメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「消して」などの発話が行われた場合、音声操作として受け付けられ、電源が自動的にオフになる。
・言語切り替え機能
言語切り替え機能は、コンテンツの音声の言語を切り替える機能である。
トリガ:
コンテンツの再生開始状態への遷移
電源オン状態への遷移
判断:
例えば、カメラにより撮影された画像に基づいて、ユーザが近くにいるかどうかを認識し、ユーザが近くにいる場合に音声操作の受け付けが開始される。
ドメイン:
言語切り替えに関する発話
提示:
従来の設定でコンテンツの再生を開始しつつ、「どちらの音声にしますか?」などの、言語の選択を促すメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「英語」、「日本語」などの発話が行われた場合、音声操作として受け付けられ、選択された言語を用いてコンテンツの再生が続けられる。
・表示モード切替機能
表示モード切替機能は、表示内容に応じて表示モードを自動的に切り替える機能である。
トリガ:
ゲーム、映画、スポーツなどの、コンテンツの内容が特定された状態への遷移
画像認識の結果や入力機器に応じてコンテンツの内容が特定されるようにしてもよい。
ドメイン:
表示モードの切り替えに関する発話
提示:
「ゲームモードに切り替えますか?」などの、切り替え内容を提案するメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「はい」などの発話が行われた場合、音声操作として受け付けられ、提案した内容に従って表示モードが切り替えられる。
・変化抑制機能
変化抑制機能は、出力の設定が急に変化した場合に、それを抑制するためのコマンドを入力可能とする機能である。
トリガ:
入力ソースの切り替えや再生する動画の切り替えに伴って、スピーカの音量が閾値より大きい状態への遷移
ドメイン1:
音量を下げることに関する発話
提示:
「音量を下げますか?」などの、音量を下げることを提案するメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、提案した内容に従って音量を下げるように、設定が変更される。
ドメイン2:
1つ前の状態に戻すことに関する発話
提示:
「戻しますか?」などの、状態を戻すことを提案するメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「戻して!」などの発話が行われた場合、音声操作として受け付けられ、提案した内容に従って状態を戻すように、入力ソースや再生する動画が変更される。
・通知機能
通知機能は、各種の情報をユーザに通知する機能である。
(1)通知1
トリガ:
新しい動画が更新されたことを検出した状態への遷移
ドメイン:
いま再生するか、後でリマインドするか、動画を転送するか、動画を購入するかに関する発話
提示:
「新しい動画が公開されました。再生しますか?」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「うん」、「あとで」、「ダウンロードしといて」などの発話が行われた場合、音声操作として受け付けられ、提案した内容に従って動画の再生が開始される。
(2)通知2
トリガ:
電源オン時、または、コンテンツの通常視聴中に、レンタルサービス終了間近のコンテンツがあることを検出した状態への遷移
ドメイン:
自動更新するか、やめるか、今から見るかに関する発話
提示:
「レンタル期間が終了します」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「今から再生して」などの発話が行われた場合、音声操作として受け付けられ、コンテンツの再生が開始される。
(3)通知3
トリガ:
オンライン上の対戦ゲームの実行中に、知り合いのオンライン状況(ログイン状況)に変化があったことを検出した状態への遷移
ドメイン:
プレー中のゲームに対戦を招待するかに関する発話
(4)通知4
トリガ:
オンライン上の対戦ゲームの実行中に、対戦の招待があったことを検出した状態への遷移
ドメイン:
ゲームに参加することが難しい理由に関する発話
提示:
「なんて伝えますか?」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「今ちょっと無理」、「10分後に合流する」などの発話が行われた場合、音声操作として受け付けられ、招待元に対して、その内容を表すスタンプが送信される。
(5)通知5
トリガ:
連携している機器への重要な通知があったことを検出した状態への遷移
例えば、動画の視聴中に、ユーザのスマートフォンへの着信があった場合に、このような状態遷移がトリガとして検出される。TV1は、ユーザのスマートフォンの状態を監視し、スマートフォンの状態を検出することができる。
ドメイン:
動画の再生を停止させることに関する発話
提示:
「動画の再生を止めますか?」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、動画の再生が停止される。
(6)通知6
トリガ:
上記通知5の状態遷移が生じたことに応じて動画の再生が停止された場合において、割り込みイベントとしてのスマートフォンに対する着信が終わったことを検出した状態への遷移
ドメイン:
続きを再生させることに関する発話
提示:
「先ほどの動画の続きを再生しますか?」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、動画の再生が再開される。
・センシング機能
センシング機能は、画像の解析結果、音声の解析結果、センサデータの解析結果に基づいてユーザの動作を認識し、ユーザの動作に応じた処理を行う機能である。
トリガ:
スマートフォンへの着信にユーザが対応していることを検出した状態への遷移
例えば、動画を視聴しているユーザのスマートフォンに着信があった場合に、このような状態遷移がトリガとして検出される。
ドメイン:
音量下げる、動画の再生を停止させることに関する発話
提示:
「音量を下げますか?」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「うん」などの発話が行われた場合、音声操作として受け付けられ、動画の音量が下げられる。
<TV以外の機器に適用した例>
TV以外の各種の機器に適用可能である。
・エアーコンディショナ
(1)例1
トリガ:
冷房起動後、温度が一定以下になったことを検出した状態への遷移
ドメイン:
空調強度を調整することに関する発話
ユーザの過去の操作履歴に基づいてドメインが適宜変更されるようにしてもよい。
提示:
「所定の温度になったので、温度維持モードに切り替わります。」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「もう少し冷やして」などの発話が行われた場合、音声操作として受け付けられ、冷房が強められる。
(2)例2
トリガ:
部屋にいる人の移動を検出した状態への遷移
判断:
移動した人が誰であるのかがカメラにより撮影された画像に基づいて識別され、識別結果に応じて、風向きの追従を停止させる。
ドメイン:
風向き追従停止に関する発話
提示:
「風向きを変えます」などのメッセージを表示することによって、ユーザへの提示が行われる。ユーザへの提示が効果音によって行われるようにしてもよい。
・IHクッキングヒータ
トリガ:
吹きこぼれを検出した状態への遷移
ドメイン:
火加減調整(熱量調整)に関する発話
提示:
「火加減を変更します」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「弱火にして」などの発話が行われた場合、音声操作として受け付けられ、熱量が抑えられる。
・洗濯機
トリガ:
雨が降ってきたことを検出した状態への遷移
ドメイン:
洗濯物取り込みに関する発話
提示:
「雨が降ってきました」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「取り込んで」などの発話が行われた場合、音声操作として受け付けられ、洗濯機と連携するロボットが、外に干している洗濯物を取り込む。
・冷蔵庫
(1)例1
トリガ:
冷蔵庫の扉が開いたことを検出した状態への遷移
ドメイン:
買い物リストへの登録に関する発話
提示:
「必要なものはありますか?」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「牛乳を登録しておいて」などの発話が行われた場合、音声操作として受け付けられ、買い物リストに牛乳が登録される。冷蔵庫は、ユーザにより登録された購入予定の商品を管理する機能を有している。
(2)例2
トリガ:
食べ物の消費期限が近いことを検出した状態への遷移
ドメイン:
捨てることに関する発話
提示:
「消費期限が近い食べ物がありますが捨ててよろしいですか?」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「OK」などの発話が行われた場合、音声操作として受け付けられ、廃棄対象の食べ物として管理される。
・照明機器
TV1の自動電源オフ機能と同様の機能を照明に搭載することも可能である。
・玄関
トリガ:
来客があったことを検出した状態への遷移
ドメイン:
対応するかどうかに関する発話
提示:
「来客がありました」などのメッセージを表示することによって、ユーザへの提示が行われる。
・宅配ボックス
トリガ:
配達物を検出した状態への遷移
ドメイン1:
いつとりにいくのかに関する発話
提示:
「配達物が届けられました」などのメッセージを表示することによって、ユーザへの提示が行われる。
例えば、「今すぐにとってきて」などの発話が行われた場合、音声操作として受け付けられ、優先度の高いタスクとして管理される。例えば、配達物を取りに行くタスクがロボットにより実行される。
ドメイン2:
内容確認に関する発話
例えば、「何が来たの?」、「どこから来たの?」、「誰から?」などの発話が行われた場合、音声操作として受け付けられ、問い合わせに対する応答が行われる。
・ロボット掃除機
(1)例1
トリガ:
掃除の終了を検出した状態への遷移
ドメイン:
掃除を続けることに関する発話
(2)例2
トリガ:
大きいゴミを巻き込んだことを検出した状態への遷移
ドメイン:
動作停止に関する発話
・電子レンジ
トリガ:
それぞれの温度状態への遷移
ドメイン:
再加熱に関する発話
・乾燥機
トリガ:
洗濯物の生乾きを検出した状態への遷移
ドメイン:
再乾燥に関する発話
<アクセシビリティに適用した例>
情報の読み上げなどの、アクセシビリティ(補助機能)に適用することも可能である。
(1)例1
トリガ:
機器の電源オンを検出した状態への遷移
判断:
カメラにより撮影された画像や、マイクロフォンにより検出された音声を解析することによって、ユーザが近くにいるかどうかを認識し、ユーザが近くにいる場合に起動ワードなしの音声操作の受け付けが開始される。
ドメイン:
読み上げ機能の起動に関する発話
(2)例2
トリガ:
ユーザの注目対象が切り替わったことを検出した状態への遷移
ドメイン:
読み上げ機能の終了に関する発話
<<その他>>
音声操作のための音声の入力が可能であることを表すアイコンと、起動ワードなしの発話によって音声操作が可能となる発話のドメインを表すアイコンの両方のアイコンが表示されるものとしたが、いずれか一方のアイコンが表示されるようにしてもよい。
音声操作のための音声の入力が可能であることと、起動ワードなしの発話によって音声操作が可能となる発話のドメインが、アイコンの表示によって提示されるものとしたが、他の方法で提示されるようにすることも可能である。例えば、音声を出力することによってそれらの情報が提示されるようにしてもよいし、LEDなどの発光部の発光によってそれらの情報が提示されるようにしてもよい。
<コンピュータの構成例>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
図10の一部の構成を実現する情報処理サーバ201は、図13に示す構成を有するコンピュータにより構成される。
CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。
バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボード、マウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005及びバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。
CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
本技術は、以下のような構成をとることもできる。
(1)
所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とを提示する提示制御部と、
ユーザにより入力された音声を対象として音声認識を行う音声認識部と
を備える情報処理装置。
(2)
前記音声認識部は、前記第1の情報と前記第2の情報の提示が行われた後に前記ユーザにより入力された、前記ドメインに属する発話の音声を対象として前記音声認識を行う
前記(1)に記載の情報処理装置。
(3)
前記音声認識部は、起動トリガとなる言葉を認識せずに前記ユーザにより入力された音声を対象として前記音声認識を行う
前記(1)または(2)に記載の情報処理装置。
(4)
前記ドメインを前記所定の状態遷移の内容に基づいて決定する音声入力制御部をさらに備え、
前記提示制御部は、前記音声入力制御部により決定された前記ドメインを表す前記第2の情報を提示する
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記提示制御部は、複数種類の前記ドメインを表す複数の前記第2の情報を提示する
前記(2)に記載の情報処理装置。
(6)
音声操作の受け付けを開始させることのトリガとなる前記所定の状態遷移を検出する状態遷移検出部をさらに備える
前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記音声認識の結果に基づいて、制御対象となる機器の動作を制御する動作制御部をさらに備える
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記提示制御部は、前記機器の電源を切るための状態遷移が前記所定の状態遷移として生じたことに応じて、前記第1の情報と前記第2の情報とを提示し、
前記動作制御部は、前記音声認識の結果に基づいて、電源を切ることを停止するように、前記機器の動作を制御する
前記(7)に記載の情報処理装置。
(9)
前記提示制御部は、前記機器の電源をつけるための状態遷移が前記所定の状態遷移として生じたことに応じて、前記第1の情報と前記第2の情報とを提示し、
前記動作制御部は、前記音声認識の結果に基づいて、電源をつけることを停止するように、前記機器の動作を制御する
前記(7)に記載の情報処理装置。
(10)
前記提示制御部は、前記第1の情報と前記第2の情報とを表示部に表示させる
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記提示制御部は、音声の入力が可能であることを表すアイコンを前記第1の情報として表示させ、前記ドメインを表すアイコンを前記第2の情報として表示させる
前記(10)に記載の情報処理装置。
(12)
前記提示制御部は、前記第1の情報と前記第2の情報とを、音声によって提示する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(13)
前記提示制御部は、前記第1の情報と前記第2の情報とを、発光部を発光させることによって提示する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(14)
情報処理装置が、
所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とを提示し、
ユーザにより入力された音声を対象として音声認識を行う
情報処理方法。
(15)
コンピュータに、
所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とを提示し、
ユーザにより入力された音声を対象として音声認識を行う
処理を実行させるためのプログラム。
1 TV, 21 ロボット掃除機, 101 制御装置, 111 制御部, 131 システム動作制御部, 132 状態遷移検出部, 133 音声入力制御部, 134 提示制御部, 135 音声認識部, 136 コマンド実行部

Claims (15)

  1. 所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とを提示する提示制御部と、
    ユーザにより入力された音声を対象として音声認識を行う音声認識部と
    を備える情報処理装置。
  2. 前記音声認識部は、前記第1の情報と前記第2の情報の提示が行われた後に前記ユーザにより入力された、前記ドメインに属する発話の音声を対象として前記音声認識を行う
    請求項1に記載の情報処理装置。
  3. 前記音声認識部は、起動トリガとなる言葉を認識せずに前記ユーザにより入力された音声を対象として前記音声認識を行う
    請求項1に記載の情報処理装置。
  4. 前記ドメインを前記所定の状態遷移の内容に基づいて決定する音声入力制御部をさらに備え、
    前記提示制御部は、前記音声入力制御部により決定された前記ドメインを表す前記第2の情報を提示する
    請求項1に記載の情報処理装置。
  5. 前記提示制御部は、複数種類の前記ドメインを表す複数の前記第2の情報を提示する
    請求項2に記載の情報処理装置。
  6. 音声操作の受け付けを開始させることのトリガとなる前記所定の状態遷移を検出する状態遷移検出部をさらに備える
    請求項1に記載の情報処理装置。
  7. 前記音声認識の結果に基づいて、制御対象となる機器の動作を制御する動作制御部をさらに備える
    請求項1に記載の情報処理装置。
  8. 前記提示制御部は、前記機器の電源を切るための状態遷移が前記所定の状態遷移として生じたことに応じて、前記第1の情報と前記第2の情報とを提示し、
    前記動作制御部は、前記音声認識の結果に基づいて、電源を切ることを停止するように、前記機器の動作を制御する
    請求項7に記載の情報処理装置。
  9. 前記提示制御部は、前記機器の電源をつけるための状態遷移が前記所定の状態遷移として生じたことに応じて、前記第1の情報と前記第2の情報とを提示し、
    前記動作制御部は、前記音声認識の結果に基づいて、電源をつけることを停止するように、前記機器の動作を制御する
    請求項7に記載の情報処理装置。
  10. 前記提示制御部は、前記第1の情報と前記第2の情報とを表示部に表示させる
    請求項1に記載の情報処理装置。
  11. 前記提示制御部は、音声の入力が可能であることを表すアイコンを前記第1の情報として表示させ、前記ドメインを表すアイコンを前記第2の情報として表示させる
    請求項10に記載の情報処理装置。
  12. 前記提示制御部は、前記第1の情報と前記第2の情報とを、音声によって提示する
    請求項1に記載の情報処理装置。
  13. 前記提示制御部は、前記第1の情報と前記第2の情報とを、発光部を発光させることによって提示する
    請求項1に記載の情報処理装置。
  14. 情報処理装置が、
    所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とを提示し、
    ユーザにより入力された音声を対象として音声認識を行う
    情報処理方法。
  15. コンピュータに、
    所定の状態遷移が生じたことに応じて、音声操作のための音声の入力が可能であることを表す第1の情報と、音声操作が可能な発話のドメインを表す第2の情報とを提示し、
    ユーザにより入力された音声を対象として音声認識を行う
    処理を実行させるためのプログラム。
JP2019016640A 2019-02-01 2019-02-01 情報処理装置、情報処理方法、およびプログラム Pending JP2022051970A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019016640A JP2022051970A (ja) 2019-02-01 2019-02-01 情報処理装置、情報処理方法、およびプログラム
US17/425,444 US20220101850A1 (en) 2019-02-01 2020-01-17 Information processing device, information processing method, and program
PCT/JP2020/001413 WO2020158435A1 (ja) 2019-02-01 2020-01-17 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019016640A JP2022051970A (ja) 2019-02-01 2019-02-01 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2022051970A true JP2022051970A (ja) 2022-04-04

Family

ID=71840322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019016640A Pending JP2022051970A (ja) 2019-02-01 2019-02-01 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220101850A1 (ja)
JP (1) JP2022051970A (ja)
WO (1) WO2020158435A1 (ja)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109587A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識制御装置
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
KR20130078486A (ko) * 2011-12-30 2013-07-10 삼성전자주식회사 전자 장치 및 그의 제어 방법
EP2860726B1 (en) * 2011-12-30 2017-12-06 Samsung Electronics Co., Ltd Electronic apparatus and method of controlling electronic apparatus
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
KR20140089861A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
HK1186912A2 (en) * 2013-01-25 2014-03-21 Zhipei Wang Remote control system and device
US9431008B2 (en) * 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
WO2017175351A1 (ja) * 2016-04-07 2017-10-12 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
WO2018123443A1 (ja) * 2016-12-27 2018-07-05 シャープ株式会社 電源制御装置、電源制御システム、および、電源制御プログラム
JP7347217B2 (ja) * 2018-02-09 2023-09-20 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10877637B1 (en) * 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US20220365669A1 (en) * 2021-05-17 2022-11-17 Apple Inc. Systems and Methods for Interacting with User Interfaces

Also Published As

Publication number Publication date
US20220101850A1 (en) 2022-03-31
WO2020158435A1 (ja) 2020-08-06

Similar Documents

Publication Publication Date Title
US11671662B2 (en) Methods and systems for controlling media display in a smart media display environment
CN104994314B (zh) 在移动终端上通过手势控制画中画视频的方法及系统
US10506073B1 (en) Determination of presence data by devices
US8909731B2 (en) Content reproduction device, control method and network system
US20110129196A1 (en) Display control apparatus, display control system, and remote control apparatus
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US10028023B2 (en) Methods and systems for automatic media output based on user proximity
EP2688291B1 (en) Method of controlling external input of broadcast receiving apparatus by voice
KR20140092634A (ko) 전자장치와 그 제어방법
US11641108B2 (en) Systems, apparatus, and methods for power management
US20230231734A1 (en) Systems and methods for preemptively preventing interruptions from network-connected devices from occurring during media viewing
US20120161928A1 (en) Display Apparatus, Remote Controller and Associated Display System
JP2007533235A (ja) メディアコンテンツ処理装置の制御方法及びメディアコンテンツ処理装置
US11907616B2 (en) Electronic apparatus, display apparatus and method of controlling the same
JP2006074207A (ja) 移動型情報装置とこの移動方法、及び情報システムと位置推定方法
WO2020158435A1 (ja) 情報処理装置、情報処理方法、およびプログラム
KR101709861B1 (ko) 셋탑 박스, 그를 이용한 IoT 기기 제어 방법 및 컴퓨터 프로그램
JP2005333495A (ja) 電子機器管理ロボット
JP6351987B2 (ja) 発話制御装置、発話装置、発話制御システム、発話制御方法、発話装置の制御方法、および制御プログラム
CN111147879A (zh) 直播节目缓存方法、系统、设备和计算机存储介质
JP5990311B2 (ja) サーバ、報知方法、プログラム、制御対象機器、及び報知システム
CN114279059B (zh) 新风空调室内机的控制方法、空调室内机及存储介质
WO2021085126A1 (ja) 情報処理装置、情報処理方法、及びプログラム
KR101818424B1 (ko) 사용자 유무 검출에 따른 전력 모드 자동 스위칭을 이용한 셋톱박스의 저전력 모드 제어 방법
CN117278773A (zh) 一种直播方法、装置、电子设备和存储介质