JP2022036352A

JP2022036352A - 表示制御装置、及び表示制御方法

Info

Publication number: JP2022036352A
Application number: JP2018244221A
Authority: JP
Inventors: 卓雄渡邉; Takuo Watanabe; 伸広小津; Nobuhiro Ozu; 剛山田; Takeshi Yamada; 俊一杉浦; Shunichi Sugiura; 直毅斎藤; Naoki Saito
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2022-03-08
Also published as: WO2020137607A1; US20220057989A1; US20240184519A1; US11941322B2

Abstract

【課題】よりユーザビリティの高い音声操作を行うことができるようにする。【解決手段】ユーザからの音声発話を受信する音声受信部と、ネットワークを介して、サーバから、音声発話に対する情報を受信する通信部と、受信した情報に基づいて、音声発話に対応するアイテムを選択するとともに、選択したアイテムに応じた動作を制御する制御部とを備え、アイテムは、表示画面内の第１のアイテム、及びスクロールすることで表示可能な第２のアイテムを含み、制御部は、受信した情報に基づいて、第１のアイテム又は第２のアイテムを選択する表示制御装置が提供される。本技術は、例えば、テレビ受像機に適用することができる。【選択図】図２

Description

本技術は、表示制御装置、及び表示制御方法に関し、特に、よりユーザビリティの高い音声操作を行うことができるようにした表示制御装置、及び表示制御方法に関する。

近年、テレビ受像機等の表示制御装置として、ユーザの音声発話に応じた音声操作に対応可能なものが普及している（例えば、特許文献１参照）。

特開２０１４－１５３６６３号公報

ところで、テレビ受像機等の表示制御装置では、音声操作に対応するに際して、ユーザビリティの高い音声操作が行われるようにすることが求められる。

本技術はこのような状況に鑑みてなされたものであり、よりユーザビリティの高い音声操作を行うことができるようにするものである。

本技術の一側面の表示制御装置は、ユーザからの音声発話を受信する音声受信部と、ネットワークを介して、第１のサーバから、前記音声発話に対する情報を受信する通信部と、受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部とを備え、前記アイテムは、表示画面内の第１のアイテム、及びスクロールすることで表示可能な第２のアイテムを含み、前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する表示制御装置である。

本技術の一側面の表示制御方法は、上述した本技術の一側面の表示制御装置に対応する表示制御方法である。

本技術の一側面の表示制御装置、及び表示制御方法においては、ユーザからの音声発話が受信され、ネットワークを介して、サーバから、前記音声発話に対する情報が受信され、受信された前記情報に基づいて、前記音声発話に対応するアイテムとして、表示画面内の第１のアイテム、又はスクロールすることで表示可能な第２のアイテムが選択されるとともに、選択された前記第１のアイテム又は前記第２のアイテムに応じた動作が制御される。

本技術の一側面の表示制御装置は、ユーザからの音声発話を受信する音声受信部と、ネットワークを介して、サーバから、前記音声発話に対する情報を受信する通信部と、受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部とを備え、前記アイテムは、表示画面内の第１のアイテム、及び前記アイテムの大きさを縮小することで表示可能な第２のアイテムを含み、前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する表示制御装置である。

本技術の一側面の表示制御装置においては、ユーザからの音声発話が受信され、ネットワークを介して、サーバから、前記音声発話に対する情報が受信され、受信された前記情報に基づいて、前記音声発話に対応するアイテムとして、表示画面内の第１のアイテム、又は前記アイテムの大きさを縮小することで表示可能な第２のアイテムが選択されるとともに、選択された前記第１のアイテム又は前記第２のアイテムに応じた動作が制御される。

本技術の一側面の表示制御装置は、ユーザからの音声発話を受信する音声受信部と、ネットワークを介して、サーバから、前記音声発話に対する情報を受信する通信部と、受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部とを備え、前記アイテムは、表示画面内の第１のアイテム、及び前記アイテムを表示する領域を拡大することで表示可能な第２のアイテムを含み、前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する表示制御装置である。

本技術の一側面の表示制御装置においては、ユーザからの音声発話が受信され、ネットワークを介して、サーバから、前記音声発話に対する情報が受信され、受信された前記情報に基づいて、前記音声発話に対応するアイテムとして、表示画面内の第１のアイテム、又は前記アイテムを表示する領域を拡大することで表示可能な第２のアイテムが選択されるとともに、選択された前記第１のアイテム又は前記第２のアイテムに応じた動作が制御される。

本技術の一側面の表示制御装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本技術を適用した表示制御装置を含む放送通信システムの構成の例を示す図である。図１の表示制御装置の構成の例を示すブロック図である。音声操作の処理の流れを示すブロック図である。テレビ視聴画面の表示の例を示す図である。現状の音声操作の例を示す図である。クイック設定メニュー重畳画面の表示の例を示す図である。入力切換メニュー重畳画面の表示の例を示す図である。テレビメニュー重畳画面の表示の例を示す図である。スマートボイスモードによるメニュー画面の共通化の例を示す図である。スマートボイスモード遷移時における各メニュー画面の起動の例を示す図である。リモコン操作モードとスマートボイスモードの遷移の例を示す図である。各メニュー画面に表示される読み上げ用の音声操作ガイドの表示の例を示す図である。各メニュー画面に表示される読み上げ用の音声操作ガイドの表示位置の他の例を示す図である。クイック設定メニューにおけるアイテム表示領域の例を示す図である。図１４の各領域の説明を示す図である。アイテム表示領域に含まれるアイテムの読み上げ時の課題と解決方法を示す図である。音声発話の誤変換の吸収の例を示す図である。表示画面外にアイテムが存在する場合の対応の例を示す図である。表示画面内又は表示画面外にアイテムが存在する場合の対応の第１の例を示す図である。表示画面内又は表示画面外にアイテムが存在する場合の対応の第２の例を示す図である。アイテム選択処理の流れを説明するフローチャートである。同一アイテム選択処理の流れを説明するフローチャートである。アイテムの大きさを縮小する場合の例を示す図である。アイテムの表示領域を拡大する場合の例を示す図である。クイック設定メニュー重畳画面の表示の例を示す図である。クイック設定メニューにおける階層メニューの表示の例を示す図である。クイック設定メニュー操作対応処理の流れを説明するフローチャートである。表示制御装置の動作に関する全体の俯瞰イメージの例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．本技術の実施の形態
２．変形例
３．コンピュータの構成

＜１．本技術の実施の形態＞

（システムの構成）
図１は、本技術を適用した表示制御装置を含む放送通信システムの構成の例を示す図である。

図１の放送通信システムは、表示制御装置１０－１乃至１０－Ｎ（Ｎは１以上の整数）、放送配信システム２０、エージェントサーバ３０、テキスト変換サーバ４０、及び誤変換修正・形態素解析サーバ５０を含んで構成される。

また、放送通信システムにおいて、表示制御装置１０－１乃至１０－Ｎのそれぞれは、インターネットを含むネットワーク６０を介して、エージェントサーバ３０、テキスト変換サーバ４０、及び誤変換修正・形態素解析サーバ５０と接続される。

表示制御装置１０－１は、例えば、液晶表示装置やOLED(Organic Light Emitting Diode)表示装置等として構成されるテレビ受像機である。表示制御装置１０－１は、放送配信システム２０から送信されてくる放送信号を受信して処理することで、テレビ番組等の放送コンテンツの映像を表示するとともに、その映像に同期した音声を出力する。

また、表示制御装置１０－１は、ユーザによるリモートコントローラの操作（以下、リモコン操作ともいう）の他に、ユーザにより発せられた音声（音声発話）に応じた操作（以下、音声操作ともいう）にも対応している。表示制御装置１０－１は、リモコン操作又は音声操作に応じた各種の動作を行う。なお、表示制御装置１０－１は、ユーザによる音声操作を実施するために、ネットワーク６０を介して、エージェントサーバ３０、テキスト変換サーバ４０、及び誤変換修正・形態素解析サーバ５０と連携して各種の処理を実行する。

表示制御装置１０－２乃至１０－Ｎは、表示制御装置１０－１と同様に構成され、ユーザに対して放送コンテンツを視聴可能にするとともに、リモコン操作と音声操作の両方に対応している。なお、以下の説明では、表示制御装置１０－１乃至１０－Ｎを特に区別する必要がない場合には、単に、表示制御装置１０と称して説明する。また、表示制御装置１０の詳細な構成は、図２を参照して後述する。

なお、表示制御装置１０は、音声操作を実施するために、音声AI(Artificial Intelligence)アシスタントサービスを利用することができる。また、表示制御装置１０は、ネットワーク６０を介してエージェント対応機器７０と連携することができる。例えば、表示制御装置１０とエージェント対応機器７０は、ユーザ宅等の同一の建物内に設置され、無線LAN(Local Area Network)等のホームネットワークを介して各種のデータをやり取りすることができる。

エージェント対応機器７０は、例えば、スマートスピーカやスマートフォン等の機器であり、ネットワーク６０を介して音声AIアシスタントサービスを利用することができる。なお、音声AIアシスタントサービスとは、ユーザの発話の意図を理解し、その内容に応じた適切な出力を提供するサービスである。また、スマートスピーカとは、対話型の音声操作に対応したAIアシスタント機能を有するスピーカである。

放送配信システム２０は、１又は複数の放送サーバ等から構成される。放送配信システム２０は、配信対象のテレビ番組等の放送コンテンツに対して必要な処理を施し、その結果得られる放送信号（放送波）を、送信所に設置された送信アンテナから送出する。

エージェントサーバ３０は、ユーザからの音声発話に対して発話の内容と意図を理解して適切な情報やコマンドを収集又は取得するサーバであって、１又は複数のサーバから構成される。エージェントサーバ３０は、例えばテキスト変換機能やコマンド変換機能等の機能を有する。

テキスト変換サーバ４０は、ユーザからの音声発話に応じた音声信号をテキストデータに変換するサーバであって、１又は複数のサーバから構成される。テキスト変換サーバ４０は、例えばテキスト変換機能等の機能を有する。

誤変換修正・形態素解析サーバ５０は、ユーザからの音声発話に応じた音声信号をテキストデータに変換する際に、誤った変換を防いで正しい情報を提供するサーバであって、１又は複数のサーバから構成される。誤変換修正・形態素解析サーバ５０は、例えば誤変換修正機能や形態素解析機能等の機能を有する。

なお、エージェントサーバ３０、テキスト変換サーバ４０、及び誤変換修正・形態素解析サーバ５０は、ネットワーク６０を介して表示制御装置１０－１乃至１０－Ｎのそれぞれと連携して各種の処理を実行するが、その詳細な構成は、図３を参照して後述する。

（表示制御装置の構成）
図２は、図１の表示制御装置１０の構成の例を示すブロック図である。

図２において、表示制御装置１０は、制御部１０１、信号入力部１０２、信号処理部１０３、表示部１０４、スピーカ１０５、通信部１０６、操作受付部１０７、及びマイクロフォン１０８から構成される。

制御部１０１は、例えば、CPU(Central Processing Unit)やマイクロコンピュータ等から構成される。制御部１０１は、各部の動作の制御や各種の演算処理を行う中心的なの制御装置（処理装置）であり、表示制御装置１０の各部の動作を制御する。

信号入力部１０２は、例えばチューナ等から構成される。信号入力部１０２は、チューナとして構成される場合、アンテナを介して受信した放送信号に対して復調処理等の処理を行い、その結果得られる信号を、信号処理部１０３に供給する。

ここでの放送信号は、例えば放送配信システム２０から送信されてくる信号（地上波放送に準拠した信号）とされ、放送コンテンツの信号が伝送される。ここでは、地上波放送に限らず、例えば、衛星放送やケーブルテレビ放送等の所定の放送方式に準拠した放送信号が入力されてもよい。

なお、信号入力部１０２としては、例えば、HDMI（登録商標）(High Definition Multimedia Interface)や、USB(Universal Serial Bus)等の所定の規格に準拠したインターフェースとして構成されるようにして、録画機やネットワークストレージにより録画された録画コンテンツや、半導体メモリや光ディスク等の記録媒体に記録された記録コンテンツの信号が、信号処理部１０３に入力されるようにしてもよい。なお、録画コンテンツは、テレビ受像機により録画され、ストレージに記録されていたものでもよい。

信号処理部１０３は、例えばシステムオンチップ等から構成される。信号処理部１０３は、信号入力部１０２から供給される信号に対してデコード等の処理を行い、その結果得られる映像信号を表示部１０４に供給するとともに、音声信号をスピーカ１０５に供給する。

表示部１０４は、例えば液晶表示部やOLED表示部等から構成される。表示部１０４は、制御部１０１からの制御に従い、信号処理部１０３から供給される映像信号を処理して、放送コンテンツ（例えばテレビ番組等）の映像や、各種の画面（例えばメニュー画面等）の映像を表示する。

例えば、表示制御装置１０が液晶表示装置である場合、液晶表示部としての表示部１０４は、液晶素子及びTFT(Thin Film Transistor)素子を含む画素を２次元状に配置した表示パネルであり、制御部１０１からの駆動に従い、バックライト（不図示）から射出された光を変調することにより表示を行う。また、例えば、表示制御装置１０がOLED表示装置である場合、OLED表示部としての表示部１０４は、自発光素子を含む画素を２次元状に配置した表示パネルであり、制御部１０１からの駆動に従って表示を行う。

スピーカ１０５は、制御部１０１からの制御に従い、信号処理部１０３から供給される音声信号を処理して、放送コンテンツ（例えばテレビ番組等）の音声を出力する。

通信部１０６は、例えば、無線LAN等の無線通信、又はセルラ方式の通信（例えばLTE-Advancedや５Ｇ(5th Generation)等）に対応した通信モジュール等から構成される。通信部１０６は、制御部１０１からの制御に従い、ネットワーク６０を介して各種のサーバと、各種のデータをやり取りする。

なお、通信部１０６は、制御部１０１からの制御に従い、コンテンツ配信用のサーバから配信される通信コンテンツ（ネットコンテンツ）のストリーミングデータを受信し、信号処理部１０３に入力してもよい。これにより、表示部１０４には、動画等の通信コンテンツの映像が表示され、スピーカ１０５からは、その映像に同期した音声が出力される。

操作受付部１０７は、例えば近距離無線通信モジュールや赤外線受光モジュール等から構成される。操作受付部１０７は、リモートコントローラ１１から送信される無線信号や赤外線信号等の信号を受信（受光）し、操作信号として制御部１０１に供給する。制御部１０１は、操作受付部１０７から供給される操作信号に応じたコマンドに基づいて、各部の動作を制御する。

なお、ここでの近距離無線通信としては、例えば、Bluetooth（登録商標）規格に準拠した通信を行うことができる。また、図示はしていないが、リモートコントローラ１１には、例えば、電源ボタンや入力切換ボタン、十字ボタン、音量調整ボタン、チャンネル選局ボタン、マイク有効化ボタンなどのボタンが設けられる。また、リモートコントローラ１１の本体にマイクロフォンが内蔵されてもよい。

マイクロフォン１０８は、外部からの音（音声）を電気信号に変換し、その結果得られる音声信号を制御部１０１に供給する。換言すれば、マイクロフォン１０８は、ユーザにより音声発話（発話）がなされた場合に、その音声発話を受信する音声受信部であるとも言える。

すなわち、マイクロフォン１０８は、ユーザにより音声発話（発話）がなされた場合、その音声発話を収音して音声信号を制御部１０１に供給する。制御部１０１は、マイクロフォン１０８から供給される音声信号に基づいて、音声発話に応じた音声操作が行われるように、各部の動作を制御する。

（音声操作の処理の例）
図３は、表示制御装置１０により実行される、音声発話に応じた音声操作の処理の流れを示すブロック図である。

テレビ受像機等の表示制御装置１０において、音声操作を実施するための方法の１つとして、外部の音声AIアシスタントサービスを利用する方法があるのは先に述べたとおりである。

なお、音声AIアシスタントサービスでは、当該サービスを有効化するために、あらかじめ定められたキーワードであるウェイクワード（アクティベーションキーワード）を用いるのが一般的であり、本開示においては、ウェイクワードとして、「Service XXX」であるキーワードが用いられる場合を例示する。また、音声AIアシスタントサービスは、リモートコントローラ１１のマイク有効化ボタンの押下により有効化される場合がある。

図３において、エージェントサーバ３０、及びテキスト変換サーバ４０は、例えば、外部の音声AIアシスタントサービスのプラットフォームとして提供される。また、誤変換修正・形態素解析サーバ５０は、例えば、表示制御装置１０の設計や製造等を行うメーカ等により提供される。

表示制御装置１０では、ユーザにより音声発話がなされた場合、その音声発話がマイクロフォン１０８により収音され、音声信号が音声入力部１２１に入力される。そして、通信部１０６によって、入力された音声信号が、ネットワーク６０を介してエージェントサーバ３０に送信される。

エージェントサーバ３０では、表示制御装置１０から送信されてくる音声信号が受信され、テキスト変換部３０１に入力される。テキスト変換部３０１は、例えば音声テキスト変換用のデータベース等を適宜参照して、受信された音声信号をテキストデータに変換し、コマンド変換部３０２に供給する。

コマンド変換部３０２は、例えばコマンド変換用のデータベース等を適宜参照して、テキスト変換部３０１から供給されるテキストデータを、コマンドに変換する。そして、エージェントサーバ３０では、変換されたコマンドが、ネットワーク６０を介して表示制御装置１０に送信される。

表示制御装置１０では、エージェントサーバ３０から送信されてくるコマンドが受信され、コマンド処理部１２２に入力される。コマンド処理部１２２は、受信されたコマンドを処理し、ユーザの音声発話に応じた動作が実行されるようにする。

このようにして、表示制御装置１０では、動作モードとしてエージェントモードで動作することで、外部の音声AIアシスタントサービスのプラットフォームを利用して、ユーザの音声発話に応じた音声操作を実施することができる。

ここで、表示制御装置１０は、ユーザにより特定の音声発話がなされた場合、動作モードがスマートボイスモードに遷移する。すなわち、表示制御装置１０では、スマートボイスモードで動作する場合に、ユーザにより音声発話がなされたとき、その音声発話に応じた音声信号が音声入力部１２１に入力され、入力された音声信号が、ネットワーク６０を介してテキスト変換サーバ４０に送信される。

なお、動作モードをスマートボイスモードに遷移させる方法としては、上述した特定の音声発話がなされた場合の他に、例えば、次のようなケースが想定される。すなわち、外部のエージェント対応機器７０が、ユーザによる特定の音声発話を認識した場合に、その認識結果が、表示制御装置１０により受信された場合や、表示制御装置１０が動作モードとしてリモコン操作モードで動作中に、表示画面内のスマートボイス遷移ボタンがリモコン操作された場合などである。

また、表示制御装置１０の動作モードとしては、例えば、エージェントモード、スマートボイスモード、及びリモコン操作モードを含む。エージェントモードは、外部の音声AIアシスタントサービスを利用して音声操作を実施するモードである。スマートボイスモードは、外部の音声AIアシスタントサービスに依存せずに音声操作を実施するモードである。リモコン操作モードは、リモートコントローラ１１によるリモコン操作を実施するモードである。

テキスト変換サーバ４０では、表示制御装置１０から送信されてくる音声信号が受信され、テキスト変換部４０１に入力される。テキスト変換部４０１では、受信された音声信号がテキストデータに変換され、変換されたテキストデータが、ネットワーク６０を介して表示制御装置１０に送信される。

表示制御装置１０では、テキスト変換サーバ４０から送信されてくるテキストデータが受信され、コマンド変換部１２３に入力される。コマンド変換部１２３は、例えばコマンド変換用のデータベース等を適宜参照して、受信されたテキストデータをコマンドに変換し、コマンド処理部１２２に供給する。

なお、コマンド変換部１２３及びコマンド変換用のデータベース等の情報を、ネットワーク６０上のサーバに設けることで、表示制御装置１０では、当該サーバから、テキストデータに応じたコマンドを取得してもよい。換言すれば、表示制御装置１０では、通信部１０６によって、ネットワーク６０を介して、テキスト変換サーバ４０等のサーバから、音声発話に対する情報（例えば、テキストデータやコマンド等）が受信されているとも言える。

このとき、コマンド変換部１２３は、誤変換対応部１２４に対して適宜問い合わせることで、テキストデータの誤変換を吸収する。誤変換対応部１２４は、誤変換吸収部１３１、及び形態素解析部１３２から構成される。

誤変換吸収部１３１は、あらかじめ用意された内部変換テーブルを参照して、コマンド変換部１２３からのテキストデータの誤変換を吸収する。この内部変換テーブルは、例えば、正しく変換できない文言を事前に抽出して正しい文言と対応付けたものとされる。形態素解析部１３２は、誤変換吸収部１３１による誤変換の吸収時に、必要に応じてテキストデータから形態素の列に分割してそれぞれの形態素の品詞等を判別する処理を行う。

なお、このような誤変換対応処理は、表示制御装置１０側（ローカル側）の誤変換対応部１２４で実施するに限らず、誤変換修正・形態素解析サーバ５０側（クラウド側）の誤変換対応部５０１で実施してもよい。すなわち、コマンド変換部１２３は、ネットワーク６０を介して誤変換修正・形態素解析サーバ５０に対して適宜問い合わせることで、テキストデータの誤変換を吸収することができる。

具体的には、誤変換対応部５０１は、誤変換修正部５１１、及び形態素解析部５１２から構成される。誤変換修正部５１１は、誤変換吸収部１３１と同様に構成され、あらかじめ用意された変換テーブルを参照して、テキストデータの誤変換を修正する。形態素解析部５１２は、形態素解析部１３２と同様に構成され、必要に応じてテキストデータに含まれる形態素の品詞等を判別する処理を行う。

コマンド処理部１２２は、コマンド変換部１２３から供給されるコマンドを処理し、ユーザの音声発話に応じた動作が実行されるようにする。

このようにして、表示制御装置１０では、スマートボイスモードで動作することで、外部の音声AIアシスタントサービスのプラットフォームに依存せずに適切なコマンドに変換して、ユーザの音声発話に応じた音声操作を実施することができる。

なお、図３の表示制御装置１０において、音声入力部１２１、コマンド処理部１２２、コマンド変換部１２３、及び誤変換対応部１２４は、例えば、制御部１０１による機能の一部として提供される。

表示制御装置１０は、以上のように構成される。

（スマートボイスモードのメニュー画面の例）
ところで、近年、スマートスピーカ（AIスピーカ）等の機器に対する音声操作が普及しつつあり、テレビ受像機等の表示制御装置１０においても、ユーザによるリモコン操作の他に、ユーザの音声発話に応じた音声操作に対応している。

しかしながら、表示制御装置１０が音声操作に対応していても、ユーザからすれば、音声操作でどのような機能を操作できるか分からないし、音声操作で使用できる発話の単語や文法が分からないのが一般的である。また、音声操作に対応しているコマンドの数が増加すると、それらのコマンドの全てをユーザが覚えることができないのが一般的である。

ここで、図４に示すように、表示制御装置１０において、表示部１０４に、テレビ視聴画面１５０が表示され、ユーザによりテレビ番組が視聴されている場面を想定する。このとき、現状の音声操作として、ユーザの音声操作によって、表示制御装置１０の表示画面の明るさの調整を指示するときの様子を、図５に示している。図５においては、ユーザ１の音声操作に反応して、当該音声操作を認識中であることを表したテレビ視聴画面１５１が表示されている。

図５の例では、ユーザ１が、「Service XXX，明るさを20にして」である音声発話を行えば、表示画面の明るさを調整可能であるにしても、一般的なユーザからすれば、突発的にこのような発話を行うのは困難である。また、「Service XXX，明るさを20にして」である音声発話では、表示画面の明るさを調整できないことも想定される。

そこで、表示制御装置１０では、動作モードとしてスマートボイスモードで動作することで、ユーザが、主要なメニュー画面における読み上げ対象としてのアイテムを音声発話したときに、当該音声発話に応じた音声操作が行われるようにする。

（クイック設定メニュー重畳画面の例）
例えば、図６は、メニュー画面の一例として、クイック設定メニュー重畳画面１５２を示している。ここで、クイック設定メニューとは、テレビ番組の視聴中に簡易的にテレビ受像機の設定を変更可能な設定メニューである。

このクイック設定メニュー重畳画面１５２では、テレビ番組映像１６１の下部にクイック設定メニュー１７１が表示（重畳表示）され、クイック設定メニュー１７１に表示された各種の設定項目１７２の中から、音声操作によって所望の設定項目を選択可能である。なお、クイック設定メニュー１７１の表示は、重畳表示の他にも、例えば、二画面表示や子画面表示、透過表示などの表示形態が想定される。

すなわち、クイック設定メニュー１７１には、設定項目１７２として、例えば、ピクチャオート（"Picture Auto"）、サウンドモード（"Sound Mode"）、輝度（"Brightness"）、ピクチャモード（"Picture Mode"）、ピクチャオフ（"Picture off"）などのアイテムが表示されているので、ユーザは、表示された設定項目１７２の中から、例えば、「サウンドモード」や「ピクチャモード」等のアイテムを読み上げることで、その音声発話に応じた音声操作がなされ、「サウンドモード」等の設定項目の設定が実施される。

このとき、設定項目１７２として表示される１又は複数の設定項目が音声操作可能なアイテム（読み上げ対象）となるため、ユーザは、読み上げ対象を容易に把握することができる。また、ユーザは、設定項目１７２として表示される１又は複数の設定項目の中から、所望の設定項目に含まれる文言（音声操作に関する情報）をそのまま読み上げているため、音声操作でどのような機能を操作できるかを直感的に理解し、音声操作で使用できる発話の文言（例えば単語や文法等）を直ちに理解することができる。

また、クイック設定メニュー１７１には、その下部の領域に、音声操作ガイド１７３として、マイクアイコンとともに、"Try saying the words in green for voice command"である文言が表示される。図６の例では、"words in green"である文言に相当する緑色の文字アイテムを、太字で表しており、各種の設定項目１７２に、アイコンとともに表示された"Picture Auto"，"Sound Mode"，"Brightness"，"Picture Mode"，"Picture off"，"Edit"等の文言が、文字アイテム（推奨読み上げ項目）であることを示している。

なお、緑色の文字アイテムとして説明したものは、他にも太字や下線を付けるなどして、音声操作に対応していない他のテキストと区別して表示されることが想定される。要は、音声操作に対応したテキストと、音声操作に未対応のテキストとが区別して表示されればよいのであって、それらのテキストの表示形態は任意である。

（入力切換メニュー重畳画面の例）
図７は、メニュー画面の一例として、入力切換メニュー重畳画面１５３を示している。ここで、入力切換メニューとは、テレビ番組の視聴中に簡易的にテレビ受像機の入力切替先を選択可能な設定メニューである。

この入力切換メニュー重畳画面１５３では、テレビ番組映像１６１の下部に入力切換メニュー１８１が表示（重畳表示）され、入力切換メニュー１８１に表示された各種の切換項目１８２の中から、音声操作によって所望の切換項目を選択可能である。なお、入力切換メニュー１８１の表示は、重畳表示の他に、例えば二画面表示や子画面表示、透過表示などであってもよい。

すなわち、入力切換メニュー１８１には、表示画面に映し出す映像を切り換えるための切換項目１８２として、チューナにより選局されたテレビ番組の映像を入力するテレビ（"TV"）、各種のコンテンツの映像をHDMI（登録商標）(High-Definition Multimedia Interface)等の所定のインターフェースに準拠して入力するHDMI（"HDMI1"，"HDMI2"）、ネットワーク６０を介して配信される通信コンテンツを入力する項目などのアイテムが含まれる。

ユーザは、表示された切換項目１８２として表示される１又は複数の切換項目（アイテム）の中から、例えば、「TV」や「HDMI1」等のアイテムを読み上げることで、その音声発話に応じた音声操作がなされ、「TV」等の切換項目に入力が切り換えられる。

また、入力切換メニュー１８１には、その下部の領域に音声操作ガイド１８３が表示されている。図７の例では、音声操作ガイド１８３に表示された"words in green"である文言に相当する緑色の文字アイテムを、太字で表しており、各種の切換項目１８２に、アイコンとともに表示された"TV"，"HDMI1"，"HDMI2"等の文言が、文字アイテム（推奨読み上げ項目）であることを示している。なお、緑色の文字アイテム、すなわち、音声操作に対応したテキストは、音声操作に未対応のテキストと区別されていれば、他の表示形態で表示してもよい。

（テレビメニュー重畳画面の例）
図８は、メニュー画面の一例として、テレビメニュー重畳画面１５４を示している。ここで、テレビメニューとは、テレビ番組の視聴中に簡易的にテレビ受像機の選局先を設定可能な設定メニューである。

このテレビメニュー重畳画面１５４では、テレビ番組映像１６１の下部にテレビメニュー１９１が表示（重畳表示）され、テレビメニュー１９１に表示された番組表１９２の中から、音声操作によって所望の番組を選択可能である。なお、テレビメニュー１９１の表示は、重畳表示の他に、例えば二画面表示や子画面表示、透過表示などであってもよい。

すなわち、テレビメニュー１９１には、番組表１９２として、例えばテレビ番組映像１６１の視聴時における他のチャンネルの情報（例えば、裏番組の番組名や概要の情報）等のアイテムが含まれる。ユーザは、表示された番組表１９２の中から、例えば、所望の裏番組の番組名（"Channel names"）等のアイテムを読み上げることで、その音声発話に応じた音声操作がなされ、読み上げられた番組名のチャンネルに切り換えられる。

また、テレビメニュー１９１には、その下部の領域に音声操作ガイド１９３が表示されている。図８の例では、音声操作ガイド１９３に表示された"words in green"である文言に相当する緑色の文字アイテムを、太字で表しており、番組表１９２に、アイコンとともに表示された各番組の番組名（"Channel names"）等の文言が、文字アイテム（推奨読み上げ項目）であることを示している。なお、緑色の文字アイテム、すなわち、音声操作に対応したテキストは、音声操作に未対応のテキストと区別されていれば、他の表示形態で表示してもよい。

以上のように、表示制御装置１０において、スマートボイスモード時には、クイック設定メニュー重畳画面１５２、入力切換メニュー重畳画面１５３、又はテレビメニュー重畳画面１５４等のメニュー画面が表示され得るが、各画面のメニューは仕様が共通化されている。

すなわち、各メニュー画面では、例えば、推奨読み上げ項目の表示方法、読み上げ用の操作ガイドの提示方法、スマートボイスモードへの遷移方法、各種の情報のフィードバック方法などが共通化されている。このように、各種メニューの仕様を共通化することで、ユーザはどのメニューにおいても、同様の操作を行うことができ、ユーザビリティの高い直感的な操作を行うことが可能となる。

具体的には、図９に示すように、クイック設定メニュー重畳画面１５２のクイック設定メニュー１７１、入力切換メニュー重畳画面１５３の入力切換メニュー１８１、及びテレビメニュー重畳画面１５４のテレビメニュー１９１においては、設定項目１７２、切換項目１８２、及び番組表１９２における推奨読み上げ項目の見せ方が共通化されている。

また、図９に示すように、クイック設定メニュー１７１、入力切換メニュー１８１、及びテレビメニュー１９１では、それぞれ下部の所定の領域に、音声操作ガイド１７３、音声操作ガイド１８３、及び音声操作ガイド１９３として、マイクアイコンとともに、"Try saying the words in green for voice command"である文言がそれぞれ表示され、読み上げ用の操作ガイドの提示方法が共通化されている。このように、各種メニューの仕様を共通化することで、ユーザはどのメニューにおいても、同様の操作を行うことができ、ユーザビリティの高い直感的な操作を行うことが可能となる。

ここで、図１０は、スマートボイスモード遷移時における各メニュー画面の起動の例を示している。

例えば、表示制御装置１０では、テレビ視聴画面１５０（図４）の表示時に、ユーザによって、「Service XXX」であるウェイクワードが発せられた場合（ＯＰ１１）、動作モードがエージェントモードに遷移し、音声操作を受け付ける。なお、ここでは、リモートコントローラ１１に設けられたマイク有効化ボタンが押された場合（ＯＰ１１）に、音声操作を受け付けてもよい。

一方で、例えば、表示制御装置１０では、テレビ視聴画面１５０（図４）の表示時に、「Service XXX，クイック設定」である音声発話がなされた場合（ＯＰ１２）、動作モードがスマートボイスモードに遷移し、クイック設定メニュー重畳画面１５２が表示される。クイック設定メニュー重畳画面１５２では、クイック設定メニュー１７１に含まれる設定項目１７２の文言などが、音声操作時の読み上げ対象のアイテム（推奨読み上げ項目）とされる。

また、例えば、表示制御装置１０では、テレビ視聴画面１５０（図４）の表示時に、「Service XXX，入力切換」である音声発話がなされた場合（ＯＰ１３）、動作モードがスマートボイスモードに遷移し、入力切換メニュー重畳画面１５３が表示される。入力切換メニュー重畳画面１５３では、入力切換メニュー１８１に含まれる切換項目１８２の文言などが、音声操作時の読み上げ対象のアイテム（推奨読み上げ項目）とされる。

さらに、例えば、表示制御装置１０では、テレビ視聴画面１５０（図４）の表示時に、「Service XXX，テレビメニュー」である音声発話がなされた場合（ＯＰ１４）、動作モードがスマートボイスモードに遷移し、テレビメニュー重畳画面１５４が表示される。テレビメニュー重畳画面１５４では、テレビメニュー１９１に表示された番組表１９２の番組名等の文言が、音声操作時の読み上げ対象のアイテム（推奨読み上げ項目）とされる。

このように、テレビ視聴画面１５０から各メニュー画面を起動する際の起動方法、すなわち、リモコン操作モード（又はエージェントモード）からスマートボイスモードへの遷移方法が共通化されている。そして、各種メニューの仕様を共通化することで、ユーザはどのメニューにおいても、同様の操作を行うことができ、ユーザビリティの高い直感的な操作を行うことが可能となる。

なお、図１０において、テレビ視聴画面１５１では、エージェントモードでの音声操作が可能であるが、「Service XXX」であるウェイクワードが発話された後や、マイク有効化ボタンが操作された後は、その動作（振る舞い）を、音声AIアシスタントサービスのプラットフォームを提供するサービス提供者が管理するため、テレビ受像機等の表示制御装置１０の設計や製造等を行うメーカ側からすれば、いつ仕様が変わるかわからない領域とされる。

一方で、図１０において、クイック設定メニュー重畳画面１５２、入力切換メニュー重畳画面１５３、及びテレビメニュー重畳画面１５４では、スマートボイスモードでの音声操作が可能であり、「Service XXX」であるウェイクワードを受け付けずに、メーカ側で、その動作などを管理することができる。

（スマートボイスモードへの遷移の例）
ここで、図１１は、リモコン操作モードとスマートボイスモードとの間での遷移の例を示している。図１１のＡは、リモコン操作モード時の入力切換メニュー重畳画面１５３Ｒを示し、図１１のＢは、スマートボイスモード時の入力切換メニュー重畳画面１５３を示している。

入力切換メニュー重畳画面１５３Ｒ（図１１のＡ）においては、ユーザのリモコン操作により入力切換ボタンが操作された場合（ＯＰ２１）、テレビ番組映像１６１の下部に表示される各種の切換項目１８２のうち、選択対象の切換項目がカーソル表示される（領域Ａ１１）。

また、この入力切換メニュー重畳画面１５３Ｒには、"You can operate the TV by voice. saying that you started "Service XXX, input change""である文言が表示され、音声操作が使用できる旨が提示される（領域Ａ１２）。このように、リモコン操作中の場合でも、音声操作が可能であることをユーザに示すことで、当該ユーザに対してユーザビリティの高い音声操作の使用を促すことができる。

表示制御装置１０において、テレビ視聴画面１５０（図４）の表示時、又は入力切換メニュー重畳画面１５３Ｒ（図１１のＡ）の表示時などに、ユーザにより「Service XXX，入力切換」である音声発話がなされた場合（ＯＰ２２，ＯＰ２３）、リモコン操作モードからスマートボイスモードに遷移して、入力切換メニュー重畳画面１５３（図１１のＢ）が表示される。

入力切換メニュー重畳画面１５３（図１１のＢ）においては、テレビ番組映像１６１の下部に切換項目１８２を選択するためのカーソル表示はなく、入力切換メニュー１８１として、切換項目１８２と音声操作ガイド１８３が表示される。

切換項目１８２には、読み上げ対象のアイテム（推奨読み上げ項目）の文言が、読み上げ推奨を示すアイコンとともに、所定の色（例えば緑色）に変更して表示される（領域Ａ１３）。また、音声操作ガイド１８３には、各種の切換項目１８２に含まれる"TV"，"HDMI1"，"HDMI2"等の文言が、アイテムであることを示している（領域Ａ１４）。

なお、表示制御装置１０において、入力切換メニュー重畳画面１５３（図１１のＢ）の表示時に、ユーザによりリモコン操作がなされた場合（ＯＰ２４）、スマートボイスモードからリモコン操作モードに遷移して、入力切換メニュー重畳画面１５３Ｒ（図１１のＡ）が表示される。

（音声操作ガイドの例）
図１２は、各メニュー画面に表示される読み上げ用の音声操作ガイドの表示の例を示している。なお、図１２においては、読み上げ用の音声操作ガイドとして、クイック設定メニュー１７１の音声操作ガイド１７３を一例に説明する。

表示制御装置１０において、音声操作ガイド１７３の表示タイミングとしては、音声待ち受け中、音声発話中、及び実行中の３つの状態に分けることができる。これらの３状態は、音声待ち受け中、音声発話中、実行中の順に遷移し（ＴＲ１、ＴＲ２）、実行中の後に音声待ち受け中に戻り（ＴＲ３）、再度、３状態の遷移が繰り返される。

図１２のＡの音声待ち受け中は、ユーザによる音声発話を待ち受けている状態であって、音声操作ガイド１７３には、"みどり色の項目を読み上げてください"である文言ＷＤ１１と、"終了する場合は「閉じる」と話してください"である文言ＷＤ１２との間で、所定のタイミングでの遷移が繰り返され（ＴＲ１１、ＴＲ１２）、文言ＷＤ１１と文言ＷＤ１２とが交互に表示される。

このとき、文言ＷＤ１１、ＷＤ１２に含まれるマイクアイコンは、アニメーション表示される。すなわち、文言ＷＤ１１は、アイテム（推奨読み上げ項目）の発話誘導ガイドであり、文言ＷＤ１２は、スマートボイスモードからの抜け方などの特殊操作の操作説明である。なお、ここでは、文言ＷＤ１１と文言ＷＤ１２を一例に説明したが、他の文言が表示されてもよい。また、３つ以上の文言が繰り返して表示されてもよい。

図１２のＢの音声発話中は、ユーザが音声発話を行っている状態であって、ユーザにより音声発話が開始されると、音声操作ガイド１７３には、その音声発話の内容に応じて、例えば"画質もー"である文言ＷＤ２１がリアルタイムで表示される。そして、音声発話から文節が認識されるなどして、ユーザによる音声発話が終了すると、音声操作ガイド１７３には、例えば、音声発話の内容に応じた"「画質モード」"である文言ＷＤ２２が表示される。

なお、ここでの音声発話の内容が、例えば、スマートボイスモードから抜けるコマンドに対応している場合、当該コマンドを即時に実行（反映）して、スマートボイスモードの対象機能を終了させる（Ｓ１１）。ただし、コマンド実行後の動作としては、例えば、スマートボイスモードからリモコン操作モードに遷移させるなど、他の動作が行われるようにしてもよい。

図１２のＣの実行中は、ユーザの音声発話の内容に応じたコマンドを実行する状態であって、コマンドを正常に認識できた場合、音声操作ガイド１７３には、"「画質モード」を選択します"である文言ＷＤ３１が表示される。

ここでは、コマンドの認識時に、ユーザの目線は、音声操作ガイド１７３（の近傍）にあることが想定されるため、コマンド処理部１２２によって、「画質モード」に応じたコマンドを即時実行（即時反映）するとともに、音声操作ガイド１７３に、そのコマンドの実行内容を提示することができる。

なお、コマンドを実行するタイミングは、文言ＷＤ３１の表示と同時（即時反映）であってもよいし、あるいは文言ＷＤ３１を表示してから所定の時間を経過した後（時間差反映）であってもよい。また、例えば、文言ＷＤ３１は、１秒間等、所定の時間だけ表示される。さらに、文言ＷＤ３１の表示中であっても、ユーザにより音声発話がなされた場合には、音声発話中の状態に遷移される。

一方で、ユーザの音声発話の内容が完全に認識されずに、当該音声発話に応じたコマンドを特定できないことでエラーになった場合、音声操作ガイド１７３には、"「画質もー」には対応していません"である文言Ｗ３２が表示される。ここでは、エラー時において、ユーザに対し、その原因をフィードバックすることができる。

このように、コマンド認識が失敗したことをユーザに確実に知らせることによって、ユーザに次の発話を促す効果をもたらすことができる。例えば、文言ＷＤ３２は、１秒間等、所定の時間だけ表示される。また、文言ＷＤ３２の表示中であっても、ユーザによって、言い直しの再度の音声発話などがなされた場合には、音声発話中の状態に遷移される。

なお、図１２の例では、クイック設定メニュー１７１の音声操作ガイド１７３を一例に説明したが、入力切換メニュー１８１の音声操作ガイド１８３、又はテレビメニュー１９１の音声操作ガイド１９３についても、メニューの内容に応じた同様の表示を行うことができる。

また、各メニュー画面に表示される読み上げ用の音声操作ガイド１７３の表示位置としては、その下部の領域に限らず、他の領域に表示してもよい。例えば、音声操作ガイド１７３の表示位置として、ユーザの視線誘導を目的として、ユーザに見てもらいたい表示画面の領域（UI領域）の近傍に、音声操作ガイド１７３を動的に移動させてもよい。ユーザの視線を誘導することで、ユーザに提供したい情報を効果的に提示することができる。

図１３は、クイック設定メニュー１７１に表示される読み上げ用の音声操作ガイド１７３の表示位置の他の例を示している。図１３のＡは、上述したクイック設定メニュー１７１を含むクイック設定メニュー重畳画面１５２－１を示し、図１３のＢは、２階層の階層メニューとしてのクイック設定メニュー１７１を含むクイック設定メニュー重畳画面１５２－２を示している。

例えば、クイック設定メニュー重畳画面１５２－１（図１３のＡ）においては、クイック設定メニュー１７１の中央の設定項目１７２の上部（の近傍）の領域に、音声操作ガイド１７３を表示している。この領域に音声操作ガイド１７３を表示することで、例えば、ユーザの視線を、クイック設定メニュー１７１の中央部分（の近傍）に誘導することができる。

また、例えば、クイック設定メニュー重畳画面１５２－２（図１３のＢ）においては、水平方向の設定項目１７２として、ピクチャモード（Picture Mode）が選択された後に、垂直方向のピクチャモードの設定値１７４を選択する際に、当該設定値１７４の右側の領域に、音声操作ガイド１７３を表示している。この領域に音声操作ガイド１７３を表示することで、例えば、ユーザの視線を、選択中の"Vivid"である設定値（の近傍）に注目させることができる。

なお、クイック設定メニュー重畳画面１５２－２（図１３のＢ）におけるクイック設定メニュー１７１の階層メニュー表示の詳細は、図２５乃至図２７を参照して後述する。また、入力切換メニュー１８１の音声操作ガイド１８３、又はテレビメニュー１９１の音声操作ガイド１９３についても、上述した音声操作ガイド１７３と同様に、動的に移動させることができる。このように、ユーザの視線を誘導することで、ユーザに提供したい情報を効果的に提示することができる。

（アイテム表示領域の例）
図１４は、クイック設定メニュー重畳画面１５２のクイック設定メニュー１７１における読み上げ対象としてのアイテムを含む領域（以下、アイテム表示領域という）の例を示している。なお、図１５には、クイック設定メニュー１７１における各アイテム表示領域の説明を示しており、適宜参照しながら説明する。

図１４において、クイック設定メニュー１７１には、アイテム表示領域として、領域Ａ２１乃至領域Ａ２４の４つの領域がある。

すなわち、領域Ａ２１では、各種の設定項目１７２に含まれる推奨読み上げ項目を、アイコンと所定の色（例えば緑色）の文字で表現している（図１５）。具体的には、推奨読み上げ項目として、ピクチャオート（"Picture Auto"）やサウンドモード（"Sound Mode"）等のアイテムが、緑色の文字（図中の太字）で表示されるため、ユーザは、読み上げ対象のアイテムを容易に把握し、音声操作で使用できる発話の文言を直ちに理解することができる。

また、領域Ａ２２では、各種の設定項目１７２に含まれる推奨読み上げ項目以外のアイテムも読み上げ可能とされ、その推奨読み上げ項目以外のアイテムの読み上げ時の振る舞いとしては、対応する領域Ａ２１内の文字が読み上げられた扱いとされる（図１５）。

換言すれば、推奨読み上げ項目に関連する関連項目が読み上げられた場合に、当該関連項目に関連した推奨読み上げ項目に対する音声発話がなされたとみなされる。具体的には、推奨読み上げ項目以外のアイテム（関連項目）として、例えば「シネマ（"Cinema"）」が読み上げられた場合には、サウンドモードに対応する設定動作が行われる。

さらに、領域Ａ２３は、表示画面外の領域（非表示領域）を含み、表示画面外のアイテムも読み上げ可能とされる（図１５）。すなわち、例えば設定項目１７２の数が多い場合などには、全ての設定項目１７２を表示画面内に表示できないことも想定されるが、そのような場合に、表示画面内に表示された設定項目１７２に含まれる推奨読み上げ項目だけでなく、表示画面外の設定項目１７２の文言（非表示の文言）も読み上げ対象に含めるようにする。

これにより、ユーザは、表示画面内の設定項目１７２に含まれるアイテム（表示画面内の第１のアイテム）とともに、表示画面外の設定項目１７２に含まれるアイテム（表示画面外の第２のアイテム）を読み上げて、表示画面内の第１のアイテム又は表示画面外の第２のアイテムに応じた設定動作の音声操作を行うことができるため、よりユーザビリティの高い音声操作を実現することができる。

なお、領域Ａ２４として示すように、クイック設定メニュー１７１の表示時には、例えば、クイック設定メニュー１７１を終了させるための「閉じる」や、所定の方向（例えば横方向）にスクロールさせるための「次へ」や「前へ」といった画面操作用のコマンドも読み上げ可能とされる（図１５）。ただし、ここでのスクロールは、アイテム単位ではなく、ページスクロール扱いとすることが想定されるが、一部スクロール等の他のスクロールとしてもよい。また、このとき、「Service XXX」であるウェイクワードを発話する必要ないのは、先に述べたとおりである。

ここで、アイテム表示領域に含まれるアイテムの読み上げ時には、例えば、図１６に示した４つの課題が想定される。

すなわち、第１に、表示画面内に同一の文言（アイテム）が複数存在する場合が想定される。このような場合としては、例えば、アイテム表示領域内に、アイテムとして"ON"である文言が複数存在するときが該当する。この第１の課題の解決方法としては、例えば、表示画面の左上の位置（基準位置）に最も近い位置に存在するアイテムを優先させればよい。すなわち、アイテムは、表示画面上の左側に重要な項目が配置されることが多いため、左側を優先させることで、より優先度の高いと思われる項目が選択可能とされる。

なお、表示画面の左上の位置は、基準位置の一例であって、例えば、RTL(Right to Left)言語では、表示画面の右上の位置を基準位置とすればよい。さらには、表示画面内の任意の位置に存在するアイテムを優先させてもよい。例えば、ユーザの視線は表示画面内の中央にあることが多いため、表示画面内の中央（の位置）にあるアイテムを優先させることで、ユーザの意図に合った項目を選択することができる。

第２に、表示画面内に表示される文言が長い場合が想定される。このような場合としては、例えば、アイテム表示領域内で、アイテムとして、長いタイトルがつけられたテレビ番組の番組名が存在するときが該当する。この第２の課題の解決方法としては、例えば、文言のマッチングとして一部分のマッチングも許容して、タイトルの一部（例えば前方の一部）を用いたマッチングを行えばよい。これにより、短い発話の場合でも、ユーザの意図する項目を選択することが可能となる。

第３に、音声発話される文言が短すぎて、文節区切りを自動判別できない場合が想定される。このような場合としては、例えば、ユーザによって、「ON」である音声発話がなされた場合が該当する。この第３の課題の解決方法としては、例えば、アイテム表示領域内で、アイテムとして、"ON"の代わりに、"ONにする"など、スマートボイスモードでのみ使用可能な読み方を提示すればよい。

第４に、音声発話のテキストの変換側の仕様で、ユーザの音声発話を正しく変換できない場合が想定される。この第４の課題の解決方法としては、例えば、表示制御装置１０側で、正しく変換できない文言を事前に抽出して内部変換テーブルを生成し、当該内部変換テーブルを用いて誤変換を吸収すればよい。また、ここでは、ユーザの音声発話に応じたコマンドの確定時ではなく、ユーザの音声発話の確定時に、この内部変換テーブルを参照することで、発話確定のフィードバックに反映させることができる。

具体的には、例えば、ユーザがテレビ番組の視聴中に、テレビ番組の音声だけを聞きたい場合に、「消画」である文言を含む音声発話を行ったときを想定する。

このとき、表示制御装置１０側で、誤変換の吸収を行わないと、例えば、図１７のＡに示すように、ユーザの音声発話中に、「しょう・・・」、「生姜」と変換され、コマンド変換がなされる（Ｓ２１：コマンド変換）が、「生姜」に対応したコマンドは存在しないため、例えば、音声操作ガイド１７３には、"「生姜」には対応していません"である文言が表示される。

また、表示制御装置１０側で、誤変換の吸収を行った場合には、例えば、図１７のＢに示すように、ユーザの音声発話中に、「しょう・・・」、「生姜」と変換され、「生姜」である音声発話が確定されるが、コマンド変換される前に、内部変換テーブルを参照して、「生姜」が「消画」に変換される（Ｓ２２：誤変換吸収）。これにより、「消画」に対応したコマンドが確定され（Ｓ２２：コマンド変換）、例えば、音声操作ガイド１７３には、"「消画」を実行します"である文言が表示される。

また、内部変換テーブルを参照するタイミングであるが、コマンドの確定時ではなく、音声発話の確定時に行うことで、例えば、図１７のＣに示すように、ユーザの音声発話が確定される前に、内部変換テーブルを参照して、「しょう・・・」、「消画」と変換されて（Ｓ２３：誤変換吸収）、「消画」である音声発話が確定される。これにより、「消画」に対応したコマンドが確定され（Ｓ２４：コマンド変換）、例えば、音声操作ガイド１７３には、"「消画」を選択します"である文言が表示される。この場合には、発話確定のフィードバックに反映させることができる。

なお、コマンドを確定した後、コマンドを実行するタイミングは、音声操作ガイド１７３に、"「消画」を実行します"や"「消画」を選択します"である文言が表示されるタイミングと同時（即時反映）であってもよいし、あるいは、文言を表示してから所定の時間を経過した後（時間差反映）であってもよい。

ここで、図１７のＡ乃至Ｃに示した具体例のユーザビリティを比較すれば、図１７のＣの具体例が最もユーザビリティが高くなる一方で、図１７のＡの具体例が最もユーザビリティが低く、それらの間のユーザビリティが、図１７のＢの具体例とされる。そのため、表示制御装置１０では、内部変換テーブルを参照して、図１７のＢ又は図１７のＣの具体例で示した誤変換吸収とコマンド変換の処理が実行されるようにしている。

（非表示領域の対応の例）
ところで、クイック設定メニュー重畳画面１５２において、クイック設定メニュー１７１では、各種の設定項目１７２に含まれるアイテム（読み上げ対象）が、表示画面内に全て表示されずに、表示画面外にも存在する場合があるのは、先に述べたとおりである。図１８は、表示画面外にアイテム（読み上げ対象）が存在する場合の対応の例を示している。

ここで、クイック設定メニュー重畳画面１５２において、テレビ番組映像１６１に重畳して表示されるクイック設定メニュー１７１の設定項目１７２に含まれるアイテムとして、"YYY"である文言が表示画面外（表示画面の右側の非表示領域）に存在する場合を想定する（図１８のＡ）。

この場合において、ユーザによって、「YYY」である音声発話がなされたとき（ＯＰ４１）、クイック設定メニュー重畳画面１５２では、クイック設定メニュー１７１の各種の設定項目１７２が、図中の右から左の方向にスクロールして（Ｓ３１）、読み上げられた"YYY"であるアイテムが、表示画面内に移動して表示される（図１８のＢ）。

これにより、ユーザは、表示画面外の設定項目１７２に含まれるアイテム（非表示の"YYY"である文言）を読み上げて、設定動作の音声操作を行うとともに、表示画面内にスクロールして表示される"YYY"であるアイテムにより、自身が音声発話した文言を視認することができる。つまり、ユーザは、自分の発話に対して正しい選択がなされたかどうかを確認することで、音声発話に対する動作の確実性を向上させることができる。

このように、表示制御装置１０（の制御部１０１）では、ユーザによる音声操作に応じて、表示画面内のアイテム（第１のアイテム）、又は表示画面外のスクロールすることで表示可能なアイテム（第２のアイテム）を選択して、選択したアイテムに応じた動作を制御することができる。

また、表示画面内及び表示画面外の少なくとも一方に、同一のアイテム（例えば、"ON"等）が複数存在する場合には、表示画面の左上の位置に最も近い位置に存在するアイテムを優先させればよい。図１９及び図２０は、表示画面内又は表示画面外にアイテムが存在する場合の対応の例を示している。

まず、図１９のＡを参照して、表示画面内に同一のアイテムが複数存在する場合を説明する。

例えば、クイック設定メニュー重畳画面１５２において、表示画面内のクイック設定メニュー１７１の各種の設定項目１７２に、"YYY"であるアイテムが２つ存在する場合に、ユーザによって「YYY」である音声発話がなされたときを想定する（図１９のＡ）。このとき、表示画面内の２つのアイテムのうち、破線の円で囲まれたアイテムの位置のほうが、表示画面の左上の位置に近いため、左側の"YYY"であるアイテムが優先して選択される（図１９のＡ）。

次に、図１９のＢを参照して、表示画面外に同一のアイテムが複数存在する場合を説明する。

例えば、クイック設定メニュー重畳画面１５２において、表示画面外のクイック設定メニュー１７１の設定項目１７２に、"YYY"であるアイテムが２つ存在する場合に、ユーザによって「YYY」である音声発話がなされたときを想定する（図１９のＢ）。このとき、表示画面外の２つのアイテムのうち、破線の円で囲まれたアイテムの位置のほうが、表示画面の左上の位置に近いため、左側の"YYY"であるアイテムが優先して選択される（図１９のＢ）。

次に、図２０のＣと図２０のＤを参照して、表示画面内と表示画面外に同一のアイテムが複数存在する場合を説明する。

例えば、クイック設定メニュー重畳画面１５２において、表示画面内と表示画面外の両方の設定項目１７２に、"YYY"であるアイテムがそれぞれ存在する場合に、ユーザによって「YYY」である音声発話がなされたときを想定する（図２０のＣ）。このとき、表示画面内と表示画面外の２つのアイテムのうち、破線の円で囲まれた表示画面内のアイテムの位置のほうが、表示画面の左上の位置に近いため、左側の"YYY"であるアイテムが優先して選択される（図２０のＣ）。

また、例えば、クイック設定メニュー重畳画面１５２において、表示画面内と表示画面外の両方の設定項目１７２に、"YYY"であるアイテムがそれぞれ存在する場合に、ユーザによって「YYY」である音声発話がなされたときを想定する（図２０のＤ）。このとき、表示画面内と表示画面外の２つのアイテムのうち、破線の円で囲まれたアイテムの位置のほうが、表示画面の左上の位置からは遠いが、表示画面内に存在するため、右側の"YYY"であるアイテムが優先して選択される（図２０のＤ）。

換言すれば、このとき、表示画面外の"YYY"であるアイテムの位置のほうが、表示画面の左上の位置に近いが、表示画面外よりも表示画面内の"YYY"であるアイテムを優先している。すなわち、表示画面内と表示画面外の両方に、アイテムがそれぞれ存在する場合には、まず、表示画面外よりも表示画面内のアイテムを優先するという第１の条件を適用してから、その後に、表示画面の左上の位置に近いアイテムを優先するという第２の条件を適用することになる。

なお、図１９及び図２０においては、同一のアイテムが２つ存在する場合を説明したが、同一のアイテムが３つ以上存在する場合であっても同様に、表示画面外よりも表示画面内のアイテムを優先しつつ、表示画面の左上の位置に近い位置に存在するアイテムを優先して選択することができる。

次に、図２１及び図２２のフローチャートを参照して、表示制御装置１０により実行されるアイテム選択処理の流れを説明する。

なお、図２１に示したアイテム選択処理は、ユーザによって音声発話がなされたときに実行される。

ステップＳ１０１において、制御部１０１は、ユーザの音声発話の認識結果に基づいて、同一のアイテムが複数存在するかどうかを判定する。

ステップＳ１０１において、アイテムが１つしか存在しないと判定された場合、処理は、ステップＳ１０２に進められる。ステップＳ１０２において、制御部１０１は、表示画面内にアイテムが存在するかどうかを判定する。

ステップＳ１０２において、表示画面内にアイテムが存在すると判定された場合、処理は、ステップＳ１０３に進められる。ステップＳ１０３において、制御部１０１は、表示画面内のアイテムを選択する。そして、制御部１０１は、選択したアイテムに応じた動作を制御する。

一方で、ステップＳ１０２において、表示画面内にアイテムが存在しないと判定された場合、処理は、ステップＳ１０４に進められる。ステップＳ１０４において、制御部１０１は、表示画面外にアイテムが存在するかどうかを判定する。

ステップＳ１０４において、表示画面外にアイテムが存在すると判定された場合、処理は、ステップＳ１０５に進められる。ステップＳ１０５において、制御部１０１は、表示画面外のアイテムを選択し、選択したアイテムをスクロールして表示画面内に表示する（例えば、図１８のＡ，図１８のＢの具体例）。そして、制御部１０１は、選択したアイテムに応じた動作を制御する。

なお、ステップＳ１０４において、表示画面外にアイテムが存在しないと判定された場合、表示画面内と表示画面外の両方にアイテムが存在しないため、アイテム選択処理は終了される。

また、ステップＳ１０１において、同一のアイテムが複数存在すると判定された場合、処理は、ステップＳ１０６に進められる。ステップＳ１０６において、制御部１０１は、同一アイテム選択処理を実行する。この同一アイテム選択処理の詳細は、図２２のフローチャートに示している。

すなわち、ステップＳ１２１において、制御部１０１は、表示画面外にのみ、同一のアイテムが存在するかどうかを判定する。

ステップＳ１２１において、表示画面内にも同一のアイテムが存在すると判定された場合、処理は、ステップＳ１２２に進められる。ステップＳ１２２において、制御部１０１は、表示画面内で、表示画面の左上の位置（基準位置）に最も近い位置に存在するアイテムを優先して選択する（例えば、図１９のＡ，図２０のＡ，図２０のＢの具体例）。そして、制御部１０１は、選択したアイテムに応じた動作を制御する。

一方で、ステップＳ１２１において、表示画面外にのみ、同一のアイテムが存在すると判定された場合、処理は、ステップＳ１２３に進められる。ステップＳ１２３において、制御部１０１は、表示画面外で、表示画面の左上の位置（基準位置）に最も近い位置に存在するアイテムを優先して選択する（例えば、図１９のＢの具体例）。また、制御部１０１は、選択したアイテムに応じた動作を制御する。

ステップＳ１２２又はＳ１２３の処理が終了すると、処理は、図２１のステップＳ１０６に戻され、アイテム選択処理は終了される。

以上、アイテム選択処理の流れについて説明した。

（アイテムの縮小表示の例）
上述した説明では、選択される第２のアイテム（表示画面外のアイテム）として、スクロールにより表示可能なアイテム（図１８）を説明したが、スクロールに限らず、他の方法で表示可能なアイテムが選択されるようにしてもよい。例えば、図２３は、第２のアイテム（表示画面外のアイテム）として、当該アイテムの大きさ（サイズ）を縮小することで、表示可能なアイテムを選択する例を示している。

ここで、クイック設定メニュー重畳画面１５２において、テレビ番組映像１６１に重畳して表示されるクイック設定メニュー１７１に含まれる複数の設定項目１７２のうち、一部の設定項目１７２のみが表示される場合を想定する（図２３のＡ）。

この場合において、ユーザによって、「YYY」である音声発話がなされたとき、クイック設定メニュー１７１では、各設定項目１７２の大きさが縮小され、表示中の設定項目１７２が6個（6個×1行）から20個（10個×2行）に増加することで、読み上げられた"YYY"であるアイテムが、表示画面内に表示される（図２３のＢ）。

このとき、図２３のＢのクイック設定メニュー重畳画面１５２を、図２３のＡのクイック設定メニュー重畳画面１５２と比べれば、クイック設定メニュー１７１の領域の大きさ自体は変化していないが、各設定項目１７２の大きさが縮小された分だけ、より多くの設定項目１７２が表示されている。

これにより、ユーザは、表示画面外の設定項目１７２に含まれるアイテム（非表示の"YYY"である文言）を読み上げて、設定動作の音声操作を行うとともに、表示画面内に縮小して表示される"YYY"であるアイテムにより、自身が音声発話した文言を視認することができる。つまり、ユーザは、自分の発話に対して正しい選択がなされたかどうかを確認することで、音声発話に対する動作の確実性を向上させることができる。

このように、表示制御装置１０（の制御部１０１）では、ユーザによる音声操作に応じて、表示画面内のアイテム（第１のアイテム）、又は表示画面外のアイテムの大きさ（サイズ）を縮小することで表示可能なアイテム（第２のアイテム）を選択して、選択したアイテムに応じた動作を制御することができる。

（領域の拡大表示の例）
また、例えば、図２４は、第２のアイテム（表示画面外のアイテム）として、当該アイテムを表示する領域を拡大することで、表示可能なアイテムを選択する例を示している。

ここで、クイック設定メニュー重畳画面１５２において、クイック設定メニュー１７１に含まれる複数の設定項目１７２のうち、一部の設定項目１７２のみが表示される場合を想定する（図２４のＡ）。

この場合において、ユーザによって、「YYY」である音声発話がなされたとき、クイック設定メニュー重畳画面１５２では、テレビ番組映像１６１に重畳されたクイック設定メニュー１７１の領域（アイテムを表示する領域）が拡大され、表示中の設定項目１７２が6個（6個×1行）から12個（6個×2行）に増加することで、読み上げられた"YYY"であるアイテムが、表示画面内に表示される（図２４のＢ）。

このとき、図２４のＢのクイック設定メニュー重畳画面１５２を、図２４のＡのクイック設定メニュー重畳画面１５２と比べれば、各設定項目１７２の大きさ自体は変化していないが、クイック設定メニュー１７１の領域が拡大された分だけ、より多くの設定項目１７２が表示されている。

これにより、ユーザは、表示画面外の設定項目１７２に含まれるアイテム（非表示の"YYY"である文言）を読み上げて、設定動作の音声操作を行うとともに、表示画面内の領域が拡大して表示される"YYY"であるアイテムにより、自身が音声発話した文言を視認することができる。つまり、ユーザは、自分の発話に対して正しい選択がなされたかどうかを確認することで、音声発話に対する動作の確実性を向上させることができる。

このように、表示制御装置１０（の制御部１０１）では、ユーザによる音声操作に応じて、表示画面内のアイテム（第１のアイテム）、又は表示画面外のアイテムを表示する領域（アイテム表示領域）を拡大することで表示可能なアイテム（第２のアイテム）を選択して、選択したアイテムに応じた動作を制御することができる。

なお、ここでは、第２のアイテム（表示画面外のアイテム）を表示可能なアイテムとして選択する例として、図１８に示したスクロールの他に、図２３の例（アイテムの大きさを縮小する例）と、図２４の例（アイテムの表示領域を拡大する例）を説明したが、要は、表示画面外のアイテムが表示画面内に表示されればよいのであって、表示画面外のアイテムを表示可能な方法であれば、他の方法を用いてもよい。例えば、図２３の例と図２４の例とを組み合わせて、アイテムの大きさを縮小するとともに、アイテムの表示領域を拡大することで、より多くのアイテムの中から所望のアイテムが選択されて表示されるようにしてもよい。

また、図２３の例と図２４の例では、クイック設定メニュー重畳画面１５２のクイック設定メニュー１７１を一例に説明したが、入力切換メニュー重畳画面１５３の入力切換メニュー１８１、又はテレビメニュー重畳画面１５４のテレビメニュー１９１についても、メニューの内容に応じた同様のアイテム選択を行うことができる。

（階層メニューの例）
図２５は、クイック設定メニュー重畳画面１５２の表示の例を示している。

クイック設定メニュー重畳画面１５２において、クイック設定メニュー１７１には、表示画面の水平方向に各種の設定項目１７２が並べられている。この設定項目１７２としては、例えば、"Dynamic"が設定されたピクチャオート、"Cinema"が設定されたサウンドモード、"25"が設定された輝度、"Off"が設定されたピクチャモード、"Off"が設定されたピクチャオフなどの設定項目（アイテム）が表示される。

ここで、ユーザによって、クイック設定メニュー１７１に表示された各種の設定項目１７２の中から、所望の設定項目が選択された場合、選択された設定項目に応じた設定値１７４が表示される。

具体的には、所望の設定項目として、「ピクチャモード」である音声発話がなされた場合、クイック設定メニュー１７１における各種の設定項目１７２のうちのピクチャモードの設定項目が、表示画面の垂直方向に伸びて、ピクチャモードに応じた設定値１７４が表示される。この設定値１７４としては、例えば、"Graphics"，"Vivid"，"Game-HDR"，"Game-4K"，"Game-Standard"，"Sports"，"Cinema"，"Dynamic"，"Standard"などのピクチャモードに関するパラメータ（アイテム）がアイコンとともに表示される。

これにより、ユーザは、所望の設定項目（アイテム）として選択されたピクチャモードに関する設定値１７４の中から、所望の設定値（アイテム）を選択することができる。具体的には、例えば、ユーザにより、「ビビッド（鮮やか）」である音声発話がなされた場合、表示制御装置１０では、ピクチャモードとして"Vivid"を設定する設定動作が行われる。

図２６は、スマートボイスモード時における階層メニューの遷移の例を示している。

表示制御装置１０においては、リモコン操作モード時に、ユーザにより、「Service XXX，クイック設定」である音声発話がなされた場合（ＯＰ５１）、動作モードがスマートボイスモードに遷移し、クイック設定メニュー重畳画面１５２－１が表示される。このクイック設定メニュー重畳画面１５２－１では、クイック設定メニュー１７１の第１階層Ｌ１として、表示画面の水平方向に各種の設定項目１７２が表示される。

このとき、ユーザは、クイック設定メニュー１７１におけるアイテム表示領域に含まれるアイテムに対する各種の音声操作を行うことができる（ＯＰ５２）。

ここでは、例えば、第１階層Ｌ１としての設定項目１７２をスクロールさせるための音声操作などを行うことができる。また、例えば、クイック設定メニュー１７１の終了を指示する「閉じる」や、所定の機能を実行させる音声操作がなされた場合（ＯＰ５３）、クイック設定メニュー１７１は終了し、動作モードがリモコン操作モードに遷移する。

また、例えば、ユーザによって、「ピクチャモード」である音声発話がなされた場合（ＯＰ５４）、クイック設定メニュー重畳画面１５２－２が表示される。このクイック設定メニュー重畳画面１５２－２では、クイック設定メニュー１７１の第２階層Ｌ２として、選択されたピクチャモードの設定項目が表示画面の垂直方向に伸びることで、表示画面の垂直方向にピクチャモードに関する設定値１７４が表示される。

このとき、ユーザは、クイック設定メニュー１７１におけるアイテム表示領域に含まれるアイテムに対する各種の音声操作を行うことができる（ＯＰ５５）。

ここでは、例えば、クイック設定メニュー１７１の終了を指示する「閉じる」や、所定の機能を実行させる音声操作がなされた場合（ＯＰ５６）、クイック設定メニュー１７１は終了し、動作モードがリモコン操作モードに遷移する。また、例えば、ユーザによって、「ビビッド」である音声発話がなされた場合（ＯＰ５５）、表示制御装置１０では、ピクチャモードとして"Vivid"を設定する設定動作が行われる（ＯＰ５６）。

このように、クイック設定メニュー１７１においては、表示画面の水平方向に表示されるピクチャオートやピクチャモード等の各種の設定項目１７２を含む第１階層Ｌ１と、表示画面の垂直方向（水平方向と直交する方向）に表示される"Graphics"や"Vivid"等の各種の設定値１７４を含む第２階層Ｌ２によって、階層メニューを実現している。そして、読み上げ対象のアイテムとして、第１階層Ｌ１における設定項目１７２に含まれる１又は複数の第１の階層アイテムと、第２階層Ｌ２における設定値１７４に含まれる１又は複数の第２の階層アイテムが存在している。

この階層メニューによって、第１階層Ｌ１として表示される各種の設定項目１７２（に含まれる第１の階層アイテム）の中から選択された所望の設定項目１７２（に含まれる第１の階層アイテム）に対して設定可能な各種の設定値１７４（に含まれる第２の階層アイテム）が、第２階層Ｌ２として表示されるため、ユーザは、第２階層Ｌ２に表示された各種の設定値１７４を比較しながら、所望の設定値（アイテム）を選択することができる。

なお、選択された所望の設定項目１７２に設定可能な設定値１７４が第２階層Ｌ２として表示されている場合であっても、第１階層Ｌ１における他の設定項目１７２を選択することができる。一方で、第１階層Ｌ１における各種の設定項目１７２（に含まれる第１の階層アイテム）のみが表示されている場合においては、第２階層Ｌ２における各種の設定値１７４（に含まれる第２の階層アイテム）、すなわち、非表示の項目（第２の階層アイテム）は選択することができない。これにより、ユーザの音声発話に対して誤った項目が選択されるのを防止することができる。

例えば、図２６の例では、第１階層Ｌ１で設定項目１７２としてピクチャモードである第１の階層アイテムが選択され、第２階層Ｌ２に設定値１７４として当該ピクチャモードに関する第２の階層アイテムが表示された状態となっている。この状態において、例えば、ユーザが「サウンドモード」である音声発話を行えば、第１階層Ｌ１における設定項目１７２の選択が、ピクチャモードからサウンドモードである第１の階層アイテムに変更され、第２階層Ｌ２には、設定値１７４として当該サウンドモードに関する第２の階層アイテム（例えば、Cinema，News，Sports，Music，Game等）が表示される。

一方で、この例の状態で、第１階層Ｌ１における設定項目１７２として選択されていない他の第１の階層アイテムに応じた１又は複数の第２の階層アイテム（未選択の第１の階層アイテムに応じた１又は複数の第２の階層アイテム）、すなわち、第２階層Ｌ２として非表示の設定値１７４に関する発話を行っても、当該音声発話に応じた設定値を選択することはできない。これにより、ユーザの音声発話に対して誤った項目が選択されるのを防ぐと同時に、第１階層Ｌ１における他の設定項目を簡単に選択することができ、ユーザの操作性を向上させることができる。

また、第２階層Ｌ２においては、表示される各種の設定値１７４のうち、現在選択中の設定値（第２の階層アイテム）を識別可能に表示している。例えば、第２階層Ｌ２内のハッチングで示しているように、ピクチャモードの設定値として"Vivid"が選択された場合には、"Vivid"である設定値にカーソルを合わせたりして、現在選択中の設定値が識別されるようにする。

次に、図２７のフローチャートを参照して、表示制御装置１０により実行されるクイック設定メニュー操作対応処理の流れを説明する。

なお、図２７のクイック設定メニュー操作対応処理は、ユーザによって音声発話がなされたときに実行される。

ステップＳ１４１において、制御部１０１は、ユーザにより「Service XXX，クイック設定」である音声発話がなされた場合、クイック設定メニュー重畳画面１５２－１を、表示部１０４表示する。

ステップＳ１４２において、制御部１０１は、例えばユーザにより「ピクチャモード」等の第１の階層アイテムの音声発話がなされ、クイック設定メニュー１７１における第１階層Ｌ１の設定項目１７２（に含まれる第１の階層アイテム）が選択されたかどうかを判定する。

ステップＳ１４２において、第１階層Ｌ１の設定項目１７２が選択されていないと判定された場合、ステップＳ１４２の判定処理が繰り返される。また、ステップＳ１４２において、第１階層Ｌ１の設定項目１７２が選択されたと判定された場合、処理は、ステップＳ１４３に進められる。

ステップＳ１４３において、制御部１０１は、選択された第１階層Ｌ１の設定項目１７２の設定値１７４を、第２階層Ｌ２として表示する。これにより、表示部１０４には、第２階層Ｌ２として、例えばピクチャモードに関する設定値１７４が重畳されたクイック設定メニュー重畳画面１５２－２が表示される。

ステップＳ１４４において、制御部１０１は、例えばユーザにより「ビビッド」等の第２の階層アイテムの音声発話がなされ、クイック設定メニュー１７１における第２階層Ｌ２の設定値１７４（に含まれる第２の階層アイテム）が選択されたかどうかを判定する。

ステップＳ１４４において、第２階層Ｌ２の設定値１７４が選択されていないと判定された場合、処理は、ステップＳ１４５に進められる。ステップＳ１４５において、制御部１０１は、例えばユーザにより「サウンドモード」等の他の第１の階層アイテムの音声発話がなされ、第１階層Ｌ１の他の設定項目１７２が選択されたかどうかを判定する。

ステップＳ１４５において、第１階層Ｌ１の他の設定項目１７２が選択されていないと判定された場合、処理は、ステップＳ１４４に戻り、ステップＳ１４４の判定処理が繰り返される。また、ステップＳ１４５において、第１階層Ｌ１の他の設定項目１７２が選択されたと判定された場合、処理は、ステップＳ１４３に戻り、ステップＳ１４３以降の処理が繰り返される。すなわち、この場合、例えば、クイック設定メニュー重畳画面１５２－２では、第２階層Ｌ２として、例えばサウンドモードに関する設定値１７４が表示される。

一方で、ステップＳ１４４において、第２階層Ｌ２の設定値１７４が選択されたと判定された場合、処理は、ステップＳ１４６に進められる。

ステップＳ１４６において、制御部１０１は、選択された第２階層Ｌ２の設定値１７４に応じた設定動作を行う。ここでは、例えば、ピクチャモードとして、"Vivid"を設定する設定動作が行われる。そして、ステップＳ１４６の処理が終了すると、クイック設定メニュー操作対応処理は終了される。

以上、クイック設定メニュー操作対応処理の流れについて説明した。

（全体の俯瞰イメージの例）
図２８は、表示制御装置１０の動作に関する全体の俯瞰イメージの例を示している。

表示制御装置１０は、テレビ視聴画面１５０を表示する場合には、リモコン操作モードで動作する一方で、クイック設定メニュー重畳画面１５２、入力切換メニュー重畳画面１５３、及びテレビメニュー重畳画面１５４を表示する場合には、スマートボイスモードで動作する。

表示制御装置１０では、テレビ視聴画面１５０の表示時に、「Service XXX，クイック設定」である音声発話がなされた場合（ＯＰ６１）、クイック設定メニュー重畳画面１５２（１５２－１）が表示される。

クイック設定メニュー重畳画面１５２において、クイック設定メニュー１７１は、階層メニュー構造を有しており、第１階層Ｌ１の設定項目１７２が選択された場合（ＯＰ６２）、第２階層Ｌ２の設定値１７４が表示される。表示制御装置１０では、クイック設定メニュー１７１として、第１階層Ｌ１の設定項目１７２を表示しているとき、又は第１階層Ｌ１の設定項目１７２とともに第２階層Ｌ２の設定値１７４を表示しているとき、音声待ち受け中、音声発話中、及び実行中の３状態の遷移が繰り返され、音声発話に応じたコマンドが実行され得る。

なお、クイック設定メニュー重畳画面１５２（１５２－１，１５２－２）の表示時に、「閉じる」である音声発話がなされたり、所定の機能が実行されたり、あるいはリモコン操作がなされた場合（ＯＰ６３，ＯＰ６４）、クイック設定メニュー１７１の重畳が解除され、テレビ視聴画面１５０に表示が切り換えられる。

また、表示制御装置１０では、テレビ視聴画面１５０の表示時に、「Service XXX，入力切換」である音声発話がなされた場合（ＯＰ６５）、入力切換メニュー重畳画面１５３が表示される。表示制御装置１０では、入力切換メニュー重畳画面１５３の表示時に、音声待ち受け中、音声発話中、及び実行中の３状態の遷移が繰り返され、音声発話に応じたコマンドが実行され得る。

なお、入力切換メニュー重畳画面１５３の表示時に、「閉じる」である音声発話がなされたり、所定の機能が実行されたり、あるいはリモコン操作がなされた場合（ＯＰ６６）、入力切換メニュー１８１の重畳が解除され、テレビ視聴画面１５０に表示が切り換えられる。

さらに、表示制御装置１０では、テレビ視聴画面１５０の表示時に、「Service XXX，テレビメニュー」である音声発話がなされた場合（ＯＰ６７）、テレビメニュー重畳画面１５４が表示される。表示制御装置１０では、テレビメニュー重畳画面１５４の表示時に、音声待ち受け中、音声発話中、及び実行中の３状態の遷移が繰り返され、音声発話に応じたコマンドが実行され得る。

なお、テレビメニュー重畳画面１５４の表示時に、「閉じる」である音声発話がなされたり、所定の機能が実行されたり、あるいはリモコン操作がなされた場合（ＯＰ６８）、テレビメニュー１９１の重畳が解除され、テレビ視聴画面１５０に表示が切り換えられる。

また、表示制御装置１０において、リモコン操作モード動作時の音声操作は、エージェントモードに遷移することで実現され、音声AIアシスタントサービスのプラットフォームを提供するサービス提供者により管理される。一方で、表示制御装置１０において、スマートボイスモード動作時の音声操作は、テレビ受像機等の表示制御装置１０の設計や製造等を行うメーカにより管理される。

＜２．変形例＞

上述した説明において、表示制御装置１０は、テレビ受像機であるとして説明したが、それに限らず、例えば、ディスプレイ装置、パーソナルコンピュータ、タブレット端末、スマートフォン、携帯電話機、ヘッドマウントディスプレイ、ゲーム機などの電子機器であってもよい。

また、上述した説明において、表示制御装置１０は、液晶表示部やOLED表示部等の表示部を含むテレビ受像機であるとして説明したが、表示制御装置１０は、表示部１０４を含まない構成としてもよい。表示部１０４を含まない表示制御装置１０としては、例えば、セットトップボックスや録画機、再生機（プレイヤ）等の電子機器を含む。

また、上述した説明では、表示制御装置１０に対する操作として、ユーザによるリモコン操作又は音声操作が行われる場合を説明したが、それに限らず、例えば、表示制御装置１０に対してカメラ部を設けて、所定のジェスチャをするユーザを撮影して得られる撮影画像を解析することで、ジェスチャ操作などが行われてもよい。さらに、表示制御装置１０とリモートコントローラ１１とでは、近距離無線通信や赤外線通信に限らず、他の通信方式に従った通信が行われてもよい。ここでの通信方式は、無線通信に限らず、有線通信であってもよい。

＜３．コンピュータの構成＞

上述した一連の処理（例えば、図２１のアイテム選択処理や、図２７のクイック設定メニュー操作対応処理等）は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。図２９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

入力部１００６は、マイクロフォン、キーボード、マウスなどよりなる。出力部１００７は、スピーカ、ディスプレイなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されてもよいし、複数のコンピュータによって分散処理されてもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、上述した一連の処理の各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

なお、本技術は、以下のような構成をとることができる。

（１）
ユーザからの音声発話を受信する音声受信部と、
ネットワークを介して、第１のサーバから、前記音声発話に対する情報を受信する通信部と、
受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部と
を備え、
前記アイテムは、表示画面内の第１のアイテム、及びスクロールすることで表示可能な第２のアイテムを含み、
前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する
表示制御装置。
（２）
前記第２のアイテムは、前記第２のアイテムの大きさを縮小することで表示可能なアイテムを含む
前記（１）に記載の表示制御装置。
（３）
前記第２のアイテムは、前記第２のアイテムを表示する領域を拡大することで表示可能なアイテムを含む
前記（１）に記載の表示制御装置。
（４）
前記制御部は、コンテンツとともに表示されるメニューに対し、前記アイテムを含める
前記（１）乃至（３）のいずれかに記載の表示制御装置。
（５）
前記制御部は、前記アイテムとして、第１の階層に含まれる１又は複数の第１の階層アイテムと、第２の階層に含まれる１又は複数の第２の階層アイテムとを含める
前記（４）に記載の表示制御装置。
（６）
前記制御部は、前記第１の階層に含まれる前記第１の階層アイテムの中から、所望の第１の階層アイテムが選択された場合、選択された前記第１の階層アイテムに応じた１又は複数の第２の階層アイテムを含む前記第２の階層を表示する
前記（５）に記載の表示制御装置。
（７）
前記制御部は、前記第１の階層に含まれる前記第１の階層アイテムの中から、選択対象として、所望の第１の階層アイテムが選択された場合に、
次の選択対象として、前記第１の階層に含まれる他の第１の階層アイテム、及び前記第２の階層に含まれる選択された前記第１の階層アイテムに応じた１又は複数の第２の階層アイテムを含め、
前記次の選択対象として、未選択の第１の階層アイテムに応じた１又は複数の第２の階層アイテムを含めない
前記（５）又は（６）に記載の表示制御装置。
（８）
前記第１の階層アイテムは、推奨読み上げ項目を含み、
前記制御部は、前記推奨読み上げ項目に関連する関連項目に対する前記音声発話がなされた場合、前記関連項目に関連した前記推奨読み上げ項目に対する前記音声発話がなされたとみなす
前記（５）乃至（７）のいずれかに記載の表示制御装置。
（９）
前記第１の階層として表示される１又は複数の前記第１の階層アイテムが配置される第１の方向と、前記第２の階層として表示される１又は複数の前記第２の階層アイテムが配置される第２の方向とは、直交している
前記（５）乃至（８）のいずれかに記載の表示制御装置。
（１０）
前記制御部は、前記メニューに、前記音声発話に応じた音声操作に関するガイドを含める
前記（４）乃至（９）のいずれかに記載の表示制御装置。
（１１）
前記制御部は、
前記アイテムを、前記ユーザが識別可能に表示し、
前記アイテムの表示方法を前記ガイドに含める
前記（１０）に記載の表示制御装置。
（１２）
前記制御部は、
前記音声発話に応じた前記アイテムと同一のアイテムが複数存在する場合であって、前記表示画面内にも同一のアイテムが存在するとき、前記表示画面内で、表示画面の基準位置に最も近い位置に存在するアイテムを優先して選択し、
選択した前記アイテムに応じた動作を制御する
前記（４）乃至（１１）のいずれかに記載の表示制御装置。
（１３）
前記制御部は、
前記音声発話に応じた前記アイテムと同一のアイテムが複数存在する場合であって、表示画面外にのみ同一のアイテムが存在するとき、前記表示画面外で、表示画面の基準位置に最も近い位置に存在するアイテムを優先して選択し、
選択した前記アイテムに応じた動作を制御する
前記（４）乃至（１２）のいずれかに記載の表示制御装置。
（１４）
前記制御部は、
あらかじめ用意された誤変換の吸収用のテーブルを参照して、前記音声発話に応じたテキストの誤変換を吸収し、
誤変換が吸収された前記テキストをコマンドに変換する
前記（４）乃至（１３）のいずれかに記載の表示制御装置。
（１５）
前記制御部は、前記ユーザの音声発話中に、又は前記テキストをコマンドに変換する際に、前記テーブルを参照して、前記テキストの誤変換を吸収する
前記（１４）に記載の表示制御装置。
（１６）
前記通信部は、ネットワークを介して、あらかじめ用意された誤変換の吸収用のテーブルを参照して前記音声発話に応じたテキストの誤変換の修正を行う第２のサーバに対して前記音声発話に応じたテキストを送信して、前記第２のサーバから送信されてくる誤変換が修正された前記テキストを受信し、
前記制御部は、受信された前記テキストをコマンドに変換する
前記（４）乃至（１３）のいずれかに記載の表示制御装置。
（１７）
前記メニューは、設定メニューを含み、
前記第１の階層アイテムは、設定項目を含み、
前記第２の階層アイテムは、設定値を含む
前記（５）乃至（９）のいずれかに記載の表示制御装置。
（１８）
表示制御装置が、
ユーザからの音声発話を受信し、
ネットワークを介して、サーバから、前記音声発話に対する情報を受信し、
受信した前記情報に基づいて、前記音声発話に対応するアイテムとして、表示画面内の第１のアイテム、又はスクロールすることで表示可能な第２のアイテムを選択するとともに、選択した前記第１のアイテム又は前記第２のアイテムに応じた動作を制御する
表示制御方法。
（１９）
ユーザからの音声発話を受信する音声受信部と、
ネットワークを介して、サーバから、前記音声発話に対する情報を受信する通信部と、
受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部と
を備え、
前記アイテムは、表示画面内の第１のアイテム、及び前記アイテムの大きさを縮小することで表示可能な第２のアイテムを含み、
前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する
表示制御装置。
（２０）
ユーザからの音声発話を受信する音声受信部と、
ネットワークを介して、サーバから、前記音声発話に対する情報を受信する通信部と、
受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部と
を備え、
前記アイテムは、表示画面内の第１のアイテム、及び前記アイテムを表示する領域を拡大することで表示可能な第２のアイテムを含み、
前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する
表示制御装置。

１０，１０－１乃至１０－Ｎ表示制御装置，１１リモートコントローラ，２０放送配信システム，３０エージェントサーバ，４０テキスト変換サーバ，５０誤変換修正・形態素解析サーバ，６０ネットワーク，７０エージェント対応機器，１０１制御部，１０２信号入力部，１０３信号処理部，１０４表示部，１０５スピーカ，１０６通信部，１０７操作受付部，１０８マイクロフォン，１２１音声入力部，１２２コマンド処理部，１２３コマンド変換部，１２４誤変換対応部，１３１誤変換吸収部，１３２形態素解析部，３０１テキスト変換部，３０２コマンド変換部，４０１テキスト変換部，５０１誤変換対応部，５１１誤変換修正部，５１２形態素解析部，１０００コンピュータ，１００１ CPU

Claims

ユーザからの音声発話を受信する音声受信部と、
ネットワークを介して、第１のサーバから、前記音声発話に対する情報を受信する通信部と、
受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部と
を備え、
前記アイテムは、表示画面内の第１のアイテム、及びスクロールすることで表示可能な第２のアイテムを含み、
前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する
表示制御装置。
前記第２のアイテムは、前記第２のアイテムの大きさを縮小することで表示可能なアイテムを含む
請求項１に記載の表示制御装置。
前記第２のアイテムは、前記第２のアイテムを表示する領域を拡大することで表示可能なアイテムを含む
請求項１に記載の表示制御装置。
前記制御部は、コンテンツとともに表示されるメニューに対し、前記アイテムを含める
請求項１に記載の表示制御装置。
前記制御部は、前記アイテムとして、第１の階層に含まれる１又は複数の第１の階層アイテムと、第２の階層に含まれる１又は複数の第２の階層アイテムとを含める
請求項４に記載の表示制御装置。
前記制御部は、前記第１の階層に含まれる前記第１の階層アイテムの中から、所望の第１の階層アイテムが選択された場合、選択された前記第１の階層アイテムに応じた１又は複数の第２の階層アイテムを含む前記第２の階層を表示する
請求項５に記載の表示制御装置。
前記制御部は、前記第１の階層に含まれる前記第１の階層アイテムの中から、選択対象として、所望の第１の階層アイテムが選択された場合に、
次の選択対象として、前記第１の階層に含まれる他の第１の階層アイテム、及び前記第２の階層に含まれる選択された前記第１の階層アイテムに応じた１又は複数の第２の階層アイテムを含め、
前記次の選択対象として、未選択の第１の階層アイテムに応じた１又は複数の第２の階層アイテムを含めない
請求項５に記載の表示制御装置。
前記第１の階層アイテムは、推奨読み上げ項目を含み、
前記制御部は、前記推奨読み上げ項目に関連する関連項目に対する前記音声発話がなされた場合、前記関連項目に関連した前記推奨読み上げ項目に対する前記音声発話がなされたとみなす
請求項５に記載の表示制御装置。
前記第１の階層として表示される１又は複数の前記第１の階層アイテムが配置される第１の方向と、前記第２の階層として表示される１又は複数の前記第２の階層アイテムが配置される第２の方向とは、直交している
請求項５に記載の表示制御装置。
前記制御部は、前記メニューに、前記音声発話に応じた音声操作に関するガイドを含める
請求項４に記載の表示制御装置。
前記制御部は、
前記アイテムを、前記ユーザが識別可能に表示し、
前記アイテムの表示方法を前記ガイドに含める
請求項１０に記載の表示制御装置。
前記制御部は、
前記音声発話に応じた前記アイテムと同一のアイテムが複数存在する場合であって、前記表示画面内にも同一のアイテムが存在するとき、前記表示画面内で、表示画面の基準位置に最も近い位置に存在するアイテムを優先して選択し、
選択した前記アイテムに応じた動作を制御する
請求項４に記載の表示制御装置。
前記制御部は、
前記音声発話に応じた前記アイテムと同一のアイテムが複数存在する場合であって、表示画面外にのみ同一のアイテムが存在するとき、前記表示画面外で、表示画面の基準位置に最も近い位置に存在するアイテムを優先して選択し、
選択した前記アイテムに応じた動作を制御する
請求項４に記載の表示制御装置。
前記制御部は、
あらかじめ用意された誤変換の吸収用のテーブルを参照して、前記音声発話に応じたテキストの誤変換を吸収し、
誤変換が吸収された前記テキストをコマンドに変換する
請求項４に記載の表示制御装置。
前記制御部は、前記ユーザの音声発話中に、又は前記テキストをコマンドに変換する際に、前記テーブルを参照して、前記テキストの誤変換を吸収する
請求項１４に記載の表示制御装置。
前記通信部は、ネットワークを介して、あらかじめ用意された誤変換の吸収用のテーブルを参照して前記音声発話に応じたテキストの誤変換の修正を行う第２のサーバに対して前記音声発話に応じたテキストを送信して、前記第２のサーバから送信されてくる誤変換が修正された前記テキストを受信し、
前記制御部は、受信された前記テキストをコマンドに変換する
請求項４に記載の表示制御装置。
前記メニューは、設定メニューを含み、
前記第１の階層アイテムは、設定項目を含み、
前記第２の階層アイテムは、設定値を含む
請求項５に記載の表示制御装置。
表示制御装置が、
ユーザからの音声発話を受信し、
ネットワークを介して、サーバから、前記音声発話に対する情報を受信し、
受信した前記情報に基づいて、前記音声発話に対応するアイテムとして、表示画面内の第１のアイテム、又はスクロールすることで表示可能な第２のアイテムを選択するとともに、選択した前記第１のアイテム又は前記第２のアイテムに応じた動作を制御する
表示制御方法。
ユーザからの音声発話を受信する音声受信部と、
ネットワークを介して、サーバから、前記音声発話に対する情報を受信する通信部と、
受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部と
を備え、
前記アイテムは、表示画面内の第１のアイテム、及び前記アイテムの大きさを縮小することで表示可能な第２のアイテムを含み、
前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する
表示制御装置。
ユーザからの音声発話を受信する音声受信部と、
ネットワークを介して、サーバから、前記音声発話に対する情報を受信する通信部と、
受信した前記情報に基づいて、前記音声発話に対応するアイテムを選択するとともに、選択した前記アイテムに応じた動作を制御する制御部と
を備え、
前記アイテムは、表示画面内の第１のアイテム、及び前記アイテムを表示する領域を拡大することで表示可能な第２のアイテムを含み、
前記制御部は、受信した前記情報に基づいて、前記第１のアイテム又は前記第２のアイテムを選択する
表示制御装置。