JP2019153314A

JP2019153314A - 映像処理装置及びその制御方法、並びに映像処理システム

Info

Publication number: JP2019153314A
Application number: JP2019063726A
Authority: JP
Inventors: 周瑛李; Joo-Yeong Lee; 相信朴; Sang-Shin Park; 鍾 ▲ちょる▼ 朴; Jong-Cheol Park
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-01-17
Filing date: 2019-03-28
Publication date: 2019-09-12
Anticipated expiration: 2033-11-08
Also published as: EP2757465A2; BR112015015395A2; EP2757465B1; US9392326B2; JP6824316B2; MX343941B; JP2014138421A; KR20140096202A; CN108446095B; WO2014112706A1; CN103945250B; EP2757465A3; CN108446095A; BR112015015395B1; KR102019719B1; US20140200896A1; JP6505966B2; MX2015009063A; CN103945250A

Abstract

【課題】音声認識によって動作が行われる映像処理装置において、ユーザーに簡単な短文の命令語を容易に案内する。【解決手段】映像処理装置は、映像信号を映像で表示されるように処理する映像処理部と、ユーザーの発話が入力される音声入力部と、少なくとも一つの短文音声命令、及び短文音声命令の対応動作を保存する保存部と、会話文音声命令を分析して会話文音声命令の対応動作を判断するサーバーと通信する通信部と、発話に対応する第１音声命令が保存部に保存された短文音声命令である場合に、保存部に保存された短文音声命令に該当する対応動作が行われるように処理し、第１音声命令が保存部に保存された短文音声命令でない場合に、第１音声命令を通信部に伝達する音声処理部と、サーバーにより判断された対応動作が保存部に保存された対応動作である場合に、対応動作に該当する短文音声命令を案内する案内映像を表示する制御部と、を備える。【選択図】図１

Description

本発明は、外部から入力される放送信号などの映像信号を映像で表示されるように処理する映像処理装置及びその制御方法、並びに映像処理システムに係り、特に、ユーザーの発話を認識し、当該発話に対応する機能又は動作を実行することができる映像処理装置及びその制御方法、並びに映像処理システムに関する。

映像処理装置は、外部から入力される映像信号／映像データを様々な映像処理プロセスに従って処理する。映像処理装置は、処理された映像信号を、自身のディスプレイパネル上に映像で表示するものであってもよく、又は処理された映像信号を、ディスプレイパネルを備えている別のディスプレイ装置で映像として表示されるように該ディスプレイ装置に出力するものであってもよい。すなわち、映像処理装置としては、映像信号を処理可能な装置であれば、映像を表示可能なパネルを備えている装置も、パネルを備えていない装置も使用可能であり、電子の例にはＴＶがあり、後者の例にはセットトップボックス（ｓｅｔ−ｔｏｐｂｏｘ）がある。

映像処理装置は技術の発展に伴って様々な機能の追加及び拡張が続いており、これに対応して、ユーザーの意図を反映したコマンドを映像処理装置に入力する構成についても様々な構造又は方法が提案されている。例えば、従来ではユーザーがリモコン（ｒｅｍｏｔｅｃｏｎｔｒｏｌｌｅｒ）上のキー／ボタンを押すと、リモコンが、ユーザーの所望する動作を実行させる制御信号を映像処理装置に伝送する構成だったが、最近では、映像処理装置がユーザーによるモーション又は発話などを感知し、感知した内容を分析して対応動作を実行させる等、ユーザーの意図を反映して映像処理装置を制御する様々な構成が提案されている。

本発明は、音声認識によって動作が行われる映像処理装置において、ユーザーに簡単な短文の命令語を容易に案内することができる映像処理装置を提供することを目的とする。

本発明の実施例に係る映像処理装置は、映像信号を映像で表示されるように処理する映像処理部と、ユーザーの発話が入力される音声入力部と、少なくとも一つの短文音声命令、及び前記短文音声命令の対応動作を保存する保存部と、会話文音声命令を分析して前記会話文音声命令の対応動作を判断するサーバーと通信する通信部と、前記発話に対応する第１音声命令が前記保存部に保存された前記短文音声命令である場合に、前記保存部に保存された前記短文音声命令に該当する対応動作が行われるように処理し、前記第１音声命令が前記保存部に保存された前記短文音声命令でない場合に、前記第１音声命令を前記通信部に伝達する音声処理部と、前記サーバーにより判断された対応動作が前記保存部に保存された対応動作である場合に、前記対応動作に該当する短文音声命令を案内する案内映像を表示する制御部と、を備えることを特徴とする。

ここで、前記保存部は、前記短文音声命令及び前記対応動作のリストを保存し、前記音声処理部は、前記第１音声命令が前記リストにあるか否か検索し、前記第１音声命令が前記リストから検索されないと、前記第１音声命令を前記通信部に伝達してもよい。

ここで、前記制御部は、前記サーバーから前記第１音声命令に基づいて伝送される制御コマンドによって前記第１音声命令の前記対応動作を判断してもよい。

また、前記発話が前記音声入力部に入力される時点から前記対応動作の実行までの所要時間は、前記第１音声命令が前記短文音声命令である場合が、前記第１音声命令が前記短文音声命令でない場合に比べてより短くてもよい。

また、前記制御部は、複数の前記発話にそれぞれ対応する複数の前記音声命令が順次に入力される場合又はあらかじめ設定された第２音声命令が入力される場合によってあらかじめ設定された対応動作が実行されるように指定された状態で、前記複数の音声命令が順次に入力されると、前記第２音声命令を案内する前記案内映像を表示してもよい。

また、前記通信部は、前記発話をテキストの音声命令に変換するＳＴＴ（ｓｐｅｅｃｈ−ｔｏ−ｔｅｘｔ）サーバーと通信し、前記制御部は、前記音声入力部に前記発話が入力されると、前記発話の音声信号を前記ＳＴＴサーバーに伝送し、前記ＳＴＴサーバーから前記発話に対応する前記音声命令を受信してもよい。

また、前記映像処理装置は、前記映像処理部により処理される映像信号を映像で表示するディスプレイ部をさらに備えていてもよい。

また、本発明の実施例に係る映像処理装置の制御方法は、ユーザーの発話が入力されるステップと、前記発話に対応する第１音声命令が前記映像処理装置に保存された短文音声命令である場合に、前記映像処理装置に保存された前記短文音声命令に該当する対応動作を実行するステップと、前記発話に対応する第１音声命令が前記映像処理装置に保存された短文音声命令でない場合に、会話文音声命令を分析して前記会話文音声命令の対応動作を判断するサーバーに、前記第１音声命令を伝達するステップと、を含み、前記サーバーに前記第１音声命令を伝達するステップは、前記サーバーにより判断された対応動作が前記映像処理装置に保存された対応動作であれば、前記対応動作に該当する短文音声命令を案内する案内映像を表示するステップを含むことを特徴とする。

ここで、前記映像処理装置は、前記短文音声命令及び前記対応動作のリストを保存しており、前記サーバーに前記第１音声命令を伝達するステップは、前記第１音声命令が前記リストから検索されないと、前記第１音声命令を前記サーバーに伝達するステップを含んでもよい。

ここで、前記対応動作に該当する短文音声命令を案内する案内映像を表示するステップは、前記サーバーから前記第１音声命令に基づいて伝送される制御コマンドによって前記第１音声命令の前記対応動作を判断するステップを含んでもよい。

また、前記対応動作に該当する短文音声命令を案内する案内映像を表示するステップは、複数の前記発話にそれぞれ対応する複数の前記音声命令が順次に入力される場合又はあらかじめ設定された第２音声命令が入力される場合によってあらかじめ設定された対応動作が実行されるように指定された状態で、前記複数の音声命令が順次に入力されると、前記第２音声命令を案内する前記案内映像を表示するステップを含んでもよい。

また、前記ユーザーの発話が入力されるステップは、前記発話をテキストの音声命令に変換するＳＴＴサーバーに前記発話の音声信号を伝送するステップと、前記ＳＴＴサーバーから前記発話に対応する前記音声命令を受信するステップと、を含んでもよい。

また、本発明の実施例に係る映像処理システムは、映像信号を映像で表示されるように処理する映像処理装置と、前記映像処理装置と通信するサーバーと、を備え、前記映像処理装置は、ユーザーの発話が入力される音声入力部と、少なくとも一つの短文音声命令、及び前記短文音声命令の対応動作を保存する保存部と、会話文音声命令を分析して前記会話文音声命令の対応動作を判断する前記サーバーと通信する通信部と、前記発話に対応する第１音声命令が前記保存部に保存された前記短文音声命令である場合に、前記保存部に保存された前記短文音声命令に該当する対応動作が行われるように処理し、前記第１音声命令が前記保存部に保存された前記短文音声命令でない場合に、前記第１音声命令を前記通信部に伝達する音声処理部と、前記サーバーにより判断された対応動作が前記保存部に保存された対応動作である場合に、前記対応動作に該当する短文音声命令を案内する案内映像を表示する制御部と、を備えることを特徴とする。

また、本発明の実施例に係る映像処理装置は、ディスプレイ部と、ユーザーの発話が入力される音声入力部と、前記発話に対応する音声命令が短文である第１音声命令及び会話文である第２音声命令のいずれか一つであれば、あらかじめ設定された第１動作が実行されるように制御する制御部と、を備え、前記制御部は、前記音声命令が前記第２音声命令であれば、前記第１音声命令を案内する案内映像を前記ディスプレイ部に表示することを特徴とする。

本発明によれば、ユーザーに簡単な短文の命令語を容易に案内できる構造の映像処理装置を提供することができる。

本発明の第１実施例に係る映像処理装置の構成ブロック図である。図１のディスプレイ装置とサーバーとのインタラクション構造を示す構成ブロック図である。図１のディスプレイ装置に保存された、音声命令に対応する動作のリストを示す例示図である。図１のディスプレイ装置の制御方法を示すフローチャートである。図１のディスプレイ装置及び会話型サーバーの制御過程を示す関係図である。図１のディスプレイ装置に表示される案内映像の例示図である。本発明の第２実施例に係るディスプレイ装置に表示される案内映像の例示図である。本発明の第３実施例に係るディスプレイ装置及びサーバーの構成ブロック図である。本発明の第４実施例に係るディスプレイ装置の音声処理部の信号伝達構造を示す構成ブロック図である。

以下、添付の図面を参照して本発明について詳しく説明する。以下の実施例では、本発明の思想と直接関連している構成についてのみ説明し、その他の構成については説明を省略する。しかし、本発明の思想が適用された装置又はシステムを具現するにあって、このように説明の省略された構成が不要であるということを意味するわけではない。

図１は、本発明の第１実施例に係る映像処理装置１００の構成ブロック図である。

以下の実施例は、映像処理装置自体で映像を表示できる構造のディスプレイ装置１００を挙げて説明するが、本発明の思想は、映像処理装置自体で映像を表示せずに、別のディスプレイ装置に映像信号／制御信号を出力する構造の映像処理装置も適用可能であるため、以下に説明する実施例に限定されない。本実施例は映像処理装置１００がＴＶである場合について説明するが、上記の理由から、その具現方式は様々に変更して適用可能である。

図１に示すように、本実施例に係る映像処理装置１００又はディスプレイ装置１００は、映像供給源（図示せず）から映像信号を受信する。ディスプレイ装置１００が受信可能な映像信号はその種類又は特性に限定がなく、例えば、ディスプレイ装置１００は放送局の送出装備（図示せず）から送出される放送信号を受信し、当該放送信号をチューニングして放送映像を表示可能である。

ディスプレイ装置１００は、映像供給源（図示せず）から映像信号を受信する映像受信部１１０と、映像受信部１１０に受信される映像信号をあらかじめ設定された映像処理プロセスに従って処理する映像処理部１２０と、映像処理部１２０で処理される映像信号に基づいて映像を表示するディスプレイ部１３０と、サーバー１０のような外部装置と通信する通信部１４０と、ユーザーにより操作されるユーザー入力部１５０と、外部からの音又は声が入力される音声入力部１６０と、音声入力部１６０に入力される音／声を解析及び処理する音声処理部１７０と、データ／情報が保存される保存部１８０と、ディスプレイ装置１００の諸般動作を制御する制御部１９０と、を備えている。

映像受信部１１０は、映像信号／映像データを有線又は無線で受信して映像処理部１２０に伝達する。映像受信部１１０は、受信する映像信号の規格及びディスプレイ装置１００の具現形態に対応して様々な方式のものとすればよい。例えば、映像受信部１１０は、ＲＦ（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ）信号を受信したり、コンポジット（ｃｏｍｐｏｓｉｔｅ）ビデオ、コンポーネント（ｃｏｍｐｏｎｅｎｔ）ビデオ、スーパービデオ（ｓｕｐｅｒｖｉｄｅｏ）、ＳＣＡＲＴ、ＨＤＭＩ（登録商標（ｈｉｇｈｄｅｆｉｎｉｔｉｏｎｍｕｌｔｉｍｅｄｉａｉｎｔｅｒｆａｃｅ））、ディスプレイポート（ＤｉｓｐｌａｙＰｏｒｔ）、ＵＤＩ（ｕｎｉｆｉｅｄｄｉｓｐｌａｙｉｎｔｅｒｆａｃｅ）、又はワイヤレス（ｗｉｒｅｌｅｓｓ）ＨＤ規格などによる映像信号を受信したりするように構成可能である。映像受信部１１０は、映像信号が放送信号である場合に、この放送信号をチャンネル別にチューニングするチューナー（ｔｕｎｅｒ）を備える。

映像処理部１２０は、映像受信部１１０に受信される映像信号に対して様々な映像処理プロセスを行う。映像処理部１２０は、このようなプロセスを行った映像信号をディスプレイ部１３０に出力することによって、ディスプレイ部１３０に当該映像信号に基づく映像が表示されるようにする。例えば、映像処理部１２０は、映像受信部１１０で特定チャンネルに放送信号がチューニングされると、放送信号から当該チャンネルに対応する映像、音声及び付加データを抽出し、あらかじめ設定された解像度に調整してディスプレイ部１３０に表示する。

映像処理部１２０が行う映像処理プロセスの種類は限定されず、例えば、映像データの映像フォーマットに対応するデコーディング（ｄｅｃｏｄｉｎｇ）、インターレース（ｉｎｔｅｒｌａｃｅ）方式の映像データをプログレッシブ（ｐｒｏｇｒｅｓｓｉｖｅ）方式に変換するデインターレーシング（ｄｅ−ｉｎｔｅｒｌａｃｉｎｇ）、映像データをあらかじめ設定された解像度に調整するスケーリング（ｓｃａｌｉｎｇ）、映像の画質改善のためのノイズ低減（ｎｏｉｓｅｒｅｄｕｃｔｉｏｎ）、ディテール強化（ｄｅｔａｉｌｅｎｈａｎｃｅｍｅｎｔ）、フレームリフレッシュレート（ｆｒａｍｅｒｅｆｒｅｓｈｒａｔｅ）変換などが挙げられる。

映像処理部１２０は、これらの種々の機能を統合したＳＯＣ（ｓｙｓｔｅｍ−ｏｎ−ｃｈｉｐ）、又はこれらの各プロセスを独自で行える個別の構成が印刷回路基板上に装着されてなる映像処理ボード（図示せず）と具現され、ディスプレイ装置１００内に組み込まれる。

ディスプレイ部１３０は、映像処理部１２０から出力される映像信号に基づいて映像を表示する。ディスプレイ部１３０の具現方式は限定されず、例えば、液晶（ｌｉｑｕｉｄｃｒｙｓｔａｌ）、プラズマ（ｐｌａｓｍａ）、発光ダイオード（ｌｉｇｈｔ−ｅｍｉｔｔｉｎｇｄｉｏｄｅ）、有機発光ダイオード（ｏｒｇａｎｉｃｌｉｇｈｔ−ｅｍｉｔｔｉｎｇｄｉｏｄｅ）、面伝導型電子銃（ｓｕｒｆａｃｅ−ｃｏｎｄｕｃｔｉｏｎｅｌｅｃｔｒｏｎ−ｅｍｉｔｔｅｒ）、炭素ナノチューブ（ｃａｒｂｏｎｎａｎｏ−ｔｕｂｅ）、ナノクリスタル（ｎａｎｏ−ｃｒｙｓｔａｌ）などの様々なディスプレイ方式が挙げられる。

ディスプレイ部１３０は、その具現方式によって異なる構成を備える。例えば、ディスプレイ部１３０を液晶方式にした場合に、ディスプレイ部１３０は、液晶ディスプレイパネル（図示せず）と、これに光を供給するバックライトユニット（図示せず）と、パネル（図示せず）を駆動させるパネル駆動基板（図示せず）と、を備える。

通信部１４０は、ディスプレイ装置１００がサーバー１０と両方向通信を行うようにデータの送受信を行う。通信部１４０は、サーバー１０の通信プロトコル（ｐｒｏｔｏｃｏｌ）に基づいて、有線／無線による広帯域／近距離ネットワーク又はローカル接続方式でサーバー１０に接続する。

ユーザー入力部１５０は、ユーザーの操作及び入力に応じて、既に設定された様々な制御コマンド又は情報を制御部１９０に伝達する。ユーザー入力部１５０は、ディスプレイ装置１００の外側に設けられたメニューキー（ｍｅｎｕ−ｋｅｙ）又は入力パネル（ｐａｎｅｌ）や、ディスプレイ装置１００と分離された遠隔のリモコンなどでよい。又は、ユーザー入力部１５０は、ディスプレイ部１３０と一体型であってもよく、例えば、ディスプレイ部１３０をタッチスクリーン（ｔｏｕｃｈ−ｓｃｒｅｅｎ）にした場合に、ユーザーは、ディスプレイ部１３０に表示された入力メニュー（図示せず）をタッチすることによって、既に設定されたコマンドを制御部１９０に伝達可能である。

音声入力部１６０はマイクとし、ディスプレイ装置１００の外部環境で発生する様々な音声を感知する。音声入力部１６０が感知する音声には、ユーザーによる発話、及びユーザー以外の様々な要因により発生する音が含まれる。

音声処理部１７０は、ディスプレイ装置１００で行われる様々な既に設定されたプロセスのうち、音声入力部１６０に入力される音／声に関するプロセスを行う。ここで、音声処理部１７０が処理する「音声」は、音声入力部１６０に入力される発話のことを指す。映像処理部１２０が映像信号を処理する時に、該映像信号にも音声データが含まれることがあるが、この映像信号に含まれた音声データは映像処理部１２０で処理される。

音声処理部１７０は、音声入力部１６０に音／声が入力されると、入力された音／声が、ユーザーによる発話であるか、その他の要因により発生した音であるか判断する。この判断方法は、特に限定されず、様々な方法が適用可能であり、例えば、入力された音／声が人の声に対応する波長／周波数帯域に該当するのか判断する方法、又は事前に指定されたユーザーの声のプロファイルに該当するのか判断する方法などが可能である。

音声処理部１７０は、ユーザーの発話が入力されたと判断すると、当該発話に対応する音声命令に応じて、既に設定された対応の動作が行われるように処理する。ここで、音声命令は、ユーザーの発話の内容を意味する。その詳細内容は後述する。

本実施例では、音声処理部１７０が映像処理部１２０と別個の構成であるとして説明する。ただし、これは、実施例をより明確に説明するために機能別に便宜上分類した例示に過ぎず、本発明の思想が具現されたディスプレイ装置１００において必ずしも映像処理部１２０と音声処理部１７０とが分離されているということを意味するものではない。すなわち、ディスプレイ装置１００は、映像処理部１２０と音声処理部１７０とを統合した信号処理部（図示せず）を備えていてもよい。

保存部１８０は、制御部１９０の制御に応じて、限定されていないデータを保存する。保存部１８０としては、フラッシュメモリ（ｆｌａｓｈ−ｍｅｍｏｒｙ）、ハードディスクドライブ（ｈａｒｄ−ｄｉｓｃｄｒｉｖｅ）のような不揮発性メモリが可能である。保存部１８０は、制御部１９０、映像処理部１２０又は音声処理部１７０などによりアクセスされて、データの読み取り／書き込み／修正／削除／更新などが行われる。

制御部１９０は、音声入力部１６０を通してユーザーの発話が入力されると、入力された発話を処理するように音声処理部１７０を制御する。この時、制御部１９０は、発話が入力されると、当該発話に対応する音声命令が短文であるか或いは会話文であるかを判断し、判断結果に基づいて、当該音声命令が音声処理部１７０又はサーバー１０で処理されるように制御する。具体的に、制御部１９０は、音声命令が短文であれば、音声処理部１７０で処理されるようにし、音声命令が会話文であれば、通信部１４０を介してサーバー１０に伝送することによってサーバー１０で処理されるようにする。

図２は、ディスプレイ装置１００とサーバー２０，３０とのインタラクション構造を示す構成ブロック図である。図２を参照すると、ディスプレイ装置１００は、通信部１４０と、音声入力部１６０と、音声処理部１７０と、制御部１９０とを備えている。このような構成は、図１で上述した通りである。ここで、通信部１４０は、ユーザーの発話を音声命令に変換するＳＴＴ（ｓｐｅｅｃｈ−ｔｏ−ｔｅｘｔ）サーバー２０、及び音声命令を分析することによって音声命令に対応する対応動作を判断する会話型サーバー３０に接続する。

ＳＴＴサーバー２０は、音声信号を受信すると、該音声信号の波形を分析することによって音声信号の内容をテキストとして生成する。ＳＴＴサーバー２０は、ディスプレイ装置１００からユーザーの発話の音声信号を受信すると、これを音声命令に変換する。

会話型サーバー３０は、音声命令に対応する様々なディスプレイ装置１００の動作のデータベースを有している。会話型サーバー３０は、ディスプレイ装置１００から受信した音声命令を分析し、分析結果に基づいて、当該音声命令に対応する動作を行うための制御信号をディスプレイ装置１００に伝送する。

制御部１９０は、音声入力部１６０にユーザーの発話が入力されると、当該発話の音声信号をＳＴＴサーバー２０に伝送し、ＳＴＴサーバー２０から当該発話に対応する音声命令を受信する。制御部１９０は、ＳＴＴサーバー２０から受信した音声命令を音声処理部１７０に伝達することによって当該音声命令が音声処理部１７０で処理されるようにする。

音声処理部１７０は、複数の音声命令に対応する、ディスプレイ装置１００で実行可能な様々な動作／機能のリスト又はデータベースを有しており、それらのリスト／データベースは保存部１８０（図１参照）に保存されている。音声処理部１７０は、伝達された音声命令を用いてリストから検索を行うことによって対応動作／機能を特定する。リストから対応動作が検索されると、音声処理部１７０は当該動作が実行されるように処理する。リストに関する詳細な説明は後述する。

ところが、このようなリスト中の音声命令は、簡単な短文となっている。もし、入力された音声命令が短文ではなく会話文であるなら、当該音声命令はリストから検索されず、音声処理部１７０は対応動作が特定できない。

音声命令が会話文である場合には、すなわち、音声命令がリストから検索されず、音声処理部１７０で処理されることが困難である場合には、制御部１９０は、当該音声命令を会話型サーバー３０に伝送する。会話型サーバー３０は、ディスプレイ装置１００から受信した音声命令を分析することによって当該音声命令に対応するディスプレイ装置１００の動作／機能を特定する。会話型サーバー３０は、特定した動作を指示する制御信号をディスプレイ装置１００に伝送することによって、ディスプレイ装置１００が当該制御信号に応じて動作を実行するようにする。

これで、ユーザーの発話に従ってディスプレイ装置１００のあらかじめ設定された対応動作が実行される。

音声命令が短文か会話文かによって当該音声命令の処理主体が選択される上記のような過程は、ディスプレイ装置１００のシステム負荷と処理能力などに起因するところが多い。会話文は自然語であるがゆえに、会話文である音声命令の中からユーザー所望の対応動作を機械的に抽出することが相対的に難しい。したがって、ディスプレイ装置１００の限定されたリソースを用いて会話文である音声命令を分析することが容易でない場合があり、よって、会話文である音声命令は会話型サーバー３０で処理されるようにすることによって、様々な内容の発話に対応可能にしているわけである。

ただし、このような構造については様々な変更設計が可能であり、一例として、ＳＴＴサーバー２０及び会話型サーバー３０の少なくとも一つのプロセスをディスプレイ装置１００自体で行うようにしてもよい。例えば、ディスプレイ装置１００は、ユーザーの発話を音声命令に変換するプロセスや、会話文の音声命令を分析するプロセスを、別のサーバー２０，３０ではなくディスプレイ装置１００自体で行ってもよい。

このような構造下で、制御部１９０は、ユーザーの発話による音声命令に対応する動作を特定するプロセスが音声処理部１７０又は会話型サーバー３０で処理されるように制御する。以下、本実施例では、制御部１９０が音声処理部１７０を制御して、短文の音声命令に対応するディスプレイ装置１００の動作を特定する構成について説明する。

図３は、ディスプレイ装置１００に保存されている、音声命令に対応する動作のリスト２１０の例示図である。図３に示すように、保存部１８０（図１参照）は、ユーザーの発話に対応する音声命令を、ディスプレイ装置１００が実行できる様々な機能又は動作に関連付けたリスト２１０を保存している。ここで、「動作」は、ディスプレイ装置１００が実行でき、且つディスプレイ装置１００が支援するあらゆる可能な形態の動作及び機能を意味する。

音声処理部１７０（図２参照）は、所定の音声命令を用いてリスト２１０を検索することによって、当該音声命令に対応する動作を判断できる。

本実施例におけるリスト２１０は、リスト２１０を構築する原理又は方式のみを表しているものであり、本発明の思想を限定しない。また、同図のリスト２１０は、一つの命令が一つの動作に対応するとしているが、これは実施例を簡略に説明するために便宜上表したものに過ぎない。実際に、リスト２１０は、複数の命令が一つの動作に対応してもよい。また、同図でリスト２１０の番号は区別のために便宜上付したものである。

例えば、ユーザーの発話に対応する音声命令が「つけて（ｔｕｒｎ−ｏｎ）」ならば、音声処理部１７０は「つけて」という音声命令を用いてリスト２１０を検索することによって、「つけて」という音声命令に対応する動作が「システムの電源をつける」ということであることがわかる。このとき、音声処理部１７０は、ディスプレイ装置１００の現在状態を考慮して当該動作を選択的に行えばよい。音声処理部１７０は、もし現在ディスプレイ装置１００の電源がついている状態であれば、「システムの電源をつける」動作を行わなく、一方、現在ディスプレイ装置１００の電源が消えている状態であれば、システムの電源が入るように処理する。

他の例として、現在ディスプレイ装置１００上に映像が表示されている状態でユーザーが「うるさい」と発話したならば、音声処理部１７０は、リスト２１０上で「うるさい」という音声命令に該当する動作が「ミュート（ｍｕｔｅ）」と特定されていることがわかる。そこで、音声処理部１７０は、現在表示されている映像の音量を０に調整することによって、ミュート動作が行われるように処理する。

さらに他の例として、現在ディスプレイ装置１００上に映像が表示されている状態でユーザーが「聞こえない」と発話したならば、音声処理部１７０は、リスト２１０から「聞こえない」という命令に該当する動作が「現在音量を５レベル上げる」と特定されていることがわかる。そこで、音声処理部１７０は、現在表示されている映像の音量を５レベル上げる。

このような方法により、音声処理部１７０はユーザーの発話に対応する対応動作が行われるように制御することができる。

ここで、リスト２１０が含む音声命令は、簡単な単語からなる短文である。リスト２１０の情報量を増加させることによって、短文と様々な会話文を含むリスト２１０を具現できないこともないが、リスト２１０の情報量が増加するほどディスプレイ装置１００のシステム負荷も増加し、リスト２１０の検索期間が長くなってしまう。また、ディスプレイ装置１００のリスト２１０に、それぞれ異なった言語習慣を持つ様々なユーザーを考慮した音声命令が含まれるように構築することは、個別ユーザーを対象とするディスプレイ装置１００において効率的でないといえる。

そのため、制御部１９０は、まずは音声命令を音声処理部１７０により処理されるようにし、当該音声命令が音声処理部１７０で処理され難い場合には、続いて会話型サーバー３０（図２参照）で処理されるように制御する。こうすると、音声命令が短文である場合は、音声処理部１７０による処理過程を経ることで済むが、音声命令が会話文である場合は、当該音声命令が、プロセス上、音声処理部１７０による処理過程と会話型サーバー３０による処理過程の両方を経る必要がある。

例えば、ユーザーの発話に対応する音声命令が「音が小さい」なら、制御部１９０は、当該音声命令を音声処理部１７０に伝達することによって、音声処理部１７０が音声命令に対応する動作を行うようにする。ところが、リスト２１０に「音が小さい」という音声命令が含まれていないと、音声処理部１７０はリスト２１０から「音が小さい」という音声命令に対応する動作を特定できない。この場合、制御部１９０は、音声命令を会話型サーバー３０に伝送することによって、会話型サーバー３０で当該音声命令に対応する動作が分析されるようにする。

会話型サーバー３０は、分析結果に基づいて動作が「音量＋５」ということを特定すると、当該動作の実行を指示する制御コマンドをディスプレイ装置１００に伝送する。制御部１９０は、会話型サーバー３０から受信する制御コマンドに従って映像の音量を５レベル増加させる動作を実行する。

一方、ユーザーの発話に対応する音声命令が「聞こえない」ならば、音声処理部１７０は、当該音声命令がリスト２１０に含まれているので、会話型サーバー３０に音声命令を伝送することなく、リスト２１０で「音量＋５」という動作を直接特定すればよい。

したがって、ユーザーの発話が入力される時点から対応動作が実行される時点までの所要時間の側面から見ると、会話文の音声命令を処理する時間が短文の音声命令を処理する時間よりも長くなる。これは、迅速な動作実行を好むユーザーにとってディスプレイ装置１００の使用に不便を感じる原因となることもある。

このような点を考慮して、本実施例では下記のような方法を提案する。

制御部１９０は、音声入力部１６０に入力された所定の発話に対応する第１音声命令が会話文であれば、会話型サーバー３０により第１音声命令に対応するものと判断された第１動作を行い、この第１動作に対応する短文の第２音声命令を案内する案内映像を表示する。ここで、第２音声命令は、リスト２１０上で第１動作に対応する音声命令として特定され得る。すなわち、制御部１９０は、会話型サーバー３０により判断された会話文音声命令の対応動作が保存部１８０に保存された対応動作である場合に、この対応動作に該当する短文音声命令を案内する案内映像を表示する。

第１音声命令及び第２音声命令のいずれによっても第１動作が実行されるが、ディスプレイ装置１００自体で処理可能な第２音声命令の方が、会話型サーバー３０の処理を必要とする第１音声命令に比べて、第１動作の実行のための所要時間を短縮させることができる。案内映像は、第１音声命令と同一の動作実行ができる第２音声命令をユーザーに案内することによって、今後、ユーザーが第１音声命令の代わりに第２音声命令を発話するように誘導する。

図４は、本実施例に係るディスプレイ装置１００の制御方法を示すフローチャートである。ここで、あらかじめ設定されたディスプレイ装置１００の第１動作を実行させるための音声命令として、短文の第１音声命令と会話文の第２音声命令がある場合について説明する。

図４に示すように、ディスプレイ装置１００は、ユーザーから発話を受信すると（Ｓ１００）、受信した発話に対応する音声命令が短文の第１音声命令であるか、或いは会話文の第２音声命令であるか判断する（Ｓ１１０）。

ディスプレイ装置１００は、受信した発話が短文の第１音声命令であると判断されると、あらかじめ設定された短文処理プロセスに従って第１音声命令に対応する第１動作を実行する（Ｓ１２０）。

一方、ディスプレイ装置１００は、受信した発話が会話文の第２音声命令であると判断されると、あらかじめ設定された会話文処理プロセスに従って第２音声命令に対応する第１動作を実行する（Ｓ１３０）。そして、ディスプレイ装置１００は、第２音声命令と同一に第１動作を実行させられる短文の第１音声命令を案内する案内映像を表示する（Ｓ１４０）。

このような方法により、ユーザーが会話文の音声命令に比べて動作の実行時間が速い短文の音声命令を使用できるように案内及び誘導可能となる。

ここで、短文処理プロセス及び会話文処理プロセスには様々な方法が適用可能である。例えば、短文処理プロセスは、図２の音声処理部１７０のみで音声命令の処理が行われるプロセスであり、会話文処理プロセスは、会話型サーバー３０で音声命令の分析が行われるプロセスである。

図５は、本実施例に係るディスプレイ装置１００及び会話型サーバー３０の制御過程を示す関係図である。図５に示すように、ディスプレイ装置１００は、ユーザーから発話を受信する（３１０）。ディスプレイ装置１００は、発話に対応する音声信号をＳＴＴサーバー２０に伝送する（３２０）。ＳＴＴサーバー２０は、ディスプレイ装置１００から受信した音声信号をテキストの音声命令に変換し、変換された音声命令をディスプレイ装置１００に伝送する（３３０）。

ディスプレイ装置１００は、ＳＴＴサーバー２０から受信した音声命令を用いて音声命令及び動作の対応リスト２１０（図３参照）を検索することによって、当該音声命令に対応する動作を特定する（３４０）。ディスプレイ装置１００は、音声命令に対応する動作が検索されると、当該動作を実行する。一方、ディスプレイ装置１００は、音声命令に対応する動作が検索されないと、音声命令を会話型サーバー３０に伝送する（３５０）。

会話型サーバー３０は、音声命令を分析し、当該音声命令に対応する動作を特定する（３６０）。会話型サーバー３０が対応動作を特定するために会話文の音声命令を分析する方法には、様々な構成及び方法が適用可能である。会話型サーバー３０は、特定した動作の実行を指示する制御コマンドをディスプレイ装置１００に伝送する（３７０）。

ディスプレイ装置１００は、会話型サーバー３０から受信した制御コマンドに従って対応動作を実行する（３８０）。ディスプレイ装置１００は、上記のリストから実行動作に対応する音声命令を検索し（３９０）、検索された音声命令を案内する案内映像を表示する（４００）。

図６は、ディスプレイ装置１００に表示される案内映像５３０の例示図である。図６に示すように、案内映像５３０は、音声命令に対応する動作が実行される時に、当該動作に関連した映像と共に表示されてもよく、又は当該動作が行われた後に表示されてもよい。

例えば、短文音声命令である「ボリューム上げて」に対応する動作が「音量＋３」に設定されている状態で、会話文音声命令である「ちょっとボリュームを上げてね」についても「ボリューム上げて」と同一に、「音量＋３」が実行される場合を考慮してみる。このような例示において、短文である第１音声命令は「ボリューム上げて」であり、会話文である第２音声命令は「ちょっとボリュームを上げてね」であり、第１音声命令及び第２音声命令に対応する動作はいずれも「音量＋３」となる。

ディスプレイ装置１００が所定のコンテンツ映像５１０を表示している状態でユーザーから音声命令の発話が入力されると、ディスプレイ装置１００は、当該音声命令が短文か会話文か判断する。もし、音声命令が「ボリューム上げて」なら、ディスプレイ装置１００は独自で当該音声命令に対応する「音量＋３」の動作を検索及び特定できる。この場合、ディスプレイ装置１００は、コンテンツ映像５１０のボリュームを３レベル上げる動作を行い、コンテンツ映像５１０に当該動作に関連した映像５２０を共に表示してもよい。映像５２０として、例えば、ボリュームが上がる様子を視覚的に表現可能である。

一方、音声命令が「ちょっとボリュームを上げてね」ならば、ディスプレイ装置１００は独自で当該音声命令の対応動作を特定し難く、会話型サーバー３０による会話文音声命令の分析が必要である。この場合、ディスプレイ装置１００は、会話型サーバー３０の分析及び制御によって、コンテンツ映像５１０のボリュームを３レベル上げる動作を行い、コンテンツ映像５１０に当該動作に関連した映像５２０を共に表示可能である。そして、ディスプレイ装置１００は、「音量＋３」の動作を実行させられる短文音声命令である「ボリューム上げて」をユーザーに公知及び案内する内容を含む案内映像５３０をコンテンツ映像５１０と共に表示する。

ユーザーは、案内映像５３０から、「ちょっとボリュームを上げてね」に代えられる「ボリューム上げて」という音声命令を認知可能となる。そして、今後、「音量＋３」の動作を実行させる時に、ユーザーは、このような経験の蓄積により、「ちょっとボリュームを上げてね」に代えて「ボリューム上げて」と発話することによって、動作実行のための所要時間を相対的に短縮可能となる。

一方、上記の実施例とは違い、複数の音声命令が順次に入力されることによって特定動作が実行される場合も考慮可能である。

図７は、本発明の第２実施例に係るディスプレイ装置１００に表示される案内映像５５０の例示図である。図７に示すように、例えば、「就寝予約」という音声命令に対応する動作である「システムの電源を切る」は、何時間後にシステム電源を切るかを決める必要がある。ディスプレイ装置１００は「就寝予約」という音声命令及び「１時間」という音声命令が順次に入力されると、現在時刻から１時間後にディスプレイ装置１００の電源を切る動作を行う。

一方、ディスプレイ装置１００に「就寝予約１時間」という音声命令が一度に入力される場合にも上記と同一の動作が行われることが可能である。すなわち、現在時刻から１時間後にディスプレイ装置１００の電源を切る動作は、「就寝予約」という音声命令及び「１時間」という音声命令が順次に入力される場合にも、「就寝予約１時間」という音声命令が一度に入力される場合にもそれぞれ実行される。

もし、ユーザーが「就寝予約」という音声命令及び「１時間」という音声命令にそれぞれ対応する発話を順次に入力したとすれば、ディスプレイ装置１００は、それらの音声命令に対応して１時間後にディスプレイ装置１００の電源を切る動作を行い、該動作に関連した映像５４０を表示する。そして、ディスプレイ装置１００は、より簡単に当該動作を実行させられるように、あらかじめ設定された音声命令である「就寝予約１時間」を案内する案内映像５５０を表示する。

このような案内映像５５０を認知することで、ユーザーは、「就寝予約」という音声命令及び「１時間」という音声命令にそれぞれ対応する発話を順次に入力するに代え、「就寝予約１時間」という音声命令に対応する発話を入力可能となる。これにより、より簡単で迅速にディスプレイ装置１００が対応動作を実行できるようにする。

一方、以上の実施例では、ディスプレイ装置１００に入力された発話がＳＴＴサーバー２０により音声命令に変換されるとした。また、以上の実施例では、短文処理プロセスが、ディスプレイ装置１００内で音声処理部１７０により音声命令が独自で処理されるプロセスであり、会話文処理プロセスが、会話型サーバー３０により音声命令が処理され、その処理結果がディスプレイ装置１００に伝達されるプロセスであるとした。

しかし、本発明の思想がこれに限定されるのではなく、発話を音声命令に変換する構成と、音声命令が短文か会話文かによって当該音声命令を処理する主体に関する構成は、以上の実施例と異なった構造にしてもよい。

図８は、第３実施例に係るディスプレイ装置１００ａ及びサーバー４０の構成ブロック図である。図８を参照すると、ディスプレイ装置１００ａは、通信部１４０ａと、音声入力部１６０ａと、音声処理部１７０ａと、制御部１９０ａと、を備えている。ここで、音声処理部１７０ａは、音声入力部１６０ａから伝達された発話を音声命令に変換するＳＴＴ変換部１７１ａと、音声命令が短文である場合にそれを処理する短文命令処理部１７２ａと、を備えている。

音声入力部１６０ａは、ユーザーから発話が入力されると、入力された発話の音声信号をＳＴＴ変換部１７１ａに伝達する。ＳＴＴ変換部１７１ａは、音声入力部１６０ａから伝達された音声信号を分析し、当該音声の内容を含む音声命令に変換する。ＳＴＴ変換部１７１ａは、変換した音声命令を制御部１９０ａの制御によって短文命令処理部１７２ａに伝達する。すなわち、ＳＴＴ変換部１７１ａは、前述の第１実施例におけるＳＴＴサーバー２０の機能を担う。

短文命令処理部１７２ａは、前述の第１実施例における音声処理部１７０と同様、音声命令に対応する動作を特定する。短文命令処理部１７２ａは、制御部１９０ａの制御によって音声命令を分析し、分析結果に基づいて対応動作を実行する。音声命令の分析及び実行に関する内容は、前述の実施例を応用すればよく、その詳細な説明を省略する。

もし、音声命令が会話文であれば、当該音声命令は短文命令処理部１７２ａで処理しにくい場合もある。この場合、制御部１９０ａは、通信部１４０ａを介して音声命令を会話型サーバー４０に伝送する。会話型サーバー２０は、前述の第１実施例の会話型サーバー３０と同一の機能を担う。

以降、ディスプレイ装置１００ａは、会話型サーバー４０から受信した制御信号に対応する動作を行う。

図９は、本発明の第４実施例に係るディスプレイ装置１００ｂの音声処理部１７０ｂの信号伝達構造を示す構成ブロック図である。図９を参照すると、音声処理部１７０ｂは、音声入力部１６０ｂから伝達されるユーザーの発話を音声命令に変換するＳＴＴ変換部１７１ｂと、ＳＴＴ変換部１７１ｂにより変換された音声命令が短文であるとそれを処理する短文命令処理部１７２ｂと、ＳＴＴ変換部１７１ｂにより変換された音声命令が会話文／自然語であるとそれを処理する会話型命令処理部１７３ｂと、を備えている。音声処理部１７０ｂの構造は本例示に限定されるものではなく、本例示は、本発明の実施例と直接関連している事項のみを簡略に示したものである。

音声入力部１６０ｂは、ユーザーから発話が入力されると、入力された発話の音声信号をＳＴＴ変換部１７１ｂに伝達する。ＳＴＴ変換部１７１ｂは、音声入力部１６０ｂから伝達された発話を、当該発話の内容を含む音声命令に変換する。ＳＴＴ変換部１７１ｂは、変換された音声命令をまずは短文命令処理部１７２ｂに伝達する。

短文命令処理部１７２ｂは、前述の第１実施例における音声処理部１７０と同様に、音声命令に対応する動作を特定する。短文命令処理部１７２ｂは、制御部１９０ｂの制御によって音声命令を分析し、分析結果に基づいて対応動作を実行する。

もし、音声命令が会話文であれば、当該音声命令は短文命令処理部１７２ｂで処理しにくい場合もある。この場合、制御部１９０ａは音声命令を会話型命令処理部１７３ｂに伝達する。

短文命令処理部１７２ｂは、図８の短文命令処理部１７２ａと実質的に同一の機能を担う。また、会話型命令処理部１７３ｂは、前述の実施例における会話型サーバー３０，４０と同一の機能を担う。

すなわち、本実施例に係るディスプレイ装置１００ｂは、前述の実施例と違い、外部サーバー２０，３０、４０とのデータ／信号送受信を行わず、ディスプレイ装置１００ｂ自体でユーザーの発話による音声命令の変換、及び当該音声命令に対応する動作を分析可能である。

ただし、このような場合にも、まずは、音声命令が短文命令処理部１７２ｂで処理され、当該音声命令が短文命令処理部１７２ｂで処理され難い場合に、続いて、音声命令は会話型命令処理部１７３ｂで処理される。したがって、本実施例にも、前述の第１実施例で説明した本発明の思想が適用可能となる。

以上実施例は例示的なものに過ぎず、当該技術の分野における通常の知識を有する者にとっては様々な変形及び均等な他の実施例が可能である。したがって、本発明の真の技術的保護範囲は、添付した特許請求の範囲に記載された発明の技術的思想により定められるべきである。

２０ＳＴＴサーバー
３０会話型サーバー
１００ディスプレイ装置
１１０映像受信部
１２０映像処理部
１３０ディスプレイ部
１４０通信部
１５０ユーザー入力部
１６０音声入力部
１７０音声処理部
１８０保存部
１９０制御部

Claims

映像処理装置において、
映像信号を処理して、処理された映像を表示するように構成される映像処理部と、
ユーザーの発話に対応する音声信号を受け取るように構成されるユーザー入力受信部と、
音声命令と該音声命令にそれぞれ対応する動作のリストを保存する保存部と、
サーバーと通信する通信部と、
前記音声信号を処理するように構成される音声処理部と、
制御部であって、
前記処理された音声信号が前記リスト内の前記音声命令の１つに対応するかどうか判断し、
前記処理された音声信号が前記音声命令の１つに対応しないことに応答して、前記処理された音声信号に対応する動作を実行するために、前記処理された音声信号を前記サーバーに伝送し、
前記処理された音声信号を前記サーバーに伝送したことに応答して前記サーバーから受け取った情報に基づいて、前記処理された音声信号に関連付けられる、推奨される音声命令を含む案内映像を表示する、
ように構成される制御部と、
を備える、映像処理装置。
前記案内映像内の前記推奨される音声命令は、前記情報よりも短い、
請求項１に記載の映像処理装置。
前記発話が前記ユーザー入力受信部に入力された時点から前記対応する動作が実行される時点までの時間は、前記処理された音声信号が前記音声命令の１つに対応するときの方が、前記処理された音声信号が前記音声命令の１つに対応しないときよりもより短い、
請求項１に記載の映像処理装置。
前記制御部は、複数のユーザー発話にそれぞれ対応する複数の音声命令が順次入力されるとき又はあらかじめ設定された第２音声命令が入力されるときであるかに応じて、あらかじめ設定された対応する動作が実行されるように設定された状態で、前記複数の音声命令が順次入力されると、前記第２音声命令を推薦する第２案内映像を表示する、
請求項１に記載の映像処理装置。
前記通信部は、前記ユーザーの発話の前記音声信号をテキストの音声命令に変換するＳＴＴ（ｓｐｅｅｃｈ−ｔｏ−ｔｅｘｔ）サーバーと通信し、
前記制御部は、前記音声信号を前記ＳＴＴサーバーに伝送し、前記ＳＴＴサーバーから前記音声信号に対応する前記音声命令を受け取る、
請求項１に記載の映像処理装置。
前記映像処理部により処理される前記映像信号を映像として表示するように構成されるディスプレイ部をさらに備える、
請求項１に記載の映像処理装置。
映像処理装置の制御方法において、
ユーザーの発話に対応する音声信号を受け取るステップと、
処理された音声信号がリスト内の音声命令の１つに対応するかどうか判断するステップであって、前記リストは、前記音声命令と前記音声命令にそれぞれ対応する動作を含む、ステップと、
前記処理された音声信号が前記音声命令の１つに対応しないことに応答して、前記処理された音声信号に対応する動作を実行するために、前記処理された音声信号をサーバーに伝送するステップと、
前記処理された音声信号を前記サーバーに伝送したことに応答して前記サーバーから受け取った情報に基づいて、前記処理された音声信号に関連付けられる、推奨される音声命令を含む案内映像を表示するステップと、
を含む、制御方法。
前記案内映像内の前記推奨される音声命令は、前記情報よりも短い、
請求項７に記載の制御方法。
前記発話がユーザー入力受信部に入力された時点から前記対応する動作が実行される時点までの時間は、前記処理された音声信号が前記音声命令の１つに対応するときの方が、前記処理された音声信号が前記音声命令の１つに対応しないときよりもより短い、
請求項７に記載の制御方法。
複数のユーザー発話にそれぞれ対応する複数の音声命令が順次入力されるとき又はあらかじめ設定された第２音声命令が入力されるときであるかに応じて、あらかじめ設定された対応動作が実行されるように設定された状態で、前記複数の音声命令が順次入力されると、前記第２音声命令を推薦する第２案内映像を表示するステップ、
をさらに含む、請求項７に記載の制御方法。
前記音声信号を受け取るステップは、前記音声信号をテキストの音声命令に変換するＳＴＴ（ｓｐｅｅｃｈ−ｔｏ−ｔｅｘｔ）サーバーに、前記発話の前記音声信号を伝送することと、前記ＳＴＴサーバーから前記音声信号に対応する前記音声命令を受け取ることを含む、
請求項７に記載の制御方法。