JP2012256047A

JP2012256047A - ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法

Info

Publication number: JP2012256047A
Application number: JP2012128359A
Authority: JP
Inventors: Eun-Sang Park; 殷相朴; Hyun-Kyu Yun; 賢奎尹
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-06-07
Filing date: 2012-06-05
Publication date: 2012-12-27
Anticipated expiration: 2032-06-05
Also published as: EP2533242B1; WO2012169737A2; JP6271117B2; US20120313849A1; EP2533242A1; CN102866824A; US9183832B2; WO2012169737A3; CN102866824B

Abstract

【課題】本発明の目的とするところは、ユーザの発した音声の誤認識を防止し、より正確な音声認識ができるようにするディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法を提供することにある。
【解決手段】ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法を提供する。本ディスプレイ装置の音声認識方法は、ディスプレイアイテムに対応する第１テキストを決定し、第１テキストを別のテキストと区別できるようにディスプレイアイテムをディスプレイし、ユーザの発した音声を認識し、認識された音声と前記第１テキストとが対応すると、ディスプレイアイテムに該当する画面をディスプレイする。それにより、ユーザの発した音声の誤認識の危険性が減り、ユーザはより正確な音声認識を用いてディスプレイ装置を制御することができるようになる。
【選択図】図１

Description

本発明は、ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法に関し、より詳細には、ユーザの音声を認識して制御命令を行うディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法に関する。

近来、ディスプレイ装置が益々多機能化、高度化するにつれ、ディスプレイ装置を制御するための多様な入力方法が開発されてきた。例えば、マウスを用いた入力方法、タッチパッドを用いた入力方法およびモーションセンシングリモコンを用いた入力方法等が開発されてきた。

特に、多様な入力方法の中でも、ユーザがより簡単にディスプレイ装置を制御するために、ユーザの音声を認識してディスプレイ装置を制御する音声認識方法が脚光を浴びている。

しかし、ユーザの発した音声を認識してディスプレイ装置を制御する場合、人それぞれの口腔の構造および発音の違いにより、１００％満足のいく結果を得ることができない場合が多い。

即ち、音声認識装置がユーザの発した音声を誤認識する場合、ユーザの望む方向にディスプレイ装置を制御できなくなるという問題が生じてしまう。

米国特開第２００７−０００８３６６号公報米国特許登録第６６１５１７６号

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ユーザの発した音声の誤認識を防止し、より正確な音声認識ができるようにするディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法を提供することにある。

前記目的を達成するための本発明の一実施形態に係るディスプレイ装置の音声認識方法は、ディスプレイアイテムに対応する第１テキストを決定するステップと、前記第１テキストを別のテキストと区別できるように前記ディスプレイアイテムをディスプレイするステップと、ユーザの発した音声を認識するステップと、前記認識された音声と前記第１テキストとが対応すると、前記ディスプレイアイテムに該当する画面をディスプレイするステップとを含む。

そして、前記第１テキストは、前記ディスプレイアイテムに含まれた一部テキストおよび前記ディスプレイアイテムの関連テキストのうち、少なくとも一つを含んでよい。

なお、前記ディスプレイアイテムは、リンク（Ｈｙｐｅｒｌｉｎｋ）を含んでよい。

そして、前記第１テキストは、色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記別のテキストと区別できるようにディスプレイされてよい。

なお、前記第１テキストは、音声認識が可能であることを報知するアイコンを用いて、別のテキストと区別できるようにディスプレイされてよい。

そして、前記ディスプレイアイテムは、検索エンジンの検索結果を含んでよい。

なお、前記ディスプレイアイテムに該当する画面は、前記ディスプレイアイテムにリンク付けされたウェブページを含んでよい。

そして、前記決定は、前記第１テキストが他のディスプレイアイテムから抽出された第２テキストと重複されないように前記第１テキストを決定してよい。

なお、前記音声と前記第１テキストとが一致していない場合、前記音声に対応する候補テキストを表示することで音声誤認識を報知するステップを更に含んでよい。

そして、前記別のテキストは、前記ディスプレイアイテムに含まれたテキストのうち、前記第１テキストを除くテキストを含んでよい。

なお、前記第１テキストは、前記ディスプレイアイテムに含まれた単語の並び順によって決定されてよい。

そして、前記第１テキストは、前記ディスプレイアイテムに含まれた単語の意味分析によって決定されてよい。

なお、前記第１テキストは、サウンドによって前記別のテキストと区別できるように処理されてよい。

そして、前記ディスプレイアイテムに該当する画面をディスプレイすることは、前記認識された音声が前記第１テキストに関連する発話であると判断すると、前記ディスプレイアイテムの実行結果画面をディスプレイすることを含んでよい。

一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ディスプレイアイテムをディスプレイするディスプレイ部と、前記ディスプレイアイテムに対応する第１テキストを決定するテキスト決定部と、ユーザの発した音声を認識する音声認識部と、前記第１テキストを別のテキストと区別できるように前記ディスプレイアイテムをディスプレイし、前記認識された音声と前記第１テキストとが対応すると、前記ディスプレイアイテムに該当する画面をディスプレイするように前記ディスプレイ部を制御する制御部とを含む。

なお、前記ディスプレイアイテムは、リンク（Ｈｙｐｅｒｌｉｎｋ）を含んでよい。そして、前記第１テキストは、色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記別のテキストと区別できるようにディスプレイされてよい。

なお、前記制御部は、前記音声と前記第１テキストとが一致していない場合、前記音声に対応する候補テキストを表示することで音声誤認識を報知してよい。

一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置のリンク実行方法は、ウェブページをディスプレイステップと、前記ウェブページに含まれたリンクに含まれたテキストを抽出するステップと、前記リンクから抽出されたテキストを別のテキストと区別できるように表示するステップと、ユーザの発した音声を認識するステップと、前記ユーザの発した音声と前記リンクから抽出されたテキストとが一致している場合、前記一致するテキストの含まれたリンクを実行するステップとを含む。

そして、前記抽出するステップは、前記リンクのテキストが他のリンクから抽出されたテキストと互いに重複されないようにテキストを抽出してよい。

なお、前記表示するステップは、色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記抽出されたテキストを前記別のテキストと区別できるように表示してよい。

そして、前記表示するステップは、前記抽出されたテキストの一側に音声認識が可能であるという情報を含むアイコンを併せて表示してよい。

なお、前記ウェブページにイメージで表示されたリンクが含まれた場合、前記イメージで表示されたリンクの一側に特定テキストを表示するステップを更に含み、前記実行するステップは、前記ユーザの発した音声が前記特定テキストと一致している場合、前記一致する特定テキストの含まれたリンクを実行してよい。

そして、前記認識するステップは、マイクの含まれた外部の音声認識装置で認識されたユーザの音声情報を受信して認識してよい。

一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ウェブページをディスプレイするディスプレイ部と、前記ウェブページに含まれたリンクに含まれたテキストを抽出するテキスト抽出部と、ユーザの発した音声を認識する音声認識部と、前記リンクから抽出されたテキストを別のテキストと区別して表示するように前記ディスプレイ部を制御し、前記ユーザの発した音声と前記リンクから抽出されたテキストとが一致している場合、前記一致するテキストの含まれたリンクを実行する制御部とを含む。

そして、前記テキスト抽出部は、前記リンクのテキストが他のリンクから抽出されたテキストと互いに重複されないようにテキストを抽出してよい。

なお、前記制御部は、色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記抽出されたテキストを前記別のテキストと区別して表示するように前記ディスプレイ部を制御してよい。

そして、前記制御部は、前記抽出されたテキストの一側に音声認識が可能であるという情報を含むアイコンを併せて表示するように前記ディスプレイ部を制御してよい。

なお、前記制御部は、前記ウェブページにイメージで表示されたリンクが含まれた場合、前記イメージで表示されたリンクの一側に特定テキストを表示するように前記ディスプレイ部を制御し、前記ユーザの発した音声が前記特定テキストと一致している場合、前記一致する特定テキストの含まれたリンクを実行してよい。

そして、前記音声認識部は、マイクの含まれた外部の音声認識装置で認識されたユーザの音声情報を受信して認識してよい。

一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置の音声認識方法は、ユーザの発した音声を認識するステップと、ユーザから発せられた音声が認識されると、発した音声と一致するテキストを検索するステップと、前記検索されたテキストおよび前記検索されたテキストの一側に前記検索されたテキストの類似テキストを同時にディスプレイするステップと、ユーザの追加音声認識に応じて前記検索されたテキストおよび前記類似テキストのうち一つのテキストを選択するステップとを含む。

そして、前記選択するステップは、予め設定された時間内にユーザの追加音声認識がない場合、前記検索されたテキストを選択してよい。

なお、前記ディスプレイするステップは、前記類似テキストの一側に識別テキストの含まれたタグを併せてディスプレイし、前記識別テキストは前記検索されたテキストと発音が相違するテキストであってよい。

そして、前記選択するステップは、ユーザから追加で認識された音声が前記識別テキストと一致している場合、前記類似テキストに選択してよい。

なお、前記ディスプレイするステップは、類似テキストをマッチさせて記録したデータベースから、前記検索されたテキストにマッチする類似テキストを検出するステップを更に含み、前記類似テキストをマッチさせて記録したデータベースはアップデート可能であってよい。

一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ディスプレイ部と、ユーザの発した音声を認識する音声認識部と、ユーザから発せられた音声が認識されると、発した音声と一致するテキストを検索し、前記検索されたテキストおよび前記検索されたテキストの一側に前記検索されたテキストの類似テキストを併せてディスプレイするように前記ディスプレイ部を制御し、ユーザの追加音声認識に応じて前記検索されたテキストおよび前記類似テキストのうち一つのテキストを選択する制御部とを含んでよい。

そして、前記制御部は、予め設定された時間内にユーザの追加音声認識がない場合、前記検索されたテキストを選択してよい。

なお、前記制御部は、前記類似テキストの一側に識別テキストの含まれたタグを併せてディスプレイするように前記ディスプレイ部を制御し、前記識別テキストは前記検索されたテキストと発音が相違するテキストであってよい。

そして、前記制御部は、ユーザから追加で認識された音声が前記識別テキストと一致している場合、前記類似テキストに選択してよい。

なお、類似テキストをマッチさせて記録したデータベースを更に含み、前記データベースはアップデート可能であってよい。

一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置の音声認識方法は、第１ディスプレイアイテムに対応する第１テキストを決定するステップと、前記第１ディスプレイアイテムが第２ディスプレイアイテムと区別できるように、第１テキストを前記第１ディスプレイアイテムにカップリングしてディスプレイするステップと、ユーザの発した音声を認識するステップと、前記認識された音声に前記第１テキストとが対応すると、前記第１ディスプレイアイテムに該当する画面をディスプレイするステップとを含む。

そして、前記第１テキストは、数字、アルファベット、ローマ字、前記第１ディスプレイアイテムに含まれた一部テキスト、前記第１ディスプレイアイテムの関連テキストのうち、少なくとも一つを含んでよい。

なお、前記第１ディスプレイアイテムは、メニューアイテム、アプリケーションアイコンおよびリンク（Ｈｙｐｅｒｌｉｎｋ）のうち、少なくとも一つを含んでよい。

そして、前記第１テキストは、円（Ｃｉｒｃｌｅ）およびボックス（Ｂｏｘ）のうち、いずれか一つで囲まれてディスプレイされてよい。

なお、前記第１ディスプレイアイテムは、検索エンジンの検索結果を含んでよい。そして、前記第１ディスプレイアイテムに該当する画面は、前記第１ディスプレイアイテムにリンク付けされたウェブページを含んでよい。

なお、前記決定は、前記第１テキストが前記第２ディスプレイアイテムにカップリングされた第２テキストと重複されないように前記第１テキストを決定してよい。

そして、前記第１ディスプレイアイテムに該当する画面をディスプレイすることは、前記認識された音声が前記第１テキストに関連する発話であると判断すると、前記第１ディスプレイアイテムの実行結果画面をディスプレイすることを含んでよい。

一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、第１ディスプレイアイテムをディスプレイするディスプレイ部と、前記ディスプレイアイテムに対応する第１テキストを決定するテキスト決定部と、ユーザの発した音声を認識する音声認識部と、前記第１ディスプレイアイテムが第２ディスプレイアイテムと区別できるように、前記第１テキストを前記第１ディスプレイアイテムにカップリングしてディスプレイし、前記認識された音声に前記第１テキストが対応すると、前記第１ディスプレイアイテムに該当する画面をディスプレイするように前記ディスプレイ部を制御する制御部とを含む。

上述のように、本発明の多様な実施形態によれば、ユーザの発した音声の誤認識の危険性が減り、ユーザはより正確な音声認識を用いてディスプレイ装置を制御することができるようになる。

本発明の一実施形態に係るディスプレイ装置のブロック図を示す図である。本発明の一実施形態に係るリンクを実行するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係るリンクを実行するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係るリンクを実行するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係るリンク実行方法を説明するためのフローチャートである。本発明の一実施形態に係る類似テキストを提供して誤認識を防止するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係る類似テキストを提供して誤認識を防止するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係る類似テキストを提供して誤認識を防止するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係る音声認識方法を説明するためのフローチャートである。本発明の一実施形態に係るディスプレイアイテムとテキストとをカップリングして誤認識を防止するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係るディスプレイアイテムとテキストとをカップリングして誤認識を防止するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係るディスプレイアイテムとテキストとをカップリングして誤認識を防止するために提供されるＧＵＩを説明するための図である。本発明の一実施形態に係るディスプレイアイテムとテキストとをカップリングして誤認識を防止するために提供されるＧＵＩを説明するための図である。本発明の別の実施形態に係る音声認識方法を説明するためのフローチャートである。

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。

図１は、本発明の一実施形態に係るディスプレイ装置１００のブロック図を示す図である。図１に示すように、ディスプレイ装置１００は、映像入力部１１０と、映像処理部１２０と、ディスプレイ部１３０と、テキスト決定部１４０と、音声認識部１５０と、データベース１６０と、ＧＵＩ生成部１７０および制御部１８０を含む。

映像入力部１１０は、音響および映像信号を受信するための少なくとも一つの入力端子を含む。例えば、映像入力部１１０は、ビデオプレーヤやＤＶＤプレーヤのような外部装置および外部ネットワークから提供されるコンポーネント（Ｃｏｍｐｏｎｅｎｔ）映像信号、Ｓ−ＶＨＳ（Ｓｕｐｅｒ−ＶｉｄｅｏＨｏｍｅＳｙｓｔｅｍ）映像信号およびコンポジット（Ｃｏｍｐｏｓｉｔｅ）映像信号等が入力され、それぞれの映像信号に対応する音響信号が入力される。なお、映像入力部１１０は、衛星または放送局から直接送信される放送信号が入力されてよい。

映像処理部１２０は、映像入力部１１０および通信部（図示せず）から入力される映像信号および音声信号に対してビデオデコード、ビデオスケーリング、オーディオデコード等の信号処理を行う。そして、映像処理部１２０は処理された映像信号をディスプレイ部１３０に出力する。

ディスプレイ部１３０は、映像処理部１２０から出力される映像をディスプレイする。なお、ディスプレイ部１３０は、通信部（図示せず）を介してロードされたユーザインターフェースをディスプレイすることができる。なお、ディスプレイ部１３０は、ＧＵＩ生成部１７０から生成されたＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を映像に付加してディスプレイすることができる。

テキスト決定部１４０は、ディスプレイされているディスプレイアイテム（例えば、アイコン、リンク、アプリケーション等）と対応するテキストを決定する。例えば、テキスト決定部１４０は、ディスプレイアイテムに含まれたテキストを抽出してテキストを決定することができ、予め保存されたテキストとカップリングしてテキストを決定することができる。

具体的に、テキスト決定部１４０は、リンクに含まれたテキスト情報をパッシングし、テキストを抽出する。このとき、テキストはディスプレイアイテムに含まれた単語の並び順によって決定されてよく、ディスプレイアイテムに含まれた単語の意味分析によって決定されてよい。例えば、抽出されたテキストはディスプレイアイテムに含まれたテキスト情報のうち意味のあるキーワードであってよい。このとき、意味のあるキーワードを抽出する方法は、データベース１６０に保存されたライブラリ辞書と比較して意味のあるキーワードを抽出する方法、抽出されたテキストの最初の単語を抽出する方法等の多様な方法を用いて意味のあるキーワードを抽出することができる。

このとき、テキスト決定部１４０において決定されたテキストは、ディスプレイアイテムに含まれた一部テキスト、およびディスプレイアイテムの関連テキストのうち少なくとも一つであってよい。

なお、テキスト抽出部１４０は、ディスプレイアイテムに抽出するテキストが存在しない場合、予め保存されているテキスト（例えば、数字やアルファベット等）をディスプレイアイテムとカップリングさせて決定することができる。例えば、第１ディスプレイアイテムには“１”というテキストをカップリングさせて決定してよく、第２ディスプレイアイテムには“２”というテキストをカップリングさせて決定することができる。

なお、複数個のディスプレイアイテムが存在する場合、テキスト決定部１４０は複数個のディスプレイアイテムのそれぞれ異なるテキストを抽出する。複数個のディスプレイアイテムのそれぞれ異なるテキストを抽出することにより、ユーザは実行しようとするディスプレイアイテムに該当するテキストのみを発話することで、誤認識によって他のディスプレイアイテムを選択する問題点を改善することができるようになる。

音声認識部１５０は、ユーザの発した音声を認識し、それをテキスト情報として出力する。具体的に、音声認識部１５０は、ディスプレイ装置１００に内蔵されたマイクまたはディスプレイ装置１００と有無線で接続されたマイクを通じて入力されたユーザの発話音声特徴の波形（即ち、音声の特徴ベクトル）を分析し、ユーザの発した音声と対応する単語または単語列を識別し、識別された単語をテキスト情報として抽出する。ユーザ音声は、ディスプレイ装置１００にエンベデッドされたり、ディスプレイ装置１００と接続（有線接続、無線接続、ネットワーク接続等）されたマイクを通じて入力されてよい。

一方、上述の実施形態では、音声認識部１５０がディスプレイ装置１００に内蔵されたり接続された構造で説明してきたが、それは一実施形態に過ぎず、ディスプレイ装置１００と無線、有線またはネットワークで接続された他の音声認識装置によってユーザの発した音声を認識することができる。

例えば、音声認識部１５０は、マイクの備えられたスマートフォン、タブレットパソコンまたはリモコン等のような外部の音声入力装置で実現されてよい。具体的に、音声認識部１５０は、外部の音声入力装置を通じてユーザの発した音声を認識し、それをテキスト情報に変換し、変換されたテキスト情報をディスプレイ装置１００に伝達することができる。このとき、外部の音声入力装置とディスプレイ装置１００は、Ｗｉ−Ｆｉまたはブルートゥース（Ｂｌｕｅｔｏｏｔｈ（登録商標））のようなネットワークを用いてテキスト情報を送受信することができる。

データベース１６０は、意味のあるキーワードを抽出するためのライブラリ辞書を保存する。なお、データベース１６０は、認識されたテキストと発音が類似している類似テキストを互いにマッチさせて保存する。

ＧＵＩ生成部１７０は、ユーザに提供するためのＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）を生成する。ＧＵＩ生成部１７０は、ＯＳＤ（ＯｎＳｃｒｅｅｎＤｉｓｐｌａｙ）形態で提供されるユーザメニューのＧＵＩを生成することができる。

制御部１８０は、ユーザ操作に従ってディスプレイ装置１００の動作全般を制御する。

特に、制御部１８０は、ディスプレイされたユーザインターフェース（例えば、ウェブページ）に含まれたリンクから抽出されたテキストを別のテキストと区別して表示するようにディスプレイ部１３０を制御することができる。

具体的に、ユーザインターフェースがディスプレイされると、制御部１８０はディスプレイされたユーザインターフェースに含まれた複数のリンクのテキストを抽出するようにテキスト決定部１４０を制御する。複数のリンクのテキストが抽出されると、制御部１８０は抽出されたテキストを別のテキストと区別できるようにディスプレイ部１３０を制御する。このとき、制御部１８０は、テキストの色、フォント、太さおよび下線のうち少なくとも一つを用いて、抽出されたテキストを別のテキストと区別できるように表示することができる。

そして、ユーザの発した音声から音声認識部１５０が抽出されたテキストのうち、一つのテキストと一致する音声を認識すると、制御部１８０は一致するテキストを含むリンクを実行することができる。

例えば、図２に示すように、ディスプレイ部１３０は複数のリンクを含むユーザインターフェースをディスプレイする。このとき、複数のリンクは、“サムスン電子、４０年間隠してきた内容”（２１０）、“北朝鮮に韓国の脅威となる最後の切り札”（２２０）、“ｉＰａｄ２発売される”（２３０）を含む。

ユーザインターフェースがディスプレイされると、制御部１８０はディスプレイされたユーザインターフェースに含まれた複数のリンク２１０、２２０、２３０のテキスト情報のうち識別力のある単語である“サムスン電子”、“北朝鮮”、“ｉＰａｄ２”のテキストを抽出する。テキストが抽出されると、制御部１８０は、図２に示すように、複数のリンク２１０、２２０、２３０のテキストのうち、“サムスン電子”、“北朝鮮”、“ｉＰａｄ２”を別のテキストと区別できるように太さをより太くして表示することができる。従って、音声認識部１５０が、“サムスン電子”、“北朝鮮”、“ｉＰａｄ２”のうちいずれかを認識すると、制御部１８０は、認識されたテキストを含むリンクを実行することができる。例えば、ユーザが発した音声から音声認識部１５０が“サムスン電子”を認識すると、制御部１８０は“サムスン電子、４０年間隠してきた内容”のリンク（２１０）を実行する。

ただ、図２においては、制御部１８０が抽出されたテキストが別のテキストと太さが互いに異なるように表示されるものとして想定されたが、それは一実施形態に過ぎず、制御部１８０が色、フォントおよび下線のうち少なくとも一つを用いて、抽出されたテキストが別のテキストと太さが互いに異なるように表示されるようにディスプレイすることができる。

なお、制御部１８０は、抽出されたテキストの一側に音声認識が可能という情報を含むアイコンを併せて表示するようにディスプレイ部１３０を制御することができる。

例えば、図３に示すように、制御部１８０は抽出された“サムスン電子”、“北朝鮮”、“ｉＰａｄ２”の右側上段に音声認識が可能であるという情報を含むアイコン３１０を併せて表示するようにディスプレイ部１３０を制御することができる。このとき、図３に示すようなアイコン３１０の模様は一実施形態に過ぎず、音声認識が可能であることを表示する形態のインディケーション（Ｉｎｄｉｃａｔｉｏｎ）であれば、本発明の技術的思想が適用されてよい。

図３において説明したように、音声認識が可能であるとするアイコン３１０を併せて表示することにより、ユーザはどのような単語を発話して対応するリンクを実行させることができるか、より正確に把握することができるようになる。

なお、ユーザインターフェースの中にテキスト情報のないイメージリンクがディスプレイされる場合、制御部１８０はイメージリンクの一側に特定テキストを併せてディスプレイすることができる。そして、音声認識部１５０から特定テキストが発話されると、制御部１８０は特定テキストに対応するイメージリンクを実行させることができる。

例えば、図４に示すように、ディスプレイ部１３０は複数のイメージリンクを含むユーザインターフェースをディスプレイする。このとき、複数のイメージリンクは左側に表示された第１イメージリンク４１０、右側に表示された第２イメージリンク４２０を含む。

ユーザインターフェースがディスプレイされると、制御部１８０は、図４に示すように、ディスプレイされたユーザインターフェースに含まれた複数のイメージリンク４１０、４２０に特定テキストである“リンゴ”、“イチゴ”を付加してイメージリンクの右側下段にディスプレイする。このとき、特定テキストは、イメージリンクを認識するために、付加された任意のテキストである。そして、音声認識部１５０が“リンゴ”、“イチゴ”のうちいずれか一方を認識すると、制御部１８０は認識された特定テキストを含むイメージリンクを実行することができる。例えば、ユーザの発した音声から音声認識部１５０が“リンゴ”を認識すると、制御部１８０は第１イメージリンク４１０を実行する。

図４において説明したように、テキスト情報のないイメージリンクに特定テキストを付加することにより、イメージリンクも音声認識を通じて実行させることができるようになる。

一方、抽出されたテキストのうち認識された音声と一致するテキストがない場合、制御部１８０は認識された音声をディスプレイしてユーザに音声誤認識を報知する。

一方、上述の実施形態ではユーザインターフェースに含まれたリンクを実行する方法として説明してきたが、それは一実施形態に過ぎず、他のディスプレイアイテムを実行するために本発明の技術的思想の適用が可能である。例えば、コンテンツリストに含まれたアプリケーション、デスクトップに含まれたアイコン、ユーザによって選択可能なインディケーションなどを実行するために、本発明の技術的思想が適用されてよい。

以下では、図５を参照して、本発明の一実施形態に係るディスプレイ装置１００のリンク実行方法を説明する。

まず、ディスプレイ装置１００は、ユーザインターフェース（例えば、ネットワークを通じてロードされたウェブページ）をディスプレイする（Ｓ５１０）。

そして、ディスプレイ装置１００は、ユーザインターフェースの中に含まれたリンクのテキストを決定する（Ｓ５２０）。このとき、ディスプレイ装置１００は、ユーザインターフェースに含まれたリンクのテキストを抽出し、リンクに対応するテキストを決定する。そして、ユーザインターフェースに複数のリンクが含まれている場合、ディスプレイ装置１００は、複数のリンクのそれぞれのテキストが互いに重ならないようにテキストを決定する。例えば、ディスプレイ装置１００は、互いに重複する一般的な単語が存在しないようにテキストを決定することができる。

テキストが決定されると、ディスプレイ装置１００は決定されたテキストを別のテキストと区別できるようにディスプレイする（Ｓ５３０）。例えば、ディスプレイ装置１００は、決定されたテキストを別のテキストと区別できるように、太さをより太くしたり、色を別のテキストと異なるようにしたり、フォントを別のテキストと異なるようにしたり、決定されたテキストに下線を引き、別のテキストと区別できるようにディスプレイすることができる。
なお、ディスプレイ装置１００は、音声認識が可能という情報を含むアイコンを決定されたテキストの一側に表示することができる。

決定されたテキストが別のテキストと区別できるようにディスプレイされると、ディスプレイ装置１００は音声認識装置を通じてユーザの音声を認識する（Ｓ５４０）。このとき、音声認識装置はディスプレイ装置１００に内蔵されたり有無線で接続されたマイクであってよいが、それは一実施形態に過ぎず、スマートフォン等のような外部音声認識装置を用いてユーザの発した音声を認識することができる。

そして、ディスプレイ装置１００は、認識された音声と一致するテキストがあるか否かを判断する（Ｓ５５０）。認識された音声と一致するテキストがある場合（Ｓ５５０−Ｙ）、ディスプレイ装置１００は一致するテキストの含まれたリンクを実行する（Ｓ５６０）。

しかし、認識された音声と一致するテキストがない場合（Ｓ５５０−Ｎ）、ディスプレイ装置１００は認識された音声入力と出力されたテキストがマッチするか否かを繰り返し判断するために、音声認識（例えば、ステップＳ５４０）を繰り返し行うことができる。そして、認識された音声と一致するテキストがある場合（Ｓ５５０−Ｙ）、ディスプレイ装置１００は一致するテキストを実行する（Ｓ５６０）。

上述のように、ユーザが音声を発する前からユーザの発話するテキスト異なるように表示してユーザに提供することにより、ディスプレイ装置１００はより正確な音声認識を提供することができるようになる。

以下では、図６ないし図８を参照して、ディスプレイ装置１００が誤認識を防止するために、類似テキストを提供して音声を認識する方法について説明する。図６ないし図８で説明するディスプレイ装置１００の構成は、図１における説明と同様であるため、詳細な説明は省略する。

制御部１８０は、ユーザから発せられた音声が音声認識部１５０を介して認識されると、発せられた音声と一致するテキストを検索する。ユーザの発した音声と一致するテキストが検索されると、制御部１８０はデータベース１６０から検索されたテキストの類似テキストを併せて検索する。このとき、類似テキストは検索されたテキストと発音が類似しているテキストとして、データベース１６０に検索されたテキストと類似テキストとが互いにマッチして予め保存される。なお、類似テキストは製造時から設定されてよいが、ユーザの入力によってアップデートされてよい。

テキストおよび類似テキストが検索されると、制御部１８０は検索されたテキストの一側に検索されたテキストの類似テキストを併せてディスプレイするようにディスプレイ部１３０を制御する。

例えば、チャネル変更のためにユーザから発せられた“じゅういち”が音声認識部１５０に認識されると、制御部１８０は“じゅういち”というテキストを検索する。そして、制御部１８０は“じゅういち”と発音が類似している“じゅうに”、“にじゅういち”を類似テキストとして併せて検索する。

テキストおよび類似テキストが検索されると、制御部１８０は、図６に示すように、メインで検索された“じゅういち”と対応する“チャネル１１”アイコン６１０をディスプレイ画面の右側上段にディスプレイする。そして、制御部１８０は、類似テキストである“じゅうに”および“にじゅういち”に対応する“チャネル１２”、“チャネル２１”アイコン６２０、６３０を“チャネル１１”アイコン６１０の下段に併せてディスプレイする。

このとき、制御部１８０は、類似テキスト６２０、６３０の右側に識別テキスト６２５、６３５を併せてディスプレイする。識別テキストは類似テキストに対応するテキストとして、検索されたテキストとは発音が相違しているテキストである。

例えば、“チャネル１２”アイコン６２０の右側には“ＫＢＳ”という識別テキスト６２５を併せてディスプレイし、“チャネル２１”アイコン６３０の右側には“ＯＣＮ”という識別テキスト６３５を併せてディスプレイする。

識別テキストを併せてディスプレイする理由は、類似テキストを発話するとしても、検索されたテキストと発音が類似していて、誤認識が引き続き発生する可能性があるためである。

そして、制御部１８０は、予め設定された期間（例えば、２秒）の間、ユーザの追加音声認識があるか否かを判断し、検索されたテキストおよび類似テキストのうちのいずれ一方を選択する。

具体的に、予め設定された期間内にユーザの追加音声認識がない場合、制御部１８０は検索されたテキストに選択して認識する。例えば、図６が示された状態で予め設定された期間内にユーザの追加音声認識がない場合、制御部１８０は“チャネル１１”が正しいものと認識し、図７に示すように、“チャネル１１”を選局してディスプレイするようにディスプレイ部１３０を制御する。

しかし、予め設定された期間内にユーザの追加音声認識がある場合、制御部１８０はユーザから発せられた追加音声認識が類似テキストの一側に表示された識別テキストと一致するか否かを判断する。例えば、図６が示された状態で予め設定された期間内にユーザの追加音声認識がある場合、制御部１８０は追加で認識された音声が“ＫＢＳ”および“ＯＣＮ”のうちのいずれかを判断する。もし、予め設定された期間内にユーザが“ＫＢＳ”を発話した場合、制御部１８０は“ＫＢＳ”を認識し、図８に示すように、下段に表示された類似テキストである“チャネル１２”を選択する。

従って、図６および図８において説明したように、検索されたテキストと類似しているテキストを併せて提供することにより、誤った音声認識を防止できるようになる。

以下では、図９を参照して、本発明の一実施形態に係るディスプレイ装置１００の音声認識方法を説明する。

まず、ディスプレイ装置１００は、音声認識装置を通じてユーザの発した音声を認識する（Ｓ９１０）。このとき、音声認識装置は、ディスプレイ装置１００に内蔵されたり有無線で接続されたマイクであってよいが、それは一実施形態に過ぎず、スマートフォン等のような外部音声認識装置を用いてユーザの発した音声を認識することができる。

そして、ディスプレイ装置１００は、発話した音声と一致するテキストがあるかを検索する（Ｓ９２０）。そして、発話した音声と一致するテキストがある場合（Ｓ９３０−Ｙ）、ディスプレイ装置１００は一致するテキストの類似テキストを検出する（Ｓ９４０）。このとき、類似テキストは、検索されたテキストと発音が類似しているテキストとして、データベース１６０に検索されたテキストと類似テキストとが互いにマッチして予め保存されている。なお、類似テキストは、製造時から設定されてよいが、ユーザの入力によってアップデートされてよい。

ユーザの発した音声と一致するテキストおよび類似テキストが検索されると、ディスプレイ装置１００は一致するテキストと類似テキストを併せてディスプレイする（Ｓ９５０）。例えば、図６に示すように、ディスプレイ装置１００は、ユーザの発した音声と一致するテキストをディスプレイ画面の右側上段にディスプレイし、類似テキストに一致するテキストの下段にディスプレイすることができる。

このとき、ディスプレイ装置１００は、より正確な音声認識のために、類似テキストと発音が相違している識別テキストを類似テキストの一側に併せてディスプレイすることができる。

そして、ユーザの発した音声と一致するテキスト、類似テキストおよび識別テキストがディスプレイされると、ディスプレイ装置１００は予め設定された時間内にユーザの追加音声認識があるか否かを判断する（Ｓ９６０）。このとき、予め設定された時間は２秒であってよいが、それは一実施形態に過ぎず、別の時間であってよく、ユーザの設定した時間であってよい。

予め設定された期間内にユーザの追加音声認識がない場合（Ｓ９６０−Ｎ）、ディスプレイ装置１００はユーザの発した音声と一致するテキストを選択して認識する（Ｓ９９０）。即ち、予め設定された期間内にユーザの追加音声認識がない場合、ディスプレイ装置はユーザの発した音声が検索しようとするテキストと一致するものと判断し、類似テキストではない一致するテキストに選択して認識する。

しかし、予め設定された期間内にユーザの追加音声認識がある場合（Ｓ９６０−Ｙ）、ディスプレイ装置１００はユーザの追加音声認識が識別テキストと一致するか否かを判断する（Ｓ９７０）。ユーザの追加音声認識が識別テキストと一致する場合、ディスプレイ装置１００は識別テキストと対応する類似テキストを選択して認識する（Ｓ９８０）。即ち、ディスプレイ装置１００は最初にユーザの発した音声が誤って認識されたものと判断し、追加で認識された識別テキストと対応する類似テキストを選択して認識する。

予め設定された期間内にユーザの追加音声認識が識別テキストとも一致しない場合（Ｓ９７０−Ｎ）、ディスプレイ装置１００はユーザの発した音声と一致するテキストを選択して認識する（Ｓ９９０）。それは、追加音声認識が、ユーザが誤認識を防止するための追加音声認識ではないと判断するためである。

しかし、それは一実施形態に過ぎず、予め設定された期間内にユーザの追加音声認識が識別テキストと一致しない場合、ディスプレイ装置１００は別の追加音声認識があるか否かを判断し、音声を認識することができる。

上述のように、ユーザの発した音声と１次元的に一致するテキストと類似しているテキストを併せてディスプレイすることにより、ユーザに誤認識を防止できるようにする。

一方、本発明で言及した音声認識方法の他にもユーザの発した音声を認識できる如何なる音声認識方法にも本発明の技術的思想が適用できることはいうまでもない。

以下では、図１０ないし図１３を参照して、ディスプレイ装置１００が誤認識を防止するために、ディスプレイアイテムにテキストをカップリングして音声を認識する方法について説明する。図１０ないし図１３において説明するディスプレイ装置１００の構成は、図１における説明と同様であるため、詳細な説明は省略する。

具体的に、図１０に示すように、メニューリストに含まれた複数のメニューアイテム１０１０ないし１０９０から抽出されるテキストが存在しない場合（例えば、写真だけが存在する場合）、音声認識部１５０から特定音声命令が入力されると、制御部１８０は複数のメニューアイテム１０１０ないし１０９０にそれぞれ対応する複数のテキスト（例えば、数字、アルファベット、ローマ字等）を決定するようにテキスト決定部１４０を制御する。

このとき、メニューアイテムに対応するテキストを決定する方法は、メニューアイテムがディスプレイされる順に数字又はアルファベットを付与することができる。なお、制御部１８０は、複数のメニューアイテム１０１０ないし１０９０にカップリングされた複数のテキスト１１１０ないし１１９０が互いに重ならないように複数のテキストを決定することができる。

そして、制御部１８０は、複数のメニューアイテム１０１０ないし１０９０が互いに区別できるように、複数のテキスト１１１０ないし１１９０を複数のメニューアイテム１０１０ないし１０９０にカップリングしてディスプレイする。例えば、図１１に示すように、制御部１８０は複数のメニューアイテム１０１０ないし１０９０が互いに区別できるようにメニューアイテムの並び順にテキスト１〜９を付与してディスプレイアイテムの一側に表示する。このとき、テキストである数字１〜９は、円（Ｃｉｒｃｌｅ）およびボックス（Ｂｏｘ）のうち、いずれか一つで囲まれてよい。

そして、音声認識部１５０を介して認識された音声が第１テキスト１１１０に対応すると、制御部１８０は第１テキスト１１１０に対応する第１メニューアイテム１０１０に該当する画面を実行することができる。即ち、音声認識部１５０を介して認識された音声が“いち”である場合、制御部１８０は認識された“いち”に対応するメニューアイテムである第１メニューアイテム１０１０を実行し、第１メニューアイテム１０１０の実行画面に切り替えてよい。

図１２ないし図１３は、本発明の更に別の実施形態であるディスプレイアイテムがリンクである場合の実施形態を説明するための図である。

制御部１８０は、ユーザインターフェース（例えば、ユーザインターフェース）に含まれた複数のリンク１２１０、１２２０、１２３０に対応する複数のテキスト１２１５、１２２５、１２３５を決定し、図１２に示すように、複数のリンク１２１０、１２２０、１２３０と複数のテキスト１２１５、１２２５、１２３５をカップリングしてディスプレイすることができる。

そして、音声認識部１５０を介して特定テキストに対応するユーザ音声が認識されると、制御部１８０は認識されたテキストに対応するリンクを実行する。例えば、音声認識部１５０を介して“じゅういち”という音声が認識されると、制御部１８０は図１３に示されたように、“じゅういち”という第２テキスト１２２５に対応する第２リンク１２２０を実行する。

以下では、図１４を参照して、ディスプレイアイテムとテキストをカップリングさせてユーザの音声を認識する方法について説明する。

まず、ディスプレイ装置１００は、音声認識部１５０を介して音声命令を認識する（Ｓ１４１０）。このとき、音声命令はディスプレイアイテムとテキストをカップリングさせるための命令語であってよい。例えば、音声命令は“おとぼけ”であってよい。

そして、ディスプレイ装置１００は、第１ディスプレイアイテムに対応する第１テキストを決定する（Ｓ１４２０）。このとき、ディスプレイアイテムは、メニューアイテム、アプリケーションアイテムおよびリンクのうち、いずれか一つであってよく、テキストは数字、アルファベット、ローマ字のうちいずれか一つであってよい。そして、ディスプレイアイテムに対応するテキストを決定する方法は、ディスプレイアイテムがディスプレイされた順で数字又はアルファベットを付与してよい。なお、ディスプレイ装置１００は、複数のディスプレイアイテムにカップリングされた複数のテキストが互いに重ならないように複数のテキストを決定してよい。

そして、ディスプレイ装置１００は、第１テキストを第１ディスプレイアイテムとカップリングしてディスプレイする（Ｓ１４３０）。このとき、第１テキストは、円および四角のうちいずれかに囲まれて区別できるように表示されてよい。

そして、ディスプレイ装置１００は、ユーザ音声を認識する（Ｓ１４４０）。このとき、ディスプレイ装置１００は、認識されたユーザ音声と第１テキストとが互いに対応するか否かを判断する（Ｓ１４５０）。

認識されたユーザ音声と第１テキストとが対応すると、ディスプレイ装置１００は第１テキストに対応する第１ディスプレイアイテムを実行させる（Ｓ１４６０）。

上述の方法により、ディスプレイアイテムに抽出されるテキストがない場合であっても、音声認識を通じてディスプレイアイテムを実行することができる。

一方、本発明で述べたディスプレイ装置１００は、インターネットウェブページ検索が可能なディスプレイ装置１００であれば、如何なるものであっても適用されてよい。例えば、ディスプレイ装置１００は、コンピュータやテレビ、ＰＭＰ、スマートフォン等であってよい。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

Claims

ディスプレイ装置の音声認識方法において、
第１ディスプレイアイテムに対応する第１テキストを決定するステップと、
前記第１テキストを別のテキストと区別できるようにディスプレイするステップと、
ユーザの発した音声を認識するステップと、
前記認識された音声と対応するテキストが存在するか否かを判断するステップと、
前記認識された音声と対応する前記第１テキストが存在する場合、前記第１ディスプレイアイテムを選択するステップと
を含む音声認識方法。
前記第１テキストは、
前記ディスプレイアイテムに含まれた一部テキストおよび前記第１ディスプレイアイテムの関連テキストのうち、少なくとも一つを含むことを特徴とする請求項１に記載の音声認識方法。
前記第１ディスプレイアイテムは、
リンク（ｌｉｎｋ）を含むことを特徴とする請求項１に記載の音声認識方法。
前記第１テキストは、
色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記別のテキストと区別できるようにディスプレイされることを特徴とする請求項１に記載の音声認識方法。
前記第１テキストは、
音声認識が可能であることを報知するインディケーションを用いて、別のテキストと区別できるように処理することを特徴とする請求項１に記載の音声認識方法。
前記第１ディスプレイアイテムは、検索エンジンの検索結果を含むことを特徴とする請求項１に記載の音声認識方法。
前記第１ディスプレイアイテムはハイパーリンクを含み、
前記第１ディスプレイアイテムを選択するステップは、
前記第１ディスプレイアイテムにリンク付けされたウェブページをディスプレイするステップを含むことを特徴とする請求項１に記載の音声認識方法。
前記抽出するステップは、
前記第１テキストが第２ディスプレイアイテムから抽出された第２テキストと同一の単語を共有しないように、前記第１テキストを抽出することを特徴とする請求項１に記載の音声認識方法。
前記音声と前記第１テキストとが一致しない場合、前記認識されたユーザ音声をディスプレイするステップを更に含むことを特徴とする請求項１に記載の音声認識方法。
ディスプレイ装置において、
第１ディスプレイアイテムをディスプレイするディスプレイ部と、
前記第１ディスプレイアイテムから第１テキストを決定するテキスト決定部と、
ユーザの発した音声を認識する音声認識部と、
前記第１テキストを別のテキストと区別できるようにディスプレイし、前記認識された音声に前記第１テキストが対応すると、前記第１ディスプレイアイテムを選択する制御部と
を含むディスプレイ装置。
前記第１テキストは、
前記第１ディスプレイアイテムに含まれた一部テキスト、前記第１ディスプレイアイテムの関連テキストのうち、少なくとも一つを含むことを特徴とする請求項１０に記載のディスプレイ装置。
前記第１ディスプレイアイテムは、
リンク（Ｈｙｐｅｒｌｉｎｋ）を含むことを特徴とする請求項１０に記載のディスプレイ装置。
前記第１テキストは、
色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記別のテキストと区別できるようにディスプレイされることを特徴とする請求項１０に記載のディスプレイ装置。
前記第１テキストは、
音声認識が可能であることを報知するインディケーションを用いて、別のテキストと区別できるように処理することを特徴とする請求項１０に記載のディスプレイ装置。
前記第１ディスプレイアイテムは、検索エンジンの検索結果を含むことを特徴とする請求項１０に記載のディスプレイ装置。