JP2012256047A - ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法 - Google Patents

ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法 Download PDF

Info

Publication number
JP2012256047A
JP2012256047A JP2012128359A JP2012128359A JP2012256047A JP 2012256047 A JP2012256047 A JP 2012256047A JP 2012128359 A JP2012128359 A JP 2012128359A JP 2012128359 A JP2012128359 A JP 2012128359A JP 2012256047 A JP2012256047 A JP 2012256047A
Authority
JP
Japan
Prior art keywords
text
display
voice
display item
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012128359A
Other languages
English (en)
Other versions
JP6271117B2 (ja
Inventor
Eun-Sang Park
殷 相 朴
Hyun-Kyu Yun
賢 奎 尹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020110119412A external-priority patent/KR101897492B1/ko
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2012256047A publication Critical patent/JP2012256047A/ja
Application granted granted Critical
Publication of JP6271117B2 publication Critical patent/JP6271117B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】 本発明の目的とするところは、ユーザの発した音声の誤認識を防止し、より正確な音声認識ができるようにするディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法を提供することにある。
【解決手段】 ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法を提供する。本ディスプレイ装置の音声認識方法は、ディスプレイアイテムに対応する第1テキストを決定し、第1テキストを別のテキストと区別できるようにディスプレイアイテムをディスプレイし、ユーザの発した音声を認識し、認識された音声と前記第1テキストとが対応すると、ディスプレイアイテムに該当する画面をディスプレイする。それにより、ユーザの発した音声の誤認識の危険性が減り、ユーザはより正確な音声認識を用いてディスプレイ装置を制御することができるようになる。
【選択図】 図1

Description

本発明は、ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法に関し、より詳細には、ユーザの音声を認識して制御命令を行うディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法に関する。
近来、ディスプレイ装置が益々多機能化、高度化するにつれ、ディスプレイ装置を制御するための多様な入力方法が開発されてきた。例えば、マウスを用いた入力方法、タッチパッドを用いた入力方法およびモーションセンシングリモコンを用いた入力方法等が開発されてきた。
特に、多様な入力方法の中でも、ユーザがより簡単にディスプレイ装置を制御するために、ユーザの音声を認識してディスプレイ装置を制御する音声認識方法が脚光を浴びている。
しかし、ユーザの発した音声を認識してディスプレイ装置を制御する場合、人それぞれの口腔の構造および発音の違いにより、100%満足のいく結果を得ることができない場合が多い。
即ち、音声認識装置がユーザの発した音声を誤認識する場合、ユーザの望む方向にディスプレイ装置を制御できなくなるという問題が生じてしまう。
米国特開第2007−0008366号公報 米国特許登録第6615176号
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、ユーザの発した音声の誤認識を防止し、より正確な音声認識ができるようにするディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法を提供することにある。
前記目的を達成するための本発明の一実施形態に係るディスプレイ装置の音声認識方法は、ディスプレイアイテムに対応する第1テキストを決定するステップと、前記第1テキストを別のテキストと区別できるように前記ディスプレイアイテムをディスプレイするステップと、ユーザの発した音声を認識するステップと、前記認識された音声と前記第1テキストとが対応すると、前記ディスプレイアイテムに該当する画面をディスプレイするステップとを含む。
そして、前記第1テキストは、前記ディスプレイアイテムに含まれた一部テキストおよび前記ディスプレイアイテムの関連テキストのうち、少なくとも一つを含んでよい。
なお、前記ディスプレイアイテムは、リンク(Hyperlink)を含んでよい。
そして、前記第1テキストは、色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記別のテキストと区別できるようにディスプレイされてよい。
なお、前記第1テキストは、音声認識が可能であることを報知するアイコンを用いて、別のテキストと区別できるようにディスプレイされてよい。
そして、前記ディスプレイアイテムは、検索エンジンの検索結果を含んでよい。
なお、前記ディスプレイアイテムに該当する画面は、前記ディスプレイアイテムにリンク付けされたウェブページを含んでよい。
そして、前記決定は、前記第1テキストが他のディスプレイアイテムから抽出された第2テキストと重複されないように前記第1テキストを決定してよい。
なお、前記音声と前記第1テキストとが一致していない場合、前記音声に対応する候補テキストを表示することで音声誤認識を報知するステップを更に含んでよい。
そして、前記別のテキストは、前記ディスプレイアイテムに含まれたテキストのうち、前記第1テキストを除くテキストを含んでよい。
なお、前記第1テキストは、前記ディスプレイアイテムに含まれた単語の並び順によって決定されてよい。
そして、前記第1テキストは、前記ディスプレイアイテムに含まれた単語の意味分析によって決定されてよい。
なお、前記第1テキストは、サウンドによって前記別のテキストと区別できるように処理されてよい。
そして、前記ディスプレイアイテムに該当する画面をディスプレイすることは、前記認識された音声が前記第1テキストに関連する発話であると判断すると、前記ディスプレイアイテムの実行結果画面をディスプレイすることを含んでよい。
一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ディスプレイアイテムをディスプレイするディスプレイ部と、前記ディスプレイアイテムに対応する第1テキストを決定するテキスト決定部と、ユーザの発した音声を認識する音声認識部と、前記第1テキストを別のテキストと区別できるように前記ディスプレイアイテムをディスプレイし、前記認識された音声と前記第1テキストとが対応すると、前記ディスプレイアイテムに該当する画面をディスプレイするように前記ディスプレイ部を制御する制御部とを含む。
そして、前記第1テキストは、前記ディスプレイアイテムに含まれた一部テキストおよび前記ディスプレイアイテムの関連テキストのうち、少なくとも一つを含んでよい。
なお、前記ディスプレイアイテムは、リンク(Hyperlink)を含んでよい。そして、前記第1テキストは、色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記別のテキストと区別できるようにディスプレイされてよい。
なお、前記第1テキストは、音声認識が可能であることを報知するアイコンを用いて、別のテキストと区別できるようにディスプレイされてよい。
そして、前記ディスプレイアイテムは、検索エンジンの検索結果を含んでよい。
なお、前記ディスプレイアイテムに該当する画面は、前記ディスプレイアイテムにリンク付けされたウェブページを含んでよい。
そして、前記決定は、前記第1テキストが他のディスプレイアイテムから抽出された第2テキストと重複されないように前記第1テキストを決定してよい。
なお、前記制御部は、前記音声と前記第1テキストとが一致していない場合、前記音声に対応する候補テキストを表示することで音声誤認識を報知してよい。
そして、前記別のテキストは、前記ディスプレイアイテムに含まれたテキストのうち、前記第1テキストを除くテキストを含んでよい。
なお、前記第1テキストは、前記ディスプレイアイテムに含まれた単語の並び順によって決定されてよい。
そして、前記第1テキストは、前記ディスプレイアイテムに含まれた単語の意味分析によって決定されてよい。
なお、前記第1テキストは、サウンドによって前記別のテキストと区別できるように処理されてよい。
そして、前記ディスプレイアイテムに該当する画面をディスプレイすることは、前記認識された音声が前記第1テキストに関連する発話であると判断すると、前記ディスプレイアイテムの実行結果画面をディスプレイすることを含んでよい。
一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置のリンク実行方法は、ウェブページをディスプレイステップと、前記ウェブページに含まれたリンクに含まれたテキストを抽出するステップと、前記リンクから抽出されたテキストを別のテキストと区別できるように表示するステップと、ユーザの発した音声を認識するステップと、前記ユーザの発した音声と前記リンクから抽出されたテキストとが一致している場合、前記一致するテキストの含まれたリンクを実行するステップとを含む。
そして、前記抽出するステップは、前記リンクのテキストが他のリンクから抽出されたテキストと互いに重複されないようにテキストを抽出してよい。
なお、前記表示するステップは、色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記抽出されたテキストを前記別のテキストと区別できるように表示してよい。
そして、前記表示するステップは、前記抽出されたテキストの一側に音声認識が可能であるという情報を含むアイコンを併せて表示してよい。
なお、前記ウェブページにイメージで表示されたリンクが含まれた場合、前記イメージで表示されたリンクの一側に特定テキストを表示するステップを更に含み、前記実行するステップは、前記ユーザの発した音声が前記特定テキストと一致している場合、前記一致する特定テキストの含まれたリンクを実行してよい。
そして、前記認識するステップは、マイクの含まれた外部の音声認識装置で認識されたユーザの音声情報を受信して認識してよい。
一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ウェブページをディスプレイするディスプレイ部と、前記ウェブページに含まれたリンクに含まれたテキストを抽出するテキスト抽出部と、ユーザの発した音声を認識する音声認識部と、前記リンクから抽出されたテキストを別のテキストと区別して表示するように前記ディスプレイ部を制御し、前記ユーザの発した音声と前記リンクから抽出されたテキストとが一致している場合、前記一致するテキストの含まれたリンクを実行する制御部とを含む。
そして、前記テキスト抽出部は、前記リンクのテキストが他のリンクから抽出されたテキストと互いに重複されないようにテキストを抽出してよい。
なお、前記制御部は、色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記抽出されたテキストを前記別のテキストと区別して表示するように前記ディスプレイ部を制御してよい。
そして、前記制御部は、前記抽出されたテキストの一側に音声認識が可能であるという情報を含むアイコンを併せて表示するように前記ディスプレイ部を制御してよい。
なお、前記制御部は、前記ウェブページにイメージで表示されたリンクが含まれた場合、前記イメージで表示されたリンクの一側に特定テキストを表示するように前記ディスプレイ部を制御し、前記ユーザの発した音声が前記特定テキストと一致している場合、前記一致する特定テキストの含まれたリンクを実行してよい。
そして、前記音声認識部は、マイクの含まれた外部の音声認識装置で認識されたユーザの音声情報を受信して認識してよい。
一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置の音声認識方法は、ユーザの発した音声を認識するステップと、ユーザから発せられた音声が認識されると、発した音声と一致するテキストを検索するステップと、前記検索されたテキストおよび前記検索されたテキストの一側に前記検索されたテキストの類似テキストを同時にディスプレイするステップと、ユーザの追加音声認識に応じて前記検索されたテキストおよび前記類似テキストのうち一つのテキストを選択するステップとを含む。
そして、前記選択するステップは、予め設定された時間内にユーザの追加音声認識がない場合、前記検索されたテキストを選択してよい。
なお、前記ディスプレイするステップは、前記類似テキストの一側に識別テキストの含まれたタグを併せてディスプレイし、前記識別テキストは前記検索されたテキストと発音が相違するテキストであってよい。
そして、前記選択するステップは、ユーザから追加で認識された音声が前記識別テキストと一致している場合、前記類似テキストに選択してよい。
なお、前記ディスプレイするステップは、類似テキストをマッチさせて記録したデータベースから、前記検索されたテキストにマッチする類似テキストを検出するステップを更に含み、前記類似テキストをマッチさせて記録したデータベースはアップデート可能であってよい。
一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ディスプレイ部と、ユーザの発した音声を認識する音声認識部と、ユーザから発せられた音声が認識されると、発した音声と一致するテキストを検索し、前記検索されたテキストおよび前記検索されたテキストの一側に前記検索されたテキストの類似テキストを併せてディスプレイするように前記ディスプレイ部を制御し、ユーザの追加音声認識に応じて前記検索されたテキストおよび前記類似テキストのうち一つのテキストを選択する制御部とを含んでよい。
そして、前記選択するステップは、予め設定された時間内にユーザの追加音声認識がない場合、前記検索されたテキストを選択してよい。
なお、前記ディスプレイするステップは、前記類似テキストの一側に識別テキストの含まれたタグを併せてディスプレイし、前記識別テキストは前記検索されたテキストと発音が相違するテキストであってよい。
そして、前記選択するステップは、ユーザから追加で認識された音声が前記識別テキストと一致している場合、前記類似テキストに選択してよい。
なお、前記ディスプレイするステップは、類似テキストをマッチさせて記録したデータベースから、前記検索されたテキストにマッチする類似テキストを検出するステップを更に含み、前記類似テキストをマッチさせて記録したデータベースはアップデート可能であってよい。
一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、ディスプレイ部と、ユーザの発した音声を認識する音声認識部と、ユーザから発せられた音声が認識されると、発した音声と一致するテキストを検索し、前記検索されたテキストおよび前記検索されたテキストの一側に前記検索されたテキストの類似テキストを併せてディスプレイするように前記ディスプレイ部を制御し、ユーザの追加音声認識に応じて前記検索されたテキストおよび前記類似テキストのうち一つのテキストを選択する制御部とを含んでよい。
そして、前記制御部は、予め設定された時間内にユーザの追加音声認識がない場合、前記検索されたテキストを選択してよい。
なお、前記制御部は、前記類似テキストの一側に識別テキストの含まれたタグを併せてディスプレイするように前記ディスプレイ部を制御し、前記識別テキストは前記検索されたテキストと発音が相違するテキストであってよい。
そして、前記制御部は、ユーザから追加で認識された音声が前記識別テキストと一致している場合、前記類似テキストに選択してよい。
なお、類似テキストをマッチさせて記録したデータベースを更に含み、前記データベースはアップデート可能であってよい。
一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置の音声認識方法は、第1ディスプレイアイテムに対応する第1テキストを決定するステップと、前記第1ディスプレイアイテムが第2ディスプレイアイテムと区別できるように、第1テキストを前記第1ディスプレイアイテムにカップリングしてディスプレイするステップと、ユーザの発した音声を認識するステップと、前記認識された音声に前記第1テキストとが対応すると、前記第1ディスプレイアイテムに該当する画面をディスプレイするステップとを含む。
そして、前記第1テキストは、数字、アルファベット、ローマ字、前記第1ディスプレイアイテムに含まれた一部テキスト、前記第1ディスプレイアイテムの関連テキストのうち、少なくとも一つを含んでよい。
なお、前記第1ディスプレイアイテムは、メニューアイテム、アプリケーションアイコンおよびリンク(Hyperlink)のうち、少なくとも一つを含んでよい。
そして、前記第1テキストは、円(Circle)およびボックス(Box)のうち、いずれか一つで囲まれてディスプレイされてよい。
なお、前記第1ディスプレイアイテムは、検索エンジンの検索結果を含んでよい。そして、前記第1ディスプレイアイテムに該当する画面は、前記第1ディスプレイアイテムにリンク付けされたウェブページを含んでよい。
なお、前記決定は、前記第1テキストが前記第2ディスプレイアイテムにカップリングされた第2テキストと重複されないように前記第1テキストを決定してよい。
そして、前記第1ディスプレイアイテムに該当する画面をディスプレイすることは、前記認識された音声が前記第1テキストに関連する発話であると判断すると、前記第1ディスプレイアイテムの実行結果画面をディスプレイすることを含んでよい。
一方、前記目的を達成するための本発明の一実施形態に係るディスプレイ装置は、第1ディスプレイアイテムをディスプレイするディスプレイ部と、前記ディスプレイアイテムに対応する第1テキストを決定するテキスト決定部と、ユーザの発した音声を認識する音声認識部と、前記第1ディスプレイアイテムが第2ディスプレイアイテムと区別できるように、前記第1テキストを前記第1ディスプレイアイテムにカップリングしてディスプレイし、前記認識された音声に前記第1テキストが対応すると、前記第1ディスプレイアイテムに該当する画面をディスプレイするように前記ディスプレイ部を制御する制御部とを含む。
そして、前記第1テキストは、数字、アルファベット、ローマ字、前記第1ディスプレイアイテムに含まれた一部テキスト、前記第1ディスプレイアイテムの関連テキストのうち、少なくとも一つを含んでよい。
なお、前記第1ディスプレイアイテムは、メニューアイテム、アプリケーションアイコンおよびリンク(Hyperlink)のうち、少なくとも一つを含んでよい。
そして、前記第1テキストは、円(Circle)およびボックス(Box)のうち、いずれか一つで囲まれてディスプレイされてよい。
なお、前記第1ディスプレイアイテムは、検索エンジンの検索結果を含んでよい。そして、前記第1ディスプレイアイテムに該当する画面は、前記第1ディスプレイアイテムにリンク付けされたウェブページを含んでよい。
なお、前記決定は、前記第1テキストが前記第2ディスプレイアイテムにカップリングされた第2テキストと重複されないように前記第1テキストを決定してよい。
そして、前記第1ディスプレイアイテムに該当する画面をディスプレイすることは、前記認識された音声が前記第1テキストに関連する発話であると判断すると、前記第1ディスプレイアイテムの実行結果画面をディスプレイすることを含んでよい。
上述のように、本発明の多様な実施形態によれば、ユーザの発した音声の誤認識の危険性が減り、ユーザはより正確な音声認識を用いてディスプレイ装置を制御することができるようになる。
本発明の一実施形態に係るディスプレイ装置のブロック図を示す図である。 本発明の一実施形態に係るリンクを実行するために提供されるGUIを説明するための図である。 本発明の一実施形態に係るリンクを実行するために提供されるGUIを説明するための図である。 本発明の一実施形態に係るリンクを実行するために提供されるGUIを説明するための図である。 本発明の一実施形態に係るリンク実行方法を説明するためのフローチャートである。 本発明の一実施形態に係る類似テキストを提供して誤認識を防止するために提供されるGUIを説明するための図である。 本発明の一実施形態に係る類似テキストを提供して誤認識を防止するために提供されるGUIを説明するための図である。 本発明の一実施形態に係る類似テキストを提供して誤認識を防止するために提供されるGUIを説明するための図である。 本発明の一実施形態に係る音声認識方法を説明するためのフローチャートである。 本発明の一実施形態に係るディスプレイアイテムとテキストとをカップリングして誤認識を防止するために提供されるGUIを説明するための図である。 本発明の一実施形態に係るディスプレイアイテムとテキストとをカップリングして誤認識を防止するために提供されるGUIを説明するための図である。 本発明の一実施形態に係るディスプレイアイテムとテキストとをカップリングして誤認識を防止するために提供されるGUIを説明するための図である。 本発明の一実施形態に係るディスプレイアイテムとテキストとをカップリングして誤認識を防止するために提供されるGUIを説明するための図である。 本発明の別の実施形態に係る音声認識方法を説明するためのフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。
図1は、本発明の一実施形態に係るディスプレイ装置100のブロック図を示す図である。図1に示すように、ディスプレイ装置100は、映像入力部110と、映像処理部120と、ディスプレイ部130と、テキスト決定部140と、音声認識部150と、データベース160と、GUI生成部170および制御部180を含む。
映像入力部110は、音響および映像信号を受信するための少なくとも一つの入力端子を含む。例えば、映像入力部110は、ビデオプレーヤやDVDプレーヤのような外部装置および外部ネットワークから提供されるコンポーネント(Component)映像信号、S−VHS(Super−Video Home System)映像信号およびコンポジット(Composite)映像信号等が入力され、それぞれの映像信号に対応する音響信号が入力される。なお、映像入力部110は、衛星または放送局から直接送信される放送信号が入力されてよい。
映像処理部120は、映像入力部110および通信部(図示せず)から入力される映像信号および音声信号に対してビデオデコード、ビデオスケーリング、オーディオデコード等の信号処理を行う。そして、映像処理部120は処理された映像信号をディスプレイ部130に出力する。
ディスプレイ部130は、映像処理部120から出力される映像をディスプレイする。なお、ディスプレイ部130は、通信部(図示せず)を介してロードされたユーザインターフェースをディスプレイすることができる。なお、ディスプレイ部130は、GUI生成部170から生成されたGUI(Graphical User Interface)を映像に付加してディスプレイすることができる。
テキスト決定部140は、ディスプレイされているディスプレイアイテム(例えば、アイコン、リンク、アプリケーション等)と対応するテキストを決定する。例えば、テキスト決定部140は、ディスプレイアイテムに含まれたテキストを抽出してテキストを決定することができ、予め保存されたテキストとカップリングしてテキストを決定することができる。
具体的に、テキスト決定部140は、リンクに含まれたテキスト情報をパッシングし、テキストを抽出する。このとき、テキストはディスプレイアイテムに含まれた単語の並び順によって決定されてよく、ディスプレイアイテムに含まれた単語の意味分析によって決定されてよい。例えば、抽出されたテキストはディスプレイアイテムに含まれたテキスト情報のうち意味のあるキーワードであってよい。このとき、意味のあるキーワードを抽出する方法は、データベース160に保存されたライブラリ辞書と比較して意味のあるキーワードを抽出する方法、抽出されたテキストの最初の単語を抽出する方法等の多様な方法を用いて意味のあるキーワードを抽出することができる。
このとき、テキスト決定部140において決定されたテキストは、ディスプレイアイテムに含まれた一部テキスト、およびディスプレイアイテムの関連テキストのうち少なくとも一つであってよい。
なお、テキスト抽出部140は、ディスプレイアイテムに抽出するテキストが存在しない場合、予め保存されているテキスト(例えば、数字やアルファベット等)をディスプレイアイテムとカップリングさせて決定することができる。例えば、第1ディスプレイアイテムには“1”というテキストをカップリングさせて決定してよく、第2ディスプレイアイテムには“2”というテキストをカップリングさせて決定することができる。
なお、複数個のディスプレイアイテムが存在する場合、テキスト決定部140は複数個のディスプレイアイテムのそれぞれ異なるテキストを抽出する。複数個のディスプレイアイテムのそれぞれ異なるテキストを抽出することにより、ユーザは実行しようとするディスプレイアイテムに該当するテキストのみを発話することで、誤認識によって他のディスプレイアイテムを選択する問題点を改善することができるようになる。
音声認識部150は、ユーザの発した音声を認識し、それをテキスト情報として出力する。具体的に、音声認識部150は、ディスプレイ装置100に内蔵されたマイクまたはディスプレイ装置100と有無線で接続されたマイクを通じて入力されたユーザの発話音声特徴の波形(即ち、音声の特徴ベクトル)を分析し、ユーザの発した音声と対応する単語または単語列を識別し、識別された単語をテキスト情報として抽出する。ユーザ音声は、ディスプレイ装置100にエンベデッドされたり、ディスプレイ装置100と接続(有線接続、無線接続、ネットワーク接続等)されたマイクを通じて入力されてよい。
一方、上述の実施形態では、音声認識部150がディスプレイ装置100に内蔵されたり接続された構造で説明してきたが、それは一実施形態に過ぎず、ディスプレイ装置100と無線、有線またはネットワークで接続された他の音声認識装置によってユーザの発した音声を認識することができる。
例えば、音声認識部150は、マイクの備えられたスマートフォン、タブレットパソコンまたはリモコン等のような外部の音声入力装置で実現されてよい。具体的に、音声認識部150は、外部の音声入力装置を通じてユーザの発した音声を認識し、それをテキスト情報に変換し、変換されたテキスト情報をディスプレイ装置100に伝達することができる。このとき、外部の音声入力装置とディスプレイ装置100は、Wi−Fiまたはブルートゥース(Bluetooth(登録商標))のようなネットワークを用いてテキスト情報を送受信することができる。
データベース160は、意味のあるキーワードを抽出するためのライブラリ辞書を保存する。なお、データベース160は、認識されたテキストと発音が類似している類似テキストを互いにマッチさせて保存する。
GUI生成部170は、ユーザに提供するためのGUI(Graphic User Interface)を生成する。GUI生成部170は、OSD(On Screen Display)形態で提供されるユーザメニューのGUIを生成することができる。
制御部180は、ユーザ操作に従ってディスプレイ装置100の動作全般を制御する。
特に、制御部180は、ディスプレイされたユーザインターフェース(例えば、ウェブページ)に含まれたリンクから抽出されたテキストを別のテキストと区別して表示するようにディスプレイ部130を制御することができる。
具体的に、ユーザインターフェースがディスプレイされると、制御部180はディスプレイされたユーザインターフェースに含まれた複数のリンクのテキストを抽出するようにテキスト決定部140を制御する。複数のリンクのテキストが抽出されると、制御部180は抽出されたテキストを別のテキストと区別できるようにディスプレイ部130を制御する。このとき、制御部180は、テキストの色、フォント、太さおよび下線のうち少なくとも一つを用いて、抽出されたテキストを別のテキストと区別できるように表示することができる。
そして、ユーザの発した音声から音声認識部150が抽出されたテキストのうち、一つのテキストと一致する音声を認識すると、制御部180は一致するテキストを含むリンクを実行することができる。
例えば、図2に示すように、ディスプレイ部130は複数のリンクを含むユーザインターフェースをディスプレイする。このとき、複数のリンクは、“サムスン電子、40年間隠してきた内容”(210)、“北朝鮮に韓国の脅威となる最後の切り札”(220)、“iPad2発売される”(230)を含む。
ユーザインターフェースがディスプレイされると、制御部180はディスプレイされたユーザインターフェースに含まれた複数のリンク210、220、230のテキスト情報のうち識別力のある単語である“サムスン電子”、“北朝鮮”、“iPad2”のテキストを抽出する。テキストが抽出されると、制御部180は、図2に示すように、複数のリンク210、220、230のテキストのうち、“サムスン電子”、“北朝鮮”、“iPad2”を別のテキストと区別できるように太さをより太くして表示することができる。従って、音声認識部150が、“サムスン電子”、“北朝鮮”、“iPad2”のうちいずれかを認識すると、制御部180は、認識されたテキストを含むリンクを実行することができる。例えば、ユーザが発した音声から音声認識部150が“サムスン電子”を認識すると、制御部180は“サムスン電子、40年間隠してきた内容”のリンク(210)を実行する。
ただ、図2においては、制御部180が抽出されたテキストが別のテキストと太さが互いに異なるように表示されるものとして想定されたが、それは一実施形態に過ぎず、制御部180が色、フォントおよび下線のうち少なくとも一つを用いて、抽出されたテキストが別のテキストと太さが互いに異なるように表示されるようにディスプレイすることができる。
なお、制御部180は、抽出されたテキストの一側に音声認識が可能という情報を含むアイコンを併せて表示するようにディスプレイ部130を制御することができる。
例えば、図3に示すように、制御部180は抽出された“サムスン電子”、“北朝鮮”、“iPad2”の右側上段に音声認識が可能であるという情報を含むアイコン310を併せて表示するようにディスプレイ部130を制御することができる。このとき、図3に示すようなアイコン310の模様は一実施形態に過ぎず、音声認識が可能であることを表示する形態のインディケーション(Indication)であれば、本発明の技術的思想が適用されてよい。
図3において説明したように、音声認識が可能であるとするアイコン310を併せて表示することにより、ユーザはどのような単語を発話して対応するリンクを実行させることができるか、より正確に把握することができるようになる。
なお、ユーザインターフェースの中にテキスト情報のないイメージリンクがディスプレイされる場合、制御部180はイメージリンクの一側に特定テキストを併せてディスプレイすることができる。そして、音声認識部150から特定テキストが発話されると、制御部180は特定テキストに対応するイメージリンクを実行させることができる。
例えば、図4に示すように、ディスプレイ部130は複数のイメージリンクを含むユーザインターフェースをディスプレイする。このとき、複数のイメージリンクは左側に表示された第1イメージリンク410、右側に表示された第2イメージリンク420を含む。
ユーザインターフェースがディスプレイされると、制御部180は、図4に示すように、ディスプレイされたユーザインターフェースに含まれた複数のイメージリンク410、420に特定テキストである“リンゴ”、“イチゴ”を付加してイメージリンクの右側下段にディスプレイする。このとき、特定テキストは、イメージリンクを認識するために、付加された任意のテキストである。そして、音声認識部150が“リンゴ”、“イチゴ”のうちいずれか一方を認識すると、制御部180は認識された特定テキストを含むイメージリンクを実行することができる。例えば、ユーザの発した音声から音声認識部150が“リンゴ”を認識すると、制御部180は第1イメージリンク410を実行する。
図4において説明したように、テキスト情報のないイメージリンクに特定テキストを付加することにより、イメージリンクも音声認識を通じて実行させることができるようになる。
一方、抽出されたテキストのうち認識された音声と一致するテキストがない場合、制御部180は認識された音声をディスプレイしてユーザに音声誤認識を報知する。
一方、上述の実施形態ではユーザインターフェースに含まれたリンクを実行する方法として説明してきたが、それは一実施形態に過ぎず、他のディスプレイアイテムを実行するために本発明の技術的思想の適用が可能である。例えば、コンテンツリストに含まれたアプリケーション、デスクトップに含まれたアイコン、ユーザによって選択可能なインディケーションなどを実行するために、本発明の技術的思想が適用されてよい。
以下では、図5を参照して、本発明の一実施形態に係るディスプレイ装置100のリンク実行方法を説明する。
まず、ディスプレイ装置100は、ユーザインターフェース(例えば、ネットワークを通じてロードされたウェブページ)をディスプレイする(S510)。
そして、ディスプレイ装置100は、ユーザインターフェースの中に含まれたリンクのテキストを決定する(S520)。このとき、ディスプレイ装置100は、ユーザインターフェースに含まれたリンクのテキストを抽出し、リンクに対応するテキストを決定する。そして、ユーザインターフェースに複数のリンクが含まれている場合、ディスプレイ装置100は、複数のリンクのそれぞれのテキストが互いに重ならないようにテキストを決定する。例えば、ディスプレイ装置100は、互いに重複する一般的な単語が存在しないようにテキストを決定することができる。
テキストが決定されると、ディスプレイ装置100は決定されたテキストを別のテキストと区別できるようにディスプレイする(S530)。例えば、ディスプレイ装置100は、決定されたテキストを別のテキストと区別できるように、太さをより太くしたり、色を別のテキストと異なるようにしたり、フォントを別のテキストと異なるようにしたり、決定されたテキストに下線を引き、別のテキストと区別できるようにディスプレイすることができる。
なお、ディスプレイ装置100は、音声認識が可能という情報を含むアイコンを決定されたテキストの一側に表示することができる。
決定されたテキストが別のテキストと区別できるようにディスプレイされると、ディスプレイ装置100は音声認識装置を通じてユーザの音声を認識する(S540)。このとき、音声認識装置はディスプレイ装置100に内蔵されたり有無線で接続されたマイクであってよいが、それは一実施形態に過ぎず、スマートフォン等のような外部音声認識装置を用いてユーザの発した音声を認識することができる。
そして、ディスプレイ装置100は、認識された音声と一致するテキストがあるか否かを判断する(S550)。認識された音声と一致するテキストがある場合(S550−Y)、ディスプレイ装置100は一致するテキストの含まれたリンクを実行する(S560)。
しかし、認識された音声と一致するテキストがない場合(S550−N)、ディスプレイ装置100は認識された音声入力と出力されたテキストがマッチするか否かを繰り返し判断するために、音声認識(例えば、ステップS540)を繰り返し行うことができる。そして、認識された音声と一致するテキストがある場合(S550−Y)、ディスプレイ装置100は一致するテキストを実行する(S560)。
上述のように、ユーザが音声を発する前からユーザの発話するテキスト異なるように表示してユーザに提供することにより、ディスプレイ装置100はより正確な音声認識を提供することができるようになる。
以下では、図6ないし図8を参照して、ディスプレイ装置100が誤認識を防止するために、類似テキストを提供して音声を認識する方法について説明する。図6ないし図8で説明するディスプレイ装置100の構成は、図1における説明と同様であるため、詳細な説明は省略する。
制御部180は、ユーザから発せられた音声が音声認識部150を介して認識されると、発せられた音声と一致するテキストを検索する。ユーザの発した音声と一致するテキストが検索されると、制御部180はデータベース160から検索されたテキストの類似テキストを併せて検索する。このとき、類似テキストは検索されたテキストと発音が類似しているテキストとして、データベース160に検索されたテキストと類似テキストとが互いにマッチして予め保存される。なお、類似テキストは製造時から設定されてよいが、ユーザの入力によってアップデートされてよい。
テキストおよび類似テキストが検索されると、制御部180は検索されたテキストの一側に検索されたテキストの類似テキストを併せてディスプレイするようにディスプレイ部130を制御する。
例えば、チャネル変更のためにユーザから発せられた“じゅういち”が音声認識部150に認識されると、制御部180は“じゅういち”というテキストを検索する。そして、制御部180は“じゅういち”と発音が類似している“じゅうに”、“にじゅういち”を類似テキストとして併せて検索する。
テキストおよび類似テキストが検索されると、制御部180は、図6に示すように、メインで検索された“じゅういち”と対応する“チャネル11”アイコン610をディスプレイ画面の右側上段にディスプレイする。そして、制御部180は、類似テキストである“じゅうに”および“にじゅういち”に対応する“チャネル12”、“チャネル21”アイコン620、630を“チャネル11”アイコン610の下段に併せてディスプレイする。
このとき、制御部180は、類似テキスト620、630の右側に識別テキスト625、635を併せてディスプレイする。識別テキストは類似テキストに対応するテキストとして、検索されたテキストとは発音が相違しているテキストである。
例えば、“チャネル12”アイコン620の右側には“KBS”という識別テキスト625を併せてディスプレイし、“チャネル21”アイコン630の右側には“OCN”という識別テキスト635を併せてディスプレイする。
識別テキストを併せてディスプレイする理由は、類似テキストを発話するとしても、検索されたテキストと発音が類似していて、誤認識が引き続き発生する可能性があるためである。
そして、制御部180は、予め設定された期間(例えば、2秒)の間、ユーザの追加音声認識があるか否かを判断し、検索されたテキストおよび類似テキストのうちのいずれ一方を選択する。
具体的に、予め設定された期間内にユーザの追加音声認識がない場合、制御部180は検索されたテキストに選択して認識する。例えば、図6が示された状態で予め設定された期間内にユーザの追加音声認識がない場合、制御部180は“チャネル11”が正しいものと認識し、図7に示すように、“チャネル11”を選局してディスプレイするようにディスプレイ部130を制御する。
しかし、予め設定された期間内にユーザの追加音声認識がある場合、制御部180はユーザから発せられた追加音声認識が類似テキストの一側に表示された識別テキストと一致するか否かを判断する。例えば、図6が示された状態で予め設定された期間内にユーザの追加音声認識がある場合、制御部180は追加で認識された音声が“KBS”および“OCN”のうちのいずれかを判断する。もし、予め設定された期間内にユーザが“KBS”を発話した場合、制御部180は“KBS”を認識し、図8に示すように、下段に表示された類似テキストである“チャネル12”を選択する。
従って、図6および図8において説明したように、検索されたテキストと類似しているテキストを併せて提供することにより、誤った音声認識を防止できるようになる。
以下では、図9を参照して、本発明の一実施形態に係るディスプレイ装置100の音声認識方法を説明する。
まず、ディスプレイ装置100は、音声認識装置を通じてユーザの発した音声を認識する(S910)。このとき、音声認識装置は、ディスプレイ装置100に内蔵されたり有無線で接続されたマイクであってよいが、それは一実施形態に過ぎず、スマートフォン等のような外部音声認識装置を用いてユーザの発した音声を認識することができる。
そして、ディスプレイ装置100は、発話した音声と一致するテキストがあるかを検索する(S920)。そして、発話した音声と一致するテキストがある場合(S930−Y)、ディスプレイ装置100は一致するテキストの類似テキストを検出する(S940)。このとき、類似テキストは、検索されたテキストと発音が類似しているテキストとして、データベース160に検索されたテキストと類似テキストとが互いにマッチして予め保存されている。なお、類似テキストは、製造時から設定されてよいが、ユーザの入力によってアップデートされてよい。
ユーザの発した音声と一致するテキストおよび類似テキストが検索されると、ディスプレイ装置100は一致するテキストと類似テキストを併せてディスプレイする(S950)。例えば、図6に示すように、ディスプレイ装置100は、ユーザの発した音声と一致するテキストをディスプレイ画面の右側上段にディスプレイし、類似テキストに一致するテキストの下段にディスプレイすることができる。
このとき、ディスプレイ装置100は、より正確な音声認識のために、類似テキストと発音が相違している識別テキストを類似テキストの一側に併せてディスプレイすることができる。
そして、ユーザの発した音声と一致するテキスト、類似テキストおよび識別テキストがディスプレイされると、ディスプレイ装置100は予め設定された時間内にユーザの追加音声認識があるか否かを判断する(S960)。このとき、予め設定された時間は2秒であってよいが、それは一実施形態に過ぎず、別の時間であってよく、ユーザの設定した時間であってよい。
予め設定された期間内にユーザの追加音声認識がない場合(S960−N)、ディスプレイ装置100はユーザの発した音声と一致するテキストを選択して認識する(S990)。即ち、予め設定された期間内にユーザの追加音声認識がない場合、ディスプレイ装置はユーザの発した音声が検索しようとするテキストと一致するものと判断し、類似テキストではない一致するテキストに選択して認識する。
しかし、予め設定された期間内にユーザの追加音声認識がある場合(S960−Y)、ディスプレイ装置100はユーザの追加音声認識が識別テキストと一致するか否かを判断する(S970)。ユーザの追加音声認識が識別テキストと一致する場合、ディスプレイ装置100は識別テキストと対応する類似テキストを選択して認識する(S980)。即ち、ディスプレイ装置100は最初にユーザの発した音声が誤って認識されたものと判断し、追加で認識された識別テキストと対応する類似テキストを選択して認識する。
予め設定された期間内にユーザの追加音声認識が識別テキストとも一致しない場合(S970−N)、ディスプレイ装置100はユーザの発した音声と一致するテキストを選択して認識する(S990)。それは、追加音声認識が、ユーザが誤認識を防止するための追加音声認識ではないと判断するためである。
しかし、それは一実施形態に過ぎず、予め設定された期間内にユーザの追加音声認識が識別テキストと一致しない場合、ディスプレイ装置100は別の追加音声認識があるか否かを判断し、音声を認識することができる。
上述のように、ユーザの発した音声と1次元的に一致するテキストと類似しているテキストを併せてディスプレイすることにより、ユーザに誤認識を防止できるようにする。
一方、本発明で言及した音声認識方法の他にもユーザの発した音声を認識できる如何なる音声認識方法にも本発明の技術的思想が適用できることはいうまでもない。
以下では、図10ないし図13を参照して、ディスプレイ装置100が誤認識を防止するために、ディスプレイアイテムにテキストをカップリングして音声を認識する方法について説明する。図10ないし図13において説明するディスプレイ装置100の構成は、図1における説明と同様であるため、詳細な説明は省略する。
具体的に、図10に示すように、メニューリストに含まれた複数のメニューアイテム1010ないし1090から抽出されるテキストが存在しない場合(例えば、写真だけが存在する場合)、音声認識部150から特定音声命令が入力されると、制御部180は複数のメニューアイテム1010ないし1090にそれぞれ対応する複数のテキスト(例えば、数字、アルファベット、ローマ字等)を決定するようにテキスト決定部140を制御する。
このとき、メニューアイテムに対応するテキストを決定する方法は、メニューアイテムがディスプレイされる順に数字又はアルファベットを付与することができる。なお、制御部180は、複数のメニューアイテム1010ないし1090にカップリングされた複数のテキスト1110ないし1190が互いに重ならないように複数のテキストを決定することができる。
そして、制御部180は、複数のメニューアイテム1010ないし1090が互いに区別できるように、複数のテキスト1110ないし1190を複数のメニューアイテム1010ないし1090にカップリングしてディスプレイする。例えば、図11に示すように、制御部180は複数のメニューアイテム1010ないし1090が互いに区別できるようにメニューアイテムの並び順にテキスト1〜9を付与してディスプレイアイテムの一側に表示する。このとき、テキストである数字1〜9は、円(Circle)およびボックス(Box)のうち、いずれか一つで囲まれてよい。
そして、音声認識部150を介して認識された音声が第1テキスト1110に対応すると、制御部180は第1テキスト1110に対応する第1メニューアイテム1010に該当する画面を実行することができる。即ち、音声認識部150を介して認識された音声が“いち”である場合、制御部180は認識された“いち”に対応するメニューアイテムである第1メニューアイテム1010を実行し、第1メニューアイテム1010の実行画面に切り替えてよい。
図12ないし図13は、本発明の更に別の実施形態であるディスプレイアイテムがリンクである場合の実施形態を説明するための図である。
制御部180は、ユーザインターフェース(例えば、ユーザインターフェース)に含まれた複数のリンク1210、1220、1230に対応する複数のテキスト1215、1225、1235を決定し、図12に示すように、複数のリンク1210、1220、1230と複数のテキスト1215、1225、1235をカップリングしてディスプレイすることができる。
そして、音声認識部150を介して特定テキストに対応するユーザ音声が認識されると、制御部180は認識されたテキストに対応するリンクを実行する。例えば、音声認識部150を介して“じゅういち”という音声が認識されると、制御部180は図13に示されたように、“じゅういち”という第2テキスト1225に対応する第2リンク1220を実行する。
以下では、図14を参照して、ディスプレイアイテムとテキストをカップリングさせてユーザの音声を認識する方法について説明する。
まず、ディスプレイ装置100は、音声認識部150を介して音声命令を認識する(S1410)。このとき、音声命令はディスプレイアイテムとテキストをカップリングさせるための命令語であってよい。例えば、音声命令は“おとぼけ”であってよい。
そして、ディスプレイ装置100は、第1ディスプレイアイテムに対応する第1テキストを決定する(S1420)。このとき、ディスプレイアイテムは、メニューアイテム、アプリケーションアイテムおよびリンクのうち、いずれか一つであってよく、テキストは数字、アルファベット、ローマ字のうちいずれか一つであってよい。そして、ディスプレイアイテムに対応するテキストを決定する方法は、ディスプレイアイテムがディスプレイされた順で数字又はアルファベットを付与してよい。なお、ディスプレイ装置100は、複数のディスプレイアイテムにカップリングされた複数のテキストが互いに重ならないように複数のテキストを決定してよい。
そして、ディスプレイ装置100は、第1テキストを第1ディスプレイアイテムとカップリングしてディスプレイする(S1430)。このとき、第1テキストは、円および四角のうちいずれかに囲まれて区別できるように表示されてよい。
そして、ディスプレイ装置100は、ユーザ音声を認識する(S1440)。このとき、ディスプレイ装置100は、認識されたユーザ音声と第1テキストとが互いに対応するか否かを判断する(S1450)。
認識されたユーザ音声と第1テキストとが対応すると、ディスプレイ装置100は第1テキストに対応する第1ディスプレイアイテムを実行させる(S1460)。
上述の方法により、ディスプレイアイテムに抽出されるテキストがない場合であっても、音声認識を通じてディスプレイアイテムを実行することができる。
一方、本発明で述べたディスプレイ装置100は、インターネットウェブページ検索が可能なディスプレイ装置100であれば、如何なるものであっても適用されてよい。例えば、ディスプレイ装置100は、コンピュータやテレビ、PMP、スマートフォン等であってよい。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

Claims (15)

  1. ディスプレイ装置の音声認識方法において、
    第1ディスプレイアイテムに対応する第1テキストを決定するステップと、
    前記第1テキストを別のテキストと区別できるようにディスプレイするステップと、
    ユーザの発した音声を認識するステップと、
    前記認識された音声と対応するテキストが存在するか否かを判断するステップと、
    前記認識された音声と対応する前記第1テキストが存在する場合、前記第1ディスプレイアイテムを選択するステップと
    を含む音声認識方法。
  2. 前記第1テキストは、
    前記ディスプレイアイテムに含まれた一部テキストおよび前記第1ディスプレイアイテムの関連テキストのうち、少なくとも一つを含むことを特徴とする請求項1に記載の音声認識方法。
  3. 前記第1ディスプレイアイテムは、
    リンク(link)を含むことを特徴とする請求項1に記載の音声認識方法。
  4. 前記第1テキストは、
    色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記別のテキストと区別できるようにディスプレイされることを特徴とする請求項1に記載の音声認識方法。
  5. 前記第1テキストは、
    音声認識が可能であることを報知するインディケーションを用いて、別のテキストと区別できるように処理することを特徴とする請求項1に記載の音声認識方法。
  6. 前記第1ディスプレイアイテムは、検索エンジンの検索結果を含むことを特徴とする請求項1に記載の音声認識方法。
  7. 前記第1ディスプレイアイテムはハイパーリンクを含み、
    前記第1ディスプレイアイテムを選択するステップは、
    前記第1ディスプレイアイテムにリンク付けされたウェブページをディスプレイするステップを含むことを特徴とする請求項1に記載の音声認識方法。
  8. 前記抽出するステップは、
    前記第1テキストが第2ディスプレイアイテムから抽出された第2テキストと同一の単語を共有しないように、前記第1テキストを抽出することを特徴とする請求項1に記載の音声認識方法。
  9. 前記音声と前記第1テキストとが一致しない場合、前記認識されたユーザ音声をディスプレイするステップを更に含むことを特徴とする請求項1に記載の音声認識方法。
  10. ディスプレイ装置において、
    第1ディスプレイアイテムをディスプレイするディスプレイ部と、
    前記第1ディスプレイアイテムから第1テキストを決定するテキスト決定部と、
    ユーザの発した音声を認識する音声認識部と、
    前記第1テキストを別のテキストと区別できるようにディスプレイし、前記認識された音声に前記第1テキストが対応すると、前記第1ディスプレイアイテムを選択する制御部と
    を含むディスプレイ装置。
  11. 前記第1テキストは、
    前記第1ディスプレイアイテムに含まれた一部テキスト、前記第1ディスプレイアイテムの関連テキストのうち、少なくとも一つを含むことを特徴とする請求項10に記載のディスプレイ装置。
  12. 前記第1ディスプレイアイテムは、
    リンク(Hyperlink)を含むことを特徴とする請求項10に記載のディスプレイ装置。
  13. 前記第1テキストは、
    色、フォント、太さおよび下線のうち少なくとも一つを用いて、前記別のテキストと区別できるようにディスプレイされることを特徴とする請求項10に記載のディスプレイ装置。
  14. 前記第1テキストは、
    音声認識が可能であることを報知するインディケーションを用いて、別のテキストと区別できるように処理することを特徴とする請求項10に記載のディスプレイ装置。
  15. 前記第1ディスプレイアイテムは、検索エンジンの検索結果を含むことを特徴とする請求項10に記載のディスプレイ装置。
JP2012128359A 2011-06-07 2012-06-05 ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法 Expired - Fee Related JP6271117B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2011-0054722 2011-06-07
KR20110054722 2011-06-07
KR10-2011-0119412 2011-11-16
KR1020110119412A KR101897492B1 (ko) 2011-06-07 2011-11-16 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법

Publications (2)

Publication Number Publication Date
JP2012256047A true JP2012256047A (ja) 2012-12-27
JP6271117B2 JP6271117B2 (ja) 2018-01-31

Family

ID=46578813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012128359A Expired - Fee Related JP6271117B2 (ja) 2011-06-07 2012-06-05 ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法

Country Status (5)

Country Link
US (1) US9183832B2 (ja)
EP (1) EP2533242B1 (ja)
JP (1) JP6271117B2 (ja)
CN (1) CN102866824B (ja)
WO (1) WO2012169737A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015038710A (ja) * 2013-08-19 2015-02-26 株式会社東芝 方法、電子機器およびプログラム
JP2016122980A (ja) * 2014-12-25 2016-07-07 京セラ株式会社 タッチスクリーン付情報処理端末、情報処理方法および情報処理プログラム
KR20190053725A (ko) * 2017-11-10 2019-05-20 삼성전자주식회사 디스플레이장치 및 그 제어방법

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US20140181672A1 (en) * 2012-12-20 2014-06-26 Lenovo (Beijing) Co., Ltd. Information processing method and electronic apparatus
KR20140089861A (ko) 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
KR20140089847A (ko) 2013-01-07 2014-07-16 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20140100315A (ko) * 2013-02-06 2014-08-14 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
JP6229287B2 (ja) * 2013-04-03 2017-11-15 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
KR101474856B1 (ko) * 2013-09-24 2014-12-30 주식회사 디오텍 음성인식을 통해 이벤트를 발생시키기 위한 장치 및 방법
US9361084B1 (en) 2013-11-14 2016-06-07 Google Inc. Methods and systems for installing and executing applications
KR102345611B1 (ko) * 2013-11-18 2021-12-31 삼성전자주식회사 디스플레이 장치 및 제어 방법
KR102092164B1 (ko) * 2013-12-27 2020-03-23 삼성전자주식회사 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
KR102215579B1 (ko) * 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
KR102209519B1 (ko) 2014-01-27 2021-01-29 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
US9836192B2 (en) * 2014-02-25 2017-12-05 Evan Glenn Katsuranis Identifying and displaying overlay markers for voice command user interface
US9412363B2 (en) * 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
KR102357321B1 (ko) * 2014-08-27 2022-02-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
CN104318923B (zh) * 2014-11-06 2020-08-11 广州三星通信技术研究有限公司 一种语音处理方法、装置及终端
KR102277749B1 (ko) * 2014-11-13 2021-07-16 엘지전자 주식회사 디스플레이 장치 및 그 제어 방법
KR20160097868A (ko) * 2015-02-10 2016-08-18 삼성전자주식회사 디스플레이 장치 및 디스플레이 방법
JP6033927B1 (ja) * 2015-06-24 2016-11-30 ヤマハ株式会社 情報提供システムおよび情報提供方法
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
KR102561711B1 (ko) * 2016-02-26 2023-08-01 삼성전자주식회사 컨텐트를 인식하는 방법 및 장치
CN105957530B (zh) * 2016-04-28 2020-01-03 海信集团有限公司 一种语音控制方法、装置和终端设备
KR101808161B1 (ko) * 2016-06-27 2017-12-12 주식회사지앤지커머스 모바일 광고 제공 시스템 및 방법
CN107155121B (zh) * 2017-04-26 2020-01-10 海信集团有限公司 语音控制文本的显示方法及装置
EP3401797A1 (en) * 2017-05-12 2018-11-14 Samsung Electronics Co., Ltd. Speech navigation for multilingual web pages
KR102452644B1 (ko) 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
KR102519635B1 (ko) * 2018-01-05 2023-04-10 삼성전자주식회사 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
EP3547096A1 (en) * 2018-03-30 2019-10-02 InterDigital CE Patent Holdings Device and method for navigation through active elements in a displayed page
KR102511385B1 (ko) 2018-04-09 2023-03-17 엘지전자 주식회사 디스플레이 장치
GB2573809B (en) * 2018-05-18 2020-11-04 Emotech Ltd Speaker Recognition
US11094327B2 (en) * 2018-09-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Audible input transcription
CN111263236B (zh) * 2020-02-21 2022-04-12 广州欢网科技有限责任公司 电视机应用的语音适配方法和装置及语音控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125098A (ja) * 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP2003005789A (ja) * 1999-02-12 2003-01-08 Microsoft Corp 文字処理装置および方法
JP2004334409A (ja) * 2003-05-02 2004-11-25 Nippon Hoso Kyokai <Nhk> データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム
JP2007004280A (ja) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp コンテンツ情報提供装置
JP2010224563A (ja) * 1997-11-17 2010-10-07 Nuance Communications Inc 発音矯正装置、発音矯正方法および記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US6101472A (en) 1997-04-16 2000-08-08 International Business Machines Corporation Data processing system and method for navigating a network using a voice command
DE19847419A1 (de) * 1998-10-14 2000-04-20 Philips Corp Intellectual Pty Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
US6615176B2 (en) 1999-07-13 2003-09-02 International Business Machines Corporation Speech enabling labeless controls in an existing graphical user interface
KR20010015932A (ko) 2000-02-24 2001-03-05 김하철 음성인식을 이용한 웹브라우저상의 링크 실행방법
US7418657B2 (en) * 2000-12-12 2008-08-26 Ebay, Inc. Automatically inserting relevant hyperlinks into a webpage
US6728681B2 (en) * 2001-01-05 2004-04-27 Charles L. Whitham Interactive multimedia book
AU2003214512A1 (en) 2003-04-07 2004-11-01 Nokia Corporation Method and device for providing speech-enabled input in an electronic device having a user interface
EA200701671A1 (ru) 2005-02-06 2008-02-28 Лингуит Гмбх Способ и устройство для мобильного доступа к информации на естественном языке
US7962842B2 (en) * 2005-05-30 2011-06-14 International Business Machines Corporation Method and systems for accessing data by spelling discrimination letters of link names
JP4590317B2 (ja) 2005-07-04 2010-12-01 キヤノン株式会社 記録装置
US7707501B2 (en) * 2005-08-10 2010-04-27 International Business Machines Corporation Visual marker for speech enabled links
US9690786B2 (en) * 2008-03-17 2017-06-27 Tivo Solutions Inc. Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
GB0911353D0 (en) * 2009-06-30 2009-08-12 Haq Saad U Discrete voice command navigator
CN101989279A (zh) * 2009-08-03 2011-03-23 樊晓青 一种对网页超链接标签做标记及由语音、按键操作的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125098A (ja) * 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP2010224563A (ja) * 1997-11-17 2010-10-07 Nuance Communications Inc 発音矯正装置、発音矯正方法および記録媒体
JP2003005789A (ja) * 1999-02-12 2003-01-08 Microsoft Corp 文字処理装置および方法
JP2004334409A (ja) * 2003-05-02 2004-11-25 Nippon Hoso Kyokai <Nhk> データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム
JP2007004280A (ja) * 2005-06-21 2007-01-11 Mitsubishi Electric Corp コンテンツ情報提供装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015038710A (ja) * 2013-08-19 2015-02-26 株式会社東芝 方法、電子機器およびプログラム
JP2016122980A (ja) * 2014-12-25 2016-07-07 京セラ株式会社 タッチスクリーン付情報処理端末、情報処理方法および情報処理プログラム
KR20190053725A (ko) * 2017-11-10 2019-05-20 삼성전자주식회사 디스플레이장치 및 그 제어방법
KR102480570B1 (ko) 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법

Also Published As

Publication number Publication date
EP2533242B1 (en) 2020-08-19
WO2012169737A2 (en) 2012-12-13
JP6271117B2 (ja) 2018-01-31
US20120313849A1 (en) 2012-12-13
EP2533242A1 (en) 2012-12-12
CN102866824A (zh) 2013-01-09
US9183832B2 (en) 2015-11-10
WO2012169737A3 (en) 2013-04-04
CN102866824B (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
JP6271117B2 (ja) ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法
KR101897492B1 (ko) 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법
EP3469592B1 (en) Emotional text-to-speech learning system
US9720644B2 (en) Information processing apparatus, information processing method, and computer program
CN109343819B (zh) 在语音识别系统中控制显示装置的显示装置和方法
KR102245747B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102081925B1 (ko) 디스플레이 디바이스 및 스피치 검색 방법
JP5653392B2 (ja) 音声翻訳装置、方法およびプログラム
US20140304606A1 (en) Information processing apparatus, information processing method and computer program
US20140303975A1 (en) Information processing apparatus, information processing method and computer program
EP3089157B1 (en) Voice recognition processing device, voice recognition processing method, and display device
US11881209B2 (en) Electronic device and control method
KR20160056548A (ko) 질의 응답을 위한 디스플레이 장치 및 방법
EP2518722A2 (en) Method for providing link list and display apparatus applying the same
EP3550454A1 (en) Electronic device and control method
KR20140089836A (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR20140089847A (ko) 전자 장치 및 그 제어 방법
JP2014229272A (ja) 電子機器
KR20140060217A (ko) 오디오 신호에 의해 메시지를 포스팅하는 시스템 및 방법
US11217266B2 (en) Information processing device and information processing method
KR20220143622A (ko) 전자 장치 및 그 제어 방법
US20210064640A1 (en) Information processing apparatus and information processing method
KR102456588B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR20130004050A (ko) 음성 인식을 이용한 링크 리스트 제공 방법 및 이를 적용한 디스플레이 장치
JPWO2019098036A1 (ja) 情報処理装置、情報処理端末、および情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171227

R150 Certificate of patent or registration of utility model

Ref document number: 6271117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees