JP2017521692A - 音声制御映像表示装置及び映像表示装置の音声制御方法 - Google Patents

音声制御映像表示装置及び映像表示装置の音声制御方法 Download PDF

Info

Publication number
JP2017521692A
JP2017521692A JP2016566809A JP2016566809A JP2017521692A JP 2017521692 A JP2017521692 A JP 2017521692A JP 2016566809 A JP2016566809 A JP 2016566809A JP 2016566809 A JP2016566809 A JP 2016566809A JP 2017521692 A JP2017521692 A JP 2017521692A
Authority
JP
Japan
Prior art keywords
voice
control
identification
voice data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016566809A
Other languages
English (en)
Inventor
テ パク、ナム
テ パク、ナム
Original Assignee
テ パク、ナム
テ パク、ナム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テ パク、ナム, テ パク、ナム filed Critical テ パク、ナム
Publication of JP2017521692A publication Critical patent/JP2017521692A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本発明は、ディスプレイ部を備え音声制御が可能な映像表示装置であって、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースが保存されたメモリー部、使用者の音声の入力を受ける音声認識部、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する情報処理部、及び、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる制御部、を含んで構成されたことを特徴とする音声制御映像表示装置、及び上記音声制御映像表示装置で行われる映像表示装置の音声制御方法を提供する。

Description

本発明は、音声制御映像表示装置及び映像表示装置の音声制御方法に関する。より詳細には、ディスプレイ部を介して表示される画面上の実行単位領域別に割当てられた識別音声データと、入力される使用者の音声を比較して、使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させるように構成された音声制御映像表示装置及びこのような映像表示装置の音声制御方法に関する。
最近、多様なスマート機器が発売されるに伴い、映像表示装置も多機能化、高度化し、映像表示装置を制御するための多様な入力方法も開発されているが、マウス、キーボード、タッチパッド、ボタン式リモコン等のような既存の方法の他に、モーションセンシングリモコン、タッチスクリーン等の入力方式が開発されて発表されている。このように多様な入力方法の中でも、使用者がさらに手軽に映像表示装置を制御するために、使用者の音声を認識して映像表示装置を制御する音声制御方式が近来脚光を浴びている。
しかし、使用者が発話した音声を認識して映像表示装置を制御する音声制御方式は、使用者個々人の口腔構造及び発音の差異によって認識率が下がるという点と、使用者がデータベースに保存された音声命令語を学習しなければならない不便さ等が問題点として指摘されてきた。すなわち、使用者の便宜性の側面で、満足できるだけの水準の音声制御方式は、いまだ発表されていない実情である。
本発明は、ディスプレイ部を介して表示される画面上の実行単位領域別に割当てられた識別音声データと、入力される使用者の音声を比較して、使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させるように構成されて、既存のタッチスクリーン制御方式の使用者経験(UX)が有する便宜性及び直観性を音声制御に適用することができるようにする音声制御映像表示装置及びこのような映像表示装置の音声制御方法を提供することにその目的がある。
上述した課題の解決のために、本発明は、ディスプレイ部を備え音声制御が可能な映像表示装置であって、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースが保存されたメモリー部、使用者の音声の入力を受ける音声認識部、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する情報処理部、及び、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる制御部、を含んで構成されたことを特徴とする音声制御映像表示装置を提供する。
この際、上記ディスプレイ部は、画面を表示する際、画面上の実行単位領域別に割当てられた識別音声データも共に顕示するように構成されたことを特徴とすることができる。
また上記データベースは、上記ディスプレイ部を介して表示される互いに異なる2以上の画面に対して、各画面上の実行単位領域別に識別音声データが割当てられてマッピングされたことを特徴とすることができる。
また上記データベースには、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データが追加的に保存されており、上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断し、上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、該当識別音声データが割当てられた実行単位領域入力信号を発生させ、入力信号を発生させた実行単位領域を基準として該当制御音声データに対応する制御命令を実行するように構成されたことを特徴とすることができる。
また本発明は、上記音声制御映像表示装置で行われる映像表示装置の音声制御方法であって、(a)上記メモリー部が、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースを保存する段階、(b)上記音声認識部が、使用者の音声の入力を受ける段階、(c)上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階、及び、(d)上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階、を含んで構成されたことを特徴とする映像表示装置の音声制御方法を共に提供する。
この際、上記(b)段階は、上記ディスプレイ部に表示される画面上の実行単位領域別に割当てられた音声データが顕示される状態で行われることを特徴とすることができる。
また上記(a)段階は、上記メモリー部が、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データを追加的に含むデータベースを保存する方式で行われ、上記(c)段階は、上記情報処理部が上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断する方式で行われ、上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域入力信号を発生させ、入力信号を発生させた実行単位領域を基準として上記制御音声データに対応する制御命令を実行する方式で行われるように構成されたことを特徴とすることができる。
本発明に係る音声制御映像表示装置及び映像表示装置の音声制御方法によれば、次のような効果がある。
1.ディスプレイ部を介して表示される画面上の実行単位領域別に割当てられた音声データと、入力された使用者の音声を比較する方式で入力制御が行われるようにして、既存のタッチスクリーン方式の入力制御方式をそのまま音声制御方式に適用させることにより、簡便かつ直観的な音声制御を具現することができるようにする。
2.数十ないし数百種類の音声命令語を使用する既存の音声制御方式と異なり、限定された音声データをもって多様な入力制御が行われることができるようにする。
3.使用者が音声命令語を多く学習しなくても手軽に音声制御を行うことができるようにする。
4.タッチスクリーンの具現及び操作が難しいウェアラブル機器、仮想現実ヘッドセット(VR機器)、モバイル運営体制が搭載され音声制御が可能なビームプロジェクタ等に有用な使用者インターフェースを提供することができるようにする。
タッチスクリーンの模式図である。 本発明に係る音声制御映像表示装置のディスプレイ部を介して表示されるアンドロイドスマートフォンの一般的なホーム画面である。 図2のホーム画面で「アプリ」(2)がタッチされた時に示されるアプリケーション画面である。 本発明に係る音声制御映像表示装置のディスプレイ部を介して表示される画面上の実行単位領域の構成例である。 本発明に係る音声制御映像表示装置のメモリー部に保存されたデータベースの実施例である。 本発明に係る音声制御映像表示装置のディスプレイ部を介して表示される画面が6×4の行列からなった実行単位領域を有する場合に、画面の上端右側に存在する実行単位領域からアルファベット順でアルファベット文字が各実行単位領域の固有な識別音声データとして割当てられた実施例である。 本発明に係る音声制御映像表示装置で識別音声データと制御音声データが結合して使用される実施例である。 本発明に係る映像表示装置の音声制御方法の順序図である。
発明の実施のための最善の形態
本発明の実施のための最善の形態は次のとおりである。
1.音声制御映像表示装置
ディスプレイ部を備え音声制御が可能な映像表示装置であって、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースが保存されたメモリー部、使用者の音声の入力を受ける音声認識部、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する情報処理部、及び、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる制御部、を含んで構成されたことを特徴とする音声制御映像表示装置であって、
上記データベースには、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データが追加的に保存されており、上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断し、上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、該当識別音声データが割当てられた実行単位領域入力信号を発生させ、入力信号を発生させた実行単位領域を基準として該当制御音声データに対応する制御命令を実行するように構成されたことを特徴とする音声制御映像表示装置である。
2.映像表示装置の音声制御方法
上記音声制御映像表示装置で行われる映像表示装置の音声制御方法であって、(a)上記メモリー部が、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースを保存する段階、(b)上記音声認識部が、使用者の音声の入力を受ける段階、(c)上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階、及び、(d)上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階、を含んで構成され、
上記(a)段階は、上記メモリー部が識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データを追加的に含むデータベースを保存する方式で行われ、上記(c)段階は、上記情報処理部が上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断する方式で行われ、上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域入力信号を発生させ、入力信号を発生させた実行単位領域を基準として上記制御音声データに対応する制御命令を実行する方式で行われるように構成されたことを特徴とする映像表示装置の音声制御方法である。
以下では本発明に係る音声制御映像表示装置及び映像表示装置の音声制御方法に関して、具体的な実施例と共に詳細に説明することにする。
1.音声制御映像表示装置
本発明に係る音声制御映像表示装置は、ディスプレイ部、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースが保存されたメモリー部、使用者の音声の入力を受ける音声認識部、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する情報処理部、及び、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる制御部を含んで構成される。このような構成を有する本発明に係る音声制御映像表示装置は、従来広く使用されているスマートフォン、タブレットPC、スマートTV、カーナビゲーション装置をはじめとして、最近発表されたスマートグラス、スマートウォッチ及び仮想現実ヘッドセット(VR機器)のようなウェアラブル機器、モバイル運営体制が搭載され音声制御が可能なビームプロジェクタ等、音声制御の具現が可能な全ての映像表示装置に具現されることができる。
図1に示されたように、近来スマートフォン、タブレットPC等に適用されて広く使用されるタッチスクリーンの入力制御方式は、感圧式と静電式があるが、感圧式はタッチスクリーンの圧力が加えられた部分の座標値を測定して該当部分に入力信号を発生させる方式であり、静電式はタッチスクリーンの四隅に取付けられたセンサがタッチがなされた部分の電子変化を感知して座標値を測定し該当部分に入力信号を発生させる方式である。タッチスクリーン方式は、GUI(Graphic User Interface)環境で直観的な入力方式として使用者の便宜性が非常に高い。本発明は、音声命令語と特定実行内容を1:1で対応させる方式で行われる既存の音声制御方式と全く異なった接近により、タッチスクリーン方式の長所を音声制御に適用することができるようにするということに特徴がある。
本発明において、上記実行単位領域とは、タッチスクリーン入力方式においてタッチスクリーンとタッチ手段(例えば、指、静電ペン等)が接触する接触面に該当する概念であって、上記ディスプレイ部を介して表示される画面上に入力信号と実行信号が発生する範囲を意味する。すなわち、基本的に多数のピクセル(Pixel)で構成された一定領域を意味し、該当領域上のどのピクセルに入力信号または実行信号が発生しても、同一な結果をもたらす領域とみることができる一つのアイコン配置領域、ハイパーリンク部等を含むように区画することができる概念である。後に詳察する実施例と図2ないし図6でのように、スマートフォンのディスプレイ部に表示される画面上に各種アプリケーションの短縮アイコンらが配列されるそれぞれの行列型格子領域をその例としてあげることができ、画面毎にその大きさと数、模様及び配列が変わることができる可変的な概念である。
上記メモリー部は、スマートフォン、タブレットPC等に具現された音声制御映像表示装置に内蔵されたメモリチップで具現される。上記データベースは、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたものであるが、具体的には、画面上で同一な実行単位領域と認められる領域別に付与される固有の座標情報を含むようになる。また上記識別音声データは、使用者の口腔構造及び発声特性を考慮して、音声認識率向上のために、使用者が直接録音したデータを活用することもできる。また上記メモリー部は、上記ディスプレイ部を介して表示される基本的な画面の実行単位領域の分布パターン別フォーマットを予め保存していて、使用者によって特定フォーマットが選択されるようにすることもできる。
上記音声認識部は、使用者の音声の入力を受ける部分であって、スマートフォン、タブレットPC等に具現された音声制御映像表示装置に内蔵されたマイク装置及び音声認識回路で具現される。
上記情報処理部及び上記制御部は、スマートフォン、タブレットPC等に具現された音声制御映像表示装置に内蔵されるCPU及びRAMを含んだ制御回路部で具現される。上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する役割を行うが、具体的には、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域の固有座標情報を検出するようになる。また上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる役割を行うが、上記情報処理部によって検出された座標情報を有する画面上の領域に入力信号を発生させる。入力信号の発生結果は、該当実行単位領域に存在する内容によって変わる。該当実行単位領域に特定アプリケーションの短縮アイコンが存在する場合、そのアプリケーションが実行されるのであり、該当実行単位領域に仮想キーボードの特定文字が存在する場合、該当特定文字が入力されるのであり、該当実行単位領域に画面転換のような命令が指定されている場合、該当命令が行われるのであり、場合によっては何の遂行もないこともあり得る。
図2は、アンドロイドスマートフォンの一般的なホーム画面である。図3は、上記ホーム画面で「アプリ」(2)がタッチされた時に示されるアプリケーション画面である。タッチスクリーン操作を介して「abc」(1)アプリケーションをホーム画面ではないアプリケーション画面で実行しようとする場合、ホーム画面の右側下端の「アプリ」(2)をタッチし、その結果アプリケーション画面が示されれば、アプリケーション画面上の「abc」(3)をタッチすればよい。
本発明では、このような過程が音声制御方式で具現されることができるようにする。具体的には、図4に示されたように、上記ディスプレイ部を介して表示される画面上の実行単位領域が分けられており、上記データベースは、図5でのようにホーム画面とアプリケーション画面をはじめとした複数の画面毎にそれぞれ実行単位領域別に識別音声データが割当てられてマッピングされて生成されるが、ライブラリ1で表示されたホーム画面上の実行単位領域「F4」には、「アプリ」という識別音声データがマッピングされ、ライブラリ2で表示されたアプリケーション画面上の実行単位領域「C1」には「abc」という識別音声データがマッピングされていると仮定するとき、上記ディスプレイ部にホーム画面が表示され、上記音声認識部を介して「アプリ」という使用者の音声が入力された場合、上記情報処理部は、ホーム画面に係るデータベースを検索して「アプリ」という使用者の音声と対応する識別音声データが存在するか判断する。上記情報処理部が「アプリ」という使用者の音声と対応する識別音声データである「アプリ」を検索した場合、上記制御部は、該当識別音声データが割当てられた実行単位領域である「F4」に入力信号を発生させる。その結果、アプリケーション画面が実行されるようになる。また上記ディスプレイ部にアプリケーション画面が実行されている状態で、上記音声認識部を介して「abc」という使用者の音声が入力された場合、上記情報処理部は、アプリケーション画面に係るデータベースを検索して「abc」という使用者の音声と対応する識別音声データが存在するか判断する。上記情報処理部が「abc」という使用者の音声と対応する識別音声データである「abc」を検索した場合、上記制御部は、該当識別音声データが割当てられた実行単位領域である「C1」に入力信号を発生させる。その結果abcというアプリケーションが実行されるようになる。
上の実施例を介して確認することができるように、上記データベースは、上記ディスプレイ部を介して表示される互いに異なる2以上の画面に対して、各画面上の実行単位領域別に識別音声データが割当てられてマッピングされたことを特徴とすることができる。このような方式でデータベースを構成することは、各画面上の実行単位領域に表示されるアイコンの名称が明確で、そのアイコンの名称を識別音声データとして活用しようとするとき望ましい方式である。一方、実行単位領域の分布が同一な画面の場合、同一なデータベースを有することもできる。例えば、図2ないし図5の実施例でのように、上記ディスプレイ部を介して表示される各画面が6×4の行列からなった実行単位領域を有する場合、図6でのように、画面上端右側に存在する実行単位領域からアルファベット順でアルファベット文字を各実行単位領域の固有な識別音声データとして割り当てることを考えることができる。このような方式のデータベース構成は、各画面上の実行単位領域に表示されるアイコンの名称が明確ではない等の理由により、画面の変化に関係なく一貫した識別音声データを有するようにすることが効率的なとき望ましい。特にこのような方式でデータベースが構成される場合、上記ディスプレイ部は、画面を表示する際、画面上の実行単位領域別に割当てられた識別音声データも共に顕示するように構成されるのが望ましい。具体的には、各実行単位領域の固有識別音声データを画面上に背景として薄く表示する方法等が考慮されることができる。
上記データベースには、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データが追加的に保存されており、上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断し、上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、該当識別音声データが割当てられた実行単位領域入力信号を発生させ、入力信号を発生させた実行単位領域を基準として該当制御音声データに対応する制御命令を実行するように構成されたことを特徴とすることができる。
図7に識別音声データと制御音声データが結合して使用される具体的な実施例が図示されている。図7の実施例は、上記ディスプレイ部を介して表示される画面が6×4の行列からなった実行単位領域に分けられ、各実行単位領域には、画面右側上端の実行単位領域からアルファベット順の識別音声データが割当てられており、上記データベースが、画面拡大のための制御命令として「Zoom−In」という制御音声データが追加的に保存されていることを仮定したものである。このような状況で、使用者が「F」と「Zoom−In」を使用者の音声で続けて入力する場合、上記制御部は、画面上の写真中で実行単位領域F(2行2列に該当する部分)を拡大して表示するようになる。もちろん識別音声データと制御音声データの入力順序は関係ないように設定することもできる。
一方、本発明に係る音声制御映像表示装置が第1機器となり、音声制御が不可能か不便な他の装置が第2機器となってミラーリング(mirroring)が行われることもできる。このようなミラーリングを介して、上記音声制御映像表示装置で具現される音声制御方式を他の機器の制御のために使用することができるようになる。第2機器としては、自動車に設置されるコネックティドカーインフォテインメントシステム、スマートTV等を仮定することができる。
この際、第2機器の制御インターフェースが第1機器である上記音声制御映像表示装置を介して表示されるにおいて、第2機器の情報を識別するのが難しい場合、第2機器の映像信号と制御情報のうち制御情報のテキストのみを第1機器に表示される画面上の実行単位領域別に表示し、上記情報処理部は、テキスト基盤の音声合成を介して各テキストを識別音声データに生成し、実行単位領域別に識別音声データをマッピングしてデータベースを生成した後、上記ディスプレイ部を介して表示される画面に上記制御情報のテキストのみを顕示することにより、使用者が上記ディスプレイ部に顕示される制御情報のテキストを音声命令語として利用するようにすることができる。
また、無線ミラーリングのとき使用される無線通信方式の帯域幅が充分に広くないか、第2機器で伝送される情報が過多に多い場合、第2機器の情報を第1機器である上記音声制御映像表示装置に送る際にスケーリングされるようにして、適正な水準の情報だけが伝送されるようにすることができる。
2.映像表示装置の音声制御方法
本発明は、上記音声制御映像表示装置で行われる映像表示装置の音声制御方法であって、(a)上記メモリー部が、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースを保存する段階、(b)上記音声認識部が、使用者の音声の入力を受ける段階、(c)上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階、及び、(d)上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階、を含んで構成されたことを特徴とする映像表示装置の音声制御方法を共に提供する。上記映像表示装置の音声制御方法は、上で説明した本発明に係る音声制御映像表示装置で行われることを前提としている。図8には本発明に係る映像表示装置の音声制御方法の順序図が示されている。
上記(a)段階は、上記メモリー部がデータベースを構築する段階であるが、上記データベースは、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されるようになる。具体的には、画面上で同一な実行単位領域と認められる領域別に付与される固有の座標情報を含むようになり、上記識別音声データは、使用者の口腔構造及び発声特性を考慮して、音声認識率向上のために、使用者が直接録音したデータを活用することもできる。また上記メモリー部は、上記ディスプレイ部を介して表示される基本的な画面の実行単位領域の分布パターン別フォーマットを予め保存していて、使用者によって特定フォーマットが選択されることができるようにすることもできる。
上記(b)段階は、上記音声認識部が使用者の音声の入力を受ける段階である。本段階は、上記音声制御映像表示装置が音声認識モードに転換された状態でなされるようになる。本段階は、使用者が識別音声データを効率的に認知するようにするために、上記ディスプレイ部に表示される画面上の実行単位領域別に割当てられた識別音声データが顕示される状態で行われることが望ましい。
上記(c)段階は、上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階である。具体的には、上記情報処理部は、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域の固有座標情報を検出するようになる。
上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階である。本段階で、上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる役割を行うが、上記情報処理部によって検出された座標情報を有する画面上の領域に入力信号を発生させる。入力信号の発生結果は、該当実行単位領域に存在する内容によって変わる。該当実行単位領域に特定アプリケーションの短縮アイコンが存在する場合、そのアプリケーションが実行されるのであり、該当実行単位領域に仮想キーボードの特定文字が存在する場合、該当特定文字が入力されるのであり、該当実行単位領域に画面転換のような命令が指定されている場合、該当命令が行われるのであり、場合によっては何の遂行もないこともあり得る。
一方、本発明に係る映像表示装置の音声制御方法で、上記(a)段階は、上記メモリー部が、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データを追加的に含むデータベースを保存する方式で行われ、上記(c)段階は、上記情報処理部が上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断する方式で行われ、上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域入力信号を発生させ、入力信号を発生させた実行単位領域を基準として上記制御音声データに対応する制御命令を実行する方式で行われるように構成されたことを特徴とすることができる。これと関した具体的な実施例は、図7と係わって詳察したとおりである。
以上で本発明に係る音声制御映像表示装置及び映像表示装置の音声制御方法に関して具体的な実施例と共に詳細に説明した。しかし、上の具体的な実施例によって本発明が限定されるものではなく、本発明の要旨を逸脱することがない範囲で多少の修正及び変形が可能である。したがって、本発明の請求の範囲は、本発明の真正な範囲内に属する修正及び変形を含む。
本発明に係る音声制御映像表示装置及び映像表示装置の音声制御方法は、ディスプレイ部を介して表示される画面上の実行単位領域別に割当てられた音声データと、入力された使用者の音声を比較する方式で入力制御が行われるようにして、既存のタッチスクリーン方式の入力制御方式をそのまま音声制御方式に適用させることにより、簡便かつ正確な音声制御を具現することができるようにする技術という点で産業上の利用可能性を有している。

本発明は、音声制御映像表示装置及び映像表示装置の音声制御方法に関する。より詳細には、ディスプレイ部を介して表示される画面上の実行単位領域別に割当てられた識別音声データと、入力される使用者の音声を比較して、使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させるように構成された音声制御映像表示装置及びこのような映像表示装置の音声制御方法に関する。
最近、多様なスマート機器が発売されるに伴い、映像表示装置も多機能化、高度化し、映像表示装置を制御するための多様な入力方法も開発されているが、マウス、キーボード、タッチパッド、ボタン式リモコン等のような既存の方法の他に、モーションセンシングリモコン、タッチスクリーン等の入力方式が開発されて発表されている。このように多様な入力方法の中でも、使用者がさらに手軽に映像表示装置を制御するために、使用者の音声を認識して映像表示装置を制御する音声制御方式が近来脚光を浴びている。
しかし、使用者が発話した音声を認識して映像表示装置を制御する音声制御方式は、使用者個々人の口腔構造及び発音の差異によって認識率が下がるという点と、使用者がデータベースに保存された音声命令語を学習しなければならない不便さ等が問題点として指摘されてきた。すなわち、使用者の便宜性の側面で、満足できるだけの水準の音声制御方式は、いまだ発表されていない実情である。
本発明は、ディスプレイ部を介して表示される画面上の実行単位領域別に割当てられた識別音声データと、入力される使用者の音声を比較して、使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させるように構成されて、既存のタッチスクリーン制御方式の使用者経験(UX)が有する便宜性及び直観性を音声制御に適用することができるようにする音声制御映像表示装置及びこのような映像表示装置の音声制御方法を提供することにその目的がある。
上述した課題の解決のために、本発明は、ディスプレイ部を備え音声制御が可能な映像表示装置であって、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースが保存されたメモリー部、使用者の音声の入力を受ける音声認識部、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する情報処理部、及び、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる制御部、を含んで構成されたことを特徴とする音声制御映像表示装置を提供する。
この際、上記ディスプレイ部は、画面を表示する際、画面上の実行単位領域別に割当てられた識別音声データも共に顕示するように構成されたことを特徴とすることができる。
また上記データベースは、上記ディスプレイ部を介して表示される互いに異なる2以上の画面に対して、各画面上の実行単位領域別に識別音声データが割当てられてマッピングされたことを特徴とすることができる。
また上記データベースには、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データが追加的に保存されており、上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断し、上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させ、入力信号を発生させた実行単位領域を基準として該当制御音声データに対応する制御命令を実行するように構成されたことを特徴とすることができる。
また本発明は、上記音声制御映像表示装置で行われる映像表示装置の音声制御方法であって、(a)上記メモリー部が、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースを保存する段階、(b)上記音声認識部が、使用者の音声の入力を受ける段階、(c)上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階、及び、(d)上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階、を含んで構成されたことを特徴とする映像表示装置の音声制御方法を共に提供する。
この際、上記(b)段階は、上記ディスプレイ部に表示される画面上の実行単位領域別に割当てられた音声データが顕示される状態で行われることを特徴とすることができる。
また上記(a)段階は、上記メモリー部が、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データを追加的に含むデータベースを保存する方式で行われ、上記(c)段階は、上記情報処理部が上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断する方式で行われ、上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させ、入力信号を発生させた実行単位領域を基準として上記制御音声データに対応する制御命令を実行する方式で行われるように構成されたことを特徴とすることができる。
本発明に係る音声制御映像表示装置及び映像表示装置の音声制御方法によれば、次のような効果がある。
1.ディスプレイ部を介して表示される画面上の実行単位領域別に割当てられた音声データと、入力された使用者の音声を比較する方式で入力制御が行われるようにして、既存のタッチスクリーン方式の入力制御方式をそのまま音声制御方式に適用させることにより、簡便かつ直観的な音声制御を具現することができるようにする。
2.数十ないし数百種類の音声命令語を使用する既存の音声制御方式と異なり、限定された音声データをもって多様な入力制御が行われることができるようにする。
3.使用者が音声命令語を多く学習しなくても手軽に音声制御を行うことができるようにする。
4.タッチスクリーンの具現及び操作が難しいウェアラブル機器、仮想現実ヘッドセット(VR機器)、モバイル運営体制が搭載され音声制御が可能なビームプロジェクタ等に有用な使用者インターフェースを提供することができるようにする。
タッチスクリーンの模式図である。 本発明に係る音声制御映像表示装置のディスプレイ部を介して表示されるアンドロイドスマートフォンの一般的なホーム画面である。 図2のホーム画面で「アプリ」(2)がタッチされた時に示されるアプリケーション画面である。 本発明に係る音声制御映像表示装置のディスプレイ部を介して表示される画面上の実行単位領域の構成例である。 本発明に係る音声制御映像表示装置のメモリー部に保存されたデータベースの実施例である。 本発明に係る音声制御映像表示装置のディスプレイ部を介して表示される画面が6×4の行列からなった実行単位領域を有する場合に、画面の上端左側に存在する実行単位領域からアルファベット順でアルファベット文字が各実行単位領域の固有な識別音声データとして割当てられた実施例である。 本発明に係る音声制御映像表示装置で識別音声データと制御音声データが結合して使用される実施例である。 本発明に係る映像表示装置の音声制御方法の順序図である。
発明の実施のための最善の形態
本発明の実施のための最善の形態は次のとおりである。
1.音声制御映像表示装置
ディスプレイ部を備え音声制御が可能な映像表示装置であって、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースが保存されたメモリー部、使用者の音声の入力を受ける音声認識部、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する情報処理部、及び、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる制御部、を含んで構成されたことを特徴とする音声制御映像表示装置であって、
上記データベースには、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データが追加的に保存されており、上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断し、上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させ、入力信号を発生させた実行単位領域を基準として該当制御音声データに対応する制御命令を実行するように構成されたことを特徴とする音声制御映像表示装置である。
2.映像表示装置の音声制御方法
上記音声制御映像表示装置で行われる映像表示装置の音声制御方法であって、(a)上記メモリー部が、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースを保存する段階、(b)上記音声認識部が、使用者の音声の入力を受ける段階、(c)上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階、及び、(d)上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階、を含んで構成され、
上記(a)段階は、上記メモリー部が識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データを追加的に含むデータベースを保存する方式で行われ、上記(c)段階は、上記情報処理部が上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断する方式で行われ、上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させ、入力信号を発生させた実行単位領域を基準として上記制御音声データに対応する制御命令を実行する方式で行われるように構成されたことを特徴とする映像表示装置の音声制御方法である。
以下では本発明に係る音声制御映像表示装置及び映像表示装置の音声制御方法に関して、具体的な実施例と共に詳細に説明することにする。
1.音声制御映像表示装置
本発明に係る音声制御映像表示装置は、ディスプレイ部、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースが保存されたメモリー部、使用者の音声の入力を受ける音声認識部、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する情報処理部、及び、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる制御部を含んで構成される。このような構成を有する本発明に係る音声制御映像表示装置は、従来広く使用されているスマートフォン、タブレットPC、スマートTV、カーナビゲーション装置をはじめとして、最近発表されたスマートグラス、スマートウォッチ及び仮想現実ヘッドセット(VR機器)のようなウェアラブル機器、モバイル運営体制が搭載され音声制御が可能なビームプロジェクタ等、音声制御の具現が可能な全ての映像表示装置に具現されることができる。
図1に示されたように、近来スマートフォン、タブレットPC等に適用されて広く使用されるタッチスクリーンの入力制御方式は、感圧式と静電式があるが、感圧式はタッチスクリーンの圧力が加えられた部分の座標値を測定して該当部分に入力信号を発生させる方式であり、静電式はタッチスクリーンの四隅に取付けられたセンサがタッチがなされた部分の電子変化を感知して座標値を測定し該当部分に入力信号を発生させる方式である。タッチスクリーン方式は、GUI(Graphic User Interface)環境で直観的な入力方式として使用者の便宜性が非常に高い。本発明は、音声命令語と特定実行内容を1:1で対応させる方式で行われる既存の音声制御方式と全く異なった接近により、タッチスクリーン方式の長所を音声制御に適用することができるようにするということに特徴がある。
本発明において、上記実行単位領域とは、タッチスクリーン入力方式においてタッチスクリーンとタッチ手段(例えば、指、静電ペン等)が接触する接触面に該当する概念であって、上記ディスプレイ部を介して表示される画面上に入力信号と実行信号が発生する範囲を意味する。すなわち、基本的に多数のピクセル(Pixel)で構成された一定領域を意味し、該当領域上のどのピクセルに入力信号または実行信号が発生しても、同一な結果をもたらす領域とみることができる一つのアイコン配置領域、ハイパーリンク部等を含むように区画することができる概念である。後に詳察する実施例と図2ないし図6でのように、スマートフォンのディスプレイ部に表示される画面上に各種アプリケーションの短縮アイコンらが配列されるそれぞれの行列型格子領域をその例としてあげることができ、画面毎にその大きさと数、模様及び配列が変わることができる可変的な概念である。
上記メモリー部は、スマートフォン、タブレットPC等に具現された音声制御映像表示装置に内蔵されたメモリチップで具現される。上記データベースは、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたものであるが、具体的には、画面上で同一な実行単位領域と認められる領域別に付与される固有の座標情報を含むようになる。また上記識別音声データは、使用者の口腔構造及び発声特性を考慮して、音声認識率向上のために、使用者が直接録音したデータを活用することもできる。また上記メモリー部は、上記ディスプレイ部を介して表示される基本的な画面の実行単位領域の分布パターン別フォーマットを予め保存していて、使用者によって特定フォーマットが選択されるようにすることもできる。
上記音声認識部は、使用者の音声の入力を受ける部分であって、スマートフォン、タブレットPC等に具現された音声制御映像表示装置に内蔵されたマイク装置及び音声認識回路で具現される。
上記情報処理部及び上記制御部は、スマートフォン、タブレットPC等に具現された音声制御映像表示装置に内蔵されるCPU及びRAMを含んだ制御回路部で具現される。上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する役割を行うが、具体的には、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域の固有座標情報を検出するようになる。また上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる役割を行うが、上記情報処理部によって検出された座標情報を有する画面上の領域に入力信号を発生させる。入力信号の発生結果は、該当実行単位領域に存在する内容によって変わる。該当実行単位領域に特定アプリケーションの短縮アイコンが存在する場合、そのアプリケーションが実行されるのであり、該当実行単位領域に仮想キーボードの特定文字が存在する場合、該当特定文字が入力されるのであり、該当実行単位領域に画面転換のような命令が指定されている場合、該当命令が行われるのであり、場合によっては何の遂行もないこともあり得る。
図2は、アンドロイドスマートフォンの一般的なホーム画面である。図3は、上記ホーム画面で「アプリ」(2)がタッチされた時に示されるアプリケーション画面である。タッチスクリーン操作を介して「abc」(1)アプリケーションをホーム画面ではないアプリケーション画面で実行しようとする場合、ホーム画面の右側下端の「アプリ」(2)をタッチし、その結果アプリケーション画面が示されれば、アプリケーション画面上の「abc」(3)をタッチすればよい。
本発明では、このような過程が音声制御方式で具現されることができるようにする。具体的には、図4に示されたように、上記ディスプレイ部を介して表示される画面上の実行単位領域が分けられており、上記データベースは、図5でのようにホーム画面とアプリケーション画面をはじめとした複数の画面毎にそれぞれ実行単位領域別に識別音声データが割当てられてマッピングされて生成されるが、ライブラリ1で表示されたホーム画面上の実行単位領域「F4」には、「アプリ」という識別音声データがマッピングされ、ライブラリ2で表示されたアプリケーション画面上の実行単位領域「C1」には「abc」という識別音声データがマッピングされていると仮定するとき、上記ディスプレイ部にホーム画面が表示され、上記音声認識部を介して「アプリ」という使用者の音声が入力された場合、上記情報処理部は、ホーム画面に係るデータベースを検索して「アプリ」という使用者の音声と対応する識別音声データが存在するか判断する。上記情報処理部が「アプリ」という使用者の音声と対応する識別音声データである「アプリ」を検索した場合、上記制御部は、該当識別音声データが割当てられた実行単位領域である「F4」に入力信号を発生させる。その結果、アプリケーション画面が実行されるようになる。また上記ディスプレイ部にアプリケーション画面が実行されている状態で、上記音声認識部を介して「abc」という使用者の音声が入力された場合、上記情報処理部は、アプリケーション画面に係るデータベースを検索して「abc」という使用者の音声と対応する識別音声データが存在するか判断する。上記情報処理部が「abc」という使用者の音声と対応する識別音声データである「abc」を検索した場合、上記制御部は、該当識別音声データが割当てられた実行単位領域である「C1」に入力信号を発生させる。その結果abcというアプリケーションが実行されるようになる。
上の実施例を介して確認することができるように、上記データベースは、上記ディスプレイ部を介して表示される互いに異なる2以上の画面に対して、各画面上の実行単位領域別に識別音声データが割当てられてマッピングされたことを特徴とすることができる。このような方式でデータベースを構成することは、各画面上の実行単位領域に表示されるアイコンの名称が明確で、そのアイコンの名称を識別音声データとして活用しようとするとき望ましい方式である。一方、実行単位領域の分布が同一な画面の場合、同一なデータベースを有することもできる。例えば、図2ないし図5の実施例でのように、上記ディスプレイ部を介して表示される各画面が6×4の行列からなった実行単位領域を有する場合、図6でのように、画面上端左側に存在する実行単位領域からアルファベット順でアルファベット文字を各実行単位領域の固有な識別音声データとして割り当てることを考えることができる。このような方式のデータベース構成は、各画面上の実行単位領域に表示されるアイコンの名称が明確ではない等の理由により、画面の変化に関係なく一貫した識別音声データを有するようにすることが効率的なとき望ましい。特にこのような方式でデータベースが構成される場合、上記ディスプレイ部は、画面を表示する際、画面上の実行単位領域別に割当てられた識別音声データも共に顕示するように構成されるのが望ましい。具体的には、各実行単位領域の固有識別音声データを画面上に背景として薄く表示する方法等が考慮されることができる。
上記データベースには、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データが追加的に保存されており、上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断し、上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させ、入力信号を発生させた実行単位領域を基準として該当制御音声データに対応する制御命令を実行するように構成されたことを特徴とすることができる。
図7に識別音声データと制御音声データが結合して使用される具体的な実施例が図示されている。図7の実施例は、上記ディスプレイ部を介して表示される画面が6×4の行列からなった実行単位領域に分けられ、各実行単位領域には、画面左側上端の実行単位領域からアルファベット順の識別音声データが割当てられており、上記データベースが、画面拡大のための制御命令として「Zoom−In」という制御音声データが追加的に保存されていることを仮定したものである。このような状況で、使用者が「F」と「Zoom−In」を使用者の音声で続けて入力する場合、上記制御部は、画面上の写真中で実行単位領域F(2行2列に該当する部分)を拡大して表示するようになる。もちろん識別音声データと制御音声データの入力順序は関係ないように設定することもできる。
一方、本発明に係る音声制御映像表示装置が第1機器となり、音声制御が不可能か不便な他の装置が第2機器となってミラーリング(mirroring)が行われることもできる。このようなミラーリングを介して、上記音声制御映像表示装置で具現される音声制御方式を他の機器の制御のために使用することができるようになる。第2機器としては、自動車に設置されるコネックティドカーインフォテインメントシステム、スマートTV等を仮定することができる。
この際、第2機器の制御インターフェースが第1機器である上記音声制御映像表示装置を介して表示されるにおいて、第2機器の情報を識別するのが難しい場合、第2機器の映像信号と制御情報のうち制御情報のテキストのみを第1機器に表示される画面上の実行単位領域別に表示し、上記情報処理部は、テキスト基盤の音声合成を介して各テキストを識別音声データに生成し、実行単位領域別に識別音声データをマッピングしてデータベースを生成した後、上記ディスプレイ部を介して表示される画面に上記制御情報のテキストのみを顕示することにより、使用者が上記ディスプレイ部に顕示される制御情報のテキストを音声命令語として利用するようにすることができる。
また、無線ミラーリングのとき使用される無線通信方式の帯域幅が充分に広くないか、第2機器で伝送される情報が過多に多い場合、第2機器の情報を第1機器である上記音声制御映像表示装置に送る際にスケーリングされるようにして、適正な水準の情報だけが伝送されるようにすることができる。
2.映像表示装置の音声制御方法
本発明は、上記音声制御映像表示装置で行われる映像表示装置の音声制御方法であって、(a)上記メモリー部が、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースを保存する段階、(b)上記音声認識部が、使用者の音声の入力を受ける段階、(c)上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階、及び、(d)上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階、を含んで構成されたことを特徴とする映像表示装置の音声制御方法を共に提供する。上記映像表示装置の音声制御方法は、上で説明した本発明に係る音声制御映像表示装置で行われることを前提としている。図8には本発明に係る映像表示装置の音声制御方法の順序図が示されている。
上記(a)段階は、上記メモリー部がデータベースを構築する段階であるが、上記データベースは、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されるようになる。具体的には、画面上で同一な実行単位領域と認められる領域別に付与される固有の座標情報を含むようになり、上記識別音声データは、使用者の口腔構造及び発声特性を考慮して、音声認識率向上のために、使用者が直接録音したデータを活用することもできる。また上記メモリー部は、上記ディスプレイ部を介して表示される基本的な画面の実行単位領域の分布パターン別フォーマットを予め保存していて、使用者によって特定フォーマットが選択されることができるようにすることもできる。
上記(b)段階は、上記音声認識部が使用者の音声の入力を受ける段階である。本段階は、上記音声制御映像表示装置が音声認識モードに転換された状態でなされるようになる。本段階は、使用者が識別音声データを効率的に認知するようにするために、上記ディスプレイ部に表示される画面上の実行単位領域別に割当てられた識別音声データが顕示される状態で行われることが望ましい。
上記(c)段階は、上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階である。具体的には、上記情報処理部は、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域の固有座標情報を検出するようになる。
上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階である。本段階で、上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる役割を行うが、上記情報処理部によって検出された座標情報を有する画面上の領域に入力信号を発生させる。入力信号の発生結果は、該当実行単位領域に存在する内容によって変わる。該当実行単位領域に特定アプリケーションの短縮アイコンが存在する場合、そのアプリケーションが実行されるのであり、該当実行単位領域に仮想キーボードの特定文字が存在する場合、該当特定文字が入力されるのであり、該当実行単位領域に画面転換のような命令が指定されている場合、該当命令が行われるのであり、場合によっては何の遂行もないこともあり得る。
一方、本発明に係る映像表示装置の音声制御方法で、上記(a)段階は、上記メモリー部が、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データを追加的に含むデータベースを保存する方式で行われ、上記(c)段階は、上記情報処理部が上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断する方式で行われ、上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させ、入力信号を発生させた実行単位領域を基準として上記制御音声データに対応する制御命令を実行する方式で行われるように構成されたことを特徴とすることができる。これと関した具体的な実施例は、図7と係わって詳察したとおりである。
以上で本発明に係る音声制御映像表示装置及び映像表示装置の音声制御方法に関して具体的な実施例と共に詳細に説明した。しかし、上の具体的な実施例によって本発明が限定されるものではなく、本発明の要旨を逸脱することがない範囲で多少の修正及び変形が可能である。したがって、本発明の請求の範囲は、本発明の真正な範囲内に属する修正及び変形を含む。
本発明に係る音声制御映像表示装置及び映像表示装置の音声制御方法は、ディスプレイ部を介して表示される画面上の実行単位領域別に割当てられた音声データと、入力された使用者の音声を比較する方式で入力制御が行われるようにして、既存のタッチスクリーン方式の入力制御方式をそのまま音声制御方式に適用させることにより、簡便かつ正確な音声制御を具現することができるようにする技術という点で産業上の利用可能性を有している。

Claims (5)

  1. ディスプレイ部を備え音声制御が可能な映像表示装置であって、
    上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースが保存されたメモリー部、
    使用者の音声の入力を受ける音声認識部、
    上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する情報処理部、 及び、
    上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、該当識別音声データが割当てられた実行単位領域に入力信号を発生させる制御部、を含み、
    上記データベースには、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データが追加的に保存されており、
    上記情報処理部は、上記音声認識部が使用者の音声を受信した場合、上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断し、
    上記制御部は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、該当識別音声データが割当てられた実行単位領域入力信号を発生させ、入力信号を発生させた実行単位領域を基準として該当制御音声データに対応する制御命令を実行するように構成されたことを特徴とする音声制御映像表示装置。
  2. 上記ディスプレイ部は、画面を表示する際、画面上の実行単位領域別に割当てられた識別音声データも共に顕示するように構成されたことを特徴とする、請求項1に記載の音声制御映像表示装置。
  3. 上記データベースは、上記ディスプレイ部を介して表示される互いに異なる2以上の画面に対して、各画面上の実行単位領域別に識別音声データが割当てられてマッピングされたことを特徴とする、請求項1に記載の音声制御映像表示装置。
  4. 請求項1ないし請求項3のいずれか一つの音声制御映像表示装置で行われる映像表示装置の音声制御方法であって、
    (a)上記メモリー部が、上記ディスプレイ部を介して表示される画面上の実行単位領域別に識別音声データが割当てられてマッピング(mapping)されたデータベースを保存する段階、
    (b)上記音声認識部が、使用者の音声の入力を受ける段階、
    (c)上記情報処理部が、上記データベースを検索して上記使用者の音声と対応する識別音声データが存在するか判断する段階、及び、
    (d)上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域に入力信号を発生させる段階、を含み、
    上記(a)段階は、上記メモリー部が、識別音声データと結合して使用される場合、識別音声データが割当てられた実行単位領域を基準として特定の画面制御を行うようにする制御命令に対応する制御音声データを追加的に含むデータベースを保存する方式で行われ、
    上記(c)段階は、上記情報処理部が上記データベースを検索して上記使用者の音声と対応する識別音声データ及び制御音声データが存在するか判断する方式で行われ、
    上記(d)段階は、上記情報処理部の判断結果、上記使用者の音声と対応する識別音声データ及び制御音声データが存在する場合、上記制御部が該当識別音声データが割当てられた実行単位領域入力信号を発生させ、入力信号を発生させた実行単位領域を基準として上記制御音声データに対応する制御命令を実行する方式で行われるように構成されたことを特徴とする映像表示装置の音声制御方法。
  5. 上記(b)段階は、上記ディスプレイ部に表示される画面上の実行単位領域別に割当てられた音声データが顕示される状態で行われることを特徴とする、請求項4に記載の映像表示装置の音声制御方法。

JP2016566809A 2014-05-13 2014-11-20 音声制御映像表示装置及び映像表示装置の音声制御方法 Pending JP2017521692A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20140056992 2014-05-13
KR10-2014-0056992 2014-05-13
PCT/KR2014/011197 WO2015174597A1 (ko) 2014-05-13 2014-11-20 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법

Publications (1)

Publication Number Publication Date
JP2017521692A true JP2017521692A (ja) 2017-08-03

Family

ID=54480113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016566809A Pending JP2017521692A (ja) 2014-05-13 2014-11-20 音声制御映像表示装置及び映像表示装置の音声制御方法

Country Status (4)

Country Link
US (1) US20170047065A1 (ja)
JP (1) JP2017521692A (ja)
CN (1) CN106462379A (ja)
WO (1) WO2015174597A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2543019A (en) * 2015-07-23 2017-04-12 Muzaffar Saj Virtual reality headset user input system
TWI656523B (zh) * 2016-12-16 2019-04-11 群邁通訊股份有限公司 語音控制裝置、系統及控制方法
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
CN107832036B (zh) * 2017-11-22 2022-01-18 北京小米移动软件有限公司 语音控制方法、装置及计算机可读存储介质
CN109102808A (zh) * 2018-10-25 2018-12-28 珠海格力电器股份有限公司 一种基于显示交互的本地语音识别系统及其方法
JP7263919B2 (ja) * 2019-05-22 2023-04-25 コニカミノルタ株式会社 画像処理装置およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029933A (ja) * 2002-06-21 2004-01-29 Mitsubishi Heavy Ind Ltd 表示制御装置および表示制御方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69619592T2 (de) * 1995-04-11 2002-11-07 Dragon Systems Inc Bewegung eines auf dem Bildschirm gezeigten Zeigers
US7052459B2 (en) * 2003-09-10 2006-05-30 General Electric Company Method and apparatus for controlling ultrasound systems
KR100631699B1 (ko) * 2004-05-12 2006-10-09 엘지전자 주식회사 음성을 이용한 이동통신 단말기 조작방법
KR100632400B1 (ko) * 2005-11-11 2006-10-11 한국전자통신연구원 음성 인식을 이용한 입출력 장치 및 그 방법
KR101067612B1 (ko) * 2009-07-14 2011-09-27 주식회사대성엘텍 음성을 이용한 화면의 디스플레이 상태 제어장치 및 그 제어방법
KR20120080069A (ko) * 2011-01-06 2012-07-16 삼성전자주식회사 디스플레이 장치 및 그 음성 제어 방법
CN102752442A (zh) * 2011-04-21 2012-10-24 英业达股份有限公司 手持通信装置及其通信方法
KR101227875B1 (ko) * 2011-05-30 2013-01-31 김호진 사용자 동작 기반 디스플레이 장치
CN102622085A (zh) * 2012-04-11 2012-08-01 北京航空航天大学 多维感官人机交互系统及交互方法
US9836192B2 (en) * 2014-02-25 2017-12-05 Evan Glenn Katsuranis Identifying and displaying overlay markers for voice command user interface

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029933A (ja) * 2002-06-21 2004-01-29 Mitsubishi Heavy Ind Ltd 表示制御装置および表示制御方法

Also Published As

Publication number Publication date
WO2015174597A1 (ko) 2015-11-19
CN106462379A (zh) 2017-02-22
US20170047065A1 (en) 2017-02-16

Similar Documents

Publication Publication Date Title
JP2017521692A (ja) 音声制御映像表示装置及び映像表示装置の音声制御方法
US10108869B2 (en) Method and device for reproducing content
KR101587625B1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
US10528249B2 (en) Method and device for reproducing partial handwritten content
JP6609994B2 (ja) 表示制御方法、情報処理装置及び表示制御プログラム
US10775869B2 (en) Mobile terminal including display and method of operating the same
JP2005509973A (ja) ジェスチャに基づくユーザインタフェース用の方法及び装置
US20160334988A1 (en) Display device and method for providing recommended characters from same
US20160232894A1 (en) Method and apparatus for performing voice recognition on basis of device information
US10331340B2 (en) Device and method for receiving character input through the same
KR20150087665A (ko) 핸드라이팅 정보 운용 방법 및 이를 지원하는 전자 장치
US20150121286A1 (en) Display apparatus and user interface providing method thereof
KR20150043272A (ko) 영상표시 장치의 음성제어 방법
KR20160143428A (ko) 펜 단말기 및 그 제어방법
KR101517738B1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
KR20140127146A (ko) 디스플레이 장치 및 그의 제어 방법
JP2019101739A (ja) 情報処理装置、情報処理システムおよびプログラム
US20180181296A1 (en) Method and device for providing issue content
CN109002239B (zh) 一种信息显示方法及终端设备
KR101702760B1 (ko) 가상 키보드 음성입력 장치 및 방법
CN106708278A (zh) 智能发声键盘及控制智能发声键盘的方法和电子装置
CN107924276B (zh) 电子设备及其文本输入方法
KR20160087692A (ko) 전자 기기 및 그 동작 방법
JP2016062071A (ja) 電子機器、方法およびプログラム
KR20160055039A (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180327