JP2003263188A - 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体 - Google Patents

対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体

Info

Publication number
JP2003263188A
JP2003263188A JP2003020598A JP2003020598A JP2003263188A JP 2003263188 A JP2003263188 A JP 2003263188A JP 2003020598 A JP2003020598 A JP 2003020598A JP 2003020598 A JP2003020598 A JP 2003020598A JP 2003263188 A JP2003263188 A JP 2003263188A
Authority
JP
Japan
Prior art keywords
information
control operation
command
focus
command word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003020598A
Other languages
English (en)
Inventor
Jae-Won Lee
在 原 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2003263188A publication Critical patent/JP2003263188A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザから入力された音声命令を解釈する装
置及びその方法を提供する。 【解決手段】 音声命令を命令語文章として認識する音
声認識部103、音声認識部103から提供された命令
語文章から制御対象デバイス、制御操作の属性情報及び
命令語を抽出する命令語解釈部104、及び前記制御対
象デバイス情報及び制御操作の属性情報を前記音声命令
のフォーカス情報として保存し、前記制御対象デバイス
と制御操作の属性情報に対応する制御対象情報及び命令
情報に対応する制御内容情報を外部に出力するフォーカ
ス解釈部105を含んで構成する。このように構成すれ
ば、ユーザが毎回、制御対象機器の名称等を発する必要
がなくなるのはもとより、命令語も短縮して使用できる
ので操作が簡便になるという効果が具現される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声命令を解釈す
る装置及びその方法に係り、特に、多数の制御対象デバ
イスが存在する環境で、ユーザから入力された、前記制
御対象デバイスを制御する音声命令を解釈して、前記制
御対象デバイスを制御する装置に、制御対象デバイス情
報及び制御命令情報を提供する方法及びその装置に関す
る。
【0002】
【従来の技術】従来のTV、VTR、オーディオ及び冷
蔵庫等の各種の家電製品をはじめとする各種の装置には
種々の電子デバイスが含まれている。そして、このよう
な電子デバイスの制御の多くはリモコンやこれらのリモ
コンの機能を統合した統合リモコン等を介して行われ、
この場合にその制御機構は前記リモコンや統合リモコン
に含まれている。近年、このような装置やデバイスをネ
ットワークに連結してネットワーク上で利用する機会が
増えており、その制御を行うためのインターフェースの
ニーズが次第に増大している。
【0003】前記ネックワークに連結された装置及びデ
バイスを制御する方法として、音声命令を利用した多重
デバイス制御が開発されている。この音声命令を利用し
て多重デバイスを制御する従来の代表的な方法としては
以下のものがある。
【0004】第一の方法として、命令語にデバイス名を
付加することにより命令語の意味内容の「あいまいさ」
を排除する方法が挙げられる。たとえば、「TVをつけ
る」、「TVのボリュームを下げる」、「オーディオを
つける」、「オーディオのボリュームを下げる」といっ
たように、操作の内容と操作の対象とをそれぞれ具体的
に明確にする方法である。この方法によれば、ユーザが
自然かつ容易に命令語を発してより確実な操作を行うこ
とができるようになるが、操作の対象となるデバイス等
の名称を音声で繰り返し発する必要がある場合にはユー
ザは不便さを感じるようになる。
【0005】第二の方法として、ユーザに対して操作内
容の確認を行わせることにより、命令語の意味内容の
「あいまいさ」を解消して操作の確実化を図る方法が挙
げられる。すなわち、ユーザから発せられた命令語の内
容を分析した後で、ユーザの命令語の意味内容に「あい
まいさ」がある場合、たとえば、ユーザに「どんな種類
の装置の操作を行うのか」等の質問を行ってこの質問に
対する回答をユーザに音声情報で追加的に入力させる方
法である。この方法によれば、ある程度、操作の確実化
を図ることができるものの、ユーザに追加的な対話を要
求するため、ユーザに不便さを感じさせるという問題が
残る。
【0006】
【発明が解決しようとする課題】本発明は、前記問題点
を解決するためになされたものであり、その目的は、ユ
ーザの対話フォーカスを追跡する機能を通じてユーザの
命令語の意味内容に「あいまいさ」がある場合でもユー
ザの命令語を解釈することにより、制御対象の装置また
はデバイスをより確実に制御できるようにする音声命令
解釈方法及びその装置を提供することにある。
【0007】
【課題を解決するための手段】(1)前記問題点を解決
するための本発明に係る対話フォーカス追跡機能を有す
る音声命令解釈装置は、所定の制御対象電子デバイスま
たは制御対象装置を制御するためにユーザから入力され
た音声命令を解釈する装置であって、ユーザから入力さ
れた音声命令を、所定の制御対象デバイスまたは制御対
象装置に対する命令文章として認識する音声認識部と、
前記音声認識部から提供された命令文章から、デバイス
情報、制御操作の属性情報、及び命令語情報を抽出する
命令語解釈部と、前記命令語解釈部からデバイス情報ま
たは制御操作の属性情報の提供がなされない場合、前記
命令語情報及び保存されているフォーカス情報に基づい
てデバイス情報及び制御操作の属性情報を抽出する制御
対象抽出部と、前記のように抽出されたデバイス情報及
び制御操作の属性情報を用いて前記フォーカス情報を更
新するフォーカス管理部と、前記フォーカス情報に対応
する制御対象デバイス情報、及び前記命令語に対応する
命令語情報を外部に出力するデバイス制御部とを含んで
構成される。
【0008】(2)本発明は、前記音声命令解釈装置
で、制御対象抽出部が、命令語に対応する内部命令語
を、制御されるべきデバイスに関する情報及び制御され
るべきデバイスの制御操作の属性情報を含む命令語デー
タベースで検索し、このように検索された内部命令語に
対応するデバイス情報及び制御操作の属性情報を前記命
令語データベースで検索し、このように検索されたデバ
イス情報及び制御操作の属性情報から構成されるデータ
のうち、予め設定されたフォーカス情報と一致するもの
があるか否かを判定し、前記フォーカス情報と一致する
デバイス情報及び制御対象装置情報に基づいて制御すべ
きデバイス及び制御操作の属性を決定するように構成す
ることが望ましい。
【0009】(3)また、本発明は、前記音声命令解釈
装置で、制御対象抽出部が、フォーカス情報がデバイス
情報、制御操作の属性情報のうちのいずれか一方の情報
のみに該当する場合に、データのうちフォーカス情報と
同一のデバイス情報または制御操作の属性情報を有する
データが1つのみであるか否かを判定し、データが1つ
のみである場合には、データにより制御対象デバイス及
び制御操作の属性情報を決定するように構成することが
望ましい。
【0010】(4)さらに、本発明は、前記音声命令解
釈装置で、制御対象抽出部が、フォーカス情報がデバイ
ス情報、制御操作の属性情報のうちのいずれか一方の情
報のみに該当する場合に、データのうちフォーカス情報
と同一のデバイス情報または制御操作の属性情報を有す
るデータが1つのみであるか否かを判定した結果、条件
を満足するデータが複数存在する場合には前記データを
ユーザに提供して制御対象デバイスまたは制御操作の属
性情報を入力するように構成することが望ましい。
【0011】(5)また、前記課題を解決するための本
発明に係る対話フォーカス追跡機能を有する音声命令解
釈方法は、所定の電子デバイスまたは装置を制御するた
めのユーザの音声命令を解釈する方法であって、(a)
ユーザから提供される音声命令を命令語文章として認識
する段階と、(b)命令語文章から制御対象デバイス情
報、制御操作の属性情報及び命令語を抽出する段階と、
(c)命令語文章から制御対象デバイス情報または制御
操作の属性情報が抽出されていない場合には、命令語情
報及び予め設定されたフォーカス情報を利用して制御対
象デバイス情報または制御操作の属性情報を生成する段
階と、(d)フォーカス情報を前記制御対象デバイス情
報及び制御操作の属性情報と一致させる段階と、(e)
フォーカス情報に対応する制御対象情報及び命令語に対
応する制御内容情報を外部に出力する段階とを含んで構
成される。
【0012】(6)また、本発明は、前記音声命令解釈
方法で、(c)段階が、(c1)命令語に対応する内部
命令語を制御されるデバイスに関する情報及び制御され
るデバイスの制御操作の属性情報を含む命令語データベ
ースで検索する段階と、(c2)検索された内部命令語
に対応するデバイス情報及び制御操作の属性情報を命令
語データベースで検索する段階と、(c3)検索された
デバイス情報及び制御操作の属性情報より構成されるデ
ータのうち予め設定されたフォーカス情報と一致するも
のがあるか否かを判定し、フォーカスのデバイス情報と
一致するデバイス及び制御操作の属性を制御対象デバイ
ス及び制御操作の属性情報として確定する段階とを含む
ことが望ましい。
【0013】(7)さらに、本発明は、前記音声命令解
釈方法で、(c3)段階が、前記フォーカス情報がデバ
イス情報、制御操作の属性情報のうちのいずれか1つの
情報のみに該当する場合に、前記データのうちから前記
フォーカス情報と同じデバイス情報または制御操作の属
性情報を有するデータが1つのみであるか否かを判定し
て1つのみである場合には、前記データにより制御対象
デバイス及び制御操作の属性情報を確定することが望ま
しい。
【0014】(8)そして、本発明は、前記音声命令解
釈方法で、(c3)段階が、フォーカス情報がデバイス
情報、制御操作の属性情報のうちのいずれか1つの情報
のみに該当する場合に、データのうちから前記フォーカ
ス情報と同じデバイス情報または制御操作の属性情報を
有するデータが1つのみであるか否かを判定した結果、
条件を満足するデータが複数存在する場合には、データ
をユーザに提供して制御対象デバイスまたは制御操作の
属性情報を入力することが望ましい。
【0015】(9)また、前記課題を解決するために、
本発明は、前記(5)に記載の対話フォーカス追跡機能
を有する音声命令解釈方法をコンピュータで実行するた
めのプログラムを記録したコンピュータで読込み可能な
記録媒体として構成される。
【0016】(10)あるいは、前記課題を解決するた
めに、本発明は、前記(6)に記載の対話フォーカス追
跡機能を有する音声命令解釈方法をコンピュータで実行
するためのプログラムを記録したコンピュータで読込み
可能な記録媒体として構成される。
【0017】(11)さらに、前記課題を解決するため
に、本発明は、命令語とデバイス情報とを関連付ける機
能を行って所定のデバイスを制御する内容を意味する内
部命令語情報と少なくとも1つ以上の前記内部命令語に
対応する命令語情報とを含む第1データベーステーブル
と、前記内部命令語情報と所定の制御対象となるデバイ
スを意味する制御対象デバイス情報及び前記デバイスを
制御する属性情報を制御操作の属性情報を含む第2デー
タベーステーブル構造とを含むデータ構造を記録したコ
ンピュータで読込み可能な記録媒体として構成される。
【0018】
【発明の実施の形態】以下、添付した図面に基づき、本
発明の望ましい実施形態を用いて本発明を詳細に説明す
る。図1は本発明に適用される命令語情報の構造の望ま
しい1実施形態を示し、図2A、図2Bは、それぞれ、
図1に示す命令語データの構造をデータベースのテーブ
ルとして具現した望ましい1実施形態を示す。
【0019】図1に示す命令語情報は、命令語と、内部
命令語と、デバイスと、制御操作の属性情報とから構成
される。前記命令語は、ユーザから提供される命令語の
原形であり、内部命令語は前記命令語の制御対象デバイ
スと制御操作の属性情報で「あいまいさ」が排除された
命令語であり、本発明に係る音声命令解釈装置内部で使
用される。また、デバイス情報は制御対象となる所定の
物理的な装置を意味し、前記制御操作の属性情報は直接
的な制御操作の対象となる前記デバイスの属性に関する
情報である。
【0020】たとえば、ユーザから「TVのボリューム
を上げる」という命令語を入力された場合に、前記「T
V」は制御対象デバイスとなり、「ボリューム」は制御
操作の属性となり、「上げる」は命令語となる。図2で
は、前記したようなデバイス、制御操作の属性及び命令
語に対応する内部命令語が「OPR4」で示されてい
る。
【0021】以下では、図1に示すデータの構造を詳細
に説明する。ここでいうデバイスとしては、たとえば、
オーディオ、TVまたはテレビジョンが挙げられる。そ
して、前記デバイスでは、それぞれ、関連する制御操作
の属性情報が多数存在する。図1に示すように、ここで
はいう制御操作の属性情報として、たとえば、「電源、
パワー」、「ボリューム、音」、「画面」が挙げられ、
前記「電源、パワー」及び「ボリューム、音」制御操作
の属性情報は前記デバイスのうち「オーディオ」と「T
V、テレビジョン」と関連し、「画面」という制御操作
の属性情報は「TV、テレビジョン」というデバイスの
みに関連する。
【0022】そして、内部命令語としては、図1に示す
「OPR1」、「OPR2」、「OPR3」、「OPR
4」、「OPR5」等が挙げられ、この「OPR1」は
「オーディオ」というデバイスの「電源、パワー」とい
う制御操作の属性情報と関連し、「OPR2」は「オー
ディオ」というデバイスの「ボリューム、音」という制
御操作の属性情報と関連し、「OPR3」は「TV、テ
レビジョン」というデバイスの「電源、パワー」という
制御操作の属性情報と関連し、「OPR4」は「TV、
テレビジョン」というデバイスの「ボリューム、音」と
いう制御操作の属性情報と関連し、「OPR5」は「T
V、テレビジョン」というデバイスの「画面」という制
御操作の属性情報と関連する。
【0023】また、前記制御操作の属性情報それぞれは
1つ以上の命令語に対応するのであるが、「OPR1」
及び「OPR3」は「つける、作動させる」と関連し、
「OPR2」及び「OPR4」は「大きくする、高め
る、上げる」と関連し、「OPR5」は「上に上げる」
と関連する。
【0024】そして、このような関連性により命令語デ
ータベースの1例のテーブルを作成すると、図2A及び
図2Bに示すようになる。図3は本発明に係る音声命令
解釈装置の望ましい1実施形態の構成を模式的に示す。
本発明に係る音声命令解釈装置101は、音声認識部1
03、命令語解釈部104、制御対象抽出部1051と
フォーカス管理部1052より構成されるフォーカス解
釈部105とを含んで構成される。その他、命令語を解
釈したりまたは命令語から制御対象を抽出する場合に参
照される命令語データベースを管理するための命令語管
理部106をさらに含んで構成してもよい。
【0025】音声認識部103はユーザから提供される
音声命令を命令語として認識し、認識された命令語文章
を命令語解釈部104に提供する機能を果たす。本発明
にあっては、音声認識部103でユーザから提供される
音声命令をそれに対応する命令語文章として認識する方
法(音声認識方法)として、従来公知の各種の方法を適
宜用いることができる。本明細書では、この従来公知の
音声認識方法についての説明を省略する。
【0026】命令語解釈部104は、音声認識部103
から提供されるユーザの音声命令を認識して発生させた
命令語文章を文章の品詞別に解釈して制御対象、制御操
作の属性情報及び命令語情報を抽出する。本発明にあっ
ては、所定の文章を品詞別に解釈する方法として、従来
公知の各種の方法を用いることができる。本明細書で
は、この従来公知の各種の方法についての説明を省略す
る。そして、このとき、命令語解釈部104は、ユーザ
が使用できる命令語に関する情報を、図3に示すように
命令語データベースを参照して知ることができる。
【0027】フォーカス解釈装置105は制御対象抽出
部1051及びフォーカス管理部1052より構成され
る。制御対象抽出部1051は命令語解釈部104から
提供される命令語を解釈した結果情報を受信し、かよう
な結果情報に制御対象となるデバイスまたは制御操作の
属性に関する情報に「あいまいさ」があるか否かを判定
する。ここでいう「あいまいさを判定する方法」とは、
前記の伝送された情報に、制御対象であるデバイスまた
は制御操作の属性情報が含まれているか否かを判定する
ことを意味する。
【0028】たとえば、命令語が「大きくする」であっ
て装置データが提供されていない場合が「あいまい」な
場合に該当し、この場合には対応する内部命令語は図2
Bに示すテーブルのOPR2及びOPR4となる。
【0029】そして、制御対象抽出部1051はユーザ
から提供される音声命令に基づいて生成された命令語文
章に前記のように説明した「あいまいさ」がある場合に
は命令語情報、メモリに保存されているフォーカス情報
及び命令語データベースに保存されている命令語情報に
基づいて前記命令語文章の意味内容に「あいまいさ」が
ないように、完全な命令語文章に完成させる機能を実行
する。ここで、「フォーカス情報」とは、ユーザの対話
の対象となるデバイス及び制御操作の属性を意味するも
のであり、たとえば「TV」または「電源」のように単
一の制御対象デバイス情報または制御操作の属性情報と
なり、望ましくは「TV_電源」のように、前記制御対
象デバイスと制御操作の属性情報とが結合された形態と
することができる。
【0030】ユーザから入力された音声命令の命令語文
章から「あいまいさ」を排除する過程は、たとえば、メ
モリに保存されているフォーカス情報が「TV」であ
り、命令語解釈部104から提供された命令語情報が
「大きくする」であり、制御対象デバイス及び制御操作
の属性に関する情報がない場合、前記制御対象デバイス
及び制御操作の属性に関する情報を抽出する過程をい
う。
【0031】前記の例では、制御対象デバイス及び制御
操作の属性情報を抽出してみれば、まず図2Bに示すテ
ーブルで、命令語「大きくする」に対応する内部命令語
「OPR2、OPR4」を検索し、図2Aに示すテーブ
ルでフォーカス情報の「TV」をデバイスと認識すると
ともに、内部命令語「OPR2」または「OPR4」を
内部命令語として認識するデータレコードの制御操作の
属性情報は「ボリューム、音」である。したがって、前
記命令語文章の完成された形態は「TV」デバイスの
「ボリュームまたは音」を「上げる」となる。
【0032】一方、前記した例で、命令語が「上げる」
の場合には、それに対応する内部命令語は「OPR
2」、「OPR4」及び「OPR5」となる。このと
き、図2Aのテーブルでフォーカス情報の「テレビジョ
ン(TV)」をデバイスとして認識し、「OPR2」、
「OPR4」、「OPR5」のうちのいずれが1つを内
部命令語として認識するレコードを検索すれば4番レコ
ード及び5番レコードが該当し、制御操作の属性もまた
「ボリューム、音」と「画面」の2つが検索される。こ
の場合、制御操作の属性をいずれか1つに自動的に決定
することができないので、ユーザによって検索された前
記制御操作の属性情報を提供して、この制御操作の属性
情報をユーザに選択させることにより、この制御操作の
属性情報が決定される。
【0033】制御対象抽出部1051は上の過程を通じ
て完全な命令語文章を完成すれば、前記完全な命令語文
章の制御対象デバイス、制御操作の属性、命令情報(命
令語または内部命令語)情報をフォーカス管理部105
2に提供する。
【0034】フォーカス管理部1052はフォーカス情
報を制御対象抽出部1051から提供(伝送)された制
御対象デバイス、制御操作の属性情報に更新する役割を
果たす。そして、制御対象デバイス情報、内部命令語情
報などデバイス制御装置102で制御対象デバイスを制
御するのに必要な情報をデバイス制御装置102に提供
する機能を実行する。
【0035】一方、本発明に係る音声命令解釈装置は前
記命令語データベースの命令語情報の追加、削除、また
は更新を行う命令語管理部106をさらに含むことがで
きる。
【0036】図4は本発明に係る音声命令を解釈する方
法の望ましい1実施形態の順序を示す図である。まず、
ユーザから提供される音声命令を認識して(段階40
1)命令語文章に転換する。その後、命令語を解釈して
制御対象デバイス、制御操作の属性及び命令語情報を抽
出する(段階402)。その後、前記命令語に制御対象
デバイスまたは制御操作の属性情報が含まれずに前記命
令語の意味が「あいまい」であるか否かを判定して(段
階403)命令語の意味が「あいまい」である場合に
は、前記命令語文章を完全な命令語文章として完成させ
る(段階404)。引き続き、制御対象デバイスと現在
メモリに保存されているフォーカス情報とを一致させ
(段階405)、現在制御対象デバイス、制御操作の属
性情報、命令情報などを外部に出力する。一方、前記段
階403で命令語に「あいまいさ」がない場合には段階
405に移動する。
【0037】図5は図4の404段階を行う望ましい1
実施形態を示す。まず、命令語に対応する内部命令語を
命令語データベースで検索して(段階501)前記命令
語に対応する内部命令語を求め、前記検索された内部命
令語に対応するデバイス及び制御操作の属性情報を命令
語データベースで検索する(段階502)。その後、前
記検索されたデータのうち現在メモリに保存されている
フォーカスのデータと一致するものがあるか否かを判定
して(段階503)ない場合には、前記検索されたデー
タのうち現在メモリに保存されているフォーカスデータ
と一部が一致するものがあるか否かを判定して(段階5
04)、このようなデータがある場合にはそのデータの
数が1つであるか否かを判定する(段階505)。
【0038】そして、上のデータが1つではない複数で
ある場合には、前記検索されたデータをユーザに提供し
て制御対象デバイスまたは制御操作の属性情報を入力さ
れる(段階506)。その後、制御対象デバイスまたは
制御操作の属性を確定して(段階507)ユーザの命令
語文章を完成させる。
【0039】一方、段階503で検索されたデータのう
ちフォーカスのデータと一致するデータがある場合には
段階507に移動し、前記段階504で検索されたデー
タのうちフォーカスデータと一部が一致するデータがな
い場合には段階506に移動し、前記段階505で条件
を満足するデータが1つである場合には段階507に移
動する。
【0040】そして、前記本発明に係る1実施形態は、
コンピュータで実行が可能なプログラムを用いて具現す
ることができる。すなわち、前記本発明に係る1実施形
態を実行するプログラムをコンピュータで読込みが可能
な記録媒体に記録し、この記録媒体に記録された前記プ
ログラムを汎用のディジタルコンピュータで操作できる
ように構成すれば、前記本発明に係る1実施形態を効率
的に具現できる。
【0041】また、前記本発明に係る1実施形態で用い
られたデータの構造はコンピュータで読込みが可能な記
録媒体に、従来公知の各種の手段を通して記録すること
ができる。
【0042】前記コンピュータで読込みが可能な記録媒
体としては、磁気記録媒体(たとえば、ROM(Rea
d−Only Memory)、フレキシブルディス
ク、ハードディスク)、光学的記録媒体(たとえば、C
DROM(Compact−Disk Read−On
ly Memory)、DVD(Digital Ve
rsatile Disk))及びキャリアウエーブ
(たとえば、インターネットを介した伝送)のような記
録媒体等が挙げられる。
【0043】以上、本発明に係る望ましい実施形態を用
いて本発明を説明したが、本発明の属する技術分野にお
ける当業者であれば、本発明の本質的な特性から外れな
い範囲内で、このような実施形態を容易に変形できるこ
とが理解されるであろう。したがって、本発明は、ここ
で開示した実施形態のみに限定されるものではなく、本
発明の技術範囲は特許請求の範囲で示され、これと均等
な範囲に含まれる、あらゆる変形も本発明に含まれたも
のと解釈さるべきである。
【0044】
【発明の効果】以上説明した通りに構成される本発明に
よれば、以下の効果を奏する。すなわち、本発明によれ
ば、ユーザが毎回制御対象機器の名称等を指定する必要
がなくなることはもとより、命令語も短縮して使用する
ことが可能となるので、時間短縮や、労力の軽減等の効
果が具現される。
【0045】また、本発明によれば、ネットワーク上に
新たなデバイスが追加されても、命令語データのみを追
加すればこのデバイスを制御することができるので、他
のデバイスとの音声命令語の衝突を防止する効果が得ら
れる。
【図面の簡単な説明】
【図1】本発明に適用される命令語データの構造の望ま
しい1実施形態を示す図面である。
【図2A】図1に示す命令語データの構造をデータベー
スのテーブルで表した図面である。
【図2B】図1に示す命令語データの構造をデータベー
スのテーブルで表した図面である。
【図3】本発明に係る音声命令解釈装置の望ましい1実
施形態の構成を模式的に示すブロック図である。
【図4】本発明に係る音声命令を解釈する方法の望まし
い1実施形態の順序を示す図である。
【図5】本発明に適用される制御対象デバイスを抽出す
る望ましい1実施形態の順序を示す図である。
【符号の説明】
101 音声命令解釈装置 103 音声認識部 104 命令語解釈部 105 フォーカス解釈部 1051 制御対象抽出部 1052 フォーカス管理部 106 命令語管理部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 所定の制御対象電子デバイスまたは制御
    対象装置を制御するためにユーザから入力された音声命
    令を解釈する装置であって、 ユーザから入力された音声命令を、所定の制御対象デバ
    イスまたは制御対象装置に対する命令文章として認識す
    る音声認識部と、 前記音声認識部から提供された命令文章から、デバイス
    情報、制御操作の属性情報、及び命令語情報を抽出する
    命令語解釈部と、 前記命令語解釈部からデバイス情報または制御操作の属
    性情報の提供がなされない場合、前記命令語情報及び保
    存されているフォーカス情報に基づいてデバイス情報及
    び制御操作の属性情報を抽出する制御対象抽出部と、 前記のように抽出されたデバイス情報及び制御操作の属
    性情報を用いて前記フォーカス情報を更新するフォーカ
    ス管理部と、 前記フォーカス情報に対応する制御対象デバイス情報、
    及び前記命令語に対応する命令語情報を外部に出力する
    デバイス制御部と、 を含むことを特徴とする対話フォーカス追跡機能を有す
    る音声命令解釈装置。
  2. 【請求項2】 前記制御対象抽出部は、 前記命令語に対応する内部命令語を、制御されるべきデ
    バイスに関する情報及び制御されるべきデバイスの制御
    操作の属性情報を含む命令語データベースで検索し、こ
    のように検索された内部命令語に対応するデバイス情報
    及び制御操作の属性情報を前記命令語データベースで検
    索し、このように検索されたデバイス情報及び制御操作
    の属性情報から構成されるデータのうち、予め設定され
    たフォーカス情報と一致するものがあるか否かを判定
    し、前記フォーカス情報と一致するデバイス情報及び制
    御対象装置情報に基づいて制御すべきデバイス及び制御
    操作の属性を決定することを特徴とする請求項1に記載
    の対話フォーカス追跡機能を有する音声命令解釈装置。
  3. 【請求項3】 前記制御対象抽出部は、 前記フォーカス情報がデバイス情報、制御操作の属性情
    報のうちのいずれか一方の情報のみに該当する場合に、
    前記データのうち前記フォーカス情報と同一のデバイス
    情報または制御操作の属性情報を有するデータが1つの
    みであるか否かを判定し、前記データが1つのみである
    場合には、前記データにより制御対象デバイス及び制御
    操作の属性情報を決定することを特徴とする請求項2に
    記載の対話フォーカス追跡機能を有する音声命令解釈装
    置。
  4. 【請求項4】 前記制御対象抽出部は、 前記フォーカス情報がデバイス情報、制御操作の属性情
    報のうちのいずれか一方の情報のみに該当する場合に、
    前記データのうち前記フォーカス情報と同一のデバイス
    情報または制御操作の属性情報を有するデータが1つの
    みであるか否かを判定した結果、条件を満足するデータ
    が複数存在する場合には前記データをユーザに提供して
    制御対象デバイスまたは制御操作の属性情報を入力する
    ことを特徴とする請求項2に記載の対話フォーカス追跡
    機能を有する音声命令解釈装置。
  5. 【請求項5】 所定の電子デバイスまたは装置を制御す
    るためのユーザの音声命令を解釈する方法であって、 (a)ユーザから提供される音声命令を命令語文章とし
    て認識する段階と、 (b)前記命令語文章から制御対象デバイス情報、制御
    操作の属性情報及び命令語を抽出する段階と、 (c)前記命令語文章から制御対象デバイス情報または
    制御操作の属性情報が抽出されていない場合には、前記
    命令語情報及び事前設定されたフォーカス情報を利用し
    て制御対象デバイス情報または制御操作の属性情報を生
    成する段階と、 (d)前記フォーカス情報を前記制御対象デバイス情報
    及び制御操作の属性情報と一致させる段階と、 (e)前記フォーカス情報に対応する制御対象情報及び
    前記命令語に対応する制御内容情報を外部に出力する段
    階と、 を含むことを特徴とする対話フォーカス追跡機能を有す
    る音声命令解釈方法。
  6. 【請求項6】 前記(c)段階は、 (c1)前記命令語に対応する内部命令語を制御される
    デバイスに関する情報及び前記制御されるデバイスの制
    御操作の属性情報を含む命令語データベースで検索する
    段階と、 (c2)前記検索された内部命令語に対応するデバイス
    情報及び制御操作の属性情報を前記命令語データベース
    で検索する段階と、 (c3)前記検索されたデバイス情報及び制御操作の属
    性情報より構成されるデータのうち前記事前設定された
    フォーカス情報と一致するものがあるか否かを判定し、
    前記フォーカスのデバイス情報と一致するデバイス及び
    制御操作の属性を制御対象デバイス及び制御操作の属性
    情報として確定する段階と、 を含むことを特徴とする請求項5に記載の対話フォーカ
    ス追跡機能を有する音声命令解釈方法。
  7. 【請求項7】 前記(c3)段階は、 前記フォーカス情報がデバイス情報、制御操作の属性情
    報のうちのいずれか1つの情報のみに該当する場合に、
    前記データのうちから前記フォーカス情報と同じデバイ
    ス情報または制御操作の属性情報を有するデータが1つ
    のみであるか否かを判定して1つのみである場合には、
    前記データにより制御対象デバイス及び制御操作の属性
    情報を確定することを特徴とする請求項6に記載の対話
    フォーカス追跡機能を有する音声命令解釈方法。
  8. 【請求項8】 前記(c3)段階は、 前記フォーカス情報がデバイス情報、制御操作の属性情
    報のうちのいずれか1つの情報のみに該当する場合に、
    前記データのうちから前記フォーカス情報と同じデバイ
    ス情報または制御操作の属性情報を有するデータが1つ
    のみであるか否かを判定した結果、条件を満足するデー
    タが複数存在する場合には、前記データをユーザに提供
    して制御対象デバイスまたは制御操作の属性情報を入力
    することを特徴とする請求項6に記載の音声命令解釈方
    法。
  9. 【請求項9】 請求項5に記載の対話フォーカス追跡機
    能を有する音声命令解釈方法をコンピュータで実行する
    ためのプログラムを記録したコンピュータで読込み可能
    な記録媒体。
  10. 【請求項10】 請求項6に記載の対話フォーカス追跡
    機能を有する音声命令解釈方法をコンピュータで実行す
    るためのプログラムを記録したコンピュータで読込み可
    能な記録媒体。
  11. 【請求項11】 命令語とデバイス情報とを関連付ける
    機能を行って所定のデバイスを制御する内容を意味する
    内部命令語情報及び少なくとも1つ以上の前記内部命令
    語に対応する命令語情報とを含む第1データベーステー
    ブルと、 前記内部命令語情報と所定の制御対象となるデバイスを
    意味する制御対象デバイス情報及び前記デバイスを制御
    する属性情報を制御操作の属性情報を含む第2データベ
    ーステーブル構造と、を含むデータ構造を記録したコン
    ピュータで読込み可能な記録媒体。
JP2003020598A 2002-01-29 2003-01-29 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体 Pending JP2003263188A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR2002-005201 2002-01-29
KR10-2002-0005201A KR100438838B1 (ko) 2002-01-29 2002-01-29 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법

Publications (1)

Publication Number Publication Date
JP2003263188A true JP2003263188A (ja) 2003-09-19

Family

ID=19718964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003020598A Pending JP2003263188A (ja) 2002-01-29 2003-01-29 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体

Country Status (5)

Country Link
US (1) US20030144845A1 (ja)
EP (1) EP1333426B1 (ja)
JP (1) JP2003263188A (ja)
KR (1) KR100438838B1 (ja)
DE (1) DE60318505T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237741A (ja) * 2010-05-13 2011-11-24 Nec Casio Mobile Communications Ltd 音声認識装置及びプログラム
JP2017016131A (ja) * 2015-06-30 2017-01-19 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識装置及び方法と電子装置
WO2020049826A1 (ja) * 2018-09-06 2020-03-12 株式会社Nttドコモ 情報処理装置

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040000920A (ko) * 2002-06-26 2004-01-07 텔원정보통신 주식회사 홈오토메이션 시스템의 음성 제어장치 및 방법
US20060253205A1 (en) * 2005-05-09 2006-11-09 Michael Gardiner Method and apparatus for tabular process control
JP4131978B2 (ja) * 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
KR100732611B1 (ko) * 2006-04-25 2007-06-28 학교법인 포항공과대학교 음성대화 오류검증을 통한 확인대화 방법 및 장치
US20070286358A1 (en) * 2006-04-29 2007-12-13 Msystems Ltd. Digital audio recorder
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
KR101776673B1 (ko) * 2011-01-11 2017-09-11 삼성전자주식회사 자연어 처리용 문법 자동 생성 장치 및 방법
US20120260167A1 (en) * 2011-04-07 2012-10-11 Sony Corporation User interface for audio video display device such as tv
KR101418158B1 (ko) * 2012-09-14 2014-07-09 주식회사 비스텔 반도체 생산을 위한 부대 장비 제어 시스템 및 그 방법
JP6420769B2 (ja) * 2013-01-04 2018-11-07 コピン コーポレーション 二分岐音声認識
US10255930B2 (en) 2013-06-28 2019-04-09 Harman International Industries, Incorporated Wireless control of linked devices
US9431014B2 (en) * 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
DE102013019208A1 (de) * 2013-11-15 2015-05-21 Audi Ag Kraftfahrzeug-Sprachbedienung
CN105023575B (zh) * 2014-04-30 2019-09-17 中兴通讯股份有限公司 语音识别方法、装置和系统
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
WO2016205338A1 (en) * 2015-06-18 2016-12-22 Amgine Technologies (Us), Inc. Managing interactions between users and applications
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10095473B2 (en) 2015-11-03 2018-10-09 Honeywell International Inc. Intent managing system
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10887351B2 (en) * 2018-05-02 2021-01-05 NortonLifeLock Inc. Security for IoT home voice assistants
CN111508483B (zh) * 2019-01-31 2023-04-18 北京小米智能科技有限公司 设备控制方法及装置
CN110415696A (zh) * 2019-07-26 2019-11-05 广东美的制冷设备有限公司 语音控制方法、电器控制装置、电器及电器控制系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870289A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車載負荷の音声制御装置
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US5577164A (en) * 1994-01-28 1996-11-19 Canon Kabushiki Kaisha Incorrect voice command recognition prevention and recovery processing method and apparatus
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
US6496099B2 (en) * 1996-06-24 2002-12-17 Computer Motion, Inc. General purpose distributed operating room control system
US5777571A (en) * 1996-10-02 1998-07-07 Holtek Microelectronics, Inc. Remote control device for voice recognition and user identification restrictions
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
EP1063636A3 (en) * 1999-05-21 2001-11-14 Winbond Electronics Corporation Method and apparatus for standard voice user interface and voice controlled devices
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
JP2001296881A (ja) * 2000-04-14 2001-10-26 Sony Corp 情報処理装置および方法、並びに記録媒体
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US6747566B2 (en) * 2001-03-12 2004-06-08 Shaw-Yuan Hou Voice-activated remote control unit for multiple electrical apparatuses
US6930730B2 (en) * 2001-05-03 2005-08-16 Mitsubishi Digital Electronics America, Inc. Control system and user interface for network of input devices
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249685A (ja) * 2000-03-03 2001-09-14 Alpine Electronics Inc 音声対話装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237741A (ja) * 2010-05-13 2011-11-24 Nec Casio Mobile Communications Ltd 音声認識装置及びプログラム
JP2017016131A (ja) * 2015-06-30 2017-01-19 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識装置及び方法と電子装置
WO2020049826A1 (ja) * 2018-09-06 2020-03-12 株式会社Nttドコモ 情報処理装置
JPWO2020049826A1 (ja) * 2018-09-06 2021-09-24 株式会社Nttドコモ 情報処理装置

Also Published As

Publication number Publication date
KR100438838B1 (ko) 2004-07-05
EP1333426B1 (en) 2008-01-09
KR20030065051A (ko) 2003-08-06
EP1333426A1 (en) 2003-08-06
DE60318505T2 (de) 2008-12-24
DE60318505D1 (de) 2008-02-21
US20030144845A1 (en) 2003-07-31

Similar Documents

Publication Publication Date Title
JP2003263188A (ja) 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体
US11887604B1 (en) Speech interface device with caching component
US9953648B2 (en) Electronic device and method for controlling the same
KR100679043B1 (ko) 음성 대화 인터페이스 장치 및 방법
KR102309540B1 (ko) 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
KR100764174B1 (ko) 음성 대화 서비스 장치 및 방법
TWI511125B (zh) 語音操控方法、行動終端裝置及語音操控系統
US20020198714A1 (en) Statistical spoken dialog system
US11373645B1 (en) Updating personalized data on a speech interface device
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
WO2020253064A1 (zh) 语音的识别方法及装置、计算机设备、存储介质
US20190042185A1 (en) Flexible voice-based information retrieval system for virtual assistant
WO2015147702A1 (ru) Способ и система голосового интерфейса
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
JP7159475B2 (ja) 音声制御方法、クラウドサーバおよび端末装置
JP2003091298A (ja) 音声認識及び自然言語を用いる家庭活動の自動制御
EP3916538B1 (en) Creating a cinematic storytelling experience using network-addressable devices
JP7159476B2 (ja) 音声制御方法、クラウドサーバおよび端末装置
CN111462741B (zh) 语音数据处理方法、装置及存储介质
US8725505B2 (en) Verb error recovery in speech recognition
JPWO2019155717A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US20200051556A1 (en) Speech control for complex commands
JP2008145769A (ja) 対話シナリオ生成システム,その方法およびプログラム
JP2021156907A (ja) 情報処理装置および情報処理方法
WO2017092322A1 (zh) 智能电视的浏览器操作方法及智能电视

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051003

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090407