JP2003515177A - 自然言語インターフェースコントロールシステム - Google Patents

自然言語インターフェースコントロールシステム

Info

Publication number
JP2003515177A
JP2003515177A JP2001532534A JP2001532534A JP2003515177A JP 2003515177 A JP2003515177 A JP 2003515177A JP 2001532534 A JP2001532534 A JP 2001532534A JP 2001532534 A JP2001532534 A JP 2001532534A JP 2003515177 A JP2003515177 A JP 2003515177A
Authority
JP
Japan
Prior art keywords
natural language
module
language interface
control system
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001532534A
Other languages
English (en)
Other versions
JP5118280B2 (ja
Inventor
コノプカ、コートニー、チャールズ
アルムストランド、ラーズ、クリスティアン
Original Assignee
ソニー エレクトロニクス インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー エレクトロニクス インク filed Critical ソニー エレクトロニクス インク
Publication of JP2003515177A publication Critical patent/JP2003515177A/ja
Application granted granted Critical
Publication of JP5118280B2 publication Critical patent/JP5118280B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

(57)【要約】 複数のデバイス(114)を操作する自然言語インターフェースコントロールシステム(206)は、第1のマイクロフォンセット(108)と、第1のマイクロフォンセットに接続された特徴抽出モジュール(202)と、記特徴抽出モジュールに接続された音声認識モジュール(204)を有し、音声認識モジュールは隠れマルコフモデルを用いる。また、システムは、音声認識モジュール(204)に接続された自然言語インタフェースモジュール(222)と、自然言語インターフェースモジュール(222)に接続されたデバイスインターフェース(210)を有し、自然言語インターフェースモジュールは、ユーザからの非プロンプト式で開放型の自然言語要求に基づいて、デバイスインターフェースに接続された複数のデバイスを操作する。

Description

【発明の詳細な説明】
【0001】 本願は、米国特許法第119条第(e)項(35USC§119(e))に基
づき、1999年10月19日に、Konopka、A NATURAL LANGUAGE INTERFACE FO
R PERSONAL ELECTRONIC PRODUCTSによって出願された米国仮特許出願第60/1
60,281号の優先権を主張するものであり、この米国仮特許出願を参照して
記載されたものである。
【0002】 発明の属する技術分野 本発明は、音声認識方法に関し、特に自然言語(natural language)の音声を
認識する音声認識方法に関する。具体的には、本発明は、アプリケーションをコ
ントロールするために用いられる自然言語音声認識システムに関する。
【0003】 発明の背景 これまで、多くの人が機器によって生成された人工的な音声と人間によって発
生された音声のギャップをなくすことができるようなデバイスを求めてきた。ま
た、音声認識技術によって、機器が人間の音声を認識することが可能になった。
例えば、音声認識技術は、文書作成処理、デバイスの制御、メニュー方式のデー
タ入力等、多くのアプリケーションに用いられている。
【0004】 ほとんどのユーザは、自然言語の形式で音声入力を行うことを好んでいる。自
然言語の音声入力とは、ユーザが実際に機器と会話をしているかのように自然な
形で筆記すなわち口頭入力することである。一方、非自然言語の形式での音声入
力は、言語構文や言語構造において限界がある。非自然言語の音声入力で機器と
コミュニケーションを行うには、ユーザは音声認識エンジンの言語構文及び意味
言語構造に従ったコマンドや要求を覚え、それに基づいて話すことが必要である
【0005】 自然言語インターフェースシステムの利点は、ユーザがコマンドや要求を話す
ための適切なフォーマットを覚える必要がなく、単に会話形式で話せばよいので
、機器又はシステムとのインターフェースを容易に実現することができることで
ある。一方、自然言語インターフェースシステムの問題点は、人間の自然言語は
複雑で変化しやすい「規則」を有するため、実現が困難であるということである
【0006】 従来の自然言語処理技術は、自然言語による発声の意味を認識する能力が非効
率的で柔軟性に乏しい。このため、ユーザの自然言語入力のコンテキスト(cont
ext)すなわち文脈を限定して入力音声の処理を容易にする必要があり、従来の
自然言語インターフェースシステムはダイアログ(dialog-based)形式又はプロ
ンプト(prompt-driven)方式である。自然言語インターフェースでは、システ
ムに入力されている音声のコンテキストをコントロールする。例えば、自然言語
インターフェースは、自然言語による自動エアライン予約システム等の自動電話
システムで実現されている。このようなシステムでは、あるコンテキスト内で話
すようにユーザに対してプロンプト(prompt)すなわち入力促進を行う。例えば
、自然言語システムは、ユーザにどの都市で飛行機に乗りたいのかを訊ねる。こ
の場合、システムは予測される音声のコンテキストをユーザに示す。このように
して、自然言語インターフェースシステムは、都市名を示す自然言語を探す。次
に、システムは、ユーザに何日に飛行機に乗りたいのかを話すようにプロンプト
する。ここでも自然言語インターフェースシステムによって回答のコンテキスト
が示される。問題点は、ユーザが開放型(open-ended)の情報や要求を入力でき
ないということである。システムが受け取った音声データがシステムによりプロ
ンプトされたコンテキスト以外であった場合、システムはその要求を無視するか
、回答を理解できないことをユーザに通知するか、あるいは、プロンプトのコン
テキスト内に該当するように要求を誤解することもある。
【0007】 コンテキストが自然言語処理によって限定されず、ユーザの音声によって限定
される効率的な自然言語システムが必要とされている。本発明は上記及び他の要
求に対処することができる。
【0008】 発明の概要 本発明は、コンテキストが自然言語インターフェースによって定義されるので
はなく、ユーザの指示と複数のデバイスの能力により定義される、複数のデバイ
スをコントロールする開放型の自然言語インターフェースコントロールシステム
を提供することにより、上記及び他のニーズに有利に対処する。
【0009】 一実施例において、本発明は、第1のマイクロフォンセットと、第1のマイク
ロフォンセットに接続された特徴抽出モジュールと、特徴抽出モジュールに接続
された音声認識モジュールを備え、音声認識モジュールは隠れマルコフモデルを
用いる、複数のデバイスを操作する自然言語インターフェースコントロールシス
テムを特徴とすることができる。また、本システムは、音声認識モジュールに接
続された自然言語インターフェースモジュールと、自然言語インターフェースモ
ジュールに接続されたデバイスインターフェースを備え、自然言語インターフェ
ースモジュールは、ユーザからの非プロンプト方式で開放型の自然言語要求に基
づいて、デバイスインターフェースに接続された複数のデバイスを操作する。
【0010】 他の実施例において、本発明は、モデルと文法と語彙目録の第1のセットを有
する第1のコンテキストに基づいてアテンションワードをサーチするステップと
、アテンションワードを見つけたときに、第2のコンテキストに切り換えて開放
型のユーザ要求をサーチするステップを有し、第2のコンテキストはモデルと文
法と語彙目録の第2セットを有する音声認識方法を特徴とすることができる。
【0011】 さらに他の実施例において、本発明は、開放型の自然言語ユーザ要求が受け取
られることを示すアテンションワードを受け取るステップと、開放型の自然言語
ユーザ要求を受け取るステップと、開放型の自然言語ユーザ要求を、開放型の自
然言語要求に対応する最も適当なコマンドと一致させるステップと、コマンドを
1以上のデバイスのそれぞれに送信するステップを有する1以上のデバイスの自
然言語コントロール方法と、この方法を行う手段を特徴とすることができる。
【0012】 本発明の上述及び他のアスペクト、特徴、利点については、添付図面に基づい
た以下の詳細な具体的説明により明らかにする。
【0013】 なお、各図面において、同じ参照符号は同じ構成要素を示すものとする。
【0014】 発明の詳細な説明 以下、本発明を実施するための最良の実施形態を説明するが、本発明はこの実
施形態に限定されるものではなく、本発明の一実施例にすぎない。本発明の主旨
は請求の範囲を参照して解釈されるべきである。
【0015】 図1は、本発明に係る自然言語インターフェースコントロールシステムの一実
施例の構成を示すシステムレベルのブロック図である。図1に示すように、自然
言語インターフェースコントロールシステム102(NLICS102とも称す
る)は、リモートユニット104と、ベースユニット106(ベースステーショ
ンユニット106とも称する)とを備える。リモートユニット104は、リニア
マイクロフォンセット108とスピーカ112とを備え、ベースユニット106
は、平面マイクロフォンセット110を備える。自然言語インターフェースコン
トロールシステム102のリモートユニット104は、コントロール可能な複数
のデバイス114に接続されている。さらに、ベースユニット106は、外部ネ
ットワーク116に接続されている。
【0016】 自然言語インターフェースコントロールシステム102は、動作時において、
ユーザと複数のデバイス114を接続し、複数のデバイス114をコントロール
する。自然言語インターフェースコントロールシステム102は、ユーザが自然
な会話方式で自然言語インターフェースコントロールシステム102に話しかけ
るだけで複数のデバイス114のうち1つ以上をコントロールできる自然言語イ
ンターフェースを提供する。NLICS102は、ユーザの自然な言語での要求
を解釈し、ユーザの要求を行うように各デバイスに適切なコマンドを送ることが
できる。例えば、このような自然言語インターフェースコントロールシステム1
02を家庭で適用する場合、デバイス114は、テレビ、ステレオ、ビデオカセ
ットレコーダ(VCR)、デジタルビデオディスク(DVD)プレーヤ等である
。ユーザは、デバイス114のいずれかを操作したいとき、「I wanna watch TV
(テレビを見たい)」と言うか、同じような自然言語を話すだけでよい。NLI
CS102は、当該技術分野で知られている隠れマルコフモデル(Hidden Marko
v Models(HMMs))を用いて音声を検出する音声認識モジュールを備えてお
り、自然言語インターフェースを用いて自然言語を解釈し、ユーザ要求が何であ
るかという確率(probability)を適切に判断する。自然言語インターフェース
は、各デバイス114毎に記憶された確率的コンテキストフリーグラマー(prob
abilistic context free grammer)(PCFGとも称する)ルールと語彙目録(
lexicons)を用いる。このため、自然言語インターフェースモジュールは、NL
ICS102がインタフェースで接続されるように設計されている抽象化(abst
raction)された各デバイス114を有するデバイス抽象化モジュールを備えて
いる。従って、各デバイス114は、各デバイス114によって理解されるコマ
ンドセットに抽象化される。さらに、各抽象化は、各デバイス特有の個々の文法
及び語彙目録と関連付けられている。
【0017】 ユーザの要求が所望の信頼レベルで決定されると、自然言語インターフェース
モジュールは、ユーザの要求を実行するために、適切なデバイスに一連のコマン
ドを送る。例えば、「I wanna watch TV(テレビを見たい)」というユーザの要
求に対して、自然言語インターフェースモジュールは、適切なデバイスにコマン
ドを送り、テレビとアンプをオンにし、テレビとアンプを適切なモードに設定し
、ボリュームを適切なレベルに設定する。また、内部に記憶されている抽象化さ
れた各デバイスの状態や設定を更新する。コマンドは、テレビのチャンネルをN
LICS102側でわかっている、あるいは、開放型の自然言語要求でユーザが
要求した所望のチャンネルに切り換えることもできる。さらに他の例として、ユ
ーザは、「Do you have the album 'Genesis'?(「ジェネシス」というアルバム
がありますか)」等、システムが「Yes」と回答するような特定の情報を要求
することができる。そして、ユーザは「Play that(それを再生して)」又は「Pl
ay the album Genesis(アルバム「ジェネシス」を再生して)」と答えることが
できる。システムは、この要求に応答し、CDジュークボックスとアンプをオン
にし、アンプを適切なモードに設定し、適切なボリュームレベルを設定し、適切
なアルバムを選択し、アルバムを再生する。また、システムは、ユーザのプロフ
ァイルに加えて抽象化されたデバイスの内部記憶状態や設定を更新する。このコ
マンド信号は、当該技術分野で知られているように、無線周波数(RF)リンク
又は赤外線(IR)リンクを介して送信されることが好ましい。
【0018】 音声認識技術は当該技術分野においてよく知られており、口頭コマンドに基づ
くデバイスのコントロールが知られている。ユーザが所定の音声コマンドを音声
認識コントロールシステムに対して発声する場合、例えば、ユーザがコントロー
ル下のテレビ受像機に「Turn on(オンにして)」と言う場合がある。これに応
じてTVがオンになる。しかし、このようなアプローチは、自然言語又は会話言
語を利用するものではなく、ダイアログコンテキスト(dialog context)を取り
出すためにコントロール下のデバイスの抽象化を行うものでもない。正確な所定
の音声コマンドが出されなければ、システムはコマンドを出さない。これに対し
、本実施例では、口頭の発声について確率的に最も適当な意味を判断し、適切な
コマンドを発行するのに用いられる自然言語インターフェースモジュールを実現
する。従って、ユーザからの指示は、非常に会話的な形式で出され、ユーザは特
定のコマンド信号を覚える必要がない。例えば、ユーザが「hey, let's watch T
V(おい、テレビを見よう)」、「I wanna watch TV(テレビを見たい)」、「t
urn on the TV(テレビをつけて」、「whattya say we watch a little televis
ion(ちょっとテレビを見ないかい)」と言うと、システムは自然言語インター
フェースモジュールを用いて、ユーザがテレビを見ることを要求していることを
確率的に判断して、テレビ及び他の適切なデバイスが理解することができる適切
なコマンドセットを発行する。
【0019】 これによって、都合良くデバイス114とユーザとの間の物理的障害が取り除
かれる。例えば、ユーザはこのデバイス114の操作方法を知らなくてもよい。
例えば、ユーザはDVDプレーヤの操作方法を知らなくてもよい。ユーザは単に
「I wanna watch DVD(DVDが見たい)」と言えば、コマンド信号が送られて
、DVDプレーヤの電源をオンにし、プレーヤ内のDVDの再生を開始する。
【0020】 さらに、自然言語インターフェースモジュールは、ユーザの要求が何であるか
という確信がない場合、ユーザの要求を明確にする。例えば、ユーザの要求が「
I want to watch a movie(映画が見たい)」であるとする。しかし、自然言語
インターフェースモジュールは、ユーザがDVDプレーヤ、VCR、テレビのう
ちのどのデバイスで映画を見たいのかわからない。このような場合、自然言語イ
ンターフェースモジュールは、フィードバックモジュール(例えば、テキスト−
音声モジュール)及びスピーカ等のフィードバック機構を用いて、要求を明確に
するようにユーザに指示する。例えば、自然言語インターフェースモジュールは
、そのような要求に対して、「Do you want to watch a movie on the DVD, VCR
or television?(DVD、VCR、テレビのどれで映画を見たいのですか)」
と訊ねる。それに対し、ユーザは、例えば「DVD」と答える。
【0021】 このように、このシステムは、「開放型」の要求を受け入れることができる真
の「自然言語インターフェース」である。自然言語インターフェースコントロー
ルシステム102は、主としてダイアログ方式又はプロンプト方式の「閉塞型(
closed-end)型」システムではない。例えば、既知の自然言語システムでは、あ
る情報を提供するようにユーザに対してプロンプトを行い、その後、システムが
得られた情報を識別しようとすることによって、会話をコントロールする。例え
ば、自然言語を用いたエアライン予約システムでは、システムによる質問によっ
てコンテキストが制限されるようなダイアログによって、ユーザをガイドする。
例えば、システムが「To what city would you like to fly?(どの都市まで飛
行機を利用しますか)」と訊ねる。すると、ユーザは自然言語で行き先の都市を
答え、システムはその回答と都市名を一致させることにより本質的に回答を理解
しようとする。そして、システムは「What date would you like to leave?(何
日に出発しますか)」と訊ねることによってユーザに対してプロンプトを行い、
予測される回答すなわち日付に基づく、送られてくるサーチ及び分析されるテキ
ストストリング(text string)すなわちテキスト文字列のコンテキストを制限
する。これに対し、NLICS102では、システムではなくユーザがダイアロ
グを開始する。ユーザは、NLICS102からのプロンプトされる前に「I wa
nt to hear some music(何か音楽が聞きたい)」と言うだけである。サーチさ
れるコンテキストはシステムのプロンプトによって制限されるのではなく、NL
ICS102によってコントロールされるデバイス114の能力によって制限さ
れる。従って、ユーザは、コントロール下の各デバイスが行うことが可能なタス
クのいずれかを行うようにNLICS102に要求する。もし、例えば、ユーザ
がコントロール下のデバイスでは利用できない機能を行うようにNLICS10
2に要求する。すなわち、例えば、ユーザが「Make me some breakfast(何か朝
食を作って)」と言うと、そのような要求はコントロール下のデバイスにプログ
ラムされた機能にはないので、NLICS102はそのような要求を実行できな
い。例えば、NLICS102は、デバイス114の能力の範囲内のフレーズを
適切に解釈して、他の要求は単に無視する。また、自然言語インターフェースモ
ジュールのフィードバック部が、その要求は利用できないことをユーザに警告す
ることができる。
【0022】 本実施例では、自然言語インターフェースコントロールシステム102は電源
が「常時オン」であるので、ユーザはいつでも要求を言うことができ、システム
が対応する。しかし、NLICS102の注意を引くため、ユーザは「アテンシ
ョンワード(attention word)」を言ってから要求を言う。これは、ユーザの識
別、要求の誤検出の防止、通常会話とNLICSに関係ない背景雑音との区別を
行うのに役立つ。あらかじめ、アテンションワードに続いて要求が来ることをN
LICS102に知らせる。このため、NLICSで用いられるマイクロフォン
セットは、マイクロフォンセットにより定められた物理的空間内でアテンション
ワードをサーチするだけでよい。例えば、アテンションワードが「Mona(モナ)
」とプログラムされている場合、ユーザの要求は「Mona, I wanna watch TV(モ
ナ、テレビを見たい)」となる。これによって、マイクロフォンセットによる処
理及びサーチ量が大幅に低減される。
【0023】 さらに、個々のユーザは、各自ユーザ特有のアテンションワードを持つことが
できる。例えば、家庭内で、第1のユーザのアテンションワードは「Mona(モナ
)」で、第2のユーザのアテンションワードは「Thor(ソア)」である。NLI
CS102は「Mona」というアテンションワードを聞くと、第1のユーザがコマ
ンドを発しているとみなす。例えば、第1のユーザが「Mona, I wanna watch TV
(モナ、テレビを見たい)」と言うと、システムはテレビ(及び他の適切なデバ
イス)をオンにするだけでなく、第1のユーザが選択した好みのチャンネルにテ
レビを切り換える。なお、この場合、第1のユーザが第2のユーザのアテンショ
ンワードを言うこともできるので、真のIDを与えるものではない。この機構は
、個々のユーザの好み、発音、癖に合わせてNLICS102を調整するための
一手段を与えるだけである。
【0024】 NLICS102が効率的に機能することを可能にする特徴の一つとしては、
NLICS102に接続された各デバイス114が個々の抽象化されたデバイス
に抽象化されるので、個々の文法及び語彙目録が各デバイス114毎に記憶され
ることである。例えば、自然言語インターフェースモジュールは、要求がDVD
プレーヤに対してであると判断すると、その特定のコンテキスト(すなわち、D
VDプレーヤのコンテキスト)に特有の文法及び語彙目録が用いられ、音声認識
モジュール内の入力音声データの処理に役立つ。これによって音声認識モジュー
ルにおけるコンテキスト切り替えが行われる。
【0025】 幾つかの実施例において、NLICS102は、HMM又は文法用の音声認識
モジュールで用いられるモデルを実行時にハードディスク、CD−ROM、DV
D等の二次ソースから流して使用することができるように構成される。データを
読み込めば前処理なしにすぐに用いることができる。従って、多くのモデルや文
法をNLICS102のメモリとは別に記憶することができるので、音声認識モ
ジュールのメモリ使用量が改善される。
【0026】 他の実施例では、NLICS102は、2つの個別ユニット、例えばリモート
ユニット104及びベースユニット106として実現される。ベースユニット1
06はリモートユニット104の「ドッキングステーション(docking station
)」として機能し、リモートユニット104は、例えば汎用シリアルバス(US
B)接続によってベースユニット106に接続される。幾つかの実施例において
、リモートユニット104は、ユーザが用いるボタンを与えることにより、従来
から行われているような種々のデバイスの汎用リモートコントロールとして機能
する。さらに、ベースユニット106は、1NLICS102に外部ネットワー
クインターフェースを供給する。例えば、外部ネットワークインターフェースは
、ホームローカルエリアネットワーク(LAN)、イントラネット、インターネ
ット等の外部ネットワーク116にNLICSを接続する。この場合、NLIC
S102は、外部ネットワーク116内の中央データベースに記憶されている文
法、HMMモデル、抽象化されたデバイス、DC、DVD、テレビその他のプロ
グラミング情報及び/又は語彙目録を新たにダウンロードすることができる。
【0027】 また、ベースユニット106は、リモートユニット104の二次キャッシュと
して機能する。リモートユニット104は、種々のデバイスに対するデバイスイ
ンターフェースに加えて、特徴抽出モジュールと、音声認識モジュールと、自然
言語インターフェースモジュールとを備えている。このとき、ベースユニット1
06は、リモートユニット104で用いられる新たなモデル、文法、語彙目録を
記憶するメモリを備えている。
【0028】 リモートユニット104は、音声信号を受信する従来の2つのリニアマイクロ
フォンセット108を備えている。また、ベースユニット106は、二次元空間
からの音波エネルギーを取り入れる平面マイクロフォンセット110を備えてい
る。NLICS102は両方のマイクロフォンセット108、110を適宜用い
て、2セットのマイクロフォンセット108、110により所定の三次元の物理
的空間で音声を聴取することができるような三次元マイクロフォンセットを実現
する。この場合、三次元ボリュームをある空間内に定めることができる。例えば
、NLICS102は、ユーザが各デバイスの操作時に座るリビングルームのソ
ファを含んだ空間のボリュームを聴取するように構成することができる。このた
め、この所定空間外のソースから出る音声データの位相は減衰させられ、所定空
間内からの音声データの位相は合計される。
【0029】 以上、本システムについて説明したが、自然言語インターフェースコントロー
ルシステムについて以下にさらに詳細に説明する。
【0030】 図2は、本発明の他の実施例を示すものであり、図1の自然言語インターフェ
ースコントロールシステム102のリモートユニット104の構成を示すブロッ
ク図である。図2に示すように、リモートユニット104は、リニアマイクロフ
ォンセット108と、特徴抽出モジュール202と、音声認識モジュール204
と、自然言語インターフェースコントロールモジュール206と、システム処理
コントローラ208と、デバイスインターフェース210と、ベースユニットイ
ンターフェース212(汎用シリアルバス(USB)インターフェース212と
も称する)と、スピーカ214とを備える。また、各デバイス114も示してあ
る。音声認識モジュール204は、音声デコーダ216と、Nグラムグラマーモ
ジュール218と音声モデルモジュール220を備えている。自然言語インター
フェースコントロールモジュール206は、自然言語インターフェースモジュー
ル222と、確率的コンテキストフリーグラマーモジュール224(PCFGモ
ジュール224とも称する)と、デバイス抽象化モジュール226と、フィード
バックモジュール228とを備えている。
【0031】 本システムは、2つの個別要素、すなわちリモートユニット104及びベース
ユニット106としてそれぞれ説明されており、また、幾つかの好ましい実施例
では、リモートユニット104とベースユニット106を個別ユニットとして用
いているが、NLICS102の中心となる機能はリモートユニット104にお
いてのみ実現することができる。ここでは、まず、リモートユニット104につ
いて説明した後にベースユニット106について説明する。
【0032】 音声データは、ソースすなわちユーザを特定して干渉雑音と区別する2つの狭
カーディオイドマイクロフォンであるリニアマイクロフォンセット108を介し
て、リモートユニット104に入力される。このようなリニアマイクロフォンセ
ットは、当該技術分野においてよく知られている。リニアマイクロフォンセット
108は、各マイクロフォンエレメントからの入力音声データをサンプリングし
た後、このデータの時間合わせと合計を行い、入力音声信号の信号対雑音比(S
NR)を高めたものを生成する。
【0033】 そして、音声データは、特徴抽出モジュール202に送られる。特徴抽出モジ
ュール202は、入力音声データの関連情報を表すパラメータ又は特徴ベクトル
を抽出する。
【0034】 特徴抽出モジュール202は、エッジ(edge)検出、信号の条件付け、特徴の
抽出を行う。一実施例によれば、音声のエッジ検出は、第0ケプストラル係数(
0th Cepstral coefficient)及びゼロ交差統計(zero-crossing statistics)
に基づく雑音推定(noise estimation)及びエネルギー検出(energy detection
)により行われる。特徴の抽出と信号の条件付けは、メル周波数ケプストラル係
数(Mel-frequency Cepstral coefficient(MFCC))、デルタ情報(delta
information)、及び加速情報(acceleration information)の抽出を行う。5
0%オーバラップした12.8msサンプルバッファに基づく38次元特徴ベク
トルである。このような特徴抽出モジュール202とその機能については当該技
術分野においてよく知られており、当該分野の当業者は種々の方法で特徴抽出モ
ジュールを実現することができる。このように、特徴抽出モジュール202の出
力は一連の特徴ベクトルである。
【0035】 次に、一般に音声認識モジュール204は、例えば、アウト・オブ・ボキャブ
ラリ(out-of-vocabulary)(語彙にない)イベント、流暢さの欠如、環境雑音
等の「非モデル化イベント(unmodeled events)」を除去する能力を有する隠れ
マルコフモデル(HMM)に基づく連続音声認識デバイスとして機能する。音声
認識モジュール204は、自然言語インターフェースモジュール222のコント
ロール下にあり、自然言語インターフェースコントロールモジュール206によ
り決定された音声のコンテキストに基づいて種々の音声モデルと種々の文法を切
り換えることができる。音声認識モジュール204は、NLICS102におい
て有利に用いられる幾つかの特徴を有しているが、全く従来のものであっても構
わない。さらに、音声認識モジュール204におけるメモリ使用量は最適化され
ているので、必要なメモリは、用いられる音声モデルデータ量を主に反映してい
る。以下、音声認識モジュール204及び自然言語インターフェースコントロー
ルモジュール206についてさらに詳細に説明する。
【0036】 特徴抽出モジュール202からの特徴ベクトルは、音声認識モジュール204
に入力される。すなわち、音声認識モジュール(SRM)204の音声デコーダ
216に入力される。音声認識モジュール(SRM)204は、特徴抽出モジュ
ール(FEM)202からの音声特徴ベクトルを要求し、音声モデルセットを用
いて対応する発声音に最も合うものを見つけるとともに、隠れマルコフモデル(
HMM)に基づくアプローチにより非音声イベント(non-speech events)を排
除(reject)することを役割とする。
【0037】 音声デコーダ216によって用いられるモデルは、音声モデルモジュール22
0に記憶されている。これらのモデルは、コンテキスト依存型又はコンテキスト
独立型のフォネティックモデル(phonetic models)、サブワードモデル(sub w
ord models)又は全単語モデル(whole word models)、例えば単音(monophone
s)、二重音(biphones)及び/又は三重音(trophones)からなる。一実施例に
おいて、音声デコーダ216は、種々のモデルを動的に切り換えることができる
。例えば、音声デコーダ216は、三重音に基づくモデルと単音に基づくモデル
とを切り換えることができる。これは既知のシステムとは異なる点である。既知
のシステムでは、固定数の状態と各状態毎に固定数のガウス形(Gaussians)が
あり、すなわち、各音素(phonemes)のアーキテクチャが固定されている。これ
に対して、単音、二重音、三重音に基づくモデル間での選択とともに、これらの
音素のアーキテクチャ、例えば各種類の音素(単音、二重音、三重音)毎に状態
数と各状態毎のガウス形の数を変化させて、空間、速度、精度の最適化を図るこ
とができる。当該技術分野においてよく知られているように、入力された発声音
は、例えばビタビアルゴリズム(Viterbi algorithm)を用いてモデルにより分
析され、その発声音が所定モデルにどの程度合致するかを表すスコアが割り当て
られる。さらに、音声デコーダ216によって用いられるモデルは、自然言語イ
ンターフェースコントロールモジュール206の直接のコントロール下にある。
これについては以下にさらに説明する。
【0038】 また、2つのガーベジモデル化技術(garbage-modeling techniques)が用い
られる。音声モデルモジュール220にガーベジフィラーモデル(Garbage fill
er model)が記憶され、流暢さの欠如や「無音」だけでなく背景雑音もモデル化
する。これらのモデルは、音声デコーダ216により、アウト・オブ・ボキャブ
ラリ(oov)イベント(語彙にないイベント)の排除の際に使用される。また
、音声デコーダ216は、オンラインガーベジ計算(online garbage valculati
on)を用いて、アウト・オブ・ボキャブラリ(oov)イベントを排除する。そ
して、スコアが非常に近ければ、N個の最適候補を返送する。このようなアウト
・オブ・ボキャブラリ(oov)イベントの排除は当該技術分野においてもよく
知られている。
【0039】 幾つかの実施例において、排除(rejection)の技術が当該分野で知られてい
る技術と比較して改善されている。HMMに基づく音声認識システムの背景とな
る基本原理は、ある発声音を(音声モデルモジュール220からの)多数の音声
モデルと比較して、その発声音に最も合致するモデルを見つけることである。こ
れは、音声認識モジュール204の出力が最適な一致モデル(例えば単語)に対
する参照となることを意味する。しかし、これでは、口頭で話されたことばを表
すモデルが存在しない場合に問題が発生する。このような場合、HMMに基づく
システムでは、発声音とモデルとの最も近い一致を見つけようとし、その結果を
報告するのが一般的である。多くの場合、このことは好ましくない。それは、オ
ープンマイクにより拾われた音はいずれも、発生するモデルに対する参照となる
からである。これを防ぐには、発声音がイン・ボキャブラリ(in-vocabulary)
(語彙にある)ワードに含まれているか否かを判断することが好ましい場合があ
る。例えば、ビタビスコア(Viterbi score)がしきい値を超える場合、発声音
はイン・ボキャブラリワードであるとみなされる。発声音のビタビスコアがしき
い値を超えない場合、発声音はアウト・オブ・ボキャブラリであるとみなされる
。このようなビタビスコアは、ビタビアルゴリズムを用いて得られる。このアル
ゴリズムでは、一連の観測を考慮して、HMMによる単一の最適な状態シーケン
スとその対応する確率を計算する。しかし、実験によれば、これはあまり正確な
排除方式ではないことがわかっている。代わりに多くのシステムでは、全てのア
ウト・オブ・ボキャブラリイベント又はフィラー音声(filer sounds)を表すこ
とをタスクとする別のHMMによって発声音の再処理を行うことで、すなわちガ
ーベジモデルを用いることで得られる別のビタビスコアと、元のビタビスコアを
比較することに依存している。ガーベジスコア(garbage score)は、以下の式
1により発声音中のフレーム数で除算した2つのビタビスコアのそれぞれの対数
の差として定義することができる。ガーベジスコアは、発声音がワードモデルに
対してより近い一致を示すのか、アウト・オブ・ボキャブラリモデルに対してよ
り近い一致を示すのかを表す。アウト・オブ・ボキャブラリイベントの排除方法
については多くの変形例が提案されている。一般に発声音中の無音時間は、高エ
ネルギー音声部分をモデル化すべきモデルについても高いビタビスコアを生じる
ことがわかっている。これは、特徴抽出モジュール202において音声信号のエ
ネルギーを表す新たな特徴を与えることにより、ある程度防ぐことができる。し
かし、それでもなお不正確なガーベジスコア測定となってしまう。発声音の開始
部又は終了部に無音があり、この開始部又は終了部の無音がモデル化されていな
い場合、ガーベジスコアにひどく影響することがわかっている。特徴抽出モジュ
ール202は、開始部及び終了部の無音を音声認識モジュール204の音声デコ
ーダ216に送るサンプルに含めないように音声検出を行う。しかし、発声音の
開始部及び終了部を見つけることは、低エネルギーで始まる又は終わる発声音に
ついては複雑な作業となる。これが問題となる音声グループの例として摩擦音が
ある。摩擦音は、例えばホワイトノイズ(white noise)等の広帯域で低エネル
ギーの雑音として特徴付けられる。当該技術分野において知られているように、
摩擦音とは「th」、「sh」等の音素で表される音である。特徴抽出モジュー
ル202は、開始部及び終了部のサンプルを見つけるための最善の努力をするこ
とにより、この問題を解決しようとする。低エネルギー音が音声サンプルに含ま
れていることを確実にするため、特徴抽出モジュール202は、発声音の開始部
及び終了部に多数の余分サンプルを含める。発声音の開始部又は終了部に低エネ
ルギー音がない場合、その発声音は隔離して話されたものであるとみなされ、無
音が作成されて音声サンプルに付加されるため、音声デコーダ216のガーベジ
スコアは歪曲されてしまう。この問題を解決するため、一実施例において、各モ
デルの前後に、特徴抽出モジュール202から送られた無音フレームを消費する
単一状態の無音モデルを配置する。音声デコーダ216は最も近い一致の一連の
モデルを見つけ、ワードモデルに加えて無音モデルも最適に発声音に合致させる
。こうして、発声音の開始及び終了無音部の開始及び終了インデックスを得て、
除去することができる。さらに、最適の一致のワードモデルについては、前後の
無音モデルなしに、発声音の純粋な音声部分のみを用いて保持及び再処理が行わ
れる。次に、アウト・オブ・ボキャブラリHMMが発声音の同じ部分の処理を行
い、ガーベジスコアは次式(1)により計算することができる。
【0040】
【数1】
【0041】 ここで、wは前後の無音モデルのないイン・ボキャブラリワードの音声モデル
についてのビタビスコアの対数であり、発声音には無音が含まれていない。同様
に、gはアウト・オブ・ボキャブラリHMMモデルについての対応するスコアの
対数である。また、nは発声音中の総フレーム数であり、mは前後の無音モデル
により消費されるフレームの数である。つまり、この排除技術を用いて、システ
ムは発声音の音声部分を正確に取り出すことができるようになる。これにより、
イン・ボキャブラリワードの取り出しが向上し、また、摩擦音等の低エネルギー
音で始まる又は終わるアウト・オブ・ボキャブラリイベントの排除が、従来の排
除方法と比較して向上する。
【0042】 Nグラムグラマーモジュール218は、音声デコーダ216により使用される
文法を有している。これらの文法は語彙目録を構築するための規則であり、語彙
目録は単語とその発音入力からなる辞書である。また、音声デコーダ216によ
り使用される特定の文法は自然言語インターフェースモジュール222によりコ
ントロールされている。本実施例において、Nグラムグラマーは、複数の文法の
種類又は文法の種類の組み合わせを用いるように構成されている。複雑な言語を
使用する場合(例えば、多数のコントロール及び機能を有するコントロール下の
デバイス)については、トライグラムグラマーオプション(trigram grammer op
tion)を用いるのが有利である。それより小規模のシステム(例えば、非常に単
純なコントロール及び機能を有するデバイス)については、バイグラムグラマー
オプション(bigram grammer option)により、メモリと精度のバランスがとれ
る。バイグラム及びトライグラムグラマーのメモリ効率の良い表現を得るには、
可能な語彙目録入力の組み合わせを、特定の語彙目録入力ラベル又はワードグル
ープによって表現すればよい。語彙目録入力の後にいずれの語彙目録入力が続く
ことができるようにする場合、エルゴディックグラマーオプション(ergodic gr
ammar option)を用いることができる。
【0043】 なお、一般的に、信号受信可能範囲が小さいデバイスにおいてNグラムグラマ
ーを使用することは直観的には考えにくい。信号受信可能範囲が小さいというこ
とは、システムがリモートユニット104に接続されたコントロール下のデバイ
ス114に関する音声だけを認識すればよく、残りの音声についてはアウト・オ
ブ・ボキャブラリとして分類してもよいということである。しかし、Nグラムグ
ラマーモジュール218は、信号受信可能範囲が小さい音声認識モジュール20
4の場合にも複数の文法及び種類の使用を可能にする。
【0044】 主として音声デコーダ216で排除方法に使用される他の文法として、ワード
リストグラマー(word list grammer)がある。ワードリストグラマーは、固定
的な一連の単語と発声音サブセット(subset)についてのビタビスコアを再計算
するのに用いられる。
【0045】 システムは、「コンテキスト切り換え」、あるいは、自然言語インターフェー
スモジュールのコントロール下で文法の種類と文法規則セットを直ちに切り換え
ることを可能にする方法で、種々の文法を組み込んでいる。人間が話す内容はコ
ンテキストにより大きく影響されるので、これを可能にすることは重要である。
例えば、あるフレーズ(例えば上述のアテンションワード)のみがダイアログを
開始すると想定され、他のフレーズは質問(例えば不明瞭な要求を明確にする自
然言語インターフェース)に続いて発生するだけである。特に、話し手が様々な
聴衆を相手にしているときや、家庭用電子機器の場合、すなわちテレビ、DVD
プレーヤ、ステレオ、VCR等の種々の製品の場合、このことは顕著になる。音
声認識精度を高めつつ必要な処理を少なく抑える試みとして、システムは、ある
文法規則のみが当てはまるコンテキストの定義方法を与える。コンテキストがわ
かっている場合、自然言語インターフェースモジュール222は、予想されるフ
レーズのみを聴取するように音声認識モジュール204に指令を出すことができ
る。例えば、自然言語インターフェースモジュール222は、ユーザがDVDプ
レーヤを操作しようとしていると判断すると、音声認識モジュール204はDV
Dプレーヤに対応する文法の種類と文法を用いるように指令を受ける。従って、
音声デコーダ216は、Nグラムグラマーモジュール218から適切な文法を取
り出す。また、各規則又は単語についてどの規則又は単語が使用可能又は使用不
可能かを示すのに、各文法規則又は語彙目録入力毎のフラグを用いる高精度レベ
ルによって、コンテキスト切り換えを行うこともできる。さらに、システム設定
及び文法モードによっては、最適推測語をサーチする際に、語彙目録入力セット
のみを使用することが好ましい場合もある。幾つかの語彙目録を定めて、関係の
ある語彙目録のみを参照すればよい。
【0046】 なお、音声認識モジュール204は、入力された音声のコンテキストを考慮し
て、使用する文法を動的に変更することができ、語彙目録は選択された文法に依
存するので、語彙目録は動的に変更される。
【0047】 システムのサイズ、すなわち、音声デコーダ216においてどの程度のサーチ
が必要かによって異なるが、処理時間を短縮することができる。中規模から大規
模の自然言語インターフェースコントロールシステム102(コントロール下の
デバイス114を多数有している)の場合、ビームサーチアルゴリズム(Beam S
earch algorithm)を効率的に実行することにより処理時間が大幅に短縮される
。このビームサーチアルゴリズムは、ビタビサーチアルゴリズム(Viterbi Sear
ch algorithm)において推測語の数を最小限に保持するものである。この場合、
離散的時間ステップ毎にすべてのアクティブな推測語を比較し、最適推測語につ
いてのビタビスコアを計算する。そして、最大推測語スコアから所定の排除しき
い値関数を引いた値に満たないスコアの推測語をすべて廃棄することにより、プ
ルーニング(pruning)すなわち刈り込みを行うことができる。これによって、
プルーニングされたため、対応するモデル状態のスコアがしきい値を超えるまで
以下の時間ステップで考慮されない推測語に基づくサーチは制限される。
【0048】 大規模の音声認識システムに関連する他の問題点として、音声モデルを記憶す
るのに必要なメモリ量がある。幸い、NLICS102で使用するサブワードユ
ニット(sub word units)(例えば音素)の数は一般的に固定されているので、
語彙目録入力数が大きくなるについて、より多くの音声モデルが同じサブワード
モデルを参照することになる。語彙目録入力に同じモデル要素、例えばサブワー
ドモデル、モデル状態及び/又はガウス形を参照させることにより、必要なメモ
リを最小限に維持することができる。それと引き換えに必要な計算リソースがや
や増加する。この間接的モデル参照を用いると、音声をいずれの抽象化レベル(
例えば、フレーズ、単語、サブワード)においても表すことができる。このよう
な抽象化を組み合わせて、語彙目録に従いより多くの抽象化ユニットを形成する
ことができ、それを文法の定義において参照することができる。
【0049】 トークン・パッシング(Token Passing)は、HMMによる最適単語推測を探
索するためのよく知られたアプローチ方法である。当該技術分野において知られ
ているように、接続された単語認識システムにおいて、発声音の前フレームの処
理が完了すれば、一番高いビタビスコアを有する状態シーケンスについての最後
のモデル状態を容易に見つけることができる。しかし、これで必ずしも最適の状
態(又は単語)シーケンスが得られるわけではない。最適状態シーケンスを見つ
けるには、「バックトレーシング(back tracing)」を行う必要がある。これを
行う従来の方法は、各状態が、各フレーム毎の前の最適状態に戻したポインタを
持つようにする。バックトレーシングは、一番高いビタビスコアを持つ状態シー
ケンスの最後のモデル状態からポインタを戻していくことにより行うことができ
る。これは、システムがT個の離散的時間ステップにわたってN個の状態を用い
る場合、必要なバックポインタ(back pointers)の数は通常NTであることを
意味する。これを行うとすぐに数が大きくなり、必要なメモリが大きくなる。こ
のようなバックポインタの記憶に関する必要なメモリを最小化するための種々の
方法が提案されているが、そのうちの幾つかは、状態毎にメモリを割り当てるの
ではなく、種々の状態に「トークン(tokens)」を巡回させるという考えに基づ
くものである。
【0050】 本発明の一実施例によれば、各状態に1つのトークンポインタ(token pointe
r)を記憶するのではなく、音声デコーダ216が2列S1及びS2を用いて各
状態のトークンポインタを保持する。列S1は各状態と前フレームのトークンポ
インタを保持し、列S2は各状態と現フレームのトークンポインタを保持する。
各状態iが前の最適状態jを見つけようと前に戻ると、2つの結果が考えられる
。前の最適状態jがiと同じ音声モデルの要素ならば、S1における状態jのト
ークンポインタはS2における位置iにコピーされる。そうでなければ、新たな
トークンが作成され、S2における位置iに記憶される。新たなトークンはS1
のトークンiと同じ内容を得て、トークン履歴(token history)において、モ
デルm,iεmに対する参照が付加される。現フレームについてすべての状態が
処理されると、構造S1及びS2に対するポインタはスワップ(swap)すなわち
交換され、次のフレームについて処理が繰り返される。従って、トークン・パッ
シング技術により、HMMに基づく音声認識システムのよく知られた問題点を非
常に高いメモリ効率で解決することができる。すなわち、すべての音声データが
処理された後に最適単語シーケンス推測を見つけることができるバックポインタ
を記憶することである。
【0051】 幾つかの実施例において、例えばNグラムグラマーモジュール218により、
リモートユニットのメモリに記憶された語彙目録について、キャッシュ方式(ca
ching scheme)を用いる。上述のように、語彙目録とは単語とその発音入力から
なる辞書である。これらの発音は、フォネティックモデル又は全単語モデルのい
ずれかを参照するフォネティックスペリング(phonetic spellings)として実現
することができる。ある所定の単語入力が複数の代替的な発音入力を有してもよ
いが、これらの発音入力のほとんどは、いずれの話し手によってもほとんど使用
されない。この冗長性は各音声部分の抽象化において繰り返され、所定の話し手
が使用しない入力が増える。つまり、語彙目録入力を使用頻度によって分類すれ
ば、上位nの語彙目録入力から発声音中の単語を見つけることができる可能性が
大きい。この場合、キャッシュを使用頻度により分けた異なるレベルに分割する
。例えば、頻繁に使用される語彙目録入力はキャッシュの上位レベルに記憶され
る。キャッシュ方式は、例えば90%の時間にキャッシュの上位10%が使用さ
れるように工夫してもよい。従って、一実施例によれば、マルチパスサーチ(mu
lti-pass)を行い、最も適当な入力を第1のパスにて検討する。このパスからの
ガーベジスコアが、実際に口頭で話されたことばが最も適当なスペリングのセッ
トに含まれていたと考えるのに十分高い場合、音声デコーダ216はその結果を
呼び出し機能に報告する。このスコアが低い場合、システムはより広い範囲のス
ペリングの検討に戻る。第1のパスからのスコアは高いが、最も適当なスペリン
グのセット内に、発声音の要素についての正しいスペリングが含まれていたか否
かを決定できるほどスコアが高くない場合、これも呼び出し機能に報告され、呼
び出し機能は、明確化するためにユーザに対してプロンプトを行う。所定の音声
部分についての語彙目録スペリングが使用されず、その代替スペリングの幾つか
が頻繁に使用される場合、そのスペリングは「ゴミ箱(trash can)」に入れら
れ、そのユーザに関してそれ以上検討されることはない。この場合、ほとんど使
用されないスペリングは検討されず、類似音の発声音をそれらのスペリングのい
ずれかと混同してしまう可能性は低減されるので、認識精度が向上する。さらに
、キャッシュ方式により、システムは少量のデータを検討すればよいので、処理
速度が大幅に改善する。
【0052】 次に、自然言語インターフェースコントロールモジュール206について詳細
に説明する。自然言語インターフェースコントロールモジュール206は、自然
言語インターフェースモジュール222と、確率的コンテキストフリーグラマー
(PCFG)モジュール224と、デバイス抽象化モジュール226と、フィー
ドバックモジュール228を備えている。一般に、自然言語インターフェースモ
ジュール(NLIM)222は、コントロール下の各デバイス114のコンテキ
ストと、確率的コンテキストフリーグラマー(PCFG)ルール及び抽象化され
たデバイスからなるセットにより定義されるユーザの使用履歴の範囲内でユーザ
の要求を解釈することを役割とする。この場合、自然言語インターフェースモジ
ュール222は、音声認識モジュール204とマイクロフォンセット108のサ
ーチについてコントロールを行う。これは、音声認識モジュール204の文法と
、検討中の語彙目録をコントロールすることにより行う。また、自然言語インタ
ーフェースモジュール222は、抽象化されたデバイスの現在の状態、現在の言
語参照に加えて、システムパラメータもコントロールする。
【0053】 上述のように、ユーザがアテンションワードを言うことによりNLICSとの
ダイアログを開始する。アテンションワードの特定する好ましい方法について、
図3を参照して説明する。ユーザはアテンションワードの後に、リモートユニッ
ト104に接続された各デバイスの能力によってのみ制限される開放型の要求を
出す。アテンションワードは、音声デコーダがアテンションワードに基づく適切
な文法及びモデルを使用するように指令を与えられるように、ユーザのアイデン
ティティを自然言語インターフェースモジュール222に注意を促す。従って、
システムは予めユーザの話すパターン(例えば、発音、構造、癖等)に合わせて
設定することができる。
【0054】 音声認識モジュール204は、会話形式の自然言語でなされたユーザの要求を
文書化する。発声音は、確率により順序付けられた代替的な推測語列からなるセ
ットとして文書化される。例えば、音声デコーダ216はN個の最適テキストス
トリングを自然言語インターフェースモジュール222に送り、分析が行われて
、その発声音のもっともらしい意味が判断される。
【0055】 そして、自然言語インターフェースモジュール222は、PCFGモジュール
224からの確率的コンテキストフリーグラマー(PCFG)ルールを適用する
ことにより、入力されてくるストリングの構文解析を行い、そのストリングの確
率、ユーザ履歴、現システムコンテキストを考慮して最も適当なストリングを見
つける。これらのPCFGルールは、(アテンションワードに基づく)ユーザの
コンテキストと、操作されるデバイス(既に決定している場合)のコンテキスト
を反映する。PCFGは最初、使用ゆう度だけでなく使用頻度により順序付けら
れる。時間が経つと、個々のユーザの癖を追跡して、このデータを反映するよう
にルールの確率推定を改善する。このデータは、他のシステムからのデータと共
用したり組み合わせることができ、共同コーパス(collaborative corpus)(言
語資料)を介して再分配することができる。
【0056】 さらに、NLICSは2つの文法セットを備えている。1つは音声認識モジュ
ール204のNグラムグラマーであり、もう1つは自然言語インターフェースコ
ントロールモジュール206の確率的コンテキストフリーグラマーモジュール2
24である。従来のシステムでは1つの文法セットを使用するだけで、個人用電
子製品の分野におけるマンマシンダイアログから収集したデータを用いて推測さ
れたNグラムグラマーとPCFGルールの組み合わせを使用しない。
【0057】 入力されてくるテキストストリングに対してPCFGルールを用いることで、
自然言語インターフェースモジュール222は以下の3つの結論のいずれかに達
する。すなわち、(1)ユーザの要求を明確に理解して対応することができる、
(2)ユーザの要求を明確に理解するが対応できず、この場合、ユーザにその結
論を通知する、(3)要求の不明瞭さを解決できず、この場合、ユーザに明確化
を要求する。
【0058】 例えば、(1)の場合、自然言語インターフェースモジュール222は、十分
に高い信頼レベルで、入力されてくるストリングを「Turn on the television(
テレビをオンにする)」要求として解釈する。この場合、デバイス抽象化モジュ
ール226内の適切なコマンドが取り出され、コントロール下のデバイス114
(すなわちテレビ)に送信される。デバイス抽象化モジュール226は、テレビ
自体が理解可能なフォーマットでユーザの適切な要求を実行するためのコマンド
をすべて有している。通常、コマンドはデバイスインターフェース210、例え
ばIR送信器を介してテレビに送信される。これに応じてテレビの電源がオンに
なる。2番目の場合は、NLICSが行うことができないタスクをユーザがNL
ICSに要求する場合である。例えば、ユーザがテレビに爆発するように要求す
る場合である。
【0059】 フィードバックモジュール(例えば、テキスト−音声)228は、スピーカを
介して可聴メッセージを再生して、要求を行うことができない旨をユーザに知ら
せるように指令を受ける。なお、フィードバックモジュール228は、スピーカ
214を介して音声信号を再生する代わりに、画面表示で通知を表示するだけで
もよい。
【0060】 3番目の場合、生じた不明瞭さの種類に従って不明瞭さを解決する。このよう
に、自然言語インターフェースモジュール222は不明瞭な要求を明確化する。
不明瞭さが低信頼性が原因で生じる場合、自然言語インターフェースモジュール
222はその結論を肯定するようにユーザに要求する。例えば、スピーカ214
が「Did you mean play the CD?(CD再生のことですか)」と伝える。あるい
は、自然言語インターフェースモジュール222は、要求を繰り返すようにユー
ザに要求する。不明瞭さが選択肢のセットが原因で生じる場合、自然言語インタ
ーフェースモジュール222は、これらの選択肢、例えば「Did you want to wa
tch a movie on the VCR or the DVD?(VCRで映画を見たかったのですか、そ
れともDVDですか)」という選択肢をユーザに提示する。不明瞭さが現コンテ
キストが原因で生じる場合、ユーザはその旨を知らされる。例えば、ユーザは、
既に再生しているときにDVDプレーヤの再生を要求する場合である。
【0061】 最初の2つの不明瞭な場合では、システムは、選択肢のセットを考慮した好み
に加えて、決定がなされたときの信頼性を反映するようにユーザプロファイルを
調整する。幾つかの実施例において、時間の経過とともに、これらの統計を用い
てPCFGルール及び適切な語彙目録内の入力の順序付けをしなおす。その結果
、最も適当な入力が常に早期にチェックされ、これらの適当な入力が高信頼性を
もたらすので、より高速でより精度の高いシステムが得られる。
【0062】 なお、自然言語インターフェースモジュール222が要求を明確化するように
フィードバックモジュール228に指令を与える場合、例えば、スピーカ214
が「Did you mean play the CD?(CD再生のことですか)」と伝える場合、自
然言語インターフェースモジュール222は、マイクロフォンセット108で受
信するであろうと予測していることに基づいて、コンテキスト及び文法規則を切
り換える。例えば、システムは、「yes」又は「no」あるいはその変形を受
信するであろうと予測しているコンテキストに切り換える。ユーザが「yes」
と答えると、自然言語インターフェースモジュール222はコンテキストを元の
状態に切り換える。
【0063】 この場合、コンテキストが変化すると、自然言語インターフェースモジュール
222は文法を切り換えるように音声認識モジュール204に指令を与える。文
法は使用される語彙目録をコントロールするので、これにより間接的に語彙目録
が変更される。
【0064】 また、自然言語インターフェースコントロールモジュール206は、デバイス
抽象化モジュール226を備えている。デバイス抽象化モジュール226は、各
デバイス114毎に抽象化を記憶する。この場合、各デバイス114についての
コマンドと、各デバイス114が操作できるオブジェクトがここに記憶される。
また、デバイス抽象化モジュール226は、デバイスが取ることができる状態と
デバイスが行うことができる動作とに、これらのコントロールを関連付ける。デ
バイス抽象化モジュール226の内容は、リモートユニット104に接続された
種々のデバイスによって異なる。また、デバイス抽象化モジュール226は、別
のデバイスを動作するために他のデバイスに対するコマンドを有している。例え
ば、ユーザがDVDの再生を要求すると、DVDプレーヤの電源をオンにしてD
VDを再生させる指令が出される。さらに、テレビをまだオンになっていない場
合、コマンド信号が送られてテレビをオンにする。
【0065】 デバイス抽象化モジュール226に記憶されているコマンドは、デバイスイン
ターフェース210を介して、コントロール下の各デバイス114に送信される
。幾つかの実施例において、デバイスインターフェース210はIR又はRFイ
ンターフェースである。
【0066】 NLICSは、このようなIRリンクを介してコントロール可能なデバイスで
あればいずれもコントロールするように構成することができる。デバイス抽象化
が特定デバイスを操作するためのコマンドを記憶している限り、そのデバイスは
自然言語インターフェースによりコントロールされていることを理解しない。デ
バイスは単にそのデバイスのリモートコントロール又は汎用リモートコントロー
ルが信号を送ったのだと考える。
【0067】 システム処理コントローラ208は、NLICS内の種々のモジュール用のコ
ントローラ及びプロセッサとして動作する。その機能については当該技術分野に
おいてよく知られている。さらに、システム処理コントローラ208にはインタ
ーフェース212が接続されている。これによりベースユニット106又はコン
ピュータへの接続が可能になる。インターフェース212は、当該技術分野にお
いて知られているように、有線又は無線のいずれの種類のリンクであってもよい
【0068】 なお、特徴抽出モジュール202、音声認識モジュール204、自然言語イン
ターフェースコントロールモジュール206等、システムの種々の構成要素は、
例えば特定用途向けIC(ASIC)又はデジタル信号プロセッサ(DSP)を
用いて、ソフトウェア又はファームウェアにより実現してもよい。
【0069】 次に図3を参照して、本発明のさらに他の実施例に係る、図1の自然言語イン
ターフェースコントロールシステムのベースユニット又はベースステーションの
機能ブロック図を示す。図3には、ベースユニット106(ベースステーション
106とも称する)と、リニアマイクロフォンセット108を有するリモートユ
ニット104が図示されている。ベースユニット106は、平面マイクロフォン
セット110と、周波数局在化モジュール302と、タイムサーチモジュール3
04と、リモートインターフェース306(インターフェース306とも称する
)と、外部ネットワークインターフェース308と、二次キャッシュ310を備
えている。リニアマイクロフォンセット108と平面マイクロフォンセット11
0を組み合わせて、三次元マイクロフォンセット312(3Dマイクロフォンセ
ット312とも称する)を形成する。また、図3には外部ネットワークインター
フェース308に接続された外部ネットワーク116も図示されている。
【0070】 動作時において、ベースユニット106は、リモートユニット104(汎用リ
モートコントロールと同様)に対するドッキングステーションとされる。ベース
ユニット106は、NLICSが直接又はホスティング(hosting)されたイン
ターネットポータルを介して、家庭用LAN又はインターネット等の外部ネット
ワーク116に対してインターフェースを行うことができるような外部ネットワ
ークインターフェース308を備えている。この場合、新たな文法、音声モデル
、プログラミング情報、IRコード、抽象化されたデバイス等をベースユニット
106にダウンロードして、例えば二次キャッシュ310に記憶することができ
る。
【0071】 さらに、NLICS102は、その文法、モデル、語彙目録を外部ネットワー
ク上のリモートサーバに送信して記憶する。このリモートストレージは、他の同
様のデバイスにより取り出すことができる情報の保存部となる。この場合、語彙
目録が常に最新の発音及び用法により更新されるので、システムが老朽化するこ
とはない。このため、複数の自然言語インターフェースコントロールシステムは
個々にリモートサーバ内の外部データベースに寄与するので、共同語彙目録及び
/又は共同コーパスを構築することが可能になる。
【0072】 さらに、NLICS102は、リモートユニット104のデバイス抽象化モジ
ュールに対するコマンド信号をダウンロードすることができる。例えば、ユーザ
が、NLICSとは異なる製造者により製造されたIRリモートコントロールを
有する旧式のVCRを操作したい場合を考える。ベースユニット106はいずれ
の数のデバイスについても記憶されたコマンドをダウンロードするだけである。
そして、これらのコマンドはデバイス抽象化モジュールに記憶される。また、N
LICSは高信頼性の発声音に関連する特徴ベクトルデータとラベルを共同コー
パスに送ることができる。このデータは他のデータと組み合わせて、その後再分
配される改良モデルを調整するのに用いることができる。このアプローチは、特
徴ベクトルデータとそのラベルを送ることにより共同コーパスに新語を組み込む
のに使用することができる。送られた特徴ベクトルデータとラベルは他のデータ
を組み合わされて、フォワード・バックワードアルゴリズム(forward-backward
algorithm)を用いて音声表記的に文書化される。そして、この入力は語彙目録
に追加され、再分配することができる。
【0073】 ベースユニット106は平面マイクロフォンセット110を備えている。平面
マイクロフォンセット110とリモートユニット104のリニアマイクロフォン
セット108を組み合わせて、三次元マイクロフォンセット312を形成する。
両セットとも従来のポイントソース特定マイクロフォンからなる。当該技術分野
において知られているように、三次元セットは、まず平面セット(例えば平面マ
イクロフォンセット110)を構成し、その後、平面セットの平面に1つ又は2
つのマイクロフォンエレメントを追加することにより構成される。この場合、リ
ニアマイクロフォンセット108は追加的な1つ又は2つのエレメントとなる。
これによりNLICS102は三次元サーチボリュームを定めることが可能にな
る。デバイスは、そのボリュームの範囲内の音声エネルギーをサーチするだけで
ある。従って、マイクロフォンセット108、110は、サーチボリュームの範
囲内にポイントを局在化する。サーチボリュームの範囲外の音声エネルギー、背
景雑音等は減衰させられ、サーチボリュームの範囲内の音声エネルギーは合計さ
れる。実際には、ユーザは種々のデバイスをコントロールするために特定ボリュ
ーム範囲内に居る必要がある。例えば、ユーザのリビングルームのソファ付近の
ボリュームとなるようにサーチボリュームを構成する。
【0074】 リニアマイクロフォンセット108と平面マイクロフォンセット110はいず
れも、自然言語インターフェースモジュール222によりコントロールされてい
る。周波数局在化モジュール302とタイムサーチモジュール304は、3Dマ
イクロフォンセット110に接続されている。タイムサーチモジュール304は
、リモートインターフェース306を介してリモートユニット104内の自然言
語インターフェースモジュール222からのコントロール信号を受信する。タイ
ムサーチモジュール304はマイクロフォンにより与えられる時間合わせされた
バッファをまとめる。これにより、タイムサーチモジュール304は推定ヒット
の位置を特定し、ヒットの方向に3Dマイクロフォンセット110を向けさせる
のに役立つ。タイムサーチモジュール304の機能については当該技術分野では
よく知られている。
【0075】 周波数局在化モジュール302も自然言語インターフェースモジュール222
のコントロール下にある。周波数局在化モジュール302は、当該技術分野で知
られているような局在化アルゴリズム(localization algorithm)を実行する。
局在化アルゴリズムは、所定ボリューム範囲内の音声エネルギーを局在化するの
に用いられる。この場合、ボリューム範囲内の局在化ポイント以外から発する音
声エネルギーは減衰し(位相外れ(out of phase)となり)、局在化ポイント内
からの音声エネルギーは合計される(位相が合って(in phase)いる)。従って
、局在化では周波数領域の構成的干渉と破壊的干渉を利用している。動作時にお
いて、サーチモジュールはアテンションワードの粗いサーチを行うのに使用され
る。音声エネルギーがしきい値を超える場合、局在化モジュールにより精密なサ
ーチが行われる。精密なサーチにパスすると、その単語は認識及びNLIモジュ
ールに送られる。この粗いサーチから精密なサーチまでは、局在化に伴う処理を
低減するのに非常に役立つ。例えば、このような局在化では、エネルギーを周波
数領域に変換したり戻したりしなければならないので、非常に多くの計算が必要
となる。従って、粗いサーチで多数の推定ヒットを排除することにより、処理が
低減される。SRモジュールが推定ヒットをアテンションワードであると識別す
ると、この推定ヒットは自然言語インターフェースモジュール222に送られて
分析が行われ、どのアテンションワードが言われたのかが判断される。なお、自
然言語インターフェースモジュールのコンテキストは、最初はアテンションワー
ドのコンテキストである。すなわち、システムはシステムを作動させるためのア
テンションワードをサーチしている。アテンションワードが見つかると、NLI
CSのコンテキストは要求コンテキストに変更させられ、NLICSに接続され
たデバイスにより制限される要求を探索するようになる。
【0076】 ベースユニット106の二次キャッシュは、リモートユニット104で使用す
る二次的モデル、文法及び/又は語彙目録を記憶するのに用いられる。これによ
り、実行時に二次記憶デバイス又は二次キャッシュ(例えば、ハードディスク、
CD−ROM、DVD)から(ストリーム(stream))音声モデル及び文法を読
み込むように設計された音声認識モジュールを補完する。データは読み込まれる
と、いずれの前処理も行わずに直ちに使用することができる。このことはコンテ
キスト切り換えと効果的に結びつく。文法コンテキスト切り換え特徴に伴い、必
要な処理が少なくなるとともに音声認識精度が高くなるが、これに加えて、頻繁
に使用されない文法等については、リモートユニット104内のメモリを占有せ
ずに、二次キャッシュ310に記憶して必要なときに読み出せばよいので、必要
なメモリが大幅に低減される。さらに、音声認識精度を高める音声データをより
多く使用することができ、また、二次記憶デバイスが種々の方言やなまりについ
ての基本モデルを大量に保持することができるので、話し手に適応するための種
々のアプローチを効率的に実施することができる。また、二次キャッシュは外部
ネットワーク116からダウンロードされるモデル、文法等の記憶デバイスであ
ってもよい。
【0077】 次に図4を参照して、図1〜図3の自然言語インターフェースコントロールシ
ステムの自然言語インターフェースアルゴリズム(natural language interface
algorithm)で行われる各ステップのフローチャートを示す。まず、音声認識モ
ジュール204と自然言語インターフェースモジュール222が、アテンション
ワードを探索するコンテキストに初期設定される(ステップ402)。これによ
りNLICSは非プロンプト式のユーザ要求を受け付けることができるようにな
るが、まず、ユーザ要求が入力されてくることをシステムに通知しなければなら
ない。アテンションワードにより、この作業が行われる。この場合、隠れマルコ
フモデルの文法及びモデルを用いて、アテンションワードの存在を具体的に識別
する。次に、リモートユニットがマイクロフォンセットにて音声データを受信す
る(ステップ404)。音声データは、50%のオーバラップを用いて12.8
msecのフレームに分離される。音声データから38次元特徴ベクトルを取り
出す。これらの特徴は、メル周波数ケプストラル係数1〜12と、MFC係数0
〜12の一次及び二次導関数からなる。このように、音声データから特徴ベクト
ルを作成する(ステップ406)。これは特徴抽出モジュール202にて行われ
る。
【0078】 次に、音声認識モジュール204が、入力されてくる特徴ベクトル(自然言語
インターフェースにより特定されたもの)に対して音声隠れマルコフモデル(H
MM)とNグラムグラマーを適用し、イン・ボキャブラリ(IV)ビタビ(尤度
(likelihood))スコアを取り出す(ステップ408)。そして、OOVイベン
トのモデル、例えば単音モデルのエルゴードバンク(ergodic bank)を用いて、
特徴データの再処理を行い、アウト・オブ・ボキャブラリ(OOV)ビタビスコ
アを取り出す(ステップ410)。IV及びOOVスコアからガーベジスコアを
計算する。例えば、ガーベジスコアは[Ln(IVスコア)−Ln(OOVスコ
ア)]/フレーム数に等しい(ステップ411)。スコアが低い場合、ガーベジ
発声音であることがわかる。N個の最適文書化テキストストリングとそれに対応
するガーベジスコアが、自然言語インターフェースモジュール222に送られる
(ステップ412)。自然言語インターフェースモジュール222は、アテンシ
ョン発声音についてのデバイスコンテキスト情報に加えて確率的コンテキストフ
リーグラマー(PCFG)ルールセットを用いて、入力ストリングの構文解析を
行う(ステップ414)。上述のように、自然言語インターフェースモジュール
222はアテンション方式を必要とする。例えば、ユーザ独自のアテンションワ
ード(Mona)、あるいは許容可能な文法規則と関連した話し手のIDを受信する
必要がある。
【0079】 ユーザがシステムの注意を引くと、すなわち、自然言語インターフェースモジ
ュール222がアテンションワードを検出すると(ステップ416)、自然言語
インターフェースモジュールはユーザのアイデンティティを知る。これはユーザ
に応じてシステムを構成することにより行われる。適切なシステムパラメータを
変更するとともに、音声認識モジュール204に対して、コマンド及び要求を受
け付けるのに適当であり、かつユーザに応じた文法に切り換えるように指示する
ことにより行う。音声認識モジュール204は、文法規則及び個々のユーザに応
じて語彙目録を変更する。このように、音声認識モジュール204と自然言語イ
ンターフェースモジュール222は、ユーザ要求を探索するようにコンテキスト
を変更する(ステップ418)。また、自然言語インターフェースモジュールは
、マイクロフォンセットに対して、環境雑音をうまく排除するため焦点を狭める
ように指示する。さらに、高いボリュームで再生を行っているNLICSコント
ロール下のデバイス(TV、CD等)があれば、自然言語インターフェースモジ
ュールはアンプにボリュームを下げるように指示する。そして、自然言語インタ
ーフェースモジュール222はタイマを開始して、タイムアウト時間が終了する
までユーザの要求を待機する。システムがタイムアウトすると、自然言語インタ
ーフェースモジュール222は、アテンションワードをサーチするのに適当な音
声認識モジュール規則及び語彙目録をリセットすることにより、システムの再構
成を行う。また、それらが調整されると、マイクロフォンセットとアンプボリュ
ームがリセットされる。これらのリセットステップはステップ402で行われた
のと同様である。
【0080】 ユーザ要求探索のコンテキストに切り換えた(ステップ418)後は、このパ
スでは音声がコントロール下のデバイスのうちの1以上を操作するための要求で
あること以外は、ステップ404〜414を繰り返す。
【0081】 自然言語インターフェースモジュール222がユーザ要求を検出すると(ステ
ップ416)、すなわち、ユーザ要求(PCFGグラマーシステム及びデバイス
コンテキストにより決定される)が受信されると、3つの結論のいずれかを引き
出す(ステップ420、422、424)。ステップ420の場合、ユーザ要求
が明確に理解され、自然言語インターフェースモジュールはユーザ要求に応じる
ことができる。従って、自然言語インターフェースモジュール222は、抽象化
されたデバイスにより示されるように、デバイスインターフェース210を介し
て適切な信号を送ることにより、コマンドを実行する。そして、音声認識モジュ
ール204及び自然言語インターフェースコントロールモジュール206のコン
テキストをアテンションワード探索のコンテキストに切り換えた(ステップ42
6)後、ステップ404に進む。
【0082】 ステップ422の場合、ユーザ要求が明確に理解されるが、自然言語インター
フェースモジュールはユーザ要求に応じることができない。この場合、ユーザに
はその旨が通知され、さらなる指示を出すためにプロンプトを行う。システムは
、さらなるユーザ要求を待つかタイムアウトして、ステップ426に進む。
【0083】 ステップ424の場合、要求について不明瞭さを解決できず、この場合、自然
言語インターフェースモジュール222は、例えばフィードバックモジュール2
28及びスピーカ214を用いて、ユーザに明確化を要求する。不明瞭さは、生
じた不明瞭さの種類に従って解決する。不明瞭さが低信頼性が原因で生じる場合
、自然言語インターフェースモジュール222はその結論をユーザに対して肯定
する(例えば、「Did you mean play the CD?(CD再生のことですか)」)。
ユーザが結論を確認すると、コマンドを実行し、システムがリセットされる(ス
テップ426)。システムは、選択肢のセットを考慮した好みに加えて、決定が
なされたときの信頼性を反映するようにユーザプロファイルを調整する。幾つか
の実施例において、時間の経過とともに、これらの統計を用いてPCFGルール
及び適切な語彙目録内の入力の順序付けをしなおす。その結果、最も適当な入力
が常に早期にチェックされ、これらの適当な入力が高信頼性をもたらすので、よ
り高速でより精度の高いシステムが得られる。
【0084】 不明瞭さが選択肢のセットが原因で生じる場合、自然言語インターフェースモ
ジュール222は、これらの選択肢をユーザに提示する(例えば「Did you want
to watch a movie on the DVD player or the VCR?(DVDプレーヤで映画を
見たかったのですか、それともVCRですか)」)。ユーザが与えられたオプシ
ョンの中から選択すると、自然言語インターフェースモジュール222はコマン
ドを実行し、そうでない場合はシステムがリセットされる(ステップ426)。
いずれの場合も、上述のようにユーザプロファイルが更新される。
【0085】 不明瞭さが現コンテキスト(例えば、ユーザがTVを停止するように要求する
が、TVがオフであるとき)が原因で生じる場合、ユーザはその旨を知らされる
【0086】 以上、本発明を具体的な実施例や用例を用いて説明したが、請求の範囲に記載
される本発明の主旨を逸脱しない範囲で、当該技術分野の通常の技術者により種
々の変更例を行うことができる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係る自然言語インターフェースコントロールシステム(N
LICS)のシステムレベルのブロック図である。
【図2】 本発明の他の実施例に係る、図1の自然言語インターフェースコントロールシ
ステム(NLICS)のリモートユニットの機能ブロック図である。
【図3】 本発明のさらに他の実施例に係る、図1の自然言語インターフェースコントロ
ールシステム(NLICS)のベースステーションユニットの機能ブロック図で
ある。
【図4】 図1乃至図3の自然言語インターフェースコントロールシステムの自然言語イ
ンターフェースアルゴリズムにおいて行われる各ステップを示すフローチャート
である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 3/00 571T 561A 531Q (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,BZ,C A,CH,CN,CR,CU,CZ,DE,DK,DM ,DZ,EE,ES,FI,GB,GD,GE,GH, GM,HR,HU,ID,IL,IN,IS,JP,K E,KG,KP,KR,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,UZ,VN,YU, ZA,ZW (72)発明者 アルムストランド、ラーズ、クリスティア ン アメリカ合衆国 カリフォルニア州 92109 サンディエゴ オリバー アベニ ュー ナンバー8 1152 Fターム(参考) 5B091 AA15 CA05 CB12 EA24 5D015 AA04 DD02 HH00 HH23 KK01 LL10

Claims (25)

    【特許請求の範囲】
  1. 【請求項1】 複数のデバイスを操作する自然言語インターフェースコントロールシステムで
    あって、 第1のマイクロフォンセットと、 上記第1のマイクロフォンセットに接続された特徴抽出モジュールと、 上記特徴抽出モジュールに接続され、隠れマルコフモデルを用いる音声認識モ
    ジュールと、 上記音声認識モジュールに接続された自然言語インタフェースモジュールと、 上記自然言語インターフェースモジュールに接続されたデバイスインターフェ
    ースとを有し、上記自然言語インターフェースモジュールは、ユーザからの非プ
    ロンプト式で開放型の自然言語要求に基づいて、上記デバイスインターフェース
    に接続された複数のデバイスを操作することを特徴とする自然言語インターフェ
    ースコントロールシステム。
  2. 【請求項2】 上記自然言語インターフェースモジュールに接続された上記複数のデバイスを
    さらに有することを特徴とする請求の範囲第1項記載の自然言語インターフェー
    スコントロールシステム。
  3. 【請求項3】 上記音声認識モジュールはNグラムグラマーを用いることを特徴とする請求の
    範囲第1項記載の自然言語インターフェースコントロールシステム。
  4. 【請求項4】 上記自然言語インターフェースモジュールは確率的コンテキストフリーグラマ
    ーを用いることを特徴とする請求の範囲第1項記載の自然言語インターフェース
    コントロールシステム。
  5. 【請求項5】 上記マイクロフォンセットは、平面マイクロフォンセットと、空間的に異なる
    平面に配置された少なくとも1つのリニアマイクロフォンセットとを備える三次
    元マイクロフォンセットを有することを特徴とする請求の範囲第1項記載の自然
    言語インターフェースコントロールシステム。
  6. 【請求項6】 上記自然言語インターフェースは、上記複数のデバイスのそれぞれを、上記複
    数のデバイスのそれぞれに対応する複数の文法のそれぞれと複数の語彙目録のそ
    れぞれに抽象化することを特徴とする請求の範囲第1項記載の自然言語インター
    フェースコントロールシステム。
  7. 【請求項7】 上記自然言語インターフェースモジュールは、アテンションワードを受け取っ
    て認識すると、非プロンプト式で開放型のユーザ要求をサーチすることを特徴と
    する請求の範囲第1項記載の自然言語インターフェースコントロールシステム。
  8. 【請求項8】 上記自然言語インターフェースモジュールは、アテンションワードを受け取っ
    て認識すると、文法、音声モデル、語彙目録のコンテキスト切り換えを行うこと
    を特徴とする請求の範囲第1項記載の自然言語インターフェースコントロールシ
    ステム。
  9. 【請求項9】 上記複数のデバイスのそれぞれについて異なる文法を記憶するグラマーモジュ
    ールをさらに有することを特徴とする請求の範囲第1項記載の自然言語インター
    フェースコントロールシステム。
  10. 【請求項10】 上記複数のデバイスのそれぞれについて異なる音声モデルを記憶する音声モデ
    ルモジュールをさらに有することを特徴とする請求の範囲第1項記載の自然言語
    インターフェースコントロールシステム。
  11. 【請求項11】 上記デバイスインターフェースは無線デバイスインターフェースからなること
    を特徴とする請求の範囲第1項記載の自然言語インターフェースコントロールシ
    ステム。
  12. 【請求項12】 上記自然言語インターフェースコントロールシステムに接続された外部ネット
    ワークインターフェースをさらに有することを特徴とする請求の範囲第1項記載
    の自然言語インターフェースコントロールシステム。
  13. 【請求項13】 上記1のマイクロフォンセットと、上記特徴抽出モジュールと、上記音声認識
    モジュールと、上記自然言語インターフェースモジュールとを有するリモートユ
    ニットをさらに有することを特徴とする請求の範囲第1項記載の自然言語インタ
    ーフェースコントロールシステム。
  14. 【請求項14】 上記リモートユニットに接続されたベースユニットをさらに有することを特徴
    とする請求の範囲第13項記載の自然言語インターフェースコントロールシステ
    ム。
  15. 【請求項15】 上記ベースユニットは第2のマイクロフォンセットを有することを特徴とする
    請求の範囲第14項記載の自然言語インターフェースコントロールシステム。
  16. 【請求項16】 上記マイクロフォンセットと上記第2のマイクロフォンセットは、三次元マイ
    クロフォンセットを実現することを特徴とする請求の範囲第15項記載の自然言
    語インターフェースコントロールシステム。
  17. 【請求項17】 モデル、文法、語彙目録からなる第1のセットを有する第1のコンテキストに
    基づいて、アテンションワードをサーチし、 上記アテンションワードを見つけると、開放型のユーザ要求をサーチする第2
    のコンテキストに切り換え、第2のコンテキストは、モデル、文法、語彙目録か
    らなる第2のセットを有することを特徴とする音声認識方法。
  18. 【請求項18】 1以上のデバイスの自然言語コントロール方法であって、 開放型の自然言語ユーザ要求が受信されることを示すアテンションワードを受
    信し、 上記開放型の自然言語ユーザ要求を受信し、 上記開放型の自然言語要求を、上記開放型の自然言語要求に対応する最も適当
    なコマンドと一致させ、 上記コマンドを上記1以上のデバイスのそれぞれに送信することを特徴とする
    自然言語コントロール方法。
  19. 【請求項19】 さらに、上記アテンションワードを受信した後、開放型の自然言語要求を受信
    するコンテキストに切り換えることを特徴とする請求の範囲第18項記載の自然
    言語コントロール方法。
  20. 【請求項20】 さらに、上記受信したアテンションワードと上記受信した開放型の自然言語ユ
    ーザ要求に音声認識を適用することを特徴とする請求の範囲第18項記載の自然
    言語コントロール方法。
  21. 【請求項21】 上記音声認識の適用では、さらに、上記開放型の自然言語ユーザ要求に隠れマ
    ルコフモデルを適用することを特徴とする請求の範囲第20項記載の自然言語コ
    ントロール方法。
  22. 【請求項22】 上記一致では、確率的コンテキストフリーグラマー(PCFG)ルールを用い
    て、上記開放型の自然言語ユーザ要求の構文解析を行うことを特徴とする請求の
    範囲第18項記載の自然言語コントロール方法。
  23. 【請求項23】 上記1以上のデバイスのうちのどれに対して、上記開放型の自然言語ユーザ要
    求が出されているのか判断することを特徴とする請求の範囲第22項記載の自然
    言語コントロール方法。
  24. 【請求項24】 さらに、上記開放型の自然言語ユーザ要求が出されている上記1以上のデバイ
    スのそれぞれに応じて、上記コンテキストを切り換えることを特徴とする請求の
    範囲第23項記載の自然言語コントロール方法。
  25. 【請求項25】 1以上のデバイスをコントロールする自然言語コントロールシステムであって
    、 開放型の自然言語ユーザ要求が受信されることを示すアテンションワードを受
    信する手段と、 上記開放型の自然言語ユーザ要求を受信する手段と、 上記開放型の自然言語要求を、上記開放型の自然言語要求に対応する最も適当
    なコマンドと一致させる手段と 上記コマンドを上記1以上のデバイスのそれぞれに送信する手段を有すること
    を特徴とする自然言語コントロールシステム。
JP2001532534A 1999-10-19 2000-10-19 自然言語インターフェースコントロールシステム Expired - Lifetime JP5118280B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16028199P 1999-10-19 1999-10-19
US60/160,281 1999-10-19
PCT/US2000/029036 WO2001029823A1 (en) 1999-10-19 2000-10-19 Natural language interface control system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011135965A Division JP2011237811A (ja) 1999-10-19 2011-06-20 自然言語インターフェースコントロールシステム

Publications (2)

Publication Number Publication Date
JP2003515177A true JP2003515177A (ja) 2003-04-22
JP5118280B2 JP5118280B2 (ja) 2013-01-16

Family

ID=22576252

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001532534A Expired - Lifetime JP5118280B2 (ja) 1999-10-19 2000-10-19 自然言語インターフェースコントロールシステム
JP2011135965A Pending JP2011237811A (ja) 1999-10-19 2011-06-20 自然言語インターフェースコントロールシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011135965A Pending JP2011237811A (ja) 1999-10-19 2011-06-20 自然言語インターフェースコントロールシステム

Country Status (7)

Country Link
US (2) US7447635B1 (ja)
EP (1) EP1222655A1 (ja)
JP (2) JP5118280B2 (ja)
KR (1) KR100812109B1 (ja)
AU (1) AU8030300A (ja)
CA (2) CA2387079C (ja)
WO (1) WO2001029823A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100764247B1 (ko) * 2005-12-28 2007-10-08 고려대학교 산학협력단 2단계 탐색을 이용한 음성인식 장치 및 그 방법
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム

Families Citing this family (341)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
CA2387079C (en) * 1999-10-19 2011-10-18 Sony Electronics Inc. Natural language interface control system
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10021389A1 (de) * 2000-05-03 2001-11-08 Nokia Mobile Phones Ltd Verfahren zum Steuern eines Systems, insbesondere eines elektrischen und/oder elektronischen Systems mit zumindest einer Anwendungseinrichtung
US6741963B1 (en) 2000-06-21 2004-05-25 International Business Machines Corporation Method of managing a speech cache
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20030212761A1 (en) * 2002-05-10 2003-11-13 Microsoft Corporation Process kernel
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
DE10252457A1 (de) * 2002-11-12 2004-05-27 Harman Becker Automotive Systems Gmbh Spracheingabe-Interface
KR101032176B1 (ko) * 2002-12-02 2011-05-02 소니 주식회사 대화 제어 장치 및 방법 및 로봇 장치
JP3678421B2 (ja) * 2003-02-19 2005-08-03 松下電器産業株式会社 音声認識装置及び音声認識方法
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US20050125486A1 (en) * 2003-11-20 2005-06-09 Microsoft Corporation Decentralized operating system
US20090164215A1 (en) * 2004-02-09 2009-06-25 Delta Electronics, Inc. Device with voice-assisted system
US8874438B2 (en) * 2004-03-12 2014-10-28 Siemens Aktiengesellschaft User and vocabulary-adaptive determination of confidence and rejecting thresholds
US7813917B2 (en) * 2004-06-22 2010-10-12 Gary Stephen Shuster Candidate matching using algorithmic analysis of candidate-authored narrative information
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US8064663B2 (en) * 2004-12-02 2011-11-22 Lieven Van Hoe Image evaluation system, methods and database
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
US7707131B2 (en) 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US7885817B2 (en) * 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
US7734471B2 (en) * 2005-03-08 2010-06-08 Microsoft Corporation Online learning for dialog systems
US7583808B2 (en) * 2005-03-28 2009-09-01 Mitsubishi Electric Research Laboratories, Inc. Locating and tracking acoustic sources with microphone arrays
GB2426368A (en) * 2005-05-21 2006-11-22 Ibm Using input signal quality in speeech recognition
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
TWI270052B (en) * 2005-08-09 2007-01-01 Delta Electronics Inc System for selecting audio content by using speech recognition and method therefor
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7328199B2 (en) 2005-10-07 2008-02-05 Microsoft Corporation Componentized slot-filling architecture
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US7822699B2 (en) 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
US7606700B2 (en) 2005-11-09 2009-10-20 Microsoft Corporation Adaptive task framework
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US8442828B2 (en) * 2005-12-02 2013-05-14 Microsoft Corporation Conditional model for natural language understanding
US7933914B2 (en) 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US7831585B2 (en) 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
US7996783B2 (en) 2006-03-02 2011-08-09 Microsoft Corporation Widget searching utilizing task framework
US7890325B2 (en) * 2006-03-16 2011-02-15 Microsoft Corporation Subword unit posterior probability for measuring confidence
KR100845428B1 (ko) * 2006-08-25 2008-07-10 한국전자통신연구원 휴대용 단말기의 음성 인식 시스템
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10037781B2 (en) * 2006-10-13 2018-07-31 Koninklijke Philips N.V. Interface systems for portable digital media storage and playback devices
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8032374B2 (en) * 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
US7813929B2 (en) * 2007-03-30 2010-10-12 Nuance Communications, Inc. Automatic editing using probabilistic word substitution models
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8359204B2 (en) * 2007-10-26 2013-01-22 Honda Motor Co., Ltd. Free-speech command classification for car navigation system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8010369B2 (en) 2007-10-30 2011-08-30 At&T Intellectual Property I, L.P. System and method for controlling devices that are connected to a network
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
KR20100007625A (ko) * 2008-07-14 2010-01-22 엘지전자 주식회사 이동 단말기 및 그 메뉴 표시 방법
US20130218565A1 (en) * 2008-07-28 2013-08-22 Nuance Communications, Inc. Enhanced Media Playback with Speech Recognition
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
DE102008046431A1 (de) * 2008-09-09 2010-03-11 Deutsche Telekom Ag Sprachdialogsystem mit Reject-Vermeidungsverfahren
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8494140B2 (en) * 2008-10-30 2013-07-23 Centurylink Intellectual Property Llc System and method for voice activated provisioning of telecommunication services
CN101393740B (zh) * 2008-10-31 2011-01-19 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8335324B2 (en) * 2008-12-24 2012-12-18 Fortemedia, Inc. Method and apparatus for automatic volume adjustment
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
US8873717B2 (en) 2010-11-23 2014-10-28 Centurylink Intellectual Property Llc Emergency alert signaling
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120246081A1 (en) * 2011-03-25 2012-09-27 Next It Corporation Systems and Methods for Automated Itinerary Modification
US8819555B2 (en) * 2011-04-07 2014-08-26 Sony Corporation User interface for audio video display device such as TV
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
EP2851895A3 (en) 2011-06-30 2015-05-06 Google, Inc. Speech recognition using variable-length context
US9367526B1 (en) * 2011-07-26 2016-06-14 Nuance Communications, Inc. Word classing for language modeling
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20150051913A1 (en) * 2012-03-16 2015-02-19 Lg Electronics Inc. Unlock method using natural language processing and terminal for performing same
CA2775700C (en) 2012-05-04 2013-07-23 Microsoft Corporation Determining a future portion of a currently presented media program
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8515746B1 (en) * 2012-06-20 2013-08-20 Google Inc. Selecting speech data for speech recognition vocabulary
CN104584118B (zh) * 2012-06-22 2018-06-15 威斯通全球技术公司 多遍车辆语音识别系统和方法
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547946B2 (en) * 2012-06-29 2017-01-17 Harman International (China) Holdings Co., Ltd. Vehicle universal control device for interfacing sensors and controllers
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10438591B1 (en) 2012-10-30 2019-10-08 Google Llc Hotword-based speaker recognition
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
JP5887253B2 (ja) * 2012-11-16 2016-03-16 本田技研工業株式会社 メッセージ処理装置
US9813262B2 (en) 2012-12-03 2017-11-07 Google Technology Holdings LLC Method and apparatus for selectively transmitting data using spatial diversity
US9591508B2 (en) 2012-12-20 2017-03-07 Google Technology Holdings LLC Methods and apparatus for transmitting data between different peer-to-peer communication groups
CN103020047A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统
US9979531B2 (en) 2013-01-03 2018-05-22 Google Technology Holdings LLC Method and apparatus for tuning a communication device for multi band operation
CN103915095B (zh) 2013-01-06 2017-05-31 华为技术有限公司 语音识别的方法、交互设备、服务器和系统
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US20140278427A1 (en) * 2013-03-13 2014-09-18 Samsung Electronics Co., Ltd. Dynamic dialog system agent integration
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
CN104049707B (zh) * 2013-03-15 2019-02-15 马克西姆综合产品公司 永远接通低功率关键字检出
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
EP2973002B1 (en) 2013-03-15 2019-06-26 Apple Inc. User training by intelligent digital assistant
US9530103B2 (en) * 2013-04-04 2016-12-27 Cypress Semiconductor Corporation Combining of results from multiple decoders
US9736088B1 (en) 2013-05-01 2017-08-15 PongPro LLC Structured communication framework
US9472205B2 (en) * 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
EP3261087A1 (en) * 2013-09-03 2017-12-27 Panasonic Intellectual Property Corporation of America Voice interaction control method
US9817881B2 (en) * 2013-10-16 2017-11-14 Cypress Semiconductor Corporation Hidden markov model processing engine
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9443516B2 (en) 2014-01-09 2016-09-13 Honeywell International Inc. Far-field speech recognition systems and methods
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9705736B2 (en) 2014-03-14 2017-07-11 Ray Wang Method and system for a personal network
US9548065B2 (en) * 2014-05-05 2017-01-17 Sensory, Incorporated Energy post qualification for phrase spotting
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9263042B1 (en) 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
CN105490890A (zh) * 2014-09-16 2016-04-13 中兴通讯股份有限公司 智能家庭终端及其控制方法
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN107112007B (zh) * 2014-12-24 2020-08-07 三菱电机株式会社 语音识别装置及语音识别方法
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9390284B1 (en) 2015-04-03 2016-07-12 Ray Wang Method for secure and private computer file
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10311862B2 (en) * 2015-12-23 2019-06-04 Rovi Guides, Inc. Systems and methods for conversations with devices about media using interruptions and changes of subjects
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10255913B2 (en) * 2016-02-17 2019-04-09 GM Global Technology Operations LLC Automatic speech recognition for disfluent speech
US10575120B2 (en) 2016-02-27 2020-02-25 Ray Wang Method of autonomous social media system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102580904B1 (ko) * 2016-09-26 2023-09-20 삼성전자주식회사 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10614804B2 (en) 2017-01-24 2020-04-07 Honeywell International Inc. Voice control of integrated room automation system
US11237635B2 (en) 2017-04-26 2022-02-01 Cognixion Nonverbal multi-input and feedback devices for user intended computer control and communication of text, graphics and audio
US11402909B2 (en) 2017-04-26 2022-08-02 Cognixion Brain computer interface for augmented reality
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10984329B2 (en) 2017-06-14 2021-04-20 Ademco Inc. Voice activated virtual assistant with a fused response
US10607606B2 (en) 2017-06-19 2020-03-31 Lenovo (Singapore) Pte. Ltd. Systems and methods for execution of digital assistant
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
JP2019101264A (ja) * 2017-12-04 2019-06-24 シャープ株式会社 外部制御装置、音声対話型制御システム、制御方法、およびプログラム
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10713441B2 (en) * 2018-03-23 2020-07-14 Servicenow, Inc. Hybrid learning system for natural language intent extraction from a dialog utterance
US10777203B1 (en) * 2018-03-23 2020-09-15 Amazon Technologies, Inc. Speech interface device with caching component
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
US20190332848A1 (en) 2018-04-27 2019-10-31 Honeywell International Inc. Facial enrollment and recognition system
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US20190390866A1 (en) 2018-06-22 2019-12-26 Honeywell International Inc. Building management system with natural language interface
US10540960B1 (en) * 2018-09-05 2020-01-21 International Business Machines Corporation Intelligent command filtering using cones of authentication in an internet of things (IoT) computing environment
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
KR20200117317A (ko) * 2019-04-03 2020-10-14 현대자동차주식회사 대화 시스템 및 대화 처리 방법
US11386890B1 (en) * 2020-02-11 2022-07-12 Amazon Technologies, Inc. Natural language understanding
US11934403B2 (en) * 2020-05-18 2024-03-19 Salesforce, Inc. Generating training data for natural language search systems

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61285495A (ja) * 1985-06-12 1986-12-16 株式会社日立製作所 音声認識装置
JPH0327698A (ja) * 1989-03-10 1991-02-06 Nippon Telegr & Teleph Corp <Ntt> 音響信号検出方法
JPH06274190A (ja) * 1993-03-18 1994-09-30 Sony Corp ナビゲーションシステムおよび音声認識装置
JPH0844387A (ja) * 1994-08-04 1996-02-16 Aqueous Res:Kk 音声認識装置
JPH08123476A (ja) * 1994-10-20 1996-05-17 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 自由発話音声認識装置
JPH08223309A (ja) * 1995-02-17 1996-08-30 Nec Corp 音声入力ネットワークサービスシステム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
JPH10116094A (ja) * 1996-10-01 1998-05-06 Lucent Technol Inc 音声認識方法および音声認識装置
JPH10254479A (ja) * 1997-03-12 1998-09-25 Mitsubishi Electric Corp 音声認識装置
JPH1185183A (ja) * 1997-09-03 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体
JPH11237896A (ja) * 1998-02-24 1999-08-31 Clarion Co Ltd 音声認識による制御装置及び方法、制御対象ユニット、音声認識による制御を用いるシステム並びに音声認識による制御用プログラムを記録した記録媒体
JPH11288296A (ja) * 1998-04-06 1999-10-19 Denso Corp 情報処理装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4827520A (en) * 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
CA2011775C (en) * 1989-03-10 1995-06-27 Yutaka Kaneda Method of detecting acoustic signal
JPH04338817A (ja) * 1991-05-16 1992-11-26 Sony Corp 電子機器の制御装置及び制御方法
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
CH689410A5 (de) * 1994-04-21 1999-03-31 Info Byte Ag Verfahren und Vorrichtung zur sprachgesteuerten Fernbedienung elektrischer Verbraucher.
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
US6052666A (en) * 1995-11-06 2000-04-18 Thomson Multimedia S.A. Vocal identification of devices in a home environment
US5855002A (en) * 1996-06-11 1998-12-29 Pegasus Micro-Technologies, Inc. Artificially intelligent natural language computational interface system for interfacing a human to a data processor having human-like responses
US6035267A (en) * 1996-09-26 2000-03-07 Mitsubishi Denki Kabushiki Kaisha Interactive processing apparatus having natural language interfacing capability, utilizing goal frames, and judging action feasibility
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
KR100198019B1 (ko) * 1996-11-20 1999-06-15 정선종 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
JPH10293709A (ja) * 1997-04-18 1998-11-04 Casio Comput Co Ltd 情報処理装置及び記憶媒体
US6298324B1 (en) * 1998-01-05 2001-10-02 Microsoft Corporation Speech recognition system with changing grammars and grammar help command
US6418431B1 (en) 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
ATE374421T1 (de) * 1998-08-28 2007-10-15 Ibm Segmentierungsverfahren zur erweiterung des aktiven vokabulars von spracherkennern
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6208972B1 (en) * 1998-12-23 2001-03-27 Richard Grant Method for integrating computer processes with an interface controlled by voice actuated grammars
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6584439B1 (en) * 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
US6553345B1 (en) * 1999-08-26 2003-04-22 Matsushita Electric Industrial Co., Ltd. Universal remote control allowing natural language modality for television and multimedia searches and requests
US6324512B1 (en) * 1999-08-26 2001-11-27 Matsushita Electric Industrial Co., Ltd. System and method for allowing family members to access TV contents and program media recorder over telephone or internet
US7016827B1 (en) * 1999-09-03 2006-03-21 International Business Machines Corporation Method and system for ensuring robustness in natural language understanding
US6442522B1 (en) * 1999-10-12 2002-08-27 International Business Machines Corporation Bi-directional natural language system for interfacing with multiple back-end applications
CA2387079C (en) * 1999-10-19 2011-10-18 Sony Electronics Inc. Natural language interface control system
US6895379B2 (en) * 2002-03-27 2005-05-17 Sony Corporation Method of and apparatus for configuring and controlling home entertainment systems through natural language and spoken commands using a natural language server
KR100740978B1 (ko) * 2004-12-08 2007-07-19 한국전자통신연구원 자연어 문장 처리 시스템 및 자연어 문장 처리 방법
JP4627475B2 (ja) * 2005-09-30 2011-02-09 本田技研工業株式会社 電動パワーステアリングユニット用制御装置配置構造

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61285495A (ja) * 1985-06-12 1986-12-16 株式会社日立製作所 音声認識装置
JPH0327698A (ja) * 1989-03-10 1991-02-06 Nippon Telegr & Teleph Corp <Ntt> 音響信号検出方法
JPH06274190A (ja) * 1993-03-18 1994-09-30 Sony Corp ナビゲーションシステムおよび音声認識装置
JPH0844387A (ja) * 1994-08-04 1996-02-16 Aqueous Res:Kk 音声認識装置
JPH08123476A (ja) * 1994-10-20 1996-05-17 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 自由発話音声認識装置
JPH08223309A (ja) * 1995-02-17 1996-08-30 Nec Corp 音声入力ネットワークサービスシステム
JPH0926799A (ja) * 1995-07-12 1997-01-28 Aqueous Res:Kk 音声認識装置
JPH10116094A (ja) * 1996-10-01 1998-05-06 Lucent Technol Inc 音声認識方法および音声認識装置
JPH10254479A (ja) * 1997-03-12 1998-09-25 Mitsubishi Electric Corp 音声認識装置
JPH1185183A (ja) * 1997-09-03 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体
JPH11237896A (ja) * 1998-02-24 1999-08-31 Clarion Co Ltd 音声認識による制御装置及び方法、制御対象ユニット、音声認識による制御を用いるシステム並びに音声認識による制御用プログラムを記録した記録媒体
JPH11288296A (ja) * 1998-04-06 1999-10-19 Denso Corp 情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100764247B1 (ko) * 2005-12-28 2007-10-08 고려대학교 산학협력단 2단계 탐색을 이용한 음성인식 장치 및 그 방법
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム

Also Published As

Publication number Publication date
KR20020071856A (ko) 2002-09-13
CA2748396A1 (en) 2001-04-26
CA2387079A1 (en) 2001-04-26
US7447635B1 (en) 2008-11-04
EP1222655A1 (en) 2002-07-17
KR100812109B1 (ko) 2008-03-12
US20080059188A1 (en) 2008-03-06
JP5118280B2 (ja) 2013-01-16
CA2387079C (en) 2011-10-18
AU8030300A (en) 2001-04-30
WO2001029823A1 (en) 2001-04-26
JP2011237811A (ja) 2011-11-24

Similar Documents

Publication Publication Date Title
JP5118280B2 (ja) 自然言語インターフェースコントロールシステム
US20220115016A1 (en) Speech-processing system
US9484030B1 (en) Audio triggered commands
US11669300B1 (en) Wake word detection configuration
US7904296B2 (en) Spoken word spotting queries
US7016849B2 (en) Method and apparatus for providing speech-driven routing between spoken language applications
US7826945B2 (en) Automobile speech-recognition interface
US9443527B1 (en) Speech recognition capability generation and control
US7013275B2 (en) Method and apparatus for providing a dynamic speech-driven control and remote service access system
US11862174B2 (en) Voice command processing for locked devices
JP2017513047A (ja) 音声認識における発音予測
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
US11715472B2 (en) Speech-processing system
WO2018078885A1 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
US11605387B1 (en) Assistant determination in a skill
US20240029743A1 (en) Intermediate data for inter-device speech processing
US10143027B1 (en) Device selection for routing of communications
US11735178B1 (en) Speech-processing system
US11328713B1 (en) On-device contextual understanding
US11172527B2 (en) Routing of communications to a device
US10854196B1 (en) Functional prerequisites and acknowledgments
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
US11977816B1 (en) Time-based context for voice user interface
US11915683B2 (en) Voice adaptation using synthetic speech processing
JP2003510662A (ja) 音声認識器における綴りモード

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071015

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080522

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080522

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101018

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101025

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101112

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110620

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110628

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121019

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5118280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250