JP2002524777A - ボイス・ダイアリング方法およびシステム - Google Patents

ボイス・ダイアリング方法およびシステム

Info

Publication number
JP2002524777A
JP2002524777A JP2000569392A JP2000569392A JP2002524777A JP 2002524777 A JP2002524777 A JP 2002524777A JP 2000569392 A JP2000569392 A JP 2000569392A JP 2000569392 A JP2000569392 A JP 2000569392A JP 2002524777 A JP2002524777 A JP 2002524777A
Authority
JP
Japan
Prior art keywords
speech recognition
words
vocabulary
recognition system
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000569392A
Other languages
English (en)
Inventor
メクリア、フィッセハ
Original Assignee
テレフオンアクチーボラゲツト エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲツト エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲツト エル エム エリクソン(パブル)
Publication of JP2002524777A publication Critical patent/JP2002524777A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)

Abstract

(57)【要約】 携帯電話の音声認識システムにおいて、単語が格子構造に組織される。こうして、各瞬間で、音声認識システムは、ボキャブラリー全体の限定された部分を検索する必要があるだけとなる。そのような配置によって、一度に多くの単語を検索しなければならないという、長時間が費やされ、システムに大きな計算負荷を課する問題が解決され、またそれ故に、音声認識システムの精度が著しく増大する。

Description

【発明の詳細な説明】
【0001】 (発明の属する技術分野) 本発明は、音声認識の、とりわけ、ボイス・ダイアリングのような、携帯電話
にコマンドを入力するときに用いられる方法およびシステムに関する。
【0002】 (発明の背景と従来の技術) 音声認識システムにおいては、主な目的は、人間のスピーカーによってなされ
る発声を機械に理解させることである。このように、音声認識は、音声から直接
機械にコマンド、テキストおよびデータを入力することを可能とすることによっ
て、人間−機械インタフェース(MMI)を促進するのに用いられる。
【0003】 音声認識において、コンピュータのタスクは、音の入力信号をテキストに、い
わゆるトランスクリプションに、変形することである。入力信号の特性は、スピ
ーカーの性別、年齢、方言などによって、同じ単語についても広い範囲内で異な
る。更には、いくつかの単語がシステムに同時に入力されると、例えば、文章全
体が音声認識システムに与えられるならば、異なる単語の発音は、現在の単語に
先立つおよび/またはその後に続く単語によって異なる。
【0004】 更には、ノイズや反響効果の存在によって、オリジナルの信号は音声認識シス
テムに入力する前に歪められてしまう。
【0005】 一般に、音声認識システムは、主な2つのグループに分けることができる。す
なわち、 −i)スピーカー独立システム、および −ii)スピーカー依存システムである。 スピーカー独立システムは、とりわけ、大きなボキャブラリー用におよび、異
なる単語の間でポーズすることなく音声を、すなわち、文章またはその部分を受
け入れるように設計されたものは、大きな音声データベースの使用および音声お
よび単語の異なる統計的な属性を用いることが必要となる。文法上の規則および
何を言いそうであるかの予測をもまた、そのようなシステムに取り込むことがで
きる。
【0006】 一方、スピーカー依存システムは、とりわけ、限られたボキャブラリー(典型
的には2、3百語)を用いていて、また一度に1語しか話されないものは、大き
なデータベースを必要としない。その代わりに、そのようなシステムでは、その
システムを用いる特定のスピーカー、場合によっては複数のスピーカーのトレー
ニングが必要となる。
【0007】 もちろん、スピーカー依存音声認識システムは、多くの理由でスピーカー独立
システムに比べてずっと良い性能を提供する。例えば、単語の数が限定されてお
り、システムはまた、特定の単語がどのように聞こえるべきかについて正確に知
覚しており、というのも、それはそのシステムを用いる特定の人によってトレー
ニングされているからである。
【0008】 しかしながら、スピーカー依存システムは、限られた範囲のアプリケーション
にしか用いることができない。スピーカー依存システムが、スピーカー独立シス
テムよりも好ましいアプリケーションは、例えば、機械へのコマンドの入力であ
る。
【0009】 そのような場合には、音声認識システムのタスクは、口頭で与えられるコマン
ドを、機械によって理解される形に、すなわち、通常は機械を制御するのに用い
られる二進語に、トランスクリプトすることである。例えば、「Go」、「St
op」、「Left」、「Right」、「Yes」、「No」などのコマンド
は、口頭で機械に与えることができ、そしてそれは、対応する動作を実行する。
【0010】 にもかかわらず、たとえ、機械が認識しなければならない可能な単語の数は、
典型的には2、3百語に限られていても、また、たとえ、機械の音声認識システ
ムは、ユーザのボイスによってトレーニングされており、それ故に、その特定の
ユーザによって話されるとき、特定の単語のように聞こえるかについて正確に知
覚していても、誤った判断をする多くの可能な原因がまだ存在している。
【0011】 このように、環境においてのノイズおよび反響効果が、音声認識システムに入
力する信号を歪ませる。また、同じ単語の周波数スペクトラムは、時折小さな変
化を、とりわけ、スピーカーが風邪をひいたような場合に起こしている。
【0012】 もう1つの問題は、単語の数は、たとえ典型的には2、3百に限定されていて
も、非常に大きな容量の処理力を必要とする。典型的な音声認識システムにおい
ては、サンプル速度は、毎秒8000サンプルであり、ここで各サンプルは約1
3ビットからなっている。この結果、典型的な単語は、典型的には1秒間続き、
約100000ビットからなるものとなる。
【0013】 このように、実際の時間の制限が存在するシステムにおいては、例えば、1秒
以下の応答時間を必要とし、音声認識システムは、各語に含まれる大量の情報を
非常に迅速に処理できなければならない。
【0014】 更には、システムでの計算負荷は、単語の数が増加するとき、重さが増大する
。これは、いくつかの異なる理由による。このように、システムは、どの語また
はコマンドが話されたかを判断しようとするとき、より大きな数の単語を検索し
なければならない。また、単語/コマンドの数が増加するとき、与えられたコマ
ンドが別のコマンドに類似する特性を有するというきわどさが増大する。そして
、誤った判断を避けるために、システムは、異なる単語からより多くの特長を抽
出して、必要とされる確率で正しい判断を行うものとしなければならない。最後
に、単語の数が増加するならば、システムが、存在しないコマンド語をコマンド
として解釈する可能性が増大し、すなわち、ボキャブラリーからの拒絶(OVR
)機能の性能が低減する。
【0015】 困難な状況のもとで作動するよう設計されている、例えば、ボイス制御のダイ
アリング・システム(VCD)を具備する、すなわち、口頭でコマンドを受信す
る手段を有する携帯電話のような、および車中で用いられるシステムにおいては
、現存の音声認識システムの精度は、ほとんどの場合低過ぎる。
【0016】 コマンドを入力するために音声認識を用いるシステムが、US5386494
に記述されている。US5386494に記述されるようなシステムは、スクリ
ーン上に多くの異なるアイコンを表示する。あるアイコンを選択することによっ
て、ユーザは、可能なコマンドを、スクリーン上に示される選択されたアイコン
と関連するコマンドに限定することができる。しかしながら、そのようなシステ
ムを、通常適切なグラフィック表示のない携帯電話で用いるのは困難である。
【0017】 また、US5515475には、音素または異音から始まる単語モデルを構築
するよう設計された音声認識システムが記述されている。
【0018】 (発明の概要) 本発明の目的は、従来技術と関連する問題のいくつかを克服し、精度が改善さ
れ、反響効果を有していて、ノイズのある環境において用いることのできる、携
帯電話における方法およびシステムを提供することである。
【0019】 このおよびその他の目的は、携帯電話においてボキャブラリーを格子構造に配
置した音声認識システムによって達成される。各瞬間において、音声認識システ
ムのボキャブラリー全体の一部のみが、格子構造のどこを、音声認識システムが
特定の時間に検索するよう設定されているかによって、マッチングのために検索
される。ボキャブラリーの格子構造は、好ましくは、あるコマンドがシステムに
与えられるならば、そのときにシステムがボキャブラリーの正しい部分を検索す
るように、適切な方法でトラバースされる。
【0020】 そのような配置によって、多くの単語を一度に検索しなければならないという
問題が解決され、また音声認識システムの精度が、とりわけ、音声認識システム
がノイズのある環境で用いられるときに、著しく向上し、また、誤った判断をす
るきわどさがそれによって低減される。また、携帯電話にはグラフィックのイン
タフェースがないことを埋め合わせるために、ボキャブラリーの格子構造を通し
てユーザをガイドするボイス・プロンプタ(prompter)を携帯電話に備
えることができる。
【0021】 (好ましい実施例の説明) 図1には、音声認識システムの一般ブロック図が示されている。そのシステム
は、A/Dコンバータ103に接続される入力端子101を具備し、それは、信
号分析ブロック105に接続される。その信号分析ブロック105は、格子(t
rellis)を生成するブロック107および単語認識ブロック109に接続
される。そのブロック109は、判断を行って、認識された単語を出力するブロ
ック111に接続される。ブロック109はまた、音声認識システムに蓄積され
るボキャブラリー113に接続され、それについては以下で更に詳細に記述する
。ボキャブラリー113もまた、ブロック107に接続される。
【0022】 このように、オーディオ信号が入力端子101でシステムに入力する。そして
、そのアナログのオーディオ信号は、ブロック103で対応するデジタル信号、
例えば、8kHzのサンプリング周波数で、例えば、13ビット/サンプルを有
するデジタル信号に変換される。
【0023】 次に、ブロック105において、デジタル化された信号の通常の信号分析が行
われる。その信号分析には、特質抽出および濾過のような他の通常の操作が含ま
れる。ブロック105からの出力信号は、その信号がボキャブラリー113に蓄
積される単語と比較されるブロック109に送出される。その比較が行われるた
めの方法は、パターン認識やマルコフ(Markov)モデルのような通常のど
のような方法でもあり得る。
【0024】 ボキャブラリーにおいて、単語は格子構造に配置される。そうして、各瞬間に
、音声認識システムのボキャブラリー全体の一部のみが、マッチングのために検
索される。ボキャブラリーの格子構造は、例えば、ツリー構造におけるようない
かなる適切なやり方ででもトラバースすることができ、それで、あるコマンドが
システムに与えられるならば、そのシステムがそのときにボキャブラリーの正し
い部分を検索するものとなる。これによって、多くの単語を一度に検索しなけれ
ばならないという問題が解決され、またそれ故に、音声認識システムの精度が、
とりわけノイズのある環境で音声認識システムが用いられるときに、著しく増大
し、また、誤った判断の行われるきわどさがそれによって低減される。
【0025】 好ましい実施例において、ボキャブラリーの単語は、異なるクラスに分割され
、それは続いてサブクラスに分割することができ、更にそれが繰り返されてもよ
いことは、図1に示されるとおりである。このように、まずシステムを操作する
スピーカーが、システムに認識させたいと思う単語のクラスを、そのクラスに対
応する単語を音声認識システムに入力することによって選択する。次に、スピー
カーは、音声認識システムからコマンドを受け取るコンピュータ・システムにス
ピーカーが与えたいと思うコマンドに対応するコマンド語を入力する。スピーカ
ーがシステムに入力したいと思うコマンド語が、そのクラスのサブクラスのもと
に位置するならば、もちろんまず、その特定のサブクラスに対応する語を入力し
なければならない。
【0026】 コマンドの入力は、好ましくは、音声認識システムによって、例えば、以下で
図2と関係して詳細に記述されるようなボイス・プロンプタによって助長される
【0027】 ボキャブラリーの格子構造は、入力された各語または発声について音声認識シ
ステムが検索しなければならない単語の数を著しく低減するので、利点がある。
これによって、音声認識システムの精度が、とりわけ、ノイズのある環境で音声
認識システムが用いられるとき、向上し、またそれ故に誤った判断の行われるき
わどさが低減する。
【0028】 ボキャブラリーにおける単語は、音声認識システムに、それをトレーニングす
ることによって、入力されなければならない。したがって、新しい単語がボキャ
ブラリーに入力されるときには、そのシステムはトレーニング・モードに切り替
えられる。これは、ブロック105と107の間のスイッチS1を操作すること
によって行われる。
【0029】 このように、スイッチS1が閉じられるとき、システムはトレーニング・モー
ドとなる。トレーニング・モードにおいて、システムの通常のトレーニングを行
うことができる。加えて、システムのユーザは、システムがトレーニングされた
各語を、格子構造において自分が適切であると理解するいずれの場所にでも置く
ことができる。また、クラスおよびサブクラスを付加し、ある場所から別の場所
へと単語を移動し、または単語、サブクラスまたはクラスを消去することもでき
る。これらの操作は、好ましくは、ボイス・プロンプタによって助長されるが、
それには、以下で図3と関係して記述されるような、システムに備えられる音声
符号器を用いることができる。
【0030】 別の好ましい実施例において、ボキャブラリーにおける特定の場所での単語の
数が、あるプリセットされた閾値の値よりも高いときに、システムは、自動的に
新しいクラスまたはサブクラスを生成する。適切な閾値の値は、20乃至50語
の範囲内のどこかであり得る。
【0031】 ここで記述されるような音声認識システムが利用できるときのアプリケーショ
ンは、音声認識システムが携帯電話に一体化されるときである。そのような場合
、携帯電話のユーザは、ある電話番号を入力したいと思うかまたは、携帯電話が
その携帯電話の電話帳に入力された人を呼び出したいと思うであろう。そしてボ
キャブラリーは、音声認識システムのトレーニングの間に生成された多くの異な
るクラスを具備する。
【0032】 図2には、携帯電話に組み込まれた音声認識システムにコマンドを入力すると
きに実行されるステップを例示するフローチャートが示されている。このように
、まず、電話の音声認識システムが、ブロック201においてオンに切り替えら
れる。その直後に、音声認識システムは、ユーザが接続したいと思う電話番号に
対応するボキャブラリーの格子構造の最上レベルに単語の1つが入力するのを待
機する。
【0033】 好ましい実施例において、単語の入力は、ボイス・プロンプタによって助長で
きる。そうして、「options」のようなある語が入力されるならば、ボイ
ス・プロンプタは、その格子の現在の位置で利用可能な全てのオプションを生成
する。このように、この例においては、音声認識システムが電話に組み込まれ、
またそのシステムが格子の最上レベルにあるとき、利用可能なオプションの典型
的な集合は、「friends」、「office」および「family」の
ようなサブクラスおよびまた頻繁に用いられる番号と関連する単語でもあり得、
そしてまた重要な番号、例えば、「SOS」、がこのレベルに存在し得る。
【0034】 サブクラスの1つに対応する単語が、ブロック203に示されるように入力さ
れるならば、音声認識システムは、ボキャブラリーの格子構造におけるポジショ
ンを変える。こうして、新しいオプションが利用可能となる。例えば、「off
ice」という語が、音声認識システムに与えられるならば、ブロック203に
おける最初の語、「office」なるメニューのもとに位置するサブワードが
、新しい語が音声認識システムに入力されるとき、音声認識システムによって検
索される。同時に、ボイス・プロンプタは、好ましくは、音声認識システムがそ
の語を正しく解釈したというユーザへの確認として「office」を生成する
【0035】 またここで、ユーザが自分のオプションを知りたいと思うならば、自分で「o
ptions」を入力し、また音声認識システムは、ボキャブラリーの格子構造
におけるこのポジションで利用可能なオプション、例えば、「boss」、「s
ecretary」および「up」を繰り返し、ここで「up」は、格子構造に
おいてレベルを上がることに対応する。利用できるその他のオプションは、格子
における同じレベルでのサブクラス、すなわち、この場合は「friends」
および「family」である。
【0036】 ユーザが、ブロック205における第2の語として「secretary」を
入力するならば、この語は、ユーザがシステムに実行してほしいと思うコマンド
、この例においては、電話機の電話帳の電話番号に対応する。好ましい実施例に
おいて、ボイス・プロンプタは、「call secretary」を繰り返し
、そのときユーザが「yes」を入力するならば、ブロック207においてコマ
ンドが生成され、それで、電話帳におけるセクレタリ(secretary)と
いう語に対応する電話番号が電話機によって接続され、また音声認識システムが
ブロック209で指示されるようにオフに切り替えられる。
【0037】 図3には、図1と関連して上述されたような音声認識システムを具備する携帯
電話301のブロック図が示されている。このように、携帯電話301は、入力
手段303を有しており、それは、A/Dコンバータ305に接続される通常の
型のマイクロフォンであり得る。A/Dコンバータ305の出力端子は、音声符
号器/復号器(SPE/D)309、ハンズフリー信号処理(HFSP)ブロッ
ク311および自動音声認識(ASR)ブロック313を具備するデジタル信号
処理(DSP)ブロック307に接続される。
【0038】 DSPブロック307はまた、マイクロ制御(MC)ユニット315、無線送
信機/受信機ブロック319およびチャンネル符号器/復号器ブロック321を
具備する無線送信ユニット317、メモリ323およびD/Aコンバータ325
に接続される。マイクロ制御ユニット315は、携帯電話内での全ての情報の流
れを取り扱い、また、DSP307および無線送信機/受信機ブロック319を
制御するよう設定される。
【0039】 このように、マイクロ制御ユニット315はまた、無線送信ユニット317に
接続され、それが今度はアンテナ327に接続される。D/Aコンバータ325
の出力端子は、通常の型のスピーカーといった出力手段329に接続される。
【0040】 そして、携帯電話は、図2と関連して上述されたようなやり方で操作すること
ができる。オンに切り替えられるとき、MCユニットは、携帯電話をコマンドの
口頭入力を可能とするモードに、また必要ならば、音声符号器309、D/Aコ
ンバータ325および出力端子329を用いて、前述のようにボイス・プロンプ
タを介してインストラクションを出力するように、自動的に設定することができ
る。
【0041】 次に、コマンドが与えられているとき、MCユニットは、音声認識システム(
ASR)をオフに切り替え、与えられたコマンドに対応する電話番号を、ユニッ
ト317およびアンテナ327を介して送信する。
【0042】 その直後に、通常の方法を用いて電話機の呼び出しが始まり、またDSP30
7は、音の反響消去、ノイズ抑制のような通常の処理を行い、また音声を効率よ
く符号化するよう設定される。呼び出しが終結するとき、MCユニット315は
、口頭で与えられるコマンドを受信するように、DSPユニットを再度設定する
ことができる。
【0043】 ここで記述されるような携帯電話のための音声認識システムには、以前から知
られているボイス・ダイアリング・システムに比べて多くの利点がある。このよ
うに、多くの単語がボキャブラリーに蓄積することができ、また携帯電話のボイ
ス・ダイアリング機能は、ノイズのある環境においてでさえなおも正しく動作で
きる。これは、ボキャブラリーの格子構造のおかげである。ボキャブラリーの格
子構造は、用いられる音声認識アルゴリズムから独立している。ボキャブラリー
からの拒絶(OVR)機能の性能もまた、ここで記述されるようなシステムを用
いるとき向上するが、というのも、可能な入力される単語の数が最小限に保たれ
るからである。
【図面の簡単な説明】
ここで本発明は、限定とならない例によって、また、添付した図面を参照して
、より詳細に記述されるが、それらの図面は以下のとおりである。
【図1】 音声認識システムの一般ブロック図である。
【図2】 音声認識システムを用いるときの異なるステップを例示するフローチャートで
ある。
【図3】 音声認識システムを具備する携帯電話のブロック図である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CR, CU,CZ,DE,DK,DM,EE,ES,FI,G B,GD,GE,GH,GM,HR,HU,ID,IL ,IN,IS,JP,KE,KG,KP,KR,KZ, LC,LK,LR,LS,LT,LU,LV,MD,M G,MK,MN,MW,MX,NO,NZ,PL,PT ,RO,RU,SD,SE,SG,SI,SK,SL, TJ,TM,TR,TT,UA,UG,UZ,VN,Y U,ZA,ZW

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ボキャブラリーを具備する、携帯電話における音声認識シス
    テムであって、そのボキャブラリーにおける単語が、多数の単語のグループを具
    備する格子構造に配置され、そのボキャブラリー全体の限られた数のグループが
    、単語を探す度に検索されることを特徴とする前記システム。
  2. 【請求項2】 前記ボキャブラリーがツリー構造に配置されることを特徴と
    する請求項1に記載のシステム。
  3. 【請求項3】 前記システムが特定の瞬間に認識するよう設定される単語を
    出力する手段によって特徴付けられる請求項1または2のいずれかに記載のシス
    テム。
  4. 【請求項4】 前記手段がボイス・プロンプタであることを特徴とする請求
    項3に記載のシステム。
  5. 【請求項5】 1つのグループにおける単語の数が、ある、プリセットされ
    た閾値の値を超えるならば、新しいグループを自動的に生成する手段によって特
    徴付けられる請求項1乃至4のいずれかに記載のシステム。
  6. 【請求項6】 ボキャブラリーを具備する携帯電話の音声認識システムにお
    ける音声認識方法であって、そのボキャブラリーにおける単語が数多くの単語の
    グループを具備する格子構造に配置されており、そのボキャブラリー全体の唯一
    のグループまたは限られた数のグループが、単語を探す度に検索されることを特
    徴とする前記方法。
  7. 【請求項7】 前記ボキャブラリーがツリー構造に配置されることを特徴と
    する請求項6に記載の方法。
  8. 【請求項8】 前記システムが特定の瞬間に認識するよう設定される利用可
    能な単語が、前記システムから出力されることを特徴とする請求項6または7の
    いずれかに記載の方法。
  9. 【請求項9】 前記利用できる単語がボイス・プロンプタによって生成され
    ることを特徴とする請求項8に記載の方法。
  10. 【請求項10】 1つのグループにおける単語の数が、ある、プリセットさ
    れた閾値の値を超えるならば、新しいグループが自動的に生成されることを特徴
    とする請求項6乃至9のいずれかに記載のシステム。
JP2000569392A 1998-09-04 1999-09-02 ボイス・ダイアリング方法およびシステム Pending JP2002524777A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9802990A SE9802990L (sv) 1998-09-04 1998-09-04 Förfarande och system för taligenkänning
SE9802990-3 1998-09-04
PCT/SE1999/001515 WO2000014729A2 (en) 1998-09-04 1999-09-02 A method and a system for voice dialling

Publications (1)

Publication Number Publication Date
JP2002524777A true JP2002524777A (ja) 2002-08-06

Family

ID=20412481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000569392A Pending JP2002524777A (ja) 1998-09-04 1999-09-02 ボイス・ダイアリング方法およびシステム

Country Status (13)

Country Link
US (1) US7110948B1 (ja)
EP (1) EP1110207B1 (ja)
JP (1) JP2002524777A (ja)
KR (1) KR20010079734A (ja)
CN (1) CN1165889C (ja)
AT (1) ATE293827T1 (ja)
AU (1) AU760377B2 (ja)
BR (1) BR9913408A (ja)
DE (1) DE69924853D1 (ja)
EE (1) EE200100138A (ja)
HK (1) HK1040808B (ja)
SE (1) SE9802990L (ja)
WO (1) WO2000014729A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012511730A (ja) * 2008-12-09 2012-05-24 ノキア コーポレイション 自動音声認識音響モデルの適合

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200485B1 (en) 2000-08-29 2012-06-12 A9.Com, Inc. Voice interface and methods for improving recognition accuracy of voice search queries
US6973429B2 (en) 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
DE10122828A1 (de) 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
KR100813260B1 (ko) * 2005-07-13 2008-03-13 삼성전자주식회사 코드북 탐색 방법 및 장치
US20080096172A1 (en) * 2006-08-03 2008-04-24 Sara Carlstead Brumfield Infant Language Acquisition Using Voice Recognition Software
US20080133243A1 (en) * 2006-12-01 2008-06-05 Chin Chuan Lin Portable device using speech recognition for searching festivals and the method thereof
KR100897553B1 (ko) 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
KR100883105B1 (ko) 2007-03-30 2009-02-11 삼성전자주식회사 휴대단말기에서 음성인식을 이용한 다이얼링 방법 및 장치
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8202318A (nl) * 1982-06-09 1984-01-02 Koninkl Philips Electronics Nv Systeem voor de overdracht van spraak over een gestoorde transmissieweg.
IT1179093B (it) * 1984-09-03 1987-09-16 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per il riconoscimento senza addestramento preventivo di parole connesse appartenenti a piccoli vocabolari
US4821211A (en) * 1987-11-19 1989-04-11 International Business Machines Corp. Method of navigating among program menus using a graphical menu tree
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5752232A (en) * 1994-11-14 1998-05-12 Lucent Technologies Inc. Voice activated device and method for providing access to remotely retrieved data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012511730A (ja) * 2008-12-09 2012-05-24 ノキア コーポレイション 自動音声認識音響モデルの適合

Also Published As

Publication number Publication date
EP1110207A2 (en) 2001-06-27
KR20010079734A (ko) 2001-08-22
US7110948B1 (en) 2006-09-19
HK1040808A1 (en) 2002-06-21
WO2000014729A3 (en) 2000-06-02
SE9802990D0 (sv) 1998-09-04
CN1165889C (zh) 2004-09-08
CN1317134A (zh) 2001-10-10
WO2000014729A2 (en) 2000-03-16
EP1110207B1 (en) 2005-04-20
BR9913408A (pt) 2001-05-22
AU5894499A (en) 2000-03-27
ATE293827T1 (de) 2005-05-15
EE200100138A (et) 2002-06-17
SE9802990L (sv) 2000-03-05
AU760377B2 (en) 2003-05-15
DE69924853D1 (de) 2005-05-25
HK1040808B (zh) 2005-05-20

Similar Documents

Publication Publication Date Title
KR100984528B1 (ko) 분산형 음성 인식 시스템에서 음성 인식을 위한 시스템 및방법
US8639508B2 (en) User-specific confidence thresholds for speech recognition
JP4263614B2 (ja) リモートコントロール装置及び情報端末装置
US7725316B2 (en) Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
US9570066B2 (en) Sender-responsive text-to-speech processing
EP1994529B1 (en) Communication device having speaker independent speech recognition
US20030120493A1 (en) Method and system for updating and customizing recognition vocabulary
US9245526B2 (en) Dynamic clustering of nametags in an automated speech recognition system
EP1739546A2 (en) Automobile interface
EP1933303A1 (en) Speech dialog control based on signal pre-processing
US20070265849A1 (en) Distinguishing out-of-vocabulary speech from in-vocabulary speech
US20020091522A1 (en) System and method for hybrid voice recognition
JPH07210190A (ja) 音声認識方法及びシステム
JP2003524794A (ja) 雑音のある信号におけるスピーチのエンドポイント決定
WO2006101673A1 (en) Voice nametag audio feedback for dialing a telephone call
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
EP1110207B1 (en) A method and a system for voice dialling
JP2002536691A (ja) 音声認識除去方式
CN112585674A (zh) 信息处理装置、信息处理方法和程序
US20120197643A1 (en) Mapping obstruent speech energy to lower frequencies
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
KR100827074B1 (ko) 이동 통신 단말기의 자동 다이얼링 장치 및 방법
KR20190041108A (ko) 차량의 음성생성 시스템 및 방법
WO2001037261A1 (en) Coding and training of the vocabulary for speech recognition