JP2004170765A - 音声処理装置および方法、記録媒体並びにプログラム - Google Patents

音声処理装置および方法、記録媒体並びにプログラム Download PDF

Info

Publication number
JP2004170765A
JP2004170765A JP2002337892A JP2002337892A JP2004170765A JP 2004170765 A JP2004170765 A JP 2004170765A JP 2002337892 A JP2002337892 A JP 2002337892A JP 2002337892 A JP2002337892 A JP 2002337892A JP 2004170765 A JP2004170765 A JP 2004170765A
Authority
JP
Japan
Prior art keywords
word
unknown word
speech
recognition
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002337892A
Other languages
English (en)
Other versions
JP4072718B2 (ja
Inventor
Hiroaki Ogawa
浩明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2002337892A priority Critical patent/JP4072718B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to DE60318385T priority patent/DE60318385T2/de
Priority to AU2003280726A priority patent/AU2003280726A1/en
Priority to CNB2003801003011A priority patent/CN100354929C/zh
Priority to KR1020047011216A priority patent/KR101014086B1/ko
Priority to PCT/JP2003/014342 priority patent/WO2004047075A1/ja
Priority to EP03772681A priority patent/EP1460615B1/en
Priority to US10/502,169 priority patent/US7653541B2/en
Publication of JP2004170765A publication Critical patent/JP2004170765A/ja
Application granted granted Critical
Publication of JP4072718B2 publication Critical patent/JP4072718B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

【課題】削除誤りを少なくし、音声認識率を向上させることができるようにする
【解決課題】図16Cに示されるように、単語「は」と単語「<OOV>」の境界に対応する部分において、音節「ハ」を含まないパス91、並びに、音節「ハ」を含むパス92およびパス93が生成され、単語「<OOV>」と単語「です」の境界に対応する部分において、音節「ワ」を含まないパス101、並びに、音節「ワ」を含むパス102およびパス103が生成され、単語と音節とのネットワークが生成される。これにより、入力音声に対して最適なネットワーク上のサブワード系列を選択することができる。本発明は、音声認識装置に適用することができる。
【選択図】 図16

Description

【0001】
【発明の属する技術分野】
本発明は、音声処理装置および音声処理方法、記録媒体並びにプログラムに関し、特に、連続して入力される音声信号を音声認識している最中に、その入力音声信号に含まれる未知語を抽出し、簡単に登録することができるようにした音声処理装置および音声処理方法、並びにプログラムおよび記録媒体に関する。
【0002】
【従来の技術】
新規語彙を獲得する機能をもつ連続音声認識システムにおいて新規語彙を獲得するためには、音声中の未知語部分を推定することと、未知語部分に発音を付与することが必要である。
【0003】
音声中の未知語部分を推定するためには、音声に対して音韻や音節など単語より短い単位(サブワード)で音声認識を行い、音声に音節の系列を付与し(つまり、読み仮名を振り)ながら、各音節のスコアを求め、このスコアに適切なペナルティーを付与することにより未知語(OOV:Out Of Vocabulary)のスコアを推定する。単語音声認識を行う場合、通常の単語候補以外は未知語である可能性を考慮して、通常の単語候補以外に対しては上記のように求めたスコアを用いる。これにより、発声された音声中に未知語がある場合、未知語のスコアが正解単語のスコアより悪く、不正解単語のスコアより良いと推定されれば、未知語部分が未知語であると認識される。次に、未知語部分に発音を付与するためには、未知語部分の音節タイプライタにおける時刻情報に基づいて、上述したサブワード系列(例えば、音節系列)を参照する。これにより、未知語に付与される音節列も推定することができる(例えば、非特許文献1、非特許文献2、および非特許文献3参照)。
【0004】
しかし、音節のサーチの場合、音節単位のスコアは得られるが、単語の境界がその音節単位と必ずしも一致するとは限らない。図1を参照して、単語列の境界とサブワード系列の境界の不一致について説明する。
【0005】
単語列のサーチの結果得られる単語列の単語境界の時刻と、サブワード系列のサーチの結果得られるサブワード系列の時間的境界は必ずしも一致するとは限らない。例えば、図1に示されるように、単語音声認識による認識結果が、word1 <OOV> word2であるとき、<OOV>と周辺単語の境界では、単語列の境界とサブワード系列(Syl1乃至Syl8)の境界の不一致が発生することがある。なお、<OOV>は未知語を表すシンボルである。図1の例では、<OOV>の時間的に前の境界はSyl4の途中に対応し、時間的に後の境界はSyl7の途中に対応している。これにより、不一致が発生している境界のサブワードであるSyl4とSyl7は、<OOV>に含まれたり、含まれなかったりする。従って、<OOV>の発音を取得するためには、サブワードの境界を決定しなければならない。
【0006】
サブワードの境界を決定する方法として、サブワード系列によりその境界を決定する方法が知られている。その方法、すなわち、サブワード系列による<OOV>発音取得方法について、図2を参照して以下に説明する。
【0007】
サブワード系列による<OOV>発音取得方法は、通常の音声認識と、音節タイプライタによる認識が終了した時点で、<OOV>の両端の音節タイプライタ時刻を含む音節に対して、各音節の継続時間の50%以上が<OOV>の区間に含まれた場合、その音節を<OOV>の一部とする方法である。
【0008】
例えば、図2に示されるように、認識された単語列の一部が、単語1、<OOV>、単語2という配列であったとする。また、音節タイプライタによるサブワード系列の一部が、音節i、音節j、音節kという配列であったとする。この場合、L1(音節iの単語1側に対応する部分の長さ(時間))>L2(音節iの<OOV>側に対応する部分の長さ(時間))であるので、音節iは<OOV>に含まれないと判定される。これに対して、L3(音節kの<OOV>側に対応する部分の長さ(時間))>L4(音節kの単語2側に対応する部分の長さ(時間))であるので、音節kは<OOV>に含まれると判定される。
【0009】
図3と図4は、図2のサブワード系列による<OOV>発音取得方法を用いた実験結果を示す。
【0010】
例えば、図2のサブワード系列による<OOV>発音取得方法を、12名(男女各6名)の旅行ドメイン(ホテルのチェックインやレストランでの注文など)の752種類の発話について実験した。図3に示されるように、特徴量、音響モデル、および言語モデルについて条件を設定した。特徴量は、16bit,16KHzのサンプリング、10msecのフレーム周期、25msecのフレーム長、並びに12次のMFCC(Mel Frequency Cepstrum Cofficients)(メル周波数ケプトラム)、および0次乃至12次までのMFCCの1次回帰係数(25次元)に設定されている。音響モデルは、16mixture,1000tied−stateのHMM(Hidden Markov Model)とされ、言語モデルは、サブワードトライグラム、Cut−off trigram5,bigram5とされている。なお、この例においては、314種類の音節および音節連鎖をサブワードとして用いた。言語モデルは、日経新聞6年分のコーパスで学習した音韻のトライグラムを用いた。
【0011】
図4は、図2のサブワード系列による<OOV>発音取得方法を適用した場合のサブワード系列の、認識精度、置換誤り、削除誤り、および挿入誤りの性能を示しており、それぞれの値は、百分率で表されている。ここで、置換誤りとは、本来の音節とは異なる音節に置換する誤りであり、削除誤りとは、本来認識されるべき音節が認識されない誤り(デリーションエラー)であり、挿入誤りとは、本来認識されるべきではない音節が認識結果に現れる誤り(インサーションエラー)である。なお、認識精度Accは、総音節数N、正解数N_C、挿入誤りの数N_Iにより、式(1)から求められる。
Acc=(N_C−N_I)/N・・・・・・・・式(1)
【0012】
図4に示されるように、図2のサブワード系列による<OOV>発音取得方法による認識精度は、40.2%であり、削除誤りと挿入誤りの発生率は、ぞれぞれ、33.3%と4.1%であった。
【0013】
【非特許文献1】
Issam Bazzi and James R. Glass著「Proceedings of International Conference Spoken Language Processing(ICSLP) 2000」、2000年10月発行、p.433−436
【非特許文献2】
甲斐 充彦and中川 聖一、冗長後・言い直し等を含む発話のための未知語処理を用いた音声認識システムの比較評価、電子情報通信学会論文誌、1997年10月発行、J80−D−II、p.2615−2625
【非特許文献3】
小窪 浩明、大西 茂彦、山本 博史、and菊井 玄一郎、サブワードモデルを用いた未登録語認識の効率的探索手法、情報処理学会論文誌、2002年7月発行、Vol.43、No.7、p.2082−2090
【0014】
【発明が解決しようとする課題】
しかしながら、図2のサブワード系列による<OOV>発音取得方法では、連続単語認識を行う場合、音節の境界を考慮しながら単語認識を行わなければならない。また、例えば、図4に示されるように、認識精度が40.2%とそれほど高くなく、一方、削除誤りの発生率が33.3%と高ことから、ユーザは、その連続音声認識システムが搭載されたロボットを賢くないように感じる傾向がある。さらに、例えば、図4に示されるように、削除誤りの発生率が33.3%であるのに対して、挿入誤りの発生率は4.1%であり、両者の発生バランスが悪かった。
【0015】
本発明はこのような状況に鑑みてなされたものであり、音声認識の認識率を向上させることができるようにするとともに、削除誤りと挿入誤りの発生をバランスさせることを目的とする。
【0016】
【課題を解決するための手段】
本発明の音声処理装置は、連続する入力音声を認識する認識手段と、認識手段により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、未知語判定手段において認識結果に未知語が含まれていると判定された場合、未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成手段と、未知語判定手段により、未知語が含まれていると判定された場合、未知語に対応する単語を獲得する獲得手段と、獲得手段により獲得された単語を他の情報に関連付けて登録する登録手段とを備えることを特徴とする。
【0017】
この音声処理装置は、認識結果が特定のパターンにマッチするか否かを判定するパターン判定手段をさらに備え、登録手段は、パターン判定手段により、認識結果が特定のパターンにマッチしていると判定された場合、単語を登録するようにすることができる。
【0018】
この音声処理装置は、未知語判定手段により、未知語が含まれていないと判定された場合、または、パターン判定手段により、認識結果が特定のパターンにマッチしていないと判定された場合、入力音声に対応する応答を生成する応答生成手段をさらに備えるようにすることができる。
【0019】
登録手段は、他の情報として、カテゴリに関連付けて単語を登録するようにすることができる
【0020】
登録手段は、パターン判定手段によりマッチすると判定されたパターンに関連付けて、他の情報を登録するようにすることができる。
【0021】
獲得手段は、未知語をクラスタリングすることで単語を獲得するようにすることができる。
【0022】
ネットワーク生成手段により生成されたネットワークは、単語と音節とのネットワークであるようにすることができる。
【0023】
この音声処理装置は、入力音声とネットワークとのマッチングに基づいて、ネットワーク上のスコアの高いパスを選択する選択手段と、選択手段により選択されたパスを含むネットワークに基づいて、未知語に対応する発音を取得する発音取得手段とをさらに備えるようにすることができる。
【0024】
この音声処理装置は、入力音声の所定の区間について、既知語でマッチングさせた場合と音節タイプライタで認識させた場合の音響スコアを比較する比較手段をさらに備え、比較手段は、音節タイプライタで認識させた音響スコアの方が優れている場合、その区間を未知語であると推定するようにすることができる。
【0025】
比較手段は、既知語でマッチングさせた場合の音響スコアに対して、音節タイプライタで認識させた場合の音響スコアに補正をかけた上で比較を行うようにすることができる。
【0026】
本発明の音声処理方法は、連続する入力音声を認識する認識ステップと、認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、判定ステップの処理において認識結果に未知語が含まれていると判定された場合、未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成ステップと、判定ステップの処理により、未知語が含まれていると判定された場合、未知語に対応する単語を獲得する獲得ステップと、獲得ステップの処理により獲得された単語を他の情報に関連付けて登録する登録ステップとを含むことを特徴とする。
【0027】
本発明の記録媒体のプログラムは、連続する入力音声を認識する認識ステップと、認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、判定ステップの処理において認識結果に未知語が含まれていると判定された場合、未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成ステップと、判定ステップの処理により、未知語が含まれていると判定された場合、未知語に対応する単語を獲得する獲得ステップと、獲得ステップの処理により獲得された単語を他の情報に関連付けて登録する登録ステップとを含むことを特徴とする。
【0028】
本発明のプログラムは、連続する入力音声を認識する認識ステップと、認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、判定ステップの処理において認識結果に未知語が含まれていると判定された場合、未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成ステップと、判定ステップの処理により、未知語が含まれていると判定された場合、未知語に対応する単語を獲得する獲得ステップと、獲得ステップの処理により獲得された単語を他の情報に関連付けて登録する登録ステップとをコンピュータに実行させることを特徴とする。
【0029】
本発明の音声処理装置および方法、記録媒体並びにプログラムにおいては、連続する入力音声が認識されて、認識結果に未知語が含まれている場合、ネットワークが生成され、そのネットワークに基づいて未知語の発音が取得され、未知語に対応する単語が獲得され、その単語が他の情報に関連付けて登録される。
【0030】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して説明する。図5は、本発明を適用した対話システムの一実施形態の構成例を示している。
【0031】
この対話システムは、例えばロボットに搭載されて、ユーザ(人間)と音声により対話を行うシステムであり、例えば、音声が入力されると、その音声から名前が取り出され、登録されるようになっている。
【0032】
即ち、音声認識部1には、ユーザからの発話に基づく音声信号が入力されるようになっており、音声認識部1は、入力された音声信号を認識し、その音声認識の結果としてのテキスト、その他付随する情報を、対話制御部3と単語獲得部4に必要に応じて出力する。
【0033】
単語獲得部4は、音声認識部1が有する認識用辞書に登録されていない単語について、音響的特徴を自動的に記憶し、それ以降、その単語の音声を認識できるようにする。
【0034】
即ち、単語獲得部4は、入力音声に対応する発音を音節タイプライタによって求め、それをいくつかのクラスタに分類する。各クラスタはIDと代表音節系列を持ち、IDで管理される。このときのクラスタの状態を、図6を参照して説明する。
【0035】
例えば、「あか」、「あお」、「みどり」という3回の入力音声があったとする。この場合、単語獲得部4は、3回の音声を、それぞれに対応した「あか」クラスタ21、「あお」クラスタ22、「みどり」クラスタ23の、3つのクラスタに分類し、各クラスタには、代表となる音節系列(図6の例の場合、“ア/カ”、“ア/オ”、“ミ/ド/リ”)とID(図6の例の場合、「1」,「2」,「3」)を付加する。
【0036】
ここで再び、「あか」という音声が入力されると、対応するクラスタが既に存在するので、単語獲得部4は、入力音声を「あか」クラスタ21に分類し、新しいクラスタは生成しない。これに対して、「くろ」という音声が入力された場合、対応するクラスタが存在しないので、単語獲得部4は、「くろ」に対応したクラスタ24を新たに生成し、そのクラスタには、代表的な音節系列(図6の例の場合、“ク/ロ”)とID(図6の例の場合、「4」)を付加する。
【0037】
したがって、入力音声が未獲得の語であるか否かは、新たなクラスタが生成されたかどうかによって判定できる。なお、このような単語獲得処理の詳細は、本出願人が先に提案した特願2001−97843号に開示されている。
【0038】
連想記憶部2は、登録した名前(未知語)がユーザ名であるか、キャラクタ名であるかといったカテゴリ等の情報を記憶する。例えば、図7の例では、クラスタIDとカテゴリ名とが対応して記憶されている。図7の例の場合、例えば、クラスタID「1」、「3」、「4」は「ユーザ名」のカテゴリに対応され、クラスタID「2」は、「キャラクタ名」のカテゴリに対応されている。
【0039】
対話制御部3は、音声認識部1の出力からユーザの発話の内容を理解し、その理解の結果に基づいて、名前(未知語)の登録を制御する。また、対話制御部3は、連想記憶部2に記憶されている登録済みの名前の情報に基づいて、登録済みの名前を認識できるように、それ以降の対話を制御する。
【0040】
図8は、音声認識部1の構成例を示している。
【0041】
音声認識部1は、マイクロホン41、AD変換部42、特徴量抽出部43、マッチング部44、音節タイプライタ部45、制御部46、ネットワーク生成部47、音響モデルデータベース51、辞書データベース52、および言語モデルデータベース53より構成されている。
【0042】
ユーザの発話は、マイクロホン41に入力され、マイクロホン41では、その発話が、電気信号としての音声信号に変換される。この音声信号は、AD(AnalogDigital)変換部42に供給される。AD変換部42は、マイクロホン41からのアナログ信号である音声信号をサンプリングし、量子化し、ディジタル信号である音声データに変換する。この音声データは、特徴量抽出部43に供給される。
【0043】
特徴量抽出部43は、AD変換部42からの音声データについて、適当なフレームごとに、例えば、スペクトル、パワー線形予測係数、ケプストラム係数、線スペクトル対等の特徴パラメータを抽出し、マッチング部44および音節タイプライタ部45に供給する。
【0044】
マッチング部44は、特徴量抽出部43からの特徴パラメータに基づき、音響モデルデータベース51、辞書データベース52、および言語モデルデータベース53を必要に応じて参照しながら、マイクロホン41に入力された音声(入力音声)に最も近い単語列を求め、ネットワーク生成部47に出力する。
【0045】
音響モデルデータベース51は、音声認識する音声の言語における個々の音韻や音節などの音響的な特徴を表す音響モデルを記憶している。音響モデルとしては、例えば、HMM(Hidden Markov Model)などを用いることができる。辞書データベース52は、認識対象の各単語(語句)について、その発音に関する情報が記述された単語辞書や、音韻や音節の連鎖関係を記述したモデルを記憶している。
【0046】
なお、ここにおける単語とは、認識処理において1つのまとまりとして扱ったほうが都合の良い単位のことであり、言語学的な単語とは必ずしも一致しない。例えば、「タロウ君」は、それ全体を1単語として扱ってもよいし、「タロウ」、「君」という2単語として扱ってもよい。さらに、もっと大きな単位である「こんにちはタロウ君」等を1単語として扱ってもよい。
【0047】
また、音節とは、音響的に1つの単位として扱った方が処理上都合のよいもののことであり、音声学的な音節とは必ずしも一致しない。例えば、「東京」の「とう」の部分を“ト/ウ”という2個の音節記号で表してもよいし、“ト”の長音である“ト:”という記号を用いて“ト:”と表してもよい。他にも、無音を表す記号を用意してもよく、さらにそれを「発話前の無音」、「発話に挟まれた短い無音区間」、「発話語の無音」、「「っ」の部分の無音」のように細かく分類してそれぞれに記号を用意してもよい。
【0048】
言語モデルデータベース53は、辞書データベース52の単語辞書に登録されている各単語がどのように連鎖する(接続する)かどうかに関する情報を記述している。
【0049】
音節タイプライタ部45は、特徴量抽出部43から供給された特徴パラメータに基づいて、入力された音声に対応する音節系列を取得し、マッチング部44に出力するとともに、ネットワーク生成部47にも出力する。例えば、「私の名前は小川です。」という音声から“ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス”という音節系列を取得する。この音節タイプライタには、既存のものを用いることができる。
【0050】
なお、音節タイプライタ以外でも、任意の音声に対して音節系列を取得できるものであれば代わりに用いることができる。例えば、日本語の音韻(a/i/u/e/o/k/a/k/i )を単位とする音声認識や、音素、その他の、単語よりは小さな単位であるサブワードを単位とする音声認識を用いることが可能である。
【0051】
制御部46は、AD変換部42、特徴量抽出部43、マッチング部44、音節タイプライタ部45の動作を制御する。
【0052】
ネットワーク生成部47は、単語列と、音節タイプライタ部45から取得される音節系列に基づくサブワード系列(音節系列)に基づいて、単語と音節とのネットワークを生成する。すなわち、<OOV>の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、および、<OOV>の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスを生成し、マッチング部44に出力する。
【0053】
次に、図9のフローチャートを参照して、本発明の対話システムの処理について説明する。
【0054】
ステップS21において、ユーザがマイクロホン41に音声を入力すると、マイクロホン41は、その発話を、電気信号としての音声信号に変換する。そして、ステップS22において、音声認識部1は、音声認識処理を実行する。
【0055】
音声認識処理の詳細について、図10を参照して説明する。マイクロホン41で生成された音声信号は、ステップS51において、AD変換部42により、ディジタル信号である音声データに変換され、特徴量抽出部43に供給される。
【0056】
ステップS52において、特徴量抽出部43は、AD変換部42からの音声データを受信する。そして、特徴量抽出部43は、ステップS53に進み、適当なフレームごとに、例えば、スペクトル、パワー、それらの時間変化量等の特徴パラメータを抽出し、マッチング部44に供給する。
【0057】
ステップS54において、マッチング部44は、辞書データベース52に格納されている単語モデルのうちのいくつかを連結して、単語列生成処理を実行する。なお、この単語列を構成する単語には、辞書データベース52に登録されている既知語だけでなく、登録されていない未知語を表わすシンボルである“<OOV>”も含まれている。この単語列生成処理について、図11を参照して詳細に説明する。
【0058】
ステップS81において、マッチング部44は、入力音声の或る区間について、両方の場合の音響スコアを計算する。即ち、入力音声の或る区間を、辞書データベース52に登録されている既知語とマッチングさせた結果の音響スコアと、入力音声に基づき、音節タイプライタ部45により得られた結果(今の場合、ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス”の中の一部区間)の音響スコアが、それぞれ計算される。音響スコアは、音声認識結果の候補である単語列と入力音声とが音としてどれだけ近いかを表す。
【0059】
次に、入力音声の一部区間と辞書データベース52に登録されている既知語とをマッチングさせた結果の音響スコアと、音節タイプライタ部45による結果の音響スコアを比較させるのであるが、既知語とのマッチングは単語単位で行われ、音節タイプライタ部45でのマッチングは音節単位で行われ、尺度が異なっているので、そのままでは比較することが困難である(一般的には、音節単位の音響スコアの方が大きな値となる)。そこで、尺度を合わせて比較できるようにするために、マッチング部44は、ステップS82において、音節タイプライタ部45により得られた結果の音響スコアに補正をかける。
【0060】
例えば、音節タイプライタ部45からの音響スコアに係数を掛けたり、一定の値やフレーム長に比例した値などを減じたりする処理が行われる。勿論、この処理は相対的なものなので、既知語とマッチングさせた結果の音響スコアに対して行うこともできる。なお、この処理の詳細は、例えば、文献「”EUROSPEECH99 Volume 1, Page 49−52”」に「OOV−Detection in Large Vocabulary System Using Automatically Defined Word−Fragments as Fillers」として開示されている。
【0061】
マッチング部44は、ステップS83において、この2つの音響スコアを比較する(音節タイプライタ部45で認識させた結果の音響スコアの方が高い(優れている)か否かを判定する)。音節タイプライタ部45で認識させた結果の音響スコアの方が高い場合、ステップS84に進み、マッチング部44は、その区間を<OOV>(Out Of Vocabulary)(未知語)であると推定する。
【0062】
ステップS83において、既知語とマッチングさせた結果の音響スコアに対して、音節タイプライタ部45で認識された結果の音響スコアの方が低いと判定された場合、ステップS86に進み、マッチング部44は、その区間を既知語であると推定する。
【0063】
即ち、例えば、「オガワ」に相当する区間について、音節タイプライタ部45の出力した“オ/ガ/ワ”の音響スコアと、既知語でマッチングさせた場合の音響スコアを比較して、“オ/ガ/ワ”の音響スコアの方が高い場合は、その音声区間に相当する単語として「<OOV>(オ/ガ/ワ)」が出力され、既知語の音響スコアの方が高い場合は、その既知語が音声区間に相当する単語として出力される。
【0064】
ステップS85において、マッチング部44は、音響スコアが高くなると推測される単語列(いくつかの単語モデルを連結したもの)を優先的にn個生成する。
【0065】
図10に戻って、ステップS55において、音節タイプライタ部45はステップS54の処理とは独立して、ステップS53の処理で抽出された特徴パラメータに対して音韻を単位とする認識を行ない、音節系列を出力する。例えば、「私の名前は小川(未知語)です。」という音声が入力されると、音節タイプライタ部45は、“ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス”という音節系列を出力する。
【0066】
ステップS56において、マッチング部44は、ステップS54で生成された単語列ごとに音響スコアを計算する。<OOV>(未知語)を含まない単語列に対しては既存の方法、すなわち各単語列(単語モデルを連結したもの)に対して音声の特徴パラメータを入力することで尤度を計算するという方法が用いられる。一方、<OOV>を含む単語列については、既存の方法では<OOV>に相当する音声区間の音響スコアを求めることができない(<OOV>に対応する単語モデルは事前には存在しないため)。そこで、その音声区間については、音節タイプライタの認識結果の中から同区間の音響スコアを取り出し、その値に補正をかけたものが<OOV>の音響スコアとして採用される。それは、さらに、他の既知語部分の音響スコアと統合され、それがその単語列の音響スコアとされる。
【0067】
ステップS57において、マッチング部44は、音響スコアの高い単語列を上位m個(m≦n)抽出し、候補単語列とする。ステップS58において、マッチング部44は、言語モデルデータベース53を参照して、候補単語列毎に、言語スコアを計算する。言語スコアは、認識結果の候補である単語列が言葉としてどれだけふさわしいかを表す。ここで、この言語スコアを計算する方法を詳細に説明する。
【0068】
本発明の音声認識部1は未知語も認識するため、言語モデルは未知語に対応している必要がある。例として、未知語に対応した文法または有限状態オートマトン(FSA:Finite State Automaton)を用いた場合と、同じく未知語に対応したtri−gram(統計言語モデルの1つである)を用いた場合とについて説明する。
【0069】
文法の例を図12を参照して説明する。この文法61はBNF(Backus Naur Form)で記述されている。図12において、“$A”は「変数」を表し、“A|B”は「AまたはB」という意味を表す。また、“[A]”は「Aは省略可能」という意味を表し、{A}は「Aを0回以上繰り返す」という意味を表す。
【0070】
<OOV>は未知語を表すシンボルであり、文法中に<OOV>を記述しておくことで、未知語を含む単語列に対しても対処することができる。“$ACTION”は図12では定義されていないが、例えば、「起立」、「着席」、「お辞儀」、「挨拶」等の動作の名前が定義される。
【0071】
この文法61では、「<先頭>/こんにちは/<終端>」(“/”は単語間の区切り)、「<先頭>/さようなら/<終端>」、「<先頭>/私/の/名前/は/<OOV>/です/<終端>」のように、データベースに記憶されている文法に当てはまる単語列は受理される(この文法で解析される)が、「<先頭>/君/の/<OOV>/名前/<終端>」といった、データベースに記憶されている文法に当てはまらない単語列は受理されない(この文法で解析されない)。なお、「<先頭>」と「<終端>」はそれぞれ発話前と後の無音を表す特殊なシンボルである。
【0072】
この文法を用いて言語スコアを計算するために、パーザ(解析機)が用いられる。パーザは、単語列を、文法を受理できる単語列と、受理できない単語列に分ける。即ち、例えば、受理できる単語列には言語スコア1が与えられて、受理できない単語列には言語スコア0が与えられる。
【0073】
したがって、例えば、「<先頭>/私/の/名前/は/<OOV>(タ/ロ/ウ)/です/<終端>」と、「<先頭>/私/の/名前/は/<OOV>(ジ/ロ/ウ)/です/<終端>」という2つの単語列があった場合、いずれも「<先頭>/私/の/名前/は/<OOV>/です/<終端>」に置き換えられた上で言語スコアが計算されて、ともに言語スコア1(受理)が出力される。
【0074】
また、単語列の文法が受理できるか否かの判定は、事前に文法を等価(近似でも良い)な有限状態オートマトン(以下、FSAと称する)に変換しておき、各単語列がそのFSAで受理できるか否かを判定することによっても実現できる。
【0075】
図12の文法を等価なFSAに変換した例が、図13に示されている。FSAは状態(ノード)とパス(アーク)とからなる有向グラフである。図13に示されるように、S1は開始状態、S16は終了状態である。また、“$ACTION”には、図12と同様に、実際には動作の名前が登録されている。
【0076】
パスには単語が付与されていて、所定の状態から次の状態に遷移する場合、パスはこの単語を消費する。ただし、“ε”が付与されているパスは、単語を消費しない特別な遷移(以下、ε遷移と称する)である。即ち、例えば、「<先頭>/私/は/<OOV>/です/<終端>」においては、初期状態S1から状態S2に遷移して、<先頭>が消費され、状態S2から状態S3へ遷移して、「私」が消費されるが、状態S3から状態S5への遷移は、ε遷移なので、単語は消費されない。即ち、状態S3から状態S5へスキップして、次の状態S6へ遷移することができる。
【0077】
所定の単語列がこのFSAで受理できるか否かは、初期状態S1から出発して、終了状態S16まで到達できるか否かで判定される。
【0078】
即ち、例えば、「<先頭>/私/の/名前/は/<OOV>/です/<終端>」においては、初期状態S1から状態S2へ遷移して、単語「<先頭>」が消費される。次に、状態S2から状態S3へ遷移して、単語「私」が消費される。以下、同様に、状態S3から状態S4へ、状態S4から状態S5へ、状態S5から状態S6へ、状態S6から状態S7へ順次遷移して、「の」、「名前」、「は」、「<00V>」、が次々に消費される。さらに、状態S7から状態S15へ遷移して、「です」が消費され、状態S15から状態S16に遷移して、「<終端>」が消費され、結局、終了状態S16へ到達する。したがって、「<先頭>/私/の/名前/は/<OOV>/です/<終端>」はFSAで受理される。
【0079】
しかしながら、「<先頭>/君/の/<OOV>/名前/<終端>」は、状態S1から状態S2へ、状態S2から状態S8へ、状態S8から状態S9までは遷移して、「<先頭>」、「君」、「の」までは消費されるが、その先には遷移できないので、終了状態S16へ到達することはできない。したがって、「<先頭>/君/の/<OOV>/名前/<終端>」は、FSAで受理されない(不受理)。
【0080】
さらに、言語モデルとして、統計言語モデルの1つであるtri−gramを用いた場合の言語スコアを計算する例を、図14を参照して説明する。統計言語モデルとは、その単語列の生成確率を求めて、それを言語スコアとする言語モデルである。即ち、例えば、図14の言語モデル71の「<先頭>/私/の/名前/は/<OOV>/です/<終端>」の言語スコアは、第2行に示されるように、その単語列の生成確率で表される。これはさらに、第3行乃至第6行で示されるように、条件付き確率の積として表される。なお、例えば、「P(の|<先頭> 私)」は、「の」の直前の単語が「私」で、「私」の直前の単語が「<先頭>」であるという条件の下で、「の」が出現する確率を表す。
【0081】
さらに、tri−gramでは、図14の第3行乃至第6行で示される式を、第7行乃至第9行で示されるように、連続する3単語の条件付き確率で近似させる。これらの確率値は、図15に示されるようなtri−gramデータベース81を参照して求められる。このtri−gramデータベース81は、予め大量のテキストを分析して求められたものである。
【0082】
図15の例では、3つの連続する単語w1,w2,w3の確率P(w3|w1w2)が表されている。例えば、3つの単語w1,w2,w3が、それぞれ、「<先頭>」、「私」、「の」である場合、確率値は0.12とされ、「私」、「の」、「名前」である場合、確率値は0.01とされ、「<OOV>」、「です」、「<終端>」である場合、確率値は、0.87とされている。
【0083】
勿論、「P(W)」及び「P(w2|w1)」についても、同様に、予め求めておく。
【0084】
このようにして、言語モデル中に<OOV>について、エントリ処理をしておくことで、<OOV>を含む単語列に対して、言語スコアを計算することができる。したがって、認識結果に<OOV>というシンボルを出力することができる。
【0085】
また、他の種類の言語モデルを用いる場合も、<OOV>についてのエントリ処理をすることによって、同様に<OOV>を含む単語列に対して、言語スコアを計算することができる。
【0086】
さらに、<OOV>のエントリが存在しない言語モデルを用いた場合でも、<OOV>を言語モデル中の適切な単語にマッピングする機構を用いることで、言語スコアの計算ができる。例えば、「P(<OOV>|私 は)」が存在しないtri−gramデータベースを用いた場合でも、「P(小川|私 は)」でデータベースをアクセスして、そこに記述されている確率を「P(<OOV>|私 は)」の値とみなすことで、言語スコアの計算ができる。
【0087】
図10に戻って、マッチング部44は、ステップS59において、音響スコアと言語スコアを統合する。ステップS60において、マッチング部44は、ステップS59において求められた音響スコアと言語スコアの両スコアを統合したスコアに基づいて、最もよいスコアをもつ候補単語列を選択して、認識結果として出力する。
【0088】
なお、言語モデルとして、有限状態オートマトンを使用している場合は、ステップS59の統合処理を、言語スコアが0の場合は単語列を消去し、言語スコアが0以外の場合はそのまま残すという処理にしてもよい。
【0089】
図9に戻って、以上のようにしてステップS22で音声認識処理が実行された後、ステップS23において、音声認識部1の制御部46は認識された単語列に未知語が含まれているか否かを判定する。ステップS23において未知語が含まれていると判定された場合、ネットワーク生成部47は、単語列と、音節タイプライタ部45から取得される音節系列に基づくサブワード系列に基づいて、単語とサブワード(例えば、音節)とのネットワークを生成する。すなわち、<OOV>の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、および、<OOV>の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスが生成され、マッチング部44に出力される。
【0090】
ステップS25において、マッチング部44は、音節タイプライタ部45から供給された音節系列に基づくサブワード系列と、ネットワーク生成部47から供給されたネットワークに基づいて、ユーザから入力された音声とネットワークをマッチングする。
【0091】
図16は、ネットワークの生成について説明する。
【0092】
例えば、ユーザから「私の名前は小川(未知語)です。」という音声がマイクロホン41に入力されたとする。マッチング部44は、求められた音響スコアと言語スコアの両スコアを統合したスコアに基づいて、最もよいスコアをもつ候補単語列を選択して、認識結果として出力し、例えば、図16Aに示されるように、「<先頭>/私/の/名前/は/<OOV>/です/<終端>」となるとする。同時に、音節タイプライタ部45は、図16Bに示されるように、“ワ/タ/シ/ノ/ナ/マ/エ/ハ/オ/ガ/ワ/デ/ス”という音節系列を出力するとする。
【0093】
このとき、図16Aと図16Bに示されるように、マッチング部44により得られた認識結果である単語列の境界と、音節タイプライタ部45により得られた音節系列に基づくサブワード系列の境界は一般的には一致しない。例えば、図16Aと図16Bの場合、単語列における単語「は」と単語「<OOV>」の境界は、サブワード系列における音節「ハ」に対応し、単語列における単語「<OOV>」と単語「です」の境界は、サブワード系列における音節「ワ」に対応する。そのため、単語列における単語「は」と単語「<OOV>」の境界とサブワード系列における音節「ハ」の部分における不一致の場合、音節「ハ」は、単語列における単語「は」に含まれたり、単語列における単語「<OOV>」に含まれたりする。
【0094】
そこで、単語と音節とのネットワークが生成される。すなわち、<OOV>の直前の境界に対応する時刻の音節を含むパスと、それを含まないパス、および<OOV>の直後の境界に対応する時刻の音節を含むパスと、それを含まないパスが生成される。
【0095】
例えば、図16Bと図16Cに示されるように、特徴抽出部43から出力された時刻情報の特徴パラメータに基づいて、サブワード系列における音節「ハ」と音節「ワ」の所定のフレームに対応する音節タイプライタ部45における音節タイプライタ時刻を、それぞれ、tとtとし、その音節タイプライタ時刻tとt1に対応する単語列の時刻を、それぞれ、tとtとする。また、図16Cに示されるように、図16の区間D、すなわち、<OOV>の直前の単語「は」から<OOV>の直後の単語「です」までの区間は、<OOV>の発音に対応する可能性のある音節「ハ」「オ」「ガ」「ワ」により構成されている。
【0096】
図16Cに示されるように、単語列における単語「は」と単語「<OOV>」の境界に対応する部分において、音節「ハ」を含まないパス91、並びに、音節「ハ」を含むパス92およびパス93が生成され、単語列における単語「<OOV>」と単語「です」の境界に対応する部分において、音節「ワ」を含まないパス101、並びに、音節「ワ」を含むパス102およびパス103が生成される。これにより、サブワード系列の境界を決定することなく、入力された音声に対して最適なネットワーク上のサブワード系列を選択することができる。
【0097】
なお、図16の場合においては、ネットワークとして構成された単語と音節からなるネットワークと入力された音声とをマッチングすると、上記ネットワークから以下の4通りの文仮説が生成される。
【0098】
私の−名前−は−ハ−オ−ガ−ワ−です
私の−名前−は−ハ−オ−ガ−です
私の−名前−は−オ−ガ−ワ−です
私の−名前−は−オ−ガ−です
【0099】
図9に戻って、ステップS26において、マッチング部44は、ユーザから入力された音声とネットワークのマッチングの結果に基づいて、スコアの高いネットワーク上のパス(例えば、図16におけるパス91、並びに、パス102およびパス103)を選択する。ステップS27において、マッチング部44は、ステップS26において選択されたネットワーク上のパス(例えば、図16におけるパス91、並びに、パス102およびパス103)と音節タイプライタ部45から出力されたサブワード系列に基づいて、<OOV>に対応する発音(図16の例の場合、「オ/ガ/ワ」)を取得する。
【0100】
図17と図18は、本発明を適用した実験結果を示す。なお、条件設定については、図3における設定と同様であるので、その説明は省略する。
【0101】
図17は、それぞれ、本発明を適用した場合の音節系列の認識精度、置換誤り、削除誤り、および挿入誤りの性能を示しており、それぞれの値は、百分率で表されている。それらの詳しい説明については、図4と同様であるので、省略する。図17の結果では、認識精度は、48.5%であり、図4での、サブワード系列による<OOV>発音取得方法における認識精度の40.2%と比較すると、認識精度は向上している。また、削除誤りと挿入誤りの発生率は、それぞれ、11.6%と8.0%であり、図4での、サブワード系列による<OOV>発音取得方法における削除誤りと挿入誤りの発生率の33.3%と4.1%とを比較すると、削除誤りと挿入誤りの発生バランスは改善されている(両者の差が少なくなっている)。
【0102】
図18は、1人の話者の発話に対して本発明により<OOV>に付与された認識結果の一部の例を示している。
【0103】
図18の例では、第1回目で、「クロサキ」が「クロタチ」と認識されており、「タ」と「チ」において置換誤りが発生している。また、第2回目では「クロサキ」は「オロサ」と認識されており、「ク」において削除誤りが、「オ」において置換誤りが発生している。さらに、第3回目では、「クロサキ」は「ロサキ」と認識されており、「ク」において削除誤りが発生している。また、第4回目では、「クロサキ」は「ロサキ」と認識されており、「ク」において削除誤りが発生している。「クロサキ」はまた、第5回目では「クロサキ」と認識されており、どの誤りも発生していない。
【0104】
「カズミ」は第1回目では、「カズミ」と認識されており、どの誤りも発生していない。例えば、第2回目では、「カズミ」は「カツニ」と認識されており、「ズ」と「ミ」において置換誤りが発生している。第3回目では、「カズミ」は「カズミ」と認識されており、どの誤りも発生していない。第4回目では、「カズミ」は「カツミ」と認識されており、「ズ」において置換誤りが発生している。第5回目では、「カズミ」は「カスミ」と認識されており、「ズ」において置換誤りが発生している。
【0105】
図9に戻って、制御部46は、単語獲得部4を制御し、ステップS28において、単語獲得処理を実行させ、その未知語を獲得させる。
【0106】
単語獲得処理の詳細について、図19を参照して説明する。ステップS111において、単語獲得部4は、音声認識部1から未知語(<OOV>)の特徴パラメータ、特に、時間情報に関する特徴パラメータを抽出する。ステップS112において、単語獲得部4は、未知語が既獲得のクラスタに属するか否かを判定する。既獲得のクラスタに属さないと判定された場合、単語獲得部4は、ステップS113において、その未知語に対応する、新しいクラスタを生成する。そして、ステップS114において、単語獲得部4は、未知語の属するクラスタのIDを音声認識部1のマッチング部44に出力する。
【0107】
ステップS112において、未知語が既獲得のクラスタに属すると判定された場合、新しいクラスタを生成する必要がないので、単語獲得部4はステップS113の処理をスキップして、ステップS114に進み、未知語の属する既獲得のクラスタのIDをマッチング部44に出力する。
【0108】
なお、図19の処理は各未知語語毎に行われる。
【0109】
図9に戻って、ステップS28の単語獲得処理終了後、ステップS29において、対話制御部3は、ステップS28の処理で獲得された単語列が、テンプレートにマッチしているかどうかを判定する。即ち、認識結果の単語列が何かの名前の登録を意味するものかどうかの判定がここで行われる。そして、ステップS29において、認識結果の単語列がテンプレートにマッチしていると判定された場合、ステップS30において、対話制御部3は、連想記憶部2に、名前のクラスタIDとカテゴリを対応させて記憶させる。
【0110】
対話制御部3がマッチングさせるテンプレートの例を図20を参照して説明する。なお、図20において、“/A/”は「文字列Aが含まれていたら」という意味を表し、“A|B”は「AまたはB」という意味を表す。また、“.”は「任意の文字」を表し、“A+”は「Aの1回以上の繰り返し」という意味を表し、“(.)+”は「任意の文字列」を表す。
【0111】
このテンプレート121は、認識結果の単語列が図の左側の正規表現にマッチした場合、図の右側の動作を実行させることを表している。例えば、認識結果が「<先頭>/私/の/名前/は/<OOV>(オ/ガ/ワ)/です/<終端>」という単語列である場合、この認識結果から生成された文字列「私の名前は<OOV>です」は、図20の第2番目の正規表現にマッチする。したがって、対応する動作である「<OOV>に対応するクラスタIDをユーザ名として登録する」処理が実行される。即ち、「<OOV>(オ/ガ/ワ)」のクラスタIDが「1」である場合、図5に示されるように、クラスタID「1」のカテゴリ名が「ユーザ名」として登録される。
【0112】
また、例えば、認識結果が、「<先頭>/君/の/名前/は/<OOV>(ア/イ/ボ)/だよ/<終端>」である場合、そこから生成される文字列「君の名前は<OOV>だよ」は図20の第1番目の正規表現にマッチするので、「<OOV>(ア/イ/ボ)」がクラスタID「2」であれば、クラスタID「2」のカテゴリは、「キャラクタ名」として登録される。
【0113】
なお、対話システムによっては、登録する単語が1種類しかない(例えば、「ユーザ名」のみ)場合もあり、その場合は、テンプレート121と連想記憶部2は簡略化することができる。例えば、テンプレート121の内容を「認識結果に<OOV>が含まれていたら、そのIDを記憶する」として、連想記憶部2にそのクラスタIDのみを記憶させることができる。
【0114】
対話制御部3は、このようにして連想記憶部2に登録された情報を、以後の対話の判断処理に反映させる。例えば、対話システムの側で、「ユーザの発話の中に、対話キャラクタの名前が含まれているかどうかを判定する。含まれている場合は『呼びかけられた』と判断して、それに応じた返事をする」という処理や、「対話キャラクタがユーザの名前をしゃべる」という処理が必要になった場合に、対話制御部3は連想記憶部2の情報を参照することで、対話キャラクタに相当する単語(カテゴリ名が「キャラクタ名」であるエントリ)やユーザ名に相当する単語(カテゴリ名が「ユーザ名」であるエントリ)を得ることができる。
【0115】
一方、ステップS23において、認識結果に未知語が含まれていないと判定された場合、またはステップS29において、認識結果がテンプレートにマッチしていないと判定された場合、ステップS31において、対話制御部3は、入力音声に対応する応答を生成する。すなわち、この場合には、名前(未知語)の登録処理は行われず、ユーザからの入力音声に対応する所定の処理が実行される。
【0116】
ところで、言語モデルとして文法を用いる場合、文法の中に音節タイプライタ相当の記述も組み込むことができる。この場合の文法の例が図21に示されている。この文法131において、第1行目の変数“$SYLLABLE”は、全ての音節が「または」を意味する“|”で繋がれているので、音節記号の内のどれか1つを意味する。変数”OOV”は“$SYLLABLE”を0回以上繰り返すことを表している。即ち、「任意の音節記号を0回以上接続したもの」を意味し、音節タイプライタに相当する。したがって、第3行目の「は」と「です」の間の“$OOV”は、任意の発音を受け付けることができる。
【0117】
この文法131を用いた場合の認識結果では、“$OOV”に相当する部分が複数のシンボルで出力される。例えば、「私の名前は小川です」の認識結果が「<先頭>/私/の/名前/は/オ/ガ/ワ/です/<終端>」となる。この結果を「<先頭>/私/の/名前/は/<OOV>(オ/ガ/ワ)/です」に変換すると、図9のステップS23以降の処理は、音節タイプライタを用いた場合と同様に実行することができる。
【0118】
なお、以上においては、未知語に関連する情報として、カテゴリを登録するようにしたが、その他の情報を登録するようにしてもよい。また、図9のフローチャートにおけるステップS28は、省略してもよく、ステップS28が省略された場合には、ステップS30における処理は、対話制御部3が連想記憶部2にサブワード系列とカテゴリを対応させて記憶させるという処理になる。
【0119】
さらに、以上の実施の形態においては、図16Cに示されるように、音節と単語のネットワークを形成するようにしたが、入力音声に対して尤度が最大となる最適なネットワーク上のサブワード系列を選択することができればよいので、音節に限らず、音素、音韻等の、音節以外のサブワードと単語とのネットワークとすることができる。
【0120】
図22は、上述の処理を実行するパーソナルコンピュータ150の構成例を示している。このパーソナルコンピュータ150は、CPU(Central Processing Unit)151を内蔵している。CPU151にはバス154を介して、入出力インタフェース155が接続されている。バス154には、ROM(Read Only Memory)152およびRAM(Random Access Memory)153が接続されている。
【0121】
入出力インタフェース155には、ユーザが操作するマウス、キーボード、マイクロホン、AD変換器等の入力デバイスで構成される入力部157、およびディスプレイ、スピーカ、DA変換器等の出力デバイスで構成される出力部156が接続されている。さらに、入出力インタフェース155には、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部158、並びにインタネットに代表されるネットワークを介してデータを通信する通信部159が接続されている。
【0122】
入出力インタフェース155には、磁気ディスク171、光ディスク172、光磁気ディスク173、半導体メモリ174などの記録媒体に対してデータを読み書きするドライブ160が必要に応じて接続される。
【0123】
このパーソナルコンピュータ150に本発明を適用した音声処理装置としての動作を実行させる音声処理プログラムは、磁気ディスク171(フロッピディスクを含む)、光ディスク172(CD−ROM(Compact Disc−Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク173(MD(Mini Disc)を含む)、もしくは半導体メモリ174に格納された状態でパーソナルコンピュータ150に供給され、ドライブ160によって読み出されて、記憶部158に内蔵されるハードディスクドライブにインストールされる。記憶部158にインストールされた音声処理プログラムは、入力部157に入力されるユーザからのコマンドに対応するCPU151の指令によって、記憶部158からRAM153にロードされて実行される。
【0124】
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【0125】
この記録媒体は、図22に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディス171、光ディスク172、光磁気ディスク173、もしくは半導体メモリ174などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM152や、記憶部158に含まれるハードディスクなどで構成される。
【0126】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0127】
また、本明細書において、システムとは、複数の装置が論理的に集合したものをいい、各構成の装置が同一筐体中にあるか否かは問わない。
【0128】
【発明の効果】
以上のように、本発明によれば、単語を音声で登録することができる。またその登録を、ユーザに登録モードを意識させることなく実行できる。さらに、既知語と未知語を含む連続する入力音声の中から未知語を抽出し、その未知語の発音を取得し、未知語の単語を確実に獲得することができる。これにより、その未知語を容易に登録することが可能となる。さらに、登録した単語を、以降の対話で反映させることが可能となる。
【0129】
また、本発明によれば、音声認識の認識率を向上させることができる。さらに、未知語の獲得の際における削除誤りを少なくすることができ、削除誤りと挿入誤りの発生バランスを良くすることができる。これにより、ユーザが連続音声認識システムをもつロボットなどを賢くないと感じることを抑制することができる。
【図面の簡単な説明】
【図1】単語列の境界とサブワード系列の境界の不一致を説明する図である。
【図2】サブワード系列による<OOV>発音取得方法を説明する図である。
【図3】図2のサブワード系列による<OOV>発音取得方法を用いた場合の実験の条件を示す図である。
【図4】図2のサブワード系列による<OOV>発音取得方法を用いた実験結果を示す図である。
【図5】本発明を適用した対話システムの一実施の形態の構成例を示すブロック図である。
【図6】クラスタの状態の例を示す図である。
【図7】単語の登録を示す図である。
【図8】図5の音声認識部の構成例を示すブロック図である。
【図9】図5の対話システムの動作を説明するためのフローチャートである。
【図10】図9のステップS22の音声認識処理の詳細を説明するためのフローチャートである。
【図11】図10のステップS54の単語列生成処理の詳細を説明するためのフローチャートである。
【図12】言語モデルデータベースで用いられる文法の例を示す図である。
【図13】有限状態オートマトンによる言語モデルの例を示す図である。
【図14】tri−gramを用いた言語スコアの計算の例を示す図である。
【図15】tri−gramデータベースの例を示す図である。
【図16】ネットワークの生成について説明する図である。
【図17】本発明を適用した実験結果を示す図である。
【図18】本発明を適用した実験結果を示す図である。
【図19】図9のステップS28の単語獲得処理の詳細を説明するためのフローチャートである。
【図20】テンプレートの例を示す図である。
【図21】音節タイプライタを組み込んだ文法の例を示す図である。
【図22】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 音声認識部、 2 連想記憶部、 3 対話制御部、 4 単語獲得部、41 マイクロホン、 42 AD変換部、 43 特徴量抽出部、 44 マッチング部、 45 音節タイプライタ部、 46 制御部、 47 ネットワーク生成部、 51 音響モデルデータベース、 52 辞書データベース、 53 言語モデルデータベース

Claims (13)

  1. 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置であって、
    連続する前記入力音声を認識する認識手段と、
    前記認識手段により認識された認識結果に、未知語が含まれているか否かを判定する未知語判定手段と、
    前記未知語判定手段において前記認識結果に前記未知語が含まれていると判定された場合、前記未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成手段と、
    前記未知語判定手段により、前記未知語が含まれていると判定された場合、前記未知語に対応する単語を獲得する獲得手段と、
    前記獲得手段により獲得された前記単語を他の情報に関連付けて登録する登録手段と
    を備えることを特徴とする音声処理装置。
  2. 前記認識結果が特定のパターンにマッチするか否かを判定するパターン判定手段をさらに備え、
    前記登録手段は、前記パターン判定手段により、前記認識結果が特定のパターンにマッチしていると判定された場合、前記単語を登録する
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記未知語判定手段により、前記未知語が含まれていないと判定された場合、または、前記パターン判定手段により、前記認識結果が特定のパターンにマッチしていないと判定された場合、前記入力音声に対応する応答を生成する応答生成手段をさらに備える
    ことを特徴とする請求項2に記載の音声処理装置。
  4. 前記登録手段は、前記他の情報として、カテゴリに関連付けて前記単語を登録する
    ことを特徴とする請求項2に記載の音声処理装置。
  5. 前記登録手段は、前記パターン判定手段によりマッチすると判定された前記パターンに関連付けて、前記他の情報を登録する
    ことを特徴とする請求項2に記載の音声処理装置。
  6. 前記獲得手段は、前記未知語をクラスタリングすることで前記単語を獲得する
    ことを特徴とする請求項1に記載の音声処理装置。
  7. 前記ネットワーク生成手段により生成された前記ネットワークは、前記単語と音節とのネットワークである
    ことを特徴とする請求項1に記載の音声処理装置。
  8. 前記入力音声と前記ネットワークとのマッチングに基づいて、前記ネットワーク上のスコアの高いパスを選択する選択手段と、
    前記選択手段により選択された前記パスを含む前記ネットワークに基づいて、前記未知語に対応する発音を取得する発音取得手段と
    をさらに備えることを特徴とする請求項7に記載の音声処理装置。
  9. 前記入力音声の所定の区間について、既知語でマッチングさせた場合と音節タイプライタで認識させた場合の音響スコアを比較する比較手段をさらに備え、
    前記比較手段は、前記音節タイプライタで認識させた前記音響スコアの方が優れている場合、その区間を未知語であると推定する
    ことを特徴とする請求項1に記載の音声処理装置。
  10. 前記比較手段は、前記既知語でマッチングさせた場合の音響スコアに対して、前記音節タイプライタで認識させた場合の音響スコアに補正をかけた上で比較を行う
    ことを特徴とする請求項9に記載の音声処理装置。
  11. 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置の音声処理方法において、
    連続する前記入力音声を認識する認識ステップと、
    前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、
    前記判定ステップの処理において前記認識結果に前記未知語が含まれていると判定された場合、前記未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成ステップと、
    前記判定ステップの処理により、前記未知語が含まれていると判定された場合、前記未知語に対応する単語を獲得する獲得ステップと、
    前記獲得ステップの処理により獲得された前記単語を他の情報に関連付けて登録する登録ステップと
    を含むことを特徴とする音声処理方法。
  12. 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置のプログラムであって、
    連続する前記入力音声を認識する認識ステップと、
    前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、
    前記判定ステップの処理において前記認識結果に前記未知語が含まれていると判定された場合、前記未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成ステップと、
    前記判定ステップの処理により、前記未知語が含まれていると判定された場合、前記未知語に対応する単語を獲得する獲得ステップと、
    前記獲得ステップの処理により獲得された前記単語を他の情報に関連付けて登録する登録ステップと
    を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
  13. 入力音声を処理し、その処理結果に基づいて、前記入力音声に含まれる単語を登録する音声処理装置のプログラムであって、
    連続する前記入力音声を認識する認識ステップと、
    前記認識ステップの処理により認識された認識結果に、未知語が含まれているか否かを判定する判定ステップと、
    前記判定ステップの処理において前記認識結果に前記未知語が含まれていると判定された場合、前記未知語の単語境界に対応する時刻のサブワードを含むパスと、そのサブワードを含まないパスを有するネットワークを生成するネットワーク生成ステップと、
    前記判定ステップの処理により、前記未知語が含まれていると判定された場合、前記未知語に対応する単語を獲得する獲得ステップと、
    前記獲得ステップの処理により獲得された前記単語を他の情報に関連付けて登録する登録ステップと
    をコンピュータに実行させることを特徴とするプログラム。
JP2002337892A 2002-11-21 2002-11-21 音声処理装置および方法、記録媒体並びにプログラム Expired - Fee Related JP4072718B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2002337892A JP4072718B2 (ja) 2002-11-21 2002-11-21 音声処理装置および方法、記録媒体並びにプログラム
AU2003280726A AU2003280726A1 (en) 2002-11-21 2003-11-12 Voice processing device and method, recording medium, and program
CNB2003801003011A CN100354929C (zh) 2002-11-21 2003-11-12 语音处理设备、语言处理方法
KR1020047011216A KR101014086B1 (ko) 2002-11-21 2003-11-12 음성 처리 장치 및 방법, 및 기록 매체
DE60318385T DE60318385T2 (de) 2002-11-21 2003-11-12 Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
PCT/JP2003/014342 WO2004047075A1 (ja) 2002-11-21 2003-11-12 音声処理装置および方法、記録媒体並びにプログラム
EP03772681A EP1460615B1 (en) 2002-11-21 2003-11-12 Voice processing device and method, recording medium, and program
US10/502,169 US7653541B2 (en) 2002-11-21 2003-11-12 Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002337892A JP4072718B2 (ja) 2002-11-21 2002-11-21 音声処理装置および方法、記録媒体並びにプログラム

Publications (2)

Publication Number Publication Date
JP2004170765A true JP2004170765A (ja) 2004-06-17
JP4072718B2 JP4072718B2 (ja) 2008-04-09

Family

ID=32321860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002337892A Expired - Fee Related JP4072718B2 (ja) 2002-11-21 2002-11-21 音声処理装置および方法、記録媒体並びにプログラム

Country Status (8)

Country Link
US (1) US7653541B2 (ja)
EP (1) EP1460615B1 (ja)
JP (1) JP4072718B2 (ja)
KR (1) KR101014086B1 (ja)
CN (1) CN100354929C (ja)
AU (1) AU2003280726A1 (ja)
DE (1) DE60318385T2 (ja)
WO (1) WO2004047075A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006038895A (ja) * 2004-07-22 2006-02-09 Sony Corp 音声処理装置および音声処理方法、プログラム、並びに記録媒体
WO2007055233A1 (ja) * 2005-11-08 2007-05-18 Nec Corporation 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2008158510A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声認識システム及び音声認識システム用プログラム
EP3496092A1 (en) 2017-12-05 2019-06-12 Casio Computer Co., Ltd. Voice processing apparatus, voice processing method and program
JP6807586B1 (ja) * 2020-01-30 2021-01-06 ベルフェイス株式会社 情報処理装置、情報処理方法及びプログラム
JPWO2021059968A1 (ja) * 2019-09-27 2021-04-01

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
WO2007066297A1 (en) * 2005-12-08 2007-06-14 Koninklijke Philips Electronics N.V. Speech recognition system with huge vocabulary
US8756058B2 (en) * 2006-02-23 2014-06-17 Nec Corporation Speech recognition system, speech recognition result output method, and speech recognition result output program
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
US8868410B2 (en) * 2007-08-31 2014-10-21 National Institute Of Information And Communications Technology Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary
CN101452702B (zh) * 2007-12-05 2011-08-10 财团法人工业技术研究院 语音模型的调整方法及其调整模块
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
JP5810912B2 (ja) * 2011-12-28 2015-11-11 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
KR102117082B1 (ko) 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6655835B2 (ja) * 2016-06-16 2020-02-26 パナソニックIpマネジメント株式会社 対話処理方法、対話処理システム、及びプログラム
US11232783B2 (en) 2018-09-12 2022-01-25 Samsung Electronics Co., Ltd. System and method for dynamic cluster personalization

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0384707A (ja) * 1989-08-28 1991-04-10 Victor Co Of Japan Ltd 垂直磁気記録方式
JPH06266386A (ja) 1993-03-16 1994-09-22 Nippon Telegr & Teleph Corp <Ntt> ワードスポッティング方法
ES2143079T3 (es) * 1994-11-01 2000-05-01 British Telecomm Reconocimiento de voz.
JP3576272B2 (ja) 1995-06-22 2004-10-13 シャープ株式会社 音声認識装置および方法
JP2886117B2 (ja) 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
JPH09274496A (ja) 1996-04-09 1997-10-21 Fuji Xerox Co Ltd 音声認識装置
JP2999726B2 (ja) 1996-09-18 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置
JP3428309B2 (ja) 1996-09-24 2003-07-22 松下電器産業株式会社 音声認識装置
US5956668A (en) * 1997-07-18 1999-09-21 At&T Corp. Method and apparatus for speech translation with unrecognized segments
JPH1185179A (ja) 1997-09-16 1999-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデルの作成方法
US5983180A (en) * 1997-10-23 1999-11-09 Softsound Limited Recognition of sequential data using finite state sequence models organized in a tree structure
WO1999028898A1 (fr) * 1997-11-27 1999-06-10 Hitachi, Ltd. Systeme et procede de reconnaissance vocale
JP3476008B2 (ja) 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
DE60016722T2 (de) * 2000-06-07 2005-12-15 Sony International (Europe) Gmbh Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE10042942C2 (de) * 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006038895A (ja) * 2004-07-22 2006-02-09 Sony Corp 音声処理装置および音声処理方法、プログラム、並びに記録媒体
WO2007055233A1 (ja) * 2005-11-08 2007-05-18 Nec Corporation 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US8155958B2 (en) 2005-11-08 2012-04-10 Nec Corporation Speech-to-text system, speech-to-text method, and speech-to-text program
JP2008158510A (ja) * 2006-11-30 2008-07-10 National Institute Of Advanced Industrial & Technology 音声認識システム及び音声認識システム用プログラム
US8401847B2 (en) 2006-11-30 2013-03-19 National Institute Of Advanced Industrial Science And Technology Speech recognition system and program therefor
JP2019101285A (ja) * 2017-12-05 2019-06-24 カシオ計算機株式会社 音声処理装置、音声処理方法及びプログラム
CN109887495A (zh) * 2017-12-05 2019-06-14 卡西欧计算机株式会社 声音处理装置、声音处理方法及记录介质
EP3496092A1 (en) 2017-12-05 2019-06-12 Casio Computer Co., Ltd. Voice processing apparatus, voice processing method and program
CN109887495B (zh) * 2017-12-05 2023-04-07 卡西欧计算机株式会社 声音处理装置、声音处理方法及记录介质
JPWO2021059968A1 (ja) * 2019-09-27 2021-04-01
WO2021059968A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム
JP7416078B2 (ja) 2019-09-27 2024-01-17 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム
JP6807586B1 (ja) * 2020-01-30 2021-01-06 ベルフェイス株式会社 情報処理装置、情報処理方法及びプログラム
WO2021153621A1 (ja) * 2020-01-30 2021-08-05 ベルフェイス株式会社 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2021120709A (ja) * 2020-01-30 2021-08-19 ベルフェイス株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US7653541B2 (en) 2010-01-26
AU2003280726A1 (en) 2004-06-15
DE60318385T2 (de) 2009-01-02
CN100354929C (zh) 2007-12-12
US20050143998A1 (en) 2005-06-30
EP1460615A4 (en) 2007-04-25
JP4072718B2 (ja) 2008-04-09
KR20050083547A (ko) 2005-08-26
EP1460615B1 (en) 2008-01-02
EP1460615A1 (en) 2004-09-22
CN1692405A (zh) 2005-11-02
KR101014086B1 (ko) 2011-02-14
DE60318385D1 (de) 2008-02-14
WO2004047075A1 (ja) 2004-06-03

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Xiong Fundamentals of speech recognition
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US8019602B2 (en) Automatic speech recognition learning using user corrections
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
Hirsimaki et al. Importance of high-order n-gram models in morph-based speech recognition
Young HMMs and related speech recognition technologies
US20010037200A1 (en) Voice recognition apparatus and method, and recording medium
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2001517816A (ja) 連続および分離音声を認識するための音声認識システム
Demuynck Extracting, modelling and combining information in speech recognition
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
AbuZeina et al. Cross-word modeling for Arabic speech recognition
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
Lecorvé et al. Adaptive statistical utterance phonetization for French
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
JPH09114482A (ja) 音声認識のための話者適応化方法
Abuzeina Utilizing data-driven and knowledge-based techniques to enhance Arabic speech recognition
Fabian Confidence measurement techniques in automatic speech recognition and dialog management
JPH09212190A (ja) 音声認識装置及び文認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130201

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140201

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees