JP2005326497A - 音声認識方法、音声認識装置、音声認識プログラム、記録媒体 - Google Patents

音声認識方法、音声認識装置、音声認識プログラム、記録媒体 Download PDF

Info

Publication number
JP2005326497A
JP2005326497A JP2004142640A JP2004142640A JP2005326497A JP 2005326497 A JP2005326497 A JP 2005326497A JP 2004142640 A JP2004142640 A JP 2004142640A JP 2004142640 A JP2004142640 A JP 2004142640A JP 2005326497 A JP2005326497 A JP 2005326497A
Authority
JP
Japan
Prior art keywords
speech
recognition
grammar
category
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004142640A
Other languages
English (en)
Inventor
Yoshikazu Yamaguchi
義和 山口
Akihiro Imamura
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004142640A priority Critical patent/JP2005326497A/ja
Publication of JP2005326497A publication Critical patent/JP2005326497A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】認識候補以外の音声を聞き流すことができる音声認識方法及び装置。
【解決手段】音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識方法において、音声認識用文法に、あらゆる音声を受理する任意音声受理認識カテゴリを記述し、前記音声認識用文法で認識可能な単語もしくは単語列以外の入力音声を任意発声受理認識カテゴリで任意発声として認識処理させることを特徴とする音声認識方法を提案する。
【選択図】 図1

Description

本発明は、音声認識用文法と音響モデルを読み込み、文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルおよび言語モデルとで照合を行い、最も尤度の高い単語もしくは単語列を認識結果として出力する音声認識方法および装置に関する。
従来の音声認識方法ではあらかじめ受理できる単語や文法規則などを音声認識用文法(音声認識用辞書とも言う)として定義し、その中から最も可能性の高い単語もしくは単語列を出力するよう音声認識を行なっている。
しかし、ユーザが実際にこのような音声認識を利用する場合、あらかじめ音声認識用文法を作成する際には想定できない認識対象外の発話をする可能性がある。
ここで、「都道府県」から「市区町村」、「大字・字」、「丁目・番地・号」までの住所を認識する音声認識装置を考える。このとき、利用方法がよくわからないユーザがこの音声認識装置を利用した場合、「丁目・番地・号」だけでなく、マンションなど「建物名」まで発声するかもしれない。このように音声認識装置では受理できない「建物名」まで発声されると「丁目・番地・号」までの認識においても誤認識の原因となる。この誤認識をさけるためには、「建物名」を認識対象に含めて音声認識用文法を用意する必要があるが、「都道府県」「市区町村」「大字・字」「丁目・番地・号」は市販のデータベースをもとに全てを認識対象とする音声認識用文法を作成可能であるものの、「建物名」は日々新しく作成されるものであり、それらを随時、認識対象単語として含めた文法を用意するには人件費等のコストがかかるため、現実的ではない。
また、姓名の「姓」のみを認識しようとした際にも同様である。「姓」のみを発声するようユーザに施したとしても、「名」を発声する可能性がある。誤認識を避けるため「名」の文法を整備しようとしても、「名」も日々、新たに作られているものであり、文法の整備は非常に困難である。
従来の認識対象単語および文法を定義し、その中から最も可能性の高い単語もしくは単語列を出力する音声認識装置で、上記2例の音声認識装置を実装した場合、本来、認識するべき「建物名」直前までの住所や「姓」のみの認識性能の劣化は避けられず、その誤認識を避けるためには、コストが必要となる頻繁な音声認識用辞書の更新が必要である。
本発明の目的は、このような発声の一部のみを性能良く認識し、かつ頻繁な音声認識用辞書の更新を必要としない音声認識装置を実現するために、発声の一部のみを認識し、その他の部分の発声を「聞き流す」処理を実現することにある。
本発明の請求項1では音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識方法において、音声認識用文法に、あらゆる音声を受理する任意音声受理認識カテゴリを記述し、音声認識用文法で認識可能な単語もしくは単語列以外の入力音声を前記任意発声受理認識カテゴリで任意発声として認識処理させることを特徴とする音声認識方法を提案する。
本発明の請求項2では請求項1記載の音声認識方法において、任意発声受理認識カテゴリが認識した音声認識区間の尤度に重みを付与することを特徴とする音声認識方法を提案する。
本発明の請求項3では請求項1又は2記載の音声認識方法の何れかにおいて、任意発声受理認識カテゴリを、音声カテゴリの任意繰返し文法で構成することを特徴とすることを特徴とする音声認識方法を提案する。
本発明の請求項4では請求項1又は2記載の音声認識方法の何れかにおいて、任意発声受理認識カテゴリを、全ての音声カテゴリを1個あるいは複数個にクラスタ化した音声カテゴリクラスタの文法で構成し、音声カテゴリクラスタに相当する音響モデルを用いることを特徴とする音声認識方法を提案する。
本発明の請求項5では音声認識用文法と音響モデルとを備え、音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識装置において、音声認識用文法に、あらゆる発声を受理する任意発声受理認識カテゴリを付加し、音声認識用文法で認識可能な単語もしくは単語以外の入力音声を任意発声受理認識カテゴリで任意発声として処理させることを特徴とする音声認識装置を提案する。
本発明の請求項6では請求項5に記載の音声認識装置において、任意発声受理認識カテゴリが認識した音声認識区間の尤度を算出する尤度計算部と、この尤度計算部で算出した尤度に重み付けを行なう重み付与部とを備えることを特徴とする音声認識装置を提案する。
本発明の請求項7では請求項5又は6記載の音声認識装置の何れかにおいて、ある音声カテゴリの任意繰り返し文法を記憶する置換え文法記憶部と、任意発声受理認識カテゴリを、置換え文法記憶部に記憶されている前記音声カテゴリの任意繰返し文法で置き換える文法変換部とを備えることを特徴とする音声認識装置を提案する。
本発明の請求項8では請求項5又は6記載の音声認識装置の何れかにおいて、全ての音声カテゴリを1個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法を記憶する置き換え文法記憶部と、任意発声受理認識カテゴリを置換え文法記憶部に記憶されている全ての音声カテゴリを1個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法で置き換える文法変換部と、音声カテゴリクラスタに相当する音響モデルを用意しておく音響モデル記憶部とを備えることを特徴とする音声認識装置を提案する。
本発明によれば、音声認識用文法にあらゆる発声を受理できる任意発声受理認識カテゴリを記述可能にすることで、文法の整理をせずに認識する必要のない単語(列)を聞き流し、認識すべき単語(列)のみを認識することが可能となる。また、その際に、任意発声受理認識カテゴリ区間の尤度に重みを付与することによって、本来認識する必要のない区間の重要度を下げることで任意発声受理認識カテゴリが認識に与える悪影響を回避し、より精度の高い音声認識が可能となる。
図1に本発明による音声認識装置の構成例を示す。なお、本発明は言語モデルを利用した音声認識装置にも適用可能であるが、以下では言語モデルを利用しない場合での例を説明する。
図中100は音声認識装置を示す。従来より知られているように音声認識装置100はA/D変換部101と、特徴量パラメータ抽出部102と、尤度計算部103と、音声認識用文法記憶部104と、音響モデル記憶部105とを備えて構成され、特徴量パラメータ抽出部102で抽出した入力音声の特徴量を音声認識用文法記憶部104に記憶した音声認識用文法(音声認識用辞書とも言う)に含まれる全ての単語と、音響モデル記憶部105に記憶した音響モデルと照合し、全ての照合結果の尤度を尤度計算部103で算出し、算出した尤度の最も高い値を示す単語、もしくは単語列を音声認識結果として抽出する。
ここで、この発明の特徴とする構成は文法変換部106と、重み付与部107と、置換え文法記憶部200を設けた構成とし、更に文法変換部106に図2に示すように、音声認識用文法記述部106Aを設けると共に、この音声認識用文法記述部106Aの一部に置換え文法記述部106Bを設け、文法変換部106に設けた音声認識用文法記憶部106Aに音声認識用文法記憶部104から音声認識用文法を読み込んで記述すると共に、この音声認識用文法記述部106Aの一部に設けた置換え文法記述部106Bに置換え文法記憶部200から任意発声受理認識カテゴリ置換え文法を読み込んで記述することを可能とした点である。
このような構成とすることにより、音声認識文法により音声認識候補を抽出する際に、音声認識候補として抽出した単語もしくは単語列に引き続いて音声が存在したとしても、その音声部分は任意発声受理カテゴリ置換え文法で聞き流し処理することができ、この聞き流し処理により音声認識用文法の認識率の低下を阻止することができる。
本発明の特徴とする部分の動作を以下に説明する。まず音声認識処理前に、文法変換部106に設けた音声認識用文法記述部106A(図2参照)に認識対象となる複数の単語をリスト形式もしくは文法形式で記述した音声認識用文法(音声認識用辞書)を読み込む。更に、この音声認識用文法記述部106Aに記述した音声認識用文法の一部に置換え文法記述部106Bを設けているから、この置換え文法記述部106Bに置換え文法記憶部200から置換え文法J1〜J5(図2参照)の何れかを読み込むことができる。これにより、本発明では音声認識用文法内にあらゆる発声を受理する置換え文法(以下、任意発声受理認識カテゴリ)が含まれている文法を読み込むことができる。任意発声受理認識カテゴリが含まれている文法を読み込んだ場合、あらかじめ置換え文法記憶部200で用意された、複数の音声カテゴリの任意繰り返し文法J1又はJ2(例えば音節タイプライタ、半音節タイプライタ、音素タイプライタなど)、もしくは音声カテゴリクラスタ(例えば全音素クラスタ、全母音クラスタと全子音クラスタ、任意Nクラスタ)の任意繰り返し文法の中J3又はJ4、J5(以下、これらを任意発声受理認識カテゴリ置き換え文法とする)から、音声認識用文法読み込み前にあらかじめ指定された文法で任意発声受理認識カテゴリを置き換え、音声認識に利用できる文法に変換する。尚、置換え文法記憶部200に記憶した各置換え文法J1、J2…J5は従来から良く知られている技術で生成することができる。
上記文法変換部106での処理の一例を図2を用いて説明する。ここでは「姓」のみを認識し、ユーザが不必要に発声した「名」を「聞き流す」ための音声認識用文法を読み込んでいる。音声認識用文法内の「*」は上記任意発声受理認識カテゴリであり、この文法は「姓」を発声した後に何を発生しても音声認識として受理可能である。尚、文法中の「|」は並列受理を、「<…>」は「…」の任意繰り返しを示している。
一方、任意発声受理認識カテゴリに置き換わる文法には、認識速度や認識精度に応じて幾つかの種類を用意することができるが、図2では例として5つの文法J1〜J5を用意した例を示している。音声カテゴリの任意繰り返し文法の例として、任意発声受理認識カテゴリ置換え文法J1の音節タイプライタ、任意発声受理認識カテゴリ置き換え文法J2の音素タイプライタがある。
ここで置換え文法J1〜J5について簡単に説明する。図3は音節タイプライタの例を示す。音節には「あ、い、う、え…ん、が、ぎ、ぐ、げ、ご、ぱ、ぴ、ぷ、ぺ、ぽ、きゃ、ぎゅ、ぎょ、…、ぴょ」等の各音節A1…Anが配置され、音節タイプライタの始動から終了までどのような音声が入力されても音声を音節に区切り、音節として認識する。各音節の認識結果は各音節毎に尤度を算出し、各音節の尤度の総和が音節タイプライタの認識結果として出力される。
以上は音節タイプライタの例であるが、音声カテゴリの任意繰返し文法200Aにはその他に半音節タイプライタ、音素タイプライタ等を用いることができる。半音節タイプライタとは図3に示した音節「あ、い、う、え…ん、が、ぎ、ぐ、げ、ご、ぱ、ぴ、ぷ、ぺ、ぽ」の部分に半音節が配置され、入力音声が半音節毎に認識処理される。また、音素タイプライタは図3に示した各音節の部分に音素「A、I、U、E、O、K、A、K、S、T、N、…」が配置され音素毎に認識処理される。
音声カテゴリクラスタの任意繰り返し文法の例としては、任意発声受理認識カテゴリ置換え文法J3の全音素クラスタの任意繰り返し、任意発声受理認識カテゴリ置換え文法J4の全母音クラスタと全子音クラスタの任意繰り返し、任意発声受理認識カテゴリ置換え文法J5のN個の音声カテゴリクラスタの繰り返しがある。これらは上述の任意発声受理認識カテゴリ置換え文法J1、J2と異なり、音声カテゴリを1個にまとめた、もしくは音響的な特徴を用いてN個にクラスタ化したのものである。
このような音声カテゴリクラスタには、それらに対応する音響モデルが用意されている。図4は音声認識において音響モデルとして一般的に利用される隠れマルコフモデル(Hidden Markov Model、以下HMMと略す)の例である。HMMについては、例えば文献1(中川聖一:“確率モデルによる音声認識”電子情報通信学会編)に詳細が示されている。図4はある音声カテゴリのHMMであり、例えば音素、音韻、音節、半音節などの音声カテゴリごと、もしくは前後の音声カテゴリを考慮した環境ごとにこのようなHMMが用意される。HMMは単体もしくは複数の状態を有し、時刻が進むごとに他の状態や自状態へ遷移しながら、各状態が持つ標準音声パターンと入力音声特徴量パラメータと照合し、尤度を計算する。
図2に示した任意発声受理認識カテゴリ置換え文法J3は例えば音素、音韻、音節、半音節ごとに用意されたHMMとは異なり、図5に示すように全音素クラスタには全ての音素を一つのHMM−1として用意し、任意発声受理認識カテゴリ置換文法J4の全母音・全子音クラスタは図6に示すように全ての子音を1つのHMM−3でそれぞれ用意するものである。さらに、任意発声受理認識カテゴリ置換え文法J5はこれらをより一般化したのもであり、音声の特徴量パラメータを用いて、あるクラスタ手法によりN個にグループ別にクラスタ化して、それらを図7に示すようにN個のHMM−4、HMM−5、HMM−nとして用意してものである。よって、任意発声受理認識カテゴリ置換え文法をこうした音声カテゴリクラスタの任意繰り返し文法で置き換える場合、これら音声カテゴリクラスタに対応したHMMをあらかじめ用意し、音声認識に用いる。
文法変換部106では、このように置換え文法記憶部200にて複数用意された任意発声受理認識カテゴリ置換え文法で音声認識用文法内の任意発声受理認識カテゴリを置き換えて、音声認識可能な文法に変換しておく。
音声認識時には、ユーザが発声した音声は、音声信号入力端子から入力され、A/D変換部101においてデジタル信号に変換され、特徴量パラメータ抽出部102において音声認識特徴量パラメータに変換される。
次に、あらかじめ文法変換部106にて読み込まれ、音声認識用に変換された音声認識用文法と、別途読み込まれた音響モデルとを用いて、尤度計算部103において入力音声信号の認識対象単語もしくは単語列候補に対応する音響モデルに対する照合尤度を計算し、最終的に最も大きな尤度を示す音響モデルが表現する単語もしくは単語列を認識結果として出力する。
本発明では認識結果を出力する前に、重み付与部107において任意発声受理認識カテゴリにあたる認識区間の尤度に重みを付与し、任意発声受理認識カテゴリの重要度を低くすることで誤認識を回避する。図8は、図2に示した音声認識用文法を用い、重みを付与することで誤認識を避けている図である。図8に示す*は任意発声受話カテゴリ区間を示す。
図8では「さとう けん」とユーザが発声しているが、図2に示した「さとう」と「さと」という認識対象が含まれている音声認識用文法を用いると、図8Bに示したように認識候補として認識候補1「さとう [任意発声受理認識カテゴリ]」と認識候補2「さと [任意発声受理認識カテゴリ]」が現れる。尤度計算部103において、認識候補1は「さとう」の認識区間の尤度20284、任意発声受理カテゴリの認識区間の尤度は15862と計算され、全音声区間の尤度はそれらの和36252と計算される。以上により、全発声において尤度が最も高い認識候補2「さと」が認識結果となってしまう。このように、発声内容が「さとう けん」であっても任意発声受理認識カテゴリが「けん」でなく「う けん」の区間を認識してしまうことがあり、「さとう」という認識対象単語が認識されにくくなることがある。
そこで、本発明では図8Cに示すように重み付与部107において任意発声受理認識カテゴリ区間の尤度に重みを付与し、任意発声受理認識カテゴリ区間の重量度を下げる操作をする。認識候補1および2にそれぞれの任意発声受理認識カテゴリ区間の尤度15862、15967に0.9を乗ずると、全発声区間における尤度は認識候補1が34660、認識候補2が34655となり、最も高い認識候補1「さとう」が認識結果となる。
上記では任意発声受理認識カテゴリの重要度を低くするために任意発声受理認識カテゴリに重みを乗じていたが、任意発声受理認識カテゴリ区間以外の認識区間の重要度を高めるために任意発声受理認識カテゴリ以外の認識区間に1以上の重みを乗じることでも同じ効果を得ることができる。
上記実施例のほかに、任意発声受理認識カテゴリを音声認識用文法中の任意の場所に挿入することで、「えーっと」、「あのー」などの不要語対策にも本発明を利用することができる。
上記した本発明で提案する音声認識方法は、プログラム言語によって記述された音声認識プログラムをコンピュータに実行させることにより実現される。音声認識プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はCD−ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールされるか又は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたCPUに解読されて実行される。
この発明による音声認識方法、音声認識装置は認識対象単語に対する認識精度が向上するから、音声案内装置、音声対話装置等に活用することができる。
この発明による音声認識装置の一例を説明するためのブロック図。 図1に示した音声認識装置に用いた文法変換部と置換え文法記録部の内部の構成を説明するためのブロック図。 図1に示した音節タイプライタの構成及び動作を説明するための図。 この発明による置換え文法に用いることができる音響モデルの一例であるHMMを説明するための図。 この発明の置換え文法に用いることができる全音素クラスタで構成したHMMを説明するための図。 この発明の置換え文法に用いることができる全母音クラスタ及び全子音クラスタで構成したHMMを説明するための図。 この発明の置換え文法に用いることができるグループ別クラスタで構成したHMMを説明するための図。 この発明の音声認識方法を説明するための図。
符号の説明
100 音声認識装置 106 文法変換部
101 A/D変換部 106A 音声認識用文法記述部
102 特徴量パラメータ抽出部 106B 置換え文法記述部
103 尤度計算部 107 重み付与部
104 音声認識用文法記憶部 200 置換え文法記憶部
105 音響モデル記憶部

Claims (10)

  1. 音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識方法において、
    前記音声認識用文法に、あらゆる音声を受理する任意音声受理認識カテゴリを記述し、前記音声認識用文法で認識可能な単語もしくは単語列以外の入力音声を前記任意発声受理認識カテゴリで任意発声として認識処理させることを特徴とする音声認識方法。
  2. 請求項1記載の音声認識方法において、
    前記任意発声受理認識カテゴリが認識した音声認識区間の尤度に重みを付与することを特徴とする音声認識方法。
  3. 請求項1又は2記載の音声認識方法の何れかにおいて、
    前記任意発声受理認識カテゴリを、音声カテゴリの任意繰返し文法で構成することを特徴とすることを特徴とする音声認識方法。
  4. 請求項1又は2記載の音声認識方法の何れかにおいて、
    前記任意発声受理認識カテゴリを、全ての音声カテゴリを1個あるいは複数個にクラスタ化した音声カテゴリクラスタの文法で構成し、前記音声カテゴリクラスタに相当する音響モデルを用いることを特徴とする音声認識方法。
  5. 音声認識用文法と音響モデルとを備え、前記音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識装置において、
    前記音声認識用文法に、あらゆる発生を受理する任意発声受理認識カテゴリを付加し、前記音声認識用文法で認識可能な単語もしくは単語以外の入力音声を前記任意発声受理認識カテゴリで任意発声として処理させることを特徴とする音声認識装置。
  6. 請求項5に記載の音声認識装置において、
    前記任意発声受理認識カテゴリが認識した音声認識区間の尤度を算出する尤度計算部と、この尤度計算部で算出した尤度に重み付けを行なう重み付与部とを備えることを特徴とする音声認識装置。
  7. 請求項5又は6記載の音声認識装置の何れかにおいて、
    ある音声カテゴリの任意繰り返し文法を記憶する置換え文法記憶部と、
    前記任意発声受理認識カテゴリを、前記置換え文法記憶部に記憶されている前記音声カテゴリの任意繰返し文法で置き換える文法変換部と、
    を備えることを特徴とする音声認識装置。
  8. 請求項5又は6記載の音声認識装置の何れかにおいて、
    全ての音声カテゴリを1個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法を記憶する置き換え文法記憶部と、
    前記任意発声受理認識カテゴリを前記置換え文法記憶部に記憶されている全ての音声カテゴリを1個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法で置き換える文法変換部と、
    前記音声カテゴリクラスタに相当する音響モデルを用意しておく音響モデル記憶部と、
    を備えることを特徴とする音声認識装置。
  9. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至4記載の音声認識方法を実行させる音声認識プログラム。
  10. コンピュータが読み取り可能な記録媒体に請求項9記載の音声認識プログラムを記録した記録媒体。
JP2004142640A 2004-05-12 2004-05-12 音声認識方法、音声認識装置、音声認識プログラム、記録媒体 Pending JP2005326497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004142640A JP2005326497A (ja) 2004-05-12 2004-05-12 音声認識方法、音声認識装置、音声認識プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004142640A JP2005326497A (ja) 2004-05-12 2004-05-12 音声認識方法、音声認識装置、音声認識プログラム、記録媒体

Publications (1)

Publication Number Publication Date
JP2005326497A true JP2005326497A (ja) 2005-11-24

Family

ID=35472921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004142640A Pending JP2005326497A (ja) 2004-05-12 2004-05-12 音声認識方法、音声認識装置、音声認識プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP2005326497A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280104A (ja) * 2006-04-07 2007-10-25 Pioneer Electronic Corp 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2008085613A (ja) * 2006-09-27 2008-04-10 Toyota Motor Corp 音声認識装置、音声認識方法、移動体、及びロボット

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280104A (ja) * 2006-04-07 2007-10-25 Pioneer Electronic Corp 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2008085613A (ja) * 2006-09-27 2008-04-10 Toyota Motor Corp 音声認識装置、音声認識方法、移動体、及びロボット

Similar Documents

Publication Publication Date Title
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
KR101056080B1 (ko) 음운 기반의 음성 인식 시스템 및 방법
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5949961A (en) Word syllabification in speech synthesis system
JP6188831B2 (ja) 音声検索装置および音声検索方法
JP4481035B2 (ja) 単語間音素情報を利用した連続音声認識方法および装置
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
Siivola et al. Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JP2005258443A (ja) 発音グラフを使用して新しい単語の発音学習を改善すること
JP2002520664A (ja) 言語に依存しない音声認識
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2017009842A (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Wang et al. A comparison of phone and grapheme-based spoken term detection
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
Raux Automated lexical adaptation and speaker clustering based on pronunciation habits for non-native speech recognition.
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP2006031278A (ja) 音声検索システムおよび方法ならびにプログラム
JP2005326497A (ja) 音声認識方法、音声認識装置、音声認識プログラム、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090428