JP2005326497A - 音声認識方法、音声認識装置、音声認識プログラム、記録媒体 - Google Patents
音声認識方法、音声認識装置、音声認識プログラム、記録媒体 Download PDFInfo
- Publication number
- JP2005326497A JP2005326497A JP2004142640A JP2004142640A JP2005326497A JP 2005326497 A JP2005326497 A JP 2005326497A JP 2004142640 A JP2004142640 A JP 2004142640A JP 2004142640 A JP2004142640 A JP 2004142640A JP 2005326497 A JP2005326497 A JP 2005326497A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- recognition
- grammar
- category
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識方法において、音声認識用文法に、あらゆる音声を受理する任意音声受理認識カテゴリを記述し、前記音声認識用文法で認識可能な単語もしくは単語列以外の入力音声を任意発声受理認識カテゴリで任意発声として認識処理させることを特徴とする音声認識方法を提案する。
【選択図】 図1
Description
ここで、「都道府県」から「市区町村」、「大字・字」、「丁目・番地・号」までの住所を認識する音声認識装置を考える。このとき、利用方法がよくわからないユーザがこの音声認識装置を利用した場合、「丁目・番地・号」だけでなく、マンションなど「建物名」まで発声するかもしれない。このように音声認識装置では受理できない「建物名」まで発声されると「丁目・番地・号」までの認識においても誤認識の原因となる。この誤認識をさけるためには、「建物名」を認識対象に含めて音声認識用文法を用意する必要があるが、「都道府県」「市区町村」「大字・字」「丁目・番地・号」は市販のデータベースをもとに全てを認識対象とする音声認識用文法を作成可能であるものの、「建物名」は日々新しく作成されるものであり、それらを随時、認識対象単語として含めた文法を用意するには人件費等のコストがかかるため、現実的ではない。
従来の認識対象単語および文法を定義し、その中から最も可能性の高い単語もしくは単語列を出力する音声認識装置で、上記2例の音声認識装置を実装した場合、本来、認識するべき「建物名」直前までの住所や「姓」のみの認識性能の劣化は避けられず、その誤認識を避けるためには、コストが必要となる頻繁な音声認識用辞書の更新が必要である。
本発明の請求項2では請求項1記載の音声認識方法において、任意発声受理認識カテゴリが認識した音声認識区間の尤度に重みを付与することを特徴とする音声認識方法を提案する。
本発明の請求項4では請求項1又は2記載の音声認識方法の何れかにおいて、任意発声受理認識カテゴリを、全ての音声カテゴリを1個あるいは複数個にクラスタ化した音声カテゴリクラスタの文法で構成し、音声カテゴリクラスタに相当する音響モデルを用いることを特徴とする音声認識方法を提案する。
本発明の請求項6では請求項5に記載の音声認識装置において、任意発声受理認識カテゴリが認識した音声認識区間の尤度を算出する尤度計算部と、この尤度計算部で算出した尤度に重み付けを行なう重み付与部とを備えることを特徴とする音声認識装置を提案する。
本発明の請求項8では請求項5又は6記載の音声認識装置の何れかにおいて、全ての音声カテゴリを1個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法を記憶する置き換え文法記憶部と、任意発声受理認識カテゴリを置換え文法記憶部に記憶されている全ての音声カテゴリを1個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法で置き換える文法変換部と、音声カテゴリクラスタに相当する音響モデルを用意しておく音響モデル記憶部とを備えることを特徴とする音声認識装置を提案する。
図中100は音声認識装置を示す。従来より知られているように音声認識装置100はA/D変換部101と、特徴量パラメータ抽出部102と、尤度計算部103と、音声認識用文法記憶部104と、音響モデル記憶部105とを備えて構成され、特徴量パラメータ抽出部102で抽出した入力音声の特徴量を音声認識用文法記憶部104に記憶した音声認識用文法(音声認識用辞書とも言う)に含まれる全ての単語と、音響モデル記憶部105に記憶した音響モデルと照合し、全ての照合結果の尤度を尤度計算部103で算出し、算出した尤度の最も高い値を示す単語、もしくは単語列を音声認識結果として抽出する。
本発明の特徴とする部分の動作を以下に説明する。まず音声認識処理前に、文法変換部106に設けた音声認識用文法記述部106A(図2参照)に認識対象となる複数の単語をリスト形式もしくは文法形式で記述した音声認識用文法(音声認識用辞書)を読み込む。更に、この音声認識用文法記述部106Aに記述した音声認識用文法の一部に置換え文法記述部106Bを設けているから、この置換え文法記述部106Bに置換え文法記憶部200から置換え文法J1〜J5(図2参照)の何れかを読み込むことができる。これにより、本発明では音声認識用文法内にあらゆる発声を受理する置換え文法(以下、任意発声受理認識カテゴリ)が含まれている文法を読み込むことができる。任意発声受理認識カテゴリが含まれている文法を読み込んだ場合、あらかじめ置換え文法記憶部200で用意された、複数の音声カテゴリの任意繰り返し文法J1又はJ2(例えば音節タイプライタ、半音節タイプライタ、音素タイプライタなど)、もしくは音声カテゴリクラスタ(例えば全音素クラスタ、全母音クラスタと全子音クラスタ、任意Nクラスタ)の任意繰り返し文法の中J3又はJ4、J5(以下、これらを任意発声受理認識カテゴリ置き換え文法とする)から、音声認識用文法読み込み前にあらかじめ指定された文法で任意発声受理認識カテゴリを置き換え、音声認識に利用できる文法に変換する。尚、置換え文法記憶部200に記憶した各置換え文法J1、J2…J5は従来から良く知られている技術で生成することができる。
一方、任意発声受理認識カテゴリに置き換わる文法には、認識速度や認識精度に応じて幾つかの種類を用意することができるが、図2では例として5つの文法J1〜J5を用意した例を示している。音声カテゴリの任意繰り返し文法の例として、任意発声受理認識カテゴリ置換え文法J1の音節タイプライタ、任意発声受理認識カテゴリ置き換え文法J2の音素タイプライタがある。
以上は音節タイプライタの例であるが、音声カテゴリの任意繰返し文法200Aにはその他に半音節タイプライタ、音素タイプライタ等を用いることができる。半音節タイプライタとは図3に示した音節「あ、い、う、え…ん、が、ぎ、ぐ、げ、ご、ぱ、ぴ、ぷ、ぺ、ぽ」の部分に半音節が配置され、入力音声が半音節毎に認識処理される。また、音素タイプライタは図3に示した各音節の部分に音素「A、I、U、E、O、K、A、K、S、T、N、…」が配置され音素毎に認識処理される。
このような音声カテゴリクラスタには、それらに対応する音響モデルが用意されている。図4は音声認識において音響モデルとして一般的に利用される隠れマルコフモデル(Hidden Markov Model、以下HMMと略す)の例である。HMMについては、例えば文献1(中川聖一:“確率モデルによる音声認識”電子情報通信学会編)に詳細が示されている。図4はある音声カテゴリのHMMであり、例えば音素、音韻、音節、半音節などの音声カテゴリごと、もしくは前後の音声カテゴリを考慮した環境ごとにこのようなHMMが用意される。HMMは単体もしくは複数の状態を有し、時刻が進むごとに他の状態や自状態へ遷移しながら、各状態が持つ標準音声パターンと入力音声特徴量パラメータと照合し、尤度を計算する。
音声認識時には、ユーザが発声した音声は、音声信号入力端子から入力され、A/D変換部101においてデジタル信号に変換され、特徴量パラメータ抽出部102において音声認識特徴量パラメータに変換される。
次に、あらかじめ文法変換部106にて読み込まれ、音声認識用に変換された音声認識用文法と、別途読み込まれた音響モデルとを用いて、尤度計算部103において入力音声信号の認識対象単語もしくは単語列候補に対応する音響モデルに対する照合尤度を計算し、最終的に最も大きな尤度を示す音響モデルが表現する単語もしくは単語列を認識結果として出力する。
図8では「さとう けん」とユーザが発声しているが、図2に示した「さとう」と「さと」という認識対象が含まれている音声認識用文法を用いると、図8Bに示したように認識候補として認識候補1「さとう [任意発声受理認識カテゴリ]」と認識候補2「さと [任意発声受理認識カテゴリ]」が現れる。尤度計算部103において、認識候補1は「さとう」の認識区間の尤度20284、任意発声受理カテゴリの認識区間の尤度は15862と計算され、全音声区間の尤度はそれらの和36252と計算される。以上により、全発声において尤度が最も高い認識候補2「さと」が認識結果となってしまう。このように、発声内容が「さとう けん」であっても任意発声受理認識カテゴリが「けん」でなく「う けん」の区間を認識してしまうことがあり、「さとう」という認識対象単語が認識されにくくなることがある。
上記では任意発声受理認識カテゴリの重要度を低くするために任意発声受理認識カテゴリに重みを乗じていたが、任意発声受理認識カテゴリ区間以外の認識区間の重要度を高めるために任意発声受理認識カテゴリ以外の認識区間に1以上の重みを乗じることでも同じ効果を得ることができる。
上記した本発明で提案する音声認識方法は、プログラム言語によって記述された音声認識プログラムをコンピュータに実行させることにより実現される。音声認識プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はCD−ROMのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールされるか又は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたCPUに解読されて実行される。
101 A/D変換部 106A 音声認識用文法記述部
102 特徴量パラメータ抽出部 106B 置換え文法記述部
103 尤度計算部 107 重み付与部
104 音声認識用文法記憶部 200 置換え文法記憶部
105 音響モデル記憶部
Claims (10)
- 音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識方法において、
前記音声認識用文法に、あらゆる音声を受理する任意音声受理認識カテゴリを記述し、前記音声認識用文法で認識可能な単語もしくは単語列以外の入力音声を前記任意発声受理認識カテゴリで任意発声として認識処理させることを特徴とする音声認識方法。 - 請求項1記載の音声認識方法において、
前記任意発声受理認識カテゴリが認識した音声認識区間の尤度に重みを付与することを特徴とする音声認識方法。 - 請求項1又は2記載の音声認識方法の何れかにおいて、
前記任意発声受理認識カテゴリを、音声カテゴリの任意繰返し文法で構成することを特徴とすることを特徴とする音声認識方法。 - 請求項1又は2記載の音声認識方法の何れかにおいて、
前記任意発声受理認識カテゴリを、全ての音声カテゴリを1個あるいは複数個にクラスタ化した音声カテゴリクラスタの文法で構成し、前記音声カテゴリクラスタに相当する音響モデルを用いることを特徴とする音声認識方法。 - 音声認識用文法と音響モデルとを備え、前記音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識装置において、
前記音声認識用文法に、あらゆる発生を受理する任意発声受理認識カテゴリを付加し、前記音声認識用文法で認識可能な単語もしくは単語以外の入力音声を前記任意発声受理認識カテゴリで任意発声として処理させることを特徴とする音声認識装置。 - 請求項5に記載の音声認識装置において、
前記任意発声受理認識カテゴリが認識した音声認識区間の尤度を算出する尤度計算部と、この尤度計算部で算出した尤度に重み付けを行なう重み付与部とを備えることを特徴とする音声認識装置。 - 請求項5又は6記載の音声認識装置の何れかにおいて、
ある音声カテゴリの任意繰り返し文法を記憶する置換え文法記憶部と、
前記任意発声受理認識カテゴリを、前記置換え文法記憶部に記憶されている前記音声カテゴリの任意繰返し文法で置き換える文法変換部と、
を備えることを特徴とする音声認識装置。 - 請求項5又は6記載の音声認識装置の何れかにおいて、
全ての音声カテゴリを1個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法を記憶する置き換え文法記憶部と、
前記任意発声受理認識カテゴリを前記置換え文法記憶部に記憶されている全ての音声カテゴリを1個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法で置き換える文法変換部と、
前記音声カテゴリクラスタに相当する音響モデルを用意しておく音響モデル記憶部と、
を備えることを特徴とする音声認識装置。 - コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項1乃至4記載の音声認識方法を実行させる音声認識プログラム。
- コンピュータが読み取り可能な記録媒体に請求項9記載の音声認識プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004142640A JP2005326497A (ja) | 2004-05-12 | 2004-05-12 | 音声認識方法、音声認識装置、音声認識プログラム、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004142640A JP2005326497A (ja) | 2004-05-12 | 2004-05-12 | 音声認識方法、音声認識装置、音声認識プログラム、記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005326497A true JP2005326497A (ja) | 2005-11-24 |
Family
ID=35472921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004142640A Pending JP2005326497A (ja) | 2004-05-12 | 2004-05-12 | 音声認識方法、音声認識装置、音声認識プログラム、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005326497A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280104A (ja) * | 2006-04-07 | 2007-10-25 | Pioneer Electronic Corp | 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体 |
JP2008085613A (ja) * | 2006-09-27 | 2008-04-10 | Toyota Motor Corp | 音声認識装置、音声認識方法、移動体、及びロボット |
-
2004
- 2004-05-12 JP JP2004142640A patent/JP2005326497A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007280104A (ja) * | 2006-04-07 | 2007-10-25 | Pioneer Electronic Corp | 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体 |
JP2008085613A (ja) * | 2006-09-27 | 2008-04-10 | Toyota Motor Corp | 音声認識装置、音声認識方法、移動体、及びロボット |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7275034B2 (en) | Word-specific acoustic models in a speech recognition system | |
Chen et al. | Advances in speech transcription at IBM under the DARPA EARS program | |
KR101056080B1 (ko) | 음운 기반의 음성 인식 시스템 및 방법 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
JP4481035B2 (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
Siivola et al. | Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner | |
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
JP2005258443A (ja) | 発音グラフを使用して新しい単語の発音学習を改善すること | |
JP2002520664A (ja) | 言語に依存しない音声認識 | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
JP2017009842A (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
Wang et al. | A comparison of phone and grapheme-based spoken term detection | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
Raux | Automated lexical adaptation and speaker clustering based on pronunciation habits for non-native speech recognition. | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
JP2006031278A (ja) | 音声検索システムおよび方法ならびにプログラム | |
JP2005326497A (ja) | 音声認識方法、音声認識装置、音声認識プログラム、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090428 |