JP3881155B2 - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置 Download PDFInfo
- Publication number
- JP3881155B2 JP3881155B2 JP2000144783A JP2000144783A JP3881155B2 JP 3881155 B2 JP3881155 B2 JP 3881155B2 JP 2000144783 A JP2000144783 A JP 2000144783A JP 2000144783 A JP2000144783 A JP 2000144783A JP 3881155 B2 JP3881155 B2 JP 3881155B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- speech
- kana character
- pattern
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は音声認識方法及び装置に係わり、特に、文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法及び装置に関する。
【0002】
【従来の技術】
カーナビゲーションシステム等の車載機器では近年、リモコンでの操作に替わって、音声認識装置を利用して操作することが盛んに行われるようになってきている。音声認識装置は通常ユーザーが特定の単語音声を発生するとその単語を認識し、認識単語を音声合成してトークバックし、ユーザーはトークバックにより認識単語の確認を行い、正しければその旨の入力を行い、システムは認識単語に応じた制御を行う。一方、トークバックの単語がユーザ発声の単語と異なる場合には再度入力を行う。
かかる音声認識装置における音声認識方法は、予めデータベース(音声辞書データベース)に単語などの文字列とその音声パターンの対応を登録しておき、入力音声と類似度が最も高い音声パターンを検索し、該音声パターンを有する文字列を入力音声の文字列であると認識するものである。
【0003】
【発明が解決しようとする課題】
しかし、従来の音声認識の対象となる単語は辞書データベースに登録されている単語に限定されている。このため、間違って単語音声が音声辞書データベースに登録されると正しく音声認識ができない。市販の音声辞書データベースは読み仮名が不適切な場合が多く、例えば「札幌市」の読み仮名を「さつぽろし」と促音文字を大きくし、その音声パターン(SATUPORO)を音声辞書データベースに登録する。又、促音文字だけでなく拗音文字を大きくした読み仮名にし、例えば「京都」の読み仮名を「きようと」と拗音文字を大きくし、その音声パターン(KIYOUTO)を音声辞書データベースに登録する。逆に、読み仮名は大きくするのが正しいにもかかわらず小さくしてその音声パターンを音声辞書データベースに登録することもある。以上のように、促音文字、拗音文字を間違えて読み仮名を大きくしたり、小さくした場合には、間違った単語/音声パターンが多数登録され、認識率の低下をきたし、しかも、トークバックの音声が不自然になり、ユーザに違和感を与え、更には、音声認識装置の性能に疑念、不安感を与える。
【0004】
以上から本発明の目的は、促音文字、拗音文字の読み仮名を間違えて大きくしたり、小さくして音声辞書データベースに登録する場合であっても、音声認識率を向上でき、しかも、トークバック時に自然な違和感の無い音声を出力できるようにすることである。
【0005】
【課題を解決するための手段】
本発明は、仮名文字列と音声パターンの対応を音声辞書データベースに登録しておき、入力音声と類似度が高い音声パターンを有する仮名文字列を入力音声の仮名文字列であると認識する音声認識方法及び装置であり、(1) 音素と音素パターンの対応を音素パターンデータベースに登録し、(2) 入力音声と類似度が高い音声パターンを有する複数の仮名文字列候補を音声辞書データベースを参照して求め、(3) 各候補仮名文字列に促音文字又は拗音文字が含まれているか調べ、(4) 含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補仮名文字列を作成し、(5) 仮想候補仮名文字列を音素に分解し、音素パターンデータベースを参照して各音素に応じた音素パターンを求め、求めた音素パターンを合成して該仮想候補仮名文字列の音声パターンを作成し、(6) 前記候補仮名文字列及び仮想候補仮名文字列の中から前記入力音声と最も類似度の高い音声パターンを有する仮名文字列を求め、該仮名文字列に基づいて入力音声を認識する。尚、前記仮想候補仮名文字列に、促音文字又は拗音文字が小さければ大きくしてなる仮想候補仮名文字列を含ませることもできる。
【0006】
又、本発明は、前記類似度最良の文字列が仮想候補文字列であれば、該仮想候補文字列の促音文字又は拗音文字変更前の候補文字列を認識文字列として出力し、仮想候補文字列でなければ、類似度最良の文字列を認識文字列として出力する。
又、本発明は、認識音声をトークバックする際、前記類似度最良の音声パターンに基づいて音声合成して出力する。以上のようにすれば、促音文字、拗音文字の読み仮名を間違えて大きくしたり、小さくして音声辞書データベースに登録する場合であっても、音声認識率を向上でき、しかも、トークバック時に自然な違和感の無い音声を出力できる。
【0007】
【発明の実施の形態】
(A)本発明の概略
文字列( 仮名文字列 )と音声パターンの対応を音声辞書データベースに登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法において、実際の音声パターンと異なる音声パターンが音声辞書データベースに登録されていると正しい音声認識ができなくなる。例えば、文字列に含まれる促音文字、拗音文字を間違えて大きくしたり、小さくし、その読み仮名で発声した音声パターンを音声辞書データベースに登録する場合には、正しく音声認識ができず認識率の低下をきたし、更には、トークバックの音声が不自然になり、ユーザに違和感を与える。
そこで、本発明では、類似度(認識ポイント)の高い複数の文字列のうち、促音文字、拗音文字が入っている文字列に含まれている促音文字、拗音文字の大きいもの(つあいうえおやゆよ)を小さいものに、小さいもの(っぁぃぅぇぉゃゅょ)を大きいものに変更し、変更後の所定文字列の認識ポイントが、変更前、変更後の全文字列のうち最も認識ポイントが高ければ、該所定文字列の変更前の文字列を認識文字列として出力する。又、トークバック時に認識ポイントが最高の前記所定文字列の音声を合成して出力する。
【0008】
(B)音声認識装置の構成
図1は本発明の音声認識装置をナビゲーション装置に接続したシステム構成図であり、ナビゲーションユニット11、音声認識装置21を有している。音声認識装置21において、マイクロホン31は話者音声を検出し、登録単語データベース32は単語(文字列)と単語IDとの対応を記憶し、音声辞書データベース33は単語IDと単語の音声パターンを対応付けて記憶し、音素パターンデータベース34は音素と音素パターンを対応付けて記憶する。音素とは、文字列をローマ字表記したとき、3つのアルファベットよりなる部分である。例えば、図2に示すように、「SAPPORO」は▲1▼ SA, ▲2▼SAP, ▲3▼APP ,▲4▼PPO ,▲5▼POR ,▲6▼ORO, ▲7▼RO が音素になる。不特定多数の話者に多数の単語を発声させ、各音声パターンを音素毎に分解し、同一音素のパターンを平均化して音素パターンを求め、該音素パターンを音素に対応付けて音素パターンデータベース34に登録する。
【0009】
音声認識エンジン35は、(1) パターンマッチングにより入力音声と類似する複数の候補文字列を検索すると共に、(2) 各候補文字列に含まれる促音文字/拗音文字の大小を変更し、(3) 変更後の文字列の音声パターンを音素パターンの合成により作成し、(4) 変更前、変更後の全候補文字列の中から類似度最高の文字列を検索して出力する。合成エンジン36は類似度最高の文字列の音声を合成し、スピーカ37は合成音声を出力する(トークバック)。
【0010】
(C)音声認識処理
図3及び図4は本発明の音声認識処理のフロー図である。
ナビゲーション装置11より音声入力する旨が通知された後、音声が入力すると(ステップ101)、音声認識エンジン35は音声辞書データベース33より入力音声に類似する複数の候補(例えば5個)を検索し(ステップ102)、類似度順に並べる(ステップ103)。ついで、i=1とし(ステップ104)、第i候補文字列に促音文字、拗音文字が含まれているかチェックし(ステップ105)、含まれていれば、▲1▼促音文字、拗音文字が大きければ小さくし(つあいうえおやゆよ→っぁぃぅぇぉゃゅょ)、▲2▼小さければ大きくして仮想の候補文字列を作成する(ステップ106)。尚、上記▲1▼,▲2▼の仮想候補文字列のうち、▲1▼の仮想候補文字列のみを作成するだけでも良い。又、促音のみあるいは拗音のみ変更して仮想候補文字列を作成することもできる。更に、拗音は全部でなく間違って登録されやすい一部の拗音のみを変更対象として仮想候補文字列を作成することもできる。
【0011】
ついで、仮想候補文字列をローマ字表記において音素に分割し(ステップ107)、各音素の音素パターンを音素パターンデータベース34から求め、各音素パターンを合成して仮想候補文字列の音声パターンを作成して保存する(ステップ108)。図5は仮想候補文字列の音声パターン作成処理の説明図であり、 「さつぽろ」が候補文字列となった場合である。「さつぽろ」には促音文字「つ」が含まれているから、該促音文字を小さくした「さっぽろ」を仮想候補文字列として作成する。ついで、「さっぽろ」をローマ字表記し(SAPPORO)、音素▲1▼ SA, ▲2▼SAP, ▲3▼APP ,▲4▼PPO ,▲5▼POR ,▲6▼ORO, ▲7▼RO に分解し、各音素の音素パターンを音素パターンデータベース34より求めて合成することにより仮想候補文字列の音声パターンを作成する。
i=5となって仮想候補文字列の音声パターンの作成が完了すれば、5個の候補文字列と新たに作成した幾つかの仮想候補文字列を対象として音声認識処理を行い(ステップ111)、記憶してある入力音声パターンと最も類似する音声パターンを有する文字列を検索する(ステップ112)。
【0012】
ついで、類似度最良の文字列が仮想候補文字列であるかチェックし(ステップ113)、仮想候補文字列であれば、該仮想候補文字列の基になる候補文字列(促音、拗音文字変更前の候補文字列)を入力文字列と認定し(ステップ114)、仮想候補文字列でなければ、類似度最良の文字列を入力文字列として認定する(ステップ115)。
しかる後、音声認識エンジン35は合成エンジン36に類似度最良の文字列を通知し、該合成エンジンは類似度最良の文字列の音声パターンを合成して出力(トークバック)する(ステップ116)。
以後、ユーザはトークバックされた音声が正しいか、誤っているか判断し、正しければキー操作によりあるいは音声で「OK」を入力する。これにより、音声認識エンジン35は、ステップ114又はステップ115で認定した入力文字列に応じたコードをナビゲーション装置11に送り、ナビゲーション装置は該コードに応じた制御処理を実行する。
【0013】
以上、本発明によれば、促音/拗音文字を含む単語の認識ポイントが比較的高くなったとき、促音/拗音文字の大小を入れ替えることにより認識率を上げることができる。又、本発明では、促音/拗音文字を含む単語の認識ポイントが低いときは、これら文字の大小入替えを行わないため通常の認識速度に悪影響を与えることはない。又、本発明によれば、音声認識と音声合成をペアで行うことにより違和感の無い正しい合成音を出力できる。又、本発明によれば、音声辞書データベースを作成する際、促音/拗音を気にする必要が無い。
以上、本発明を実施例により説明したが、本発明は請求の範囲に記載した本発明の主旨に従い種々の変形が可能であり、本発明はこれらを排除するものではない。
【0014】
【発明の効果】
以上本発明によれば、促音/拗音が不適切なままに単語/音声パターンが音声辞書データベース登録されている場合であっても、音声認識率を上げ、トークバック時に自然な合成音を発生することが出来る。
又、本発明によれば、音声辞書データベースを作成する際、促音/拗音を気にする必要が無い。
【図面の簡単な説明】
【図1】本発明のシステム構成図である。
【図2】音素説明図である。
【図3】本発明の音声認識処理(その1)である。
【図4】本発明の音声認識処理(その2)である。
【図5】仮想候補文字列の音声パターン作成処理説明図である。
【符号の説明】
11・・ナビゲーションユニット
21・・音声認識装置
31・・マイクロホン
32・・登録単語データベース
33・・音声辞書データベース
34・・音素パターンデータベース
35・・音声認識エンジン
36・・合成エンジン
37・・スピーカ
Claims (6)
- 仮名文字列と音声パターンを対応づけて登録しておき、入力音声と類似度が高い音声パターンを有する仮名文字列を入力音声の仮名文字列であると認識する音声認識装置の音声認識方法において、
前記音声認識装置の音声認識部は、
入力音声と類似度が高い音声パターンに対応する複数の仮名文字列の候補を求め、
各候補仮名文字列に促音文字又は拗音文字が含まれているか調べ、
含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補仮名文字列を作成し、
仮想候補仮名文字列を音素に分解し、各音素に応じた音素パターンを合成して該仮想候補仮名文字列の音声パターンを作成し、
前記候補仮名文字列及び仮想候補仮名文字列の音声パターンの中から前記入力音声と最も類似度の高い音声パターンを求め、
該最も類似度の高い音声パターンに対応する仮名文字列が仮想候補仮名文字列であれば、該仮想候補仮名文字列の促音文字又は拗音文字変更前の候補仮名文字列を前記入力音声の仮名文字列と認識して出力し、
該最も類似度の高い音声パターンに対応する仮名文字列が仮想候補仮名文字列でなければ、該類似度最良の音声パターンに対応する候補仮名文字列を前記入力音声の仮名文字列と認識して出力する、
ことを特徴とする音声認識方法。 - 前記音声認識部は、前記仮想の候補仮名文字列の作成に際して、前記候補仮名文字列に含まれている促音文字又は拗音文字が小さければ大きくして仮想の候補仮名文字列を作成する、
ことを特徴とする請求項1記載の音声認識方法。 - 音声認識装置の音声合成部は、
前記最も類似度の高い音声パターンに対応する仮名文字列の音声を、該音声パターンを合成して出力することを特徴とする請求項1又は請求項2記載の音声認識方法。 - 仮名文字列と音声パターンを対応づけて登録しておき、入力音声と類似度が高い音声パターンを有する仮名文字列を入力音声の仮名文字列であると認識する音声認識装置において、
仮名文字列と音声パターンの対応を記憶する音声辞書データベース、
音素と音素パターンの対応を記憶する音素パターンデータベース、
入力音声を検出する音声検出部、
入力音声と類似度が高い音声パターンに対応する複数の仮名文字列の候補を前記音声辞書データベースより求め、各候補仮名文字列に促音文字又は拗音文字が含まれているか調べ、含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補仮名文字列を作成し、該仮想候補仮名文字列を音素に分解し、各音素に応じた音素パターンを前記音素パターンデータベースより求めて合成して該仮想候補仮名文字列の音声パターンを作成し、前記候補仮名文字列及び仮想候補仮名文字列の音声パターンの中から前記入力音声と最も類似度の高い音声パターンを求め、該最も類似度の高い音声パターンに対応する仮名文字列が仮想候補仮名文字列であれば、該仮想候補仮名文字列の促音文字又は拗音文字変更前の候補仮名文字列を前記入力音声の仮名文字列と認識して出力し、該最も類似度の高い音声パターンに対応する仮名文字列が仮想候補仮名文字列でなければ、該類似度最良の音声パターンに対応する候補仮名文字列を前記入力音声の仮名文字列と認識して出力する音声認識部、
を備えたことを特徴とする音声認識装置。 - 前記音声認識部は、前記仮想の候補仮名文字列の作成に際して、前記候補仮名文字列に含まれている促音文字又は拗音文字が小さければ大きくして仮想の候補仮名文字列を作成することを特徴とする請求項4記載の音声認識装置。
- 前記最も類似度の高い音声パターンに対応する仮名文字列の音声を、該音声パターンを合成して出力する音声合成部、
を備えたことを特徴とする請求項4または5記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000144783A JP3881155B2 (ja) | 2000-05-17 | 2000-05-17 | 音声認識方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000144783A JP3881155B2 (ja) | 2000-05-17 | 2000-05-17 | 音声認識方法及び装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001324995A JP2001324995A (ja) | 2001-11-22 |
JP2001324995A5 JP2001324995A5 (ja) | 2005-06-02 |
JP3881155B2 true JP3881155B2 (ja) | 2007-02-14 |
Family
ID=18651384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000144783A Expired - Fee Related JP3881155B2 (ja) | 2000-05-17 | 2000-05-17 | 音声認識方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3881155B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3894005B2 (ja) * | 2002-03-14 | 2007-03-14 | 株式会社デンソー | 車載用電子機器、車載用電子機器の音声認識結果報知方法、音声認識確認通知用プログラム及びナビゲーションシステム |
US7693715B2 (en) * | 2004-03-10 | 2010-04-06 | Microsoft Corporation | Generating large units of graphonemes with mutual information criterion for letter to sound conversion |
US8438027B2 (en) | 2005-05-27 | 2013-05-07 | Panasonic Corporation | Updating standard patterns of words in a voice recognition dictionary |
-
2000
- 2000-05-17 JP JP2000144783A patent/JP3881155B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001324995A (ja) | 2001-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US5949961A (en) | Word syllabification in speech synthesis system | |
KR100769029B1 (ko) | 다언어의 이름들의 음성 인식을 위한 방법 및 시스템 | |
US8321218B2 (en) | Searching in audio speech | |
JP5409931B2 (ja) | 音声認識装置及びナビゲーション装置 | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JP2017167188A (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
Liu et al. | Syllable language models for Mandarin speech recognition: Exploiting character language models | |
KR20090063546A (ko) | 음성인식 장치 및 방법 | |
JP3881155B2 (ja) | 音声認識方法及び装置 | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
Vancha et al. | Word-level speech dataset creation for sourashtra and recognition system using kaldi | |
JP2007086404A (ja) | 音声合成装置 | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
JP2009025411A (ja) | 音声認識装置およびプログラム | |
Lei | Modeling lexical tones for Mandarin large vocabulary continuous speech recognition | |
Lei et al. | DBN-based multi-stream models for Mandarin toneme recognition | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
Heidel et al. | Finding complex features for guest language fragment recovery in resource-limited code-mixed speech recognition | |
JP2001324995A5 (ja) | 音声認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040819 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040819 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061109 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091117 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131117 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |