JP2001324995A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP2001324995A
JP2001324995A JP2000144783A JP2000144783A JP2001324995A JP 2001324995 A JP2001324995 A JP 2001324995A JP 2000144783 A JP2000144783 A JP 2000144783A JP 2000144783 A JP2000144783 A JP 2000144783A JP 2001324995 A JP2001324995 A JP 2001324995A
Authority
JP
Japan
Prior art keywords
character string
voice
character
pattern
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000144783A
Other languages
English (en)
Other versions
JP2001324995A5 (ja
JP3881155B2 (ja
Inventor
Tetsuya Fujita
哲也 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2000144783A priority Critical patent/JP3881155B2/ja
Publication of JP2001324995A publication Critical patent/JP2001324995A/ja
Publication of JP2001324995A5 publication Critical patent/JP2001324995A5/ja
Application granted granted Critical
Publication of JP3881155B2 publication Critical patent/JP3881155B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 促音文字、拗音文字を間違えて辞書データベ
ースに登録する場合であっても、音声認識率を向上す
る。 【解決手段】 音素パターンデータベース34に予め音
素と音素パターンの対応を登録しておく。音声認識エン
ジン35は、(1) 入力音声と類似度が高い音声パターン
を有する複数の文字列候補を音声辞書データベース33
を参照して求め、(2) 各候補文字列に促音文字又は拗音
文字が含まれていれば、促音文字又は拗音文字の大小を
変更して仮想の候補文字列を作成し、(3) 仮想候補文字
列を音素に分解し、音素パターンデータベースを参照し
て各音素に応じた音素パターンを求め、求めた音素パタ
ーンを合成して該仮想候補文字列の音声パターンを作成
し、(4) 候補文字列及び仮想候補文字列の中から入力音
声と最も類似度の高い文字列を選択して入力音声を認識
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識方法に係わ
り、特に、文字列と音声パターンの対応を登録してお
き、入力音声と類似度が高い音声パターンを有する文字
列を入力音声の文字列であると認識する音声認識方法に
関する。
【0002】
【従来の技術】カーナビゲーションシステム等の車載機
器では近年、リモコンでの操作に替わって、音声認識装
置を利用して操作することが盛んに行われるようになっ
てきている。音声認識装置は通常ユーザーが特定の単語
音声を発生するとその単語を認識し、認識単語を音声合
成してトークバックし、ユーザーはトークバックにより
認識単語の確認を行い、正しければその旨の入力を行
い、システムは認識単語に応じた制御を行う。一方、ト
ークバックの単語がユーザ発声の単語と異なる場合には
再度入力を行う。かかる音声認識装置における音声認識
方法は、予めデータベース(音声辞書データベース)に単
語などの文字列とその音声パターンの対応を登録してお
き、入力音声と類似度が最も高い音声パターンを検索
し、該音声パターンを有する文字列を入力音声の文字列
であると認識するものである。
【0003】
【発明が解決しようとする課題】しかし、従来の音声認
識の対象となる単語は辞書データベースに登録されてい
る単語に限定されている。このため、間違って単語音声
が音声辞書データベースに登録されると正しく音声認識
ができない。市販の音声辞書データベースは読み仮名が
不適切な場合が多く、例えば「札幌市」の読み仮名を「さ
つぽろし」と促音文字を大きくし、その音声パターン(S
ATUPORO)を音声辞書データベースに登録する。又、促音
文字だけでなく拗音文字を大きくした読み仮名にし、例
えば「京都」の読み仮名を「きようと」と拗音文字を大きく
し、その音声パターン(KIYOUTO)を音声辞書データベー
スに登録する。逆に、読み仮名は大きくするのが正しい
にもかかわらず小さくしてその音声パターンを音声辞書
データベースに登録することもある。以上のように、促
音文字、拗音文字を間違えて読み仮名を大きくしたり、
小さくした場合には、間違った単語/音声パターンが多
数登録され、認識率の低下をきたし、しかも、トークバ
ックの音声が不自然になり、ユーザに違和感を与え、更
には、音声認識装置の性能に疑念、不安感を与える。
【0004】以上から本発明の目的は、促音文字、拗音
文字の読み仮名を間違えて大きくしたり、小さくして音
声辞書データベースに登録する場合であっても、音声認
識率を向上でき、しかも、トークバック時に自然な違和
感の無い音声を出力できるようにすることである。
【0005】
【課題を解決するための手段】本発明は、文字列と音声
パターンの対応を音声辞書データベースに登録してお
き、入力音声と類似度が高い音声パターンを有する文字
列を入力音声文字列であると認識する音声認識方法であ
り、(1) 音素と音素パターンの対応を音素パターンデー
タベースに登録するステップ、(2) 入力音声と類似度が
高い音声パターンを有する複数の文字列候補を音声辞書
データベースを参照して求めるステップ、(3) 各候補文
字列に促音文字又は拗音文字が含まれているか調べるス
テップ、(4) 含まれている場合には、促音文字又は拗音
文字が大きければ小さくして仮想の候補文字列を作成す
るステップ、(5) 仮想候補文字列を音素に分解し、音素
パターンデータベースを参照して各音素に応じた音素パ
ターンを求め、求めた音素パターンを合成して該仮想候
補文字列の音声パターンを作成するステップ、(6) 前記
候補文字列及び仮想候補文字列の中から前記入力音声と
最も類似度の高い文字列を求め、該文字列に基づいて入
力音声を認識するステップを有している。尚、前記仮想
候補文字列に、促音文字又は拗音文字が小さければ大き
くしてなる仮想候補文字列を含ませることもできる。
【0006】又、本発明は、前記類似度最良の文字列が
仮想候補文字列であれば、該仮想候補文字列の促音文字
又は拗音文字変更前の候補文字列を認識文字列として出
力し、仮想候補文字列でなければ、類似度最良の文字列
を認識文字列として出力する。又、本発明は、認識音声
をトークバックする際、前記類似度最良の文字列の音声
を合成して出力する。以上のようにすれば、促音文字、
拗音文字の読み仮名を間違えて大きくしたり、小さくし
て音声辞書データベースに登録する場合であっても、音
声認識率を向上でき、しかも、トークバック時に自然な
違和感の無い音声を出力できる
【0007】
【発明の実施の形態】(A)本発明の概略 文字列と音声パターンの対応を音声辞書データベースに
登録しておき、入力音声と類似度が高い音声パターンを
有する文字列を入力音声の文字列であると認識する音声
認識方法において、実際の音声パターンと異なる音声パ
ターンが音声辞書データベースに登録されていると正し
い音声認識ができなくなる。例えば、文字列に含まれる
促音文字、拗音文字を間違えて大きくしたり、小さく
し、その読み仮名で発声した音声パターンを音声辞書デ
ータベースに登録する場合には、正しく音声認識ができ
ず認識率の低下をきたし、更には、トークバックの音声
が不自然になり、ユーザに違和感を与える。そこで、本
発明では、類似度(認識ポイント)の高い複数の文字列の
うち、促音文字、拗音文字が入っている文字列に含まれ
ている促音文字、拗音文字の大きいもの(つあいうえお
やゆよ)を小さいものに、小さいもの(っぁぃぅぇぉゃ
ゅょ)を大きいものに変更し、変更後の所定文字列の認
識ポイントが、変更前、変更後の全文字列のうち最も認
識ポイントが高ければ、該所定文字列の変更前の文字列
を認識文字列として出力する。又、トークバック時に認
識ポイントが最高の前記所定文字列の音声を合成して出
力する。
【0008】(B)音声認識装置の構成 図1は本発明の音声認識装置をナビゲーション装置に接
続したシステム構成図であり、ナビゲーションユニット
11、音声認識装置21を有している。音声認識装置2
1において、マイクロホン31は話者音声を検出し、登
録単語データベース32は単語(文字列)と単語IDと
の対応を記憶し、音声辞書データベース33は単語ID
と単語の音声パターンを対応付けて記憶し、音素パター
ンデータベース34は音素と音素パターンを対応付けて
記憶する。音素とは、文字列をローマ字表記したとき、
3つのアルファベットよりなる部分である。例えば、図
2に示すように、「SAPPORO」は SA, SAP, APP ,
PPO ,POR ,ORO, RO が音素になる。不特定多数
の話者に多数の単語を発声させ、各音声パターンを音素
毎に分解し、同一音素のパターンを平均化して音素パタ
ーンを求め、該音素パターンを音素に対応付けて音素パ
ターンデータベース34に登録する。
【0009】音声認識エンジン35は、(1) パターンマ
ッチングにより入力音声と類似する複数の候補文字列を
検索すると共に、(2) 各候補文字列に含まれる促音文字
/拗音文字の大小を変更し、(3) 変更後の文字列の音声
パターンを音素パターンの合成により作成し、(4) 変更
前、変更後の全候補文字列の中から類似度最高の文字列
を検索して出力する。合成エンジン36は類似度最高の
文字列の音声を合成し、スピーカ37は合成音声を出力
する(トークバック)。
【0010】(C)音声認識処理 図3及び図4は本発明の音声認識処理のフロー図であ
る。ナビゲーション装置11より音声入力する旨が通知
された後、音声が入力すると(ステップ101)、音声
認識エンジン35は音声辞書データベース33より入力
音声に類似する複数の候補(例えば5個)を検索し(ス
テップ102)、類似度順に並べる(ステップ10
3)。ついで、i=1とし(ステップ104)、第i候
補文字列に促音文字、拗音文字が含まれているかチェッ
クし(ステップ105)、含まれていれば、促音文
字、拗音文字が大きければ小さくし(つあいうえおやゆ
よ→っぁぃぅぇぉゃゅょ)、小さければ大きくして仮
想の候補文字列を作成する(ステップ106)。尚、上
記,の仮想候補文字列のうち、の仮想候補文字列
のみを作成するだけでも良い。又、促音のみあるいは拗
音のみ変更して仮想候補文字列を作成することもでき
る。更に、拗音は全部でなく間違って登録されやすい一
部の拗音のみを変更対象として仮想候補文字列を作成す
ることもできる。
【0011】ついで、仮想候補文字列をローマ字表記に
おいて音素に分割し(ステップ107)、各音素の音素
パターンを音素パターンデータベース34から求め、各
音素パターンを合成して仮想候補文字列の音声パターン
を作成して保存する(ステップ108)。図5は仮想候
補文字列の音声パターン作成処理の説明図であり、「さ
つぽろ」が候補文字列となった場合である。「さつぽろ」
には促音文字「つ」が含まれているから、該促音文字を小
さくした「さっぽろ」を仮想候補文字列として作成する。
ついで、「さっぽろ」をローマ字表記し(SAPPORO)、音素
SA, SAP,APP ,PPO ,POR ,ORO, RO に分
解し、各音素の音素パターンを音素パターンデータベー
ス34より求めて合成することにより仮想候補文字列の
音声パターンを作成する。i=5となって仮想候補文字
列の音声パターンの作成が完了すれば、5個の候補文字
列と新たに作成した幾つかの仮想候補文字列を対象とし
て音声認識処理を行い(ステップ111)、記憶してあ
る入力音声パターンと最も類似する音声パターンを有す
る文字列を検索する(ステップ112)。
【0012】ついで、類似度最良の文字列が仮想候補文
字列であるかチェックし(ステップ113)、仮想候補
文字列であれば、該仮想候補文字列の基になる候補文字
列(促音、拗音文字変更前の候補文字列)を入力文字列
と認定し(ステップ114)、仮想候補文字列でなけれ
ば、類似度最良の文字列を入力文字列として認定する
(ステップ115)。しかる後、音声認識エンジン35
は合成エンジン36に類似度最良の文字列を通知し、該
合成エンジンは類似度最良の文字列の音声パターンを合
成して出力(トークバック)する(ステップ116)。
以後、ユーザはトークバックされた音声が正しいか、誤
っているか判断し、正しければキー操作によりあるいは
音声で「OK」を入力する。これにより、音声認識エン
ジン35は、ステップ114又はステップ115で認定
した入力文字列に応じたコードをナビゲーション装置1
1に送り、ナビゲーション装置は該コードに応じた制御
処理を実行する。
【0013】以上、本発明によれば、促音/拗音文字を
含む単語の認識ポイントが比較的高くなったとき、促音
/拗音文字の大小を入れ替えることにより認識率を上げ
ることができる。又、本発明では、促音/拗音文字を含
む単語の認識ポイントが低いときは、これら文字の大小
入替えを行わないため通常の認識速度に悪影響を与える
ことはない。又、本発明によれば、音声認識と音声合成
をペアで行うことにより違和感の無い正しい合成音を出
力できる。又、本発明によれば、音声辞書データベース
を作成する際、促音/拗音を気にする必要が無い。以
上、本発明を実施例により説明したが、本発明は請求の
範囲に記載した本発明の主旨に従い種々の変形が可能で
あり、本発明はこれらを排除するものではない。
【0014】
【発明の効果】以上本発明によれば、促音/拗音が不適
切なままに単語/音声パターンが音声辞書データベース
登録されている場合であっても、音声認識率を上げ、ト
ークバック時に自然な合成音を発生することが出来る。
又、本発明によれば、音声辞書データベースを作成する
際、促音/拗音を気にする必要が無い。
【図面の簡単な説明】
【図1】本発明のシステム構成図である。
【図2】音素説明図である。
【図3】本発明の音声認識処理(その1)である。
【図4】本発明の音声認識処理(その2)である。
【図5】仮想候補文字列の音声パターン作成処理説明図
である。
【符号の説明】
11・・ナビゲーションユニット 21・・音声認識装置 31・・マイクロホン 32・・登録単語データベース 33・・音声辞書データベース 34・・音素パターンデータベース 35・・音声認識エンジン 36・・合成エンジン 37・・スピーカ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文字列と音声パターンの対応を登録して
    おき、入力音声と類似度が高い音声パターンを有する文
    字列を入力音声の文字列であると認識する音声認識方法
    において、 入力音声と類似度が高い音声パターンを有する複数の文
    字列の候補を求め、 各候補文字列に促音文字又は拗音文字が含まれているか
    調べ、 含まれている場合には、促音文字又は拗音文字が大きけ
    れば小さくして仮想の候補文字列を作成し、 仮想候補文字列を音素に分解し、各音素に応じた音素パ
    ターンを合成して該仮想候補文字列の音声パターンを作
    成し、 前記候補文字列及び仮想候補文字列の中から前記入力音
    声と最も類似度の高い文字列を求め、該文字列に基づい
    て入力音声を認識する、 ことを特徴とする音声認識方法。
  2. 【請求項2】 前記仮想候補文字列は、促音文字又は拗
    音文字が小さければ大きくしてなる仮想候補文字列を含
    むことを特徴とする請求項1記載の音声認識方法。
  3. 【請求項3】 前記類似度最良の文字列が仮想候補文字
    列であれば、該仮想候補文字列の促音文字又は拗音文字
    変更前の候補文字列を認識文字列として出力し、類似度
    最良の文字列が仮想候補文字列でなければ、該類似度最
    良の文字列を認識文字列として出力する、 ことを特徴とする請求項1又は請求項2記載の音声認識
    方法。
  4. 【請求項4】 前記類似度最良の文字列の音声を合成し
    て出力することを特徴とする請求項1又は請求項2記載
    の音声認識方法。
JP2000144783A 2000-05-17 2000-05-17 音声認識方法及び装置 Expired - Fee Related JP3881155B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000144783A JP3881155B2 (ja) 2000-05-17 2000-05-17 音声認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000144783A JP3881155B2 (ja) 2000-05-17 2000-05-17 音声認識方法及び装置

Publications (3)

Publication Number Publication Date
JP2001324995A true JP2001324995A (ja) 2001-11-22
JP2001324995A5 JP2001324995A5 (ja) 2005-06-02
JP3881155B2 JP3881155B2 (ja) 2007-02-14

Family

ID=18651384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000144783A Expired - Fee Related JP3881155B2 (ja) 2000-05-17 2000-05-17 音声認識方法及び装置

Country Status (1)

Country Link
JP (1) JP3881155B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271193A (ja) * 2002-03-14 2003-09-25 Denso Corp 車載用電子機器、車載用電子機器の音声認識結果報知方法、音声認識確認通知用プログラム及びナビゲーションシステム
JP2005258439A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
WO2006126649A1 (ja) * 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271193A (ja) * 2002-03-14 2003-09-25 Denso Corp 車載用電子機器、車載用電子機器の音声認識結果報知方法、音声認識確認通知用プログラム及びナビゲーションシステム
JP2005258439A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
WO2006126649A1 (ja) * 2005-05-27 2006-11-30 Matsushita Electric Industrial Co., Ltd. 音声編集装置、音声編集方法、および、音声編集プログラム
US8438027B2 (en) 2005-05-27 2013-05-07 Panasonic Corporation Updating standard patterns of words in a voice recognition dictionary

Also Published As

Publication number Publication date
JP3881155B2 (ja) 2007-02-14

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5949961A (en) Word syllabification in speech synthesis system
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2005258443A (ja) 発音グラフを使用して新しい単語の発音学習を改善すること
JP2001312296A (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
US8219386B2 (en) Arabic poetry meter identification system and method
JP2004053742A (ja) 音声認識装置
JP2010164918A (ja) 音声翻訳装置、および方法
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
JP2001324995A (ja) 音声認識方法
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
EP3718107B1 (en) Speech signal processing and evaluation
JP3378547B2 (ja) 音声認識方法及び装置
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP2004294542A (ja) 音声認識装置及びそのプログラム
JP2737122B2 (ja) 音声辞書作成装置
JP2002189490A (ja) ピンイン音声入力の方法
JP2001324995A5 (ja) 音声認識方法及び装置
JPS62119591A (ja) 文章読上げ装置
JP2005221752A (ja) 音声認識装置、音声認識方法及びプログラム
JP2707552B2 (ja) 単語音声認識装置
JPS58186836A (ja) 音声入力デ−タ処理装置
JP2615649B2 (ja) 単語音声認識装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040819

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061109

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091117

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees