JP2001324995A

JP2001324995A - 音声認識方法

Info

Publication number: JP2001324995A
Application number: JP2000144783A
Authority: JP
Inventors: Tetsuya Fujita; 哲也藤田
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2000-05-17
Filing date: 2000-05-17
Publication date: 2001-11-22
Anticipated expiration: 2020-05-17
Also published as: JP3881155B2

Abstract

(57)【要約】【課題】促音文字、拗音文字を間違えて辞書データベ
ースに登録する場合であっても、音声認識率を向上す
る。【解決手段】音素パターンデータベース３４に予め音
素と音素パターンの対応を登録しておく。音声認識エン
ジン３５は、(1) 入力音声と類似度が高い音声パターン
を有する複数の文字列候補を音声辞書データベース３３
を参照して求め、(2) 各候補文字列に促音文字又は拗音
文字が含まれていれば、促音文字又は拗音文字の大小を
変更して仮想の候補文字列を作成し、(3) 仮想候補文字
列を音素に分解し、音素パターンデータベースを参照し
て各音素に応じた音素パターンを求め、求めた音素パタ
ーンを合成して該仮想候補文字列の音声パターンを作成
し、(4) 候補文字列及び仮想候補文字列の中から入力音
声と最も類似度の高い文字列を選択して入力音声を認識
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識方法に係わ
り、特に、文字列と音声パターンの対応を登録してお
き、入力音声と類似度が高い音声パターンを有する文字
列を入力音声の文字列であると認識する音声認識方法に
関する。

【０００２】

【従来の技術】カーナビゲーションシステム等の車載機
器では近年、リモコンでの操作に替わって、音声認識装
置を利用して操作することが盛んに行われるようになっ
てきている。音声認識装置は通常ユーザーが特定の単語
音声を発生するとその単語を認識し、認識単語を音声合
成してトークバックし、ユーザーはトークバックにより
認識単語の確認を行い、正しければその旨の入力を行
い、システムは認識単語に応じた制御を行う。一方、ト
ークバックの単語がユーザ発声の単語と異なる場合には
再度入力を行う。かかる音声認識装置における音声認識
方法は、予めデータベース(音声辞書データベース)に単
語などの文字列とその音声パターンの対応を登録してお
き、入力音声と類似度が最も高い音声パターンを検索
し、該音声パターンを有する文字列を入力音声の文字列
であると認識するものである。

【０００３】

【発明が解決しようとする課題】しかし、従来の音声認
識の対象となる単語は辞書データベースに登録されてい
る単語に限定されている。このため、間違って単語音声
が音声辞書データベースに登録されると正しく音声認識
ができない。市販の音声辞書データベースは読み仮名が
不適切な場合が多く、例えば「札幌市」の読み仮名を「さ
つぽろし」と促音文字を大きくし、その音声パターン(S
ATUPORO)を音声辞書データベースに登録する。又、促音
文字だけでなく拗音文字を大きくした読み仮名にし、例
えば「京都」の読み仮名を「きようと」と拗音文字を大きく
し、その音声パターン(KIYOUTO)を音声辞書データベー
スに登録する。逆に、読み仮名は大きくするのが正しい
にもかかわらず小さくしてその音声パターンを音声辞書
データベースに登録することもある。以上のように、促
音文字、拗音文字を間違えて読み仮名を大きくしたり、
小さくした場合には、間違った単語/音声パターンが多
数登録され、認識率の低下をきたし、しかも、トークバ
ックの音声が不自然になり、ユーザに違和感を与え、更
には、音声認識装置の性能に疑念、不安感を与える。

【０００４】以上から本発明の目的は、促音文字、拗音
文字の読み仮名を間違えて大きくしたり、小さくして音
声辞書データベースに登録する場合であっても、音声認
識率を向上でき、しかも、トークバック時に自然な違和
感の無い音声を出力できるようにすることである。

【０００５】

【課題を解決するための手段】本発明は、文字列と音声
パターンの対応を音声辞書データベースに登録してお
き、入力音声と類似度が高い音声パターンを有する文字
列を入力音声文字列であると認識する音声認識方法であ
り、(1) 音素と音素パターンの対応を音素パターンデー
タベースに登録するステップ、(2) 入力音声と類似度が
高い音声パターンを有する複数の文字列候補を音声辞書
データベースを参照して求めるステップ、(3) 各候補文
字列に促音文字又は拗音文字が含まれているか調べるス
テップ、(4) 含まれている場合には、促音文字又は拗音
文字が大きければ小さくして仮想の候補文字列を作成す
るステップ、(5) 仮想候補文字列を音素に分解し、音素
パターンデータベースを参照して各音素に応じた音素パ
ターンを求め、求めた音素パターンを合成して該仮想候
補文字列の音声パターンを作成するステップ、(6) 前記
候補文字列及び仮想候補文字列の中から前記入力音声と
最も類似度の高い文字列を求め、該文字列に基づいて入
力音声を認識するステップを有している。尚、前記仮想
候補文字列に、促音文字又は拗音文字が小さければ大き
くしてなる仮想候補文字列を含ませることもできる。

【０００６】又、本発明は、前記類似度最良の文字列が
仮想候補文字列であれば、該仮想候補文字列の促音文字
又は拗音文字変更前の候補文字列を認識文字列として出
力し、仮想候補文字列でなければ、類似度最良の文字列
を認識文字列として出力する。又、本発明は、認識音声
をトークバックする際、前記類似度最良の文字列の音声
を合成して出力する。以上のようにすれば、促音文字、
拗音文字の読み仮名を間違えて大きくしたり、小さくし
て音声辞書データベースに登録する場合であっても、音
声認識率を向上でき、しかも、トークバック時に自然な
違和感の無い音声を出力できる

【０００７】

【発明の実施の形態】（Ａ）本発明の概略文字列と音声パターンの対応を音声辞書データベースに
登録しておき、入力音声と類似度が高い音声パターンを
有する文字列を入力音声の文字列であると認識する音声
認識方法において、実際の音声パターンと異なる音声パ
ターンが音声辞書データベースに登録されていると正し
い音声認識ができなくなる。例えば、文字列に含まれる
促音文字、拗音文字を間違えて大きくしたり、小さく
し、その読み仮名で発声した音声パターンを音声辞書デ
ータベースに登録する場合には、正しく音声認識ができ
ず認識率の低下をきたし、更には、トークバックの音声
が不自然になり、ユーザに違和感を与える。そこで、本
発明では、類似度(認識ポイント)の高い複数の文字列の
うち、促音文字、拗音文字が入っている文字列に含まれ
ている促音文字、拗音文字の大きいもの（つあいうえお
やゆよ）を小さいものに、小さいもの（っぁぃぅぇぉゃ
ゅょ）を大きいものに変更し、変更後の所定文字列の認
識ポイントが、変更前、変更後の全文字列のうち最も認
識ポイントが高ければ、該所定文字列の変更前の文字列
を認識文字列として出力する。又、トークバック時に認
識ポイントが最高の前記所定文字列の音声を合成して出
力する。

【０００８】（Ｂ）音声認識装置の構成図１は本発明の音声認識装置をナビゲーション装置に接
続したシステム構成図であり、ナビゲーションユニット
１１、音声認識装置２１を有している。音声認識装置２
１において、マイクロホン３１は話者音声を検出し、登
録単語データベース３２は単語（文字列）と単語ＩＤと
の対応を記憶し、音声辞書データベース３３は単語ＩＤ
と単語の音声パターンを対応付けて記憶し、音素パター
ンデータベース３４は音素と音素パターンを対応付けて
記憶する。音素とは、文字列をローマ字表記したとき、
３つのアルファベットよりなる部分である。例えば、図
２に示すように、「SAPPORO」は SA, SAP, APP ,
PPO ,POR ,ORO, RO が音素になる。不特定多数
の話者に多数の単語を発声させ、各音声パターンを音素
毎に分解し、同一音素のパターンを平均化して音素パタ
ーンを求め、該音素パターンを音素に対応付けて音素パ
ターンデータベース３４に登録する。

【０００９】音声認識エンジン３５は、(1) パターンマ
ッチングにより入力音声と類似する複数の候補文字列を
検索すると共に、(2) 各候補文字列に含まれる促音文字
／拗音文字の大小を変更し、(3) 変更後の文字列の音声
パターンを音素パターンの合成により作成し、(4) 変更
前、変更後の全候補文字列の中から類似度最高の文字列
を検索して出力する。合成エンジン３６は類似度最高の
文字列の音声を合成し、スピーカ３７は合成音声を出力
する（トークバック）。

【００１０】（Ｃ）音声認識処理図３及び図４は本発明の音声認識処理のフロー図であ
る。ナビゲーション装置１１より音声入力する旨が通知
された後、音声が入力すると（ステップ１０１）、音声
認識エンジン３５は音声辞書データベース３３より入力
音声に類似する複数の候補（例えば５個）を検索し（ス
テップ１０２）、類似度順に並べる（ステップ１０
３）。ついで、ｉ＝１とし（ステップ１０４）、第ｉ候
補文字列に促音文字、拗音文字が含まれているかチェッ
クし（ステップ１０５）、含まれていれば、促音文
字、拗音文字が大きければ小さくし（つあいうえおやゆ
よ→っぁぃぅぇぉゃゅょ）、小さければ大きくして仮
想の候補文字列を作成する（ステップ１０６）。尚、上
記，の仮想候補文字列のうち、の仮想候補文字列
のみを作成するだけでも良い。又、促音のみあるいは拗
音のみ変更して仮想候補文字列を作成することもでき
る。更に、拗音は全部でなく間違って登録されやすい一
部の拗音のみを変更対象として仮想候補文字列を作成す
ることもできる。

【００１１】ついで、仮想候補文字列をローマ字表記に
おいて音素に分割し（ステップ１０７）、各音素の音素
パターンを音素パターンデータベース３４から求め、各
音素パターンを合成して仮想候補文字列の音声パターン
を作成して保存する（ステップ１０８）。図５は仮想候
補文字列の音声パターン作成処理の説明図であり、「さ
つぽろ」が候補文字列となった場合である。「さつぽろ」
には促音文字「つ」が含まれているから、該促音文字を小
さくした「さっぽろ」を仮想候補文字列として作成する。
ついで、「さっぽろ」をローマ字表記し(SAPPORO)、音素
SA, SAP,APP ,PPO ,POR ,ORO, RO に分
解し、各音素の音素パターンを音素パターンデータベー
ス３４より求めて合成することにより仮想候補文字列の
音声パターンを作成する。ｉ＝５となって仮想候補文字
列の音声パターンの作成が完了すれば、５個の候補文字
列と新たに作成した幾つかの仮想候補文字列を対象とし
て音声認識処理を行い（ステップ１１１）、記憶してあ
る入力音声パターンと最も類似する音声パターンを有す
る文字列を検索する（ステップ１１２）。

【００１２】ついで、類似度最良の文字列が仮想候補文
字列であるかチェックし（ステップ１１３）、仮想候補
文字列であれば、該仮想候補文字列の基になる候補文字
列（促音、拗音文字変更前の候補文字列）を入力文字列
と認定し（ステップ１１４）、仮想候補文字列でなけれ
ば、類似度最良の文字列を入力文字列として認定する
（ステップ１１５）。しかる後、音声認識エンジン３５
は合成エンジン３６に類似度最良の文字列を通知し、該
合成エンジンは類似度最良の文字列の音声パターンを合
成して出力（トークバック）する（ステップ１１６）。
以後、ユーザはトークバックされた音声が正しいか、誤
っているか判断し、正しければキー操作によりあるいは
音声で「ＯＫ」を入力する。これにより、音声認識エン
ジン３５は、ステップ１１４又はステップ１１５で認定
した入力文字列に応じたコードをナビゲーション装置１
１に送り、ナビゲーション装置は該コードに応じた制御
処理を実行する。

【００１３】以上、本発明によれば、促音／拗音文字を
含む単語の認識ポイントが比較的高くなったとき、促音
／拗音文字の大小を入れ替えることにより認識率を上げ
ることができる。又、本発明では、促音／拗音文字を含
む単語の認識ポイントが低いときは、これら文字の大小
入替えを行わないため通常の認識速度に悪影響を与える
ことはない。又、本発明によれば、音声認識と音声合成
をペアで行うことにより違和感の無い正しい合成音を出
力できる。又、本発明によれば、音声辞書データベース
を作成する際、促音／拗音を気にする必要が無い。以
上、本発明を実施例により説明したが、本発明は請求の
範囲に記載した本発明の主旨に従い種々の変形が可能で
あり、本発明はこれらを排除するものではない。

【００１４】

【発明の効果】以上本発明によれば、促音／拗音が不適
切なままに単語／音声パターンが音声辞書データベース
登録されている場合であっても、音声認識率を上げ、ト
ークバック時に自然な合成音を発生することが出来る。
又、本発明によれば、音声辞書データベースを作成する
際、促音／拗音を気にする必要が無い。

【図面の簡単な説明】

【図１】本発明のシステム構成図である。

【図２】音素説明図である。

【図３】本発明の音声認識処理（その１）である。

【図４】本発明の音声認識処理（その２）である。

【図５】仮想候補文字列の音声パターン作成処理説明図
である。

【符号の説明】

１１・・ナビゲーションユニット２１・・音声認識装置３１・・マイクロホン３２・・登録単語データベース３３・・音声辞書データベース３４・・音素パターンデータベース３５・・音声認識エンジン３６・・合成エンジン３７・・スピーカ

Claims

【特許請求の範囲】

【請求項１】文字列と音声パターンの対応を登録して
おき、入力音声と類似度が高い音声パターンを有する文
字列を入力音声の文字列であると認識する音声認識方法
において、入力音声と類似度が高い音声パターンを有する複数の文
字列の候補を求め、各候補文字列に促音文字又は拗音文字が含まれているか
調べ、含まれている場合には、促音文字又は拗音文字が大きけ
れば小さくして仮想の候補文字列を作成し、仮想候補文字列を音素に分解し、各音素に応じた音素パ
ターンを合成して該仮想候補文字列の音声パターンを作
成し、前記候補文字列及び仮想候補文字列の中から前記入力音
声と最も類似度の高い文字列を求め、該文字列に基づい
て入力音声を認識する、ことを特徴とする音声認識方法。
【請求項２】前記仮想候補文字列は、促音文字又は拗
音文字が小さければ大きくしてなる仮想候補文字列を含
むことを特徴とする請求項１記載の音声認識方法。
【請求項３】前記類似度最良の文字列が仮想候補文字
列であれば、該仮想候補文字列の促音文字又は拗音文字
変更前の候補文字列を認識文字列として出力し、類似度
最良の文字列が仮想候補文字列でなければ、該類似度最
良の文字列を認識文字列として出力する、ことを特徴とする請求項１又は請求項２記載の音声認識
方法。
【請求項４】前記類似度最良の文字列の音声を合成し
て出力することを特徴とする請求項１又は請求項２記載
の音声認識方法。