JP3881155B2

JP3881155B2 - 音声認識方法及び装置

Info

Publication number: JP3881155B2
Application number: JP2000144783A
Authority: JP
Inventors: 哲也藤田
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2000-05-17
Filing date: 2000-05-17
Publication date: 2007-02-14
Anticipated expiration: 2020-05-17
Also published as: JP2001324995A

Description

【０００１】
【発明の属する技術分野】
本発明は音声認識方法及び装置に係わり、特に、文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法及び装置に関する。
【０００２】
【従来の技術】
カーナビゲーションシステム等の車載機器では近年、リモコンでの操作に替わって、音声認識装置を利用して操作することが盛んに行われるようになってきている。音声認識装置は通常ユーザーが特定の単語音声を発生するとその単語を認識し、認識単語を音声合成してトークバックし、ユーザーはトークバックにより認識単語の確認を行い、正しければその旨の入力を行い、システムは認識単語に応じた制御を行う。一方、トークバックの単語がユーザ発声の単語と異なる場合には再度入力を行う。
かかる音声認識装置における音声認識方法は、予めデータベース(音声辞書データベース)に単語などの文字列とその音声パターンの対応を登録しておき、入力音声と類似度が最も高い音声パターンを検索し、該音声パターンを有する文字列を入力音声の文字列であると認識するものである。
【０００３】
【発明が解決しようとする課題】
しかし、従来の音声認識の対象となる単語は辞書データベースに登録されている単語に限定されている。このため、間違って単語音声が音声辞書データベースに登録されると正しく音声認識ができない。市販の音声辞書データベースは読み仮名が不適切な場合が多く、例えば「札幌市」の読み仮名を「さつぽろし」と促音文字を大きくし、その音声パターン(SATUPORO)を音声辞書データベースに登録する。又、促音文字だけでなく拗音文字を大きくした読み仮名にし、例えば「京都」の読み仮名を「きようと」と拗音文字を大きくし、その音声パターン(KIYOUTO)を音声辞書データベースに登録する。逆に、読み仮名は大きくするのが正しいにもかかわらず小さくしてその音声パターンを音声辞書データベースに登録することもある。以上のように、促音文字、拗音文字を間違えて読み仮名を大きくしたり、小さくした場合には、間違った単語/音声パターンが多数登録され、認識率の低下をきたし、しかも、トークバックの音声が不自然になり、ユーザに違和感を与え、更には、音声認識装置の性能に疑念、不安感を与える。
【０００４】
以上から本発明の目的は、促音文字、拗音文字の読み仮名を間違えて大きくしたり、小さくして音声辞書データベースに登録する場合であっても、音声認識率を向上でき、しかも、トークバック時に自然な違和感の無い音声を出力できるようにすることである。
【０００５】
【課題を解決するための手段】
本発明は、仮名文字列と音声パターンの対応を音声辞書データベースに登録しておき、入力音声と類似度が高い音声パターンを有する仮名文字列を入力音声の仮名文字列であると認識する音声認識方法及び装置であり、(1) 音素と音素パターンの対応を音素パターンデータベースに登録し、(2) 入力音声と類似度が高い音声パターンを有する複数の仮名文字列候補を音声辞書データベースを参照して求め、(3) 各候補仮名文字列に促音文字又は拗音文字が含まれているか調べ、(4) 含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補仮名文字列を作成し、(5) 仮想候補仮名文字列を音素に分解し、音素パターンデータベースを参照して各音素に応じた音素パターンを求め、求めた音素パターンを合成して該仮想候補仮名文字列の音声パターンを作成し、(6) 前記候補仮名文字列及び仮想候補仮名文字列の中から前記入力音声と最も類似度の高い音声パターンを有する仮名文字列を求め、該仮名文字列に基づいて入力音声を認識する。尚、前記仮想候補仮名文字列に、促音文字又は拗音文字が小さければ大きくしてなる仮想候補仮名文字列を含ませることもできる。
【０００６】
又、本発明は、前記類似度最良の文字列が仮想候補文字列であれば、該仮想候補文字列の促音文字又は拗音文字変更前の候補文字列を認識文字列として出力し、仮想候補文字列でなければ、類似度最良の文字列を認識文字列として出力する。
又、本発明は、認識音声をトークバックする際、前記類似度最良の音声パターンに基づいて音声合成して出力する。以上のようにすれば、促音文字、拗音文字の読み仮名を間違えて大きくしたり、小さくして音声辞書データベースに登録する場合であっても、音声認識率を向上でき、しかも、トークバック時に自然な違和感の無い音声を出力できる。
【０００７】
【発明の実施の形態】
（Ａ）本発明の概略
文字列( 仮名文字列 )と音声パターンの対応を音声辞書データベースに登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法において、実際の音声パターンと異なる音声パターンが音声辞書データベースに登録されていると正しい音声認識ができなくなる。例えば、文字列に含まれる促音文字、拗音文字を間違えて大きくしたり、小さくし、その読み仮名で発声した音声パターンを音声辞書データベースに登録する場合には、正しく音声認識ができず認識率の低下をきたし、更には、トークバックの音声が不自然になり、ユーザに違和感を与える。
そこで、本発明では、類似度(認識ポイント)の高い複数の文字列のうち、促音文字、拗音文字が入っている文字列に含まれている促音文字、拗音文字の大きいもの（つあいうえおやゆよ）を小さいものに、小さいもの（っぁぃぅぇぉゃゅょ）を大きいものに変更し、変更後の所定文字列の認識ポイントが、変更前、変更後の全文字列のうち最も認識ポイントが高ければ、該所定文字列の変更前の文字列を認識文字列として出力する。又、トークバック時に認識ポイントが最高の前記所定文字列の音声を合成して出力する。
【０００８】
（Ｂ）音声認識装置の構成
図１は本発明の音声認識装置をナビゲーション装置に接続したシステム構成図であり、ナビゲーションユニット１１、音声認識装置２１を有している。音声認識装置２１において、マイクロホン３１は話者音声を検出し、登録単語データベース３２は単語（文字列）と単語ＩＤとの対応を記憶し、音声辞書データベース３３は単語ＩＤと単語の音声パターンを対応付けて記憶し、音素パターンデータベース３４は音素と音素パターンを対応付けて記憶する。音素とは、文字列をローマ字表記したとき、３つのアルファベットよりなる部分である。例えば、図２に示すように、「SAPPORO」は▲１▼ SA, ▲２▼SAP, ▲３▼APP ,▲４▼PPO ,▲５▼POR ,▲６▼ORO, ▲７▼RO が音素になる。不特定多数の話者に多数の単語を発声させ、各音声パターンを音素毎に分解し、同一音素のパターンを平均化して音素パターンを求め、該音素パターンを音素に対応付けて音素パターンデータベース３４に登録する。
【０００９】
音声認識エンジン３５は、(1) パターンマッチングにより入力音声と類似する複数の候補文字列を検索すると共に、(2) 各候補文字列に含まれる促音文字／拗音文字の大小を変更し、(3) 変更後の文字列の音声パターンを音素パターンの合成により作成し、(4) 変更前、変更後の全候補文字列の中から類似度最高の文字列を検索して出力する。合成エンジン３６は類似度最高の文字列の音声を合成し、スピーカ３７は合成音声を出力する（トークバック）。
【００１０】
（Ｃ）音声認識処理
図３及び図４は本発明の音声認識処理のフロー図である。
ナビゲーション装置１１より音声入力する旨が通知された後、音声が入力すると（ステップ１０１）、音声認識エンジン３５は音声辞書データベース３３より入力音声に類似する複数の候補（例えば５個）を検索し（ステップ１０２）、類似度順に並べる（ステップ１０３）。ついで、ｉ＝１とし（ステップ１０４）、第ｉ候補文字列に促音文字、拗音文字が含まれているかチェックし（ステップ１０５）、含まれていれば、▲１▼促音文字、拗音文字が大きければ小さくし（つあいうえおやゆよ→っぁぃぅぇぉゃゅょ）、▲２▼小さければ大きくして仮想の候補文字列を作成する（ステップ１０６）。尚、上記▲１▼，▲２▼の仮想候補文字列のうち、▲１▼の仮想候補文字列のみを作成するだけでも良い。又、促音のみあるいは拗音のみ変更して仮想候補文字列を作成することもできる。更に、拗音は全部でなく間違って登録されやすい一部の拗音のみを変更対象として仮想候補文字列を作成することもできる。
【００１１】
ついで、仮想候補文字列をローマ字表記において音素に分割し（ステップ１０７）、各音素の音素パターンを音素パターンデータベース３４から求め、各音素パターンを合成して仮想候補文字列の音声パターンを作成して保存する（ステップ１０８）。図５は仮想候補文字列の音声パターン作成処理の説明図であり、「さつぽろ」が候補文字列となった場合である。「さつぽろ」には促音文字「つ」が含まれているから、該促音文字を小さくした「さっぽろ」を仮想候補文字列として作成する。ついで、「さっぽろ」をローマ字表記し(SAPPORO)、音素▲１▼ SA, ▲２▼SAP, ▲３▼APP ,▲４▼PPO ,▲５▼POR ,▲６▼ORO, ▲７▼RO に分解し、各音素の音素パターンを音素パターンデータベース３４より求めて合成することにより仮想候補文字列の音声パターンを作成する。
ｉ＝５となって仮想候補文字列の音声パターンの作成が完了すれば、５個の候補文字列と新たに作成した幾つかの仮想候補文字列を対象として音声認識処理を行い（ステップ１１１）、記憶してある入力音声パターンと最も類似する音声パターンを有する文字列を検索する（ステップ１１２）。
【００１２】
ついで、類似度最良の文字列が仮想候補文字列であるかチェックし（ステップ１１３）、仮想候補文字列であれば、該仮想候補文字列の基になる候補文字列（促音、拗音文字変更前の候補文字列）を入力文字列と認定し（ステップ１１４）、仮想候補文字列でなければ、類似度最良の文字列を入力文字列として認定する（ステップ１１５）。
しかる後、音声認識エンジン３５は合成エンジン３６に類似度最良の文字列を通知し、該合成エンジンは類似度最良の文字列の音声パターンを合成して出力（トークバック）する（ステップ１１６）。
以後、ユーザはトークバックされた音声が正しいか、誤っているか判断し、正しければキー操作によりあるいは音声で「ＯＫ」を入力する。これにより、音声認識エンジン３５は、ステップ１１４又はステップ１１５で認定した入力文字列に応じたコードをナビゲーション装置１１に送り、ナビゲーション装置は該コードに応じた制御処理を実行する。
【００１３】
以上、本発明によれば、促音／拗音文字を含む単語の認識ポイントが比較的高くなったとき、促音／拗音文字の大小を入れ替えることにより認識率を上げることができる。又、本発明では、促音／拗音文字を含む単語の認識ポイントが低いときは、これら文字の大小入替えを行わないため通常の認識速度に悪影響を与えることはない。又、本発明によれば、音声認識と音声合成をペアで行うことにより違和感の無い正しい合成音を出力できる。又、本発明によれば、音声辞書データベースを作成する際、促音／拗音を気にする必要が無い。
以上、本発明を実施例により説明したが、本発明は請求の範囲に記載した本発明の主旨に従い種々の変形が可能であり、本発明はこれらを排除するものではない。
【００１４】
【発明の効果】
以上本発明によれば、促音／拗音が不適切なままに単語／音声パターンが音声辞書データベース登録されている場合であっても、音声認識率を上げ、トークバック時に自然な合成音を発生することが出来る。
又、本発明によれば、音声辞書データベースを作成する際、促音／拗音を気にする必要が無い。
【図面の簡単な説明】
【図１】本発明のシステム構成図である。
【図２】音素説明図である。
【図３】本発明の音声認識処理（その１）である。
【図４】本発明の音声認識処理（その２）である。
【図５】仮想候補文字列の音声パターン作成処理説明図である。
【符号の説明】
１１・・ナビゲーションユニット
２１・・音声認識装置
３１・・マイクロホン
３２・・登録単語データベース
３３・・音声辞書データベース
３４・・音素パターンデータベース
３５・・音声認識エンジン
３６・・合成エンジン
３７・・スピーカ

Claims

仮名文字列と音声パターンを対応づけて登録しておき、入力音声と類似度が高い音声パターンを有する仮名文字列を入力音声の仮名文字列であると認識する音声認識装置の音声認識方法において、
前記音声認識装置の音声認識部は、
入力音声と類似度が高い音声パターンに対応する複数の仮名文字列の候補を求め、
各候補仮名文字列に促音文字又は拗音文字が含まれているか調べ、
含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補仮名文字列を作成し、
仮想候補仮名文字列を音素に分解し、各音素に応じた音素パターンを合成して該仮想候補仮名文字列の音声パターンを作成し、
前記候補仮名文字列及び仮想候補仮名文字列の音声パターンの中から前記入力音声と最も類似度の高い音声パターンを求め、
該最も類似度の高い音声パターンに対応する仮名文字列が仮想候補仮名文字列であれば、該仮想候補仮名文字列の促音文字又は拗音文字変更前の候補仮名文字列を前記入力音声の仮名文字列と認識して出力し、
該最も類似度の高い音声パターンに対応する仮名文字列が仮想候補仮名文字列でなければ、該類似度最良の音声パターンに対応する候補仮名文字列を前記入力音声の仮名文字列と認識して出力する、
ことを特徴とする音声認識方法。
前記音声認識部は、前記仮想の候補仮名文字列の作成に際して、前記候補仮名文字列に含まれている促音文字又は拗音文字が小さければ大きくして仮想の候補仮名文字列を作成する、
ことを特徴とする請求項１記載の音声認識方法。
音声認識装置の音声合成部は、
前記最も類似度の高い音声パターンに対応する仮名文字列の音声を、該音声パターンを合成して出力することを特徴とする請求項１又は請求項２記載の音声認識方法。
仮名文字列と音声パターンを対応づけて登録しておき、入力音声と類似度が高い音声パターンを有する仮名文字列を入力音声の仮名文字列であると認識する音声認識装置において、
仮名文字列と音声パターンの対応を記憶する音声辞書データベース、
音素と音素パターンの対応を記憶する音素パターンデータベース、
入力音声を検出する音声検出部、
入力音声と類似度が高い音声パターンに対応する複数の仮名文字列の候補を前記音声辞書データベースより求め、各候補仮名文字列に促音文字又は拗音文字が含まれているか調べ、含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補仮名文字列を作成し、該仮想候補仮名文字列を音素に分解し、各音素に応じた音素パターンを前記音素パターンデータベースより求めて合成して該仮想候補仮名文字列の音声パターンを作成し、前記候補仮名文字列及び仮想候補仮名文字列の音声パターンの中から前記入力音声と最も類似度の高い音声パターンを求め、該最も類似度の高い音声パターンに対応する仮名文字列が仮想候補仮名文字列であれば、該仮想候補仮名文字列の促音文字又は拗音文字変更前の候補仮名文字列を前記入力音声の仮名文字列と認識して出力し、該最も類似度の高い音声パターンに対応する仮名文字列が仮想候補仮名文字列でなければ、該類似度最良の音声パターンに対応する候補仮名文字列を前記入力音声の仮名文字列と認識して出力する音声認識部、
を備えたことを特徴とする音声認識装置。
前記音声認識部は、前記仮想の候補仮名文字列の作成に際して、前記候補仮名文字列に含まれている促音文字又は拗音文字が小さければ大きくして仮想の候補仮名文字列を作成することを特徴とする請求項４記載の音声認識装置。
前記最も類似度の高い音声パターンに対応する仮名文字列の音声を、該音声パターンを合成して出力する音声合成部、
を備えたことを特徴とする請求項４または５記載の音声認識装置。