JP2001324995A5

JP2001324995A5 - 音声認識方法及び装置

Info

Publication number: JP2001324995A5
Application number: JP2000144783A
Authority: JP
Filing date: 2000-05-17
Publication date: 2005-06-02
Anticipated expiration: 2020-05-17

Description

【０００１】
【発明の属する技術分野】
本発明は音声認識方法及び装置に係わり、特に、文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法及び装置に関する。

【０００５】
【課題を解決するための手段】
本発明は、文字列と音声パターンの対応を音声辞書データベースに登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声文字列であると認識する音声認識方法及び装置であり、(1) 音素と音素パターンの対応を音素パターンデータベースに登録し、(2) 入力音声と類似度が高い音声パターンを有する複数の文字列候補を音声辞書データベースを参照して求め、(3) 各候補文字列に促音文字又は拗音文字が含まれているか調べ、(4) 含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補文字列を作成し、(5) 仮想候補文字列を音素に分解し、音素パターンデータベースを参照して各音素に応じた音素パターンを求め、求めた音素パターンを合成して該仮想候補文字列の音声パターンを作成し、(6) 前記候補文字列及び仮想候補文字列の中から前記入力音声と最も類似度の高い文字列を求め、該文字列に基づいて入力音声を認識する。尚、前記仮想候補文字列に、促音文字又は拗音文字が小さければ大きくしてなる仮想候補文字列を含ませることもできる。

又、本発明は、前記類似度最良の文字列が仮想候補文字列であれば、該仮想候補文字列の促音文字又は拗音文字変更前の候補文字列を認識文字列として出力し、仮想候補文字列でなければ、類似度最良の文字列を認識文字列として出力する。
又、本発明は、認識音声をトークバックする際、前記類似度最良の音声パターンに基づいて音声合成して出力する。以上のようにすれば、促音文字、拗音文字の読み仮名を間違えて大きくしたり、小さくして音声辞書データベースに登録する場合であっても、音声認識率を向上でき、しかも、トークバック時に自然な違和感の無い音声を出力できる。

Claims

文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法において、
入力音声と類似度が高い音声パターンを有する複数の文字列の候補を求め、
各候補文字列に促音文字又は拗音文字が含まれているか調べ、
含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補文字列を作成し、
仮想候補文字列を音素に分解し、各音素に応じた音素パターンを合成して該仮想候補文字列の音声パターンを作成し、
前記候補文字列及び仮想候補文字列の中から前記入力音声と最も類似度の高い文字列を求め、該文字列に基づいて入力音声を認識する、
ことを特徴とする音声認識方法。
前記仮想候補文字列は、促音文字又は拗音文字が小さければ大きくしてなる仮想候補文字列を含むことを特徴とする請求項１記載の音声認識方法。
前記類似度最良の文字列が仮想候補文字列であれば、該仮想候補文字列の促音文字又は拗音文字変更前の候補文字列を認識文字列として出力し、類似度最良の文字列が仮想候補文字列でなければ、該類似度最良の文字列を認識文字列として出力する、
ことを特徴とする請求項１又は請求項２記載の音声認識方法。
前記類似度最良の文字列の音声を、前記音声パターンに基づいて出力することを特徴とする請求項１又は請求項２記載の音声認識方法。
文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識装置において、
文字列と音声パターンの対応を記憶する音声辞書データべース、
音素と音素パターンの対応を記憶する音素パターンデータべース、
入力音声を検出する音声検出部、
入力音声と類似度が高い音声パターンを有する文字列の候補を前記音声辞書データべースより求め、各候補文字列に促音文字又は拗音文字が含まれているか調べ、含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補文字列を作成し、該仮想候補文字列を音素に分解し、各音素に応じた音素パターンを前記音素パターンデータべースより求めて合成して該仮想候補文字列の音声パターンを作成し、前記候補文字列及び仮想候補文字列の中から前記入力音声と最も類似度の高い文字列を求め、該文字列に基づいて入力音声を認識する音声認識部、
を備えたことを特徴とする音声認識装置。
前記音声認識部は、候補文字列における促音文字又は拗音文字が小さければ大きくしてなる仮想候補文字列を前記仮想候補文字列に含ませることを特徴とする請求項５記載の音声認識装置。
前記類似度最良の文字列の音声を前記音声パターンに基づいて音声合成して出力する音声合成部、
を備えたことを特徴とする請求項５または６記載の音声認識装置。
前記音声認識部は、前記類似度最良の文字列が仮想候補文字列であれば、該仮想候補文字列の促音文字又は拗音文字変更前の候補文字列を認識文字列として出力する、
ことを特徴とする請求項５又は請求項６記載の音声認識装置。