JP2001324995A5 - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置 Download PDFInfo
- Publication number
- JP2001324995A5 JP2001324995A5 JP2000144783A JP2000144783A JP2001324995A5 JP 2001324995 A5 JP2001324995 A5 JP 2001324995A5 JP 2000144783 A JP2000144783 A JP 2000144783A JP 2000144783 A JP2000144783 A JP 2000144783A JP 2001324995 A5 JP2001324995 A5 JP 2001324995A5
- Authority
- JP
- Japan
- Prior art keywords
- character string
- speech
- character
- pattern
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Description
【0001】
【発明の属する技術分野】
本発明は音声認識方法及び装置に係わり、特に、文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法及び装置に関する。
【発明の属する技術分野】
本発明は音声認識方法及び装置に係わり、特に、文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法及び装置に関する。
【0005】
【課題を解決するための手段】
本発明は、文字列と音声パターンの対応を音声辞書データベースに登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声文字列であると認識する音声認識方法及び装置であり、(1) 音素と音素パターンの対応を音素パターンデータベースに登録し、(2) 入力音声と類似度が高い音声パターンを有する複数の文字列候補を音声辞書データベースを参照して求め、(3) 各候補文字列に促音文字又は拗音文字が含まれているか調べ、(4) 含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補文字列を作成し、(5) 仮想候補文字列を音素に分解し、音素パターンデータベースを参照して各音素に応じた音素パターンを求め、求めた音素パターンを合成して該仮想候補文字列の音声パターンを作成し、(6) 前記候補文字列及び仮想候補文字列の中から前記入力音声と最も類似度の高い文字列を求め、該文字列に基づいて入力音声を認識する。尚、前記仮想候補文字列に、促音文字又は拗音文字が小さければ大きくしてなる仮想候補文字列を含ませることもできる。
【課題を解決するための手段】
本発明は、文字列と音声パターンの対応を音声辞書データベースに登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声文字列であると認識する音声認識方法及び装置であり、(1) 音素と音素パターンの対応を音素パターンデータベースに登録し、(2) 入力音声と類似度が高い音声パターンを有する複数の文字列候補を音声辞書データベースを参照して求め、(3) 各候補文字列に促音文字又は拗音文字が含まれているか調べ、(4) 含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補文字列を作成し、(5) 仮想候補文字列を音素に分解し、音素パターンデータベースを参照して各音素に応じた音素パターンを求め、求めた音素パターンを合成して該仮想候補文字列の音声パターンを作成し、(6) 前記候補文字列及び仮想候補文字列の中から前記入力音声と最も類似度の高い文字列を求め、該文字列に基づいて入力音声を認識する。尚、前記仮想候補文字列に、促音文字又は拗音文字が小さければ大きくしてなる仮想候補文字列を含ませることもできる。
又、本発明は、前記類似度最良の文字列が仮想候補文字列であれば、該仮想候補文字列の促音文字又は拗音文字変更前の候補文字列を認識文字列として出力し、仮想候補文字列でなければ、類似度最良の文字列を認識文字列として出力する。
又、本発明は、認識音声をトークバックする際、前記類似度最良の音声パターンに基づいて音声合成して出力する。以上のようにすれば、促音文字、拗音文字の読み仮名を間違えて大きくしたり、小さくして音声辞書データベースに登録する場合であっても、音声認識率を向上でき、しかも、トークバック時に自然な違和感の無い音声を出力できる。
又、本発明は、認識音声をトークバックする際、前記類似度最良の音声パターンに基づいて音声合成して出力する。以上のようにすれば、促音文字、拗音文字の読み仮名を間違えて大きくしたり、小さくして音声辞書データベースに登録する場合であっても、音声認識率を向上でき、しかも、トークバック時に自然な違和感の無い音声を出力できる。
Claims (8)
- 文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識方法において、
入力音声と類似度が高い音声パターンを有する複数の文字列の候補を求め、
各候補文字列に促音文字又は拗音文字が含まれているか調べ、
含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補文字列を作成し、
仮想候補文字列を音素に分解し、各音素に応じた音素パターンを合成して該仮想候補文字列の音声パターンを作成し、
前記候補文字列及び仮想候補文字列の中から前記入力音声と最も類似度の高い文字列を求め、該文字列に基づいて入力音声を認識する、
ことを特徴とする音声認識方法。 - 前記仮想候補文字列は、促音文字又は拗音文字が小さければ大きくしてなる仮想候補文字列を含むことを特徴とする請求項1記載の音声認識方法。
- 前記類似度最良の文字列が仮想候補文字列であれば、該仮想候補文字列の促音文字又は拗音文字変更前の候補文字列を認識文字列として出力し、類似度最良の文字列が仮想候補文字列でなければ、該類似度最良の文字列を認識文字列として出力する、
ことを特徴とする請求項1又は請求項2記載の音声認識方法。 - 前記類似度最良の文字列の音声を、前記音声パターンに基づいて出力することを特徴とする請求項1又は請求項2記載の音声認識方法。
- 文字列と音声パターンの対応を登録しておき、入力音声と類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識する音声認識装置において、
文字列と音声パターンの対応を記憶する音声辞書データべース、
音素と音素パターンの対応を記憶する音素パターンデータべース、
入力音声を検出する音声検出部、
入力音声と類似度が高い音声パターンを有する文字列の候補を前記音声辞書データべースより求め、各候補文字列に促音文字又は拗音文字が含まれているか調べ、含まれている場合には、促音文字又は拗音文字が大きければ小さくして仮想の候補文字列を作成し、該仮想候補文字列を音素に分解し、各音素に応じた音素パターンを前記音素パターンデータべースより求めて合成して該仮想候補文字列の音声パターンを作成し、前記候補文字列及び仮想候補文字列の中から前記入力音声と最も類似度の高い文字列を求め、該文字列に基づいて入力音声を認識する音声認識部、
を備えたことを特徴とする音声認識装置。 - 前記音声認識部は、候補文字列における促音文字又は拗音文字が小さければ大きくしてなる仮想候補文字列を前記仮想候補文字列に含ませることを特徴とする請求項5記載の音声認識装置。
- 前記類似度最良の文字列の音声を前記音声パターンに基づいて音声合成して出力する音声合成部、
を備えたことを特徴とする請求項5または6記載の音声認識装置。 - 前記音声認識部は、前記類似度最良の文字列が仮想候補文字列であれば、該仮想候補文字列の促音文字又は拗音文字変更前の候補文字列を認識文字列として出力する、
ことを特徴とする請求項5又は請求項6記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000144783A JP3881155B2 (ja) | 2000-05-17 | 2000-05-17 | 音声認識方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000144783A JP3881155B2 (ja) | 2000-05-17 | 2000-05-17 | 音声認識方法及び装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001324995A JP2001324995A (ja) | 2001-11-22 |
JP2001324995A5 true JP2001324995A5 (ja) | 2005-06-02 |
JP3881155B2 JP3881155B2 (ja) | 2007-02-14 |
Family
ID=18651384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000144783A Expired - Fee Related JP3881155B2 (ja) | 2000-05-17 | 2000-05-17 | 音声認識方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3881155B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3894005B2 (ja) * | 2002-03-14 | 2007-03-14 | 株式会社デンソー | 車載用電子機器、車載用電子機器の音声認識結果報知方法、音声認識確認通知用プログラム及びナビゲーションシステム |
US7693715B2 (en) * | 2004-03-10 | 2010-04-06 | Microsoft Corporation | Generating large units of graphonemes with mutual information criterion for letter to sound conversion |
EP1884923A4 (en) | 2005-05-27 | 2009-06-03 | Panasonic Corp | VOICE EDITING DEVICE, VOICE EDITING METHOD, AND VOICE EDITING PROGRAM |
-
2000
- 2000-05-17 JP JP2000144783A patent/JP3881155B2/ja not_active Expired - Fee Related
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
JP2022169714A (ja) | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム | |
US5170432A (en) | Method of speaker adaptive speech recognition | |
JP5208352B2 (ja) | 声調言語用分節声調モデリング | |
CN1222924C (zh) | 声音个性化的语音合成器 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US20110166861A1 (en) | Method and apparatus for synthesizing a speech with information | |
CN106710585A (zh) | 语音交互过程中的多音字播报方法及系统 | |
JP2018013549A (ja) | 発話内容認識装置 | |
CN108109610B (zh) | 一种模拟发声方法及模拟发声系统 | |
CN115101046A (zh) | 一种特定说话人语音合成方法和装置 | |
JP2001324995A5 (ja) | 音声認識方法及び装置 | |
JPH0887297A (ja) | 音声合成システム | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP3881155B2 (ja) | 音声認識方法及び装置 | |
EP3718107B1 (en) | Speech signal processing and evaluation | |
JPH09152884A (ja) | 音声合成装置 | |
Reddy et al. | DNN-based bilingual (Telugu-Hindi) polyglot speech synthesis | |
CN1979636B (zh) | 一种音标到语音的转换方法 | |
Pisarn et al. | Improving Thai spelling recognition with tone features | |
JPH119847A (ja) | おしゃべりオウム発声装置 | |
JP2907828B2 (ja) | 音声対話型文書作成装置 | |
JP3883780B2 (ja) | 音声合成装置 | |
JP2008139438A (ja) | 音声処理装置、端末装置、音声情報管理装置、および、プログラム |