JP5703747B2 - 音声認識装置,および音声認識プログラム - Google Patents
音声認識装置,および音声認識プログラム Download PDFInfo
- Publication number
- JP5703747B2 JP5703747B2 JP2010289214A JP2010289214A JP5703747B2 JP 5703747 B2 JP5703747 B2 JP 5703747B2 JP 2010289214 A JP2010289214 A JP 2010289214A JP 2010289214 A JP2010289214 A JP 2010289214A JP 5703747 B2 JP5703747 B2 JP 5703747B2
- Authority
- JP
- Japan
- Prior art keywords
- word dictionary
- acoustic model
- word
- reading information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図1は,本発明の第1実施形態における音声認識装置の構成例を示す図である。
図6は,本発明の第2実施形態における音声認識装置の構成例を示す図である。
図9は,本発明の第3実施形態における音声認識装置の構成例を示す図である。
11 音声入力部
12 単語辞書記憶部
13 音響モデル記憶部
14 音響モデル列生成部
15 音響モデル列混合部
16 照合部
17 結果出力部
21 単語辞書候補生成部
22 単語辞書記憶部
23 単語辞書決定部
24 学習用音声データ記憶部
25 単語辞書候補
26 単語辞書
31 読み列候補生成部
32 単語辞書記憶部
33 読み列変形ルール記憶部
Claims (4)
- 音声データを受け付け,前記音声データの音声特徴量を算出する音声入力部と,
単語に対応する複数の読み情報,および前記複数の読み情報各々に対応した混合の度合いである混合度を示す単語辞書を記憶する第1単語辞書記憶部と,
音声の特徴と,読み情報の一部または全部とを対応付けた音響モデルを記憶する音響モデル記憶部と,
前記音響モデルから,前記単語辞書の複数の読み情報各々に対応する音響モデル列をそれぞれ生成する音響モデル列生成部と,
前記単語辞書の混合度をもとに,前記複数の読み情報各々に対応する音響モデル列を混合した音響モデル列を生成する音響モデル列混合部と,
入力された音声データの音声特徴量を求め,前記音声特徴量と前記混合した前記音響モデル列とを照合し,単語辞書から単語を検出する照合部と,
前記検出された単語を結果として出力する結果出力部とを備える
ことを特徴とする音声認識装置。 - 単語に対応する複数の読み情報を含む単語辞書を記憶する第2単語辞書記憶部と,
前記第2単語辞書記憶部の単語辞書に含まれる複数の読み情報各々に異なる混合度を対応付けた単語辞書候補を複数生成する単語辞書候補生成部と,
複数の単語辞書候補のうち,音声データと認識するべき単語とを示す学習用音声データに対する単語辞書を選出する単語辞書決定部とを備えて,
前記音声入力部は,学習用音声データを受け付け,前記受け付けた学習用音声データの音声特徴量を出力し,
前記音響モデル列生成部は,前記単語辞書の複数の読み情報に対応する音響モデル列をそれぞれ生成し,
前記音響モデル列混合部は,前記単語辞書候補の混合度をもとに,前記音響モデル列を混合した音響モデル列を生成し,
前記照合部は,入力された学習用音声データの音声特徴量と,前記混合した音響モデル列とを照合して単語を検出し,
前記結果出力部は,前記検出された単語を結果として出力し,
前記単語辞書決定部は,前記複数の単語辞書候補のうち,入力した学習用音声データに対する結果として正しい結果が得られた回数が最も多い処理で使用された単語辞書候補を単語辞書として選出する
ことを特徴とする請求項1に記載の音声認識装置。 - 単語に対応する読み情報を示す単語辞書を記憶する第3単語辞書記憶部と,
前記第3単語辞書記憶部の単語に対し,前記単語に対応する読み情報を読み列変形ルールにもとづいて変形させた読み情報を対応付けて,前記単語に対する複数の読み情報を含む単語辞書を生成する読み列候補生成部と,
前記単語辞書に含まれる複数の読み情報に異なる混合度を対応付けて前記単語辞書候補を複数生成する単語辞書候補生成部とを備える
ことを特徴とする請求項2に記載の音声認識装置。 - 第1単語辞書記憶部と音響モデル記憶部とを備えるコンピュータに,
音声データを受け付け,前記音声データの音声特徴量を算出する処理と,
単語に対応する複数の読み情報,および前記複数の読み情報各々に対応した混合の度合いである混合度を示す単語辞書を記憶する前記第1単語辞書記憶部と,音声の特徴と読み情報の一部または全部とを対応付けた音響モデルを記憶する前記音響モデル記憶部とを参照し,前記音響モデルから,前記単語辞書の複数の読み情報各々に対応する音響モデル列をそれぞれ生成する処理と,
前記単語辞書の混合度をもとに,前記複数の読み情報各々に対応する音響モデル列を混合した音響モデル列を生成する処理と,
入力された音声データの音声特徴量を求め,前記音声特徴量と前記混合した前記音響モデル列とを照合し,単語辞書から単語を検出する処理と,
前記検出された単語を結果として出力する処理とを,実行させる
ことを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010289214A JP5703747B2 (ja) | 2010-12-27 | 2010-12-27 | 音声認識装置,および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010289214A JP5703747B2 (ja) | 2010-12-27 | 2010-12-27 | 音声認識装置,および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012137580A JP2012137580A (ja) | 2012-07-19 |
JP5703747B2 true JP5703747B2 (ja) | 2015-04-22 |
Family
ID=46675047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010289214A Active JP5703747B2 (ja) | 2010-12-27 | 2010-12-27 | 音声認識装置,および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5703747B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016145742A (ja) * | 2015-02-06 | 2016-08-12 | 株式会社国際電気通信基礎技術研究所 | 識別システム、識別プログラム、識別方法および識別装置 |
CN113421554B (zh) * | 2021-07-05 | 2024-01-16 | 平安科技(深圳)有限公司 | 语音关键词检测模型处理方法、装置及计算机设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0772840B2 (ja) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
JPH08123470A (ja) * | 1994-10-25 | 1996-05-17 | Nippon Hoso Kyokai <Nhk> | 音声認識装置 |
JP3144341B2 (ja) * | 1997-03-26 | 2001-03-12 | 日本電気株式会社 | 音声認識装置 |
JP2004020969A (ja) * | 2002-06-17 | 2004-01-22 | Toyota Central Res & Dev Lab Inc | 音響モデル学習方法及びその装置 |
AU2003277587A1 (en) * | 2002-11-11 | 2004-06-03 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation device and speech recognition device |
JP2005249874A (ja) * | 2004-03-01 | 2005-09-15 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法及び音声認識プログラム |
CN101393740B (zh) * | 2008-10-31 | 2011-01-19 | 清华大学 | 一种计算机多方言背景的汉语普通话语音识别的建模方法 |
JP5152020B2 (ja) * | 2009-02-02 | 2013-02-27 | 富士通株式会社 | 音声認識装置及び音声認識方法 |
-
2010
- 2010-12-27 JP JP2010289214A patent/JP5703747B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012137580A (ja) | 2012-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7529678B2 (en) | Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system | |
Barnard et al. | The NCHLT speech corpus of the South African languages | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP4657736B2 (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
US9640175B2 (en) | Pronunciation learning from user correction | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JPH11143346A (ja) | 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体 | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
JP6189818B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム | |
Liu et al. | Dialect identification: Impact of differences between read versus spontaneous speech | |
WO2006093092A1 (ja) | 会話システムおよび会話ソフトウェア | |
JP5257680B2 (ja) | 音声認識装置 | |
Marasek et al. | System for automatic transcription of sessions of the Polish senate | |
JP2001343992A (ja) | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5703747B2 (ja) | 音声認識装置,および音声認識プログラム | |
Lamel et al. | Towards best practice in the development and evaluation of speech recognition components of a spoken language dialog system | |
JP2006084966A (ja) | 発話音声の自動評定装置およびコンピュータプログラム | |
Iwama et al. | Automated testing of basic recognition capability for speech recognition systems | |
JP2009116075A (ja) | 音声認識装置 | |
Qian et al. | Automatic speech recognition for automated speech scoring | |
US11043212B2 (en) | Speech signal processing and evaluation | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
JP4236502B2 (ja) | 音声認識装置 | |
JP2005283646A (ja) | 音声認識率推定装置 | |
JP5772219B2 (ja) | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5703747 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |