JP2008176202A - 音声認識装置及び音声認識プログラム - Google Patents
音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP2008176202A JP2008176202A JP2007011422A JP2007011422A JP2008176202A JP 2008176202 A JP2008176202 A JP 2008176202A JP 2007011422 A JP2007011422 A JP 2007011422A JP 2007011422 A JP2007011422 A JP 2007011422A JP 2008176202 A JP2008176202 A JP 2008176202A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- word
- learning
- speech recognition
- word string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、前記テキストに対して形態素解析を行う形態素解析手段と、前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することにより、上記課題を解決する。
【選択図】図1
Description
"Modeling Word Duration for Better Speech Recognition,"V.Ramana,R.Gadde,Speech Transcription Workshop,May 16−19,Univ. of Maryland Speech Transcription Workshop 2000. "Lexical Stress Modeling for Improved Speech Recognition of Spontaneous Telephone Speech in the JUPITER Domain",C.Wang,and S.Seneff,EuroSpeech 2001. "Error Analysis Using Decision Trees In Spontaneous Presentation Speech Recognition,"T.Shinozuka and S.Furui,Proc. ASRU2001.
本発明は、学習データから得られる音声と言語の相関関係に関する統計量を抽出して確率モデル化し、音声認識時に音響モデルと言語モデルとを組み合わせて用いることで、学習データより得られる情報をより有効に活用することができ、これにより、認識精度の向上を図るものである。
図1は、本発明における音声認識装置の一構成例を示す図である。図1に示す音声認識装置1は、大別すると、学習手段10と、音声認識手段20とを有するよう構成されている。ここで、学習手段10は、音響分析手段11と、形態素解析手段12と、アライメント生成手段13と、相関関係確率モデル学習手段14とを有するよう構成されている。また、音声認識手段20は、第1単語列探索手段21と、第2単語列探索手段22とを有するよう構成されている。
本実施形態における学習手段10において、音響分析手段11は、学習データとして例えばニュース番組等の予め設定された音声信号と、その音声信号に対応して発話内容を文章等により書き起こした書き起こしテキスト31のうち、少なくとも音声信号を入力し、音響分析として音声の継続時間と各分析時刻のパワーを計算したり、ゼロクロス等のカウント等を行う。ここで、上述の内容について具体的に説明する。
(a)学習音声(学習用の音声信号)の長さ(1文章)毎の書き起こしテキストに含まれる単語数の平均と分散
(b)学習音声の長さ毎の書き起こしテキストに含まれる音素数の平均と分散
(c)学習音声の長さ毎の音素の分布(ヒストグラム)と各音素の頻度平均と分散
(d)品詞の分布(ヒストグラム)と各品詞の頻度平均と分散
(e)学習音声より与えられた各単語内での音素(頻度)の分布(ヒストグラム)
(f)学習音声より与えられた各単語の発話の位置情報(発話文書中で単語の発話された位置に関する平均と分散、単語出現位置のヒストグラム)
(g)学習音声の単語毎のパワーの平均と分散
(h)学習音声の単語毎のゼロクロスの平均と分散
(i)学習音声より与えられた各単語の発音区間長(発話継続時間長)の平均と分散
また、相関関係確率モデル学習手段14において学習するモデルに含まれる情報としては上述した内容に限定されるものではなく、例えば以下に示す(j)〜(m)等も含めることができる。
(j)相づちの学習音声の長さ毎の分布(ヒストグラム)
(k)不要語の学習音声の長さ毎の分布(ヒストグラム)
(l)発話者の入れ替わりの学習音声の長さ毎の分布(ヒストグラム)
(m)それぞれの単語が含まれる学習音声の長さの分布(ヒストグラム)を含めることもできる。
次に、音声認識手段20についての機能構成について、具体的に説明する。音声認識手段20の第1単語列探索手段21は、上述した音声・言語相関関係確率モデル32、音響モデル33、言語モデル34、及び発音辞書35を入力し、認識対象音声信号36の入力に対して例えば上述した音響分析手段21で行ったような音響特徴量の抽出を行い、抽出した特徴量等から正解単語の探索を行う。
ここで、本実施形態における音声認識の具体例について説明する。なお、以下の説明では、本実施形態における音声認識の一例として『今日』の発話位置統計量を利用した音声認識例について説明する。図8は、単語位置情報の一例を示す図である。
ここで、上述した音声認識装置1は、上述した専用の装置構成等を用いて本発明における音声認識処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラム(音声認識プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る音声認識処理を実現することができる。
ここで、本発明における音声認識処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図9は、本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。
次に、本発明における実行プログラム(音声認識プログラム)を用いた音声認識処理手順についてフローチャートを用いて説明する。図10は、音声認識処理手順の一例を示すフローチャートである。
図11は、音声・言語相関関係確率モデルを用いた音声認識の動作例を示す図である。図11では、上述した音声・言語相関関係確率モデルと言語モデルに含まれる単語連鎖確率とを利用してリストアップされた候補単語に対し、入力音声との照合を行い、例えば最も尤度が高い単語列(図11においては、形態素間において確率の積が最大の経路)を正解単語列として出力する音声認識の動作例を示す図である。
10 学習手段
11 音響分析手段
12 形態素解析手段
13 アライメント生成手段
14 相関関係確率モデル学習手段
20 音声認識手段
21 第1単語列探索手段
22 第2単語列探索手段
31 音声信号と、それに対応する書き起こしテキスト
32,64 音声・言語相関関係確率モデル
33,66 音響モデル
34,63 言語モデル
35 発音辞書
36 認識対象音声信号
37 正解単語列候補
38 音声認識結果
41 音声信号
51 入力装置
52 出力装置
53 ドライブ装置
54 補助記憶装置
55 メモリ装置
56 CPU
57 ネットワーク接続装置
58 記録媒体
61 入力音声信号
62 音響分析
65 発音情報
67 照合
68 領域
Claims (8)
- 学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識を行う音声認識装置において、
前記学習用の音声信号に対して音響特徴量の分析を行う音響分析手段と、
前記テキストに対して形態素解析を行う形態素解析手段と、
前記音響分析手段及び前記形態素解析手段の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成手段と、
前記アライメント生成手段により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習手段と、
前記相関関係確率学習手段により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識手段とを有することを特徴とする音声認識装置。 - 前記音声認識手段は、
前記認識対象の音声信号から音響特徴量を抽出し、抽出した音響特徴量と前記相関関係確率モデルと音響モデル・言語モデルとに基づいて、所定処理時間における所定数の単語列候補を選択する第1単語列探索手段を有することを特徴とする請求項1に記載の音声認識装置。 - 前記音声認識手段は、
前記第1単語列探索手段により得られる単語列候補に対して、前記相関関係確率モデルから得られる情報により単語毎に重み付けを行い、前記単語列候補における重み付けされた確率値に基づいて所定数の単語列を出力する第2単語列探索手段を有することを特徴とする請求項2に記載の音声認識装置。 - 前記相関関係確率モデルには、
前記学習用の音声信号の長さ毎の書き起こしテキストに含まれる平均単語数と分散、もしくは音素数の平均と分散、音素の分布、各音素の頻度平均と分散、品詞の分布と各品詞の頻度平均と分散、前記学習用の音声信号より与えられた各単語内での音素の分布、前記各単語の発話の位置情報、前記単語毎のパワーもしくはゼロクロスの平均と分散、及び前記各単語の発音区間長の平均と分散等の情報のうち、少なくとも1つを有することを特徴とする請求項1乃至3の何れか1項に記載の音声認識装置。 - 前記第1単語列探索手段は、
前記認識対象の音声信号に含まれる時間情報に基づいて、前記認識対象の音声信号に対する経過時間あたりの単語数、音素数による単語列の枝刈り、及び/又は各単語内の経過時間、音素頻度回数、ゼロクロス頻度等による単語の枝刈りを行うことを特徴とする請求項2に記載の音声認識装置。 - 前記第1単語列探索手段は、
前記相関関係確率モデルに基づいて同形異音語の確率補正を行うことを特徴とする請求項2に記載の音声認識装置。 - 前記第2単語列探索手段は、
前記単語列候補に対して前記相関関係確率モデルにより得られる1文章内の単語総数、1文章内の音素総数、文章内の音素頻度分布、文章内の不要語数、文章内の相づち数、及び文章内の品詞分布のうち、少なくとも1つを用いて1文単位の単語列の探索を行うことを特徴とする請求項3に記載の音声認識装置。 - 学習用の音声信号及び該音声信号に対応して書き起こされたテキストから学習した確率モデルを用いて、入力される認識対象の音声信号に対する音声認識をコンピュータに実行させるための音声認識プログラムにおいて、
前記学習用の音声信号に対して音響特徴量の分析を行う音響分析処理と、
前記テキストに対して形態素解析を行う形態素解析処理と、
前記音響分析処理及び前記形態素解析処理の結果から所定処理時間毎における音声と文字の対応関係を生成するアライメント生成処理と、
前記アライメント生成処理により得られる前記対応関係に基づいて、音声と言語の相関関係確率モデルを学習する相関関係確率学習処理と、
前記相関関係確率学習処理により得られる相関関係確率モデルに基づいて、前記認識対象の音声信号に対する音声認識を行う音声認識処理とをコンピュータに実行させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007011422A JP4758919B2 (ja) | 2007-01-22 | 2007-01-22 | 音声認識装置及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007011422A JP4758919B2 (ja) | 2007-01-22 | 2007-01-22 | 音声認識装置及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008176202A true JP2008176202A (ja) | 2008-07-31 |
JP4758919B2 JP4758919B2 (ja) | 2011-08-31 |
Family
ID=39703251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007011422A Expired - Fee Related JP4758919B2 (ja) | 2007-01-22 | 2007-01-22 | 音声認識装置及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4758919B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013125119A (ja) * | 2011-12-14 | 2013-06-24 | Mitsubishi Electric Corp | 音声認識装置および音声認識方法 |
JP2014524599A (ja) * | 2011-08-24 | 2014-09-22 | センソリー・インコーポレイテッド | 音声認識システムにおいて、誤った肯定を低減すること |
JP2014215396A (ja) * | 2013-04-24 | 2014-11-17 | 日本電信電話株式会社 | 発音付与方法とその装置とプログラム |
JP2014219569A (ja) * | 2013-05-08 | 2014-11-20 | 日本放送協会 | 辞書作成装置、及び辞書作成プログラム |
CN110164445A (zh) * | 2018-02-13 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置、设备及计算机存储介质 |
CN112397059A (zh) * | 2020-11-10 | 2021-02-23 | 武汉天有科技有限公司 | 一种语音流畅度检测方法及装置 |
WO2023149644A1 (ko) * | 2022-02-03 | 2023-08-10 | 삼성전자주식회사 | 전자 장치 및 사용자 언어 모델 생성 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
JPH10171806A (ja) * | 1996-12-13 | 1998-06-26 | Nec Corp | 語義曖昧性解消装置及び方法 |
JP2000267693A (ja) * | 1999-03-12 | 2000-09-29 | Fuji Xerox Co Ltd | 音声処理装置及び索引作成装置 |
JP2003345388A (ja) * | 2002-05-23 | 2003-12-03 | Nec Corp | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP2004198832A (ja) * | 2002-12-19 | 2004-07-15 | Nissan Motor Co Ltd | 音声認識装置 |
JP2006011257A (ja) * | 2004-06-29 | 2006-01-12 | Canon Inc | 音声認識装置および方法 |
-
2007
- 2007-01-22 JP JP2007011422A patent/JP4758919B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
JPH10171806A (ja) * | 1996-12-13 | 1998-06-26 | Nec Corp | 語義曖昧性解消装置及び方法 |
JP2000267693A (ja) * | 1999-03-12 | 2000-09-29 | Fuji Xerox Co Ltd | 音声処理装置及び索引作成装置 |
JP2003345388A (ja) * | 2002-05-23 | 2003-12-03 | Nec Corp | 音声認識装置、音声認識方法、および、音声認識プログラム |
JP2004198832A (ja) * | 2002-12-19 | 2004-07-15 | Nissan Motor Co Ltd | 音声認識装置 |
JP2006011257A (ja) * | 2004-06-29 | 2006-01-12 | Canon Inc | 音声認識装置および方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014524599A (ja) * | 2011-08-24 | 2014-09-22 | センソリー・インコーポレイテッド | 音声認識システムにおいて、誤った肯定を低減すること |
JP2013125119A (ja) * | 2011-12-14 | 2013-06-24 | Mitsubishi Electric Corp | 音声認識装置および音声認識方法 |
JP2014215396A (ja) * | 2013-04-24 | 2014-11-17 | 日本電信電話株式会社 | 発音付与方法とその装置とプログラム |
JP2014219569A (ja) * | 2013-05-08 | 2014-11-20 | 日本放送協会 | 辞書作成装置、及び辞書作成プログラム |
CN110164445A (zh) * | 2018-02-13 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置、设备及计算机存储介质 |
CN110164445B (zh) * | 2018-02-13 | 2023-06-16 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置、设备及计算机存储介质 |
CN112397059A (zh) * | 2020-11-10 | 2021-02-23 | 武汉天有科技有限公司 | 一种语音流畅度检测方法及装置 |
CN112397059B (zh) * | 2020-11-10 | 2024-02-06 | 武汉天有科技有限公司 | 一种语音流畅度检测方法及装置 |
WO2023149644A1 (ko) * | 2022-02-03 | 2023-08-10 | 삼성전자주식회사 | 전자 장치 및 사용자 언어 모델 생성 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP4758919B2 (ja) | 2011-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6212498B1 (en) | Enrollment in speech recognition | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones. | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
US20090258333A1 (en) | Spoken language learning systems | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
US20070239444A1 (en) | Voice signal perturbation for speech recognition | |
US20060129392A1 (en) | Method for extracting feature vectors for speech recognition | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
Jothilakshmi et al. | Large scale data enabled evolution of spoken language research and applications | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
US20050038647A1 (en) | Program product, method and system for detecting reduced speech | |
Badenhorst et al. | Collecting and evaluating speech recognition corpora for 11 South African languages | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Zhang et al. | Improved mandarin keyword spotting using confusion garbage model | |
CN111078937B (zh) | 语音信息检索方法、装置、设备和计算机可读存储介质 | |
Gruhn et al. | Automatic speech recognition | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
Mon et al. | Building HMM-SGMM continuous automatic speech recognition on Myanmar Web news | |
Soe et al. | Syllable-based speech recognition system for Myanmar | |
Mandal et al. | Word boundary detection based on suprasegmental features: A case study on Bangla speech | |
Gabriel | Automatic speech recognition in somali | |
Žgank et al. | Slovenian spontaneous speech recognition and acoustic modeling of filled pauses and onomatopoeas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110307 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110603 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140610 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |