JP2008129318A - 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム - Google Patents
言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP2008129318A JP2008129318A JP2006314121A JP2006314121A JP2008129318A JP 2008129318 A JP2008129318 A JP 2008129318A JP 2006314121 A JP2006314121 A JP 2006314121A JP 2006314121 A JP2006314121 A JP 2006314121A JP 2008129318 A JP2008129318 A JP 2008129318A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word
- language model
- probability
- partial character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】言語モデル作成装置3は、音声認識する際に用いられる辞書に登録されていない単語である未知語を、カナ文字列で表現した言語モデルを作成するもので、単語蓄積手段13と、音節単位分割手段15と、隠れマルコフモデル推定手段17と、部分文字列選択手段19と、正規化手段21と、情報量基準値計算手段23と、言語モデル作成手段25と、を備えた。
【選択図】図1
Description
「連続音声認識システムniNjaへの未知語処理の導入」日本音響学会講演論文集 平成4年3月 pp.115−116 「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」電子情報通信学会論文誌D−II Vol.J870D−II No.12 pp.2014−2111 2004年12月
図1は音声認識装置(言語モデル作成装置を内包)のブロック図である。この図1に示すように、音声認識装置1は、言語モデル作成装置3を備えると共に、特徴抽出手段5と、蓄積手段7と、正解探索手段9と、カナ漢字文字列変換手段11とを備えている。この音声認識装置1は、音声信号(入力音声)を入力として、認識結果(認識単語列)を出力するものである。この音声認識装置1の説明に先立ち、言語モデル作成装置3の説明を行う。
言語モデル作成装置3は、辞書(発音辞書)に登録されていない単語である未知語を、カナ文字列として出力可能な言語モデル(未知語言語モデル)を、隠れマルコフモデルとして作成するもので、単語蓄積手段13と、音節単位分割手段15と、隠れマルコフモデル推定手段17と、部分文字列選択手段19と、正規化手段21と、情報量基準値計算手段23と、言語モデル作成手段25とを備えている。
この図3は、トレリス(トレリス線図)と呼ばれているものであり、数式(2)において、t=4,j=2のときの前向き確率αt (w)(j)の値を計算する様子を示したものである。なお、この図3において、HMM(言語モデルM)に入力した記号列(文字列)o1 Twは、“abcde”であり、各状態(状態1と状態2)において出力可能な部分記号列(部分文字列)の長さの最大値Nを3と設定している。
(2)部分文字列選択手段19において、隠れマルコフモデル推定手段17で推定された出現確率の確率値により上位m個のパラメータを選択する(1音節の部分文字列と出現確率の確率値が上位となる所定文字数の部分文字列とを選択する)。
(4)隠れマルコフモデル推定手段17において、正規化手段21で正規化したパラメータを初期値として、数式(8)及び数式(9)により、HMMの各パラメータの確率値(出現確率の確率値及び状態遷移確率の確率値)を再推定する。
(6)正規化手段21において、パラメータ数mを変えながら、(1)〜(5)の手順を繰り返して、情報量基準値計算手段23において、パラメータ数mの値と情報量基準値(MDL)との関係を求め、情報量基準値(MDL)が最小となるときのmの値を特定する。
単語蓄積手段13に蓄積する単語データとして、日本語の学習テキストから得られた単語の読みを用い、言語モデル作成装置3によって、HMM(言語モデル)のパラメータ選択を行う実験(部分文字列のパターンを選択する実験)をしたところ、約30,000個存在した部分文字列のパターンから約8300個の部分文字列のパターンが選択され、結果としてHMM(言語モデル)のパターン数を全パターン数の約3割に削減することができた。
これより、音声認識装置1の他の構成について説明する。
特徴抽出手段5は、入力された音声信号を前処理するもので、具体的には、当該音声信号の音響的な特徴量を、特徴量ベクトルとして抽出するものである。この特徴量ベクトルの系列には、典型的な特徴量であるケプストラム係数の1種のMFCC(Mel−Frequency Cepstrum Coefficients)といった要素が含まれている。
音響モデルは、音声信号の音韻韻律に関する情報をモデル化したものである。
言語モデルとして、Nグラム言語モデルを用いる場合は、言語スコア(既知語言語スコア)は言語確率P(w|h)を用いて計算することができる。この言語確率P(w|h)において、wが正解単語の候補であり、hはwの直前のNグラムの履歴(N−1個の単語列)を指している。
次に、図4に示すフローチャートを参照して、言語モデル作成装置3の動作について説明する(適宜、図1参照)。
まず、言語モデル作成装置3は、音節単位分割手段15によって、単語蓄積手段13に蓄積されているカナ文字列に書き下された単語(カナ表記の単語)を音節単位に分割する(ステップS1)。
次に、図5に示すフローチャートを参照して、音声認識装置1の動作について説明する(適宜、図1参照)。
まず、音声認識装置1は、音声信号を入力すると(ステップS11)、特徴抽出手段5によって、当該音声信号の特徴量ベクトル(特徴量)を抽出する(ステップS12)。
そうすると、音声認識装置1は、未知語区間をカナ文字列で表した認識結果をそのまま出力するか否かを判定し(ステップS14)、そのまま出力すると判定した場合(ステップS14、Yes)には、そのまま出力し動作を終了する。また、音声認識装置1は、そのまま出力すると判定しなかった場合(ステップS14、No)、カナ漢字文字列変換手段11によって、未知語区間をカナ漢字文字列に変換した認識結果(未知語区間カナ漢字混在認識単語列)を出力(ステップS15)して動作を終了する。
3 言語モデル作成装置
5 特徴抽出手段
7 蓄積手段
9 正解探索手段
11 カナ漢字文字列変換手段
13 単語蓄積手段
15 音節単位分割手段
17 隠れマルコフモデル推定手段
19 部分文字列選択手段
21 正規化手段
23 情報量基準計算手段
25 言語モデル作成手段
Claims (6)
- 音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成する言語モデル作成装置であって、
前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段と、
この単語蓄積手段に蓄積されている単語を音節単位に分割する音節単位分割手段と、
この音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する隠れマルコフモデル推定手段と、
前記音節単位分割手段で分割した1音節からなる全ての部分文字列と、前記隠れマルコフモデル推定手段で推定した出現確率の確率値の最上位から所定数の部分文字列とを選択する部分文字列選択手段と、
この部分文字列選択手段で選択した部分文字列の確率値の和が1となるように、選択した部分文字列の前記確率値を正規化する正規化手段と、
この正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する情報量基準値計算手段と、
この情報量基準値計算手段で計算された情報量基準の値が最小となる前記部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた前記言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル作成装置。 - 前記情報量基準に赤池情報量基準又は最小記述長原理に基づく基準のいずれかを用いることを特徴とする請求項1に記載の言語モデル作成装置。
- 請求項1又は請求項2に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Nグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行う音声認識装置であって、
前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音並びに部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段と、
前記音声信号の言語的な特徴量及び音響的な特徴量を抽出する特徴抽出手段と、
この特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを前記既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを前記言語モデルからの確率値及びNグラム確率値を用いて得、前記音響的な特徴量に基づいて前記音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果、合計スコアの大きい方に基づいて、前記発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する正解探索手段と、
を備えることを特徴とする音声認識装置。 - 前記正解探索手段で出力された認識結果に含まれている未知語を表現したカナ文字列を、カナ漢字文字列に変換するカナ漢字文字列変換手段を備えることを特徴とする請求項3に記載の音声認識装置。
- 音声認識する際に用いられる辞書に登録されていない単語である未知語をカナ文字列で表現し、このカナ文字列の部分集合である部分文字列が出現する確率である出現確率及び部分文字列同士が連鎖する確率である状態遷移確率と、前記部分文字列とを対応付けることで、音声認識する際に前記未知語の言語スコアを得る言語モデルを作成するために、前記カナ文字列に書き下された単語を複数蓄積する単語蓄積手段を備えたコンピュータを、
前記単語蓄積手段に蓄積されている単語を音節単位に分割する音節単位分割手段、
この音節単位分割手段で分割された各単語に含まれる連続する音節の組み合わせである部分文字列それぞれの出現確率と状態遷移確率とを、隠れマルコフモデルの学習アルゴリズムに基づいて推定する隠れマルコフモデル推定手段、
前記音節単位分割手段で分割された1音節からなる全ての部分文字列と、前記隠れマルコフモデル推定手段で推定された出現確率の確率値の最上位から所定数の部分文字列とを選択する部分文字列選択手段、
この部分文字列選択手段で選択した部分文字列の確率値の和が1となるように、選択した部分文字列の前記確率値を正規化する正規化手段、
この正規化手段で確率値を正規化した部分文字列について、予め設定した情報量基準の値を計算する情報量基準値計算手段、
この情報量基準値計算手段で計算された情報量基準の値が最小となる前記部分文字列選択手段で選択された部分文字列について、当該部分文字列の出現確率及び状態遷移確率と当該部分文字列とを対応付けた前記言語モデルを作成する言語モデル作成手段、
として機能させることを特徴とする言語モデル作成プログラム。 - 請求項1又は請求項2に記載の言語モデル作成装置で作成された言語モデルと、音声認識する際に用いられる辞書に登録されている単語である既知語について、Nグラムモデルの学習アルゴリズムに基づき推定した既知語言語モデルとを使用して、入力された音声信号の認識を行うために、前記言語モデル及び前記既知語言語モデルと、前記既知語の文字列及び発音並びに部分文字列の文字列及び発音に関する情報を収めた発音辞書と、音声信号の音韻韻律に関する情報をモデル化した音響モデルとを蓄積している蓄積手段を備えたコンピュータを、
前記音声信号の言語的な特徴量及び音響的な特徴量を抽出する特徴抽出手段、
この特徴抽出手段で抽出した言語的な特徴量に基づいて、既知語の言語スコアである既知語言語スコアを前記既知語言語モデルからのNグラム確率値を用いて得、未知語の言語スコアである未知語言語スコアを前記言語モデルからの確率値及びNグラム確率値を用いて得、前記音響的な特徴量に基づいて前記音響モデルから音響スコアを得て、得られた既知語言語スコアと音響スコアとの合計と、未知語言語スコアと音響スコアとの合計とを比較した結果、合計スコアの大きい方に基づいて、前記発音辞書に登録されている文字列を探索して、探索した文字列を認識結果として出力する正解探索手段、
として機能させることを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006314121A JP4741452B2 (ja) | 2006-11-21 | 2006-11-21 | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006314121A JP4741452B2 (ja) | 2006-11-21 | 2006-11-21 | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008129318A true JP2008129318A (ja) | 2008-06-05 |
JP4741452B2 JP4741452B2 (ja) | 2011-08-03 |
Family
ID=39555185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006314121A Expired - Fee Related JP4741452B2 (ja) | 2006-11-21 | 2006-11-21 | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4741452B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10403267B2 (en) | 2015-01-16 | 2019-09-03 | Samsung Electronics Co., Ltd | Method and device for performing voice recognition using grammar model |
JP2019185400A (ja) * | 2018-04-10 | 2019-10-24 | 日本放送協会 | 文生成装置、文生成方法及び文生成プログラム |
CN116978354A (zh) * | 2023-08-01 | 2023-10-31 | 支付宝(杭州)信息技术有限公司 | 韵律预测模型的训练方法及装置、语音合成方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981182A (ja) * | 1995-09-11 | 1997-03-28 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 隠れマルコフモデルの学習装置及び音声認識装置 |
JPH11352994A (ja) * | 1998-06-12 | 1999-12-24 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
JP2001255889A (ja) * | 2000-03-14 | 2001-09-21 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2002041081A (ja) * | 2000-07-28 | 2002-02-08 | Sharp Corp | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
JP2004126143A (ja) * | 2002-10-01 | 2004-04-22 | Mitsubishi Electric Corp | 音声認識装置および音声認識プログラム |
JP2005258443A (ja) * | 2004-03-10 | 2005-09-22 | Microsoft Corp | 発音グラフを使用して新しい単語の発音学習を改善すること |
JP2005331600A (ja) * | 2004-05-18 | 2005-12-02 | Mitsubishi Electric Corp | 音声語句選択装置及び音声語句選択プログラム |
-
2006
- 2006-11-21 JP JP2006314121A patent/JP4741452B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981182A (ja) * | 1995-09-11 | 1997-03-28 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 隠れマルコフモデルの学習装置及び音声認識装置 |
JPH11352994A (ja) * | 1998-06-12 | 1999-12-24 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置 |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
JP2001255889A (ja) * | 2000-03-14 | 2001-09-21 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2002041081A (ja) * | 2000-07-28 | 2002-02-08 | Sharp Corp | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
JP2004126143A (ja) * | 2002-10-01 | 2004-04-22 | Mitsubishi Electric Corp | 音声認識装置および音声認識プログラム |
JP2005258443A (ja) * | 2004-03-10 | 2005-09-22 | Microsoft Corp | 発音グラフを使用して新しい単語の発音学習を改善すること |
JP2005331600A (ja) * | 2004-05-18 | 2005-12-02 | Mitsubishi Electric Corp | 音声語句選択装置及び音声語句選択プログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10403267B2 (en) | 2015-01-16 | 2019-09-03 | Samsung Electronics Co., Ltd | Method and device for performing voice recognition using grammar model |
US10706838B2 (en) | 2015-01-16 | 2020-07-07 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
US10964310B2 (en) | 2015-01-16 | 2021-03-30 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
USRE49762E1 (en) | 2015-01-16 | 2023-12-19 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
JP2019185400A (ja) * | 2018-04-10 | 2019-10-24 | 日本放送協会 | 文生成装置、文生成方法及び文生成プログラム |
JP7084761B2 (ja) | 2018-04-10 | 2022-06-15 | 日本放送協会 | 文生成装置、文生成方法及び文生成プログラム |
CN116978354A (zh) * | 2023-08-01 | 2023-10-31 | 支付宝(杭州)信息技术有限公司 | 韵律预测模型的训练方法及装置、语音合成方法及装置 |
CN116978354B (zh) * | 2023-08-01 | 2024-04-30 | 支付宝(杭州)信息技术有限公司 | 韵律预测模型的训练方法及装置、语音合成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4741452B2 (ja) | 2011-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6727607B2 (ja) | 音声認識装置及びコンピュータプログラム | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
JP2020505650A (ja) | 音声認識システム及び音声認識の方法 | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
JP2008275731A (ja) | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 | |
JP6884946B2 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
JPWO2007142102A1 (ja) | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム | |
JPWO2008105263A1 (ja) | 重み係数学習システム及び音声認識システム | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP5276610B2 (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
CN110189750B (zh) | 词语检测系统、词语检测方法以及记录介质 | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
Pylkkönen | Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110328 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110506 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |