JP2008176155A - 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 - Google Patents

音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 Download PDF

Info

Publication number
JP2008176155A
JP2008176155A JP2007010853A JP2007010853A JP2008176155A JP 2008176155 A JP2008176155 A JP 2008176155A JP 2007010853 A JP2007010853 A JP 2007010853A JP 2007010853 A JP2007010853 A JP 2007010853A JP 2008176155 A JP2008176155 A JP 2008176155A
Authority
JP
Japan
Prior art keywords
utterance
mfcc
syllable
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007010853A
Other languages
English (en)
Other versions
JP4986028B2 (ja
Inventor
Kengo Fujita
顕吾 藤田
Tsuneo Kato
恒夫 加藤
Hisashi Kawai
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2007010853A priority Critical patent/JP4986028B2/ja
Publication of JP2008176155A publication Critical patent/JP2008176155A/ja
Application granted granted Critical
Publication of JP4986028B2 publication Critical patent/JP4986028B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】探索処理以前に入力が音節強調発声であるか否かを判定できる音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体を提供する。
【解決手段】音節強調発声判定部13は、音響分析部で抽出された入力音声のパワー(E)やn次元のMFCC(MFCCの0次項C0を含む)等の音響特徴量に基づいて入力音声の発声区間を検知する発声区間検知部131と、検知された発声区間の出現周期性を判定する周期性判定部132とを主要な構成とし、発声区間の出現周期性が所定の基準値よりも高いときに入力音声を音節強調発声と判定する。入力音声が音節強調発声と判定されると、利用者に通常達成での再発生を要求したり、あるいは音声認識用の統計モデルを音節強調発声用の統計モデルに切り換えて音声認識が実行される。
【選択図】図3

Description

本発明は、音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体に係り、特に、音節強調発声の認識に好適な音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体に関する。
図9は、従来の音声認識装置の主要部の構成を示した図であり、入力音声から音響特徴量を抽出する音響分析部51と、抽出された音響特徴量に基づいて、予め作成された統計的な音響モデル53や言語モデル54に従って探索処理を行い、音声認識結果を出力する探索処理部52とを含む。
前記音響分析部51では、入力音声から長さTのフレームを切り出し、その特徴を表すn次元の音響特徴量を抽出する。この処理は、図10に示したように、ΔTずつフレーム位置をシフトしながら進め、音声の終端まで実行する。
探索処理部52では、言語モデルで定義される遷移可能な単語列のうち、入力音声に対していずれが最も確からしいかを探索する。言語モデルとしては、単語の遷移パターンを予め定義しておく固定文法モデル、あるいはある時刻までに確定した単語列に従い次に遷移可能な単語が確率的に定まる確率文法モデルのいずれかが用いられる。
例えば、図11に一例を示した固定文法モデルでは、初めの無音状態「sil」から遷移可能な単語は「伊藤」、「糸井」、「今井」、「土井」の4通りであり、その次に唯一遷移可能な単語「です」を経由して、最終的に再び無音状態「sil」へ遷移するような単語列が定義されている。即ち、「[sil]{伊藤/糸井/今井/土井}です[sil]」のうち、最尤単語列がいずれかを探索することになる。
固定文法モデルおよび確率文法モデルのいずれを用いる場合でも、フレーム毎の音響特徴量を用いた探索処理は、単語を更に細分化した音素単位で進められる。各々の単語は、音素毎のHMM状態系列を連結した形で表される。図12に、単語「今井」のHMM状態系列を示す。
「今井」の音素表現は「i/m/a/i」であるが、一般に探索処理性能向上のため、図12のような前後の音素に依存したHMM状態系列が用いられる。ここで、「sil-i+m」は音素「i」の先行音素が「sil」、後続音素が「m」である場合のHMM状態系列を表す。各々のHMM状態には自身への遷移(自己遷移)と右隣のHMM状態への遷移(LR遷移)が許されており、自己遷移確率およびLR遷移確率が音響モデルに記述されている。また、音響モデルには、フレーム毎に得られる音響特徴量の各HMM状態に対する尤もらしさ(音響尤度)を算出するための確率分布が記述されている。
探索処理は、フレーム毎にそのフレームで考慮すべき全てのHMM状態について、自己遷移、LR遷移それぞれの場合の遷移確率と音響尤度の和(累積尤度)を算出し、HMM状態遷移として尤もらしい(累積尤度の高い)遷移を選ぶことを繰り返し、最終的に最も累積尤度の高いHMM状態系列を決定することに相当する。このように最尤のパスを探索するアルゴリズムはViterbiアルゴリズムと呼ばれる。
認識結果が誤りであったために利用者の再発声が必要となる場合、利用者による最初の発声が、生活の中で人間を相手に発するような通常発声であったとしても、人間を相手に聞き取り易く発声するのと同様の意図で、再発声が各音節を区切って強調する音節強調発声となる現象がしばしば見られる。
図13,14は、同一発声者による同一発声内容「神奈川」の通常発声「かながわ」の波形、および音節強調発声「か・な・が・わ」の波形をそれぞれ示している。音節強調発声では、通常発声には見られない発声途中の音節間の無音区間が存在し、音節を個別に発声したような波形となっていることがわかる。
音節強調発声は、通常発声のように発声区間が連続しておらず、図14に示したように各音節間に無音区間が存在する。しかしながら、通常の音声認識装置では、図12に示したように言語モデルに記述された各単語のHMM状態系列が音節間に「sil」への遷移を許していないため、音節強調発声に対しては、音節間の無音区間では無理に何らかの音素が存在するものとして探索処理を進めなければならない。その結果、音節間の無音区間の音響尤度の低下により、発声内容に対応するHMM状態系列の累積尤度が低下し、誤認識の原因となり得る。
このような技術課題に対して、従来は音節強調発声の音節間の無音区間に対して、単語のHMM状態系列の各音節の後に「sil」への遷移を許すような記述を言語モデルまたは音響モデルに加えることで対応している。
特許文献1には、HMM状態系列に後続音素環境としてスキップ可能な無音への遷移を追加する等、通常発声を対象としたHMM状態系列に複数の音節強調発声を対象としたHMM状態系列を追加すること(マルチパス化)により、無音の挿入や、通常発声からの音節間の音響的特徴の変形が起こる音節強調発声に対しても認識性能を維持しようとする技術が開示されている。
特許文献2には、上記特許文献1が対象とする日本語のように、音節が必ず母音の後で区切られる言語のみならず、英語を始めとしたいずれの音素の後でも音節を区切ることができる言語に対しても、各音節後に無音の挿入を許すモデルを利用することにより、音節強調発声に対して認識性能を維持しようとする技術が開示されている。
特開2002−189494号公報 特開2006−243123号公報
図15は、前記図12の「sil-i+m」, 「i-m+a」と連続するHMM状態系列に対して、音節「i」の後に「sil」への遷移を付加したものである。連続する2音節「i・ma」の前半音節「i」終了時には「sil-i+m」に加えて、「sil-i+sil」のように後の「sil」環境依存であるHMM状態系列、または「sil-i+*」のように後環境依存なしのHMM状態系列を経由して1状態の「sil」へと遷移することが許されている。それに伴い、後半音節「ma」開始時には「i-m+a」に加えて前の「sil」環境依存である「sil-m+a」への遷移が付加されている。
また、前半音節終了時の1状態の「sil」への遷移はスキップすることも可能である。音節強調発声が通常発声と最も異なる点は音節間の無音区間の存在であるが、この無音区間の影響により個別に音節を発声する場合と通常発声の中間のような音響的特徴が現れる場合もある。図15のように幾通りもの遷移を可能としているのは、音節強調発声のこういった通常発声との相違への対応策である。
しかしながら、全ての単語に含まれる各音節について図15のような複数の遷移を考慮することは探索処理に要する処理量の増大を招き、認識結果を得るまでの時間に遅延が生ずる可能性がある。また、入力が通常発声の場合でも同様の言語モデルを用いるため、音節強調発声用の不要なHMM状態系列の存在による探索空間の広がりが原因で認識性能を低下させることにも繋がる。
このように、音声認識装置への入力が音節強調発声であった場合、通常発声を対象とした探索処理では誤認識の可能性が高くなる。誤認識による悪影響を防ぐために、入力が音節強調発声であった場合、探索処理を実行せず利用者に通常発声を再度促す、あるいは音節強調発声を対象とした探索処理に切り替えるといった対策が考えられるが、いずれも探索処理以前に入力が音節強調発声であるか否かを判定する必要がある。
本発明の目的は、上記した従来技術の課題を解決し、探索処理以前に入力が音節強調発声であるか否かを判定することを可能にした音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体を提供することにある。
上記した目的を達成するために、本発明の音声認識装置は、以下のような手段を講じた点に特徴がある。
(1)入力音声の音響特徴量を抽出する音響分析手段と、抽出された音響特徴量に基づいて音声認識を行うための統計モデルと、抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する音節強調発声判定手段と、音響特徴量に前記統計モデルを適用して探索処理を実行する探索処理部とを備え、入力音声が音節強調発声であるか否かの判定結果に応じて固有の音声認識動作を実行することを特徴とする。
(2)入力音声が音節強調発声と判定されたときに、発声者に対して再度の発声を要求する手段を含むことを特徴とする。
(3)通常発声に固有の音響特徴量に対応した第1統計モデルと、音節強調発声に固有の音響特徴量に対応した第2統計モデルとを備え、探索処理部は、入力音声が音節強調発声と判定されたときに第2統計モデルを用いて探索処理を実行することを特徴とする。
本発明によれば、以下のような効果が達成される。
(1)利用者の発声が通常発声および音節強調発声のいずれであるかを探索処理の開始前に判定できるので、利用者の発声に対応した適性処理へ短時間で移行できるようになる。
(2)利用者の発声が通常発声および音節強調発声のいずれであるかを、音響特徴量の周期性に着目して判定するようにしたので、少ない処理負荷で正確な判定が可能になる。
(3)利用者の発声が音節強調発声と判定されると、利用者に通常発声での再発声を促すようにしたので、通常発声に基づく正確な音声認識が可能になる。
(4)通常発声用の統計モデルと音節強調発声用の統計モデルとを備え、利用者の発声が通常発声および音節強調発声のいずれであるかの応じて統計モデルを使い分けるようにしたので、利用者が通常発声および音節強調発声のいずれで発声しても良好な音声認識が可能になる。
以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。図1は、本発明に係る音声認識装置の第1実施形態の主要部の構成を示したブロック図である。
入力制御部11は、後に詳述する音節強調発声判定部13において入力が音節強調発声であると判定されたときに、利用者に対して通常発声での再発声を要求するメッセージとして、例えば「もう一度、通常会話するときのように発声して下さい」を出力する再発生要求部14を含む。音響分析部12は、入力音声から音響特徴量を抽出する。
音節強調発声判定部13は、音響分析部12で抽出された音響特徴量を用いて、一定の間隔で発声される各音節の出現周期性を検出し、入力音声が音節強調発声であるか否かを判定する。探索処理部15は、抽出された音響特徴量に基づいて、予め作成された統計的な音響モデル16および言語モデル17に従って探索処理を行い、音声認識結果を出力する。
図2は、本発明に係る音声認識装置の第2実施形態の主要部の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。
第1音響モデル16および第1言語モデル17には、通常発声の音響特徴量に基づいて音声認識を行うための統計モデルが登録されている。第2音響モデル18および第2言語モデル19には、音節強調常発声の音響特徴量に基づいて音声認識を行うための統計モデルが登録されている。統計モデル選択部20は、入力音声が通常発声であれば第1統計モデル16,17を選択し、音節強調発声であれば第2統計モデル18,19を選択する。前記探索処理部15は、選択された統計モデルを用いて探索処理を実行する。
図3は、前記音節強調発声判定部13の構成を模式的に表現した図であり、前記音響分析部12で抽出された入力音声のパワー(E)やn次元のMFCC(MFCCの0次項C0を含む)等の音響特徴量に基づいて入力音声の発声区間を検知する発声区間検知部131と、検知された発声区間の出現周期性を判定する周期性判定部132とを主要な構成とし、入力音声が音節強調発声であるか否かの判定結果を、前記図1の第1実施形態では入力制御部11へ、前記図2の第2実施形態では統計モデル選択部20へ、それぞれ出力する。
次いで、前記音節強調発声判定部13の動作について詳細に説明する。音声認識でよく用いられる音響特徴量のひとつとして、ケプストラム領域の特徴量(MFCC:Mel Frequency Cepstrum Coefficient)およびパワーが挙げられる。MFCCとは、フレーム毎に音声データのFFT分析で得られるパワースペクトルに対してメルスケールのフィルタバンクを施し、周波数軸変換されたパワースペクトルに対して離散コサイン変換(DCT)を実行することにより抽出される、スペクトル包絡を表すパラメータであり、その詳細は「音声認識システム」(野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄 編著,オーム社出版局; ISBN4-274-13228-5)などで説明されている。
音声認識では、入力音声のスペクトル特徴量を離散コサイン変換し、ケプストラム領域において3つの処理(直流成分の除去,リフタリング処理およびケプストラム平均除去) を実行することで得られる12次元のMFCC(MFCC1,MFCC2,…MFCC12)およびその1次時間微分(ΔMFCC1,ΔMFCC2,…ΔMFCC12)、ならびにパワーEの1次時間微分(ΔE)を併せた25次元の音響特徴量、さらには各MFCCの2次時間微分(ΔΔMFCC1,ΔΔMFCC2,…ΔΔMFCC12,ΔΔE)までを加えた38次元のMFCCが音響特徴量として利用されることが多い。
ΔEはパワーの時間的変化を表し、無音区間から発声区間に切り替わる境界では大きくパワーが増加するため、ΔEは大きな正のピークをもつ。一方、発声区間から無音区間への境界においてΔEは絶対値の大きな負のピークをもつ。したがって、ΔEの正負のピーク(または、最大振幅)により発声区間と無音区間とを識別することが可能となる。
また、ΔEにn次元分のΔMFCCの絶対値(|ΔMFCC1|,|ΔMFCC2|,…|ΔMFCCn|)の積(ΔMFCC_1)を乗ずることで、更に発声区間と無音区間との境界のピークを強調する一方、それ以外の箇所でのパワー変化によるピークの出現を抑制することができる。
図4,5に、前記図13,14に波形を示した同一発声者による同一発声内容「神奈川」の通常発声および音節強調発声のΔE・|ΔMFCC_1|の変化の様子を示す。両発声とも発声区間の開始時には正のピークが、終了時には負のピークが現れていることがわかる。
図4,5を比較すると、図4の通常発声ではそれぞれの音節に対応するピークが連続しているのに対して、図5の音節強調発声では、ほぼ一定の周期毎にピークが現れている。そして、ピークの出現が完全に周期的である場合、即ちピーク間隔が完全に一定である場合、音節強調発声についてΔE・|ΔMFCC_1|の自己相関をとると、遅れ幅τがこの周期の整数倍に一致するときにピークが現れることとなる。
しかしながら、実際にはピーク間隔には揺らぎが存在し、かつΔE・|ΔMFCC_1|のピークは非常にシャープであるため、自己相関にピークがはっきりと現れない可能性が高い。このような場合には、図6に示したように、一定フレーム毎に、その一定区間内での最大振幅で当該区間を代表させることでΔE・|ΔMFCC_1|をピークピッキング(矩形波化)し、等ピーク間隔の揺らぎを吸収する手法を用いて、その自己相関結果にピークを出現させることができる。前記一定区間は、前記図10に関して説明した音声認識のフレーム処理のように、その一部分が重複していても良いし、重複せずに連続していても良い。
図7は、揺らぎを吸収した場合のΔE・|ΔMFCC_1|の自己相関結果を示した図であり、大きなピークが現れる遅れ幅τp1,τp2,τp3がほぼ一定の間隔であることがわかる。ΔE・|ΔMFCC_1|のピーク間隔が一定に近ければ近いほど、自己相関におけるそれぞれのピークの値も大きくなる。したがって、例えば、遅れ幅τp1の第1のピーク、すなわち一次の自己相関が予め定めた閾値を超えた場合に入力音声が音節強調発声であるとするような判定基準を設けることができる。
そこで、本実施形態では前記発声区間検知部131が、前記図6に関して説明した時系列情報に基づいて発声区間を検知し、前記周期性判定部132が、この時系列情報の一次の自己相関が予め定めた閾値を超える場合に、入力音声が音節強調発声であると判定するようにしている。
また、前記パワーEの代わりにゼロ次項のMFCC、すなわち各フレームにおけるスペクトルの直流成分に対応するC0を用いて、同一発声のΔC0・|ΔMFCC_1|の自己相関をとった場合も、図8に示すように、スケールは異なるものの図7のΔE・|ΔMFCC_1|の自己相関と同様の変化を示す。したがって、ΔEに代えてΔC0を用い、同様に入力が音節強調発声であるか否かを判定するようにしても良い。
さらに、上記した実施形態では、入力音声のパワーEの時間変化率(ΔE)または入力音声のMFCCの0次項(C0)の時間変化率(ΔC0)に、入力音声のMFCCのn各次元分の時間変化率の絶対値同士の積(ΔMFCC_1)を乗じ、これを所定の一定区間ごとに当該区間の最大振幅で代表して得られる時系列情報に基づいて発声区間を検知するものとして説明したが、本発明はこれのみに限定されるものではなく、以下のような変形が可能である。
第1の変形例として、発声区間を入力音声のパワー(E)の時間変化率(ΔE)のみに基づいて検知するようにしても良い。
第2の変形例として、発声区間を入力音声のMFCCの0次項(C0)の時間変化率(ΔC0)のみに基づいて検知するようにしても良い。
第3の変形例として、発声区間を入力音声のパワーEの時間変化率(ΔE)または入力音声のMFCCの0次項(C0)の時間変化率(ΔC0)に、入力音声のMFCCのn次元分の時間変化率の絶対値同士の積(ΔMFCC_1)を乗じて得られる時系列情報に基づいて検知するようにしても良い。
第4の変形例として、発声区間を入力音声のパワーEの時間変化率(ΔE)または入力音声のMFCCの0次項(C0)の時間変化率(ΔC0)に、入力音声のMFCCのn次元分の時間変化率の絶対値同士の積(ΔMFCC_1)を乗じ、これを平滑化して得られる時系列情報に基づいて検知するようにしても良い。
本発明に係る音声認識装置の第1実施形態のブロック図である。 本発明に係る音声認識装置の第2実施形態のブロック図である。 音節強調発声判定部の構成を模式的に表現した図である。 通常発声「かながわ」のΔE・|ΔMFCC_1|の変化を示した波形図である。 音節強調発声「か・な・が・わ」のΔE・|ΔMFCC_1|の変化を示した波形図である。 図5の波形に揺らぎを吸収する手法を適用して得られた波形図である。 揺らぎが吸収されたΔE・|ΔMFCC_1|の自己相関結果を示した図である。 揺らぎが吸収されたΔC0・|ΔMFCC_1|の自己相関結果を示した図である。 従来の音声認識装置の主要部の構成を示した図である。 音響分析部での音響特徴量の抽出方法を説明するための図である。 固定文法モデルの構造を模式的に表現した図である。 単語「今井」のHMM状態系列を示した図である。 通常発声「かながわ」の波形図である。 音節強調発声「か・な・が・わ」の波形図である。 「sil」への遷移を付加したHMM状態系列を示した図である。
符号の説明
11…入力制御部,12…音響分析部,13…音節強調発声判定部,14…再発生要求部,15…探索処理部,16…音響モデル,17…言語モデル,18…第2音響モデル,19…第2言語モデル,20…統計モデル選択部

Claims (22)

  1. 入力音声の音響特徴量を抽出する音響分析手段と、
    前記抽出された音響特徴量に基づいて音声認識を行うための統計モデルと、
    前記抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する音節強調発声判定手段と、
    前記音響特徴量に前記統計モデルを適用して探索処理を実行する探索処理部とを含み、
    入力音声が音節強調発声であるか否かの判定結果に応じて固有の音声認識動作を実行することを特徴とする音声認識装置。
  2. 前記音節強調発声判定手段が、
    抽出された音響特徴量に基づいて入力音声の発声区間を検知する発声区間検知手段と、
    前記発声区間の出現周期性を判定する周期性判定手段とを含み、
    前記出現周期性が所定の基準値よりも高いときに、入力音声を音節強調発声と判定することを特徴とする請求項1に記載の音声認識装置。
  3. 前記周期性判定手段は、前記発声区間の出現周期の自己相関に基づいて出現周期性を判定することを特徴とする請求項2に記載の音声認識装置。
  4. 前記周期性判定手段は、前記発声区間の出現周期の一次の自己相関に基づいて出現周期性を判定することを特徴とする請求項3に記載の音声認識装置。
  5. 入力音声が音節強調発声と判定されたときに、発声者に対して再度の発声を要求する手段を含むことを特徴とする請求項1ないし4のいずれかに記載の音声認識装置。
  6. 通常発声に固有の音響特徴量に対応した第1統計モデルと、
    音節強調発声に固有の音響特徴量に対応した第2統計モデルとを備え、
    前記探索処理部は、入力音声が音節強調発声と判定されたときに、前記第2統計モデルを用いて探索処理を実行することを特徴とする請求項1ないし4のいずれかに記載の音声認識装置。
  7. 前記音響特徴量が入力音声のパワー(E)を含み、
    前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。
  8. 前記音響特徴量が入力音声のMFCCを含み、
    前記発声区間検知手段が、入力音声のMFCCの0次項の時間変化率(ΔC0)に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。
  9. 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
    前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じて得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。
  10. 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
    前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを平滑化して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。
  11. 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
    前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを所定の一定区間ごとに当該区間の最大振幅で代表して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。
  12. 入力音声が音節強調発声であるか否かを判定する発声判定方法において、
    入力音声の音響特徴量を抽出する手順と、
    前記抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する手順とを含むことを特徴とする発声判定方法。
  13. 前記入力音声が音節強調発声であるか否かを判定する手順が、
    抽出された音響特徴量に基づいて入力音声の発声区間を検知する手順と、
    前記発声区間の出現周期性を判定する手順とを含み、
    前記出現周期性が所定の基準値よりも高いときに、入力音声を音節強調発声と判定することを特徴とする請求項12に記載の発声判定方法。
  14. 前記出現周期性を判定する手順は、前記発声区間の出現周期の自己相関に基づいて出現周期性を判定することを特徴とする請求項13に記載の発声判定方法。
  15. 前記出現周期性を判定する手順は、前記発声区間の出現周期の一次の自己相関に基づいて出現周期性を判定することを特徴とする請求項13に記載の発声判定方法。
  16. 前記音響特徴量が入力音声のパワー(E)を含み、
    前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。
  17. 前記音響特徴量が入力音声のMFCCを含み、
    前記発声区間を検知する手順が、入力音声のMFCCの0次項の時間変化率(ΔC0)に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。
  18. 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
    前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じて得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。
  19. 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
    前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを平滑化して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。
  20. 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
    前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを所定の一定区間ごとに当該区間の最大振幅で代表して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。
  21. 前記請求項12ないし20のいずれかに記載の発声判定方法をコンピュータに実行させる発声判定プログラム。
  22. 前記請求項21に記載の発声判定プログラムをコンピュータによる読み出し可能に記憶した記憶媒体。
JP2007010853A 2007-01-19 2007-01-19 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 Expired - Fee Related JP4986028B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007010853A JP4986028B2 (ja) 2007-01-19 2007-01-19 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007010853A JP4986028B2 (ja) 2007-01-19 2007-01-19 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体

Publications (2)

Publication Number Publication Date
JP2008176155A true JP2008176155A (ja) 2008-07-31
JP4986028B2 JP4986028B2 (ja) 2012-07-25

Family

ID=39703216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007010853A Expired - Fee Related JP4986028B2 (ja) 2007-01-19 2007-01-19 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体

Country Status (1)

Country Link
JP (1) JP4986028B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010098130A1 (ja) * 2009-02-27 2010-09-02 パナソニック株式会社 トーン判定装置およびトーン判定方法
JP2015215503A (ja) * 2014-05-12 2015-12-03 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム
CN105632512A (zh) * 2016-01-14 2016-06-01 华南理工大学 一种基于统计模型的双传感器语音增强方法与装置
US11996115B2 (en) 2019-03-08 2024-05-28 Nec Corporation Sound processing method

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62164097A (ja) * 1986-01-14 1987-07-20 株式会社リコー 音声判別方式
JPS62166400A (ja) * 1986-01-20 1987-07-22 株式会社リコー 音声ワ−ドプロセツサ装置
JPH0383100A (ja) * 1989-08-25 1991-04-09 Ricoh Co Ltd 音声区間の検出装置
JP2000099070A (ja) * 1998-09-17 2000-04-07 Canon Inc 音声認識装置及びその方法、コンピュータ可読メモリ
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2006010739A (ja) * 2004-06-22 2006-01-12 Toyota Central Res & Dev Lab Inc 音声認識装置
WO2007046267A1 (ja) * 2005-10-20 2007-04-26 Nec Corporation 音声判別システム、音声判別方法及び音声判別用プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62164097A (ja) * 1986-01-14 1987-07-20 株式会社リコー 音声判別方式
JPS62166400A (ja) * 1986-01-20 1987-07-22 株式会社リコー 音声ワ−ドプロセツサ装置
JPH0383100A (ja) * 1989-08-25 1991-04-09 Ricoh Co Ltd 音声区間の検出装置
JP2000099070A (ja) * 1998-09-17 2000-04-07 Canon Inc 音声認識装置及びその方法、コンピュータ可読メモリ
JP2001265367A (ja) * 2000-03-16 2001-09-28 Mitsubishi Electric Corp 音声区間判定装置
JP2006010739A (ja) * 2004-06-22 2006-01-12 Toyota Central Res & Dev Lab Inc 音声認識装置
WO2007046267A1 (ja) * 2005-10-20 2007-04-26 Nec Corporation 音声判別システム、音声判別方法及び音声判別用プログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010098130A1 (ja) * 2009-02-27 2010-09-02 パナソニック株式会社 トーン判定装置およびトーン判定方法
CN102334156A (zh) * 2009-02-27 2012-01-25 松下电器产业株式会社 音调判定装置及音调判定方法
JP2015215503A (ja) * 2014-05-12 2015-12-03 日本電信電話株式会社 音声認識方法、音声認識装置および音声認識プログラム
CN105632512A (zh) * 2016-01-14 2016-06-01 华南理工大学 一种基于统计模型的双传感器语音增强方法与装置
CN110010149A (zh) * 2016-01-14 2019-07-12 深圳市韶音科技有限公司 基于统计模型的双传感器语音增强方法
CN110070880A (zh) * 2016-01-14 2019-07-30 深圳市韶音科技有限公司 用于分类的联合统计模型的建立方法及应用方法
CN110070883A (zh) * 2016-01-14 2019-07-30 深圳市韶音科技有限公司 语音增强方法
CN110085250A (zh) * 2016-01-14 2019-08-02 深圳市韶音科技有限公司 气导噪声统计模型的建立方法及应用方法
CN110070883B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 语音增强方法
CN110070880B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 用于分类的联合统计模型的建立方法及应用方法
CN110085250B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 气导噪声统计模型的建立方法及应用方法
CN110010149B (zh) * 2016-01-14 2023-07-28 深圳市韶音科技有限公司 基于统计模型的双传感器语音增强方法
US11996115B2 (en) 2019-03-08 2024-05-28 Nec Corporation Sound processing method

Also Published As

Publication number Publication date
JP4986028B2 (ja) 2012-07-25

Similar Documents

Publication Publication Date Title
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
EP3065130B1 (en) Voice synthesis
CN112435654A (zh) 通过帧插入对语音数据进行数据增强
JPWO2009081895A1 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP5398295B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
JP4986028B2 (ja) 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
JP5983604B2 (ja) 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP4256393B2 (ja) 音声処理方法及びそのプログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JPH0950288A (ja) 音声認識装置及び音声認識方法
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JP2012255867A (ja) 音声認識装置
JP4972660B2 (ja) 音声学習装置及びプログラム
Every et al. Enhancement of harmonic content of speech based on a dynamic programming pitch tracking algorithm
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP5170449B2 (ja) 検出装置、音声認識装置、検出方法、及びプログラム
JP2766393B2 (ja) 音声認識方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120418

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120418

R150 Certificate of patent or registration of utility model

Ref document number: 4986028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees