JP4877113B2 - 音響モデル処理装置およびプログラム - Google Patents

音響モデル処理装置およびプログラム Download PDF

Info

Publication number
JP4877113B2
JP4877113B2 JP2007183481A JP2007183481A JP4877113B2 JP 4877113 B2 JP4877113 B2 JP 4877113B2 JP 2007183481 A JP2007183481 A JP 2007183481A JP 2007183481 A JP2007183481 A JP 2007183481A JP 4877113 B2 JP4877113 B2 JP 4877113B2
Authority
JP
Japan
Prior art keywords
acoustic model
acoustic
sound
models
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007183481A
Other languages
English (en)
Other versions
JP2009020353A (ja
Inventor
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007183481A priority Critical patent/JP4877113B2/ja
Publication of JP2009020353A publication Critical patent/JP2009020353A/ja
Application granted granted Critical
Publication of JP4877113B2 publication Critical patent/JP4877113B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、例えば音声認識に利用される音響モデルを処理する技術に関する。
隠れマルコフモデルなどの音響モデルを利用して音声を認識(さらには音声に対応した文字を出力)する音声認識の技術が従来から提案されている。音声認識の対象となる総ての音声について事前に音響モデルを作成しておくことは困難であるから、音声信号に基づいて初期的な音響モデルを適応化(話者適応)することで、当該音声の特徴を固有に反映した音響モデルが生成される。例えば特許文献1には、音声信号から抽出された特徴量に基づいて初期的な音響モデルを適応化する技術が開示されている。
特開2003−271178号公報
ところで、発声者が特定の空間内で発生した音声には、発声時の環境(例えば空間の音響的な特性や発声点と収音点との位置の関係)に応じた音響的な特性が付加されたうえで収音装置に到達する。したがって、例えば複数の発声者が別位置にて随時に発声する会議で収録された音声信号に音声認識を実行する場合、特許文献1の技術のもとで高精度な音声認識を実現するためには、総ての発声者が各位置で発声した音声を利用して発声者毎に音響モデルを適応化する必要がある。しかし、高精度な音響モデルの作成に必要となる音声(すなわち充分に多数の音素を均等に含む音声)を総ての発声者に事前に各位置で発声させることは現実的には困難である。以上の事情に鑑みて、本発明は、発話環境が相違する複数の発声者の各々の音声について高精度な音声認識を実現し得る音響モデルを簡便に作成するという課題の解決をひとつの目的としている。
以上の課題を解決するために、本発明に係る音響モデル処理装置は、発話環境に非依存な不特定話者の第1音響モデル(例えば図3の音響モデルMsid)を記憶する記憶手段と、発話環境に非依存な特定話者の音声信号(例えば図3の音声信号SA)に基づいて第1音響モデルを適応化することで、発話環境に非依存な特定話者の第2音響モデル(例えば図3の音響モデルMA[s1,0])を生成する第1適応化手段と、発話環境が相違する特定話者の複数の音声信号(例えば図3の音声信号SB1〜SBK)の各々に基づいて第1音響モデルを適応化することで、発話環境が相違する特定話者の複数の第3音響モデル(例えば図3の音響モデルMB[s1,1]〜MB[s1,K])を生成する第2適応化手段と、第2音響モデルと複数の第3音響モデルの各々との差分を第1音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第4音響モデル(例えば図3の音響モデルMC[sid,1]〜MC[sid,K])を生成する演算手段とを具備する。
以上の構成によれば、各発声者が別環境のもとで事前に発声するといった煩雑な作業を要することなく、別個の発話環境に対応した不特定話者の複数の第4音響モデルを特定話者の音声信号と第1音響モデルとに基づいて簡便に生成することができる。なお、「不特定話者の音響モデル」とは、複数の発声者の音声から生成された音響モデル(典型的には複数人の音声の平均的な特性をモデル化する音響モデル)を意味する。また、「発話環境に非依存な音響モデル」とは、発音から収音までの経路上で環境(例えば空間内の音響的な特性や発音点と収音点との位置の関係)に応じた特性が殆どまたは全く付加されておらずSN比が高い音声(典型的には残響が付加されていない音声)の音響モデルを意味する。例えば、収音装置に充分に近接した状態(オンマイク)で発声された音声の音響モデルは発話環境に非依存な音響モデルである。
本発明の第1態様において、演算手段は、複数の第3音響モデルの各々第2音響モデルと差分を算定する減算手段と、第1音響モデル各差分とを加算することで複数の第4音響モデルを生成する加算手段とを具備する。
本発明の第2態様(例えば図4の構成)において、演算手段は、第1音響モデルと第2音響モデルとを加算する加算手段と、加算手段による加算後の音響モデルから複数の第3音響モデルの各々を減算することで複数の第4音響モデルを生成する減算手段とを具備する。
本発明の第3態様(例えば図5の構成)において、演算手段は、複数の第3音響モデルの各々と第1音響モデルとを加算する加算手段と、加算手段による加算後の各音響モデルから第2音響モデルを減算することで複数の第4音響モデルを生成する減算手段とを具備する。
本発明の好適な態様に係る音響モデル処理装置は、特定話者の音声信号(例えば図1の音声信号A)を記憶する音声記憶手段と、音声記憶手段が記憶する音声信号が表わす音声を出力する放音手段と、放音手段が出力した音声に応じた音声信号を生成する収音手段とを具備し、第1適応化手段および第2適応化手段は、収音手段が生成した音声信号に基づいて第1音響モデルを適応化する。以上の態様によれば、利用者が実際に発声した音声信号を利用して第1音響モデルを適応化する場合と比較して、適切な第4音響モデルを簡便な作業で生成することが可能である。なお、音声記憶手段は、第1音響モデルを記憶する記憶手段と一体であっても別体であってもよい。
本発明に係る音響モデル処理装置は、音響モデルの処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、発話環境に非依存な不特定話者の第1音響モデルを、発話環境に非依存な特定話者の音声信号に基づいて適応化することで、発話環境に非依存な特定話者の第2音響モデルを生成する第1適応化処理と、発話環境が相違する特定話者の複数の音声信号の各々に基づいて第1音響モデルを適応化することで、発話環境が相違する特定話者の複数の第3音響モデルを生成する第2適応化処理と、第2音響モデルと複数の第3音響モデルの各々との差分を第1音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第4音響モデルを生成する演算処理とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音響モデル処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
本発明は、音響モデルを処理する方法としても特定される。具体的な態様に係る音響モデル処理方法は、発話環境に非依存な不特定話者の第1音響モデルを、発話環境に非依存な特定話者の音声信号に基づいて適応化することで、発話環境に非依存な特定話者の第2音響モデルを生成する第1適応化過程と、発話環境が相違する特定話者の複数の音声信号の各々に基づいて第1音響モデルを適応化することで、発話環境が相違する特定話者の複数の第3音響モデルを生成する第2適応化過程と、第2音響モデルと複数の第3音響モデルの各々との差分を第1音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第4音響モデルを生成する演算過程とを含む。以上の方法によれば、本発明に係る音響モデル処理装置と同様の作用および効果が奏される。
図1は、本発明の実施の形態に係る音声処理装置100の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置30とを具備するコンピュータシステムである。制御装置10は、記憶装置30に格納されたプログラムを実行する演算処理装置である。制御装置10には収音装置42と入力装置44と放音装置52と出力装置54とが接続される。
収音装置(マイクロホン)42は、周囲の音声の波形に応じた音声信号Sを生成する。入力装置44は、音声処理装置100に対する指示を利用者が入力するための機器(例えばキーボード)である。放音装置(例えばスピーカ)52は、制御装置10から供給される信号に応じた音声を放音する。出力装置54は、制御装置10による制御のもとに各種の画像を表示する。なお、制御装置10が指示した画像を印刷する印刷機器も出力装置54として採用される。
記憶装置30は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置30として任意に採用される。記憶装置30には音響モデルMsidと音声信号Aとが事前に格納される。なお、音響モデルMsidと音声信号Aとは別個の記憶装置に格納されてもよい。
音響モデルMsidは、音素毎の音響的な特徴を多数の特徴パラメータによって規定する確率モデル(例えば隠れマルコフモデル)である。本形態の音響モデルMsidは、発声者が収音装置42に充分に近接して発声した音声を複数の発声者(以下「不特定話者」という)について平均化した標準的なモデルである。したがって、音響モデルMsidは、発声時の環境に殆ど依存しない(以下「発話環境に非依存」という)。一方、音声信号Aは、多数の音素を均等に含む文字列を特定の発声者(以下「特定話者」という)s1が発声したときの音声の波形を表わす信号である。なお、符号sidは不特定話者(Speaker InDependent)を意味する。
図1に示すように、制御装置10は音響モデル処理部12および音声認識部14として機能する。なお、制御装置10の各要素は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。例えば、音響モデル処理部12と音声認識部14とは別体の回路としても実現される。
音響モデル処理部12は、音響モデルMsidを適応化する手段である。音声認識部14は、音声信号Vが表わす音声に対応した文字列Tを音響モデル処理部12による適応後の音響モデルに基づいて特定(音声認識)する。音声信号Vが表わす音声は、図2に示すように、会議室などの空間R内に設定されたK個(Kは2以上の整数)の位置P1〜PKの何れかにて複数の発声者の各々が随時に発生する状況(例えば会議)において、空間R内の所定の位置PMに設置された収音装置42が収録した音声である。位置P1〜PKは、例えば空間R内に設置された座席の位置である。
図3は、音響モデル処理部12の具体的な構成を示すブロック図である。同図に示すように、音響モデル処理部12は、第1適応部21と第2適応部22と演算部24とで構成される。第1適応部21には、特定話者s1の音声を表わす音声信号SAが供給される。第1適応部21は、音声信号SAに基づいて音響モデルMsidを適応化(話者適応)することで音響モデルMA[s1,0]を生成して記憶装置30に格納する。
第2適応部22には、音声信号SB1〜SBKが順次に供給される。音声信号SBi(i=1〜K)は、位置Piにおける特定話者s1の音声を表わす。第2適応部22は、各音声信号SBiに基づいて音響モデルMsidを適応化(環境適応)することで音響モデルMB[s1,i]を生成して記憶装置30に格納する。
第1適応部21や第2適応部22による音響モデルMsidの適応化には、最尤線形回帰法(MLLR(Maximum Likelihood Linear Regression)法)や最大事後確率推定法(MAP(Maximum A Posteriori probability estimation)法)に代表される公知の適応化技術が任意に採用される。
演算部24は、音響モデルMsidと音響モデルMA[s1,0]とK個の音響モデルMB[s1,1]〜MB[s1,K]の各々とに基づいてK個の音響モデルMC[sid,1]〜MC[sid,K]を生成する。本形態の演算部24は、減算部241と加算部242とで構成される。演算部24による具体的な処理の内容は後述する。
次に、音響モデルMC[sid,1]〜MC[sid,K]を生成する具体的な手順について説明する。まず、利用者は、空間R内において収音装置42と放音装置52とを充分に近接させたうえで、音声の出力の指示を入力装置44から入力する。当該指示を検出すると、音響モデル処理部12は、記憶装置30に格納された音声信号Aを順次に放音装置52に供給する。したがって、放音装置52から特定話者s1の音声が出力されるとともに、当該音声に応じた音声信号SAが収音装置42から音響モデル処理部12(第1適応部21)に供給される。
第1適応部21は、音声信号SAに基づいて音響モデルMsidを適応化することで音響モデルMA[s1,0]を生成する。収音装置42は放音装置52に充分に近接するから、発音時の環境(例えば空間R内の音響的な特性や放音装置52と収音装置42との位置の関係)に応じた特性は音声信号SAに殆ど反映されない。すなわち、残響のない音声信号SAが採取される。したがって、音響モデルMA[s1,0]は、発話環境に非依存な特定話者s1の音響モデルである。
次いで、利用者は、空間R内の位置PMに収音装置42を設置するとともに放音装置52を位置Piに設置する。音声の出力を利用者が入力装置44から指示すると、音響モデル処理部12は、記憶装置30に格納された音声信号Aを放音装置52に供給する。放音装置52から出力された特定話者s1の音声は位置Piから空間R内を伝播して位置PMの収音装置42に到達し、当該音声に応じた音声信号SBiが第2適応部22に供給される。
第2適応部22は、音声信号SBiに基づいて音響モデルMsidを適応化することで音響モデルMB[s1,i]を生成する。したがって、音響モデルMB[s1,i]は、空間Rの音響的な特性(例えば壁面の反射特性および吸音特性)や発音の位置Pi(位置Piと位置PMとの関係)に依存する特定話者s1の音響モデルとなる。第2適応部22は、利用者が放音装置52を位置P1〜PKの各々に順次に移動させたうえで適応用の音声の出力を指示するたびに以上の処理を実行する。したがって、以上の処理がK回にわたって反復された段階では、発話環境(音声信号SBiに付与された残響)が相違するK個の音響モデルMB[s1,1]〜MB[s1,K]が生成される。
以上の処理が完了すると、減算部241は、第2適応部22が生成した音響モデルMB[s1,1]〜MB[s1,K]の各々から音響モデルMA[s1,0]を減算することで差分Δ1〜ΔKを算定する。差分Δiは、音響モデルMB[s1,i]の各音素の特徴パラメータから、音響モデルMA[s1,0]における当該音素の特徴パラメータを減算することで算定される。したがって、差分Δiは、位置Piでの発声の環境を反映した数値となる。特定話者s1に固有の特性は差分Δ1〜ΔKにおいて除去されている。なお、減算部241による減算の対象となる各音素の特徴パラメータは、例えば、音響モデル(MA[s1,0],MB[s1,i])を定義するガウス分布(ガウス混合分布)における平均値である(分散は考慮しない)。
次いで、加算部242は、減算部241が算定したK個の差分Δ1〜ΔKの各々と記憶装置30に格納された音響モデルMsidとを加算することで音響モデルMC[sid,1]〜MC[sid,K]を生成する。音響モデルMC[sid,i]の各音素の特徴パラメータは、差分Δiと音響モデルMsidとの各々における当該音素の特徴パラメータを加算することで算定される。
音響モデルMsidは発話環境に非依存な不特定話者の音響モデルであり、差分Δiは位置Piでの発話環境を反映する。したがって、加算部242が生成するK個の音響モデルMC[sid,1]〜MC[sid,K]の各々は、別個の発話環境を反映した不特定話者の音響モデルである。換言すると、音響モデルMC[sid,i]は、複数の発声者(不特定話者)が空間R内の位置Piにて発声した音声の平均的な音響モデルに相当する。
以上の説明から理解されるように、演算部24が音響モデルMC[sid,i]を算定する処理の内容は下式で表現できる。下式における“MB[s1,i]−MA[s1,0]”が差分Δiに相当する。
MC[sid,i]=Msid+MB[s1,i]−MA[s1,0] ……(1)
音声認識部14は、発声者が位置Piにて発声した音声の音声信号Vについて音響モデルMC[sid,i]を利用した音声認識を実行することで文字列Tを特定する。音響モデルMC[sid,i]を利用した文字列Tの特定には公知の技術が任意に採用される。文字列Tは出力装置54から出力(表示や印刷)される。
なお、音声信号Vが表わす音声の発声の位置Piを特定する方法は任意であるが、例えば以下の方法が好適である。まず、複数の収音部が相互に離間して配置された収音装置42(マイクロホンアレイ)を利用することで、複数の系統で構成される音声信号Vを採取する。音声認識部14は、音声信号Vを構成する各系統間の音量差や位相差と収音装置42の各収音部の位置との関係に基づいて発声の位置Piを特定する。そして、音声認識部14は、当該位置Piに対応した音響モデルMC[sid,i]を記憶装置30から取得して音声信号Vの音声認識を実行する。なお、音声信号Vから発声の位置Piを特定する処理には公知の技術(例えば特開2007−89058号公報)が任意に採用される。なお、音声信号Vの各区間の音声が発声された位置Piを利用者が入力装置44から入力してもよい。
以上に説明したように、音声信号Vに付与される音響的な特性(空間Rの特性や位置Piと位置PMとの関係)を反映した音響モデルMC[sid,i]が音声認識に利用されるから、例えば発話環境に非依存の音響モデルMsidを利用した場合と比較して高精度な音声認識が実現される。しかも、ひとりの特定話者s1の音声に基づいて音響モデルMC[sid,1]〜MC[sid,K]が生成されるから、音声信号Vの音声の総ての発声者が各位置Piにて事前に発声する必要はない。したがって、各位置Piでの音声について高精度な音声認識を実現し得る音響モデルMC[sid,1]〜MC[sid,K]を簡便に作成できるという利点がある。
しかも、事前に用意された音声信号Aに基づいて適応用の音声が放音装置52から出力される。したがって、音声信号S(SAやSB1〜SBK)を生成するために利用者が空間R内で実際に発声する場合と比較して、音響モデルMC[sid,1]〜MC[sid,K]を簡便に作成できるという効果は格別に顕著である。さらに、音声信号Aの音声は多数の音素を均等に含むように作成されるから、高精度な音響モデルMC[sid,1]〜MC[sid,K]が生成されるという利点もある。
<変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を組合わせてもよい。
(1)変形例1
以上の形態においては適応用の音声が放音装置52から出力される構成を例示したが、利用者が空間R内で実際に発声した音声を音響モデルMsidの適応化に利用してもよい。例えば、利用者が収音装置42に近接して発声した音声の音声信号SAに基づいて第1適応部21が音響モデルMA[s1,0]を生成する構成や、ひとりの利用者が空間R内の位置Piにて発声した音声の音声信号SBiに基づいて第2適応部22が音響モデルMB[s1,i]を生成する構成が採用される。
(2)変形例2
加算部242による音響モデルMsidの加算の時点は適宜に変更される。例えば、図4に示すように、第1適応部21が生成した音響モデルMA[s1,0]と音響モデルMsidとを加算部242が加算する構成も採用される。減算部241は、加算部242による加算後の音響モデルからK個の音響モデルMB[s1,1]〜MB[s1,K]を減算することで音響モデルMC[sid,1]〜MC[sid,K]を生成する。また、図5に示すように、第2適応部22が生成した音響モデルMB[s1,1]〜MB[s1,K]の各々と音響モデルMsidとを加算部242が加算する構成も採用される。減算部241は、音響モデルMB[s1,i]と音響モデルMsidとの加算から音響モデルMA[s1,0]を減算することで音響モデルMC[sid,i]を生成する。以上の例示から理解されるように、演算部24は、音響モデルMsidと音響モデルMA[s1,0]と音響モデルMB[s1,1]〜MB[s1,K]の各々とに基づいて音響モデルMC[sid,1]〜MC[sid,K]を生成する手段であれば足り、演算部24による具体的な処理の内容は任意である。
本発明の実施形態に係る音声処理装置の構成を示すブロック図である。 音声認識の対象となる音声が収録される空間を示す模式図である。 演算部の具体的な構成を示すブロック図である。 変形例に係る演算部の具体的な構成を示すブロック図である。 変形例に係る演算部の具体的な構成を示すブロック図である。
符号の説明
100……音声処理装置、10……制御装置、12……音響モデル処理部、14……音声認識部、21……第1適応部、22……第2適応部、24……演算部、241……減算部、242……加算部、30……記憶装置、42……収音装置、44……入力装置、52……放音装置、54……出力装置、Msid……音響モデル(第1音響モデル)、MA[s1,0]……音響モデル(第2音響モデル)、MB[s1,i](MB[s1,1]〜MB[s1,K])……音響モデル(第3音響モデル)、MC[sid,i](MC[sid,1]〜MC[sid,K])……音響モデル(第4音響モデル)、Δi(Δ1〜ΔK)……差分、SA,SBi(SB1〜SBK),A,V……音声信号。

Claims (6)

  1. 発話環境に非依存な不特定話者の第1音響モデルを記憶する記憶手段と、
    発話環境に非依存な特定話者の音声信号に基づいて前記第1音響モデルを適応化することで、発話環境に非依存な特定話者の第2音響モデルを生成する第1適応化手段と、
    発話環境が相違する前記特定話者の複数の音声信号の各々に基づいて前記第1音響モデルを適応化することで、発話環境が相違する前記特定話者の複数の第3音響モデルを生成する第2適応化手段と、
    前記第2音響モデルと前記複数の第3音響モデルの各々との差分を前記第1音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第4音響モデルを生成する演算手段と
    を具備する音響モデル処理装置。
  2. 前記演算手段は、
    前記複数の第3音響モデルの各々前記第2音響モデルと差分を算定する減算手段と、
    前記第1音響モデル前記各差分とを加算することで前記複数の第4音響モデルを生成する加算手段と
    を具備する請求項1の音響モデル処理装置。
  3. 前記演算手段は、
    前記第1音響モデルと前記第2音響モデルとを加算する加算手段と、
    前記加算手段による加算後の音響モデルから前記複数の第3音響モデルの各々を減算することで前記複数の第4音響モデルを生成する減算手段と
    を具備する請求項1の音響モデル処理装置。
  4. 前記演算手段は、
    前記複数の第3音響モデルの各々と前記第1音響モデルとを加算する加算手段と、
    前記加算手段による加算後の各音響モデルから前記第2音響モデルを減算することで前記複数の第4音響モデルを生成する減算手段と
    を具備する請求項1の音響モデル処理装置。
  5. 前記特定話者の音声信号を記憶する音声記憶手段と、
    前記音声記憶手段が記憶する音声信号が表わす音声を出力する放音手段と、
    前記放音手段が出力した音声に応じた音声信号を生成する収音手段とを具備し、
    前記第1適応化手段および前記第2適応化手段は、前記収音手段が生成した音声信号に基づいて前記第1音響モデルを適応化する
    請求項1から請求項4の何れかの音響モデル処理装置。
  6. 発話環境に非依存な不特定話者の第1音響モデルを、発話環境に非依存な特定話者の音声信号に基づいて適応化することで、発話環境に非依存な特定話者の第2音響モデルを生成する第1適応化処理と、
    発話環境が相違する前記特定話者の複数の音声信号の各々に基づいて前記第1音響モデルを適応化することで、発話環境が相違する特定話者の複数の第3音響モデルを生成する第2適応化処理と、
    前記第2音響モデルと前記複数の第3音響モデルの各々との差分を前記第1音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第4音響モデルを生成する演算処理と
    コンピュータに実行させるプログラム。
JP2007183481A 2007-07-12 2007-07-12 音響モデル処理装置およびプログラム Expired - Fee Related JP4877113B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007183481A JP4877113B2 (ja) 2007-07-12 2007-07-12 音響モデル処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007183481A JP4877113B2 (ja) 2007-07-12 2007-07-12 音響モデル処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009020353A JP2009020353A (ja) 2009-01-29
JP4877113B2 true JP4877113B2 (ja) 2012-02-15

Family

ID=40360030

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007183481A Expired - Fee Related JP4877113B2 (ja) 2007-07-12 2007-07-12 音響モデル処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4877113B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2471875B (en) * 2009-07-15 2011-08-10 Toshiba Res Europ Ltd A speech recognition system and method
GB2493413B (en) 2011-07-25 2013-12-25 Ibm Maintaining and supplying speech models
US10718059B2 (en) * 2017-07-10 2020-07-21 Rohm And Haas Electronic Materials Llc Nickel electroplating compositions with cationic polymers and methods of electroplating nickel

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3505967B2 (ja) * 1997-07-31 2004-03-15 株式会社日立製作所 適応型音声認識装置
JPH1195786A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
JP2004317776A (ja) * 2003-04-16 2004-11-11 Sharp Corp 音響特性校正装置、方法およびプログラム並びにそのプログラムを記録した記録媒体
JP2005196020A (ja) * 2004-01-09 2005-07-21 Nec Corp 音声処理装置と方法並びにプログラム

Also Published As

Publication number Publication date
JP2009020353A (ja) 2009-01-29

Similar Documents

Publication Publication Date Title
JP5605066B2 (ja) 音合成用データ生成装置およびプログラム
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
CN101432799B (zh) 基于高斯混合模型的变换中的软校准
JP2006098993A (ja) 音声処理装置およびそのためのコンピュータプログラム
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
WO2017006766A1 (ja) 音声対話方法および音声対話装置
JP6664670B2 (ja) 声質変換システム
JP2002108383A (ja) 音声認識システム
JP2014123072A (ja) 音声合成システム及び音声合成方法
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP4877113B2 (ja) 音響モデル処理装置およびプログラム
WO2019172397A1 (ja) 音処理方法、音処理装置および記録媒体
WO2019181767A1 (ja) 音処理方法、音処理装置およびプログラム
US20230186782A1 (en) Electronic device, method and computer program
CN115668367A (zh) 音频源分离和音频配音
JP2006234888A (ja) 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
Sirikongtham et al. Improving speech recognition using dynamic multi-pipeline API
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP4877112B2 (ja) 音声処理装置およびプログラム
WO2020208926A1 (ja) 信号処理装置、信号処理方法及びプログラム
JP2006003617A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP2005283646A (ja) 音声認識率推定装置
JP2015079122A (ja) 音響処理装置
JP6372066B2 (ja) 合成情報管理装置および音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111114

R150 Certificate of patent or registration of utility model

Ref document number: 4877113

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees