JP2003271182A - 音響モデル作成装置及び音響モデル作成方法 - Google Patents
音響モデル作成装置及び音響モデル作成方法Info
- Publication number
- JP2003271182A JP2003271182A JP2002074072A JP2002074072A JP2003271182A JP 2003271182 A JP2003271182 A JP 2003271182A JP 2002074072 A JP2002074072 A JP 2002074072A JP 2002074072 A JP2002074072 A JP 2002074072A JP 2003271182 A JP2003271182 A JP 2003271182A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- recognition
- voice data
- information
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Abstract
デルを同時に作成する音響モデル作成装置及び音響モデ
ル作成方法を提供する。 【解決手段】 音響モデル作成装置は、音声データ入力
部11、音韻情報抽出部12、認識用音響モデル作成部
13、認識用音響モデル記憶装置14、合成用音響モデ
ル作成部15、合成用音響モデル記憶装置16を備え
る。音声データ入力部11は、音響モデル作成装置に音
声データ102を入力する。音韻情報抽出部12は、音
声データ102を音韻情報に変換し、音声データ102
と音韻情報の対応づけを行う。認識用音響モデル作成部
13は、音声データと音韻情報から認識用音響モデルの
学習を行う。合成用音響モデル作成部15は、音声デー
タと音韻情報から合成用音響モデルを作成する。
Description
ータをテキストデータに変換する処理)及び音声合成
(テキストデータを音声データに変換する処理)に使用
する音響モデル作成装置及び音響モデル作成方法に関す
る。
法、又は、音声合成に使用する音響モデルの作成方法に
ついては多くの方法が提案されており、多くの音声認識
装置や音声合成装置が製品化されている。例えば、音声
認識と音声合成の両方の機能を持つソフトウェアである
東芝製LaLaVoiceTM2001は2000年に発売されてい
る。
又は音声合成に使用する音響モデルは別々に作成され、
それぞれ一過性のものであった。よって、同一話者のデ
ータを使用しても、発声した場所や時間が異なるため
に、同一話者の音声をモデル化しようとしているにもか
かわらず、認識用モデルと合成用モデルで差が生じ、認
識用音響モデルと合成用音響モデルの両方を最適に作成
することができなかった。例えば、ある話者の認識用音
響モデルを作成し、その10年後に合成用音響モデルを
作成したとする。認識用音響モデルを作成した頃に録音
した音声データを変換したテキストデータがあったとし
ても、10年後の合成用音響モデルを使用した場合、認
識用音響モデルを作成したときの声で音声合成すること
ができない。
も、音声認識と音声合成で処理やモデルを共通化できる
部分が多く、個別に作成すると効率が低下していた。今
後、大量の音声データをテキストに変換したり、大量の
テキストを音声に変換する社会の到来が予想される。効
率よく、かつ木目細かに認識用音響モデルと合成用音響
モデルを作成する必要がある。
響モデルと合成用音響モデルを同時に作成する音響モデ
ル作成装置及び音響モデル作成方法を提供することを目
的とする。
め、本発明の第1の特徴は、(イ)音声データを入力す
る音声データ入力部と、(ロ)音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行う音韻
情報抽出部と、(ハ)音声データと音韻情報から認識用
音響モデルを学習する認識用音響モデル作成部と、
(ニ)音声データと音韻情報から合成用音響モデルを作
成する合成用音響モデル作成部とを備える音響モデル作
成装置であることを要旨とする。
ると、品質の良い認識用音響モデルと合成用音響モデル
を同時に作成することができる。
作成装置について、(ホ)認識用音響モデル作成部は、
音声データと音韻情報と過去に作成された認識用音響モ
デルから、新たに認識用音響モデルを学習し、(へ)合
成用音響モデル作成部は、音声データと音韻情報と過去
に作成された合成用音響モデルから、新たに合成用音響
モデルを作成しても良い。この音響モデル作成装置によ
ると、過去に作成した認識用音響モデル及び合成用音響
モデルを使用して新しい認識用音響モデル及び合成用音
響モデルを作成することにより、一度に大量の音声デー
タを準備しなくても徐々に性能の良い認識用音響モデル
及び合成用音響モデルを作成することができる。
作成装置について、(ト)音韻情報抽出部は、不特定話
者認識用音響モデルを使用して、音声データから音韻情
報を抽出し、音声データと音韻情報の対応づけを行って
も良い。この音響モデル作成装置によると、不特定話者
認識用音響モデルを使用することにより、過去にある特
定の人の音声で作成した認識用音響モデルがない場合で
も、音韻情報抽出部での音韻抽出処理を効率よく行うこ
とが可能となる。
作成装置は、(チ)音声データが発声されたときの環境
情報データを認識用音響モデルあるいは合成用音響モデ
ルに付加する環境情報付加部とを更に備えても良い。こ
こで、「環境情報データ」とは、音声データが発声され
た時間、場所、相手、音声データを発声した人の行動、
血圧、脈拍、体温等を指す。この音響モデル作成装置に
よると、認識用音響モデルや合成用音響モデルを使用す
る環境情報に応じて、認識用音響モデル及び合成用音響
モデルを選択して使用することが可能となる。
作成装置は、(リ)音韻情報抽出部によって抽出された
音韻情報を表示する出力装置と、(ヌ)正しく抽出され
た音韻情報のみを選択する入力装置を更に備えていても
良い。この音響モデル作成装置によると、更に精度の高
い認識用音響モデル及び合成用音響モデルの作成が可能
となる。
を入力するステップと、(ロ)音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行うステ
ップと、(ハ)音声データと音韻情報から認識用音響モ
デルを学習するステップと、(ニ)音声データと音韻情
報から合成用音響モデルを作成するステップとを含む音
響モデル作成方法であることを要旨とする。
方法によると、品質の良い認識用音響モデルと合成用音
響モデルを同時に作成することができる。
作成方法は、(ホ)学習するステップにおいて学習した
認識用音響モデルを使用して、音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行うステ
ップを更に含んでいても良い。この音響モデル作成方法
によると、品質の良い認識用音響モデルと合成用音響モ
デルを同時に作成することができると共に、音韻情報を
より正確に抽出することができる。
ル作成方法は、(へ)音韻情報に誤りがないかどうかを
判定するステップを更に含んでいても良い。この音響モ
デル作成方法によると、更に精度の高い認識用音響モデ
ル及び合成用音響モデルの作成が可能となる。
第1〜第4の実施の形態を説明する。以下の図面の記載
において、同一又は類似の部分には同一又は類似の符号
を付している。但し、図面は模式的なものであることに
留意すべきである。
係る音響モデル作成装置は、図1に示すように、音声デ
ータ102を入力する音声データ入力部11とCPU
(処理制御装置)50とCPU50に接続された入力装
置51、出力装置52、一時記憶装置53、認識用音響
モデル記憶装置14、合成用音響モデル記憶装置16を
備える。CPU50は、音韻情報抽出部12、認識用音
響モデル作成部13、合成用音響モデル作成部15を備
える。
装置に音声データ102を入力する。具体的には、マイ
クを備え直接音声を入力できる場合やファイル化された
音声データを入力する場合などが考えられるが、入力デ
ータの形態は問わない。音韻情報抽出部12は、音声デ
ータ102から音韻情報を抽出し、音声データ102と
音韻情報の対応づけを行う。実現方法としては、例え
ば、音声認識装置を使用して音声を音韻情報に変換し、
音声と音韻情報を対応づけることが可能である。音声認
識装置としては、前述の東芝製LaLaVoiceTM2001などが
販売されている。音韻情報抽出部12で自動抽出した結
果を出力装置52に表示し、入力装置51により人手で
チェックして正しく抽出できた音韻情報のみを選択する
ようにしても良い。
タと音韻情報から認識用音響モデルの学習を行う。認識
用音響モデルの学習方法は音響モデルの方式によりいく
つもの方法が考えられるが、例えばHMMを使用する場
合には、Baum-Welchアルゴリズム(「確率モデルによる
音声認識」中川聖一著、電子情報通信学会、55〜61
頁、参照)が良く知られている。認識用音響モデル記憶
装置14は、認識用音響モデル作成部13で作成した認
識用音響モデルを保存する。認識用音響モデル記憶装置
14は、半導体メモリやハードディスクやDVDなど様
々なメディアで実現可能であるが、メディアの種類は問
わない。
タと音韻情報から合成用音響モデルを作成する。音声合
成に使用する音響モデルによって作成するものが異なる
が、例えば、音声素片、基本ピッチ、音源残差、韻律情
報などを入力された音声データについて作成する。一例
として、音声素片を作成する方法を説明する。音声デー
タに20msec程度の一定時間長の時間窓を掛け、1
0msec程度の一定時間シフトをしながら各窓内でケ
プストラム分析を行う。次に、各フレームのパワースペ
クトラムや音声パワーを使用して、音韻に対応するフレ
ーム範囲からケプストラムパラメータを抜き出し、音声
素片とする。合成用音響モデル記憶装置16は、このよ
うに作成した合成用音響モデルを保存する。合成用音響
モデル記憶装置16は、認識用音響モデル記憶装置14
と同様に、半導体メモリやハードディスクやDVDなど
様々なメディアで実現可能であるが、メディアの種類は
問わない。
機器を指す。入力装置51から入力操作が行われると対
応するキー情報がCPU50に伝達される。出力装置5
2は、モニタなどの画面を指し、液晶表示装置(LC
D)、発光ダイオード(LED)パネル、エレクトロル
ミネッサンス(EL)パネル等が使用可能である。一時
記憶装置53は、CPU50における処理において、計
算途中や解析途中のデータを一時的に保存する。
置によると、品質の良い認識用音響モデルと合成用音響
モデルを同時に作成することができる。
作成装置の処理の流れを図2を参照して説明する。
音声データ入力部11により入力された音声データを、
音韻情報抽出部12は一時記憶装置53に記録する。そ
して、ステップS202において、音韻情報抽出部12
は、記録された音声データから音韻情報を抽出し、音声
データと音韻情報を対応づける。
音韻情報に誤りがないかどうかを判定する。この判定方
法としては、抽出した音韻の信頼度(スコア)が一定の
条件を満たしているか音韻情報抽出部12が自動的に判
定することができる。又、自動抽出した結果を出力装置
52に表示し、人手によって、判定を行っても構わな
い。音韻情報に誤りがある場合には、ステップS204
に進み、音韻情報の修正を行う。この修正方法として
は、より処理時間はかかるが詳細な音韻情報抽出を行っ
て音韻抽出の精度を改善したり、正しくないと判断され
た部分の情報は使用しないようにすることができる。
又、自動抽出した結果を出力装置52に表示し、入力装
置51により人手で正しい音韻情報を入力したり、正し
く抽出できた音韻情報のみを選択するようにしても良
い。そして、ステップS202に戻り、音韻情報の抽出
をやり直す。
報に誤りがない場合には、ステップ205に進み、認識
用音響モデル作成部13により、音声データと音韻情報
から認識用音響モデルを学習する。
合成用音響モデル作成部15により、音声データと音韻
情報から合成用音響モデルを作成する。
の良い認識用音響モデルと合成用音響モデルを同時に作
成することができる。
成装置の別の処理の流れを図3を参照して説明する。
2のステップS201〜S205と同じであるので、こ
こでは説明を省略する。
ステップS305において学習した認識用音響モデルを
使用して、音韻情報抽出部12は、音声データから音韻
情報を抽出し、音声データと音韻情報を対応づける。認
識用音響モデルを利用することにより、音韻情報をより
正確に抽出することが可能となる。
音韻情報に誤りがないかどうかを判定する。この判定方
法としては、抽出した音韻の信頼度(スコア)が一定の
条件を満たしているか音韻情報抽出部12が自動的に判
定することができる。又、自動抽出した結果を出力装置
52に表示し、人手によって、判定を行っても構わな
い。音韻情報に誤りがある場合には、ステップS308
に進み、音韻情報の誤りを修正を行う。この修正方法と
しては、より処理時間はかかるが詳細な音韻情報抽出を
行って音韻抽出の精度を改善したり、正しくないと判断
された部分の情報は使用しないようにすることができ
る。又、自動抽出した結果を出力装置52に表示し、入
力装置51により人手で正しい音韻情報を入力したり、
正しく抽出できた音韻情報のみを選択するようにしても
良い。そして、ステップS306に戻り、音韻情報の抽
出をやり直す。
報に誤りがない場合には、ステップS309に進み、合
成用音響モデル作成部15により、音声データと音韻情
報から合成用音響モデルを作成する。
の良い認識用音響モデルと合成用音響モデルを同時に作
成することができると共に、音韻情報をより正確に抽出
することができる。
作成装置1の利用例を図4を用いて説明する。ステップ
S100に示すように、話者A100と話者B101が
会話(音声対話)をしているシーンを考える。この対話
シーンの一例を図5に示す。図5は、ヘッドセット型マ
イクを装着した2人が話をしているシーンを表現してい
る。このようにマイクを装着し、デジタル化した音声を
PCのハードディスクのような記憶装置110に記録す
ることによって、人が発声する音声をすべて記録するこ
とが可能である。この例ではヘッドセット型マイクを使
用したが、マイクはヘッドセット型である必要はなく、
ピン型マイクやスタンドマイクや壁埋め込み型マイクな
どその種類は問わない。又、記憶装置110は、デジタ
ル化した音声だけではなく、デジタル化された制御信
号、データ等のデジタル信号を記録することが可能であ
る。
から議事録や要約を作成することを想定する。このため
には、音声データをテキストデータに変換する必要があ
る。図4では、話者A100の音声データ102をテキ
ストデータB108に変換することを想定するが、変換
する音声データは話者B101の音声データでも構わな
いし、話者A100と話者B101両方の音声データで
も構わない。
の会話音声を録音し、音声データ102を作成する。音
声データ102から本発明に係る音響モデル作成装置1
により、認識用音響モデル105を作成する。音声認識
部104が、話者A100の音声を認識して、テキスト
データB108に変換する際に、認識用音響モデル10
5を使用する。話者A100の音声データ102と、話
者A100の音声データ102から作成された認識用音
響モデル105とから音声認識を行うことにより、より
正確なテキストデータB108を作成することができ
る。又、後日、録音データを検索する際に、音声データ
をテキストデータに変換し、音声データとテキストデー
タを対応づけて、音声データをテキストで検索などをで
きるようにしておくと効率的であるという利点もある。
途中に、ステップS102に示すように、話者A100
がキーボードから、メモ等のテキストデータA103を
入力して、後日、メールで話者B101へ送ることを想
定する。話者B101は車の運転中にメールを読みたか
ったので音声合成部107を使用してテキストデータA
103を音声データに変換して聞こうとする。このと
き、第3者の声でメールを読み上げるよりも、話者A1
00の声で読み上げた方が臨場感があり、理解の助けに
もなる。更に、同じ話者A100の声であっても、話者
A100と話者B101が会話したときの話者A100
の声で読み上げることが出来れば更に望ましい。なぜな
ら、人の声は日々変化しており、又、話相手によっても
話し方が大きく変化するからである。10年前の話者A
100の声で読み上げられても違和感はあるし、話者A
100と話者B101が友人だとすると、話者A100
が会社の上司と話をするときの声で読み上げられても違
和感を感じる。話者A100と話者B101が会話をし
たときに録音した音声データ102を使用して、本発明
に係る音響モデル作成装置1により、合成用音響モデル
106を作成しておく。この合成用音響モデル106を
用いて、音声合成部107により、テキストデータA1
03を音声データに変換し、音声出力部109から音声
を出力する。この音声は、話者A100が話者B101
と会話をしたときと同じ音声になる。
に、事前に作成した認識用音響モデル105を使用して
音声データ102から音韻情報を抽出することにより、
効率良く合成用音響モデルを作成することが可能とな
る。このように、音声認識と音声合成は表裏一体の関係
にあり、同一の音声データ102から認識用音響モデル
105と合成用音響モデル106を作成しておくことに
より、録音音声やメモなどの2次利用を大幅に促進する
ことが可能となる。
デルを同時に作成することにより、次回の合成用音響モ
デル作成時に、同時に作成しておいた認識用音響モデル
を音声データからの音韻情報の抽出に使用することがで
きる。これにより、今回よりも精度良く音声データから
の音韻情報の抽出が可能となる。精度良く音韻情報が抽
出できると、認識用音響モデルと合成用音響モデルの精
度もよくなり、より精度の高い音声認識と、より音声品
質の良い音声合成が可能となる。この一連の処理を繰り
返すことにより、更に性能の良い認識用音響モデルと合
成用音響モデルの作成が可能となる。これに加えて、品
質のより良い認識用音響モデルや合成用音響モデルを作
成するためには、自動化した場合の音韻情報の抽出誤り
を排除する必要がある。これは、人手によるデータの品
質チェック等により品質を改善することができる。
係る音響モデル作成装置は、過去に作成された認識用音
響モデル及び合成用音響モデルを利用して、音声認識用
モデルと合成用音響モデルを同時に作成する。図6に示
すように、第2の実施の形態に係る音響モデル作成装置
は、音声データ102を入力する音声データ入力部11
とCPU(処理制御装置)50とCPU50に接続され
た入力装置51、出力装置52、一時記憶装置53、認
識用音響モデル作成装置14、合成用音響モデル記憶装
置16、参照用認識用音響モデル記憶装置21、参照用
合成用音響モデル記憶装置22を備える。CPU50
は、音韻情報抽出部12、認識用音響モデル作成部1
3、合成用音響モデル作成部15を備える。入力装置5
1、出力装置52、一時記憶装置53、音声データ入力
部11、音韻情報抽出部12は、第1の実施の形態に係
る音響モデル作成装置と同様であるので、ここでは説明
を省略する。
102と音韻情報と参照用認識用音響モデル記憶装置2
1に保持されている過去に作成された認識用音響モデル
から、新たに認識用音響モデルを学習する。認識用音響
モデルの学習方法は音響モデルの方式によりいくつもの
方法が考えられるが、例えばHMMを使用する場合に
は、Baum-Welchアルゴリズムが良く知られている。認識
用音響モデル記憶装置14は、認識用音響モデル作成部
13で作成した認識用音響モデルを保存する。認識用音
響モデル記憶装置14に保存された認識用音響モデル
は、参照用認識用音響モデル装置21にコピーされ、次
回の認識用音響モデル作成に使用されても良い。認識用
音響モデル記憶装置14、参照用認識用音響モデル記憶
装置21は、半導体メモリやハードディスクやDVDな
ど様々なメディアで実現可能であるが、メディアの種類
は問わない。
タ102と音韻情報と過去に作成した合成用音響モデル
記憶装置22に保存された合成用音響モデルから、新た
に合成用音響モデルを作成する。音声合成に使用する音
響モデルによって作成するものが異なるが、例えば、音
声素片、基本ピッチ、音源残差、韻律情報などを入力さ
れた音声データについて作成する。合成用音響モデル記
憶装置16は、合成用音響モデル作成部15で作成した
合成用音響モデルを保存する。合成用音響モデル記憶装
置16に保存された合成用音響モデルは、参照用合成用
音響モデル装置22にコピーされ、次回の合成用音響モ
デル作成に使用されても良い。合成用音響モデル記憶装
置16、参照用合成用音響モデル記憶装置22は、半導
体メモリやハードディスクやDVDなど様々なメディア
で実現可能であるが、メディアの種類は問わない。
置によると、過去に作成した認識用音響モデル及び合成
用音響モデルを使用して新しい認識用音響モデル及び合
成用音響モデルを作成することにより、一度に大量の音
声データを準備しなくても徐々に性能の良い認識用音響
モデル及び合成用音響モデルを作成することができる。
係る音響モデル作成装置は、不特定話者認識用音響モデ
ルを利用して、音声認識用モデルと合成用音響モデルを
同時に作成する。図7に示すように、第3の実施の形態
に係る音響モデル作成装置は、音声データ102を入力
する音声データ入力部11とCPU(処理制御装置)5
0とCPU50に接続された入力装置51、出力装置5
2、一時記憶装置53、認識用音響モデル記憶装置1
4、合成用音響モデル記憶装置16、不特定話者認識用
音響モデル記憶装置31を備える。CPU50は、音韻
情報抽出部12、認識用音響モデル作成部13、合成用
音響モデル作成部15を備える。入力装置51、出力装
置52、一時記憶装置53、音声データ入力部11、認
識用音響モデル作成部13、認識用音響モデル記憶装置
14、合成用音響モデル作成部15、合成用音響モデル
記憶装置16は、第1の実施の形態に係る音響モデル作
成装置と同様であるので、ここでは説明を省略する。
韻情報を抽出するときに不特定話者認識用音響モデル記
憶装置31に保存された音響モデルを使用する。不特定
話者認識用音響モデルとは、特定の人の声に合わせて作
成した認識用音響モデルではなく、多くの人の声から作
成された認識用音響モデルである。音韻情報抽出部12
は、過去にある特定の人の音声で作成した認識用音響モ
デルがない場合でも、不特定話者認識用モデルを利用す
ることにより、音韻抽出処理を効率良く行う。又、第1
の実施の形態に係る音響モデル作成装置の音韻情報抽出
部12と同様に、より処理時間はかかるが詳細な音韻情
報抽出を行って音韻抽出の精度を改善したり、正しくな
いと判断された部分の情報は使用しないようにすること
ができる。あるいは、自動抽出した結果を出力装置52
に表示し、入力装置51により人手でチェックして正し
く抽出できた音韻情報のみを選択し、誤りを訂正しても
良い。
置によると、不特定話者認識用音響モデル記憶装置31
に保存された音響モデルを使用することにより、過去に
ある特定の人の音声で作成した認識用音響モデルがない
場合でも、音韻情報抽出部12での音韻抽出処理を効率
よく行うことが可能となる。
係る音響モデル作成装置は、音声認識用モデルと合成用
音響モデルを同時に作成すると共に、作成した認識用音
響モデル及び合成用音響モデルに環境情報を付加する。
図8に示すように、第4の実施の形態に係る音響モデル
作成装置は、音声データ102を入力する音声データ入
力部11とCPU(処理制御装置)50とCPU50に
接続された入力装置51、出力装置52、一時記憶装置
53、認識用音響モデル記憶装置14、合成用音響モデ
ル記憶装置16、認識用環境情報記憶装置42、合成用
環境情報記憶装置43を備える。CPU50は、音韻情
報抽出部12、認識用音響モデル作成部13、合成用音
響モデル作成部15、環境情報付加部41を備える。入
力装置51、出力装置52、一時記憶装置53、音声デ
ータ入力部11、音韻情報抽出部12、認識用音響モデ
ル作成部13、認識用音響モデル記憶装置14、合成用
音響モデル作成部15、合成用音響モデル記憶装置16
は、第1の実施の形態に係る音響モデル作成装置と同様
であるので、ここでは説明を省略する。
11に入力された音声が発声されたときの環境情報デー
タ200を、その音声データから作成した認識用音響モ
デル又は合成用音響モデルに付加する。環境情報データ
は、具体的には、時間情報や場所情報、話者の体調、話
者の話している相手等が挙げられる。環境情報データの
入力方法としては、例えば、音声入力時に発話者が入力
しても構わないし、時間情報であれば時計を使用して自
動入力したり、場所情報であればGPSなどを使用して
自動入力することも可能である。又、音波のゆらぎや血
圧、脈拍、体温、発汗、音声の大きさ等を測定し、発話
者の生体情報や感情を環境情報として付加することも可
能である。その他、発話者のスケジュールを事前に登録
しておき、音声が入力された時間帯から、現在の場所が
会社なのか家なのか、会議中であるのか食事中であるの
かといった環境情報データを付加することも可能であ
る。更に、音声データ入力時には環境情報データが入力
されていなくても、入力された音声データから話の内容
や、音声の高さ、大きさ等から嬉しそうに話をしている
かなどの感情情報を抽出して環境情報データを付加する
ことも可能である。
響モデルに付加する環境情報データを保存する。又、合
成用環境情報記憶装置43は、合成用音響モデルに付加
する環境情報データを保存する。
係る音響モデル作成装置によって作成された認識用音響
モデル、合成用音響モデルの利用例について説明する。
図9では、環境情報データを基に選択した認識用音響モ
デル/合成用音響モデルを利用した音声認識・音声合成
処理について示す。第4の実施の形態に係る音響モデル
作成装置によって作成された認識用音響モデル、合成用
音響モデルは、それぞれ、認識用音響モデル記憶装置1
4、合成用音響モデル記憶装置15に保存されている。
を認識し、テキストデータに変換する。このとき、音声
データA300が発声された時の環境情報に応じたテキ
ストデータに変換するために、認識用音響モデル選択部
301が認識用音響モデル記憶装置14から環境情報に
応じた認識用音響モデルを選択する。音声認識部104
は、この認識用音響モデルを使用して、音声データAを
テキストデータに変換する。そして、認識用音響モデル
選択部301で選択した環境情報データと共に、テキス
トデータを認識結果記憶装置302に保存する。
02に保存されたテキストデータを音声データB303
に変換する。このとき、合成用音響モデル選択部304
は、認識結果記憶装置302に保存された環境情報デー
タを使用して、合成用音響モデル記憶装置16から合成
用音響モデルを選択する。音声合成部107は、合成用
音響モデル選択部304が選択した合成用音響モデルを
使用して、テキストデータを音声データB303に変換
する。
置によると、認識用音響モデルや合成用音響モデルを使
用する環境情報に応じて、認識用音響モデル及び合成用
音響モデルを選択して使用することが可能となる。
施の形態によって記載したが、この開示の一部をなす論
述及び図面はこの発明を限定するものであると理解すべ
きではない。この開示から当業者には様々な代替実施の
形態、実施例及び運用技術が明らかとなろう。
において、認識用音響モデル記憶装置14合成用音響モ
デル記憶装置15を異なる記憶装置として記述したが、
一つの記憶装置に認識用音響モデル及び合成用音響モデ
ルを保存しても良い。同様に、第4の実施の形態におい
て、認識用環境情報記憶装置42と合成用環境情報記憶
装置43を異なる記憶装置として記述したが、一つの記
憶装置に認識用環境情報及び合成用環境情報を保存して
も良い。
いて、認識用音響モデルと合成用音響モデルを同時に作
成する音響モデル作成装置及び音響モデル作成方法につ
いて述べたが、この「同時に作成する」というのは、時
間的なタイミングが同時であるということではなく、同
じ音声データから認識用音響モデルと合成用音響モデル
を作成するということである。従って、認識用音響モデ
ルと合成用音響モデルを作成する順序は問わない。
ない様々な実施の形態等を含むことは勿論である。従っ
て、本発明の技術的範囲は上記の説明から妥当な特許請
求の範囲に係る発明特定事項によってのみ定められるも
のである。
モデルと合成用音響モデルを同時に作成する音響モデル
作成装置及び音響モデル作成方法を提供することができ
る。
成装置の構成図である。
成方法のフローチャートである。
成方法の別のフローチャートである。
成装置の利用例を示す図である。
る。
成装置の構成図である。
成装置の構成図である。
成装置の構成図である。
成装置で作成された認識用音響モデル及び合成用音響モ
デルの利用例を示す図である。
Claims (9)
- 【請求項1】音声データを入力する音声データ入力部
と、 前記音声データから音韻情報を抽出し、前記音声データ
と前記音韻情報の対応づけを行う音韻情報抽出部と、 前記音声データと前記音韻情報から認識用音響モデルを
学習する認識用音響モデル作成部と、 前記音声データと前記音韻情報から合成用音響モデルを
作成する合成用音響モデル作成部とを備えることを特徴
とする音響モデル作成装置。 - 【請求項2】前記認識用音響モデル作成部は、前記音声
データと前記音韻情報と過去に作成された認識用音響モ
デルから、新たに認識用音響モデルを学習し、 前記合成用音響モデル作成部は、前記音声データと前記
音韻情報と過去に作成された合成用音響モデルから、新
たに合成用音響モデルを作成することを特徴とする請求
項1に記載の音響モデル作成装置。 - 【請求項3】前記音韻情報抽出部は、不特定話者認識用
音響モデルを使用して、前記音声データから音韻情報を
抽出し、前記音声データと前記音韻情報の対応づけを行
うことを特徴とする請求項1又は2に記載の音響モデル
作成装置。 - 【請求項4】前記音声データが発声されたときの環境情
報データを前記認識用音響モデルあるいは前記合成用音
響モデルに付加する環境情報付加部とを更に備えること
を特徴とする請求項1〜3のいずれか1項に記載の音響
モデル作成装置。 - 【請求項5】前記環境情報データは前記音声データが発
声された時間、場所、相手、又は発声した人の行動、血
圧、脈拍、若しくは体温であることを特徴とする請求項
4に記載の音響モデル作成装置。 - 【請求項6】前記音韻情報抽出部によって抽出された前
記音韻情報を表示する出力装置と、 正しく抽出された前記音韻情報のみを選択する入力装置
とを更に備えることを特徴とする請求項1〜5のいずれ
か1項に記載の音響モデル作成装置。 - 【請求項7】音声データを入力するステップと、 前記音声データから音韻情報を抽出し、前記音声データ
と前記音韻情報の対応づけを行うステップと、 前記音声データと前記音韻情報から認識用音響モデルを
学習するステップと、 前記音声データと前記音韻情報から合成用音響モデルを
作成するステップとを含むことを特徴とする音響モデル
作成方法。 - 【請求項8】前記学習するステップにおいて学習した認
識用音響モデルを使用して、前記音声データから音韻情
報を抽出し、前記音声データと前記音韻情報の対応づけ
を行うステップとを更に含むことを特徴とする請求項7
に記載の音響モデル作成方法。 - 【請求項9】前記音韻情報に誤りがないかどうかを判定
するステップを更に含むことを特徴とする請求項7又は
8に記載の音響モデル作成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002074072A JP2003271182A (ja) | 2002-03-18 | 2002-03-18 | 音響モデル作成装置及び音響モデル作成方法 |
US10/388,491 US20030177005A1 (en) | 2002-03-18 | 2003-03-17 | Method and device for producing acoustic models for recognition and synthesis simultaneously |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002074072A JP2003271182A (ja) | 2002-03-18 | 2002-03-18 | 音響モデル作成装置及び音響モデル作成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003271182A true JP2003271182A (ja) | 2003-09-25 |
Family
ID=28035283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002074072A Pending JP2003271182A (ja) | 2002-03-18 | 2002-03-18 | 音響モデル作成装置及び音響モデル作成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20030177005A1 (ja) |
JP (1) | JP2003271182A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165066A (ja) * | 2003-12-03 | 2005-06-23 | Internatl Business Mach Corp <Ibm> | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
WO2010104040A1 (ja) * | 2009-03-09 | 2010-09-16 | 国立大学法人豊橋技術科学大学 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
WO2018168427A1 (ja) * | 2017-03-13 | 2018-09-20 | ソニー株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
JP2019120841A (ja) * | 2018-01-09 | 2019-07-22 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
JP2020034835A (ja) * | 2018-08-31 | 2020-03-05 | 国立大学法人京都大学 | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 |
JP2021015264A (ja) * | 2019-07-11 | 2021-02-12 | サウンドハウンド,インコーポレイテッド | 視覚支援スピーチ処理 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7251603B2 (en) * | 2003-06-23 | 2007-07-31 | International Business Machines Corporation | Audio-only backoff in audio-visual speech recognition system |
JP4150645B2 (ja) * | 2003-08-27 | 2008-09-17 | 株式会社ケンウッド | 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム |
JP2011186351A (ja) * | 2010-03-11 | 2011-09-22 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
KR20120121070A (ko) * | 2011-04-26 | 2012-11-05 | 삼성전자주식회사 | 원격 건강관리 시스템 및 이를 이용한 건강관리 방법 |
CN107004404B (zh) * | 2014-11-25 | 2021-01-29 | 三菱电机株式会社 | 信息提供系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4462080A (en) * | 1981-11-27 | 1984-07-24 | Kearney & Trecker Corporation | Voice actuated machine control |
JPS58130396A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
US5787414A (en) * | 1993-06-03 | 1998-07-28 | Kabushiki Kaisha Toshiba | Data retrieval system using secondary information of primary data to be retrieved as retrieval key |
US5734794A (en) * | 1995-06-22 | 1998-03-31 | White; Tom H. | Method and system for voice-activated cell animation |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US6173260B1 (en) * | 1997-10-29 | 2001-01-09 | Interval Research Corporation | System and method for automatic classification of speech based upon affective content |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
US6587822B2 (en) * | 1998-10-06 | 2003-07-01 | Lucent Technologies Inc. | Web-based platform for interactive voice response (IVR) |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US6253181B1 (en) * | 1999-01-22 | 2001-06-26 | Matsushita Electric Industrial Co., Ltd. | Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers |
JP2002539483A (ja) * | 1999-03-08 | 2002-11-19 | シーメンス アクチエンゲゼルシヤフト | 音声信号の特徴記述子を求める方法 |
DE60026637T2 (de) * | 1999-06-30 | 2006-10-05 | International Business Machines Corp. | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems |
US20020178004A1 (en) * | 2001-05-23 | 2002-11-28 | Chienchung Chang | Method and apparatus for voice recognition |
-
2002
- 2002-03-18 JP JP2002074072A patent/JP2003271182A/ja active Pending
-
2003
- 2003-03-17 US US10/388,491 patent/US20030177005A1/en not_active Abandoned
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8150687B2 (en) | 2003-12-03 | 2012-04-03 | Nuance Communications, Inc. | Recognizing speech, and processing data |
JP2005165066A (ja) * | 2003-12-03 | 2005-06-23 | Internatl Business Mach Corp <Ibm> | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム |
WO2010104040A1 (ja) * | 2009-03-09 | 2010-09-16 | 国立大学法人豊橋技術科学大学 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
JPWO2010104040A1 (ja) * | 2009-03-09 | 2012-09-13 | 国立大学法人豊橋技術科学大学 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
JP5574344B2 (ja) * | 2009-03-09 | 2014-08-20 | 国立大学法人豊橋技術科学大学 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
US11335322B2 (en) | 2017-03-13 | 2022-05-17 | Sony Corporation | Learning device, learning method, voice synthesis device, and voice synthesis method |
WO2018168427A1 (ja) * | 2017-03-13 | 2018-09-20 | ソニー株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
JPWO2018168427A1 (ja) * | 2017-03-13 | 2020-01-09 | ソニー株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
JP7070544B2 (ja) | 2017-03-13 | 2022-05-18 | ソニーグループ株式会社 | 学習装置、学習方法、音声合成装置、音声合成方法 |
JP2019120841A (ja) * | 2018-01-09 | 2019-07-22 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
JP6989951B2 (ja) | 2018-01-09 | 2022-01-12 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
JP2020034835A (ja) * | 2018-08-31 | 2020-03-05 | 国立大学法人京都大学 | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 |
JP7063779B2 (ja) | 2018-08-31 | 2022-05-09 | 国立大学法人京都大学 | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
JP2021015264A (ja) * | 2019-07-11 | 2021-02-12 | サウンドハウンド,インコーポレイテッド | 視覚支援スピーチ処理 |
JP7242520B2 (ja) | 2019-07-11 | 2023-03-20 | サウンドハウンド,インコーポレイテッド | 視覚支援スピーチ処理 |
Also Published As
Publication number | Publication date |
---|---|
US20030177005A1 (en) | 2003-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10991360B2 (en) | System and method for generating customized text-to-speech voices | |
US7472065B2 (en) | Generating paralinguistic phenomena via markup in text-to-speech synthesis | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
JP6434948B2 (ja) | 名前発音システム及び方法 | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
KR102072730B1 (ko) | 핫워드 적합성을 결정하는 방법 및 장치 | |
Yamagishi et al. | Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on various ASR corpora | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US7792673B2 (en) | Method of generating a prosodic model for adjusting speech style and apparatus and method of synthesizing conversational speech using the same | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
JP2003271182A (ja) | 音響モデル作成装置及び音響モデル作成方法 | |
CN116601702A (zh) | 一种用于多说话者和多语言语音合成的端到端神经系统 | |
JP5693834B2 (ja) | 音声認識装置及び音声認識方法 | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム | |
JP2010048959A (ja) | 音声出力システム及び車載装置 | |
TWI358649B (en) | System and method for speech translation between c | |
Bohac et al. | A cross-lingual adaptation approach for rapid development of speech recognizers for learning disabled users | |
Breuer et al. | Set-up of a Unit-Selection Synthesis with a Prominent Voice. | |
TW202115713A (zh) | 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法 | |
KR20220116660A (ko) | 인공지능 스피커 기능을 탑재한 텀블러 장치 | |
KR20220050342A (ko) | 음성 합성 서비스를 제공하는 장치, 단말기 및 방법 | |
Adde et al. | NameDat: A database of English proper names spoken by native Norwegians | |
Wang et al. | TAICAR–The collection and annotation of an in-car speech database created in Taiwan | |
JPH08251307A (ja) | 音声応答サービス装置 | |
Gibbon et al. | Consumer off-the-shelf (COTS) speech technology product and service evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050801 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051107 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060112 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060331 |