JP2003271182A

JP2003271182A - 音響モデル作成装置及び音響モデル作成方法

Info

Publication number: JP2003271182A
Application number: JP2002074072A
Authority: JP
Inventors: Yasuyuki Masai; 康之正井; Yoichi Takebayashi; 洋一竹林; Hiroshi Kanazawa; 博史金澤; Yuzo Tamada; 雄三玉田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-03-18
Filing date: 2002-03-18
Publication date: 2003-09-25
Also published as: US20030177005A1

Abstract

(57)【要約】【課題】品質の良い認識用音響モデルと合成用音響モ
デルを同時に作成する音響モデル作成装置及び音響モデ
ル作成方法を提供する。【解決手段】音響モデル作成装置は、音声データ入力
部１１、音韻情報抽出部１２、認識用音響モデル作成部
１３、認識用音響モデル記憶装置１４、合成用音響モデ
ル作成部１５、合成用音響モデル記憶装置１６を備え
る。音声データ入力部１１は、音響モデル作成装置に音
声データ１０２を入力する。音韻情報抽出部１２は、音
声データ１０２を音韻情報に変換し、音声データ１０２
と音韻情報の対応づけを行う。認識用音響モデル作成部
１３は、音声データと音韻情報から認識用音響モデルの
学習を行う。合成用音響モデル作成部１５は、音声デー
タと音韻情報から合成用音響モデルを作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識（音声デ
ータをテキストデータに変換する処理）及び音声合成
（テキストデータを音声データに変換する処理）に使用
する音響モデル作成装置及び音響モデル作成方法に関す
る。

【０００２】

【従来の技術】音声認識に使用する音響モデルの作成方
法、又は、音声合成に使用する音響モデルの作成方法に
ついては多くの方法が提案されており、多くの音声認識
装置や音声合成装置が製品化されている。例えば、音声
認識と音声合成の両方の機能を持つソフトウェアである
東芝製LaLaVoice^TM2001は２０００年に発売されてい
る。

【０００３】

【発明が解決しようとする課題】このように、音声認識
又は音声合成に使用する音響モデルは別々に作成され、
それぞれ一過性のものであった。よって、同一話者のデ
ータを使用しても、発声した場所や時間が異なるため
に、同一話者の音声をモデル化しようとしているにもか
かわらず、認識用モデルと合成用モデルで差が生じ、認
識用音響モデルと合成用音響モデルの両方を最適に作成
することができなかった。例えば、ある話者の認識用音
響モデルを作成し、その１０年後に合成用音響モデルを
作成したとする。認識用音響モデルを作成した頃に録音
した音声データを変換したテキストデータがあったとし
ても、１０年後の合成用音響モデルを使用した場合、認
識用音響モデルを作成したときの声で音声合成すること
ができない。

【０００４】又、音響モデル生成の効率化の面において
も、音声認識と音声合成で処理やモデルを共通化できる
部分が多く、個別に作成すると効率が低下していた。今
後、大量の音声データをテキストに変換したり、大量の
テキストを音声に変換する社会の到来が予想される。効
率よく、かつ木目細かに認識用音響モデルと合成用音響
モデルを作成する必要がある。

【０００５】そこで、本発明では、品質の良い認識用音
響モデルと合成用音響モデルを同時に作成する音響モデ
ル作成装置及び音響モデル作成方法を提供することを目
的とする。

【０００６】

【課題を解決するための手段】上記目的を達成するた
め、本発明の第１の特徴は、（イ）音声データを入力す
る音声データ入力部と、（ロ）音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行う音韻
情報抽出部と、（ハ）音声データと音韻情報から認識用
音響モデルを学習する認識用音響モデル作成部と、
（ニ）音声データと音韻情報から合成用音響モデルを作
成する合成用音響モデル作成部とを備える音響モデル作
成装置であることを要旨とする。

【０００７】第１の特徴に係る音響モデル作成装置によ
ると、品質の良い認識用音響モデルと合成用音響モデル
を同時に作成することができる。

【０００８】又、本発明の第１の特徴に係る音響モデル
作成装置について、（ホ）認識用音響モデル作成部は、
音声データと音韻情報と過去に作成された認識用音響モ
デルから、新たに認識用音響モデルを学習し、（へ）合
成用音響モデル作成部は、音声データと音韻情報と過去
に作成された合成用音響モデルから、新たに合成用音響
モデルを作成しても良い。この音響モデル作成装置によ
ると、過去に作成した認識用音響モデル及び合成用音響
モデルを使用して新しい認識用音響モデル及び合成用音
響モデルを作成することにより、一度に大量の音声デー
タを準備しなくても徐々に性能の良い認識用音響モデル
及び合成用音響モデルを作成することができる。

【０００９】又、本発明の第１の特徴に係る音響モデル
作成装置について、（ト）音韻情報抽出部は、不特定話
者認識用音響モデルを使用して、音声データから音韻情
報を抽出し、音声データと音韻情報の対応づけを行って
も良い。この音響モデル作成装置によると、不特定話者
認識用音響モデルを使用することにより、過去にある特
定の人の音声で作成した認識用音響モデルがない場合で
も、音韻情報抽出部での音韻抽出処理を効率よく行うこ
とが可能となる。

【００１０】又、本発明の第１の特徴に係る音響モデル
作成装置は、（チ）音声データが発声されたときの環境
情報データを認識用音響モデルあるいは合成用音響モデ
ルに付加する環境情報付加部とを更に備えても良い。こ
こで、「環境情報データ」とは、音声データが発声され
た時間、場所、相手、音声データを発声した人の行動、
血圧、脈拍、体温等を指す。この音響モデル作成装置に
よると、認識用音響モデルや合成用音響モデルを使用す
る環境情報に応じて、認識用音響モデル及び合成用音響
モデルを選択して使用することが可能となる。

【００１１】又、本発明の第１の特徴に係る音響モデル
作成装置は、（リ）音韻情報抽出部によって抽出された
音韻情報を表示する出力装置と、（ヌ）正しく抽出され
た音韻情報のみを選択する入力装置を更に備えていても
良い。この音響モデル作成装置によると、更に精度の高
い認識用音響モデル及び合成用音響モデルの作成が可能
となる。

【００１２】本発明の第２の特徴は、（イ）音声データ
を入力するステップと、（ロ）音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行うステ
ップと、（ハ）音声データと音韻情報から認識用音響モ
デルを学習するステップと、（ニ）音声データと音韻情
報から合成用音響モデルを作成するステップとを含む音
響モデル作成方法であることを要旨とする。

【００１３】本発明の第２の特徴に係る音響モデル作成
方法によると、品質の良い認識用音響モデルと合成用音
響モデルを同時に作成することができる。

【００１４】又、本発明の第２の特徴に係る音響モデル
作成方法は、（ホ）学習するステップにおいて学習した
認識用音響モデルを使用して、音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行うステ
ップを更に含んでいても良い。この音響モデル作成方法
によると、品質の良い認識用音響モデルと合成用音響モ
デルを同時に作成することができると共に、音韻情報を
より正確に抽出することができる。

【００１５】更に、本発明の第２の特徴に係る音響モデ
ル作成方法は、（へ）音韻情報に誤りがないかどうかを
判定するステップを更に含んでいても良い。この音響モ
デル作成方法によると、更に精度の高い認識用音響モデ
ル及び合成用音響モデルの作成が可能となる。

【００１６】

【発明の実施の形態】次に、図面を参照して、本発明の
第１〜第４の実施の形態を説明する。以下の図面の記載
において、同一又は類似の部分には同一又は類似の符号
を付している。但し、図面は模式的なものであることに
留意すべきである。

【００１７】（第１の実施の形態）第１の実施の形態に
係る音響モデル作成装置は、図１に示すように、音声デ
ータ１０２を入力する音声データ入力部１１とＣＰＵ
（処理制御装置）５０とＣＰＵ５０に接続された入力装
置５１、出力装置５２、一時記憶装置５３、認識用音響
モデル記憶装置１４、合成用音響モデル記憶装置１６を
備える。ＣＰＵ５０は、音韻情報抽出部１２、認識用音
響モデル作成部１３、合成用音響モデル作成部１５を備
える。

【００１８】音声データ入力部１１は、音響モデル作成
装置に音声データ１０２を入力する。具体的には、マイ
クを備え直接音声を入力できる場合やファイル化された
音声データを入力する場合などが考えられるが、入力デ
ータの形態は問わない。音韻情報抽出部１２は、音声デ
ータ１０２から音韻情報を抽出し、音声データ１０２と
音韻情報の対応づけを行う。実現方法としては、例え
ば、音声認識装置を使用して音声を音韻情報に変換し、
音声と音韻情報を対応づけることが可能である。音声認
識装置としては、前述の東芝製LaLaVoice^TM2001などが
販売されている。音韻情報抽出部１２で自動抽出した結
果を出力装置５２に表示し、入力装置５１により人手で
チェックして正しく抽出できた音韻情報のみを選択する
ようにしても良い。

【００１９】認識用音響モデル作成部１３は、音声デー
タと音韻情報から認識用音響モデルの学習を行う。認識
用音響モデルの学習方法は音響モデルの方式によりいく
つもの方法が考えられるが、例えばＨＭＭを使用する場
合には、Baum-Welchアルゴリズム（「確率モデルによる
音声認識」中川聖一著、電子情報通信学会、５５〜６１
頁、参照）が良く知られている。認識用音響モデル記憶
装置１４は、認識用音響モデル作成部１３で作成した認
識用音響モデルを保存する。認識用音響モデル記憶装置
１４は、半導体メモリやハードディスクやＤＶＤなど様
々なメディアで実現可能であるが、メディアの種類は問
わない。

【００２０】合成用音響モデル作成部１５は、音声デー
タと音韻情報から合成用音響モデルを作成する。音声合
成に使用する音響モデルによって作成するものが異なる
が、例えば、音声素片、基本ピッチ、音源残差、韻律情
報などを入力された音声データについて作成する。一例
として、音声素片を作成する方法を説明する。音声デー
タに２０ｍｓｅｃ程度の一定時間長の時間窓を掛け、１
０ｍｓｅｃ程度の一定時間シフトをしながら各窓内でケ
プストラム分析を行う。次に、各フレームのパワースペ
クトラムや音声パワーを使用して、音韻に対応するフレ
ーム範囲からケプストラムパラメータを抜き出し、音声
素片とする。合成用音響モデル記憶装置１６は、このよ
うに作成した合成用音響モデルを保存する。合成用音響
モデル記憶装置１６は、認識用音響モデル記憶装置１４
と同様に、半導体メモリやハードディスクやＤＶＤなど
様々なメディアで実現可能であるが、メディアの種類は
問わない。

【００２１】入力装置５１は、キーボード、マウス等の
機器を指す。入力装置５１から入力操作が行われると対
応するキー情報がＣＰＵ５０に伝達される。出力装置５
２は、モニタなどの画面を指し、液晶表示装置（ＬＣ
Ｄ）、発光ダイオード（ＬＥＤ）パネル、エレクトロル
ミネッサンス（ＥＬ）パネル等が使用可能である。一時
記憶装置５３は、ＣＰＵ５０における処理において、計
算途中や解析途中のデータを一時的に保存する。

【００２２】第１の実施の形態に係る音響モデル作成装
置によると、品質の良い認識用音響モデルと合成用音響
モデルを同時に作成することができる。

【００２３】次に、第１の実施の形態に係る音響モデル
作成装置の処理の流れを図２を参照して説明する。

【００２４】（イ）まず、ステップＳ２０１において、
音声データ入力部１１により入力された音声データを、
音韻情報抽出部１２は一時記憶装置５３に記録する。そ
して、ステップＳ２０２において、音韻情報抽出部１２
は、記録された音声データから音韻情報を抽出し、音声
データと音韻情報を対応づける。

【００２５】（ロ）次に、ステップＳ２０３において、
音韻情報に誤りがないかどうかを判定する。この判定方
法としては、抽出した音韻の信頼度（スコア）が一定の
条件を満たしているか音韻情報抽出部１２が自動的に判
定することができる。又、自動抽出した結果を出力装置
５２に表示し、人手によって、判定を行っても構わな
い。音韻情報に誤りがある場合には、ステップＳ２０４
に進み、音韻情報の修正を行う。この修正方法として
は、より処理時間はかかるが詳細な音韻情報抽出を行っ
て音韻抽出の精度を改善したり、正しくないと判断され
た部分の情報は使用しないようにすることができる。
又、自動抽出した結果を出力装置５２に表示し、入力装
置５１により人手で正しい音韻情報を入力したり、正し
く抽出できた音韻情報のみを選択するようにしても良
い。そして、ステップＳ２０２に戻り、音韻情報の抽出
をやり直す。

【００２６】（ハ）ステップＳ２０３において、音韻情
報に誤りがない場合には、ステップ２０５に進み、認識
用音響モデル作成部１３により、音声データと音韻情報
から認識用音響モデルを学習する。

【００２７】（ニ）次に、ステップＳ２０６において、
合成用音響モデル作成部１５により、音声データと音韻
情報から合成用音響モデルを作成する。

【００２８】上記の音響モデル作成方法によると、品質
の良い認識用音響モデルと合成用音響モデルを同時に作
成することができる。

【００２９】又、第１の実施の形態に係る音響モデル作
成装置の別の処理の流れを図３を参照して説明する。

【００３０】（イ）ステップＳ３０１〜Ｓ３０５は、図
２のステップＳ２０１〜Ｓ２０５と同じであるので、こ
こでは説明を省略する。

【００３１】（ロ）次に、ステップＳ３０６において、
ステップＳ３０５において学習した認識用音響モデルを
使用して、音韻情報抽出部１２は、音声データから音韻
情報を抽出し、音声データと音韻情報を対応づける。認
識用音響モデルを利用することにより、音韻情報をより
正確に抽出することが可能となる。

【００３２】（ハ）次に、ステップＳ３０７において、
音韻情報に誤りがないかどうかを判定する。この判定方
法としては、抽出した音韻の信頼度（スコア）が一定の
条件を満たしているか音韻情報抽出部１２が自動的に判
定することができる。又、自動抽出した結果を出力装置
５２に表示し、人手によって、判定を行っても構わな
い。音韻情報に誤りがある場合には、ステップＳ３０８
に進み、音韻情報の誤りを修正を行う。この修正方法と
しては、より処理時間はかかるが詳細な音韻情報抽出を
行って音韻抽出の精度を改善したり、正しくないと判断
された部分の情報は使用しないようにすることができ
る。又、自動抽出した結果を出力装置５２に表示し、入
力装置５１により人手で正しい音韻情報を入力したり、
正しく抽出できた音韻情報のみを選択するようにしても
良い。そして、ステップＳ３０６に戻り、音韻情報の抽
出をやり直す。

【００３３】（ニ）ステップＳ３０７において、音韻情
報に誤りがない場合には、ステップＳ３０９に進み、合
成用音響モデル作成部１５により、音声データと音韻情
報から合成用音響モデルを作成する。

【００３４】上記の音響モデル作成方法によると、品質
の良い認識用音響モデルと合成用音響モデルを同時に作
成することができると共に、音韻情報をより正確に抽出
することができる。

【００３５】次に、第１の実施の形態に係る音響モデル
作成装置１の利用例を図４を用いて説明する。ステップ
Ｓ１００に示すように、話者Ａ１００と話者Ｂ１０１が
会話（音声対話）をしているシーンを考える。この対話
シーンの一例を図５に示す。図５は、ヘッドセット型マ
イクを装着した２人が話をしているシーンを表現してい
る。このようにマイクを装着し、デジタル化した音声を
ＰＣのハードディスクのような記憶装置１１０に記録す
ることによって、人が発声する音声をすべて記録するこ
とが可能である。この例ではヘッドセット型マイクを使
用したが、マイクはヘッドセット型である必要はなく、
ピン型マイクやスタンドマイクや壁埋め込み型マイクな
どその種類は問わない。又、記憶装置１１０は、デジタ
ル化した音声だけではなく、デジタル化された制御信
号、データ等のデジタル信号を記録することが可能であ
る。

【００３６】まず、図４において、記録した音声データ
から議事録や要約を作成することを想定する。このため
には、音声データをテキストデータに変換する必要があ
る。図４では、話者Ａ１００の音声データ１０２をテキ
ストデータＢ１０８に変換することを想定するが、変換
する音声データは話者Ｂ１０１の音声データでも構わな
いし、話者Ａ１００と話者Ｂ１０１両方の音声データで
も構わない。

【００３７】ステップＳ１０１において、話者Ａ１００
の会話音声を録音し、音声データ１０２を作成する。音
声データ１０２から本発明に係る音響モデル作成装置１
により、認識用音響モデル１０５を作成する。音声認識
部１０４が、話者Ａ１００の音声を認識して、テキスト
データＢ１０８に変換する際に、認識用音響モデル１０
５を使用する。話者Ａ１００の音声データ１０２と、話
者Ａ１００の音声データ１０２から作成された認識用音
響モデル１０５とから音声認識を行うことにより、より
正確なテキストデータＢ１０８を作成することができ
る。又、後日、録音データを検索する際に、音声データ
をテキストデータに変換し、音声データとテキストデー
タを対応づけて、音声データをテキストで検索などをで
きるようにしておくと効率的であるという利点もある。

【００３８】次に、話者Ａ１００と話者Ｂ１０１の会話
途中に、ステップＳ１０２に示すように、話者Ａ１００
がキーボードから、メモ等のテキストデータＡ１０３を
入力して、後日、メールで話者Ｂ１０１へ送ることを想
定する。話者Ｂ１０１は車の運転中にメールを読みたか
ったので音声合成部１０７を使用してテキストデータＡ
１０３を音声データに変換して聞こうとする。このと
き、第３者の声でメールを読み上げるよりも、話者Ａ１
００の声で読み上げた方が臨場感があり、理解の助けに
もなる。更に、同じ話者Ａ１００の声であっても、話者
Ａ１００と話者Ｂ１０１が会話したときの話者Ａ１００
の声で読み上げることが出来れば更に望ましい。なぜな
ら、人の声は日々変化しており、又、話相手によっても
話し方が大きく変化するからである。１０年前の話者Ａ
１００の声で読み上げられても違和感はあるし、話者Ａ
１００と話者Ｂ１０１が友人だとすると、話者Ａ１００
が会社の上司と話をするときの声で読み上げられても違
和感を感じる。話者Ａ１００と話者Ｂ１０１が会話をし
たときに録音した音声データ１０２を使用して、本発明
に係る音響モデル作成装置１により、合成用音響モデル
１０６を作成しておく。この合成用音響モデル１０６を
用いて、音声合成部１０７により、テキストデータＡ１
０３を音声データに変換し、音声出力部１０９から音声
を出力する。この音声は、話者Ａ１００が話者Ｂ１０１
と会話をしたときと同じ音声になる。

【００３９】又、合成用音響モデル１０６を作成する際
に、事前に作成した認識用音響モデル１０５を使用して
音声データ１０２から音韻情報を抽出することにより、
効率良く合成用音響モデルを作成することが可能とな
る。このように、音声認識と音声合成は表裏一体の関係
にあり、同一の音声データ１０２から認識用音響モデル
１０５と合成用音響モデル１０６を作成しておくことに
より、録音音声やメモなどの２次利用を大幅に促進する
ことが可能となる。

【００４０】その他、認識用音響モデルと合成用音響モ
デルを同時に作成することにより、次回の合成用音響モ
デル作成時に、同時に作成しておいた認識用音響モデル
を音声データからの音韻情報の抽出に使用することがで
きる。これにより、今回よりも精度良く音声データから
の音韻情報の抽出が可能となる。精度良く音韻情報が抽
出できると、認識用音響モデルと合成用音響モデルの精
度もよくなり、より精度の高い音声認識と、より音声品
質の良い音声合成が可能となる。この一連の処理を繰り
返すことにより、更に性能の良い認識用音響モデルと合
成用音響モデルの作成が可能となる。これに加えて、品
質のより良い認識用音響モデルや合成用音響モデルを作
成するためには、自動化した場合の音韻情報の抽出誤り
を排除する必要がある。これは、人手によるデータの品
質チェック等により品質を改善することができる。

【００４１】（第２の実施の形態）第２の実施の形態に
係る音響モデル作成装置は、過去に作成された認識用音
響モデル及び合成用音響モデルを利用して、音声認識用
モデルと合成用音響モデルを同時に作成する。図６に示
すように、第２の実施の形態に係る音響モデル作成装置
は、音声データ１０２を入力する音声データ入力部１１
とＣＰＵ（処理制御装置）５０とＣＰＵ５０に接続され
た入力装置５１、出力装置５２、一時記憶装置５３、認
識用音響モデル作成装置１４、合成用音響モデル記憶装
置１６、参照用認識用音響モデル記憶装置２１、参照用
合成用音響モデル記憶装置２２を備える。ＣＰＵ５０
は、音韻情報抽出部１２、認識用音響モデル作成部１
３、合成用音響モデル作成部１５を備える。入力装置５
１、出力装置５２、一時記憶装置５３、音声データ入力
部１１、音韻情報抽出部１２は、第１の実施の形態に係
る音響モデル作成装置と同様であるので、ここでは説明
を省略する。

【００４２】認識用音響モデル作成部１３は音声データ
１０２と音韻情報と参照用認識用音響モデル記憶装置２
１に保持されている過去に作成された認識用音響モデル
から、新たに認識用音響モデルを学習する。認識用音響
モデルの学習方法は音響モデルの方式によりいくつもの
方法が考えられるが、例えばＨＭＭを使用する場合に
は、Baum-Welchアルゴリズムが良く知られている。認識
用音響モデル記憶装置１４は、認識用音響モデル作成部
１３で作成した認識用音響モデルを保存する。認識用音
響モデル記憶装置１４に保存された認識用音響モデル
は、参照用認識用音響モデル装置２１にコピーされ、次
回の認識用音響モデル作成に使用されても良い。認識用
音響モデル記憶装置１４、参照用認識用音響モデル記憶
装置２１は、半導体メモリやハードディスクやＤＶＤな
ど様々なメディアで実現可能であるが、メディアの種類
は問わない。

【００４３】合成用音響モデル作成部１５は、音声デー
タ１０２と音韻情報と過去に作成した合成用音響モデル
記憶装置２２に保存された合成用音響モデルから、新た
に合成用音響モデルを作成する。音声合成に使用する音
響モデルによって作成するものが異なるが、例えば、音
声素片、基本ピッチ、音源残差、韻律情報などを入力さ
れた音声データについて作成する。合成用音響モデル記
憶装置１６は、合成用音響モデル作成部１５で作成した
合成用音響モデルを保存する。合成用音響モデル記憶装
置１６に保存された合成用音響モデルは、参照用合成用
音響モデル装置２２にコピーされ、次回の合成用音響モ
デル作成に使用されても良い。合成用音響モデル記憶装
置１６、参照用合成用音響モデル記憶装置２２は、半導
体メモリやハードディスクやＤＶＤなど様々なメディア
で実現可能であるが、メディアの種類は問わない。

【００４４】第２の実施の形態に係る音響モデル作成装
置によると、過去に作成した認識用音響モデル及び合成
用音響モデルを使用して新しい認識用音響モデル及び合
成用音響モデルを作成することにより、一度に大量の音
声データを準備しなくても徐々に性能の良い認識用音響
モデル及び合成用音響モデルを作成することができる。

【００４５】（第３の実施の形態）第３の実施の形態に
係る音響モデル作成装置は、不特定話者認識用音響モデ
ルを利用して、音声認識用モデルと合成用音響モデルを
同時に作成する。図７に示すように、第３の実施の形態
に係る音響モデル作成装置は、音声データ１０２を入力
する音声データ入力部１１とＣＰＵ（処理制御装置）５
０とＣＰＵ５０に接続された入力装置５１、出力装置５
２、一時記憶装置５３、認識用音響モデル記憶装置１
４、合成用音響モデル記憶装置１６、不特定話者認識用
音響モデル記憶装置３１を備える。ＣＰＵ５０は、音韻
情報抽出部１２、認識用音響モデル作成部１３、合成用
音響モデル作成部１５を備える。入力装置５１、出力装
置５２、一時記憶装置５３、音声データ入力部１１、認
識用音響モデル作成部１３、認識用音響モデル記憶装置
１４、合成用音響モデル作成部１５、合成用音響モデル
記憶装置１６は、第１の実施の形態に係る音響モデル作
成装置と同様であるので、ここでは説明を省略する。

【００４６】音韻情報抽出部１２は、音声データから音
韻情報を抽出するときに不特定話者認識用音響モデル記
憶装置３１に保存された音響モデルを使用する。不特定
話者認識用音響モデルとは、特定の人の声に合わせて作
成した認識用音響モデルではなく、多くの人の声から作
成された認識用音響モデルである。音韻情報抽出部１２
は、過去にある特定の人の音声で作成した認識用音響モ
デルがない場合でも、不特定話者認識用モデルを利用す
ることにより、音韻抽出処理を効率良く行う。又、第１
の実施の形態に係る音響モデル作成装置の音韻情報抽出
部１２と同様に、より処理時間はかかるが詳細な音韻情
報抽出を行って音韻抽出の精度を改善したり、正しくな
いと判断された部分の情報は使用しないようにすること
ができる。あるいは、自動抽出した結果を出力装置５２
に表示し、入力装置５１により人手でチェックして正し
く抽出できた音韻情報のみを選択し、誤りを訂正しても
良い。

【００４７】第３の実施の形態に係る音響モデル作成装
置によると、不特定話者認識用音響モデル記憶装置３１
に保存された音響モデルを使用することにより、過去に
ある特定の人の音声で作成した認識用音響モデルがない
場合でも、音韻情報抽出部１２での音韻抽出処理を効率
よく行うことが可能となる。

【００４８】（第４の実施の形態）第４の実施の形態に
係る音響モデル作成装置は、音声認識用モデルと合成用
音響モデルを同時に作成すると共に、作成した認識用音
響モデル及び合成用音響モデルに環境情報を付加する。
図８に示すように、第４の実施の形態に係る音響モデル
作成装置は、音声データ１０２を入力する音声データ入
力部１１とＣＰＵ（処理制御装置）５０とＣＰＵ５０に
接続された入力装置５１、出力装置５２、一時記憶装置
５３、認識用音響モデル記憶装置１４、合成用音響モデ
ル記憶装置１６、認識用環境情報記憶装置４２、合成用
環境情報記憶装置４３を備える。ＣＰＵ５０は、音韻情
報抽出部１２、認識用音響モデル作成部１３、合成用音
響モデル作成部１５、環境情報付加部４１を備える。入
力装置５１、出力装置５２、一時記憶装置５３、音声デ
ータ入力部１１、音韻情報抽出部１２、認識用音響モデ
ル作成部１３、認識用音響モデル記憶装置１４、合成用
音響モデル作成部１５、合成用音響モデル記憶装置１６
は、第１の実施の形態に係る音響モデル作成装置と同様
であるので、ここでは説明を省略する。

【００４９】環境情報付加部４１は、音声データ入力部
１１に入力された音声が発声されたときの環境情報デー
タ２００を、その音声データから作成した認識用音響モ
デル又は合成用音響モデルに付加する。環境情報データ
は、具体的には、時間情報や場所情報、話者の体調、話
者の話している相手等が挙げられる。環境情報データの
入力方法としては、例えば、音声入力時に発話者が入力
しても構わないし、時間情報であれば時計を使用して自
動入力したり、場所情報であればＧＰＳなどを使用して
自動入力することも可能である。又、音波のゆらぎや血
圧、脈拍、体温、発汗、音声の大きさ等を測定し、発話
者の生体情報や感情を環境情報として付加することも可
能である。その他、発話者のスケジュールを事前に登録
しておき、音声が入力された時間帯から、現在の場所が
会社なのか家なのか、会議中であるのか食事中であるの
かといった環境情報データを付加することも可能であ
る。更に、音声データ入力時には環境情報データが入力
されていなくても、入力された音声データから話の内容
や、音声の高さ、大きさ等から嬉しそうに話をしている
かなどの感情情報を抽出して環境情報データを付加する
ことも可能である。

【００５０】認識用環境情報記憶装置４２は、認識用音
響モデルに付加する環境情報データを保存する。又、合
成用環境情報記憶装置４３は、合成用音響モデルに付加
する環境情報データを保存する。

【００５１】次に、図９を用いて、第４の実施の形態に
係る音響モデル作成装置によって作成された認識用音響
モデル、合成用音響モデルの利用例について説明する。
図９では、環境情報データを基に選択した認識用音響モ
デル／合成用音響モデルを利用した音声認識・音声合成
処理について示す。第４の実施の形態に係る音響モデル
作成装置によって作成された認識用音響モデル、合成用
音響モデルは、それぞれ、認識用音響モデル記憶装置１
４、合成用音響モデル記憶装置１５に保存されている。

【００５２】音声認識部１０４は、音声データＡ３００
を認識し、テキストデータに変換する。このとき、音声
データＡ３００が発声された時の環境情報に応じたテキ
ストデータに変換するために、認識用音響モデル選択部
３０１が認識用音響モデル記憶装置１４から環境情報に
応じた認識用音響モデルを選択する。音声認識部１０４
は、この認識用音響モデルを使用して、音声データＡを
テキストデータに変換する。そして、認識用音響モデル
選択部３０１で選択した環境情報データと共に、テキス
トデータを認識結果記憶装置３０２に保存する。

【００５３】音声合成部１０７は、認識結果記憶装置３
０２に保存されたテキストデータを音声データＢ３０３
に変換する。このとき、合成用音響モデル選択部３０４
は、認識結果記憶装置３０２に保存された環境情報デー
タを使用して、合成用音響モデル記憶装置１６から合成
用音響モデルを選択する。音声合成部１０７は、合成用
音響モデル選択部３０４が選択した合成用音響モデルを
使用して、テキストデータを音声データＢ３０３に変換
する。

【００５４】第４の実施の形態に係る音響モデル作成装
置によると、認識用音響モデルや合成用音響モデルを使
用する環境情報に応じて、認識用音響モデル及び合成用
音響モデルを選択して使用することが可能となる。

【００５５】（その他の実施の形態）本発明は上記の実
施の形態によって記載したが、この開示の一部をなす論
述及び図面はこの発明を限定するものであると理解すべ
きではない。この開示から当業者には様々な代替実施の
形態、実施例及び運用技術が明らかとなろう。

【００５６】例えば、本発明の第１〜第４の実施の形態
において、認識用音響モデル記憶装置１４合成用音響モ
デル記憶装置１５を異なる記憶装置として記述したが、
一つの記憶装置に認識用音響モデル及び合成用音響モデ
ルを保存しても良い。同様に、第４の実施の形態におい
て、認識用環境情報記憶装置４２と合成用環境情報記憶
装置４３を異なる記憶装置として記述したが、一つの記
憶装置に認識用環境情報及び合成用環境情報を保存して
も良い。

【００５７】又、本発明の第１〜第４の実施の形態にお
いて、認識用音響モデルと合成用音響モデルを同時に作
成する音響モデル作成装置及び音響モデル作成方法につ
いて述べたが、この「同時に作成する」というのは、時
間的なタイミングが同時であるということではなく、同
じ音声データから認識用音響モデルと合成用音響モデル
を作成するということである。従って、認識用音響モデ
ルと合成用音響モデルを作成する順序は問わない。

【００５８】このように、本発明はここでは記載してい
ない様々な実施の形態等を含むことは勿論である。従っ
て、本発明の技術的範囲は上記の説明から妥当な特許請
求の範囲に係る発明特定事項によってのみ定められるも
のである。

【００５９】

【発明の効果】本発明によれば、品質の良い認識用音響
モデルと合成用音響モデルを同時に作成する音響モデル
作成装置及び音響モデル作成方法を提供することができ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施に形態に係る音響モデル作
成装置の構成図である。

【図２】本発明の第１の実施の形態に係る音響モデル作
成方法のフローチャートである。

【図３】本発明の第１の実施の形態に係る音響モデル作
成方法の別のフローチャートである。

【図４】本発明の第１の実施の形態に係る音響モデル作
成装置の利用例を示す図である。

【図５】図４に示す音声対話シーンの一例を示す図であ
る。

【図６】本発明の第２の実施の形態に係る音響モデル作
成装置の構成図である。

【図７】本発明の第３の実施の形態に係る音響モデル作
成装置の構成図である。

【図８】本発明の第４の実施の形態に係る音響モデル作
成装置の構成図である。

【図９】本発明の第４の実施の形態に係る音響モデル作
成装置で作成された認識用音響モデル及び合成用音響モ
デルの利用例を示す図である。

【符号の説明】

１音響モデル作成装置１１音声データ入力部１２音韻情報抽出部１３認識用音響モデル作成部１４認識用音響モデル記憶装置１５合成用音響モデル作成部１６合成用音響モデル記憶装置２１参照用認識用音響モデル記憶装置２２参照用合成用音響モデル記憶装置３１不特定話者認識用音響モデル記憶装置４１環境情報付加部４２認識用環境情報記憶装置４３合成用環境情報記憶装置５０ＣＰＵ（処理制御装置）５１入力装置５２出力装置５３一時記憶装置１００話者Ａ１０１話者Ｂ１０２音声データ１０３テキストデータＡ１０４音声認識部１０５認識用音響モデル１０６合成用音響モデル１０７音声合成部１０８テキストデータＢ１０９音声出力部１１０記憶装置３００音声データＡ３０１認識用音響モデル選択部３０２認識結果記憶部３０３音声データＢ３０４合成用音響モデル選択部

───────────────────────────────────────────────────── フロントページの続き (72)発明者金澤博史神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者玉田雄三神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内Ｆターム(参考） 5D015 AA02 GG01

Claims

【特許請求の範囲】

【請求項１】音声データを入力する音声データ入力部
と、前記音声データから音韻情報を抽出し、前記音声データ
と前記音韻情報の対応づけを行う音韻情報抽出部と、前記音声データと前記音韻情報から認識用音響モデルを
学習する認識用音響モデル作成部と、前記音声データと前記音韻情報から合成用音響モデルを
作成する合成用音響モデル作成部とを備えることを特徴
とする音響モデル作成装置。
【請求項２】前記認識用音響モデル作成部は、前記音声
データと前記音韻情報と過去に作成された認識用音響モ
デルから、新たに認識用音響モデルを学習し、前記合成用音響モデル作成部は、前記音声データと前記
音韻情報と過去に作成された合成用音響モデルから、新
たに合成用音響モデルを作成することを特徴とする請求
項１に記載の音響モデル作成装置。
【請求項３】前記音韻情報抽出部は、不特定話者認識用
音響モデルを使用して、前記音声データから音韻情報を
抽出し、前記音声データと前記音韻情報の対応づけを行
うことを特徴とする請求項１又は２に記載の音響モデル
作成装置。
【請求項４】前記音声データが発声されたときの環境情
報データを前記認識用音響モデルあるいは前記合成用音
響モデルに付加する環境情報付加部とを更に備えること
を特徴とする請求項１〜３のいずれか１項に記載の音響
モデル作成装置。
【請求項５】前記環境情報データは前記音声データが発
声された時間、場所、相手、又は発声した人の行動、血
圧、脈拍、若しくは体温であることを特徴とする請求項
４に記載の音響モデル作成装置。
【請求項６】前記音韻情報抽出部によって抽出された前
記音韻情報を表示する出力装置と、正しく抽出された前記音韻情報のみを選択する入力装置
とを更に備えることを特徴とする請求項１〜５のいずれ
か１項に記載の音響モデル作成装置。
【請求項７】音声データを入力するステップと、前記音声データから音韻情報を抽出し、前記音声データ
と前記音韻情報の対応づけを行うステップと、前記音声データと前記音韻情報から認識用音響モデルを
学習するステップと、前記音声データと前記音韻情報から合成用音響モデルを
作成するステップとを含むことを特徴とする音響モデル
作成方法。
【請求項８】前記学習するステップにおいて学習した認
識用音響モデルを使用して、前記音声データから音韻情
報を抽出し、前記音声データと前記音韻情報の対応づけ
を行うステップとを更に含むことを特徴とする請求項７
に記載の音響モデル作成方法。
【請求項９】前記音韻情報に誤りがないかどうかを判定
するステップを更に含むことを特徴とする請求項７又は
８に記載の音響モデル作成方法。