JP2003271182A - 音響モデル作成装置及び音響モデル作成方法 - Google Patents

音響モデル作成装置及び音響モデル作成方法

Info

Publication number
JP2003271182A
JP2003271182A JP2002074072A JP2002074072A JP2003271182A JP 2003271182 A JP2003271182 A JP 2003271182A JP 2002074072 A JP2002074072 A JP 2002074072A JP 2002074072 A JP2002074072 A JP 2002074072A JP 2003271182 A JP2003271182 A JP 2003271182A
Authority
JP
Japan
Prior art keywords
acoustic model
recognition
voice data
information
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002074072A
Other languages
English (en)
Inventor
Yasuyuki Masai
康之 正井
Yoichi Takebayashi
洋一 竹林
Hiroshi Kanazawa
博史 金澤
Yuzo Tamada
雄三 玉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002074072A priority Critical patent/JP2003271182A/ja
Priority to US10/388,491 priority patent/US20030177005A1/en
Publication of JP2003271182A publication Critical patent/JP2003271182A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

(57)【要約】 【課題】 品質の良い認識用音響モデルと合成用音響モ
デルを同時に作成する音響モデル作成装置及び音響モデ
ル作成方法を提供する。 【解決手段】 音響モデル作成装置は、音声データ入力
部11、音韻情報抽出部12、認識用音響モデル作成部
13、認識用音響モデル記憶装置14、合成用音響モデ
ル作成部15、合成用音響モデル記憶装置16を備え
る。音声データ入力部11は、音響モデル作成装置に音
声データ102を入力する。音韻情報抽出部12は、音
声データ102を音韻情報に変換し、音声データ102
と音韻情報の対応づけを行う。認識用音響モデル作成部
13は、音声データと音韻情報から認識用音響モデルの
学習を行う。合成用音響モデル作成部15は、音声デー
タと音韻情報から合成用音響モデルを作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識(音声デ
ータをテキストデータに変換する処理)及び音声合成
(テキストデータを音声データに変換する処理)に使用
する音響モデル作成装置及び音響モデル作成方法に関す
る。
【0002】
【従来の技術】音声認識に使用する音響モデルの作成方
法、又は、音声合成に使用する音響モデルの作成方法に
ついては多くの方法が提案されており、多くの音声認識
装置や音声合成装置が製品化されている。例えば、音声
認識と音声合成の両方の機能を持つソフトウェアである
東芝製LaLaVoiceTM2001は2000年に発売されてい
る。
【0003】
【発明が解決しようとする課題】このように、音声認識
又は音声合成に使用する音響モデルは別々に作成され、
それぞれ一過性のものであった。よって、同一話者のデ
ータを使用しても、発声した場所や時間が異なるため
に、同一話者の音声をモデル化しようとしているにもか
かわらず、認識用モデルと合成用モデルで差が生じ、認
識用音響モデルと合成用音響モデルの両方を最適に作成
することができなかった。例えば、ある話者の認識用音
響モデルを作成し、その10年後に合成用音響モデルを
作成したとする。認識用音響モデルを作成した頃に録音
した音声データを変換したテキストデータがあったとし
ても、10年後の合成用音響モデルを使用した場合、認
識用音響モデルを作成したときの声で音声合成すること
ができない。
【0004】又、音響モデル生成の効率化の面において
も、音声認識と音声合成で処理やモデルを共通化できる
部分が多く、個別に作成すると効率が低下していた。今
後、大量の音声データをテキストに変換したり、大量の
テキストを音声に変換する社会の到来が予想される。効
率よく、かつ木目細かに認識用音響モデルと合成用音響
モデルを作成する必要がある。
【0005】そこで、本発明では、品質の良い認識用音
響モデルと合成用音響モデルを同時に作成する音響モデ
ル作成装置及び音響モデル作成方法を提供することを目
的とする。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の特徴は、(イ)音声データを入力す
る音声データ入力部と、(ロ)音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行う音韻
情報抽出部と、(ハ)音声データと音韻情報から認識用
音響モデルを学習する認識用音響モデル作成部と、
(ニ)音声データと音韻情報から合成用音響モデルを作
成する合成用音響モデル作成部とを備える音響モデル作
成装置であることを要旨とする。
【0007】第1の特徴に係る音響モデル作成装置によ
ると、品質の良い認識用音響モデルと合成用音響モデル
を同時に作成することができる。
【0008】又、本発明の第1の特徴に係る音響モデル
作成装置について、(ホ)認識用音響モデル作成部は、
音声データと音韻情報と過去に作成された認識用音響モ
デルから、新たに認識用音響モデルを学習し、(へ)合
成用音響モデル作成部は、音声データと音韻情報と過去
に作成された合成用音響モデルから、新たに合成用音響
モデルを作成しても良い。この音響モデル作成装置によ
ると、過去に作成した認識用音響モデル及び合成用音響
モデルを使用して新しい認識用音響モデル及び合成用音
響モデルを作成することにより、一度に大量の音声デー
タを準備しなくても徐々に性能の良い認識用音響モデル
及び合成用音響モデルを作成することができる。
【0009】又、本発明の第1の特徴に係る音響モデル
作成装置について、(ト)音韻情報抽出部は、不特定話
者認識用音響モデルを使用して、音声データから音韻情
報を抽出し、音声データと音韻情報の対応づけを行って
も良い。この音響モデル作成装置によると、不特定話者
認識用音響モデルを使用することにより、過去にある特
定の人の音声で作成した認識用音響モデルがない場合で
も、音韻情報抽出部での音韻抽出処理を効率よく行うこ
とが可能となる。
【0010】又、本発明の第1の特徴に係る音響モデル
作成装置は、(チ)音声データが発声されたときの環境
情報データを認識用音響モデルあるいは合成用音響モデ
ルに付加する環境情報付加部とを更に備えても良い。こ
こで、「環境情報データ」とは、音声データが発声され
た時間、場所、相手、音声データを発声した人の行動、
血圧、脈拍、体温等を指す。この音響モデル作成装置に
よると、認識用音響モデルや合成用音響モデルを使用す
る環境情報に応じて、認識用音響モデル及び合成用音響
モデルを選択して使用することが可能となる。
【0011】又、本発明の第1の特徴に係る音響モデル
作成装置は、(リ)音韻情報抽出部によって抽出された
音韻情報を表示する出力装置と、(ヌ)正しく抽出され
た音韻情報のみを選択する入力装置を更に備えていても
良い。この音響モデル作成装置によると、更に精度の高
い認識用音響モデル及び合成用音響モデルの作成が可能
となる。
【0012】本発明の第2の特徴は、(イ)音声データ
を入力するステップと、(ロ)音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行うステ
ップと、(ハ)音声データと音韻情報から認識用音響モ
デルを学習するステップと、(ニ)音声データと音韻情
報から合成用音響モデルを作成するステップとを含む音
響モデル作成方法であることを要旨とする。
【0013】本発明の第2の特徴に係る音響モデル作成
方法によると、品質の良い認識用音響モデルと合成用音
響モデルを同時に作成することができる。
【0014】又、本発明の第2の特徴に係る音響モデル
作成方法は、(ホ)学習するステップにおいて学習した
認識用音響モデルを使用して、音声データから音韻情報
を抽出し、音声データと音韻情報の対応づけを行うステ
ップを更に含んでいても良い。この音響モデル作成方法
によると、品質の良い認識用音響モデルと合成用音響モ
デルを同時に作成することができると共に、音韻情報を
より正確に抽出することができる。
【0015】更に、本発明の第2の特徴に係る音響モデ
ル作成方法は、(へ)音韻情報に誤りがないかどうかを
判定するステップを更に含んでいても良い。この音響モ
デル作成方法によると、更に精度の高い認識用音響モデ
ル及び合成用音響モデルの作成が可能となる。
【0016】
【発明の実施の形態】次に、図面を参照して、本発明の
第1〜第4の実施の形態を説明する。以下の図面の記載
において、同一又は類似の部分には同一又は類似の符号
を付している。但し、図面は模式的なものであることに
留意すべきである。
【0017】(第1の実施の形態)第1の実施の形態に
係る音響モデル作成装置は、図1に示すように、音声デ
ータ102を入力する音声データ入力部11とCPU
(処理制御装置)50とCPU50に接続された入力装
置51、出力装置52、一時記憶装置53、認識用音響
モデル記憶装置14、合成用音響モデル記憶装置16を
備える。CPU50は、音韻情報抽出部12、認識用音
響モデル作成部13、合成用音響モデル作成部15を備
える。
【0018】音声データ入力部11は、音響モデル作成
装置に音声データ102を入力する。具体的には、マイ
クを備え直接音声を入力できる場合やファイル化された
音声データを入力する場合などが考えられるが、入力デ
ータの形態は問わない。音韻情報抽出部12は、音声デ
ータ102から音韻情報を抽出し、音声データ102と
音韻情報の対応づけを行う。実現方法としては、例え
ば、音声認識装置を使用して音声を音韻情報に変換し、
音声と音韻情報を対応づけることが可能である。音声認
識装置としては、前述の東芝製LaLaVoiceTM2001などが
販売されている。音韻情報抽出部12で自動抽出した結
果を出力装置52に表示し、入力装置51により人手で
チェックして正しく抽出できた音韻情報のみを選択する
ようにしても良い。
【0019】認識用音響モデル作成部13は、音声デー
タと音韻情報から認識用音響モデルの学習を行う。認識
用音響モデルの学習方法は音響モデルの方式によりいく
つもの方法が考えられるが、例えばHMMを使用する場
合には、Baum-Welchアルゴリズム(「確率モデルによる
音声認識」中川聖一著、電子情報通信学会、55〜61
頁、参照)が良く知られている。認識用音響モデル記憶
装置14は、認識用音響モデル作成部13で作成した認
識用音響モデルを保存する。認識用音響モデル記憶装置
14は、半導体メモリやハードディスクやDVDなど様
々なメディアで実現可能であるが、メディアの種類は問
わない。
【0020】合成用音響モデル作成部15は、音声デー
タと音韻情報から合成用音響モデルを作成する。音声合
成に使用する音響モデルによって作成するものが異なる
が、例えば、音声素片、基本ピッチ、音源残差、韻律情
報などを入力された音声データについて作成する。一例
として、音声素片を作成する方法を説明する。音声デー
タに20msec程度の一定時間長の時間窓を掛け、1
0msec程度の一定時間シフトをしながら各窓内でケ
プストラム分析を行う。次に、各フレームのパワースペ
クトラムや音声パワーを使用して、音韻に対応するフレ
ーム範囲からケプストラムパラメータを抜き出し、音声
素片とする。合成用音響モデル記憶装置16は、このよ
うに作成した合成用音響モデルを保存する。合成用音響
モデル記憶装置16は、認識用音響モデル記憶装置14
と同様に、半導体メモリやハードディスクやDVDなど
様々なメディアで実現可能であるが、メディアの種類は
問わない。
【0021】入力装置51は、キーボード、マウス等の
機器を指す。入力装置51から入力操作が行われると対
応するキー情報がCPU50に伝達される。出力装置5
2は、モニタなどの画面を指し、液晶表示装置(LC
D)、発光ダイオード(LED)パネル、エレクトロル
ミネッサンス(EL)パネル等が使用可能である。一時
記憶装置53は、CPU50における処理において、計
算途中や解析途中のデータを一時的に保存する。
【0022】第1の実施の形態に係る音響モデル作成装
置によると、品質の良い認識用音響モデルと合成用音響
モデルを同時に作成することができる。
【0023】次に、第1の実施の形態に係る音響モデル
作成装置の処理の流れを図2を参照して説明する。
【0024】(イ)まず、ステップS201において、
音声データ入力部11により入力された音声データを、
音韻情報抽出部12は一時記憶装置53に記録する。そ
して、ステップS202において、音韻情報抽出部12
は、記録された音声データから音韻情報を抽出し、音声
データと音韻情報を対応づける。
【0025】(ロ)次に、ステップS203において、
音韻情報に誤りがないかどうかを判定する。この判定方
法としては、抽出した音韻の信頼度(スコア)が一定の
条件を満たしているか音韻情報抽出部12が自動的に判
定することができる。又、自動抽出した結果を出力装置
52に表示し、人手によって、判定を行っても構わな
い。音韻情報に誤りがある場合には、ステップS204
に進み、音韻情報の修正を行う。この修正方法として
は、より処理時間はかかるが詳細な音韻情報抽出を行っ
て音韻抽出の精度を改善したり、正しくないと判断され
た部分の情報は使用しないようにすることができる。
又、自動抽出した結果を出力装置52に表示し、入力装
置51により人手で正しい音韻情報を入力したり、正し
く抽出できた音韻情報のみを選択するようにしても良
い。そして、ステップS202に戻り、音韻情報の抽出
をやり直す。
【0026】(ハ)ステップS203において、音韻情
報に誤りがない場合には、ステップ205に進み、認識
用音響モデル作成部13により、音声データと音韻情報
から認識用音響モデルを学習する。
【0027】(ニ)次に、ステップS206において、
合成用音響モデル作成部15により、音声データと音韻
情報から合成用音響モデルを作成する。
【0028】上記の音響モデル作成方法によると、品質
の良い認識用音響モデルと合成用音響モデルを同時に作
成することができる。
【0029】又、第1の実施の形態に係る音響モデル作
成装置の別の処理の流れを図3を参照して説明する。
【0030】(イ)ステップS301〜S305は、図
2のステップS201〜S205と同じであるので、こ
こでは説明を省略する。
【0031】(ロ)次に、ステップS306において、
ステップS305において学習した認識用音響モデルを
使用して、音韻情報抽出部12は、音声データから音韻
情報を抽出し、音声データと音韻情報を対応づける。認
識用音響モデルを利用することにより、音韻情報をより
正確に抽出することが可能となる。
【0032】(ハ)次に、ステップS307において、
音韻情報に誤りがないかどうかを判定する。この判定方
法としては、抽出した音韻の信頼度(スコア)が一定の
条件を満たしているか音韻情報抽出部12が自動的に判
定することができる。又、自動抽出した結果を出力装置
52に表示し、人手によって、判定を行っても構わな
い。音韻情報に誤りがある場合には、ステップS308
に進み、音韻情報の誤りを修正を行う。この修正方法と
しては、より処理時間はかかるが詳細な音韻情報抽出を
行って音韻抽出の精度を改善したり、正しくないと判断
された部分の情報は使用しないようにすることができ
る。又、自動抽出した結果を出力装置52に表示し、入
力装置51により人手で正しい音韻情報を入力したり、
正しく抽出できた音韻情報のみを選択するようにしても
良い。そして、ステップS306に戻り、音韻情報の抽
出をやり直す。
【0033】(ニ)ステップS307において、音韻情
報に誤りがない場合には、ステップS309に進み、合
成用音響モデル作成部15により、音声データと音韻情
報から合成用音響モデルを作成する。
【0034】上記の音響モデル作成方法によると、品質
の良い認識用音響モデルと合成用音響モデルを同時に作
成することができると共に、音韻情報をより正確に抽出
することができる。
【0035】次に、第1の実施の形態に係る音響モデル
作成装置1の利用例を図4を用いて説明する。ステップ
S100に示すように、話者A100と話者B101が
会話(音声対話)をしているシーンを考える。この対話
シーンの一例を図5に示す。図5は、ヘッドセット型マ
イクを装着した2人が話をしているシーンを表現してい
る。このようにマイクを装着し、デジタル化した音声を
PCのハードディスクのような記憶装置110に記録す
ることによって、人が発声する音声をすべて記録するこ
とが可能である。この例ではヘッドセット型マイクを使
用したが、マイクはヘッドセット型である必要はなく、
ピン型マイクやスタンドマイクや壁埋め込み型マイクな
どその種類は問わない。又、記憶装置110は、デジタ
ル化した音声だけではなく、デジタル化された制御信
号、データ等のデジタル信号を記録することが可能であ
る。
【0036】まず、図4において、記録した音声データ
から議事録や要約を作成することを想定する。このため
には、音声データをテキストデータに変換する必要があ
る。図4では、話者A100の音声データ102をテキ
ストデータB108に変換することを想定するが、変換
する音声データは話者B101の音声データでも構わな
いし、話者A100と話者B101両方の音声データで
も構わない。
【0037】ステップS101において、話者A100
の会話音声を録音し、音声データ102を作成する。音
声データ102から本発明に係る音響モデル作成装置1
により、認識用音響モデル105を作成する。音声認識
部104が、話者A100の音声を認識して、テキスト
データB108に変換する際に、認識用音響モデル10
5を使用する。話者A100の音声データ102と、話
者A100の音声データ102から作成された認識用音
響モデル105とから音声認識を行うことにより、より
正確なテキストデータB108を作成することができ
る。又、後日、録音データを検索する際に、音声データ
をテキストデータに変換し、音声データとテキストデー
タを対応づけて、音声データをテキストで検索などをで
きるようにしておくと効率的であるという利点もある。
【0038】次に、話者A100と話者B101の会話
途中に、ステップS102に示すように、話者A100
がキーボードから、メモ等のテキストデータA103を
入力して、後日、メールで話者B101へ送ることを想
定する。話者B101は車の運転中にメールを読みたか
ったので音声合成部107を使用してテキストデータA
103を音声データに変換して聞こうとする。このと
き、第3者の声でメールを読み上げるよりも、話者A1
00の声で読み上げた方が臨場感があり、理解の助けに
もなる。更に、同じ話者A100の声であっても、話者
A100と話者B101が会話したときの話者A100
の声で読み上げることが出来れば更に望ましい。なぜな
ら、人の声は日々変化しており、又、話相手によっても
話し方が大きく変化するからである。10年前の話者A
100の声で読み上げられても違和感はあるし、話者A
100と話者B101が友人だとすると、話者A100
が会社の上司と話をするときの声で読み上げられても違
和感を感じる。話者A100と話者B101が会話をし
たときに録音した音声データ102を使用して、本発明
に係る音響モデル作成装置1により、合成用音響モデル
106を作成しておく。この合成用音響モデル106を
用いて、音声合成部107により、テキストデータA1
03を音声データに変換し、音声出力部109から音声
を出力する。この音声は、話者A100が話者B101
と会話をしたときと同じ音声になる。
【0039】又、合成用音響モデル106を作成する際
に、事前に作成した認識用音響モデル105を使用して
音声データ102から音韻情報を抽出することにより、
効率良く合成用音響モデルを作成することが可能とな
る。このように、音声認識と音声合成は表裏一体の関係
にあり、同一の音声データ102から認識用音響モデル
105と合成用音響モデル106を作成しておくことに
より、録音音声やメモなどの2次利用を大幅に促進する
ことが可能となる。
【0040】その他、認識用音響モデルと合成用音響モ
デルを同時に作成することにより、次回の合成用音響モ
デル作成時に、同時に作成しておいた認識用音響モデル
を音声データからの音韻情報の抽出に使用することがで
きる。これにより、今回よりも精度良く音声データから
の音韻情報の抽出が可能となる。精度良く音韻情報が抽
出できると、認識用音響モデルと合成用音響モデルの精
度もよくなり、より精度の高い音声認識と、より音声品
質の良い音声合成が可能となる。この一連の処理を繰り
返すことにより、更に性能の良い認識用音響モデルと合
成用音響モデルの作成が可能となる。これに加えて、品
質のより良い認識用音響モデルや合成用音響モデルを作
成するためには、自動化した場合の音韻情報の抽出誤り
を排除する必要がある。これは、人手によるデータの品
質チェック等により品質を改善することができる。
【0041】(第2の実施の形態)第2の実施の形態に
係る音響モデル作成装置は、過去に作成された認識用音
響モデル及び合成用音響モデルを利用して、音声認識用
モデルと合成用音響モデルを同時に作成する。図6に示
すように、第2の実施の形態に係る音響モデル作成装置
は、音声データ102を入力する音声データ入力部11
とCPU(処理制御装置)50とCPU50に接続され
た入力装置51、出力装置52、一時記憶装置53、認
識用音響モデル作成装置14、合成用音響モデル記憶装
置16、参照用認識用音響モデル記憶装置21、参照用
合成用音響モデル記憶装置22を備える。CPU50
は、音韻情報抽出部12、認識用音響モデル作成部1
3、合成用音響モデル作成部15を備える。入力装置5
1、出力装置52、一時記憶装置53、音声データ入力
部11、音韻情報抽出部12は、第1の実施の形態に係
る音響モデル作成装置と同様であるので、ここでは説明
を省略する。
【0042】認識用音響モデル作成部13は音声データ
102と音韻情報と参照用認識用音響モデル記憶装置2
1に保持されている過去に作成された認識用音響モデル
から、新たに認識用音響モデルを学習する。認識用音響
モデルの学習方法は音響モデルの方式によりいくつもの
方法が考えられるが、例えばHMMを使用する場合に
は、Baum-Welchアルゴリズムが良く知られている。認識
用音響モデル記憶装置14は、認識用音響モデル作成部
13で作成した認識用音響モデルを保存する。認識用音
響モデル記憶装置14に保存された認識用音響モデル
は、参照用認識用音響モデル装置21にコピーされ、次
回の認識用音響モデル作成に使用されても良い。認識用
音響モデル記憶装置14、参照用認識用音響モデル記憶
装置21は、半導体メモリやハードディスクやDVDな
ど様々なメディアで実現可能であるが、メディアの種類
は問わない。
【0043】合成用音響モデル作成部15は、音声デー
タ102と音韻情報と過去に作成した合成用音響モデル
記憶装置22に保存された合成用音響モデルから、新た
に合成用音響モデルを作成する。音声合成に使用する音
響モデルによって作成するものが異なるが、例えば、音
声素片、基本ピッチ、音源残差、韻律情報などを入力さ
れた音声データについて作成する。合成用音響モデル記
憶装置16は、合成用音響モデル作成部15で作成した
合成用音響モデルを保存する。合成用音響モデル記憶装
置16に保存された合成用音響モデルは、参照用合成用
音響モデル装置22にコピーされ、次回の合成用音響モ
デル作成に使用されても良い。合成用音響モデル記憶装
置16、参照用合成用音響モデル記憶装置22は、半導
体メモリやハードディスクやDVDなど様々なメディア
で実現可能であるが、メディアの種類は問わない。
【0044】第2の実施の形態に係る音響モデル作成装
置によると、過去に作成した認識用音響モデル及び合成
用音響モデルを使用して新しい認識用音響モデル及び合
成用音響モデルを作成することにより、一度に大量の音
声データを準備しなくても徐々に性能の良い認識用音響
モデル及び合成用音響モデルを作成することができる。
【0045】(第3の実施の形態)第3の実施の形態に
係る音響モデル作成装置は、不特定話者認識用音響モデ
ルを利用して、音声認識用モデルと合成用音響モデルを
同時に作成する。図7に示すように、第3の実施の形態
に係る音響モデル作成装置は、音声データ102を入力
する音声データ入力部11とCPU(処理制御装置)5
0とCPU50に接続された入力装置51、出力装置5
2、一時記憶装置53、認識用音響モデル記憶装置1
4、合成用音響モデル記憶装置16、不特定話者認識用
音響モデル記憶装置31を備える。CPU50は、音韻
情報抽出部12、認識用音響モデル作成部13、合成用
音響モデル作成部15を備える。入力装置51、出力装
置52、一時記憶装置53、音声データ入力部11、認
識用音響モデル作成部13、認識用音響モデル記憶装置
14、合成用音響モデル作成部15、合成用音響モデル
記憶装置16は、第1の実施の形態に係る音響モデル作
成装置と同様であるので、ここでは説明を省略する。
【0046】音韻情報抽出部12は、音声データから音
韻情報を抽出するときに不特定話者認識用音響モデル記
憶装置31に保存された音響モデルを使用する。不特定
話者認識用音響モデルとは、特定の人の声に合わせて作
成した認識用音響モデルではなく、多くの人の声から作
成された認識用音響モデルである。音韻情報抽出部12
は、過去にある特定の人の音声で作成した認識用音響モ
デルがない場合でも、不特定話者認識用モデルを利用す
ることにより、音韻抽出処理を効率良く行う。又、第1
の実施の形態に係る音響モデル作成装置の音韻情報抽出
部12と同様に、より処理時間はかかるが詳細な音韻情
報抽出を行って音韻抽出の精度を改善したり、正しくな
いと判断された部分の情報は使用しないようにすること
ができる。あるいは、自動抽出した結果を出力装置52
に表示し、入力装置51により人手でチェックして正し
く抽出できた音韻情報のみを選択し、誤りを訂正しても
良い。
【0047】第3の実施の形態に係る音響モデル作成装
置によると、不特定話者認識用音響モデル記憶装置31
に保存された音響モデルを使用することにより、過去に
ある特定の人の音声で作成した認識用音響モデルがない
場合でも、音韻情報抽出部12での音韻抽出処理を効率
よく行うことが可能となる。
【0048】(第4の実施の形態)第4の実施の形態に
係る音響モデル作成装置は、音声認識用モデルと合成用
音響モデルを同時に作成すると共に、作成した認識用音
響モデル及び合成用音響モデルに環境情報を付加する。
図8に示すように、第4の実施の形態に係る音響モデル
作成装置は、音声データ102を入力する音声データ入
力部11とCPU(処理制御装置)50とCPU50に
接続された入力装置51、出力装置52、一時記憶装置
53、認識用音響モデル記憶装置14、合成用音響モデ
ル記憶装置16、認識用環境情報記憶装置42、合成用
環境情報記憶装置43を備える。CPU50は、音韻情
報抽出部12、認識用音響モデル作成部13、合成用音
響モデル作成部15、環境情報付加部41を備える。入
力装置51、出力装置52、一時記憶装置53、音声デ
ータ入力部11、音韻情報抽出部12、認識用音響モデ
ル作成部13、認識用音響モデル記憶装置14、合成用
音響モデル作成部15、合成用音響モデル記憶装置16
は、第1の実施の形態に係る音響モデル作成装置と同様
であるので、ここでは説明を省略する。
【0049】環境情報付加部41は、音声データ入力部
11に入力された音声が発声されたときの環境情報デー
タ200を、その音声データから作成した認識用音響モ
デル又は合成用音響モデルに付加する。環境情報データ
は、具体的には、時間情報や場所情報、話者の体調、話
者の話している相手等が挙げられる。環境情報データの
入力方法としては、例えば、音声入力時に発話者が入力
しても構わないし、時間情報であれば時計を使用して自
動入力したり、場所情報であればGPSなどを使用して
自動入力することも可能である。又、音波のゆらぎや血
圧、脈拍、体温、発汗、音声の大きさ等を測定し、発話
者の生体情報や感情を環境情報として付加することも可
能である。その他、発話者のスケジュールを事前に登録
しておき、音声が入力された時間帯から、現在の場所が
会社なのか家なのか、会議中であるのか食事中であるの
かといった環境情報データを付加することも可能であ
る。更に、音声データ入力時には環境情報データが入力
されていなくても、入力された音声データから話の内容
や、音声の高さ、大きさ等から嬉しそうに話をしている
かなどの感情情報を抽出して環境情報データを付加する
ことも可能である。
【0050】認識用環境情報記憶装置42は、認識用音
響モデルに付加する環境情報データを保存する。又、合
成用環境情報記憶装置43は、合成用音響モデルに付加
する環境情報データを保存する。
【0051】次に、図9を用いて、第4の実施の形態に
係る音響モデル作成装置によって作成された認識用音響
モデル、合成用音響モデルの利用例について説明する。
図9では、環境情報データを基に選択した認識用音響モ
デル/合成用音響モデルを利用した音声認識・音声合成
処理について示す。第4の実施の形態に係る音響モデル
作成装置によって作成された認識用音響モデル、合成用
音響モデルは、それぞれ、認識用音響モデル記憶装置1
4、合成用音響モデル記憶装置15に保存されている。
【0052】音声認識部104は、音声データA300
を認識し、テキストデータに変換する。このとき、音声
データA300が発声された時の環境情報に応じたテキ
ストデータに変換するために、認識用音響モデル選択部
301が認識用音響モデル記憶装置14から環境情報に
応じた認識用音響モデルを選択する。音声認識部104
は、この認識用音響モデルを使用して、音声データAを
テキストデータに変換する。そして、認識用音響モデル
選択部301で選択した環境情報データと共に、テキス
トデータを認識結果記憶装置302に保存する。
【0053】音声合成部107は、認識結果記憶装置3
02に保存されたテキストデータを音声データB303
に変換する。このとき、合成用音響モデル選択部304
は、認識結果記憶装置302に保存された環境情報デー
タを使用して、合成用音響モデル記憶装置16から合成
用音響モデルを選択する。音声合成部107は、合成用
音響モデル選択部304が選択した合成用音響モデルを
使用して、テキストデータを音声データB303に変換
する。
【0054】第4の実施の形態に係る音響モデル作成装
置によると、認識用音響モデルや合成用音響モデルを使
用する環境情報に応じて、認識用音響モデル及び合成用
音響モデルを選択して使用することが可能となる。
【0055】(その他の実施の形態)本発明は上記の実
施の形態によって記載したが、この開示の一部をなす論
述及び図面はこの発明を限定するものであると理解すべ
きではない。この開示から当業者には様々な代替実施の
形態、実施例及び運用技術が明らかとなろう。
【0056】例えば、本発明の第1〜第4の実施の形態
において、認識用音響モデル記憶装置14合成用音響モ
デル記憶装置15を異なる記憶装置として記述したが、
一つの記憶装置に認識用音響モデル及び合成用音響モデ
ルを保存しても良い。同様に、第4の実施の形態におい
て、認識用環境情報記憶装置42と合成用環境情報記憶
装置43を異なる記憶装置として記述したが、一つの記
憶装置に認識用環境情報及び合成用環境情報を保存して
も良い。
【0057】又、本発明の第1〜第4の実施の形態にお
いて、認識用音響モデルと合成用音響モデルを同時に作
成する音響モデル作成装置及び音響モデル作成方法につ
いて述べたが、この「同時に作成する」というのは、時
間的なタイミングが同時であるということではなく、同
じ音声データから認識用音響モデルと合成用音響モデル
を作成するということである。従って、認識用音響モデ
ルと合成用音響モデルを作成する順序は問わない。
【0058】このように、本発明はここでは記載してい
ない様々な実施の形態等を含むことは勿論である。従っ
て、本発明の技術的範囲は上記の説明から妥当な特許請
求の範囲に係る発明特定事項によってのみ定められるも
のである。
【0059】
【発明の効果】本発明によれば、品質の良い認識用音響
モデルと合成用音響モデルを同時に作成する音響モデル
作成装置及び音響モデル作成方法を提供することができ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施に形態に係る音響モデル作
成装置の構成図である。
【図2】本発明の第1の実施の形態に係る音響モデル作
成方法のフローチャートである。
【図3】本発明の第1の実施の形態に係る音響モデル作
成方法の別のフローチャートである。
【図4】本発明の第1の実施の形態に係る音響モデル作
成装置の利用例を示す図である。
【図5】図4に示す音声対話シーンの一例を示す図であ
る。
【図6】本発明の第2の実施の形態に係る音響モデル作
成装置の構成図である。
【図7】本発明の第3の実施の形態に係る音響モデル作
成装置の構成図である。
【図8】本発明の第4の実施の形態に係る音響モデル作
成装置の構成図である。
【図9】本発明の第4の実施の形態に係る音響モデル作
成装置で作成された認識用音響モデル及び合成用音響モ
デルの利用例を示す図である。
【符号の説明】
1 音響モデル作成装置 11 音声データ入力部 12 音韻情報抽出部 13 認識用音響モデル作成部 14 認識用音響モデル記憶装置 15 合成用音響モデル作成部 16 合成用音響モデル記憶装置 21 参照用認識用音響モデル記憶装置 22 参照用合成用音響モデル記憶装置 31 不特定話者認識用音響モデル記憶装置 41 環境情報付加部 42 認識用環境情報記憶装置 43 合成用環境情報記憶装置 50 CPU(処理制御装置) 51 入力装置 52 出力装置 53 一時記憶装置 100 話者A 101 話者B 102 音声データ 103 テキストデータA 104 音声認識部 105 認識用音響モデル 106 合成用音響モデル 107 音声合成部 108 テキストデータB 109 音声出力部 110 記憶装置 300 音声データA 301 認識用音響モデル選択部 302 認識結果記憶部 303 音声データB 304 合成用音響モデル選択部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 金澤 博史 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 玉田 雄三 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 Fターム(参考) 5D015 AA02 GG01

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】音声データを入力する音声データ入力部
    と、 前記音声データから音韻情報を抽出し、前記音声データ
    と前記音韻情報の対応づけを行う音韻情報抽出部と、 前記音声データと前記音韻情報から認識用音響モデルを
    学習する認識用音響モデル作成部と、 前記音声データと前記音韻情報から合成用音響モデルを
    作成する合成用音響モデル作成部とを備えることを特徴
    とする音響モデル作成装置。
  2. 【請求項2】前記認識用音響モデル作成部は、前記音声
    データと前記音韻情報と過去に作成された認識用音響モ
    デルから、新たに認識用音響モデルを学習し、 前記合成用音響モデル作成部は、前記音声データと前記
    音韻情報と過去に作成された合成用音響モデルから、新
    たに合成用音響モデルを作成することを特徴とする請求
    項1に記載の音響モデル作成装置。
  3. 【請求項3】前記音韻情報抽出部は、不特定話者認識用
    音響モデルを使用して、前記音声データから音韻情報を
    抽出し、前記音声データと前記音韻情報の対応づけを行
    うことを特徴とする請求項1又は2に記載の音響モデル
    作成装置。
  4. 【請求項4】前記音声データが発声されたときの環境情
    報データを前記認識用音響モデルあるいは前記合成用音
    響モデルに付加する環境情報付加部とを更に備えること
    を特徴とする請求項1〜3のいずれか1項に記載の音響
    モデル作成装置。
  5. 【請求項5】前記環境情報データは前記音声データが発
    声された時間、場所、相手、又は発声した人の行動、血
    圧、脈拍、若しくは体温であることを特徴とする請求項
    4に記載の音響モデル作成装置。
  6. 【請求項6】前記音韻情報抽出部によって抽出された前
    記音韻情報を表示する出力装置と、 正しく抽出された前記音韻情報のみを選択する入力装置
    とを更に備えることを特徴とする請求項1〜5のいずれ
    か1項に記載の音響モデル作成装置。
  7. 【請求項7】音声データを入力するステップと、 前記音声データから音韻情報を抽出し、前記音声データ
    と前記音韻情報の対応づけを行うステップと、 前記音声データと前記音韻情報から認識用音響モデルを
    学習するステップと、 前記音声データと前記音韻情報から合成用音響モデルを
    作成するステップとを含むことを特徴とする音響モデル
    作成方法。
  8. 【請求項8】前記学習するステップにおいて学習した認
    識用音響モデルを使用して、前記音声データから音韻情
    報を抽出し、前記音声データと前記音韻情報の対応づけ
    を行うステップとを更に含むことを特徴とする請求項7
    に記載の音響モデル作成方法。
  9. 【請求項9】前記音韻情報に誤りがないかどうかを判定
    するステップを更に含むことを特徴とする請求項7又は
    8に記載の音響モデル作成方法。
JP2002074072A 2002-03-18 2002-03-18 音響モデル作成装置及び音響モデル作成方法 Pending JP2003271182A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002074072A JP2003271182A (ja) 2002-03-18 2002-03-18 音響モデル作成装置及び音響モデル作成方法
US10/388,491 US20030177005A1 (en) 2002-03-18 2003-03-17 Method and device for producing acoustic models for recognition and synthesis simultaneously

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002074072A JP2003271182A (ja) 2002-03-18 2002-03-18 音響モデル作成装置及び音響モデル作成方法

Publications (1)

Publication Number Publication Date
JP2003271182A true JP2003271182A (ja) 2003-09-25

Family

ID=28035283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002074072A Pending JP2003271182A (ja) 2002-03-18 2002-03-18 音響モデル作成装置及び音響モデル作成方法

Country Status (2)

Country Link
US (1) US20030177005A1 (ja)
JP (1) JP2003271182A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
WO2010104040A1 (ja) * 2009-03-09 2010-09-16 国立大学法人豊橋技術科学大学 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
WO2018168427A1 (ja) * 2017-03-13 2018-09-20 ソニー株式会社 学習装置、学習方法、音声合成装置、音声合成方法
JP2019120841A (ja) * 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP2020034835A (ja) * 2018-08-31 2020-03-05 国立大学法人京都大学 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
JP2021015264A (ja) * 2019-07-11 2021-02-12 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251603B2 (en) * 2003-06-23 2007-07-31 International Business Machines Corporation Audio-only backoff in audio-visual speech recognition system
JP4150645B2 (ja) * 2003-08-27 2008-09-17 株式会社ケンウッド 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
KR20120121070A (ko) * 2011-04-26 2012-11-05 삼성전자주식회사 원격 건강관리 시스템 및 이를 이용한 건강관리 방법
CN107004404B (zh) * 2014-11-25 2021-01-29 三菱电机株式会社 信息提供系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4462080A (en) * 1981-11-27 1984-07-24 Kearney & Trecker Corporation Voice actuated machine control
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
US5734794A (en) * 1995-06-22 1998-03-31 White; Tom H. Method and system for voice-activated cell animation
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6173260B1 (en) * 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6587822B2 (en) * 1998-10-06 2003-07-01 Lucent Technologies Inc. Web-based platform for interactive voice response (IVR)
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
JP2002539483A (ja) * 1999-03-08 2002-11-19 シーメンス アクチエンゲゼルシヤフト 音声信号の特徴記述子を求める方法
DE60026637T2 (de) * 1999-06-30 2006-10-05 International Business Machines Corp. Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
US20020178004A1 (en) * 2001-05-23 2002-11-28 Chienchung Chang Method and apparatus for voice recognition

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8150687B2 (en) 2003-12-03 2012-04-03 Nuance Communications, Inc. Recognizing speech, and processing data
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
WO2010104040A1 (ja) * 2009-03-09 2010-09-16 国立大学法人豊橋技術科学大学 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JPWO2010104040A1 (ja) * 2009-03-09 2012-09-13 国立大学法人豊橋技術科学大学 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
JP5574344B2 (ja) * 2009-03-09 2014-08-20 国立大学法人豊橋技術科学大学 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
US11335322B2 (en) 2017-03-13 2022-05-17 Sony Corporation Learning device, learning method, voice synthesis device, and voice synthesis method
WO2018168427A1 (ja) * 2017-03-13 2018-09-20 ソニー株式会社 学習装置、学習方法、音声合成装置、音声合成方法
JPWO2018168427A1 (ja) * 2017-03-13 2020-01-09 ソニー株式会社 学習装置、学習方法、音声合成装置、音声合成方法
JP7070544B2 (ja) 2017-03-13 2022-05-18 ソニーグループ株式会社 学習装置、学習方法、音声合成装置、音声合成方法
JP2019120841A (ja) * 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP6989951B2 (ja) 2018-01-09 2022-01-12 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP2020034835A (ja) * 2018-08-31 2020-03-05 国立大学法人京都大学 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
JP7063779B2 (ja) 2018-08-31 2022-05-09 国立大学法人京都大学 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
JP2021015264A (ja) * 2019-07-11 2021-02-12 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理
JP7242520B2 (ja) 2019-07-11 2023-03-20 サウンドハウンド,インコーポレイテッド 視覚支援スピーチ処理

Also Published As

Publication number Publication date
US20030177005A1 (en) 2003-09-18

Similar Documents

Publication Publication Date Title
US10991360B2 (en) System and method for generating customized text-to-speech voices
US7472065B2 (en) Generating paralinguistic phenomena via markup in text-to-speech synthesis
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
JP6434948B2 (ja) 名前発音システム及び方法
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
KR102072730B1 (ko) 핫워드 적합성을 결정하는 방법 및 장치
Yamagishi et al. Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on various ASR corpora
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US7792673B2 (en) Method of generating a prosodic model for adjusting speech style and apparatus and method of synthesizing conversational speech using the same
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2003271182A (ja) 音響モデル作成装置及び音響モデル作成方法
CN116601702A (zh) 一种用于多说话者和多语言语音合成的端到端神经系统
JP5693834B2 (ja) 音声認識装置及び音声認識方法
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
JP2010048959A (ja) 音声出力システム及び車載装置
TWI358649B (en) System and method for speech translation between c
Bohac et al. A cross-lingual adaptation approach for rapid development of speech recognizers for learning disabled users
Breuer et al. Set-up of a Unit-Selection Synthesis with a Prominent Voice.
TW202115713A (zh) 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法
KR20220116660A (ko) 인공지능 스피커 기능을 탑재한 텀블러 장치
KR20220050342A (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법
Adde et al. NameDat: A database of English proper names spoken by native Norwegians
Wang et al. TAICAR–The collection and annotation of an in-car speech database created in Taiwan
JPH08251307A (ja) 音声応答サービス装置
Gibbon et al. Consumer off-the-shelf (COTS) speech technology product and service evaluation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051107

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060112

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060331