JP2001222292A

JP2001222292A - 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2001222292A
Application number: JP2000030807A
Authority: JP
Inventors: Hajime Tsukada; 元塚田; Singer Harald; ハラルド・シンガー; Gruhn Rainer; ライナー・グルーン; Masaki Naito; 正樹内藤; Atsushi Nakamura; 篤中村
Original assignee: ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR Interpreting Telecommunications Research Laboratories
Priority date: 2000-02-08
Filing date: 2000-02-08
Publication date: 2001-08-17

Abstract

(57)【要約】【課題】この発明は、膨大な数の話者依存データを、
個々の音声処理装置が管理することなく、適時利用する
ことができるようになる音声処理システムを提供するこ
とを目的とする。【解決手段】予め発声された音声データに基づいて作
成された話者に依存する話者依存データを用いて音声処
理を行なう音声処理装置、および複数の話者依存データ
を保持する１または複数の話者依存データ管理サーバと
を備えており、音声処理装置は、話者依存データ管理サ
ーバから必要な話者依存データを取得する手段を備えて
いる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声認識処理シ
ステム、音声合成処理システム、音声変換処理システ
ム、音声翻訳処理システム装置等の音声処理システムお
よび音声処理プログラムを記憶したコンピュータ読み取
り可能な記録媒体に関する。

【０００２】

【従来の技術】ある言語の音声を、同じまたは他の言語
の音声に変換するための音声翻訳処理装置が既に開発さ
れている。音声翻訳処理装置は、入力音声を認識してテ
キストに変換する音声認識処理部、音声認識処理部によ
って得られたテキストに基づいて言語翻訳を行なう言語
翻訳処理部および言語翻訳処理部によって得られたテキ
ストを音声に変換する音声合成処理部を備えている。

【０００３】音声翻訳処理装置では、音声認識処理部で
用いられる音響モデルおよび音声合成処理部で用いられ
る音声合成単位データに代表されるように、予め発声さ
れた音声データに基づいて作成される話者依存データを
用意しておくことが必要である。

【０００４】ATR-MATRIX( T.Takezawa, T.Morimoto, Y.
Sagisaka, N.Campbell, H.Iida, F.Sugaya, A.Yokoo, a
nd S.Yamamoto. A Japanese-to-English speech transl
ation system: ATR-MATRIX. In Proc. ICSLP, pages 95
7-960,1998) 等の従来の音声翻訳処理装置においては、
これらの話者依存データを個々の音声翻訳処理装置毎に
管理している。

【０００５】

【発明が解決しようとする課題】音響モデルおよび音声
合成単位データで代表される話者依存データは、話者か
らサンプリングした音声データに基づいて作成される。
音声認識処理部の認識精度を上げるためには、話者の声
質に応じてできるだけ多くの種類の音響モデルと、話者
固有の言い回しに応じたできるだけ多くの種類の言語モ
デルとを用意することが好ましい。

【０００６】また、言語翻訳処理部の翻訳精度を上げる
ためには、話者固有の言い回しに応じたできるだけ多く
の種類の言語翻訳モデルを用意することが好ましい。さ
らに、音声合成処理部においてできるだけ多くの話者の
音声を出力するためには、話者の声質に応じてできるだ
け多くの種類の音声合成単位データを用意することが好
ましい。

【０００７】このようなことは、予め発声された音声デ
ータに基づいて作成された上記のようなデータ（音響モ
デル、言語モデル、言語翻訳モデル、音声合成単位デー
タ）がタスク（ホテル予約、電話オペレータ等）別に分
けられている場合にも、同様であり、タスク別に分けら
れたタスク依存データをできるだけ用意しておくことが
好ましい。

【０００８】しかしながら、膨大な数の話者毎に存在す
る話者依存データや膨大な数のタスク毎に存在するタス
ク依存データを、個々の音声翻訳処理装置毎に管理する
ことは非常に困難であるとともに、資源効率の観点から
も望ましいものではない。

【０００９】この発明は、膨大な数の話者依存データ
を、個々の音声処理装置が管理することなく、適時利用
することができるようになる音声処理システムおよび音
声処理プログラムを記憶したコンピュータ読み取り可能
な記録媒体を提供することを目的とする。

【００１０】この発明は、膨大な数のタスク依存データ
を、個々の音声処理装置が管理することなく、適時利用
することができるようになる音声処理システムおよび音
声処理プログラムを記憶したコンピュータ読み取り可能
な記録媒体を提供することを目的とする。

【００１１】

【課題を解決するための手段】この発明による第１の音
声処理システムは、予め発声された音声データに基づい
て作成された話者に依存する話者依存データを用いて音
声処理を行なう音声処理装置、および複数の話者依存デ
ータを保持する１または複数の話者依存データ管理サー
バとを備えており、音声処理装置は、話者依存データ管
理サーバから必要な話者依存データを取得する手段を備
えていることを特徴とする。

【００１２】音声処理装置が音声認識処理装置である場
合には、たとえば、音響モデルおよび言語モデルの一方
または両方が話者依存データとなる。

【００１３】音声処理装置が音声合成処理装置である場
合には、たとえば、音声合成単位が話者依存データとな
る。

【００１４】音声処理装置が、入力音声をテキストに変
換する音声認識処理部および音声認識処理部によって得
られたテキストを入力音声と異なる声質の音声に変換す
る音声合成処理部を備えた音声変換処理装置である場合
には、たとえば、音声認識処理部で用いられる音響モデ
ルおよび言語モデルの一方または両方と、音声合成処理
部で用いられる音声合成単位とが、話者依存データとな
る。

【００１５】音声処理装置が入力言語音声をテキストに
変換する音声認識処理部、音声認識処理部によって得ら
れたテキストを目的言語のテキストに変換する言語翻訳
処理部および言語翻訳処理部によって得られた目的言語
のテキストを目的言語音声に変換する音声合成処理部を
備えた音声翻訳処理装置である場合には、たとえば、音
声認識処理部で用いられる音響モデルおよび言語モデル
の一方または両方と、言語翻訳処理部で用いられる翻訳
モデルと、音声合成処理部で用いられる音声合成単位と
が話者依存データとなる。

【００１６】この発明による第２の音声処理システム
は、予め発声された音声データに基づいて作成されかつ
タスク別に分けられたタスク依存データを用いて音声処
理を行なう音声処理装置、および複数のタスク依存デー
タを保持する１または複数のタスク依存データ管理サー
バとを備えており、音声処理装置は、タスク依存データ
管理サーバから必要なタスク依存データを取得する手段
を備えていることを特徴とする。

【００１７】音声処理装置が音声認識処理装置である場
合には、たとえば、音響モデルおよび言語モデルの一方
または両方がタスク依存データとなる。

【００１８】音声処理装置が音声合成処理装置である場
合には、たとえば、音声合成単位がタスク依存データと
なる。

【００１９】音声処理装置が、入力音声をテキストに変
換する音声認識処理部および音声認識処理部によって得
られたテキストを入力音声と異なる声質の音声に変換す
る音声合成処理部を備えた音声変換処理装置である場合
には、たとえば、音声認識処理部で用いられる音響モデ
ルおよび言語モデルの一方または両方と、音声合成処理
部で用いられる音声合成単位とが、タスク依存データと
なる。

【００２０】音声処理装置が入力言語音声をテキストに
変換する音声認識処理部、音声認識処理部によって得ら
れたテキストを目的言語のテキストに変換する言語翻訳
処理部および言語翻訳処理部によって得られた目的言語
のテキストを目的言語音声に変換する音声合成処理部を
備えた音声翻訳処理装置である場合には、たとえば、音
声認識処理部で用いられる音響モデルおよび言語モデル
の一方または両方と、言語翻訳処理部で用いられる翻訳
モデルと、音声合成処理部で用いられる音声合成単位と
がタスク依存データとなる。

【００２１】この発明による第１の音声処理プログラム
を記録したコンピュータ読み取り可能な記録媒体は、予
め発声された音声データに基づいて作成された話者に依
存する話者依存データを用いて所定の音声処理を行なう
ための音声処理プログラムを記録したコンピュータ読み
取り可能な記録媒体であって、複数の話者依存データを
保持する１または複数の話者依存データ管理サーバか
ら、必要な話者依存データを取得するステップ、および
取得した話者依存データを用いて、上記所定の音声処理
を行なうステップ、をコンピュータに実行させるための
音声処理プログラムを記憶していることを特徴とする。

【００２２】上記所定の音声処理が入力音声をテキスト
に変換する音声認識処理である場合には、たとえば、音
響モデルおよび言語モデルの一方または両方が話者依存
データとなる。

【００２３】上記所定の音声処理が入力テキストを音声
に変換する音声合成処理である場合には、たとえば、音
声合成単位が話者依存データとなる。

【００２４】上記所定の音声処理が、入力音声をテキス
トに変換する音声認識処理と、音声認識処理によって得
られたテキストを入力音声と異なる声質の音声に変換す
る音声合成処理とからなる音声変換処理である場合に
は、たとえば、音声認識処理部で用いられる音響モデル
および言語モデルの一方または両方と、音声合成処理部
で用いられる音声合成単位とが、タスク依存データとな
る。

【００２５】上記所定の音声処理が、入力言語音声をテ
キストに変換する音声認識処理、音声認識処理によって
得られたテキストを目的言語のテキストに変換する言語
翻訳処理および言語翻訳処理によって得られた目的言語
のテキストを目的言語音声に変換する音声合成処理から
なる音声翻訳処理である場合には、たとえば、音声認識
処理部で用いられる音響モデルおよび言語モデルの一方
または両方と、言語翻訳処理部で用いられる翻訳モデル
と、音声合成処理部で用いられる音声合成単位とがタス
ク依存データとなる。

【００２６】この発明による第２の音声処理プログラム
を記録したコンピュータ読み取り可能な記録媒体は、予
め発声された音声データに基づいて作成されかつタスク
別に分けられたタスク依存データを用いて所定の音声処
理を行なうための音声処理プログラムを記録したコンピ
ュータ読み取り可能な記録媒体であって、複数のタスク
依存データを保持する１または複数のタスク依存データ
管理サーバから、必要なタスク依存データを取得するス
テップ、および取得したタスク依存データを用いて、上
記所定の音声処理を行なうステップ、をコンピュータに
実行させるための音声処理プログラムを記憶しているこ
とを特徴とする。

【００２７】上記所定の音声処理が入力音声をテキスト
に変換する音声認識処理である場合には、たとえば、音
響モデルおよび言語モデルの一方または両方がタスク依
存データとなる。

【００２８】上記所定の音声処理が入力テキストを音声
に変換する音声合成処理である場合には、たとえば、音
声合成単位がタスク依存データとなる。

【００２９】上記所定の音声処理が、入力音声をテキス
トに変換する音声認識処理と、音声認識処理によって得
られたテキストを入力音声と異なる声質の音声に変換す
る音声合成処理とからなる音声変換処理である場合に
は、たとえば、音声認識処理部で用いられる音響モデル
および言語モデルの一方または両方と、音声合成処理部
で用いられる音声合成単位とが、タスク依存データとな
る。

【００３０】上記所定の音声処理が、入力言語音声をテ
キストに変換する音声認識処理、音声認識処理によって
得られたテキストを目的言語のテキストに変換する言語
翻訳処理および言語翻訳処理によって得られた目的言語
のテキストを目的言語音声に変換する音声合成処理から
なる音声翻訳処理である場合には、たとえば、音声認識
処理部で用いられる音響モデルおよび言語モデルの一方
または両方と、言語翻訳処理部で用いられる翻訳モデル
と、音声合成処理部で用いられる音声合成単位とがタス
ク依存データとなる。

【００３１】

【発明の実施の形態】以下、図面を参照して、この発明
を音声翻訳処理システムに適用した場合の実施の形態に
ついて説明する。

【００３２】図１は、音声翻訳処理システムの構成を示
している。

【００３３】音声翻訳処理システムは、音声翻訳処理装
置１０と、音声翻訳処理装置１０にインターネット等の
ネットワーク２０を介して接続された複数の話者依存デ
ータ管理サーバ（データベース）３０とからなる。音声
翻訳処理装置１０は、コンピュータと音声処理プログラ
ムとによって実現される。音声処理プログラムは、たと
えば、ＣＤ等の記憶媒体に格納されて提供される。

【００３４】図２は、音声翻訳処理装置１０の詳細な構
成と、複数の話者依存データ管理サーバ３０に保持され
ている話者依存データ群を示している。

【００３５】音声翻訳処理装置１０は、原言語の入力音
声をテキストに変換する音声認識処理部１１、音声認識
処理部１１によって得られた原言語のテキストを目的言
語のテキストに変換する言語翻訳処理部１２、言語翻訳
処理部１２によって得られた目的言語のテキストを目的
言語音声に変換する音声合成処理部１３および話者依存
データ取得部１４から構成されている。

【００３６】図２の破線３００は、全ての話者依存デー
タ管理サーバ３０の集合体（以下、話者依存データ管理
サーバ群という）を仮想的に示している。話者依存デー
タには、音声認識処理部１１で用いられる音響モデルお
よび言語モデル（音声認識処理用話者依存データ）、言
語翻訳処理部１２で用いられる言語翻訳モデル（言語翻
訳処理用話者依存データ）ならびに音声合成処理部１３
で用いられる音声合成単位データ（音声合成処理用話者
依存データ）がある。話者依存データは、個々の話者
毎、または特徴クラスタリングされた話者クラスタ毎に
作成される。ここでは、個々の話者毎に、話者依存デー
タが作成されているものとする。なお、音声認識処理部
１１で用いられる単語辞書も、話者依存データに含めて
もよい。

【００３７】個々の話者毎に作成された話者依存データ
は、複数の話者依存データ管理サーバ３０に分散して保
持されている。複数の話者依存データ管理サーバ３０に
話者依存データが重複して保持されていてもよい。

【００３８】図３は、音声認識処理部１１の一例を示し
ている。図３の音声認識処理部１１は、特開平７−２９
２６８５、特開平９−２３９５２８等に開示されている
ように、特徴抽出部４１、単語照合部４２および単語仮
説絞り込み部４３を備えている。

【００３９】特徴抽出部４１は、入力音声に対して例え
ばＬＰＣ分析を実行し、対数パワー、１６次ケプトラム
係数、Δ対数パワーおよび１６次Δケプトラム係数を含
む３次元の特徴パラメータを抽出する。

【００４０】単語照合部４２は、特徴抽出部４１によっ
て抽出された特徴パラメータに基づき、例えば、ワンパ
ス・ビタビ復号化法により、音響モデル４４と単語辞書
４５とを用いて単語仮説を検出し、尤度を計算して出力
する。単語照合部４２からは、単語仮説と尤度との情報
が、発声開始時刻からの時間情報とともに出力される。

【００４１】単語仮説絞り込み部４３は、単語照合部４
２から得られる単語仮説に基づいて、言語モデル４６を
参照して、終了時刻が等しく開始時刻が異なる同一の単
語の単語仮説に対して、当該単語の先頭音素環境毎に、
発声開始時刻から当該単語の終了時刻に至る計算された
総尤度のうちの最も高い尤度を有する１つの単語仮説で
代表させるように単語仮説の絞り込みを行なった後、絞
り込み後のすべての単語仮説の単語列のうち、最大の総
尤度を有する仮説の単語列を認識結果として出力する。

【００４２】なお、音響モデル４４および言語モデル４
６は、後述するように話者依存データ取得部１４によっ
て話者依存データ管理サーバ３０から取得される。

【００４３】音響モデルとは、各音素（または前後の音
素環境を考慮した音素）毎に特徴パラメータの時系列的
なパターンをモデル化したものをいう。この実施の形態
では、ＨＭＭ（Lowrence Rabiner,Biing-Hwang Juang
共著, 音声認識の基礎（下），第六章，NTT アドバンス
テクノロジ,1995 年参照) でモデル化する。

【００４４】また、言語モデルとは、単語列としての確
からしさをモデル化したものをいう。この実施の形態で
は、N-gram（北研二、中村哲、永田昌明共著、
音声言語処理、２．４節、森北出版株式会社、１９９６
年）を用いる。また、単語辞書とは、音素列と単語を関
係づけた表をいう。

【００４５】図４は、音声合成処理部１３の一例を示し
ている。図４の音声合成処理部１３は、音韻情報・韻律
情報抽出部５１、音声合成単位選択部５２および音声合
成単位接続部５３を備えている。

【００４６】音韻情報・韻律情報抽出部５１は、入力さ
れたテキストから音韻情報および韻律情報を抽出する。
音声合成単位選択部５２は、音韻情報・韻律情報抽出部
５１によって抽出された音韻情報および韻律情報に基づ
いて、所定の音声合成単位データベース５４から、音韻
記号列に相当する音声合成単位を選択する。音声合成単
位データベース５４は、後述するように話者依存データ
取得部１４によって話者依存データ管理サーバ３０から
取得される。音声合成単位接続部５３は、音韻情報・韻
律情報抽出部５１によって抽出された韻律情報に基づい
て、音声合成単位選択部５２によって選択された音声合
成単位を接続する。

【００４７】なお、音声合成単位データベースとは、音
声合成単位接続部で接続する単位を集めたデータベース
をいい、この実施の形態では、前後の音素環境を考慮し
た音素単位の波形データを音声合成単位として用いる。
音声合成単位接続部５３は、韻律情報に応じて必要なら
ば音声合成単位のピッチを変更してから接続する。

【００４８】この他にも、波形データそのものではな
く、スペクトル包絡をあらわすパラメータ（調音パラメ
ータ）を音声合成単位とする方法も考えられる。この場
合、音声合成単位接続部では、調音フィルターを用いて
韻律情報と調音パラメータから波形データを作成し、そ
れを接続する。

【００４９】言語翻訳処理部１２としては、例えば、H.
Alshawi et al., Learning Phrase-Based Transductio
n Models for Translation of Spoken Utterances, In
Proc. of ICSLP'98, 1998.の手法に基づく言語翻訳処理
を行なうものが用いられる。この言語翻訳処理は、単語
列を別言語の単語列に変換する言語翻訳モデルに基づく
もので、言語翻訳モデルとして確率的ヘッドトランスデ
ューサを用いている。この確率的ヘッドトランスデュー
サは、あらかじめ用意された対訳コーパスから自動的に
学習される。この言語翻訳手法で用いる言語翻訳モデル
は、従来の手法における言語解析規則、トランスファー
規則、言語生成規則を統合したものであると捉えること
ができる。

【００５０】この例では、ある原言語、たとえば、日本
語を喋る話者Ａが、他の目的言語、例えば英語を喋る話
者Ｂに電話をする際に、話者Ａが発声した原言語を目的
言語に翻訳して話者Ｂに伝える場合を想定して、音声翻
訳処理システムの動作について説明する。話者Ａが発声
した原言語音声は電話器１００を介して言語翻訳処理装
置１０に入力され、言語翻訳処理装置１０によって得ら
れた翻訳後の目的言語音声が電話器２００に送られるも
のとする。

【００５１】話者Ａは、自己を特定するＩＤを音声翻訳
処理装置１０に入力する。また、話者Ａは、合成音声の
音質として、自己以外の特定の話者の音質を選択したい
場合には、その特定の話者のＩＤを入力する。ＩＤとし
ては、この例では、電話番号が用いられる。

【００５２】話者依存データ取得部１４は、話者Ａを特
定するＩＤに基づいて、音声認識処理部１１で用いる最
適な話者依存データ（音響モデルおよび言語モデル）お
よび言語翻訳処理部１２で用いる最適な話者依存データ
（言語翻訳モデル）を、ネットワーク２０を介して話者
依存データ管理サーバ３０から検索して、取得する。ま
た、話者依存データ取得部１４は、合成音声の音質とし
て特に指定がない場合には、話者Ａを特定するＩＤに基
づいて、音声合成処理部１３で用いる最適な話者依存デ
ータ（音声単位データベース）を、ネットワーク２０を
介して話者依存データ管理サーバ３０から検索して、取
得する。つまり、話者Ａに対応した音響モデル、言語モ
デル、言語翻訳モデルおよび音声単位データベースを検
索して取得する。

【００５３】なお、合成音声の声質として話者Ａと異な
る特定の話者のＩＤが指定された場合には、話者依存デ
ータ取得部１４は、指定された特定の話者のＩＤに基づ
いて、音声合成処理部１３で用いる最適な話者依存デー
タ（音声単位データベース）を、ネットワーク２０を介
して話者依存データ管理サーバ３０から検索して、取得
する。

【００５４】この後、話者Ａの原言語音声が電話器１０
０から音声翻訳処理装置１０に送られてくると、音声認
識処理部１１は、話者依存データ取得部１４によって取
得された話者Ａに対応した音響モデルおよび言語モデル
を用いて音声認識処理を行なうことにより、入力された
原言語音声に対応するテキストを得る。

【００５５】音声認識処理部１１によって得られた原言
語のテキストは、言語翻訳処理部１２に送られる。言語
翻訳処理部１２は、話者依存データ取得部１４によって
取得された話者Ａに対応した言語翻訳モデルを用いて言
語翻訳処理を行なうことにより、原言語のテキストを目
的言語のテキストに変換する。

【００５６】言語翻訳処理部１２によって得られた目的
言語のテキストは、音声合成処理部１３に送られる。音
声合成処理部１３は、話者依存データ取得部１４によっ
て取得された単位音声データデータベース（話者Ａまた
は話者Ａによって指定された特定の話者の単位音声デー
タデータベース）を用いて音声合成処理を行うことによ
り、目的言語のテキストを目的言語音声に変換して出力
する。

【００５７】上記は、話者Ａによって入力された原言語
音声を目的言語音声に変換して話者Ｂに伝える場合につ
いて説明したが、話者Ｂによって入力された原言語音声
を目的言語音声に変換して話者Ａに伝えることも、同様
に行なうことができる。

【００５８】上記実施の形態によれば、話者依存データ
を、ネットワークに接続された世界中の話者依存データ
管理サーバから検索することができる。このため、個々
の音声翻訳処理装置は、膨大な数の話者に対応する話者
依存データを利用することができるようになる。

【００５９】話者依存データを重複して複数の話者デー
タ管理サーバに分散して保持させることによって、シス
テムの信頼性を向上させることが可能となる。

【００６０】また、音声認識処理で用いる音響モデルお
よび言語モデル、言語翻訳処理で用いる言語翻訳モデル
ならびに音声合成処理で用いる音声単位データとして、
原言語音声を入力する話者に対応するものを用いること
によって、異なった言語でありながら、原言語音声を入
力する話者と同じ特徴を持った目的言語音声を生成する
ことが可能となる。

【００６１】音声認識処理で用いる音響モデルおよび言
語モデルならびに言語翻訳処理で用いる言語翻訳モデル
として原言語音声を入力する話者に対応するものを用
い、音声合成処理で用いる音声単位データとして原言語
音声を入力する話者と異なる特定の話者に対応するもの
を選択することによって、原言語音声を入力する話者と
異なる声質の目的言語音声を生成することが可能とな
る。

【００６２】なお、言語の種類を替えずに声質のみ変換
する場合には、言語翻訳処理部１２は不要となる。

【００６３】上記実施の形態では、音声翻訳処理システ
ムについて説明したが、この発明は、音声認識処理シス
テム、音声合成処理システム、音声変換処理システム等
の音声処理システムにも適用することができる。

【００６４】また、上記実施の形態では、話者別の話者
依存データを音声翻訳処理装置等の音声処理装置が話者
依存データ管理サーバから話者依存データを取得し、取
得した話者依存データを用いて音声処理を行なう場合に
ついて説明したが、複数種類のタスク依存データをタス
ク依存データ管理サーバに分散して保持させておき、音
声処理装置がタスク依存データ管理サーバからタスク依
存データを取得し、取得したタスク依存データを用いて
音声処理を行なうようにしてもよい。

【００６５】

【発明の効果】この発明によれば、膨大な数の話者依存
データを、個々の音声処理装置が管理することなく、適
時利用することができるようになる。また、この発明に
よれば、膨大な数のタスク依存データを、個々の音声処
理装置が管理することなく、適時利用することができる
ようになる。

【図面の簡単な説明】

【図１】音声翻訳処理システムの概略構成を示すブロッ
ク図である。

【図２】音声翻訳処理装置１０の詳細な構成と、複数の
話者依存データ管理サーバ３０に保持されている話者依
存データ群を示すブロック図である。

【図３】音声認識処理部の構成を示すブロック図であ
る。

【図４】音声合成処理部の構成を示すブロック図であ
る。

【符号の説明】

１０音声翻訳処理装置１１音声認識処理部１２言語翻訳処理部１３音声合成処理部１４話者依存データ取得部２０ネットワーク３０話者依存データ管理サーバ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/18 Ｇ１０Ｌ 3/00 ５３１Ｋ 15/00 ５３７Ｚ 15/22 ５５１Ｃ５６１Ｄ (72)発明者ハラルド・シンガー京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者ライナー・グルーン京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者内藤正樹京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者中村篤京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内Ｆターム(参考） 5B091 AA03 AA15 CB12 CB32 5D015 GG06 HH14 HH16 KK02 KK04 LL06 LL12 5D045 AA07 AB03

Claims

【特許請求の範囲】

【請求項１】予め発声された音声データに基づいて作
成された話者に依存する話者依存データを用いて音声処
理を行なう音声処理装置、および複数の話者依存データ
を保持する１または複数の話者依存データ管理サーバと
を備えており、音声処理装置は、話者依存データ管理サーバから必要な
話者依存データを取得する手段を備えていることを特徴
とする音声処理システム。
【請求項２】音声処理装置が音声認識処理装置であ
り、話者依存データが音響モデルおよび／または言語モ
デルである請求項１に記載の音声処理システム。
【請求項３】音声処理装置が音声合成処理装置であ
り、話者依存データが音声合成単位である請求項１に記
載の音声処理システム。
【請求項４】音声処理装置が、入力音声をテキストに
変換する音声認識処理部および音声認識処理部によって
得られたテキストを入力音声と異なる声質の音声に変換
する音声合成処理部を備えた音声変換処理装置であり、
話者依存データが音声認識処理部で用いられる音響モデ
ルおよび／または言語モデルと、音声合成処理部で用い
られる音声合成単位とである請求項１に記載の音声処理
システム。
【請求項５】音声処理装置が入力言語音声をテキスト
に変換する音声認識処理部、音声認識処理部によって得
られたテキストを目的言語のテキストに変換する言語翻
訳処理部および言語翻訳処理部によって得られた目的言
語のテキストを目的言語音声に変換する音声合成処理部
を備えた音声翻訳処理装置であり、話者依存データが音
声認識処理部で用いられる音響モデルおよび／または言
語モデルと、言語翻訳処理部で用いられる翻訳モデル
と、音声合成処理部で用いられる音声合成単位とである
請求項１に記載の音声処理システム。
【請求項６】予め発声された音声データに基づいて作
成されかつタスク別に分けられたタスク依存データを用
いて音声処理を行なう音声処理装置、および複数のタス
ク依存データを保持する１または複数のタスク依存デー
タ管理サーバとを備えており、音声処理装置は、タスク
依存データ管理サーバから必要なタスク依存データを取
得する手段を備えていることを特徴とする音声処理シス
テム。
【請求項７】音声処理装置が音声認識処理装置であ
り、タスク依存データが音響モデルおよび／または言語
モデルである請求項６に記載の音声処理システム。
【請求項８】音声処理装置が音声合成処理装置であ
り、タスク依存データが音声合成単位である請求項６に
記載の音声処理システム。
【請求項９】音声処理装置が、入力音声をテキストに
変換する音声認識処理部および音声認識処理部によって
得られたテキストを入力音声と異なる声質の音声に変換
する音声合成処理部を備えた音声変換処理装置であり、
タスク依存データが音声認識処理部で用いられる音響モ
デルおよび／または言語モデルと、音声合成処理部で用
いられる音声合成単位とである請求項６に記載の音声処
理システム。
【請求項１０】音声処理装置が入力言語音声をテキス
トに変換する音声認識処理部、音声認識処理部によって
得られたテキストを目的言語のテキストに変換する言語
翻訳処理部および言語翻訳処理部によって得られた目的
言語のテキストを目的言語音声に変換する音声合成処理
部を備えた音声翻訳処理装置であり、タスク依存データ
が音声認識処理部で用いられる音響モデルおよび／また
は言語モデルと、言語翻訳処理部で用いられる翻訳モデ
ルと、音声合成処理部で用いられる音声合成単位とであ
る請求項６に記載の音声処理システム。
【請求項１１】予め発声された音声データに基づいて
作成された話者に依存する話者依存データを用いて所定
の音声処理を行なうための音声処理プログラムを記録し
たコンピュータ読み取り可能な記録媒体であって、複数
の話者依存データを保持する１または複数の話者依存デ
ータ管理サーバから、必要な話者依存データを取得する
ステップ、および取得した話者依存データを用いて、上
記所定の音声処理を行なうステップ、をコンピュータに
実行させるための音声処理プログラムを記憶したコンピ
ュータ読み取り可能な記録媒体。
【請求項１２】予め発声された音声データに基づいて
作成されかつタスク別に分けられたタスク依存データを
用いて所定の音声処理を行なうための音声処理プログラ
ムを記録したコンピュータ読み取り可能な記録媒体であ
って、複数のタスク依存データを保持する１または複数
のタスク依存データ管理サーバから、必要なタスク依存
データを取得するステップ、および取得したタスク依存
データを用いて、上記所定の音声処理を行なうステッ
プ、をコンピュータに実行させるための音声処理プログ
ラムを記憶したコンピュータ読み取り可能な記録媒体。