JP2001222292A - 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体 - Google Patents

音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2001222292A
JP2001222292A JP2000030807A JP2000030807A JP2001222292A JP 2001222292 A JP2001222292 A JP 2001222292A JP 2000030807 A JP2000030807 A JP 2000030807A JP 2000030807 A JP2000030807 A JP 2000030807A JP 2001222292 A JP2001222292 A JP 2001222292A
Authority
JP
Japan
Prior art keywords
speech
voice
dependent data
processing
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000030807A
Other languages
English (en)
Inventor
Hajime Tsukada
元 塚田
Singer Harald
ハラルド・シンガー
Gruhn Rainer
ライナー・グルーン
Masaki Naito
正樹 内藤
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Interpreting Telecommunications Research Laboratories filed Critical ATR Interpreting Telecommunications Research Laboratories
Priority to JP2000030807A priority Critical patent/JP2001222292A/ja
Publication of JP2001222292A publication Critical patent/JP2001222292A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 この発明は、膨大な数の話者依存データを、
個々の音声処理装置が管理することなく、適時利用する
ことができるようになる音声処理システムを提供するこ
とを目的とする。 【解決手段】 予め発声された音声データに基づいて作
成された話者に依存する話者依存データを用いて音声処
理を行なう音声処理装置、および複数の話者依存データ
を保持する1または複数の話者依存データ管理サーバと
を備えており、音声処理装置は、話者依存データ管理サ
ーバから必要な話者依存データを取得する手段を備えて
いる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識処理シ
ステム、音声合成処理システム、音声変換処理システ
ム、音声翻訳処理システム装置等の音声処理システムお
よび音声処理プログラムを記憶したコンピュータ読み取
り可能な記録媒体に関する。
【0002】
【従来の技術】ある言語の音声を、同じまたは他の言語
の音声に変換するための音声翻訳処理装置が既に開発さ
れている。音声翻訳処理装置は、入力音声を認識してテ
キストに変換する音声認識処理部、音声認識処理部によ
って得られたテキストに基づいて言語翻訳を行なう言語
翻訳処理部および言語翻訳処理部によって得られたテキ
ストを音声に変換する音声合成処理部を備えている。
【0003】音声翻訳処理装置では、音声認識処理部で
用いられる音響モデルおよび音声合成処理部で用いられ
る音声合成単位データに代表されるように、予め発声さ
れた音声データに基づいて作成される話者依存データを
用意しておくことが必要である。
【0004】ATR-MATRIX( T.Takezawa, T.Morimoto, Y.
Sagisaka, N.Campbell, H.Iida, F.Sugaya, A.Yokoo, a
nd S.Yamamoto. A Japanese-to-English speech transl
ation system: ATR-MATRIX. In Proc. ICSLP, pages 95
7-960,1998) 等の従来の音声翻訳処理装置においては、
これらの話者依存データを個々の音声翻訳処理装置毎に
管理している。
【0005】
【発明が解決しようとする課題】音響モデルおよび音声
合成単位データで代表される話者依存データは、話者か
らサンプリングした音声データに基づいて作成される。
音声認識処理部の認識精度を上げるためには、話者の声
質に応じてできるだけ多くの種類の音響モデルと、話者
固有の言い回しに応じたできるだけ多くの種類の言語モ
デルとを用意することが好ましい。
【0006】また、言語翻訳処理部の翻訳精度を上げる
ためには、話者固有の言い回しに応じたできるだけ多く
の種類の言語翻訳モデルを用意することが好ましい。さ
らに、音声合成処理部においてできるだけ多くの話者の
音声を出力するためには、話者の声質に応じてできるだ
け多くの種類の音声合成単位データを用意することが好
ましい。
【0007】このようなことは、予め発声された音声デ
ータに基づいて作成された上記のようなデータ(音響モ
デル、言語モデル、言語翻訳モデル、音声合成単位デー
タ)がタスク(ホテル予約、電話オペレータ等)別に分
けられている場合にも、同様であり、タスク別に分けら
れたタスク依存データをできるだけ用意しておくことが
好ましい。
【0008】しかしながら、膨大な数の話者毎に存在す
る話者依存データや膨大な数のタスク毎に存在するタス
ク依存データを、個々の音声翻訳処理装置毎に管理する
ことは非常に困難であるとともに、資源効率の観点から
も望ましいものではない。
【0009】この発明は、膨大な数の話者依存データ
を、個々の音声処理装置が管理することなく、適時利用
することができるようになる音声処理システムおよび音
声処理プログラムを記憶したコンピュータ読み取り可能
な記録媒体を提供することを目的とする。
【0010】この発明は、膨大な数のタスク依存データ
を、個々の音声処理装置が管理することなく、適時利用
することができるようになる音声処理システムおよび音
声処理プログラムを記憶したコンピュータ読み取り可能
な記録媒体を提供することを目的とする。
【0011】
【課題を解決するための手段】この発明による第1の音
声処理システムは、予め発声された音声データに基づい
て作成された話者に依存する話者依存データを用いて音
声処理を行なう音声処理装置、および複数の話者依存デ
ータを保持する1または複数の話者依存データ管理サー
バとを備えており、音声処理装置は、話者依存データ管
理サーバから必要な話者依存データを取得する手段を備
えていることを特徴とする。
【0012】音声処理装置が音声認識処理装置である場
合には、たとえば、音響モデルおよび言語モデルの一方
または両方が話者依存データとなる。
【0013】音声処理装置が音声合成処理装置である場
合には、たとえば、音声合成単位が話者依存データとな
る。
【0014】音声処理装置が、入力音声をテキストに変
換する音声認識処理部および音声認識処理部によって得
られたテキストを入力音声と異なる声質の音声に変換す
る音声合成処理部を備えた音声変換処理装置である場合
には、たとえば、音声認識処理部で用いられる音響モデ
ルおよび言語モデルの一方または両方と、音声合成処理
部で用いられる音声合成単位とが、話者依存データとな
る。
【0015】音声処理装置が入力言語音声をテキストに
変換する音声認識処理部、音声認識処理部によって得ら
れたテキストを目的言語のテキストに変換する言語翻訳
処理部および言語翻訳処理部によって得られた目的言語
のテキストを目的言語音声に変換する音声合成処理部を
備えた音声翻訳処理装置である場合には、たとえば、音
声認識処理部で用いられる音響モデルおよび言語モデル
の一方または両方と、言語翻訳処理部で用いられる翻訳
モデルと、音声合成処理部で用いられる音声合成単位と
が話者依存データとなる。
【0016】この発明による第2の音声処理システム
は、予め発声された音声データに基づいて作成されかつ
タスク別に分けられたタスク依存データを用いて音声処
理を行なう音声処理装置、および複数のタスク依存デー
タを保持する1または複数のタスク依存データ管理サー
バとを備えており、音声処理装置は、タスク依存データ
管理サーバから必要なタスク依存データを取得する手段
を備えていることを特徴とする。
【0017】音声処理装置が音声認識処理装置である場
合には、たとえば、音響モデルおよび言語モデルの一方
または両方がタスク依存データとなる。
【0018】音声処理装置が音声合成処理装置である場
合には、たとえば、音声合成単位がタスク依存データと
なる。
【0019】音声処理装置が、入力音声をテキストに変
換する音声認識処理部および音声認識処理部によって得
られたテキストを入力音声と異なる声質の音声に変換す
る音声合成処理部を備えた音声変換処理装置である場合
には、たとえば、音声認識処理部で用いられる音響モデ
ルおよび言語モデルの一方または両方と、音声合成処理
部で用いられる音声合成単位とが、タスク依存データと
なる。
【0020】音声処理装置が入力言語音声をテキストに
変換する音声認識処理部、音声認識処理部によって得ら
れたテキストを目的言語のテキストに変換する言語翻訳
処理部および言語翻訳処理部によって得られた目的言語
のテキストを目的言語音声に変換する音声合成処理部を
備えた音声翻訳処理装置である場合には、たとえば、音
声認識処理部で用いられる音響モデルおよび言語モデル
の一方または両方と、言語翻訳処理部で用いられる翻訳
モデルと、音声合成処理部で用いられる音声合成単位と
がタスク依存データとなる。
【0021】この発明による第1の音声処理プログラム
を記録したコンピュータ読み取り可能な記録媒体は、予
め発声された音声データに基づいて作成された話者に依
存する話者依存データを用いて所定の音声処理を行なう
ための音声処理プログラムを記録したコンピュータ読み
取り可能な記録媒体であって、複数の話者依存データを
保持する1または複数の話者依存データ管理サーバか
ら、必要な話者依存データを取得するステップ、および
取得した話者依存データを用いて、上記所定の音声処理
を行なうステップ、をコンピュータに実行させるための
音声処理プログラムを記憶していることを特徴とする。
【0022】上記所定の音声処理が入力音声をテキスト
に変換する音声認識処理である場合には、たとえば、音
響モデルおよび言語モデルの一方または両方が話者依存
データとなる。
【0023】上記所定の音声処理が入力テキストを音声
に変換する音声合成処理である場合には、たとえば、音
声合成単位が話者依存データとなる。
【0024】上記所定の音声処理が、入力音声をテキス
トに変換する音声認識処理と、音声認識処理によって得
られたテキストを入力音声と異なる声質の音声に変換す
る音声合成処理とからなる音声変換処理である場合に
は、たとえば、音声認識処理部で用いられる音響モデル
および言語モデルの一方または両方と、音声合成処理部
で用いられる音声合成単位とが、タスク依存データとな
る。
【0025】上記所定の音声処理が、入力言語音声をテ
キストに変換する音声認識処理、音声認識処理によって
得られたテキストを目的言語のテキストに変換する言語
翻訳処理および言語翻訳処理によって得られた目的言語
のテキストを目的言語音声に変換する音声合成処理から
なる音声翻訳処理である場合には、たとえば、音声認識
処理部で用いられる音響モデルおよび言語モデルの一方
または両方と、言語翻訳処理部で用いられる翻訳モデル
と、音声合成処理部で用いられる音声合成単位とがタス
ク依存データとなる。
【0026】この発明による第2の音声処理プログラム
を記録したコンピュータ読み取り可能な記録媒体は、予
め発声された音声データに基づいて作成されかつタスク
別に分けられたタスク依存データを用いて所定の音声処
理を行なうための音声処理プログラムを記録したコンピ
ュータ読み取り可能な記録媒体であって、複数のタスク
依存データを保持する1または複数のタスク依存データ
管理サーバから、必要なタスク依存データを取得するス
テップ、および取得したタスク依存データを用いて、上
記所定の音声処理を行なうステップ、をコンピュータに
実行させるための音声処理プログラムを記憶しているこ
とを特徴とする。
【0027】上記所定の音声処理が入力音声をテキスト
に変換する音声認識処理である場合には、たとえば、音
響モデルおよび言語モデルの一方または両方がタスク依
存データとなる。
【0028】上記所定の音声処理が入力テキストを音声
に変換する音声合成処理である場合には、たとえば、音
声合成単位がタスク依存データとなる。
【0029】上記所定の音声処理が、入力音声をテキス
トに変換する音声認識処理と、音声認識処理によって得
られたテキストを入力音声と異なる声質の音声に変換す
る音声合成処理とからなる音声変換処理である場合に
は、たとえば、音声認識処理部で用いられる音響モデル
および言語モデルの一方または両方と、音声合成処理部
で用いられる音声合成単位とが、タスク依存データとな
る。
【0030】上記所定の音声処理が、入力言語音声をテ
キストに変換する音声認識処理、音声認識処理によって
得られたテキストを目的言語のテキストに変換する言語
翻訳処理および言語翻訳処理によって得られた目的言語
のテキストを目的言語音声に変換する音声合成処理から
なる音声翻訳処理である場合には、たとえば、音声認識
処理部で用いられる音響モデルおよび言語モデルの一方
または両方と、言語翻訳処理部で用いられる翻訳モデル
と、音声合成処理部で用いられる音声合成単位とがタス
ク依存データとなる。
【0031】
【発明の実施の形態】以下、図面を参照して、この発明
を音声翻訳処理システムに適用した場合の実施の形態に
ついて説明する。
【0032】図1は、音声翻訳処理システムの構成を示
している。
【0033】音声翻訳処理システムは、音声翻訳処理装
置10と、音声翻訳処理装置10にインターネット等の
ネットワーク20を介して接続された複数の話者依存デ
ータ管理サーバ(データベース)30とからなる。音声
翻訳処理装置10は、コンピュータと音声処理プログラ
ムとによって実現される。音声処理プログラムは、たと
えば、CD等の記憶媒体に格納されて提供される。
【0034】図2は、音声翻訳処理装置10の詳細な構
成と、複数の話者依存データ管理サーバ30に保持され
ている話者依存データ群を示している。
【0035】音声翻訳処理装置10は、原言語の入力音
声をテキストに変換する音声認識処理部11、音声認識
処理部11によって得られた原言語のテキストを目的言
語のテキストに変換する言語翻訳処理部12、言語翻訳
処理部12によって得られた目的言語のテキストを目的
言語音声に変換する音声合成処理部13および話者依存
データ取得部14から構成されている。
【0036】図2の破線300は、全ての話者依存デー
タ管理サーバ30の集合体(以下、話者依存データ管理
サーバ群という)を仮想的に示している。話者依存デー
タには、音声認識処理部11で用いられる音響モデルお
よび言語モデル(音声認識処理用話者依存データ)、言
語翻訳処理部12で用いられる言語翻訳モデル(言語翻
訳処理用話者依存データ)ならびに音声合成処理部13
で用いられる音声合成単位データ(音声合成処理用話者
依存データ)がある。話者依存データは、個々の話者
毎、または特徴クラスタリングされた話者クラスタ毎に
作成される。ここでは、個々の話者毎に、話者依存デー
タが作成されているものとする。なお、音声認識処理部
11で用いられる単語辞書も、話者依存データに含めて
もよい。
【0037】個々の話者毎に作成された話者依存データ
は、複数の話者依存データ管理サーバ30に分散して保
持されている。複数の話者依存データ管理サーバ30に
話者依存データが重複して保持されていてもよい。
【0038】図3は、音声認識処理部11の一例を示し
ている。図3の音声認識処理部11は、特開平7−29
2685、特開平9−239528等に開示されている
ように、特徴抽出部41、単語照合部42および単語仮
説絞り込み部43を備えている。
【0039】特徴抽出部41は、入力音声に対して例え
ばLPC分析を実行し、対数パワー、16次ケプトラム
係数、Δ対数パワーおよび16次Δケプトラム係数を含
む3次元の特徴パラメータを抽出する。
【0040】単語照合部42は、特徴抽出部41によっ
て抽出された特徴パラメータに基づき、例えば、ワンパ
ス・ビタビ復号化法により、音響モデル44と単語辞書
45とを用いて単語仮説を検出し、尤度を計算して出力
する。単語照合部42からは、単語仮説と尤度との情報
が、発声開始時刻からの時間情報とともに出力される。
【0041】単語仮説絞り込み部43は、単語照合部4
2から得られる単語仮説に基づいて、言語モデル46を
参照して、終了時刻が等しく開始時刻が異なる同一の単
語の単語仮説に対して、当該単語の先頭音素環境毎に、
発声開始時刻から当該単語の終了時刻に至る計算された
総尤度のうちの最も高い尤度を有する1つの単語仮説で
代表させるように単語仮説の絞り込みを行なった後、絞
り込み後のすべての単語仮説の単語列のうち、最大の総
尤度を有する仮説の単語列を認識結果として出力する。
【0042】なお、音響モデル44および言語モデル4
6は、後述するように話者依存データ取得部14によっ
て話者依存データ管理サーバ30から取得される。
【0043】音響モデルとは、各音素(または前後の音
素環境を考慮した音素)毎に特徴パラメータの時系列的
なパターンをモデル化したものをいう。この実施の形態
では、HMM(Lowrence Rabiner,Biing-Hwang Juang
共著, 音声認識の基礎(下),第六章,NTT アドバンス
テクノロジ,1995 年参照) でモデル化する。
【0044】また、言語モデルとは、単語列としての確
からしさをモデル化したものをいう。この実施の形態で
は、N-gram(北 研二、中村 哲、永田 昌明 共著、
音声言語処理、2.4節、森北出版株式会社、1996
年)を用いる。また、単語辞書とは、音素列と単語を関
係づけた表をいう。
【0045】図4は、音声合成処理部13の一例を示し
ている。図4の音声合成処理部13は、音韻情報・韻律
情報抽出部51、音声合成単位選択部52および音声合
成単位接続部53を備えている。
【0046】音韻情報・韻律情報抽出部51は、入力さ
れたテキストから音韻情報および韻律情報を抽出する。
音声合成単位選択部52は、音韻情報・韻律情報抽出部
51によって抽出された音韻情報および韻律情報に基づ
いて、所定の音声合成単位データベース54から、音韻
記号列に相当する音声合成単位を選択する。音声合成単
位データベース54は、後述するように話者依存データ
取得部14によって話者依存データ管理サーバ30から
取得される。音声合成単位接続部53は、音韻情報・韻
律情報抽出部51によって抽出された韻律情報に基づい
て、音声合成単位選択部52によって選択された音声合
成単位を接続する。
【0047】なお、音声合成単位データベースとは、音
声合成単位接続部で接続する単位を集めたデータベース
をいい、この実施の形態では、前後の音素環境を考慮し
た音素単位の波形データを音声合成単位として用いる。
音声合成単位接続部53は、韻律情報に応じて必要なら
ば音声合成単位のピッチを変更してから接続する。
【0048】この他にも、波形データそのものではな
く、スペクトル包絡をあらわすパラメータ(調音パラメ
ータ)を音声合成単位とする方法も考えられる。この場
合、音声合成単位接続部では、調音フィルターを用いて
韻律情報と調音パラメータから波形データを作成し、そ
れを接続する。
【0049】言語翻訳処理部12としては、例えば、H.
Alshawi et al., Learning Phrase-Based Transductio
n Models for Translation of Spoken Utterances, In
Proc. of ICSLP'98, 1998.の手法に基づく言語翻訳処理
を行なうものが用いられる。この言語翻訳処理は、単語
列を別言語の単語列に変換する言語翻訳モデルに基づく
もので、言語翻訳モデルとして確率的ヘッドトランスデ
ューサを用いている。この確率的ヘッドトランスデュー
サは、あらかじめ用意された対訳コーパスから自動的に
学習される。この言語翻訳手法で用いる言語翻訳モデル
は、従来の手法における言語解析規則、トランスファー
規則、言語生成規則を統合したものであると捉えること
ができる。
【0050】この例では、ある原言語、たとえば、日本
語を喋る話者Aが、他の目的言語、例えば英語を喋る話
者Bに電話をする際に、話者Aが発声した原言語を目的
言語に翻訳して話者Bに伝える場合を想定して、音声翻
訳処理システムの動作について説明する。話者Aが発声
した原言語音声は電話器100を介して言語翻訳処理装
置10に入力され、言語翻訳処理装置10によって得ら
れた翻訳後の目的言語音声が電話器200に送られるも
のとする。
【0051】話者Aは、自己を特定するIDを音声翻訳
処理装置10に入力する。また、話者Aは、合成音声の
音質として、自己以外の特定の話者の音質を選択したい
場合には、その特定の話者のIDを入力する。IDとし
ては、この例では、電話番号が用いられる。
【0052】話者依存データ取得部14は、話者Aを特
定するIDに基づいて、音声認識処理部11で用いる最
適な話者依存データ(音響モデルおよび言語モデル)お
よび言語翻訳処理部12で用いる最適な話者依存データ
(言語翻訳モデル)を、ネットワーク20を介して話者
依存データ管理サーバ30から検索して、取得する。ま
た、話者依存データ取得部14は、合成音声の音質とし
て特に指定がない場合には、話者Aを特定するIDに基
づいて、音声合成処理部13で用いる最適な話者依存デ
ータ(音声単位データベース)を、ネットワーク20を
介して話者依存データ管理サーバ30から検索して、取
得する。つまり、話者Aに対応した音響モデル、言語モ
デル、言語翻訳モデルおよび音声単位データベースを検
索して取得する。
【0053】なお、合成音声の声質として話者Aと異な
る特定の話者のIDが指定された場合には、話者依存デ
ータ取得部14は、指定された特定の話者のIDに基づ
いて、音声合成処理部13で用いる最適な話者依存デー
タ(音声単位データベース)を、ネットワーク20を介
して話者依存データ管理サーバ30から検索して、取得
する。
【0054】この後、話者Aの原言語音声が電話器10
0から音声翻訳処理装置10に送られてくると、音声認
識処理部11は、話者依存データ取得部14によって取
得された話者Aに対応した音響モデルおよび言語モデル
を用いて音声認識処理を行なうことにより、入力された
原言語音声に対応するテキストを得る。
【0055】音声認識処理部11によって得られた原言
語のテキストは、言語翻訳処理部12に送られる。言語
翻訳処理部12は、話者依存データ取得部14によって
取得された話者Aに対応した言語翻訳モデルを用いて言
語翻訳処理を行なうことにより、原言語のテキストを目
的言語のテキストに変換する。
【0056】言語翻訳処理部12によって得られた目的
言語のテキストは、音声合成処理部13に送られる。音
声合成処理部13は、話者依存データ取得部14によっ
て取得された単位音声データデータベース(話者Aまた
は話者Aによって指定された特定の話者の単位音声デー
タデータベース)を用いて音声合成処理を行うことによ
り、目的言語のテキストを目的言語音声に変換して出力
する。
【0057】上記は、話者Aによって入力された原言語
音声を目的言語音声に変換して話者Bに伝える場合につ
いて説明したが、話者Bによって入力された原言語音声
を目的言語音声に変換して話者Aに伝えることも、同様
に行なうことができる。
【0058】上記実施の形態によれば、話者依存データ
を、ネットワークに接続された世界中の話者依存データ
管理サーバから検索することができる。このため、個々
の音声翻訳処理装置は、膨大な数の話者に対応する話者
依存データを利用することができるようになる。
【0059】話者依存データを重複して複数の話者デー
タ管理サーバに分散して保持させることによって、シス
テムの信頼性を向上させることが可能となる。
【0060】また、音声認識処理で用いる音響モデルお
よび言語モデル、言語翻訳処理で用いる言語翻訳モデル
ならびに音声合成処理で用いる音声単位データとして、
原言語音声を入力する話者に対応するものを用いること
によって、異なった言語でありながら、原言語音声を入
力する話者と同じ特徴を持った目的言語音声を生成する
ことが可能となる。
【0061】音声認識処理で用いる音響モデルおよび言
語モデルならびに言語翻訳処理で用いる言語翻訳モデル
として原言語音声を入力する話者に対応するものを用
い、音声合成処理で用いる音声単位データとして原言語
音声を入力する話者と異なる特定の話者に対応するもの
を選択することによって、原言語音声を入力する話者と
異なる声質の目的言語音声を生成することが可能とな
る。
【0062】なお、言語の種類を替えずに声質のみ変換
する場合には、言語翻訳処理部12は不要となる。
【0063】上記実施の形態では、音声翻訳処理システ
ムについて説明したが、この発明は、音声認識処理シス
テム、音声合成処理システム、音声変換処理システム等
の音声処理システムにも適用することができる。
【0064】また、上記実施の形態では、話者別の話者
依存データを音声翻訳処理装置等の音声処理装置が話者
依存データ管理サーバから話者依存データを取得し、取
得した話者依存データを用いて音声処理を行なう場合に
ついて説明したが、複数種類のタスク依存データをタス
ク依存データ管理サーバに分散して保持させておき、音
声処理装置がタスク依存データ管理サーバからタスク依
存データを取得し、取得したタスク依存データを用いて
音声処理を行なうようにしてもよい。
【0065】
【発明の効果】この発明によれば、膨大な数の話者依存
データを、個々の音声処理装置が管理することなく、適
時利用することができるようになる。また、この発明に
よれば、膨大な数のタスク依存データを、個々の音声処
理装置が管理することなく、適時利用することができる
ようになる。
【図面の簡単な説明】
【図1】音声翻訳処理システムの概略構成を示すブロッ
ク図である。
【図2】音声翻訳処理装置10の詳細な構成と、複数の
話者依存データ管理サーバ30に保持されている話者依
存データ群を示すブロック図である。
【図3】音声認識処理部の構成を示すブロック図であ
る。
【図4】音声合成処理部の構成を示すブロック図であ
る。
【符号の説明】
10 音声翻訳処理装置 11 音声認識処理部 12 言語翻訳処理部 13 音声合成処理部 14 話者依存データ取得部 20 ネットワーク 30 話者依存データ管理サーバ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/18 G10L 3/00 531K 15/00 537Z 15/22 551C 561D (72)発明者 ハラルド・シンガー 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 ライナー・グルーン 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 内藤 正樹 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 中村 篤 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 Fターム(参考) 5B091 AA03 AA15 CB12 CB32 5D015 GG06 HH14 HH16 KK02 KK04 LL06 LL12 5D045 AA07 AB03

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 予め発声された音声データに基づいて作
    成された話者に依存する話者依存データを用いて音声処
    理を行なう音声処理装置、および複数の話者依存データ
    を保持する1または複数の話者依存データ管理サーバと
    を備えており、 音声処理装置は、話者依存データ管理サーバから必要な
    話者依存データを取得する手段を備えていることを特徴
    とする音声処理システム。
  2. 【請求項2】 音声処理装置が音声認識処理装置であ
    り、話者依存データが音響モデルおよび/または言語モ
    デルである請求項1に記載の音声処理システム。
  3. 【請求項3】 音声処理装置が音声合成処理装置であ
    り、話者依存データが音声合成単位である請求項1に記
    載の音声処理システム。
  4. 【請求項4】 音声処理装置が、入力音声をテキストに
    変換する音声認識処理部および音声認識処理部によって
    得られたテキストを入力音声と異なる声質の音声に変換
    する音声合成処理部を備えた音声変換処理装置であり、
    話者依存データが音声認識処理部で用いられる音響モデ
    ルおよび/または言語モデルと、音声合成処理部で用い
    られる音声合成単位とである請求項1に記載の音声処理
    システム。
  5. 【請求項5】 音声処理装置が入力言語音声をテキスト
    に変換する音声認識処理部、音声認識処理部によって得
    られたテキストを目的言語のテキストに変換する言語翻
    訳処理部および言語翻訳処理部によって得られた目的言
    語のテキストを目的言語音声に変換する音声合成処理部
    を備えた音声翻訳処理装置であり、話者依存データが音
    声認識処理部で用いられる音響モデルおよび/または言
    語モデルと、言語翻訳処理部で用いられる翻訳モデル
    と、音声合成処理部で用いられる音声合成単位とである
    請求項1に記載の音声処理システム。
  6. 【請求項6】 予め発声された音声データに基づいて作
    成されかつタスク別に分けられたタスク依存データを用
    いて音声処理を行なう音声処理装置、および複数のタス
    ク依存データを保持する1または複数のタスク依存デー
    タ管理サーバとを備えており、音声処理装置は、タスク
    依存データ管理サーバから必要なタスク依存データを取
    得する手段を備えていることを特徴とする音声処理シス
    テム。
  7. 【請求項7】 音声処理装置が音声認識処理装置であ
    り、タスク依存データが音響モデルおよび/または言語
    モデルである請求項6に記載の音声処理システム。
  8. 【請求項8】 音声処理装置が音声合成処理装置であ
    り、タスク依存データが音声合成単位である請求項6に
    記載の音声処理システム。
  9. 【請求項9】 音声処理装置が、入力音声をテキストに
    変換する音声認識処理部および音声認識処理部によって
    得られたテキストを入力音声と異なる声質の音声に変換
    する音声合成処理部を備えた音声変換処理装置であり、
    タスク依存データが音声認識処理部で用いられる音響モ
    デルおよび/または言語モデルと、音声合成処理部で用
    いられる音声合成単位とである請求項6に記載の音声処
    理システム。
  10. 【請求項10】 音声処理装置が入力言語音声をテキス
    トに変換する音声認識処理部、音声認識処理部によって
    得られたテキストを目的言語のテキストに変換する言語
    翻訳処理部および言語翻訳処理部によって得られた目的
    言語のテキストを目的言語音声に変換する音声合成処理
    部を備えた音声翻訳処理装置であり、タスク依存データ
    が音声認識処理部で用いられる音響モデルおよび/また
    は言語モデルと、言語翻訳処理部で用いられる翻訳モデ
    ルと、音声合成処理部で用いられる音声合成単位とであ
    る請求項6に記載の音声処理システム。
  11. 【請求項11】 予め発声された音声データに基づいて
    作成された話者に依存する話者依存データを用いて所定
    の音声処理を行なうための音声処理プログラムを記録し
    たコンピュータ読み取り可能な記録媒体であって、複数
    の話者依存データを保持する1または複数の話者依存デ
    ータ管理サーバから、必要な話者依存データを取得する
    ステップ、および取得した話者依存データを用いて、上
    記所定の音声処理を行なうステップ、をコンピュータに
    実行させるための音声処理プログラムを記憶したコンピ
    ュータ読み取り可能な記録媒体。
  12. 【請求項12】 予め発声された音声データに基づいて
    作成されかつタスク別に分けられたタスク依存データを
    用いて所定の音声処理を行なうための音声処理プログラ
    ムを記録したコンピュータ読み取り可能な記録媒体であ
    って、複数のタスク依存データを保持する1または複数
    のタスク依存データ管理サーバから、必要なタスク依存
    データを取得するステップ、および取得したタスク依存
    データを用いて、上記所定の音声処理を行なうステッ
    プ、をコンピュータに実行させるための音声処理プログ
    ラムを記憶したコンピュータ読み取り可能な記録媒体。
JP2000030807A 2000-02-08 2000-02-08 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体 Pending JP2001222292A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000030807A JP2001222292A (ja) 2000-02-08 2000-02-08 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000030807A JP2001222292A (ja) 2000-02-08 2000-02-08 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2001222292A true JP2001222292A (ja) 2001-08-17

Family

ID=18555775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000030807A Pending JP2001222292A (ja) 2000-02-08 2000-02-08 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2001222292A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003085640A1 (fr) * 2002-04-04 2003-10-16 Nec Corporation Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
US7313522B2 (en) 2001-11-02 2007-12-25 Nec Corporation Voice synthesis system and method that performs voice synthesis of text data provided by a portable terminal

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7313522B2 (en) 2001-11-02 2007-12-25 Nec Corporation Voice synthesis system and method that performs voice synthesis of text data provided by a portable terminal
WO2003085640A1 (fr) * 2002-04-04 2003-10-16 Nec Corporation Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法

Similar Documents

Publication Publication Date Title
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
JP3994368B2 (ja) 情報処理装置および情報処理方法、並びに記録媒体
CN101326572B (zh) 具有巨大词汇量的语音识别系统
Reddy et al. A model and a system for machine recognition of speech
CA2437620C (en) Hierarchichal language models
US7231019B2 (en) Automatic identification of telephone callers based on voice characteristics
US7472061B1 (en) Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
KR20010108413A (ko) 상보적인 언어 모델들을 이용한 인식 엔진들
Gaurav et al. Development of application specific continuous speech recognition system in Hindi
Chodroff Corpus phonetics tutorial
Ronzhin et al. Survey of russian speech recognition systems
Bai et al. Syllable-based Chinese text/spoken document retrieval using text/speech queries
JP2001222292A (ja) 音声処理システムおよび音声処理プログラムを記憶したコンピュータ読み取り可能な記録媒体
Rebai et al. Linto platform: A smart open voice assistant for business environments
Tamburini Playing with NeMo for building an automatic speech recogniser for Italian
Liao et al. Towards the Development of Automatic Speech Recognition for Bikol and Kapampangan
US20030216921A1 (en) Method and system for limited domain text to speech (TTS) processing
JP2001117921A (ja) 翻訳装置および翻訳方法、並びに記録媒体
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries
Martens et al. Word Segmentation in the Spoken Dutch Corpus.
Kukoyi et al. Voice Information Retrieval In Collaborative Information Seeking
JP2002312369A (ja) 音声コンテンツ検索システム及び情報処理装置とそれらの方法
JP2001222530A (ja) 音声翻訳処理システムおよび音声翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体