JP2001343993A

JP2001343993A - 対話システムにおける音声認識方法、対話システムおよび対話プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2001343993A
Application number: JP2000160238A
Authority: JP
Inventors: Hiroshi Yamamoto; 博史山本; Koichi Tanigaki; 宏一谷垣; Yoshinori Kosaka; 芳典匂坂
Original assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Current assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Priority date: 2000-05-30
Filing date: 2000-05-30
Publication date: 2001-12-14

Abstract

(57)【要約】【課題】この発明は、相手話者の前発話の内容に依存
した言語モデルを使用することによって音声認識を行な
う際に相手話者の前発話の内容の抽出が容易となる、対
話システムにおける音声認識方法、対話システムおよび
対話プログラムを記録したコンピュータ読み取り可能な
記録媒体を提供することを目的とする。【解決手段】中間言語表現を使用した対話システムに
おける音声認識方法であって、相手話者の前発話の中間
言語表現のタグに依存したタグ依存の言語モデルを作成
しておき、相手話者の前発話に対する中間言語表現のタ
グとタグ依存の言語モデルとを用いて自己話者の次発話
の音声認識を行なう。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、対話システムに
おける音声認識方法、対話システムおよび対話プログラ
ムを記録したコンピュータ読み取り可能な記録媒体に関
する。

【０００２】

【従来の技術】対話に於ける発話内容は、相手話者の前
発話の内容に強く影響されると考えられる。したがっ
て、相手話者の前発話の内容に依存した言語モデルを使
用することによって認識率の向上が期待できる。

【０００３】相手話者の前発話の内容に依存した言語モ
デルを作成するためには、まず発話の内容をモデル化す
る必要がある。モデル化の例としては発話間の内容語の
共起関係と文末形式を利用したものがある（文献１参
照）。しかしながら、この方法では発話の内容の抽出を
認識とは別に行う必要がある。

【０００４】文献１：岩本秀明, 妹尾生身, 荒川直哉,
横尾昭男, 森元遙発話状況に基づく音声認識候補の再
順序付け. 言語処理学会第４回年次大会（１９９
７）．

【０００５】

【発明が解決しようとする課題】この発明は、相手話者
の前発話の内容に依存した言語モデルを使用することに
よって音声認識を行なう際に相手話者の前発話の内容の
抽出が容易となる、対話システムにおける音声認識方
法、対話システムおよび対話プログラムを記録したコン
ピュータ読み取り可能な記録媒体を提供することを目的
とする。

【０００６】

【課題を解決するための手段】この発明は、中間言語表
現を使用した対話システムにおける音声認識方法であっ
て、相手話者の前発話の中間言語表現のタグに依存した
タグ依存の言語モデルを作成しておき、相手話者の前発
話に対する中間言語表現のタグとタグ依存の言語モデル
とを用いて自己話者の次発話の音声認識を行なうことを
特徴とする。

【０００７】この発明は、中間言語表現を使用した対話
システムにおける音声認識方法であって、相手話者の前
発話の中間言語表現のタグに依存したタグ依存の言語モ
デルを作成しておき、相手話者の前発話に対する中間言
語表現のタグとタグ依存の言語モデルとを用いて自己話
者の次発話の音声認識を行なうとともに中間言語表現の
タグに依存しないタグ非依存の言語モデルを用いて自己
話者の次発話の音声認識を行ない、両音声認識結果のう
ち高い尤度を示す方を音声認識結果として採用するよう
にしたことを特徴とする。

【０００８】この発明は、第１話者によって入力される
第１言語の音声を第２言語の合成音声に変換して第２話
者に伝達する第１の音声翻訳装置、および第２話者によ
って入力される第２言語の音声を第１言語の合成音声に
変換して第１話者に伝達する第２の音声翻訳装置を備え
た対話システムにおいて、各音声翻訳装置は、入力音声
をテキストに変換する音声認識手段、音声認識手段によ
って生成されたテキストに基づいて中間言語表現のタグ
を生成する中間言語生成手段、および中間言語生成手段
によって生成された中間言語表現のタグに基づいて翻訳
および音声合成処理を行なう翻訳・音声合成手段を備え
ており、各音声翻訳装置内の音声認識手段は、他方の音
声翻訳装置内の中間言語生成手段によって生成された相
手話者の前発話に対する中間言語表現のタグと、相手話
者の前発話の中間言語表現のタグに依存したタグ依存の
言語モデルとを用いて、自己話者の次発話の音声認識を
行なうものであることを特徴とする。

【０００９】この発明は、第１話者によって入力される
第１言語の音声を第２言語の合成音声に変換して第２話
者に伝達する第１の音声翻訳装置、および第２話者によ
って入力される第２言語の音声を第１言語の合成音声に
変換して第１話者に伝達する第２の音声翻訳装置を備え
た対話システムにおいて、各音声翻訳装置は、入力音声
をテキストに変換する音声認識手段、音声認識手段によ
って生成されたテキストに基づいて中間言語表現のタグ
を生成する中間言語生成手段、および中間言語生成手段
によって生成された中間言語表現のタグに基づいて翻訳
および音声合成処理を行なう翻訳・音声合成手段を備え
ており、各音声翻訳装置内の音声認識手段は、他方の音
声翻訳装置内の中間言語生成手段によって生成された相
手話者の前発話に対する中間言語表現のタグと、相手話
者の前発話の中間言語表現のタグに依存したタグ依存の
言語モデルとを用いて、自己話者の次発話の音声認識を
行なうとともに、中間言語表現のタグに依存しないタグ
非依存の言語モデルを用いて自己話者の次発話の音声認
識を行ない、両音声認識結果のうち高い尤度を示す方を
音声認識結果として採用するものであることを特徴とす
る。

【００１０】この発明は、第１話者によって入力される
第１言語の音声を第２言語の合成音声に変換して第２話
者に伝達する第１の音声翻訳プログラム、および第２話
者によって入力される第２言語の音声を第１言語の合成
音声に変換して第１話者に伝達する第２の音声翻訳プロ
グラムを含む対話プログラムを記録したコンピュータ読
み取り可能な記録媒体において、各音声翻訳プログラム
は、入力音声をテキストに変換する音声認識プログラ
ム、音声認識プログラムによって生成されたテキストに
基づいて中間言語表現のタグを生成する中間言語生成プ
ログラム、および中間言語生成手段によって生成された
中間言語表現のタグに基づいて翻訳および音声合成処理
を行なう翻訳・音声合成プログラムを含んでおり、各音
声翻訳プログラム内の音声認識プログラムは、他方の音
声翻訳プログラム内の中間言語生成プログラムによって
生成された相手話者の前発話に対する中間言語表現のタ
グと、相手話者の前発話の中間言語表現のタグに依存し
たタグ依存の言語モデルとを用いて、自己話者の次発話
の音声認識を行なうものであることを特徴とする。

【００１１】

【発明の実施の形態】以下、この発明の実施の形態につ
いて説明する。

【００１２】〔１〕本願発明の考え方の説明

【００１３】本願発明では、音声翻訳装置を前提とし、
翻訳のための中間言語表現（文献２参照）をそのまま発
話の内容のモデルとして利用することを提案する。本方
法では発話の内容の抽出は翻訳過程の一部そのものであ
るため、リソースの一元化という観点から望ましい。ま
た、中間言語表現は源言語に依存しないため、異国語間
の対話において言語モデルを何ら変更なしに利用可能で
ある。

【００１４】文献２：Levin, L. et al An interlingua
based on domain actions for machine translation o
f task-oriented dialogues. PROC.ICSLP-98, pp.1155-
1158,(1998).

【００１５】図１は、中間言語表現による発話の内容の
表現例を示している。

【００１６】発話は、慨ね単文相当の意味単位に分割さ
れ、それぞれの意味単位に対し中間言語表現が与えられ
る。発話の内容は、次の３種類のタグを用いて表現され
る。

【００１７】 Speech-Act（以下、ＳＡと略す) ：ア
クションの種類を示すタグである。 Concepts（以下、Ｃｐｔｓと略す) ：何についての
アクションかを示すタグである。 Arguments （以下、Ａｒｇｓと略す) ：上記の何
ついてのアクションかにおける何の具体例を示すタグで
ある。これらのタグはタスクに依存して定義される。

【００１８】この例では、対象ドメインは旅行会話であ
り、これにはホテル予約、フライト予約、交通機関の案
内等のタスクが含まれている。

【００１９】本手法では上記の中間言語表現の３種類の
タグの内ＳＡ，Ｃｐｔｓの２つのみを用いることにす
る。これはＡｒｇｓは種類が多いため種類当たりのデー
タの数が少なすぎるデータスパースの問題が生じるため
と、Ｃｐｔｓによって取り得るＡｒｇｓが限定されるた
め、Ａｒｇｓの持つ情報をＣｐｔｓによってカバーし得
ると考えられるためである。

【００２０】また、一つの発話には複数の意味単位が含
まれる場合があるが、この場合最後の意味単位が最も強
く次発話に影響を与えると仮定し、最後の意味単位のタ
グのみを用いることにする。

【００２１】このモデルを用いた場合、次発話における
単語列の生起確率は次式１で表されることになる。ここ
で、ＳＡ，Ｃｐｔｓは相手話者の前発話の中間言語表現
のタグを表している。

【００２２】

【数１】

【００２３】相手話者の前発話の内容依存の言語モデル
作成のために、まず中間言語表現のタグ依存の言語モデ
ルを作成する。タグ依存の言語モデルはＳＡ，Ｃｐｔｓ
ごとにそれぞれのタグをサブタスクとみなし、タスク適
応（文献３参照）を行うことによって作成する。したが
ってタグ依存の言語モデルはＳＡ，Ｃｐｔｓのタグの種
類と同じだけ作成される。

【００２４】文献３：政瀧浩和, 匂坂芳典, 久木和也,
河原達也最大事後確率推定によるN-gram言語モデルの
タスク適応. 電子情報通信学会論文誌,vol.J81-D-II, p
p. 2519-2525, (1998-11)

【００２５】これらのタグ依存の言語モデルを用いるこ
とによって、発話内容が相手話者の前発話の最後の意味
単位に依存する場合、性能の向上が期待できる。しかし
ながら、次発話の内容は常に前発話の最後の意味単位に
依存するとは限らない。これは話題の変り目であった
り、最後の意味単位以外の意味単位に対する発話であっ
たりする場合が考えられるためである。

【００２６】この様なケースではタグ依存の言語モデル
を用いることは逆に認識性能の劣化につながると考えら
れ、タグ非依存の言語モデルを使用する方が望ましい。
次発話の内容が前発話の最終意味単位に依存するかどう
かは直接的にはわからないが、最後の意味単位に依存す
る場合はタグ依存の言語モデルを用いた方が高い尤度を
示し、そうでない場合はタグ非依存の言語モデルを用い
た方が高い尤度を示すと考えられる。

【００２７】このため認識時にはタグ依存、タグ非依存
双方のモデルを用い、高い尤度を示すモデルを用いた時
の認識結果を採用することにする。この方法では、上記
式１は、次式２で近似されることになる。

【００２８】

【数２】

【００２９】〔２〕第１話者と第２話者とが異なる言語
で対話するのに適した対話システムにこの発明を適用し
た場合の具体例の説明

【００３０】図２は、第１話者と第２話者とが異なる言
語で対話するのに適した対話システムの構成を示してい
る。

【００３１】ここでは、第１話者は第１言語の音声を発
話し、第２話者は第１言語とは異なる第２言語の音声を
発話するものとする。

【００３２】対話システムは、第１話者によって入力さ
れる第１言語の音声を第２言語の合成音声に変換して第
２話者に伝達する第１の音声翻訳装置１０と、第２話者
によって入力される第２言語の音声を第１言語の合成音
声に変換して第１話者に伝達する第２の音声翻訳装置２
０とを備えている。

【００３３】第１の音声翻訳装置１０は、第１話者の音
声波形から特徴量を抽出する特徴量抽出部１１、特徴量
抽出部１１によって抽出された特徴量に基づいて音声認
識処理を行なって第１話者の音声波形を第１言語のテキ
ストに変換する音声認識部１２、音声認識部１２によっ
て生成された第１言語のテキストに基づいて中間言語を
生成する中間言語生成部１３および中間言語生成部１３
によって生成された中間言語から第２言語のテキストを
生成するとともに得られた第２言語のテキストを音声合
成して出力する翻訳・音声合成部１４を備えている。

【００３４】第２の音声翻訳装置２０は、第２話者の音
声波形から特徴量を抽出する特徴量抽出部２１、特徴量
抽出部２１によって抽出された特徴量に基づいて音声認
識処理を行なって第２話者の音声波形を第２言語のテキ
ストに変換する音声認識部２２、音声認識部２２によっ
て生成された第２言語のテキストに基づいて中間言語を
生成する中間言語生成部２３および中間言語生成部２３
によって生成された中間言語から第１言語のテキストを
生成するとともに得られた第１言語のテキストを音声合
成して出力する翻訳・音声合成部２４を備えている。

【００３５】中間言語生成部１３、２３は、上述した３
つのタグＳＡ、Ｃｐｔｓ、Ａｒｇｓを生成する。第１の
音声翻訳装置１０内の中間言語生成部１３は、生成した
３つのタグＳＡ、Ｃｐｔｓ、Ａｒｇｓのうち、２種類の
タグＳＡ，Ｃｐｔｓ（＝ＣＰｔ₁〜ＣＰｔ_i）を第２の
音声翻訳装置２０内の音声認識部２２に送る。

【００３６】第２の音声翻訳装置２０内の音声認識部２
２は、上記数式２に従って、タグ非依存の言語モデルを
用いた音声認識処理と、第１の音声翻訳装置１０内の中
間言語生成部１３から送られてきた各タグＳＡ，ＣＰｔ
₁〜ＣＰｔ_iに依存した言語モデルを用いた音声認識処
理とを行ない、各言語モデルを用いて得られた認識結果
のうち、最も高い尤度を示すものを認識結果として採用
する。

【００３７】同様に、第２の音声翻訳装置２０内の中間
言語生成部２３は、生成した３つのタグＳＡ、Ｃｐｔ
ｓ、Ａｒｇｓのうち、２種類のタグＳＡ，Ｃｐｔｓを第
１の音声翻訳装置１０内の音声認識部１２に送る。第１
の音声翻訳装置１０内の音声認識部１２は、上記数式２
に従って、タグ非依存の言語モデルを用いた音声認識処
理と、第２の音声翻訳装置２０内の中間言語生成部２３
から送られてきた各タグＳＡ，ＣＰｔ₁〜ＣＰｔ_iに依
存した言語モデルを用いた音声認識処理とを行ない、各
言語モデルを用いて得られた認識結果のうち、最も高い
尤度を示すものを認識結果として採用する。

【００３８】〔３〕評価実験

【００３９】提案法の評価を連続単語認識の単語誤認識
率で行った。実験条件は次に示す通りである。・タスク：ホテル予約・訓練セット：１３，０４１発話・評価セット：２，００８発話・音響モデル：男女別環境依存１，４００状態５混合・Ｎ−ｇｒａｍ：単語２−ｇｒａｍ・タグ種類：ＳＡタグ９種類，Ｃｐｔｓタグ１１種類

【００４０】また各発話に対するタグ付けは自動で行っ
ており（文献４参照）、その精度はＳＡ，Ｃｐｔｓ共約
９０％程度である。表１にタグ依存モデルとタグ非依存
モデルを併用した場合の評価結果を示す。

【００４１】文献４： Kouichi Tanigaki,Yoshinori S
agisaka Robust Speech Understanding Based on Word
Graph Interfase. Proc. ESCA IDS-99 Workshop, pp.45
-48,(1999-June).

【００４２】

【表１】

【００４３】表の前半ではタグ依存モデルとして、各Ｓ
Ａタグ依存モデルを一つだけ用いた場合、後半では各Ｃ
ｐｔｓタグ依存モデルを一つだけ用いた場合、最終行で
は上記式２にしたがって全てのタグ依存モデルを用いた
場合、すなわち提案法の結果を示す。表で「非依存」は
タグ非依存単語２−ｇｒａｍを用いた結果を、「依存」
はタグ依存の単語２−ｇｒａｍを用いた結果を、「最
尤」はこれらの内、尤度の高い法を選んだ結果を示す。

【００４４】発話数に関しては、タグの与えられない発
話と（会話の最初の発話とＣｐｔｓタグを伴わないＳＡ
タグがふられた発話の場合）、複数のＣｐｔｓタグが与
えられる発話があるため発話数合計は一致しない。

【００４５】改善率はＣｐｔｓ依存モデルを用いた時の
方が（５％を越えるものが１１タグ中７タグ）ＳＡ依存
モデルより（９タグ中２タグ）も改善率が大きい。これ
はＳＡは主として文末表現等の文形に影響を与えると考
えられ、かつ文末表現は出現頻度自体が高いため、元々
言語尤度が高く認識しやすいためと思われる。したがっ
て、ＳＡの中でも次発話内容全体に影響を与えるような
タグであるintroduce-selfは改善が大きい。

【００４６】

【発明の効果】この発明によれば、相手話者の前発話の
内容に依存した言語モデルを使用することによって音声
認識を行なう際において相手話者の前発話の内容の抽出
が容易となる。

【図面の簡単な説明】

【図１】中間言語表現による発話の内容の表現例を示す
模式図である。

【図２】対話システムの構成を示すブロック図である。

【符号の説明】

１０、２０音声翻訳装置１１、２１特徴量抽出部１２、２２音声認識部１３、２３中間言語生成部１４、２４翻訳・音声合成部

───────────────────────────────────────────────────── フロントページの続き (72)発明者谷垣宏一京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内 (72)発明者匂坂芳典京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内Ｆターム(参考） 5B091 AA03 AA15 BA03 CB12 CB32 EA02 5D015 HH23 KK03 KK04 LL06 LL10

Claims

【特許請求の範囲】

【請求項１】中間言語表現を使用した対話システムに
おける音声認識方法であって、相手話者の前発話の中間言語表現のタグに依存したタグ
依存の言語モデルを作成しておき、相手話者の前発話に
対する中間言語表現のタグとタグ依存の言語モデルとを
用いて自己話者の次発話の音声認識を行なうことを特徴
とする対話システムにおける音声認識方法。
【請求項２】中間言語表現を使用した対話システムに
おける音声認識方法であって、相手話者の前発話の中間言語表現のタグに依存したタグ
依存の言語モデルを作成しておき、相手話者の前発話に
対する中間言語表現のタグとタグ依存の言語モデルとを
用いて自己話者の次発話の音声認識を行なうとともに中
間言語表現のタグに依存しないタグ非依存の言語モデル
を用いて自己話者の次発話の音声認識を行ない、両音声
認識結果のうち高い尤度を示す方を音声認識結果として
採用するようにしたことを特徴とする対話システムにお
ける音声認識方法。
【請求項３】第１話者によって入力される第１言語の
音声を第２言語の合成音声に変換して第２話者に伝達す
る第１の音声翻訳装置、および第２話者によって入力さ
れる第２言語の音声を第１言語の合成音声に変換して第
１話者に伝達する第２の音声翻訳装置を備えた対話シス
テムにおいて、各音声翻訳装置は、入力音声をテキストに変換する音声
認識手段、音声認識手段によって生成されたテキストに
基づいて中間言語表現のタグを生成する中間言語生成手
段、および中間言語生成手段によって生成された中間言
語表現のタグに基づいて翻訳および音声合成処理を行な
う翻訳・音声合成手段を備えており、各音声翻訳装置内の音声認識手段は、他方の音声翻訳装
置内の中間言語生成手段によって生成された相手話者の
前発話に対する中間言語表現のタグと、相手話者の前発
話の中間言語表現のタグに依存したタグ依存の言語モデ
ルとを用いて、自己話者の次発話の音声認識を行なうも
のであることを特徴とする対話システム。
【請求項４】第１話者によって入力される第１言語の
音声を第２言語の合成音声に変換して第２話者に伝達す
る第１の音声翻訳装置、および第２話者によって入力さ
れる第２言語の音声を第１言語の合成音声に変換して第
１話者に伝達する第２の音声翻訳装置を備えた対話シス
テムにおいて、各音声翻訳装置は、入力音声をテキストに変換する音声
認識手段、音声認識手段によって生成されたテキストに
基づいて中間言語表現のタグを生成する中間言語生成手
段、および中間言語生成手段によって生成された中間言
語表現のタグに基づいて翻訳および音声合成処理を行な
う翻訳・音声合成手段を備えており、各音声翻訳装置内の音声認識手段は、他方の音声翻訳装
置内の中間言語生成手段によって生成された相手話者の
前発話に対する中間言語表現のタグと、相手話者の前発
話の中間言語表現のタグに依存したタグ依存の言語モデ
ルとを用いて、自己話者の次発話の音声認識を行なうと
ともに、中間言語表現のタグに依存しないタグ非依存の
言語モデルを用いて自己話者の次発話の音声認識を行な
い、両音声認識結果のうち高い尤度を示す方を音声認識
結果として採用するものであることを特徴とする対話シ
ステム。
【請求項５】第１話者によって入力される第１言語の
音声を第２言語の合成音声に変換して第２話者に伝達す
る第１の音声翻訳プログラム、および第２話者によって
入力される第２言語の音声を第１言語の合成音声に変換
して第１話者に伝達する第２の音声翻訳プログラムを含
む対話プログラムを記録したコンピュータ読み取り可能
な記録媒体において、各音声翻訳プログラムは、入力音声をテキストに変換す
る音声認識プログラム、音声認識プログラムによって生
成されたテキストに基づいて中間言語表現のタグを生成
する中間言語生成プログラム、および中間言語生成手段
によって生成された中間言語表現のタグに基づいて翻訳
および音声合成処理を行なう翻訳・音声合成プログラム
を含んでおり、各音声翻訳プログラム内の音声認識プログラムは、他方
の音声翻訳プログラム内の中間言語生成プログラムによ
って生成された相手話者の前発話に対する中間言語表現
のタグと、相手話者の前発話の中間言語表現のタグに依
存したタグ依存の言語モデルとを用いて、自己話者の次
発話の音声認識を行なうものであることを特徴とする、
対話プログラムを記録したコンピュータ読み取り可能な
記録媒体。