JP2001100781A

JP2001100781A - 音声処理装置および音声処理方法、並びに記録媒体

Info

Publication number: JP2001100781A
Application number: JP27774599A
Authority: JP
Inventors: Hitoshi Honda; 等本田; Masanori Omote; 雅則表; Hiroaki Ogawa; 浩明小川; Hironaga Tsutsumi; 洪長包
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-09-30
Filing date: 1999-09-30
Publication date: 2001-04-13
Also published as: US20050149319A1; US6879956B1; EP1089256A2; US7158934B2; US20050149318A1; US7236922B2; EP1089256A3

Abstract

(57)【要約】【課題】音声認識に用いるモデルの適応を、ユーザに
負担をかけることなく、かつ精度良く行う。【解決手段】音声認識部１では、そこに入力される音
声が、例えば、ＨＭＭ(Hidden Markov Model)等のモデ
ルに基づいて音声認識され、その音声認識結果が、対話
管理部５に供給される。対話管理部５では、音声認識部
１からの音声認識結果に対する返答が生成される。この
場合において、対話管理部５は、音声認識部１からの音
声認識結果と、その返答とに基づいて、音声認識結果が
正しい音声区間を検出し、その音声区間を、音声認識部
１にフィードバックする。音声認識部１では、対話管理
部５からフィードバックされる音声区間の音声と、その
音声認識結果に基づいて、モデルのオンライン適応が行
われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声処理装置およ
び音声処理方法、並びに記録媒体に関し、特に、例え
ば、音声認識に用いるモデルの適応を、容易かつ高精度
に行うこと等ができるようにする音声処理装置および音
声処理方法、並びに記録媒体に関する。

【０００２】

【従来の技術】音声認識のアルゴリズムとしては、例え
ば、ＨＭＭ(Hidden Markov Model)法などの、入力され
た音声（入力音声）を、モデルを用いて認識するものが
知られている。即ち、ＨＭＭ法では、あらかじめ学習に
よって、遷移確率（ある状態から、他の状態に遷移する
確率）や、出力確率（状態が遷移するときに、あるシン
ボルが出力される確率）で規定されるモデル（ＨＭＭ）
が求められ、そのモデルを用いて、入力音声が認識され
る。

【０００３】ところで、音声認識を行う場合において、
その認識精度を向上させるために、入力音声を用いて、
逐次的に、モデルの適応を行うオンライン適応処理が知
られている。オンライン適応処理によれば、話者の発話
量に応じて段階的に音響モデルの高精度化や、言語モデ
ルのタスク適応化等を図ることができ、従って、オンラ
イン適応処理は、認識率を向上させるために、非常に有
効な手段の１つである。

【０００４】

【発明が解決しようとする課題】モデルの適応化の方法
は、いわゆる教師として、真の正解を与えて行われる
「教師あり」の方法と、教師として、正解であると推測
されるデータ（従って、正解かどうかは分からないデー
タ）を与えて行われる「教師なし」の方法の２種類に大
別される。

【０００５】従来、「教師なし」の方法としては、例え
ば、特開平１１−８５１８４号公報に記載されているも
の等があり、音声認識装置において、その音声認識結果
を教師として、入力音声を用いて、モデルの適応が行わ
れる。従って、従来の「教師なし」の方法では、モデル
の適応において、音声認識結果が正しいかどうかを、ユ
ーザに確認しないため、ユーザの負担が少ない反面、教
師として使用されるデータの信頼性が十分でないことが
あり、モデルが話者に対して十分に適応しないことがあ
る。

【０００６】一方、「教師あり」の方法としては、例え
ば、Q. Huo et al., "A study of on-line Quasi-Bayes
adaptation for DCHMM-bases speech recognition", P
roceedings of International Conference on Acoustic
s, Speech and Signal Processing 1996, pp.705-708に
記載されているもの等があり、音声認識装置において、
ユーザに対して、一定の発話を要求し、その要求によっ
て得られるユーザの発話を用いて、モデルの適応が行わ
れる。あるいは、また、音声認識装置において、音声認
識結果が正しい（正解である）かどうかの確認を、ユー
ザにしてもらい、正しいことが確認された音声認識結果
を用いて、モデルの適応が行われる。

【０００７】しかしながら、ユーザに、一定の発話を要
求してモデルの適応を行う方法は、オンライン適応に不
向きである。また、ユーザに、音声認識結果の確認をし
てもらってモデルの適応を行う方法では、ユーザの負担
が大になる。

【０００８】さらに、モデルの適応を行う方法として
は、例えば、特開平１０−１９８３９５号公報におい
て、言語モデル、あるいは、言語モデルを作成するため
のデータを、特定の分野や話題等のタスク別に用意し、
タスク別の言語モデル等を組み合わせて、高精度のタス
ク適応言語モデルを、オフラインで作成する方法が記載
されているが、この方法によって、オンライン適応を行
う場合には、発話内容のタスクを推定する必要があり、
従って、音声認識装置を単独で用いて行うのは困難であ
る。

【０００９】本発明は、このような状況に鑑みてなされ
たものであり、例えば、音声認識に用いるモデルの適応
を、ユーザに負担をかけることなく、かつ精度良く行う
こと等ができるようにするものである。

【００１０】

【課題を解決するための手段】本発明の音声処理装置
は、自然言語処理手段が、音声認識結果を対象とする自
然言語処理によって得られる情報を、音声認識手段に対
してフィードバックするフィードバック手段を含み、音
声認識手段が、フィードバック手段からフィードバック
される情報に基づいて処理を行う処理手段を含むことを
特徴とする。

【００１１】音声認識手段には、音声を、モデルを用い
て認識させ、処理手段には、フィードバック手段からフ
ィードバックされる情報に基づいて、モデルの適応を行
わせることができる。

【００１２】フィードバック手段には、モデルの適応に
利用すべき音声認識結果の区間、または利用すべきでな
い音声認識結果の区間のうちの少なくとも一方をフィー
ドバックさせることができる。また、フィードバック手
段には、確からしい音声認識結果をフィードバックさせ
ることができる。さらに、フィードバック手段には、音
声認識結果の信頼性をフィードバックさせることができ
る。また、フォードバック手段には、音声認識結果の内
容が属するタスクをフィードバックさせることができ
る。

【００１３】フィードバック手段には、モデルの適応に
利用すべき音声認識結果の区間、若しくは利用すべきで
ない音声認識結果の区間のうちの少なくとも一方、確か
らしい音声認識結果、音声認識結果の信頼性、または音
声認識結果の内容が属するタスクのうちの１以上をフィ
ードバックさせることができる。

【００１４】本発明の音声処理方法は、自然言語処理ス
テップが、音声認識結果を対象とする自然言語処理によ
って得られる情報を、音声認識ステップに対してフィー
ドバックするフィードバックステップを含み、音声認識
ステップが、フィードバックステップからフィードバッ
クされる情報に基づいて処理を行う処理ステップを含む
ことを特徴とする。

【００１５】本発明の記録媒体は、自然言語処理ステッ
プが、音声認識結果を対象とする自然言語処理によって
得られる情報を、音声認識ステップに対してフィードバ
ックするフィードバックステップを含み、音声認識ステ
ップが、フィードバックステップからフィードバックさ
れる情報に基づいて処理を行う処理ステップを含むこと
を特徴とする。

【００１６】本発明の音声処理装置および音声処理方
法、並びに記録媒体においては、音声認識結果を対象と
する自然言語処理によって得られる情報がフィードバッ
クされ、そのフィードバックされる情報に基づいて処理
が行われる。

【００１７】

【発明の実施の形態】図１は、本発明を適用した音声処
理システム（システムとは、複数の装置が論理的に集合
した物をいい、各構成の装置が同一筐体中にあるか否か
は問わない）の一実施の形態の構成例を示している。

【００１８】この音声処理システムでは、音声が入力さ
れると、その音声に対する返答が出力されたり、また、
その音声の対訳が出力されるようになっている。さら
に、入力された音声に対する返答を、その音声の言語以
外の言語に翻訳して出力することもできるようになって
いる。

【００１９】即ち、音声認識部１には、例えば日本語な
どによる音声が入力されるようになっており、音声認識
部１は、入力された音声を音声認識し、その音声認識結
果としてのテキスト、その他付随する情報を、機械翻訳
部２や、表示部４、対話管理部５などに、必要に応じて
出力する。

【００２０】機械翻訳部２は、音声認識部１が出力する
音声認識結果を解析し、入力された音声の言語以外の、
例えば英語に機械翻訳し、その翻訳結果としてのテキス
ト、その他付随する情報を、音声合成部３や、表示部
４、対話管理部５などに、必要に応じて出力する。音声
合成部３は、機械翻訳部２や対話管理部５などの出力に
基づいて音声合成処理を行い、これにより、入力された
音声に対する返答、あるいはその音声の、他の言語への
翻訳結果としての合成音を出力する。

【００２１】表示部４は、例えば、液晶ディスプレイ等
で構成され、音声認識部１による音声認識結果や、機械
翻訳部２による機械翻訳結果、対話管理部５が生成する
返答等を、必要に応じて表示する。

【００２２】対話管理部５は、音声認識部１の音声認識
結果に対する応答を生成し、機械翻訳部２や、音声合成
部３、表示部４、対話管理部５に、必要に応じて出力す
る。さらに、対話管理部５は、機械翻訳部２の機械翻訳
結果に対する応答を生成し、音声合成部３や、表示部４
に、必要に応じて出力する。

【００２３】以上のように構成される音声処理システム
において、入力された音声に対する返答を出力する場合
には、まず、その入力された音声が、音声認識部１で音
声認識され、対話管理部５に出力される。対話管理部５
では、音声認識部１による音声認識結果に対する応答が
生成され、音声合成部３に供給される。音声合成部３で
は、対話管理部５からの応答に対応する合成音が生成さ
れて出力される。

【００２４】また、入力された音声の対訳を出力する場
合には、その入力された音声が、音声認識部１で音声認
識され、機械翻訳部２に供給される。機械翻訳部２で
は、音声認識部１による音声認識結果が機械翻訳され、
音声合成部３に供給される。音声合成部３では、機械翻
訳部２からの翻訳結果に対応する合成音が生成されて出
力される。

【００２５】さらに、入力された音声に対する返答を、
その音声の言語以外の言語に翻訳して出力する場合に
は、まず、その入力された音声が、音声認識部１で音声
認識され、対話管理部５に出力される。対話管理部５で
は、音声認識部１による音声認識結果に対する返答が生
成され、機械翻訳部２に供給される。機械翻訳部２で
は、対話管理部５からの返答が機械翻訳され、音声合成
部３に供給される。音声合成部３では、機械翻訳部２か
らの翻訳結果に対応する合成音が生成されて出力され
る。

【００２６】なお、入力された音声に対する返答を、そ
の音声の言語以外の言語に翻訳して出力する場合には、
音声認識部１による音声認識結果を、機械翻訳部２で機
械翻訳し、その翻訳結果に対する応答を、対話管理部５
で生成し、合成音で出力するようにすることも可能であ
る。

【００２７】次に、図１の音声処理システムでは、図２
に示すように、ユーザの発話（入力音声）が、音声認識
部１において音声認識され、その音声認識結果が、機械
翻訳や対話管理等の自然言語処理を行う自然言語処理部
としての機械翻訳部２や対話管理部５で処理されるが、
機械翻訳部２や対話管理部５では、音声認識結果を対象
とする自然言語処理によって得られる情報が、音声認識
部１に対してフィードバックされ、音声認識部１では、
このようにしてフィードバックされる情報（以下、適
宜、フィードバック情報という）に基づいて各種の処理
が行われるようになっている。

【００２８】具体的には、例えば、機械翻訳部２や対話
管理部５では、音声認識部１で用いられるモデルの適応
を行うのに有用な情報がフィードバックされ、音声認識
部１では、その情報に基づいて、モデルの適応が行われ
る。また、例えば、機械翻訳部２や対話管理部５では、
音声認識部１による音声認識結果の自然言語処理を行い
易いように、その構成単位を変更するための情報がフィ
ードバックされ、音声認識部１では、その情報に基づい
て、音声認識結果の構成単位を変更するための処理が行
われる。さらに、例えば、機械翻訳部２や対話管理部５
では、音声認識部１による音声認識結果の誤りを修正等
するための情報がフィードバックされ、音声認識部１で
は、その情報に基づいて、正しい音声認識結果を得るた
めの処理が行われる。

【００２９】次に、図３は、図１の音声認識部１の第１
の構成例を示している。

【００３０】ユーザの発話は、マイク１１に入力され、
マイク１１では、その発話が、電気信号としての音声信
号に変換される。この音声信号は、ＡＤ(Analog Digita
l)変換部１２に供給される。ＡＤ変換部１２では、マイ
ク１１からのアナログ信号である音声信号がサンプリン
グ、量子化され、ディジタル信号である音声データに変
換される。この音声データは、特徴抽出部１３に供給さ
れる。

【００３１】特徴抽出部１３は、ＡＤ変換部１２からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、線形予測係数、ケプストラム係数、線ス
ペクトル対等の特徴パラメータを抽出し、特徴量バッフ
ァ１４およびマッチング部１５に供給する。特徴量バッ
ファ１４では、特徴抽出部１３からの特徴パラメータが
一時記憶される。

【００３２】マッチング部１５は、特徴抽出部１３から
の特徴パラメータ、または特徴量バッファ１４に記憶さ
れた特徴パラメータに基づき、音響モデルデータベース
１６、辞書データベース１７、および文法データベース
１８を必要に応じて参照しながら、マイク１１に入力さ
れた音声（入力音声）を認識する。

【００３３】即ち、音響モデルデータベース１６は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、ＨＭＭ(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス１７は、認識対象の各単語について、その発音に関す
る言語モデルが記述された単語辞書を記憶している。文
法データベース１８は、辞書データベース１７の単語辞
書に登録されている各単語が、どのように連鎖する（つ
ながる）かを記述した文法規則を記憶している。ここ
で、文法規則としては、例えば、文脈自由文法（ＣＦ
Ｇ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）などに
基づく規則を用いることができる。

【００３４】マッチング部１５は、辞書データベース１
７の単語辞書を参照することにより、音響モデルデータ
ベース１６に記憶されている音響モデルを接続すること
で、単語の音響モデル（単語モデル）を構成する。さら
に、マッチング部１５は、幾つかの単語モデルを、文法
データベース１８に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、ＨＭＭ法等
によって、マイク１１に入力された音声を認識する。

【００３５】そして、マッチング部１５による音声認識
結果は、例えば、テキスト等で出力される。

【００３６】一方、適応処理部１９は、マッチング部１
５による音声認識結果を受信しており、例えば、対話管
理部５等から、後述するようなフィードバック情報を受
信すると、そのフィードバック情報に基づいて、マッチ
ング部１５による音声認識結果から、音響モデルデータ
ベース１６の音響モデルや、辞書データベース１７の言
語モデルの適応を行うのに適切なものを得て（精度の良
い適応を行うのに、教師として用いるべき音声認識結果
を得て）、その音声認識結果を教師として、音響モデル
データベース１６の音響モデルや、辞書データベース１
７の言語モデル（以下、適宜、両方含めて、単に、モデ
ルという）のオンライン適応を行う。

【００３７】ここで、例えば、音響モデルとして、ＨＭ
Ｍが採用されている場合には、適応処理部１９では、そ
のＨＭＭを表す遷移確率、あるいは出力確率を規定する
平均値および分散等のモデルのパラメータを、音声認識
結果を用いて変更することで、モデルの適応が行われ
る。

【００３８】次に、図４は、図１の機械翻訳部２の第１
の構成例を示している。

【００３９】テキスト解析部２１には、音声認識部１が
出力する音声認識結果としてのテキストや、対話管理部
５が出力する返答としてのテキストが、機械翻訳の対象
として入力されるようになっており、テキスト解析部２
１は、辞書データベース２４や解析用文法データベース
２５を参照しながら、そのテキストを解析する。

【００４０】即ち、辞書データベース２４には、各単語
の表記や、解析用文法を適用するために必要な品詞情報
などが記述された単語辞書が記憶されている。また、解
析用文法データベース２５には、単語辞書に記述された
各単語の情報に基づいて、単語連鎖に関する制約等が記
述された解析用文法規則が記憶されている。そして、テ
キスト解析部２１は、その単語辞書や解析用文法規則に
基づいて、そこに入力されるテキスト（入力テキスト）
の形態素解析や、構文解析等を行い、その入力テキスト
を構成する単語や構文の情報等の言語情報を抽出する。
ここで、テキスト解析部２１における解析方法として
は、例えば、正規文法や、文脈自由文法、統計的な単語
連鎖確率を用いたものなどがある。

【００４１】テキスト解析部２１で得られた入力テキス
トの解析結果としての言語情報は、言語変換部２２に供
給される。言語変換部２２は、言語変換データベース２
６を参照し、入力テキストの言語の言語情報を、翻訳結
果の言語の言語情報に変換する。

【００４２】即ち、言語変換データベース２６には、入
力言語（言語変換部２２への入力の言語）の言語情報か
ら、出力言語（言語変換部２２からの出力の言語）の言
語情報への変換パターン（テンプレート）や、入力言語
と出力言語との対訳用例およびその対訳用例と入力言語
との間の類似度の計算に用いられるシソーラス等の、言
語情報を変換するための言語変換データが記憶されてい
る。そして、言語変換部２２では、このような言語変換
データに基づいて、入力テキストの言語の言語情報が、
出力言語の言語情報に変換される。

【００４３】言語変換部２２で得られた出力言語の言語
情報は、テキスト生成部２３に供給され、テキスト生成
部２３は、辞書データベース２７および生成用文法デー
タベース２８を参照することにより、出力言語の言語情
報から、入力テキストを出力言語に翻訳したテキストを
生成する。

【００４４】即ち、辞書データベース２７には、出力言
語の文を生成するのに必要な単語の品詞や活用形等の情
報が記述された単語辞書が記憶されており、また、生成
用文法データベース２８には、出力言語の文を生成する
のに必要な単語の活用規則や語順の制約等の生成用文法
規則が記憶されている。そして、テキスト生成部２３
は、これらの単語辞書および生成用文法規則に基づい
て、言語変換部２２からの言語情報を、テキストに変換
して出力する。

【００４５】次に、図５は、図１の音声合成部３の構成
例を示している。

【００４６】テキスト解析部３１には、機械翻訳部２が
出力する翻訳結果としてのテキストや、対話管理部５が
出力する返答としてのテキストが、音声合成処理の対象
として入力されるようになっており、テキスト解析部３
１は、辞書データベース３４や解析用文法データベース
３５を参照しながら、そのテキストを解析する。

【００４７】即ち、辞書データベース３４には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、また、解析用文法データベ
ース３５には、辞書データベース３４の単語辞書に記述
された単語について、単語連鎖に関する制約等の解析用
文法規則が記憶されている。そして、テキスト解析部３
１は、この単語辞書および解析用文法規則に基づいて、
そこに入力されるテキストの形態素解析や構文解析等の
解析を行い、後段の規則合成部３２で行われる規則音声
合成に必要な情報を抽出する。ここで、規則音声合成に
必要な情報としては、例えば、ポーズの位置や、アクセ
ントおよびイントネーションを制御するための情報その
他の韻律情報や、各単語の発音等の音韻情報などがあ
る。

【００４８】テキスト解析部３１で得られた情報は、規
則合成部３２に供給され、規則合成部３２では、音素片
データベース３６を用いて、テキスト解析部３１に入力
されたテキストに対応する合成音の音声データ（ディジ
タルデータ）が生成される。

【００４９】即ち、音素片データベース３６には、例え
ば、ＣＶ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の形
で音素片データが記憶されており、規則合成部３２は、
テキスト解析部３１からの情報に基づいて、必要な音素
片データを接続し、さらに、ポーズ、アクセント、イン
トネーション等を適切に付加することで、テキスト解析
部３１に入力されたテキストに対応する合成音の音声デ
ータを生成する。

【００５０】この音声データは、ＤＡ変換部３３に供給
され、そこで、アナログ信号としての音声信号に変換さ
れる。この音声信号は、図示せぬスピーカに供給され、
これにより、テキスト解析部３１に入力されたテキスト
に対応する合成音が出力される。

【００５１】次に、図６は、図１の対話管理部５の第１
の構成例を示している。

【００５２】例えば、音声認識部１による音声認識結果
は、対話処理部４１および音声区間検出部４２に供給さ
れるようになっており、対話処理部４１は、その音声認
識結果に対する返答を生成して出力する。一方、音声区
間検出部４２は、対話処理部４１が出力する返答を監視
しており、その返答に基づいて、音声認識部１が出力す
る音声認識結果の区間から、モデルの適応に利用すべき
部分の区間（以下、適宜、適応用区間という）を検出
し、その適応用区間を、フィードバック情報として、音
声認識部１（の適応処理部１９）にフィードバックす
る。

【００５３】なお、ここでは、音声区間検出部４２にお
いて、モデルの適応に利用すべき音声認識結果の区間
を、フィードバック情報として、音声認識部１にフィー
ドバックするようにしたが、その他、例えば、モデルの
適応に利用すべきでない音声認識結果の区間や、モデル
の適応に利用すべき音声認識結果の区間と、利用すべき
でない音声認識結果の区間の両方をフィードバックする
ようにしても良い。

【００５４】次に、図７のフローチャートを参照して、
音声認識部１が図３に示したように、対話管理部５が図
６に示したように、それぞれ構成される場合の、図１の
音声処理システムの動作について説明する。

【００５５】ユーザが発話を行い、音声認識部１に対し
て、そのユーザの発話である音声が入力されると、音声
認識部１では、ステップＳ１において、その音声が音声
認識され、その音声認識結果としてのテキストが、例え
ば、対話管理部５に出力される。

【００５６】対話管理部５では、ステップ２において、
対話処理部４１が、音声認識部１からの音声認識結果に
対する返答を生成する対話処理を行い、その返答を出力
する。そして、ステップＳ３に進み、音声区間検出部
４２は、対話処理部４１が出力した返答から、音声認識
部１からの音声認識結果が正しいかどうかを判定する。
ステップＳ３において、音声認識部１からの音声認識結
果が正しくないと判定された場合、ステップＳ４および
Ｓ５をスキップして、処理を終了する。

【００５７】一方、ステップＳ３において、音声認識部
１からの音声認識結果が正しいと判定された場合、音声
区間検出部４２は、音声認識部１からの音声認識結果か
ら、正しい部分を検出し、その部分の区間を、適応用区
間として、音声認識部１（図３）の適応処理部１９に送
信する。

【００５８】適応処理部１９では、ステップＳ５におい
て、マッチング部１５が出力する音声認識結果のうち、
音声区間検出部４２が出力する適応用区間の部分のみを
用いて、モデルの適応が行われ、処理を終了する。

【００５９】以上の処理によれば、音声認識に用いるモ
デルの適応を、ユーザに負担をかけることなく、かつ精
度良く行うことができる。

【００６０】即ち、例えば、いま、図１の音声処理シス
テムと、ユーザとの間で、以下のような、コンサートの
チケットの購入に関する対話が行われたとする。

【００６１】ユーザ：「こんにちは。９月１１日のベルリンフィルのチケットがほしいんだけど。」・・・（１）返答：「９月１１日、ベルリンフィルのチケットですね。Ｓ席からＤ席までありますが、何席に致しましょうか？」・・・（２）ユーザ：「Ｓ席で。」・・・（３）返答：「Ａ席ですね。」・・・（４）ユーザ：「いや、Ｓ席。」・・・（５）返答：「Ｓ席ですね。１階の４列目２４番の席をお取り致します。２万８千円ですが、よろしいでしょうか？」・・・（６）ユーザ：「それでお願い。」・・・（７）返答：「かしこまりました。」・・・（８）

【００６２】（１）乃至（８）の対話において、音声区
間検出部４２では、ユーザの発話（１）、（５）、
（７）の音声認識結果は、それぞれに対する返答
（２）、（６）、（８）から正しいと判定される。一
方、ユーザの発話（３）の音声認識結果は、それに対す
る返答（４）に対して、ユーザが言い直しの発話（５）
を行っているので、誤っていると判定される。

【００６３】この場合、音声区間検出部４２は、ユーザ
の発話（１）、（５）、（７）についての、正しい音声
認識結果の区間を、フィードバック情報として、適応処
理部１９にフィードバックし（誤っていると判定された
ユーザの発話（３）の音声認識結果の区間はフィードバ
ックされない）、その結果、適応処理部１９では、この
正しい音声認識結果の区間だけを用いて、即ち、その正
しい音声認識結果を教師とするとともに、その音声認識
結果に対応する音声区間のユーザの発話を生徒として、
モデルの適応が行われる。

【００６４】従って、誤った音声認識結果を用いずに、
正しい音声認識結果だけを用いて、モデルの適応が行わ
れるので、精度の良い（認識率を向上させるように）、
モデルの適応を行うことができる。さらに、この場合、
ユーザに負担をかけることもない。

【００６５】次に、図８は、図１の対話管理部５の第２
の構成例を示している。なお、図中、図６における場合
と対応する部分については、同一の符号を付してある。
即ち、図８の対話管理部５は、音声区間検出部４２に替
えて、修正部４３が設けられている他は、図６における
場合と同様に構成されている。

【００６６】修正部４３は、対話処理部４１が出力する
返答を監視しており、その返答に基づいて、音声認識部
１が出力する音声認識結果が正しいかどうかを判定し、
正しい場合には、その音声認識結果を、そのままフォー
ドバック情報として、適応処理部１９にフィードバック
する。また、修正部４３は、音声認識部１が出力する音
声認識結果が誤っている場合には、その音声認識結果を
正しく（確からしく）修正し、フォードバック情報とし
て、適応処理部１９にフィードバックする。

【００６７】次に、図９のフローチャートを参照して、
音声認識部１が図３に示したように、対話管理部５が図
８に示したように、それぞれ構成される場合の、図１の
音声処理システムの動作について説明する。

【００６８】ステップＳ１１またはＳ１２では、図７の
ステップＳ１またはＳ２における場合とそれぞれ同様の
処理が行われ、これにより、対話処理部４１から、音声
認識部１による音声認識結果に対する返答が出力され
る。

【００６９】そして、ステップＳ１３に進み、修正部４
３は、対話処理部４１が出力した返答から、音声認識部
１からの音声認識結果が正しいかどうかを判定する。ス
テップＳ１３において、音声認識部１からの音声認識結
果が正しいと判定された場合、ステップＳ１４に進み、
修正部４３は、その正しい音声認識結果を、フィードバ
ック情報として、音声認識部１の適応処理部１９に送信
する。

【００７０】適応処理部１９では、ステップＳ１５にお
いて、修正部４３からのフィードバック情報としての正
しい音声認識結果を用いて、モデルの適応が行われ、処
理を終了する。

【００７１】一方、ステップＳ１３において、音声認識
部１からの音声認識結果が誤っていると判定された場
合、修正部４３は、音声認識部１からの音声認識結果
を、対話処理部４１からの返答に基づいて正しく（確か
らしく）修正し、その修正した音声認識結果を、フィー
ドバック情報として、音声認識部１の適応処理部１９に
送信する。

【００７２】適応処理部１９では、ステップＳ１５にお
いて、修正部４３からの修正後の音声認識結果、即ち、
正しい（確からしい）音声認識結果を用いて、モデルの
適応が行われ、処理を終了する。

【００７３】以上の処理によっても、音声認識に用いる
モデルの適応を、ユーザに負担をかけることなく、かつ
精度良く行うことができる。

【００７４】即ち、例えば、いま、音声処理システムと
ユーザとの間で、上述の（１）乃至（８）の対話が行わ
れたとすると、修正部４３では、ユーザの発話（１）、
（５）、（７）の音声認識結果は、それぞれに対する返
答（２）、（６）、（８）から正しいと判定される。一
方、ユーザの発話（３）の音声認識結果は、それに対す
る返答（４）に対して、ユーザが言い直しの発話（５）
を行っているので、誤っていると判定される。

【００７５】この場合、修正部４３は、ユーザの発話
（１）、（５）、（７）についての正しい音声認識結果
を、そのまま、フィードバック情報として、適応処理部
１９にフィードバックし、適応処理部１９では、この正
しい音声認識結果と、その音声認識結果に対するユーザ
の発話（１）、（５）、（７）とを用いて、モデルの適
応が行われる。

【００７６】さらに、修正部４３は、ユーザの発話
（３）についての誤った音声認識結果を、その後のユー
ザの発話（５）についての正しい音声認識結果に基づい
て修正する。即ち、修正部４３では、ユーザの発話
（３）「Ｓ席で。」に対する返答（４）「Ａ席です
ね。」について、その後のユーザの発話（５）「いや、
Ｓ席で。」の正しい音声認識結果から、ユーザの発話
（３）における「Ｓ」を、「Ａ」に誤認識したことと、
その音声認識結果として、「Ｓ」が正しいこととが解析
される。そして、修正部４３は、その解析結果に基づい
て、ユーザの発話（３）における「Ｓ」を「Ａ」に誤認
識した音声認識結果を正しく修正し、その修正後の音声
認識結果を、フィードバック情報として、適応処理部１
９にフィードバックする。この場合、適応処理部１９で
は、その修正後の音声認識結果と、その音声認識結果に
対するユーザの発話（３）とを用いて、モデルの適応が
行われる。

【００７７】従って、音声認識結果が誤っていても、そ
れを、正しい（確からしい）音声認識結果に修正して、
モデルの適応が行われるので、精度の良い（認識率を向
上させるように）、モデルの適応を行うことができる。
さらに、この場合、ユーザに負担をかけることもない。

【００７８】次に、図１０は、図１の対話管理部５の第
３の構成例を示している。なお、図中、図６における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図１０の対話管理部５は、音声区間検出部４
２に替えて、信頼度計算部４４が設けられている他は、
図６における場合と同様に構成されている。

【００７９】信頼度計算部４４は、対話処理部４１が出
力する返答を監視しており、その返答に基づいて、音声
認識部１が出力する音声認識結果の信頼性を表す信頼度
を算出し、その信頼度を、フォードバック情報として、
適応処理部１９にフィードバックする。

【００８０】次に、図１１のフローチャートを参照し
て、音声認識部１が図３に示したように、対話管理部５
が図１０に示したように、それぞれ構成される場合の、
図１の音声処理システムの動作について説明する。

【００８１】ステップＳ２１またはＳ２２では、図７の
ステップＳ１またはＳ２における場合とそれぞれ同様の
処理が行われ、これにより、対話処理部４１から、音声
認識部１による音声認識結果に対する返答が出力され
る。

【００８２】そして、信頼度計算部４４は、ステップＳ
２３において、対話処理部４１が出力した返答から、音
声認識部１からの音声認識結果の信頼度としての、例え
ば、０乃至１の範囲の実数値を計算し、ステップＳ２４
に進み、その信頼度を、フィードバック情報として、音
声認識部１の適応処理部１９に送信する。

【００８３】適応処理部１９では、ステップＳ２５にお
いて、信頼度計算部４４からのフィードバック情報とし
ての信頼度を用いて、モデルの適応が行われ、処理を終
了する。

【００８４】以上の処理によっても、音声認識に用いる
モデルの適応を、ユーザに負担をかけることなく、かつ
精度良く行うことができる。

【００８５】即ち、例えば、いま、音声処理システムと
ユーザとの間で、上述の（１）乃至（８）の対話が行わ
れたとすると、信頼度計算部４４では、ユーザの発話
（１）、（５）、（７）の音声認識結果は、それぞれに
対する返答（２）、（６）、（８）から正しいと判定さ
れる。一方、ユーザの発話（３）の音声認識結果は、そ
れに対する返答（４）に対して、ユーザが言い直しの発
話（５）を行っているので、誤っていると判定される。

【００８６】この場合、信頼度計算部４４は、例えば、
ユーザの発話（１）、（５）、（７）についての正しい
音声認識結果の信頼度を、１として、また、ユーザの発
話（３）についての誤った音声認識結果の信頼度を、０
として、それぞれ、適応処理部１９にフィードバックす
る。そして、適応処理部１９では、ユーザの発話
（１）、（３）、（５）、（７）と、その音声認識結果
とを、それぞれの音声認識結果の信頼度に応じた重みで
用いて、モデルの適応が行われる。

【００８７】従って、この場合、実質的に、正しい音声
認識結果だけを用いて、モデルの適応が行われるので、
精度の良い、モデルの適応を行うことができる。さら
に、この場合、ユーザに負担をかけることもない。

【００８８】なお、信頼度としては、０と１の間の中間
値を用いることも可能であり、そのような中間値の信頼
度の算出は、例えば、音声認識部１による音声認識結果
の尤度を用いて行うことが可能である。さらに、そのよ
うな信頼度を用いたモデルの適応は、例えば、次式にし
たがって行うことが可能である。

【００８９】Ｐ_new＝（１−（１−α）×Ｒ）×Ｐ_old＋
（１−α）×Ｒ×Ｐ_adapt 但し、Ｐ_newは、適応後のモデルのパラメータ（前述し
たように、モデルがＨＭＭであれば、遷移確率や、出力
確率を規定する平均値および分散など）を表し、αは、
適応を行うための所定の定数を表す。また、Ｒは、信頼
度を表し、Ｐ_oldは、適応前のモデルのパラメータを表
す。さらに、Ｐ_adaptは、適応に用いるユーザの発話か
ら得られるデータを表す。

【００９０】次に、図１２は、図１の対話管理部５の第
４の構成例を示している。なお、図中、図６における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図１２の対話管理部５は、音声区間検出部４
２に替えて、タスク推定部４５が設けられている他は、
図６における場合と同様に構成されている。

【００９１】タスク推定部４５は、対話処理部４１が出
力する返答を監視しており、その返答に基づいて、音声
認識部１が出力する音声認識結果の内容が属するタスク
を推定し、そのタスクを、フォードバック情報として、
適応処理部１９にフィードバックする。

【００９２】次に、図１３のフローチャートを参照し
て、音声認識部１が図３に示したように、対話管理部５
が図１０に示したように、それぞれ構成される場合の、
図１の音声処理システムの動作について説明する。な
お、ここでは、音声認識部１の辞書データベース１７に
おいて、例えば、コンサートチケットの予約用の言語モ
デルや、ホテルの予約用の言語モデル、航空券の予約用
の言語モデル、新聞の読み上げ等のディクテーション用
の言語モデル、その他各種の言語モデルが各タスク別に
登録された辞書が記憶されているものとする。

【００９３】この場合、ステップＳ３１またはＳ３２に
おいて、図７のステップＳ１またはＳ２における場合と
それぞれ同様の処理が行われ、これにより、対話処理部
４１から、音声認識部１による音声認識結果に対する返
答が出力される。

【００９４】そして、タスク推定部４５は、ステップＳ
３３において、対話処理部４１が出力した返答から、音
声認識部１からの音声認識結果の内容が属するタスク
（その内容が、どのような分野、あるいは話題であるの
か）を認識し、ステップＳ３４に進み、そのタスクを、
フィードバック情報として、音声認識部１の適応処理部
１９に送信する。

【００９５】適応処理部１９では、ステップＳ３５にお
いて、タスク推定部４５からのフィードバック情報とし
てのタスクを用いて、モデルの適応が行われ、処理を終
了する。

【００９６】即ち、例えば、いま、音声処理システムと
ユーザとの間で、上述の（１）乃至（８）の対話が行わ
れたとすると、タスク推定部４５では、ユーザの発話の
音声認識結果と、それに対する返答とから、タスクが、
コンサートチケットの予約に関するものであることが推
定され、適応処理部１９にフィードバックされる。この
場合、適応処理部１９では、辞書データベース１７にお
けるタスク別の言語モデルのうち、コンサートチケット
の予約用の言語モデルのみを対象とした適応が行われ
る。

【００９７】従って、音声認識に用いるモデルの適応
を、ユーザに負担をかけることなく、かつ精度良く行う
こと等ができる。

【００９８】なお、辞書データベース１７には、言語モ
デルそのものではなく、言語モデルを作成するのに用い
るデータを、タスク別に記憶させておくようにし、その
ような辞書データベース１７を対象として、適応を行う
ことも可能である。

【００９９】また、上述の場合には、タスク別に用意さ
れた言語モデルの適応を行うようにしたが、その他、例
えば、音響モデルがタスク別に用意されている場合に
は、そのタスク別の音響モデルの適応を行うようにする
ことも可能である。

【０１００】即ち、音響モデルについては、数字の認識
率を高めるために、数字用の音響モデル（以下、適宜、
数字モデルという）が、数字以外の音響モデル（以下、
適宜、一般の音響モデルという）とは別に用意されるこ
とがある。ここで、数字モデルと一般の音響モデルとを
分けて行う音声認識については、例えば、ＫＤＤ研究
所、河井恒、電子情報通信学会研究報告SP98-69等
に、その詳細が記載されている。

【０１０１】このように、数字モデルと一般の音響モデ
ルとが分けて用意されている場合には、タスク推定部４
５において、音声認識結果のタスクが数字がどうかを推
定し、適応処理部１９において、その推定結果を用い
て、数字モデルや、一般の音響モデルの適応を行うよう
にすることができる。

【０１０２】即ち、例えば、いま、音声処理システムと
ユーザとの間で、上述の（１）乃至（８）の対話が行わ
れたとすると、タスク推定部４５では、ユーザの発話の
音声認識結果と、それに対する返答とから、ユーザの発
話（１）「こんにちは。９月１１日のベルリンフィルの
チケットがほしいんだけど。」の音声認識結果における
「９」と「１」は、数字のタスクとして推定され、適応
処理部１９にフィードバックされる。この場合、適応処
理部１９では、数字モデルの適応は、ユーザの発話およ
びその音声認識結果のうちの「９」と「１」の部分を用
いて行われ、一般の音響モデルの適応は、ユーザの発話
およびその音声認識結果のうちの他の部分を用いて行わ
れる。

【０１０３】なお、モデルの適応は、図６乃至図１３を
参照して説明した４つの適応の方法うちの２以上を組み
合わせて行うことも可能である。

【０１０４】また、音声認識結果の翻訳を行う場合に
は、上述のようなフィードバック情報は、機械翻訳部２
から、音声認識部１に対して出力させるようにすること
が可能である。

【０１０５】次に、図１４は、図１の音声認識部１の第
２の構成例を示している。なお、図中、図３における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図１４の音声認識部１は、適応処理部１９が
設けられていないことを除けば、図３における場合と基
本的に同様に構成されている。

【０１０６】但し、図１４の実施の形態においては、マ
ッチング部１５は、例えば、機械翻訳部２から、後述す
る変更信号を、フィードバック情報として受信すること
ができるようになっており、変更信号を受信した場合、
音声認識結果を構成する構成単位を変更して出力するよ
うになっている。

【０１０７】即ち、マッチング部１５は、例えば、入力
音声「これは何ですか」に対して、音声認識結果「これ
は何ですか」が得られた場合において、変更信号を受信
したとき、１つの構成単位「これは何ですか」でなる音
声認識結果を、３つの構成単位「これは」、「何で
す」、「か」でなる音声認識結果や、５つの構成単位
「これ」、「は」、「何」、「です」、「か」でなる音
声認識結果に変更して出力し直すようになっている。

【０１０８】このような構成単位の変更は、最初に得ら
れた音声認識結果「これは何ですか」を構成する文節や
単語を切り離すことで行うこともできるし、マッチング
部１５による音声認識の処理単位を変更することで行う
こともできる。

【０１０９】マッチング部１５による音声認識の処理単
位を変更することにより、その音声認識結果の構成単位
を変更する場合においては、その変更のための情報を、
辞書データベース１７の単語辞書や、文法データベース
１８の文法規則に記述しておくことで行うことが可能で
ある。

【０１１０】即ち、例えば、単語辞書に、文節「これ
は」と、その文節を構成する単語（形態素）「これ」お
よび「は」とを対応付けて記述しておく。この場合、マ
ッチング部１５では、単語辞書を参照することにより、
入力音声「これは」に対して、「これは」という１つの
構成単位で構成される音声認識結果を得ることも可能と
なるし、「これ」と「は」との２つの構成単位で構成さ
れる音声認識結果を得ることも可能となる。

【０１１１】なお、上述の場合には、文節と、その文節
を構成する単語とを対応付けておくようにしたが、文
と、その文を構成する文節とを対応付けておくことも可
能であるし、さらに、その文節を構成する単語も対応付
けておくことも可能である。

【０１１２】一方、文法データベース１８の文法規則に
よって、マッチング部１５による音声認識の処理単位を
変更する場合には、例えば、主格が、代名詞と助詞
「は」とを接続して構成されることを、文法規則に記述
しておく。この場合も、マッチング部１５では、文法規
則を参照することにより、代名詞「これ」と助詞「は」
とからなる主格を表す入力音声「これは」に対して、
「これは」という１つの構成単位で構成される音声認識
結果を得ることも可能となるし、「これ」と「は」との
２つの構成単位で構成される音声認識結果を得ることも
可能となる。

【０１１３】ここで、マッチング部１５による音声認識
の処理単位を変更は、単語辞書または文法規則のいずれ
か一方に基づいて行う他、その両方に基づいて行うこと
も可能である。さらに、マッチング部１５による音声認
識の処理単位を変更は、単語辞書を複数用意するととも
に、各単語辞書に対応する文法規則も用意し、変更信号
に基づいて、音声認識に用いる単語辞書と文法規則の組
合せを選択するようにすることで行うことも可能であ
る。

【０１１４】なお、マッチング部１５による音声認識の
処理単位を変更することにより、音声認識結果の構成単
位を変更する場合には、マッチング部１５では、特徴量
バッファ１４に記憶された特徴パラメータを用いて、再
度処理が行われる。

【０１１５】次に、図１５は、音声認識部１が図１４に
示すように構成される場合の、図１の機械翻訳部２の構
成例（第２の構成例）を示している。なお、図中、図４
における場合と対応する部分については、同一の符号を
付してある。即ち、図１５の機械翻訳部２は、図４にお
ける場合と基本的に同様に構成されている。

【０１１６】但し、図１５の実施の形態においては、テ
キスト解析部２１は、入力テキストの構成単位が、その
入力テキストの解析が可能な単位（入力テキストの解析
を行うのに適切な単位）であるかどうかを判定し、可能
な単位であれば、上述したように、入力テキストの解析
を行う。一方、入力テキストの構成単位が、その入力テ
キストの解析が可能な単位でない場合には、テキスト解
析部２１は、入力テキストの構成単位の変更を指示する
変更信号を、フィードバック情報として、音声認識部１
に送信する。音声認識部１では、上述したように、変更
信号に基づいて、入力テキストとなる音声認識結果の構
成単位が変更され、その結果、テキスト解析部２１に
は、構成単位が変更された音声認識結果が、入力テキス
トとして供給される。そして、テキスト解析部２１で
は、再び、その入力テキストの構成単位が解析可能な単
位であるかどうかが判定され、以下、同様の処理が繰り
返される。

【０１１７】ここで、対話管理部５も、機械翻訳部２と
同様に、音声認識部１による音声認識結果を対象とした
自然言語処理の１つである対話管理処理を行うが、その
際、音声認識部１に対して、必要に応じて変更信号を出
力させることが可能である。

【０１１８】次に、図１６のフローチャートを参照し
て、音声認識部１が図１４に示すように、機械翻訳部２
が図１５に示すように、それぞれ構成される場合の、図
１の音声処理システムの動作（翻訳動作）について説明
する。

【０１１９】音声認識部１に対して、音声が入力される
と、音声認識部１では、ステップＳ４１において、その
音声が音声認識され、その音声認識結果としてのテキス
トが、機械翻訳部２に出力されて、ステップＳ４２に進
む。

【０１２０】ステップＳ４２では、機械翻訳部２におい
て、音声認識部１からのテキストを機械翻訳する翻訳処
理が行われ、ステップＳ４３に進み、音声認識部１にお
いて、機械翻訳部２から、フィードバック情報としての
変更信号を受信したかどうかが判定される。

【０１２１】ステップＳ４３において、機械翻訳部２か
ら変更信号を受信したと判定された場合、ステップＳ４
１に戻り、音声認識部１は、その変更信号に基づき、音
声認識結果の構成単位が変更されるように、再度、音声
認識を行い、その音声認識結果を、機械翻訳部２に出力
する。そして、以下、同様の処理が繰り返される。

【０１２２】また、ステップＳ４３において、機械翻訳
部２から、フィードバック情報としての変更信号を受信
していないと判定された場合、機械翻訳部２は、ステッ
プＳ４２におけ翻訳処理の結果得られるテキストを、音
声合成部３に出力し、ステップＳ４４に進む。

【０１２３】ステップＳ４４では、音声合成部３におい
て、機械翻訳部２からのテキストに対応する合成音が生
成されて出力され、処理を終了する。

【０１２４】次に、図１７のフローチャートを参照し
て、図１４の音声認識部１の動作について説明する。

【０１２５】音声認識部１は、音声認識すべき音声が入
力されると、ステップＳ５１において、その入力音声の
音声認識結果の構成単位を設定し、ステップＳ５２に進
む。ここで、新たな音声が入力された直後においては、
ステップＳ５１では、所定のデフォルトの構成単位が設
定される。

【０１２６】ステップＳ５２では、音声認識部１におい
て、入力音声の音声認識が行われ、ステップＳ５３に進
み、直前のステップＳ５１で設定された構成単位の音声
認識結果が、機械翻訳部２に出力される。そして、ステ
ップＳ５４に進み、機械翻訳部２から、フィードバック
情報としての変更信号を受信したかどうかが判定され
る。ステップＳ５４において、変更信号を受信したと判
定された場合、ステップＳ５１に戻り、前回出力した音
声認識結果の構成単位が、変更信号に基づいて小さくま
たは大きく設定され、即ち、具体的には、例えば、文節
単位から単語単位に設定され、または逆に単語単位から
文節単位に設定され、ステップＳ５２に進み、以下、同
様の処理が繰り返される。従って、この場合、音声認識
部１では、変更信号に基づき、構成単位が小さくまたは
大きくされた音声認識結果が、その後に行われるステッ
プＳ５３で出力される。

【０１２７】一方、ステップＳ５４において、フィード
バック情報としての変更信号を受信していないと判定さ
れた場合、処理を終了する。

【０１２８】次に、図１８のフローチャートを参照し
て、図１５の機械翻訳部２の動作について説明する。

【０１２９】機械翻訳部２は、音声認識部１から音声認
識結果としてのテキストを受信すると、ステップＳ６１
において、そのテキストの構成単位を解析する。そし
て、ステップＳ６２に進み、その構成単位が、機械翻訳
部２で処理を行うのに適切な単位であるかどうかが判定
される。

【０１３０】ここで、音声認識部１からの音声認識結果
の構成単位が、機械翻訳部２で処理を行うのに適切な単
位であるかどうかは、例えば、音声認識結果を形態素解
析することにより判定することができる。また、その判
定は、例えば、機械翻訳部２で処理を行うのに適切な単
位の文字列を記憶しておき、その文字列と、音声認識結
果の構成単位とを比較すること等によって行うことも可
能である。

【０１３１】ステップＳ６２において、音声認識部１か
らの音声認識結果としてのテキストの構成単位が、機械
翻訳部２で処理を行うのに適切な単位でないと判定され
た場合、ステップＳ６３に進み、構成単位が適切となる
ように、即ち、構成単位が大きければ小さくし、小さけ
れば大きくするように指示する変更信号が、フィードバ
ック情報として、音声認識部１に出力される。そして、
音声認識部１から、その変更信号にしたがって構成単位
が変更された音声認識結果が供給されるのを待って、ス
テップＳ６１に戻り、以下、同様の処理が繰り返され
る。

【０１３２】一方、ステップＳ６２において、音声認識
部１からの音声認識結果としてのテキストの構成単位
が、機械翻訳部２で処理を行うのに適切な単位であると
判定された場合、ステップＳ６４に進み、機械翻訳部２
において、音声認識結果が処理される。

【０１３３】即ち、機械翻訳部２では、音声認識結果の
翻訳が行われ、その翻訳結果が出力されて、処理を終了
する。

【０１３４】以上のように、音声認識部１において、そ
の後段で自然言語処理を行う機械翻訳部２からの指示に
基づいて、出力する音声認識結果の構成単位を、自然言
語処理を行うのに適切な単位に変更して出力するように
したので、機械翻訳部２では、容易に、精度の高い自然
言語処理（翻訳）を行うことが可能となる。

【０１３５】なお、対話管理部５においても、上述のよ
うな変更信号を、フォーマット情報として、音声認識部
１に出力し、音声認識部１に、その音声認識結果を、対
話管理部５での処理を行うのに適切な単位で出力させる
ようにすることが可能である。

【０１３６】次に、図１９は、図１の音声認識部１の第
３の構成例を示している。なお、図中、図３における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図１９の音声認識部１は、適応処理部１９が
設けられていないことを除けば、図３における場合と基
本的に同様に構成されている。

【０１３７】但し、図１９の実施の形態においては、マ
ッチング部１５は、機械翻訳部２から、後述する要求信
号を、フィードバック情報として受信することができる
ようになっており、要求信号を受信した場合、その要求
信号による要求に応じた処理を行うようにもなってい
る。この場合、マッチング部１５は、一度処理した特徴
パラメータが再び必要なときには、特徴量バッファ１４
に記憶された特徴パラメータを用いて処理を行うように
なっており、これにより、ユーザに、再度発話をしても
らわなくても済むようになっている。

【０１３８】次に、図２０は、音声認識部１が図１９に
示すように構成される場合の、図１の機械翻訳部２の構
成例（第３の構成例）を示している。なお、図中、図４
における場合と対応する部分については、同一の符号を
付してある。即ち、図２０の機械翻訳部２は、変換結果
修正部２９および変換結果バッファ３０が新たに設けら
れている他は、図４における場合と基本的に同様に構成
されている。

【０１３９】但し、図２０の実施の形態においては、言
語変換部２２は、その処理の途中結果に基づいて、その
処理を精度良く行うために必要な情報があるとき、その
情報を要求する要求信号を、フィードバック情報とし
て、図１９の音声認識部１（のマッチング部１５）に出
力し、その情報を得て、精度の良い処理を行うようにな
っている。

【０１４０】変換結果修正部２９は、言語変換部２２で
得られた出力言語の言語情報を受信し、その評価を行
う。そして、変換結果修正部２９は、その評価結果が所
定の基準を満たしている場合には、言語変換部２２から
の言語情報を、そのままテキスト生成部２３に供給す
る。

【０１４１】一方、言語変換部２２からの言語情報の評
価結果が所定の基準を満たしていない場合には、変換結
果修正部２９は、その言語情報を、変換結果バッファ３
０に一時記憶させるとともに、音声認識結果の他の候補
を要求する要求信号を、フィードバック情報として、図
１９の音声認識部１（のマッチング部１５）に出力す
る。そして、音声認識部１が、変換結果修正部２９から
の要求信号に応じて、音声認識結果の他の候補を出力
し、それが、テキスト解析部２１および言語変換部２２
で処理され、出力言語の言語情報とされて、変換結果修
正部２９に供給されると、変換結果修正部２９は、その
新たに受信した言語情報と、変換バッファ３０に記憶さ
れた言語情報とを比較し、入力テキストの翻訳結果とし
て、より適切な方を選択して、テキスト生成部２３に出
力する。

【０１４２】次に、図２１は、図２０の言語変換部２２
および言語変換データベース２６の構成例を示してい
る。

【０１４３】言語変換部２２は、マッチング部５１から
構成されており、マッチング部５１は、言語変換データ
ベース２６を参照することで、テキスト解析部２１から
供給される入力テキストの言語情報を、出力言語の言語
情報に変換する。

【０１４４】即ち、図２１の実施の形態では、言語変換
データベース２６は、シソーラス辞書５２およびテンプ
レートテーブル５３から構成されている。シソーラス辞
書５２は、例えば、図２２に示すように、単語およびそ
の概念（意味）が階層的に分類されたシソーラスを記憶
している。なお、図２２においては、長方形で囲んであ
る記載が概念を表し、楕円形で囲んである記載が単語を
表している。また、概念を表す長方形に記載されている
番号は、シソーラスにおいて、その概念を特定するため
の分類番号である。

【０１４５】図２１に戻り、テンプレートテーブル５３
には、日本語の文のパターンと、その英語訳とを対応付
けたテンプレートが登録されている。なお、テンプレー
トでは、日本語文のパターンは、必要に応じて変数（図
２１においては、ＸやＹ）を用いて記述されている。ま
た、変数には番号が付されており、この番号は、図２２
に示したシソーラス上の分類番号を表す。

【０１４６】以上のように構成される言語変換部２２で
は、マッチング部５１において、テンプレートテーブル
５３に記憶されているテンプレートから、入力テキスト
と最も類似する（距離の近い）日本語文のパターンを有
するものが選択される。即ち、マッチング部５１は、テ
ンプレートテーブル５３の各テンプレートの日本語文の
パターンと、入力テキストとの距離を求め、その距離を
最も短くするテンプレートを選択する。さらに、その選
択されたテンプレート（以下、適宜、選択テンプレート
という）の日本語文のパターンの中の変数に対応する語
句（以下、適宜、対応語句という）が、入力テキストか
ら抽出され、その対応語句と、選択テンプレートの変数
が属する概念との間の意味的な距離（以下、適宜、単語
間距離という）が求められる。

【０１４７】ここで、選択テンプレートの変数と、その
対応語句との単語距離としては、例えば、シソーラスに
おいて、その変数のノードから、対応語句のノードに移
動するための最小移動数（変数のノードから、対応語句
のノードへの最短のパスを構成するブランチの数）など
を用いることができる。なお、選択テンプレートに、複
数の変数が存在する場合には、その複数の変数それぞれ
について、単語間距離が計算される。

【０１４８】マッチング部５１は、選択テンプレートを
決定し、さらに、その選択テンプレートにおける変数に
ついての単語間距離を求めると、選択テンプレート、対
応語句、および単語間距離とともに、選択テンプレート
における日本語文のパターンと入力テキストとの距離
（これは、上述のように、選択テンプレートを決定する
ときに求められる）（以下、適宜、パターン間距離とい
う）を、変換結果修正部２９に出力する。

【０１４９】具体的には、例えば、入力テキストが「金
槌を使った」であった場合において、日本語文「Ｘ
（１．５６２１）を使う」を有するテンプレートが、選
択テンプレートとして決定（選択）されたとすると、そ
の選択テンプレート、対応語句「金槌」、入力テキスト
「金槌を使った」と日本語文「Ｘ（１．５６２１）を使
う」とのパターン間距離、並びに変数Ｘ（１．５６２
１）とその対応語句「金槌」との単語間距離が、変換結
果修正部２９に出力される。

【０１５０】なお、マッチング部５１は、基本的には、
上述のように、入力テキストとのパターン間距離を最も
短くするテンプレートを、そのまま、選択テンプレート
として決定するが、後述するように、２つなどの複数の
テンプレートが、選択テンプレートの候補として得ら
れ、最終的な選択テンプレートを決定することが困難な
場合には、音声認識部１に対して、より確からしいテン
プレートを、選択テンプレートとして決定するのに必要
な情報を要求する要求信号を出力し、その要求した情報
が、音声認識部１から供給されるのを待って、選択テン
プレートを決定するようになっている。

【０１５１】次に、図２３のフローチャートを参照し
て、図２０の機械翻訳部２の動作について、さらに説明
する。

【０１５２】機械翻訳部２では、図１９の音声認識部１
から音声認識結果としての入力テキストを受信すると、
ステップＳ７１において、変換結果バッファ３０の記憶
内容がクリアされ、ステップＳ７２に進み、テキスト解
析部２１は、入力テキストの解析を行う。テキスト解析
部２１による解析結果は、言語変換部２２に供給され、
言語変換部２２は、ステップＳ７３において、図２１で
説明したような選択テンプレートの決定等を行い、その
選択テンプレートを用いて、入力テキストの言語情報を
出力テキストの言語情報に変換し、その変換結果として
の、上述した選択テンプレート、パターン間距離、対応
語句、および単語間距離を、変換結果修正部２９に出力
する。

【０１５３】変換結果修正部２９は、ステップＳ７４に
おいて、言語変換部２２からの出力テキストの言語情報
（選択テンプレート、パターン間距離、対応語句および
単語間距離）を、変換結果バッファ３０に供給して記憶
させ、ステップＳ７５に進み、言語変換部２２から供給
された単語間距離が、所定の基準値以下であるかどうか
を判定する。ステップＳ７５において、単語間距離が、
所定の基準値以下であると判定された場合、即ち、選択
テンプレートの変数が属する概念と、その変数について
の入力テキストの対応語句との意味的な距離が近く、従
って、入力テキストの対応語句が、正しい音声認識結果
であると推測される場合、ステップＳ７６に進み、変換
結果修正部２９は、ステップＳ７４で変換結果バッファ
３０に記憶させた出力言語の言語情報を、テキスト生成
部２３に出力する。そして、テキスト生成部２３では、
入力テキストを出力言語に翻訳したテキストが生成さ
れ、処理を終了する。

【０１５４】一方、ステップＳ７５において、単語間距
離が、所定の基準値以下でないと判定された場合、即
ち、選択テンプレートの変数が属する概念と、その変数
についての入力テキストの対応語句との意味的な距離が
遠く、従って、入力テキストの対応語句が、誤った音声
認識結果であると推測される場合（ここでは、音響的に
は正しいが、意味的に誤っていると推測される場合）、
ステップＳ７７に進み、変換結果修正部２９は、対応語
句について、例えば、その対応語句と同音異義語の他の
候補を要求する要求信号を、図１９の音声認識部１に出
力する。

【０１５５】この場合、図１９の音声認識部１では、特
徴量バッファ１４に記憶された特徴パラメータを用いて
音声認識が再度行われ、これにより、対応語句と同音異
義語の他の候補が、図２０の機械翻訳部２に供給され
る。なお、対応語句と同音異義語を対象とした音声認識
は、例えば、図１９の音声認識部１の辞書データベース
１７に、各種の同音異義語を記憶させておくことで行う
ことが可能である。

【０１５６】対応語句と同音異義語の他の候補が、図１
９の音声認識部１から図２０の機械翻訳部２に供給され
ると、ステップＳ７８において、テキスト解析部２１お
よび言語変換部２２は、入力テキストの対応語句を、そ
の同音異義語の他の候補に置き換えたもの（以下、適
宜、置換テキストという）を対象に処理を行う。そし
て、その処理結果は、変換結果修正部２９に出力され
る。

【０１５７】なお、対応語句と同音異義語の他の候補
が、複数存在する場合には、音声認識部１から機械翻訳
部２に対しては、その複数の候補が供給される。この場
合、機械翻訳部２では、その複数の候補それぞれについ
て、置換テキストが作成されて処理される。

【０１５８】以上のようにして、変換結果修正部２９
は、言語変換部２２から、置換テキストを変換した出力
言語の言語情報を受信すると、ステップＳ７９におい
て、その言語情報と、変換結果バッファ３０に記憶され
ている言語情報のうち、より適切なものを選択する。即
ち、変換結果修正部２９は、置換テキストを変換した出
力言語の言語情報と、変換結果バッファ３０に記憶され
ている言語情報のうち、その言語情報に含まれる単語間
距離が最も小さいもの（選択テンプレートの変数が属す
る概念との意味的な距離が近い対応語句を有するテキス
トを変換した言語情報）を選択する。

【０１５９】そして、ステップＳ７６に進み、変換結果
修正部２９は、選択した言語情報を、テキスト生成部２
３に出力し、以下、上述した場合と同様の処理が行わ
れ、処理を終了する。

【０１６０】なお、置換テキストが複数存在する場合に
は、ステップＳ７９では、その複数の置換テキストそれ
ぞれを変換した言語情報と、変換結果バッファ３０に記
憶されている言語情報の中から、単語間距離が最も短い
言語情報が選択される。

【０１６１】以上の処理によれば、例えば、入力テキス
トが「蜘蛛が白い」であり、選択テンプレートとして、
日本語文「Ｘ（１．４８２９）が白い」を有するテンプ
レートが決定された場合、変数Ｘの対応語句は「蜘蛛」
となるが、この場合、分類番号が１．４８２９である概
念と、その対応語句「蜘蛛」との意味的な距離が遠いと
きには、変換結果修正部２９において、上述したような
要求信号が、フィードバック情報として、図１９の音声
認識部１に出力される。そして、いま、音声認識部１
が、その要求信号に応じて、「くも」の同音異義語であ
る、「蜘蛛」の他の候補として「雲」を、機械翻訳部２
に供給したとすると、機械翻訳部２では、「蜘蛛」と
「雲」のうち、分類番号が１．４８２９である概念との
意味的な距離が近い方が、最終的な対応語句とされる。

【０１６２】従って、音声認識部１において、音響的に
は正しいが、意味的に誤った音声認識結果が得られた場
合であっても、その意味的に誤った音声認識結果を修正
し、これにより、正しい翻訳結果を得ることが可能とな
る。

【０１６３】次に、図２４のフローチャートを参照し
て、図２１のマッチング部５１で行われる、選択テンプ
レートを決定する処理（テンプレートテーブル５３から
テンプレートを選択する処理）について説明する。

【０１６４】ステップＳ８１では、テンプレートテーブ
ル５３から、あるテンプレートが注目すべき注目テンプ
レートとして選択され、ステップＳ８２に進み、その注
目テンプレート（に記述された日本語パターン）と、入
力テキストとのパターン間距離が計算される。そして、
ステップＳ８３に進み、テンプレートテーブル５３に記
憶されたすべてのテンプレートについて、パターン間距
離を計算したかどうかが判定される。ステップＳ８３に
おいて、テンプレートテーブル５３に記憶されたすべて
のテンプレートについて、まだ、パターン間距離を計算
していないと判定された場合、ステップＳ８１に戻り、
まだ注目テンプレートとされていないテンプレートが、
新たに注目テンプレートとして選択され、以下、同様の
処理が繰り返される。

【０１６５】また、ステップＳ８３において、テンプレ
ートテーブル５３に記憶されたすべてのテンプレートに
ついて、入力テキストとのパターン間距離を計算したと
判定された場合、ステップＳ８４に進み、パターン間距
離が最も小さいテンプレート（以下、適宜、第１位のテ
ンプレートという）と、パターン間距離が２番目に小さ
いテンプレート（以下、適宜、第２位のテンプレートと
いう）とが検出され、その第１位および第２位のテンプ
レートについてのパターン間距離の差が、所定の閾値以
下であるかどうかが判定される。

【０１６６】ステップＳ８４において、パターン間距離
の差が、所定の閾値以下でないと判定された場合、即
ち、第１位のテンプレートに記述された日本語文が、テ
ンプレートテーブル５３に記憶された他のテンプレート
のいずれに記述された日本語文と比較しても、入力テキ
ストに対して、非常に良く合致する場合、ステップＳ８
５に進み、その第１位のテンプレートが、選択テンプレ
ートとして決定され、処理を終了する。

【０１６７】一方、ステップＳ８４において、パターン
間距離の差が、所定の閾値以下であると判定された場
合、即ち、入力テキストが、第１位のテンプレートに記
述された日本語文だけでなく、第２位のテンプレートに
記述された日本語文とも比較的合致する場合、ステップ
Ｓ８６に進み、マッチング部５１は、その第１位と第２
位のテンプレートから、より入力音声に合致する日本語
文を有する方を決定するための音響的な評価値を要求す
る要求信号を、フィードバック情報として、図１９の音
声認識部１に供給する。

【０１６８】この場合、音声認識部１では、特徴量バッ
ファ１４に記憶された特徴パラメータを用い、入力音声
の音声認識結果を、第１位のテンプレートに記述された
日本語文とすることの尤度と、第２位のテンプレートに
記述された日本語文とすることの尤度が求められ、図２
０の機械翻訳部２に供給される。

【０１６９】機械翻訳部２では、図１９の音声認識部１
からの第１位と第２位のテンプレートに記述された日本
語文それぞれについての尤度が、テキスト解析部２１を
介して、言語変換部２２のマッチング部５１に供給さ
れ、マッチング部５１は、このようにして第１位と第２
位のテンプレートに記述された日本語文それぞれについ
ての尤度を受信すると、ステップＳ８７において、その
尤度の高い方のテンプレートを、選択テンプレートとし
て決定し、処理を終了する。

【０１７０】以上の処理によれば、例えば、入力音声の
音声認識結果として「金槌を使い」が得られ、その音声
認識結果「金槌を使い」に対して、日本語文「Ｘ（１．
２３）を使う」を有するテンプレートと、日本語文「Ｘ
（１．２３）を使え」を有するテンプレートが、それぞ
れ第１位と第２位のテンプレートであり、音声認識結果
「金槌を使い」と第１位のテンプレートとのパターン間
距離と、音声認識結果「金槌を使い」と第２位のテンプ
レートとのパターン間距離とが近い値である場合には、
音声認識部１において、入力音声の音声認識結果を、
「金槌を使う」とすることの尤度と、「金槌を使え」と
することの尤度が計算される。そして、機械翻訳部２で
は、その尤度の高い方の日本語文を有するテンプレート
が、選択テンプレートとして決定される。

【０１７１】従って、音声認識部１において、誤った音
声認識結果が得られた場合であっても、その誤った音声
認識結果を修正し、これにより、正しい翻訳結果を得る
ことが可能となる。

【０１７２】なお、図２４のフローチャートにしたがっ
た処理は、第３位以下のテンプレートも対象にして行う
ことが可能である。

【０１７３】次に、図２３のフローチャートにしたがっ
た処理においては、同音異義語の中から、選択テンプレ
ートにおける変数が属する概念との意味的な距離が最も
近い単語を選択することで、誤った音声認識結果を修正
するようにしたが、この処理では、同音異義語の中に、
選択テンプレートにおける変数が属する概念との意味的
な距離が近いものが複数存在する場合に対処するのが困
難である。

【０１７４】即ち、例えば、選択テンプレート「Ｘ
（１．４８３０）で食べた」のＸ（１．４８３０）に対
応する同音異義語の対応語句として、「橋」、「端」、
および「箸」の３つが得られた場合に、その「橋」、
「端」、「箸」との意味的な距離がいずれも同じ値であ
るときには、その優劣をつけることができない。

【０１７５】そこで、このような場合には、図２０の機
械翻訳部２において、それらの同音異義語に対応する入
力音声の部分の、例えば、アクセントやピッチ等のプロ
ソディ(Prosody)に基づいて、音声認識結果として最も
確からしい単語を決定するように要求する要求信号を、
フィードバック情報として、図１９の音声認識部１に供
給するようにすることができる。

【０１７６】即ち、例えば、上述の「橋」、「端」、
「箸」については、それぞれの発話において、図２５に
示すような抑揚があるのが一般的であり、従って、音声
認識部１では、特徴量バッファ１４に記憶された特徴パ
ラメータに基づき、入力音声のプロソディを得て、その
プロソディが、「橋」、「端」、「箸」のうちのいずれ
に最も合致するかを検出することで、音声認識結果とし
て最も確からしい単語を決定することができる。

【０１７７】そこで、図２６のフローチャートを参照し
て、上述のような要求信号を出力する場合の、図２０の
機械翻訳部２の動作について説明する。

【０１７８】図２０の機械翻訳部２では、ステップＳ９
１乃至Ｓ９８において、図２３のステップＳ７１乃至Ｓ
７８における場合とそれぞれ同様の処理が行われる。

【０１７９】そして、ステップＳ９８の処理後は、ステ
ップＳ９９に進み、変換結果修正部２９は、言語変換部
２２から供給される、置換テキストを変換した出力言語
の言語情報と、変換結果バッファ３０に記憶されている
言語情報に含まれる単語間距離が同一であるかどうかを
判定する。ステップＳ９９において、単語間距離が同一
でないと判定された場合、ステップＳ１００に進み、変
換結果修正部２９は、図２３のステップＳ９における場
合と同様に、置換テキストを変換した出力言語の言語情
報と、変換結果バッファ３０に記憶されている言語情報
のうち、その言語情報に含まれる単語間距離が最も小さ
いものを選択する。

【０１８０】そして、ステップＳ９６に進み、変換結果
修正部２９は、選択した言語情報を、テキスト生成部２
３に出力し、これにより、テキスト生成部２３では、入
力テキストを出力言語に翻訳したテキストが生成され、
処理を終了する。

【０１８１】一方、ステップＳ９９において、言語変換
部２２から供給される、置換テキストを変換した出力言
語の言語情報と、変換結果バッファ３０に記憶されてい
る言語情報（入力テキストを変換した出力言語の言語情
報）に含まれる単語間距離が同一であると判定された場
合、ステップＳ１０１に進み、変換結果修正部２９は、
置換テキストと入力テキストに含まれる同音異義語に対
応する入力音声の部分のプロソディに基づいて、音声認
識結果として最も確からしい単語を決定するように要求
する要求信号を、フィードバック情報として、図１９の
音声認識部１に供給する。

【０１８２】この場合、音声認識部１は、変換結果修正
部２９からの要求信号に応じて、上述したように、入力
音声のプロソディに基づき、同音異義語の中から、音声
認識結果として最も確からしい単語（以下、適宜、最尤
単語という）を決定し、図２０の機械翻訳部２に供給す
る。

【０１８３】この最尤単語は、テキスト解析部２１およ
び言語変換部２２を介して、変換結果修正部２９に供給
され、変換結果修正部２９は、ステップＳ１０２におい
て、音声認識部１からの最尤単語を有する言語情報を選
択し、ステップＳ９６に進む。ステップＳ９６では、変
換結果修正部２９は、選択した言語情報を、テキスト生
成部２３に出力し、これにより、テキスト生成部２３で
は、入力テキストを出力言語に翻訳したテキストが生成
され、処理を終了する。

【０１８４】次に、図２７は、図１の音声認識部１の第
４の構成例を示している。なお、図中、図３における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図２７の音声認識部１は、適応処理部１９が
除去され、かつ分野別辞書群２０が新たに設けられてい
る他は、図３における場合と同様に構成されている。

【０１８５】分野別辞書群２０は、Ｎ個の分野別辞書か
ら構成されており、各分野別辞書は、基本的には、辞書
データベース１７の単語辞書と同様に構成されている。
但し、各分野別辞書は、特定の話題や分野等に特化した
単語（語句）に関する言語モデル、即ち、タスク別の言
語モデルを記憶している。

【０１８６】そして、図２７の実施の形態では、マッチ
ング部１５は、通常は、音響モデルデータベース１６、
辞書データベース１７、および文法データベース１８だ
けを参照して処理を行うが、機械翻訳部２からの要求信
号に応じて、分野別辞書群２０の必要な分野別辞書をさ
らに参照して処理を行うようになっている。

【０１８７】次に、図２８は、音声認識部１が図２７に
示したように構成される場合の、図１の機械翻訳部２の
第４の構成例を示している。なお、図中、図２０におけ
る場合と対応する部分については、同一の符号を付して
ある。即ち、図２８の機械翻訳部２は、分野推定部６１
が新たに設けられている他は、図２０における場合と同
様に構成されている。

【０１８８】分野推定部６１には、テキスト解析部２１
から、入力テキストの解析結果が供給されるとともに、
変換結果修正部２９が出力する要求信号が供給されるよ
うになっている。そして、分野推定部６１は、テキスト
解析部２１からの解析結果に基づいて、即ち、それまで
に入力された音声の音声認識結果の解析結果に基づい
て、ユーザの発話内容の分野や話題等のタスクを推定
し、変換結果修正部２９から要求信号を受信した場合に
は、推定した分野や話題に対応する分野別辞書を追加し
て処理を行うように要求する要求信号を、フィードバッ
ク情報として、図２７の音声認識部１に供給するように
なっている。

【０１８９】ここで、発話から、その内容の分野や話題
を推定する方法については、例えば、「自然言語検索シ
ステムにおける分野推論方式」、別所克人、岩瀬成人、
戸部美春、福村好美、電子情報通信学会論文誌D-II J81
-DII No.6 pp.1317-1327などに、その詳細が記載されて
いる。

【０１９０】次に、図２９のフローチャートを参照し
て、図２８の機械翻訳部２の動作について説明する。

【０１９１】図２８の機械翻訳部２では、ステップＳ１
１１乃至Ｓ１１４において、図２３のステップＳ７１乃
至Ｓ７４における場合とそれぞれ同様の処理が行われ
る。

【０１９２】そして、ステップＳ１１４の処理後は、ス
テップＳ１１５に進み、変換結果修正部２９は、言語変
換部２２から供給されたパターン間距離が、所定の基準
値以下であるかどうかを判定する。ステップＳ１１５に
おいて、パターン間距離が、所定の基準値以下であると
判定された場合、即ち、音声認識結果と、選択テンプレ
ートに記述された日本語文との距離が近く、従って、音
声認識部１（図２７）において、分野別辞書群２０を用
いなくても、正しい音声認識結果が得られていると推測
される場合、ステップＳ１１６に進み、変換結果修正部
２９は、ステップＳ１１４で変換結果バッファ３０に記
憶させた出力言語の言語情報を、テキスト生成部２３に
出力する。そして、テキスト生成部２３では、入力テキ
ストを出力言語に翻訳したテキストが生成され、処理を
終了する。

【０１９３】一方、ステップＳ１１５において、パター
ン間距離が、所定の基準値以下でないと判定された場
合、即ち、音声認識結果と、選択テンプレートに記述さ
れた日本語文との距離が遠く、従って、音声認識部１
（図２７）において、分野別辞書群２０をさらに用いて
処理を行わないと、正しい音声認識結果が得られないと
推測される場合、ステップＳ１１７に進み、変換結果修
正部２９は、分野別辞書群２０を用いた音声認識を要求
する要求信号を、分野推定部６１に供給する。

【０１９４】分野推定部６１は、テキスト解析部２１の
出力を参照することで、発話内容の話題や分野を推定し
ており、変換結果修正部２９から要求信号を受信する
と、推定した分野や話題に対応する分野別辞書を追加し
て処理を行うように要求する要求信号を、フィードバッ
ク情報として、図２７の音声認識部１に供給する。

【０１９５】即ち、分野推定部６１は、例えば、発話内
容の話題が旅行に関することであると推定した場合に
は、観光地の地名が登録されている分野別辞書を追加
し、これにより、音声認識の対象語彙として、観光地の
地名を含めて処理を行うように要求する要求信号を、図
２７の音声認識部１に供給する。

【０１９６】この場合、音声認識部１では、特徴量バッ
ファ１４に記憶された特徴パラメータを用い、要求信号
に応じた分野や話題に関する単語（語句）の情報が登録
されている分野別辞書をさらに参照して音声認識が行わ
れ、これにより、音声認識の対象語彙を、いわば拡張し
た音声認識が行われる。そして、その音声認識結果は、
音声認識部１から機械翻訳部２に供給される。

【０１９７】上述のようにして、新たな音声認識結果
が、図２７の音声認識部１から供給されると、図２８の
機械翻訳部２では、ステップＳ１１８において、テキス
ト解析部２１および言語変換部２２は、その新たな音声
認識結果としての入力テキストを対象に処理を行う。そ
して、その処理結果は、変換結果修正部２９に出力され
る。

【０１９８】以上のようにして、変換結果修正部２９
は、言語変換部２２から、新たな音声認識結果を変換し
た出力言語の言語情報を受信すると、ステップＳ１１９
において、その言語情報と、変換結果バッファ３０に記
憶されている言語情報のうち、より適切なものを選択す
る。即ち、変換結果修正部２９は、新たな音声認識結果
を変換した出力言語の言語情報と、変換結果バッファ３
０に記憶されている言語情報のうち、例えば、パターン
間距離が小さいものを選択する。

【０１９９】そして、ステップＳ１１６に進み、変換結
果修正部２９は、選択した言語情報を、テキスト生成部
２３に出力し、以下、上述した場合と同様の処理が行わ
れ、処理を終了する。

【０２００】以上のように、機械翻訳部２において、そ
の処理の途中結果に基づいて、音声認識部１に対して、
要求信号を、フィードバック情報としてフィードバック
し、音声認識部１において、その要求に応じた処理を行
うようにした場合には、音声に対して、容易に、高度な
自然言語処理を施すことが可能となる。

【０２０１】即ち、この場合、音声認識部１では、比較
的簡易な音声認識処理を行い、機械翻訳部２において、
その音声認識結果の処理の最中に、疑問が生じたとき
や、新たな情報が必要になったときに、音声認識部１に
その疑問を解決するための処理や必要な情報を要求する
ことができる。その結果、機械翻訳部２では、音声に対
して、容易に、高度な自然言語処理を施すことが可能と
なる。

【０２０２】また、この場合、発話者に、再度発話を行
うように催促したり、音声認識結果が正しいかどうかを
確認する必要もない。

【０２０３】なお、本実施の形態では、機械翻訳部２に
おいて、日本語文のパターンを有するテンプレートを用
いて翻訳を行うようにしたが、翻訳は、その他、例え
ば、用例を用いて行うようにすることも可能である。

【０２０４】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
専用のハードウェアとしての音声処理システムに組み込
まれているコンピュータや、汎用のコンピュータ等にイ
ンストールされる。

【０２０５】そこで、図３０を参照して、上述した一連
の処理を実行するプログラムをコンピュータにインスト
ールし、コンピュータによって実行可能な状態とするた
めに用いられる、そのプログラムが記録されている記録
媒体について説明する。

【０２０６】プログラムは、図３０（Ａ）に示すよう
に、コンピュータ１０１に内蔵されている記録媒体とし
てのハードディスク１０２や半導体メモリ１０３に予め
記録しておくことができる。

【０２０７】あるいはまた、プログラムは、図３０
（Ｂ）に示すように、フロッピーディスク１１１、CD-R
OM(Compact Disc Read Only Memory)１１２，MO(Magnet
o optical)ディスク１１３，DVD(Digital Versatile Di
sc)１１４、磁気ディスク１１５、半導体メモリ１１６
などの記録媒体に、一時的あるいは永続的に格納（記
録）しておくことができる。このような記録媒体は、い
わゆるパッケージソフトウエアとして提供することがで
きる。

【０２０８】なお、プログラムは、上述したような記録
媒体からコンピュータにインストールする他、図３０
（Ｃ）に示すように、ダウンロードサイト１２１から、
ディジタル衛星放送用の人工衛星１２２を介して、コン
ピュータ１０１に無線で転送したり、LAN(Local Area N
etwork)、インターネットといったネットワーク１３１
を介して、コンピュータ１２３に有線で転送し、コンピ
ュータ１０１において、内蔵するハードディスク１０２
などにインストールすることができる。

【０２０９】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０２１０】また、プログラムは、１のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。

【０２１１】次に、図３１は、図３０のコンピュータ１
０１の構成例を示している。

【０２１２】コンピュータ１０１は、図３１に示すよう
に、CPU(Central Processing Unit)１４２を内蔵してい
る。CPU１４２には、バス１４１を介して、入出力イン
タフェース１４５が接続されており、CPU１４２は、入
出力インタフェース１４５を介して、ユーザによって、
キーボードやマウス等で構成される入力部１４７が操作
されることにより指令が入力されると、それにしたがっ
て、図３０（Ａ）の半導体メモリ１０３に対応するROM
(Read Only Memory)１４３に格納されているプログラム
を実行する。あるいは、また、CPU１４２は、ハードデ
ィスク１０２に格納されているプログラム、衛星１２２
若しくはネットワーク１３１から転送され、通信部１４
８で受信されてハードディスク１０２にインストールさ
れたプログラム、またはドライブ１４９に装着されたフ
ロッピディスク１１１、CD-ROM１１２、MOディスク１１
３、DVD１１４、若しくは磁気ディスク１１５から読み
出されてハードディスク１０２にインストールされたプ
ログラムを、RAM(Random Access Memory)１４４にロー
ドして実行する。そして、CPU１４２は、その処理結果
を、例えば、入出力インタフェース１４５を介して、LC
D(Liquid CryStal Display)等で構成される表示部１４
６に、必要に応じて出力する。

【０２１３】

【発明の効果】本発明の音声処理装置および音声処理方
法、並びに記録媒体によれば、音声認識結果を対象とす
る自然言語処理によって得られる情報がフィードバック
され、そのフィードバックされる情報に基づいて処理が
行われる。従って、例えば、音声認識に用いるモデルの
適応を、ユーザに負担をかけることなく、かつ精度良く
行うこと等が可能となる。

【図面の簡単な説明】

【図１】本発明を適用した音声処理システムの一実施の
形態の構成例を示すブロック図である。

【図２】図１の音声処理システムの動作の概要を説明す
るための図である。

【図３】音声認識部１の第１の構成例を示すブロック図
である。

【図４】機械翻訳部２の第１の構成例を示すブロック図
である。

【図５】音声合成部３の構成例を示すブロック図であ
る。

【図６】対話管理部５の第１の構成例を示すブロック図
である。

【図７】音声処理システムの第１の動作例を説明するた
めのフローチャートである。

【図８】対話管理部５の第２の構成例を示すブロック図
である。

【図９】音声処理システムの第２の動作例を説明するた
めのフローチャートである。

【図１０】対話管理部５の第３の構成例を示すブロック
図である。

【図１１】音声処理システムの第３の動作例を説明する
ためのフローチャートである。

【図１２】対話管理部５の第４の構成例を示すブロック
図である。

【図１３】音声処理システムの第４の動作例を説明する
ためのフローチャートである。

【図１４】音声認識部１の第２の構成例を示すブロック
図である。

【図１５】機械翻訳部２の第２の構成例を示すブロック
図である。

【図１６】音声処理システムの第５の動作例を説明する
ためのフローチャートである。

【図１７】図１４の音声認識部１の動作を説明するため
のフローチャートである。

【図１８】図１５の機械翻訳部２の動作を説明するため
のフローチャートである。

【図１９】音声認識部１の第３の構成例を示すブロック
図である。

【図２０】機械翻訳部２の第３の構成例を示すブロック
図である。

【図２１】図２０の言語処理部２２の構成例を示すブロ
ック図である。

【図２２】シソーラスを示す図である。

【図２３】図２０の機械翻訳部２の第１の動作例を説明
するためのフローチャートである。

【図２４】マッチング部５１において行われるテンプレ
ートを選択する処理を説明するためのフローチャートで
ある。

【図２５】「橋」、「端」、および「箸」のアクセント
を示す図である。

【図２６】図２０の機械翻訳部２の第２の動作例を説明
するためのフローチャートである。

【図２７】音声認識部１の第４の構成例を示すブロック
図である。

【図２８】機械翻訳部２の第４の構成例を示すブロック
図である。

【図２９】図２８の機械翻訳部２の動作を説明するため
のフローチャートである。

【図３０】本発明を適用した記録媒体を説明するための
図である。

【図３１】図３０のコンピュータ１０１の構成例を示す
ブロック図である。

【符号の説明】

１音声認識部，２機械翻訳部，３音声合成
部，４表示部，５対話管理部，１１マイク
（マイクロフォン），１２ＡＤ変換部，１３特
徴抽出部，１４特徴量バッファ，１５マッチン
グ部，１６音響モデルデータベース，１７辞書
データベース，１８文法データベース，１９適
応処理部，２０分野別辞書群，２１テキスト解
析部，２２言語変換部，２３テキスト生成部，
２４辞書データベース，２５解析用文法データベ
ース，２６言語変換データベース，２７辞書デ
ータベース，２８生成用文法データベース，２９
変換結果修正部，３０変換結果バッファ，３１
テキスト解析部，３２規則合成部，３３ＤＡ変換
部，３４辞書データベース，３５解析用文法デ
ータベース，３６音素片データベース，４１対話
処理部，４２音声区間検出部，４３修正部，４
４信頼度計算部，４５タスク推定部，５１マ
ッチング部，５２シソーラス辞書，５３テンプ
レートテーブル，６１分野推定部，１０１コン
ピュータ，１０２ハードディスク，１０３半導
体メモリ，１１１フロッピーディスク，１１２
CD-ROM，１１３ MOディスク，１１４ DVD，１
１５磁気ディスク，１１６半導体メモリ，１２
１ダウンロードサイト，１２２衛星，１３１
ネットワーク，１４１バス，１４２ CPU，１４
３ ROM，１４４ RAM，１４５入出力インタフェー
ス，１４６表示部，１４７入力部，１４８
通信部，１４９ドライブ

───────────────────────────────────────────────────── フロントページの続き (72)発明者小川浩明東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者包洪長東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5B091 AA15 CB12 EA01 5D015 AA05 BB02 GG01 HH00 HH04 KK04 LL04 LL06 9A001 BB06 DD15 HH14 HH17 HH18 KK46

Claims

【特許請求の範囲】

【請求項１】音声を音声認識する音声認識手段と、前記音声認識手段による音声認識結果を対象として自然
言語処理を行う自然言語処理手段とを備える音声処理装
置であって、前記自然言語処理手段は、前記音声認識結果を対象とす
る自然言語処理によって得られる情報を、前記音声認識
手段に対してフィードバックするフィードバック手段を
含み、前記音声認識手段は、前記フィードバック手段からフィ
ードバックされる情報に基づいて処理を行う処理手段を
含むことを特徴とする音声処理装置。
【請求項２】前記音声認識手段は、前記音声を、モデ
ルを用いて認識し、前記処理手段は、前記フィードバック手段からフィード
バックされる情報に基づいて、前記モデルの適応を行う
ことを特徴とする請求項１に記載の音声処理装置。
【請求項３】前記フィードバック手段は、前記モデル
の適応に利用すべき音声認識結果の区間、または利用す
べきでない音声認識結果の区間のうちの少なくとも一方
をフィードバックすることを特徴とする請求項２に記載
の音声処理装置。
【請求項４】前記フィードバック手段は、確からしい
前記音声認識結果をフィードバックすることを特徴とす
る請求項２に記載の音声処理装置。
【請求項５】前記フィードバック手段は、前記音声認
識結果の信頼性をフィードバックすることを特徴とする
請求項２に記載の音声処理装置。
【請求項６】前記フォードバック手段は、前記音声認
識結果の内容が属するタスクをフィードバックすること
を特徴とする請求項２に記載の音声処理装置。
【請求項７】前記フィードバック手段は、前記モデルの適応に利用すべき音声認識結果の区間、若
しくは利用すべきでない音声認識結果の区間のうちの少
なくとも一方、確からしい前記音声認識結果、前記音声認識結果の信頼性、または前記音声認識結果の内容が属するタスクのうちの
１以上をフィードバックすることを特徴とする請求項２
に記載の音声処理装置。
【請求項８】前記音声を音声認識する音声認識ステッ
プと、前記音声認識ステップによる音声認識結果を対象として
自然言語処理を行う自然言語ステップとを備える音声処
理方法であって、前記自然言語処理ステップは、前記音声認識結果を対象
とする自然言語処理によって得られる情報を、前記音声
認識ステップに対してフィードバックするフィードバッ
クステップを含み、前記音声認識ステップは、前記フィードバックステップ
からフィードバックされる情報に基づいて処理を行う処
理ステップを含むことを特徴とする音声処理方法。
【請求項９】音声を、コンピュータに処理させるプロ
グラムが記録されている記録媒体であって、前記音声を音声認識する音声認識ステップと、前記音声認識ステップによる音声認識結果を対象として
自然言語処理を行う自然言語ステップとを備えるプログ
ラムが記録されている記録媒体であって、前記自然言語処理ステップは、前記音声認識結果を対象
とする自然言語処理によって得られる情報を、前記音声
認識ステップに対してフィードバックするフィードバッ
クステップを含み、前記音声認識ステップは、前記フィードバックステップ
からフィードバックされる情報に基づいて処理を行う処
理ステップを含むことを特徴とする記録媒体。