JP2001100781A - 音声処理装置および音声処理方法、並びに記録媒体 - Google Patents

音声処理装置および音声処理方法、並びに記録媒体

Info

Publication number
JP2001100781A
JP2001100781A JP27774599A JP27774599A JP2001100781A JP 2001100781 A JP2001100781 A JP 2001100781A JP 27774599 A JP27774599 A JP 27774599A JP 27774599 A JP27774599 A JP 27774599A JP 2001100781 A JP2001100781 A JP 2001100781A
Authority
JP
Japan
Prior art keywords
unit
speech recognition
processing
speech
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP27774599A
Other languages
English (en)
Inventor
Hitoshi Honda
等 本田
Masanori Omote
雅則 表
Hiroaki Ogawa
浩明 小川
Hironaga Tsutsumi
洪長 包
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP27774599A priority Critical patent/JP2001100781A/ja
Priority to EP00308460A priority patent/EP1089256A3/en
Priority to US09/676,644 priority patent/US6879956B1/en
Publication of JP2001100781A publication Critical patent/JP2001100781A/ja
Priority to US11/075,560 priority patent/US7158934B2/en
Priority to US11/075,561 priority patent/US7236922B2/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Abstract

(57)【要約】 【課題】 音声認識に用いるモデルの適応を、ユーザに
負担をかけることなく、かつ精度良く行う。 【解決手段】 音声認識部1では、そこに入力される音
声が、例えば、HMM(Hidden Markov Model)等のモデ
ルに基づいて音声認識され、その音声認識結果が、対話
管理部5に供給される。対話管理部5では、音声認識部
1からの音声認識結果に対する返答が生成される。この
場合において、対話管理部5は、音声認識部1からの音
声認識結果と、その返答とに基づいて、音声認識結果が
正しい音声区間を検出し、その音声区間を、音声認識部
1にフィードバックする。音声認識部1では、対話管理
部5からフィードバックされる音声区間の音声と、その
音声認識結果に基づいて、モデルのオンライン適応が行
われる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声処理装置およ
び音声処理方法、並びに記録媒体に関し、特に、例え
ば、音声認識に用いるモデルの適応を、容易かつ高精度
に行うこと等ができるようにする音声処理装置および音
声処理方法、並びに記録媒体に関する。
【0002】
【従来の技術】音声認識のアルゴリズムとしては、例え
ば、HMM(Hidden Markov Model)法などの、入力され
た音声(入力音声)を、モデルを用いて認識するものが
知られている。即ち、HMM法では、あらかじめ学習に
よって、遷移確率(ある状態から、他の状態に遷移する
確率)や、出力確率(状態が遷移するときに、あるシン
ボルが出力される確率)で規定されるモデル(HMM)
が求められ、そのモデルを用いて、入力音声が認識され
る。
【0003】ところで、音声認識を行う場合において、
その認識精度を向上させるために、入力音声を用いて、
逐次的に、モデルの適応を行うオンライン適応処理が知
られている。オンライン適応処理によれば、話者の発話
量に応じて段階的に音響モデルの高精度化や、言語モデ
ルのタスク適応化等を図ることができ、従って、オンラ
イン適応処理は、認識率を向上させるために、非常に有
効な手段の1つである。
【0004】
【発明が解決しようとする課題】モデルの適応化の方法
は、いわゆる教師として、真の正解を与えて行われる
「教師あり」の方法と、教師として、正解であると推測
されるデータ(従って、正解かどうかは分からないデー
タ)を与えて行われる「教師なし」の方法の2種類に大
別される。
【0005】従来、「教師なし」の方法としては、例え
ば、特開平11−85184号公報に記載されているも
の等があり、音声認識装置において、その音声認識結果
を教師として、入力音声を用いて、モデルの適応が行わ
れる。従って、従来の「教師なし」の方法では、モデル
の適応において、音声認識結果が正しいかどうかを、ユ
ーザに確認しないため、ユーザの負担が少ない反面、教
師として使用されるデータの信頼性が十分でないことが
あり、モデルが話者に対して十分に適応しないことがあ
る。
【0006】一方、「教師あり」の方法としては、例え
ば、Q. Huo et al., "A study of on-line Quasi-Bayes
adaptation for DCHMM-bases speech recognition", P
roceedings of International Conference on Acoustic
s, Speech and Signal Processing 1996, pp.705-708に
記載されているもの等があり、音声認識装置において、
ユーザに対して、一定の発話を要求し、その要求によっ
て得られるユーザの発話を用いて、モデルの適応が行わ
れる。あるいは、また、音声認識装置において、音声認
識結果が正しい(正解である)かどうかの確認を、ユー
ザにしてもらい、正しいことが確認された音声認識結果
を用いて、モデルの適応が行われる。
【0007】しかしながら、ユーザに、一定の発話を要
求してモデルの適応を行う方法は、オンライン適応に不
向きである。また、ユーザに、音声認識結果の確認をし
てもらってモデルの適応を行う方法では、ユーザの負担
が大になる。
【0008】さらに、モデルの適応を行う方法として
は、例えば、特開平10−198395号公報におい
て、言語モデル、あるいは、言語モデルを作成するため
のデータを、特定の分野や話題等のタスク別に用意し、
タスク別の言語モデル等を組み合わせて、高精度のタス
ク適応言語モデルを、オフラインで作成する方法が記載
されているが、この方法によって、オンライン適応を行
う場合には、発話内容のタスクを推定する必要があり、
従って、音声認識装置を単独で用いて行うのは困難であ
る。
【0009】本発明は、このような状況に鑑みてなされ
たものであり、例えば、音声認識に用いるモデルの適応
を、ユーザに負担をかけることなく、かつ精度良く行う
こと等ができるようにするものである。
【0010】
【課題を解決するための手段】本発明の音声処理装置
は、自然言語処理手段が、音声認識結果を対象とする自
然言語処理によって得られる情報を、音声認識手段に対
してフィードバックするフィードバック手段を含み、音
声認識手段が、フィードバック手段からフィードバック
される情報に基づいて処理を行う処理手段を含むことを
特徴とする。
【0011】音声認識手段には、音声を、モデルを用い
て認識させ、処理手段には、フィードバック手段からフ
ィードバックされる情報に基づいて、モデルの適応を行
わせることができる。
【0012】フィードバック手段には、モデルの適応に
利用すべき音声認識結果の区間、または利用すべきでな
い音声認識結果の区間のうちの少なくとも一方をフィー
ドバックさせることができる。また、フィードバック手
段には、確からしい音声認識結果をフィードバックさせ
ることができる。さらに、フィードバック手段には、音
声認識結果の信頼性をフィードバックさせることができ
る。また、フォードバック手段には、音声認識結果の内
容が属するタスクをフィードバックさせることができ
る。
【0013】フィードバック手段には、モデルの適応に
利用すべき音声認識結果の区間、若しくは利用すべきで
ない音声認識結果の区間のうちの少なくとも一方、確か
らしい音声認識結果、音声認識結果の信頼性、または音
声認識結果の内容が属するタスクのうちの1以上をフィ
ードバックさせることができる。
【0014】本発明の音声処理方法は、自然言語処理ス
テップが、音声認識結果を対象とする自然言語処理によ
って得られる情報を、音声認識ステップに対してフィー
ドバックするフィードバックステップを含み、音声認識
ステップが、フィードバックステップからフィードバッ
クされる情報に基づいて処理を行う処理ステップを含む
ことを特徴とする。
【0015】本発明の記録媒体は、自然言語処理ステッ
プが、音声認識結果を対象とする自然言語処理によって
得られる情報を、音声認識ステップに対してフィードバ
ックするフィードバックステップを含み、音声認識ステ
ップが、フィードバックステップからフィードバックさ
れる情報に基づいて処理を行う処理ステップを含むこと
を特徴とする。
【0016】本発明の音声処理装置および音声処理方
法、並びに記録媒体においては、音声認識結果を対象と
する自然言語処理によって得られる情報がフィードバッ
クされ、そのフィードバックされる情報に基づいて処理
が行われる。
【0017】
【発明の実施の形態】図1は、本発明を適用した音声処
理システム(システムとは、複数の装置が論理的に集合
した物をいい、各構成の装置が同一筐体中にあるか否か
は問わない)の一実施の形態の構成例を示している。
【0018】この音声処理システムでは、音声が入力さ
れると、その音声に対する返答が出力されたり、また、
その音声の対訳が出力されるようになっている。さら
に、入力された音声に対する返答を、その音声の言語以
外の言語に翻訳して出力することもできるようになって
いる。
【0019】即ち、音声認識部1には、例えば日本語な
どによる音声が入力されるようになっており、音声認識
部1は、入力された音声を音声認識し、その音声認識結
果としてのテキスト、その他付随する情報を、機械翻訳
部2や、表示部4、対話管理部5などに、必要に応じて
出力する。
【0020】機械翻訳部2は、音声認識部1が出力する
音声認識結果を解析し、入力された音声の言語以外の、
例えば英語に機械翻訳し、その翻訳結果としてのテキス
ト、その他付随する情報を、音声合成部3や、表示部
4、対話管理部5などに、必要に応じて出力する。音声
合成部3は、機械翻訳部2や対話管理部5などの出力に
基づいて音声合成処理を行い、これにより、入力された
音声に対する返答、あるいはその音声の、他の言語への
翻訳結果としての合成音を出力する。
【0021】表示部4は、例えば、液晶ディスプレイ等
で構成され、音声認識部1による音声認識結果や、機械
翻訳部2による機械翻訳結果、対話管理部5が生成する
返答等を、必要に応じて表示する。
【0022】対話管理部5は、音声認識部1の音声認識
結果に対する応答を生成し、機械翻訳部2や、音声合成
部3、表示部4、対話管理部5に、必要に応じて出力す
る。さらに、対話管理部5は、機械翻訳部2の機械翻訳
結果に対する応答を生成し、音声合成部3や、表示部4
に、必要に応じて出力する。
【0023】以上のように構成される音声処理システム
において、入力された音声に対する返答を出力する場合
には、まず、その入力された音声が、音声認識部1で音
声認識され、対話管理部5に出力される。対話管理部5
では、音声認識部1による音声認識結果に対する応答が
生成され、音声合成部3に供給される。音声合成部3で
は、対話管理部5からの応答に対応する合成音が生成さ
れて出力される。
【0024】また、入力された音声の対訳を出力する場
合には、その入力された音声が、音声認識部1で音声認
識され、機械翻訳部2に供給される。機械翻訳部2で
は、音声認識部1による音声認識結果が機械翻訳され、
音声合成部3に供給される。音声合成部3では、機械翻
訳部2からの翻訳結果に対応する合成音が生成されて出
力される。
【0025】さらに、入力された音声に対する返答を、
その音声の言語以外の言語に翻訳して出力する場合に
は、まず、その入力された音声が、音声認識部1で音声
認識され、対話管理部5に出力される。対話管理部5で
は、音声認識部1による音声認識結果に対する返答が生
成され、機械翻訳部2に供給される。機械翻訳部2で
は、対話管理部5からの返答が機械翻訳され、音声合成
部3に供給される。音声合成部3では、機械翻訳部2か
らの翻訳結果に対応する合成音が生成されて出力され
る。
【0026】なお、入力された音声に対する返答を、そ
の音声の言語以外の言語に翻訳して出力する場合には、
音声認識部1による音声認識結果を、機械翻訳部2で機
械翻訳し、その翻訳結果に対する応答を、対話管理部5
で生成し、合成音で出力するようにすることも可能であ
る。
【0027】次に、図1の音声処理システムでは、図2
に示すように、ユーザの発話(入力音声)が、音声認識
部1において音声認識され、その音声認識結果が、機械
翻訳や対話管理等の自然言語処理を行う自然言語処理部
としての機械翻訳部2や対話管理部5で処理されるが、
機械翻訳部2や対話管理部5では、音声認識結果を対象
とする自然言語処理によって得られる情報が、音声認識
部1に対してフィードバックされ、音声認識部1では、
このようにしてフィードバックされる情報(以下、適
宜、フィードバック情報という)に基づいて各種の処理
が行われるようになっている。
【0028】具体的には、例えば、機械翻訳部2や対話
管理部5では、音声認識部1で用いられるモデルの適応
を行うのに有用な情報がフィードバックされ、音声認識
部1では、その情報に基づいて、モデルの適応が行われ
る。また、例えば、機械翻訳部2や対話管理部5では、
音声認識部1による音声認識結果の自然言語処理を行い
易いように、その構成単位を変更するための情報がフィ
ードバックされ、音声認識部1では、その情報に基づい
て、音声認識結果の構成単位を変更するための処理が行
われる。さらに、例えば、機械翻訳部2や対話管理部5
では、音声認識部1による音声認識結果の誤りを修正等
するための情報がフィードバックされ、音声認識部1で
は、その情報に基づいて、正しい音声認識結果を得るた
めの処理が行われる。
【0029】次に、図3は、図1の音声認識部1の第1
の構成例を示している。
【0030】ユーザの発話は、マイク11に入力され、
マイク11では、その発話が、電気信号としての音声信
号に変換される。この音声信号は、AD(Analog Digita
l)変換部12に供給される。AD変換部12では、マイ
ク11からのアナログ信号である音声信号がサンプリン
グ、量子化され、ディジタル信号である音声データに変
換される。この音声データは、特徴抽出部13に供給さ
れる。
【0031】特徴抽出部13は、AD変換部12からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、線形予測係数、ケプストラム係数、線ス
ペクトル対等の特徴パラメータを抽出し、特徴量バッフ
ァ14およびマッチング部15に供給する。特徴量バッ
ファ14では、特徴抽出部13からの特徴パラメータが
一時記憶される。
【0032】マッチング部15は、特徴抽出部13から
の特徴パラメータ、または特徴量バッファ14に記憶さ
れた特徴パラメータに基づき、音響モデルデータベース
16、辞書データベース17、および文法データベース
18を必要に応じて参照しながら、マイク11に入力さ
れた音声(入力音声)を認識する。
【0033】即ち、音響モデルデータベース16は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、HMM(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス17は、認識対象の各単語について、その発音に関す
る言語モデルが記述された単語辞書を記憶している。文
法データベース18は、辞書データベース17の単語辞
書に登録されている各単語が、どのように連鎖する(つ
ながる)かを記述した文法規則を記憶している。ここ
で、文法規則としては、例えば、文脈自由文法(CF
G)や、統計的な単語連鎖確率(N−gram)などに
基づく規則を用いることができる。
【0034】マッチング部15は、辞書データベース1
7の単語辞書を参照することにより、音響モデルデータ
ベース16に記憶されている音響モデルを接続すること
で、単語の音響モデル(単語モデル)を構成する。さら
に、マッチング部15は、幾つかの単語モデルを、文法
データベース18に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、HMM法等
によって、マイク11に入力された音声を認識する。
【0035】そして、マッチング部15による音声認識
結果は、例えば、テキスト等で出力される。
【0036】一方、適応処理部19は、マッチング部1
5による音声認識結果を受信しており、例えば、対話管
理部5等から、後述するようなフィードバック情報を受
信すると、そのフィードバック情報に基づいて、マッチ
ング部15による音声認識結果から、音響モデルデータ
ベース16の音響モデルや、辞書データベース17の言
語モデルの適応を行うのに適切なものを得て(精度の良
い適応を行うのに、教師として用いるべき音声認識結果
を得て)、その音声認識結果を教師として、音響モデル
データベース16の音響モデルや、辞書データベース1
7の言語モデル(以下、適宜、両方含めて、単に、モデ
ルという)のオンライン適応を行う。
【0037】ここで、例えば、音響モデルとして、HM
Mが採用されている場合には、適応処理部19では、そ
のHMMを表す遷移確率、あるいは出力確率を規定する
平均値および分散等のモデルのパラメータを、音声認識
結果を用いて変更することで、モデルの適応が行われ
る。
【0038】次に、図4は、図1の機械翻訳部2の第1
の構成例を示している。
【0039】テキスト解析部21には、音声認識部1が
出力する音声認識結果としてのテキストや、対話管理部
5が出力する返答としてのテキストが、機械翻訳の対象
として入力されるようになっており、テキスト解析部2
1は、辞書データベース24や解析用文法データベース
25を参照しながら、そのテキストを解析する。
【0040】即ち、辞書データベース24には、各単語
の表記や、解析用文法を適用するために必要な品詞情報
などが記述された単語辞書が記憶されている。また、解
析用文法データベース25には、単語辞書に記述された
各単語の情報に基づいて、単語連鎖に関する制約等が記
述された解析用文法規則が記憶されている。そして、テ
キスト解析部21は、その単語辞書や解析用文法規則に
基づいて、そこに入力されるテキスト(入力テキスト)
の形態素解析や、構文解析等を行い、その入力テキスト
を構成する単語や構文の情報等の言語情報を抽出する。
ここで、テキスト解析部21における解析方法として
は、例えば、正規文法や、文脈自由文法、統計的な単語
連鎖確率を用いたものなどがある。
【0041】テキスト解析部21で得られた入力テキス
トの解析結果としての言語情報は、言語変換部22に供
給される。言語変換部22は、言語変換データベース2
6を参照し、入力テキストの言語の言語情報を、翻訳結
果の言語の言語情報に変換する。
【0042】即ち、言語変換データベース26には、入
力言語(言語変換部22への入力の言語)の言語情報か
ら、出力言語(言語変換部22からの出力の言語)の言
語情報への変換パターン(テンプレート)や、入力言語
と出力言語との対訳用例およびその対訳用例と入力言語
との間の類似度の計算に用いられるシソーラス等の、言
語情報を変換するための言語変換データが記憶されてい
る。そして、言語変換部22では、このような言語変換
データに基づいて、入力テキストの言語の言語情報が、
出力言語の言語情報に変換される。
【0043】言語変換部22で得られた出力言語の言語
情報は、テキスト生成部23に供給され、テキスト生成
部23は、辞書データベース27および生成用文法デー
タベース28を参照することにより、出力言語の言語情
報から、入力テキストを出力言語に翻訳したテキストを
生成する。
【0044】即ち、辞書データベース27には、出力言
語の文を生成するのに必要な単語の品詞や活用形等の情
報が記述された単語辞書が記憶されており、また、生成
用文法データベース28には、出力言語の文を生成する
のに必要な単語の活用規則や語順の制約等の生成用文法
規則が記憶されている。そして、テキスト生成部23
は、これらの単語辞書および生成用文法規則に基づい
て、言語変換部22からの言語情報を、テキストに変換
して出力する。
【0045】次に、図5は、図1の音声合成部3の構成
例を示している。
【0046】テキスト解析部31には、機械翻訳部2が
出力する翻訳結果としてのテキストや、対話管理部5が
出力する返答としてのテキストが、音声合成処理の対象
として入力されるようになっており、テキスト解析部3
1は、辞書データベース34や解析用文法データベース
35を参照しながら、そのテキストを解析する。
【0047】即ち、辞書データベース34には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、また、解析用文法データベ
ース35には、辞書データベース34の単語辞書に記述
された単語について、単語連鎖に関する制約等の解析用
文法規則が記憶されている。そして、テキスト解析部3
1は、この単語辞書および解析用文法規則に基づいて、
そこに入力されるテキストの形態素解析や構文解析等の
解析を行い、後段の規則合成部32で行われる規則音声
合成に必要な情報を抽出する。ここで、規則音声合成に
必要な情報としては、例えば、ポーズの位置や、アクセ
ントおよびイントネーションを制御するための情報その
他の韻律情報や、各単語の発音等の音韻情報などがあ
る。
【0048】テキスト解析部31で得られた情報は、規
則合成部32に供給され、規則合成部32では、音素片
データベース36を用いて、テキスト解析部31に入力
されたテキストに対応する合成音の音声データ(ディジ
タルデータ)が生成される。
【0049】即ち、音素片データベース36には、例え
ば、CV(Consonant, Vowel)や、VCV、CVC等の形
で音素片データが記憶されており、規則合成部32は、
テキスト解析部31からの情報に基づいて、必要な音素
片データを接続し、さらに、ポーズ、アクセント、イン
トネーション等を適切に付加することで、テキスト解析
部31に入力されたテキストに対応する合成音の音声デ
ータを生成する。
【0050】この音声データは、DA変換部33に供給
され、そこで、アナログ信号としての音声信号に変換さ
れる。この音声信号は、図示せぬスピーカに供給され、
これにより、テキスト解析部31に入力されたテキスト
に対応する合成音が出力される。
【0051】次に、図6は、図1の対話管理部5の第1
の構成例を示している。
【0052】例えば、音声認識部1による音声認識結果
は、対話処理部41および音声区間検出部42に供給さ
れるようになっており、対話処理部41は、その音声認
識結果に対する返答を生成して出力する。一方、音声区
間検出部42は、対話処理部41が出力する返答を監視
しており、その返答に基づいて、音声認識部1が出力す
る音声認識結果の区間から、モデルの適応に利用すべき
部分の区間(以下、適宜、適応用区間という)を検出
し、その適応用区間を、フィードバック情報として、音
声認識部1(の適応処理部19)にフィードバックす
る。
【0053】なお、ここでは、音声区間検出部42にお
いて、モデルの適応に利用すべき音声認識結果の区間
を、フィードバック情報として、音声認識部1にフィー
ドバックするようにしたが、その他、例えば、モデルの
適応に利用すべきでない音声認識結果の区間や、モデル
の適応に利用すべき音声認識結果の区間と、利用すべき
でない音声認識結果の区間の両方をフィードバックする
ようにしても良い。
【0054】次に、図7のフローチャートを参照して、
音声認識部1が図3に示したように、対話管理部5が図
6に示したように、それぞれ構成される場合の、図1の
音声処理システムの動作について説明する。
【0055】ユーザが発話を行い、音声認識部1に対し
て、そのユーザの発話である音声が入力されると、音声
認識部1では、ステップS1において、その音声が音声
認識され、その音声認識結果としてのテキストが、例え
ば、対話管理部5に出力される。
【0056】対話管理部5では、ステップ2において、
対話処理部41が、音声認識部1からの音声認識結果に
対する返答を生成する対話処理を行い、その返答を出力
する。 そして、ステップS3に進み、音声区間検出部
42は、対話処理部41が出力した返答から、音声認識
部1からの音声認識結果が正しいかどうかを判定する。
ステップS3において、音声認識部1からの音声認識結
果が正しくないと判定された場合、ステップS4および
S5をスキップして、処理を終了する。
【0057】一方、ステップS3において、音声認識部
1からの音声認識結果が正しいと判定された場合、音声
区間検出部42は、音声認識部1からの音声認識結果か
ら、正しい部分を検出し、その部分の区間を、適応用区
間として、音声認識部1(図3)の適応処理部19に送
信する。
【0058】適応処理部19では、ステップS5におい
て、マッチング部15が出力する音声認識結果のうち、
音声区間検出部42が出力する適応用区間の部分のみを
用いて、モデルの適応が行われ、処理を終了する。
【0059】以上の処理によれば、音声認識に用いるモ
デルの適応を、ユーザに負担をかけることなく、かつ精
度良く行うことができる。
【0060】即ち、例えば、いま、図1の音声処理シス
テムと、ユーザとの間で、以下のような、コンサートの
チケットの購入に関する対話が行われたとする。
【0061】 ユーザ:「こんにちは。9月11日のベルリンフィルのチケットがほしいんだけ ど。」 ・・・(1) 返答:「9月11日、ベルリンフィルのチケットですね。S席からD席まであり ますが、何席に致しましょうか?」 ・・・(2) ユーザ:「S席で。」 ・・・(3) 返答:「A席ですね。」 ・・・(4) ユーザ:「いや、S席。」 ・・・(5) 返答:「S席ですね。1階の4列目24番の席をお取り致します。2万8千円で すが、よろしいでしょうか?」 ・・・(6) ユーザ:「それでお願い。」 ・・・(7) 返答:「かしこまりました。」 ・・・(8)
【0062】(1)乃至(8)の対話において、音声区
間検出部42では、ユーザの発話(1)、(5)、
(7)の音声認識結果は、それぞれに対する返答
(2)、(6)、(8)から正しいと判定される。一
方、ユーザの発話(3)の音声認識結果は、それに対す
る返答(4)に対して、ユーザが言い直しの発話(5)
を行っているので、誤っていると判定される。
【0063】この場合、音声区間検出部42は、ユーザ
の発話(1)、(5)、(7)についての、正しい音声
認識結果の区間を、フィードバック情報として、適応処
理部19にフィードバックし(誤っていると判定された
ユーザの発話(3)の音声認識結果の区間はフィードバ
ックされない)、その結果、適応処理部19では、この
正しい音声認識結果の区間だけを用いて、即ち、その正
しい音声認識結果を教師とするとともに、その音声認識
結果に対応する音声区間のユーザの発話を生徒として、
モデルの適応が行われる。
【0064】従って、誤った音声認識結果を用いずに、
正しい音声認識結果だけを用いて、モデルの適応が行わ
れるので、精度の良い(認識率を向上させるように)、
モデルの適応を行うことができる。さらに、この場合、
ユーザに負担をかけることもない。
【0065】次に、図8は、図1の対話管理部5の第2
の構成例を示している。なお、図中、図6における場合
と対応する部分については、同一の符号を付してある。
即ち、図8の対話管理部5は、音声区間検出部42に替
えて、修正部43が設けられている他は、図6における
場合と同様に構成されている。
【0066】修正部43は、対話処理部41が出力する
返答を監視しており、その返答に基づいて、音声認識部
1が出力する音声認識結果が正しいかどうかを判定し、
正しい場合には、その音声認識結果を、そのままフォー
ドバック情報として、適応処理部19にフィードバック
する。また、修正部43は、音声認識部1が出力する音
声認識結果が誤っている場合には、その音声認識結果を
正しく(確からしく)修正し、フォードバック情報とし
て、適応処理部19にフィードバックする。
【0067】次に、図9のフローチャートを参照して、
音声認識部1が図3に示したように、対話管理部5が図
8に示したように、それぞれ構成される場合の、図1の
音声処理システムの動作について説明する。
【0068】ステップS11またはS12では、図7の
ステップS1またはS2における場合とそれぞれ同様の
処理が行われ、これにより、対話処理部41から、音声
認識部1による音声認識結果に対する返答が出力され
る。
【0069】そして、ステップS13に進み、修正部4
3は、対話処理部41が出力した返答から、音声認識部
1からの音声認識結果が正しいかどうかを判定する。ス
テップS13において、音声認識部1からの音声認識結
果が正しいと判定された場合、ステップS14に進み、
修正部43は、その正しい音声認識結果を、フィードバ
ック情報として、音声認識部1の適応処理部19に送信
する。
【0070】適応処理部19では、ステップS15にお
いて、修正部43からのフィードバック情報としての正
しい音声認識結果を用いて、モデルの適応が行われ、処
理を終了する。
【0071】一方、ステップS13において、音声認識
部1からの音声認識結果が誤っていると判定された場
合、修正部43は、音声認識部1からの音声認識結果
を、対話処理部41からの返答に基づいて正しく(確か
らしく)修正し、その修正した音声認識結果を、フィー
ドバック情報として、音声認識部1の適応処理部19に
送信する。
【0072】適応処理部19では、ステップS15にお
いて、修正部43からの修正後の音声認識結果、即ち、
正しい(確からしい)音声認識結果を用いて、モデルの
適応が行われ、処理を終了する。
【0073】以上の処理によっても、音声認識に用いる
モデルの適応を、ユーザに負担をかけることなく、かつ
精度良く行うことができる。
【0074】即ち、例えば、いま、音声処理システムと
ユーザとの間で、上述の(1)乃至(8)の対話が行わ
れたとすると、修正部43では、ユーザの発話(1)、
(5)、(7)の音声認識結果は、それぞれに対する返
答(2)、(6)、(8)から正しいと判定される。一
方、ユーザの発話(3)の音声認識結果は、それに対す
る返答(4)に対して、ユーザが言い直しの発話(5)
を行っているので、誤っていると判定される。
【0075】この場合、修正部43は、ユーザの発話
(1)、(5)、(7)についての正しい音声認識結果
を、そのまま、フィードバック情報として、適応処理部
19にフィードバックし、適応処理部19では、この正
しい音声認識結果と、その音声認識結果に対するユーザ
の発話(1)、(5)、(7)とを用いて、モデルの適
応が行われる。
【0076】さらに、修正部43は、ユーザの発話
(3)についての誤った音声認識結果を、その後のユー
ザの発話(5)についての正しい音声認識結果に基づい
て修正する。即ち、修正部43では、ユーザの発話
(3)「S席で。」に対する返答(4)「A席です
ね。」について、その後のユーザの発話(5)「いや、
S席で。」の正しい音声認識結果から、ユーザの発話
(3)における「S」を、「A」に誤認識したことと、
その音声認識結果として、「S」が正しいこととが解析
される。そして、修正部43は、その解析結果に基づい
て、ユーザの発話(3)における「S」を「A」に誤認
識した音声認識結果を正しく修正し、その修正後の音声
認識結果を、フィードバック情報として、適応処理部1
9にフィードバックする。この場合、適応処理部19で
は、その修正後の音声認識結果と、その音声認識結果に
対するユーザの発話(3)とを用いて、モデルの適応が
行われる。
【0077】従って、音声認識結果が誤っていても、そ
れを、正しい(確からしい)音声認識結果に修正して、
モデルの適応が行われるので、精度の良い(認識率を向
上させるように)、モデルの適応を行うことができる。
さらに、この場合、ユーザに負担をかけることもない。
【0078】次に、図10は、図1の対話管理部5の第
3の構成例を示している。なお、図中、図6における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図10の対話管理部5は、音声区間検出部4
2に替えて、信頼度計算部44が設けられている他は、
図6における場合と同様に構成されている。
【0079】信頼度計算部44は、対話処理部41が出
力する返答を監視しており、その返答に基づいて、音声
認識部1が出力する音声認識結果の信頼性を表す信頼度
を算出し、その信頼度を、フォードバック情報として、
適応処理部19にフィードバックする。
【0080】次に、図11のフローチャートを参照し
て、音声認識部1が図3に示したように、対話管理部5
が図10に示したように、それぞれ構成される場合の、
図1の音声処理システムの動作について説明する。
【0081】ステップS21またはS22では、図7の
ステップS1またはS2における場合とそれぞれ同様の
処理が行われ、これにより、対話処理部41から、音声
認識部1による音声認識結果に対する返答が出力され
る。
【0082】そして、信頼度計算部44は、ステップS
23において、対話処理部41が出力した返答から、音
声認識部1からの音声認識結果の信頼度としての、例え
ば、0乃至1の範囲の実数値を計算し、ステップS24
に進み、その信頼度を、フィードバック情報として、音
声認識部1の適応処理部19に送信する。
【0083】適応処理部19では、ステップS25にお
いて、信頼度計算部44からのフィードバック情報とし
ての信頼度を用いて、モデルの適応が行われ、処理を終
了する。
【0084】以上の処理によっても、音声認識に用いる
モデルの適応を、ユーザに負担をかけることなく、かつ
精度良く行うことができる。
【0085】即ち、例えば、いま、音声処理システムと
ユーザとの間で、上述の(1)乃至(8)の対話が行わ
れたとすると、信頼度計算部44では、ユーザの発話
(1)、(5)、(7)の音声認識結果は、それぞれに
対する返答(2)、(6)、(8)から正しいと判定さ
れる。一方、ユーザの発話(3)の音声認識結果は、そ
れに対する返答(4)に対して、ユーザが言い直しの発
話(5)を行っているので、誤っていると判定される。
【0086】この場合、信頼度計算部44は、例えば、
ユーザの発話(1)、(5)、(7)についての正しい
音声認識結果の信頼度を、1として、また、ユーザの発
話(3)についての誤った音声認識結果の信頼度を、0
として、それぞれ、適応処理部19にフィードバックす
る。そして、適応処理部19では、ユーザの発話
(1)、(3)、(5)、(7)と、その音声認識結果
とを、それぞれの音声認識結果の信頼度に応じた重みで
用いて、モデルの適応が行われる。
【0087】従って、この場合、実質的に、正しい音声
認識結果だけを用いて、モデルの適応が行われるので、
精度の良い、モデルの適応を行うことができる。さら
に、この場合、ユーザに負担をかけることもない。
【0088】なお、信頼度としては、0と1の間の中間
値を用いることも可能であり、そのような中間値の信頼
度の算出は、例えば、音声認識部1による音声認識結果
の尤度を用いて行うことが可能である。さらに、そのよ
うな信頼度を用いたモデルの適応は、例えば、次式にし
たがって行うことが可能である。
【0089】Pnew=(1−(1−α)×R)×Pold
(1−α)×R×Padapt 但し、Pnewは、適応後のモデルのパラメータ(前述し
たように、モデルがHMMであれば、遷移確率や、出力
確率を規定する平均値および分散など)を表し、αは、
適応を行うための所定の定数を表す。また、Rは、信頼
度を表し、Poldは、適応前のモデルのパラメータを表
す。さらに、Padaptは、適応に用いるユーザの発話か
ら得られるデータを表す。
【0090】次に、図12は、図1の対話管理部5の第
4の構成例を示している。なお、図中、図6における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図12の対話管理部5は、音声区間検出部4
2に替えて、タスク推定部45が設けられている他は、
図6における場合と同様に構成されている。
【0091】タスク推定部45は、対話処理部41が出
力する返答を監視しており、その返答に基づいて、音声
認識部1が出力する音声認識結果の内容が属するタスク
を推定し、そのタスクを、フォードバック情報として、
適応処理部19にフィードバックする。
【0092】次に、図13のフローチャートを参照し
て、音声認識部1が図3に示したように、対話管理部5
が図10に示したように、それぞれ構成される場合の、
図1の音声処理システムの動作について説明する。な
お、ここでは、音声認識部1の辞書データベース17に
おいて、例えば、コンサートチケットの予約用の言語モ
デルや、ホテルの予約用の言語モデル、航空券の予約用
の言語モデル、新聞の読み上げ等のディクテーション用
の言語モデル、その他各種の言語モデルが各タスク別に
登録された辞書が記憶されているものとする。
【0093】この場合、ステップS31またはS32に
おいて、図7のステップS1またはS2における場合と
それぞれ同様の処理が行われ、これにより、対話処理部
41から、音声認識部1による音声認識結果に対する返
答が出力される。
【0094】そして、タスク推定部45は、ステップS
33において、対話処理部41が出力した返答から、音
声認識部1からの音声認識結果の内容が属するタスク
(その内容が、どのような分野、あるいは話題であるの
か)を認識し、ステップS34に進み、そのタスクを、
フィードバック情報として、音声認識部1の適応処理部
19に送信する。
【0095】適応処理部19では、ステップS35にお
いて、タスク推定部45からのフィードバック情報とし
てのタスクを用いて、モデルの適応が行われ、処理を終
了する。
【0096】即ち、例えば、いま、音声処理システムと
ユーザとの間で、上述の(1)乃至(8)の対話が行わ
れたとすると、タスク推定部45では、ユーザの発話の
音声認識結果と、それに対する返答とから、タスクが、
コンサートチケットの予約に関するものであることが推
定され、適応処理部19にフィードバックされる。この
場合、適応処理部19では、辞書データベース17にお
けるタスク別の言語モデルのうち、コンサートチケット
の予約用の言語モデルのみを対象とした適応が行われ
る。
【0097】従って、音声認識に用いるモデルの適応
を、ユーザに負担をかけることなく、かつ精度良く行う
こと等ができる。
【0098】なお、辞書データベース17には、言語モ
デルそのものではなく、言語モデルを作成するのに用い
るデータを、タスク別に記憶させておくようにし、その
ような辞書データベース17を対象として、適応を行う
ことも可能である。
【0099】また、上述の場合には、タスク別に用意さ
れた言語モデルの適応を行うようにしたが、その他、例
えば、音響モデルがタスク別に用意されている場合に
は、そのタスク別の音響モデルの適応を行うようにする
ことも可能である。
【0100】即ち、音響モデルについては、数字の認識
率を高めるために、数字用の音響モデル(以下、適宜、
数字モデルという)が、数字以外の音響モデル(以下、
適宜、一般の音響モデルという)とは別に用意されるこ
とがある。ここで、数字モデルと一般の音響モデルとを
分けて行う音声認識については、例えば、KDD研究
所、河井 恒、電子情報通信学会研究報告SP98-69等
に、その詳細が記載されている。
【0101】このように、数字モデルと一般の音響モデ
ルとが分けて用意されている場合には、タスク推定部4
5において、音声認識結果のタスクが数字がどうかを推
定し、適応処理部19において、その推定結果を用い
て、数字モデルや、一般の音響モデルの適応を行うよう
にすることができる。
【0102】即ち、例えば、いま、音声処理システムと
ユーザとの間で、上述の(1)乃至(8)の対話が行わ
れたとすると、タスク推定部45では、ユーザの発話の
音声認識結果と、それに対する返答とから、ユーザの発
話(1)「こんにちは。9月11日のベルリンフィルの
チケットがほしいんだけど。」の音声認識結果における
「9」と「1」は、数字のタスクとして推定され、適応
処理部19にフィードバックされる。この場合、適応処
理部19では、数字モデルの適応は、ユーザの発話およ
びその音声認識結果のうちの「9」と「1」の部分を用
いて行われ、一般の音響モデルの適応は、ユーザの発話
およびその音声認識結果のうちの他の部分を用いて行わ
れる。
【0103】なお、モデルの適応は、図6乃至図13を
参照して説明した4つの適応の方法うちの2以上を組み
合わせて行うことも可能である。
【0104】また、音声認識結果の翻訳を行う場合に
は、上述のようなフィードバック情報は、機械翻訳部2
から、音声認識部1に対して出力させるようにすること
が可能である。
【0105】次に、図14は、図1の音声認識部1の第
2の構成例を示している。なお、図中、図3における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図14の音声認識部1は、適応処理部19が
設けられていないことを除けば、図3における場合と基
本的に同様に構成されている。
【0106】但し、図14の実施の形態においては、マ
ッチング部15は、例えば、機械翻訳部2から、後述す
る変更信号を、フィードバック情報として受信すること
ができるようになっており、変更信号を受信した場合、
音声認識結果を構成する構成単位を変更して出力するよ
うになっている。
【0107】即ち、マッチング部15は、例えば、入力
音声「これは何ですか」に対して、音声認識結果「これ
は何ですか」が得られた場合において、変更信号を受信
したとき、1つの構成単位「これは何ですか」でなる音
声認識結果を、3つの構成単位「これは」、「何で
す」、「か」でなる音声認識結果や、5つの構成単位
「これ」、「は」、「何」、「です」、「か」でなる音
声認識結果に変更して出力し直すようになっている。
【0108】このような構成単位の変更は、最初に得ら
れた音声認識結果「これは何ですか」を構成する文節や
単語を切り離すことで行うこともできるし、マッチング
部15による音声認識の処理単位を変更することで行う
こともできる。
【0109】マッチング部15による音声認識の処理単
位を変更することにより、その音声認識結果の構成単位
を変更する場合においては、その変更のための情報を、
辞書データベース17の単語辞書や、文法データベース
18の文法規則に記述しておくことで行うことが可能で
ある。
【0110】即ち、例えば、単語辞書に、文節「これ
は」と、その文節を構成する単語(形態素)「これ」お
よび「は」とを対応付けて記述しておく。この場合、マ
ッチング部15では、単語辞書を参照することにより、
入力音声「これは」に対して、「これは」という1つの
構成単位で構成される音声認識結果を得ることも可能と
なるし、「これ」と「は」との2つの構成単位で構成さ
れる音声認識結果を得ることも可能となる。
【0111】なお、上述の場合には、文節と、その文節
を構成する単語とを対応付けておくようにしたが、文
と、その文を構成する文節とを対応付けておくことも可
能であるし、さらに、その文節を構成する単語も対応付
けておくことも可能である。
【0112】一方、文法データベース18の文法規則に
よって、マッチング部15による音声認識の処理単位を
変更する場合には、例えば、主格が、代名詞と助詞
「は」とを接続して構成されることを、文法規則に記述
しておく。この場合も、マッチング部15では、文法規
則を参照することにより、代名詞「これ」と助詞「は」
とからなる主格を表す入力音声「これは」に対して、
「これは」という1つの構成単位で構成される音声認識
結果を得ることも可能となるし、「これ」と「は」との
2つの構成単位で構成される音声認識結果を得ることも
可能となる。
【0113】ここで、マッチング部15による音声認識
の処理単位を変更は、単語辞書または文法規則のいずれ
か一方に基づいて行う他、その両方に基づいて行うこと
も可能である。さらに、マッチング部15による音声認
識の処理単位を変更は、単語辞書を複数用意するととも
に、各単語辞書に対応する文法規則も用意し、変更信号
に基づいて、音声認識に用いる単語辞書と文法規則の組
合せを選択するようにすることで行うことも可能であ
る。
【0114】なお、マッチング部15による音声認識の
処理単位を変更することにより、音声認識結果の構成単
位を変更する場合には、マッチング部15では、特徴量
バッファ14に記憶された特徴パラメータを用いて、再
度処理が行われる。
【0115】次に、図15は、音声認識部1が図14に
示すように構成される場合の、図1の機械翻訳部2の構
成例(第2の構成例)を示している。なお、図中、図4
における場合と対応する部分については、同一の符号を
付してある。即ち、図15の機械翻訳部2は、図4にお
ける場合と基本的に同様に構成されている。
【0116】但し、図15の実施の形態においては、テ
キスト解析部21は、入力テキストの構成単位が、その
入力テキストの解析が可能な単位(入力テキストの解析
を行うのに適切な単位)であるかどうかを判定し、可能
な単位であれば、上述したように、入力テキストの解析
を行う。一方、入力テキストの構成単位が、その入力テ
キストの解析が可能な単位でない場合には、テキスト解
析部21は、入力テキストの構成単位の変更を指示する
変更信号を、フィードバック情報として、音声認識部1
に送信する。音声認識部1では、上述したように、変更
信号に基づいて、入力テキストとなる音声認識結果の構
成単位が変更され、その結果、テキスト解析部21に
は、構成単位が変更された音声認識結果が、入力テキス
トとして供給される。そして、テキスト解析部21で
は、再び、その入力テキストの構成単位が解析可能な単
位であるかどうかが判定され、以下、同様の処理が繰り
返される。
【0117】ここで、対話管理部5も、機械翻訳部2と
同様に、音声認識部1による音声認識結果を対象とした
自然言語処理の1つである対話管理処理を行うが、その
際、音声認識部1に対して、必要に応じて変更信号を出
力させることが可能である。
【0118】次に、図16のフローチャートを参照し
て、音声認識部1が図14に示すように、機械翻訳部2
が図15に示すように、それぞれ構成される場合の、図
1の音声処理システムの動作(翻訳動作)について説明
する。
【0119】音声認識部1に対して、音声が入力される
と、音声認識部1では、ステップS41において、その
音声が音声認識され、その音声認識結果としてのテキス
トが、機械翻訳部2に出力されて、ステップS42に進
む。
【0120】ステップS42では、機械翻訳部2におい
て、音声認識部1からのテキストを機械翻訳する翻訳処
理が行われ、ステップS43に進み、音声認識部1にお
いて、機械翻訳部2から、フィードバック情報としての
変更信号を受信したかどうかが判定される。
【0121】ステップS43において、機械翻訳部2か
ら変更信号を受信したと判定された場合、ステップS4
1に戻り、音声認識部1は、その変更信号に基づき、音
声認識結果の構成単位が変更されるように、再度、音声
認識を行い、その音声認識結果を、機械翻訳部2に出力
する。そして、以下、同様の処理が繰り返される。
【0122】また、ステップS43において、機械翻訳
部2から、フィードバック情報としての変更信号を受信
していないと判定された場合、機械翻訳部2は、ステッ
プS42におけ翻訳処理の結果得られるテキストを、音
声合成部3に出力し、ステップS44に進む。
【0123】ステップS44では、音声合成部3におい
て、機械翻訳部2からのテキストに対応する合成音が生
成されて出力され、処理を終了する。
【0124】次に、図17のフローチャートを参照し
て、図14の音声認識部1の動作について説明する。
【0125】音声認識部1は、音声認識すべき音声が入
力されると、ステップS51において、その入力音声の
音声認識結果の構成単位を設定し、ステップS52に進
む。ここで、新たな音声が入力された直後においては、
ステップS51では、所定のデフォルトの構成単位が設
定される。
【0126】ステップS52では、音声認識部1におい
て、入力音声の音声認識が行われ、ステップS53に進
み、直前のステップS51で設定された構成単位の音声
認識結果が、機械翻訳部2に出力される。そして、ステ
ップS54に進み、機械翻訳部2から、フィードバック
情報としての変更信号を受信したかどうかが判定され
る。ステップS54において、変更信号を受信したと判
定された場合、ステップS51に戻り、前回出力した音
声認識結果の構成単位が、変更信号に基づいて小さくま
たは大きく設定され、即ち、具体的には、例えば、文節
単位から単語単位に設定され、または逆に単語単位から
文節単位に設定され、ステップS52に進み、以下、同
様の処理が繰り返される。従って、この場合、音声認識
部1では、変更信号に基づき、構成単位が小さくまたは
大きくされた音声認識結果が、その後に行われるステッ
プS53で出力される。
【0127】一方、ステップS54において、フィード
バック情報としての変更信号を受信していないと判定さ
れた場合、処理を終了する。
【0128】次に、図18のフローチャートを参照し
て、図15の機械翻訳部2の動作について説明する。
【0129】機械翻訳部2は、音声認識部1から音声認
識結果としてのテキストを受信すると、ステップS61
において、そのテキストの構成単位を解析する。そし
て、ステップS62に進み、その構成単位が、機械翻訳
部2で処理を行うのに適切な単位であるかどうかが判定
される。
【0130】ここで、音声認識部1からの音声認識結果
の構成単位が、機械翻訳部2で処理を行うのに適切な単
位であるかどうかは、例えば、音声認識結果を形態素解
析することにより判定することができる。また、その判
定は、例えば、機械翻訳部2で処理を行うのに適切な単
位の文字列を記憶しておき、その文字列と、音声認識結
果の構成単位とを比較すること等によって行うことも可
能である。
【0131】ステップS62において、音声認識部1か
らの音声認識結果としてのテキストの構成単位が、機械
翻訳部2で処理を行うのに適切な単位でないと判定され
た場合、ステップS63に進み、構成単位が適切となる
ように、即ち、構成単位が大きければ小さくし、小さけ
れば大きくするように指示する変更信号が、フィードバ
ック情報として、音声認識部1に出力される。そして、
音声認識部1から、その変更信号にしたがって構成単位
が変更された音声認識結果が供給されるのを待って、ス
テップS61に戻り、以下、同様の処理が繰り返され
る。
【0132】一方、ステップS62において、音声認識
部1からの音声認識結果としてのテキストの構成単位
が、機械翻訳部2で処理を行うのに適切な単位であると
判定された場合、ステップS64に進み、機械翻訳部2
において、音声認識結果が処理される。
【0133】即ち、機械翻訳部2では、音声認識結果の
翻訳が行われ、その翻訳結果が出力されて、処理を終了
する。
【0134】以上のように、音声認識部1において、そ
の後段で自然言語処理を行う機械翻訳部2からの指示に
基づいて、出力する音声認識結果の構成単位を、自然言
語処理を行うのに適切な単位に変更して出力するように
したので、機械翻訳部2では、容易に、精度の高い自然
言語処理(翻訳)を行うことが可能となる。
【0135】なお、対話管理部5においても、上述のよ
うな変更信号を、フォーマット情報として、音声認識部
1に出力し、音声認識部1に、その音声認識結果を、対
話管理部5での処理を行うのに適切な単位で出力させる
ようにすることが可能である。
【0136】次に、図19は、図1の音声認識部1の第
3の構成例を示している。なお、図中、図3における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図19の音声認識部1は、適応処理部19が
設けられていないことを除けば、図3における場合と基
本的に同様に構成されている。
【0137】但し、図19の実施の形態においては、マ
ッチング部15は、機械翻訳部2から、後述する要求信
号を、フィードバック情報として受信することができる
ようになっており、要求信号を受信した場合、その要求
信号による要求に応じた処理を行うようにもなってい
る。この場合、マッチング部15は、一度処理した特徴
パラメータが再び必要なときには、特徴量バッファ14
に記憶された特徴パラメータを用いて処理を行うように
なっており、これにより、ユーザに、再度発話をしても
らわなくても済むようになっている。
【0138】次に、図20は、音声認識部1が図19に
示すように構成される場合の、図1の機械翻訳部2の構
成例(第3の構成例)を示している。なお、図中、図4
における場合と対応する部分については、同一の符号を
付してある。即ち、図20の機械翻訳部2は、変換結果
修正部29および変換結果バッファ30が新たに設けら
れている他は、図4における場合と基本的に同様に構成
されている。
【0139】但し、図20の実施の形態においては、言
語変換部22は、その処理の途中結果に基づいて、その
処理を精度良く行うために必要な情報があるとき、その
情報を要求する要求信号を、フィードバック情報とし
て、図19の音声認識部1(のマッチング部15)に出
力し、その情報を得て、精度の良い処理を行うようにな
っている。
【0140】変換結果修正部29は、言語変換部22で
得られた出力言語の言語情報を受信し、その評価を行
う。そして、変換結果修正部29は、その評価結果が所
定の基準を満たしている場合には、言語変換部22から
の言語情報を、そのままテキスト生成部23に供給す
る。
【0141】一方、言語変換部22からの言語情報の評
価結果が所定の基準を満たしていない場合には、変換結
果修正部29は、その言語情報を、変換結果バッファ3
0に一時記憶させるとともに、音声認識結果の他の候補
を要求する要求信号を、フィードバック情報として、図
19の音声認識部1(のマッチング部15)に出力す
る。そして、音声認識部1が、変換結果修正部29から
の要求信号に応じて、音声認識結果の他の候補を出力
し、それが、テキスト解析部21および言語変換部22
で処理され、出力言語の言語情報とされて、変換結果修
正部29に供給されると、変換結果修正部29は、その
新たに受信した言語情報と、変換バッファ30に記憶さ
れた言語情報とを比較し、入力テキストの翻訳結果とし
て、より適切な方を選択して、テキスト生成部23に出
力する。
【0142】次に、図21は、図20の言語変換部22
および言語変換データベース26の構成例を示してい
る。
【0143】言語変換部22は、マッチング部51から
構成されており、マッチング部51は、言語変換データ
ベース26を参照することで、テキスト解析部21から
供給される入力テキストの言語情報を、出力言語の言語
情報に変換する。
【0144】即ち、図21の実施の形態では、言語変換
データベース26は、シソーラス辞書52およびテンプ
レートテーブル53から構成されている。シソーラス辞
書52は、例えば、図22に示すように、単語およびそ
の概念(意味)が階層的に分類されたシソーラスを記憶
している。なお、図22においては、長方形で囲んであ
る記載が概念を表し、楕円形で囲んである記載が単語を
表している。また、概念を表す長方形に記載されている
番号は、シソーラスにおいて、その概念を特定するため
の分類番号である。
【0145】図21に戻り、テンプレートテーブル53
には、日本語の文のパターンと、その英語訳とを対応付
けたテンプレートが登録されている。なお、テンプレー
トでは、日本語文のパターンは、必要に応じて変数(図
21においては、XやY)を用いて記述されている。ま
た、変数には番号が付されており、この番号は、図22
に示したシソーラス上の分類番号を表す。
【0146】以上のように構成される言語変換部22で
は、マッチング部51において、テンプレートテーブル
53に記憶されているテンプレートから、入力テキスト
と最も類似する(距離の近い)日本語文のパターンを有
するものが選択される。即ち、マッチング部51は、テ
ンプレートテーブル53の各テンプレートの日本語文の
パターンと、入力テキストとの距離を求め、その距離を
最も短くするテンプレートを選択する。さらに、その選
択されたテンプレート(以下、適宜、選択テンプレート
という)の日本語文のパターンの中の変数に対応する語
句(以下、適宜、対応語句という)が、入力テキストか
ら抽出され、その対応語句と、選択テンプレートの変数
が属する概念との間の意味的な距離(以下、適宜、単語
間距離という)が求められる。
【0147】ここで、選択テンプレートの変数と、その
対応語句との単語距離としては、例えば、シソーラスに
おいて、その変数のノードから、対応語句のノードに移
動するための最小移動数(変数のノードから、対応語句
のノードへの最短のパスを構成するブランチの数)など
を用いることができる。なお、選択テンプレートに、複
数の変数が存在する場合には、その複数の変数それぞれ
について、単語間距離が計算される。
【0148】マッチング部51は、選択テンプレートを
決定し、さらに、その選択テンプレートにおける変数に
ついての単語間距離を求めると、選択テンプレート、対
応語句、および単語間距離とともに、選択テンプレート
における日本語文のパターンと入力テキストとの距離
(これは、上述のように、選択テンプレートを決定する
ときに求められる)(以下、適宜、パターン間距離とい
う)を、変換結果修正部29に出力する。
【0149】具体的には、例えば、入力テキストが「金
槌を使った」であった場合において、日本語文「X
(1.5621)を使う」を有するテンプレートが、選
択テンプレートとして決定(選択)されたとすると、そ
の選択テンプレート、対応語句「金槌」、入力テキスト
「金槌を使った」と日本語文「X(1.5621)を使
う」とのパターン間距離、並びに変数X(1.562
1)とその対応語句「金槌」との単語間距離が、変換結
果修正部29に出力される。
【0150】なお、マッチング部51は、基本的には、
上述のように、入力テキストとのパターン間距離を最も
短くするテンプレートを、そのまま、選択テンプレート
として決定するが、後述するように、2つなどの複数の
テンプレートが、選択テンプレートの候補として得ら
れ、最終的な選択テンプレートを決定することが困難な
場合には、音声認識部1に対して、より確からしいテン
プレートを、選択テンプレートとして決定するのに必要
な情報を要求する要求信号を出力し、その要求した情報
が、音声認識部1から供給されるのを待って、選択テン
プレートを決定するようになっている。
【0151】次に、図23のフローチャートを参照し
て、図20の機械翻訳部2の動作について、さらに説明
する。
【0152】機械翻訳部2では、図19の音声認識部1
から音声認識結果としての入力テキストを受信すると、
ステップS71において、変換結果バッファ30の記憶
内容がクリアされ、ステップS72に進み、テキスト解
析部21は、入力テキストの解析を行う。テキスト解析
部21による解析結果は、言語変換部22に供給され、
言語変換部22は、ステップS73において、図21で
説明したような選択テンプレートの決定等を行い、その
選択テンプレートを用いて、入力テキストの言語情報を
出力テキストの言語情報に変換し、その変換結果として
の、上述した選択テンプレート、パターン間距離、対応
語句、および単語間距離を、変換結果修正部29に出力
する。
【0153】変換結果修正部29は、ステップS74に
おいて、言語変換部22からの出力テキストの言語情報
(選択テンプレート、パターン間距離、対応語句および
単語間距離)を、変換結果バッファ30に供給して記憶
させ、ステップS75に進み、言語変換部22から供給
された単語間距離が、所定の基準値以下であるかどうか
を判定する。ステップS75において、単語間距離が、
所定の基準値以下であると判定された場合、即ち、選択
テンプレートの変数が属する概念と、その変数について
の入力テキストの対応語句との意味的な距離が近く、従
って、入力テキストの対応語句が、正しい音声認識結果
であると推測される場合、ステップS76に進み、変換
結果修正部29は、ステップS74で変換結果バッファ
30に記憶させた出力言語の言語情報を、テキスト生成
部23に出力する。そして、テキスト生成部23では、
入力テキストを出力言語に翻訳したテキストが生成さ
れ、処理を終了する。
【0154】一方、ステップS75において、単語間距
離が、所定の基準値以下でないと判定された場合、即
ち、選択テンプレートの変数が属する概念と、その変数
についての入力テキストの対応語句との意味的な距離が
遠く、従って、入力テキストの対応語句が、誤った音声
認識結果であると推測される場合(ここでは、音響的に
は正しいが、意味的に誤っていると推測される場合)、
ステップS77に進み、変換結果修正部29は、対応語
句について、例えば、その対応語句と同音異義語の他の
候補を要求する要求信号を、図19の音声認識部1に出
力する。
【0155】この場合、図19の音声認識部1では、特
徴量バッファ14に記憶された特徴パラメータを用いて
音声認識が再度行われ、これにより、対応語句と同音異
義語の他の候補が、図20の機械翻訳部2に供給され
る。なお、対応語句と同音異義語を対象とした音声認識
は、例えば、図19の音声認識部1の辞書データベース
17に、各種の同音異義語を記憶させておくことで行う
ことが可能である。
【0156】対応語句と同音異義語の他の候補が、図1
9の音声認識部1から図20の機械翻訳部2に供給され
ると、ステップS78において、テキスト解析部21お
よび言語変換部22は、入力テキストの対応語句を、そ
の同音異義語の他の候補に置き換えたもの(以下、適
宜、置換テキストという)を対象に処理を行う。そし
て、その処理結果は、変換結果修正部29に出力され
る。
【0157】なお、対応語句と同音異義語の他の候補
が、複数存在する場合には、音声認識部1から機械翻訳
部2に対しては、その複数の候補が供給される。この場
合、機械翻訳部2では、その複数の候補それぞれについ
て、置換テキストが作成されて処理される。
【0158】以上のようにして、変換結果修正部29
は、言語変換部22から、置換テキストを変換した出力
言語の言語情報を受信すると、ステップS79におい
て、その言語情報と、変換結果バッファ30に記憶され
ている言語情報のうち、より適切なものを選択する。即
ち、変換結果修正部29は、置換テキストを変換した出
力言語の言語情報と、変換結果バッファ30に記憶され
ている言語情報のうち、その言語情報に含まれる単語間
距離が最も小さいもの(選択テンプレートの変数が属す
る概念との意味的な距離が近い対応語句を有するテキス
トを変換した言語情報)を選択する。
【0159】そして、ステップS76に進み、変換結果
修正部29は、選択した言語情報を、テキスト生成部2
3に出力し、以下、上述した場合と同様の処理が行わ
れ、処理を終了する。
【0160】なお、置換テキストが複数存在する場合に
は、ステップS79では、その複数の置換テキストそれ
ぞれを変換した言語情報と、変換結果バッファ30に記
憶されている言語情報の中から、単語間距離が最も短い
言語情報が選択される。
【0161】以上の処理によれば、例えば、入力テキス
トが「蜘蛛が白い」であり、選択テンプレートとして、
日本語文「X(1.4829)が白い」を有するテンプ
レートが決定された場合、変数Xの対応語句は「蜘蛛」
となるが、この場合、分類番号が1.4829である概
念と、その対応語句「蜘蛛」との意味的な距離が遠いと
きには、変換結果修正部29において、上述したような
要求信号が、フィードバック情報として、図19の音声
認識部1に出力される。そして、いま、音声認識部1
が、その要求信号に応じて、「くも」の同音異義語であ
る、「蜘蛛」の他の候補として「雲」を、機械翻訳部2
に供給したとすると、機械翻訳部2では、「蜘蛛」と
「雲」のうち、分類番号が1.4829である概念との
意味的な距離が近い方が、最終的な対応語句とされる。
【0162】従って、音声認識部1において、音響的に
は正しいが、意味的に誤った音声認識結果が得られた場
合であっても、その意味的に誤った音声認識結果を修正
し、これにより、正しい翻訳結果を得ることが可能とな
る。
【0163】次に、図24のフローチャートを参照し
て、図21のマッチング部51で行われる、選択テンプ
レートを決定する処理(テンプレートテーブル53から
テンプレートを選択する処理)について説明する。
【0164】ステップS81では、テンプレートテーブ
ル53から、あるテンプレートが注目すべき注目テンプ
レートとして選択され、ステップS82に進み、その注
目テンプレート(に記述された日本語パターン)と、入
力テキストとのパターン間距離が計算される。そして、
ステップS83に進み、テンプレートテーブル53に記
憶されたすべてのテンプレートについて、パターン間距
離を計算したかどうかが判定される。ステップS83に
おいて、テンプレートテーブル53に記憶されたすべて
のテンプレートについて、まだ、パターン間距離を計算
していないと判定された場合、ステップS81に戻り、
まだ注目テンプレートとされていないテンプレートが、
新たに注目テンプレートとして選択され、以下、同様の
処理が繰り返される。
【0165】また、ステップS83において、テンプレ
ートテーブル53に記憶されたすべてのテンプレートに
ついて、入力テキストとのパターン間距離を計算したと
判定された場合、ステップS84に進み、パターン間距
離が最も小さいテンプレート(以下、適宜、第1位のテ
ンプレートという)と、パターン間距離が2番目に小さ
いテンプレート(以下、適宜、第2位のテンプレートと
いう)とが検出され、その第1位および第2位のテンプ
レートについてのパターン間距離の差が、所定の閾値以
下であるかどうかが判定される。
【0166】ステップS84において、パターン間距離
の差が、所定の閾値以下でないと判定された場合、即
ち、第1位のテンプレートに記述された日本語文が、テ
ンプレートテーブル53に記憶された他のテンプレート
のいずれに記述された日本語文と比較しても、入力テキ
ストに対して、非常に良く合致する場合、ステップS8
5に進み、その第1位のテンプレートが、選択テンプレ
ートとして決定され、処理を終了する。
【0167】一方、ステップS84において、パターン
間距離の差が、所定の閾値以下であると判定された場
合、即ち、入力テキストが、第1位のテンプレートに記
述された日本語文だけでなく、第2位のテンプレートに
記述された日本語文とも比較的合致する場合、ステップ
S86に進み、マッチング部51は、その第1位と第2
位のテンプレートから、より入力音声に合致する日本語
文を有する方を決定するための音響的な評価値を要求す
る要求信号を、フィードバック情報として、図19の音
声認識部1に供給する。
【0168】この場合、音声認識部1では、特徴量バッ
ファ14に記憶された特徴パラメータを用い、入力音声
の音声認識結果を、第1位のテンプレートに記述された
日本語文とすることの尤度と、第2位のテンプレートに
記述された日本語文とすることの尤度が求められ、図2
0の機械翻訳部2に供給される。
【0169】機械翻訳部2では、図19の音声認識部1
からの第1位と第2位のテンプレートに記述された日本
語文それぞれについての尤度が、テキスト解析部21を
介して、言語変換部22のマッチング部51に供給さ
れ、マッチング部51は、このようにして第1位と第2
位のテンプレートに記述された日本語文それぞれについ
ての尤度を受信すると、ステップS87において、その
尤度の高い方のテンプレートを、選択テンプレートとし
て決定し、処理を終了する。
【0170】以上の処理によれば、例えば、入力音声の
音声認識結果として「金槌を使い」が得られ、その音声
認識結果「金槌を使い」に対して、日本語文「X(1.
23)を使う」を有するテンプレートと、日本語文「X
(1.23)を使え」を有するテンプレートが、それぞ
れ第1位と第2位のテンプレートであり、音声認識結果
「金槌を使い」と第1位のテンプレートとのパターン間
距離と、音声認識結果「金槌を使い」と第2位のテンプ
レートとのパターン間距離とが近い値である場合には、
音声認識部1において、入力音声の音声認識結果を、
「金槌を使う」とすることの尤度と、「金槌を使え」と
することの尤度が計算される。そして、機械翻訳部2で
は、その尤度の高い方の日本語文を有するテンプレート
が、選択テンプレートとして決定される。
【0171】従って、音声認識部1において、誤った音
声認識結果が得られた場合であっても、その誤った音声
認識結果を修正し、これにより、正しい翻訳結果を得る
ことが可能となる。
【0172】なお、図24のフローチャートにしたがっ
た処理は、第3位以下のテンプレートも対象にして行う
ことが可能である。
【0173】次に、図23のフローチャートにしたがっ
た処理においては、同音異義語の中から、選択テンプレ
ートにおける変数が属する概念との意味的な距離が最も
近い単語を選択することで、誤った音声認識結果を修正
するようにしたが、この処理では、同音異義語の中に、
選択テンプレートにおける変数が属する概念との意味的
な距離が近いものが複数存在する場合に対処するのが困
難である。
【0174】即ち、例えば、選択テンプレート「X
(1.4830)で食べた」のX(1.4830)に対
応する同音異義語の対応語句として、「橋」、「端」、
および「箸」の3つが得られた場合に、その「橋」、
「端」、「箸」との意味的な距離がいずれも同じ値であ
るときには、その優劣をつけることができない。
【0175】そこで、このような場合には、図20の機
械翻訳部2において、それらの同音異義語に対応する入
力音声の部分の、例えば、アクセントやピッチ等のプロ
ソディ(Prosody)に基づいて、音声認識結果として最も
確からしい単語を決定するように要求する要求信号を、
フィードバック情報として、図19の音声認識部1に供
給するようにすることができる。
【0176】即ち、例えば、上述の「橋」、「端」、
「箸」については、それぞれの発話において、図25に
示すような抑揚があるのが一般的であり、従って、音声
認識部1では、特徴量バッファ14に記憶された特徴パ
ラメータに基づき、入力音声のプロソディを得て、その
プロソディが、「橋」、「端」、「箸」のうちのいずれ
に最も合致するかを検出することで、音声認識結果とし
て最も確からしい単語を決定することができる。
【0177】そこで、図26のフローチャートを参照し
て、上述のような要求信号を出力する場合の、図20の
機械翻訳部2の動作について説明する。
【0178】図20の機械翻訳部2では、ステップS9
1乃至S98において、図23のステップS71乃至S
78における場合とそれぞれ同様の処理が行われる。
【0179】そして、ステップS98の処理後は、ステ
ップS99に進み、変換結果修正部29は、言語変換部
22から供給される、置換テキストを変換した出力言語
の言語情報と、変換結果バッファ30に記憶されている
言語情報に含まれる単語間距離が同一であるかどうかを
判定する。ステップS99において、単語間距離が同一
でないと判定された場合、ステップS100に進み、変
換結果修正部29は、図23のステップS9における場
合と同様に、置換テキストを変換した出力言語の言語情
報と、変換結果バッファ30に記憶されている言語情報
のうち、その言語情報に含まれる単語間距離が最も小さ
いものを選択する。
【0180】そして、ステップS96に進み、変換結果
修正部29は、選択した言語情報を、テキスト生成部2
3に出力し、これにより、テキスト生成部23では、入
力テキストを出力言語に翻訳したテキストが生成され、
処理を終了する。
【0181】一方、ステップS99において、言語変換
部22から供給される、置換テキストを変換した出力言
語の言語情報と、変換結果バッファ30に記憶されてい
る言語情報(入力テキストを変換した出力言語の言語情
報)に含まれる単語間距離が同一であると判定された場
合、ステップS101に進み、変換結果修正部29は、
置換テキストと入力テキストに含まれる同音異義語に対
応する入力音声の部分のプロソディに基づいて、音声認
識結果として最も確からしい単語を決定するように要求
する要求信号を、フィードバック情報として、図19の
音声認識部1に供給する。
【0182】この場合、音声認識部1は、変換結果修正
部29からの要求信号に応じて、上述したように、入力
音声のプロソディに基づき、同音異義語の中から、音声
認識結果として最も確からしい単語(以下、適宜、最尤
単語という)を決定し、図20の機械翻訳部2に供給す
る。
【0183】この最尤単語は、テキスト解析部21およ
び言語変換部22を介して、変換結果修正部29に供給
され、変換結果修正部29は、ステップS102におい
て、音声認識部1からの最尤単語を有する言語情報を選
択し、ステップS96に進む。ステップS96では、変
換結果修正部29は、選択した言語情報を、テキスト生
成部23に出力し、これにより、テキスト生成部23で
は、入力テキストを出力言語に翻訳したテキストが生成
され、処理を終了する。
【0184】次に、図27は、図1の音声認識部1の第
4の構成例を示している。なお、図中、図3における場
合と対応する部分については、同一の符号を付してあ
る。即ち、図27の音声認識部1は、適応処理部19が
除去され、かつ分野別辞書群20が新たに設けられてい
る他は、図3における場合と同様に構成されている。
【0185】分野別辞書群20は、N個の分野別辞書か
ら構成されており、各分野別辞書は、基本的には、辞書
データベース17の単語辞書と同様に構成されている。
但し、各分野別辞書は、特定の話題や分野等に特化した
単語(語句)に関する言語モデル、即ち、タスク別の言
語モデルを記憶している。
【0186】そして、図27の実施の形態では、マッチ
ング部15は、通常は、音響モデルデータベース16、
辞書データベース17、および文法データベース18だ
けを参照して処理を行うが、機械翻訳部2からの要求信
号に応じて、分野別辞書群20の必要な分野別辞書をさ
らに参照して処理を行うようになっている。
【0187】次に、図28は、音声認識部1が図27に
示したように構成される場合の、図1の機械翻訳部2の
第4の構成例を示している。なお、図中、図20におけ
る場合と対応する部分については、同一の符号を付して
ある。即ち、図28の機械翻訳部2は、分野推定部61
が新たに設けられている他は、図20における場合と同
様に構成されている。
【0188】分野推定部61には、テキスト解析部21
から、入力テキストの解析結果が供給されるとともに、
変換結果修正部29が出力する要求信号が供給されるよ
うになっている。そして、分野推定部61は、テキスト
解析部21からの解析結果に基づいて、即ち、それまで
に入力された音声の音声認識結果の解析結果に基づい
て、ユーザの発話内容の分野や話題等のタスクを推定
し、変換結果修正部29から要求信号を受信した場合に
は、推定した分野や話題に対応する分野別辞書を追加し
て処理を行うように要求する要求信号を、フィードバッ
ク情報として、図27の音声認識部1に供給するように
なっている。
【0189】ここで、発話から、その内容の分野や話題
を推定する方法については、例えば、「自然言語検索シ
ステムにおける分野推論方式」、別所克人、岩瀬成人、
戸部美春、福村好美、電子情報通信学会論文誌D-II J81
-DII No.6 pp.1317-1327などに、その詳細が記載されて
いる。
【0190】次に、図29のフローチャートを参照し
て、図28の機械翻訳部2の動作について説明する。
【0191】図28の機械翻訳部2では、ステップS1
11乃至S114において、図23のステップS71乃
至S74における場合とそれぞれ同様の処理が行われ
る。
【0192】そして、ステップS114の処理後は、ス
テップS115に進み、変換結果修正部29は、言語変
換部22から供給されたパターン間距離が、所定の基準
値以下であるかどうかを判定する。ステップS115に
おいて、パターン間距離が、所定の基準値以下であると
判定された場合、即ち、音声認識結果と、選択テンプレ
ートに記述された日本語文との距離が近く、従って、音
声認識部1(図27)において、分野別辞書群20を用
いなくても、正しい音声認識結果が得られていると推測
される場合、ステップS116に進み、変換結果修正部
29は、ステップS114で変換結果バッファ30に記
憶させた出力言語の言語情報を、テキスト生成部23に
出力する。そして、テキスト生成部23では、入力テキ
ストを出力言語に翻訳したテキストが生成され、処理を
終了する。
【0193】一方、ステップS115において、パター
ン間距離が、所定の基準値以下でないと判定された場
合、即ち、音声認識結果と、選択テンプレートに記述さ
れた日本語文との距離が遠く、従って、音声認識部1
(図27)において、分野別辞書群20をさらに用いて
処理を行わないと、正しい音声認識結果が得られないと
推測される場合、ステップS117に進み、変換結果修
正部29は、分野別辞書群20を用いた音声認識を要求
する要求信号を、分野推定部61に供給する。
【0194】分野推定部61は、テキスト解析部21の
出力を参照することで、発話内容の話題や分野を推定し
ており、変換結果修正部29から要求信号を受信する
と、推定した分野や話題に対応する分野別辞書を追加し
て処理を行うように要求する要求信号を、フィードバッ
ク情報として、図27の音声認識部1に供給する。
【0195】即ち、分野推定部61は、例えば、発話内
容の話題が旅行に関することであると推定した場合に
は、観光地の地名が登録されている分野別辞書を追加
し、これにより、音声認識の対象語彙として、観光地の
地名を含めて処理を行うように要求する要求信号を、図
27の音声認識部1に供給する。
【0196】この場合、音声認識部1では、特徴量バッ
ファ14に記憶された特徴パラメータを用い、要求信号
に応じた分野や話題に関する単語(語句)の情報が登録
されている分野別辞書をさらに参照して音声認識が行わ
れ、これにより、音声認識の対象語彙を、いわば拡張し
た音声認識が行われる。そして、その音声認識結果は、
音声認識部1から機械翻訳部2に供給される。
【0197】上述のようにして、新たな音声認識結果
が、図27の音声認識部1から供給されると、図28の
機械翻訳部2では、ステップS118において、テキス
ト解析部21および言語変換部22は、その新たな音声
認識結果としての入力テキストを対象に処理を行う。そ
して、その処理結果は、変換結果修正部29に出力され
る。
【0198】以上のようにして、変換結果修正部29
は、言語変換部22から、新たな音声認識結果を変換し
た出力言語の言語情報を受信すると、ステップS119
において、その言語情報と、変換結果バッファ30に記
憶されている言語情報のうち、より適切なものを選択す
る。即ち、変換結果修正部29は、新たな音声認識結果
を変換した出力言語の言語情報と、変換結果バッファ3
0に記憶されている言語情報のうち、例えば、パターン
間距離が小さいものを選択する。
【0199】そして、ステップS116に進み、変換結
果修正部29は、選択した言語情報を、テキスト生成部
23に出力し、以下、上述した場合と同様の処理が行わ
れ、処理を終了する。
【0200】以上のように、機械翻訳部2において、そ
の処理の途中結果に基づいて、音声認識部1に対して、
要求信号を、フィードバック情報としてフィードバック
し、音声認識部1において、その要求に応じた処理を行
うようにした場合には、音声に対して、容易に、高度な
自然言語処理を施すことが可能となる。
【0201】即ち、この場合、音声認識部1では、比較
的簡易な音声認識処理を行い、機械翻訳部2において、
その音声認識結果の処理の最中に、疑問が生じたとき
や、新たな情報が必要になったときに、音声認識部1に
その疑問を解決するための処理や必要な情報を要求する
ことができる。その結果、機械翻訳部2では、音声に対
して、容易に、高度な自然言語処理を施すことが可能と
なる。
【0202】また、この場合、発話者に、再度発話を行
うように催促したり、音声認識結果が正しいかどうかを
確認する必要もない。
【0203】なお、本実施の形態では、機械翻訳部2に
おいて、日本語文のパターンを有するテンプレートを用
いて翻訳を行うようにしたが、翻訳は、その他、例え
ば、用例を用いて行うようにすることも可能である。
【0204】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
専用のハードウェアとしての音声処理システムに組み込
まれているコンピュータや、汎用のコンピュータ等にイ
ンストールされる。
【0205】そこで、図30を参照して、上述した一連
の処理を実行するプログラムをコンピュータにインスト
ールし、コンピュータによって実行可能な状態とするた
めに用いられる、そのプログラムが記録されている記録
媒体について説明する。
【0206】プログラムは、図30(A)に示すよう
に、コンピュータ101に内蔵されている記録媒体とし
てのハードディスク102や半導体メモリ103に予め
記録しておくことができる。
【0207】あるいはまた、プログラムは、図30
(B)に示すように、フロッピーディスク111、CD-R
OM(Compact Disc Read Only Memory)112,MO(Magnet
o optical)ディスク113,DVD(Digital Versatile Di
sc)114、磁気ディスク115、半導体メモリ116
などの記録媒体に、一時的あるいは永続的に格納(記
録)しておくことができる。このような記録媒体は、い
わゆるパッケージソフトウエアとして提供することがで
きる。
【0208】なお、プログラムは、上述したような記録
媒体からコンピュータにインストールする他、図30
(C)に示すように、ダウンロードサイト121から、
ディジタル衛星放送用の人工衛星122を介して、コン
ピュータ101に無線で転送したり、LAN(Local Area N
etwork)、インターネットといったネットワーク131
を介して、コンピュータ123に有線で転送し、コンピ
ュータ101において、内蔵するハードディスク102
などにインストールすることができる。
【0209】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0210】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0211】次に、図31は、図30のコンピュータ1
01の構成例を示している。
【0212】コンピュータ101は、図31に示すよう
に、CPU(Central Processing Unit)142を内蔵してい
る。CPU142には、バス141を介して、入出力イン
タフェース145が接続されており、CPU142は、入
出力インタフェース145を介して、ユーザによって、
キーボードやマウス等で構成される入力部147が操作
されることにより指令が入力されると、それにしたがっ
て、図30(A)の半導体メモリ103に対応するROM
(Read Only Memory)143に格納されているプログラム
を実行する。あるいは、また、CPU142は、ハードデ
ィスク102に格納されているプログラム、衛星122
若しくはネットワーク131から転送され、通信部14
8で受信されてハードディスク102にインストールさ
れたプログラム、またはドライブ149に装着されたフ
ロッピディスク111、CD-ROM112、MOディスク11
3、DVD114、若しくは磁気ディスク115から読み
出されてハードディスク102にインストールされたプ
ログラムを、RAM(Random Access Memory)144にロー
ドして実行する。そして、CPU142は、その処理結果
を、例えば、入出力インタフェース145を介して、LC
D(Liquid CryStal Display)等で構成される表示部14
6に、必要に応じて出力する。
【0213】
【発明の効果】本発明の音声処理装置および音声処理方
法、並びに記録媒体によれば、音声認識結果を対象とす
る自然言語処理によって得られる情報がフィードバック
され、そのフィードバックされる情報に基づいて処理が
行われる。従って、例えば、音声認識に用いるモデルの
適応を、ユーザに負担をかけることなく、かつ精度良く
行うこと等が可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声処理システムの一実施の
形態の構成例を示すブロック図である。
【図2】図1の音声処理システムの動作の概要を説明す
るための図である。
【図3】音声認識部1の第1の構成例を示すブロック図
である。
【図4】機械翻訳部2の第1の構成例を示すブロック図
である。
【図5】音声合成部3の構成例を示すブロック図であ
る。
【図6】対話管理部5の第1の構成例を示すブロック図
である。
【図7】音声処理システムの第1の動作例を説明するた
めのフローチャートである。
【図8】対話管理部5の第2の構成例を示すブロック図
である。
【図9】音声処理システムの第2の動作例を説明するた
めのフローチャートである。
【図10】対話管理部5の第3の構成例を示すブロック
図である。
【図11】音声処理システムの第3の動作例を説明する
ためのフローチャートである。
【図12】対話管理部5の第4の構成例を示すブロック
図である。
【図13】音声処理システムの第4の動作例を説明する
ためのフローチャートである。
【図14】音声認識部1の第2の構成例を示すブロック
図である。
【図15】機械翻訳部2の第2の構成例を示すブロック
図である。
【図16】音声処理システムの第5の動作例を説明する
ためのフローチャートである。
【図17】図14の音声認識部1の動作を説明するため
のフローチャートである。
【図18】図15の機械翻訳部2の動作を説明するため
のフローチャートである。
【図19】音声認識部1の第3の構成例を示すブロック
図である。
【図20】機械翻訳部2の第3の構成例を示すブロック
図である。
【図21】図20の言語処理部22の構成例を示すブロ
ック図である。
【図22】シソーラスを示す図である。
【図23】図20の機械翻訳部2の第1の動作例を説明
するためのフローチャートである。
【図24】マッチング部51において行われるテンプレ
ートを選択する処理を説明するためのフローチャートで
ある。
【図25】「橋」、「端」、および「箸」のアクセント
を示す図である。
【図26】図20の機械翻訳部2の第2の動作例を説明
するためのフローチャートである。
【図27】音声認識部1の第4の構成例を示すブロック
図である。
【図28】機械翻訳部2の第4の構成例を示すブロック
図である。
【図29】図28の機械翻訳部2の動作を説明するため
のフローチャートである。
【図30】本発明を適用した記録媒体を説明するための
図である。
【図31】図30のコンピュータ101の構成例を示す
ブロック図である。
【符号の説明】
1 音声認識部, 2 機械翻訳部, 3 音声合成
部, 4 表示部, 5対話管理部, 11 マイク
(マイクロフォン), 12 AD変換部, 13 特
徴抽出部, 14 特徴量バッファ, 15 マッチン
グ部, 16 音響モデルデータベース, 17 辞書
データベース, 18 文法データベース, 19 適
応処理部, 20 分野別辞書群, 21 テキスト解
析部, 22 言語変換部, 23 テキスト生成部,
24 辞書データベース, 25解析用文法データベ
ース, 26 言語変換データベース, 27 辞書デ
ータベース, 28 生成用文法データベース, 29
変換結果修正部, 30変換結果バッファ, 31
テキスト解析部, 32 規則合成部, 33DA変換
部, 34 辞書データベース, 35 解析用文法デ
ータベース,36 音素片データベース, 41 対話
処理部, 42 音声区間検出部,43 修正部, 4
4 信頼度計算部, 45 タスク推定部, 51 マ
ッチング部, 52 シソーラス辞書, 53 テンプ
レートテーブル, 61 分野推定部, 101 コン
ピュータ, 102 ハードディスク, 103 半導
体メモリ, 111 フロッピーディスク, 112
CD-ROM, 113 MOディスク, 114 DVD, 1
15 磁気ディスク, 116 半導体メモリ, 12
1 ダウンロードサイト, 122 衛星, 131
ネットワーク,141 バス, 142 CPU, 14
3 ROM, 144 RAM, 145入出力インタフェー
ス, 146 表示部, 147 入力部, 148
通信部, 149 ドライブ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小川 浩明 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 包 洪長 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5B091 AA15 CB12 EA01 5D015 AA05 BB02 GG01 HH00 HH04 KK04 LL04 LL06 9A001 BB06 DD15 HH14 HH17 HH18 KK46

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 音声を音声認識する音声認識手段と、 前記音声認識手段による音声認識結果を対象として自然
    言語処理を行う自然言語処理手段とを備える音声処理装
    置であって、 前記自然言語処理手段は、前記音声認識結果を対象とす
    る自然言語処理によって得られる情報を、前記音声認識
    手段に対してフィードバックするフィードバック手段を
    含み、 前記音声認識手段は、前記フィードバック手段からフィ
    ードバックされる情報に基づいて処理を行う処理手段を
    含むことを特徴とする音声処理装置。
  2. 【請求項2】 前記音声認識手段は、前記音声を、モデ
    ルを用いて認識し、 前記処理手段は、前記フィードバック手段からフィード
    バックされる情報に基づいて、前記モデルの適応を行う
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 【請求項3】 前記フィードバック手段は、前記モデル
    の適応に利用すべき音声認識結果の区間、または利用す
    べきでない音声認識結果の区間のうちの少なくとも一方
    をフィードバックすることを特徴とする請求項2に記載
    の音声処理装置。
  4. 【請求項4】 前記フィードバック手段は、確からしい
    前記音声認識結果をフィードバックすることを特徴とす
    る請求項2に記載の音声処理装置。
  5. 【請求項5】 前記フィードバック手段は、前記音声認
    識結果の信頼性をフィードバックすることを特徴とする
    請求項2に記載の音声処理装置。
  6. 【請求項6】 前記フォードバック手段は、前記音声認
    識結果の内容が属するタスクをフィードバックすること
    を特徴とする請求項2に記載の音声処理装置。
  7. 【請求項7】 前記フィードバック手段は、 前記モデルの適応に利用すべき音声認識結果の区間、若
    しくは利用すべきでない音声認識結果の区間のうちの少
    なくとも一方、 確からしい前記音声認識結果、 前記音声認識結果の信頼性、 または前記音声認識結果の内容が属するタスクのうちの
    1以上をフィードバックすることを特徴とする請求項2
    に記載の音声処理装置。
  8. 【請求項8】 前記音声を音声認識する音声認識ステッ
    プと、 前記音声認識ステップによる音声認識結果を対象として
    自然言語処理を行う自然言語ステップとを備える音声処
    理方法であって、 前記自然言語処理ステップは、前記音声認識結果を対象
    とする自然言語処理によって得られる情報を、前記音声
    認識ステップに対してフィードバックするフィードバッ
    クステップを含み、 前記音声認識ステップは、前記フィードバックステップ
    からフィードバックされる情報に基づいて処理を行う処
    理ステップを含むことを特徴とする音声処理方法。
  9. 【請求項9】 音声を、コンピュータに処理させるプロ
    グラムが記録されている記録媒体であって、 前記音声を音声認識する音声認識ステップと、 前記音声認識ステップによる音声認識結果を対象として
    自然言語処理を行う自然言語ステップとを備えるプログ
    ラムが記録されている記録媒体であって、 前記自然言語処理ステップは、前記音声認識結果を対象
    とする自然言語処理によって得られる情報を、前記音声
    認識ステップに対してフィードバックするフィードバッ
    クステップを含み、 前記音声認識ステップは、前記フィードバックステップ
    からフィードバックされる情報に基づいて処理を行う処
    理ステップを含むことを特徴とする記録媒体。
JP27774599A 1999-09-30 1999-09-30 音声処理装置および音声処理方法、並びに記録媒体 Withdrawn JP2001100781A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP27774599A JP2001100781A (ja) 1999-09-30 1999-09-30 音声処理装置および音声処理方法、並びに記録媒体
EP00308460A EP1089256A3 (en) 1999-09-30 2000-09-27 Speech recognition models adaptation from previous results feedback
US09/676,644 US6879956B1 (en) 1999-09-30 2000-09-29 Speech recognition with feedback from natural language processing for adaptation of acoustic models
US11/075,560 US7158934B2 (en) 1999-09-30 2005-03-08 Speech recognition with feedback from natural language processing for adaptation of acoustic model
US11/075,561 US7236922B2 (en) 1999-09-30 2005-03-08 Speech recognition with feedback from natural language processing for adaptation of acoustic model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27774599A JP2001100781A (ja) 1999-09-30 1999-09-30 音声処理装置および音声処理方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2001100781A true JP2001100781A (ja) 2001-04-13

Family

ID=17587748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27774599A Withdrawn JP2001100781A (ja) 1999-09-30 1999-09-30 音声処理装置および音声処理方法、並びに記録媒体

Country Status (3)

Country Link
US (3) US6879956B1 (ja)
EP (1) EP1089256A3 (ja)
JP (1) JP2001100781A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003010754A1 (fr) * 2001-07-23 2003-02-06 Japan Science And Technology Agency Systeme de recherche a entree vocale
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2003216177A (ja) * 2002-01-18 2003-07-30 Altia Co Ltd 車両用音声認識装置
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム
JP2013029652A (ja) * 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
KR101768509B1 (ko) * 2013-12-25 2017-08-17 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 온라인 음성 번역 방법 및 장치
CN108833722A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN113495948A (zh) * 2020-04-08 2021-10-12 北京意锐新创科技有限公司 适用于支付设备的语音交互方法和装置

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US20020169597A1 (en) * 2001-03-12 2002-11-14 Fain Systems, Inc. Method and apparatus providing computer understanding and instructions from natural language
KR100585347B1 (ko) * 2001-04-27 2006-06-01 액센츄어 엘엘피 위치 기반의 서비스 제공 방법 및 위치 기반의 서비스 시스템
GB2375211A (en) * 2001-05-02 2002-11-06 Vox Generation Ltd Adaptive learning in speech recognition
AUPR579601A0 (en) * 2001-06-19 2001-07-12 Syrinx Speech Systems Pty Limited On-line environmental and speaker model adaptation
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
US20030061029A1 (en) * 2001-08-29 2003-03-27 Efraim Shaket Device for conducting expectation based mixed initiative natural language dialogs
WO2003032191A1 (fr) * 2001-10-05 2003-04-17 Fujitsu Limited Systeme de traduction
US7124080B2 (en) * 2001-11-13 2006-10-17 Microsoft Corporation Method and apparatus for adapting a class entity dictionary used with language models
US7031918B2 (en) * 2002-03-20 2006-04-18 Microsoft Corporation Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7308407B2 (en) * 2003-03-03 2007-12-11 International Business Machines Corporation Method and system for generating natural sounding concatenative synthetic speech
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
US8019602B2 (en) * 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
KR100612843B1 (ko) * 2004-02-28 2006-08-14 삼성전자주식회사 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
GB2432704B (en) * 2004-07-30 2009-12-09 Dictaphone Corp A system and method for report level confidence
US7630892B2 (en) * 2004-09-10 2009-12-08 Microsoft Corporation Method and apparatus for transducer-based text normalization and inverse text normalization
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8340971B1 (en) * 2005-01-05 2012-12-25 At&T Intellectual Property Ii, L.P. System and method of dialog trajectory analysis
EP1846884A4 (en) * 2005-01-14 2010-02-17 Tremor Media Llc SYSTEM AND METHOD FOR DYNAMIC ADVERTISING
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7574358B2 (en) * 2005-02-28 2009-08-11 International Business Machines Corporation Natural language system and method based on unisolated performance metric
US20080249776A1 (en) * 2005-03-07 2008-10-09 Linguatec Sprachtechnologien Gmbh Methods and Arrangements for Enhancing Machine Processable Text Information
US7643985B2 (en) * 2005-06-27 2010-01-05 Microsoft Corporation Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US20070073799A1 (en) * 2005-09-29 2007-03-29 Conopco, Inc., D/B/A Unilever Adaptive user profiling on mobile devices
EP1952326A4 (en) 2005-11-07 2010-08-04 Scanscout Inc TECHNIQUES FOR RENDERING ADVERTISEMENTS TO ENRICHED MEDIA
US7587308B2 (en) * 2005-11-21 2009-09-08 Hewlett-Packard Development Company, L.P. Word recognition using ontologies
US8315874B2 (en) * 2005-12-30 2012-11-20 Microsoft Corporation Voice user interface authoring tool
US20120124550A1 (en) * 2006-02-22 2012-05-17 Robert Nocera Facilitating database application code translation from a first application language to a second application language
CN101390156B (zh) * 2006-02-27 2011-12-07 日本电气株式会社 标准模式适应装置、标准模式适应方法
WO2007110553A1 (fr) * 2006-03-29 2007-10-04 France Telecom Systeme de mise en coherence de prononciations
WO2007124109A2 (en) * 2006-04-21 2007-11-01 Scomm, Inc. Interactive conversational speech communicator method and system
EP2019985B1 (en) * 2006-05-12 2018-04-04 Nuance Communications Austria GmbH Method for changing over from a first adaptive data processing version to a second adaptive data processing version
US8898052B2 (en) * 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
US20070282594A1 (en) * 2006-06-02 2007-12-06 Microsoft Corporation Machine translation in natural language application development
EP1902906B1 (en) * 2006-09-22 2017-07-26 Harman Becker Automotive Systems GmbH Add-on module for externally controlling a speech dialog system
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
KR100859532B1 (ko) * 2006-11-06 2008-09-24 한국전자통신연구원 대응 문형 패턴 기반 자동통역 방법 및 장치
US20080109391A1 (en) * 2006-11-07 2008-05-08 Scanscout, Inc. Classifying content based on mood
WO2008067562A2 (en) * 2006-11-30 2008-06-05 Rao Ashwin P Multimodal speech recognition system
US9830912B2 (en) 2006-11-30 2017-11-28 Ashwin P Rao Speak and touch auto correction interface
US8433576B2 (en) * 2007-01-19 2013-04-30 Microsoft Corporation Automatic reading tutoring with parallel polarized language modeling
US20080189098A1 (en) * 2007-02-01 2008-08-07 Peter Joseph Mravetz Language Translator Communicator (LTC)
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US8306822B2 (en) * 2007-09-11 2012-11-06 Microsoft Corporation Automatic reading tutoring using dynamically built language model
US8549550B2 (en) 2008-09-17 2013-10-01 Tubemogul, Inc. Method and apparatus for passively monitoring online video viewing and viewer behavior
US8577996B2 (en) * 2007-09-18 2013-11-05 Tremor Video, Inc. Method and apparatus for tracing users of online video web sites
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8407040B2 (en) * 2008-02-29 2013-03-26 Sharp Kabushiki Kaisha Information processing device, method and program
US20090259552A1 (en) * 2008-04-11 2009-10-15 Tremor Media, Inc. System and method for providing advertisements from multiple ad servers using a failover mechanism
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8566076B2 (en) 2008-05-28 2013-10-22 International Business Machines Corporation System and method for applying bridging models for robust and efficient speech to speech translation
US8489399B2 (en) 2008-06-23 2013-07-16 John Nicholas and Kristin Gross Trust System and method for verifying origin of input through spoken language analysis
US8752141B2 (en) * 2008-06-27 2014-06-10 John Nicholas Methods for presenting and determining the efficacy of progressive pictorial and motion-based CAPTCHAs
US9612995B2 (en) 2008-09-17 2017-04-04 Adobe Systems Incorporated Video viewer targeting based on preference similarity
US9348816B2 (en) * 2008-10-14 2016-05-24 Honda Motor Co., Ltd. Dialog coherence using semantic features
US9922640B2 (en) 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9761219B2 (en) * 2009-04-21 2017-09-12 Creative Technology Ltd System and method for distributed text-to-speech synthesis and intelligibility
US8560311B2 (en) * 2009-09-23 2013-10-15 Robert W. Williams System and method for isolating uncertainty between speech recognition and natural language processing
US20110093783A1 (en) * 2009-10-16 2011-04-21 Charles Parra Method and system for linking media components
CA2781299A1 (en) * 2009-11-20 2012-05-03 Tadashi Yonezaki Methods and apparatus for optimizing advertisement allocation
US9218807B2 (en) * 2010-01-08 2015-12-22 Nuance Communications, Inc. Calibration of a speech recognition engine using validated text
US8521507B2 (en) * 2010-02-22 2013-08-27 Yahoo! Inc. Bootstrapping text classifiers by language adaptation
US20110238406A1 (en) * 2010-03-23 2011-09-29 Telenav, Inc. Messaging system with translation and method of operation thereof
US8280954B2 (en) 2010-03-25 2012-10-02 Scomm, Inc. Method and system for providing live real-time communication via text between mobile user devices
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
US8744860B2 (en) 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
US8775156B2 (en) * 2010-08-05 2014-07-08 Google Inc. Translating languages in response to device motion
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US9431012B2 (en) * 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9093076B2 (en) 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US8694305B1 (en) * 2013-03-15 2014-04-08 Ask Ziggy, Inc. Natural language processing (NLP) portal for third party applications
US8898063B1 (en) * 2013-03-15 2014-11-25 Mark Sykes Method for converting speech to text, performing natural language processing on the text output, extracting data values and matching to an electronic ticket form
US9646606B2 (en) * 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
WO2015105994A1 (en) * 2014-01-08 2015-07-16 Callminer, Inc. Real-time conversational analytics facility
US9514743B2 (en) 2014-08-29 2016-12-06 Google Inc. Query rewrite corrections
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
JP6471074B2 (ja) * 2015-09-30 2019-02-13 株式会社東芝 機械翻訳装置、方法及びプログラム
CN106653010B (zh) * 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
US10229687B2 (en) * 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding
JP6523998B2 (ja) * 2016-03-14 2019-06-05 株式会社東芝 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
CN106055537B (zh) * 2016-05-23 2019-03-12 王立山 一种自然语言机器识别方法及系统
US10504520B1 (en) * 2016-06-27 2019-12-10 Amazon Technologies, Inc. Voice-controlled communication requests and responses
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10176809B1 (en) * 2016-09-29 2019-01-08 Amazon Technologies, Inc. Customized compression and decompression of audio data
US10334103B2 (en) 2017-01-25 2019-06-25 International Business Machines Corporation Message translation for cognitive assistance
CN112802459A (zh) * 2017-05-23 2021-05-14 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
US10826857B2 (en) * 2017-10-20 2020-11-03 Sap Se Message processing for cloud computing applications
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US11783443B2 (en) 2019-01-22 2023-10-10 Fyusion, Inc. Extraction of standardized images from a single view or multi-view capture
US11176704B2 (en) 2019-01-22 2021-11-16 Fyusion, Inc. Object pose estimation in visual data
US10887582B2 (en) 2019-01-22 2021-01-05 Fyusion, Inc. Object damage aggregation
CN110265016A (zh) * 2019-06-25 2019-09-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
US11151981B2 (en) * 2019-10-10 2021-10-19 International Business Machines Corporation Audio quality of speech in sound systems
US11562474B2 (en) 2020-01-16 2023-01-24 Fyusion, Inc. Mobile multi-camera multi-view capture
US11776142B2 (en) 2020-01-16 2023-10-03 Fyusion, Inc. Structuring visual data
US11250128B2 (en) 2020-02-18 2022-02-15 Bank Of America Corporation System and method for detecting source code anomalies
US11176329B2 (en) 2020-02-18 2021-11-16 Bank Of America Corporation Source code compiler using natural language input
US11568153B2 (en) 2020-03-05 2023-01-31 Bank Of America Corporation Narrative evaluator
US11605151B2 (en) 2021-03-02 2023-03-14 Fyusion, Inc. Vehicle undercarriage imaging

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5909666A (en) * 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5752052A (en) * 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
EP0703569B1 (de) * 1994-09-20 2000-03-01 Philips Patentverwaltung GmbH System zum Ermitteln von Wörtern aus einem Sprachsignal
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
WO1998013822A1 (en) * 1996-09-27 1998-04-02 Philips Electronics N.V. Method of and system for recognizing a spoken text
US6272455B1 (en) * 1997-10-22 2001-08-07 Lucent Technologies, Inc. Method and apparatus for understanding natural language
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US6128596A (en) * 1998-04-03 2000-10-03 Motorola, Inc. Method, device and system for generalized bidirectional island-driven chart parsing
US6219643B1 (en) * 1998-06-26 2001-04-17 Nuance Communications, Inc. Method of analyzing dialogs in a natural language speech recognition system
US6233560B1 (en) * 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
DE69833987T2 (de) * 1998-12-17 2006-11-16 Sony Corp. Halbüberwachte Sprecheradaptation
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6272462B1 (en) * 1999-02-25 2001-08-07 Panasonic Technologies, Inc. Supervised adaptation using corrective N-best decoding
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
US6505155B1 (en) * 1999-05-06 2003-01-07 International Business Machines Corporation Method and system for automatically adjusting prompt feedback based on predicted recognition accuracy
JP2003504674A (ja) * 1999-07-08 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーチ認識装置とテキスト比較手段
US6415257B1 (en) * 1999-08-26 2002-07-02 Matsushita Electric Industrial Co., Ltd. System for identifying and adapting a TV-user profile by means of speech technology
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003010754A1 (fr) * 2001-07-23 2003-02-06 Japan Science And Technology Agency Systeme de recherche a entree vocale
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2003216177A (ja) * 2002-01-18 2003-07-30 Altia Co Ltd 車両用音声認識装置
JP2006293489A (ja) * 2005-04-06 2006-10-26 Sony Corp 学習装置および学習方法、並びに学習プログラム
JP2013029652A (ja) * 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
KR101768509B1 (ko) * 2013-12-25 2017-08-17 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 온라인 음성 번역 방법 및 장치
CN108833722A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN108833722B (zh) * 2018-05-29 2021-05-11 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN113495948A (zh) * 2020-04-08 2021-10-12 北京意锐新创科技有限公司 适用于支付设备的语音交互方法和装置

Also Published As

Publication number Publication date
US20050149319A1 (en) 2005-07-07
US6879956B1 (en) 2005-04-12
EP1089256A2 (en) 2001-04-04
US7158934B2 (en) 2007-01-02
US20050149318A1 (en) 2005-07-07
US7236922B2 (en) 2007-06-26
EP1089256A3 (en) 2001-05-02

Similar Documents

Publication Publication Date Title
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
US10388274B1 (en) Confidence checking for speech processing and query answering
US10332508B1 (en) Confidence checking for speech processing and query answering
US10140973B1 (en) Text-to-speech processing using previously speech processed data
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8595004B2 (en) Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
KR100563365B1 (ko) 계층적 언어 모델
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US10163436B1 (en) Training a speech processing system using spoken utterances
US20040039570A1 (en) Method and system for multilingual voice recognition
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
San-Segundo et al. A spanish speech to sign language translation system for assisting deaf-mute people
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
JP2001100788A (ja) 音声処理装置および音声処理方法、並びに記録媒体
CN104756183B (zh) 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符
JP2003162524A (ja) 言語処理装置
US20020143525A1 (en) Method of decoding telegraphic speech
JP2001117921A (ja) 翻訳装置および翻訳方法、並びに記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061205