JP2001117583A - 音声認識装置および音声認識方法、並びに記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに記録媒体

Info

Publication number
JP2001117583A
JP2001117583A JP29387799A JP29387799A JP2001117583A JP 2001117583 A JP2001117583 A JP 2001117583A JP 29387799 A JP29387799 A JP 29387799A JP 29387799 A JP29387799 A JP 29387799A JP 2001117583 A JP2001117583 A JP 2001117583A
Authority
JP
Japan
Prior art keywords
speech
unit
speech recognition
word
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP29387799A
Other languages
English (en)
Inventor
Hideki Kishi
秀樹 岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP29387799A priority Critical patent/JP2001117583A/ja
Publication of JP2001117583A publication Critical patent/JP2001117583A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 音声認識結果を自然言語処理するときの処理
精度を向上させる。 【解決手段】 音声認識部1は、特徴パラメータに基づ
いて、音声を認識し、その音声認識結果の1以上の候補
と、各候補の音響的な確からしさに対応するスコアを、
機械翻訳部2に出力する。機械翻訳部2では、音声認識
部1からの音声認識結果の各候補が解析され、言語的な
確からしさと、音声認識部1からのスコアとの両方を考
慮して、翻訳すべき文章が特定される。そして、その文
章を対象として、機械翻訳が行われる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びに記録媒体に関し、特に、例え
ば、入力された音声を認識し、その認識結果を翻訳する
音声翻訳システムにおける処理精度を向上させることが
できるようにする音声認識装置および音声認識方法、並
びに記録媒体に関する。
【0002】
【従来の技術】例えば、日本語と英語等の、異なる言語
による発話を行うユーザどうしがコミュニケーションを
図るためのツールとして、音声認識装置、翻訳装置、お
よび音声合成装置から構成される音声翻訳システムがあ
る。音声翻訳システムでは、音声認識装置において、例
えば、日本語の発話が音声認識され、翻訳装置におい
て、その音声認識結果が英語に翻訳される。そして、音
声合成装置において、その翻訳結果が、合成音で出力さ
れる。また、音声認識装置において、英語の発話が音声
認識され、翻訳装置において、その音声認識結果が日本
語に翻訳される。そして、音声合成装置において、その
翻訳結果が、合成音で出力される。従って、英語の話者
(ユーザ)は、日本語の話者の発話を、英語で聞くこと
ができ、また、日本語の話者は、英語の話者の発話を、
日本語で聞くことができ、相互に、相手の発話を理解し
て対話を行うことができる。
【0003】
【発明が解決しようとする課題】ところで、従来の音声
翻訳システムでは、音声認識装置において、発話が音声
認識され、1つの音声認識結果が決定される。そして、
翻訳装置では、その1つの音声認識結果が翻訳される。
【0004】従って、音声認識装置における音声認識結
果が誤っていると、翻訳装置の翻訳精度が高くても、出
力される合成音は、入力された音声を正しく翻訳したも
のとはならない。
【0005】本発明は、このような状況に鑑みてなされ
たものであり、例えば、正しい翻訳結果を得ること等が
できるようにするものである。
【0006】
【課題を解決するための手段】本発明の音声認識装置
は、特徴パラメータに基づいて、音声を認識し、その音
声認識結果の1以上の候補と、各候補の確からしさに対
応するスコアを、自然言語処理を行う自然言語処理手段
に出力する音声認識手段を備えることを特徴とする。
【0007】この音声認識装置には、自然言語処理を行
う自然言語処理手段をさらに設けることができる。
【0008】自然言語処理手段には、音声認識結果の1
以上の候補を自然言語処理させ、その自然言語処理結果
の中から、音声認識結果の各候補の言語的な信頼性と、
スコアとに基づいて、最終的な自然言語処理結果を選択
させることができる。
【0009】音声認識手段には、音声認識結果の候補を
構成する単語を、その単語の品詞を表す品詞情報を付加
して出力させることができる。
【0010】また、音声認識手段には、音声中に未知語
を検出したとき、その未知語の音韻を、所定の品詞情報
を付加して出力させることができる。
【0011】音声認識手段には、音声認識を行うのに参
照する参照データを、言語ごとに記憶している記憶手段
を設けることができ、音声中に未知語を検出したとき、
その未知語に対応する音声を、他の言語についての参照
データを参照して認識させることができる。
【0012】本発明の音声認識方法は、特徴パラメータ
に基づいて、音声を認識し、その音声認識結果の1以上
の候補と、各候補の確からしさに対応するスコアを、自
然言語処理を行う自然言語処理手段に出力する音声認識
ステップを備えることを特徴とする。
【0013】本発明の記録媒体は、特徴パラメータに基
づいて、音声を認識し、その音声認識結果の1以上の候
補と、各候補の確からしさに対応するスコアを、自然言
語処理を行う自然言語処理手段に出力する音声認識ステ
ップを備えるプログラムが記録されていることを特徴と
する。
【0014】本発明の音声認識装置および音声認識方
法、並びに記録媒体においては、特徴パラメータに基づ
いて、音声が認識され、その音声認識結果の1以上の候
補と、各候補の確からしさに対応するスコアが、自然言
語処理を行う自然言語処理手段に出力される。
【0015】
【発明の実施の形態】図1は、本発明を適用した音声翻
訳システム(システムとは、複数の装置が論理的に集合
した物をいい、各構成の装置が同一筐体中にあるか否か
は問わない)の一実施の形態の構成例を示している。
【0016】この音声翻訳システムでは、例えば、日本
語による音声が入力されると、その音声が英語に翻訳さ
れて出力され、また、英語による音声が入力されると、
その音声が日本語に翻訳されて出力されるようになって
おり、これにより、日本語のユーザ(話者)と、英語の
ユーザとが、対話を行うことができるようになってい
る。
【0017】即ち、音声認識部1には、ユーザが発話し
た音声が入力されるようになっており、音声認識部1
は、入力された音声を音声認識し、その音声認識結果と
してのテキスト、その他付随する情報を、機械翻訳部2
や、表示部4、対話管理部5などに、必要に応じて出力
する。
【0018】機械翻訳部2は、音声認識部1が出力する
音声認識結果を解析し、入力された音声を、その音声の
言語以外の言語に機械翻訳し(本実施の形態では、日本
語は英語に、英語は日本語に、それぞれ翻訳される)、
その翻訳結果としてのテキスト、その他付随する情報
を、音声合成部3や、表示部4、対話管理部5などに、
必要に応じて出力する。音声合成部3は、機械翻訳部2
や対話管理部5などの出力に基づいて音声合成処理を行
い、これにより、例えば、入力された音声の、他の言語
への翻訳結果等としての合成音を出力する。
【0019】表示部4は、例えば、液晶ディスプレイ等
で構成され、音声認識部1による音声認識結果や、機械
翻訳部2による機械翻訳結果、対話管理部5が出力する
情報等を、必要に応じて表示する。
【0020】対話管理部5は、音声認識部1や機械翻訳
部2の出力から、ユーザの発話の内容の意味理解を行
い、その意味理解の結果に基づいて、ユーザどうしの対
話の履歴(対話履歴)を管理する。さらに、対話管理部
5は、例えば、日本語や英語に関する知識を有してお
り、その知識や対話履歴に基づいて、音声認識部1や機
械翻訳部2に対し、音声認識や機械翻訳の補助を行うた
めの情報をフィードバックする等の処理を行う。
【0021】以上のように構成される音声翻訳システム
においては、例えば、日本語の音声が入力されると、そ
の音声が、音声認識部1で音声認識され、機械翻訳部2
に供給される。機械翻訳部2では、音声認識部1による
音声認識結果が、英語に機械翻訳され、音声合成部3に
供給される。音声合成部3では、機械翻訳部2による翻
訳結果に対応する合成音が生成されて出力される。ま
た、英語の音声が入力されると、その音声が、音声認識
部1で音声認識され、機械翻訳部2に供給される。機械
翻訳部2では、音声認識部1による音声認識結果が、日
本語に機械翻訳され、音声合成部3に供給される。音声
合成部3では、機械翻訳部2による翻訳結果に対応する
合成音が生成されて出力される。
【0022】従って、図1の音声翻訳システムによれ
ば、英語のユーザは、日本語のユーザによる日本語の発
話を理解し、また、日本語のユーザは、英語のユーザに
よる英語の発話を理解することができ、日本語のユーザ
と、英語のユーザとの間で対話を行うことができる。
【0023】なお、以上のようにして、日本語のユーザ
と、英語のユーザとの間で対話が行われている場合にお
いて、対話管理部5は、例えば、機械翻訳部2による翻
訳結果を監視しており、日本語のユーザと英語のユーザ
とによる対話履歴が構成され、その対話履歴や、あらじ
め記憶している知識に基づいて、円滑な対話が行われる
ようにするための各種の処理(例えば、対話の流れか
ら、翻訳結果が誤っているかどうかが判定され、誤って
いると判定された場合には、処理をやり直すように、音
声認識部1や機械翻訳部2を制御する処理等)が行われ
る。
【0024】次に、図2は、図1の音声認識部1の構成
例を示している。
【0025】ユーザの発話は、マイク11に入力され、
マイク11では、その発話が、電気信号としての音声信
号に変換される。この音声信号は、AD(Analog Digita
l)変換部12に供給される。AD変換部12では、マイ
ク11からのアナログ信号である音声信号がサンプリン
グ、量子化され、ディジタル信号である音声データに変
換される。この音声データは、特徴抽出部13に供給さ
れる。
【0026】特徴抽出部13は、AD変換部12からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、パワー、線形予測係数、ケプストラム係
数、線スペクトル対等の特徴パラメータを抽出し、特徴
量バッファ14およびマッチング部15に供給する。特
徴量バッファ14では、特徴抽出部13からの特徴パラ
メータが一時記憶される。
【0027】マッチング部15は、特徴量抽出部13か
らの特徴パラメータ、または特徴量バッファ14に記憶
された特徴パラメータに基づき、音響モデルデータベー
ス16、辞書データベース17、および文法データベー
ス18を必要に応じて参照しながら、マイク11に入力
された音声(入力音声)を認識する。
【0028】即ち、音響モデルデータベース16は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、HMM(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス17は、認識対象の各単語(語句)について、その発
音に関する情報が記述された単語辞書や、この単語辞書
をもとに先行する音素や音節から次に許される音素、音
節を一覧にした表として記憶している。文法データベー
ス18は、辞書データベース17の単語辞書に登録され
ている各単語が、どのように連鎖する(つながる)かを
記述した文法規則を記憶している。ここで、文法規則と
しては、例えば、文脈自由文法(CFG)や、統計的な
単語連鎖確率(N−gram)などに基づく規則を用い
ることができる。
【0029】マッチング部15は、辞書データベース1
7の単語辞書を参照することにより、音響モデルデータ
ベース16に記憶されている音響モデルを接続すること
で、単語の音響モデル(単語モデル)を構成する。さら
に、マッチング部15は、幾つかの単語モデルを、文法
データベース18に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、HMM法等
によって、マイク11に入力された音声を認識する。
【0030】そして、マッチング部15による音声認識
結果は、例えば、テキスト等で出力される。
【0031】なお、マッチング部15は、入力された音
声を対象として、再度、処理を行うことが必要な場合
は、特徴量バッファ14に記憶された特徴パラメータを
用いて処理を行うようになっており、これにより、ユー
ザに再度の発話を要求せずに済むようになっている。
【0032】次に、図3は、図1の機械翻訳部2の構成
例を示している。
【0033】テキスト解析部21には、音声認識部1が
出力する音声認識結果としてのテキスト等が、機械翻訳
の対象として入力されるようになっており、テキスト解
析部21は、辞書データベース24や解析用文法データ
ベース25を参照しながら、そのテキストを解析する。
【0034】即ち、辞書データベース24には、各単語
の表記や、解析用文法を適用するために必要な品詞情報
などが記述された単語辞書が記憶されている。また、解
析用文法データベース25には、単語辞書に記述された
各単語の情報に基づいて、単語連鎖に関する制約等が記
述された解析用文法規則が記憶されている。そして、テ
キスト解析部21は、その単語辞書や解析用文法規則に
基づいて、そこに入力されるテキスト(入力テキスト)
の形態素解析や、構文解析等を行い、その入力テキスト
を構成する単語や構文の情報等の言語情報を抽出する。
ここで、テキスト解析部21における解析方法として
は、例えば、正規文法や、文脈自由文法、統計的な単語
連鎖確率を用いたものなどがある。
【0035】テキスト解析部21で得られた入力テキス
トの解析結果としての言語情報は、言語変換部22に供
給される。言語変換部22は、言語変換データベース2
6を参照し、入力テキストの言語の言語情報を、翻訳結
果の言語の言語情報に変換する。
【0036】即ち、言語変換データベース26には、入
力言語(言語変換部22への入力の言語)の言語情報か
ら、出力言語(言語変換部22からの出力の言語)の言
語情報への変換パターン(テンプレート)や、入力言語
と出力言語との対訳用例およびその対訳用例と入力言語
との間の類似度の計算に用いられるシソーラス等の、言
語情報を変換するための言語変換データが記憶されてい
る。そして、言語変換部22では、このような言語変換
データに基づいて、入力テキストの言語の言語情報が、
出力言語の言語情報に変換される。
【0037】言語変換部22で得られた出力言語の言語
情報は、テキスト生成部23に供給され、テキスト生成
部23は、辞書データベース27および生成用文法デー
タベース28を参照することにより、出力言語の言語情
報から、入力テキストを出力言語に翻訳したテキストを
生成する。
【0038】即ち、辞書データベース27には、出力言
語の文を生成するのに必要な単語の品詞や活用形等の情
報が記述された単語辞書が記憶されており、また、生成
用文法データベース28には、出力言語の文を生成する
のに必要な単語の活用規則や語順の制約等の生成用文法
規則が記憶されている。そして、テキスト生成部23
は、これらの単語辞書および生成用文法規則に基づい
て、言語変換部22からの言語情報を、テキストに変換
して出力する。
【0039】次に、図4は、図1の音声合成部3の構成
例を示している。
【0040】テキスト解析部31には、機械翻訳部2が
出力する翻訳結果としてのテキストや、対話管理部5が
出力するテキストが、音声合成処理の対象として入力さ
れるようになっており、テキスト解析部31は、辞書デ
ータベース34や解析用文法データベース35を参照し
ながら、そのテキストを解析する。
【0041】即ち、辞書データベース34には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、また、解析用文法データベ
ース35には、辞書データベース34の単語辞書に記述
された単語について、単語連鎖に関する制約等の解析用
文法規則が記憶されている。そして、テキスト解析部3
1は、この単語辞書および解析用文法規則に基づいて、
そこに入力されるテキストの形態素解析や構文解析等の
解析を行い、後段の規則合成部32で行われる規則音声
合成に必要な情報を抽出する。ここで、規則音声合成に
必要な情報としては、例えば、ポーズの位置や、アクセ
ントおよびイントネーションを制御するための情報その
他の韻律情報や、各単語の発音等の音韻情報などがあ
る。
【0042】テキスト解析部31で得られた情報は、規
則合成部32に供給され、規則合成部32では、音素片
データベース36を用いて、テキスト解析部31に入力
されたテキストに対応する合成音の音声データ(ディジ
タルデータ)が生成される。
【0043】即ち、音素片データベース36には、例え
ば、CV(Consonant, Vowel)や、VCV、CVC等の形
で音素片データが記憶されており、規則合成部32は、
テキスト解析部31からの情報に基づいて、必要な音素
片データを接続し、さらに、ポーズ、アクセント、イン
トネーション等を適切に付加することで、テキスト解析
部31に入力されたテキストに対応する合成音の音声デ
ータを生成する。
【0044】この音声データは、DA変換部33に供給
され、そこで、アナログ信号としての音声信号に変換さ
れる。この音声信号は、図示せぬスピーカに供給され、
これにより、テキスト解析部31に入力されたテキスト
に対応する合成音が出力される。
【0045】次に、図5は、図1の対話管理部5の構成
例を示している。
【0046】テキスト解析部41には、例えば、機械翻
訳部2が出力する翻訳結果(翻訳文)のテキスト、その
他付随する情報が供給されるようになっており、テキス
ト解析部41は、その翻訳文の構文構造を、辞書データ
ベース44および文法データベース45を参照して解析
する。ここで、本実施の形態では、辞書データベース4
4には日本語と英語の辞書が、文法データベース45に
は日本語と英語の文法規則が、それぞれ記憶されてお
り、テキスト解析部41は、機械翻訳部2からの翻訳文
を、その言語に対応する辞書と文法規則を参照して解析
する。
【0047】なお、機械翻訳部2の出力に、そのテキス
ト解析部21(図3)において得られる解析結果が含ま
れ、その解析結果を、対話管理部5のテキスト解析部4
1の解析結果として代用することができる場合には、テ
キスト解析部41における一部または全部の処理を省略
することが可能である。
【0048】テキスト解析部41による翻訳文の解析結
果(翻訳文の構文構造)は、意味理解部42に供給され
る。意味理解部42は、知識データベース46を参照
し、テキスト解析部41が出力する翻訳文の構文構造に
基づいて、その翻訳文の意味を解析し、その意味理解を
行う。即ち、知識データベース46には、一般常識や、
言語的な知識等の、意味理解を行うのに用いられる知識
が記憶されており、意味理解部42は、このような知識
を、必要に応じて参照して、翻訳文の意味理解を行う。
【0049】ここで、意味理解部42による翻訳文の意
味の解析方法としては、例えば、「自然言語の文法理
論」、郡司隆男著、産業図書に記載されている語彙機能
文法や句構造文法を用いて記述された解析ルールにした
がって、翻訳文を解析し、その意味構造を抽出するもの
等がある。なお、この場合、上述のような解析ルールの
他、各単語について、その意味や文法上の役割を記述し
た辞書が必要となるが、これらの解析ルールや辞書は、
意味理解部42が内蔵しているものとする。
【0050】意味理解部42による翻訳文の意味理解の
結果は、対話制御部43に供給される。対話制御部43
は、翻訳文のテキストおよびその意味理解の結果の一部
または全部を、順次記憶し、これにより、音声翻訳シス
テムを介して行われた対話の履歴(対話履歴)を構成す
る。
【0051】さらに、対話制御部43は、対話履歴から
把握される対話の流れから、意味理解部42で意味理解
された翻訳文が不自然でないかどうかをチェックする。
そして、翻訳文が不自然である場合には、その旨を表す
制御情報を、音声認識部1や、機械翻訳部2に出力し、
例えば、処理をやり直させる。
【0052】なお、ここでは、対話管理部5において、
機械翻訳部2による翻訳結果を対象に処理が行われるよ
うにしたが、対話管理部5には、音声認識部1による音
声認識結果を対象に処理を行わせることも可能である。
【0053】次に、図1の音声翻訳システムでは、音声
認識部1による音声認識結果は、自然言語処理の対象と
なる。即ち、音声認識結果は、機械翻訳部2において機
械翻訳され、その翻訳結果は、音声合成部3において、
規則音声合成の対象とされるとともに、対話管理部5に
おいて、意味理解の対象とされる。従って、音声認識結
果は、機械翻訳部2で処理され、また、機械翻訳部2を
介して、音声合成部3および対話管理部5で処理され
る。
【0054】機械翻訳部2、音声合成部3、および対話
管理部5では、いずれも、まず最初に、そこへの入力
が、自然言語処理の1つであるテキスト解析されるが、
本実施の形態では、音声認識部1と、機械翻訳部2、音
声合成部3、または対話管理部5それぞれとの間におい
て、情報のやりとりが行われ、これにより、音声認識部
1、機械翻訳部2、音声合成部3、対話管理部5それぞ
れにおける処理精度を向上させるようになっている。
【0055】そこで、図6を参照して、そのやりとりに
ついて説明する。なお、以下では、音声認識部1との間
でやりとりを行う自然言語処理装置として、機械翻訳部
2に注目して説明を行い、その他の自然言語処理装置
(本実施の形態では、音声合成部3、対話管理部5)に
ついては、説明を省略する。即ち、音声認識部1と、音
声合成部3または対話管理部5との間でも、音声認識部
と機械翻訳部2との間における場合と同様のやりとりが
行われる。
【0056】本実施の形態では、音声認識部1は、音声
認識結果の1以上の候補としての文章(以下、仮説文章
という)を、その確からしさに対応するスコアとともに
出力するようになっている。なお、仮説文章は、必ずし
も文章(文)である必要はなく、従って、文を構成しな
い単語列や単語であることもある。また、ここでは、ス
コアが高いほど、確からしいものとする。
【0057】機械翻訳部2(図3)のテキスト解析部2
1は、音声認識部1が出力する1以上の仮説文章とスコ
アを受信し、各仮説文章を形態素解析および構文解析す
ることで、各仮説文章の言語的な信頼性(言語的な正し
さ)を求める。そして、テキスト解析部21は、スコア
と言語的な信頼性に基づいて、構文的に最も確からしい
仮説文章を得て、テキスト解析結果として出力する。
【0058】また、テキスト解析部21は、ある程度構
文的に確からしい仮説文章を得られなかった場合、テキ
スト解析(形態素解析および構文解析)の結果に基づい
て、音声認識部1からの仮説文章を構成する単語や文節
の区切り、単語どうしの連接(接続)関係、未知語の区
間等を修正し、そのような構造の音声認識結果を得られ
るかどうかを、音声認識部1に問い合わせる。
【0059】音声認識部1(図2)は、機械翻訳部2か
ら、上述のような問い合わせを受けると、マッチング部
15において、特徴量バッファ14に記憶された特徴パ
ラメータを用い、機械翻訳部2からの問い合わせにした
がって、単語や文節の区切りを修正した仮説文章のスコ
アが計算される。そして、マッチング部15は、そのス
コアを、問い合わせに対する応答として、機械翻訳部2
のテキスト解析部21に出力し、テキスト解析部21で
は、そのスコアを用いて、上述の場合と同様の処理が行
われる。
【0060】以下、音声認識部1およびテキスト解析部
21では、テキスト解析部21においてある程度構文的
に確からしい仮説文章が得られるまで、同様の処理が繰
り返される。
【0061】次に、図7のフローチャートを参照して、
図2の音声認識部1の処理について、さらに説明する。
【0062】ユーザの発話は、マイク11に入力され、
マイク11では、その発話が、電気信号としての音声信
号に変換される。この音声信号は、AD変換部12を介
することにより、ディジタル信号である音声データに変
換され、特徴抽出部13に供給される。
【0063】特徴抽出部13は、ステップS1におい
て、AD変換部12からの音声データを受信する。そし
て、特徴抽出部13は、ステップS2に進み、適当なフ
レームごとに、例えば、スペクトルや、パワー、それら
の時間変化量等の特徴パラメータを抽出し、特徴量バッ
ファ14およびマッチング部15に供給する。特徴量バ
ッファ14では、特徴抽出部13からの特徴パラメータ
が一時記憶される。
【0064】その後、ステップS3において、マッチン
グ部15は、音響モデルデータベース16に記憶されて
いる音響モデルを、音素連鎖規則に基づいて接続し、こ
れにより、音響モデルをノードとする、並列構造、直列
構造、または木構造のネットワークを構成する。
【0065】即ち、例えば、ステップS3では、まず最
初に、音響モデルデータベース16に記憶された音響モ
デルそれぞれを先頭のノードに配置したネットワークが
構成される。そして、次に、ステップS3の処理が行わ
れると、そのネットワークにおいて最後に配置された音
響モデルの後に接続しうる音響モデルが、言語モデルに
基づいて選択され、その選択された音響モデルが、ネッ
トワークにおいて最後に配置(接続)された音響モデル
に接続されて、新たなネットワークが構成される。以
下、同様にして、後述するステップS9において、文章
の終端が得られるまで、ステップS3の処理が行われる
ごとに、新たなネットワークが構成されていく。
【0066】ここで、ステップS3で構成される、音響
モデルのネットワークは、発話中の単語を探索するため
に利用されるものであり、以下、適宜、探索ネットワー
クという。探索ネットワークの例を、図8に示す。な
お、図8において、○および●印が、ノードとしての音
響モデルを表しており、その上に付してあるアルファベ
ットが、音響モデルに対応する音素を表している。図8
に示した探索ネットワークは、時間が経過するにつれて
(例えば新たなフレームの特徴パラメータが得られるに
つれて)、右(時間)方向に延びていく。
【0067】ステップS3において、上述のようにし
て、探索ネットワークが構成されると、ステップS4に
進み、マッチング部15は、特徴抽出部13からの特徴
パラメータに基づいて、探索ネットワークの先頭のノー
ドから最後のノードに至るパスすべてのパスを探索範囲
として設定し、その探索範囲のパス(以下、適宜、探索
パスという)それぞれについて、その最後に接続された
(直前のステップS3で接続されたノードとしての音響
モデルに対応する音素(または音韻)が発話されたこと
の確からしさを表すスコア(以下、適宜、音素発話スコ
アという)を計算する。
【0068】即ち、マッチング部15は、探索パスに最
後に接続されたノードとしての音響モデルと、特徴抽出
部13からの特徴パラメータとを照合し、その音響モデ
ルに対応する音素(または音韻)が、その特徴パラメー
タに対応する音声であることの確からしさ(尤度)を表
すスコア(以下、適宜、音響モデルスコアという)を求
める。そして、マッチング部15は、探索パスに最後に
接続された音響モデルの前に接続された音響モデルと、
その前後の音響モデルとの連接しやすさを表すスコア
(以下、適宜、音響モデル連接スコアという)を、言語
モデルを参照することで求め、音響モデルスコアと音響
モデル連接スコアとから、探索パスに最後に接続された
音響モデルについての音素発話スコアを求める。
【0069】なお、探索パスは、探索ネットワークを構
成するノードとしての音響モデルを所定数に制限するビ
ームサーチ等の手法によって限定することが可能であ
る。
【0070】マッチング部15は、ステップS4におい
て、以上のようにして、すべての探索パスそれぞれにつ
いて、最後に接続された音響モデルについての音素発話
スコアを求めた後、ステップS5に進み、各探索パスに
ついて、その探索パスから、後述するステップS7で検
出された最後の単語の終端の音響モデルの次の音響モデ
ルから、最後に接続された音響モデルまでの音響モデル
の並びに対応する音素列(音韻列)を、注目音素列とし
て検出し、その注目音素列を、辞書データベース17に
おける単語辞書に登録されている各単語と照合する。
【0071】そして、マッチング部15は、ステップS
6に進み、注目音素列が、単語辞書に登録されているい
ずれかの単語に一致するかどうかを判定する。ステップ
S6において、注目音素列が、単語辞書に登録されてい
るいずれの単語にも一致しないと判定された場合、即
ち、探索パスに最後に接続された音響モデルに対応する
音素が、単語の最後の音素ではない場合、AD変換部1
2から、次のフレームの音声データが供給されるのを待
って、ステップS1に戻り、その、次のフレームの音声
データを対象に、以下、同様の処理が繰り返される。
【0072】また、ステップS6において、注目音素列
が、単語辞書に登録されているいずれかの単語に一致す
ると判定された場合、即ち、探索パスに最後に接続され
た音響モデルに対応する音素が、単語の最後の音素であ
る場合、ステップS7に進み、マッチング部15は、注
目音素列に一致する単語を、音声認識結果を構成する単
語の候補(以下、適宜、候補単語という)として決定す
るとともに、その候補単語の尤度を表す単語スコアを計
算する。ここで、単語スコアとしては、例えば、その候
補単語に一致する注目音素列に対応する音響モデルの並
びを構成する各音響モデルについての音素発話スコアの
平均値等を用いることができる。
【0073】その後、マッチング部15は、ステップS
8に進み、ステップS7で単語候補が決定された各探索
パスについて、その単語候補と、その前に決定された単
語候補との接続関係を記憶し、ステップS9に進む。ス
テップS9では、マッチング部15は、ステップS7で
単語候補が決定された各探索パスについて、最後に接続
された音響モデルに対応する音素が、文章の終端である
かどうかを判定する。ここで、文章の終端であるかどう
かの判定は、例えば、文法データベースによる単語間の
連鎖制約や、文章どうしの間にある長時間の音響的な無
音を検出することによって特定される音声区間、機械翻
訳部2(図3)のテキスト解析部21において行われる
形態素解析結果等に基づいて行われる。
【0074】ステップS9において、探索パスに最後に
接続された音響モデルに対応する音素が、文章の終端で
ないと判定された場合、AD変換部12から、次のフレ
ームの音声データが供給されるのを待って、ステップS
1に戻り、その、次のフレームの音声データを対象に、
以下、同様の処理が繰り返される。
【0075】なお、ステップS7において決定された候
補単語に一致する注目音素列、即ち、単語辞書に登録さ
れたある単語に一致する注目音素列が、単語辞書に登録
された他の単語の一部に一致する場合は、その注目音素
列の探索パスは、ステップS7で決定された候補単語を
含む探索パスと、他の単語を含む可能性のある探索パス
とに変換される。そして、候補単語を含む探索パスは、
ステップS8以降の処理の対象となり、他の単語を含む
可能性のある探索パスは、さらに音響モデルを接続し
て、単語辞書に登録されている他の単語に一致するかど
うかの判定を行う対象となる。
【0076】一方、ステップS9において、探索パスに
最後に接続された音響モデルに対応する音素が、文章の
終端であると判定された場合、即ち、探索パスを辿るこ
とによって得られる単語の並びで構成される、発話内容
の音声認識結果の候補としての文章を表す探索ネットワ
ークが得られた場合、ステップS10に進み、マッチン
グ部15は、各探索パス上の候補単語を、ステップS8
で記憶された接続関係に基づいて辿っていくことで、文
章を構成し、その文章を仮説文章として決定する。さら
に、ステップS10では、マッチング部15は、仮説文
章を構成する各候補単語についての単語スコアや、N−
gram等の言語モデルによって規定される候補単語ど
うしの接続しやすさを表すスコア等に基づいて、各仮説
文章の尤度を表すスコア(以下、適宜、文章スコアとい
う)を求める。
【0077】そして、ステップS11に進み、マッチン
グ部15は、例えば、最高の文章スコアとの差が所定値
以内の文章スコアを有する仮説文章を、その文章スコア
とともに、文章スコアの高い順に並べたリスト(以下、
仮説文章リストという)を作成し、これを音声認識結果
の候補として出力して、処理を終了する。
【0078】従って、音声認識部1が出力する仮説文章
の数は、発話によって変化し得る。即ち、例えば、仮説
文章どうしの文章スコアの差が大きい場合には、最高の
文章スコアを有する仮説文章だけか、あるいは、順位の
高い文章スコアを有する幾つかの仮説文章でなる仮説文
章リストが出力され、また、仮説文章どうしの文章スコ
アの差が小さい場合には、比較的多くの仮説文章でなる
仮説文章リストが出力される。仮説文章リストに、複数
の仮説文章が存在する場合、音声認識結果として最も確
からしい文章の最終的な決定は、機械翻訳部2のテキス
ト解析部21で行われる。
【0079】なお、仮説文章リストには、仮説文章を構
成する各単語の品詞を付加するようにすることが可能で
ある。
【0080】次に、図9のフローチャートを参照して、
図2の機械翻訳部2におけるテキスト解析部21の処理
について、さらに説明する。
【0081】テキスト解析部21は、音声認識部1が出
力する仮説文章リストを受信し、その仮説文章リストに
ある仮説文章を対象に、形態素解析および構文解析を行
うことで、言語的に正しい文章を得る。ここで、形態素
解析では、仮説文章から、形態素(単語)の切れ目を見
つけることにより、その仮説文章が形態素に分解され
る。また、形態素分析では、各形態素の品詞が検出さ
れ、さらに、形態素が活用語である場合には、活用型、
活用形、基本形が特定される。一方、構文解析では、辞
書データベース24や解析用文法データベース25に記
憶されている情報を参照して、仮説文章の文型、主部、
述部の抽出や、それらの係り受け関係が検出され、その
検出結果に基づいて、仮説文章の構造が認識され、仮説
文章が構文規則に当てはまるかどうかが判定される。
【0082】即ち、テキスト解析部21は、仮説文章リ
ストを受信すると、その仮説文章リストにおける各仮説
文章を対象に、図9のフローチャートにしたがった処理
を行う。
【0083】具体的には、ステップS21において、テ
キスト解析部21は、仮説文章を受信し、ステップS2
2に進む。ステップS22では、仮説文章の先頭の文字
に、ポインタがセットされ、ステップS23に進み、ポ
インタが指している文字に対して、その後に位置する仮
説文章の文字が順次付加されていき、そのようにして構
成される文字列(文字)に一致する単語が、辞書データ
ベース24に記憶されている単語辞書から検索される。
【0084】そして、ステップS24に進み、上述のよ
うにして構成される文字列に一致する単語が、単語辞書
に存在するかどうかが判定され、存在すると判定された
場合、即ち、文字列が、単語辞書において単語として登
録(定義)されている場合、テキスト解析部21は、そ
の単語としての文字列に対して、その品詞や、活用形等
に関する文法情報を付加し、ステップS26に進む。
【0085】一方、ステップS24において、上述のよ
うにして構成される文字列に一致する単語が、単語辞書
に存在しないと判定された場合、即ち、ポインタが指し
ている文字から、仮説文章の最後の文字までサーチして
も、単語辞書にある単語と一致する文字列を得ることが
できなかった場合、ステップS25に進み、未定義語処
理が行われる。
【0086】即ち、ポインタが指している文字から、仮
説文章の最後の文字までサーチしても、単語辞書にある
単語と一致する文字列を得ることができなかった場合と
いうのは、ポインタが指している文字を先頭とする、仮
説文章を構成する単語が、辞書データベース24の単語
辞書に登録(定義)されていない場合であり、ステップ
S25では、その登録されていない単語(以下、適宜、
未定義語という)の区間を決定するための未定義語処理
が行われる。
【0087】具体的には、未定義語処理では、ポインタ
が指している文字に、仮のポインタが設定され、その仮
のポインタが指している文字から、仮説文章の最後の文
字までをサーチすることを、仮のポインタを、仮説文章
の後方に一文字ずつずらしながら繰り返すことで、辞書
データベース24の単語辞書に登録されている単語に一
致する文字列が検出される。そして、単語としての文字
列が検出されたときのポインタが指している文字から、
仮のポインタが指している文字の1文字前の文字までの
文字列が、未定義語として決定される。
【0088】さらに、未定義語処理では、未定義語が、
音声認識部1に供給され、その未定義語の品詞の問い合
わせが行われる。この場合、音声認識部1では、未定義
語に一致する単語が、辞書データベース17の単語辞書
から検索される。そして、未定義語と一致する単語が、
辞書データベース17の単語辞書に登録されている場
合、その単語の品詞が、テキスト解析部21に供給され
る。また、未定義語と一致する単語が、辞書データベー
ス17の単語辞書に登録されていない場合、音声認識部
1は、未定義語の品詞として、例えば、固有名詞や形容
詞等の解析する言語に所定の品詞を設定し、その品詞
を、テキスト解析部21に供給する。テキスト解析部2
1は、以上のようにして、音声認識部1から、未定義語
の品詞を受信すると、その品詞を、未定義語に付加す
る。
【0089】以上のような未定義語処理の後は、ステッ
プS26に進み、テキスト解析部21は、ポインタの前
と後に位置する単語の連接関係を、辞書データベース2
4を参照することにより調査し、連接可能な単語の組に
リンクが張られる。
【0090】即ち、テキスト解析部21は、ステップS
23において、ポインタが指している文字を始点とし、
その文字以後にある仮説文章の文字を、順次終点とし
て、その始点から終点までの文字列(文字)に一致する
すべての単語を、辞書データベース24の単語辞書から
検索するから、複数の単語(ある単語と、その単語に先
頭が一致する単語)が検出される場合がある。そこで、
ステップS26では、ポインタが際している文字の直前
の文字を最後とする単語と、ステップS23で検出され
たすべての単語それぞれの連接関係が調査され、連接可
能な単語の組についてのみ、その単語どうしの間にリン
クが張られる。
【0091】なお、ここでは、辞書データベース24の
単語辞書に、単語とともに、その単語の前後に連接可能
な単語との連接関係が、表形式等で登録されているもの
とする。
【0092】ここで、上述の未定義語の品詞について
は、連接関係から、音声認識部1で決定された品詞より
も確からしいものが得られることがある。この場合、テ
キスト解析部21では、未定義語の品詞が、その確から
しい品詞に変更される。
【0093】ステップS26の処理後は、ステップS2
7に進み、ポインタが、ステップS23で検出され、か
つ上述のようにリンクが張られた単語の最後の文字の次
の文字に設定(移動)される。ここで、ステップS27
では、ステップS23で検出され、かつ上述のようにリ
ンクが張られた単語が複数ある場合には、その複数の単
語それぞれの最後の文字の次の文字にポインタが設定さ
れ、その複数のポインタそれぞれを対象として、以降の
処理が行われる。
【0094】その後、ステップS28において、テキス
ト解析部21は、ポインタが、仮説文章の最後まで移動
されたかどうかを判定する。ステップS28において、
ポインタが仮説文章の最後まで移動されていないと判定
された場合(上述したように、複数のポインタが存在す
る場合には、その複数のポインタの1以上が、仮説文章
の最後まで移動されていない場合)、ステップS23に
進み、以下、上述した場合と同様の処理が繰り返され
る。
【0095】また、ステップS28において、ポインタ
が仮説文章の最後まで移動されたと判定された場合(複
数のポインタが存在する場合には、その複数のポインタ
のすべてが、仮説文章の最後まで移動された場合)、ス
テップS29に進み、仮説文章の先頭の単語(形態素)
から、ステップS26で張られたリンクを辿っていくこ
とにより形成される1以上の文章(以下、適宜、形態素
解析文章という)が、形態素解析結果として検出され、
各形態素解析文章について、形態素解析による確からし
さを表す形態素解析スコアが、例えば、次式にしたがっ
て計算される。
【0096】
【数1】 ・・・(1)ここで、式(1)において、形態素スコア
(i)は、形態素解析文章の先頭からi番目の形態素
(単語)に割り当てられている点数を意味し、連接スコ
ア(i,i+1)は、形態素解析文章の先頭からi番目
の形態素とi+1番目の形態素との連接に割り当てられ
ている点数を意味する。また、Nは、形態素解析文章を
構成する形態素(単語)の数を表す。なお、形態素、お
よび形態素どうしの連接に割り当てられている点数は、
辞書データベース24の単語辞書に登録されているもの
とする。
【0097】すべての形態素解析文章について、形態素
解析スコアが求められると、ステップS30に進み、テ
キスト解析部21は、各形態素解析文章を構文解析し、
構文規則にしたがっていない形態素解析文章を削除し
て、ステップS31に進む。
【0098】ステップS31では、音声認識部1からの
すべての仮説文章から得られたすべての形態素解析文章
についての最終的な信頼性を表す総合スコアが、例え
ば、次式にしたがい、言語的な信頼性(確からしさ)と
しての形態素解析スコアと、音響的な信頼性としての文
章スコアとの両方を考慮して計算される。
【0099】 統合スコア=形態素解析スコア+w×文章スコア ・・・(2) ここで、wは、文章スコアに対する重みであり、文章ス
コアは、形態素解析文章が得られた仮説文章の文章スコ
アである。
【0100】そして、ステップS32に進み、最高の統
合スコアが得られた形態素解析文章が、テキスト解析部
21におけるテキスト解析結果として出力され、処理を
終了する。
【0101】次に、音声認識部1(図2)においては、
発話中に、辞書データベース17の単語辞書に登録され
ていない単語(以下、適宜、未知語という)があった場
合に、その未知語の品詞を推定して、未知語の音素列
(音韻列)とともに、音声認識結果に含めて出力するよ
うにすることが可能である。
【0102】そこで、図10のフローチャートを参照し
て、そのような音声認識部1の処理について説明する。
【0103】ステップS41乃至S46では、図7のス
テップS1乃至S6における場合とそれぞれ同様の処理
が行われる。
【0104】そして、ステップS46において、注目音
素列が、単語辞書に登録されているいずれかの単語に一
致すると判定された場合、ステップS53に進み、以
下、ステップS53乃至S57において、図7のステッ
プS7乃至S11における場合とそれぞれ同様の処理が
行われ、処理を終了する。
【0105】また、ステップS46において、注目音素
列が、単語辞書に登録されているいずれの単語にも一致
しないと判定された場合、ステップS47に進み、マッ
チング部15において、探索ネットワークにおける探索
パスの中に、後述するようにして、未知語が含まれる探
索パス(以下、適宜、未知語パスという)に設定されて
いるものがあるかどうかが判定される。
【0106】ステップS47において、未知語パスに設
定されている探索パスがないと判定された場合、ステッ
プS48に進み、マッチング部15は、図7のステップ
S5に対応する図10のステップS45で検出された、
各探索パスにおける注目音素列の中に、辞書データベー
ス17の単語辞書に登録されている単語のいずれにもな
り得ないもの(単語辞書に登録されている単語のいずれ
の先頭部分にも一致しない注目音素列)があり、かつ、
そのような注目音素列を有する探索パス(以下、適宜、
未知語パス候補という)のパススコアが、他の探索パス
のパススコアより大きい(以上)かどうかを判定する。
ここで、探索パスのパススコアとは、その探索パスを構
成する音響モデルそれぞれの音素発話スコアの総和を意
味する。
【0107】ステップS48において、未知語候補パス
が存在しないか(従って、単語辞書に登録されている単
語のいずれにもなり得ない注目音素列を有する探索パス
が存在しないか)、または未知語パス候補が存在して
も、そのパススコアが、他の探索パスのパススコアより
大きくないと判定された場合、ステップS41に戻り、
以下、同様の処理が繰り替えされる。
【0108】また、ステップS48において、未知語パ
ス候補が存在し、かつパススコアが、他の探索パスのパ
ススコアより大きいと判定された場合、ステップS49
に進み、マッチング部15は、その未知語パス候補を、
未知語パスに設定する。さらに、マッチング部15は、
ステップS49において、各探索パスに適用する言語モ
デルを、音韻制約の緩いものに変更し、各探索パスにお
ける音素発話スコアを、音響モデルスコアと音響モデル
連接スコアとから求めるとともに、音素モデルスコアの
みから求めるように、スコア計算モードを切り替える。
【0109】そして、ステップS41に戻り、以下、同
様の処理が繰り返される。
【0110】一方、ステップS47において、未知語パ
スに設定されている探索パスがあると判定された場合、
ステップS50に進み、マッチング部15において、そ
の未知語パスに最後に接続された音響モデルや、その前
にある幾つかの音響モデル(以下、適宜、局所音響モデ
ルという)の音響モデルスコアが、他の探索パス(未知
語パスでない探索パス)における局所音響モデルの音響
モデルスコアに一致するかどうかが判定される。ステッ
プS50において、未知語パスにおける局所音響モデル
の音響モデルスコアが、他の探索パスにおける局所音響
モデルの音響モデルスコアに一致しないと判定された場
合、ステップS41に戻り、以下、同様の処理が繰り返
される。
【0111】また、ステップS50において、未知語パ
スにおける局所音響モデルの音響モデルスコアが、他の
探索パスにおける局所音響モデルの音響モデルスコアに
一致すると判定された場合、ステップS51に進み、マ
ッチング部15は、未知語パスにおける最後の単語の終
端の音響モデルの次の音響モデルから、局所音響モデル
の1つ前の音響モデルまでの音響モデルに対応する音韻
の並びを、未知語として決定する。さらに、マッチング
部15は、未知語を適当な形(例えば、日本語の場合
は、カタカナなど)に変換し、適切な品詞情報(例え
ば、日本語の場合は、固有名詞など)を付加する。ま
た、マッチング部15は、未知語パスに設定されていた
探索パスの、その設定を解除するとともに、スコア計算
モードを元のモードに切り替え、ステップS53に進
む。
【0112】そして、ステップS53乃至S57におい
て、図7のステップS7乃至S11における場合とそれ
ぞれ同様の処理が行われ、処理を終了する。
【0113】なお、ステップS52からステップS53
に進んだ場合は、ステップS53では、ステップS51
で決定された未知語が、候補単語とされる。
【0114】また、ステップS57において出力される
仮説文章リストに含まれる仮説文章のいずれかに未知語
が含まれる場合には、その仮説文章に、未知語が含まれ
る旨の情報が付加される。
【0115】以上の処理によれば、音声認識部1におい
て、未知語に関し、次のような処理が行われる。
【0116】即ち、例えば、いま、辞書データベース1
7の単語辞書に、名詞「あきがわ」および「あきた」、
格助詞「は」、並びに接続助詞「と」が登録されている
が、「あけぼの」は登録されていないものとして、「あ
けぼのと」という発話が行われたとする。
【0117】この場合に、例えば、図8に示したような
探索ネットワークが構成されたとすると、時刻T2に接
続された音響モデル「k」までは、単語辞書の「あきが
わ」と「あきた」が、候補単語となる可能性がある。
【0118】そして、次の時刻T3において、音響モデ
ル「k」の後に、音響モデル「i」と「e]がそれぞれ
接続され、音響モデル「e」が接続されて構成される探
索パスa−k−e(音響モデル「a」、「k」、「e」
の並びで構成される探索パス)のパススコアの方が、音
響モデル「i」が接続されて構成される探索パスa−k
−iのパススコアよりも大きくなったとする。
【0119】この場合、探索パスa−k−iは、単語辞
書の「あきがわ」や「あきた」になる可能性があるが、
探索パスa−k−eは、単語辞書に登録されているいず
れの単語にもなり得ない。従って、探索パスa−k−e
は、未知語パスに設定される。
【0120】その後は、音韻制約の緩い言語モデルを用
いて、音響モデルが接続されていき、例えば、図8に示
したように、探索パスが構成されていく。
【0121】そして、未知語パスにおける局所音響モデ
ルとしての、時刻T8に接続された音響モデル「t」
や、時刻T9に接続された音響モデル「o」の音響モデ
ルスコアが、他の探索パスにおける局所音響モデルとし
ての、時刻T8に接続された音響モデル「t」や、時刻
9に接続された音響モデル「o」の音響モデルスコア
に一致すると、未知語パスにおいて、その音響モデルス
コアが一致する音響モデルの直前の音響モデルが、未知
語の終端とされる。
【0122】即ち、これにより、未知語パスにおいて、
その先頭の音響モデルから、音響モデルスコアが最初に
一致する音響モデルの直前の音響モデルまでの音響モデ
ルの並びに対応する音素列、即ち、未知語パスにおい
て、その先頭の音響モデル「a」から、時刻T8に接続
された音響モデル「t」の直前の音響モデル「o」まで
の音響モデルの並びに対応する音素列「akebon
o」が、未知語として決定される。
【0123】なお、未知語の終端の決定は、上述したよ
うに、局所音響モデルの音響モデルスコアの一致を検出
する他、例えば、未知語パスのパススコアが、他の探索
パス(未知語パスでない探索パス)のパススコアよりも
低くなったことを検出して行うことも可能である。
【0124】以上のように、音声認識部1から、音声認
識結果の候補としての1以上の仮説文章と、その文章ス
コアを、テキスト解析部21に供給するようにしたの
で、テキスト解析部21において、その文章スコアをも
加味して、テキスト解析を行うことができ、これによ
り、より正しい翻訳結果を得ることが可能となる。
【0125】なお、音声認識部1(図2)の音響モデル
データベース16や、辞書データベース、文法データベ
ース18には、各言語用の単語辞書等を記憶させておく
ようにし、未知語が検出された場合には、いま用いてい
る言語用の単語辞書等を、他の言語用の単語辞書等に切
り替えて再度処理を行い、最も高いスコアが得られたと
きに用いた言語用の単語辞書等による処理結果を、音声
認識結果として採用することが可能である。さらに、こ
の場合、どの言語用の単語辞書等を用いたかの情報を、
機械翻訳部2等に供給し、機械翻訳部2等において、そ
の言語用の辞書や文法等を用いて処理を行うように要求
することも可能である。ここで、音声認識部1における
単語辞書等の切り替えは、例えば、過去に用いたことの
ある言語用の単語辞書等を優先させるように行うことが
望ましい。
【0126】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
専用のハードウェアとしての音声翻訳システムに組み込
まれているコンピュータや、汎用のコンピュータ等にイ
ンストールされる。
【0127】そこで、図11を参照して、上述した一連
の処理を実行するプログラムをコンピュータにインスト
ールし、コンピュータによって実行可能な状態とするた
めに用いられる、そのプログラムが記録されている記録
媒体について説明する。
【0128】プログラムは、図11(A)に示すよう
に、コンピュータ101に内蔵されている記録媒体とし
てのハードディスク102や半導体メモリ103に予め
記録しておくことができる。
【0129】あるいはまた、プログラムは、図11
(B)に示すように、フロッピーディスク111、CD-R
OM(Compact Disc Read Only Memory)112,MO(Magnet
o optical)ディスク113,DVD(Digital Versatile Di
sc)114、磁気ディスク115、半導体メモリ116
などの記録媒体に、一時的あるいは永続的に格納(記
録)しておくことができる。このような記録媒体は、い
わゆるパッケージソフトウエアとして提供することがで
きる。
【0130】なお、プログラムは、上述したような記録
媒体からコンピュータにインストールする他、図11
(C)に示すように、ダウンロードサイト121から、
ディジタル衛星放送用の人工衛星122を介して、コン
ピュータ101に無線で転送したり、LAN(Local Area N
etwork)、インターネットといったネットワーク131
を介して、コンピュータ101に有線で転送し、コンピ
ュータ101において、内蔵するハードディスク102
などにインストールすることができる。
【0131】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0132】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0133】次に、図12は、図11のコンピュータ1
01の構成例を示している。
【0134】コンピュータ101は、図12に示すよう
に、CPU(Central Processing Unit)142を内蔵してい
る。CPU142には、バス141を介して、入出力イン
タフェース145が接続されており、CPU142は、入
出力インタフェース145を介して、ユーザによって、
キーボードやマウス等で構成される入力部147が操作
されることにより指令が入力されると、それにしたがっ
て、図11(A)の半導体メモリ103に対応するROM
(Read Only Memory)143に格納されているプログラム
を実行する。あるいは、また、CPU142は、ハードデ
ィスク102に格納されているプログラム、衛星122
若しくはネットワーク131から転送され、通信部14
8で受信されてハードディスク102にインストールさ
れたプログラム、またはドライブ149に装着されたフ
ロッピディスク111、CD-ROM112、MOディスク11
3、DVD114、若しくは磁気ディスク115から読み
出されてハードディスク102にインストールされたプ
ログラムを、RAM(Random Access Memory)144にロー
ドして実行する。そして、CPU142は、その処理結果
を、必要に応じて、例えば、入出力インタフェース14
5を介して、LCD(Liquid CryStal Display)やスピーカ
等で構成される出力部146から出力させ、あるいは、
通信部148から送信させる。
【0135】
【発明の効果】本発明の音声認識装置および音声認識方
法、並びに記録媒体によれば、特徴パラメータに基づい
て、音声が認識され、その音声認識結果の1以上の候補
と、各候補の確からしさに対応するスコアが、自然言語
処理を行う自然言語処理手段に出力される。従って、自
然言語処理手段において、スコアを考慮して自然言語処
理を行うようにすることで、その処理精度を向上させる
ことが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声翻訳システムの一実施の
形態の構成例を示すブロック図である。
【図2】音声認識部1の構成例を示すブロック図であ
る。
【図3】機械翻訳部2の構成例を示すブロック図であ
る。
【図4】音声合成部3の構成例を示すブロック図であ
る。
【図5】対話管理部5の第1の構成例を示すブロック図
である。
【図6】音声認識部1と機械翻訳部2のテキスト解析部
21との間のやりとりを説明するための図である。
【図7】音声認識部1の動作を説明するためのフローチ
ャートである。
【図8】探索ネットワークを示す図である。
【図9】テキスト解析部21の動作を説明するためのフ
ローチャートである。
【図10】音声認識部1の動作を説明するためのフロー
チャートである。
【図11】本発明を適用した記録媒体を説明するための
図である。
【図12】図11のコンピュータ101の構成例を示す
ブロック図である。
【符号の説明】
1 音声認識部, 2 機械翻訳部, 3 音声合成
部, 4 表示部, 5対話管理部, 11 マイク
(マイクロフォン), 12 AD変換部, 13 特
徴抽出部, 14 特徴量バッファ, 15 マッチン
グ部, 16 音響モデルデータベース, 17 辞書
データベース, 18 文法データベース, 21 テ
キスト解析部, 22 言語変換部, 23 テキスト
生成部,24 辞書データベース, 25 解析用文法
データベース, 26 言語変換データベース, 27
辞書データベース, 28 生成用文法データベー
ス,31 テキスト解析部, 32 規則合成部, 3
3 DA変換部, 34辞書データベース, 35 解
析用文法データベース, 36 音素片データベース,
41 テキスト解析部, 42 意味理解部, 43
対話制御部,44 辞書データベース, 45 文法
データベース, 46 知識データベース, 101
コンピュータ, 102 ハードディスク, 103
半導体メモリ, 111 フロッピーディスク, 11
2 CD-ROM, 113 MOディスク, 114 DVD,
115 磁気ディスク, 116 半導体メモリ,
121 ダウンロードサイト, 122 衛星, 13
1 ネットワーク, 141 バス, 142 CPU,
143 ROM, 144 RAM, 145 入出力イン
タフェース, 146 出力部, 147 入力部,
148 通信部,149 ドライブ

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を認識する音声認識装置
    であって、 前記音声の特徴パラメータを抽出する抽出手段と、 前記特徴パラメータに基づいて、前記音声を認識し、そ
    の音声認識結果の1以上の候補と、各候補の確からしさ
    に対応するスコアを、自然言語処理を行う自然言語処理
    手段に出力する音声認識手段とを備えることを特徴とす
    る音声認識装置。
  2. 【請求項2】 前記自然言語処理手段をさらに備えるこ
    とを特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 前記自然言語処理手段は、前記音声認識
    結果の1以上の候補を自然言語処理し、その自然言語処
    理結果の中から、前記音声認識結果の各候補の言語的な
    信頼性と、前記スコアとに基づいて、最終的な自然言語
    処理結果を選択することを特徴とする請求項1に記載の
    音声認識装置。
  4. 【請求項4】 前記音声認識手段は、前記音声認識結果
    の候補を構成する単語を、その単語の品詞を表す品詞情
    報を付加して出力することを特徴とする請求項1に記載
    の音声認識装置。
  5. 【請求項5】 前記音声認識手段は、前記音声中に未知
    語を検出したとき、その未知語の音韻を、所定の品詞情
    報を付加して出力することを特徴とする請求項4に記載
    の音声認識装置。
  6. 【請求項6】 前記音声認識手段は、 音声認識を行うのに参照する参照データを、言語ごとに
    記憶している記憶手段を有し、 前記音声中に未知語を検出したとき、その未知語に対応
    する音声を、他の言語についての参照データを参照して
    認識することを特徴とする請求項1に記載の音声認識装
    置。
  7. 【請求項7】 入力された音声を認識する音声認識方法
    であって、 前記音声の特徴パラメータを抽出する抽出ステップと、 前記特徴パラメータに基づいて、前記音声を認識し、そ
    の音声認識結果の1以上の候補と、各候補の確からしさ
    に対応するスコアを、自然言語処理を行う自然言語処理
    手段に出力する音声認識ステップとを備えることを特徴
    とする音声認識方法。
  8. 【請求項8】 入力された音声を認識する音声認識処理
    を、コンピュータに行わせるプログラムが記録されてい
    る記録媒体であって、 前記音声の特徴パラメータを抽出する抽出ステップと、 前記特徴パラメータに基づいて、前記音声を認識し、そ
    の音声認識結果の1以上の候補と、各候補の確からしさ
    に対応するスコアを、自然言語処理を行う自然言語処理
    手段に出力する音声認識ステップとを備えるプログラム
    が記録されていることを特徴とする記録媒体。
JP29387799A 1999-10-15 1999-10-15 音声認識装置および音声認識方法、並びに記録媒体 Withdrawn JP2001117583A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29387799A JP2001117583A (ja) 1999-10-15 1999-10-15 音声認識装置および音声認識方法、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29387799A JP2001117583A (ja) 1999-10-15 1999-10-15 音声認識装置および音声認識方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2001117583A true JP2001117583A (ja) 2001-04-27

Family

ID=17800321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29387799A Withdrawn JP2001117583A (ja) 1999-10-15 1999-10-15 音声認識装置および音声認識方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2001117583A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345604A (ja) * 2002-05-28 2003-12-05 Inst Of Physical & Chemical Res 言語コンピュータ、言語処理方法、ならびに、プログラム
JP2009003110A (ja) * 2007-06-20 2009-01-08 National Institute Of Information & Communication Technology 知識源を組込むための確率計算装置及びコンピュータプログラム
WO2010100977A1 (ja) * 2009-03-03 2010-09-10 三菱電機株式会社 音声認識装置
CN110347696A (zh) * 2019-05-28 2019-10-18 平安科技(深圳)有限公司 数据转换方法、装置、计算机设备以及存储介质
US11501089B2 (en) 2019-06-05 2022-11-15 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof based on determining intent of a user speech in a first language machine translated into a predefined second language

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003345604A (ja) * 2002-05-28 2003-12-05 Inst Of Physical & Chemical Res 言語コンピュータ、言語処理方法、ならびに、プログラム
JP2009003110A (ja) * 2007-06-20 2009-01-08 National Institute Of Information & Communication Technology 知識源を組込むための確率計算装置及びコンピュータプログラム
WO2010100977A1 (ja) * 2009-03-03 2010-09-10 三菱電機株式会社 音声認識装置
CN102341843A (zh) * 2009-03-03 2012-02-01 三菱电机株式会社 语音识别装置
JP5258959B2 (ja) * 2009-03-03 2013-08-07 三菱電機株式会社 音声認識装置
CN102341843B (zh) * 2009-03-03 2014-01-29 三菱电机株式会社 语音识别装置
CN110347696A (zh) * 2019-05-28 2019-10-18 平安科技(深圳)有限公司 数据转换方法、装置、计算机设备以及存储介质
CN110347696B (zh) * 2019-05-28 2024-03-26 平安科技(深圳)有限公司 数据转换方法、装置、计算机设备以及存储介质
US11501089B2 (en) 2019-06-05 2022-11-15 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof based on determining intent of a user speech in a first language machine translated into a predefined second language

Similar Documents

Publication Publication Date Title
US7236922B2 (en) Speech recognition with feedback from natural language processing for adaptation of acoustic model
US6374224B1 (en) Method and apparatus for style control in natural language generation
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
US6278968B1 (en) Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6266642B1 (en) Method and portable apparatus for performing spoken language translation
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6223150B1 (en) Method and apparatus for parsing in a spoken language translation system
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US20020198713A1 (en) Method and apparatus for perfoming spoken language translation
US20040039570A1 (en) Method and system for multilingual voice recognition
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
US11295730B1 (en) Using phonetic variants in a local context to improve natural language understanding
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
AbuZeina et al. Cross-word modeling for Arabic speech recognition
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
US6772116B2 (en) Method of decoding telegraphic speech
JP2003162524A (ja) 言語処理装置
JP2001100788A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2001117921A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2001117922A (ja) 翻訳装置および翻訳方法、並びに記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070109