JP2001117583A

JP2001117583A - 音声認識装置および音声認識方法、並びに記録媒体

Info

Publication number: JP2001117583A
Application number: JP29387799A
Authority: JP
Inventors: Hideki Kishi; 秀樹岸
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-10-15
Filing date: 1999-10-15
Publication date: 2001-04-27

Abstract

(57)【要約】【課題】音声認識結果を自然言語処理するときの処理
精度を向上させる。【解決手段】音声認識部１は、特徴パラメータに基づ
いて、音声を認識し、その音声認識結果の１以上の候補
と、各候補の音響的な確からしさに対応するスコアを、
機械翻訳部２に出力する。機械翻訳部２では、音声認識
部１からの音声認識結果の各候補が解析され、言語的な
確からしさと、音声認識部１からのスコアとの両方を考
慮して、翻訳すべき文章が特定される。そして、その文
章を対象として、機械翻訳が行われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びに記録媒体に関し、特に、例え
ば、入力された音声を認識し、その認識結果を翻訳する
音声翻訳システムにおける処理精度を向上させることが
できるようにする音声認識装置および音声認識方法、並
びに記録媒体に関する。

【０００２】

【従来の技術】例えば、日本語と英語等の、異なる言語
による発話を行うユーザどうしがコミュニケーションを
図るためのツールとして、音声認識装置、翻訳装置、お
よび音声合成装置から構成される音声翻訳システムがあ
る。音声翻訳システムでは、音声認識装置において、例
えば、日本語の発話が音声認識され、翻訳装置におい
て、その音声認識結果が英語に翻訳される。そして、音
声合成装置において、その翻訳結果が、合成音で出力さ
れる。また、音声認識装置において、英語の発話が音声
認識され、翻訳装置において、その音声認識結果が日本
語に翻訳される。そして、音声合成装置において、その
翻訳結果が、合成音で出力される。従って、英語の話者
（ユーザ）は、日本語の話者の発話を、英語で聞くこと
ができ、また、日本語の話者は、英語の話者の発話を、
日本語で聞くことができ、相互に、相手の発話を理解し
て対話を行うことができる。

【０００３】

【発明が解決しようとする課題】ところで、従来の音声
翻訳システムでは、音声認識装置において、発話が音声
認識され、１つの音声認識結果が決定される。そして、
翻訳装置では、その１つの音声認識結果が翻訳される。

【０００４】従って、音声認識装置における音声認識結
果が誤っていると、翻訳装置の翻訳精度が高くても、出
力される合成音は、入力された音声を正しく翻訳したも
のとはならない。

【０００５】本発明は、このような状況に鑑みてなされ
たものであり、例えば、正しい翻訳結果を得ること等が
できるようにするものである。

【０００６】

【課題を解決するための手段】本発明の音声認識装置
は、特徴パラメータに基づいて、音声を認識し、その音
声認識結果の１以上の候補と、各候補の確からしさに対
応するスコアを、自然言語処理を行う自然言語処理手段
に出力する音声認識手段を備えることを特徴とする。

【０００７】この音声認識装置には、自然言語処理を行
う自然言語処理手段をさらに設けることができる。

【０００８】自然言語処理手段には、音声認識結果の１
以上の候補を自然言語処理させ、その自然言語処理結果
の中から、音声認識結果の各候補の言語的な信頼性と、
スコアとに基づいて、最終的な自然言語処理結果を選択
させることができる。

【０００９】音声認識手段には、音声認識結果の候補を
構成する単語を、その単語の品詞を表す品詞情報を付加
して出力させることができる。

【００１０】また、音声認識手段には、音声中に未知語
を検出したとき、その未知語の音韻を、所定の品詞情報
を付加して出力させることができる。

【００１１】音声認識手段には、音声認識を行うのに参
照する参照データを、言語ごとに記憶している記憶手段
を設けることができ、音声中に未知語を検出したとき、
その未知語に対応する音声を、他の言語についての参照
データを参照して認識させることができる。

【００１２】本発明の音声認識方法は、特徴パラメータ
に基づいて、音声を認識し、その音声認識結果の１以上
の候補と、各候補の確からしさに対応するスコアを、自
然言語処理を行う自然言語処理手段に出力する音声認識
ステップを備えることを特徴とする。

【００１３】本発明の記録媒体は、特徴パラメータに基
づいて、音声を認識し、その音声認識結果の１以上の候
補と、各候補の確からしさに対応するスコアを、自然言
語処理を行う自然言語処理手段に出力する音声認識ステ
ップを備えるプログラムが記録されていることを特徴と
する。

【００１４】本発明の音声認識装置および音声認識方
法、並びに記録媒体においては、特徴パラメータに基づ
いて、音声が認識され、その音声認識結果の１以上の候
補と、各候補の確からしさに対応するスコアが、自然言
語処理を行う自然言語処理手段に出力される。

【００１５】

【発明の実施の形態】図１は、本発明を適用した音声翻
訳システム（システムとは、複数の装置が論理的に集合
した物をいい、各構成の装置が同一筐体中にあるか否か
は問わない）の一実施の形態の構成例を示している。

【００１６】この音声翻訳システムでは、例えば、日本
語による音声が入力されると、その音声が英語に翻訳さ
れて出力され、また、英語による音声が入力されると、
その音声が日本語に翻訳されて出力されるようになって
おり、これにより、日本語のユーザ（話者）と、英語の
ユーザとが、対話を行うことができるようになってい
る。

【００１７】即ち、音声認識部１には、ユーザが発話し
た音声が入力されるようになっており、音声認識部１
は、入力された音声を音声認識し、その音声認識結果と
してのテキスト、その他付随する情報を、機械翻訳部２
や、表示部４、対話管理部５などに、必要に応じて出力
する。

【００１８】機械翻訳部２は、音声認識部１が出力する
音声認識結果を解析し、入力された音声を、その音声の
言語以外の言語に機械翻訳し（本実施の形態では、日本
語は英語に、英語は日本語に、それぞれ翻訳される）、
その翻訳結果としてのテキスト、その他付随する情報
を、音声合成部３や、表示部４、対話管理部５などに、
必要に応じて出力する。音声合成部３は、機械翻訳部２
や対話管理部５などの出力に基づいて音声合成処理を行
い、これにより、例えば、入力された音声の、他の言語
への翻訳結果等としての合成音を出力する。

【００１９】表示部４は、例えば、液晶ディスプレイ等
で構成され、音声認識部１による音声認識結果や、機械
翻訳部２による機械翻訳結果、対話管理部５が出力する
情報等を、必要に応じて表示する。

【００２０】対話管理部５は、音声認識部１や機械翻訳
部２の出力から、ユーザの発話の内容の意味理解を行
い、その意味理解の結果に基づいて、ユーザどうしの対
話の履歴（対話履歴）を管理する。さらに、対話管理部
５は、例えば、日本語や英語に関する知識を有してお
り、その知識や対話履歴に基づいて、音声認識部１や機
械翻訳部２に対し、音声認識や機械翻訳の補助を行うた
めの情報をフィードバックする等の処理を行う。

【００２１】以上のように構成される音声翻訳システム
においては、例えば、日本語の音声が入力されると、そ
の音声が、音声認識部１で音声認識され、機械翻訳部２
に供給される。機械翻訳部２では、音声認識部１による
音声認識結果が、英語に機械翻訳され、音声合成部３に
供給される。音声合成部３では、機械翻訳部２による翻
訳結果に対応する合成音が生成されて出力される。ま
た、英語の音声が入力されると、その音声が、音声認識
部１で音声認識され、機械翻訳部２に供給される。機械
翻訳部２では、音声認識部１による音声認識結果が、日
本語に機械翻訳され、音声合成部３に供給される。音声
合成部３では、機械翻訳部２による翻訳結果に対応する
合成音が生成されて出力される。

【００２２】従って、図１の音声翻訳システムによれ
ば、英語のユーザは、日本語のユーザによる日本語の発
話を理解し、また、日本語のユーザは、英語のユーザに
よる英語の発話を理解することができ、日本語のユーザ
と、英語のユーザとの間で対話を行うことができる。

【００２３】なお、以上のようにして、日本語のユーザ
と、英語のユーザとの間で対話が行われている場合にお
いて、対話管理部５は、例えば、機械翻訳部２による翻
訳結果を監視しており、日本語のユーザと英語のユーザ
とによる対話履歴が構成され、その対話履歴や、あらじ
め記憶している知識に基づいて、円滑な対話が行われる
ようにするための各種の処理（例えば、対話の流れか
ら、翻訳結果が誤っているかどうかが判定され、誤って
いると判定された場合には、処理をやり直すように、音
声認識部１や機械翻訳部２を制御する処理等）が行われ
る。

【００２４】次に、図２は、図１の音声認識部１の構成
例を示している。

【００２５】ユーザの発話は、マイク１１に入力され、
マイク１１では、その発話が、電気信号としての音声信
号に変換される。この音声信号は、ＡＤ(Analog Digita
l)変換部１２に供給される。ＡＤ変換部１２では、マイ
ク１１からのアナログ信号である音声信号がサンプリン
グ、量子化され、ディジタル信号である音声データに変
換される。この音声データは、特徴抽出部１３に供給さ
れる。

【００２６】特徴抽出部１３は、ＡＤ変換部１２からの
音声データについて、適当なフレームごとに、例えば、
スペクトルや、パワー、線形予測係数、ケプストラム係
数、線スペクトル対等の特徴パラメータを抽出し、特徴
量バッファ１４およびマッチング部１５に供給する。特
徴量バッファ１４では、特徴抽出部１３からの特徴パラ
メータが一時記憶される。

【００２７】マッチング部１５は、特徴量抽出部１３か
らの特徴パラメータ、または特徴量バッファ１４に記憶
された特徴パラメータに基づき、音響モデルデータベー
ス１６、辞書データベース１７、および文法データベー
ス１８を必要に応じて参照しながら、マイク１１に入力
された音声（入力音声）を認識する。

【００２８】即ち、音響モデルデータベース１６は、音
声認識する音声の言語における個々の音素や音節などの
音響的な特徴を表す音響モデルを記憶している。ここ
で、音響モデルとしては、例えば、ＨＭＭ(Hidden Mark
ov Model)などを用いることができる。辞書データベー
ス１７は、認識対象の各単語（語句）について、その発
音に関する情報が記述された単語辞書や、この単語辞書
をもとに先行する音素や音節から次に許される音素、音
節を一覧にした表として記憶している。文法データベー
ス１８は、辞書データベース１７の単語辞書に登録され
ている各単語が、どのように連鎖する（つながる）かを
記述した文法規則を記憶している。ここで、文法規則と
しては、例えば、文脈自由文法（ＣＦＧ）や、統計的な
単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用い
ることができる。

【００２９】マッチング部１５は、辞書データベース１
７の単語辞書を参照することにより、音響モデルデータ
ベース１６に記憶されている音響モデルを接続すること
で、単語の音響モデル（単語モデル）を構成する。さら
に、マッチング部１５は、幾つかの単語モデルを、文法
データベース１８に記憶された文法規則を参照すること
により接続し、そのようにして接続された単語モデルを
用いて、特徴パラメータに基づき、例えば、ＨＭＭ法等
によって、マイク１１に入力された音声を認識する。

【００３０】そして、マッチング部１５による音声認識
結果は、例えば、テキスト等で出力される。

【００３１】なお、マッチング部１５は、入力された音
声を対象として、再度、処理を行うことが必要な場合
は、特徴量バッファ１４に記憶された特徴パラメータを
用いて処理を行うようになっており、これにより、ユー
ザに再度の発話を要求せずに済むようになっている。

【００３２】次に、図３は、図１の機械翻訳部２の構成
例を示している。

【００３３】テキスト解析部２１には、音声認識部１が
出力する音声認識結果としてのテキスト等が、機械翻訳
の対象として入力されるようになっており、テキスト解
析部２１は、辞書データベース２４や解析用文法データ
ベース２５を参照しながら、そのテキストを解析する。

【００３４】即ち、辞書データベース２４には、各単語
の表記や、解析用文法を適用するために必要な品詞情報
などが記述された単語辞書が記憶されている。また、解
析用文法データベース２５には、単語辞書に記述された
各単語の情報に基づいて、単語連鎖に関する制約等が記
述された解析用文法規則が記憶されている。そして、テ
キスト解析部２１は、その単語辞書や解析用文法規則に
基づいて、そこに入力されるテキスト（入力テキスト）
の形態素解析や、構文解析等を行い、その入力テキスト
を構成する単語や構文の情報等の言語情報を抽出する。
ここで、テキスト解析部２１における解析方法として
は、例えば、正規文法や、文脈自由文法、統計的な単語
連鎖確率を用いたものなどがある。

【００３５】テキスト解析部２１で得られた入力テキス
トの解析結果としての言語情報は、言語変換部２２に供
給される。言語変換部２２は、言語変換データベース２
６を参照し、入力テキストの言語の言語情報を、翻訳結
果の言語の言語情報に変換する。

【００３６】即ち、言語変換データベース２６には、入
力言語（言語変換部２２への入力の言語）の言語情報か
ら、出力言語（言語変換部２２からの出力の言語）の言
語情報への変換パターン（テンプレート）や、入力言語
と出力言語との対訳用例およびその対訳用例と入力言語
との間の類似度の計算に用いられるシソーラス等の、言
語情報を変換するための言語変換データが記憶されてい
る。そして、言語変換部２２では、このような言語変換
データに基づいて、入力テキストの言語の言語情報が、
出力言語の言語情報に変換される。

【００３７】言語変換部２２で得られた出力言語の言語
情報は、テキスト生成部２３に供給され、テキスト生成
部２３は、辞書データベース２７および生成用文法デー
タベース２８を参照することにより、出力言語の言語情
報から、入力テキストを出力言語に翻訳したテキストを
生成する。

【００３８】即ち、辞書データベース２７には、出力言
語の文を生成するのに必要な単語の品詞や活用形等の情
報が記述された単語辞書が記憶されており、また、生成
用文法データベース２８には、出力言語の文を生成する
のに必要な単語の活用規則や語順の制約等の生成用文法
規則が記憶されている。そして、テキスト生成部２３
は、これらの単語辞書および生成用文法規則に基づい
て、言語変換部２２からの言語情報を、テキストに変換
して出力する。

【００３９】次に、図４は、図１の音声合成部３の構成
例を示している。

【００４０】テキスト解析部３１には、機械翻訳部２が
出力する翻訳結果としてのテキストや、対話管理部５が
出力するテキストが、音声合成処理の対象として入力さ
れるようになっており、テキスト解析部３１は、辞書デ
ータベース３４や解析用文法データベース３５を参照し
ながら、そのテキストを解析する。

【００４１】即ち、辞書データベース３４には、各単語
の品詞情報や、読み、アクセント等の情報が記述された
単語辞書が記憶されており、また、解析用文法データベ
ース３５には、辞書データベース３４の単語辞書に記述
された単語について、単語連鎖に関する制約等の解析用
文法規則が記憶されている。そして、テキスト解析部３
１は、この単語辞書および解析用文法規則に基づいて、
そこに入力されるテキストの形態素解析や構文解析等の
解析を行い、後段の規則合成部３２で行われる規則音声
合成に必要な情報を抽出する。ここで、規則音声合成に
必要な情報としては、例えば、ポーズの位置や、アクセ
ントおよびイントネーションを制御するための情報その
他の韻律情報や、各単語の発音等の音韻情報などがあ
る。

【００４２】テキスト解析部３１で得られた情報は、規
則合成部３２に供給され、規則合成部３２では、音素片
データベース３６を用いて、テキスト解析部３１に入力
されたテキストに対応する合成音の音声データ（ディジ
タルデータ）が生成される。

【００４３】即ち、音素片データベース３６には、例え
ば、ＣＶ(Consonant, Vowel)や、ＶＣＶ、ＣＶＣ等の形
で音素片データが記憶されており、規則合成部３２は、
テキスト解析部３１からの情報に基づいて、必要な音素
片データを接続し、さらに、ポーズ、アクセント、イン
トネーション等を適切に付加することで、テキスト解析
部３１に入力されたテキストに対応する合成音の音声デ
ータを生成する。

【００４４】この音声データは、ＤＡ変換部３３に供給
され、そこで、アナログ信号としての音声信号に変換さ
れる。この音声信号は、図示せぬスピーカに供給され、
これにより、テキスト解析部３１に入力されたテキスト
に対応する合成音が出力される。

【００４５】次に、図５は、図１の対話管理部５の構成
例を示している。

【００４６】テキスト解析部４１には、例えば、機械翻
訳部２が出力する翻訳結果（翻訳文）のテキスト、その
他付随する情報が供給されるようになっており、テキス
ト解析部４１は、その翻訳文の構文構造を、辞書データ
ベース４４および文法データベース４５を参照して解析
する。ここで、本実施の形態では、辞書データベース４
４には日本語と英語の辞書が、文法データベース４５に
は日本語と英語の文法規則が、それぞれ記憶されてお
り、テキスト解析部４１は、機械翻訳部２からの翻訳文
を、その言語に対応する辞書と文法規則を参照して解析
する。

【００４７】なお、機械翻訳部２の出力に、そのテキス
ト解析部２１（図３）において得られる解析結果が含ま
れ、その解析結果を、対話管理部５のテキスト解析部４
１の解析結果として代用することができる場合には、テ
キスト解析部４１における一部または全部の処理を省略
することが可能である。

【００４８】テキスト解析部４１による翻訳文の解析結
果（翻訳文の構文構造）は、意味理解部４２に供給され
る。意味理解部４２は、知識データベース４６を参照
し、テキスト解析部４１が出力する翻訳文の構文構造に
基づいて、その翻訳文の意味を解析し、その意味理解を
行う。即ち、知識データベース４６には、一般常識や、
言語的な知識等の、意味理解を行うのに用いられる知識
が記憶されており、意味理解部４２は、このような知識
を、必要に応じて参照して、翻訳文の意味理解を行う。

【００４９】ここで、意味理解部４２による翻訳文の意
味の解析方法としては、例えば、「自然言語の文法理
論」、郡司隆男著、産業図書に記載されている語彙機能
文法や句構造文法を用いて記述された解析ルールにした
がって、翻訳文を解析し、その意味構造を抽出するもの
等がある。なお、この場合、上述のような解析ルールの
他、各単語について、その意味や文法上の役割を記述し
た辞書が必要となるが、これらの解析ルールや辞書は、
意味理解部４２が内蔵しているものとする。

【００５０】意味理解部４２による翻訳文の意味理解の
結果は、対話制御部４３に供給される。対話制御部４３
は、翻訳文のテキストおよびその意味理解の結果の一部
または全部を、順次記憶し、これにより、音声翻訳シス
テムを介して行われた対話の履歴（対話履歴）を構成す
る。

【００５１】さらに、対話制御部４３は、対話履歴から
把握される対話の流れから、意味理解部４２で意味理解
された翻訳文が不自然でないかどうかをチェックする。
そして、翻訳文が不自然である場合には、その旨を表す
制御情報を、音声認識部１や、機械翻訳部２に出力し、
例えば、処理をやり直させる。

【００５２】なお、ここでは、対話管理部５において、
機械翻訳部２による翻訳結果を対象に処理が行われるよ
うにしたが、対話管理部５には、音声認識部１による音
声認識結果を対象に処理を行わせることも可能である。

【００５３】次に、図１の音声翻訳システムでは、音声
認識部１による音声認識結果は、自然言語処理の対象と
なる。即ち、音声認識結果は、機械翻訳部２において機
械翻訳され、その翻訳結果は、音声合成部３において、
規則音声合成の対象とされるとともに、対話管理部５に
おいて、意味理解の対象とされる。従って、音声認識結
果は、機械翻訳部２で処理され、また、機械翻訳部２を
介して、音声合成部３および対話管理部５で処理され
る。

【００５４】機械翻訳部２、音声合成部３、および対話
管理部５では、いずれも、まず最初に、そこへの入力
が、自然言語処理の１つであるテキスト解析されるが、
本実施の形態では、音声認識部１と、機械翻訳部２、音
声合成部３、または対話管理部５それぞれとの間におい
て、情報のやりとりが行われ、これにより、音声認識部
１、機械翻訳部２、音声合成部３、対話管理部５それぞ
れにおける処理精度を向上させるようになっている。

【００５５】そこで、図６を参照して、そのやりとりに
ついて説明する。なお、以下では、音声認識部１との間
でやりとりを行う自然言語処理装置として、機械翻訳部
２に注目して説明を行い、その他の自然言語処理装置
（本実施の形態では、音声合成部３、対話管理部５）に
ついては、説明を省略する。即ち、音声認識部１と、音
声合成部３または対話管理部５との間でも、音声認識部
と機械翻訳部２との間における場合と同様のやりとりが
行われる。

【００５６】本実施の形態では、音声認識部１は、音声
認識結果の１以上の候補としての文章（以下、仮説文章
という）を、その確からしさに対応するスコアとともに
出力するようになっている。なお、仮説文章は、必ずし
も文章（文）である必要はなく、従って、文を構成しな
い単語列や単語であることもある。また、ここでは、ス
コアが高いほど、確からしいものとする。

【００５７】機械翻訳部２（図３）のテキスト解析部２
１は、音声認識部１が出力する１以上の仮説文章とスコ
アを受信し、各仮説文章を形態素解析および構文解析す
ることで、各仮説文章の言語的な信頼性（言語的な正し
さ）を求める。そして、テキスト解析部２１は、スコア
と言語的な信頼性に基づいて、構文的に最も確からしい
仮説文章を得て、テキスト解析結果として出力する。

【００５８】また、テキスト解析部２１は、ある程度構
文的に確からしい仮説文章を得られなかった場合、テキ
スト解析（形態素解析および構文解析）の結果に基づい
て、音声認識部１からの仮説文章を構成する単語や文節
の区切り、単語どうしの連接（接続）関係、未知語の区
間等を修正し、そのような構造の音声認識結果を得られ
るかどうかを、音声認識部１に問い合わせる。

【００５９】音声認識部１（図２）は、機械翻訳部２か
ら、上述のような問い合わせを受けると、マッチング部
１５において、特徴量バッファ１４に記憶された特徴パ
ラメータを用い、機械翻訳部２からの問い合わせにした
がって、単語や文節の区切りを修正した仮説文章のスコ
アが計算される。そして、マッチング部１５は、そのス
コアを、問い合わせに対する応答として、機械翻訳部２
のテキスト解析部２１に出力し、テキスト解析部２１で
は、そのスコアを用いて、上述の場合と同様の処理が行
われる。

【００６０】以下、音声認識部１およびテキスト解析部
２１では、テキスト解析部２１においてある程度構文的
に確からしい仮説文章が得られるまで、同様の処理が繰
り返される。

【００６１】次に、図７のフローチャートを参照して、
図２の音声認識部１の処理について、さらに説明する。

【００６２】ユーザの発話は、マイク１１に入力され、
マイク１１では、その発話が、電気信号としての音声信
号に変換される。この音声信号は、ＡＤ変換部１２を介
することにより、ディジタル信号である音声データに変
換され、特徴抽出部１３に供給される。

【００６３】特徴抽出部１３は、ステップＳ１におい
て、ＡＤ変換部１２からの音声データを受信する。そし
て、特徴抽出部１３は、ステップＳ２に進み、適当なフ
レームごとに、例えば、スペクトルや、パワー、それら
の時間変化量等の特徴パラメータを抽出し、特徴量バッ
ファ１４およびマッチング部１５に供給する。特徴量バ
ッファ１４では、特徴抽出部１３からの特徴パラメータ
が一時記憶される。

【００６４】その後、ステップＳ３において、マッチン
グ部１５は、音響モデルデータベース１６に記憶されて
いる音響モデルを、音素連鎖規則に基づいて接続し、こ
れにより、音響モデルをノードとする、並列構造、直列
構造、または木構造のネットワークを構成する。

【００６５】即ち、例えば、ステップＳ３では、まず最
初に、音響モデルデータベース１６に記憶された音響モ
デルそれぞれを先頭のノードに配置したネットワークが
構成される。そして、次に、ステップＳ３の処理が行わ
れると、そのネットワークにおいて最後に配置された音
響モデルの後に接続しうる音響モデルが、言語モデルに
基づいて選択され、その選択された音響モデルが、ネッ
トワークにおいて最後に配置（接続）された音響モデル
に接続されて、新たなネットワークが構成される。以
下、同様にして、後述するステップＳ９において、文章
の終端が得られるまで、ステップＳ３の処理が行われる
ごとに、新たなネットワークが構成されていく。

【００６６】ここで、ステップＳ３で構成される、音響
モデルのネットワークは、発話中の単語を探索するため
に利用されるものであり、以下、適宜、探索ネットワー
クという。探索ネットワークの例を、図８に示す。な
お、図８において、○および●印が、ノードとしての音
響モデルを表しており、その上に付してあるアルファベ
ットが、音響モデルに対応する音素を表している。図８
に示した探索ネットワークは、時間が経過するにつれて
（例えば新たなフレームの特徴パラメータが得られるに
つれて）、右（時間）方向に延びていく。

【００６７】ステップＳ３において、上述のようにし
て、探索ネットワークが構成されると、ステップＳ４に
進み、マッチング部１５は、特徴抽出部１３からの特徴
パラメータに基づいて、探索ネットワークの先頭のノー
ドから最後のノードに至るパスすべてのパスを探索範囲
として設定し、その探索範囲のパス（以下、適宜、探索
パスという）それぞれについて、その最後に接続された
（直前のステップＳ３で接続されたノードとしての音響
モデルに対応する音素（または音韻）が発話されたこと
の確からしさを表すスコア（以下、適宜、音素発話スコ
アという）を計算する。

【００６８】即ち、マッチング部１５は、探索パスに最
後に接続されたノードとしての音響モデルと、特徴抽出
部１３からの特徴パラメータとを照合し、その音響モデ
ルに対応する音素（または音韻）が、その特徴パラメー
タに対応する音声であることの確からしさ（尤度）を表
すスコア（以下、適宜、音響モデルスコアという）を求
める。そして、マッチング部１５は、探索パスに最後に
接続された音響モデルの前に接続された音響モデルと、
その前後の音響モデルとの連接しやすさを表すスコア
（以下、適宜、音響モデル連接スコアという）を、言語
モデルを参照することで求め、音響モデルスコアと音響
モデル連接スコアとから、探索パスに最後に接続された
音響モデルについての音素発話スコアを求める。

【００６９】なお、探索パスは、探索ネットワークを構
成するノードとしての音響モデルを所定数に制限するビ
ームサーチ等の手法によって限定することが可能であ
る。

【００７０】マッチング部１５は、ステップＳ４におい
て、以上のようにして、すべての探索パスそれぞれにつ
いて、最後に接続された音響モデルについての音素発話
スコアを求めた後、ステップＳ５に進み、各探索パスに
ついて、その探索パスから、後述するステップＳ７で検
出された最後の単語の終端の音響モデルの次の音響モデ
ルから、最後に接続された音響モデルまでの音響モデル
の並びに対応する音素列（音韻列）を、注目音素列とし
て検出し、その注目音素列を、辞書データベース１７に
おける単語辞書に登録されている各単語と照合する。

【００７１】そして、マッチング部１５は、ステップＳ
６に進み、注目音素列が、単語辞書に登録されているい
ずれかの単語に一致するかどうかを判定する。ステップ
Ｓ６において、注目音素列が、単語辞書に登録されてい
るいずれの単語にも一致しないと判定された場合、即
ち、探索パスに最後に接続された音響モデルに対応する
音素が、単語の最後の音素ではない場合、ＡＤ変換部１
２から、次のフレームの音声データが供給されるのを待
って、ステップＳ１に戻り、その、次のフレームの音声
データを対象に、以下、同様の処理が繰り返される。

【００７２】また、ステップＳ６において、注目音素列
が、単語辞書に登録されているいずれかの単語に一致す
ると判定された場合、即ち、探索パスに最後に接続され
た音響モデルに対応する音素が、単語の最後の音素であ
る場合、ステップＳ７に進み、マッチング部１５は、注
目音素列に一致する単語を、音声認識結果を構成する単
語の候補（以下、適宜、候補単語という）として決定す
るとともに、その候補単語の尤度を表す単語スコアを計
算する。ここで、単語スコアとしては、例えば、その候
補単語に一致する注目音素列に対応する音響モデルの並
びを構成する各音響モデルについての音素発話スコアの
平均値等を用いることができる。

【００７３】その後、マッチング部１５は、ステップＳ
８に進み、ステップＳ７で単語候補が決定された各探索
パスについて、その単語候補と、その前に決定された単
語候補との接続関係を記憶し、ステップＳ９に進む。ス
テップＳ９では、マッチング部１５は、ステップＳ７で
単語候補が決定された各探索パスについて、最後に接続
された音響モデルに対応する音素が、文章の終端である
かどうかを判定する。ここで、文章の終端であるかどう
かの判定は、例えば、文法データベースによる単語間の
連鎖制約や、文章どうしの間にある長時間の音響的な無
音を検出することによって特定される音声区間、機械翻
訳部２（図３）のテキスト解析部２１において行われる
形態素解析結果等に基づいて行われる。

【００７４】ステップＳ９において、探索パスに最後に
接続された音響モデルに対応する音素が、文章の終端で
ないと判定された場合、ＡＤ変換部１２から、次のフレ
ームの音声データが供給されるのを待って、ステップＳ
１に戻り、その、次のフレームの音声データを対象に、
以下、同様の処理が繰り返される。

【００７５】なお、ステップＳ７において決定された候
補単語に一致する注目音素列、即ち、単語辞書に登録さ
れたある単語に一致する注目音素列が、単語辞書に登録
された他の単語の一部に一致する場合は、その注目音素
列の探索パスは、ステップＳ７で決定された候補単語を
含む探索パスと、他の単語を含む可能性のある探索パス
とに変換される。そして、候補単語を含む探索パスは、
ステップＳ８以降の処理の対象となり、他の単語を含む
可能性のある探索パスは、さらに音響モデルを接続し
て、単語辞書に登録されている他の単語に一致するかど
うかの判定を行う対象となる。

【００７６】一方、ステップＳ９において、探索パスに
最後に接続された音響モデルに対応する音素が、文章の
終端であると判定された場合、即ち、探索パスを辿るこ
とによって得られる単語の並びで構成される、発話内容
の音声認識結果の候補としての文章を表す探索ネットワ
ークが得られた場合、ステップＳ１０に進み、マッチン
グ部１５は、各探索パス上の候補単語を、ステップＳ８
で記憶された接続関係に基づいて辿っていくことで、文
章を構成し、その文章を仮説文章として決定する。さら
に、ステップＳ１０では、マッチング部１５は、仮説文
章を構成する各候補単語についての単語スコアや、Ｎ−
ｇｒａｍ等の言語モデルによって規定される候補単語ど
うしの接続しやすさを表すスコア等に基づいて、各仮説
文章の尤度を表すスコア（以下、適宜、文章スコアとい
う）を求める。

【００７７】そして、ステップＳ１１に進み、マッチン
グ部１５は、例えば、最高の文章スコアとの差が所定値
以内の文章スコアを有する仮説文章を、その文章スコア
とともに、文章スコアの高い順に並べたリスト（以下、
仮説文章リストという）を作成し、これを音声認識結果
の候補として出力して、処理を終了する。

【００７８】従って、音声認識部１が出力する仮説文章
の数は、発話によって変化し得る。即ち、例えば、仮説
文章どうしの文章スコアの差が大きい場合には、最高の
文章スコアを有する仮説文章だけか、あるいは、順位の
高い文章スコアを有する幾つかの仮説文章でなる仮説文
章リストが出力され、また、仮説文章どうしの文章スコ
アの差が小さい場合には、比較的多くの仮説文章でなる
仮説文章リストが出力される。仮説文章リストに、複数
の仮説文章が存在する場合、音声認識結果として最も確
からしい文章の最終的な決定は、機械翻訳部２のテキス
ト解析部２１で行われる。

【００７９】なお、仮説文章リストには、仮説文章を構
成する各単語の品詞を付加するようにすることが可能で
ある。

【００８０】次に、図９のフローチャートを参照して、
図２の機械翻訳部２におけるテキスト解析部２１の処理
について、さらに説明する。

【００８１】テキスト解析部２１は、音声認識部１が出
力する仮説文章リストを受信し、その仮説文章リストに
ある仮説文章を対象に、形態素解析および構文解析を行
うことで、言語的に正しい文章を得る。ここで、形態素
解析では、仮説文章から、形態素（単語）の切れ目を見
つけることにより、その仮説文章が形態素に分解され
る。また、形態素分析では、各形態素の品詞が検出さ
れ、さらに、形態素が活用語である場合には、活用型、
活用形、基本形が特定される。一方、構文解析では、辞
書データベース２４や解析用文法データベース２５に記
憶されている情報を参照して、仮説文章の文型、主部、
述部の抽出や、それらの係り受け関係が検出され、その
検出結果に基づいて、仮説文章の構造が認識され、仮説
文章が構文規則に当てはまるかどうかが判定される。

【００８２】即ち、テキスト解析部２１は、仮説文章リ
ストを受信すると、その仮説文章リストにおける各仮説
文章を対象に、図９のフローチャートにしたがった処理
を行う。

【００８３】具体的には、ステップＳ２１において、テ
キスト解析部２１は、仮説文章を受信し、ステップＳ２
２に進む。ステップＳ２２では、仮説文章の先頭の文字
に、ポインタがセットされ、ステップＳ２３に進み、ポ
インタが指している文字に対して、その後に位置する仮
説文章の文字が順次付加されていき、そのようにして構
成される文字列（文字）に一致する単語が、辞書データ
ベース２４に記憶されている単語辞書から検索される。

【００８４】そして、ステップＳ２４に進み、上述のよ
うにして構成される文字列に一致する単語が、単語辞書
に存在するかどうかが判定され、存在すると判定された
場合、即ち、文字列が、単語辞書において単語として登
録（定義）されている場合、テキスト解析部２１は、そ
の単語としての文字列に対して、その品詞や、活用形等
に関する文法情報を付加し、ステップＳ２６に進む。

【００８５】一方、ステップＳ２４において、上述のよ
うにして構成される文字列に一致する単語が、単語辞書
に存在しないと判定された場合、即ち、ポインタが指し
ている文字から、仮説文章の最後の文字までサーチして
も、単語辞書にある単語と一致する文字列を得ることが
できなかった場合、ステップＳ２５に進み、未定義語処
理が行われる。

【００８６】即ち、ポインタが指している文字から、仮
説文章の最後の文字までサーチしても、単語辞書にある
単語と一致する文字列を得ることができなかった場合と
いうのは、ポインタが指している文字を先頭とする、仮
説文章を構成する単語が、辞書データベース２４の単語
辞書に登録（定義）されていない場合であり、ステップ
Ｓ２５では、その登録されていない単語（以下、適宜、
未定義語という）の区間を決定するための未定義語処理
が行われる。

【００８７】具体的には、未定義語処理では、ポインタ
が指している文字に、仮のポインタが設定され、その仮
のポインタが指している文字から、仮説文章の最後の文
字までをサーチすることを、仮のポインタを、仮説文章
の後方に一文字ずつずらしながら繰り返すことで、辞書
データベース２４の単語辞書に登録されている単語に一
致する文字列が検出される。そして、単語としての文字
列が検出されたときのポインタが指している文字から、
仮のポインタが指している文字の１文字前の文字までの
文字列が、未定義語として決定される。

【００８８】さらに、未定義語処理では、未定義語が、
音声認識部１に供給され、その未定義語の品詞の問い合
わせが行われる。この場合、音声認識部１では、未定義
語に一致する単語が、辞書データベース１７の単語辞書
から検索される。そして、未定義語と一致する単語が、
辞書データベース１７の単語辞書に登録されている場
合、その単語の品詞が、テキスト解析部２１に供給され
る。また、未定義語と一致する単語が、辞書データベー
ス１７の単語辞書に登録されていない場合、音声認識部
１は、未定義語の品詞として、例えば、固有名詞や形容
詞等の解析する言語に所定の品詞を設定し、その品詞
を、テキスト解析部２１に供給する。テキスト解析部２
１は、以上のようにして、音声認識部１から、未定義語
の品詞を受信すると、その品詞を、未定義語に付加す
る。

【００８９】以上のような未定義語処理の後は、ステッ
プＳ２６に進み、テキスト解析部２１は、ポインタの前
と後に位置する単語の連接関係を、辞書データベース２
４を参照することにより調査し、連接可能な単語の組に
リンクが張られる。

【００９０】即ち、テキスト解析部２１は、ステップＳ
２３において、ポインタが指している文字を始点とし、
その文字以後にある仮説文章の文字を、順次終点とし
て、その始点から終点までの文字列（文字）に一致する
すべての単語を、辞書データベース２４の単語辞書から
検索するから、複数の単語（ある単語と、その単語に先
頭が一致する単語）が検出される場合がある。そこで、
ステップＳ２６では、ポインタが際している文字の直前
の文字を最後とする単語と、ステップＳ２３で検出され
たすべての単語それぞれの連接関係が調査され、連接可
能な単語の組についてのみ、その単語どうしの間にリン
クが張られる。

【００９１】なお、ここでは、辞書データベース２４の
単語辞書に、単語とともに、その単語の前後に連接可能
な単語との連接関係が、表形式等で登録されているもの
とする。

【００９２】ここで、上述の未定義語の品詞について
は、連接関係から、音声認識部１で決定された品詞より
も確からしいものが得られることがある。この場合、テ
キスト解析部２１では、未定義語の品詞が、その確から
しい品詞に変更される。

【００９３】ステップＳ２６の処理後は、ステップＳ２
７に進み、ポインタが、ステップＳ２３で検出され、か
つ上述のようにリンクが張られた単語の最後の文字の次
の文字に設定（移動）される。ここで、ステップＳ２７
では、ステップＳ２３で検出され、かつ上述のようにリ
ンクが張られた単語が複数ある場合には、その複数の単
語それぞれの最後の文字の次の文字にポインタが設定さ
れ、その複数のポインタそれぞれを対象として、以降の
処理が行われる。

【００９４】その後、ステップＳ２８において、テキス
ト解析部２１は、ポインタが、仮説文章の最後まで移動
されたかどうかを判定する。ステップＳ２８において、
ポインタが仮説文章の最後まで移動されていないと判定
された場合（上述したように、複数のポインタが存在す
る場合には、その複数のポインタの１以上が、仮説文章
の最後まで移動されていない場合）、ステップＳ２３に
進み、以下、上述した場合と同様の処理が繰り返され
る。

【００９５】また、ステップＳ２８において、ポインタ
が仮説文章の最後まで移動されたと判定された場合（複
数のポインタが存在する場合には、その複数のポインタ
のすべてが、仮説文章の最後まで移動された場合）、ス
テップＳ２９に進み、仮説文章の先頭の単語（形態素）
から、ステップＳ２６で張られたリンクを辿っていくこ
とにより形成される１以上の文章（以下、適宜、形態素
解析文章という）が、形態素解析結果として検出され、
各形態素解析文章について、形態素解析による確からし
さを表す形態素解析スコアが、例えば、次式にしたがっ
て計算される。

【００９６】

【数１】・・・（１）ここで、式（１）において、形態素スコア
（ｉ）は、形態素解析文章の先頭からｉ番目の形態素
（単語）に割り当てられている点数を意味し、連接スコ
ア（ｉ，ｉ＋１）は、形態素解析文章の先頭からｉ番目
の形態素とｉ＋１番目の形態素との連接に割り当てられ
ている点数を意味する。また、Ｎは、形態素解析文章を
構成する形態素（単語）の数を表す。なお、形態素、お
よび形態素どうしの連接に割り当てられている点数は、
辞書データベース２４の単語辞書に登録されているもの
とする。

【００９７】すべての形態素解析文章について、形態素
解析スコアが求められると、ステップＳ３０に進み、テ
キスト解析部２１は、各形態素解析文章を構文解析し、
構文規則にしたがっていない形態素解析文章を削除し
て、ステップＳ３１に進む。

【００９８】ステップＳ３１では、音声認識部１からの
すべての仮説文章から得られたすべての形態素解析文章
についての最終的な信頼性を表す総合スコアが、例え
ば、次式にしたがい、言語的な信頼性（確からしさ）と
しての形態素解析スコアと、音響的な信頼性としての文
章スコアとの両方を考慮して計算される。

【００９９】統合スコア＝形態素解析スコア＋ｗ×文章スコア・・・（２）ここで、ｗは、文章スコアに対する重みであり、文章ス
コアは、形態素解析文章が得られた仮説文章の文章スコ
アである。

【０１００】そして、ステップＳ３２に進み、最高の統
合スコアが得られた形態素解析文章が、テキスト解析部
２１におけるテキスト解析結果として出力され、処理を
終了する。

【０１０１】次に、音声認識部１（図２）においては、
発話中に、辞書データベース１７の単語辞書に登録され
ていない単語（以下、適宜、未知語という）があった場
合に、その未知語の品詞を推定して、未知語の音素列
（音韻列）とともに、音声認識結果に含めて出力するよ
うにすることが可能である。

【０１０２】そこで、図１０のフローチャートを参照し
て、そのような音声認識部１の処理について説明する。

【０１０３】ステップＳ４１乃至Ｓ４６では、図７のス
テップＳ１乃至Ｓ６における場合とそれぞれ同様の処理
が行われる。

【０１０４】そして、ステップＳ４６において、注目音
素列が、単語辞書に登録されているいずれかの単語に一
致すると判定された場合、ステップＳ５３に進み、以
下、ステップＳ５３乃至Ｓ５７において、図７のステッ
プＳ７乃至Ｓ１１における場合とそれぞれ同様の処理が
行われ、処理を終了する。

【０１０５】また、ステップＳ４６において、注目音素
列が、単語辞書に登録されているいずれの単語にも一致
しないと判定された場合、ステップＳ４７に進み、マッ
チング部１５において、探索ネットワークにおける探索
パスの中に、後述するようにして、未知語が含まれる探
索パス（以下、適宜、未知語パスという）に設定されて
いるものがあるかどうかが判定される。

【０１０６】ステップＳ４７において、未知語パスに設
定されている探索パスがないと判定された場合、ステッ
プＳ４８に進み、マッチング部１５は、図７のステップ
Ｓ５に対応する図１０のステップＳ４５で検出された、
各探索パスにおける注目音素列の中に、辞書データベー
ス１７の単語辞書に登録されている単語のいずれにもな
り得ないもの（単語辞書に登録されている単語のいずれ
の先頭部分にも一致しない注目音素列）があり、かつ、
そのような注目音素列を有する探索パス（以下、適宜、
未知語パス候補という）のパススコアが、他の探索パス
のパススコアより大きい（以上）かどうかを判定する。
ここで、探索パスのパススコアとは、その探索パスを構
成する音響モデルそれぞれの音素発話スコアの総和を意
味する。

【０１０７】ステップＳ４８において、未知語候補パス
が存在しないか（従って、単語辞書に登録されている単
語のいずれにもなり得ない注目音素列を有する探索パス
が存在しないか）、または未知語パス候補が存在して
も、そのパススコアが、他の探索パスのパススコアより
大きくないと判定された場合、ステップＳ４１に戻り、
以下、同様の処理が繰り替えされる。

【０１０８】また、ステップＳ４８において、未知語パ
ス候補が存在し、かつパススコアが、他の探索パスのパ
ススコアより大きいと判定された場合、ステップＳ４９
に進み、マッチング部１５は、その未知語パス候補を、
未知語パスに設定する。さらに、マッチング部１５は、
ステップＳ４９において、各探索パスに適用する言語モ
デルを、音韻制約の緩いものに変更し、各探索パスにお
ける音素発話スコアを、音響モデルスコアと音響モデル
連接スコアとから求めるとともに、音素モデルスコアの
みから求めるように、スコア計算モードを切り替える。

【０１０９】そして、ステップＳ４１に戻り、以下、同
様の処理が繰り返される。

【０１１０】一方、ステップＳ４７において、未知語パ
スに設定されている探索パスがあると判定された場合、
ステップＳ５０に進み、マッチング部１５において、そ
の未知語パスに最後に接続された音響モデルや、その前
にある幾つかの音響モデル（以下、適宜、局所音響モデ
ルという）の音響モデルスコアが、他の探索パス（未知
語パスでない探索パス）における局所音響モデルの音響
モデルスコアに一致するかどうかが判定される。ステッ
プＳ５０において、未知語パスにおける局所音響モデル
の音響モデルスコアが、他の探索パスにおける局所音響
モデルの音響モデルスコアに一致しないと判定された場
合、ステップＳ４１に戻り、以下、同様の処理が繰り返
される。

【０１１１】また、ステップＳ５０において、未知語パ
スにおける局所音響モデルの音響モデルスコアが、他の
探索パスにおける局所音響モデルの音響モデルスコアに
一致すると判定された場合、ステップＳ５１に進み、マ
ッチング部１５は、未知語パスにおける最後の単語の終
端の音響モデルの次の音響モデルから、局所音響モデル
の１つ前の音響モデルまでの音響モデルに対応する音韻
の並びを、未知語として決定する。さらに、マッチング
部１５は、未知語を適当な形（例えば、日本語の場合
は、カタカナなど）に変換し、適切な品詞情報（例え
ば、日本語の場合は、固有名詞など）を付加する。ま
た、マッチング部１５は、未知語パスに設定されていた
探索パスの、その設定を解除するとともに、スコア計算
モードを元のモードに切り替え、ステップＳ５３に進
む。

【０１１２】そして、ステップＳ５３乃至Ｓ５７におい
て、図７のステップＳ７乃至Ｓ１１における場合とそれ
ぞれ同様の処理が行われ、処理を終了する。

【０１１３】なお、ステップＳ５２からステップＳ５３
に進んだ場合は、ステップＳ５３では、ステップＳ５１
で決定された未知語が、候補単語とされる。

【０１１４】また、ステップＳ５７において出力される
仮説文章リストに含まれる仮説文章のいずれかに未知語
が含まれる場合には、その仮説文章に、未知語が含まれ
る旨の情報が付加される。

【０１１５】以上の処理によれば、音声認識部１におい
て、未知語に関し、次のような処理が行われる。

【０１１６】即ち、例えば、いま、辞書データベース１
７の単語辞書に、名詞「あきがわ」および「あきた」、
格助詞「は」、並びに接続助詞「と」が登録されている
が、「あけぼの」は登録されていないものとして、「あ
けぼのと」という発話が行われたとする。

【０１１７】この場合に、例えば、図８に示したような
探索ネットワークが構成されたとすると、時刻Ｔ₂に接
続された音響モデル「ｋ」までは、単語辞書の「あきが
わ」と「あきた」が、候補単語となる可能性がある。

【０１１８】そして、次の時刻Ｔ₃において、音響モデ
ル「ｋ」の後に、音響モデル「ｉ」と「ｅ］がそれぞれ
接続され、音響モデル「ｅ」が接続されて構成される探
索パスａ−ｋ−ｅ（音響モデル「ａ」、「ｋ」、「ｅ」
の並びで構成される探索パス）のパススコアの方が、音
響モデル「ｉ」が接続されて構成される探索パスａ−ｋ
−ｉのパススコアよりも大きくなったとする。

【０１１９】この場合、探索パスａ−ｋ−ｉは、単語辞
書の「あきがわ」や「あきた」になる可能性があるが、
探索パスａ−ｋ−ｅは、単語辞書に登録されているいず
れの単語にもなり得ない。従って、探索パスａ−ｋ−ｅ
は、未知語パスに設定される。

【０１２０】その後は、音韻制約の緩い言語モデルを用
いて、音響モデルが接続されていき、例えば、図８に示
したように、探索パスが構成されていく。

【０１２１】そして、未知語パスにおける局所音響モデ
ルとしての、時刻Ｔ₈に接続された音響モデル「ｔ」
や、時刻Ｔ₉に接続された音響モデル「ｏ」の音響モデ
ルスコアが、他の探索パスにおける局所音響モデルとし
ての、時刻Ｔ₈に接続された音響モデル「ｔ」や、時刻
Ｔ₉に接続された音響モデル「ｏ」の音響モデルスコア
に一致すると、未知語パスにおいて、その音響モデルス
コアが一致する音響モデルの直前の音響モデルが、未知
語の終端とされる。

【０１２２】即ち、これにより、未知語パスにおいて、
その先頭の音響モデルから、音響モデルスコアが最初に
一致する音響モデルの直前の音響モデルまでの音響モデ
ルの並びに対応する音素列、即ち、未知語パスにおい
て、その先頭の音響モデル「ａ」から、時刻Ｔ₈に接続
された音響モデル「ｔ」の直前の音響モデル「ｏ」まで
の音響モデルの並びに対応する音素列「ａｋｅｂｏｎ
ｏ」が、未知語として決定される。

【０１２３】なお、未知語の終端の決定は、上述したよ
うに、局所音響モデルの音響モデルスコアの一致を検出
する他、例えば、未知語パスのパススコアが、他の探索
パス（未知語パスでない探索パス）のパススコアよりも
低くなったことを検出して行うことも可能である。

【０１２４】以上のように、音声認識部１から、音声認
識結果の候補としての１以上の仮説文章と、その文章ス
コアを、テキスト解析部２１に供給するようにしたの
で、テキスト解析部２１において、その文章スコアをも
加味して、テキスト解析を行うことができ、これによ
り、より正しい翻訳結果を得ることが可能となる。

【０１２５】なお、音声認識部１（図２）の音響モデル
データベース１６や、辞書データベース、文法データベ
ース１８には、各言語用の単語辞書等を記憶させておく
ようにし、未知語が検出された場合には、いま用いてい
る言語用の単語辞書等を、他の言語用の単語辞書等に切
り替えて再度処理を行い、最も高いスコアが得られたと
きに用いた言語用の単語辞書等による処理結果を、音声
認識結果として採用することが可能である。さらに、こ
の場合、どの言語用の単語辞書等を用いたかの情報を、
機械翻訳部２等に供給し、機械翻訳部２等において、そ
の言語用の辞書や文法等を用いて処理を行うように要求
することも可能である。ここで、音声認識部１における
単語辞書等の切り替えは、例えば、過去に用いたことの
ある言語用の単語辞書等を優先させるように行うことが
望ましい。

【０１２６】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
専用のハードウェアとしての音声翻訳システムに組み込
まれているコンピュータや、汎用のコンピュータ等にイ
ンストールされる。

【０１２７】そこで、図１１を参照して、上述した一連
の処理を実行するプログラムをコンピュータにインスト
ールし、コンピュータによって実行可能な状態とするた
めに用いられる、そのプログラムが記録されている記録
媒体について説明する。

【０１２８】プログラムは、図１１（Ａ）に示すよう
に、コンピュータ１０１に内蔵されている記録媒体とし
てのハードディスク１０２や半導体メモリ１０３に予め
記録しておくことができる。

【０１２９】あるいはまた、プログラムは、図１１
（Ｂ）に示すように、フロッピーディスク１１１、CD-R
OM(Compact Disc Read Only Memory)１１２，MO(Magnet
o optical)ディスク１１３，DVD(Digital Versatile Di
sc)１１４、磁気ディスク１１５、半導体メモリ１１６
などの記録媒体に、一時的あるいは永続的に格納（記
録）しておくことができる。このような記録媒体は、い
わゆるパッケージソフトウエアとして提供することがで
きる。

【０１３０】なお、プログラムは、上述したような記録
媒体からコンピュータにインストールする他、図１１
（Ｃ）に示すように、ダウンロードサイト１２１から、
ディジタル衛星放送用の人工衛星１２２を介して、コン
ピュータ１０１に無線で転送したり、LAN(Local Area N
etwork)、インターネットといったネットワーク１３１
を介して、コンピュータ１０１に有線で転送し、コンピ
ュータ１０１において、内蔵するハードディスク１０２
などにインストールすることができる。

【０１３１】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０１３２】また、プログラムは、１のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。

【０１３３】次に、図１２は、図１１のコンピュータ１
０１の構成例を示している。

【０１３４】コンピュータ１０１は、図１２に示すよう
に、CPU(Central Processing Unit)１４２を内蔵してい
る。CPU１４２には、バス１４１を介して、入出力イン
タフェース１４５が接続されており、CPU１４２は、入
出力インタフェース１４５を介して、ユーザによって、
キーボードやマウス等で構成される入力部１４７が操作
されることにより指令が入力されると、それにしたがっ
て、図１１（Ａ）の半導体メモリ１０３に対応するROM
(Read Only Memory)１４３に格納されているプログラム
を実行する。あるいは、また、CPU１４２は、ハードデ
ィスク１０２に格納されているプログラム、衛星１２２
若しくはネットワーク１３１から転送され、通信部１４
８で受信されてハードディスク１０２にインストールさ
れたプログラム、またはドライブ１４９に装着されたフ
ロッピディスク１１１、CD-ROM１１２、MOディスク１１
３、DVD１１４、若しくは磁気ディスク１１５から読み
出されてハードディスク１０２にインストールされたプ
ログラムを、RAM(Random Access Memory)１４４にロー
ドして実行する。そして、CPU１４２は、その処理結果
を、必要に応じて、例えば、入出力インタフェース１４
５を介して、LCD(Liquid CryStal Display)やスピーカ
等で構成される出力部１４６から出力させ、あるいは、
通信部１４８から送信させる。

【０１３５】

【発明の効果】本発明の音声認識装置および音声認識方
法、並びに記録媒体によれば、特徴パラメータに基づい
て、音声が認識され、その音声認識結果の１以上の候補
と、各候補の確からしさに対応するスコアが、自然言語
処理を行う自然言語処理手段に出力される。従って、自
然言語処理手段において、スコアを考慮して自然言語処
理を行うようにすることで、その処理精度を向上させる
ことが可能となる。

【図面の簡単な説明】

【図１】本発明を適用した音声翻訳システムの一実施の
形態の構成例を示すブロック図である。

【図２】音声認識部１の構成例を示すブロック図であ
る。

【図３】機械翻訳部２の構成例を示すブロック図であ
る。

【図４】音声合成部３の構成例を示すブロック図であ
る。

【図５】対話管理部５の第１の構成例を示すブロック図
である。

【図６】音声認識部１と機械翻訳部２のテキスト解析部
２１との間のやりとりを説明するための図である。

【図７】音声認識部１の動作を説明するためのフローチ
ャートである。

【図８】探索ネットワークを示す図である。

【図９】テキスト解析部２１の動作を説明するためのフ
ローチャートである。

【図１０】音声認識部１の動作を説明するためのフロー
チャートである。

【図１１】本発明を適用した記録媒体を説明するための
図である。

【図１２】図１１のコンピュータ１０１の構成例を示す
ブロック図である。

【符号の説明】

１音声認識部，２機械翻訳部，３音声合成
部，４表示部，５対話管理部，１１マイク
（マイクロフォン），１２ＡＤ変換部，１３特
徴抽出部，１４特徴量バッファ，１５マッチン
グ部，１６音響モデルデータベース，１７辞書
データベース，１８文法データベース，２１テ
キスト解析部，２２言語変換部，２３テキスト
生成部，２４辞書データベース，２５解析用文法
データベース，２６言語変換データベース，２７
辞書データベース，２８生成用文法データベー
ス，３１テキスト解析部，３２規則合成部，３
３ＤＡ変換部，３４辞書データベース，３５解
析用文法データベース，３６音素片データベース，
４１テキスト解析部，４２意味理解部，４３
対話制御部，４４辞書データベース，４５文法
データベース，４６知識データベース，１０１
コンピュータ，１０２ハードディスク，１０３
半導体メモリ，１１１フロッピーディスク，１１
２ CD-ROM，１１３ MOディスク，１１４ DVD，
１１５磁気ディスク，１１６半導体メモリ，
１２１ダウンロードサイト，１２２衛星，１３
１ネットワーク，１４１バス，１４２ CPU，
１４３ ROM，１４４ RAM，１４５入出力イン
タフェース，１４６出力部，１４７入力部，
１４８通信部，１４９ドライブ

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識する音声認識装置
であって、前記音声の特徴パラメータを抽出する抽出手段と、前記特徴パラメータに基づいて、前記音声を認識し、そ
の音声認識結果の１以上の候補と、各候補の確からしさ
に対応するスコアを、自然言語処理を行う自然言語処理
手段に出力する音声認識手段とを備えることを特徴とす
る音声認識装置。
【請求項２】前記自然言語処理手段をさらに備えるこ
とを特徴とする請求項１に記載の音声認識装置。
【請求項３】前記自然言語処理手段は、前記音声認識
結果の１以上の候補を自然言語処理し、その自然言語処
理結果の中から、前記音声認識結果の各候補の言語的な
信頼性と、前記スコアとに基づいて、最終的な自然言語
処理結果を選択することを特徴とする請求項１に記載の
音声認識装置。
【請求項４】前記音声認識手段は、前記音声認識結果
の候補を構成する単語を、その単語の品詞を表す品詞情
報を付加して出力することを特徴とする請求項１に記載
の音声認識装置。
【請求項５】前記音声認識手段は、前記音声中に未知
語を検出したとき、その未知語の音韻を、所定の品詞情
報を付加して出力することを特徴とする請求項４に記載
の音声認識装置。
【請求項６】前記音声認識手段は、音声認識を行うのに参照する参照データを、言語ごとに
記憶している記憶手段を有し、前記音声中に未知語を検出したとき、その未知語に対応
する音声を、他の言語についての参照データを参照して
認識することを特徴とする請求項１に記載の音声認識装
置。
【請求項７】入力された音声を認識する音声認識方法
であって、前記音声の特徴パラメータを抽出する抽出ステップと、前記特徴パラメータに基づいて、前記音声を認識し、そ
の音声認識結果の１以上の候補と、各候補の確からしさ
に対応するスコアを、自然言語処理を行う自然言語処理
手段に出力する音声認識ステップとを備えることを特徴
とする音声認識方法。
【請求項８】入力された音声を認識する音声認識処理
を、コンピュータに行わせるプログラムが記録されてい
る記録媒体であって、前記音声の特徴パラメータを抽出する抽出ステップと、前記特徴パラメータに基づいて、前記音声を認識し、そ
の音声認識結果の１以上の候補と、各候補の確からしさ
に対応するスコアを、自然言語処理を行う自然言語処理
手段に出力する音声認識ステップとを備えるプログラム
が記録されていることを特徴とする記録媒体。