JPH1195793A

JPH1195793A - 音声入力解釈装置及び音声入力解釈方法

Info

Publication number: JPH1195793A
Application number: JP9252446A
Authority: JP
Inventors: Takehide Yano; 武秀屋野; Tetsuro Chino; 哲朗知野; Yasuyuki Kono; 恭之河野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-09-17
Filing date: 1997-09-17
Publication date: 1999-04-09
Anticipated expiration: 2017-09-17
Also published as: JP3472101B2

Abstract

(57)【要約】【課題】正規の語彙の一部が代替表現で置換された音
声入力を解釈して妥当する正規な語彙を求めることの可
能な音声入力解釈装置を提供すること。【解決手段】入力音声を解釈して該当する語彙の情報
を出力する音声入力解釈装置において、正規の語彙に関
する第１の情報、および該正規の語彙の一部が予め定め
られた代替表現に置き換えられて音声入力されることを
考慮した該正規の語彙に関する第２の情報を記憶する手
段と、入力音声を音声認識する手段と、前記第２の情報
をもとに、前記音声認識結果から前記代替表現を検出す
る手段と、この手段により前記認識結果から前記代替表
現が検出された場合、少なくとも前記入力音声の認識結
果に含まれる該代替表現以外の語彙の部分をもとに、前
記第１の情報を検索して、該当する語彙を求める手段と
を備えたことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声を解釈す
る音声入力解釈装置及び音声入力解釈方法に関する。

【０００２】

【従来の技術】近年、パーソナルコンピュータを含む計
算機システムにおいて、従来のキーボードやマウスによ
る入力に加えて、音声情報を入力することが可能となっ
てきている。

【０００３】また、自然言語解析や自然言語生成、ある
いは音声認識や音声合成技術あるいは対話処理技術の進
歩などによって、利用者と音声入出力で対話する音声対
話システムの要求が高まっており、自由発話による音声
入力によって利用可能な対話システムである「ＴＯＳＢ
ＵＲＧ−ＩＩ」（電子情報通信学会論文誌、Ｖｏ．ｌＪ
７７−Ｄ−ＩＩ、Ｎｏ．８、ｐｐ．１４１７−１４２
８、１９９４）など、様々な音声対話システムの開発が
なされている。

【０００４】このような音声対話システムに利用される
音声による入力方法は、特にキーボードのような習熟を
要するものではなく、誰にでも扱える入力方法であるの
で、誰もが利用する杜会システム等への利用が期待さ
れ、より高度な音声処理技術への要求が高まっている。

【０００５】従来、音声入力の解釈は、利用者から例え
ばマイクなどを通じて入力される音声入力を取り込み、
例えば信号強度などによって音声分析単位の候補を推定
し、分析単位項の例えばＦＦＴ（高速フーリエ変換）な
どを用いた分析によって特徴パターンなどを抽出し、あ
らかじめ用意した標準パターンと抽出パターンとを、例
えば、複合類似度法、ＤＰ（ダイナミックプログラミン
グ）法、あるいはＨＭＭ（隠れマルコフモデル）などを
用いた照合を行い、入力された音声の認識を行い、音声
認識結果に対して、構文解析、意味解析、などを行うこ
とで利用者からの入力の意味内容や、発話意図を抽出す
ることによって行われている。

【０００６】従来、こういった音声対話システムなどに
おける音声入力解釈方法において音声認識を行う際に
は、あらかじめ用意していた単語あるいは文章のパター
ンとの照合を行っていた。しかし、この方法では、利用
者は発言できる単語あるいは文章（すなわちそのシステ
ムが解釈可能な単語あるいは文章）を明確に記憶する必
要があり、利用者に負担を与えていた。

【０００７】更に、利用者が、発言できる単語あるいは
文章の一部のみを記憶している場合においても、利用者
がその記憶されている一部分を入力しても、あらかじめ
用意されていたパターンとは異なる音声入力とみなされ
誤認識が生じ、結果として利用者の意図に反した動作を
出力することが多く、利用者に負担を与えていた。

【０００８】例えば、社会システムの具体例として道案
内のタスクを持つものを挙げると、利用者が知っている
情報が「東京ステーインホテル」の一部の「東京…ホテ
ル」である場合に、そのホテルに関する情報を聞き出そ
うとして「東京なんとかホテル」と入力しても、あらか
じめシステム中に準備された実在するホテルの名前のパ
ターンとは異なるものであるため、誤認識が生じ、利用
者の意図に反する情報が提示されるという結果となり、
利用者にはなんの利益もなさないことになる。

【０００９】また、利用者が、発言できる（あるいは当
然にシステム中に登録されているものと期待される）単
語あるいは文章のリズムのみを記憶しているような場合
に、その単語あるいは文章のリズムのみを保有するよう
な別の単語あるいは文章を入力しても、従来のシステム
では正式な入力として受け付けることができず、誤認識
が生ずるため、利用者の意図した動作が行われることは
なく、利用者に負担を与えていた。

【００１０】例えば、社会システムの具体例として上記
と同様に道案内のタスクを持つものを挙げると、ある利
用者が「丸の口ホテル」に関する情報を取得しようとす
る際に、この利用者が持っている情報が「丸の口ホテ
ル」のリズムと一部の「…ホテル」である場合に、その
ホテルに関する情報を聞き出そうとして、「なんとかホ
テル」という意味で「ラララララホテル」あるいは「ホ
ニャラララホテル」あるいは「タララララホテル」など
と「丸の口ホテル」の持つリズムを意識して（あるいは
真似て）適宜発声して入力しても、誤認識が生じ、利用
者の意図に反する情報が提示されるという結果となり、
利用者にはなんの利益もなさないことになる。

【００１１】以上示したように、従来の音声入力解釈方
法では、あらかじめ準備された単語あるいは文章のパタ
ーンでしか理解できないために、利用者に多大な負担を
与えていた。

【００１２】

【発明が解決しようとする課題】このように、音声入力
を伴う装置において従来の音声入力解釈方法を適用する
と、音声入力として受け付けられる単語あるいは文章の
パターンがあらかじめ登録されているものに限定されて
いるため、利用者が発声できる文章を明確に記憶する必
要があり、利用者の負担が増加するという問題があっ
た。

【００１３】また、利用者が、発言できる単語あるいは
文章の一部のみを記憶している場合においても、利用者
がその記憶されている一部分を入力しても、あらかじめ
用意されていたパターンとは異なる音声入力とみなされ
誤認識が生じ、結果として利用者の意図に反した動作を
出力することが多く、利用者の負担が増加するという問
題があった。

【００１４】また、利用者が、発言できる単語あるいは
文章のリズムのみを記憶している場合においては、従来
のシステムでは正式な入力として受け付けることができ
ず、誤認識が生ずるため、利用者の意図した動作が行わ
れることはなく、利用者の負担が増加するという問題が
あった。

【００１５】本発明は、上記事象を考慮してなされたも
ので、利用者が正確に、発声できる単語あるいは文章を
記憶しなくとも、アプリケーシヨン部分が適切に動作す
るように解釈することのできる音声入力解釈装置を提供
することを目的とする。

【００１６】また、本発明は、利用者が発声可能な単語
あるいは文章の一部分のみを記憶している場合でも音声
の誤認識をおさえ、音声入力をもつシステムの出力を利
用者の意図にそったものへと導くことのできる音声入力
解釈装置を提供することを目的とする。

【００１７】また、本発明は、利用者が発声可能な単語
あるいは文章のリズムのみを記憶している場合でも音声
の誤認識をおさえ、音声入力をもつシステムの出力を利
用者の意図にそったものへと導くことのできる音声入力
解釈装置及び音声入力解釈方法を提供することを目的と
する。

【００１８】

【課題を解決するための手段】本発明（請求項１）は、
入力音声を解釈して該当する語彙の情報を出力する音声
入力解釈装置において、正規の語彙に関する第１の情
報、および該正規の語彙の一部が予め定められた代替表
現に置き換えられて音声入力されることを考慮した該正
規の語彙に関する第２の情報を記憶する手段と、入力音
声を音声認識する手段と、前記第２の情報をもとに、前
記音声認識結果から前記代替表現を検出する手段と、こ
の手段により前記認識結果から前記代替表現が検出され
た場合、少なくとも前記入力音声の認識結果に含まれる
該代替表現以外の語彙の部分をもとに、前記第１の情報
を検索して、該当する語彙を求める手段とを備えたこと
を特徴とする。

【００１９】好ましくは、前記該当する語彙が複数検索
された場合、少なくとも前記代替表現に対応する音声の
音韻的特徴に基づいて、該当する語彙の優先度を評価す
る手段をさらに備えるようにしてもよい。

【００２０】本発明（請求項３）は、入力音声を解釈し
て該当する語彙の情報を出力する音声入力解釈装置にお
いて、任意の言葉の代替となる代替表現によって音声認
識対象となる予め定められた正規の語彙の一部を代替し
た代替表現を語彙の一種として記憶する語彙記憶手段
と、前記語彙記憶手段に記憶されている語彙のうち前記
代替表現を含まない前記正規の語彙の表記および韻律情
報を記憶する韻律情報記憶手段と、音声入力装置を介し
て入力された音声に対し、前記語彙記憶手段を参照し
て、音声認識および音声の韻律に関する分析を行う音声
分析手段と、前記音声分析手段による前記入力された音
声に対する前記音声認識の結果および前記韻律に関する
解析の結果に基づき、前記韻律情報記憶手段を参照し
て、前記代替表現の部分を前記正規の語彙の部分で置換
する置換表現照合手段とを備えたことを特徴とする。

【００２１】本発明によれば、利用者が語彙記憶手段に
記憶されている語彙を明確に覚えていなくとも、明確に
覚えていない部分を代替表現を利用して音声入力を行う
ことができ、入力された代替表現に対応する適切な表現
を検索し、代替表現を含まない適切な語彙に置換するこ
とが可能となる。

【００２２】本発明（請求項４）は、音声入力装置から
入力された音声を分析し、音声認識し、音声認識結果を
含む音声分析結果を出力する手段と、該音声認識を行う
際に認識対象となる語彙を記憶する語彙記憶手段とを備
えた音声入力解釈装置において、任意の言葉の代替とな
る代替表現を記憶する代替表現記憶手段と、入力された
音声情報から前記代替表現記憶手段に記憶されている語
彙と同じ表現を検出する代替表現検出手段と、前記語彙
記憶手段に記憶されている語彙をさらに分割して別単語
としたものを記憶する置換表現記憶手段と、前記代替表
現検出手段により前記代替表現の検出された入力音声情
報における該代替表現でない部分の音声認識を、前記置
換表現記憶手段に記憶されている語彙を音声認識対象と
して実行し、この音声認識結果を利用して前記置換表現
記憶手段に記憶されている語彙から代替表現された言葉
として妥当な語彙を検索する処理手段とを備えたことを
特徴とする。

【００２３】本発明によれば、利用者が語彙記憶手段に
記憶されている語彙を明確に覚えていなくとも、明確に
覚えていない部分を代替表現を利用して音声入力を行う
ことができ、また、任意の言葉の代替となる表現を音声
入力から検出し、検出された代替表現に対応する適切な
表現を検索することが可能となる。

【００２４】好ましくは、前記処理手段は、前記音声認
識を音節または音韻単位で行い、この音節または音韻単
位の認識結果を参照することにより、前記代替表現の一
部として前記正規の語彙の一部が付加されて発声された
部分を検出し、前記置換表現記憶手段に記憶されている
語彙から代替表現された表現を検索する際に、前記検出
結果に適合した表現を優先的に選択するようにしてもよ
い。

【００２５】これによって、利用者の代替表現の中に一
部正しい発声をおりまぜた音声入力に対して、一部の正
しい発声の情報に適応したより適切な表現を検索するこ
とができる。

【００２６】好ましくは、前記代替表現検出手段は、入
力音声の韻律について分析し、前記処理手段は、前記置
換表現記憶手段に記憶されている語彙から代替表現され
た表現を検索する際に、前記分析の結果得られた韻律の
条件に適合または近似した言葉を優先的に選択するよう
にしてもよい。

【００２７】本発明（請求項７）は、入力音声を解釈し
て該当する語彙の情報を出力する音声入力解釈方法にお
いて、入力音声を音声認識し、予め定められた正規の語
彙の一部が予め定められた代替表現に置き換えられて音
声入力されることを考慮した該正規の語彙に関する情報
をもとに、前記音声認識結果から前記代替表現を検出
し、前記認識結果から前記代替表現が検出された場合、
少なくとも前記入力音声の認識結果に含まれる該代替表
現以外の語彙の部分をもとに、予め定められた正規の語
彙に関する情報を検索して、該当する語彙を求めること
を特徴とする。

【００２８】好ましくは、前記該当する語彙が複数検索
された場合、少なくとも前記代替表現に対応する音声の
音韻的特徴に基づいて、該当する語彙の優先度を評価す
るようにしてもよい。

【００２９】本発明（請求項９）は、入力音声を解釈し
て該当する語彙の情報を出力する音声入力解釈方法にお
いて、音声入力装置を介して入力された音声に対し、任
意の言葉の代替となる代替表現によって音声認識対象と
なる予め定められた正規の語彙の一部を代替した代替表
現を語彙の一種として記憶する語彙記憶手段を参照し
て、音声認識および音声の韻律に関する分析を行い、前
記入力された音声に対する前記音声認識の結果および前
記韻律に関する解析の結果に基づき、前記語彙記憶手段
に記憶されている語彙のうち前記代替表現を含まない前
記正規の語彙の表記および韻律情報を記憶する前記韻律
情報記憶手段を参照して、前記代替表現の部分を前記正
規の語彙の部分で置換することを特徴とする。

【００３０】本発明（請求項１０）は、入力音声を音声
認識を通じて解釈し、該音声認識を行う際に認識対象と
なる語彙を記憶する語彙記憶手段のうちの該当する語彙
の情報を出力する音声入力解釈方法において、入力され
た音声情報から、任意の言葉の代替となる代替表現を記
憶する代替表現記憶手段に記憶されている語彙と同じ表
現を検出し、前記代替表現の検出された入力音声情報に
おける該代替表現でない部分の音声認識を、前記語彙記
憶手段に記憶されている語彙をさらに分割して別単語と
したものを記憶する置換表現記憶手段に記憶されている
語彙を音声認識対象として実行し、この音声認識結果を
利用して前記置換表現記憶手段に記憶されている語彙か
ら代替表現された言葉として妥当な語彙を検索すること
を特徴とする。

【００３１】好ましくは、前記語彙を検索するにあたっ
ては、前記音声認識は音節または音韻単位で行い、この
音節または音韻単位の認識結果を参照することにより、
前記代替表現の一部として前記正規の語彙の一部が付加
されて発声された部分を検出し、前記置換表現記憶手段
に記憶されている語彙から代替表現された表現を検索す
る際に、前記検出結果に適合した表現を優先的に選択す
るようにしてもよい。

【００３２】好ましくは、前記置換表現記憶手段に記憶
されている語彙から代替表現された表現を検索する際
に、入力音声の韻律について分析を行った結果得られた
韻律の条件に適合または近似した言葉を優先的に選択す
るようにしてもよい。

【００３３】本発明によれば、明確な表現の代替となる
ワイルドカード表現を検出する機能、またその代替され
た適切な表現を検索し、置換する機能を追加することに
よって、あるいは、ワイルドカード表現で実際に置換し
た語彙をもった語彙記憶手段を伴った音声分析機能と、
またその代替された適切な表現を検索し、置換する機能
を追加することによって、利用者が発声可能な語彙の一
部しか記憶していない場合でも、ワイルドカード表現を
用いた音声入力を受け入れることによって、その音声入
力の解釈を行うことが可能となる。

【００３４】また、本発明によれば、利用者が発声可能
な語彙のリズムしか記憶していない場合でも、それに対
応したワイルドカード表現を用いた音声入力を受け入れ
ることによって、その音声入力の解釈を行うことが可能
となる。

【００３５】このように、本発明によれば、利用者が音
声入力をもつ装置の許容する語彙を明確に覚えなくと
も、その音声入力を受け入れ、解釈することができる柔
軟な音声入力解釈装置が構築できる等の実用上多大な効
果が奏せられる。

【００３６】

【発明の実施の形態】以下、図面を参照しながら発明の
実施の形態を説明する。

【００３７】（第１の実施形態）まず、本発明の第１の
実施形態について説明する。

【００３８】図１に本実施形態に係る音声入力解釈装置
の構成例を示す。図１に示されるように、本実施形態の
音声入力解釈装置１は、音声分析部１０１、語彙記憶部
１０２、置換表現照合部１０３、韻律情報記憶部１０４
を備えている。なお、入力音声をアナログ信号からデジ
タル信号に変換するＡ／Ｄ変換器は、音声入力解釈装置
１内に設けても、音声入力装置１００側に設けてもよ
い。

【００３９】音声分析部１０１は、置換表現照合部１０
３と、語彙記憶部１０２と、マイクなどの音声入力装置
１００に接続し、例えば「パターンマッチング法による
連続単語および連続音節の音声認識アルゴリズム」（電
子情報通信学会論文誌、Ｊ−６６−Ｄ，６，ｐｐ．６３
７−６４４）に開示されているような方式などで、語彙
記憶部１０２に記録されている語彙を対象として、連続
単語音声認識を行う。更に、例えば「ピッチパタン情報
を利用したキーワードスポッティング」（日本音響学会
講演論文集、平成８年９月、ｐｐ．２９−３０）に開示
されているような方式などにより、音声のピッチパタン
情報などから解析を行い、韻律パラメータを生成する。
そして、図４に示す情報を置換表現照合部１０３に渡
す。尚、連続単語音声認識の方式や、韻律パラメータを
生成する方式については、上記にあげた方式に限らず、
その他の方式でも構わない。

【００４０】語彙記憶部１０２は、音声分析部１０１に
接続し、音声認識対象の語彙を記録する部分であり、正
規の語彙のそれぞれについて図２に示すような情報を記
憶するとともに（この場合、図２の情報においてワイル
ド表現に関するものは存在しない）、これに加えて、例
えば「なんとか」あるいは「ホニャララ」などのような
任意の数単語に置換される表現であるワイルドカード表
現で正規の語彙の一部をワイルドカード表現で置換した
語彙のそれぞれについて、図２に示すような情報を記憶
する。

【００４１】図２の情報の詳細については後述するが、
「表象」情報の記述形式について先に触れておく。音声
分析部１０１で行われる連続単語音声認識では、認識結
果を複数の単語の連なりとして表現できるため、その単
語同士の別れ目を記号“ ／”（スラッシュ）で表して
いる。また、以下の説明でもこの単語同士の別れ目の表
記には記号“ ／ ”を用いる。

【００４２】また、使用されているワイルドカード表現
として、「なんとか」のようにいくつかの単語に置換さ
れると考えられる表現である数単語置換語と、「ホニャ
ララ」のようにその置換されるべき表現のリズムを表し
ていると考えられるリズム語との一方または両方を定義
しておく。使用する数単語置換語やリズム語の具体的内
容やその種類数はシステムに応じて適宜定めてよい。

【００４３】図３に「東京ステーインホテル」とワイル
ドカード表現の数単語置換語「なんとか」とリズム語
「ホニャララ」から生成される語彙の例を示す。これよ
り、ワイルドカード表現が「東京」「ステーイン」「ホ
テル」の中の数単語に置換されている語彙を生成し、ま
た、特に「ホニャララ」のようなリズム語は置換される
表現と等しい長さに拡張されて置換されている語彙を生
成していることが分かる（この場合、「ラ」の数で長さ
を調整している）。

【００４４】図２は語彙記憶部１０２で記録する情報の
一覧である。併せて語彙「東京ホニャララホテル」の場
合の例も示してある。「表象」情報は、その語彙の文字
列を表す情報である。図２の例では「東京／ホニャララ
／ホテル」と３単語連なった表象として記録されてい
る。「ワイルドカード表現の有無」情報は、その語彙に
先に述べたワイルドカード表現が含まれていたかどうか
を表す情報である。この場合は「ホニャララ」がワイル
ドカード表現にあたるので「有り」が記録されている。
「表現の種類」情報は、その語彙に含まれる単語のそれ
ぞれがワイルドカード表現か、ワイルドカード表現では
ない非ワイルドカード表現かを表す情報である。ワイル
ドカード表現の単語には「代替」を、非ワイルドカード
表現には「確定」を与える。この例では、単語「東京」
「ホテル」が非ワイルドカード表現で、「ホニャララ」
がワイルドカード表現であるので、（確定／代替／確
定）と情報が与えられている。「ワイルドカード郡現の
種類」情報は、その語彙に含まれているワイルドカード
表現が、数単語置換語か、リズム語かを表す情報であ
る。この場合は「ホニャララ」がリズム語と定義されて
いるので「リズム語」と記録している。「音声認識パラ
メータ」情報は音声分析部１０１で行われる音声認識の
ために必要に応じてパラメータを記述するものである
（なお、ここで使用する音声認識方式は本発明の本質で
はないのでこのパラメータについての詳細な説明は省略
する）。

【００４５】図４は音声分析部１０１から置換表現照合
部１０３へ渡される情報の一覧である。併せて、「東京
ホニャラララホテル」と入力された場合の例も示してあ
る。「認識結果」情報は、音声分析部１０１で連続単語
認識された結果の表象を表す情報である。図４の例では
入力された音声信号の認識結果として、「東京／ホニャ
ラララ／ホテル」と示されている。「単語発声時間」情
報は、音声分析部１０１で連続単語認識された際に得ら
れる、各単語の発声時間を表す情報である。この例では
（６５０ｍｓｅｃ／８２０ｍｓｅｃ／５１０ｍｓｅｃ）
と示されているが、これらの数字は順に「東京」「ホニ
ャラララ」「ホテル」に対応している発声時間を表して
いる。「韻律パラメータ」情報は、音声分析部１０１で
解析された韻律パラメータを表す情報である。この情報
は、韻律パラメータの解析手段によって形態が異なるも
のとなるが、ここでは、イントネーションあるいは基本
周波数の時間的推移を用いた場合を示す。そして、ここ
では、得られるであろう韻律パラメータを摸式的に表し
ている。図４で使用されている矢印記号「→」はその言
葉の抑揚を摸式的に表現しており、上方にある矢印が抑
揚の高い部分を、下方にある矢印が抑揚の低い部分を表
している。「ワイルドカード表現の有無」情報は、入力
された音声に先に述べたワイルドカード表現が含まれて
いたかどうかを表す情報である。この場合は「ホニャラ
ララ」がワイルドカード表現にあたるので「有り」が出
力されている。「表現の種類」情報は、その語彙に含ま
れる単語のそれぞれがワイルドカード表現か、ワイルド
カード表現ではない非ワイルドカード表現かを表す情報
である。この情報は対応する語彙に関する図２の「表現
の種類」情報を参照すれば得られ、また、その表記方法
は図２における「表現の種類」情報と同じである。図４
の例では、単語「東京」「ホテル」が非ワイルドカード
表現で、「ホニャラララ」がワイルドカード表現である
ので、（確定／代替／確定）と情報が与えられている。
「ワイルドカード表現の種類」情報は、入力音声に含ま
れていたワイルドカード表現が数単語置換語かリズム語
かを識別するための情報である。この場合は「ホニャラ
ララ」がリズム語であるので「リズム語」を出力してい
る。

【００４６】置換表現照合部１０３は、音声分析部１０
１と、韻律情報記憶部１０４に接続し、ワイルドカード
表現が検出された場合に、そのワイルドカード表現部分
に対応する適切な表現を照合する。この部分の詳細につ
いては後述する。

【００４７】韻律情報記憶部１０４は、置換表現照合部
１０３に接続し、語彙記憶部１０２に登録されている語
彙のうち、ワイルドカード表現を含まない正規の語彙に
ついて、図５に示すような情報を記録する。

【００４８】図５は韻律情報記憶部１０４で記録されて
いる情報の一覧である。また、あわせて「東京ステーイ
ンホテル」の例も示している。「表象」情報はその語彙
の表象情報である。「標準時間」情報は記録されている
言葉のサンプルの発声時間を表している。その語彙が連
続単語として分離できる場合には、そのそれぞれの単語
の発声時間を記録しておく。この情報の表記方法は図４
の「単語発声時間」情報のそれと同じである。「韻律」
情報は記録されている言葉のサンプルから解析される韻
律情報を表している。但し、韻律情報を解析する方法は
音声分析部１０１で行っている方法と同じ方法でなけれ
ばならない。また、韻律情報記憶部１０４から出力され
る韻律情報も、音声分析部１０１から置換表現照合部１
０３へ渡す韻律パラメータ情報と同形式のものでなけれ
ばならない。図５の例は、図４と同様に解析後得られる
であろう韻律情報を摸式的に表している。

【００４９】図６は本実施形態で重要な働きをする置換
表現照合部１０３の動作のフローチャートである。以
下、図６を参照して、処理の流れを説明する。

【００５０】（ステップＳ１０１）ここでは、音声分析
部１０１の音声認識結果にワイルドカード表現があるか
どうかを確認する。これは、音声分析部１０１から渡さ
れる図４の「ワイルドカード表現の有無」情報で確認が
可能である。そして、ワイルドカード表現が存在する場
合はステップＳ１０２へ、ワイルドカード表現が存在し
ない場合は認識結果を出力し、処理を終了する。

【００５１】（ステップＳ１０２）このステップでは、
渡された音声認識結果に適合しかつ出力対象となる語彙
を韻律情報記憶部１０４から選択する。例えば、韻律情
報記憶部１０４に記録されている情報（図５）の表象情
報を利用し、音声認識結果に含まれている非ワイルドカ
ード表現部分を音声分析部１０１から渡される情報（図
４）の表現の種類情報を参照することにより求め、その
非ワイルドカード表現の存在位置条件に適合する語彙
を、ワイルドカード表現は１単語以上の長さを持つもの
と考え、非ワイルドカード表現部分を条件とすることに
より、選択する。

【００５２】例えば、得られた音声認識結果が「東京／
なんとか／ホテル」、表現の種類情報が（確定／代替／
確定）であったとすると、「東京／ステーイン／ホテ
ル」、「東京／エンター／コンチネンタル／ホテル」な
どのように、単語「東京」が最初に存在し、かつ、単語
「ホテル」が最後に存在し、かつ、その間に少なくとも
１単語以上存在するものを適合する語彙として選択す
る。

【００５３】（ステップＳ１０３）このステップでは、
音声認識結果に含まれるワイルドカード表現が数単語置
換語かリズム語かを判別する。これは、音声分析部１０
１から渡される図４の「ワイルドカード表現の種類」情
報で確認が可能である。そして、リズム語の場合はステ
ップＳ１０４へ、数単語置換語の場合はステップＳ１０
２で抽出された語彙を出力し、処理を終了する。尚、出
力する語彙が複数存在する場合は、その中のいくつかを
出力しても、全てを出力してもよく、複数個の解を利用
者に提示して選択させるなどの処理は、出力先のアプリ
ケーション特有の処理（図中２００）で決定される。

【００５４】（ステップＳ１０４）このステップでは、
ステップＳ１０２で抽出された語彙について、音声分析
部１０１から渡された「単語発声時間」情報と韻律情報
記憶部１０４に記録されている「標準時間」情報とを比
較することによって、更に出力語彙を限定する。例え
ば、「東京／ホニャララ／ホテル」の場合は非ワイルド
カード表現部分である「東京」「ホテル」の発声時間
と、対象語彙に関する韻律情報記憶部１０４の標準時間
情報に記録されている「東京」「ホテル」の標準時間と
の比率をそれぞれ計算し、その比率の平均値で入力信号
のワイルドーカード部分の発声時間を伸長し、伸長され
た発声時間と標準時間とを比較し、あるしきい値以内の
もののみを抽出する。尚、この処理で語彙を限定しない
場合は、時間を比較することによって、出力する語彙の
優先順位を決定することも可能である。

【００５５】（ステップＳ１０５）このステップでは、
ステップＳ１０４で抽出された語彙について、音声分析
部１０１から渡された「韻律パラメータ」情報と韻律情
報記憶部１０４に記録されている「韻律パラメータ」情
報とを比較することによって、出力する語彙を決定す
る。例えば、「ピッチパタン情報を利用したキーワード
スポッティング」（日本音響学会講演論文集、平成８年
９月、ｐｐ．２９−３０）に開示された方法により、Ｄ
Ｐ法を利用したマッチングを行うことによって比較を行
う。尚、この比較方法は構成される韻律パラメータによ
っても異なるが、本実施形態では、構成されるパラメー
タを利用できるものであれば、任意の韻律比較方法を利
用しても構わない。そして、発声した音声に最も韻律情
報が類似している語彙を出力し、処理を終了する。ある
いは、複数候補存在する場合には、韻律情報が類似して
いる順に優先順位をつけて出力しても良い。

【００５６】以上が、本発明に係る置換表現照合部１０
３の構成とその機能、および処理方法である。

【００５７】続いて、上述した音声入力解釈方法につい
て、更に詳しく説明する。ここでは、アプリケーション
として地図情報システムとして利用者が音声入力を行っ
た場合の働きを具体例として説明を行う。

【００５８】この地図情報システムには４つのホテルの
情報（パルスホテル、東京ステーインホテル、東京丸の
口ホテル、東京エンターコンチネンタルホテル）が登録
されており、その４つのホテルの名称が語彙記憶部１０
２に記録されているとする。また、語彙記憶部１０２に
はワイルドカード表現として前述したリズム語「ホニャ
ララ」が登録されており、上記の４つのホテルと「ホニ
ャララ」から生成される語彙を合わせて、語彙記憶部１
０２には図７に示した語彙が登録されているとする。

【００５９】また、韻律情報記憶部１０４には登録され
た４つのホテルの名称から表象情報、韻律情報、標準時
間情報を求めることによって、図８に示すような情報が
記録されているとする。

【００６０】そして、利用者が「東京ステーインホテ
ル」について聞きたいが、「ステーイン」の部分を明確
に記憶していなかったとし、この地図情報システムに
「トウキョウホニャラララホテル」という音声入力が行
われたものとする。ただし、この発言に含まれるワイル
ドカード表現「ホニャラララ」は「ステーイン」のリズ
ムを意識した発言とする。

【００６１】以下、本具体例の場合における各部の動き
について述べる。

【００６２】まず、音声分析部１０１では、入力された
音声に対して図７にある語彙で連続単語認識を実行す
る。そして、認識結果として「東京／ホニャラララ／ホ
テル」が選択されたとし、認識処理時に得られる発声時
間情報と、入力音声から抽出される韻律情報と合わせ
て、図９に示す情報を置換表現照合部１０３に出力す
る。

【００６３】この情報を受けた置換表現照合部１０３は
以下のような処理を行う。

【００６４】（ステップＳ１０１）渡されたワイルドカ
ード表現の有無情報から、認識結果にワイルドカード表
現があると判断して、ステップＳ１０２に進む。

【００６５】（ステップＳ１０２）認識結果情報「東京
／ホニャラララ／ホテル」と、表現の種類情報（確定／
代替／確定）とから、非ワイルドカード表現を「東京」
「ホテル」とし、これら２単語の存在位置条件に適合す
るものを韻律情報記憶部１０４に登録された語彙（図
８）から検索する。この場合は、最初に「東京」、最後
に「ホテル」があり、その間に少なくとも一単語存在す
る語彙が検索条件に当てはまるとする。そして、「東京
ステーインホテル」、「東京丸の口ホテル」、「東京エ
ンターコンチネンタルホテル」が検索され、「パルスホ
テル」は出力候補から外されるか、下位の候補とされ
る。

【００６６】（ステップＳ１０３）渡されたワイルドカ
ード表現の種類情報から、ワイルドカード表現「ホニャ
ラララ」はリズム語であるとして、ステップＳ１０４に
進む。

【００６７】（ステップＳ１０４）ステップＳ１０２で
選択された語彙から、まず「東京ステーインホテル」か
ら標準時間情報（図８）と、音声分析部１０１から渡さ
れた単語発声時間情報とを比較する。例えば、まず、非
ワイルドカード表現である「東京」、「ホテル」に関す
る両者の比率（標準時間情報／単語発声時間情報）を計
算すると、「東京」：７００／６５０＝１．０７６９、
「ホテル」：５５０／５１０＝１．０７８４となる。次
に、これらの比率の平均を計算し、その結果得られる数
値（１．０７７７）を入力時間を韻律情報記憶部１０４
にある標準時間と同スケールとする伸長係数とする。そ
して、ワイルドカード表現にあたる「ホニャラララ」部
分を伸長した後のワイルドカード表現部の入力時間は８
２０ｍｓｅｃ×１．０７７７＝８８４ｍｓｅｃとなる。
次に、「東京」と「ホテル」の間にあり、ワイルドカー
ド表現で代替されたと考えられる「ステーイン」部分の
標準時間は９００ｍｓｅｃとなる。そして、これら２つ
の入力時間を比較する（例えばしきい値処理）ことによ
って、ワイルドカード表現部分の時間的整合がとれてい
るかを調べる。図１０にステップＳ１０２で選択された
語彙に関して、上記の計算を行った結果を示す。

【００６８】ここで、「東京エンターコンチネンタルホ
テル」に関しては、「ホニャラララ」で「エンター／コ
ンチネンタル」を代替表現したものと考えられるので、
標準時間（７００ｍｓｅｃ／６５０ｍｓｅｃ／１０５０
ｍｓｅｃ／５５０ｍｓｅｃ）の内、「エンター」「コン
チネンタル」に相当する６５０＋１０５０＝１７００ｍ
ｓｅｃがワイルドカード表現「ホニャラララ」に対応す
る標準時間である。そして、例えば、伸長後の時間と標
準時間との差を計算し、その絶対値があるしきい値より
大きいものは出力候補から外す処理を行うとし、そのし
きい値を１００ｍｓｅｃとすると、上記の表より「東京
エンターコンチネンタルホテル」が出力候補から外され
るか、下位の候補とされる。

【００６９】（ステップＳ１０５）これまでの処理によ
って外されなかった「東京ステーインホテル」「東京丸
の口ホテル」についてその韻律情報のマッチングを行
う。そして、その結果、音声分析部１０１から渡された
韻律情報と近い韻律情報をもつ語彙が出力されるか、あ
るいは優先順位の高い語彙となる。ここで、「東京ステ
ーインホテル」の韻律情報の方が入力音声の韻律と近い
ものと判断され、優先順位の高い語彙として「東京ステ
ーインホテル」を出力し、出力先のアプリケーション特
有の処理（図中２００）で適切な処理を行う。また、ア
プリケーション特有の処理が複数候補に対して処理を行
うことが可能であれば、下位の候補として「東京丸の口
ホテル」を、必要ならば、更に下位の候補として順に
「東京エンターコンチネンタルホテル」、「パルスホテ
ル」も併せて出力する。

【００７０】以上で「東京ホニャラララホテル」と音声
入力された場合の処理を終了する。

【００７１】以上の説明によって、本実施形態に係る音
声入力解釈装置は、利用者が「東京ステーインホテル」
という名称を明確に記憶していない状態でも、分からな
い部分をワイルドカード表現を用いて、「東京ホニャラ
ララホテル」と音声入力することによって、適切な名称
に解釈してアブリケーション部分に情報を出力すること
が可能であり、また、利用者が知っていても文字列には
表せないリズムでの表現をワイルドカード表現を利用し
て「東京ホニャラララホテル」と入力し、本実施形態に
係るシステムがその発声時間情報、韻律情報を解釈する
ことにより、同じく「東京…ホテル」の形式の名称を持
つ「東京エンターコンチネンタルホテル」、「東京丸の
口ホテル」よりも、「東京ステーインホテル」のほうが
優先され、利用者の入力した音声情報が有効に利用され
ていることがわかる。

【００７２】（第２の実施形態）次に、本発明の第２の
実施形態について説明する。

【００７３】第１の実施形態では音声認識方式として連
続単語認識を用いるものであったが、本実施形態は音声
認識方式が連続単語認識でなくとも適用可能としたもの
である。

【００７４】図１１に本実施形態に係る音声入力解釈装
置の構成例を示す。図１１に示されるように、本実施形
態の音声入力解釈装置２は、音声分析部２０１、語彙記
憶部２０２、ワイルドカード表現検出部２０３、ワイル
ドカード表現記憶部２０４、置換表現照合部２０５、置
換表現記憶部２０６を備えている。なお、入力音声をア
ナログ信号からデジタル信号に変換するＡ／Ｄ変換器
は、音声入力解釈装置２内に設けても、音声入力装置１
００側に設けてもよい。

【００７５】音声分析部２０１は、置換表現照合部２０
５と、語彙記憶部２０２と、置換表現記憶部２０６に接
続し、置換表現照合部２０５から音声認識要求が来る
と、語彙記憶部２０２か置換表現記憶部２０６のどちら
か一方の指定された語彙を用いて音声単語認識を行い、
その結果を置換表現照合部２０５に出力する。また、認
識方法の要求に応じて単音節認識を行い、認識結果をモ
ーラ記号列として置換表現照合部２０５に出力する。な
お、これらの音声認識方法については本発明の本質では
ないので、これらについての詳細な説明は省略する。

【００７６】語彙記憶部２０２は、音声分析部２０１
と、置換表現照合部２０５とに接続し、音声認識対象の
（正規の）語彙を記録する部分であり、音声認識対象の
各語彙について図１２に示す情報を音声分析部２０１、
置換表現照合部２０５が参照・利用可能な形式で記録す
る。

【００７７】図１２は語彙記憶部２０２が記録する情報
の一覧である。併せて、語彙「東京ステーインホテル」
に対応して語彙記憶部２０２が記録する情報を例として
示す。「表象文字列」情報は、登録する語彙を表す文字
列である。「モーラ記号列」情報は、表象文字列の読み
をモーラ記号列で記述したものである。「モーラ記号列
長」情報は、モーラ記号列情報で記録されたモーラ記号
列のモーラ記号の数を表している。「韻律パラメータ」
情報は、例えば「ピッチパタン情報を利用したキーワー
ドスポッティング」（日本音響学会講演論文集、平成８
年９月、ｐｐ．２９−３０）に開示された方式などによ
り、音声のピッチパタン情報などから解析を行い、構成
される韻律パラメータを記録する。尚、韻律パラメータ
を生成する方式については上記の方式に限らず、その他
の方式であっても構わない。また、図１２の例では、得
られるであろう韻律情報を摸式的に表している。この表
記方法は第１の実施形態のものと同様である。「音声認
識に必要なパラメータ」情報は、本発明を実施する際に
音声分析部２０１で使用する音声認識のために必要に応
じてパラメータを記述するものである（なお、ここで使
用する音声認識方式は本発明の本質ではないのでこのパ
ラメータについての詳細な説明は省略する）。

【００７８】ワイルドカード表現記憶部２０４は、ワイ
ルドカード表現検出部２０３に接続し、例えば「なんと
か」あるいは「ホニャララ」などのような任意の数単語
に置換される表現であるワイルドカード表現を、ワイル
ドカード表現検出部２０３が参照・利用可能な形式で記
憶する。また、記憶するワイルドカード表現を「なんと
か」「なになに」等の数単語に置換される表現の数単語
置換語と、「ホニャララ」「タラララ」等の置換される
べき表現のリズムを表すリズム語とに分けて記憶する。

【００７９】ワイルドカード表現検出部２０３は、マイ
クなどの音声入力装置１００と、ワイルドカード表現記
憶部２０４と、置換表現照合部２０５に接続し、ワイル
ドカード表現記憶部２０４に記憶されているワイルドカ
ード表現の語彙を例えば「ワードスポッティングによる
音声認識における雑音免疫学習」（電子情報通信学会論
文誌Ｖｏｌ．Ｊ−７４−Ｄ−ＩＩ１９９１年２月ｐ
ｐ．１２１−１２９）に開示されている方法などを用い
て検出する。尚、特定の語彙を検出できる手法であれ
ば、上記の方式に限らず、他の検出方式でも構わない。
そして、ワイルドカード表現検出部２０３は、図１３に
示したような情報を置換表現照合部２０５に与え、処理
を渡す。

【００８０】図１３はワイルドカード表現検出部２０３
から置換表現照合部２０５に渡す情報の一覧である。ま
た、併せて「トウキョウホニャララホテル」と入力され
た場合の例も示す。「ワイルドカード表現の有無」はワ
イルドカード表現がワイルドカード表現検出部２０３で
検出されたかどうかを表す情報である。この例では「ホ
ニャララ」がワイルドカード表現にあたり、「有り」を
出力している。「原信号」は音声入力された元の信号で
あるが、ワイルドカード表現が検出された場合はそのワ
イルドカード表現の部分で切り離して置換表現照合部２
０５に渡す。例では入力「トウキョウホニャララホテ
ル」がワイルドカード表現「ホニャララ」で分離され
「トウキョウ」「ホニャララ」「ホテル」と３つに分離
されて順に置換表現照合部２０５に渡される。「ワイル
ドカード表現の位置」はワイルドカード表現が存在する
場合に、切り離された原信号の何番目の信号がワイルド
カード表現であるかを数値で表したものである。この例
では３つに分離された原信号の２番めに「ホニャララ」
があるので２が出力されている。「ワイルドカード表現
の種類」は検出されたワイルドカード表現が、数単語置
換語か、リズム語かを表す情報である。この例では「ホ
ニャララ」をリズム語としている。これはワイルドカー
ド表現記憶部２０４に登録されている情報によって異な
る。「ワイルドカード表現のモーラ記号列長」は検出さ
れたワイルドカード表現がリズム語であった場合にその
モーラ記号数を表す情報である。この例ではワイルドカ
ード表現「ホニャララ」はモーラ記号数４である。「ワ
イルドカード表現の韻律情報」は検出されたワイルドカ
ード表現がリズム語であった場合にその韻律を表す情報
である。これは、入力された音声のビッチパタン情報な
どから解析を行い、置換表現照合部２０５に渡される。
尚、韻律パラメータを生成する方式については、生成さ
れる韻律パラメータが、語彙記憶部２０２、置換表現記
憶部２０６に記録される形式と同じものになるものでな
ければならない。

【００８１】置換表現照合部２０５は、ワイルドカード
表現検出部２０３と、音声分析部２０１と、語彙記憶部
２０２と、置換表現記憶部２０６に接続し、ワイルドカ
ード表現が検出された場合に、そのワイルドカード表現
部分に対応する適切な表現を照合する。この部分の詳細
について後述する。

【００８２】置換表現記憶部２０６は、音声分析部２０
１と、置換表現照合部２０５に接続し、語彙記憶部２０
２に登録されている語彙から、例えば「東京ステーイン
ホテル」から「東京」「ステーイン」「ホテル」のよう
に、更に単語として意味のあるものに分離することによ
って生成される単語、あるいは「東京ステーイン」「ス
テーインホテル」のように連続している単語の組合せと
なる言葉を語彙記憶部２０２と同じ形式（図１２参照）
で記憶する。

【００８３】図１４は本実施形態で重要な働きをする置
換表現照合部２０５の動作の概略構成である。以下、図
１４を参照して処理の流れを説明する。

【００８４】（ステップＳ２０１）入力された音声入力
にワイルドカード表現があるかどうか確認する。これは
ワイルドカード表現検出部２０３から与えられる「ワイ
ルドカード表現の有無」情報（図１３）から確認でき
る。そして、ワイルドカード表現が存在すればステップ
Ｓ２０４へ、ワイルドカード表現が存在しなければステ
ップＳ２０２へ進む。

【００８５】（ステップＳ２０２）ワイルドカード表現
がないと判断された場合、そのまま音声認識処理を行
う。入力された原信号に対して音声分析部２０１に語彙
記憶部２０２に記憶されている語彙での単語認識を依頼
する。

【００８６】（ステップＳ２０３）音声分析部２０１か
ら出力された音声認識結果をアプリケーション特有の処
理（図中２００）、あるいはより高等な音声分析処理に
引渡し、処理を終了する。

【００８７】（ステップＳ２０４）ワイルドカード表現
があると判断された場合、ワイルドカード表現ではない
部分がどのように発声、入力されたかを調べる。例え
ば、ワイルドカード表現検出部２０３から切り離されて
渡される原信号と「ワイルドカード表現の位置」情報か
ら、ワイルドカード表現の信号を求め、ワイルドカード
表現ではない部分（非ワイルドカード表現部）の信号に
対して、音声分析部２０１に置換表現記憶部２０６に記
憶されている語彙での単語認識を依頼する。以下の説明
では、このステップで得られた音声認識結果を「部分認
識結果」と呼ぶ。また、置換表現記憶部２０６に適切な
語彙が存在しない場合は、その非ワイルドカード表現部
に対応する部分認識結果は存在しないこととする。

【００８８】（ステップＳ２０５）ここでは、非ワイル
ドカード表現部とワイルドカード表現との間に何らかの
情報があるかどうかを調べる。これは、利用者が明確な
単語の発音を知らない場合においても、始点終点の一部
のみを知っている場合に「『ス』なんとか」のようにワ
イルドカード表現の前後に付与する形式で発声される場
合にも対応するために行う。「『ス』なんとか」のよう
に発声されると、ワイルドカード表現記憶部２０４に登
録されているワイルドカード表現に「すなんとか」が登
録されていなければ、ワイルドカード表現検出部２０３
によって検出されるワイルドカード表現は「なんとか」
であるので、利用者がワイルドカード表現を意図として
発声した『ス』は非ワイルドカード表現の一部として処
理されてしまう。このような場合においても、非ワイル
ドカード表現部の中に、ワイルドカード表現の一部とさ
れた部分が存在するかどうかを判定し、存在する場合は
ワイルドカード表現の一部として処理できるようにする
ものである。

【００８９】まず、検出されたワイルドカード表現部の
それぞれにモーラ記号列を記憶するバッファを準備す
る。このバッフアは非ワイルドカード表現部とワイルド
カード表現部の間に情報が検出できた場合に、その情報
をモーラ記号で記憶するものである。また、検出された
情報がワイルドカード表現部の前、後に現れる場合があ
るので、それに対応してバッファは各ワイルドカード表
現につき、２つずつ準備される。ステップＳ２０５では
検出された非ワイルドカード表現部のうち、ワイルドカ
ード表現部に隣接している部分のそれぞれに対して、バ
ッファに入力するモーラ記号を抽出する処理を行う。図
１５は検出された非ワイルドカード表現部の一つに対す
る処理（ステップＳ２０５の処理）の概略構成を示して
いる。以下では、図１５を参照しながら説明を行う。

【００９０】（ステップＳ２０５−１）このステップで
は、非ワイルドカード表現がどのように発声されている
のかということを調ベる。例えば、対象となった非ワイ
ルドカード表現部に対して、音声分析部２０１に音節単
位の音声認識を依頼する。以下の説明では、このステッ
プで出力されてきたモーラ記号列を「部分音節認識結
果」と呼ぶ。

【００９１】（ステップＳ２０５−２）このステップで
は、現在対象となっている非ワイルドカード表現に対応
する部分認識結果が存在するかどうか確認する。その結
果、部分認識結果が存在しない場合はステップＳ２０５
−３へ、部分認識結果が存在している場合はステップＳ
２０５−４へ進む。

【００９２】（ステップＳ２０５−３）現在対象となっ
ている非ワイルドカード表現部に対応する部分認識結果
が存在しない場合、この非ワイルドカード表現部は置換
表現記憶部２０６の語彙よりも短い表現をしていると判
断できる。そこで、この非ワイルドカード表現部全てが
隣接しているワイルドカード表現部の一部であるとし、
この非ワイルドカード表現が隣接しているワイルドカー
ド表現部の前部にあるか、後部にあるかを判定し、その
モーラ記号（列）を対応するバッフアに記憶し、ワイル
ドカード表現部がリズム語である場合は、ワイルドカー
ド表現検出部２０３から受けとった「ワイルドカード表
現の文字列長」情報にバッファに記憶したモーラ記号数
分だけ加え、この非ワイルドカード表現部がワイルドカ
ード表現部の前部に存在する場合は、「ワイルドカード
表現の位置」情報を１減少させて、終了する。

【００９３】（ステップＳ２０５−４）ここでは、対象
となっている非ワイルドカード表現部の中に、対応する
部分認識結果の他に発音された言葉が含まれているかを
確認する。例えば、現在対象となっている非ワイルドカ
ード表現に対応する部分音節認識結果のモーラ記号列長
と、部分認識結果のモーラ記号列長とを比較する。その
結果、部分認識結果のモーラ記号列長の方が長い場合
や、両者共に等しい場合であればステップＳ２０５−５
に進み、部分音節認識結果のモーラ記号列長の方が長い
場合はステップＳ２０５−６に進む。

【００９４】（ステップＳ２０５−５）現在対象となっ
ている非ワイルドカード表現には対応する部分認識結果
以上の情報はないと判断し、バッファには何も入力せず
に終了する。

【００９５】（ステップＳ２０５−６）現在対象として
いる非ワイルドカード表現部に対応する部分認識結果の
モーラ記号列長が同じ部分の部分音節認識結果のモーラ
記号列長より短いので、現在対象となっている非ワイル
ドカード表現には対応する部分認識結果の他にワイルド
カード表現の一部が発声されている可能性があると判断
し、部分認識結果が非ワイルドカード表現部の原信号の
どの部分に当たるのかを調べる。

【００９６】例えば、図１６のように部分認識結果のモ
ーラ記号列を部分音節認識結果のモーラ記号列に逐次当
てはめ、両者のモーラ記号列を比較することにより求め
る。図１６では部分認識結果「東京」（モーラ記号列
「トオキョオ」）と部分音節認識結果「卜オキョオス」
とを比較しているが、部分認識結果のモーラ記号列長は
４で、部分音節認識結果のモーラ記号列長は５となって
おり、部分認識結果は当てはめを開始する記号を「トオ
キョオス」の「卜」と「オ」（最初のオ）とする２つの
パターンが考えられる。部分認識結果が更に短い場合は
「キョ」以降を開始とするパターンが現れる。

【００９７】そして、どの当てはめのパターンが最適か
を判断し、「余り」の部分が何処かを決定する。この
「余り」の部分は、非ワイルドカード表現の中に含まれ
ているワイルドカード表現部分の一部とすべき箇所であ
ると考えられる。余り部分の決定方法としては、例え
ば、当てはめたときに一致したモーラ記号数を基準とす
る場合は、最も一致するモーラ記号数の多い場所を部分
認識結果が存在する場所として選択し、部分認識結果の
モーラ記号列が当てはまらない部分を「余り」として抽
出する。

【００９８】図１６の例では最後の文字「ス」が余りの
部分として抽出される。

【００９９】また、一致するモーラ記号数が最大になる
パターンが２種類以上存在するなどで、部分認識結果の
位置が一意に決定できない場合には、余りの部分は存在
しないと判断する。あるいは、一致するモーラ記号数が
あるしきい値以下であった場合も余りの部分は存在しな
いと判断しても良い。

【０１００】（ステップＳ２０５−７）ここでは、ステ
ップＳ２０５−６の結果、余りの部分が抽出できたかど
うかを確認する。余りの部分が存在していればステップ
Ｓ２０５−８へ、余りの部分が存在しなければステップ
Ｓ２０５−５へ進む。

【０１０１】（ステップＳ２０５−８）ここでは、ステ
ップＳ２０５−６の結果、抽出された余りの部分がワイ
ルドカード表現部分に隣接したところに存在するかどう
かを確認する。図１６の例ではワイルドカード表現「ナ
ントカ」の直前に余りの部分「ス」が存在するので、
「ナントカ」に隣接した場所に余り「ス」が存在すると
判断される。逆に、「ナントカ」が「トウキョウス」の
前に存在している場合は、「トウキョウス」の最後部に
ある余り「ス」は「ナントカ」とは隣接していないと判
断される。この場合は、余りが「卜」「トウ」などであ
ればワイルドカード表現「ナントカ」の直後に余りが存
在すると判断できる。隣接部分に余りが存在すれば、ス
テップＳ２０５−９へ進む。隣接部分に余りが存在しな
ければ、ステップＳ２０５−５へ進む。

【０１０２】（ステップＳ２０５−９）ここでは、ステ
ップＳ２０５−６で抽出された余りの部分がワイルドカ
ード表現に隣接しているので、この抽出された余りの部
分が隣接しているワイルドカード表現部の一部であると
し、この余りの部分が隣接しているワイルドカード表現
部の前部にあるか、後部にあるかを判定し、そのモーラ
記号（列）を対応するバッファに記憶し、ワイルドカー
ド表現部がリズム語である場合は、ワイルドカード表現
検出部２０３から受けとった「ワイルドカード表現の文
字列長」情報にバッファに記憶したモーラ記号数分だけ
加え、終了する。

【０１０３】上記の方法の他にも、音声分析部２０１に
ワイルドカード表現検出部２０３にあるような単語検出
能力を付与すれば、切り離された原信号の中からステッ
プＳ２０４で得られた音声認識結果の単語の検出を行
い、その後ワイルドカード表現との境の部分に余った信
号を切りとり、音声分析部２０１に音節単位の音声認識
を依頼することによって、上記と同じくワイルドカード
表現の一部となるモーラ記号（列）を推定することも可
能である。

【０１０４】（ステップＳ２０６）ステップＳ２０４〜
Ｓ２０５での処理によって得られた情報と、ワイルドカ
ード表現検出部２０３から得られる図１３に示した情報
を検索条件として、語彙記憶部２０２に記憶されている
語彙に一致するように、置換表現記憶部２０６に記憶さ
れている語彙からワイルドカード表現部分にあてはまる
言葉を検索する。図１７はステップＳ２０６で行う動作
のフローチャートである。以下、図１７を参照して、処
理の流れを説明する。

【０１０５】（ステップＳ２０６−１）このステップで
は、渡された音声認識結果に適合しかつ出力対象となる
語彙を語彙記憶部２０２から選択する。例えば、語彙記
憶部２Ｏ２に記録されている情報（図１２）の表象情報
を利用し、非ワイルドカード表現部分の部分認識結果の
存在位置条件に適合する語彙を、ワイルドカード表現は
１単語以上の長さを持つものと考え、非ワイルドカード
表現部分を条件とすることにより、選択する。そして、
置換表現記憶部２０６に記録されている表現から、選択
された語彙のワイルドカード表現で代替表現された部分
を検索する。例えば、得られた部分認識結果が「東京」
と「ホテル」で、更に、切り分けられた原信号の並び
と、ワイルドカード表現の位置情報から「東京（ワイル
ドカード表現）ホテル」の順であると分かったとする
と、「東京ステーインホテル」などのように、単語「東
京」が最初に存在し、かつ、単語「ホテル」が最後に存
在し、かつ、その間に少なくとも１単語以上存在するも
のを適合する語彙として選択する。そして、置換表現記
憶部２０６からワイルドカード表現された部分として、
表現「ステーイン」などが検索される。

【０１０６】（ステップＳ２０６−２）このステップで
はステップＳ２Ｏ５で処理されたバッファに記録された
モーラ記号（列）を検索条件として、ステップＳ２０６
−１で抽出された表現から更に限定を行う。

【０１０７】（ステップＳ２０６−３）このステップで
は、音声認識結果に含まれるワイルドカード表現が数単
語置換語かリズム語かを判別する。これは、ワイルドカ
ード表現検出部２０３から渡される図１３の「ワイルド
カード表現の種類」情報で確認が可能である。そして、
リズム語の場合はステップＳ２０６−４へ進み、数単語
置換語の場合はステップＳ２０６−２で抽出された表現
と、部分認識結果からなる正規の語彙を出力し、処理を
終了する。尚、出力する語彙が複数存在する場合は、そ
の中のいくつかを出力しても、全てを出力してもよく、
複数個の解を利用者に提示して選択させるなどの処理
は、出力先のアプリケーション特有の処理（図中２０
０）で決定される。

【０１０８】（ステップＳ２０６−４）このステップで
は、ステップＳ２０６−１で抽出された語彙について、
ワイルドカード表現検出部２０３から渡されたワイルド
カード表現のモーラ記号列長情報と置換表現記憶部２０
６に記録されているモーラ記号長情報とを比較すること
によって、更に出力語彙を限定する。例えば、両者のモ
ーラ記号列長の差があるしきい値以内のもののみを抽出
する。尚、この処理で語彙を限定しない場合は、出力す
る語彙の優先順位を決定することも可能である。

【０１０９】（ステップＳ２０６−５）このステップで
は、ステップＳ２０６−４で抽出された語彙について、
音声分析部１０１から渡された「韻律パラメータ」情報
と韻律情報記憶部１０４に記録されている「韻律パラメ
ータ」情報とを比較することによって、出力する語彙を
決定する。例えば、「ピッチパタン情報を利用したキー
ワードスポッティング」（日本音響学会講演論文集、平
成８年９月、ｐｐ．２９−３０）に開示された方法など
により、ＤＰ法を利用したマッチングを行うことによっ
て比較を行う。尚、この比較方法は構成される韻律パラ
メータによっても異なるが、本実施形態では、構成され
るパラメータを利用できるものであれば、任意の韻律比
較方法を利用しても構わない。そして、発声した音声に
最も韻律情報が類似している語彙を出力し、処理を終了
する。あるいは、複数候補存在する場合には、韻律情報
が類似している順に優先順位をつけて出力しても良い。

【０１１０】以上が本実施形態に係る置換表現照合部２
０５の構成とその機能、および処理方法である。

【０１１１】続いて、上述した音声入力解釈方法につい
て、更に詳しく説明する。ここでは、第１の実施例の説
明の際に利用した地図情報システムの例を挙げ、利用者
が音声入力を行った場合の働きを具体例として説明を行
う。

【０１１２】この地図情報システムには東京駅周辺の４
つのホテル（東京ステーインホテル、東京丸の口ホテ
ル、パルスホテル、東京エンターコンチネンタルホテ
ル）が登録されており、その４つのホテルに関して、図
１８に示す情報と、それぞれの音声認識に必要なパラメ
ータとが語彙記憶部２０２に記録されている。そして、
置換表現記憶部２０６に登録される、これらの語彙から
分離した単語および連続している単語の組合せとなる表
現は図１９に示すようになる。

【０１１３】また、ワイルドカード表現として数単語置
換語「ナントカ」がワイルドカード表現記憶部２０４に
登録されているとする。

【０１１４】次に、利用者が「東京ステーインホテル」
について聞きたいが、「ステーイン」の部分を明確に記
憶していなかったとし、この地図情報システムに「トウ
キョウスナントカホテル」という音声入力が行われたも
のとする。

【０１１５】以下、表記を明確にするため、音声認識結
果を得る前の波形信号を［シンゴウ］のように［…］
で、音声認識結果を得た後に得られる文字列を「文字
列」のように「…」で表す。

【０１１６】その入力を受け、まずワイルドカード表現
検出部２０３においてワイルドカード表現の検出が行わ
れる。信号［トウキョウスナントカホテル］にはワイル
ドカード表現［ナントカ］が含まれており、これがワイ
ルドカード表現として検出される。そして、置換表現照
合部２０５に図２０のような情報が渡される。

【０１１７】以下は置換表現照合部２０５での処理であ
る。

【０１１８】（ステップＳ２０１）ワイルドカード表現
の有無情報からワイルドカード表現が存在することが確
認される。

【０１１９】（ステップＳ２０４）分離されて渡される
原信号と、ワイルドカード表現の位置情報から音声認識
が必要な部分が信号［トウキョウス］［ホテル］である
とわかる。そして、音声分析部２０１にこの２つの信号
の置換表現記憶部２０６に記録されている語彙セットで
の単語認識を依頼する。その結果、部分認識結果とて信
号［トウキョウス］の認識結果が「東京」、［ホテル］
の認識結果が「ホテル」と得られたとする。

【０１２０】（ステップＳ２０５）まず、信号［トウキ
ョウス］から処理を始める。

【０１２１】（ステップＳ２０５−１）信号１トウキョ
ウス］の音節単位の認識を音声分析部２０１に依頼す
る。その結果、モーラ記号列「トオキョオス」が得られ
たとする。

【０１２２】（ステップＳ２０５−２）信号［トウキョ
ウス］の認識結果として「東京」が得られているので、
ステップＳ２０５−４へ進む。

【０１２３】（ステップＳ２０５−４）モーラ記号列
「トオキョオス」のモーラ記号列長は５である。また、
部分認識結果「東京」は置換表現記憶部２０６に図２１
のように記録されていたとする。

【０１２４】このモーラ記号列長とを比較して、入力さ
れた信号の部分音節認識結果「トオキョオス」の方が長
いので、ステップＳ２０５−６へ進む。

【０１２５】（ステップＳ２０５−６）音節認識結果
「トオキョオス」と部分認識結果「東京」のモーラ記号
列「トオキョオ」を比較すると、図１６のようになり、
モーラ記号「ス」が余りとして検出される。

【０１２６】（ステップＳ２０５−７）余りとしてモー
ラ記号「ス」が検出されたので、ステップＳ２０５−８
へ進む。

【０１２７】（ステップＳ２０５−８）余りのモーラ記
号「ス」は音節認識結果「トオキョオス」の最後部に位
置し、また、この音節認識結果の元となる信号［トウキ
ョウス］はワイルドカード表現部分［ナントカ］の直前
にあるので、余り「ス」はワイルドカード表現の一部と
判断される。ステップＳ２０５−９に進む。

【０１２８】（ステップＳ２０５−９）ワイルドカード
表現の前部の発音をためるバッファにモーラ記号「ス」
を入力する。

【０１２９】次に、信号［ホテル］について同様の処理
を行う。ここでは、部分認識結果「ホテル」の他の余り
部分を見つけることができなかったとし、バッファには
何も記録せずに次の処理に進む。

【０１３０】（ステップＳ２０６）ここでは、これまで
の情報から適切な語彙を検索する。

【０１３１】（ステップＳ２０６−１）原信号情報と部
分認識結果や、ワイルドカード表現の位置情報などから
音声入力された対象となる語彙は「東京（ワイルドカー
ド表現）ホテル」であると判断される。語彙記憶部２０
２に記録されている語彙から、上記の条件に合う適切な
語彙を抽出すると、「東京ステーインホテル」、「東京
丸の口ホテル」、「東京エンターコンチネンタルホテ
ル」が選択される。また、これらの条件から置換表現記
憶部２０６に登録されている表現からワイルドカード表
現で代替された表現として、「ステーイン」、「丸の
口」、「エンターコンチネンタル」が出力候補として選
択される。この時点で、「パルスホテル」が出力候補か
ら出力候補から外されるか、下位の候補となる。

【０１３２】（ステップＳ２０６−２）ステップＳ２０
５で記録されたバッファを参照すると、モーラ記号
「ス」から始まる表現の「ステーイン」が有力であると
判断できる。ここで、出力候補として、「ステーイン」
が含まれた語彙「東京ステーインホテル」が有力とな
る。「東京丸の口ホテル」「東京エンターコンチネンタ
ルホテル」は出力候補から外されるか、下位の候補とな
る。

【０１３３】（ステップＳ２０６−３）ワイルドカード
表現検出部２０３から送られた情報から使用されたワイ
ルドカード表現（「ナントカ」）は数単語置換語である
ことが分かるので、「東京ステーインホテル」を第１位
候補として出力する。あるいは、アプリケーション部分
が複数候補にも対応している場合は下位の候補として
「東京丸の口ホテル」「東京エンターコンチネンタルホ
テル」を、更に下位の候補として「パルスホテル」を出
力する。そして、アプリケーション特有の処理（図中２
００）がこの出力を受け、適切な処理を行う。

【０１３４】以上で「トウキョウスナントカホテル」と
音声入力された場合の処理を終了する。

【０１３５】以上の説明によって、本実施形態に係る音
声入力分析装置は、利用者が「東京ステーインホテル」
という名称を明確に記憶していない状態でも、記憶して
いる部分を具体的に、わからない部分をワイルドカード
表現を用いて「東京スなんとかホテル」と音声入力する
ことによって、適切な名称に解釈してアプリケーション
部分に情報を出力することが可能であり、また、利用者
の知っている細かい情報「東京ス…ホテル」のわからな
い部分をワイルドカード表現を利用して「東京スなんと
かホテル」と入力することにより、おなじく「東京…ホ
テル」の形式の名称を持つ「東京丸の口ホテル」、「東
京エンターコンチネンタルホテル」よりも「東京ステー
インホテル」のほうが優先され、利用者の入力した音声
情報が有効に利用されていることがわかる。

【０１３６】かくしてこのように構成された本装置によ
れば、利用者が正確に発声できる単語あるいは文章を記
憶しなくとも動作する音声入力解釈装置を構築できる。

【０１３７】例えば、利用者が発声可能な単語あるいは
文章の一部分のみを記憶している場合でも音声の誤認識
をおさえ、音声入力をもつシステムの出力を利用者の意
図にそったものと導くことのできる音声入力解釈装置を
構築できる。

【０１３８】また、利用者が発声可能な単語あるいは文
章の「リズム」のみを記憶している場合でも音声の誤認
識をおさえ、音声入力をもつシステムの出力を利用者の
意図にそったものへと導くことのできる音声入力解釈装
置を構築できる。

【０１３９】尚、各実施形態の作用効果は上述した例に
限定されるものではない。例えば、第１の実施形態では
置換表現照合部１０３、第２の実施形態では置換表現照
合部２０５において置換処理された結果のリストを利用
者に提示し、正しいものを選択させることによって誤動
作を避けることができる。

【０１４０】また、マルチモーダルインターフェースの
入力手段として利用し、検索幅を更に狭め、出力の冗長
をおさえ、利用者の負担を軽減することも可能である。

【０１４１】また、マルチモーダルインターフェースの
みに限らず、任意の音声入力が伴う装置の入力手段とし
て利用することが可能である。また、韻律情報はワイル
ドカード表現された部分のみに限らず、入力された音声
情報すべてに対して解析、利用することも可能である。

【０１４２】以下では、本音声入力解釈装置における処
理をソフトウェアを使って実現する場合の装置構成につ
いて図２２を参照しながら説明する。

【０１４３】この場合、本音声入力解釈装置のハードウ
ェア部分は、ＣＰＵ２１、プログラムや必要なデータを
格納するためのＲＡＭ２２、ディスクドライブ装置２
４、記憶装置２５、入出力装置２６である。

【０１４４】第１の実施形態の場合、図１の音声分析部
１０１、語彙記憶部１０２、置換表現照合部１０３、韻
律情報記憶部１０４は、それぞれの処理手順を記述した
プログラムにより構成される。

【０１４５】第２の実施形態の場合、図１１の音声分析
部２０１、語彙記憶部２０２、ワイルドカード表現検出
部２０３、ワイルドカード表現記憶部２０４、置換表現
照合部２０５、置換表現記憶部２０６は、それぞれの処
理手順を記述したプログラムにより構成される。

【０１４６】なお、各記憶部に格納する情報は、プログ
ラムと一体化されたものであってもよいし、プログラム
とは別に設定されるものであってもよい。

【０１４７】この処理手順を記述したブログラムは、図
２２のコンピュータシステムを制御するためのプログラ
ムとしてＲＡＭ２２に格納され、ＣＰＵ２１により実行
させる。ＣＰＵ２１はＲＡＭ２２に格納されたプログラ
ムの手順に従い、演算や、記憶装置２５あるいは入出力
装置２６の制御などを行って、所望の機能を実現してい
く。

【０１４８】プログラムをＲＡＭ２２にインストールす
るには種々の方法を用いることができる。例えば、上記
プログラム（図１の音声分析部１０１、語彙記憶部１０
２、置換表現照合部１０３、韻律情報記憶部１０４の処
理手順を記述したプログラムであって、コンピュータシ
ステムを制御するためのプログラムや、図１１の音声分
析部２０１、語彙記憶部２０２、ワイルドカード表現検
出部２０３、ワイルドカード表現記憶部２０４、置換表
現照合部２０５、置換表現記憶部２０６の処理手順を記
述したプログラムであって、コンピュータシステムを制
御するためのプログラム）を、コンピュータで読みとり
可能な記憶媒体（例えばフロッピーディスク、あるいは
ＣＤ−ＲＯＭ等のリムーバブル記憶媒体）に記憶させて
おく。そして、図２２に示すように記憶媒体に応じたデ
ィスクドライブ装置２４を用いて該プログラムを読みと
り、ＲＡＭ２２に格納する。あるいは、いったんディス
クドライブ装置２４等にインストールしておき、実行時
に同装置からＲＡＭ２２に格納する。

【０１４９】また、プログラムを格納した記憶媒体がＩ
Ｃカードである場合は、ＩＣカードリーダを用いて該ブ
ログラムを読みとることができる。さらには、ネットワ
ークを介して所定のインターフェース装置からプログラ
ムを受けとることもできる。

【０１５０】なお、音声入力解釈装置にその解釈結果を
利用するアプリケーションを搭載してもよいし、音声入
力解釈装置とアプリケーションを搭載する装置を独立し
たものにしてもよい。また、音声入力解釈装置を実現す
るプログラムとその解釈結果を利用するアプリケーショ
ンを実現するプログラムとを、同一のＣＰＵ上で実行し
てもよいし、別々に設けたＣＰＵ上で実行してもよい。

【０１５１】ところで、第１、第２の実施形態では、ワ
イルドカード表現が１つしか入力されないという前提で
実現しているように記述しているが、ワイルドカード表
現が複数の入力が行われても、第１の実施形態では対応
する語彙を語彙記憶部１０２に生成し、置換表現照合部
１０３においては該当するワイルドカード表現部分のそ
れぞれについて同様の処理を行えば扱うことが可能であ
り、また第２の実施形態では複数検出されたワイルドカ
ード表現について、その位置と、種類、韻律に関する情
報を置換表現照合部２０５に渡し、また、ワイルドカー
ド表現の一部を記録するバッファをワイルドカード表現
の途中を記録するためのものを追加し、連続してワイル
ドカード表現が現れた場合はまとめて１つのワイルドカ
ード表現として、検出された各ワイルドカード表現につ
いて同様に処理を行えば扱うことが可能である。

【０１５２】また、第１、第２の実施形態で設定される
検索条件は特に各実施形態に固有のものではなく、例え
ば、第２の実施形態における置換表現検索時に音声入力
時間を利用しても良い。また、第１の実施形態について
は「『ス』なんとか」のようにワイルドカード表現の一
部に正しい表現を交えた入力はされないという前提で実
現しているように記述しているが、語彙記憶部１０２に
「す／なんとか」のような語彙を設定すれば容易に対応
可能である。また、ワイルドカード表現を数単語置換語
や、リズム語に定義しなくとも、全ての表現について韻
律などを検索条件にすることも可能である。

【０１５３】また、日本語に限らず、ワイルドカード表
現が存在する言語全てにモーラ記号単位の分析を音節あ
るいは音素などの共通の単位の分析とすることによっ
て、本発明を適用することが可能である。また、本発明
を例えば歌詞の分からない部分をリズムで歌う入力によ
って音楽の検索に適用することも可能である。

【０１５４】本発明は、上述した実施の形態に限定され
るものではなく、その技術的範囲において種々変形して
実施することができる。

【０１５５】

【発明の効果】本発明によれば、入力音声から正規の語
彙の一部を代替表現した部分を検出しこの部分に妥当す
る正規の表現に置換するので、音声入力として許容され
る語彙を利用者が明確に覚えなくとも、その代替表現を
含む音声入力を受け入れ、これを解釈することができ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声入力解釈装
置の構成例を示す図

【図２】語彙記憶部に記録される情報の一例を示す図

【図３】語彙記憶部に記録される語彙の一例を示す図

【図４】音声分析部から置換表現照合部へ渡される情報
の一例を示す図

【図５】韻律情報記憶部に記録されている情報の一例を
示す図

【図６】置換表現照合部の動作の一例を示すフローチャ
ート

【図７】語彙記憶部に登録された語彙の一例を示す図

【図８】韻律情報記憶部に登録された情報の一例を示す
図

【図９】音声分析部から置換表現照合部に出力する情報
の一例を示す図

【図１０】音声認識結果に適合する語彙の検索結果の一
例を示す図

【図１１】本発明の第２の実施形態に係る音声入力解釈
装置の構成例を示す図

【図１２】語彙記憶部に記録される情報の一例を示す図

【図１３】ワイルドカード表現検出部から置換表現照合
部へ渡される情報の一例を示す図

【図１４】置換表現照合部の動作の一例を示すフローチ
ャート

【図１５】非ワイルドカード表現部分に対する処理手順
の一例を示すフローチャート

【図１６】ワイルドカード表現の一部の検索について説
明するための図

【図１７】ワイルドカード表現部分に対する処理手順の
一例を示すフローチャート

【図１８】語彙記憶部に登録された語彙の一例を示す図

【図１９】置換表現記憶部に登録された情報の一例を示
す図

【図２０】ワイルドカード表現検出部から置換表現照合
部へ渡される情報の一例を示す図

【図２１】置換表現記憶部に記録された情報の一例を示
す図

【図２２】ハードウェア構成の一例を示す図

【符号の説明】

１，２…音声入力解釈装置１００…音声入力装置１０１…音声分析部１０２…語彙記憶部１０３…置換表現照合部１０４…韻律情報記憶部２０１…音声分析部２０２…語彙記憶部２０３…ワイルドカード表現検出部２０４…ワイルドカード表現記憶部２０５…置換表現照合部２０６…置換表現記憶部２１…ＣＰＵ２２…ＲＡＭ２３…バス２４…ディスクドライブ装置２５…記憶装置２６…入出力装置

Claims

【特許請求の範囲】

【請求項１】入力音声を解釈して該当する語彙の情報を
出力する音声入力解釈装置において、正規の語彙に関する第１の情報、および該正規の語彙の
一部が予め定められた代替表現に置き換えられて音声入
力されることを考慮した該正規の語彙に関する第２の情
報を記憶する手段と、入力音声を音声認識する手段と、前記第２の情報をもとに、前記音声認識結果から前記代
替表現を検出する手段と、この手段により前記認識結果から前記代替表現が検出さ
れた場合、少なくとも前記入力音声の認識結果に含まれ
る該代替表現以外の語彙の部分をもとに、前記第１の情
報を検索して、該当する語彙を求める手段とを備えたこ
とを特徴とする音声入力解釈装置。
【請求項２】前記該当する語彙が複数検索された場合、
少なくとも前記代替表現に対応する音声の音韻的特徴に
基づいて、該当する語彙の優先度を評価する手段をさら
に備えたことを特徴とする請求項１に記載の音声入力解
釈装置。
【請求項３】入力音声を解釈して該当する語彙の情報を
出力する音声入力解釈装置において、任意の言葉の代替となる代替表現によって音声認識対象
となる予め定められた正規の語彙の一部を代替した代替
表現を語彙の一種として記憶する語彙記憶手段と、前記語彙記憶手段に記憶されている語彙のうち前記代替
表現を含まない前記正規の語彙の表記および韻律情報を
記憶する韻律情報記憶手段と、音声入力装置を介して入力された音声に対し、前記語彙
記憶手段を参照して、音声認識および音声の韻律に関す
る分析を行う音声分析手段と、前記音声分析手段による前記入力された音声に対する前
記音声認識の結果および前記韻律に関する解析の結果に
基づき、前記韻律情報記憶手段を参照して、前記代替表
現の部分を前記正規の語彙の部分で置換する置換表現照
合手段とを備えたことを特徴とする音声入力解釈装置。
【請求項４】音声入力装置から入力された音声を分析
し、音声認識し、音声認識結果を含む音声分析結果を出
力する手段と、該音声認識を行う際に認識対象となる語
彙を記憶する語彙記憶手段とを備えた音声入力解釈装置
において、任意の言葉の代替となる代替表現を記憶する代替表現記
憶手段と、入力された音声情報から前記代替表現記憶手段に記憶さ
れている語彙と同じ表現を検出する代替表現検出手段
と、前記語彙記憶手段に記憶されている語彙をさらに分割し
て別単語としたものを記憶する置換表現記憶手段と、前記代替表現検出手段により前記代替表現の検出された
入力音声情報における該代替表現でない部分の音声認識
を、前記置換表現記憶手段に記憶されている語彙を音声
認識対象として実行し、この音声認識結果を利用して前
記置換表現記憶手段に記憶されている語彙から代替表現
された言葉として妥当な語彙を検索する処理手段とを備
えたことを特徴とする音声入力解釈装置。
【請求項５】前記処理手段は、前記音声認識を音節または音韻単位で行い、この音節または音韻単位の認識結果を参照することによ
り、前記代替表現の一部として前記正規の語彙の一部が
付加されて発声された部分を検出し、前記置換表現記憶手段に記憶されている語彙から代替表
現された表現を検索する際に、前記検出結果に適合した
表現を優先的に選択することを特徴とする請求項４に記
載の音声入力解釈装置。
【請求項６】前記代替表現検出手段は、入力音声の韻律
について分析し、前記処理手段は、前記置換表現記憶手段に記憶されてい
る語彙から代替表現された表現を検索する際に、前記分
析の結果得られた韻律の条件に適合または近似した言葉
を優先的に選択することを特徴とする請求項４に記載の
音声入力解釈装置。
【請求項７】入力音声を解釈して該当する語彙の情報を
出力する音声入力解釈方法において、入力音声を音声認識し、予め定められた正規の語彙の一部が予め定められた代替
表現に置き換えられて音声入力されることを考慮した該
正規の語彙に関する情報をもとに、前記音声認識結果か
ら前記代替表現を検出し、前記認識結果から前記代替表現が検出された場合、少な
くとも前記入力音声の認識結果に含まれる該代替表現以
外の語彙の部分をもとに、予め定められた正規の語彙に
関する情報を検索して、該当する語彙を求めることを特
徴とする音声入力解釈方法。
【請求項８】前記該当する語彙が複数検索された場合、
少なくとも前記代替表現に対応する音声の音韻的特徴に
基づいて、該当する語彙の優先度を評価することを特徴
とする請求項７に記載の音声入力解釈方法。
【請求項９】入力音声を解釈して該当する語彙の情報を
出力する音声入力解釈方法において、音声入力装置を介して入力された音声に対し、任意の言
葉の代替となる代替表現によって音声認識対象となる予
め定められた正規の語彙の一部を代替した代替表現を語
彙の一種として記憶する語彙記憶手段を参照して、音声
認識および音声の韻律に関する分析を行い、前記入力された音声に対する前記音声認識の結果および
前記韻律に関する解析の結果に基づき、前記語彙記憶手
段に記憶されている語彙のうち前記代替表現を含まない
前記正規の語彙の表記および韻律情報を記憶する前記韻
律情報記憶手段を参照して、前記代替表現の部分を前記
正規の語彙の部分で置換することを特徴とする音声入力
解釈方法。
【請求項１０】入力音声を音声認識を通じて解釈し、該
音声認識を行う際に認識対象となる語彙を記憶する語彙
記憶手段のうちの該当する語彙の情報を出力する音声入
力解釈方法において、入力された音声情報から、任意の言葉の代替となる代替
表現を記憶する代替表現記憶手段に記憶されている語彙
と同じ表現を検出し、前記代替表現の検出された入力音声情報における該代替
表現でない部分の音声認識を、前記語彙記憶手段に記憶
されている語彙をさらに分割して別単語としたものを記
憶する置換表現記憶手段に記憶されている語彙を音声認
識対象として実行し、この音声認識結果を利用して前記
置換表現記憶手段に記憶されている語彙から代替表現さ
れた言葉として妥当な語彙を検索することを特徴とする
音声入力解釈方法。
【請求項１１】前記語彙を検索するにあたっては、前記
音声認識は音節または音韻単位で行い、この音節または
音韻単位の認識結果を参照することにより、前記代替表
現の一部として前記正規の語彙の一部が付加されて発声
された部分を検出し、前記置換表現記憶手段に記憶されている語彙から代替表
現された表現を検索する際に、前記検出結果に適合した
表現を優先的に選択することを特徴とする請求項１０に
記載の音声入力解釈方法。
【請求項１２】前記置換表現記憶手段に記憶されている
語彙から代替表現された表現を検索する際に、入力音声
の韻律について分析を行った結果得られた韻律の条件に
適合または近似した言葉を優先的に選択することを特徴
とする請求項１１に記載の音声入力解釈方法。