JPH1195793A - 音声入力解釈装置及び音声入力解釈方法 - Google Patents

音声入力解釈装置及び音声入力解釈方法

Info

Publication number
JPH1195793A
JPH1195793A JP9252446A JP25244697A JPH1195793A JP H1195793 A JPH1195793 A JP H1195793A JP 9252446 A JP9252446 A JP 9252446A JP 25244697 A JP25244697 A JP 25244697A JP H1195793 A JPH1195793 A JP H1195793A
Authority
JP
Japan
Prior art keywords
vocabulary
expression
speech
information
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9252446A
Other languages
English (en)
Other versions
JP3472101B2 (ja
Inventor
Takehide Yano
武秀 屋野
Tetsuro Chino
哲朗 知野
Yasuyuki Kono
恭之 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP25244697A priority Critical patent/JP3472101B2/ja
Publication of JPH1195793A publication Critical patent/JPH1195793A/ja
Application granted granted Critical
Publication of JP3472101B2 publication Critical patent/JP3472101B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 正規の語彙の一部が代替表現で置換された音
声入力を解釈して妥当する正規な語彙を求めることの可
能な音声入力解釈装置を提供すること。 【解決手段】 入力音声を解釈して該当する語彙の情報
を出力する音声入力解釈装置において、正規の語彙に関
する第1の情報、および該正規の語彙の一部が予め定め
られた代替表現に置き換えられて音声入力されることを
考慮した該正規の語彙に関する第2の情報を記憶する手
段と、入力音声を音声認識する手段と、前記第2の情報
をもとに、前記音声認識結果から前記代替表現を検出す
る手段と、この手段により前記認識結果から前記代替表
現が検出された場合、少なくとも前記入力音声の認識結
果に含まれる該代替表現以外の語彙の部分をもとに、前
記第1の情報を検索して、該当する語彙を求める手段と
を備えたことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声を解釈す
る音声入力解釈装置及び音声入力解釈方法に関する。
【0002】
【従来の技術】近年、パーソナルコンピュータを含む計
算機システムにおいて、従来のキーボードやマウスによ
る入力に加えて、音声情報を入力することが可能となっ
てきている。
【0003】また、自然言語解析や自然言語生成、ある
いは音声認識や音声合成技術あるいは対話処理技術の進
歩などによって、利用者と音声入出力で対話する音声対
話システムの要求が高まっており、自由発話による音声
入力によって利用可能な対話システムである「TOSB
URG−II」(電子情報通信学会論文誌、Vo.lJ
77−D−II、No.8、pp.1417−142
8、1994)など、様々な音声対話システムの開発が
なされている。
【0004】このような音声対話システムに利用される
音声による入力方法は、特にキーボードのような習熟を
要するものではなく、誰にでも扱える入力方法であるの
で、誰もが利用する杜会システム等への利用が期待さ
れ、より高度な音声処理技術への要求が高まっている。
【0005】従来、音声入力の解釈は、利用者から例え
ばマイクなどを通じて入力される音声入力を取り込み、
例えば信号強度などによって音声分析単位の候補を推定
し、分析単位項の例えばFFT(高速フーリエ変換)な
どを用いた分析によって特徴パターンなどを抽出し、あ
らかじめ用意した標準パターンと抽出パターンとを、例
えば、複合類似度法、DP(ダイナミックプログラミン
グ)法、あるいはHMM(隠れマルコフモデル)などを
用いた照合を行い、入力された音声の認識を行い、音声
認識結果に対して、構文解析、意味解析、などを行うこ
とで利用者からの入力の意味内容や、発話意図を抽出す
ることによって行われている。
【0006】従来、こういった音声対話システムなどに
おける音声入力解釈方法において音声認識を行う際に
は、あらかじめ用意していた単語あるいは文章のパター
ンとの照合を行っていた。しかし、この方法では、利用
者は発言できる単語あるいは文章(すなわちそのシステ
ムが解釈可能な単語あるいは文章)を明確に記憶する必
要があり、利用者に負担を与えていた。
【0007】更に、利用者が、発言できる単語あるいは
文章の一部のみを記憶している場合においても、利用者
がその記憶されている一部分を入力しても、あらかじめ
用意されていたパターンとは異なる音声入力とみなされ
誤認識が生じ、結果として利用者の意図に反した動作を
出力することが多く、利用者に負担を与えていた。
【0008】例えば、社会システムの具体例として道案
内のタスクを持つものを挙げると、利用者が知っている
情報が「東京ステーインホテル」の一部の「東京…ホテ
ル」である場合に、そのホテルに関する情報を聞き出そ
うとして「東京なんとかホテル」と入力しても、あらか
じめシステム中に準備された実在するホテルの名前のパ
ターンとは異なるものであるため、誤認識が生じ、利用
者の意図に反する情報が提示されるという結果となり、
利用者にはなんの利益もなさないことになる。
【0009】また、利用者が、発言できる(あるいは当
然にシステム中に登録されているものと期待される)単
語あるいは文章のリズムのみを記憶しているような場合
に、その単語あるいは文章のリズムのみを保有するよう
な別の単語あるいは文章を入力しても、従来のシステム
では正式な入力として受け付けることができず、誤認識
が生ずるため、利用者の意図した動作が行われることは
なく、利用者に負担を与えていた。
【0010】例えば、社会システムの具体例として上記
と同様に道案内のタスクを持つものを挙げると、ある利
用者が「丸の口ホテル」に関する情報を取得しようとす
る際に、この利用者が持っている情報が「丸の口ホテ
ル」のリズムと一部の「…ホテル」である場合に、その
ホテルに関する情報を聞き出そうとして、「なんとかホ
テル」という意味で「ラララララホテル」あるいは「ホ
ニャラララホテル」あるいは「タララララホテル」など
と「丸の口ホテル」の持つリズムを意識して(あるいは
真似て)適宜発声して入力しても、誤認識が生じ、利用
者の意図に反する情報が提示されるという結果となり、
利用者にはなんの利益もなさないことになる。
【0011】以上示したように、従来の音声入力解釈方
法では、あらかじめ準備された単語あるいは文章のパタ
ーンでしか理解できないために、利用者に多大な負担を
与えていた。
【0012】
【発明が解決しようとする課題】このように、音声入力
を伴う装置において従来の音声入力解釈方法を適用する
と、音声入力として受け付けられる単語あるいは文章の
パターンがあらかじめ登録されているものに限定されて
いるため、利用者が発声できる文章を明確に記憶する必
要があり、利用者の負担が増加するという問題があっ
た。
【0013】また、利用者が、発言できる単語あるいは
文章の一部のみを記憶している場合においても、利用者
がその記憶されている一部分を入力しても、あらかじめ
用意されていたパターンとは異なる音声入力とみなされ
誤認識が生じ、結果として利用者の意図に反した動作を
出力することが多く、利用者の負担が増加するという問
題があった。
【0014】また、利用者が、発言できる単語あるいは
文章のリズムのみを記憶している場合においては、従来
のシステムでは正式な入力として受け付けることができ
ず、誤認識が生ずるため、利用者の意図した動作が行わ
れることはなく、利用者の負担が増加するという問題が
あった。
【0015】本発明は、上記事象を考慮してなされたも
ので、利用者が正確に、発声できる単語あるいは文章を
記憶しなくとも、アプリケーシヨン部分が適切に動作す
るように解釈することのできる音声入力解釈装置を提供
することを目的とする。
【0016】また、本発明は、利用者が発声可能な単語
あるいは文章の一部分のみを記憶している場合でも音声
の誤認識をおさえ、音声入力をもつシステムの出力を利
用者の意図にそったものへと導くことのできる音声入力
解釈装置を提供することを目的とする。
【0017】また、本発明は、利用者が発声可能な単語
あるいは文章のリズムのみを記憶している場合でも音声
の誤認識をおさえ、音声入力をもつシステムの出力を利
用者の意図にそったものへと導くことのできる音声入力
解釈装置及び音声入力解釈方法を提供することを目的と
する。
【0018】
【課題を解決するための手段】本発明(請求項1)は、
入力音声を解釈して該当する語彙の情報を出力する音声
入力解釈装置において、正規の語彙に関する第1の情
報、および該正規の語彙の一部が予め定められた代替表
現に置き換えられて音声入力されることを考慮した該正
規の語彙に関する第2の情報を記憶する手段と、入力音
声を音声認識する手段と、前記第2の情報をもとに、前
記音声認識結果から前記代替表現を検出する手段と、こ
の手段により前記認識結果から前記代替表現が検出され
た場合、少なくとも前記入力音声の認識結果に含まれる
該代替表現以外の語彙の部分をもとに、前記第1の情報
を検索して、該当する語彙を求める手段とを備えたこと
を特徴とする。
【0019】好ましくは、前記該当する語彙が複数検索
された場合、少なくとも前記代替表現に対応する音声の
音韻的特徴に基づいて、該当する語彙の優先度を評価す
る手段をさらに備えるようにしてもよい。
【0020】本発明(請求項3)は、入力音声を解釈し
て該当する語彙の情報を出力する音声入力解釈装置にお
いて、任意の言葉の代替となる代替表現によって音声認
識対象となる予め定められた正規の語彙の一部を代替し
た代替表現を語彙の一種として記憶する語彙記憶手段
と、前記語彙記憶手段に記憶されている語彙のうち前記
代替表現を含まない前記正規の語彙の表記および韻律情
報を記憶する韻律情報記憶手段と、音声入力装置を介し
て入力された音声に対し、前記語彙記憶手段を参照し
て、音声認識および音声の韻律に関する分析を行う音声
分析手段と、前記音声分析手段による前記入力された音
声に対する前記音声認識の結果および前記韻律に関する
解析の結果に基づき、前記韻律情報記憶手段を参照し
て、前記代替表現の部分を前記正規の語彙の部分で置換
する置換表現照合手段とを備えたことを特徴とする。
【0021】本発明によれば、利用者が語彙記憶手段に
記憶されている語彙を明確に覚えていなくとも、明確に
覚えていない部分を代替表現を利用して音声入力を行う
ことができ、入力された代替表現に対応する適切な表現
を検索し、代替表現を含まない適切な語彙に置換するこ
とが可能となる。
【0022】本発明(請求項4)は、音声入力装置から
入力された音声を分析し、音声認識し、音声認識結果を
含む音声分析結果を出力する手段と、該音声認識を行う
際に認識対象となる語彙を記憶する語彙記憶手段とを備
えた音声入力解釈装置において、任意の言葉の代替とな
る代替表現を記憶する代替表現記憶手段と、入力された
音声情報から前記代替表現記憶手段に記憶されている語
彙と同じ表現を検出する代替表現検出手段と、前記語彙
記憶手段に記憶されている語彙をさらに分割して別単語
としたものを記憶する置換表現記憶手段と、前記代替表
現検出手段により前記代替表現の検出された入力音声情
報における該代替表現でない部分の音声認識を、前記置
換表現記憶手段に記憶されている語彙を音声認識対象と
して実行し、この音声認識結果を利用して前記置換表現
記憶手段に記憶されている語彙から代替表現された言葉
として妥当な語彙を検索する処理手段とを備えたことを
特徴とする。
【0023】本発明によれば、利用者が語彙記憶手段に
記憶されている語彙を明確に覚えていなくとも、明確に
覚えていない部分を代替表現を利用して音声入力を行う
ことができ、また、任意の言葉の代替となる表現を音声
入力から検出し、検出された代替表現に対応する適切な
表現を検索することが可能となる。
【0024】好ましくは、前記処理手段は、前記音声認
識を音節または音韻単位で行い、この音節または音韻単
位の認識結果を参照することにより、前記代替表現の一
部として前記正規の語彙の一部が付加されて発声された
部分を検出し、前記置換表現記憶手段に記憶されている
語彙から代替表現された表現を検索する際に、前記検出
結果に適合した表現を優先的に選択するようにしてもよ
い。
【0025】これによって、利用者の代替表現の中に一
部正しい発声をおりまぜた音声入力に対して、一部の正
しい発声の情報に適応したより適切な表現を検索するこ
とができる。
【0026】好ましくは、前記代替表現検出手段は、入
力音声の韻律について分析し、前記処理手段は、前記置
換表現記憶手段に記憶されている語彙から代替表現され
た表現を検索する際に、前記分析の結果得られた韻律の
条件に適合または近似した言葉を優先的に選択するよう
にしてもよい。
【0027】本発明(請求項7)は、入力音声を解釈し
て該当する語彙の情報を出力する音声入力解釈方法にお
いて、入力音声を音声認識し、予め定められた正規の語
彙の一部が予め定められた代替表現に置き換えられて音
声入力されることを考慮した該正規の語彙に関する情報
をもとに、前記音声認識結果から前記代替表現を検出
し、前記認識結果から前記代替表現が検出された場合、
少なくとも前記入力音声の認識結果に含まれる該代替表
現以外の語彙の部分をもとに、予め定められた正規の語
彙に関する情報を検索して、該当する語彙を求めること
を特徴とする。
【0028】好ましくは、前記該当する語彙が複数検索
された場合、少なくとも前記代替表現に対応する音声の
音韻的特徴に基づいて、該当する語彙の優先度を評価す
るようにしてもよい。
【0029】本発明(請求項9)は、入力音声を解釈し
て該当する語彙の情報を出力する音声入力解釈方法にお
いて、音声入力装置を介して入力された音声に対し、任
意の言葉の代替となる代替表現によって音声認識対象と
なる予め定められた正規の語彙の一部を代替した代替表
現を語彙の一種として記憶する語彙記憶手段を参照し
て、音声認識および音声の韻律に関する分析を行い、前
記入力された音声に対する前記音声認識の結果および前
記韻律に関する解析の結果に基づき、前記語彙記憶手段
に記憶されている語彙のうち前記代替表現を含まない前
記正規の語彙の表記および韻律情報を記憶する前記韻律
情報記憶手段を参照して、前記代替表現の部分を前記正
規の語彙の部分で置換することを特徴とする。
【0030】本発明(請求項10)は、入力音声を音声
認識を通じて解釈し、該音声認識を行う際に認識対象と
なる語彙を記憶する語彙記憶手段のうちの該当する語彙
の情報を出力する音声入力解釈方法において、入力され
た音声情報から、任意の言葉の代替となる代替表現を記
憶する代替表現記憶手段に記憶されている語彙と同じ表
現を検出し、前記代替表現の検出された入力音声情報に
おける該代替表現でない部分の音声認識を、前記語彙記
憶手段に記憶されている語彙をさらに分割して別単語と
したものを記憶する置換表現記憶手段に記憶されている
語彙を音声認識対象として実行し、この音声認識結果を
利用して前記置換表現記憶手段に記憶されている語彙か
ら代替表現された言葉として妥当な語彙を検索すること
を特徴とする。
【0031】好ましくは、前記語彙を検索するにあたっ
ては、前記音声認識は音節または音韻単位で行い、この
音節または音韻単位の認識結果を参照することにより、
前記代替表現の一部として前記正規の語彙の一部が付加
されて発声された部分を検出し、前記置換表現記憶手段
に記憶されている語彙から代替表現された表現を検索す
る際に、前記検出結果に適合した表現を優先的に選択す
るようにしてもよい。
【0032】好ましくは、前記置換表現記憶手段に記憶
されている語彙から代替表現された表現を検索する際
に、入力音声の韻律について分析を行った結果得られた
韻律の条件に適合または近似した言葉を優先的に選択す
るようにしてもよい。
【0033】本発明によれば、明確な表現の代替となる
ワイルドカード表現を検出する機能、またその代替され
た適切な表現を検索し、置換する機能を追加することに
よって、あるいは、ワイルドカード表現で実際に置換し
た語彙をもった語彙記憶手段を伴った音声分析機能と、
またその代替された適切な表現を検索し、置換する機能
を追加することによって、利用者が発声可能な語彙の一
部しか記憶していない場合でも、ワイルドカード表現を
用いた音声入力を受け入れることによって、その音声入
力の解釈を行うことが可能となる。
【0034】また、本発明によれば、利用者が発声可能
な語彙のリズムしか記憶していない場合でも、それに対
応したワイルドカード表現を用いた音声入力を受け入れ
ることによって、その音声入力の解釈を行うことが可能
となる。
【0035】このように、本発明によれば、利用者が音
声入力をもつ装置の許容する語彙を明確に覚えなくと
も、その音声入力を受け入れ、解釈することができる柔
軟な音声入力解釈装置が構築できる等の実用上多大な効
果が奏せられる。
【0036】
【発明の実施の形態】以下、図面を参照しながら発明の
実施の形態を説明する。
【0037】(第1の実施形態)まず、本発明の第1の
実施形態について説明する。
【0038】図1に本実施形態に係る音声入力解釈装置
の構成例を示す。図1に示されるように、本実施形態の
音声入力解釈装置1は、音声分析部101、語彙記憶部
102、置換表現照合部103、韻律情報記憶部104
を備えている。なお、入力音声をアナログ信号からデジ
タル信号に変換するA/D変換器は、音声入力解釈装置
1内に設けても、音声入力装置100側に設けてもよ
い。
【0039】音声分析部101は、置換表現照合部10
3と、語彙記憶部102と、マイクなどの音声入力装置
100に接続し、例えば「パターンマッチング法による
連続単語および連続音節の音声認識アルゴリズム」(電
子情報通信学会論文誌、J−66−D,6,pp.63
7−644)に開示されているような方式などで、語彙
記憶部102に記録されている語彙を対象として、連続
単語音声認識を行う。更に、例えば「ピッチパタン情報
を利用したキーワードスポッティング」(日本音響学会
講演論文集、平成8年9月、pp.29−30)に開示
されているような方式などにより、音声のピッチパタン
情報などから解析を行い、韻律パラメータを生成する。
そして、図4に示す情報を置換表現照合部103に渡
す。尚、連続単語音声認識の方式や、韻律パラメータを
生成する方式については、上記にあげた方式に限らず、
その他の方式でも構わない。
【0040】語彙記憶部102は、音声分析部101に
接続し、音声認識対象の語彙を記録する部分であり、正
規の語彙のそれぞれについて図2に示すような情報を記
憶するとともに(この場合、図2の情報においてワイル
ド表現に関するものは存在しない)、これに加えて、例
えば「なんとか」あるいは「ホニャララ」などのような
任意の数単語に置換される表現であるワイルドカード表
現で正規の語彙の一部をワイルドカード表現で置換した
語彙のそれぞれについて、図2に示すような情報を記憶
する。
【0041】図2の情報の詳細については後述するが、
「表象」情報の記述形式について先に触れておく。音声
分析部101で行われる連続単語音声認識では、認識結
果を複数の単語の連なりとして表現できるため、その単
語同士の別れ目を記号“ /”(スラッシュ)で表して
いる。また、以下の説明でもこの単語同士の別れ目の表
記には記号“ / ”を用いる。
【0042】また、使用されているワイルドカード表現
として、「なんとか」のようにいくつかの単語に置換さ
れると考えられる表現である数単語置換語と、「ホニャ
ララ」のようにその置換されるべき表現のリズムを表し
ていると考えられるリズム語との一方または両方を定義
しておく。使用する数単語置換語やリズム語の具体的内
容やその種類数はシステムに応じて適宜定めてよい。
【0043】図3に「東京ステーインホテル」とワイル
ドカード表現の数単語置換語「なんとか」とリズム語
「ホニャララ」から生成される語彙の例を示す。これよ
り、ワイルドカード表現が「東京」「ステーイン」「ホ
テル」の中の数単語に置換されている語彙を生成し、ま
た、特に「ホニャララ」のようなリズム語は置換される
表現と等しい長さに拡張されて置換されている語彙を生
成していることが分かる(この場合、「ラ」の数で長さ
を調整している)。
【0044】図2は語彙記憶部102で記録する情報の
一覧である。併せて語彙「東京ホニャララホテル」の場
合の例も示してある。「表象」情報は、その語彙の文字
列を表す情報である。図2の例では「東京/ホニャララ
/ホテル」と3単語連なった表象として記録されてい
る。「ワイルドカード表現の有無」情報は、その語彙に
先に述べたワイルドカード表現が含まれていたかどうか
を表す情報である。この場合は「ホニャララ」がワイル
ドカード表現にあたるので「有り」が記録されている。
「表現の種類」情報は、その語彙に含まれる単語のそれ
ぞれがワイルドカード表現か、ワイルドカード表現では
ない非ワイルドカード表現かを表す情報である。ワイル
ドカード表現の単語には「代替」を、非ワイルドカード
表現には「確定」を与える。この例では、単語「東京」
「ホテル」が非ワイルドカード表現で、「ホニャララ」
がワイルドカード表現であるので、(確定/代替/確
定)と情報が与えられている。「ワイルドカード郡現の
種類」情報は、その語彙に含まれているワイルドカード
表現が、数単語置換語か、リズム語かを表す情報であ
る。この場合は「ホニャララ」がリズム語と定義されて
いるので「リズム語」と記録している。「音声認識パラ
メータ」情報は音声分析部101で行われる音声認識の
ために必要に応じてパラメータを記述するものである
(なお、ここで使用する音声認識方式は本発明の本質で
はないのでこのパラメータについての詳細な説明は省略
する)。
【0045】図4は音声分析部101から置換表現照合
部103へ渡される情報の一覧である。併せて、「東京
ホニャラララホテル」と入力された場合の例も示してあ
る。「認識結果」情報は、音声分析部101で連続単語
認識された結果の表象を表す情報である。図4の例では
入力された音声信号の認識結果として、「東京/ホニャ
ラララ/ホテル」と示されている。「単語発声時間」情
報は、音声分析部101で連続単語認識された際に得ら
れる、各単語の発声時間を表す情報である。この例では
(650msec/820msec/510msec)
と示されているが、これらの数字は順に「東京」「ホニ
ャラララ」「ホテル」に対応している発声時間を表して
いる。「韻律パラメータ」情報は、音声分析部101で
解析された韻律パラメータを表す情報である。この情報
は、韻律パラメータの解析手段によって形態が異なるも
のとなるが、ここでは、イントネーションあるいは基本
周波数の時間的推移を用いた場合を示す。そして、ここ
では、得られるであろう韻律パラメータを摸式的に表し
ている。図4で使用されている矢印記号「→」はその言
葉の抑揚を摸式的に表現しており、上方にある矢印が抑
揚の高い部分を、下方にある矢印が抑揚の低い部分を表
している。「ワイルドカード表現の有無」情報は、入力
された音声に先に述べたワイルドカード表現が含まれて
いたかどうかを表す情報である。この場合は「ホニャラ
ララ」がワイルドカード表現にあたるので「有り」が出
力されている。「表現の種類」情報は、その語彙に含ま
れる単語のそれぞれがワイルドカード表現か、ワイルド
カード表現ではない非ワイルドカード表現かを表す情報
である。この情報は対応する語彙に関する図2の「表現
の種類」情報を参照すれば得られ、また、その表記方法
は図2における「表現の種類」情報と同じである。図4
の例では、単語「東京」「ホテル」が非ワイルドカード
表現で、「ホニャラララ」がワイルドカード表現である
ので、(確定/代替/確定)と情報が与えられている。
「ワイルドカード表現の種類」情報は、入力音声に含ま
れていたワイルドカード表現が数単語置換語かリズム語
かを識別するための情報である。この場合は「ホニャラ
ララ」がリズム語であるので「リズム語」を出力してい
る。
【0046】置換表現照合部103は、音声分析部10
1と、韻律情報記憶部104に接続し、ワイルドカード
表現が検出された場合に、そのワイルドカード表現部分
に対応する適切な表現を照合する。この部分の詳細につ
いては後述する。
【0047】韻律情報記憶部104は、置換表現照合部
103に接続し、語彙記憶部102に登録されている語
彙のうち、ワイルドカード表現を含まない正規の語彙に
ついて、図5に示すような情報を記録する。
【0048】図5は韻律情報記憶部104で記録されて
いる情報の一覧である。また、あわせて「東京ステーイ
ンホテル」の例も示している。「表象」情報はその語彙
の表象情報である。「標準時間」情報は記録されている
言葉のサンプルの発声時間を表している。その語彙が連
続単語として分離できる場合には、そのそれぞれの単語
の発声時間を記録しておく。この情報の表記方法は図4
の「単語発声時間」情報のそれと同じである。「韻律」
情報は記録されている言葉のサンプルから解析される韻
律情報を表している。但し、韻律情報を解析する方法は
音声分析部101で行っている方法と同じ方法でなけれ
ばならない。また、韻律情報記憶部104から出力され
る韻律情報も、音声分析部101から置換表現照合部1
03へ渡す韻律パラメータ情報と同形式のものでなけれ
ばならない。図5の例は、図4と同様に解析後得られる
であろう韻律情報を摸式的に表している。
【0049】図6は本実施形態で重要な働きをする置換
表現照合部103の動作のフローチャートである。以
下、図6を参照して、処理の流れを説明する。
【0050】(ステップS101)ここでは、音声分析
部101の音声認識結果にワイルドカード表現があるか
どうかを確認する。これは、音声分析部101から渡さ
れる図4の「ワイルドカード表現の有無」情報で確認が
可能である。そして、ワイルドカード表現が存在する場
合はステップS102へ、ワイルドカード表現が存在し
ない場合は認識結果を出力し、処理を終了する。
【0051】(ステップS102)このステップでは、
渡された音声認識結果に適合しかつ出力対象となる語彙
を韻律情報記憶部104から選択する。例えば、韻律情
報記憶部104に記録されている情報(図5)の表象情
報を利用し、音声認識結果に含まれている非ワイルドカ
ード表現部分を音声分析部101から渡される情報(図
4)の表現の種類情報を参照することにより求め、その
非ワイルドカード表現の存在位置条件に適合する語彙
を、ワイルドカード表現は1単語以上の長さを持つもの
と考え、非ワイルドカード表現部分を条件とすることに
より、選択する。
【0052】例えば、得られた音声認識結果が「東京/
なんとか/ホテル」、表現の種類情報が(確定/代替/
確定)であったとすると、「東京/ステーイン/ホテ
ル」、「東京/エンター/コンチネンタル/ホテル」な
どのように、単語「東京」が最初に存在し、かつ、単語
「ホテル」が最後に存在し、かつ、その間に少なくとも
1単語以上存在するものを適合する語彙として選択す
る。
【0053】(ステップS103)このステップでは、
音声認識結果に含まれるワイルドカード表現が数単語置
換語かリズム語かを判別する。これは、音声分析部10
1から渡される図4の「ワイルドカード表現の種類」情
報で確認が可能である。そして、リズム語の場合はステ
ップS104へ、数単語置換語の場合はステップS10
2で抽出された語彙を出力し、処理を終了する。尚、出
力する語彙が複数存在する場合は、その中のいくつかを
出力しても、全てを出力してもよく、複数個の解を利用
者に提示して選択させるなどの処理は、出力先のアプリ
ケーション特有の処理(図中200)で決定される。
【0054】(ステップS104)このステップでは、
ステップS102で抽出された語彙について、音声分析
部101から渡された「単語発声時間」情報と韻律情報
記憶部104に記録されている「標準時間」情報とを比
較することによって、更に出力語彙を限定する。例え
ば、「東京/ホニャララ/ホテル」の場合は非ワイルド
カード表現部分である「東京」「ホテル」の発声時間
と、対象語彙に関する韻律情報記憶部104の標準時間
情報に記録されている「東京」「ホテル」の標準時間と
の比率をそれぞれ計算し、その比率の平均値で入力信号
のワイルドーカード部分の発声時間を伸長し、伸長され
た発声時間と標準時間とを比較し、あるしきい値以内の
もののみを抽出する。尚、この処理で語彙を限定しない
場合は、時間を比較することによって、出力する語彙の
優先順位を決定することも可能である。
【0055】(ステップS105)このステップでは、
ステップS104で抽出された語彙について、音声分析
部101から渡された「韻律パラメータ」情報と韻律情
報記憶部104に記録されている「韻律パラメータ」情
報とを比較することによって、出力する語彙を決定す
る。例えば、「ピッチパタン情報を利用したキーワード
スポッティング」(日本音響学会講演論文集、平成8年
9月、pp.29−30)に開示された方法により、D
P法を利用したマッチングを行うことによって比較を行
う。尚、この比較方法は構成される韻律パラメータによ
っても異なるが、本実施形態では、構成されるパラメー
タを利用できるものであれば、任意の韻律比較方法を利
用しても構わない。そして、発声した音声に最も韻律情
報が類似している語彙を出力し、処理を終了する。ある
いは、複数候補存在する場合には、韻律情報が類似して
いる順に優先順位をつけて出力しても良い。
【0056】以上が、本発明に係る置換表現照合部10
3の構成とその機能、および処理方法である。
【0057】続いて、上述した音声入力解釈方法につい
て、更に詳しく説明する。ここでは、アプリケーション
として地図情報システムとして利用者が音声入力を行っ
た場合の働きを具体例として説明を行う。
【0058】この地図情報システムには4つのホテルの
情報(パルスホテル、東京ステーインホテル、東京丸の
口ホテル、東京エンターコンチネンタルホテル)が登録
されており、その4つのホテルの名称が語彙記憶部10
2に記録されているとする。また、語彙記憶部102に
はワイルドカード表現として前述したリズム語「ホニャ
ララ」が登録されており、上記の4つのホテルと「ホニ
ャララ」から生成される語彙を合わせて、語彙記憶部1
02には図7に示した語彙が登録されているとする。
【0059】また、韻律情報記憶部104には登録され
た4つのホテルの名称から表象情報、韻律情報、標準時
間情報を求めることによって、図8に示すような情報が
記録されているとする。
【0060】そして、利用者が「東京ステーインホテ
ル」について聞きたいが、「ステーイン」の部分を明確
に記憶していなかったとし、この地図情報システムに
「トウキョウホニャラララホテル」という音声入力が行
われたものとする。ただし、この発言に含まれるワイル
ドカード表現「ホニャラララ」は「ステーイン」のリズ
ムを意識した発言とする。
【0061】以下、本具体例の場合における各部の動き
について述べる。
【0062】まず、音声分析部101では、入力された
音声に対して図7にある語彙で連続単語認識を実行す
る。そして、認識結果として「東京/ホニャラララ/ホ
テル」が選択されたとし、認識処理時に得られる発声時
間情報と、入力音声から抽出される韻律情報と合わせ
て、図9に示す情報を置換表現照合部103に出力す
る。
【0063】この情報を受けた置換表現照合部103は
以下のような処理を行う。
【0064】(ステップS101)渡されたワイルドカ
ード表現の有無情報から、認識結果にワイルドカード表
現があると判断して、ステップS102に進む。
【0065】(ステップS102)認識結果情報「東京
/ホニャラララ/ホテル」と、表現の種類情報(確定/
代替/確定)とから、非ワイルドカード表現を「東京」
「ホテル」とし、これら2単語の存在位置条件に適合す
るものを韻律情報記憶部104に登録された語彙(図
8)から検索する。この場合は、最初に「東京」、最後
に「ホテル」があり、その間に少なくとも一単語存在す
る語彙が検索条件に当てはまるとする。そして、「東京
ステーインホテル」、「東京丸の口ホテル」、「東京エ
ンターコンチネンタルホテル」が検索され、「パルスホ
テル」は出力候補から外されるか、下位の候補とされ
る。
【0066】(ステップS103)渡されたワイルドカ
ード表現の種類情報から、ワイルドカード表現「ホニャ
ラララ」はリズム語であるとして、ステップS104に
進む。
【0067】(ステップS104)ステップS102で
選択された語彙から、まず「東京ステーインホテル」か
ら標準時間情報(図8)と、音声分析部101から渡さ
れた単語発声時間情報とを比較する。例えば、まず、非
ワイルドカード表現である「東京」、「ホテル」に関す
る両者の比率(標準時間情報/単語発声時間情報)を計
算すると、「東京」:700/650=1.0769、
「ホテル」:550/510=1.0784となる。次
に、これらの比率の平均を計算し、その結果得られる数
値(1.0777)を入力時間を韻律情報記憶部104
にある標準時間と同スケールとする伸長係数とする。そ
して、ワイルドカード表現にあたる「ホニャラララ」部
分を伸長した後のワイルドカード表現部の入力時間は8
20msec×1.0777=884msecとなる。
次に、「東京」と「ホテル」の間にあり、ワイルドカー
ド表現で代替されたと考えられる「ステーイン」部分の
標準時間は900msecとなる。そして、これら2つ
の入力時間を比較する(例えばしきい値処理)ことによ
って、ワイルドカード表現部分の時間的整合がとれてい
るかを調べる。図10にステップS102で選択された
語彙に関して、上記の計算を行った結果を示す。
【0068】ここで、「東京エンターコンチネンタルホ
テル」に関しては、「ホニャラララ」で「エンター/コ
ンチネンタル」を代替表現したものと考えられるので、
標準時間(700msec/650msec/1050
msec/550msec)の内、「エンター」「コン
チネンタル」に相当する650+1050=1700m
secがワイルドカード表現「ホニャラララ」に対応す
る標準時間である。そして、例えば、伸長後の時間と標
準時間との差を計算し、その絶対値があるしきい値より
大きいものは出力候補から外す処理を行うとし、そのし
きい値を100msecとすると、上記の表より「東京
エンターコンチネンタルホテル」が出力候補から外され
るか、下位の候補とされる。
【0069】(ステップS105)これまでの処理によ
って外されなかった「東京ステーインホテル」「東京丸
の口ホテル」についてその韻律情報のマッチングを行
う。そして、その結果、音声分析部101から渡された
韻律情報と近い韻律情報をもつ語彙が出力されるか、あ
るいは優先順位の高い語彙となる。ここで、「東京ステ
ーインホテル」の韻律情報の方が入力音声の韻律と近い
ものと判断され、優先順位の高い語彙として「東京ステ
ーインホテル」を出力し、出力先のアプリケーション特
有の処理(図中200)で適切な処理を行う。また、ア
プリケーション特有の処理が複数候補に対して処理を行
うことが可能であれば、下位の候補として「東京丸の口
ホテル」を、必要ならば、更に下位の候補として順に
「東京エンターコンチネンタルホテル」、「パルスホテ
ル」も併せて出力する。
【0070】以上で「東京ホニャラララホテル」と音声
入力された場合の処理を終了する。
【0071】以上の説明によって、本実施形態に係る音
声入力解釈装置は、利用者が「東京ステーインホテル」
という名称を明確に記憶していない状態でも、分からな
い部分をワイルドカード表現を用いて、「東京ホニャラ
ララホテル」と音声入力することによって、適切な名称
に解釈してアブリケーション部分に情報を出力すること
が可能であり、また、利用者が知っていても文字列には
表せないリズムでの表現をワイルドカード表現を利用し
て「東京ホニャラララホテル」と入力し、本実施形態に
係るシステムがその発声時間情報、韻律情報を解釈する
ことにより、同じく「東京…ホテル」の形式の名称を持
つ「東京エンターコンチネンタルホテル」、「東京丸の
口ホテル」よりも、「東京ステーインホテル」のほうが
優先され、利用者の入力した音声情報が有効に利用され
ていることがわかる。
【0072】(第2の実施形態)次に、本発明の第2の
実施形態について説明する。
【0073】第1の実施形態では音声認識方式として連
続単語認識を用いるものであったが、本実施形態は音声
認識方式が連続単語認識でなくとも適用可能としたもの
である。
【0074】図11に本実施形態に係る音声入力解釈装
置の構成例を示す。図11に示されるように、本実施形
態の音声入力解釈装置2は、音声分析部201、語彙記
憶部202、ワイルドカード表現検出部203、ワイル
ドカード表現記憶部204、置換表現照合部205、置
換表現記憶部206を備えている。なお、入力音声をア
ナログ信号からデジタル信号に変換するA/D変換器
は、音声入力解釈装置2内に設けても、音声入力装置1
00側に設けてもよい。
【0075】音声分析部201は、置換表現照合部20
5と、語彙記憶部202と、置換表現記憶部206に接
続し、置換表現照合部205から音声認識要求が来る
と、語彙記憶部202か置換表現記憶部206のどちら
か一方の指定された語彙を用いて音声単語認識を行い、
その結果を置換表現照合部205に出力する。また、認
識方法の要求に応じて単音節認識を行い、認識結果をモ
ーラ記号列として置換表現照合部205に出力する。な
お、これらの音声認識方法については本発明の本質では
ないので、これらについての詳細な説明は省略する。
【0076】語彙記憶部202は、音声分析部201
と、置換表現照合部205とに接続し、音声認識対象の
(正規の)語彙を記録する部分であり、音声認識対象の
各語彙について図12に示す情報を音声分析部201、
置換表現照合部205が参照・利用可能な形式で記録す
る。
【0077】図12は語彙記憶部202が記録する情報
の一覧である。併せて、語彙「東京ステーインホテル」
に対応して語彙記憶部202が記録する情報を例として
示す。「表象文字列」情報は、登録する語彙を表す文字
列である。「モーラ記号列」情報は、表象文字列の読み
をモーラ記号列で記述したものである。「モーラ記号列
長」情報は、モーラ記号列情報で記録されたモーラ記号
列のモーラ記号の数を表している。「韻律パラメータ」
情報は、例えば「ピッチパタン情報を利用したキーワー
ドスポッティング」(日本音響学会講演論文集、平成8
年9月、pp.29−30)に開示された方式などによ
り、音声のピッチパタン情報などから解析を行い、構成
される韻律パラメータを記録する。尚、韻律パラメータ
を生成する方式については上記の方式に限らず、その他
の方式であっても構わない。また、図12の例では、得
られるであろう韻律情報を摸式的に表している。この表
記方法は第1の実施形態のものと同様である。「音声認
識に必要なパラメータ」情報は、本発明を実施する際に
音声分析部201で使用する音声認識のために必要に応
じてパラメータを記述するものである(なお、ここで使
用する音声認識方式は本発明の本質ではないのでこのパ
ラメータについての詳細な説明は省略する)。
【0078】ワイルドカード表現記憶部204は、ワイ
ルドカード表現検出部203に接続し、例えば「なんと
か」あるいは「ホニャララ」などのような任意の数単語
に置換される表現であるワイルドカード表現を、ワイル
ドカード表現検出部203が参照・利用可能な形式で記
憶する。また、記憶するワイルドカード表現を「なんと
か」「なになに」等の数単語に置換される表現の数単語
置換語と、「ホニャララ」「タラララ」等の置換される
べき表現のリズムを表すリズム語とに分けて記憶する。
【0079】ワイルドカード表現検出部203は、マイ
クなどの音声入力装置100と、ワイルドカード表現記
憶部204と、置換表現照合部205に接続し、ワイル
ドカード表現記憶部204に記憶されているワイルドカ
ード表現の語彙を例えば「ワードスポッティングによる
音声認識における雑音免疫学習」(電子情報通信学会論
文誌Vol.J−74−D−II 1991年2月p
p.121−129)に開示されている方法などを用い
て検出する。尚、特定の語彙を検出できる手法であれ
ば、上記の方式に限らず、他の検出方式でも構わない。
そして、ワイルドカード表現検出部203は、図13に
示したような情報を置換表現照合部205に与え、処理
を渡す。
【0080】図13はワイルドカード表現検出部203
から置換表現照合部205に渡す情報の一覧である。ま
た、併せて「トウキョウホニャララホテル」と入力され
た場合の例も示す。「ワイルドカード表現の有無」はワ
イルドカード表現がワイルドカード表現検出部203で
検出されたかどうかを表す情報である。この例では「ホ
ニャララ」がワイルドカード表現にあたり、「有り」を
出力している。「原信号」は音声入力された元の信号で
あるが、ワイルドカード表現が検出された場合はそのワ
イルドカード表現の部分で切り離して置換表現照合部2
05に渡す。例では入力「トウキョウホニャララホテ
ル」がワイルドカード表現「ホニャララ」で分離され
「トウキョウ」「ホニャララ」「ホテル」と3つに分離
されて順に置換表現照合部205に渡される。「ワイル
ドカード表現の位置」はワイルドカード表現が存在する
場合に、切り離された原信号の何番目の信号がワイルド
カード表現であるかを数値で表したものである。この例
では3つに分離された原信号の2番めに「ホニャララ」
があるので2が出力されている。「ワイルドカード表現
の種類」は検出されたワイルドカード表現が、数単語置
換語か、リズム語かを表す情報である。この例では「ホ
ニャララ」をリズム語としている。これはワイルドカー
ド表現記憶部204に登録されている情報によって異な
る。「ワイルドカード表現のモーラ記号列長」は検出さ
れたワイルドカード表現がリズム語であった場合にその
モーラ記号数を表す情報である。この例ではワイルドカ
ード表現「ホニャララ」はモーラ記号数4である。「ワ
イルドカード表現の韻律情報」は検出されたワイルドカ
ード表現がリズム語であった場合にその韻律を表す情報
である。これは、入力された音声のビッチパタン情報な
どから解析を行い、置換表現照合部205に渡される。
尚、韻律パラメータを生成する方式については、生成さ
れる韻律パラメータが、語彙記憶部202、置換表現記
憶部206に記録される形式と同じものになるものでな
ければならない。
【0081】置換表現照合部205は、ワイルドカード
表現検出部203と、音声分析部201と、語彙記憶部
202と、置換表現記憶部206に接続し、ワイルドカ
ード表現が検出された場合に、そのワイルドカード表現
部分に対応する適切な表現を照合する。この部分の詳細
について後述する。
【0082】置換表現記憶部206は、音声分析部20
1と、置換表現照合部205に接続し、語彙記憶部20
2に登録されている語彙から、例えば「東京ステーイン
ホテル」から「東京」「ステーイン」「ホテル」のよう
に、更に単語として意味のあるものに分離することによ
って生成される単語、あるいは「東京ステーイン」「ス
テーインホテル」のように連続している単語の組合せと
なる言葉を語彙記憶部202と同じ形式(図12参照)
で記憶する。
【0083】図14は本実施形態で重要な働きをする置
換表現照合部205の動作の概略構成である。以下、図
14を参照して処理の流れを説明する。
【0084】(ステップS201)入力された音声入力
にワイルドカード表現があるかどうか確認する。これは
ワイルドカード表現検出部203から与えられる「ワイ
ルドカード表現の有無」情報(図13)から確認でき
る。そして、ワイルドカード表現が存在すればステップ
S204へ、ワイルドカード表現が存在しなければステ
ップS202へ進む。
【0085】(ステップS202)ワイルドカード表現
がないと判断された場合、そのまま音声認識処理を行
う。入力された原信号に対して音声分析部201に語彙
記憶部202に記憶されている語彙での単語認識を依頼
する。
【0086】(ステップS203)音声分析部201か
ら出力された音声認識結果をアプリケーション特有の処
理(図中200)、あるいはより高等な音声分析処理に
引渡し、処理を終了する。
【0087】(ステップS204)ワイルドカード表現
があると判断された場合、ワイルドカード表現ではない
部分がどのように発声、入力されたかを調べる。例え
ば、ワイルドカード表現検出部203から切り離されて
渡される原信号と「ワイルドカード表現の位置」情報か
ら、ワイルドカード表現の信号を求め、ワイルドカード
表現ではない部分(非ワイルドカード表現部)の信号に
対して、音声分析部201に置換表現記憶部206に記
憶されている語彙での単語認識を依頼する。以下の説明
では、このステップで得られた音声認識結果を「部分認
識結果」と呼ぶ。また、置換表現記憶部206に適切な
語彙が存在しない場合は、その非ワイルドカード表現部
に対応する部分認識結果は存在しないこととする。
【0088】(ステップS205)ここでは、非ワイル
ドカード表現部とワイルドカード表現との間に何らかの
情報があるかどうかを調べる。これは、利用者が明確な
単語の発音を知らない場合においても、始点終点の一部
のみを知っている場合に「『ス』なんとか」のようにワ
イルドカード表現の前後に付与する形式で発声される場
合にも対応するために行う。「『ス』なんとか」のよう
に発声されると、ワイルドカード表現記憶部204に登
録されているワイルドカード表現に「すなんとか」が登
録されていなければ、ワイルドカード表現検出部203
によって検出されるワイルドカード表現は「なんとか」
であるので、利用者がワイルドカード表現を意図として
発声した『ス』は非ワイルドカード表現の一部として処
理されてしまう。このような場合においても、非ワイル
ドカード表現部の中に、ワイルドカード表現の一部とさ
れた部分が存在するかどうかを判定し、存在する場合は
ワイルドカード表現の一部として処理できるようにする
ものである。
【0089】まず、検出されたワイルドカード表現部の
それぞれにモーラ記号列を記憶するバッファを準備す
る。このバッフアは非ワイルドカード表現部とワイルド
カード表現部の間に情報が検出できた場合に、その情報
をモーラ記号で記憶するものである。また、検出された
情報がワイルドカード表現部の前、後に現れる場合があ
るので、それに対応してバッファは各ワイルドカード表
現につき、2つずつ準備される。ステップS205では
検出された非ワイルドカード表現部のうち、ワイルドカ
ード表現部に隣接している部分のそれぞれに対して、バ
ッファに入力するモーラ記号を抽出する処理を行う。図
15は検出された非ワイルドカード表現部の一つに対す
る処理(ステップS205の処理)の概略構成を示して
いる。以下では、図15を参照しながら説明を行う。
【0090】(ステップS205−1)このステップで
は、非ワイルドカード表現がどのように発声されている
のかということを調ベる。例えば、対象となった非ワイ
ルドカード表現部に対して、音声分析部201に音節単
位の音声認識を依頼する。以下の説明では、このステッ
プで出力されてきたモーラ記号列を「部分音節認識結
果」と呼ぶ。
【0091】(ステップS205−2)このステップで
は、現在対象となっている非ワイルドカード表現に対応
する部分認識結果が存在するかどうか確認する。その結
果、部分認識結果が存在しない場合はステップS205
−3へ、部分認識結果が存在している場合はステップS
205−4へ進む。
【0092】(ステップS205−3)現在対象となっ
ている非ワイルドカード表現部に対応する部分認識結果
が存在しない場合、この非ワイルドカード表現部は置換
表現記憶部206の語彙よりも短い表現をしていると判
断できる。そこで、この非ワイルドカード表現部全てが
隣接しているワイルドカード表現部の一部であるとし、
この非ワイルドカード表現が隣接しているワイルドカー
ド表現部の前部にあるか、後部にあるかを判定し、その
モーラ記号(列)を対応するバッフアに記憶し、ワイル
ドカード表現部がリズム語である場合は、ワイルドカー
ド表現検出部203から受けとった「ワイルドカード表
現の文字列長」情報にバッファに記憶したモーラ記号数
分だけ加え、この非ワイルドカード表現部がワイルドカ
ード表現部の前部に存在する場合は、「ワイルドカード
表現の位置」情報を1減少させて、終了する。
【0093】(ステップS205−4)ここでは、対象
となっている非ワイルドカード表現部の中に、対応する
部分認識結果の他に発音された言葉が含まれているかを
確認する。例えば、現在対象となっている非ワイルドカ
ード表現に対応する部分音節認識結果のモーラ記号列長
と、部分認識結果のモーラ記号列長とを比較する。その
結果、部分認識結果のモーラ記号列長の方が長い場合
や、両者共に等しい場合であればステップS205−5
に進み、部分音節認識結果のモーラ記号列長の方が長い
場合はステップS205−6に進む。
【0094】(ステップS205−5)現在対象となっ
ている非ワイルドカード表現には対応する部分認識結果
以上の情報はないと判断し、バッファには何も入力せず
に終了する。
【0095】(ステップS205−6)現在対象として
いる非ワイルドカード表現部に対応する部分認識結果の
モーラ記号列長が同じ部分の部分音節認識結果のモーラ
記号列長より短いので、現在対象となっている非ワイル
ドカード表現には対応する部分認識結果の他にワイルド
カード表現の一部が発声されている可能性があると判断
し、部分認識結果が非ワイルドカード表現部の原信号の
どの部分に当たるのかを調べる。
【0096】例えば、図16のように部分認識結果のモ
ーラ記号列を部分音節認識結果のモーラ記号列に逐次当
てはめ、両者のモーラ記号列を比較することにより求め
る。図16では部分認識結果「東京」(モーラ記号列
「トオキョオ」)と部分音節認識結果「卜オキョオス」
とを比較しているが、部分認識結果のモーラ記号列長は
4で、部分音節認識結果のモーラ記号列長は5となって
おり、部分認識結果は当てはめを開始する記号を「トオ
キョオス」の「卜」と「オ」(最初のオ)とする2つの
パターンが考えられる。部分認識結果が更に短い場合は
「キョ」以降を開始とするパターンが現れる。
【0097】そして、どの当てはめのパターンが最適か
を判断し、「余り」の部分が何処かを決定する。この
「余り」の部分は、非ワイルドカード表現の中に含まれ
ているワイルドカード表現部分の一部とすべき箇所であ
ると考えられる。余り部分の決定方法としては、例え
ば、当てはめたときに一致したモーラ記号数を基準とす
る場合は、最も一致するモーラ記号数の多い場所を部分
認識結果が存在する場所として選択し、部分認識結果の
モーラ記号列が当てはまらない部分を「余り」として抽
出する。
【0098】図16の例では最後の文字「ス」が余りの
部分として抽出される。
【0099】また、一致するモーラ記号数が最大になる
パターンが2種類以上存在するなどで、部分認識結果の
位置が一意に決定できない場合には、余りの部分は存在
しないと判断する。あるいは、一致するモーラ記号数が
あるしきい値以下であった場合も余りの部分は存在しな
いと判断しても良い。
【0100】(ステップS205−7)ここでは、ステ
ップS205−6の結果、余りの部分が抽出できたかど
うかを確認する。余りの部分が存在していればステップ
S205−8へ、余りの部分が存在しなければステップ
S205−5へ進む。
【0101】(ステップS205−8)ここでは、ステ
ップS205−6の結果、抽出された余りの部分がワイ
ルドカード表現部分に隣接したところに存在するかどう
かを確認する。図16の例ではワイルドカード表現「ナ
ントカ」の直前に余りの部分「ス」が存在するので、
「ナントカ」に隣接した場所に余り「ス」が存在すると
判断される。逆に、「ナントカ」が「トウキョウス」の
前に存在している場合は、「トウキョウス」の最後部に
ある余り「ス」は「ナントカ」とは隣接していないと判
断される。この場合は、余りが「卜」「トウ」などであ
ればワイルドカード表現「ナントカ」の直後に余りが存
在すると判断できる。隣接部分に余りが存在すれば、ス
テップS205−9へ進む。隣接部分に余りが存在しな
ければ、ステップS205−5へ進む。
【0102】(ステップS205−9)ここでは、ステ
ップS205−6で抽出された余りの部分がワイルドカ
ード表現に隣接しているので、この抽出された余りの部
分が隣接しているワイルドカード表現部の一部であると
し、この余りの部分が隣接しているワイルドカード表現
部の前部にあるか、後部にあるかを判定し、そのモーラ
記号(列)を対応するバッファに記憶し、ワイルドカー
ド表現部がリズム語である場合は、ワイルドカード表現
検出部203から受けとった「ワイルドカード表現の文
字列長」情報にバッファに記憶したモーラ記号数分だけ
加え、終了する。
【0103】上記の方法の他にも、音声分析部201に
ワイルドカード表現検出部203にあるような単語検出
能力を付与すれば、切り離された原信号の中からステッ
プS204で得られた音声認識結果の単語の検出を行
い、その後ワイルドカード表現との境の部分に余った信
号を切りとり、音声分析部201に音節単位の音声認識
を依頼することによって、上記と同じくワイルドカード
表現の一部となるモーラ記号(列)を推定することも可
能である。
【0104】(ステップS206)ステップS204〜
S205での処理によって得られた情報と、ワイルドカ
ード表現検出部203から得られる図13に示した情報
を検索条件として、語彙記憶部202に記憶されている
語彙に一致するように、置換表現記憶部206に記憶さ
れている語彙からワイルドカード表現部分にあてはまる
言葉を検索する。図17はステップS206で行う動作
のフローチャートである。以下、図17を参照して、処
理の流れを説明する。
【0105】(ステップS206−1)このステップで
は、渡された音声認識結果に適合しかつ出力対象となる
語彙を語彙記憶部202から選択する。例えば、語彙記
憶部2O2に記録されている情報(図12)の表象情報
を利用し、非ワイルドカード表現部分の部分認識結果の
存在位置条件に適合する語彙を、ワイルドカード表現は
1単語以上の長さを持つものと考え、非ワイルドカード
表現部分を条件とすることにより、選択する。そして、
置換表現記憶部206に記録されている表現から、選択
された語彙のワイルドカード表現で代替表現された部分
を検索する。例えば、得られた部分認識結果が「東京」
と「ホテル」で、更に、切り分けられた原信号の並び
と、ワイルドカード表現の位置情報から「東京(ワイル
ドカード表現)ホテル」の順であると分かったとする
と、「東京ステーインホテル」などのように、単語「東
京」が最初に存在し、かつ、単語「ホテル」が最後に存
在し、かつ、その間に少なくとも1単語以上存在するも
のを適合する語彙として選択する。そして、置換表現記
憶部206からワイルドカード表現された部分として、
表現「ステーイン」などが検索される。
【0106】(ステップS206−2)このステップで
はステップS2O5で処理されたバッファに記録された
モーラ記号(列)を検索条件として、ステップS206
−1で抽出された表現から更に限定を行う。
【0107】(ステップS206−3)このステップで
は、音声認識結果に含まれるワイルドカード表現が数単
語置換語かリズム語かを判別する。これは、ワイルドカ
ード表現検出部203から渡される図13の「ワイルド
カード表現の種類」情報で確認が可能である。そして、
リズム語の場合はステップS206−4へ進み、数単語
置換語の場合はステップS206−2で抽出された表現
と、部分認識結果からなる正規の語彙を出力し、処理を
終了する。尚、出力する語彙が複数存在する場合は、そ
の中のいくつかを出力しても、全てを出力してもよく、
複数個の解を利用者に提示して選択させるなどの処理
は、出力先のアプリケーション特有の処理(図中20
0)で決定される。
【0108】(ステップS206−4)このステップで
は、ステップS206−1で抽出された語彙について、
ワイルドカード表現検出部203から渡されたワイルド
カード表現のモーラ記号列長情報と置換表現記憶部20
6に記録されているモーラ記号長情報とを比較すること
によって、更に出力語彙を限定する。例えば、両者のモ
ーラ記号列長の差があるしきい値以内のもののみを抽出
する。尚、この処理で語彙を限定しない場合は、出力す
る語彙の優先順位を決定することも可能である。
【0109】(ステップS206−5)このステップで
は、ステップS206−4で抽出された語彙について、
音声分析部101から渡された「韻律パラメータ」情報
と韻律情報記憶部104に記録されている「韻律パラメ
ータ」情報とを比較することによって、出力する語彙を
決定する。例えば、「ピッチパタン情報を利用したキー
ワードスポッティング」(日本音響学会講演論文集、平
成8年9月、pp.29−30)に開示された方法など
により、DP法を利用したマッチングを行うことによっ
て比較を行う。尚、この比較方法は構成される韻律パラ
メータによっても異なるが、本実施形態では、構成され
るパラメータを利用できるものであれば、任意の韻律比
較方法を利用しても構わない。そして、発声した音声に
最も韻律情報が類似している語彙を出力し、処理を終了
する。あるいは、複数候補存在する場合には、韻律情報
が類似している順に優先順位をつけて出力しても良い。
【0110】以上が本実施形態に係る置換表現照合部2
05の構成とその機能、および処理方法である。
【0111】続いて、上述した音声入力解釈方法につい
て、更に詳しく説明する。ここでは、第1の実施例の説
明の際に利用した地図情報システムの例を挙げ、利用者
が音声入力を行った場合の働きを具体例として説明を行
う。
【0112】この地図情報システムには東京駅周辺の4
つのホテル(東京ステーインホテル、東京丸の口ホテ
ル、パルスホテル、東京エンターコンチネンタルホテ
ル)が登録されており、その4つのホテルに関して、図
18に示す情報と、それぞれの音声認識に必要なパラメ
ータとが語彙記憶部202に記録されている。そして、
置換表現記憶部206に登録される、これらの語彙から
分離した単語および連続している単語の組合せとなる表
現は図19に示すようになる。
【0113】また、ワイルドカード表現として数単語置
換語「ナントカ」がワイルドカード表現記憶部204に
登録されているとする。
【0114】次に、利用者が「東京ステーインホテル」
について聞きたいが、「ステーイン」の部分を明確に記
憶していなかったとし、この地図情報システムに「トウ
キョウスナントカホテル」という音声入力が行われたも
のとする。
【0115】以下、表記を明確にするため、音声認識結
果を得る前の波形信号を[シンゴウ]のように[…]
で、音声認識結果を得た後に得られる文字列を「文字
列」のように「…」で表す。
【0116】その入力を受け、まずワイルドカード表現
検出部203においてワイルドカード表現の検出が行わ
れる。信号[トウキョウスナントカホテル]にはワイル
ドカード表現[ナントカ]が含まれており、これがワイ
ルドカード表現として検出される。そして、置換表現照
合部205に図20のような情報が渡される。
【0117】以下は置換表現照合部205での処理であ
る。
【0118】(ステップS201)ワイルドカード表現
の有無情報からワイルドカード表現が存在することが確
認される。
【0119】(ステップS204)分離されて渡される
原信号と、ワイルドカード表現の位置情報から音声認識
が必要な部分が信号[トウキョウス][ホテル]である
とわかる。そして、音声分析部201にこの2つの信号
の置換表現記憶部206に記録されている語彙セットで
の単語認識を依頼する。その結果、部分認識結果とて信
号[トウキョウス]の認識結果が「東京」、[ホテル]
の認識結果が「ホテル」と得られたとする。
【0120】(ステップS205)まず、信号[トウキ
ョウス]から処理を始める。
【0121】(ステップS205−1)信号1トウキョ
ウス]の音節単位の認識を音声分析部201に依頼す
る。その結果、モーラ記号列「トオキョオス」が得られ
たとする。
【0122】(ステップS205−2)信号[トウキョ
ウス]の認識結果として「東京」が得られているので、
ステップS205−4へ進む。
【0123】(ステップS205−4)モーラ記号列
「トオキョオス」のモーラ記号列長は5である。また、
部分認識結果「東京」は置換表現記憶部206に図21
のように記録されていたとする。
【0124】このモーラ記号列長とを比較して、入力さ
れた信号の部分音節認識結果「トオキョオス」の方が長
いので、ステップS205−6へ進む。
【0125】(ステップS205−6)音節認識結果
「トオキョオス」と部分認識結果「東京」のモーラ記号
列「トオキョオ」を比較すると、図16のようになり、
モーラ記号「ス」が余りとして検出される。
【0126】(ステップS205−7)余りとしてモー
ラ記号「ス」が検出されたので、ステップS205−8
へ進む。
【0127】(ステップS205−8)余りのモーラ記
号「ス」は音節認識結果「トオキョオス」の最後部に位
置し、また、この音節認識結果の元となる信号[トウキ
ョウス]はワイルドカード表現部分[ナントカ]の直前
にあるので、余り「ス」はワイルドカード表現の一部と
判断される。ステップS205−9に進む。
【0128】(ステップS205−9)ワイルドカード
表現の前部の発音をためるバッファにモーラ記号「ス」
を入力する。
【0129】次に、信号[ホテル]について同様の処理
を行う。ここでは、部分認識結果「ホテル」の他の余り
部分を見つけることができなかったとし、バッファには
何も記録せずに次の処理に進む。
【0130】(ステップS206)ここでは、これまで
の情報から適切な語彙を検索する。
【0131】(ステップS206−1)原信号情報と部
分認識結果や、ワイルドカード表現の位置情報などから
音声入力された対象となる語彙は「東京(ワイルドカー
ド表現)ホテル」であると判断される。語彙記憶部20
2に記録されている語彙から、上記の条件に合う適切な
語彙を抽出すると、「東京ステーインホテル」、「東京
丸の口ホテル」、「東京エンターコンチネンタルホテ
ル」が選択される。また、これらの条件から置換表現記
憶部206に登録されている表現からワイルドカード表
現で代替された表現として、「ステーイン」、「丸の
口」、「エンターコンチネンタル」が出力候補として選
択される。この時点で、「パルスホテル」が出力候補か
ら出力候補から外されるか、下位の候補となる。
【0132】(ステップS206−2)ステップS20
5で記録されたバッファを参照すると、モーラ記号
「ス」から始まる表現の「ステーイン」が有力であると
判断できる。ここで、出力候補として、「ステーイン」
が含まれた語彙「東京ステーインホテル」が有力とな
る。「東京丸の口ホテル」「東京エンターコンチネンタ
ルホテル」は出力候補から外されるか、下位の候補とな
る。
【0133】(ステップS206−3)ワイルドカード
表現検出部203から送られた情報から使用されたワイ
ルドカード表現(「ナントカ」)は数単語置換語である
ことが分かるので、「東京ステーインホテル」を第1位
候補として出力する。あるいは、アプリケーション部分
が複数候補にも対応している場合は下位の候補として
「東京丸の口ホテル」「東京エンターコンチネンタルホ
テル」を、更に下位の候補として「パルスホテル」を出
力する。そして、アプリケーション特有の処理(図中2
00)がこの出力を受け、適切な処理を行う。
【0134】以上で「トウキョウスナントカホテル」と
音声入力された場合の処理を終了する。
【0135】以上の説明によって、本実施形態に係る音
声入力分析装置は、利用者が「東京ステーインホテル」
という名称を明確に記憶していない状態でも、記憶して
いる部分を具体的に、わからない部分をワイルドカード
表現を用いて「東京スなんとかホテル」と音声入力する
ことによって、適切な名称に解釈してアプリケーション
部分に情報を出力することが可能であり、また、利用者
の知っている細かい情報「東京ス…ホテル」のわからな
い部分をワイルドカード表現を利用して「東京スなんと
かホテル」と入力することにより、おなじく「東京…ホ
テル」の形式の名称を持つ「東京丸の口ホテル」、「東
京エンターコンチネンタルホテル」よりも「東京ステー
インホテル」のほうが優先され、利用者の入力した音声
情報が有効に利用されていることがわかる。
【0136】かくしてこのように構成された本装置によ
れば、利用者が正確に発声できる単語あるいは文章を記
憶しなくとも動作する音声入力解釈装置を構築できる。
【0137】例えば、利用者が発声可能な単語あるいは
文章の一部分のみを記憶している場合でも音声の誤認識
をおさえ、音声入力をもつシステムの出力を利用者の意
図にそったものと導くことのできる音声入力解釈装置を
構築できる。
【0138】また、利用者が発声可能な単語あるいは文
章の「リズム」のみを記憶している場合でも音声の誤認
識をおさえ、音声入力をもつシステムの出力を利用者の
意図にそったものへと導くことのできる音声入力解釈装
置を構築できる。
【0139】尚、各実施形態の作用効果は上述した例に
限定されるものではない。例えば、第1の実施形態では
置換表現照合部103、第2の実施形態では置換表現照
合部205において置換処理された結果のリストを利用
者に提示し、正しいものを選択させることによって誤動
作を避けることができる。
【0140】また、マルチモーダルインターフェースの
入力手段として利用し、検索幅を更に狭め、出力の冗長
をおさえ、利用者の負担を軽減することも可能である。
【0141】また、マルチモーダルインターフェースの
みに限らず、任意の音声入力が伴う装置の入力手段とし
て利用することが可能である。また、韻律情報はワイル
ドカード表現された部分のみに限らず、入力された音声
情報すべてに対して解析、利用することも可能である。
【0142】以下では、本音声入力解釈装置における処
理をソフトウェアを使って実現する場合の装置構成につ
いて図22を参照しながら説明する。
【0143】この場合、本音声入力解釈装置のハードウ
ェア部分は、CPU21、プログラムや必要なデータを
格納するためのRAM22、ディスクドライブ装置2
4、記憶装置25、入出力装置26である。
【0144】第1の実施形態の場合、図1の音声分析部
101、語彙記憶部102、置換表現照合部103、韻
律情報記憶部104は、それぞれの処理手順を記述した
プログラムにより構成される。
【0145】第2の実施形態の場合、図11の音声分析
部201、語彙記憶部202、ワイルドカード表現検出
部203、ワイルドカード表現記憶部204、置換表現
照合部205、置換表現記憶部206は、それぞれの処
理手順を記述したプログラムにより構成される。
【0146】なお、各記憶部に格納する情報は、プログ
ラムと一体化されたものであってもよいし、プログラム
とは別に設定されるものであってもよい。
【0147】この処理手順を記述したブログラムは、図
22のコンピュータシステムを制御するためのプログラ
ムとしてRAM22に格納され、CPU21により実行
させる。CPU21はRAM22に格納されたプログラ
ムの手順に従い、演算や、記憶装置25あるいは入出力
装置26の制御などを行って、所望の機能を実現してい
く。
【0148】プログラムをRAM22にインストールす
るには種々の方法を用いることができる。例えば、上記
プログラム(図1の音声分析部101、語彙記憶部10
2、置換表現照合部103、韻律情報記憶部104の処
理手順を記述したプログラムであって、コンピュータシ
ステムを制御するためのプログラムや、図11の音声分
析部201、語彙記憶部202、ワイルドカード表現検
出部203、ワイルドカード表現記憶部204、置換表
現照合部205、置換表現記憶部206の処理手順を記
述したプログラムであって、コンピュータシステムを制
御するためのプログラム)を、コンピュータで読みとり
可能な記憶媒体(例えばフロッピーディスク、あるいは
CD−ROM等のリムーバブル記憶媒体)に記憶させて
おく。そして、図22に示すように記憶媒体に応じたデ
ィスクドライブ装置24を用いて該プログラムを読みと
り、RAM22に格納する。あるいは、いったんディス
クドライブ装置24等にインストールしておき、実行時
に同装置からRAM22に格納する。
【0149】また、プログラムを格納した記憶媒体がI
Cカードである場合は、ICカードリーダを用いて該ブ
ログラムを読みとることができる。さらには、ネットワ
ークを介して所定のインターフェース装置からプログラ
ムを受けとることもできる。
【0150】なお、音声入力解釈装置にその解釈結果を
利用するアプリケーションを搭載してもよいし、音声入
力解釈装置とアプリケーションを搭載する装置を独立し
たものにしてもよい。また、音声入力解釈装置を実現す
るプログラムとその解釈結果を利用するアプリケーショ
ンを実現するプログラムとを、同一のCPU上で実行し
てもよいし、別々に設けたCPU上で実行してもよい。
【0151】ところで、第1、第2の実施形態では、ワ
イルドカード表現が1つしか入力されないという前提で
実現しているように記述しているが、ワイルドカード表
現が複数の入力が行われても、第1の実施形態では対応
する語彙を語彙記憶部102に生成し、置換表現照合部
103においては該当するワイルドカード表現部分のそ
れぞれについて同様の処理を行えば扱うことが可能であ
り、また第2の実施形態では複数検出されたワイルドカ
ード表現について、その位置と、種類、韻律に関する情
報を置換表現照合部205に渡し、また、ワイルドカー
ド表現の一部を記録するバッファをワイルドカード表現
の途中を記録するためのものを追加し、連続してワイル
ドカード表現が現れた場合はまとめて1つのワイルドカ
ード表現として、検出された各ワイルドカード表現につ
いて同様に処理を行えば扱うことが可能である。
【0152】また、第1、第2の実施形態で設定される
検索条件は特に各実施形態に固有のものではなく、例え
ば、第2の実施形態における置換表現検索時に音声入力
時間を利用しても良い。また、第1の実施形態について
は「『ス』なんとか」のようにワイルドカード表現の一
部に正しい表現を交えた入力はされないという前提で実
現しているように記述しているが、語彙記憶部102に
「す/なんとか」のような語彙を設定すれば容易に対応
可能である。また、ワイルドカード表現を数単語置換語
や、リズム語に定義しなくとも、全ての表現について韻
律などを検索条件にすることも可能である。
【0153】また、日本語に限らず、ワイルドカード表
現が存在する言語全てにモーラ記号単位の分析を音節あ
るいは音素などの共通の単位の分析とすることによっ
て、本発明を適用することが可能である。また、本発明
を例えば歌詞の分からない部分をリズムで歌う入力によ
って音楽の検索に適用することも可能である。
【0154】本発明は、上述した実施の形態に限定され
るものではなく、その技術的範囲において種々変形して
実施することができる。
【0155】
【発明の効果】本発明によれば、入力音声から正規の語
彙の一部を代替表現した部分を検出しこの部分に妥当す
る正規の表現に置換するので、音声入力として許容され
る語彙を利用者が明確に覚えなくとも、その代替表現を
含む音声入力を受け入れ、これを解釈することができ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声入力解釈装
置の構成例を示す図
【図2】語彙記憶部に記録される情報の一例を示す図
【図3】語彙記憶部に記録される語彙の一例を示す図
【図4】音声分析部から置換表現照合部へ渡される情報
の一例を示す図
【図5】韻律情報記憶部に記録されている情報の一例を
示す図
【図6】置換表現照合部の動作の一例を示すフローチャ
ート
【図7】語彙記憶部に登録された語彙の一例を示す図
【図8】韻律情報記憶部に登録された情報の一例を示す
【図9】音声分析部から置換表現照合部に出力する情報
の一例を示す図
【図10】音声認識結果に適合する語彙の検索結果の一
例を示す図
【図11】本発明の第2の実施形態に係る音声入力解釈
装置の構成例を示す図
【図12】語彙記憶部に記録される情報の一例を示す図
【図13】ワイルドカード表現検出部から置換表現照合
部へ渡される情報の一例を示す図
【図14】置換表現照合部の動作の一例を示すフローチ
ャート
【図15】非ワイルドカード表現部分に対する処理手順
の一例を示すフローチャート
【図16】ワイルドカード表現の一部の検索について説
明するための図
【図17】ワイルドカード表現部分に対する処理手順の
一例を示すフローチャート
【図18】語彙記憶部に登録された語彙の一例を示す図
【図19】置換表現記憶部に登録された情報の一例を示
す図
【図20】ワイルドカード表現検出部から置換表現照合
部へ渡される情報の一例を示す図
【図21】置換表現記憶部に記録された情報の一例を示
す図
【図22】ハードウェア構成の一例を示す図
【符号の説明】
1,2…音声入力解釈装置 100…音声入力装置 101…音声分析部 102…語彙記憶部 103…置換表現照合部 104…韻律情報記憶部 201…音声分析部 202…語彙記憶部 203…ワイルドカード表現検出部 204…ワイルドカード表現記憶部 205…置換表現照合部 206…置換表現記憶部 21…CPU 22…RAM 23…バス 24…ディスクドライブ装置 25…記憶装置 26…入出力装置

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】入力音声を解釈して該当する語彙の情報を
    出力する音声入力解釈装置において、 正規の語彙に関する第1の情報、および該正規の語彙の
    一部が予め定められた代替表現に置き換えられて音声入
    力されることを考慮した該正規の語彙に関する第2の情
    報を記憶する手段と、 入力音声を音声認識する手段と、 前記第2の情報をもとに、前記音声認識結果から前記代
    替表現を検出する手段と、 この手段により前記認識結果から前記代替表現が検出さ
    れた場合、少なくとも前記入力音声の認識結果に含まれ
    る該代替表現以外の語彙の部分をもとに、前記第1の情
    報を検索して、該当する語彙を求める手段とを備えたこ
    とを特徴とする音声入力解釈装置。
  2. 【請求項2】前記該当する語彙が複数検索された場合、
    少なくとも前記代替表現に対応する音声の音韻的特徴に
    基づいて、該当する語彙の優先度を評価する手段をさら
    に備えたことを特徴とする請求項1に記載の音声入力解
    釈装置。
  3. 【請求項3】入力音声を解釈して該当する語彙の情報を
    出力する音声入力解釈装置において、 任意の言葉の代替となる代替表現によって音声認識対象
    となる予め定められた正規の語彙の一部を代替した代替
    表現を語彙の一種として記憶する語彙記憶手段と、 前記語彙記憶手段に記憶されている語彙のうち前記代替
    表現を含まない前記正規の語彙の表記および韻律情報を
    記憶する韻律情報記憶手段と、 音声入力装置を介して入力された音声に対し、前記語彙
    記憶手段を参照して、音声認識および音声の韻律に関す
    る分析を行う音声分析手段と、 前記音声分析手段による前記入力された音声に対する前
    記音声認識の結果および前記韻律に関する解析の結果に
    基づき、前記韻律情報記憶手段を参照して、前記代替表
    現の部分を前記正規の語彙の部分で置換する置換表現照
    合手段とを備えたことを特徴とする音声入力解釈装置。
  4. 【請求項4】音声入力装置から入力された音声を分析
    し、音声認識し、音声認識結果を含む音声分析結果を出
    力する手段と、該音声認識を行う際に認識対象となる語
    彙を記憶する語彙記憶手段とを備えた音声入力解釈装置
    において、 任意の言葉の代替となる代替表現を記憶する代替表現記
    憶手段と、 入力された音声情報から前記代替表現記憶手段に記憶さ
    れている語彙と同じ表現を検出する代替表現検出手段
    と、 前記語彙記憶手段に記憶されている語彙をさらに分割し
    て別単語としたものを記憶する置換表現記憶手段と、 前記代替表現検出手段により前記代替表現の検出された
    入力音声情報における該代替表現でない部分の音声認識
    を、前記置換表現記憶手段に記憶されている語彙を音声
    認識対象として実行し、この音声認識結果を利用して前
    記置換表現記憶手段に記憶されている語彙から代替表現
    された言葉として妥当な語彙を検索する処理手段とを備
    えたことを特徴とする音声入力解釈装置。
  5. 【請求項5】前記処理手段は、 前記音声認識を音節または音韻単位で行い、 この音節または音韻単位の認識結果を参照することによ
    り、前記代替表現の一部として前記正規の語彙の一部が
    付加されて発声された部分を検出し、 前記置換表現記憶手段に記憶されている語彙から代替表
    現された表現を検索する際に、前記検出結果に適合した
    表現を優先的に選択することを特徴とする請求項4に記
    載の音声入力解釈装置。
  6. 【請求項6】前記代替表現検出手段は、入力音声の韻律
    について分析し、 前記処理手段は、前記置換表現記憶手段に記憶されてい
    る語彙から代替表現された表現を検索する際に、前記分
    析の結果得られた韻律の条件に適合または近似した言葉
    を優先的に選択することを特徴とする請求項4に記載の
    音声入力解釈装置。
  7. 【請求項7】入力音声を解釈して該当する語彙の情報を
    出力する音声入力解釈方法において、 入力音声を音声認識し、 予め定められた正規の語彙の一部が予め定められた代替
    表現に置き換えられて音声入力されることを考慮した該
    正規の語彙に関する情報をもとに、前記音声認識結果か
    ら前記代替表現を検出し、 前記認識結果から前記代替表現が検出された場合、少な
    くとも前記入力音声の認識結果に含まれる該代替表現以
    外の語彙の部分をもとに、予め定められた正規の語彙に
    関する情報を検索して、該当する語彙を求めることを特
    徴とする音声入力解釈方法。
  8. 【請求項8】前記該当する語彙が複数検索された場合、
    少なくとも前記代替表現に対応する音声の音韻的特徴に
    基づいて、該当する語彙の優先度を評価することを特徴
    とする請求項7に記載の音声入力解釈方法。
  9. 【請求項9】入力音声を解釈して該当する語彙の情報を
    出力する音声入力解釈方法において、 音声入力装置を介して入力された音声に対し、任意の言
    葉の代替となる代替表現によって音声認識対象となる予
    め定められた正規の語彙の一部を代替した代替表現を語
    彙の一種として記憶する語彙記憶手段を参照して、音声
    認識および音声の韻律に関する分析を行い、 前記入力された音声に対する前記音声認識の結果および
    前記韻律に関する解析の結果に基づき、前記語彙記憶手
    段に記憶されている語彙のうち前記代替表現を含まない
    前記正規の語彙の表記および韻律情報を記憶する前記韻
    律情報記憶手段を参照して、前記代替表現の部分を前記
    正規の語彙の部分で置換することを特徴とする音声入力
    解釈方法。
  10. 【請求項10】入力音声を音声認識を通じて解釈し、該
    音声認識を行う際に認識対象となる語彙を記憶する語彙
    記憶手段のうちの該当する語彙の情報を出力する音声入
    力解釈方法において、 入力された音声情報から、任意の言葉の代替となる代替
    表現を記憶する代替表現記憶手段に記憶されている語彙
    と同じ表現を検出し、 前記代替表現の検出された入力音声情報における該代替
    表現でない部分の音声認識を、前記語彙記憶手段に記憶
    されている語彙をさらに分割して別単語としたものを記
    憶する置換表現記憶手段に記憶されている語彙を音声認
    識対象として実行し、この音声認識結果を利用して前記
    置換表現記憶手段に記憶されている語彙から代替表現さ
    れた言葉として妥当な語彙を検索することを特徴とする
    音声入力解釈方法。
  11. 【請求項11】前記語彙を検索するにあたっては、前記
    音声認識は音節または音韻単位で行い、この音節または
    音韻単位の認識結果を参照することにより、前記代替表
    現の一部として前記正規の語彙の一部が付加されて発声
    された部分を検出し、 前記置換表現記憶手段に記憶されている語彙から代替表
    現された表現を検索する際に、前記検出結果に適合した
    表現を優先的に選択することを特徴とする請求項10に
    記載の音声入力解釈方法。
  12. 【請求項12】前記置換表現記憶手段に記憶されている
    語彙から代替表現された表現を検索する際に、入力音声
    の韻律について分析を行った結果得られた韻律の条件に
    適合または近似した言葉を優先的に選択することを特徴
    とする請求項11に記載の音声入力解釈方法。
JP25244697A 1997-09-17 1997-09-17 音声入力解釈装置及び音声入力解釈方法 Expired - Fee Related JP3472101B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25244697A JP3472101B2 (ja) 1997-09-17 1997-09-17 音声入力解釈装置及び音声入力解釈方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25244697A JP3472101B2 (ja) 1997-09-17 1997-09-17 音声入力解釈装置及び音声入力解釈方法

Publications (2)

Publication Number Publication Date
JPH1195793A true JPH1195793A (ja) 1999-04-09
JP3472101B2 JP3472101B2 (ja) 2003-12-02

Family

ID=17237498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25244697A Expired - Fee Related JP3472101B2 (ja) 1997-09-17 1997-09-17 音声入力解釈装置及び音声入力解釈方法

Country Status (1)

Country Link
JP (1) JP3472101B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000089791A (ja) * 1998-09-09 2000-03-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識応答方法、その装置及びプログラム記録媒体
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2002091492A (ja) * 2000-07-13 2002-03-27 National Institute Of Advanced Industrial & Technology 音声補完方法、装置および記録媒体
JP2003316386A (ja) * 2002-04-24 2003-11-07 Toshiba Corp 音声認識方法および音声認識装置および音声認識プログラム
WO2004109658A1 (ja) * 2003-06-02 2004-12-16 International Business Machines Corporation 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体
JP2007280104A (ja) * 2006-04-07 2007-10-25 Pioneer Electronic Corp 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2019153133A (ja) * 2018-03-05 2019-09-12 オムロン株式会社 文字入力装置、文字入力方法、及び、文字入力プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0312891A (ja) * 1989-06-09 1991-01-21 Matsushita Electric Ind Co Ltd 選曲機
JPH07271822A (ja) * 1994-04-01 1995-10-20 Matsushita Electric Ind Co Ltd 情報検索装置
JPH0863185A (ja) * 1994-08-24 1996-03-08 Ricoh Co Ltd 音声認識装置
JPH08123818A (ja) * 1994-10-25 1996-05-17 Nippon Telegr & Teleph Corp <Ntt> 音楽情報検索システム及び音楽情報検索方法
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
JPH10222337A (ja) * 1997-02-13 1998-08-21 Meidensha Corp コンピュータシステム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0312891A (ja) * 1989-06-09 1991-01-21 Matsushita Electric Ind Co Ltd 選曲機
JPH07271822A (ja) * 1994-04-01 1995-10-20 Matsushita Electric Ind Co Ltd 情報検索装置
JPH0863185A (ja) * 1994-08-24 1996-03-08 Ricoh Co Ltd 音声認識装置
JPH08123818A (ja) * 1994-10-25 1996-05-17 Nippon Telegr & Teleph Corp <Ntt> 音楽情報検索システム及び音楽情報検索方法
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
JPH10222337A (ja) * 1997-02-13 1998-08-21 Meidensha Corp コンピュータシステム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000089791A (ja) * 1998-09-09 2000-03-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識応答方法、その装置及びプログラム記録媒体
JP2002091492A (ja) * 2000-07-13 2002-03-27 National Institute Of Advanced Industrial & Technology 音声補完方法、装置および記録媒体
US6876967B2 (en) 2000-07-13 2005-04-05 National Institute Of Advanced Industrial Science And Technology Speech complementing apparatus, method and recording medium
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2003316386A (ja) * 2002-04-24 2003-11-07 Toshiba Corp 音声認識方法および音声認識装置および音声認識プログラム
WO2004109658A1 (ja) * 2003-06-02 2004-12-16 International Business Machines Corporation 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体
KR100834363B1 (ko) * 2003-06-02 2008-06-02 인터내셔널 비지네스 머신즈 코포레이션 음성 응답 시스템, 음성 응답 방법, 음성 서버, 음성 파일 처리 방법 및 기록 매체
JP2007280104A (ja) * 2006-04-07 2007-10-25 Pioneer Electronic Corp 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP2019153133A (ja) * 2018-03-05 2019-09-12 オムロン株式会社 文字入力装置、文字入力方法、及び、文字入力プログラム
US11107474B2 (en) 2018-03-05 2021-08-31 Omron Corporation Character input device, character input method, and character input program

Also Published As

Publication number Publication date
JP3472101B2 (ja) 2003-12-02

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP5193473B2 (ja) オーディオファイルをスピーチ駆動の選択するシステムおよび方法
US20030216912A1 (en) Speech recognition method and speech recognition apparatus
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
US11715472B2 (en) Speech-processing system
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US7240008B2 (en) Speech recognition system, program and navigation system
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP5451982B2 (ja) 支援装置、プログラムおよび支援方法
JP2010197644A (ja) 音声認識システム
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
JP2000029492A (ja) 音声翻訳装置、音声翻訳方法、音声認識装置
JP2004163541A (ja) 音声応答装置
JP2009116075A (ja) 音声認識装置
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
Goto Speech Completion: New Speech Interface with On-demand Completion Assistance Masataka Goto, Katunobu Itou, Tomoyosi Akiba, and Satoru Hayamizu National Institute of Advanced Industrial Science and Technology (former Electrotechnical Laboratory) 1-1-1 Umezono, Tsukuba, Ibaraki 305-8568, JAPAN.
JP3378547B2 (ja) 音声認識方法及び装置
JP3440840B2 (ja) 音声認識方法及びその装置
JPH11143493A (ja) 音声言語理解装置及び音声言語理解システム
JP4930014B2 (ja) 音声認識装置、および音声認識方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070912

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080912

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080912

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090912

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090912

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100912

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130912

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees