JP2000276326A - 音声入力対話装置、音声入力対話方法および音声入力対話プログラムを格納したコンピュータ読み取り可能な記録媒体 - Google Patents
音声入力対話装置、音声入力対話方法および音声入力対話プログラムを格納したコンピュータ読み取り可能な記録媒体Info
- Publication number
- JP2000276326A JP2000276326A JP11081240A JP8124099A JP2000276326A JP 2000276326 A JP2000276326 A JP 2000276326A JP 11081240 A JP11081240 A JP 11081240A JP 8124099 A JP8124099 A JP 8124099A JP 2000276326 A JP2000276326 A JP 2000276326A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- information
- word string
- processing
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 連続音声による対話処理速度を向上させる。
【解決手段】 単語列情報を格納するための記憶手段2
01と、記憶手段201内の単語列情報を文節毎に分解
する形態素解析手段202と、形態素解析を行った記憶
手段201内の単語列情報に対して構文解析を行い、文
情報を生成する構文解析手段203と、文情報が処理命
令文を構成しているか否か判別し、処理命令文である場
合に意味解析手段に文情報を出力し、処理命令文でない
場合は記憶手段201内の単語列情報を更新し、再度文
情報を生成させる判別部204とを有する。
01と、記憶手段201内の単語列情報を文節毎に分解
する形態素解析手段202と、形態素解析を行った記憶
手段201内の単語列情報に対して構文解析を行い、文
情報を生成する構文解析手段203と、文情報が処理命
令文を構成しているか否か判別し、処理命令文である場
合に意味解析手段に文情報を出力し、処理命令文でない
場合は記憶手段201内の単語列情報を更新し、再度文
情報を生成させる判別部204とを有する。
Description
【0001】
【発明の属する技術分野】本発明は、連続的に入力され
た音声を解析し、連続音声が指定する処理内容を実行す
る音声入力対話装置、音声入力対話方法および音声入力
対話プログラムを格納したコンピュータ読み取り可能な
記録媒体に関し、特に、連続音声に対する対話応答機能
を改善し、対話応答処理速度の大幅な向上を実現する技
術に係わる。
た音声を解析し、連続音声が指定する処理内容を実行す
る音声入力対話装置、音声入力対話方法および音声入力
対話プログラムを格納したコンピュータ読み取り可能な
記録媒体に関し、特に、連続音声に対する対話応答機能
を改善し、対話応答処理速度の大幅な向上を実現する技
術に係わる。
【0002】
【従来の技術】近年、人間等から発せられた音声をその
入力情報としてコンピュータなどの処理装置に音声が指
定する処理内容を実行させる音声入力対話処理に関する
研究が盛んに行われている。
入力情報としてコンピュータなどの処理装置に音声が指
定する処理内容を実行させる音声入力対話処理に関する
研究が盛んに行われている。
【0003】以下、図6を用いて、従来までの音声入力
対話装置の構成およびその動作について簡単に説明す
る。
対話装置の構成およびその動作について簡単に説明す
る。
【0004】従来までの音声入力対話装置1は、単語単
位で入力された単語音声を認識し、認識した単語音声に
相当する単語情報を出力する単語音声認識部2、単語情
報とコマンド実行部6が実行すべき処理内容の対応関係
を記述したコマンド辞書部4、コマンド辞書部4の内容
を参照して単語情報が指定する処理内容を判別するコマ
ンド判別部5、コマンド判別部5の判別結果に基づいて
単語情報が指定する処理内容を実行するコマンド実行部
6、コマンド実行部6の処理結果を出力する応答生成部
3を備えている。
位で入力された単語音声を認識し、認識した単語音声に
相当する単語情報を出力する単語音声認識部2、単語情
報とコマンド実行部6が実行すべき処理内容の対応関係
を記述したコマンド辞書部4、コマンド辞書部4の内容
を参照して単語情報が指定する処理内容を判別するコマ
ンド判別部5、コマンド判別部5の判別結果に基づいて
単語情報が指定する処理内容を実行するコマンド実行部
6、コマンド実行部6の処理結果を出力する応答生成部
3を備えている。
【0005】この音声入力対話装置1により音声入力対
話処理を実行する際は、 (1)始めに、単語音声認識部2に単語単位で離散的な
音声(単語音声)を入力する。
話処理を実行する際は、 (1)始めに、単語音声認識部2に単語単位で離散的な
音声(単語音声)を入力する。
【0006】(2)次に、単語音声認識部2において単
語音声を認識し、単語音声に相当する単語単位の単語情
報を出力する。
語音声を認識し、単語音声に相当する単語単位の単語情
報を出力する。
【0007】(3)続いて、コマンド判別部5において
単語情報をコマンド辞書部4を用いて解釈し、単語情報
が指定するコマンド実行部6の処理内容を判別する。
単語情報をコマンド辞書部4を用いて解釈し、単語情報
が指定するコマンド実行部6の処理内容を判別する。
【0008】(4)最後に、判別された処理内容をコマ
ンド実行部6において実行し、実行結果を応答生成部3
を介して出力する。
ンド実行部6において実行し、実行結果を応答生成部3
を介して出力する。
【0009】このように、従来までの音声入力対話装置
1は、単語単位の離散的な音声を入力とし、音声が指定
する処理内容を単語単位で実行しているのである。
1は、単語単位の離散的な音声を入力とし、音声が指定
する処理内容を単語単位で実行しているのである。
【0010】
【発明が解決しようとする課題】以上、従来までの音声
入力対話装置の構成およびその動作について簡単に説明
したが、従来までの音声入力対話処理には以下に示す解
決すべき大きな技術的課題がある。
入力対話装置の構成およびその動作について簡単に説明
したが、従来までの音声入力対話処理には以下に示す解
決すべき大きな技術的課題がある。
【0011】つまり、従来までの音声入力対話処理にお
いては、音声入力は1音又は1語単位で区切られた単語
レベルのものが基本とされているために、人間が日常会
話において用いているような、単語が連続的に発声され
た連続音声を音声入力として用いることができない。し
たがって、従来の音声入力対話処理においては、入力す
ることができる音声は範囲が極めて狭く、音声入力に対
する柔軟性に大きな問題があるのである。さらに、対話
処理が単語単位で実行されるために、全体の対話処理に
要する時間は多大なものとなってしまうのである。
いては、音声入力は1音又は1語単位で区切られた単語
レベルのものが基本とされているために、人間が日常会
話において用いているような、単語が連続的に発声され
た連続音声を音声入力として用いることができない。し
たがって、従来の音声入力対話処理においては、入力す
ることができる音声は範囲が極めて狭く、音声入力に対
する柔軟性に大きな問題があるのである。さらに、対話
処理が単語単位で実行されるために、全体の対話処理に
要する時間は多大なものとなってしまうのである。
【0012】尚、現在、ワープロアプリケーション等の
ように連続音声を音声入力として用いる装置が存在する
が、これは本明細書中で述べる所の音声入力対話装置と
はその構成および動作が明らかに異なる。すなわち、ワ
ープロアプリケーション等のような装置は、装置に入力
された音声を文字列に単純に変換するだけの処理装置で
あって、その性能は音声認識手段にのみ依存してくる。
これに対して、本明細書中で述べる所の音声入力対話装
置は、入力された音声を認識すると同時に、音声が指定
する処理要求を装置が解釈・実行する必要があり、この
場合、装置の性能には、音声認識能力と共にその解釈・
対話能力が大きく係わり、装置の性能の向上のために
は、音声認識手段以外の構成に工夫を施す必要がある。
ように連続音声を音声入力として用いる装置が存在する
が、これは本明細書中で述べる所の音声入力対話装置と
はその構成および動作が明らかに異なる。すなわち、ワ
ープロアプリケーション等のような装置は、装置に入力
された音声を文字列に単純に変換するだけの処理装置で
あって、その性能は音声認識手段にのみ依存してくる。
これに対して、本明細書中で述べる所の音声入力対話装
置は、入力された音声を認識すると同時に、音声が指定
する処理要求を装置が解釈・実行する必要があり、この
場合、装置の性能には、音声認識能力と共にその解釈・
対話能力が大きく係わり、装置の性能の向上のために
は、音声認識手段以外の構成に工夫を施す必要がある。
【0013】本発明は上記の問題に鑑みてなされたもの
であり、その目的は、連続音声に対する対話応答機能を
改善し、対話応答処理速度の大幅な向上を実現する音声
入力対話装置を提供することにある。
であり、その目的は、連続音声に対する対話応答機能を
改善し、対話応答処理速度の大幅な向上を実現する音声
入力対話装置を提供することにある。
【0014】また、本発明の他の目的は、連続音声に対
する対話応答機能を改善し、対話応答処理速度の大幅な
向上を実現する音声入力対話方法を提供することにあ
る。
する対話応答機能を改善し、対話応答処理速度の大幅な
向上を実現する音声入力対話方法を提供することにあ
る。
【0015】さらに、本発明の他の目的は、連続音声に
対する対話応答機能を改善し、対話応答処理速度の大幅
な向上を実現する音声入力対話プログラムを格納したコ
ンピュータ読み取り可能な記録媒体を提供することにあ
る。
対する対話応答機能を改善し、対話応答処理速度の大幅
な向上を実現する音声入力対話プログラムを格納したコ
ンピュータ読み取り可能な記録媒体を提供することにあ
る。
【0016】
【課題を解決するための手段】上記問題を解決するため
に、発明者は、音声対話処理において、許容文型や無視
する冗長語等の予め設定した制約条件を用いて入力され
た連続音声を処理し、入力された連続音声から処理内容
を指定する文を再構築し、文単位で処理内容を実行する
手段を音声認識手段と独立に備えることにより、連続音
声に対する対話応答機能を改善し、対話応答処理速度の
大幅な向上を実現できるという考えに至った。
に、発明者は、音声対話処理において、許容文型や無視
する冗長語等の予め設定した制約条件を用いて入力され
た連続音声を処理し、入力された連続音声から処理内容
を指定する文を再構築し、文単位で処理内容を実行する
手段を音声認識手段と独立に備えることにより、連続音
声に対する対話応答機能を改善し、対話応答処理速度の
大幅な向上を実現できるという考えに至った。
【0017】そこで、本発明の第1の特徴は、入力され
た連続音声を認識し、連続音声に相当する単語列情報を
出力する連続音声認識手段と、単語列情報および文情報
を解釈するための情報を格納した言語辞書と、言語辞書
を用いて単語列情報から文情報を生成する文情報生成手
段と、言語辞書を用いて文情報が指定する処理命令の内
容を抽出する意味解析手段と、処理命令の内容を実行す
る処理手段と、処理手段の処理結果を出力する応答生成
手段とを備え、文情報生成手段は、単語列情報を格納す
るための記憶手段と、記憶手段内の単語列情報を文節毎
に分解する形態素解析手段と、形態素解析を行った記憶
手段内の単語列情報に対して構文解析を行い、文情報を
生成する構文解析手段と、文情報が処理命令文を構成し
ているか否か判別し、処理命令文である場合に意味解析
手段に文情報を出力し、処理命令文でない場合は記憶手
段内の単語列情報を更新し、再度文情報を生成させる判
別部とを有する音声入力対話装置であることにある。
た連続音声を認識し、連続音声に相当する単語列情報を
出力する連続音声認識手段と、単語列情報および文情報
を解釈するための情報を格納した言語辞書と、言語辞書
を用いて単語列情報から文情報を生成する文情報生成手
段と、言語辞書を用いて文情報が指定する処理命令の内
容を抽出する意味解析手段と、処理命令の内容を実行す
る処理手段と、処理手段の処理結果を出力する応答生成
手段とを備え、文情報生成手段は、単語列情報を格納す
るための記憶手段と、記憶手段内の単語列情報を文節毎
に分解する形態素解析手段と、形態素解析を行った記憶
手段内の単語列情報に対して構文解析を行い、文情報を
生成する構文解析手段と、文情報が処理命令文を構成し
ているか否か判別し、処理命令文である場合に意味解析
手段に文情報を出力し、処理命令文でない場合は記憶手
段内の単語列情報を更新し、再度文情報を生成させる判
別部とを有する音声入力対話装置であることにある。
【0018】これにより、連続音声に対する対話応答機
能を改善し、対話応答処理速度の大幅な向上を実現する
ことができる。
能を改善し、対話応答処理速度の大幅な向上を実現する
ことができる。
【0019】また、本発明の第2の特徴は、入力された
連続音声を認識し、連続音声に相当する単語列情報を出
力するステップと、単語列情報を記憶手段内に格納する
ステップと、記憶手段内の単語列情報を文節毎に分解す
る形態素解析ステップと、形態素解析を行った記憶手段
内の単語列情報に対して構文解析を行い、文情報を生成
する構文解析ステップと、文情報が処理命令文を構成し
ているか否か判別し、処理命令文でない場合は記憶手段
内の単語列情報を更新し、再度文情報を生成させる判別
ステップと、文情報が処理命令文を構成している場合、
文情報が指定する処理命令の内容を抽出する意味解析ス
テップと、処理命令の内容を実行し、実行結果を出力す
る処理ステップとから成る音声入力対話方法であること
にある。
連続音声を認識し、連続音声に相当する単語列情報を出
力するステップと、単語列情報を記憶手段内に格納する
ステップと、記憶手段内の単語列情報を文節毎に分解す
る形態素解析ステップと、形態素解析を行った記憶手段
内の単語列情報に対して構文解析を行い、文情報を生成
する構文解析ステップと、文情報が処理命令文を構成し
ているか否か判別し、処理命令文でない場合は記憶手段
内の単語列情報を更新し、再度文情報を生成させる判別
ステップと、文情報が処理命令文を構成している場合、
文情報が指定する処理命令の内容を抽出する意味解析ス
テップと、処理命令の内容を実行し、実行結果を出力す
る処理ステップとから成る音声入力対話方法であること
にある。
【0020】これにより、連続音声に対する対話応答機
能を改善し、対話応答処理速度の大幅な向上を実現する
ことができる。
能を改善し、対話応答処理速度の大幅な向上を実現する
ことができる。
【0021】さらに、本発明の第3の特徴は、入力され
た連続音声を認識し、連続音声に相当する単語列情報を
出力する処理と、単語列情報を記憶手段内に格納する処
理と、記憶手段内の単語列情報を文節毎に分解する形態
素解析処理と、形態素解析を行った記憶手段内の単語列
情報に対して構文解析を行い、文情報を生成する構文解
析処理と、文情報が処理命令文を構成しているか否か判
別し、処理命令文でない場合は記憶手段内の単語列情報
を更新し、再度文情報を生成させる判別処理と、文情報
が処理命令文を構成している場合、文情報が指定する処
理命令の内容を抽出する意味解析処理と、処理命令の内
容を実行し、実行結果を出力する処理とを含み、これら
の処理をコンピュータに実行させる音声入力対話プログ
ラムを格納したコンピュータ読み取り可能な記録媒体で
あることにある。
た連続音声を認識し、連続音声に相当する単語列情報を
出力する処理と、単語列情報を記憶手段内に格納する処
理と、記憶手段内の単語列情報を文節毎に分解する形態
素解析処理と、形態素解析を行った記憶手段内の単語列
情報に対して構文解析を行い、文情報を生成する構文解
析処理と、文情報が処理命令文を構成しているか否か判
別し、処理命令文でない場合は記憶手段内の単語列情報
を更新し、再度文情報を生成させる判別処理と、文情報
が処理命令文を構成している場合、文情報が指定する処
理命令の内容を抽出する意味解析処理と、処理命令の内
容を実行し、実行結果を出力する処理とを含み、これら
の処理をコンピュータに実行させる音声入力対話プログ
ラムを格納したコンピュータ読み取り可能な記録媒体で
あることにある。
【0022】これにより、連続音声に対する対話応答機
能を改善し、対話応答処理速度の大幅な向上を実現する
ことができる。
能を改善し、対話応答処理速度の大幅な向上を実現する
ことができる。
【0023】尚、構文解析の際には、間投詞や感動詞
等、音声発話に特有の冗長語を取り除くようにすると良
い。
等、音声発話に特有の冗長語を取り除くようにすると良
い。
【0024】また、判別処理は、疑問文のみを処理命令
文として許容する等、連続音声により構成される文の文
型の種類に制約を設け、制約に適合した文が構成された
時点で「処理命令文」が構成されたものと判別するよう
にすると良い。
文として許容する等、連続音声により構成される文の文
型の種類に制約を設け、制約に適合した文が構成された
時点で「処理命令文」が構成されたものと判別するよう
にすると良い。
【0025】さらに、ここで言う「記憶手段」とは、読
み書き可能なフラッシュメモリ等の半導体メモリ装置を
用いると良く、「応答生成手段」の出力としては、文
字、画像、音声などの媒体が考えられ、「処理手段」と
しては、マイクロプロセッサ等の処理装置を用いること
が望ましい。
み書き可能なフラッシュメモリ等の半導体メモリ装置を
用いると良く、「応答生成手段」の出力としては、文
字、画像、音声などの媒体が考えられ、「処理手段」と
しては、マイクロプロセッサ等の処理装置を用いること
が望ましい。
【0026】さらに、ここで言う「文情報」とは、形態
素解析および構文解析によって、間投詞や感動詞等、音
声発話に特有の冗長語が取り除かれた単語列の集合であ
る文と共に、文内の主語、述語等の文法的記述が包含さ
れたものを意味する。
素解析および構文解析によって、間投詞や感動詞等、音
声発話に特有の冗長語が取り除かれた単語列の集合であ
る文と共に、文内の主語、述語等の文法的記述が包含さ
れたものを意味する。
【0027】さらに又、「コンピュータ読み取り可能な
記録媒体」とは、例えば、半導体メモリ、磁気ディス
ク、光ディスク、光磁気ディスク、磁気テープ、デジタ
ルビデオディスク等、プログラムを記録することができ
るコンピュータ読み取り可能な媒体や電気信号等の通信
媒体を用いると良い。
記録媒体」とは、例えば、半導体メモリ、磁気ディス
ク、光ディスク、光磁気ディスク、磁気テープ、デジタ
ルビデオディスク等、プログラムを記録することができ
るコンピュータ読み取り可能な媒体や電気信号等の通信
媒体を用いると良い。
【0028】
【発明の実施の形態】以下、図1乃至図5を用いて、本
発明の実施形態に係わる音声入力対話装置の構成および
その動作について説明する。
発明の実施形態に係わる音声入力対話装置の構成および
その動作について説明する。
【0029】本発明の実施形態に係わる音声入力対話装
置は、図1に示すように、連続的に入力された音声(連
続音声入力)を認識し、連続音声に相当する単語列情報
を出力する連続音声認識部101と、連続音声認識部1
01から出力された単語列情報および文情報生成部20
0から出力される文情報を解釈するための情報を格納し
た言語辞書105と、言語辞書105の内容を参照して
連続音声認識部101から出力された単語列情報から文
情報を生成する文情報生成部200と、言語辞書105
を用いて文情報が指定する処理命令内容を抽出する意味
解析部102と、意味解析部102において抽出された
文情報が指定する処理命令内容を実行する処理部103
と、処理部103の処理結果を出力する応答生成部10
4とを備え、さらに、文情報生成部200は、図2に示
すように、連続音声認識部101から出力された単語列
情報を格納するためのバッファ部(記憶手段)201
と、バッファ部202内の単語列情報を文節(形態素)
毎に分解する形態素解析部202と、形態素解析結果を
用いてバッファ部201内の単語列情報に対して構文解
析を行い、文情報を生成する構文解析部203と、予め
設定された制約条件に基づいて文情報が処理命令文を構
成しているか否か判別し、処理命令文である場合に構文
解析部203から意味解析部102に文情報を出力し、
処理命令でない場合には再度文情報生成処理を実行する
判別部204と、意味解析部102に文情報を出力した
後にバッファ部201内に格納された文情報を消去する
等、文情報生成部200内の構成要素の動作を制御する
制御部205を有している。
置は、図1に示すように、連続的に入力された音声(連
続音声入力)を認識し、連続音声に相当する単語列情報
を出力する連続音声認識部101と、連続音声認識部1
01から出力された単語列情報および文情報生成部20
0から出力される文情報を解釈するための情報を格納し
た言語辞書105と、言語辞書105の内容を参照して
連続音声認識部101から出力された単語列情報から文
情報を生成する文情報生成部200と、言語辞書105
を用いて文情報が指定する処理命令内容を抽出する意味
解析部102と、意味解析部102において抽出された
文情報が指定する処理命令内容を実行する処理部103
と、処理部103の処理結果を出力する応答生成部10
4とを備え、さらに、文情報生成部200は、図2に示
すように、連続音声認識部101から出力された単語列
情報を格納するためのバッファ部(記憶手段)201
と、バッファ部202内の単語列情報を文節(形態素)
毎に分解する形態素解析部202と、形態素解析結果を
用いてバッファ部201内の単語列情報に対して構文解
析を行い、文情報を生成する構文解析部203と、予め
設定された制約条件に基づいて文情報が処理命令文を構
成しているか否か判別し、処理命令文である場合に構文
解析部203から意味解析部102に文情報を出力し、
処理命令でない場合には再度文情報生成処理を実行する
判別部204と、意味解析部102に文情報を出力した
後にバッファ部201内に格納された文情報を消去する
等、文情報生成部200内の構成要素の動作を制御する
制御部205を有している。
【0030】ここで、「処理部」103としては、マイ
クロプロセッサ等の処理装置を用いることが好ましく、
「応答生成部」104の出力としては、文字、画像、音
声などの媒体が考えられ、「バッファ部」201として
は、読み書き可能なフラッシュメモリ等の半導体メモリ
装置を用いることが好ましい。
クロプロセッサ等の処理装置を用いることが好ましく、
「応答生成部」104の出力としては、文字、画像、音
声などの媒体が考えられ、「バッファ部」201として
は、読み書き可能なフラッシュメモリ等の半導体メモリ
装置を用いることが好ましい。
【0031】尚、「言語辞書」105内には、連続音声
の内容を解釈し、その意味内容に相当する処理命令を生
成するために必要な、連続音声に係わる言語、文法的技
術、概念的記述が包含されているものとする。また、
「言語辞書」105は、音声入力対話装置100内に設
けずに、言語辞書と対話装置とを電気通信網やコンピュ
ータネットワーク等の通信手段を介して接続するように
して、装置外に設置しても良い。
の内容を解釈し、その意味内容に相当する処理命令を生
成するために必要な、連続音声に係わる言語、文法的技
術、概念的記述が包含されているものとする。また、
「言語辞書」105は、音声入力対話装置100内に設
けずに、言語辞書と対話装置とを電気通信網やコンピュ
ータネットワーク等の通信手段を介して接続するように
して、装置外に設置しても良い。
【0032】また、一般的に、連続音声の解釈は、1)
連続的に入力された音声を文節毎に分解する形態素解析
処理、2)分解された連続音声の構文構造を解析する処
理、3)構文構造から連続音声全体の意味解釈を行う意
味解析処理の3段階の処理を経て行われるが、本発明の
実施形態に係わる音声入力対話装置においては、これら
3つの処理をそれぞれ、形態素解析部202、構文解析
部203、意味解析部102において実行し、連続音声
を解釈、処理命令を実行している。
連続的に入力された音声を文節毎に分解する形態素解析
処理、2)分解された連続音声の構文構造を解析する処
理、3)構文構造から連続音声全体の意味解釈を行う意
味解析処理の3段階の処理を経て行われるが、本発明の
実施形態に係わる音声入力対話装置においては、これら
3つの処理をそれぞれ、形態素解析部202、構文解析
部203、意味解析部102において実行し、連続音声
を解釈、処理命令を実行している。
【0033】さらに、ここでいう「文情報」とは、形態
素解析および構文解析によって、間投詞や感動詞等、音
声発話に特有の冗長語が取り除かれた単語列の集合であ
る文と共に、文内の主語、述語等の文法的記述が包含さ
れた情報を意味し、その後の判別処理、意味解析処理を
文単位で容易に行うことを可能にするものである。
素解析および構文解析によって、間投詞や感動詞等、音
声発話に特有の冗長語が取り除かれた単語列の集合であ
る文と共に、文内の主語、述語等の文法的記述が包含さ
れた情報を意味し、その後の判別処理、意味解析処理を
文単位で容易に行うことを可能にするものである。
【0034】この本発明の実施形態に係わる音声入力対
話装置100を用いて音声入力対話処理を行う際は、図
3に示すように、 (1)(連続音声認識、ステップS201)始めに、入
力された連続音声を認識する。
話装置100を用いて音声入力対話処理を行う際は、図
3に示すように、 (1)(連続音声認識、ステップS201)始めに、入
力された連続音声を認識する。
【0035】(2)(単語列出力、ステップS202)
次に、認識された連続音声に相当する単語列情報を出力
する。
次に、認識された連続音声に相当する単語列情報を出力
する。
【0036】(3)(単語列接続、ステップS203)
次に、単語列情報をバッファ部201内に格納する。こ
の際、バッファ部201内に既に単語列情報が存在する
場合は既存の単語列情報と格納する単語列情報とを接続
するようにする(実験例参照)。
次に、単語列情報をバッファ部201内に格納する。こ
の際、バッファ部201内に既に単語列情報が存在する
場合は既存の単語列情報と格納する単語列情報とを接続
するようにする(実験例参照)。
【0037】(4)(形態素解析、ステップS204)
続いて、バッファ部201内に格納された単語列情報を
文節毎に分解する。
続いて、バッファ部201内に格納された単語列情報を
文節毎に分解する。
【0038】(5)(構文解析、ステップS205)次
に、形態解析の結果に基づいて、バッファ部201内に
格納された単語列情報に対して構文解析を行い、文情報
を生成する。ここで、構文解析の際に、間投詞や感動詞
等、音声発話に特有の冗長語を取り除くようにし、文情
報には、音声発話に特有の冗長語が取り除かれた単語列
の集合である文と共に、文内の主語、述語等の文法的記
述を含ませるようにする。
に、形態解析の結果に基づいて、バッファ部201内に
格納された単語列情報に対して構文解析を行い、文情報
を生成する。ここで、構文解析の際に、間投詞や感動詞
等、音声発話に特有の冗長語を取り除くようにし、文情
報には、音声発話に特有の冗長語が取り除かれた単語列
の集合である文と共に、文内の主語、述語等の文法的記
述を含ませるようにする。
【0039】(6)(判別、ステップS206)次に、
構文解析により生成された文情報を制約条件等を参照し
て処理命令文であるか否か判別する。この判別処理は、
具体的には、例えば、「〜ですか」等の語尾で終わる装
置に対する疑問文のみを処理命令文として許容する等、
装置が許容する文型の種類に制約を設け、制約に合った
文をもって「文」が構成されたと判別するようにする。
構文解析により生成された文情報を制約条件等を参照し
て処理命令文であるか否か判別する。この判別処理は、
具体的には、例えば、「〜ですか」等の語尾で終わる装
置に対する疑問文のみを処理命令文として許容する等、
装置が許容する文型の種類に制約を設け、制約に合った
文をもって「文」が構成されたと判別するようにする。
【0040】処理命令文が成立 → (文情報出力、
ステップS207)へ 処理命令文が不成立 → (連続音声認識、ステップS
201)へ (7)(文情報出力、ステップS207)続いて、判別
の結果、文情報が処理命令文が構成していると判断され
た場合、文情報を意味解析部102に出力する。
ステップS207)へ 処理命令文が不成立 → (連続音声認識、ステップS
201)へ (7)(文情報出力、ステップS207)続いて、判別
の結果、文情報が処理命令文が構成していると判断され
た場合、文情報を意味解析部102に出力する。
【0041】(8)(バッファクリア、ステップS20
8)文情報を意味解析部102に出力した後、バッファ
部201の内容を消去する。
8)文情報を意味解析部102に出力した後、バッファ
部201の内容を消去する。
【0042】(9)(意味解析、ステップS209)次
に、構文解析部203から出力された文情報が指定する
処理命令内容を抽出する。
に、構文解析部203から出力された文情報が指定する
処理命令内容を抽出する。
【0043】(10)(処理実行、ステップS210)
次に、意味解析により抽出された処理命令内容を実行
し、実行結果を応答生成部104を介して出力する。
次に、意味解析により抽出された処理命令内容を実行
し、実行結果を応答生成部104を介して出力する。
【0044】(11)(追加処理判別、ステップS21
1)最後に、追加の音声入力(処理)が存在するか否か
連続音声の入力の有無を確認する。
1)最後に、追加の音声入力(処理)が存在するか否か
連続音声の入力の有無を確認する。
【0045】追加の処理がある場合 → (連続音声認
識、ステップS201)へ 追加の処理がない場合 → 音声対話処理終了 このように、本発明の実施形態に係わる音声入力対話装
置およびその方法によれば、自然な話し言葉の連続発話
により利用することができるので、装置の音声入力に対
する柔軟性が向上し、連続音声に対する対話応答機能を
改善することができるのである。さらには、音声入力を
文として再構成する手段を装置内に独立的に備え、処理
命令文が構成された判断した後、文単位で処理を実行す
るので、音声認識手段の負荷を軽減した上に、装置の処
理速度を向上することができる。
識、ステップS201)へ 追加の処理がない場合 → 音声対話処理終了 このように、本発明の実施形態に係わる音声入力対話装
置およびその方法によれば、自然な話し言葉の連続発話
により利用することができるので、装置の音声入力に対
する柔軟性が向上し、連続音声に対する対話応答機能を
改善することができるのである。さらには、音声入力を
文として再構成する手段を装置内に独立的に備え、処理
命令文が構成された判断した後、文単位で処理を実行す
るので、音声認識手段の負荷を軽減した上に、装置の処
理速度を向上することができる。
【0046】尚、本発明の実施形態に係わる音声入力対
話装置は、プログラム化しコンピュータ読み取り可能な
記録媒体内に格納しても良い。そして、音声入力対話プ
ログラムを実行する際は、この記録媒体をコンピュータ
システムに読み込ませ、コンピュータシステム内のメモ
リ等の記録部に音声入力対話プログラムを格納し、音声
入力対話プログラムを処理装置に実行させることによ
り、本発明の実施形態に係わる音声入力対話装置および
その方法をコンピュータシステム上で実現することがで
きる。尚、ここで、記録媒体とは、例えば、半導体メモ
リ、磁気ディスク、光ディスク、光磁気ディスク、磁気
テープ、デジタルビデオディスク等、プログラムを記録
することができるコンピュータ読み取り可能な媒体や電
気信号等の通新媒体のことを意味する。
話装置は、プログラム化しコンピュータ読み取り可能な
記録媒体内に格納しても良い。そして、音声入力対話プ
ログラムを実行する際は、この記録媒体をコンピュータ
システムに読み込ませ、コンピュータシステム内のメモ
リ等の記録部に音声入力対話プログラムを格納し、音声
入力対話プログラムを処理装置に実行させることによ
り、本発明の実施形態に係わる音声入力対話装置および
その方法をコンピュータシステム上で実現することがで
きる。尚、ここで、記録媒体とは、例えば、半導体メモ
リ、磁気ディスク、光ディスク、光磁気ディスク、磁気
テープ、デジタルビデオディスク等、プログラムを記録
することができるコンピュータ読み取り可能な媒体や電
気信号等の通新媒体のことを意味する。
【0047】この際、本発明の実施形態に係わる音声入
力対話装置は、例えば、図4に示すような概観を有する
ようになる。つまり、本発明の実施形態に係わる音声入
力対話装置はコンピュータシステム50内に音声入力対
話装置100の各要素を内蔵することにより構成され
る。コンピュータシステム50は、フロッピーディスク
ドライブ51および光ディスクドライブ53を備えてい
る。そして、フロッピーディスクドライブ51に対して
はフロッピーディスク52、光ディスクドライブ53に
対しては光ディスク54をそれぞれ挿入し、所定の読み
出し操作を行うことにより、これらの記録媒体に格納さ
れた音声入力対話プログラムをコンピュータシステム5
0内にインストールすることができる。また、適当なド
ライブ装置をコンピュータシステム50に接続すること
により、例えば、メモリ装置の役割を担うROM55
や、磁気テープ装置の役割を担うカートリッジ56を用
いて、音声入力対話プログラムのインストールを実行す
ることも可能である。
力対話装置は、例えば、図4に示すような概観を有する
ようになる。つまり、本発明の実施形態に係わる音声入
力対話装置はコンピュータシステム50内に音声入力対
話装置100の各要素を内蔵することにより構成され
る。コンピュータシステム50は、フロッピーディスク
ドライブ51および光ディスクドライブ53を備えてい
る。そして、フロッピーディスクドライブ51に対して
はフロッピーディスク52、光ディスクドライブ53に
対しては光ディスク54をそれぞれ挿入し、所定の読み
出し操作を行うことにより、これらの記録媒体に格納さ
れた音声入力対話プログラムをコンピュータシステム5
0内にインストールすることができる。また、適当なド
ライブ装置をコンピュータシステム50に接続すること
により、例えば、メモリ装置の役割を担うROM55
や、磁気テープ装置の役割を担うカートリッジ56を用
いて、音声入力対話プログラムのインストールを実行す
ることも可能である。
【0048】このように、本発明はここでは記載してい
ない様々な実施の形態を包含するということは十分に理
解すべきである。したがって、本発明はこの開示から妥
当な特許請求の範囲に係わる発明特定事項によってのみ
限定されるものでなければならない。
ない様々な実施の形態を包含するということは十分に理
解すべきである。したがって、本発明はこの開示から妥
当な特許請求の範囲に係わる発明特定事項によってのみ
限定されるものでなければならない。
【0049】(実験例)最後に、本発明の実施形態に係
わる音声入力対話装置100に「この車のタイプは何で
すか」という連続音声が入力された時の対話処理を例に
挙げ、本発明の実施形態に係わる文情報生成部200の
動作について詳しく説明する。
わる音声入力対話装置100に「この車のタイプは何で
すか」という連続音声が入力された時の対話処理を例に
挙げ、本発明の実施形態に係わる文情報生成部200の
動作について詳しく説明する。
【0050】本発明の実施形態に係わる音声入力対話装
置100に「この車のタイプは何ですか」という連続音
声が入力された時には、 (1)始めに、連続音声認識部101が時刻T=T1に
おいて入力された文字列情報「この」を認識し、バッフ
ァ部201内に文字列情報「この」を格納する。尚、こ
の例の場合、バッファ部201内にはもともと文字列情
報が格納されていなかった(nul)ものとする。
置100に「この車のタイプは何ですか」という連続音
声が入力された時には、 (1)始めに、連続音声認識部101が時刻T=T1に
おいて入力された文字列情報「この」を認識し、バッフ
ァ部201内に文字列情報「この」を格納する。尚、こ
の例の場合、バッファ部201内にはもともと文字列情
報が格納されていなかった(nul)ものとする。
【0051】(2)次に、バッファ部201内の文字列
情報「この」に対して形態素解析、構文解析を実行す
る。
情報「この」に対して形態素解析、構文解析を実行す
る。
【0052】(3)構文解析結果及び制約条件に基づい
て、バッファ部201内の文字列情報「この」が文とし
て成り立っているか否か判別する。ここでは、処理可能
な文は成り立っていないものと判断して、次の文字列情
報の入力を待機する。
て、バッファ部201内の文字列情報「この」が文とし
て成り立っているか否か判別する。ここでは、処理可能
な文は成り立っていないものと判断して、次の文字列情
報の入力を待機する。
【0053】(4)続いて、連続音声認識部101が時
刻T=T2において入力された文字列情報「車」を認識
し、バッファ部201内の文字列情報「この」と新規の
文字列情報「車」を接続し、文字列情報を「この車」と
して格納する。
刻T=T2において入力された文字列情報「車」を認識
し、バッファ部201内の文字列情報「この」と新規の
文字列情報「車」を接続し、文字列情報を「この車」と
して格納する。
【0054】(5)次に、バッファ部201内の文字列
情報「この車」に対して形態素解析、構文解析を実行す
る。
情報「この車」に対して形態素解析、構文解析を実行す
る。
【0055】(6)構文解析結果及び制約条件に基づい
て、バッファ部201内の文字列情報「この車」が文と
して成り立っているか否か判別する。ここでも、処理可
能な文は成り立っていないと判断して、次の文字列情報
の入力を待つ。
て、バッファ部201内の文字列情報「この車」が文と
して成り立っているか否か判別する。ここでも、処理可
能な文は成り立っていないと判断して、次の文字列情報
の入力を待つ。
【0056】(7)上記のループ処理をバッファ部20
1内の文字列情報が文として成り立つと判別されるまで
実行し、文が成り立っていると判断した文字列情報(時
刻T=T8における「この車のタイプは何ですか」)に
対して意味解析処理に移行し、処理を実行する。
1内の文字列情報が文として成り立つと判別されるまで
実行し、文が成り立っていると判断した文字列情報(時
刻T=T8における「この車のタイプは何ですか」)に
対して意味解析処理に移行し、処理を実行する。
【0057】この例においては、「〜ですか」という処
理装置に対する質問文が構成されて始めて装置にとって
意味のある「文」が成立したものと判別し、その質問に
対する処理が実行に移されるのである。
理装置に対する質問文が構成されて始めて装置にとって
意味のある「文」が成立したものと判別し、その質問に
対する処理が実行に移されるのである。
【0058】
【発明の効果】以上述べてきたように、本発明の音声入
力対話装置によれば、自然な話し言葉の連続発話により
利用することができるので、装置の音声入力に対する柔
軟性が向上し、連続音声に対する対話応答機能を改善す
ることができる。さらには、音声入力を文として再構成
する手段を装置内に独立的に備え、処理命令文が構成さ
れた判断した後、文単位で処理を実行するので、音声認
識手段の負荷を軽減した上に、装置の処理速度を向上す
ることができる。
力対話装置によれば、自然な話し言葉の連続発話により
利用することができるので、装置の音声入力に対する柔
軟性が向上し、連続音声に対する対話応答機能を改善す
ることができる。さらには、音声入力を文として再構成
する手段を装置内に独立的に備え、処理命令文が構成さ
れた判断した後、文単位で処理を実行するので、音声認
識手段の負荷を軽減した上に、装置の処理速度を向上す
ることができる。
【0059】また、本発明の音声入力対話方法によれ
ば、自然な話し言葉の連続発話により利用することがで
きるので、入力される音声に対する対話処理の柔軟性が
向上し、連続音声に対する対話応答機能を改善すること
ができるのである。さらには、音声入力を文として再構
成し、処理命令文が構成された判断した後、文単位で対
話処理を実行するので、装置の処理速度を向上すること
ができる。
ば、自然な話し言葉の連続発話により利用することがで
きるので、入力される音声に対する対話処理の柔軟性が
向上し、連続音声に対する対話応答機能を改善すること
ができるのである。さらには、音声入力を文として再構
成し、処理命令文が構成された判断した後、文単位で対
話処理を実行するので、装置の処理速度を向上すること
ができる。
【0060】さらに、本発明の音声入力対話プログラム
を格納したコンピュータ読み取り可能な記録媒体によれ
ば、自然な話し言葉の連続発話により利用することがで
きるので、入力される音声に対する対話処理の柔軟性が
向上し、連続音声に対する対話応答機能を改善すること
ができるのである。さらには、音声入力を文として再構
成し、処理命令文が構成された判断した後、文単位で対
話処理を実行するので、装置の処理速度を向上すること
ができる。
を格納したコンピュータ読み取り可能な記録媒体によれ
ば、自然な話し言葉の連続発話により利用することがで
きるので、入力される音声に対する対話処理の柔軟性が
向上し、連続音声に対する対話応答機能を改善すること
ができるのである。さらには、音声入力を文として再構
成し、処理命令文が構成された判断した後、文単位で対
話処理を実行するので、装置の処理速度を向上すること
ができる。
【図1】本発明の実施形態に係わる音声入力対話装置の
構成を示すブロック図である。
構成を示すブロック図である。
【図2】本発明の実施形態に係わる文情報生成部の構成
を示すブロック図である。
を示すブロック図である。
【図3】本発明の実施形態に係わる音声入力対話方法を
示すフローチャート図である。
示すフローチャート図である。
【図4】本発明の実施形態に係わる音声入力対話装置の
概観を示す図である。
概観を示す図である。
【図5】本発明の実施形態に係わる音声入力対話方法の
実験例を示す図である。
実験例を示す図である。
【図6】従来の音声入力対話装置の構成を示すブロック
図である。
図である。
1 音声入力対話装置 2 単語音声認識部 3 応答生成部 4 コマンド辞書部 5 コマンド判別部 6 コマンド実行部 50 コンピュータシステム 51 フロッピーディスクドライブ 52 フロッピーディスク 53 光ディスクドライブ 54 光ディスク 55 ROM 56 カートリッジ 100 音声入力対話装置 101 連続音声認識部 102 意味解析部 103 処理部 104 応答生成部 105 言語辞書 200 文情報生成部 201 バッファ部 202 形態素解析部 203 構文解析部 204 判別部 205 制御部
Claims (3)
- 【請求項1】 入力された連続音声を認識し、当該連続
音声に相当する単語列情報を出力する連続音声認識手段
と、 前記単語列情報および後記文情報を解釈するための情報
を格納した言語辞書と、 前記言語辞書を用いて前記単語列情報から文情報を生成
する文情報生成手段と、 前記言語辞書を用いて前記文情報が指定する処理命令の
内容を抽出する意味解析手段と、 前記処理命令の内容を実行する処理手段と、 前記処理手段の処理結果を出力する応答生成手段とを備
え、 前記文情報生成手段は、 前記単語列情報を格納するための記憶手段と、 前記記憶手段内の単語列情報を文節毎に分解する形態素
解析手段と、 形態素解析を行った記憶手段内の単語列情報に対して構
文解析を行い、文情報を生成する構文解析手段と、 前記文情報が処理命令文を構成しているか否か判別し、
処理命令文である場合に前記意味解析手段に当該文情報
を出力し、処理命令文でない場合は前記記憶手段内の単
語列情報を更新し、再度文情報を生成させる判別部とを
有することを特徴とする音声入力対話装置。 - 【請求項2】 入力された連続音声を認識し、当該連続
音声に相当する単語列情報を出力するステップと、 前記単語列情報を記憶手段内に格納するステップと、 前記記憶手段内の単語列情報を文節毎に分解する形態素
解析ステップと、 形態素解析を行った記憶手段内の単語列情報に対して構
文解析を行い、文情報を生成する構文解析ステップと、 前記文情報が処理命令文を構成しているか否か判別し、
処理命令文でない場合は前記記憶手段内の単語列情報を
更新し、再度文情報を生成させる判別ステップと、 前記文情報が処理命令文を構成している場合、当該文情
報が指定する処理命令の内容を抽出する意味解析ステッ
プと、 前記処理命令の内容を実行し、実行結果を出力する処理
ステップとから成ることを特徴とする音声入力対話方
法。 - 【請求項3】 入力された連続音声を認識し、当該連続
音声に相当する単語列情報を出力する処理と、 前記単語列情報を記憶手段内に格納する処理と、 前記記憶手段内の単語列情報を文節毎に分解する形態素
解析処理と、 形態素解析を行った記憶手段内の単語列情報に対して構
文解析を行い、文情報を生成する構文解析処理と、 前記文情報が処理命令文を構成しているか否か判別し、
処理命令文でない場合は前記記憶手段内の単語列情報を
更新し、再度文情報を生成させる判別処理と、 前記文情報が処理命令文を構成している場合、当該文情
報が指定する処理命令の内容を抽出する意味解析処理
と、 前記処理命令の内容を実行し、実行結果を出力する処理
とを含み、これらの処理をコンピュータに実行させるこ
とを特徴とする音声入力対話プログラムを格納したコン
ピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11081240A JP2000276326A (ja) | 1999-03-25 | 1999-03-25 | 音声入力対話装置、音声入力対話方法および音声入力対話プログラムを格納したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11081240A JP2000276326A (ja) | 1999-03-25 | 1999-03-25 | 音声入力対話装置、音声入力対話方法および音声入力対話プログラムを格納したコンピュータ読み取り可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000276326A true JP2000276326A (ja) | 2000-10-06 |
Family
ID=13740912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11081240A Pending JP2000276326A (ja) | 1999-03-25 | 1999-03-25 | 音声入力対話装置、音声入力対話方法および音声入力対話プログラムを格納したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000276326A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7734468B2 (en) | 2002-12-11 | 2010-06-08 | Samsung Electronics Co., Ltd. | Method of and apparatus for managing dialog between user and agent |
WO2021051507A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 一种机器人对话生成方法、装置、可读存储介质及机器人 |
CN113793611A (zh) * | 2021-08-27 | 2021-12-14 | 上海浦东发展银行股份有限公司 | 评分方法、装置、计算机设备和存储介质 |
-
1999
- 1999-03-25 JP JP11081240A patent/JP2000276326A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7734468B2 (en) | 2002-12-11 | 2010-06-08 | Samsung Electronics Co., Ltd. | Method of and apparatus for managing dialog between user and agent |
WO2021051507A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 一种机器人对话生成方法、装置、可读存储介质及机器人 |
CN113793611A (zh) * | 2021-08-27 | 2021-12-14 | 上海浦东发展银行股份有限公司 | 评分方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Black et al. | Building synthetic voices | |
US7249019B2 (en) | Method and apparatus for providing an integrated speech recognition and natural language understanding for a dialog system | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
US7072837B2 (en) | Method for processing initially recognized speech in a speech recognition session | |
US6374224B1 (en) | Method and apparatus for style control in natural language generation | |
US7865357B2 (en) | Shareable filler model for grammar authoring | |
EP0664535A2 (en) | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars | |
CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
KR20050111182A (ko) | 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템 | |
US6449589B1 (en) | Elimination of left recursion from context-free grammars | |
JP4684409B2 (ja) | 音声認識方法及び音声認識装置 | |
De Mori et al. | Automatic detection and description of syllabic features in continuous speech | |
Seneff | The use of linguistic hierarchies in speech understanding | |
JPH08505957A (ja) | 音声認識システム | |
JP2000276326A (ja) | 音声入力対話装置、音声入力対話方法および音声入力対話プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP4392581B2 (ja) | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 | |
JP2871557B2 (ja) | 音声認識装置 | |
JPH08248980A (ja) | 音声認識装置 | |
KR20200101891A (ko) | 복합 문장 분석 장치, 이를 위한 기록매체 | |
JPH06202688A (ja) | 音声認識装置 | |
Chen et al. | Large vocabulary word recognition based on tree-trellis search | |
Niemann et al. | The interaction of word recognition and linguistic processing in speech understanding | |
JP2003162524A (ja) | 言語処理装置 | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040727 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041207 |