JP2002287791A

JP2002287791A - 専門家システムを用いた音声認識基盤の知能型対話装置及びその方法

Info

Publication number: JP2002287791A
Application number: JP2001080938A
Authority: JP
Inventors: Hoon Kim; フン・キム
Original assignee: GLOBAL DATA SYSTEM CO Ltd
Current assignee: GLOBAL DATA SYSTEM CO Ltd
Priority date: 2001-03-21
Filing date: 2001-03-21
Publication date: 2002-10-04

Abstract

(57)【要約】【課題】話者の音声を認識し、適切な状況と既存の資
料とを通じて話者との対話を可能とした専門家システム
を用いた音声認識基盤の知能型対話装置及びその方法を
提供すること。【解決手段】本発明は、音声認識のために話者独立型
音声認識（特定人に関係なく殆ど全ての人々の音声を認
識する）技術を適用し、音素基盤の自然語対話ができる
ようにし、しかも特別な学習なしでも単語を自由に追加
することができるようにし、さらに平均１秒内外の応答
時間で最適な対話状態を維持することができるようにす
る。また、音声認識の時、雑音除去技術を付加し、周辺
環境の影響を受けずに対話を行えるようにする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、専門家システムを
用いた音声認識基盤の知能型対話装置及びその方法に係
り、特に話者の音声を認識し、適切な状況と既存の資料
とを通じて話者との対話を可能とした専門家システムを
用いた音声認識基盤の知能型対話装置及びその方法に関
する。

【０００２】

【従来の技術】一般に、既存の音声認識技術は、話者従
属型音声認識（特定人の音声だけを認識する）又は不連
続的単語認識であって、多数の人々はそれを使用できな
く、発音時にも一言ずつ区切って言うべきであるという
不便さがあった。

【０００３】また、新しい単語を追加するためには何回
かの学習を必要とし、一回認識してから答えてくれるま
では２〜４秒の遅延時間がかかるという問題があった。

【０００４】その他、老若男女、音声の高低、音声トー
ンの変換に敏感に反応し過ぎて正しく認識できないとい
う問題があった。

【０００５】また、音声認識後それに対する応答方式
（ＴＴＳ）においても、一般人はぎこちないイントネー
ション及びトーンのため気まずく感じるなど、全般的に
音声認識技術を製品化することはなかなか難しいことで
あった。

【０００６】最近はかかる音声認識の問題点を解決する
ために、話者独立型音声認識（特定人に関係なく音声認
識が可能である）、可変語認識（特別な学習なしでも単
語追加が可能である）、連続音認識（連続的な発音を認
識する）、周辺環境に対する独立的認識等の技術が開発
されている。

【０００７】しかし、このように開発される音声認識装
置を適用した製品においても、事前に脚本によって話者
の応答が制限されるという短所がある。即ち、甲を言え
ば乙と答えるという方式となっているので、対話媒体と
してはまだ足りないのである。

【０００８】また、一回作成された内容は更新できない
ので、限定された対話内容のため技術の寿命面における
問題点が発生した。

【０００９】一方、一般に、専門家システムは、専門家
の知識をコンピューターシステムに記憶し、専門家の判
断手続きと同様にシステムプロセスを進行するよう具現
されたシステムであって、推論手続きを通じて最も理想
的な結果を取り出せるよう構築されたシステムである。

【００１０】従来の専門家システムが適用された分野を
調べてみると、医療診断システム、機械故障診断システ
ム、地下鉱物判断システム、気象情報システム等の高難
度の産業に多様に適用されていた。しかしながら、こう
した優秀性にもかかわらず、消費材やサービスの関連分
野への進出は積極的に行われていない。

【００１１】

【発明が解決しようとする課題】従って、本発明はかか
る従来の音声認識装置の諸般の問題点と専門家システム
の断片的な適用問題とを解決するために提案されたもの
で、その目的は、話者の音声を認識し、適切な状況と既
存の資料とを通じて話者との対話を可能とした専門家シ
ステムを用いた音声認識基盤の知能型対話装置を提供す
ることにある。

【００１２】また、本発明の他の目的は、話者の音声を
認識し、適切な状況と既存の資料とを通じて話者との対
話を可能とした専門家システムを用いた音声認識基盤の
知能型対話方法を提供することにある。

【００１３】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、音声認識のために話者独立型音声認識
（特定人に関係なく殆ど全ての人々の音声を認識する）
技術を適用し、音素基盤の自然語対話ができるように
し、しかも特別な学習なしでも単語を自由に追加するこ
とができるようにし、さらに平均１秒内外の応答時間で
最適な対話状態を維持することができるようにする。ま
た、音声認識の時、雑音除去技術を付加し、周辺環境の
影響を受けずに対話を行えるようにする。

【００１４】尚、音声認識装置に専門家システムを付加
し、話者の基本資料を記憶している状態においてそれを
基礎として話者の言葉を認識するとともに、専門家シス
テムの知識ベース（Knowledge Base）を活用することに
より、多くのルールを適用し、話者の質問に対して高い
レベルの最も適切な応答を提供できるようにする。

【００１５】即ち、自分の周辺環境資料を話者の基本資
料として入力し、話者レベルの思考を可能とする専門家
システムのルールを構成することにより、友達レベルの
対話ができるようにする。

【００１６】

【発明の実施の形態】以下、上記のような技術的思想に
係る本発明の好適な実施の形態を添付図に基づいて詳細
に説明する。

【００１７】(実施の形態１)図１は、本発明に係る専門
家システムを用いた音声認識基盤の知能型対話装置の構
成を示す図である。

【００１８】図１において、参照符号１０はユーザの音
声を認識し、その認識された音声に対する応答を合成音
声として送出する音声認識装置を示し、参照符号２０は
前記音声認識装置で認識された音素データを、後段の専
門家システムの認識できるデータに変換して前記専門家
システムに伝達し、前記専門家システムから出力される
応答データを前記音声認識装置１０に伝達するデータ変
換装置を示す。また、参照符号３０は前記データ変換装
置２０を介して伝達される音素データに対応する応答を
取り出し、その取り出した応答を前記データ変換装置２
０に伝達する専門家システムを示す。

【００１９】ここで、前記音声認識装置１０は、ユーザ
の音声を音素単位に分析し、検討された主な質問語を選
択してデータ化する音素基盤音声分析部１１と、前記デ
ータ変換装置２０から伝達されるデータに該当する音声
データを出力する音声データベース１２と、前記音声デ
ータベース１２から出力される音声データを合成音声と
してユーザに送出する音声合成部１３とから構成され
る。

【００２０】また、前記専門家システム３０は、入力さ
れた質問内容を分析して分類し、適切なルールに連結さ
せ、ルール適用後選択された応答内容を受けて前記デー
タ変換装置２０に伝達する推論エンジン３１と、前記推
論エンジン３１で設定されるルールに、ワーキングメモ
リ３３から引き出したファクト（Fact）を適用して質問
に対する応答を抽出し、その応答を前記推論エンジン３
１に伝達する応答抽出部３２と、ユーザとの対話を通し
て取得した複数の基本ファクト及び、ルールに適用する
条件の集合体であるファクトを記憶したワーキングメモ
リ３３とから構成される。

【００２１】このように構成された本発明に係る専門家
システムを用いた音声認識基盤の知能型対話装置は、ま
ず、ユーザの音声を認識し、その認識された音声に対す
る応答を合成音声として送出する音声認識装置１０内の
音素基盤音声分析部１１は、ユーザから質問音声が入力
されると、それを音素単位に分析し、その分析結果に応
じて主な質問語を選択してデータ化した後、データ変換
装置２０に伝達する。

【００２２】前記データ変換装置２０は、入力される質
問語の音素データを専門家システム３０に適用すること
ができるように、前記質問語の音素データを専門家シス
テム３０の認識できるデータに変換して前記専門家シス
テム３０に伝達する。

【００２３】前記専門家システム３０は、前記データ変
換装置２０を介して伝達される音素データに対応する応
答を取り出し、その取り出した応答を前記データ変換装
置２０に伝達する。

【００２４】即ち、専門家システム３０内の推論エンジ
ン３１は、知識ベース（KnowledgeBase）内のルール（R
ule）とファクト（Fact）を管理するシステムであり、
応答抽出部３２でのルール適用の案内にスーパールール
として関与する装置であって、入力された質問内容を分
析して分類し、適切なルールに連結させる。

【００２５】これにより、応答抽出部３２は、前記推論
エンジン３１のルール適用により、予め設定されたルー
ルのうち前記適用されたルールを設定し、その設定され
たルールの条件に該当するファクトをワーキングメモリ
３３から引き出した後、前記設定されたルールに適用さ
せ、その結果値をユーザの入力質問語の応答として前記
推論エンジン３１に伝達する。ここで、応答抽出部３２
は応答誘導ルールの集合体であり、専門家システムの性
能は該ルールの適用に依存している。従って、本発明の
応答抽出部３２は、各製品の特色に合わせて、各質問と
応答を各分野の専門家の諮問に基づいて予め作成した
後、それをルールに変更して応答抽出部３２に記憶して
おく。

【００２６】また、ワーキングメモリ３３は、ファクト
を記憶するところであって、ルールに適用する条件の集
合体である。初期にユーザとの対話を通して取得した基
本ファクト（例えば、名前、性格、年、趣味など）もこ
こに記憶し、ルールの条件に合わせて適用されるように
する。

【００２７】一方、推論エンジン３１は、前記応答抽出
部３２で得られる応答を前記データ変換装置２０に伝達
し、前記データ変換装置２０はその伝達される応答デー
タを音声として出力するように、助詞などを含んで変換
した応答データを音声認識装置１０に伝達する。

【００２８】前記音声認識装置１０内の音声データベー
ス１２は、前記データ変換装置２０が要求する応答デー
タに該当する音声をデータベースから選択し、この際、
適切な助詞の音声データも共に選択して音声合成部１３
に伝達する。

【００２９】前記音声合成部１３は前記音声データベー
ス１２から伝達される複数の音声を合成してユーザの質
問語に対する応答として送出する。ここで、音声合成部
１３は音声と音声間の間隔、高低、助詞等を考慮し、ユ
ーザにスムーズに聞こえるように複数の音声を合成して
送出する。

【００３０】(実施の形態２)図２は、本発明に係る専門
家システムを用いた音声認識基盤の知能型対話方法を示
す流れ図である。図２のＳはステップ（Step）を示す。

【００３１】図２に示すように、ユーザ音声の入力を受
ける段階（Ｓ１）と、前記入力を受けた音声を音素単位
に分析する段階（Ｓ２）と、前記分析した音素データを
専門家システムの認識できるデータに変換する段階（Ｓ
３）と、前記変換したデータを認識し、推論による最適
なルールを選択する段階（Ｓ４）と、前記選択したルー
ルの条件に合うファクトを前記ルールに適用し、入力さ
れた質問に対する結果を抽出する段階（Ｓ５）と、前記
段階で得られた結果を新規ファクトとしてワーキングメ
モリに記憶した後、応答を抽出する段階（Ｓ６）と、前
記抽出した応答を音声認識装置の認識できるデータに変
換する段階（Ｓ７）と、前記変換したデータに対応する
音声データを抽出する段階（Ｓ８）と、前記抽出した音
声データを合成する段階（Ｓ９）と、前記合成した音声
をスピーカを介してユーザに出力する段階（Ｓ１０）と
から構成される。

【００３２】このように構成される本発明に係る専門家
システムを用いた音声認識基盤の知能型対話方法は、ま
ず、段階Ｓ１でユーザ音声の入力を受け、段階Ｓ２で入
力を受けた音声を音素単位に分析して入力された音声を
認識する。

【００３３】次いで、段階Ｓ３で前記認識した音素デー
タを専門家システムの認識できるデータに変換し、段階
Ｓ４で前記変換したデータを認識し、推論による最適な
ルールを選択する。

【００３４】その後、段階Ｓ５で前記選択したルールの
条件に合うファクトをワーキングメモリから引き出し、
その引き出したファクトを前記選択したルールに適用
し、その結果を抽出する。

【００３５】次に、段階Ｓ６で前記抽出した結果データ
を新規ファクトとして前記ワーキングメモリに記憶した
後、再度繰り返してルールを適用し、最後の結果を入力
質問に対する応答として抽出する。その後、段階Ｓ７で
前記抽出した応答を音声認識装置の認識できるデータに
変換する。

【００３６】次いで、段階Ｓ８で前記変換したデータに
対応する音声データを音声データベースから抽出し、段
階Ｓ９で前記抽出した音声データを合成する。

【００３７】その後、段階Ｓ１０で前記合成した音声を
スピーカを介してユーザに出力する。

【００３８】以上説明した本発明は、対話内容の更新が
可能なので、新しい製品への内容更新が可能であり、対
話チップを交替することによって簡単に新システムに変
更することができる。結局、子供用、寂しい老人用、独
身者用、患者用等に製品を区別して適用することがで
き、さらに各システムのルールを変更して異なる対話及
び応答を聞くことができるなどのバージョンの変更がで
きるようになる。

【００３９】また、音声認識と専門家システムを用いて
英語教育等に適用することができる。尚、話者の発音を
認識、判断してそのレベルを判別するシステムとして活
用することができる。

【００４０】

【発明の効果】以上説明したように、本発明の専門家シ
ステムを用いた音声認識基盤の知能型対話装置及びその
方法によれば、音声認識装置と専門家システムを結合し
てより知能的な対話システムを具現することができるの
で、話者の音声を認識し、適切な状況と既存の資料とを
通じて、話者とのスムーズな対話を可能とするという利
点がある。

【００４１】また、便利性と正確性を共に具現すること
ができるので、対話型教育システム、老人福祉次元の対
話システム、医学用治療システム等に適用可能であると
いう利点がある。

【００４２】尚、音声認識と専門家システムを用いて英
語教育等に適用することができ、更に話者の発音を認
識、判断してそのレベルを判別するシステムとして活用
することができる。

【図面の簡単な説明】

【図１】本発明に係る専門家システムを用いた音声認
識基盤の知能型対話装置の構成を示す図である。

【図２】本発明に係る専門家システムを用いた音声認
識基盤の知能型対話装置の方法を示す流れ図である。

【符号の説明】

１０音声認識装置、２０データ変換装置、３０専
門家システム。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/18 Ｇ１０Ｌ 3/00 ５３７Ａ (71)出願人 501111614 ７＆８Ｆｌｏｏｒ，ＳａｍｉｋＢｕｉｌｄｉｎｇ， 50 Ｎｏｎｈｙｕｎ−ｄｏｎｇ，Ｋａｎｇｎａｍ−ｇｕ，Ｓｅｏｕｌ，Ｋｏｒｅａ (72)発明者フン・キム大韓民国、ソウル、カンドン−グ、ミョンイル−ドン 257、チュゴン・ハイ−ライズ・アパートメント 904−507 Ｆターム(参考） 5B091 AA15 BA19 CA02 CA12 CA26 CB12 CB32 CC04 5D015 AA05 HH14 LL02 LL06 5D045 AB30

Claims

【特許請求の範囲】

【請求項１】対話システムにおいて、ユーザの音声を認識し、その認識された音声に対する応
答を合成音声として送出する音声認識装置と、前記音声認識装置で認識された音素データを、後段の専
門家システムの認識できるデータに変換して前記専門家
システムに伝達し、前記専門家システムから出力される
応答データを前記音声認識装置に伝達するデータ変換装
置と、前記データ変換装置を介して伝達される音素データに対
応する応答を取り出し、その取り出した応答を前記デー
タ変換装置に伝達する専門家システムとを含んで構成さ
れることを特徴とする専門家システムを用いた音声認識
基盤の知能型対話装置。
【請求項２】前記音声認識装置は、ユーザの音声を音
素単位に分析し、検討された主な質問語を選択してデー
タ化する音素基盤音声分析部と、前記データ変換装置か
ら伝達されるデータに該当する音声データを出力する音
声データベースと、前記音声データベースから出力され
る音声データを合成音声としてユーザに送出する音声合
成部とから構成されることを特徴とする請求項１記載の
専門家システムを用いた音声認識基盤の知能型対話装
置。
【請求項３】前記専門家システムは、入力された質問
内容を分析して分類し、適切なルールに連結させ、ルー
ル適用後選択された応答内容を受けて前記データ変換装
置に伝達する推論エンジンと、前記推論エンジンで設定
されるルールにワーキングメモリから引き出したファク
ト（Fact）を適用して質問に対する応答を抽出し、その
応答を前記推論エンジンに伝達する応答抽出部と、ユー
ザとの対話を通して取得した基本ファクト及び、ルール
に適用する条件の集合であるファクトを記憶したワーキ
ングメモリとから構成されることを特徴とする請求項１
記載の専門家システムを用いた音声認識基盤の知能型対
話装置。
【請求項４】対話装置を用いた対話方法において、ユ
ーザの音声の入力を受ける段階と、前記入力を受けた音
声を音素単位に分析する段階と、前記分析した音素デー
タを専門家システムの認識できるデータに変換する段階
と、前記変換したデータを認識し、推論による最適なルール
を選択する段階と、前記選択したルールの条件に合うファクトを前記ルール
に適用してその結果を抽出する段階と、前記段階で得られた結果を新規ファクトとしてワーキン
グメモリに記憶した後、ルールを続けて適用し、入力さ
れた質問に対する応答を抽出する段階と、前記抽出した応答を音声認識装置の認識できるデータに
変換する段階と、前記変換したデータに対応する音声データを抽出する段
階と、前記抽出した音声データを合成する段階と、前記合成した音声をスピーカを介してユーザに出力する
段階とを含んでなることを特徴とする専門家システムを
用いた音声認識基盤の知能型対話方法。