JP2002342065A - 音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム - Google Patents

音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム

Info

Publication number
JP2002342065A
JP2002342065A JP2001151441A JP2001151441A JP2002342065A JP 2002342065 A JP2002342065 A JP 2002342065A JP 2001151441 A JP2001151441 A JP 2001151441A JP 2001151441 A JP2001151441 A JP 2001151441A JP 2002342065 A JP2002342065 A JP 2002342065A
Authority
JP
Japan
Prior art keywords
rule
voice
state
application
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001151441A
Other languages
English (en)
Inventor
Minako Miyamoto
美奈子 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001151441A priority Critical patent/JP2002342065A/ja
Publication of JP2002342065A publication Critical patent/JP2002342065A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ユーザインタフェースに優れた音声ガイダン
ス生成装置、音声ガイダンス生成方法、およびそのプロ
グラムを提供する。 【解決手段】 音声認識部1は、ユーザが入力した音声
を認識しキーワ−ドに変換して、状態ルール決定部2に
送る。状態管理部3から装置の現在の状態を取得する。
状態ルール決定部3は、これらを基に、アプリケーショ
ン実行に際しての状態ルールを決定する。状態ルールに
は、システム主導型、ユーザ主導型、システム主導割り
込み型、およびユーザ主導割り込み型がある。これらの
分類におけるガイダンスパターン等は、状態決定ルール
格納部4に格納されている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータや電
話等のアプリケーションを操作するための、一般にコマ
ンドといわれているような操作を音声でも行なうことが
できる音声ガイダンス生成装置、音声ガイダンス生成方
法、およびそのプログラムに関する。
【0002】
【従来の技術】コンピュータ等のアプリケーションの操
作を音声で行なう場合、ユーザが発声するべき内容は、
マニュアル等に記載されていることが多い。また、最近
では、画面に音声コマンドが表示されるものも出始めて
いる。また、電話等では、システムとユーザが対話を行
なうシステムも、開発されてきた。
【0003】このように、ユーザとシステムとのインタ
フェースを向上させる従来技術として、特開2000−
200094号公報は、音声コマンドの入力に対し、当
該コマンドの内容に機能的に関連するディスプレイ上の
確認領域にフィードバックする技術を開示している。
【0004】また、特開平05−101255号公報
は、利用者の操作誘導画面を表示するに当り、当該装置
の媒体の挿入および排出部位の全体配置を示し、さら
に、当該媒体の挿入および受取時にその全体配置イラス
トから引出線を用いる要領で、当該媒体の挿入および受
取の個々のイラストおよび文言を組合わせて表示する現
金自動取引装置を開示している。
【0005】また、特開平11−225204号公報
は、外出先のファクシミリ装置の操作により、このファ
クシミリ装置に、留守番電話機に記憶されているリモー
ト操作コードの内容を記憶媒体に記録させるリモート操
作機能付き留守番電話機を開示している。
【0006】
【発明が解決しようとする課題】従来の電話を中心とし
た画面無しの対話システムにおいて、システムは、ユー
ザが音声入力により発声するべきコマンドやシステムの
状態を全て音声で通知しなければならなかった。そのた
め、システムの質問に対してユーザが答えるというシス
テム主導型の対話が中心であった。
【0007】特に、人間が一度に聞いて理解する内容に
は、限界があるので、選択肢の数が限られている。ま
た、対話の途中でユーザからの質問を受け付けたり、シ
ステムの状態変化を通知する等の割り込み処理を行なっ
たり、ユーザ主導に切り替えたりすることは難しいとい
う問題があった。さらに、設計者にとってこうした対話
フローを作成するには、手間がかかるという問題もあっ
た。
【0008】上記特開2000−200094号公報、
特開平05−101255号公報、特開平11−225
204号公報等は、これらの問題点を解消するために開
示された技術であるが、アプリケーションの実行するジ
ョブの種類により、ユーザとシステムとの対話形態にバ
リエーションを設けて、そのジョブに適したユーザイン
タフェース環境を提供するといった視点はなかった。
【0009】本発明は、上記問題点に鑑みなされたもの
であり、ユーザ側からも問いを発することができたり、
対話中に割り込み処理が可能であったり、コマンドの種
類により対話形態を変化させる等、ユーザインタフェー
スに優れた音声ガイダンス生成装置、音声ガイダンス生
成方法、およびそのプログラムを提供することを目的と
する。
【0010】
【課題を解決するための手段】かかる目的を達成するた
めに、請求項1記載の発明は、ユーザの音声を入力し認
識する音声認識手段と、自装置の現在の状態を管理し格
納する状態管理手段と、音声認識手段により認識された
認識結果をキーに、所定の数に分類されたユーザとの対
話形態のルールを格納する状態決定ルール格納手段と、
音声認識手段により認識された音声認識の結果と、状態
管理手段に格納された現在の状態とに対応したルールを
状態決定ルール格納手段から読み出し、アプリケーショ
ンを制御するルールを決定する状態ルール決定手段と、
状態ルール決定手段により決定されたルールにより、コ
マンドを実行するアプリケーション実行手段と、状態ル
ール決定手段により決定されたルールにより、アプリケ
ーションの状態およびユーザが発声するべき音声コマン
ドを表示および/または音声出力する表示・音声出力手
段と、を有することを特徴としている。
【0011】請求項2記載の発明は、請求項1記載の発
明において、アプリケーション実行手段は、アプリケー
ションの状態を監視し、アプリケーションに特定の状態
変化が起こると、状態変化の認識結果を生成し、状態ル
ール決定手段に送ることを特徴としている。
【0012】請求項3記載の発明は、請求項1または2
記載の発明において、状態管理手段は、音声認識手段に
より認識された音声認識の結果と、状態決定ルール格納
手段から読み出したルールと、アプリケーション実行手
段により実行されたアプリケーションの実行結果と、表
示・音声出力手段に表示している音声コマンドと、の組
み合わせにより現在の状態を管理することを特徴として
いる。
【0013】請求項4記載の発明は、請求項1から3の
いずれか1項に記載の発明において、状態決定ルール格
納手段は、ユーザとの対話形態を、ユーザ主導型、装置
主導型、ユーザ主導割り込み型、装置主導割り込み型に
4つに分類して部品化することを特徴としている。
【0014】請求項5記載の発明は、請求項1から4の
いずれか1項に記載の発明において、状態決定ルール格
納手段は、音声コマンドの出力形態と、ユーザとの対話
形態のルールのパタンと、を組み合わせたものを部品化
することを特徴としている。
【0015】請求項6記載の発明は、請求項1から5の
いずれか1項に記載の発明において、状態決定ルール格
納手段は、アプリケーションの状態の通知を、アプリケ
ーションの状態をパタン化し、パタン化したアプリケー
ションの状態と、通知の内容と、通知の出力形態と、を
組み合わせたものを部品化することを特徴としている。
【0016】請求項7記載の発明は、請求項1から6の
いずれか1項に記載の発明において、状態決定ルール格
納手段は、音声コマンドの表示から一定時間が経過す
る、一定時間にユーザの発声がない、およびユーザの発
声が正確でない場合のいずれかの場合の動作を、分類ご
とに設定し、設定を経過時間と、経過時間内の発声状態
と、自装置の動作と、の組み合わせにより記述すること
を特徴としている。
【0017】請求項8記載の発明は、ユーザの音声を入
力し認識する音声認識工程と、音声認識工程により認識
された音声認識の結果と、自装置の現在の状態を管理し
ている状態管理部に管理された現在の状態とに対応した
ルールを、音声認識工程により認識された認識結果をキ
ーに、所定の数に分類されたユーザとの対話形態のルー
ルを格納する状態決定ルール格納部から読み出し、アプ
リケーションを制御するルールを決定する状態ルール決
定工程と、状態ルール決定工程により決定されたルール
により、コマンドを実行するアプリケーション実行工程
と、状態ルール決定工程により決定されたルールによ
り、アプリケーションの状態およびユーザが発声するべ
き音声コマンドを表示および/または音声出力する表示
・音声出力工程と、を有することを特徴としている。
【0018】請求項9記載の発明は、請求項8記載の発
明において、アプリケーションの状態を監視し、アプリ
ケーションに特定の状態変化が起こると、状態変化の認
識結果を生成するアプリケーション監視工程をさらに有
し、状態ルール決定工程は、アプリケーション決定工程
により生成された認識結果を基に、アプリケーションを
制御するルールを決定することを特徴としている。
【0019】請求項10記載の発明は、請求項8または
9記載の発明において、状態管理部は、音声認識工程に
より認識された音声認識の結果と、状態決定ルール格納
部から読み出したルールと、アプリケーション実行工程
により実行されたアプリケーションの実行結果と、表示
・音声出力工程により表示している音声コマンドと、の
組み合わせにより現在の状態を管理することを特徴とし
ている。
【0020】請求項11記載の発明は、請求項8から1
0のいずれか1項に記載の発明において、状態決定ルー
ル格納部は、ユーザとの対話形態を、ユーザ主導型、装
置主導型、ユーザ主導割り込み型、装置主導割り込み型
に4つに分類して部品化して格納していることを特徴と
している。
【0021】請求項12記載の発明は、請求項8から1
1のいずれか1項に記載の発明において、状態決定ルー
ル格納部は、音声コマンドの出力形態と、ユーザとの対
話形態のルールのパタンと、を組み合わせたものを部品
化して格納していることを特徴としている。
【0022】請求項13記載の発明は、請求項8から1
2のいずれか1項に記載の発明において、状態決定ルー
ル格納部は、アプリケーションの状態の通知を、アプリ
ケーションの状態をパタン化し、パタン化したアプリケ
ーションの状態と、通知の内容と、通知の出力形態と、
を組み合わせたものを部品化して格納していることを特
徴としている。
【0023】請求項14記載の発明は、請求項8から1
3のいずれか1項に記載の発明において、状態決定ルー
ル格納部は、音声コマンドの表示から一定時間が経過す
る、一定時間にユーザの発声がない、およびユーザの発
声が正確でない場合のいずれかの場合の動作を、分類ご
とに設定し、設定を経過時間と、経過時間内の発声状態
と、自装置の動作と、の組み合わせにより記述すること
を特徴としている。
【0024】請求項15記載の発明は、ユーザの音声を
入力し認識する音声認識処理と、音声認識処理により認
識された音声認識の結果と、自装置の現在の状態を管理
している状態管理部に管理された現在の状態とに対応し
たルールを、音声認識処理により認識された認識結果を
キーに、所定の数に分類されたユーザとの対話形態のル
ールを格納する状態決定ルール格納部から読み出し、ア
プリケーションを制御するルールを決定する状態ルール
決定処理と、状態ルール決定処理により決定されたルー
ルにより、コマンドを実行するアプリケーション実行処
理と、状態ルール決定処理により決定されたルールによ
り、アプリケーションの状態およびユーザが発声するべ
き音声コマンドを表示および/または音声出力する表示
・音声出力処理と、をコンピュータに実行させることを
特徴としている。
【0025】請求項16記載の発明は、請求項15記載
の発明において、アプリケーションの状態を監視し、ア
プリケーションに特定の状態変化が起こると、状態変化
の認識結果を生成するアプリケーション監視処理をさら
に実行し、状態ルール決定処理は、アプリケーション決
定処理により生成された認識結果を基に、アプリケーシ
ョンを制御するルールを決定することを特徴としてい
る。
【0026】請求項17記載の発明は、請求項15また
は16記載の発明において、状態管理部は、音声認識処
理により認識された音声認識の結果と、状態決定ルール
格納部から読み出したルールと、アプリケーション実行
処理により実行されたアプリケーションの実行結果と、
表示・音声出力処理により表示している音声コマンド
と、の組み合わせにより現在の状態を管理することを特
徴としている。
【0027】請求項18記載の発明は、請求項15から
17のいずれか1項に記載の発明において、状態決定ル
ール格納部は、ユーザとの対話形態を、ユーザ主導型、
装置主導型、ユーザ主導割り込み型、装置主導割り込み
型に4つに分類して部品化して格納していることを特徴
としている。
【0028】請求項19記載の発明は、請求項15から
18のいずれか1項に記載の発明において、状態決定ル
ール格納部は、音声コマンドの出力形態と、ユーザとの
対話形態のルールのパタンと、を組み合わせたものを部
品化して格納していることを特徴としている。
【0029】請求項20記載の発明は、請求項15から
19のいずれか1項に記載の発明において、状態決定ル
ール格納部は、アプリケーションの状態の通知を、アプ
リケーションの状態をパタン化し、パタン化したアプリ
ケーションの状態と、通知の内容と、通知の出力形態
と、を組み合わせたものを部品化して格納していること
を特徴としている。
【0030】請求項21記載の発明は、請求項15から
20のいずれか1項に記載の発明において、状態決定ル
ール格納部は、音声コマンドの表示から一定時間が経過
する、一定時間にユーザの発声がない、およびユーザの
発声が正確でない場合のいずれかの場合の動作を、分類
ごとに設定し、設定を経過時間と、経過時間内の発声状
態と、自装置の動作と、の組み合わせにより記述するこ
とを特徴としている。
【0031】
【発明の実施の形態】以下、本発明の実施形態を添付図
面を参照しながら詳細に説明する。
【0032】図1は、本発明の実施形態における音声ガ
イダンス生成装置の構成を示すブロック図である。本実
施形態における音声ガイダンス生成装置は、スピーカ、
ディスプレイを搭載する各種の情報端末機器に適用可能
である。例えば、携帯電話機PHS、PDA、ディスク
トップ型PC、ノート型PC、ファクシミリ装置、ディ
スプレイ付き固定電話機等に適用可能である。
【0033】本実施形態における音声ガイダンス生成装
置は、音声認識部1、状態ルール決定部2、状態管理部
3、状態決定ルール記述部4、アプリケーション実行部
5、および表示・音声出力部7を備える。アプリケーシ
ョン6は、アプリケーション実行部5に提供される。
【0034】音声認識部1は、ユーザの音声を入力し認
識する。状態管理部3は、システムの現在の状態を格納
する。状態決定ルール格納部2は、音声認識部1から得
られた認識結果と、現在の状態に応じてアプリケーショ
ンのコマンドを決定し、コマンドの実行結果に応じて表
示・音声出力部7への出力内容を決定するためのルール
を格納する。
【0035】状態ルール決定部2は、音声認識の結果と
現在の状態に応じたルールを読み出し、アプリケーショ
ンの制御方法を決定する。アプリケーション実行部5
は、状態ルール決定部2で決定されたアプリケーション
のコマンドを実行する。表示・音声出力部7は、アプリ
ケーションの状態やユーザが発声するべき音声コマンド
を表示または音声出力する。
【0036】また、音声認識部1からユーザの発声によ
りアプリケーションの制御が行なわれた場合とは別に、
アプリケーションの状態が変化した場合、アプリケーシ
ョンは、アプリケーションの状態変化の結果を状態ルー
ル決定部2に送る。状態ルール決定部2は、当該アプリ
ケーションの状態変化の結果と、現在の状態に応じたル
ールを読み出し、アプリケーションを制御する方法を決
定する。
【0037】音声認識部1は、ユーザによる音声入力を
入力するマイクロフォン11、音声認識装置12、キー
ワード変換装置13、および認識辞書14を備えてい
る。
【0038】音声認識装置12は、マイクロフォン1よ
り入力された音声を一定時間間隔の特徴ベクトルとして
解析する。さらにこれらの特徴ベクトルと予め作成され
た認識辞書14の単語とのマッチングを行い、類似度が
最も高い単語を認識結果として出力する。類似度が所定
値に達しない場合、該当単語なしとして、その認識結果
を出力する。認識辞書14は、認識候補となる単語と、
単語の組み合わせと、単語とキーワードとの対応付けを
したテーブルを格納している。
【0039】図5は、認識辞書14に格納される音声コ
マンドの辞書の一例を示している。認識辞書14には、
単語と、単語の組み合わせと、各単語のよみ、表記、キ
ーワードを登録する。
【0040】図5(a)は、「メールを」、「送る」、
「送信する」、「見る」、「とは何ですか」の5つの単
語を登録する例を示している。このうち、「送る」、
「送信する」の2単語は、キーワードと単語の対応関係
において、共通のキーワード“Send”を割り当ててい
る。このように、同義語や類義語には、共通のキーワー
ドを割り当てる。
【0041】図5(b)は、単語を組み合わせて音声コ
マンドを定義する例を示している。図5(a)に示す辞
書に登録された各単語(グループA、B、C)を、図5
(b)は、グループAB(文法1)、グループABC
(文法2)と組み合わせて定義している。
【0042】具体的には、この辞書では、「メールを
(A)送る(B)」、「メールを送信する」、「メール
を見る」、「メールを送るとは何ですか」、「メールを
送信するとは何ですか」、「メールを見るとは何です
か」の6種類の音声コマンドが認識できることを示して
いる。
【0043】キーワード変換装置13は、音声認識装置
12で得られた認識結果の中からキーワードを抽出す
る。図4に示す例を用いて説明すると、キーワード変換
装置13は、音声認識装置12が音声コマンド「メール
を送る」を認識すると、“Mail”、”Send”の2つのキ
ーワードを抽出する。
【0044】状態管理部3は、キーワード記憶装置3
1、状態ルール記憶装置32、アプリケーション実行結
果記憶装置33、および表示・音声出力結果記憶装置3
4を備える。
【0045】キーワード記憶装置31は、音声認識部1
または、アプリケーション実行部5で生成されたキーワ
ードの組み合わせを記憶する。状態ルール記憶装置32
は、キーワード記憶装置31に記憶されているキーワー
ドの組み合わせに対して適用したルールの番号を記憶す
る。
【0046】アプリケーション実行結果記憶装置33
は、アプリケーション実行部5でアプリケーションコマ
ンドを実行した結果を記憶する。表示・音声出力結果記
憶装置34は、表示・音声出力部7でガイダンス画面に
表示されている音声コマンドを記憶する。
【0047】図6は、状態管理部3に保存するデータの
一例を説明するための図である。図6は、音声認識部1
で得られたキーワードの組み合わせ”Mail”と”Show”
が、キーワード記憶装置31に記憶されていることを示
している。また、キーワードの組み合わせ”Mail”と”
Show”により状態ルール決定部2により決定されたルー
ルの番号が1であり、これが状態ルール記憶装置32に
記憶されていることを示している。
【0048】また、アプリケーション実行部5において
ルール番号1が適用された場合のアプリケーションへの
コマンドを実行した実行結果が、”TRUE”であり、この
値がアプリケーション実行結果記憶装置33に記憶され
ることを示している。また、表示・音声出力部7におい
て、ルール番号1が適用された場合に表示される音声コ
マンドが、”返事を書く”、”新しいメールを書く”、
“メールを読む”、“その他のことをする”であり、こ
れらの音声コマンドが表示・音声出力結果記憶装置34
に記憶されることを示している。
【0049】アプリケーション実行部5は、状態ルール
決定部2で決定された状態ルールを受けて、アプリケー
ション6にコマンドを送信し、アプリケーション6での
実行結果を受信する。また、アプリケーション6の状態
を監視し、特定の状態変化が起こるとキーワードに変換
して状態ルール決定部2に送信する。
【0050】アプリケーション実行部5は、コマンド送
信装置51、コマンド実行結果受信装置52、およびア
プリケーション監視装置53を備える。
【0051】コマンド送信装置51は、状態ルール決定
部2で決定された状態ルールを受けてアプリケーション
6にコマンドを送信する。コマンド実行結果受信装置5
2は、アプリケーション6でのコマンドの実行結果を受
信し、表示・音声出力部7に送信するとともに、状態管
理部3に送信する。状態管理部3のアプリケーション実
行結果記憶装置33は、当該実行結果を保存する。
【0052】アプリケーション監視装置53は、アプリ
ケーション6の状態を監視し、特定のコマンドが実行さ
れると、キーワードの組み合わせを生成し状態ルール決
定部2に送信する。
【0053】図7は、アプリケーション監視装置の動作
を説明するための図である。図7は、検出するコマンド
と生成するキーワードの対応関係を示している。具体的
には、アプリメーションの3つのコマンド“初期化”と
“メール自動受信”と“終了”を検出し、コマンド“初
期化”が実行されると、キーワード”Init”が生成さ
れ、コマンド“メールの自動受信”が実行されると、キ
ーワード“Got ”キーワード“Mail”キーワード“Mail
Num ”の3つのキーワードが生成され、コマンド“終
了”が実行されると、キーワード”exit”が生成される
ことを示している。
【0054】状態遷移ルール記述部4は、キーワード記
述部41、ガイダンスタイプ記述部42、音声コマンド
記述部43、システムメッセージ記述部44、およびア
プリケーション記述部45より構成される。
【0055】キーワード記述部41は、ルールが選択さ
れる条件であるキーワードの組み合わせを記述する。ガ
イダンスタイプ記述部42は、状態遷移ルールのタイプ
を記述する。タイプは、システム主導型、ユーザ主導
型、システム主導割り込み型、ユーザ主導割り込み型の
4つがあり、いずれかが指定される。音声コマンド記述
部43は、ガイダンスに表示する次の作業の候補となる
音声コマンドを記述する。
【0056】システムメッセージ記述部44は、アプリ
ケーションの状態をユーザに通知する方法として予め定
められたタイミングごとに出力するメッセージを記述す
る。当該タイミングは、アプリケーションコマンドの実
行前、実行後(成功)、実行後(失敗)、表示コマンド
以外の音声コマンドが発声された時、ルールが選択され
て一定時間経過しその間に別のルールが選択されなかっ
た時の5つに分けられる。システムメッセージ記述部4
4は、各タイミングでの通知内容文と通知方法を記述す
る。
【0057】この通知方法には、通知文を画面に表示し
音声出力する、通知文を画面に表示し音声出力しない、
通知文を画面に出力せず音声出力するの3つの方法があ
り、いずれかが選択される。アプリケーション記述部4
5は、アプリケーションに送信するコマンドを記述す
る。
【0058】図8は、アプリケーションがメーラを想定
した場合の状態決定ルールの一例を示している。図8に
おいて、ルール番号1は、システム主導型のルールの一
例を示しており、メールの送信の操作を想定している。
【0059】システム主導型とは、例えば、 システム:「メールを送信しますか」 ユーザ:「はい」 のようにシステムがユーザに対して提案を行い、ユーザ
がそれに対して答えるという対応形式である。
【0060】システム主導型は、ユーザが発声するべき
音声コマンドが画面の音声コマンドの領域に表示され、
それ以外の音声コマンドは棄却される。例えば、「メー
ルを送信しますか」という音声コマンドに対して、ユー
ザが発声するべき音声コマンドが「はい」および「いい
え」であるとすると システム:「メールを送信しますか? 」 ユーザ:「メールを送信するとは何? 」 システム:「メールを送信しますか? “はい”か“いい
え”で答えてください」 のように、「はい」または「いいえ」以外の音声が入力
された場合は、通知を行なって棄却する。
【0061】ルール番号1は、音声認識結果から得られ
るキーワードが“Mail”と“Send”のセットである場合
に適用するルールであることを示している。このルール
が適用されると、画面の音声コマンドの領域には、“は
い”と“いいえ”の2種類の音声コマンドが表示され、
“はい”、“いいえ”以外の音声コマンドは棄却するこ
とを意味している。
【0062】また、このルールが適用されると、“メー
ルを送信しますか”とシステムメッセージの領域に表示
されるとともに、音声出力する。また、“はい”、“い
いえ”以外の音声コマンドが入力されると、“メールを
送信しますか、“はい”か“いいえ”で答えてくださ
い。”とシステムメッセージの領域に表示されるととも
に、音声出力する。さらに、ルールが選ばれて一定時間
が経過すると、“音声コマンドの入力がありません”と
システムメッセージの領域に表示されるとともに、音声
出力する。
【0063】図8において、ルール番号3は、ユーザ主
導型のルールの一例を示しており、メールの表示を想定
している。
【0064】ユーザ主導型とは、例えば、 ユーザ:「メールを見せて」 システム:「メールを表示します」 のように、ユーザの発声に対して、システムが動作を行
なうという形式の対応である。ユーザ主導型では、ユー
ザが発声するべきは、画面の音声コマンドの領域に示さ
れているが、表示された以外の音声コマンドを発声して
も受けつけられる。
【0065】ルール番号3は、キーワード“Mail”と
“Show”の組み合わせに適用されるルールを示してい
る。このルールが適用されると、画面の音声コマンドの
領域には、“返事を書く”、“新しいメールを書く”
“メールを読む”、“その他のことをする”の4つが表
示される。また、アプリケーションにおいて、“MailSe
nd”のコマンドが実行される。
【0066】実行結果が成功した場合、“メールを表示
します”とシステムメッセージの領域に表示されるとと
もに、音声出力する。実行結果が失敗した場合、“メー
ルを表示できません”とシステムメッセージの領域に表
示する。さらに、ルールが選ばれて一定時間が経過する
と、“音声コマンドの入力がありません”とシステムメ
ッセージの領域に表示されるとともに、音声出力する。
【0067】図8において、ルール番号4は、ユーザ主
導割り込み型のルールの一例を示しており、コマンドの
機能を質問する機能を想定している。
【0068】ユーザ主導割り込み型とは、例えばアプリ
ケーションの作業中に、音声コマンドの内容が分からな
い場合に ユーザ:「“メールを読む”とは何」 システム:「“メールを見たい”とは、新しいメールを
受信することです」 のように、コマンドの内容に関する質問や、 ユーザ:「今の料金を教えて」 システム:「接続時間160時間を越えたので2000
円です」 などプロバイダの接続量を計算させるなど、単発的な操
作を割り込んで行なう形式の応答を表している。
【0069】ユーザ主導割り込み型は、画面に割り込み
操作の結果を表示したり音声で通知するほか、現在表示
中の音声コマンドに追加して表示する。また、ユーザ主
導割り込み型は、実行後(成功)、実行後(失敗)、コ
マンド以外の発声が起こったときの3種類のタイミング
でのシステムメッセージが記述されても無視する。
【0070】ルール番号4は、キーワード“Mail”と
“Read”と“What”の3つのキーワードの組み合わせに
対して適用するルールを示している。音声コマンドにつ
いてルールの記述がないので、音声コマンドの領域は、
ルールが適用以前の音声コマンドが表示され続ける。ル
ール番号4が適用されると、“メールを読むとは新しい
メールを受け取ることです”とシステムメッセージの領
域に表示されるとともに、音声出力する。
【0071】図8において、ルール番号5は、システム
主導割り込み型の一例を示しており、作業中にメールの
自動受信があった場合のルールを示している。
【0072】システム主導割り込み型とは、メールを作
成中に自動受信機能により、新着メールを受信し、 システム:「新しいメールが到着しました」 と通知するように、アプリケーションの状態が変化し
て、現在の作業に割り込んでアプリケーションの状態変
化を通知する形式のものである。
【0073】ここでは、キーワード“Mail”と“Got ”
の2つのキーワードの組み合わせに対して適用するルー
ルを示している。ルールが適用されると、画面の音声コ
マンドの領域には、表示中の音声コマンドに加え“メー
ルを読む”が表示される。また、“メールが到着しまし
た。”とシステムメッセージの領域に表示されるととも
に、音声出力する。
【0074】次に、図2〜図4を参照して、本発明の実
施形態における音声ガイダンス生成方法について説明す
る。図2、図3は、本発明の実施形態における音声ガイ
ダンス生成装置を使用した音声ガイダンス生成方法を説
明するためのフローチャートである。
【0075】図2において、本装置は、音声が検出され
ると(ステップS200/YES)、マイクロフォン1
1より入力された音声に対して認識辞書14を用いてマ
ッチング処理する。音声認識の結果が算出された場合
(ステップS201/YES)、キーワードの組み合わ
せに変換する(ステップS203)。また、音声が検出
されなくとも(ステップS200/NO)、アプリケー
ションに状態の変化が起こった場合は(ステップS20
2/YES)、同様にアプリケーションの状態の変化を
キーワードの組み合わせに変換する(ステップS20
3)。
【0076】図3に遷移し、キーワードが生成される
と、現在の状態(現在適用しているルールのガイダンス
タイプ、音声コマンド)を状態管理部3より読み出す
(ステップS210)。現在のルール番号のガイダンス
タイプがシステム主導型以外ならば(ステップS211
/YES)、算出されたキーワードの組と一致するルー
ルを読み出して適用するルールを決定する(ステップS
212)。
【0077】ステップS211において、現在適用して
いるルールのガイダンスタイプが、システム主導型なら
ば(ステップS210/NO)、現在表示中の音声コマ
ンドに対応するキーワードの組み合わせと一致している
か否かを判断する(ステップS230)。一致している
場合(ステップS230/YES)、音声認識部1で算
出されたキーワードの組と一致するルールを読み出して
適用するルールを決定する(ステップS212)。
【0078】キーワードの組み合わせと一致していない
場合(ステップS230/NO)、結果を表示・音声出
力部7に送信し、システムメッセージを更新して(ステ
ップS231)、終了する。
【0079】キーワードの組み合わせに対応したルール
を読み出した後(ステップS212)、ルール番号を状
態管理部3の状態ルール記憶装置32に送信して、ルー
ル番号の更新する(ステップS213)。また、画面・
音声出力部7は、システムメッセージの更新をする。
【0080】読み出したルールにアプリケーションコマ
ンドがある場合(ステップS214/YES)、アプリ
ケーションコマンドを実行し(ステップS215)、実
行結果を状態管理部3のアプリケーション実行結果記憶
装置33で保存し(ステップS216)、システムメッ
セージを更新する(ステップS217)。
【0081】また、読み出したルールにアプリケーショ
ンコマンドがない場合(ステップS214/NO)は、
画面・音声出力部7の音声コマンドを更新する(ステッ
プ217)。
【0082】アプリケーションの実行結果が成功である
場合(ステップS218/YES)、音声コマンドを更
新し(ステップS219)、保存する(ステップS22
0)。実行結果が失敗の場合は(ステップS218/N
O)、終了する。
【0083】図4は、図3のステップS219における
音声コマンドの更新動作を説明するためのフローチャー
トである。音声コマンドの更新は、適用するルールのガ
イダンスタイプがシステム主導型またはユーザ主導型の
場合(ステップS301/YES)、読み出したルール
に記述された音声コマンドを入れ替えて表示する(ステ
ップS302)。
【0084】ガイダンスタイプがシステム主導割り込み
型およびユーザ主導割り込み型の場合(ステップS30
1/NO)、これらの型は割り込み処理であるため、現
在表示中の音声コマンドに、読み出したルールに記述さ
れた音声コマンドを追加して表示する(ステップS30
3)。
【0085】なお、本発明の音声ガイダンス生成方法
は、プログラムにより実行可能である。当該プログラム
は、光記録媒体、磁気記録媒体、または半導体記録媒体
に記録されて装置に提供される。また、ネットワークを
介して、FTP(ファイル転送プロトコル)により装置
にダウンロードされて提供される。
【0086】なお、上述した実施の形態は、本発明の好
適な実施の形態の一例を示すものであり、本発明はそれ
に限定されることなく、その要旨を逸脱しない範囲内に
おいて、種々変形実施が可能である。
【0087】
【発明の効果】以上の説明から明らかなように、本発明
の音声ガイダンス生成装置、音声ガイダンス方法、およ
びそのプログラムによれば、次に発声するべき音声コマ
ンドを音声で通知するとともに、ディスプレイに表示
し、次に何を発声してよいか分からなくなることがな
い。したがって、ユーザにとって非常に使用しやすい情
報機器を提供することが可能である。
【0088】また、ガイダンスのルールは、ガイダンス
の対話形態と音声コマンド表示とシステムメッセージの
通知方法とを組み合わせて4つのタイプに分類すること
で、ガイダンス作成の工数を削減している。
【図面の簡単な説明】
【図1】本発明の実施形態における音声ガイダンス生成
装置の構成を示すブロック図である。
【図2】本発明の実施形態における音声ガイダンス生成
方法を示す流れ図である。
【図3】本発明の実施形態における音声ガイダンス生成
方法を示す流れ図である。
【図4】本発明の実施形態における音声ガイダンス生成
方法を示す流れ図である。
【図5】音声認識部の動作を説明するための認識辞書の
一例を示す図である。
【図6】状態管理部の動作を説明するために、状態管理
部が格納するデータの一例を示す図である。
【図7】アプリケーション実行部の動作を説明するため
に、アプリケーション実行部が監視するアプリケーショ
ンの状態と発行するキーワードとの対応関係を示す図で
ある。
【図8】状態ルールの一例を示す図である。
【符号の説明】
1 音声認識部 2 状態ルール決定部 3 状態管理部 4 状態決定ルール 5 アプリケーション実行部 6 アプリケーション 7 表示・音声出力部 11 マイクロフォン 12 音声認識装置 13 キーワード変換装置 14 認識辞書 31 キーワード記憶装置 32 状態ルール記憶装置 33 アプリケーション実行結果記憶装置 34 表示・音声出力結果記憶装置 41 キーワード記述部 42 ガイダンスタイプ記述部 43 音声コマンド記述部 44 システムメッセージ記述部 45 アプリケーション記述部 51 コマンド送信装置 52 コマンド実行結果受信装置 53 状態監視装置 71 音声コマンド表示・音声出力装置 72 システムメッセージ表示・音声出力装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 3/00 571V 561D

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの音声を入力し認識する音声認識
    手段と、 自装置の現在の状態を管理し格納する状態管理手段と、 前記音声認識手段により認識された認識結果をキーに、
    所定の数に分類されたユーザとの対話形態のルールを格
    納する状態決定ルール格納手段と、 前記音声認識手段により認識された音声認識の結果と、
    前記状態管理手段に格納された現在の状態とに対応した
    ルールを前記状態決定ルール格納手段から読み出し、ア
    プリケーションを制御するルールを決定する状態ルール
    決定手段と、 該状態ルール決定手段により決定されたルールにより、
    コマンドを実行するアプリケーション実行手段と、 前記状態ルール決定手段により決定されたルールによ
    り、前記アプリケーションの状態および前記ユーザが発
    声するべき音声コマンドを表示および/または音声出力
    する表示・音声出力手段と、 を有することを特徴とする音声ガイダンス生成装置。
  2. 【請求項2】 前記アプリケーション実行手段は、 前記アプリケーションの状態を監視し、該アプリケーシ
    ョンに特定の状態変化が起こると、該状態変化の認識結
    果を生成し、前記状態ルール決定手段に送ることを特徴
    とする請求項1記載の音声ガイダンス生成装置。
  3. 【請求項3】 前記状態管理手段は、 前記音声認識手段により認識された音声認識の結果と、
    前記状態決定ルール格納手段から読み出したルールと、
    前記アプリケーション実行手段により実行されたアプリ
    ケーションの実行結果と、前記表示・音声出力手段に表
    示している音声コマンドと、の組み合わせにより前記現
    在の状態を管理することを特徴とする請求項1または2
    記載の音声ガイダンス生成装置。
  4. 【請求項4】 前記状態決定ルール格納手段は、 前記ユーザとの対話形態を、ユーザ主導型、装置主導
    型、ユーザ主導割り込み型、装置主導割り込み型に4つ
    に分類して部品化することを特徴とする請求項1から3
    のいずれか1項に記載の音声ガイダンス生成装置。
  5. 【請求項5】 前記状態決定ルール格納手段は、前記音
    声コマンドの出力形態と、前記ユーザとの対話形態のル
    ールのパタンと、を組み合わせたものを部品化すること
    を特徴とする請求項1から4のいずれか1項に記載の音
    声ガイダンス生成装置。
  6. 【請求項6】 前記状態決定ルール格納手段は、 前記アプリケーションの状態の通知を、該アプリケーシ
    ョンの状態をパタン化し、該パタン化したアプリケーシ
    ョンの状態と、前記通知の内容と、前記通知の出力形態
    と、を組み合わせたものを部品化することを特徴とする
    請求項1から5のいずれか1項に記載の音声ガイダンス
    生成装置。
  7. 【請求項7】 前記状態決定ルール格納手段は、 前記音声コマンドの表示から一定時間が経過する、一定
    時間に前記ユーザの発声がない、および前記ユーザの発
    声が正確でない場合のいずれかの場合の動作を、前記分
    類ごとに設定し、該設定を経過時間と、該経過時間内の
    発声状態と、前記自装置の動作と、の組み合わせにより
    記述することを特徴とする請求項1から6のいずれか1
    項に記載の音声ガイダンス生成装置。
  8. 【請求項8】 ユーザの音声を入力し認識する音声認識
    工程と、 該音声認識工程により認識された音声認識の結果と、自
    装置の現在の状態を管理している状態管理部に管理され
    た現在の状態とに対応したルールを、前記音声認識工程
    により認識された認識結果をキーに、所定の数に分類さ
    れたユーザとの対話形態のルールを格納する状態決定ル
    ール格納部から読み出し、アプリケーションを制御する
    ルールを決定する状態ルール決定工程と、 該状態ルール決定工程により決定されたルールにより、
    コマンドを実行するアプリケーション実行工程と、 前記状態ルール決定工程により決定されたルールによ
    り、前記アプリケーションの状態および前記ユーザが発
    声するべき音声コマンドを表示および/または音声出力
    する表示・音声出力工程と、 を有することを特徴とする音声ガイダンス生成方法。
  9. 【請求項9】 前記アプリケーションの状態を監視し、
    該アプリケーションに特定の状態変化が起こると、該状
    態変化の認識結果を生成するアプリケーション監視工程
    をさらに有し、 前記状態ルール決定工程は、前記アプリケーション決定
    工程により生成された認識結果を基に、前記アプリケー
    ションを制御するルールを決定することを特徴とする請
    求項8記載の音声ガイダンス生成方法。
  10. 【請求項10】 前記状態管理部は、 前記音声認識工程により認識された音声認識の結果と、
    前記状態決定ルール格納部から読み出したルールと、前
    記アプリケーション実行工程により実行されたアプリケ
    ーションの実行結果と、前記表示・音声出力工程により
    表示している音声コマンドと、の組み合わせにより前記
    現在の状態を管理することを特徴とする請求項8または
    9記載の音声ガイダンス生成方法。
  11. 【請求項11】 前記状態決定ルール格納部は、 前記ユーザとの対話形態を、ユーザ主導型、装置主導
    型、ユーザ主導割り込み型、装置主導割り込み型に4つ
    に分類して部品化して格納していることを特徴とする請
    求項8から10のいずれか1項に記載の音声ガイダンス
    生成方法。
  12. 【請求項12】 前記状態決定ルール格納部は、 前記音声コマンドの出力形態と、前記ユーザとの対話形
    態のルールのパタンと、を組み合わせたものを部品化し
    て格納していることを特徴とする請求項8から11のい
    ずれか1項に記載の音声ガイダンス生成方法。
  13. 【請求項13】 前記状態決定ルール格納部は、 前記アプリケーションの状態の通知を、該アプリケーシ
    ョンの状態をパタン化し、該パタン化したアプリケーシ
    ョンの状態と、前記通知の内容と、前記通知の出力形態
    と、を組み合わせたものを部品化して格納していること
    を特徴とする請求項8から12のいずれか1項に記載の
    音声ガイダンス生成方法。
  14. 【請求項14】 前記状態決定ルール格納部は、 前記音声コマンドの表示から一定時間が経過する、一定
    時間に前記ユーザの発声がない、および前記ユーザの発
    声が正確でない場合のいずれかの場合の動作を、前記分
    類ごとに設定し、該設定を経過時間と、該経過時間内の
    発声状態と、前記自装置の動作と、の組み合わせにより
    記述することを特徴とする請求項8から13のいずれか
    1項に記載の音声ガイダンス生成方法。
  15. 【請求項15】 ユーザの音声を入力し認識する音声認
    識処理と、 該音声認識処理により認識された音声認識の結果と、自
    装置の現在の状態を管理している状態管理部に管理され
    た現在の状態とに対応したルールを、前記音声認識処理
    により認識された認識結果をキーに、所定の数に分類さ
    れたユーザとの対話形態のルールを格納する状態決定ル
    ール格納部から読み出し、アプリケーションを制御する
    ルールを決定する状態ルール決定処理と、 該状態ルール決定処理により決定されたルールにより、
    コマンドを実行するアプリケーション実行処理と、 前記状態ルール決定処理により決定されたルールによ
    り、前記アプリケーションの状態および前記ユーザが発
    声するべき音声コマンドを表示および/または音声出力
    する表示・音声出力処理と、 をコンピュータに実行させることを特徴とする音声ガイ
    ダンス生成プログラム。
  16. 【請求項16】 前記アプリケーションの状態を監視
    し、該アプリケーションに特定の状態変化が起こると、
    該状態変化の認識結果を生成するアプリケーション監視
    処理をさらに実行し、 前記状態ルール決定処理は、前記アプリケーション決定
    処理により生成された認識結果を基に、前記アプリケー
    ションを制御するルールを決定することを特徴とする請
    求項15記載の音声ガイダンス生成プログラム。
  17. 【請求項17】 前記状態管理部は、 前記音声認識処理により認識された音声認識の結果と、
    前記状態決定ルール格納部から読み出したルールと、前
    記アプリケーション実行処理により実行されたアプリケ
    ーションの実行結果と、前記表示・音声出力処理により
    表示している音声コマンドと、の組み合わせにより前記
    現在の状態を管理することを特徴とする請求項15また
    は16記載の音声ガイダンス生成プログラム。
  18. 【請求項18】 前記状態決定ルール格納部は、 前記ユーザとの対話形態を、ユーザ主導型、装置主導
    型、ユーザ主導割り込み型、装置主導割り込み型に4つ
    に分類して部品化して格納していることを特徴とする請
    求項15から17のいずれか1項に記載の音声ガイダン
    ス生成プログラム。
  19. 【請求項19】 前記状態決定ルール格納部は、 前記音声コマンドの出力形態と、前記ユーザとの対話形
    態のルールのパタンと、を組み合わせたものを部品化し
    て格納していることを特徴とする請求項15から18の
    いずれか1項に記載の音声ガイダンス生成プログラム。
  20. 【請求項20】 前記状態決定ルール格納部は、 前記アプリケーションの状態の通知を、該アプリケーシ
    ョンの状態をパタン化し、該パタン化したアプリケーシ
    ョンの状態と、前記通知の内容と、前記通知の出力形態
    と、を組み合わせたものを部品化して格納していること
    を特徴とする請求項15から19のいずれか1項に記載
    の音声ガイダンス生成プログラム。
  21. 【請求項21】 前記状態決定ルール格納部は、 前記音声コマンドの表示から一定時間が経過する、一定
    時間に前記ユーザの発声がない、および前記ユーザの発
    声が正確でない場合のいずれかの場合の動作を、前記分
    類ごとに設定し、該設定を経過時間と、該経過時間内の
    発声状態と、前記自装置の動作と、の組み合わせにより
    記述することを特徴とする請求項15から20のいずれ
    か1項に記載の音声ガイダンス生成プログラム。
JP2001151441A 2001-05-21 2001-05-21 音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム Pending JP2002342065A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001151441A JP2002342065A (ja) 2001-05-21 2001-05-21 音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001151441A JP2002342065A (ja) 2001-05-21 2001-05-21 音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2002342065A true JP2002342065A (ja) 2002-11-29

Family

ID=18996286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001151441A Pending JP2002342065A (ja) 2001-05-21 2001-05-21 音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2002342065A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016174955A1 (ja) * 2015-04-28 2018-02-15 クラリオン株式会社 情報処理装置、及び、情報処理方法
JP2021101348A (ja) * 2017-09-21 2021-07-08 株式会社東芝 対話システム、方法、及びプログラム
US11114098B2 (en) 2018-12-05 2021-09-07 Fujitsu Limited Control of interaction between an apparatus and a user based on user's state of reaction

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016174955A1 (ja) * 2015-04-28 2018-02-15 クラリオン株式会社 情報処理装置、及び、情報処理方法
JP2021101348A (ja) * 2017-09-21 2021-07-08 株式会社東芝 対話システム、方法、及びプログラム
JP7035239B2 (ja) 2017-09-21 2022-03-14 株式会社東芝 対話システム、方法、及びプログラム
US11114098B2 (en) 2018-12-05 2021-09-07 Fujitsu Limited Control of interaction between an apparatus and a user based on user's state of reaction

Similar Documents

Publication Publication Date Title
US7949536B2 (en) Intelligent speech recognition of incomplete phrases
US6246981B1 (en) Natural language task-oriented dialog manager and method
JP4643911B2 (ja) 音声認識方法及び装置
US8265933B2 (en) Speech recognition system for providing voice recognition services using a conversational language model
US9350862B2 (en) System and method for processing speech
KR101042119B1 (ko) 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체
US8315878B1 (en) Voice controlled wireless communication device system
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
JP3454897B2 (ja) 音声対話システム
KR101066741B1 (ko) 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체
US5893063A (en) Data processing system and method for dynamically accessing an application using a voice command
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
US20110172989A1 (en) Intelligent and parsimonious message engine
US7260531B2 (en) Interactive system, method, and program performing data search using pronunciation distance and entropy calculations
US20200272791A1 (en) Systems and methods for automated conversations with a transactional assistant
US8374872B2 (en) Dynamic update of grammar for interactive voice response
US20220399013A1 (en) Response method, terminal, and storage medium
JP2018049132A (ja) 音声対話システムおよび音声対話方法
US11295732B2 (en) Dynamic interpolation for hybrid language models
JP4809358B2 (ja) 対話システムの忠実度を向上させる方法及びシステム
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
JP2002342065A (ja) 音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム
JP3468572B2 (ja) 対話処理装置
JP2003140690A (ja) 情報システム、電子機器、プログラム
CN114860910A (zh) 智能对话方法及系统

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070327

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070807