JP2002023996A - 音声対応スクリプト動作装置 - Google Patents

音声対応スクリプト動作装置

Info

Publication number
JP2002023996A
JP2002023996A JP2000202858A JP2000202858A JP2002023996A JP 2002023996 A JP2002023996 A JP 2002023996A JP 2000202858 A JP2000202858 A JP 2000202858A JP 2000202858 A JP2000202858 A JP 2000202858A JP 2002023996 A JP2002023996 A JP 2002023996A
Authority
JP
Japan
Prior art keywords
command
voice
speech
engine
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000202858A
Other languages
English (en)
Inventor
Kiyoyuki Suzuki
清幸 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Priority to JP2000202858A priority Critical patent/JP2002023996A/ja
Publication of JP2002023996A publication Critical patent/JP2002023996A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課 題】 サーバー側がインターネット等のネットワ
ークを通してクライアント側に音声対応スクリプト等を
有するドキュメントを配信したい場合、クライアント側
の音声認識(合成)エンジンを意識することなく音声対
応スクリプト等を有するドキュメントを作成できるよう
にした。 【解決手段】 音声対応スクリプト動作装置における命
令検出手段は、ブラウザによる音声対応スクリプトから
抽出された音声認識コマンドに対応する処理内容を音声
認識エンジンの属性および処理と命令対応表とを見るこ
とによって検出する。変換手段は、前記検出されたコマ
ンドに基づいて、情報処理装置に内蔵されている音声認
識エンジンに合ったコマンドに変換し、音声認識エンジ
ンを動作させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、サーバー側がイン
ターネット等のネットワークを通してクライアント側に
音声対応スクリプト等を有するドキュメントを配信した
い場合、クライアント側の音声認識(合成)エンジン
「以下、本明細書において、音声認識エンジンおよび音
声合成エンジンを単に音声認識(合成)と記載する」を
意識することなく音声対応スクリプト等を有するドキュ
メントを作成できるようにした、クライアント側に設け
られた音声対応スクリプト動作装置に関するものであ
る。また、音声認識(合成)エンジン用の辞書および/
またはグラマを本明細書において、以下、単に「辞書」
と記載する。
【0002】
【従来の技術】近年、音声認識(合成)エンジンは、各
社がそれぞれ認識率の高いソフトウエアを開発してい
る。クライアントとしては、音声認識(合成)エンジン
の中身がどうであれ、音声認識(合成)の結果と使用目
的に合った音声認識(合成)エンジンを選択する。
【0003】
【発明が解決しようとする課題】しかし、インターネッ
ト上で、音声対応スクリプトを有するドキュメント(た
とえば、HTMLドキュメント)と辞書とをクライアン
ト側にダウンロードした場合、クライアント側は、ドキ
ュメントの作成者が考えていたものと同じ音声認識対応
スクリプトに合った音声認識(合成)エンジンを有して
いるとは限らない。
【0004】サーバー側は、ドキュメントに付ける音声
対応スクリプトの作成に際し、クライアント側の音声認
識(合成)エンジンをいちいち意識して作成することが
困難である。これを解決する方法は、たとえば、サーバ
ー側が市販されている音声認識(合成)エンジンの数だ
け音声対応スクリプトを用意しておくことである。この
場合、クライアント側は、自分の所有する音声認識(合
成)エンジンに合った音声対応スクリプトをダウンロー
ドして利用することによって解決できる。しかし、サー
バー側は、音声認識(合成)エンジンの数に合った音声
対応スクリプトを用意することは困難である。
【0005】本出願人は、音声対応スクリプトと音声認
識(合成)エンジンとの間に音声対応スクリプト動作装
置を置いて、共通の規格化された数少ないコマンドだけ
で、クライアント側の音声認識(合成)エンジンを意識
することなく、サーバー側で音声対応スクリプトを有す
るドキュメントを作成することができることを見い出し
た。また、本出願人は、音声対応スクリプトを有するド
キュメントと音声認識(合成)エンジンのコマンドが共
通である専用機であっても、前記ドキュメントにおける
複数のコマンド群を規格化された数少ないコマンドに変
換して、音声認識(合成)エンジンを作成した方が処理
を簡単にすることができることを見いだした。
【0006】本発明は、サーバー側がクライアント側の
音声認識(合成)エンジンがどのようなものであるかを
認識することなく、音声対応スクリプトを有するドキュ
メントを作成できる、音声対応スクリプト動作装置を提
供することを目的とする。また、本発明は、クライアン
ト側がサーバー側の音声対応スクリプトを有するドキュ
メントに対応した音声認識(合成)エンジンが何である
かを意識することなく、ダウンロードして、自分の所有
する音声認識(合成)エンジンを起動することができ
る、音声対応スクリプト動作装置を提供することを目的
とする。
【0007】
【課題を解決するための手段】(第1発明)第1発明の
音声対応スクリプト動作装置は、音声認識エンジンの相
違を意識せずに音声対応スクリプトを有するドキュメン
トの作成および利用ができるものであり、ブラウザによ
る音声対応スクリプトの抽出で、音声認識コマンドに対
応する処理内容を検出する命令検出手段22と、前記コ
マンドに基づいて、情報処理装置に内蔵されている音声
認識エンジン27に合ったコマンドに変換する変換手段
25と、音声認識エンジン27で認識された文字列等を
音声対応スクリプトに返す応答手段29と、を備えてい
ることを特徴とする。
【0008】(第2発明)第2発明の音声対応スクリプ
ト動作装置において、前記命令検出手段22は、音声認
識エンジン27の属性および処理と命令対応表24とを
見ることによってコマンドを検出していることを特徴と
する。
【0009】(第3発明)第3発明の音声対応スクリプ
ト動作装置において、前記変換手段25は、前記命令検
出手段22によって検出されたコマンドの処理と同じ処
理を行う音声認識エンジン27のコマンドに変換するこ
とを特徴とする。
【0010】(第4発明)第4発明の音声対応スクリプ
ト動作装置において、前記音声認識エンジン27のコマ
ンドは、前記命令検出手段22によって検出されたコマ
ンドに対応する少なくとも複数が備えられていることを
特徴とする。
【0011】(第5発明)第5発明の音声対応スクリプ
ト動作装置において、前記音声認識エンジン27のコマ
ンドは、多くとも規格された、「ListRecognizer」、
「CreateRecognizer」、「LoadDictionary」、「LoadGr
ammar 」、「ActivateGrammar 」、「DeactivateGramma
r 」、「DeleteGrammar 」、「ResumeRecognizer」、
「PauseRecognizer 」、「DestroyRecognizer 」からな
ることを特徴とする。
【0012】(第6発明)第6発明の音声対応スクリプ
ト動作装置において、音声合成エンジン86の相違を意
識せずに音声対応スクリプトを有するドキュメントの作
成および利用ができるものであり、ブラウザによる音声
対応スクリプトの抽出で、音声合成コマンドに対応する
処理内容を検出する命令検出手段81と、前記コマンド
に基づいて、情報処理装置に内蔵されている音声合成エ
ンジン86に合ったコマンドに変換する変換手段84
と、を備えていることを特徴とする。
【0013】(第7発明)第7発明の音声対応スクリプ
ト動作装置において、前記命令検出手段81は、音声合
成エンジン86の属性および処理と命令対応表83を見
ることによってコマンドを検出していることを特徴とす
る。
【0014】(第8発明)第8発明の音声対応スクリプ
ト動作装置において、前記変換手段84は、前記命令検
出手段81によって検出されたコマンドの処理と同じ処
理を行う音声合成エンジン86のコマンドに変換するこ
とを特徴とする。
【0015】(第9発明)第9発明の音声対応スクリプ
ト動作装置において、前記音声合成エンジン86のコマ
ンドは、多くとも規格された、「ListSynthesizer 」、
「CreateSynthesizer 」、「LoadSynthesizer 」、「Sp
eakPhrase 」、「ResumeSynthesizer 」、「PauseSynth
esizer」、「DestroySynthesizer」からなることを特徴
とする。
【0016】
【発明の実施の形態】(第1発明)本出願人は、クライ
アント側の情報処理装置に備えている音声認識エンジン
の相違をサーバー側およびクライアント側のいずれにお
いても意識せずに、音声対応スクリプトを有するドキュ
メントの作成および利用ができる音声対応動作装置を開
発した。クライアント側は、先ず、自分のブラウザに音
声対応スクリプトを有するドキュメントをダウンロード
する。ブラウザは、前記音声対応スクリプトを抽出し、
音声認識用のコマンドであれば、音声認識を行うための
処理を開始する。
【0017】次に、音声対応動作装置における命令検出
手段は、音声認識コマンドに対応する処理内容を検出す
る。変換手段は、前記コマンドに基づいて、クライアン
トが有する情報処理装置に内蔵されている音声認識エン
ジンに合ったコマンドに変換する。また、音声認識エン
ジンが作成された後、マイクロホンから入力された音声
が認識されると、認識された文字列あるいは音声認識エ
ンジンが準備した等の信号を音声対応スクリプトに返す
ための応答手段を有する。すなわち、前記応答手段は、
音声認識エンジンとブラウザの音声対応スクリプトとを
繋ぐインタフェースである。本発明は、サーバー側およ
びクライアント側が互いに音声対応スクリプトを有する
ドキュメントと音声認識エンジンとの相違を意識するこ
となく、前記ドキュメントを作成あるいは利用すること
ができる。次に、特定の音声認識エンジンのみに対応し
た音声対応スクリプトを有するドキュメントがブラウザ
により抽出され、前記特定の音声認識エンジンを動作さ
せることができる。前記ブラウザにより抽出されたコマ
ンド群は、命令検出手段により検出された後、変換手段
により複数のコマンド群が規格された最大10個のコマ
ンドに定義される。そして、規格化された前記コマンド
は、前記音声認識エンジンを動作させることができる。
【0018】(第2発明)第2発明の命令検出手段は、
抽出された音声対応スクリプトのコマンドがどのような
処理であるかを検出する。たとえば、音声認識エンジン
の属性は、たとえば、当該情報処理装置に内蔵されてい
る音声認識エンジンのモード、あるいは言語等である。
また、前記コマンドは、その命令が、たとえば、音声認
識エンジンの作成、指定された辞書の読み込み、指定さ
れたグラマの有効または無効、指定されたグラマを音声
認識エンジンから削除、音声認識エンジンへの音声入力
の開始または音声入力の中止、音声合成エンジンの廃棄
等の処理を行うものである。前記コマンドとコマンドの
処理内容とは、対応表になって記憶されている。
【0019】(第3発明)第3発明は、命令検出手段に
よって検出されたコマンドおよびその処理内容を変換手
段によって、当該音声認識エンジンのコマンドに変換す
る。したがって、クライアントは、音声認識エンジンの
コマンドが音声対応スクリプトにおけるコマンドと異な
っていても、前記変換手段によって変換されるため、コ
マンドの相違を意識せずにサーバー側のドキュメントを
利用することができる。
【0020】(第4発明)第4発明において、前記音声
認識エンジンのコマンドは、市販されている全ての音声
認識エンジンに対応できるようにするのが望ましい。ま
た、市販されている全ての音声認識エンジンに対応して
いれば、全く音声認識エンジンのコマンドを意識せずに
音声対応スクリプトを有するドキュメントを利用するこ
とができ、また、ドキュメントの作成者もクライアント
を意識せずに音声対応スクリプトを有するドキュメント
を作成できる。
【0021】(第5発明)第5発明は、音声認識エンジ
ンのコマンドとして、たとえば、多くとも規格された、
「ListRecognizer」、「CreateRecognizer」、「LoadDi
ctionary」、「LoadGrammar 」、「ActivateGrammar
」、「DeactivateGrammar 」、「DeleteGrammar 」、
「ResumeRecognizer」、「PauseRecognizer 」、「Dest
royRecognizer」を設けることで、どのような仕様の音
声認識エンジンでも作成することができる。また、単機
能の情報処理装置の場合、さらに、コマンドを少なくす
ることも可能である。
【0022】(第6発明)第6発明は、音声合成エンジ
ンの相違を意識せずに音声対応スクリプトを有するドキ
ュメントの作成および利用ができる音声対応動作装置で
ある。クライアント側は、先ず、自分のブラウザに音声
対応スクリプトを有するドキュメントをダウンロードす
る。ブラウザは、前記音声対応スクリプトを抽出し、音
声合成用のコマンドであれば、音声合成を行うための処
理を開始する。
【0023】音声対応動作装置における命令検出手段
は、音声合成コマンドに対応する処理内容を検出する。
変換手段は、前記コマンドに基づいて、クライアントが
有する情報処理装置に内蔵されている音声合成エンジン
に合ったコマンドに変換する。また、音声合成エンジン
が作成された後、ドキュメントにおける音声対応部分が
音声に合成されて出力する。本発明は、サーバー側にあ
る音声対応スクリプトを有するドキュメントに対して自
分の音声合成エンジンを意識することなく利用すること
ができる。
【0024】(第7発明)第7発明の命令検出手段は、
抽出された音声対応スクリプトのコマンドがどのような
処理であるかを検出する。たとえば、音声合成エンジン
の属性は、たとえば、当該情報処理装置に内蔵されてい
る音声認識エンジンのモード、言語、あるいは声質(男
性/女性)等である。また、前記コマンドは、その命令
が、たとえば、音声合成エンジンの作成、指定された辞
書の読み込み、指定された文字列を音声合成エンジンに
よる音声の再生、音声合成エンジンによる音声再生の中
止、音声合成エンジンによる音声再生の再開、音声合成
エンジンの廃棄等である。前記コマンドとコマンドの処
理内容とは、対応表になって記憶されている。
【0025】(第8発明)第8発明における音声合成エ
ンジンのコマンドは、市販されている全ての音声合成エ
ンジンに対応できるようにするのが望ましい。また、市
販されている全ての音声合成エンジンに対応していれ
ば、全く音声合成エンジンのコマンドを意識せずに音声
対応スクリプトを有するドキュメントを利用することが
でき、また、ドキュメントの作成者もクライアントを意
識せずに音声対応スクリプトを有するドキュメントを作
成できる。また、第8発明は、専用の音声対応スクリプ
トを有するドキュメントのコマンド群を変換手段によ
り、規格化された最大7個のコマンドに変換して、専用
の音声合成エンジンを作成することもできる。
【0026】(第9発明)第9発明における音声合成エ
ンジンのコマンドは、多くとも規格された、「ListSynt
hesizer 」、「CreateSynthesizer 」、「LoadSynthesi
zer 」、「SpeakPhrase 」、「ResumeSynthesizer 」、
「PauseSynthesizer」、「DestroySynthesizer」を設け
ることで、どのような仕様の音声合成エンジンでも作成
することができる。また、単機能の情報処理装置の場
合、さらに、コマンドを少なくすることもできる。
【0027】
【実 施 例】図1は本発明の実施例を説明するための
概念ブロック構成図である。図1において、クライアン
ト11側には、サーバー12側から音声対応スクリプト
13′および辞書データ14を有する、たとえば、HT
MLドキュメント13がダウンロードされる。音声対応
スクリプト動作装置15は、音声対応スクリプト13′
からの音声認識コマンドを音声認識エンジン16が動作
するコマンドに変換する。そして、前記コマンドによっ
て、音声認識エンジン16は、起動、音声認識、あるい
は終了等の動作を行い、図示されていないマイクロホン
からの音声を認識して、HTMLドキュメント13にテ
キストとして書き込まれる。
【0028】また、音声対応スクリプト動作装置15
は、音声対応スクリプト13′からの音声合成コマンド
を音声合成エンジン17が動作するコマンドに変換す
る。そして、前記コマンドによって、音声合成エンジン
17は、起動、音声合成、あるいは終了等の動作を行
い、前記HTMLドキュメント13の音声に対応した内
容を図示されていないスピーカーから音声として出力し
たり、あるいは音声合成エンジンの動作を準備、廃棄、
または一連の動作を行うための一ステップであることも
ある。なお、前記音声対応スクリプト動作装置15は、
音声認識スクリプト動作装置および音声合成スクリプト
動作装置から構成されている。
【0029】音声対応スクリプトを有するHTMLドキ
ュメント13内の辞書データ14は、辞書および/また
はグラマ変換装置18(本明細書において、以下、単
に、「辞書変換装置」と記載する)によって、クライア
ント11側の音声認識(合成)エンジン16、17に合
った辞書(辞書および/またはグラマ 以下、単に辞書
と記載する)14′に変換される。前記辞書14′は、
後に説明する音声対応スクリプト動作装置と同様な方法
によって、クライアント11の有する音声認識(合成)
エンジン16、17に合ったものとする。本発明は、音
声対応スクリプト動作装置15および辞書変換装置18
により、サーバー12側で、クライアント11側の音声
認識(合成)エンジン16、17がどのようなメーカー
のものであっても、これらを意識することなく音声対応
スクリプトを有するドキュメントを作成することができ
る。
【0030】図2は本発明の実施例で、音声認識スクリ
プト動作装置を詳述するためのブロック構成図である。
図2において、命令検出手段22は、図1で、たとえ
ば、音声対応スクリプト13′および辞書データ14を
有するHTMLドキュメント13がブラウザによる音声
対応スクリプトを抽出した後、そのコマンドを検出する
ためのものである。
【0031】音声認識エンジンの属性情報記憶手段23
には、後述の音声認識エンジンモード名、言語等が記憶
されている。処理および命令対応表24は、コマンドと
その処理内容が後述の図3に示す表になって、格納され
ている。変換手段25は、前記検出されたコマンドを音
声認識エンジン27に対応するコマンドに変換するため
のものである。
【0032】音声認識エンジンと命令対応表26は、後
述の図4に示すように、市販されている音声認識エンジ
ンに対応したコマンドと命令検出手段22で検出される
であろう全てのコマンドと対応して格納されている。前
記変換手段25は、命令検出手段22で検出されたコマ
ンドが音声認識エンジンと命令対応表26のどれに対応
しているかを調べ、対応しているコマンドに変換して、
音声認識エンジン27に与える。
【0033】マイクロホン28に入った音声は、前記変
換されたコマンドによって動作できる状態にある音声認
識エンジン27によって、文字列、あるいは準備完了、
終了等を表す信号が応答手段29に送られる。前記応答
手段29は、音声対応スクリプトと音声認識エンジンと
のインタフェースであり、前記文字列等をテキストにし
て、音声対応スクリプト13′に渡す。
【0034】図3は本発明の音声認識エンジン側に必要
な命令と機能とが対応している表を示す図である。図3
において、たとえば、「ListRecognizer」というコマン
ドは、クライアント側にある音声認識エンジンが提供可
能なエンジンモードの一覧を取得する。そして、返す情
報は、たとえば、「(1) エンジンモード名、(2) 言語、
(3) ディクテーショングラマをサポートするかどうか、
(4) ルールグラマをサポートするかどうか」である。
【0035】また、「CreateRecognizer」というコマン
ドは、指定されたエンジンモードの音声認識エンジンを
作成する。図3に示されたコマンドの数は、10個であ
るが、最低これだけあれば、音声認識エンジンを作成さ
せたり、廃棄させること、辞書を音声認識エンジンに読
み込むこと、指定されたグラマの有効あるいは無効、指
定されたグラマを音声認識エンジンから削除、音声認識
エンジンへの音声入力の開始または中止させることがで
きる。そして、前記10個のコマンドは、異なる手順の
音声認識エンジンを動作させ、音声認識を行った後、終
了させることができる。
【0036】図4は本発明の実施例で、音声認識エンジ
ンと命令対応表を説明するための図である。図4におい
て、図3に示された10個のコマンドは、市販されてい
る音声認識エンジンにおいて、どのようなコマンドにな
っているかが判る。したがって、クライアント側で所有
する音声認識エンジンに合ったコマンドを抽出すること
によって、音声認識エンジンの動作等を行わせることが
できる。市販されている音声認識エンジンのコマンド
は、図4において、(イ)・・・、(a)・・・、・・
・、−−−と記載されているが、複数のコマンド群から
構成されているのが一般的である。また、前記コマンド
群〔(イ)・・・、(a)・・・等〕は、図3における
から11までのコマンドと、図4における各市販されて
いる音声認識(合成)エンジンのコマンドから11まで
がそれぞれ対応している(音声合成エンジンが省略され
ている)。音声対応スクリプトを有するドキュメントと
音声認識エンジンが共通の場合、たとえば、○○Voi
ceのコマンド群(イ)をのように規格化されたコマ
ンドであると定義する。したがって、(イ)ないし
(ヌ)までのコマンド群は、ないし11のような規格化
されたコマンドに変換手段25により変換することで、
前記のような場合であっても、音声認識エンジンの処理
を簡単にすることができる。
【0037】図5は本発明の実施例で、音声認識エンジ
ンを動作させるためのフローチャートを説明する図であ
る。図6は図5のフローチャートの続きで、(1) におい
て図5の(1) と接続されている。図7は図6のフローチ
ャートの続きで、(2) において図6と接続されている。
図5ないし図7と図2を使用して、本発明の実施例を説
明する。たとえば、サーバー側のHTMLドキュメント
がクライアント側に音声対応スクリプトおよび辞書デー
タと共にダウンロードされる。クライアント側のブラウ
ザにより、音声対応スクリプトは、図2におけるブラウ
ザによる音声対応スクリプトの抽出手段21によって、
解釈されて実行される(ステップ51)。
【0038】前記ブラウザによる音声対応スクリプトの
抽出手段21は、前記処理が、音声認識であるか、ある
いは音声合成であるか否かを調べる(ステップ52)。
前記処理が音声認識でないと判断された場合、音声を合
成させるための処理を行う(ステップ53)。前記処理
が音声認識であると判断された場合、命令検出手段22
は、音声認識コマンドを認識する(ステップ54)。次
に、命令検出手段22は、処理および命令対応表24を
見ることにより認識されたコマンドが「ListRecognize
r」であるか否かを調べる(ステップ55)。命令検出
手段22は、コマンドが「ListRecognizer」であると判
断した場合、前記コマンド「ListRecognizer」を変換
手段25に渡す。
【0039】すなわち、命令検出手段22は、処理およ
び命令対応表24を見ることにより「ListRecognizer」
なるコマンドが予め音声認識エンジンの属性情報記憶手
段23に格納されている情報、たとえば、「(1) エンジ
ンモード名、(2) 言語、(3)ディクテーショングラマを
サポートするかどうか、(4) ルールグラマをサポートす
るかどうか」を取得して変換手段25に渡す。前記変換
手段25は、たとえば、音声認識エンジンと命令対応表
26(図4)のと、コンピュータの有する音声認識エ
ンジンが○○Voiceであった場合、(イ)に記述さ
れているコマンドによって音声認識エンジンの属性を設
定する(ステップ56)。
【0040】次に、前記コマンドが「ListRecognizer」
でないと判断された場合、命令検出手段22は、処理お
よび命令対応表24を見ることにより、コマンドが「Cr
eateRecognizer」であるか否かを調べる(ステップ5
7)。命令検出手段22は、前記コマンドが「CreateRe
cognizer」であると判断した場合、前記コマンド「Crea
teRecognizer」を変換手段25に渡す。前記変換手段2
5は、音声認識エンジンと命令対応表26(図4)の
におけるコマンドによって、指定されたモードの音声認
識エンジンを作成する(ステップ58)。
【0041】前記コマンドが「CreateRecognizer」でな
いと判断された場合、命令検出手段22は、処理および
命令対応表24を見ることにより、コマンドが「LoadDi
ctionary」であるか否かを調べる( ステップ59)。命
令検出手段22は、前記コマンドが「LoadDictionary」
であると判断した場合、前記コマンド「LoadDictionar
y」を変換手段25に渡す。前記変換手段25は、音声
認識エンジンと命令対応表26のにおけるコマンドに
よって、辞書を音声認識エンジンに読み込む(ステップ
60)。
【0042】前記コマンドが「LoadDictionary」でない
と判断された場合、命令検出手段22は、処理および命
令対応表24を見ることにより、コマンドが「LoadGram
mar」であるか否かを調べる(ステップ61)。命令検
出手段22は、前記コマンドが「LoadGrammar 」である
と判断した場合、グラマを音声認識エンジンに読み込む
(ステップ62)。
【0043】前記コマンドが「LoadGrammar 」でないと
判断された場合、命令検出手段22は、処理および命令
対応表24を見ることにより、コマンドが「ActivateGr
ammar 」であるか否かを調べる(ステップ63)。命令
検出手段22は、前記コマンドが「ActivateGrammar 」
であると判断した場合、前記コマンド「ActivateGramma
r 」を変換手段25に渡す。前記変換手段25は、前記
同様に、音声認識エンジンのグラマを有効にする(ステ
ップ64)。
【0044】前記コマンドが「ActivateGrammar 」でな
いと判断した場合、命令検出手段22は、処理および命
令対応表24を見ることにより、コマンドが「Deactiva
teGrammar 」であるか否かを調べる(ステップ65)。
命令検出手段22は、前記コマンドが「DeactivateGram
mar 」であると判断した場合、前記コマンド「Deactiva
teGrammar 」を変換手段25に渡す。前記変換手段25
は、前記同様に、音声認識エンジンのグラマを無効にす
る(ステップ66)。
【0045】前記コマンドが「DeactivateGrammar 」で
ないと判断した場合、命令検出手段22は、処理および
命令対応表24を見ることにより、コマンドが「Delete
Grammar 」であるか否かを調べる(ステップ67)。命
令検出手段22は、前記コマンドが「DeleteGrammar 」
であると判断した場合、前記コマンド「DeleteGrammar
」を変換手段25に渡す。前記変換手段25は、前記
同様に、前記グラマを音声認識エンジンから削除する
(ステップ68)。
【0046】前記コマンドが「DeleteGrammar 」でない
と判断した場合、命令検出手段22は、処理および命令
対応表24を見ることにより、コマンドが「ResumeReco
gnizer」であるか否かを調べる(ステップ69)。命令
検出手段22は、前記コマンドが「ResumeRecognizer」
であると判断した場合、前記コマンド「ResumeRecogniz
er」を変換手段25に渡す。前記変換手段25は、前記
同様に、音声認識エンジンへ音声を入力開始する(ステ
ップ70)。
【0047】前記コマンドが「ResumeRecognizer」でな
いと判断した場合、命令検出手段22は、処理および命
令対応表24を見ることにより、コマンドが「PauseRec
ognizer 」であるか否かを調べる(ステップ71)。命
令検出手段22は、前記コマンドが「PauseRecognizer
」であると判断した場合、前記コマンド「PauseRecogn
izer 」を前記変換手段25に渡す。前記変換手段25
は、前記同様に、音声認識エンジンへの音声入力を中止
する(ステップ72)。
【0048】前記コマンドが「PauseRecognizer 」でな
いと判断した場合、命令検出手段22は、処理および命
令対応表24を見ることにより、コマンドが「DestroyR
ecognizer 」であるか否かを調べる(ステップ73)。
命令検出手段22は、前記コマンドが「DestroyRecogni
zer 」であると判断した場合、前記コマンド「DestroyR
ecognizer 」を前記変換手段25に渡す。前記変換手段
25は、前記同様に、音声認識エンジンを廃棄する(ス
テップ74)。
【0049】前記コマンドが「DestroyRecognizer 」で
ないと判断した場合、命令検出手段22は、ステップ6
9に戻り、コマンドが「ResumeRecognizer」であるか否
かを調べ、音声認識エンジンへ音声入力を開始する(ス
テップ70)。
【0050】図8は本発明の実施例で、音声合成スクリ
プト動作装置を詳述するためのブロック構成図である。
図8において、命令検出手段81は、図2に示すものと
略同じ機能を有するものである。音声合成エンジンの属
性情報記憶手段82には、後述の音声認識エンジンモー
ド名、言語、声質(男性または女性)等が記憶されてい
る。処理および命令対応表83は、コマンドとその処理
内容が後述の図9に示す表になって、格納されている。
変換手段84は、前記検出されたコマンドを音声合成エ
ンジン86に対応するコマンドに変換するためのもの
で、音声合成エンジンと命令対応表85(図4と略同じ
であるため省略されている)を参照する。
【0051】前記音声合成エンジンと命令対応表85
は、市販されている音声合成エンジンに対応したコマン
ドと命令検出手段81で検出されるであろう全てのコマ
ンドと対応された表になって、格納されている。前記変
換手段84は、命令検出手段81で検出されたコマンド
が音声合成エンジンと命令対応表85のどれに対応して
いるかを調べ、対応しているコマンドに変換する。前記
コマンドは、音声合成エンジン86に与えられ、音声合
成エンジン86を動作させ、音声に対応した、たとえ
ば、HTMLドキュメント13がスピーカー87から音
声となって出力される。
【0052】図9は本発明の音声合成エンジン側に必要
な命令と機能とが対応している表を示す図である。図9
において、たとえば、「ListSynthesizer 」というコマ
ンドは、クライアント側にある音声合成エンジンが提供
可能なエンジンモードの一覧を取得する。そして、返す
情報は、たとえば、「(1) エンジンモード名、(2) 言
語、(3) 声質(男性/女性)」等である。
【0053】また、たとえば、「CreateSynthesizer 」
というコマンドは、指定されたエンジンモードの音声合
成エンジンを作成する。図9に示されたコマンドの数
は、7個であるが、最低これだけあれば、音声合成エン
ジンを作成させたり、廃棄させること、辞書を音声合成
エンジンに読み込むこと、指定された文字列を音声合成
エンジンにより音声として再生、音声合成エンジンによ
る音声再生を中止、または再開させることができる。そ
して、前記7個のコマンドは、異なる手順の音声合成エ
ンジンを動作させ、音声合成を行った後、終了させるこ
とができる。また、最大7個の前記コマンドは、規格化
されているため、複数の音声合成エンジンに対応できる
以外に、専用の音声合成エンジンの場合でも、同様に変
換されることにより達成される。
【0054】図10は本発明の実施例で、音声合成エン
ジンを動作させるためのフローチャートを説明する図で
ある。図11は図10のフローチャートの続きで、(3)
において図10の(3) と接続されている。図10および
図11を使用して、本発明の実施例を説明する。図5に
示すステップ52において、音声認識処理でなく、音声
合成処理(ステップ53、図10のステップ101)で
ある場合、命令検出手段81は、図9に示す処理および
命令対応表83を見ることにより認識されたコマンドが
「ListSynthesizer 」であるか否かを調べる(ステップ
102)。命令検出手段81は、コマンドが「ListSynt
hesizer 」であると判断した場合、前記コマンド「List
Synthesizer 」を変換手段84に渡す。前記変換手段8
4は、図示されていない音声合成エンジンと命令対応表
を参照して、音声合成エンジンの属性を設定する(ステ
ップ103)。
【0055】すなわち、命令検出手段81は、処理およ
び命令対応表83を見ることにより「ListSynthesizer
」なるコマンドが予め音声合成エンジンの属性情報記
憶手段82に格納されている情報、たとえば、「(1) エ
ンジンモード名、(2) 言語、(3) 声質(男性/女性)」
を取得して変換手段84に渡す。
【0056】次に、前記コマンドが「ListSynthesizer
」でないと判断された場合、命令検出手段81は、処
理および命令対応表83を見ることにより、コマンドが
「CreateSynthesizer 」であるか否かを調べる(ステッ
プ104)。命令検出手段81は、前記コマンドが「Cr
eateSynthesizer 」であると判断した場合、前記コマン
ド「CreateSynthesizer 」を変換手段84に渡す。前記
変換手段84は、前記同様に、前記コマンドが指定され
たモードの音声合成エンジン86を作成する(ステップ
105)。
【0057】前記コマンドが「CreateSynthesizer 」で
ないと判断された場合、命令検出手段81は、処理およ
び命令対応表83を見ることにより、コマンドが「Load
Synthesizer 」であるか否かを調べる( ステップ10
6)。命令検出手段81は、前記コマンドが「LoadSynt
hesizer 」であると判断した場合、前記コマンド「Load
Synthesizer 」を変換手段84に渡す。前記変換手段8
4は、前記同様に、辞書を音声合成エンジンに読み込ま
せる(ステップ107)。
【0058】前記コマンドが「LoadSynthesizer 」でな
いと判断された場合、命令検出手段81は、処理および
命令対応表83を見ることにより、コマンドが「SpeakP
hrase 」であるか否かを調べる(ステップ108)。命
令検出手段81は、前記コマンドが「SpeakPhrase 」で
あると判断した場合、前記コマンド「SpeakPhrase 」を
変換手段84に渡す。前記変換手段84は、前記同様
に、音声合成エンジン86により音声を再生する(ステ
ップ109)。
【0059】前記コマンドが「SpeakPhrase 」でないと
判断した場合、命令検出手段81は、処理および命令対
応表83を見ることにより、コマンドが「ResumeSynthe
sizer 」であるか否かを調べる(ステップ110)。命
令検出手段81は、前記コマンドが「ResumeSynthesize
r 」であると判断した場合、前記コマンド「ResumeSynt
hesizer 」を変換手段84に渡す。前記変換手段84
は、前記同様に、音声合成エンジン86に音声合成を開
始させる(ステップ111)。
【0060】前記コマンドが「ResumeSynthesizer 」で
ないと判断した場合、命令検出手段81は、処理および
命令対応表83を見ることにより、コマンドが「PauseS
ynthesizer」であるか否かを調べる( ステップ112
)。命令検出手段81は、コマンドが「PauseSynthesiz
er」であると判断した場合、前記コマンド「PauseSynth
esizer」を変換手段84に渡す。前記変換手段84は、
前記同様に、音声合成エンジンに86より音声を中止さ
せる(ステップ113)。
【0061】前記コマンドが「PauseSynthesizer」でな
いと判断した場合、命令検出手段81は、処理および命
令対応表83を見ることにより、コマンドが「DestroyS
ynthesizer」であるか否かを調べる(ステップ11
4)。命令検出手段81は、前記コマンドが「DestroyS
ynthesizer」であると判断した場合、前記コマンド「De
stroySynthesizer」を変換手段84に渡す。前記変換手
段84は、前記同様に、音声合成エンジン86を廃棄す
る(ステップ115)。
【0062】前記コマンドが「DestroySynthesizer」で
ないと判断した場合、命令検出手段81は、ステップ1
10に戻り、コマンドが「ResumeSynthesizer 」である
か否かを調べる。このように、音声合成エンジン86が
廃棄されるまで、処理を続ける。
【0063】以上、本実施例を詳述したが、本発明は、
前記実施例に限定されるものではない。そして、特許請
求の範囲に記載された本発明を逸脱することがなけれ
ば、種々の設計変更を行なうことが可能である。たとえ
ば、実施例において、規格化されたコマンドの数は、最
大7個または10個にしたが、新しい機能が増加した場
合、前記規格化されたコマンドの最大数も増加すること
ができる。本発明は、公知の如何なる音声認識(合成)
エンジンをクライアント側およびサーバー側で互いに意
識することなく音声対応スクリプトを有するドキュメン
トを作成したり、あるいは利用することができる。
【0064】本発明の音声対応スクリプト動作装置は、
市販されている多数の音声認識(合成)エンジンに対す
るものであるが、前記市販の一つの音声認識(合成)エ
ンジン専用のものにすることも可能である。また、本発
明の音声対応スクリプト動作装置におけるブロック部の
内部については、実施例で詳述していないものがある
が、公知あるいは周知の技術手段によって達成できるも
のである。
【0065】本実施例における情報処理装置について
は、特に言及していないが、パーソナルコンピュータ、
電話機、携帯電話機、モバイル機器、各種情報処理装置
を備えた応用機器を含む。
【0066】
【発明の効果】本発明によれば、数少ない限られたコマ
ンドとこれらの処理を対応表と、市販されている音声認
識(合成)エンジンの命令対応表を備えておくことによ
り、ドキュメントの作成者がクライアント側の音声認識
(合成)エンジンを意識することなく音声対応スクリプ
トを有するドキュメントを作成することができる。
【0067】本発明によれば、クライアントは、音声対
応スクリプト動作装置を備えることにより、自分の音声
認識(合成)エンジンを意識することなく、音声対応ス
クリプトを有するドキュメントをダウンロードして、音
声を認識あるいは合成することができる。
【0068】本発明によれば、音声認識(合成)エンジ
ンの作成、廃棄、辞書またはグラマの読み込み、グラマ
の有効/無効あるいは削除、音声認識(合成)エンジン
への音声入力(再生)等が僅かな数の規格されたコマン
ドによって達成される。
【0069】本発明によれば、音声対応スクリプト動作
装置が限られたコマンドのみによって構成されているた
め、情報処理装置におけるメモリの占める割合が少な
く、かつ簡単でしかも安価に提供できる。
【0070】本発明によれば、音声対応スクリプトを有
するドキュメントと音声認識(合成)エンジンとが対応
している場合であっても、音声対応スクリプト動作装置
によって、複数のコマンド群を規格化されたコマンドに
変換することにより、音声認識(合成)エンジンの作成
が容易になる。
【図面の簡単な説明】
【図1】本発明の実施例を説明するための概念ブロック
構成図である。
【図2】本発明の実施例で、音声認識スクリプト動作装
置を詳述するためのブロック構成図である。
【図3】本発明の音声認識エンジン側に必要な命令と機
能とが対応している表を示す図である。
【図4】本発明の実施例で、音声認識エンジンと命令対
応表を説明するための図である。
【図5】本発明の実施例で、音声認識エンジンを動作さ
せるためのフローチャートを説明する図である。
【図6】図5のフローチャートの続きで、(1) において
図5の(1) と接続されている。
【図7】図6のフローチャートの続きで、(2) において
図6と接続されている。
【図8】本発明の実施例で、音声合成スクリプト動作装
置を詳述するためのブロック構成図である。
【図9】本発明の音声合成エンジン側に必要な命令と機
能とが対応している表を示す図である。
【図10】本発明の実施例で、音声合成エンジンを動作
させるためのフローチャートを説明する図である。
【図11】図10のフローチャートの続きで、(3) にお
いて図10の(3) と接続されている。
【符号の説明】
11・・・クライアント 12・・・サーバー 13・・・HTMLドキュメント 13′・・音声対応スクリプト 14・・・辞書データ 15・・・音声対応スクリプト動作装置 16・・・音声認識エンジン 17・・・音声合成エンジン 18・・・辞書変換装置 21・・・ブラウザによる音声対応スクリプトの抽出手
段 22・・・命令検出手段 23・・・音声認識エンジンの属性情報記憶手段 24・・・処理および命令対応表 25・・・変換手段 26・・・音声認識エンジンと命令対応表 27・・・音声認識エンジン 28・・・マイクロホン 29・・・応答手段 81・・・命令検出手段 82・・・音声合成エンジンの属性情報記憶手段 83・・・処理および命令対応表 84・・・変換手段 85・・・音声合成エンジンと命令対応表 86・・・音声合成エンジン 87・・・スピーカー
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 571J

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】音声認識エンジンの相違を意識せずに音声
    対応スクリプトを有するドキュメントの作成および利用
    ができる音声対応動作装置において、 ブラウザによる音声対応スクリプトの抽出で、音声認識
    コマンドに対応する処理内容を検出する命令検出手段
    と、 前記コマンドに基づいて、情報処理装置に内蔵されてい
    る音声認識エンジンに合ったコマンドに変換する変換手
    段と、 音声認識エンジンで認識された文字列等を音声対応スク
    リプトに返す応答手段と、 を備えていることを特徴とする音声対応スクリプト動作
    装置。
  2. 【請求項2】前記命令検出手段は、音声認識エンジンの
    属性および処理と命令対応表とを見ることによってコマ
    ンドを検出していることを特徴とする請求項1記載の音
    声対応スクリプト動作装置。
  3. 【請求項3】前記変換手段は、前記命令検出手段によっ
    て検出されたコマンドの処理と同じ処理を行う音声認識
    エンジンのコマンドに変換することを特徴とする請求項
    1記載の音声対応スクリプト動作装置。
  4. 【請求項4】前記音声認識エンジンのコマンドは、前記
    命令検出手段によって検出されたコマンドに対応する少
    なくとも複数が備えられていることを特徴とする請求項
    1記載の音声対応スクリプト動作装置。
  5. 【請求項5】前記音声認識エンジンのコマンドは、多く
    とも規格された、「ListRecognizer」、「CreateRecogn
    izer」、「LoadDictionary」、「LoadGrammar 」、「Ac
    tivateGrammar 」、「DeactivateGrammar 」、「Delete
    Grammar 」、「ResumeRecognizer」、「PauseRecognize
    r 」、「DestroyRecognizer 」からなることを特徴とす
    る請求項1記載の音声対応スクリプト動作装置。
  6. 【請求項6】音声合成エンジンの相違を意識せずに音声
    対応スクリプトを有するドキュメントの作成および利用
    ができる音声対応動作装置において、 ブラウザによる音声対応スクリプトの抽出で、音声合成
    コマンドに対応する処理内容を検出する命令検出手段
    と、 前記コマンドに基づいて、情報処理装置に内蔵されてい
    る音声合成エンジンに合ったコマンドに変換する変換手
    段と、 を備えていることを特徴とする音声対応スクリプト動作
    装置。
  7. 【請求項7】前記命令検出手段は、音声合成エンジンの
    属性および処理と命令対応表を見ることによってコマン
    ドを検出していることを特徴とする請求項6記載の音声
    対応スクリプト動作装置。
  8. 【請求項8】前記変換手段は、前記命令検出手段によっ
    て検出されたコマンドの処理と同じ処理を行う音声合成
    エンジンのコマンドに変換することを特徴とする請求項
    6記載の音声対応スクリプト動作装置。
  9. 【請求項9】前記音声合成エンジンのコマンドは、多く
    とも規格された、「ListSynthesizer 」、「CreateSynt
    hesizer 」、「LoadSynthesizer 」、「SpeakPhrase
    」、「ResumeSynthesizer 」、「PauseSynthesize
    r」、「DestroySynthesizer」からなることを特徴とす
    る請求項6記載の音声対応スクリプト動作装置。
JP2000202858A 2000-07-04 2000-07-04 音声対応スクリプト動作装置 Pending JP2002023996A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000202858A JP2002023996A (ja) 2000-07-04 2000-07-04 音声対応スクリプト動作装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000202858A JP2002023996A (ja) 2000-07-04 2000-07-04 音声対応スクリプト動作装置

Publications (1)

Publication Number Publication Date
JP2002023996A true JP2002023996A (ja) 2002-01-25

Family

ID=18700327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000202858A Pending JP2002023996A (ja) 2000-07-04 2000-07-04 音声対応スクリプト動作装置

Country Status (1)

Country Link
JP (1) JP2002023996A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030002999A (ko) * 2001-06-30 2003-01-09 주식회사 케이티 스크립트 생성기법을 이용한 음성인식 시스템 시험장치 및그 방법
WO2003071385A2 (en) * 2002-02-15 2003-08-28 Sap Aktiengesellschaft Voice-controlled user interfaces
US7409344B2 (en) 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
JP2009244432A (ja) * 2008-03-29 2009-10-22 Kddi Corp 携帯端末の音声認識装置、方法、プログラム
US8788271B2 (en) 2004-12-22 2014-07-22 Sap Aktiengesellschaft Controlling user interfaces with contextual voice commands
JP2018060568A (ja) * 2007-08-16 2018-04-12 クリムソン コーポレイション 音声を利用できるテルネットインターフェイス
US10873621B1 (en) 2014-08-20 2020-12-22 Ivanti, Inc. Terminal emulation over html
US11100278B2 (en) 2016-07-28 2021-08-24 Ivanti, Inc. Systems and methods for presentation of a terminal application screen

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030002999A (ko) * 2001-06-30 2003-01-09 주식회사 케이티 스크립트 생성기법을 이용한 음성인식 시스템 시험장치 및그 방법
WO2003071385A2 (en) * 2002-02-15 2003-08-28 Sap Aktiengesellschaft Voice-controlled user interfaces
WO2003071385A3 (en) * 2002-02-15 2003-12-31 Sap Ag Voice-controlled user interfaces
US7246063B2 (en) * 2002-02-15 2007-07-17 Sap Aktiengesellschaft Adapting a user interface for voice control
US8788271B2 (en) 2004-12-22 2014-07-22 Sap Aktiengesellschaft Controlling user interfaces with contextual voice commands
US7409344B2 (en) 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US7672851B2 (en) 2005-03-08 2010-03-02 Sap Ag Enhanced application of spoken input
JP2018060568A (ja) * 2007-08-16 2018-04-12 クリムソン コーポレイション 音声を利用できるテルネットインターフェイス
US10938886B2 (en) 2007-08-16 2021-03-02 Ivanti, Inc. Scripting support for data identifiers, voice recognition and speech in a telnet session
JP2009244432A (ja) * 2008-03-29 2009-10-22 Kddi Corp 携帯端末の音声認識装置、方法、プログラム
US10873621B1 (en) 2014-08-20 2020-12-22 Ivanti, Inc. Terminal emulation over html
US11100278B2 (en) 2016-07-28 2021-08-24 Ivanti, Inc. Systems and methods for presentation of a terminal application screen

Similar Documents

Publication Publication Date Title
US7890333B2 (en) Using a WIKI editor to create speech-enabled applications
EP2824596B1 (en) Speech- Enabled Web Content Searching Using a Multimodal Browser
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
US6456974B1 (en) System and method for adding speech recognition capabilities to java
CN110473546B (zh) 一种媒体文件推荐方法及装置
US20100145696A1 (en) Method, system and apparatus for improved voice recognition
US9349367B2 (en) Records disambiguation in a multimodal application operating on a multimodal device
US20020143535A1 (en) Method of providing concise forms of natural commands
JP6125138B2 (ja) 情報提供システム
US20120166176A1 (en) Speech translation system, dictionary server, and program
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
JP7200533B2 (ja) 情報処理装置およびプログラム
JP2002023996A (ja) 音声対応スクリプト動作装置
CN109065019B (zh) 一种面向智能机器人的故事数据处理方法及系统
US9218807B2 (en) Calibration of a speech recognition engine using validated text
JP4392581B2 (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JPH10260976A (ja) 音声対話方法
KR20000030906A (ko) 음성 인식과 음성 합성을 이용한 컴퓨터에서의 명령 실행방법 및 어플리케이션 프로그램에서의 선택된 텍스트를음성으로 변환하여 출력하기 위한 방법
JP2001306090A (ja) 対話装置および方法、音声制御装置および方法、ならびにコンピュータを対話装置および音声制御装置として機能させるためのプログラムをそれぞれ記録したコンピュータ読取可能な記録媒体
JP2003202890A (ja) 音声認識装置及びその方法、プログラム
JP2002175175A (ja) 音声駆動可能なユーザインターフェイス
JP7511623B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP3077746B2 (ja) 音声対話方法及び音声対話装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050405