JP3926752B2 - 音声制御方法、音声制御装置及び音声制御プログラム - Google Patents
音声制御方法、音声制御装置及び音声制御プログラム Download PDFInfo
- Publication number
- JP3926752B2 JP3926752B2 JP2003042988A JP2003042988A JP3926752B2 JP 3926752 B2 JP3926752 B2 JP 3926752B2 JP 2003042988 A JP2003042988 A JP 2003042988A JP 2003042988 A JP2003042988 A JP 2003042988A JP 3926752 B2 JP3926752 B2 JP 3926752B2
- Authority
- JP
- Japan
- Prior art keywords
- window
- recognition
- speech recognition
- voice
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
この発明は、パーソナルコンピュータ、ワークステーションなどを音声認識手段を用いて認識された音声コマンドにより制御を行うための音声制御方法、装置及び音声制御プログラムに関する。
【0002】
【従来の技術】
従来の音声認識システムに複数の応用プログラムを接続した音声認識インターフェース(特許文献1 参照)を図4を参照して説明する。
音声認識システム10は、音声を識別する音声認識部11、複数の応用プログラム20に関する情報を管理する応用プログラム管理テーブル13、この応用プログラム管理テーブルの情報に基づいて音声入力に対する認識対象語彙の決定、音声認識部の認識結果の送信先の決定を行うメッセージ処理部12から構成される。
音声認識システム10は、応用プログラム20からのメッセージに含まれる指示に従って音声認識を行い、認識結果をメッセージとして応用プログラムに送る。応用プログラム20は、その音声認識結果を利用してその応用に依存した固有の処理を行う。また、音声認識システム10は、同時に複数の応用プログラムとメッセージを交換し、音声認識結果を送信できるようにしている。
音声認識システムを構成するメッセージ処理部12は、応用プログラム20と音声認識部11のメッセージを交換し、音声認識システム10の全体制御を行う。また、音声認識部11は、メッセージ処理部12とメッセージを交換し合うことでメッセージ処理部から送られてくる情報に従って入力音声に対して音声認識を行い、その結果情報をメッセージ処理部に通知する。
【0003】
応用プログラム管理テーブル13は、音声認識システム10と通信を行う全ての応用プログラム20に関する情報を収納するテーブルである。このテーブル13は、音声が入力された際の認識対象語彙の決定や、認識結果の送信先の決定に利用され、これにより音声認識システム10は同時に複数の応用プログラム20とのメッセージ交換を行うことができる。また応用プログラム管理テーブル13は、プログラムID、入力マスク、認識対象語彙リスト、音声入力フラグを持っている。プログラムIDは、音声認識システムにより応用プログラムに対して一意に付けられる識別のための番号である。入力マスクは、音声認識システムから応用プログラムに送信するメッセージの種類を限定するものである。認識対象語彙リストは、応用プログラムが音声認識システムに対して要求した認識語彙が記述されるテーブルである。音声入力時の認識対象語彙の決定に利用される。音声入力フラグは、当該応用プログラムに音声フォーカスが当たっているか否かを表している。なお、応用プログラムに音声フォーカスが当たるという言葉は、応用プログラムが音声入力対象となるということを意味するものとする。すなわち、音声フォーカスは、認識結果の送信対象を特定するものである。
このような構成を備えることにより、複数の応用プログラムが同時に並行して動作するマルチタスク環境において、各応用プログラムが、音声認識システムと通信により直接メッセージ交換を行い、認識語彙や認識結果などのデータを直接相互に交換できるため、全ての応用プログラムにキーボードやマウスなどの様に、音声入力を標準的な入力手段として装備することができるため、ワークステーションなどのマルチタスク環境における音声入力の本格的な利用が可能となり、音声を含めたマンマシンインターフェースの使い勝手の向上が期待できる効果を有する。
【0004】
【特許文献1】
特開平7−140998号公報(図1、段落(0017〜0020))
【0005】
【発明が解決しようとする課題】
従来の音声認識インターフェースでは、各々別々に作成された応用プログラムは、どの応用プログラムからも音声フォーカスを当てることができ音声認識処理を実行できる。そのために、音声フォーカスの当て方の全体的なルールにのっとらない応用プログラムが作成され、音声インターフェイスが想定外の動作を引き起こす可能性がある。
本発明ではウインドウ状態を判断するキーとなるウインドウ識別子(マイクロソフト社のMS−Windows(登録商標)上ではHWND型のデータ(1つのディスプレイ上に表示される複数の独立した画面を識別するための名前)が利用可能)を送信し、ウインドウ状態をその識別子を元に、接続管理部が一括管理することにより個々のプロセス状態を把握した上でプロセスの一元制御が可能となる。
本発明の課題は、上記問題点に鑑み、ユーザが操作対象としている1つのプログラムからの要求に対してのみ音声認識処理を実行する技術を提供する。
【0006】
【課題を解決するための手段】
上記課題を解決するために、本発明は、音響モデル、統計言語モデル、文法、単語辞書などの音声認識に必要なリソースを蓄積する音声認識リソース蓄積部と接続管理表を登録する接続管理表格納部とを備え、
プロセスから描画要求を受信すると、その要求に従って画面に要求された内容をプログラムウインドウとして描画し、そのプログラムウインドウを一意に識別可能なウインドウ識別子を返却し、また、画面に描画している全てのプログラムウインドウの位置とウインドウ識別子の情報を含んだウインドウ情報を生成し、
音声認識結果を利用する1個ないし2個以上のプロセスから、ウインドウ識別子と使用する音声認識リソースの組み合わせ情報を含む接続要求を受信すると、その接続に関するレコードを作成し、接続管理表格納部に登録し、
プロセスから認識開始要求を受信すると、接続管理表に管理されている情報とウインドウ情報とを用いてその認識開始要求を実行するかを判断し、
認識開始要求の実行と判断された場合、その受信より前に行われていた処理があれば中止し、入力された発話信号中から音声区間を切り出し、音声認識リソース蓄積部に蓄積されている音声認識リソースを用いて、その音声区間に対して認識結果単語列と認識処理情報からなる音声認識結果を求めて返信する音声認識処理を実行し、
音声認識結果を認識開始要求送信元プロセスへ返信することを特徴とする。
【0007】
【発明の実施の形態】
図1に、本発明の音声制御装置の構成例を示す。
音声制御装置は、ディスプレイ装置1と、ウインドウ管理部2と、プロセスA:3,プロセスB:4,・・・と、接続管理部5と、接続管理表格納部6と、音声認識部7と、音声認識リソース蓄積部8と、ユーザが音声を入力するマイクから構成される。
図2は、図1における接続管理部が備えている接続管理手段のうち、各プロセス(まとまった処理の実行)から接続要求を受け付ける際の処理過程を示したフローチャートである。
「接続要求」とは、個々のプロセスから、接続管理部5に対して、接続を開始して自身が認識処理開始要求信号を送信できるような状態とする要求を示す信号を送信することを意味し、接続管理部5が、接続管理表のレコードを登録し排他制御に必要な手がかりを得る過程である。
図3は、図1における接続管理部が備えている接続管理手段のうち、あるプロセスから認識開始要求を受け付ける際の処理過程を示したフローチャートである。
【0008】
図1〜3を用いて本発明の実施例を説明する。
図1の画面は、ユーザが操作しているコンピュータのディスプレイ装置1の画面である。ユーザが操作しているという情報は、個々のプロセス接続開始時に受け取るウインドウ識別子とウインドウ管理部2から受け取るウインドウ情報(各プログラムとウインドウ識別子の対応情報)を用いて接続管理部5が判断する。
ウインドウ管理部2を介して、プロセスAは画面上にウインドウAを表示し、プロセスBは画面上にウインドウBを表示している。このとき、ウインドウBはウインドウAよりも前面にあるものとして表示されているとする。
プロセスAおよびプロセスBは、それぞれが出力しているウインドウAおよびウインドウBのウインドウ識別子Aおよびウインドウ識別子Bをウインドウ管理部2から受信し、接続要求時に接続管理部5に送信する。
また、プロセスAおよびプロセスBは、音声認識を行う際に利用する音声認識リソースの内容、または音声認識リソース蓄積部8に蓄積されている音声認識リソースを指定する情報を、接続要求時に接続管理部5に対して送信する。
また、プロセスAおよびプロセスBは、例えば画面上にあるウインドウ全体を操作するようなプログラムであって、自分が他のプロセスより認識処理が優先されるべきだとする場合は、優先フラグ情報を真値として接続要求時に送信する。ただし、本実施例では、どちらのプロセスも優先フラグ情報を真値として送信しないものとする。
ウインドウ識別子は、画面上でプログラムウインドウを一意に同定可能な情報である。
【0009】
(1)あるプロセスから接続要求を受けたときの接続管理部の動作
接続要求を受けた接続管理部5は、それを図2に示すフローチャートに従い、接続管理表格納部6にその接続情報を登録する。また、音声認識リソースの内容を同時に受信している場合は、その内容を、音声認識リソース蓄積部8へ登録する。すなわち、音声認識を開始する以前に、接続管理部5から音声認識リソース蓄積部8に音声認識処理に必要な情報(音声認識リソース)を登録しておく。例えば、音響モデル、統計言語モデル(n-gram)・もしくは文法、単語辞書を予め登録しておく。また、音声認識システム、あるいはプロセスの必要性に応じて、音声認識に使うリソースの種類は変化することに応じるためにその組み合わせを登録する。主な組み合わせ例としては、音響モデル+単語辞書、音響モデル+統計言語モデル+単語辞書、音響モデル+文法、音響モデル+統計言語モデル、音響モデル+文法+単語辞書などがある。ここで、単語辞書や統計言語モデル・文法は認識性能を最大限にするために個々のプロセスが処理の対象とする単語・文の形式だけを認識するものだけを登録したものを利用する。また、音響モデルについても、個々のプロセスが対象とするユーザに合わせたモデルを利用する方が良く、また、予めシステム全体で利用する音響モデルを指定しておくことで、個々のプロセスが指示する必要が必ずしも無い場合もある。
【0010】
プロセスAから接続要求を受けたときの接続管理部の動作を説明する。
プロセスAから接続要求を受信して(S1)、接続管理表のレコード(レコード番号、ウインドウ識別子、音声認識用リソース(音響モデル、使用文法、単語辞書等)、優先フラグを生成して、接続管理表格納部6に登録する(S2)。
レコード作成時の優先フラグの立て方として、次の2通りがある。
▲1▼接続要求時に要求元(プロセス)が自ら指定する。
▲2▼接続管理部5がプロセスから接続要求時に送信・指定された音声認識リソースに対し、音声認識リソース蓄積部8にある音声認識リソースの優先フラグを調べ、その優先フラグを立てる。
音声認識リソースの内容を音声認識リソース蓄積部8へ登録する(S3)。
次に、要求回答として登録完了を接続要求送信元プロセスへ送信する(S4)。
【0011】
(2)あるプロセスから認識開始要求を受けたとき接続管理部の動作
プロセスAが音声認識を実行すべき処理状態になると、接続管理部5に対して認識開始要求を送信する。
認識開始要求を受信した(S11)接続管理部5は、図3のフローチャートに従い、その認識開始要求を受理するか判断する。
接続管理表は、どのプロセス(ウインドウ)が起動中であり、どのウインドウが操作対象か、に用いられる。
接続管理表の例(レコード数が複数の場合)を以下に示す。
【表1】
1レコードは1接続分の情報。
【0012】
(S12:Yesの場合)接続管理表のテーブルのレコード数が、その要求を出したプロセスAに関するもの1つのみであった場合は、直ちにその要求を受理し音声認識部7に対して音声認識トリガーを送信する(S17)。
もしくは、接続管理表のテーブルのその要求元プロセスAに関するレコードの中の優先フラグが真値であった場合には、その要求を受理するものとして、音声認識部に対して音声認識トリガーを送信する(S17)。
(S12:Noの場合)登録レコード中のウインドウ識別子の中でもっとも最前面にあるウインドウのウインドウ識別子をウインドウ管理部2から得られるウインドウ情報から抽出し、それが、要求元プロセスのレコードにあるウインドウ識別子と同じかをチェックし、同じであれば認識処理を実行する。
次に、接続管理部5は現在のプログラムウインドウに位置関係を知るために、ウインドウ情報要求をウインドウ管理部2に送信し、その結果、画面に表示しているプログラムウインドウの位置関係と各プログラムウインドウとウインドウ識別子の対応関係の情報を含んだウインドウ情報を受信する(S13,S14)。
そして、接続管理表を参照し、プロセスAの接続に関するレコードに登録されているウインドウ識別子Aに対応するウインドウAが、接続管理表に登録されている他のプログラムウインドウ識別子と対応するウインドウよりも前面にあるかを検査する(S15)。
この場合、接続管理表には他に登録されている、ウインドウ識別子Bと対応するウインドウBがウインドウAよりも前面にあるため(図1参照)、認識開始要求は受理しないと判断し(S16:No)、要求が受理されなかったことを示す信号をプロセスAに送信して(S18)、待機状態となる。
次に、接続管理部5がプロセスBから認識開始要求を受信したとする(S11)。
この場合も上記同様に、接続管理表のプロセスBの接続について登録したレコードにあるウインドウ識別子Bと対応するウインドウBは、他のレコードに登録されているウインドウ識別子と対応するプログラムウインドウ(つまりはウインドウA)よりも前面にあるため(図1参照)、認識開始要求を受理する(S16:Yes)。
【0013】
接続管理部5は、認識開始要求受理通知を要求元のプロセスBに送信し、接続管理表に登録されている、使用する認識リソースの情報とともに、音声認識部7に音声認識開始トリガーを送信する(S17)。
認識開始要求受理通知を受け取ったプロセスBは、音声認識による入力を受理可能なことをユーザに通知するために、例えば「認識中です」などの文字や、音声認識中であることを示す画像などの表示をウインドウ管理部2に要求し、画面に表示する。
音声認識開始トリガーを受信した音声認識部7は、まず、この事前に音声認識開始トリガーを受け取ったことによる音声認識処理があればそれを中断する(事前の音声認識処理を排除してユーザが意図しない誤動作を防ぐとともに応答時間が著しく遅延することを防ぐ)。中断された旨は接続管理部5を介して中断した音声認識処理を要求したプロセスに伝えられる。次に、音声認識部7は音声認識開始トリガーとともに通知された認識リソースの情報を元に、音声認識リソース蓄積部8から音声認識処理の実行に必要なリソースを参照しながら、マイクから入力されてくる音声信号に対して、認識結果単語列と結果に対するスコアなどを含む認識処理情報からなる音声認識結果を求め、接続管理部5に返信する(S19)。
【0014】
音声認識結果を受け取った接続管理部5は、音声認識開始要求を送信したプロセスBに対して、音声認識結果を送信して(S20)、待機状態となる。
接続管理部・接続管理表の機能として、画面上の表示とユーザの操作対象のプロセス(ウインドウ)の対応関係は、例えば、あるウインドウより背後にあるウインドウを持つプログラムが音声入力を要求したときでも、他に音声認識処理を優先されるべきプログラムが音声認識処理を実行していなければ、音声入力を音声認識部より受け付ける。したがって、従来のように事前にキーやマウスによって操作をすることなしに音声認識を利用して動作の制御を行うことができる。
音声認識結果を受け取ったプロセスBは、その認識結果に応じた処理を行う。
接続管理部がプロセスAおよびプロセスBから情報を受信し、音声認識結果を送信するには、例えばTCP/IPプロトコルによるプロセス間通信の方法を利用することにより実現できる。
【0015】
また、本発明の音声制御装置は、CPUやメモリ等を有するコンピュータと、端末と、CD−ROM、磁気ディスク装置、半導体メモリ等の機械読み取り可能な記録媒体とから構成することができる。記録媒体に記録された音声制御プログラム、あるは通信回線を介して伝送された音声制御プログラムはコンピュータに読み取られ、コンピュータ上に前述した実施の形態の各構成要素を実現し、各処理を実行する。
【0016】
【発明の効果】
本発明によれば、ユーザが操作対象としている1つのプログラムからの要求に対してのみ音声認識処理を実行することを可能にし、マルチウインドウシステムが搭載された、マルチタスクオペレーティングシステムが稼働しているパーソナルコンピュータ上において実行されるプログラムに対して、ユーザが操作対象としているプログラムに対してのみ音声認識処理を行うことが可能となり、ユーザが操作対象としていないプログラムに対して音声認識処理が実行されユーザの意図しない動作をすることを防ぐことが可能となる。
また、1つの画面上に表示されている1つないし複数のプログラムに対して、同時に複数の音声認識処理が実行されることを防ぎ、プログラムの音声入力への応答時間が著しく延びることを防ぐことが可能となる。
【図面の簡単な説明】
【図1】本発明の音声制御装置の構成例を示す図。
【図2】(1)あるプロセスから接続要求を受けた時の接続管理部の動作を示す図。
【図3】(2)あるプロセスから認識開始要求を受けた時の接続管理部の動作を示す図。
【図4】従来の音声認識インターフェースの構成を示す図。
【符号の説明】
1・・・ディスプレイ装置、2・・・ウインドウ管理部、3・・・プロセスA、4・・・プロセスB、5・・・接続管理部、6・・・接続管理表格納部、7・・・音声認識部、8・・・音声認識リソース蓄積部
Claims (6)
- 音響モデル、統計言語モデル、文法、単語辞書などの音声認識に必要な音声認識リソースを蓄積する音声認識リソース蓄積部と、
接続要求を出力したプロセスから、該プロセスが表示するウインドウを識別するウインドウ識別子と、該プロセスが利用する音声認識リソースの組み合せ情報と、音声認識実行の優先権を示す真偽値で表わされる優先フラグとを収集し、これらウインドウ識別子、音声認識リソースの組み合せ情報、優先フラグとを組みにしたレコードを接続管理表に登録する接続管理表格納部と、
音声認識開始トリガーを受信すると、その受信より前に行われていた処理があれば中止し、入力された発話信号中から音声区間を切り出し、音声認識リソース蓄積部に蓄積されている音声認識リソースを用いて、その音声区間に対して認識結果単語列と認識処理情報からなる音声認識結果を求めて接続管理部に返信する音声認識処理を実行する音声認識部と、
プロセスから描画要求を受信すると、その要求に従って画面に要求された内容をプログラムウインドウとして描画し、そのプログラムウインドウを一意に識別可能なウインドウ識別子を返却し、また、ウインドウ情報要求を受信すると画面に描画している全てのプログラムウインドウの位置とウインドウ識別子の情報を含んだウインドウ情報を返信するウインドウ管理部と、
プロセスからの音声認識開始要求を受信すると、前記接続管理表に登録されているレコードと、前記ウインドウ管理部から得られるウインドウ情報とを用いて、音声認識開始要求を出力したプロセスが前記接続管理表に登録したレコードの優先フラグが真の状態にある場合か、登録されているレコードの数が一つの場合か、もしくは、これら2つの場合の何れでもなく、かつ、前記ウインドウ情報を調査し、前記接続管理表に登録されているウインドウ識別子に対応するウインドウの中で、音声認識開始要求元のプロセスに関するウインドウ識別子と対応するウインドウが最も前面にある場合に、音声認識部に音声認識開始トリガーを送信し、音声認識部から返信された音声認識結果を該プロセスに対して送信する接続管理部と、
を備えることを特徴とする音声制御装置。 - 音響モデル、統計言語モデル、文法、単語辞書などの音声認識に必要な音声認識リソース、音声認識実行の優先権を示す真偽値で表わされる優先フラグを蓄積する音声認識リソース蓄積部と、
接続要求を出力したプロセスから、該プロセスが表示するウインドウを識別するウインドウ識別子と、該プロセスが利用する音声認識リソースの組み合せ情報とを収集し、前記音声認識リソース蓄積部に蓄積されている、該音声認識リソースの組み合せで指定される、音声認識実行の優先権を示す真偽値で表される優先フラグを収集し、これらウインドウ識別子、音声認識リソースの組み合せ情報、優先フラグとを組みにしたレコードを収集し接続管理表に登録する接続管理表格納部と、
音声認識開始トリガーを受信すると、その受信より前に行われていた処理があれば中止し、入力された発話信号中から音声区間を切り出し、音声認識リソース蓄積部に蓄積されている音声認識リソースを用いて、その音声区間に対して認識結果単語列と認識処理情報からなる音声認識結果を求めて接続管理部に返信する音声認識処理を実行する音声認識部と、
プロセスから描画要求を受信すると、その要求に従って画面に要求された内容をプログラムウインドウとして描画し、そのプログラムウインドウを一意に識別可能なウインドウ識別子を返却し、また、ウインドウ情報要求を受信すると画面に描画している全てのプログラムウインドウの位置とウインドウ識別子の情報を含んだウインドウ情報を返信するウインドウ管理部と、
プロセスからの音声認識開始要求を受信すると、前記接続管理表に登録されているレコードと、前記ウインドウ管理部から得られるウインドウ情報とを用いて、音声認識開始要求を出力したプロセスが前記接続管理表に登録したレコードの優先フラグが真の状態にあ る場合か、登録されているレコードの数が一つの場合か、もしくは、これら2つの場合の何れでもなく、かつ、前記ウインドウ情報を調査し、前記接続管理表に登録されているウインドウ識別子に対応するウインドウの中で、音声認識開始要求元のプロセスに関するウインドウ識別子と対応するウインドウが最も前面にある場合に、音声認識部に音声認識開始トリガーを送信し、音声認識部から返信された音声認識結果を該プロセスに対して送信する接続管理部と、
を備えることを特徴とする音声制御装置。 - 音響モデル、統計言語モデル、文法、単語辞書などの音声認識に必要なリソースを蓄積する音声認識リソース蓄積部と、接続管理表を登録する接続管理表格納部とを備え、
プロセスから描画要求を受信すると、その要求に従って画面に要求された内容をプログラムウインドウとして描画し、そのプログラムウインドウを一意に識別可能なウインドウ識別子を返却し、また、画面に描画している全てのプログラムウインドウの位置とウインドウ識別子の情報を含んだウインドウ情報を生成する手順と、
接続要求を出力したプロセスから、該プロセスが表示するウインドウを識別するウインドウ識別子と、該プロセスが利用する音声認識リソースの組み合わせ情報と、音声認識実行の優先権を示す真偽値で表わされる優先フラグとを収集し、これらウインドウ識別子、音声認識リソースの組み合せ情報、優先フラグとを組みにしたレコードを接続管理表に登録する手順と、
プロセスからの音声認識開始要求を受信すると、前記接続管理表に登録されているレコードと、前記ウインドウ管理部から得られるウインドウ情報とを用いて、音声認識開始要求を出力したプロセスが前記接続管理表に登録したレコードの優先フラグが真の状態にある場合か、登録されているレコードの数が一つの場合か、もしくは、これら2つの場合の何れでもなく、かつ、前記ウインドウ情報を調査し、前記接続管理表に登録されているウインドウ識別子に対応するウインドウの中で、音声認識開始要求元のプロセスに関するウインドウ識別子と対応するウインドウが最も前面にある場合に、該音声認識開始要求に対して実行と判断する手順と、
認識開始要求の実行と判断された場合、その判断より前に行われていた処理があれば中止し、入力された発話信号中から音声区間を切り出し、音声認識リソース蓄積部に蓄積されている音声認識リソースを用いて、その音声区間に対して認識結果単語列と認識処理情報からなる音声認識結果を求める音声認識処理を実行する手順と、
音声認識結果を認識開始要求送信元プロセスへ返信する手順と、
を有することを特徴とする音声制御方法。 - 音響モデル、統計言語モデル、文法、単語辞書などの音声認識に必要なリソースと、音声認識実行の優先権を示す真偽値で表わされる優先フラグを蓄積する音声認識リソース蓄積部と、接続管理表を登録する接続管理表格納部とを備え、
プロセスから描画要求を受信すると、その要求に従って画面に要求された内容をプログラムウインドウとして描画し、そのプログラムウインドウを一意に識別可能なウインドウ識別子を返却し、また、画面に描画している全てのプログラムウインドウの位置とウインドウ識別子の情報を含んだウインドウ情報を生成する手順と、
接続要求を出力したプロセスから、該プロセスが表示するウインドウを識別するウインドウ識別子と、該プロセスが利用する音声認識リソースの組み合せ情報とを収集し、前記音声認識リソース蓄積部に蓄積されている、該音声認識リソースの組み合せで指定される、音声認識実行の優先権を示す真偽値で表される優先フラグを収集し、これらウインドウ識別子、音声認識リソースの組み合せ情報、優先フラグを組みにしたレコードを前記接続管理表に登録する手順と、
プロセスからの音声認識開始要求を受信すると、前記接続管理表に登録されているレコードと、前記ウインドウ管理部から得られるウインドウ情報とを用いて、音声認識開始要求を出力したプロセスが前記接続管理表に登録したレコードの優先フラグが真の状態にある場合か、登録されているレコードの数が一つの場合か、もしくは、これら2つの場合の 何れでもなく、かつ、前記ウインドウ情報を調査し、前記接続管理表に登録されているウインドウ識別子に対応するウインドウの中で、音声認識開始要求元のプロセスに関するウインドウ識別子と対応するウインドウが最も前面にある場合に、該音声認識開始要求に対して実行と判断する手順と、
認識開始要求の実行と判断された場合、その判断より前に行われていた処理があれば中止し、入力された発話信号中から音声区間を切り出し、音声認識リソース蓄積部に蓄積されている音声認識リソースを用いて、その音声区間に対して認識結果単語列と認識処理情報からなる音声認識結果を求める音声認識処理を実行する手順と、
音声認識結果を認識開始要求送信元プロセスへ返信する手順と、
を有することを特徴とする音声制御方法。 - 音響モデル、統計言語モデル、文法、単語辞書などの音声認識に必要なリソースを蓄積する音声認識リソース蓄積部と、接続管理表を登録する接続管理表格納部とを備え、
プロセスから描画要求を受信すると、その要求に従って画面に要求された内容をプログラムウインドウとして描画し、そのプログラムウインドウを一意に識別可能なウインドウ識別子を返却し、また、画面に描画している全てのプログラムウインドウの位置とウインドウ識別子の情報を含んだウインドウ情報を生成する処理と、
接続要求を出力したプロセスから、該プロセスが表示するウインドウを識別するウインドウ識別子と、該プロセスが使用する音声認識リソースの組み合わせ情報と、音声認識実行の優先権を示す真偽値で表わされる優先フラグとを収集し、これらウインドウ識別子、音声認識リソースの組み合せ情報、優先フラグとを組みにしたレコードを接続管理表に登録する処理と、
プロセスからの音声認識開始要求を受信すると、前記接続管理表に登録されているレコードと、前記ウインドウ管理部から得られるウインドウ情報とを用いて、音声認識開始要求を出力したプロセスが前記接続管理表に登録したレコードの優先フラグが真の状態にある場合か、登録されているレコードの数が一つの場合か、もしくは、これら2つの場合の何れでもなく、かつ、前記ウインドウ情報を調査し、前記接続管理表に登録されているウインドウ識別子に対応するウインドウの中で、音声認識開始要求元のプロセスに関するウインドウ識別子と対応するウインドウが最も前面にある場合に、該音声認識開始要求に対して実行と判断する処理と、
認識開始要求の実行と判断された場合、その判断より前に行われていた処理があれば中止し、入力された発話信号中から音声区間を切り出し、音声認識リソース蓄積部に蓄積されている音声認識リソースを用いて、その音声区間に対して認識結果単語列と認識処理情報からなる音声認識結果を求める音声認識処理を実行する処理と、
音声認識結果を認識開始要求送信元プロセスへ返信する処理と、
をコンピュータに実行させる音声制御プログラム。 - 音響モデル、統計言語モデル、文法、単語辞書などの音声認識に必要なリソースと、音声認識実行の優先権を示す真偽値で表わされる優先フラグを蓄積する音声認識リソース蓄積部と、接続管理表を登録する接続管理表格納部とを備え、
プロセスから描画要求を受信すると、その要求に従って画面に要求された内容をプログラムウインドウとして描画し、そのプログラムウインドウを一意に識別可能なウインドウ識別子を返却し、また、画面に描画している全てのプログラムウインドウの位置とウインドウ識別子の情報を含んだウインドウ情報を生成する処理と、
接続要求を出力したプロセスから、該プロセスが表示するウインドウを識別するウインドウ識別子と、該プロセスが使用する音声認識リソースの組み合わせ情報とを収集し、前記音声認識リソース蓄積部に蓄積されている音声認識リソースの組み合せで指定される、音声認識実行の優先権を示す真偽値で表される優先フラグを収集し、これらウインドウ識別子、音声認識リソースの組み合せ情報、優先フラグとを組みにしたレコードを接続管理表に登録する処理と、
プロセスからの音声認識開始要求を受信すると、前記接続管理表に登録されているレコ ードと、前記ウインドウ管理部から得られるウインドウ情報とを用いて、音声認識開始要求を出力したプロセスが前記接続管理表に登録したレコードの優先フラグが真の状態にある場合か、登録されているレコードの数が一つの場合か、もしくは、これら2つの場合の何れでもなく、かつ、前記ウインドウ情報を調査し、前記接続管理表に登録されているウインドウ識別子に対応するウインドウの中で、音声認識開始要求元のプロセスに関するウインドウ識別子と対応するウインドウが最も前面にある場合に、該音声認識開始要求に対して実行と判断する処理と、
認識開始要求の実行と判断された場合、その判断より前に行われていた処理があれば中止し、入力された発話信号中から音声区間を切り出し、音声認識リソース蓄積部に蓄積されている音声認識リソースを用いて、その音声区間に対して認識結果単語列と認識処理情報からなる音声認識結果を求める音声認識処理を実行する処理と、
音声認識結果を認識開始要求送信元プロセスへ返信する処理と、
をコンピュータに実行させる音声制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003042988A JP3926752B2 (ja) | 2003-02-20 | 2003-02-20 | 音声制御方法、音声制御装置及び音声制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003042988A JP3926752B2 (ja) | 2003-02-20 | 2003-02-20 | 音声制御方法、音声制御装置及び音声制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004252194A JP2004252194A (ja) | 2004-09-09 |
JP3926752B2 true JP3926752B2 (ja) | 2007-06-06 |
Family
ID=33026118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003042988A Expired - Lifetime JP3926752B2 (ja) | 2003-02-20 | 2003-02-20 | 音声制御方法、音声制御装置及び音声制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3926752B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6124047B2 (ja) * | 2012-12-05 | 2017-05-10 | 株式会社デンソー | 制御装置 |
-
2003
- 2003-02-20 JP JP2003042988A patent/JP3926752B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2004252194A (ja) | 2004-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111433736B (zh) | 机器控制系统以及机器控制方法 | |
WO2019223351A1 (zh) | 基于视图的语音交互方法、装置、服务器、终端和介质 | |
WO2021047193A1 (zh) | 一种语音处理方法、装置、设备和计算机存储介质 | |
US7702729B2 (en) | Event heap: a coordination infrastructure for dynamic heterogeneous application interactions in ubiquitous computing environments | |
US7313594B2 (en) | Chat system, terminal device therefor, display method of chat system, and recording medium | |
JP2021504813A (ja) | ブロックチェーンネットワークのトランザクション処理方法、装置、機器及び記憶媒体 | |
CN110085222B (zh) | 用于支持语音对话服务的交互装置和方法 | |
WO2020177734A1 (zh) | 小程序触发方法、计算机设备及存储介质 | |
GB2357364A (en) | Dialog management in a conversational computer system | |
US7870257B2 (en) | Enhancing real-time performance for java application serving | |
US20070203985A1 (en) | Response linking in instant messaging | |
WO2021051589A1 (zh) | 数据存储方法、装置、电子设备及存储介质 | |
JPH0863478A (ja) | 言語処理方法及び言語処理装置 | |
US7082391B1 (en) | Automatic speech recognition | |
US7827185B2 (en) | Apparatus for managing outputs of applications | |
US8683074B2 (en) | Stream operator | |
JP2002259114A (ja) | 音声認識コンピュータシステム | |
JP3926752B2 (ja) | 音声制御方法、音声制御装置及び音声制御プログラム | |
CN113111666A (zh) | 一种实现应用程序的多语言翻译的系统及方法 | |
US20090006108A1 (en) | Creating A Session Log For A Computing Device Being Studied For Usability | |
JP5044824B2 (ja) | メッセージを管理する装置及び方法 | |
CN111708568B (zh) | 一种组件化开发解耦方法及终端 | |
JP2001060157A (ja) | アプリケーション間メッセージ交換方式 | |
CN111580766A (zh) | 一种信息显示方法、装置和信息显示系统 | |
CN112714350A (zh) | 消息处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060515 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3926752 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110309 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110309 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120309 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130309 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |