JP2002162988A

JP2002162988A - 音声認識システム及びその制御方法、コンピュータ可読メモリ

Info

Publication number: JP2002162988A
Application number: JP2000360203A
Authority: JP
Inventors: Akihiro Kushida; 晃弘櫛田; Tetsuo Kosaka; 哲夫小坂
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-11-27
Filing date: 2000-11-27
Publication date: 2002-06-07
Anticipated expiration: 2020-11-27
Also published as: JP3581648B2; US20020065652A1; ATE353463T1; KR100679113B1; CN1356688A; US7099824B2; EP1209662B1; DE60126462D1; KR20020041296A; EP1209662A3; EP1209662A2; CN1187733C; DE60126462T2

Abstract

(57)【要約】【課題】ユーザからの要求に応じて、ユーザ辞書を使
用することにより、音声入力の効率を向上し、システム
全体の処理負荷を低減することができる音声認識システ
ムを提供する。【解決手段】ユーザによって指定された認識対象語彙
の読みと表記を対応づけて構成されるユーザ辞書１２４
ａと、入力された音声認識用データ１２４ｂと、音声認
識用データ１２４ｂの認識に使用する認識辞書の認識分
野を決定するための辞書管理情報１２４ｃをサーバ２０
０へ通信部１２２を介して送信する。サーバ２００は、
辞書管理部２２３によって識別子テーブル２２３ａを参
照し、クライアント１００から受信した辞書管理情報に
対応する認識辞書を複数種類の認識辞書群２２５から決
定する。音声認識部２２４で、決定された認識辞書を少
なくとも使用して、音声認識用データ２２４ｂの認識を
行う。そして、その認識結果をクライアント１００へ通
信部２２１を介して送信する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、クライアントで入
力された音声をサーバで認識するクライアント・サーバ
型の音声認識システム及びその制御方法、コンピュータ
可読メモリに関するものである。

【０００２】

【従来の技術】近年、キーボードやマウス等に加えて、
音声が入力インタフェースとして用いられるようになっ
てきた。

【０００３】しかし、入力された音声を認識する音声認
識では、音声認識の対象となる認識語彙が多くなる程、
認識率が低下し、また、処理時間を必要とする。そのた
め、音声認識の対象となる認識語彙（例えば、読みと表
記）を登録した認識辞書を複数持ち、入力対象や状況に
応じて、認識辞書を切り換える（複数の認識辞書を同時
に使用する場合もある）方法がとられている。

【０００４】また、登録されていない語彙は認識するこ
とができないといった問題がある。この問題を解決する
方法の一つに、ユーザ辞書（ユーザが音声認識の対象と
なる認識語彙を登録したもの）を用いる方法がある。

【０００５】一方、リソースの小さい端末上で、音声認
識を実現するために、クライアント・サーバ型の音声認
識システムが研究されている。

【０００６】

【発明が解決しようとする課題】上記の３つの技術は、
既知であるが、これらの３つの技術を組み合わせたシス
テムは、現在のところ実現されていない。

【０００７】本発明は上記の課題を解決するためになさ
れたものであり、クライアント・サーバ型の音声認識シ
ステムにおいて、ユーザからの要求に応じて、ユーザ辞
書を使用することにより、音声入力の効率を向上し、シ
ステム全体の処理負荷を低減することができる音声認識
システム及びその制御方法、コンピュータ可読メモリを
提供することを目的とする。

【０００８】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による音声認識システムは以下の構成を備え
る。即ち、クライアントで入力された音声をサーバで認
識するクライアント・サーバ型の音声認識システムであ
って、前記クライアントは、音声を入力する音声入力手
段と、ユーザによって指定された認識対象語彙を登録す
ることによって構成されるユーザ辞書を保持するユーザ
辞書保持手段と、前記音声入力手段で入力された音声デ
ータと、前記音声データの認識に使用する認識辞書の認
識分野を決定するための辞書管理情報と、前記ユーザ辞
書を前記サーバへ送信する送信手段と、前記サーバは、
認識分野別に用意された複数種類の認識辞書群を保持す
る認識辞書保持手段と、前記クライアントから受信した
辞書管理情報に対応する認識辞書を前記複数種類の認識
辞書群から決定する決定手段と、前記決定手段で決定さ
れた認識辞書を少なくとも使用して、前記音声データの
認識を行う認識手段とを備える。

【０００９】また、好ましくは、前記認識手段は、前記
決定手段で決定された認識辞書と前記クライアントから
受信したユーザ辞書を使用して、前記音声データを認識
する。

【００１０】また、好ましくは、前記音声入力手段は、
音声入力対象の入力フォームを表示する表示手段とを備
え、前記辞書管理情報は、前記入力フォームの種類を示
す入力フォーム識別子である。

【００１１】また、好ましくは、前記辞書管理情報は、
更に、前記音声データの認識において前記ユーザ辞書の
使用の有無を示す情報を含む。また、好ましくは、前記
ユーザ辞書における認識対象語彙は、認識対象語彙の読
みと表記とが対応づけられて構成される。

【００１２】また、好ましくは、前記ユーザ辞書は、更
に、前記入力フォーム識別子の少なくとも１つと、前記
認識対象語彙の読みと表記とが対応づけられて構成され
る。

【００１３】また、好ましくは、前記ユーザ辞書は、更
に、前記複数種類の認識辞書群のそれぞれの認識分野を
示す認識辞書識別子の少なくとも１つと、前記認識対象
語彙の読みと表記とが対応づけられて構成される。

【００１４】上記の目的を達成するための本発明による
音声認識システムの制御方法は以下の構成を備える。即
ち、クライアントで入力された音声をサーバで認識する
クライアント・サーバ型の音声認識システムの制御方法
であって、音声を入力する音声入力工程と、ユーザによ
って指定された認識対象語彙を登録することによって構
成されるユーザ辞書を前記クライアントで保持するユー
ザ辞書保持工程と、前記音声入力工程で入力された音声
データと、前記音声データの認識に使用する認識辞書の
認識分野を決定するための辞書管理情報と、前記ユーザ
辞書を前記サーバへ送信する送信工程と、認識分野別に
用意された複数種類の認識辞書群を前記サーバで保持す
る認識辞書保持工程と、前記クライアントから受信した
辞書管理情報に対応する認識辞書を前記複数種類の認識
辞書群から決定する決定工程と、前記決定工程で決定さ
れた認識辞書を少なくとも使用して、前記音声データの
認識を行う認識工程と、を備える。

【００１５】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
クライアントで入力された音声をサーバで認識するクラ
イアント・サーバ型の音声認識システムの制御のプログ
ラムコードが格納されたコンピュータ可読メモリであっ
て、音声を入力する音声入力工程と、ユーザによって指
定された認識対象語彙を登録することによって構成され
るユーザ辞書を前記クライアントで保持するユーザ辞書
保持工程のプログラムコードと、前記音声入力工程で入
力された音声データと、前記音声データの認識に使用す
る認識辞書の認識分野を決定するための辞書管理情報
と、前記ユーザ辞書を前記サーバへ送信する送信工程の
プログラムコードと、認識分野別に用意された複数種類
の認識辞書群を前記サーバで保持する認識辞書保持工程
のプログラムコードと、前記クライアントから受信した
辞書管理情報に対応する認識辞書を前記複数種類の認識
辞書群から決定する決定工程のプログラムコードと、前
記決定工程で決定された認識辞書を少なくとも使用し
て、前記音声データの認識を行う認識工程のプログラム
コードとを備える。

【００１６】

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。［実施形態１］図１は実施形態１の音声認識システムの
ハードウェア構成を示す図である。

【００１７】ＣＰＵ１０１は、クライアント１００全体
を統括制御するものであり、ＲＯＭ１０２に格納されて
いるプログラムをＲＡＭ１０３に読み出し、その読み出
したプログラムに基づいて、各種処理動作を実行する。
ＲＯＭ１０２は、ＣＰＵ１０１で実行する処理の各種プ
ログラムを格納している。ＲＡＭ１０３は、ＲＯＭ１０
２に格納されている各種プログラムの実行に必要な記憶
領域を提供する。

【００１８】二次記憶装置１０４は、ＯＳや各種プログ
ラムを格納している。但し、クライアント１００をパー
ソナルコンピュータ等の汎用装置ではなく、専用装置で
構成する場合には、ＲＯＭ１０２内にＯＳや各種プログ
ラムを格納しても構わない。この格納されたプログラム
をＲＡＭ１０３に読み出すことによって、ＣＰＵ１０１
が処理を実行することが可能である。また、二次記憶装
置１０４としては、ハードディスク装置、フロッピー
（登録商標）ディスクドライブ、ＣＤ−ＲＯＭ等があ
る。つまり、記憶媒体は如何なるものであっても構わな
い。

【００１９】ネットワークＩ／Ｆ（インタフェース）１
０５は、サーバ２００のネットワークＩ／Ｆ２０５と接
続される。

【００２０】入力装置１０６は、マウスやキーボード、
マイク等で構成され、ＣＰＵ１０１で実行される処理の
各種指示の入力を可能とし、これら複数の機器を同時に
接続して使用できる。出力装置１０７は、ディスプレイ
（ＣＲＴやＬＣＤ等）で構成され、入力装置１０６より
入力された情報や、ＣＰＵ１０１で実行される各種処理
で制御される表示画面を表示する。バス１０８は、クラ
イアント１００の各種構成要素を相互に接続する。

【００２１】ＣＰＵ２０１は、サーバ２００全体を統括
制御するものであり、ＲＯＭ２０２に格納されているプ
ログラムをＲＡＭ２０３に読み出し、その読み出したプ
ログラムに基づいて、各種処理動作を実行する。ＲＯＭ
２０２は、ＣＰＵ２０１で実行する処理の各種プログラ
ムを格納している。ＲＡＭ２０３は、ＲＯＭ２０２に格
納されている各種プログラムの実行に必要な記憶領域を
提供する。

【００２２】二次記憶装置２０４は、ＯＳや各種プログ
ラムを格納している。但し、サーバ２００が、パーソナ
ルコンピュータ等の汎用装置ではなく、専用装置で構成
する場合には、ＲＯＭ２０２内にＯＳや各種プログラム
を格納しても構わない。この格納されたプログラムをＲ
ＡＭ２０３に読み出すことによってＣＰＵ２０１が処理
を実行することが可能である。また、二次記憶装置２０
４としては、ハードディスク装置、フロッピーディスク
ドライブ、ＣＤ−ＲＯＭ等がある。つまり、記憶媒体は
如何なるものであっても構わない。

【００２３】ネットワークＩ／Ｆ２０５は、クライアン
ト１００のネットワークＩ／Ｆ１０５と接続される。バ
ス１０６は、サーバ２００の各種構成要素を相互に接続
する。

【００２４】次に、実施形態１の音声認識システムの機
能構成について、図２を用いて説明する。

【００２５】図２は実施形態１の音声認識システムの機
能構成を示すブロック図である。

【００２６】音声入力部１２１は、マイク（入力装置１
０６）からユーザが発生した音声を入力し、その入力さ
れた音声認識対象の音声データ（音声認識用データ）の
Ａ／Ｄ変換を行う。通信部１２２は、ユーザ辞書１２４
ａ、音声認識用データ１２４ｂ、辞書管理情報１２４ｃ
等をサーバ２００に送信し、送信した音声認識用データ
１２４ｂに対する音声認識結果等をサーバ２００から受
信する。

【００２７】通信部２２１は、ユーザ辞書１２４ａ、音
声認識用データ１２４ｂ、辞書管理情報１２４ｃ等をク
ライアント１００から受信し、受信した音声認識用デー
タ１２４ｂに対する音声認識結果等をクライアント１０
０に送信する。

【００２８】表示部１２３は、サーバ２００から受信し
た音声認識結果を、例えば、出力装置１０８で表示され
る本音声認識システムで実行される処理によって表示さ
れる表示画面上の入力フォーム等に格納して表示する。

【００２９】辞書管理部２２３は、入力対象や状況等に
応じて、音声認識に使用する認識分野別（例えば、名前
用、住所用、英数字記号用等）に用意された複数種類の
認識辞書群２２５（認識辞書１〜認識辞書Ｎ、Ｎ：正の
整数）及びクライアント１００から受信したユーザ辞書
１２４ａ）を切り換えて、選択する（複数種類の辞書を
同時に使用する場合もある）。

【００３０】尚、この複数種類の認識辞書群２２５は、
後述するクライアント１００から送信されてくる辞書管
理情報１２４ｃ（入力フォーム識別子）毎に用意されて
おり、各認識辞書２２５にはその認識辞書の認識分野を
示す認識辞書識別子が付与されており、辞書管理部２２
３は、この認識辞書識別子と入力フォーム識別子を対応
づけた、図５に示すような識別子テーブル２２３ａを管
理している。

【００３１】音声認識部２２４は、クライアント１００
から受信した音声認識用データ１２４ｂ、辞書管理情報
１２４ｃに基づいて辞書管理部２２３が音声認識用に指
定する認識辞書２２５、ユーザ辞書１２４ａを使用して
音声認識を行う。

【００３２】尚、ユーザ辞書１２４ａは、ユーザが音声
認識の対象となる認識語彙を登録したものであり、実施
形態１の場合、例えば、図３に示すように、認識対象語
彙の読みと表記を対応づけて構成される。

【００３３】また、音声認識用データ１２４ｂは、音声
入力部１２１においてＡ／Ｄ変換された音声データであ
っても良いし、その音声データを符号化したデータであ
っても良い。

【００３４】また、辞書管理情報１２４ｃは、入力対象
等を示す情報である。この辞書管理情報１２４ｃは、例
えば、図４に示す実施形態１の音声認識システムで表示
される音声入力用画面を構成する各入力フォームに、入
力された音声をサーバ２００が音声認識し、その音声認
識結果に対応するテキストデータを入力する場合におい
て、図５に示すような、入力フォームの種類を示す識別
子（入力フォーム識別子）である。そして、クライアン
ト１００は、この入力フォーム識別子を辞書管理情報１
２４ｃとしてサーバ２００に送信し、サーバ２００で
は、辞書管理部２２３において、識別子テーブル２２３
ａを参照して、受信した入力フォーム識別子に対応する
認識辞書識別子を取得し、音声認識に使用する認識辞書
２２５を決定する。

【００３５】次に、実施形態１の音声認識システムで実
行される処理について、図６を用いて説明する。

【００３６】図６は実施形態１の音声認識システムで実
行される処理を示すフローチャートである。

【００３７】ステップＳ１０１では、クライアント１０
０は、ユーザ辞書１２４ａをサーバ２００に送信する。

【００３８】ステップＳ２０１では、サーバ２００は、
ユーザ辞書１２４ａをクライアント１００から受信す
る。

【００３９】ステップＳ１０２では、クライアント１０
０は、音声入力対象の入力フォームに音声入力が行われ
た場合に、その入力フォームの入力フォーム識別子を辞
書管理情報１２４ｃとして、サーバ２００に送信する。

【００４０】ステップＳ２０２では、サーバ２００は、
辞書管理情報１２４ｃとして、入力フォーム識別子をク
ライアント１００から受信する。

【００４１】ステップＳ２０３では、サーバ２００は、
辞書管理情報１２４ｃで識別テーブル２２３ａを参照し
て、受信した入力フォーム識別子に対応する認識辞書識
別子を取得し、音声認識に使用する認識辞書２２５を決
定する。

【００４２】ステップＳ１０３では、クライアント１０
０は、各入力フォームに入力するテキストデータとして
音声入力された音声認識用データ１２４ｂをサーバ２０
０に送信する。

【００４３】ステップＳ２０４では、サーバ２００は、
各入力フォームに対応する音声認識用データ１２４ｂを
クライアント１００から受信する。

【００４４】ステップＳ２０５では、サーバ２００は、
音声認識用データ１２４ｂに対し、辞書管理部２２３で
音声認識用に指定された認識辞書２２５、ユーザ辞書１
２４を用いて、音声認識部２２４で音声認識を行う。

【００４５】尚、実施形態１では、音声認識部２２４に
よる音声認識の際には必ず、クライアント１００からサ
ーバ２００に送信されたユーザ辞書１２４ａ中の認識語
彙を全て、認識対象語彙としている。

【００４６】ステップＳ２０６では、サーバ２００は、
音声認識部２２４から得られる音声認識結果をクライア
ント１００に送信する。

【００４７】ステップＳ１０４では、クライアント１０
０は、各入力フォームに対する音声認識結果をサーバ２
００から受信し、それぞれ対応する入力フォームに音声
認識結果に対応するテキストデータを格納する。

【００４８】ステップＳ１０５では、クライアント１０
０は、処理を終了するか否かを判定する。処理を終了し
ない場合（ステップＳ１０５でＮＯ）、ステップＳ１０
２に戻り、処理を繰り返す。一方、処理を終了する場合
（ステップＳ１０５でＹＥＳ）、サーバ２００に処理を
終了する旨を通知し、処理を終了する。

【００４９】ステップＳ２０７では、サーバ２００は、
クライアント１００から処理の終了の指示があるか否か
を判定する。処理の指示がない場合（ステップＳ２０７
でＮＯ）、ステップＳ２０２に戻り、処理を繰り返す。
一方、処理の終了の指示がある場合（ステップＳ２０７
でＹＥＳ）、処理を終了する。

【００５０】尚、上記処理では、音声入力対象の入力フ
ォームに対する音声入力が行われた時に、その入力フォ
ームに対応する辞書管理情報１２４ｃをクライアント１
００からサーバ２００へ送信する構成としたが、音声入
力対象の入力フォームが、入力装置１０６の指示によっ
てフォーカス（音声入力対象の入力フォームが確定）さ
れた時に、送信するように構成しても良い。

【００５１】また、サーバ２００では、音声認識用デー
タ１２４ｂを全て受信してから音声認識を行う構成とし
たが、ある入力フォームに入力するテキストデータとし
て音声入力が行われる毎に、その音声認識用データ１２
４ｂを逐次サーバ２００に送信し、リアルタイムで音声
認識を行うように構成しても良い。

【００５２】以上説明したように、実施形態１によれ
ば、クライアント・サーバ型の音声認識システムにおい
て、音声認識用データ１２４ｂの音声認識に用いる適切
な認識辞書２２５とユーザ辞書１２４ａを併用して、サ
ーバ２００において音声認識を実行することで、クライ
アント１００の音声認識に関わる処理負荷、記憶資源の
使用を低減し、かつサーバ２００における音声認識精度
を向上することができる。［実施形態２］尚、実施形態１において、ユーザ辞書１
２４ａ中の認識語彙が発生しない場合には、ユーザ辞書
１２４ａを使用する必要がないため、サーバ２００は、
クライアント１００からユーザ辞書１２４ａを使用する
という要求がある場合にのみ、ユーザ辞書１２４ａ中の
認識語彙を全て認識対象語彙としても良い。

【００５３】この場合は、例えば、辞書管理情報１２４
ｃとして、ユーザ辞書１２４ａの使用の有無を示すフラ
グを追加することで、ユーザ辞書１２４ａの使用の有無
をサーバ２００に通知する。［実施形態３］また、入力対象や状況等によって、ユー
ザ辞書１２４ａ中の認識対象語彙中に使用しない語彙が
あるため、入力対象や状況に応じて、ユーザ辞書１２４
ａ中の特定の認識語彙のみを認識対象語彙としても良
い。

【００５４】この場合は、例えば、図７に示すように、
認識語彙ごとに、入力フォーム識別子を指定して管理す
ることにより、音声入力された入力フォームの入力フォ
ーム識別子を持つ認識語彙のみを、認識対象語彙とする
ことができる。また、ある認識語彙に対して複数の入力
フォーム識別子を指定しても良い。加えて、図８に示す
ように、入力フォーム識別子の代わりに、認識辞書識別
子を指定して管理しても良い。［実施形態４］実施形態２と実施形態３を組み合わせる
ことにより、音声認識部４による音声認識処理の更なる
効率化を図ることができる。［実施形態５］本装置は、上記の処理のほとんどがプロ
グラムによって実現できる。先に説明したように、装置
としては、パーソナルコンピュータ等の汎用装置で良い
わけであるから、本発明は、前述した実施形態の機能を
実現するソフトウェアのプログラムコードを記録した記
録媒体をシステムあるいは装置に供給し、そのシステム
あるいは装置のコンピュータが記憶媒体に格納されたプ
ログラムコードを読み出し実行することによっても実現
はできるのはもちろんである。この場合、記憶媒体から
読み出されたプログラムコード自体が、前述した実施形
態の機能を実現することになり、そのプログラムコード
を記憶した記憶媒体は本発明を構成することになる。プ
ログラムコードを供給するための記憶媒体としては、フ
ロッピーディスク、ハードディスク、光ディスク、光磁
気ディスク、ＣＤ−ＲＯＭ、磁気テープ、不揮発性のメ
モリカード、ＲＯＭ等を用いることができる。

【００５５】また、本発明は、前述したプログラムコー
ドを記録した記録媒体をコンピュータに供給し、そのコ
ンピュータ上で稼動しているＯＳ等が実際の処理の一部
または全部を行い、その処理によって前述した実施形態
の機能が実現されていることによっても達成できる。さ
らに、記憶媒体から読み出されたプログラムコードが、
コンピュータによって挿入された機能拡張ボードや機能
拡張ユニットに備わるメモリに書き込まれた後、機能拡
張ボードや機能拡張ユニットに備わるＣＰＵ等がプログ
ラムコードの指示に基づいて実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される。本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には前述の図３のフローチャートに対応する
プログラムコードを格納することになる。

【００５６】

【発明の効果】以上説明したように、本発明によれば、
クライアント・サーバ型の音声認識システムにおいて、
ユーザからの要求に応じて、ユーザ辞書を使用すること
により、音声入力の効率を向上し、システム全体の処理
負荷を低減することができる音声認識システム及びその
制御方法、コンピュータ可読メモリを提供できる。

【図面の簡単な説明】

【図１】実施形態１の音声認識システムのハードウェア
構成を示す図である。

【図２】実施形態１の音声認識システムの機能構成を示
すブロック図である。

【図３】実施形態１のユーザ辞書の構成を示す図であ
る。

【図４】実施形態１の音声入力用画面を示す図である。

【図５】実施形態１の識別子テーブルを示す図である。

【図６】実施形態１の音声認識システムで実行される処
理を示すフローチャートである。

【図７】実施形態３の入力フォーム識別子を付加したユ
ーザ辞書の構成を示す図である。

【図８】実施形態３の認識辞書識別子を付加したユーザ
辞書の構成を示す図である。

【符号の説明】

１００クライアント１０１ＣＰＵ１０２ＲＯＭ１０３ＲＡＭ１０４二次記憶装置１０５ネットワークＩ／Ｆ１０６入力装置１０７出力装置１０８バス１２１音声入力部１２２通信部１２３表示部１２４ａユーザ辞書１２４ｂ音声認識用データ１２４ｃ辞書管理情報２００サーバ２０１ＣＰＵ２０２ＲＯＭ２０３ＲＡＭ２０４二次記憶装置２０５ネットワークＩ／Ｆ２０６バス２２１通信部２２３辞書管理部２２３ａ識別子テーブル２２４音声認識部２２５認識辞書

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成１３年１１月２８日（２００１．１１．
２８）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【請求項９】クライアントで入力された音声をサーバ
で認識するクライアント・サーバ型の音声認識システム
の制御方法であって、音声を入力する音声入力工程と、ユーザによって指定された認識対象語彙を登録すること
によって構成されるユーザ辞書を前記クライアントで保
持するユーザ辞書保持工程と、前記音声入力工程で入力された音声データと、前記音声
データの認識に使用する認識辞書の認識分野を決定する
ための辞書管理情報と、前記ユーザ辞書を前記サーバへ
送信する送信工程と、認識分野別に用意された複数種類の認識辞書群を前記サ
ーバで保持する認識辞書保持工程と、前記クライアントから受信した辞書管理情報に対応する
１つ以上の認識辞書を前記複数種類の認識辞書群から決
定する決定工程と、前記決定工程で決定された認識辞書を少なくとも使用し
て、前記音声データの認識を行う認識工程とを備えるこ
とを特徴とする音声認識システムの制御方法。

【請求項１０】前記認識工程は、前記決定工程で決定
された認識辞書と前記クライアントから受信したユーザ
辞書を使用して、前記音声データを認識することを特徴
とする請求項９に記載の音声認識システムの制御方法。

【請求項１１】前記音声入力工程は、音声入力対象の
入力フォームを表示する表示工程とを備え、前記辞書管理情報は、前記入力フォームの種類を示す入
力フォーム識別子であることを特徴とする請求項９に記
載の音声認識システムの制御方法。

【請求項１２】前記辞書管理情報は、更に、前記音声
データの認識において前記ユーザ辞書の使用の有無を示
す情報を含むことを特徴とする請求項９に記載の音声認
識システムの制御方法。

【請求項１３】前記ユーザ辞書における認識対象語彙
は、認識対象語彙の読みと表記とが対応づけられて構成
されることを特徴とする請求項９に記載の音声認識シス
テムの制御方法。

【請求項１４】前記ユーザ辞書は、更に、前記入力フ
ォーム識別子の少なくとも１つと、前記認識対象語彙と
が対応づけられて構成されることを特徴とする請求項１
１に記載の音声認識システムの制御方法。

【請求項１５】前記ユーザ辞書は、更に、前記複数種
類の認識辞書群のそれぞれの認識分野を示す認識辞書識
別子の少なくとも１つと、前記認識対象語彙とが対応づ
けられて構成されることを特徴とする請求項９に記載の
音声認識システムの制御方法。

【請求項１７】クライアントで入力された音声をサー
バで認識するクライアント・サーバ型の音声認識システ
ムの制御のプログラムコードが格納されたコンピュータ
可読メモリであって、音声を入力する音声入力工程と、ユーザによって指定された認識対象語彙を登録すること
によって構成されるユーザ辞書を前記クライアントで保
持するユーザ辞書保持工程のプログラムコードと、前記音声入力工程で入力された音声データと、前記音声
データの認識に使用する認識辞書の認識分野を決定する
ための辞書管理情報と、前記ユーザ辞書を前記サーバへ
送信する送信工程のプログラムコードと、認識分野別に用意された複数種類の認識辞書群を前記サ
ーバで保持する認識辞書保持工程のプログラムコード
と、前記クライアントから受信した辞書管理情報に対応する
１つ以上の認識辞書を前記複数種類の認識辞書群から決
定する決定工程のプログラムコードと、前記決定工程で決定された認識辞書を少なくとも使用し
て、前記音声データの認識を行う認識工程のプログラム
コードとを備えることを特徴とするコンピュータ可読メ
モリ。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５７１Ｈ

Claims

【特許請求の範囲】

【請求項１】クライアントで入力された音声をサーバ
で認識するクライアント・サーバ型の音声認識システム
であって、前記クライアントは、音声を入力する音声入力手段と、ユーザによって指定された認識対象語彙を登録すること
によって構成されるユーザ辞書を保持するユーザ辞書保
持手段と、前記音声入力手段で入力された音声データと、前記音声
データの認識に使用する認識辞書の認識分野を決定する
ための辞書管理情報と、前記ユーザ辞書を前記サーバへ
送信する送信手段と、前記サーバは、認識分野別に用意された複数種類の認識辞書群を保持す
る認識辞書保持手段と、前記クライアントから受信した辞書管理情報に対応する
認識辞書を前記複数種類の認識辞書群から決定する決定
手段と、前記決定手段で決定された認識辞書を少なくとも使用し
て、前記音声データの認識を行う認識手段とを備えるこ
とを特徴とする音声認識システム。
【請求項２】前記認識手段は、前記決定手段で決定さ
れた認識辞書と前記クライアントから受信したユーザ辞
書を使用して、前記音声データを認識することを特徴と
する請求項１に記載の音声認識システム。
【請求項３】前記音声入力手段は、音声入力対象の入
力フォームを表示する表示手段を備え、前記辞書管理情報は、前記入力フォームの種類を示す入
力フォーム識別子であることを特徴とする請求項１に記
載の音声認識システム。
【請求項４】前記辞書管理情報は、更に、前記音声デ
ータの認識において前記ユーザ辞書の使用の有無を示す
情報を含むことを特徴とする請求項１に記載の音声認識
システム。
【請求項５】前記ユーザ辞書における認識対象語彙
は、認識対象語彙の読みと表記とが対応づけられて構成
されることを特徴とする請求項１に記載の音声認識シス
テム。
【請求項６】前記ユーザ辞書は、更に、前記入力フォ
ーム識別子の少なくとも１つと、前記認識対象語彙とが
対応づけられて構成されることを特徴とする請求項３に
記載の音声認識システム。
【請求項７】前記ユーザ辞書は、更に、前記複数種類
の認識辞書群のそれぞれの認識分野を示す認識辞書識別
子の少なくとも１つと、前記認識対象語彙とが対応づけ
られて構成されることを特徴とする請求項１に記載の音
声認識システム。
【請求項８】クライアントで入力された音声をサーバ
で認識するクライアント・サーバ型の音声認識システム
の制御方法であって、音声を入力する音声入力工程と、ユーザによって指定された認識対象語彙を登録すること
によって構成されるユーザ辞書を前記クライアントで保
持するユーザ辞書保持工程と、前記音声入力工程で入力された音声データと、前記音声
データの認識に使用する認識辞書の認識分野を決定する
ための辞書管理情報と、前記ユーザ辞書を前記サーバへ
送信する送信工程と、認識分野別に用意された複数種類の認識辞書群を前記サ
ーバで保持する認識辞書保持工程と、前記クライアントから受信した辞書管理情報に対応する
認識辞書を前記複数種類の認識辞書群から決定する決定
工程と、前記決定工程で決定された認識辞書を少なくとも使用し
て、前記音声データの認識を行う認識工程とを備えるこ
とを特徴とする音声認識システムの制御方法。
【請求項９】前記認識工程は、前記決定工程で決定さ
れた認識辞書と前記クライアントから受信したユーザ辞
書を使用して、前記音声データを認識することを特徴と
する請求項８に記載の音声認識システムの制御方法。
【請求項１０】前記音声入力工程は、音声入力対象の
入力フォームを表示する表示工程とを備え、前記辞書管理情報は、前記入力フォームの種類を示す入
力フォーム識別子であることを特徴とする請求項８に記
載の音声認識システムの制御方法。
【請求項１１】前記辞書管理情報は、更に、前記音声
データの認識において前記ユーザ辞書の使用の有無を示
す情報を含むことを特徴とする請求項８に記載の音声認
識システムの制御方法。
【請求項１２】前記ユーザ辞書における認識対象語彙
は、認識対象語彙の読みと表記とが対応づけられて構成
されることを特徴とする請求項８に記載の音声認識シス
テムの制御方法。
【請求項１３】前記ユーザ辞書は、更に、前記入力フ
ォーム識別子の少なくとも１つと、前記認識対象語彙と
が対応づけられて構成されることを特徴とする請求項１
０に記載の音声認識システムの制御方法。
【請求項１４】前記ユーザ辞書は、更に、前記複数種
類の認識辞書群のそれぞれの認識分野を示す認識辞書識
別子の少なくとも１つと、前記認識対象語彙とが対応づ
けられて構成されることを特徴とする請求項８に記載の
音声認識システムの制御方法。
【請求項１５】クライアントで入力された音声をサー
バで認識するクライアント・サーバ型の音声認識システ
ムの制御のプログラムコードが格納されたコンピュータ
可読メモリであって、音声を入力する音声入力工程と、ユーザによって指定された認識対象語彙を登録すること
によって構成されるユーザ辞書を前記クライアントで保
持するユーザ辞書保持工程のプログラムコードと、前記音声入力工程で入力された音声データと、前記音声
データの認識に使用する認識辞書の認識分野を決定する
ための辞書管理情報と、前記ユーザ辞書を前記サーバへ
送信する送信工程のプログラムコードと、認識分野別に用意された複数種類の認識辞書群を前記サ
ーバで保持する認識辞書保持工程のプログラムコード
と、前記クライアントから受信した辞書管理情報に対応する
認識辞書を前記複数種類の認識辞書群から決定する決定
工程のプログラムコードと、前記決定工程で決定された認識辞書を少なくとも使用し
て、前記音声データの認識を行う認識工程のプログラム
コードとを備えることを特徴とするコンピュータ可読メ
モリ。