JP2004170887A - データ処理システム及びデータ格納方法 - Google Patents
データ処理システム及びデータ格納方法 Download PDFInfo
- Publication number
- JP2004170887A JP2004170887A JP2002339756A JP2002339756A JP2004170887A JP 2004170887 A JP2004170887 A JP 2004170887A JP 2002339756 A JP2002339756 A JP 2002339756A JP 2002339756 A JP2002339756 A JP 2002339756A JP 2004170887 A JP2004170887 A JP 2004170887A
- Authority
- JP
- Japan
- Prior art keywords
- data
- client
- data processing
- order
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
【課題】サーバからクライアントへ、参照データのデータ量を縮小して送信しても、通信状況によっては中断されてしまうこともあり、クライアントで安定した処理を行えないことがあった。
【解決手段】サーバにおいて、クライアントからの要求に応じて、格納手段に格納された所定の参照データを該クライアントへ送信し、クライアントにおいて、サーバから受信した前記参照データを参照してデータ処理を行うデータ処理システムにおいて、前記格納手段が例えば音響モデルを格納する場合、データ処理の際の重要度に応じて、音素環境に依存しないモデル、依存するモデルの順に構成し、該依存するモデルについては出現頻度順の並びで、格納する。
【選択図】 図2
【解決手段】サーバにおいて、クライアントからの要求に応じて、格納手段に格納された所定の参照データを該クライアントへ送信し、クライアントにおいて、サーバから受信した前記参照データを参照してデータ処理を行うデータ処理システムにおいて、前記格納手段が例えば音響モデルを格納する場合、データ処理の際の重要度に応じて、音素環境に依存しないモデル、依存するモデルの順に構成し、該依存するモデルについては出現頻度順の並びで、格納する。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、ダウンロードした参照データに基づく処理を行うデータ処理システム及び該システムにおけるデータ格納方法に関する。
【0002】
【従来の技術】
近年の通信手段の発達に伴い、画像や音声等、多種多様な形態のデータを送受信する機会が増えている。しかし、特に大容量のデータを送信する場合には、通信状況によっては全データの受信(ダウンロード)が完了する前に、通信そのものが終了してしまうことが危惧される。このような場合に備え、送信データの容量を縮小してから送信する方法が知られている。
【0003】
【発明が解決しようとする課題】
しかしながら、上記従来のデータ容量を縮小して送信を行う通信方法においても、以下のような問題があった。
【0004】
データ量を縮小して送信しても、全データが完全に受信される可能性が高まったに過ぎず、通信の安定度に対するデータの安全性が確保されるものではない。すなわち、通信状況によってはダウンロードが途中で止まってしまうこともあり得る。
【0005】
本発明は上記問題を解決するためになされたものであり、クライアントにおいて、サーバからダウンロードした参照データを用いたデータ処理を行う際に、ダウンロードが中断した場合でも最低限の処理を実行可能とするデータ処理システム及び該システムにおけるデータ格納方法を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成するための一手段として、本発明のデータ処理システムは以下の構成を備える。
【0007】
すなわち、クライアントとサーバからなるデータ処理システムであって、前記クライアントは、前記サーバから所定の参照データを受信する受信手段と、前記参照データを参照してデータ処理を行うデータ処理手段と、を有し、前記サーバは、前記参照データを前記データ処理手段における重要度に応じたデータ順で格納する格納手段と、前記クライアントからの要求に応じて前記格納手段に格納された参照データを前記クライアントへ送信する送信手段と、を有することを特徴とする。
【0008】
例えば、前記格納手段は、前記参照データを前記データ処理手段における重要度に依存する上位構成から下位構成へ順次格納することを特徴とする。
【0009】
【発明の実施の形態】
以下、本発明に係る一実施形態について、図面を参照して詳細に説明する。
【0010】
<第1実施形態>
本実施形態は、入力される音声を認識する音声認識システムに適用される。図1は、本実施形態の音声認識システムの構成を示すブロック図である。同図において、104はネットワークであり、その左側の構成がクライアントを、右側構成がサーバを示す。
【0011】
クライアント側では、サーバから辞書等を受信する受信部101と、辞書等を記憶する記憶部102、ダウンロードした辞書等を用いて音声合成あるいは音声認識または言語処理を行う処理部103より構成される。
【0012】
サーバ側では、クライアントからの要求に対して、ネットワーク104を介して辞書等を送信する送信部105、クライアント側で音声認識処理等を行う処理部103において必要となるデータ(音響モデル、言語モデル、発音辞書など)により構成されるモデル辞書データ106を有する。
【0013】
本実施形態においては、ネットワーク104への接続機能を有するクライアント機器において音声認識のアプリケーションを使用する際に、必要に応じて音響モデル、言語モデルなどのモデル辞書データ106を、ネットワーク104を介してサーバからダウンロードする例について説明する。
【0014】
クライアントが処理部103においてアプリケーションを使用する際に、サーバに対して、使用するモデル辞書データ106を受信部101より要求する。するとサーバ側では、クライアントの処理部103で行われる処理、任意のデータをモデル辞書データ106より選択して送信部105に送り、該データはネットワーク104を介してクライアントの受信部101に送られる。するとクライアント側では、受信部101で受信したモデル辞書データを記憶部102に記憶し、処理部103において該モデル辞書データを用いた音声認識処理を行う。
【0015】
ここで上記従来例においても説明したように、サーバからクライアントへモデル辞書データ106を送信する場合に、ネットワーク104を含む通信環境によっては、ダウンロードが不完全なままで通信が終了してしまう場合がある。そこで本実施形態においては、モデル辞書データ106を以下に示すような構造で、サーバ側に保存しておく。以下、本実施形態におけるモデル辞書データ106のデータ構造例を示す。
【0016】
モデル辞書データ106が音響モデルである場合には、音素環境を考慮しない音素モデル、音素環境を考慮した音素モデル、等の順に並べる。具体的には、例えば図2に示すように、モノフォン、トライフォンなどの順にデータを配置しておく。ここで各データフォーマットとしては例えばHMMにより構成され、音素名、平均分散などを含むものとする。またモノフォンの並びとしては例えば、a,i,u,e,oのような母音順としてもよい。またトライフォンであれば、音声認識において出現頻度の高い音素の順に並べれば良い。なお、出現頻度の決定方法としては例えば、予め言語コーパスなどのデータを用いて出現頻度をサーバ側で計算しておけば良い。
【0017】
また、モデル辞書データ106が言語モデルである場合には、隣接単語を考慮しないモデル、隣接単語を考慮したモデル、等の順に並べる。例えば図3に示すように、言語モデルがNグラムモデルで構成されている場合には、ユニグラム、バイグラム、トライグラム・・・などの順に並べる。ここで例えばユニグラムに含まれる情報としては、表記、読み、確率値などを含むとする。また、バイグラムやトライグラムなどの場合には、頻度情報を用いて内部の単語を並べておく。なお、モデルを並べる際の頻度情報としては、音響モデルの場合と同様に言語コーパスなどに基づく出現頻度情報が用いられる。
【0018】
また、モデル辞書データ106が発音辞書である場合には、構成する発音辞書の中で頻度順に並べる。辞書内部に含まれる情報としては、図4に示すように、読み、表記、ID情報などがある。辞書内の単語を並べる際の頻度情報としては、言語コーパスなどに基づく出現頻度情報が用いられる。
【0019】
クライアント側の処理部103においては、通信エラー等の発生に伴ってデータ受信が途中で終了していた場合、受信したデータ構造を解析し、該データのどこまでが使用可能であるかを調べる。そして使用可能なデータのみを読み込んで、これを用いた音声認識処理を行う。
【0020】
以上説明したように本実施形態によれば、サーバからクライアントへダウンロードされる音声認識用のモデル辞書データを、最低限必要な要素順による構成としておくことにより、ダウンロードが中断された場合でも、クライアント側において音声認識処理を動作させることができる。
【0021】
<第2実施形態>
以下、本発明に係る第2実施形態について説明する。
【0022】
第2実施形態は、テキストを音声に変換する音声合成システムに適用される。第2実施形態における音声合成システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様である。ただし、クライアント側の処理部103において、第1実施形態で示した音声認識処理に代えて、音声合成処理を行うことを特徴とする。また、サーバ側のモデル辞書データ106は、クライアント側で音声合成処理を行う処理部103において必要となるデータ(言語辞書、波形辞書、言語モデル、韻律辞書など)を有する。
【0023】
第2実施形態においては、ネットワーク104への接続機能を有するクライアント機器において音声合成のアプリケーションを使用する際に、必要に応じて言語辞書、波形辞書、言語モデル、韻律辞書などのモデル辞書データ106を、ネットワーク104を介してサーバからダウンロードする例について説明する。
【0024】
なお、クライアントがサーバからモデル辞書データ106をダウンロードする方法は、上述した第1実施形態と同様であるため、ここでは詳細な説明を省略する。
【0025】
第2実施形態におけるモデル辞書データ106は、以下のような構造によってサーバに保持されていることを特徴とする。
【0026】
モデル辞書データ106が言語モデルである場合には、上述した第1実施形態と同様に例えば図3に示すように、隣接単語を考慮しないモデル、隣接単語を考慮したモデル、等の順に並べる。
【0027】
また、モデル辞書データ106が言語辞書である場合には、構成する言語辞書の中で頻度順に並べる。例えば図5に示すように、単漢辞書、固有名詞辞書、などの順に並べておく。辞書内部に含まれる情報としては、読み、表記、品詞情報などがある。辞書内の単語を並べる際の頻度情報としては、言語コーパスなどに基づく出現頻度情報が用いられる。
【0028】
また、モデル辞書データ106が波形辞書である場合には、音素環境を考慮しない音素モデル、音素環境を考慮した音素モデルなどの順に並べる。例えば図6に示すように、モノフォン、ダイフォン、の順に辞書を配置しておく。そして各音素の構成要素として、音素名、波形、音素境界情報、ピッチマーク情報などが含まれるとする。また、波形辞書における音素も頻度順に並べておく。辞書内の波形を並べる際の頻度情報としては、言語コーパスなどに基づく出現頻度情報が用いられる。
【0029】
また、モデル辞書データ106が韻律辞書であれば、環境を考慮しないモデル、環境を考慮したモデルなどの順に並べる。韻律辞書の構成要素としては、基本周波数、継続時間長、パワーなどが辞書に含まれ、基本周波数においては図7に示すように、モーラ位置、アクセント型、モーラ数、f0パラメータ、などが含まれる。辞書内の構成要素を並べる際の頻度情報としては、言語コーパスなどに基づく出現頻度情報が用いられる。
【0030】
第2実施形態におけるクライアント側の処理部103においては、通信エラー等の発生に伴ってデータ受信が途中で終了していた場合、第1実施形態と同様に、受信したデータの使用可能範囲を調べて読み込むことによって、音声合成処理を行う。
【0031】
以上説明したように第2実施形態によれば、サーバからクライアントへダウンロードされる音声合成用のモデル辞書データを、最低限必要な要素順による構成としておくことにより、ダウンロードが中断された場合でも、クライアント側において音声合成処理を動作させることができる。
【0032】
<第3実施形態>
以下、本発明に係る第3実施形態について説明する。
【0033】
第3実施形態は、テキストを解析する言語処理システムに適用される。第3実施形態における言語処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様である。ただし、クライアント側の処理部103において、第1実施形態で示した音声認識処理に代えて、言語処理を行うことを特徴とする。また、サーバ側のモデル辞書データ106は、クライアント側で言語処理を行う処理部103において必要となるデータ(言語辞書、言語モデルなど)を有する。
【0034】
第3実施形態においては、ネットワーク104への接続機能を有するクライアント機器において言語処理のアプリケーションを使用する際に、必要に応じて言語辞書、言語モデルなどのモデル辞書データ106を、ネットワーク104を介してサーバからダウンロードする例について説明する。
【0035】
なお、クライアントがサーバからモデル辞書データ106をダウンロードする方法は、上述した第1実施形態と同様であるため、ここでは詳細な説明を省略する。
【0036】
第3実施形態におけるモデル辞書データ106は、以下のような構造によってサーバに保持されていることを特徴とする。
【0037】
モデル辞書データ106が言語モデルである場合には、上述した第1実施形態と同様に例えば図3に示すように、隣接単語を考慮しないモデル、隣接単語を考慮したモデル、等の順に並べる。
【0038】
また、モデル辞書データ106が言語辞書である場合には、上述した第2実施形態と同様に、例えば図5に示すような、構成する言語辞書の中での頻度順に並べる。
【0039】
第3実施形態におけるクライアント側の処理部103においては、通信エラー等の発生に伴ってデータ受信が途中で終了していた場合、第1実施形態と同様に、受信したデータの使用可能範囲を調べて読み込むことによって、言語処理を行う。
【0040】
以上説明したように第3実施形態によれば、サーバからクライアントへダウンロードされる言語処理用のモデル辞書データを、最低限必要な要素順による構成としておくことにより、ダウンロードが中断された場合でも、クライアント側において言語処理を動作させることができる。
【0041】
<第4実施形態>
以下、本発明に係る第4実施形態について説明する。
【0042】
第4実施形態は、音声認識処理、音声合成処理、言語処理等を行う音声処理システムに適用される。第4実施形態における音声処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様であるが、サーバ側のモデル辞書データ106として、クライアント側の処理部103で必要となる複数種類のデータ(言語辞書、言語モデルなど)を、その主要部から順次合成した複合構造とすることを特徴とする。
【0043】
以下、クライアントにおいてディクテーションの音声認識処理(聞き取り)を行う場合を例として説明する。
【0044】
クライアントのユーザがディクテーションの音声認識を行いたい場合、サーバに対して音声認識用データのダウンロードを促す。ここで、ディクテーションの音声認識に必要なモデル辞書データ106として、音響モデル、言語モデルの順に個別にダウンロードしていくと仮定する。この場合、ネットワークの不具合等によって、音響モデルのダウンロード途中で通信が途絶えてしまうと、クライアントの処理部103において音声認識のアプリケーションを動作させることができない。そこで第4実施形態においては、ダウンロードされるモデル辞書データ106の構造を、以下に示すようにしておく。
【0045】
すなわち、モデル辞書データ106を音響モデル、言語モデル等の各モデル辞書順、例えば、まず音響モデルの音素環境に依存しないデータ、次に言語モデルの隣接単語を考慮しないデータ、のように、第1実施形態で示した各構造の上位部分から順に、構成していく。
【0046】
例えば、モデル辞書データ106が音声認識に関するデータであれば、図8に示すように、音響モデルのモノフォン、言語モデルのユニグラム、つぎに音響モデルのトライフォン、言語モデルのバイグラム・・・などの順に、データを構成していく。なお、音響モデルと言語モデルの並び順は図8に示す例に限定されるものではなく、まず言語モデル、次に音響モデル、などの順であっても良い。また、モデル辞書データ106を構成するデータ種類も、音響モデルと言語モデルの2種類に限定されるものではなく、発音辞書などを含んでいても良い。
【0047】
また、クライアント側において音声合成処理を行う場合にも同様に、音声合成用のデータとして言語辞書および波形辞書が必要であれば、モデル辞書データ106を図9に示すように、言語辞書の単漢データ、波形辞書の音素環境に依存しないモノフォンデータ、言語辞書の固有名詞、波形辞書の音素環境に依存するバイフォンデータ・・・のように、各辞書構造の上位部分から順次並べた複合構成とする。なお、この場合も、言語辞書と波形辞書の並び順は図9に示す例に限定されるものではなく、また、データ種類もこの2種類に限定されず、韻律辞書や言語モデルなどを含んでいても良い。
【0048】
また、クライアント側において言語処理を行う場合にも同様に、言語処理用のデータとして言語モデルや韻律辞書が必要であれば、モデル辞書データ106をこれらの複合構成とする。
【0049】
モデル辞書データ106を以上のような複合構成とすることにより、サーバからクライアントへモデル辞書データ106(音響モデル、言語モデル、言語辞書、波形辞書など)を送信し、クライアントでは受信したモデル辞書データ106に基づいて、各種音声処理(音声認識、音声合成、言語処理)を行う。
【0050】
第4実施形態においても上述した第1実施形態と同様に、クライアント側の処理部103では、受信したデータ構造の使用可能範囲を調べて読み込むことによって、各種音声処理を行う。
【0051】
以上説明したように第4実施形態によれば、サーバからクライアントへダウンロードされる音声処理用のモデル辞書データを、該処理に必要となる複数種類のデータの複合構造としておくことにより、ダウンロードが中断された場合でも、クライアント側において音声処理を動作させることができる。
【0052】
<第5実施形態>
以下、本発明に係る第5実施形態について説明する。
【0053】
第5実施形態は、音声認識処理、音声合成処理、言語処理等を行う音声処理システムに適用される。第5実施形態における音声処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様であるが、クライアントの機器のリソースに応じて、サーバからダウンロードするモデル辞書データ106のデータ量を自動的に変更することを特徴とする。
【0054】
以下、第5実施形態においてクライアントがサーバからモデル辞書データ106を取得する手順を、図10のフローチャートを用いて説明する。
【0055】
まず、クライアントからサーバへ、ダウンロードを行う旨のメッセージを送ると(S201)、サーバはクライアントにその機器情報を問い合わせる(S202)。するとクライアントはサーバへ機器情報を送信し、サーバはクライアントからの機器情報を受け取る(S203)。ここで、クライアントにおける機器情報としては例えば、クライアント内で使用可能な記憶容量などの情報であるとする。
【0056】
するとサーバは、クライアントから受け取った機器情報に基づいて、ダウンロード可能なモデル辞書データ106のサイズを決定する(S204)。例えば、クライアントの機器情報として、クライアント内でモデル辞書データ106用として使用可能な記憶容量が設定されていれば、該記憶容量に基づいてダウンロード可能サイズを算出する。
【0057】
そしてサーバにおいては、算出したダウンロード可能サイズと取得されるモデル辞書データ106のサイズを比較し、モデル辞書データ106がダウンロード可能サイズ内であれば、該ダウンロード可能サイズをそのままダウンロードサイズとして決定する。一方、モデル辞書データ106のダウンロード可能サイズ分について、その一部が使用不可能である場合には、使用可能なデータサイズのみを、ダウンロードサイズとして決定する。
【0058】
以上のように決定されたダウンロードサイズに従い、サーバはクライアントへモデル辞書データ106を送信する(S205)。
【0059】
なお、ダウンロード対象となるモデル辞書データ106としては、上述した第1,第2及び第3実施形態のような構造であってもよいし、第4実施形態のように2種類以上のデータからなる複合構造であってもよい。例えば第1実施形態で示したようにクライアントにおいて音声認識を行う場合、サーバはモデル辞書データ106として、音響モデル、言語モデルのそれぞれを順次送信する。
【0060】
以上説明したように第5実施形態によれば、クライアントの機器情報に応じて、サーバからダウンロードするモデル辞書データ106のデータ量を自動的に調整することによって、ダウンロードされるモデル辞書データを、必要最低限に留めることができる。これにより、ダウンロードの中断によりクライアント側で処理不具合が発生する可能性を、最小限とすることができる。
【0061】
<第6実施形態>
以下、本発明に係る第6実施形態について説明する。
【0062】
第6実施形態は、音声認識処理、音声合成処理、言語処理等を行う音声処理システムに適用される。第6実施形態における音声処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様であるが、サーバからダウンロードするモデル辞書データ106のデータ量を、クライアントのユーザが指定することを特徴とする。
【0063】
以下、第6実施形態においてクライアントがサーバからモデル辞書データ106を取得する手順について説明する。
【0064】
まずクライアントからサーバへ、ダウンロードを行う旨のメッセージを送る。するとサーバは、クライアントにモデル辞書データの使用サイズを問い合わせ、クライアントは該問い合わせに応じて、サーバへダウンロードサイズを送信する。するとサーバは、クライアントから受け取ったダウンロードサイズに基づいて、モデル辞書データ106を送信する。
【0065】
クライアントからサーバへのダウンロードサイズの通知は、例えば図11に示すようなダイアログによって、ダウンロード可能なサイズを種々提示し、ユーザが選択することによって行われる。同図の例では、モデル辞書データ106として音響モデルをダウンロードする場合に、モノフォンのみのダウンロードであれば12Kバイトが、モノフォンとトライフォンをダウンロードするのであれば、3つのレベル毎にそれぞれ1000Kバイト,2000Kバイト,5000Kバイトが、ダウンロード可能サイズとしてユーザに提示される。なお、これらのダウンロードサイズは、サーバ側において予め複数種類を設定しておいてもよいし、第5実施形態のようにクライアント機器情報に基づいて複数種類を設定しても良い。
【0066】
また、上述した第5実施形態で説明したように、クライアントの機器情報に基づいて、ダウンロードするモデル辞書データ106のデータ量を提示しても良い。
【0067】
なお、ダウンロード対象となるモデル辞書データ106としては、上述した第1,第2及び第3実施形態のような構造であってもよいし、第4実施形態のように2種類以上のデータからなる複合構造であってもよい。
【0068】
以上説明したように第6実施形態によれば、クライアント側のユーザが、サーバからダウンロードするモデル辞書データ106のデータ量を指定することができる。これにより、ユーザにとって最低限のモデル辞書データ106をダウンロードすることができる。
【0069】
<第7実施形態>
以下、本発明に係る第7実施形態について説明する。
【0070】
第7実施形態は、音声認識処理、音声合成処理、言語処理等を行う音声処理システムに適用される。第7実施形態における音声処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様であり、モデル辞書データ106の構造も、第1実施形態と同様であるとする。
【0071】
第7実施形態においては、サーバからモデル辞書データ106をダウンロードする際に、その進行状況を段階的にクライアントへ通知することを特徴とする。例えば、モデル辞書データ106が音響モデルであれば、第1実施形態と同様にモノフォン、トライフォンの順にクライアントへ送信されるが、その状況を段階的にユーザに通知する。
【0072】
具体的には、図12に示すダイアログ等を用いて、モノフォンのダウンロードが終了した時点で、ユーザにモノフォン完了を伝える。また、トライフォンを予め複数段階に分けておき、1段階のダウンロードが終了した時点でユーザに通知する。なお、このダウンロード終了が通知された時点で、ユーザはダウンロードの終了を指示することも可能であり、この場合、ダウンロード途中で終了可能である旨を報知しても良い。なお、ダウンロードの複数段階としては、モデル辞書データ106の要素種ごとに限らず、サイズや認識性能によって段階を分けても良い。
【0073】
なお、ダウンロード対象となるモデル辞書データ106としては、上述した第1,第2及び第3実施形態のような構造であってもよいし、第4実施形態のように2種類以上のデータからなる複合構造であってもよい。
【0074】
以上説明したように第7実施形態によれば、クライアント側のユーザは、サーバからモデル辞書データ106をダウンロードする際に、その進行状況を把握することができ、操作性が向上する。また、ダウンロードが中断してしまった場合でも、どこまでダウンロードできたかをユーザが把握できるため、クライアント側において最低限の処理を行うために再度ダウンロードすべきか否かを、適切に判断することができる。
【0075】
【発明の効果】
以上説明したように本発明によれば、クライアントにおいて、サーバからダウンロードした参照データを用いたデータ処理を行う際に、ダウンロードが中断した場合でも最低限の処理を実行することができる。
【図面の簡単な説明】
【図1】本発明に係る一実施形態におけるシステム構成を示すブロック図である。
【図2】モデル辞書データとして音響モデルを格納する際の構成例を示す図である。
【図3】モデル辞書データとして言語モデルを格納する際の構成例を示す図である。
【図4】モデル辞書データとして発話辞書を格納する際の構成例を示す図である。
【図5】モデル辞書データとして言語辞書を格納する際の構成例を示す図である。
【図6】モデル辞書データとして波形辞書を格納する際の構成例を示す図である。
【図7】モデル辞書データとして韻律辞書を格納する際の構成例を示す図である。
【図8】モデル辞書データとして音声認識用の複合データを格納する際の構成例を示す図である。
【図9】モデル辞書データとして音声合成用の複合データを格納する際の構成例を示す図である。
【図10】ダウンロードサイズの自動決定処理を示すフローチャートである。
【図11】ダウンロードサイズの設定ダイアログ例を示す図である。
【図12】ダウンロード状況の通知ダイアログ例を示す図である。
【符号の説明】
101 受信部
102 記憶部
103 処理部
104 ネットワーク
105 送信部
106 モデル辞書データ
【発明の属する技術分野】
本発明は、ダウンロードした参照データに基づく処理を行うデータ処理システム及び該システムにおけるデータ格納方法に関する。
【0002】
【従来の技術】
近年の通信手段の発達に伴い、画像や音声等、多種多様な形態のデータを送受信する機会が増えている。しかし、特に大容量のデータを送信する場合には、通信状況によっては全データの受信(ダウンロード)が完了する前に、通信そのものが終了してしまうことが危惧される。このような場合に備え、送信データの容量を縮小してから送信する方法が知られている。
【0003】
【発明が解決しようとする課題】
しかしながら、上記従来のデータ容量を縮小して送信を行う通信方法においても、以下のような問題があった。
【0004】
データ量を縮小して送信しても、全データが完全に受信される可能性が高まったに過ぎず、通信の安定度に対するデータの安全性が確保されるものではない。すなわち、通信状況によってはダウンロードが途中で止まってしまうこともあり得る。
【0005】
本発明は上記問題を解決するためになされたものであり、クライアントにおいて、サーバからダウンロードした参照データを用いたデータ処理を行う際に、ダウンロードが中断した場合でも最低限の処理を実行可能とするデータ処理システム及び該システムにおけるデータ格納方法を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成するための一手段として、本発明のデータ処理システムは以下の構成を備える。
【0007】
すなわち、クライアントとサーバからなるデータ処理システムであって、前記クライアントは、前記サーバから所定の参照データを受信する受信手段と、前記参照データを参照してデータ処理を行うデータ処理手段と、を有し、前記サーバは、前記参照データを前記データ処理手段における重要度に応じたデータ順で格納する格納手段と、前記クライアントからの要求に応じて前記格納手段に格納された参照データを前記クライアントへ送信する送信手段と、を有することを特徴とする。
【0008】
例えば、前記格納手段は、前記参照データを前記データ処理手段における重要度に依存する上位構成から下位構成へ順次格納することを特徴とする。
【0009】
【発明の実施の形態】
以下、本発明に係る一実施形態について、図面を参照して詳細に説明する。
【0010】
<第1実施形態>
本実施形態は、入力される音声を認識する音声認識システムに適用される。図1は、本実施形態の音声認識システムの構成を示すブロック図である。同図において、104はネットワークであり、その左側の構成がクライアントを、右側構成がサーバを示す。
【0011】
クライアント側では、サーバから辞書等を受信する受信部101と、辞書等を記憶する記憶部102、ダウンロードした辞書等を用いて音声合成あるいは音声認識または言語処理を行う処理部103より構成される。
【0012】
サーバ側では、クライアントからの要求に対して、ネットワーク104を介して辞書等を送信する送信部105、クライアント側で音声認識処理等を行う処理部103において必要となるデータ(音響モデル、言語モデル、発音辞書など)により構成されるモデル辞書データ106を有する。
【0013】
本実施形態においては、ネットワーク104への接続機能を有するクライアント機器において音声認識のアプリケーションを使用する際に、必要に応じて音響モデル、言語モデルなどのモデル辞書データ106を、ネットワーク104を介してサーバからダウンロードする例について説明する。
【0014】
クライアントが処理部103においてアプリケーションを使用する際に、サーバに対して、使用するモデル辞書データ106を受信部101より要求する。するとサーバ側では、クライアントの処理部103で行われる処理、任意のデータをモデル辞書データ106より選択して送信部105に送り、該データはネットワーク104を介してクライアントの受信部101に送られる。するとクライアント側では、受信部101で受信したモデル辞書データを記憶部102に記憶し、処理部103において該モデル辞書データを用いた音声認識処理を行う。
【0015】
ここで上記従来例においても説明したように、サーバからクライアントへモデル辞書データ106を送信する場合に、ネットワーク104を含む通信環境によっては、ダウンロードが不完全なままで通信が終了してしまう場合がある。そこで本実施形態においては、モデル辞書データ106を以下に示すような構造で、サーバ側に保存しておく。以下、本実施形態におけるモデル辞書データ106のデータ構造例を示す。
【0016】
モデル辞書データ106が音響モデルである場合には、音素環境を考慮しない音素モデル、音素環境を考慮した音素モデル、等の順に並べる。具体的には、例えば図2に示すように、モノフォン、トライフォンなどの順にデータを配置しておく。ここで各データフォーマットとしては例えばHMMにより構成され、音素名、平均分散などを含むものとする。またモノフォンの並びとしては例えば、a,i,u,e,oのような母音順としてもよい。またトライフォンであれば、音声認識において出現頻度の高い音素の順に並べれば良い。なお、出現頻度の決定方法としては例えば、予め言語コーパスなどのデータを用いて出現頻度をサーバ側で計算しておけば良い。
【0017】
また、モデル辞書データ106が言語モデルである場合には、隣接単語を考慮しないモデル、隣接単語を考慮したモデル、等の順に並べる。例えば図3に示すように、言語モデルがNグラムモデルで構成されている場合には、ユニグラム、バイグラム、トライグラム・・・などの順に並べる。ここで例えばユニグラムに含まれる情報としては、表記、読み、確率値などを含むとする。また、バイグラムやトライグラムなどの場合には、頻度情報を用いて内部の単語を並べておく。なお、モデルを並べる際の頻度情報としては、音響モデルの場合と同様に言語コーパスなどに基づく出現頻度情報が用いられる。
【0018】
また、モデル辞書データ106が発音辞書である場合には、構成する発音辞書の中で頻度順に並べる。辞書内部に含まれる情報としては、図4に示すように、読み、表記、ID情報などがある。辞書内の単語を並べる際の頻度情報としては、言語コーパスなどに基づく出現頻度情報が用いられる。
【0019】
クライアント側の処理部103においては、通信エラー等の発生に伴ってデータ受信が途中で終了していた場合、受信したデータ構造を解析し、該データのどこまでが使用可能であるかを調べる。そして使用可能なデータのみを読み込んで、これを用いた音声認識処理を行う。
【0020】
以上説明したように本実施形態によれば、サーバからクライアントへダウンロードされる音声認識用のモデル辞書データを、最低限必要な要素順による構成としておくことにより、ダウンロードが中断された場合でも、クライアント側において音声認識処理を動作させることができる。
【0021】
<第2実施形態>
以下、本発明に係る第2実施形態について説明する。
【0022】
第2実施形態は、テキストを音声に変換する音声合成システムに適用される。第2実施形態における音声合成システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様である。ただし、クライアント側の処理部103において、第1実施形態で示した音声認識処理に代えて、音声合成処理を行うことを特徴とする。また、サーバ側のモデル辞書データ106は、クライアント側で音声合成処理を行う処理部103において必要となるデータ(言語辞書、波形辞書、言語モデル、韻律辞書など)を有する。
【0023】
第2実施形態においては、ネットワーク104への接続機能を有するクライアント機器において音声合成のアプリケーションを使用する際に、必要に応じて言語辞書、波形辞書、言語モデル、韻律辞書などのモデル辞書データ106を、ネットワーク104を介してサーバからダウンロードする例について説明する。
【0024】
なお、クライアントがサーバからモデル辞書データ106をダウンロードする方法は、上述した第1実施形態と同様であるため、ここでは詳細な説明を省略する。
【0025】
第2実施形態におけるモデル辞書データ106は、以下のような構造によってサーバに保持されていることを特徴とする。
【0026】
モデル辞書データ106が言語モデルである場合には、上述した第1実施形態と同様に例えば図3に示すように、隣接単語を考慮しないモデル、隣接単語を考慮したモデル、等の順に並べる。
【0027】
また、モデル辞書データ106が言語辞書である場合には、構成する言語辞書の中で頻度順に並べる。例えば図5に示すように、単漢辞書、固有名詞辞書、などの順に並べておく。辞書内部に含まれる情報としては、読み、表記、品詞情報などがある。辞書内の単語を並べる際の頻度情報としては、言語コーパスなどに基づく出現頻度情報が用いられる。
【0028】
また、モデル辞書データ106が波形辞書である場合には、音素環境を考慮しない音素モデル、音素環境を考慮した音素モデルなどの順に並べる。例えば図6に示すように、モノフォン、ダイフォン、の順に辞書を配置しておく。そして各音素の構成要素として、音素名、波形、音素境界情報、ピッチマーク情報などが含まれるとする。また、波形辞書における音素も頻度順に並べておく。辞書内の波形を並べる際の頻度情報としては、言語コーパスなどに基づく出現頻度情報が用いられる。
【0029】
また、モデル辞書データ106が韻律辞書であれば、環境を考慮しないモデル、環境を考慮したモデルなどの順に並べる。韻律辞書の構成要素としては、基本周波数、継続時間長、パワーなどが辞書に含まれ、基本周波数においては図7に示すように、モーラ位置、アクセント型、モーラ数、f0パラメータ、などが含まれる。辞書内の構成要素を並べる際の頻度情報としては、言語コーパスなどに基づく出現頻度情報が用いられる。
【0030】
第2実施形態におけるクライアント側の処理部103においては、通信エラー等の発生に伴ってデータ受信が途中で終了していた場合、第1実施形態と同様に、受信したデータの使用可能範囲を調べて読み込むことによって、音声合成処理を行う。
【0031】
以上説明したように第2実施形態によれば、サーバからクライアントへダウンロードされる音声合成用のモデル辞書データを、最低限必要な要素順による構成としておくことにより、ダウンロードが中断された場合でも、クライアント側において音声合成処理を動作させることができる。
【0032】
<第3実施形態>
以下、本発明に係る第3実施形態について説明する。
【0033】
第3実施形態は、テキストを解析する言語処理システムに適用される。第3実施形態における言語処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様である。ただし、クライアント側の処理部103において、第1実施形態で示した音声認識処理に代えて、言語処理を行うことを特徴とする。また、サーバ側のモデル辞書データ106は、クライアント側で言語処理を行う処理部103において必要となるデータ(言語辞書、言語モデルなど)を有する。
【0034】
第3実施形態においては、ネットワーク104への接続機能を有するクライアント機器において言語処理のアプリケーションを使用する際に、必要に応じて言語辞書、言語モデルなどのモデル辞書データ106を、ネットワーク104を介してサーバからダウンロードする例について説明する。
【0035】
なお、クライアントがサーバからモデル辞書データ106をダウンロードする方法は、上述した第1実施形態と同様であるため、ここでは詳細な説明を省略する。
【0036】
第3実施形態におけるモデル辞書データ106は、以下のような構造によってサーバに保持されていることを特徴とする。
【0037】
モデル辞書データ106が言語モデルである場合には、上述した第1実施形態と同様に例えば図3に示すように、隣接単語を考慮しないモデル、隣接単語を考慮したモデル、等の順に並べる。
【0038】
また、モデル辞書データ106が言語辞書である場合には、上述した第2実施形態と同様に、例えば図5に示すような、構成する言語辞書の中での頻度順に並べる。
【0039】
第3実施形態におけるクライアント側の処理部103においては、通信エラー等の発生に伴ってデータ受信が途中で終了していた場合、第1実施形態と同様に、受信したデータの使用可能範囲を調べて読み込むことによって、言語処理を行う。
【0040】
以上説明したように第3実施形態によれば、サーバからクライアントへダウンロードされる言語処理用のモデル辞書データを、最低限必要な要素順による構成としておくことにより、ダウンロードが中断された場合でも、クライアント側において言語処理を動作させることができる。
【0041】
<第4実施形態>
以下、本発明に係る第4実施形態について説明する。
【0042】
第4実施形態は、音声認識処理、音声合成処理、言語処理等を行う音声処理システムに適用される。第4実施形態における音声処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様であるが、サーバ側のモデル辞書データ106として、クライアント側の処理部103で必要となる複数種類のデータ(言語辞書、言語モデルなど)を、その主要部から順次合成した複合構造とすることを特徴とする。
【0043】
以下、クライアントにおいてディクテーションの音声認識処理(聞き取り)を行う場合を例として説明する。
【0044】
クライアントのユーザがディクテーションの音声認識を行いたい場合、サーバに対して音声認識用データのダウンロードを促す。ここで、ディクテーションの音声認識に必要なモデル辞書データ106として、音響モデル、言語モデルの順に個別にダウンロードしていくと仮定する。この場合、ネットワークの不具合等によって、音響モデルのダウンロード途中で通信が途絶えてしまうと、クライアントの処理部103において音声認識のアプリケーションを動作させることができない。そこで第4実施形態においては、ダウンロードされるモデル辞書データ106の構造を、以下に示すようにしておく。
【0045】
すなわち、モデル辞書データ106を音響モデル、言語モデル等の各モデル辞書順、例えば、まず音響モデルの音素環境に依存しないデータ、次に言語モデルの隣接単語を考慮しないデータ、のように、第1実施形態で示した各構造の上位部分から順に、構成していく。
【0046】
例えば、モデル辞書データ106が音声認識に関するデータであれば、図8に示すように、音響モデルのモノフォン、言語モデルのユニグラム、つぎに音響モデルのトライフォン、言語モデルのバイグラム・・・などの順に、データを構成していく。なお、音響モデルと言語モデルの並び順は図8に示す例に限定されるものではなく、まず言語モデル、次に音響モデル、などの順であっても良い。また、モデル辞書データ106を構成するデータ種類も、音響モデルと言語モデルの2種類に限定されるものではなく、発音辞書などを含んでいても良い。
【0047】
また、クライアント側において音声合成処理を行う場合にも同様に、音声合成用のデータとして言語辞書および波形辞書が必要であれば、モデル辞書データ106を図9に示すように、言語辞書の単漢データ、波形辞書の音素環境に依存しないモノフォンデータ、言語辞書の固有名詞、波形辞書の音素環境に依存するバイフォンデータ・・・のように、各辞書構造の上位部分から順次並べた複合構成とする。なお、この場合も、言語辞書と波形辞書の並び順は図9に示す例に限定されるものではなく、また、データ種類もこの2種類に限定されず、韻律辞書や言語モデルなどを含んでいても良い。
【0048】
また、クライアント側において言語処理を行う場合にも同様に、言語処理用のデータとして言語モデルや韻律辞書が必要であれば、モデル辞書データ106をこれらの複合構成とする。
【0049】
モデル辞書データ106を以上のような複合構成とすることにより、サーバからクライアントへモデル辞書データ106(音響モデル、言語モデル、言語辞書、波形辞書など)を送信し、クライアントでは受信したモデル辞書データ106に基づいて、各種音声処理(音声認識、音声合成、言語処理)を行う。
【0050】
第4実施形態においても上述した第1実施形態と同様に、クライアント側の処理部103では、受信したデータ構造の使用可能範囲を調べて読み込むことによって、各種音声処理を行う。
【0051】
以上説明したように第4実施形態によれば、サーバからクライアントへダウンロードされる音声処理用のモデル辞書データを、該処理に必要となる複数種類のデータの複合構造としておくことにより、ダウンロードが中断された場合でも、クライアント側において音声処理を動作させることができる。
【0052】
<第5実施形態>
以下、本発明に係る第5実施形態について説明する。
【0053】
第5実施形態は、音声認識処理、音声合成処理、言語処理等を行う音声処理システムに適用される。第5実施形態における音声処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様であるが、クライアントの機器のリソースに応じて、サーバからダウンロードするモデル辞書データ106のデータ量を自動的に変更することを特徴とする。
【0054】
以下、第5実施形態においてクライアントがサーバからモデル辞書データ106を取得する手順を、図10のフローチャートを用いて説明する。
【0055】
まず、クライアントからサーバへ、ダウンロードを行う旨のメッセージを送ると(S201)、サーバはクライアントにその機器情報を問い合わせる(S202)。するとクライアントはサーバへ機器情報を送信し、サーバはクライアントからの機器情報を受け取る(S203)。ここで、クライアントにおける機器情報としては例えば、クライアント内で使用可能な記憶容量などの情報であるとする。
【0056】
するとサーバは、クライアントから受け取った機器情報に基づいて、ダウンロード可能なモデル辞書データ106のサイズを決定する(S204)。例えば、クライアントの機器情報として、クライアント内でモデル辞書データ106用として使用可能な記憶容量が設定されていれば、該記憶容量に基づいてダウンロード可能サイズを算出する。
【0057】
そしてサーバにおいては、算出したダウンロード可能サイズと取得されるモデル辞書データ106のサイズを比較し、モデル辞書データ106がダウンロード可能サイズ内であれば、該ダウンロード可能サイズをそのままダウンロードサイズとして決定する。一方、モデル辞書データ106のダウンロード可能サイズ分について、その一部が使用不可能である場合には、使用可能なデータサイズのみを、ダウンロードサイズとして決定する。
【0058】
以上のように決定されたダウンロードサイズに従い、サーバはクライアントへモデル辞書データ106を送信する(S205)。
【0059】
なお、ダウンロード対象となるモデル辞書データ106としては、上述した第1,第2及び第3実施形態のような構造であってもよいし、第4実施形態のように2種類以上のデータからなる複合構造であってもよい。例えば第1実施形態で示したようにクライアントにおいて音声認識を行う場合、サーバはモデル辞書データ106として、音響モデル、言語モデルのそれぞれを順次送信する。
【0060】
以上説明したように第5実施形態によれば、クライアントの機器情報に応じて、サーバからダウンロードするモデル辞書データ106のデータ量を自動的に調整することによって、ダウンロードされるモデル辞書データを、必要最低限に留めることができる。これにより、ダウンロードの中断によりクライアント側で処理不具合が発生する可能性を、最小限とすることができる。
【0061】
<第6実施形態>
以下、本発明に係る第6実施形態について説明する。
【0062】
第6実施形態は、音声認識処理、音声合成処理、言語処理等を行う音声処理システムに適用される。第6実施形態における音声処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様であるが、サーバからダウンロードするモデル辞書データ106のデータ量を、クライアントのユーザが指定することを特徴とする。
【0063】
以下、第6実施形態においてクライアントがサーバからモデル辞書データ106を取得する手順について説明する。
【0064】
まずクライアントからサーバへ、ダウンロードを行う旨のメッセージを送る。するとサーバは、クライアントにモデル辞書データの使用サイズを問い合わせ、クライアントは該問い合わせに応じて、サーバへダウンロードサイズを送信する。するとサーバは、クライアントから受け取ったダウンロードサイズに基づいて、モデル辞書データ106を送信する。
【0065】
クライアントからサーバへのダウンロードサイズの通知は、例えば図11に示すようなダイアログによって、ダウンロード可能なサイズを種々提示し、ユーザが選択することによって行われる。同図の例では、モデル辞書データ106として音響モデルをダウンロードする場合に、モノフォンのみのダウンロードであれば12Kバイトが、モノフォンとトライフォンをダウンロードするのであれば、3つのレベル毎にそれぞれ1000Kバイト,2000Kバイト,5000Kバイトが、ダウンロード可能サイズとしてユーザに提示される。なお、これらのダウンロードサイズは、サーバ側において予め複数種類を設定しておいてもよいし、第5実施形態のようにクライアント機器情報に基づいて複数種類を設定しても良い。
【0066】
また、上述した第5実施形態で説明したように、クライアントの機器情報に基づいて、ダウンロードするモデル辞書データ106のデータ量を提示しても良い。
【0067】
なお、ダウンロード対象となるモデル辞書データ106としては、上述した第1,第2及び第3実施形態のような構造であってもよいし、第4実施形態のように2種類以上のデータからなる複合構造であってもよい。
【0068】
以上説明したように第6実施形態によれば、クライアント側のユーザが、サーバからダウンロードするモデル辞書データ106のデータ量を指定することができる。これにより、ユーザにとって最低限のモデル辞書データ106をダウンロードすることができる。
【0069】
<第7実施形態>
以下、本発明に係る第7実施形態について説明する。
【0070】
第7実施形態は、音声認識処理、音声合成処理、言語処理等を行う音声処理システムに適用される。第7実施形態における音声処理システムの構成は、上述した第1実施形態において図1に示した構成とほぼ同様であり、モデル辞書データ106の構造も、第1実施形態と同様であるとする。
【0071】
第7実施形態においては、サーバからモデル辞書データ106をダウンロードする際に、その進行状況を段階的にクライアントへ通知することを特徴とする。例えば、モデル辞書データ106が音響モデルであれば、第1実施形態と同様にモノフォン、トライフォンの順にクライアントへ送信されるが、その状況を段階的にユーザに通知する。
【0072】
具体的には、図12に示すダイアログ等を用いて、モノフォンのダウンロードが終了した時点で、ユーザにモノフォン完了を伝える。また、トライフォンを予め複数段階に分けておき、1段階のダウンロードが終了した時点でユーザに通知する。なお、このダウンロード終了が通知された時点で、ユーザはダウンロードの終了を指示することも可能であり、この場合、ダウンロード途中で終了可能である旨を報知しても良い。なお、ダウンロードの複数段階としては、モデル辞書データ106の要素種ごとに限らず、サイズや認識性能によって段階を分けても良い。
【0073】
なお、ダウンロード対象となるモデル辞書データ106としては、上述した第1,第2及び第3実施形態のような構造であってもよいし、第4実施形態のように2種類以上のデータからなる複合構造であってもよい。
【0074】
以上説明したように第7実施形態によれば、クライアント側のユーザは、サーバからモデル辞書データ106をダウンロードする際に、その進行状況を把握することができ、操作性が向上する。また、ダウンロードが中断してしまった場合でも、どこまでダウンロードできたかをユーザが把握できるため、クライアント側において最低限の処理を行うために再度ダウンロードすべきか否かを、適切に判断することができる。
【0075】
【発明の効果】
以上説明したように本発明によれば、クライアントにおいて、サーバからダウンロードした参照データを用いたデータ処理を行う際に、ダウンロードが中断した場合でも最低限の処理を実行することができる。
【図面の簡単な説明】
【図1】本発明に係る一実施形態におけるシステム構成を示すブロック図である。
【図2】モデル辞書データとして音響モデルを格納する際の構成例を示す図である。
【図3】モデル辞書データとして言語モデルを格納する際の構成例を示す図である。
【図4】モデル辞書データとして発話辞書を格納する際の構成例を示す図である。
【図5】モデル辞書データとして言語辞書を格納する際の構成例を示す図である。
【図6】モデル辞書データとして波形辞書を格納する際の構成例を示す図である。
【図7】モデル辞書データとして韻律辞書を格納する際の構成例を示す図である。
【図8】モデル辞書データとして音声認識用の複合データを格納する際の構成例を示す図である。
【図9】モデル辞書データとして音声合成用の複合データを格納する際の構成例を示す図である。
【図10】ダウンロードサイズの自動決定処理を示すフローチャートである。
【図11】ダウンロードサイズの設定ダイアログ例を示す図である。
【図12】ダウンロード状況の通知ダイアログ例を示す図である。
【符号の説明】
101 受信部
102 記憶部
103 処理部
104 ネットワーク
105 送信部
106 モデル辞書データ
Claims (22)
- クライアントとサーバからなるデータ処理システムであって、
前記クライアントは、
前記サーバから所定の参照データを受信する受信手段と、
前記参照データを参照してデータ処理を行うデータ処理手段と、を有し、
前記サーバは、
前記参照データを前記データ処理手段における重要度に応じたデータ順で格納する格納手段と、
前記クライアントからの要求に応じて前記格納手段に格納された参照データを前記クライアントへ送信する送信手段と、
を有することを特徴とするデータ処理システム。 - 前記格納手段は、前記参照データを前記データ処理手段における重要度に依存する上位構成から下位構成へ順次格納することを特徴とする請求項1記載のデータ処理システム。
- 前記データ処理手段は、入力される音声を認識する音声認識処理を行い、
前記格納手段は、前記参照データとして音響モデル、言語モデル、発音辞書の少なくとも1つを格納することを特徴とする請求項1記載のデータ処理システム。 - 前記データ処理手段は、テキストを音声に変換する音声合成処理を行い、
前記格納手段は、言語辞書、言語モデル、波形辞書、韻律辞書の少なくとも1つを格納することを特徴とする請求項1記載のデータ処理システム。 - 前記データ処理手段は、テキストを解析する言語処理を行い、
前記格納手段は、言語辞書、言語モデルの少なくとも1つを格納することを特徴とする請求項1記載のデータ処理システム。 - 前記格納手段は、音響モデルを、音素環境に依存しないデータ、依存するデータの順に構成し、該依存するデータについては出現頻度順の並びで、格納することを特徴とする請求項2記載のデータ処理システム。
- 前記格納手段は、言語モデルを、隣接単語あるいはクラスを考慮しないデータ、考慮するデータの順に構成し、該考慮するデータについては出現頻度順の並びで、格納することを特徴とする請求項2記載のデータ処理システム。
- 前記格納手段は、波形辞書を、音素環境に依存しないデータ、依存するデータの順に構成し、該依存するデータについては出現頻度順の並びで、格納することを特徴とする請求項2記載のデータ処理システム。
- 前記格納手段は、言語辞書を、単漢、固有名詞の順に構成し、固有名詞については出現頻度順の並びで、格納することを特徴とする請求項2記載のデータ処理システム。
- 前記格納手段は、発音辞書を、出現頻度順の並びで格納することを特徴とする請求項2記載のデータ処理システム。
- 前記格納手段は、韻律辞書を、環境に依存しないデータ、依存するデータの順に構成し、該依存するデータについては出現頻度順の並びで、格納することを特徴とする請求項2記載のデータ処理システム。
- 前記格納手段は、複数種類の前記参照データからなる複合データを格納することを特徴とする請求項2記載のデータ処理システム。
- 前記複合データは、前記参照データの前記上位構成から順次、該参照データの種類毎に並べた構成であることを特徴とする請求項12記載のデータ処理システム。
- 前記複合データは、音響モデルおよび言語モデルによって構成されることを特徴とする請求項13記載のデータ処理システム。
- 前記複合データは、言語辞書および波形辞書によって構成されることを特徴とする請求項13記載のデータ処理システム。
- 前記サーバはさらに、
前記クライアントの機器情報に基づき、該クライアントへ送信すべきデータサイズを決定するデータサイズ決定手段を有し、
前記送信手段は、前記データサイズ決定手段によって決定されたデータサイズに基づいて、前記参照データを前記クライアントへ送信することを特徴とする請求項1記載のデータ処理システム。 - 前記クライアントはさらに、
前記受信手段において前記サーバから受信すべきデータサイズをユーザ指示に基づいて決定するデータサイズ指示手段を有し、
前記送信手段は、前記データサイズ指示手段によって指示されたデータサイズに基づいて、前記参照データを前記クライアントへ送信することを特徴とする請求項1記載のデータ処理システム。 - 前記サーバはさらに、
前記送信手段における前記クライアントへの前記参照データの送信状況を、該クライアントへ段階的に通知する状況通知手段を有することを特徴とする請求項1記載のデータ処理システム。 - サーバにおいて、クライアントからの要求に応じて、格納手段に格納された所定の参照データを前記クライアントへ送信し、前記クライアントにおいて、前記サーバから受信した前記参照データを参照してデータ処理を行うデータ処理システムにおけるデータ格納方法であって、
前記格納手段は、前記データ処理の際の重要度に応じたデータ順で、前記参照データを格納することを特徴とするデータ格納方法。 - 前記格納手段は、前記参照データを前記データ処理の際の重要度に依存する上位構成から下位構成へ順次格納することを特徴とする請求項19記載のデータ格納方法。
- コンピュータ上で実行されることによって、該コンピュータを請求項1乃至18のいずれかに記載のサーバとして動作させることを特徴とするプログラム。
- 請求項21記載のプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002339756A JP2004170887A (ja) | 2002-11-22 | 2002-11-22 | データ処理システム及びデータ格納方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002339756A JP2004170887A (ja) | 2002-11-22 | 2002-11-22 | データ処理システム及びデータ格納方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004170887A true JP2004170887A (ja) | 2004-06-17 |
Family
ID=32702636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002339756A Withdrawn JP2004170887A (ja) | 2002-11-22 | 2002-11-22 | データ処理システム及びデータ格納方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004170887A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294640A (ja) * | 2008-05-07 | 2009-12-17 | Seiko Epson Corp | 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法 |
JP2013061371A (ja) * | 2011-09-12 | 2013-04-04 | National Institute Of Information & Communication Technology | 発音辞書作成装置、発音辞書の生産方法、およびプログラム |
WO2013132615A1 (ja) * | 2012-03-07 | 2013-09-12 | パイオニア株式会社 | ナビゲーション装置、サーバ、ナビゲーション方法及びプログラム |
WO2018190080A1 (ja) * | 2017-04-13 | 2018-10-18 | 日立オートモティブシステムズ株式会社 | 制御装置、プログラム更新システム、プログラム更新方法 |
WO2023073949A1 (ja) * | 2021-10-29 | 2023-05-04 | パイオニア株式会社 | 音声出力装置、サーバ装置、音声出力方法、制御方法、プログラム及び記憶媒体 |
-
2002
- 2002-11-22 JP JP2002339756A patent/JP2004170887A/ja not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294640A (ja) * | 2008-05-07 | 2009-12-17 | Seiko Epson Corp | 音声データ作成システム、プログラム、半導体集積回路装置及び半導体集積回路装置の製造方法 |
JP2013061371A (ja) * | 2011-09-12 | 2013-04-04 | National Institute Of Information & Communication Technology | 発音辞書作成装置、発音辞書の生産方法、およびプログラム |
WO2013132615A1 (ja) * | 2012-03-07 | 2013-09-12 | パイオニア株式会社 | ナビゲーション装置、サーバ、ナビゲーション方法及びプログラム |
JP5698864B2 (ja) * | 2012-03-07 | 2015-04-08 | パイオニア株式会社 | ナビゲーション装置、サーバ、ナビゲーション方法及びプログラム |
US9097550B2 (en) | 2012-03-07 | 2015-08-04 | Pioneer Corporation | Navigation device, server, navigation method and program |
WO2018190080A1 (ja) * | 2017-04-13 | 2018-10-18 | 日立オートモティブシステムズ株式会社 | 制御装置、プログラム更新システム、プログラム更新方法 |
US11513783B2 (en) | 2017-04-13 | 2022-11-29 | Hitachi Astemo, Ltd. | Control apparatus, program update system, and program update method |
WO2023073949A1 (ja) * | 2021-10-29 | 2023-05-04 | パイオニア株式会社 | 音声出力装置、サーバ装置、音声出力方法、制御方法、プログラム及び記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11069336B2 (en) | Systems and methods for name pronunciation | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
US9058810B2 (en) | System and method of performing user-specific automatic speech recognition | |
KR100908358B1 (ko) | 음성 인식을 위한 방법, 모듈, 디바이스 및 서버 | |
CA2618623C (en) | Control center for a voice controlled wireless communication device system | |
US6327566B1 (en) | Method and apparatus for correcting misinterpreted voice commands in a speech recognition system | |
US7369998B2 (en) | Context based language translation devices and methods | |
EP0980574B1 (en) | Pattern recognition enrolment in a distributed system | |
US8346555B2 (en) | Automatic grammar tuning using statistical language model generation | |
US20150073802A1 (en) | Dealing with switch latency in speech recognition | |
US20070016421A1 (en) | Correcting a pronunciation of a synthetically generated speech object | |
EP2455936B1 (en) | Speech translation system, dictionary server, and program | |
WO2009006081A2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
CN112927683A (zh) | 用于语音使能设备的动态唤醒词 | |
US20200143799A1 (en) | Methods and apparatus for speech recognition using a garbage model | |
JP6625772B2 (ja) | 検索方法及びそれを用いた電子機器 | |
US20030050772A1 (en) | Apparatus and method for an automated grammar file expansion tool | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
EP1899955B1 (en) | Speech dialog method and system | |
JP2004170887A (ja) | データ処理システム及びデータ格納方法 | |
JP2003162293A (ja) | 音声認識装置及び方法 | |
US20050108013A1 (en) | Phonetic coverage interactive tool | |
US7206738B2 (en) | Hybrid baseform generation | |
JP4392581B2 (ja) | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 | |
Odell et al. | Architecture, user interface, and enabling technology in Windows Vista's speech systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060207 |