JP3556425B2 - 共有辞書更新方法および辞書サーバ - Google Patents
共有辞書更新方法および辞書サーバ Download PDFInfo
- Publication number
- JP3556425B2 JP3556425B2 JP06464497A JP6464497A JP3556425B2 JP 3556425 B2 JP3556425 B2 JP 3556425B2 JP 06464497 A JP06464497 A JP 06464497A JP 6464497 A JP6464497 A JP 6464497A JP 3556425 B2 JP3556425 B2 JP 3556425B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- server
- shared
- data
- dictionaries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Computer And Data Communications (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、例えば、かな漢字変換や機械翻訳など、言語知識辞書を利用する自然言語処理のうちの一種を行う複数の辞書利用システムが個別に有する辞書の構築支援を行う辞書管理システムおよび、この辞書管理システムを介して各辞書利用システムへの辞書データの供給、前記辞書利用システムのいずれかで更新された辞書データを他の辞書利用システムに波及する辞書サーバに関する。
【0002】
【従来の技術】
計算機の日本語の入力を行なうIMEや、文書を翻訳する機械翻訳システムなどが広く利用されるようになってきている。この種のソフトウェアは、種々の言語情報を含む辞書を利用している。しかしながら、既成の辞書情報は、固定化されたものであり、次々に生まれる最新用語などに追随することができず、また、会社組織などローカルなコミュニティで使用される用語などは含まない。この問題を解決するため、ユーザは、そのユーザの辞書に、所望の単語を登録することにより、対応してきた。
【0003】
しかし、この辞書への用語の登録は、人手で行うには煩雑であり、これを簡略化するために、文書入力時にユーザからのキー入力や選択処理の情報により、自動的に辞書項目を登録する方式や、既存の文書を指定して、その既存の文書を解析することにより、辞書データを抽出するという方式が考案されてきた。
【0004】
【発明が解決しようとする課題】
ユーザからの入力より辞書を作成するという方式では、ユーザの一連のキー入力が、既成の辞書にない新しい語を入力するための操作であることを認識しなければならず、その操作法は人によって種々のバリエーションがある。したがって、誤登録を避けるためには、その種々のバリエーションのうち、新語入力である確実性の高い、一部のキー入力パターンのみを対象として、学習することになる。この結果、学習の範囲が制約されるという問題がある。
【0005】
また、既存の文書を指定して、その文書より新しい辞書データを学習するという方式では、その学習精度に問題があり、特に、日本語入力IMEなどでは、入力のキーである読みを獲得することができない。
【0006】
そのため、やはりユーザは、自己の負担で、自分のユーザ辞書に地道に辞書登録をしていく、という方法をとるのが一般的である。
そこで、本発明は、このような辞書登録管理システムの課題を解決するためになされたもので、予め辞書開発者が準備した最新用語データを記憶する辞書サーバから最新用語の供給が即時的、自動的に行なえ、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができ、また、ユーザの登録語を共同利用する枠組を提供して、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる辞書管理システムおよびそれを用いた辞書利用システムを提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の辞書管理システムは、言語処理を行う複数の言語処理システムが個別に有する辞書を更新する辞書管理システムにおいて、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記言語処理システムの辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求する要求手段と、
この要求手段での要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記言語処理システムの辞書を更新する更新手段と、
を具備したことにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。
【0008】
また、本発明の辞書管理システムは、言語処理を行う複数の言語処理システムが個別に有する辞書を更新する辞書管理システムにおいて、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記言語処理システムの辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求する要求手段と、
この要求手段での要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記言語処理システムの辞書を更新する第1の更新手段と、
前記複数の言語処理システムの辞書で更新された辞書データを収集する収集手段と、
この収集手段で収集された辞書データに基づき前記辞書サーバを更新する第2の更新手段と、
具備したことにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0009】
また、本発明の辞書サーバは、言語処理システムの辞書に供給する辞書データを記憶する辞書サーバにおいて、
前記言語処理システムが個別に有する辞書あるいは下位階層の辞書サーバで更新された辞書データを受信する受信手段と、
この受信手段で受信された辞書データのうち、その出現頻度が予め定められた値以上の辞書データを前記言語処理システムの辞書に供給する辞書データに変換して、前記言語処理システムの辞書に供給する供給手段と、
を具備したことにより、あるユーザが自分のユーザ辞書に登録した単語は、辞書管理システムを介して辞書サーバに送られ、分別、辞書化され、これが、他のユーザ辞書利用システムに反映される。
【0010】
この結果、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0011】
また、本発明の辞書サーバは、言語処理システムの辞書に供給する辞書データを記憶する辞書サーバにおいて、
前記言語処理システムが個別に有する辞書あるいは下位階層の辞書サーバで更新された辞書データを受信する受信手段と、
この受信手段で受信された辞書データのうち、その出現頻度が予め定められた値以上の辞書データを前記言語処理システムの辞書に供給する辞書データに変換して、前記言語処理システムの辞書に供給する第1の供給手段と、
前記受信手段で受信された辞書データのうち、その出現頻度が予め定められた値以上の辞書データを予め定められた上位階層の辞書サーバに送信する送信手段と、
前記上位階層の辞書サーバから受信した辞書データを前記言語処理システムの辞書に供給する第2の供給手段と、
を具備したことにより、予め辞書開発者が準備した最新用語データを辞書サーバ階層の最上位におくことにより、これが下位のサーバに順次転送されて、最終的にユーザの辞書管理システムを通じて辞書利用システムに反映される。また、あるユーザが自分のユーザ辞書に登録した単語は、辞書管理システムを介して辞書サーバに送られ、サーバ階層を通じて分別、辞書化され、これが、最上位の辞書サーバに達すると、こんどは下位のサーバに順次転送されて、ユーザ辞書利用システムに反映される。
【0012】
この結果、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0013】
また、本発明の辞書利用システムは、辞書の登録語を参照して所定の自然言語処理を行う辞書利用システムにおいて、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求する要求手段と、
この要求手段での要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記辞書を更新する更新手段と、
を具備したことにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。
【0014】
また、本発明の辞書利用システムは、辞書の登録語を参照して所定の自然言語処理を行う辞書利用システムにおいて、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求する要求手段と、
この要求手段での要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記辞書を更新する更新手段と、
前記辞書で更新された辞書データを前記辞書サーバに送信する送信手段と、
を具備したことにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0015】
また、本発明の辞書管理方法は、言語処理を行う複数の言語処理システムが個別に有する辞書を更新する辞書管理方法において、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記言語処理システムの辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求し、この要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記言語処理システムの辞書を更新することをにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。
【0016】
また、本発明の辞書管理方法は、言語処理を行う複数の言語処理システムが個別に有する辞書を更新する辞書管理方法において、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記言語処理システムの辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求し、この要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記言語処理システムの辞書を更新し、前記複数の言語処理システムの辞書で更新された辞書データを収集して、この収集された辞書データに基づき前記辞書サーバを更新することにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
なお、上記辞書管理システムおよび辞書利用システムは、それぞれ辞書管理装置および辞書利用装置として構成できる。
【0017】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
図1は、第1の実施形態に係る辞書管理システムの構成例を概略的に示したものである。辞書管理システム102は、サーバ通信部1、記憶部2、クライアント通信部3、入力部4、提示部5、制御部6から構成される。なお、これら各部は、コンピュータ(計算機)に実行させることのできるプログラム群(辞書管理エージェント)として構成することができる。
【0018】
サーバ通信部1は、例えば、インターネットもしくはイントラネットを介して、辞書サーバ101とのデータのやりとりを行なう。
記憶部2は、辞書サーバ101との通信に係わるユーザの設定情報、辞書データのやりとりに係わる通信ログを保持する他、必要に応じて辞書データそのものの保持も行なう。
【0019】
クライアント通信部3は、辞書管理システム102が動作する計算機上に実装されている辞書利用システム103とのデータのやりとりを行なう。
ここで、辞書利用システムとは、計算機への日本語入力を行なうIMEや、文書を翻訳する機械翻訳システムなどをいう。
【0020】
入力部4および提示部5はユーザとのインタフェース部分であり、辞書サーバとの通信に係わる設定情報をユーザが入力したり、辞書データのやりとりに係わる通信ログをユーザに提示するものである。
【0021】
制御部6は、上記各部1〜5を所定の動作を行なうように制御するものであり、図2に示すフローチャートに従って動作する。
辞書管理システム102が最初に起動されると、辞書サーバ101からユーザ提示文書および辞書セット情報が送信され、それをサーバ通信部1が受信すると、まず、提示部5に、ユーザ提示文書が例えば、図3に示すように表示される(ステップS201〜ステップS206)。
【0022】
この状態において、ユーザにより図3の「設定」ボタンが押下されると、図4(a)に示す設定画面が提示部5により表示される(ステップS208)。
この設定画面において、辞書管理システムの動作に係わる設定を行なう。従って、ユーザは、辞書管理システム102を利用しようとする場合、まず、図4(a)に示すような設定画面から必要とする設定を行えばよい。設定は、制御部6が入力部4及び提示部5を駆動することによって行なわれる。ここで、設定された情報は、記憶部2に記憶され、制御部6はこれに従って辞書管理システムの動作を制御する。
【0023】
図4(a)は、辞書サーバ101に用意されている種々の辞書データを自分の辞書利用システムにダウンロードしてくるための設定を行なう画面である。
まず、ユーザは、「定期的に更新する」または「更新ボタンで更新する」のいずれかのボタンを選択する。「定期的に更新する」は、例えば毎月1日など、一定期間ごとに、辞書サーバ101に辞書データの更新情報を問い合わせ、ダウンロードを行なうという、指定である。また、「更新ボタンで更新する」は図3に示す辞書管理システムの主画面上に配置された更新ボタンをユーザが押した時のみ、辞書データのダウンロードを行なうという、指定である。
【0024】
次に、ユーザは「辞書選択」に示される種々の辞書セットのうち、所望のものを選択する。各種辞書は「専門語−情報−ハードウェア」などのように階層的に構成されており、上位階層のボタンを選択すると、その下位に位置するすべての辞書セットが選択される。なお、辞書セットの種類や階層構造の情報は、辞書サーバ101から提供され、動的にメニュー化されて表示される。
【0025】
さらに、図4(a)の詳細設定ボタンを押すことにより、ダウンロードする辞書データの量を制限するための設定が行える。ここでは、ダウンロードする辞書データの量の上限を設定する場合について説明する。上限は、語数または語数に換算できる量、例えばダウンロード料金等で設定する。上限設定の対象は、選択された辞書セット毎(個別ボタン)もしくは、辞書セット全体(全体ボタン)である。
【0026】
例えば、図4(a)に示した設定画面から「アップロード」を選択すると、図4(b)に示すような、辞書サーバ101に対して、ユーザが自分の辞書利用システム103に登録したユーザ辞書データをアップロードするための設定を行なう画面が提示部5により表示される。
【0027】
ユーザは、「許可する」または「許可しない」のいずれかのボタンを選択し、「許可する」場合のみ自動アップロードが行なわれる。
以上のような初期設定の入力を終え、この設定値が記憶部2に書き込まれて、例えば、システムの再起動がなされると、辞書管理システムの通常の動作が開始される。
【0028】
以下、図2のフローチャートを参照しながら、辞書管理システムの動作を説明する。
まず、起動された辞書管理システム102は、記憶部2に記憶された設定値を参照して、自動更新モードで動作するか否かを判定する(ステップS201)。自動更新モードならば、現在の日時を獲得し、それが記憶部2に保持されている更新タイミングと合致するかどうかを判定し(ステップS202)、合致しなければ終了する。
【0029】
次に、辞書管理システムは、辞書サーバ101に対して、起動パケットを送信し、ユーザ提示文書ならびに辞書セット情報を獲得する(ステップS203)。ユーザ提示文書とは、例えば辞書サーバの管理者からエンドユーザへのお知らせ文書などをいう。また、辞書セット情報とは、辞書サーバが提供可能な辞書ラインアップの最新情報を示す計算機処理可能なデータである。辞書セット情報は、辞書の分野階層を表す情報と、各分野別辞書の利用料金を表す情報からなる。例えば、図5(a)のような辞書セット情報を表現するために、図5(b)のようなデータを用いる。すなわち、辞書の分野階層を表す情報として「Type」の項目に「中間ノード」であるか「末端ノード」であるかを示し、利用料金を表す情報として「Charge」に1語当たりの料金が示されている。
【0030】
図5(b)に示すような辞書セット情報を最初に獲得するのは、辞書サーバが提供する辞書ラインナップが変更されても、ダイナミックに対応できるようにするためである。したがって、この辞書セット情報は、記憶部2に保持されて、図4(a)にあるような辞書選択メニューを生成するために用いられる。
【0031】
次に、辞書管理システム102は、自動更新モードである場合(ステップS204)は、辞書サーバ101並びに辞書利用システム103と辞書情報の交換を行ない(ステップS205)、終了する。
【0032】
ここで、辞書情報の交換とは、辞書ダウンロードを行ない、辞書利用システム103の辞書を更新し、辞書アップロードを行なう一連の手続きをいうが、詳細は後述する。
【0033】
ステップS204で自動更新モードでない場合は、まずステップS203で獲得したユーザ提示文書を、図3のように提示部5にて表示する(ステップS206)。なお、表示処理は、必ずしも辞書管理システムが行なう必要はなく、外部のWWW文書ブラウザなどを駆動するように構成することも可能である。
【0034】
次に、入力部4からのユーザの指示を待つ状態(ステップS207〜S213)になる。もし、設定ボタンが押された場合(ステップS208)は、図4(a)のような設定画面を表示し、再設定を促す。そして、再設定された情報で、記憶部2を更新する(ステップS209)。
【0035】
更新ボタンが押された場合(ステップS210)は、後述する辞書情報の交換を行なう(ステップS211)。
また、レポートボタンが押された場合(ステップS212)は、記憶部2に保持されている辞書のダウンロードログを参照して、どの辞書セットから、いつ、何語登録し、利用料金がいくらになっているか、などの情報を図6のように表示する(ステップS213)。
【0036】
次に、図2のステップS205の辞書情報の交換処理について、図7に示すフローチャートを参照して説明する。
まず、辞書管理システム102は、記憶部2に保持されている辞書のダウンロードログを参照して、どの辞書セットから何語登録されているかを調べ、辞書サーバ101に通知する。同時に、ユーザの設定情報を調べ、ダウンロード要求する辞書セット名並びに語数の上限を通知する。
【0037】
辞書サーバ101は、これらの情報から、要求された辞書データから、既にダウンロードされている辞書データを除いた、差分の辞書データを決定して、これを暗号化して送信し、辞書管理システム102は、受信データの暗号を解除して、所望の辞書データを受ける(ステップS601)。
【0038】
続いて、辞書利用システム103、例えば日本語入力用IMEに対して、受信した辞書更新情報を与え、そのシステムの辞書を更新する(ステップS602)。
【0039】
辞書更新情報は、例えば、図8のように、追加「a」または削除「d」の更新フラグ、読み、見出し、品詞などからなり、最新用語の追加や、死語の削除をすることができる。また、当然のことながら、削除と追加を組み合わせることで、過去にダウンロードされた辞書データに不具合があった場合にそれを修正することもできる。
【0040】
次に、辞書管理システム102は、記憶部2を参照して、辞書アップロードが許可されているか否かを判定する(ステップS603)。
辞書アップロードが許可されている場合、辞書利用システム103に対し、ユーザが登録した新しい単語のリストを要求し、これを獲得する(ステップS604)。この場合、前回獲得した分との差分が獲得されることが望ましいが、通常、辞書利用システム103は、単語の登録日時など、差分を判定するための情報を保持していることはまれである。その場合、辞書管理システム102は、辞書利用システム103から、その時点のユーザ登録語の全リストを獲得し、その獲得日時と共に、記憶部2に保持しておく。そして、前回までの全単語リストと、今回の全単語リストを比較し、その期間に新たに登録された単語のリスト(差分)を作成する。もし、差分がある場合(ステップS605)は、辞書サーバ101に対して、その差分情報を送信し、サーバ101側から受領メッセージを受領して(ステップS606)、処理を終了する。
【0041】
なお、辞書管理システム102の計算パワーが低い場合は、辞書管理システム102側では差分リストを作成せずに、そのまま全単語リストをサーバ101側に送信し、サーバ101側で差分を作成するような構成も考えられる。この場合、辞書管理システム102の負荷が軽減される反面、サーバとの通信量が増えることになる。
【0042】
なお、本実施形態の変形例として、辞書利用システム103が上記辞書管理システム102の構成を包含するように構成することもできる。この場合、クライアント通信部3を廃し、辞書利用システム103が直接、制御部6を駆動するように構成する。この結果、上記辞書管理システム102の機能を包含する辞書利用システムを実現することができる。
【0043】
(第2の実施形態)
次に、辞書サーバが階層化されて構成されている場合について説明する。
辞書サーバは、前述の辞書管理システムと協調的に動作し、予め用意された辞書データを提供するだけでなく、辞書管理システムによって収集された各ユーザの辞書登録情報を自動的に辞書データ化し、再び各ユーザに提供することによって、ユーザ辞書情報の共有を実現することを特徴とする。
【0044】
図9に、その概念図を示す。図9に示したように、辞書サーバは、会社組織などの各部門に対応して、部門サーバ112、上位部門サーバ115、組織内マスターサーバ118と、階層的に構成される。
【0045】
まず、エンドユーザのもつ辞書管理システムまたはこれを包含する辞書利用システム111から、部門サーバ112に対してユーザの辞書登録データがアップロードされる。アップロードされたデータは、プール113に一旦蓄えられ、プール内に高頻度で出現する単語、すなわち、多くのユーザが登録しているような単語を選び出す(=多数決原理)ことにより、辞書化され、部門共通辞書114となる。
【0046】
部門共通辞書114は、そのままユーザに提供される他、上位部門サーバ115に送信される。
上位部門サーバ115は、各部門サーバ112から収集した部門共通辞書114を、部門サーバ112同様プール116に一旦蓄え、やはり多数決原理によって辞書化し、上位部門共通辞書117を作成する。
【0047】
同様に、組織内に唯1つ存在する組織内マスターサーバ118は、各上位部門サーバ115から収集した辞書データをプール119に蓄え、組織内共通辞書120とする。
【0048】
このように階層化構成とすることにより、ユーザは、自部門で共通的に使用される単語だけでなく、組織内で共通的に使用される単語もまた、自動的に利用できるようになる。
【0049】
次に、階層化された辞書サーバの構成例について説明する。
図10は、部門サーバ112、上位部門サーバ115、もしくは、組織内マスターサーバ118として動作可能な辞書サーバ132の構成例を示すブロック図である。これら3つのサーバ(部門サーバ112、上位部門サーバ115、組織内マスターサーバ118)は、階層化構造を木構造で表現した場合、それぞれ、リーフノード、中間ノード、ルートノードとなるが、基本的には同一の構成を持ち、同一のアルゴリズムで動作する。
【0050】
辞書サーバ132は、上位通信部11、下位通信部12、記憶部13、制御部14から構成される。
上位通信部11は、例えば、インターネットもしくはイントラネットを介して、上位の辞書サーバに辞書データの交換に係わる要求を出し、所望のデータを受信する。
【0051】
ここで、上位辞書サーバとは、例えば、リーフノードである部門サーバ112からみた場合が上位部門サーバ115であり、中間ノードである上位部門サーバ115からみた場合マスターサーバ118である。
【0052】
下位通信部12は、同じくネットワークを介して、下位の辞書サーバもしくは辞書管理システムから、辞書データの交換に係わる要求があった場合に、所望のデータを送信する。
【0053】
ここで、下位辞書サーバとは、例えば、中間ノードである上位部門サーバ115からみた場合が部門サーバ112であり、ルートサーバであるマスターサーバ118からもた場合が上位部門サーバ115である。リーフノードである部門サーバ112からみた場合、下位通信部12を介して通信する相手は辞書管理システムあるいはこれを包含する辞書利用システム111である。
【0054】
記憶部13は、下位辞書サーバもしくは辞書管理システムに提供する辞書更新データを保持するとともに、アップロードデータのプール、辞書データの交換に係わる通信ログ等を保持する。
【0055】
制御部14は、上記各部11〜13を所定の動作を行なうように制御するものであり、図12に示すフローチャートに従って動作する。
記憶部13に保持される下位辞書サーバもしくは辞書管理システムに提供するための辞書更新データは、より具体的には、図11に示すようなファイルシステムとして管理される。
【0056】
ファイルシステムは、図11(a)に示すように、ターゲットとなる辞書利用システム名(日本語IME、音声規則合成器等)ごとに、辞書の分野階層に対応したディレクトリ構成をとる。ルートノードの辞書サーバは、辞書管理システムから自動収集された組織内用語(X社共通)の他に、別途辞書開発者によって準備された最新用語集(基本語、専門語等)も管理している。また、それ以外の辞書サーバは、ルートノードのもつファイルシステムを定期的に自己のファイルシステムにコピーすることにより、最新の状態を保つ。
【0057】
末端のディレクトリには、図11(b)に示すように、実際の辞書更新データと辞書セット情報がおかれ、それ以外のディレクトリには、辞書セット情報のみがおかれる。
【0058】
辞書更新データの管理名は、「バージョン番号−パッチ番号」とし、パッチ番号「000」のものが、新しい追加語彙データ、それ以外のものが、そのバージョンの追加語彙データに対する修正データであることを示す。なお、辞書更新データは、先に述べたように、図8のようなリストであり、また、辞書セット情報は、図5(b)に示したように、辞書セットのタイプや利用料金等を定義した特殊なファイルである。
【0059】
リーフノードの辞書サーバは、このようなファイルシステムを前提として、辞書管理システムに送信するデータを決定する。
次に、図12のフローチャートを参照しながら、辞書サーバ132の動作を説明する。
【0060】
まず、辞書サーバ132は、辞書管理システムからのコネクション要求の有無をチェックし(ステップS1001)、要求がある場合は、辞書管理システムとのデータ交換を行なう(ステップS1002)。
【0061】
当該の辞書サーバ132が、下位の辞書サーバをもつように構成される場合(例えば、上位部門サーバ115の場合)は、辞書管理システムからのコネクション要求は来ないため、次のステップに進む。なお、辞書管理システムとのデータ交換は、図13に示すフローチャートに従って動作するが、詳細は後述する。
【0062】
次に、辞書サーバ132は、下位の部門サーバからのコネクション要求の有無をチェックする(ステップS1003)。着目する辞書サーバ132が、サーバ階層のリーフノードである場合(例えば、部門サーバ112の場合)には、本コネクション要求は来ないため、次のステップに進む。
【0063】
コネクション要求がある場合は、まず、コネクションを確立し(ステップS1004)、下位の辞書サーバ(例えば、注目の辞書サーバが上位部門サーバ115である場合に部門サーバ112)の要求に応じて、データの授受を行なう(ステップS1005〜S1011)。
【0064】
下位の辞書サーバからは、下位の部門共通辞書(例えば、注目の辞書サーバが上位部門サーバ115である場合に部門共通辞書114)の送信要求(ステップS1007)と上位部門の共通辞書(例えば、注目の辞書サーバが上位部門サーバ115である場合に共通辞書120)の受信要求(ステップS1010)があった後、終了要求(ステップS1005)を得て、下位の辞書サーバとのセッションを終了する(ステップS1006)。
【0065】
下位部門の共通辞書(例えば、注目の辞書サーバが上位部門サーバ115である場合に部門共通辞書114)の送信要求(ステップS1007)があった場合は、まず、その下位部門の共通辞書データ(これは下位部門の辞書サーバによって後述のステップS1013で作成されたものである)を受信し(ステップS1008)、暗号化されている場合はこれを解いて、記憶部13のプールに、発信サーバ名、受信日時と共に格納する(ステップS1009)。
【0066】
上位部門の共通辞書(例えば、注目の辞書サーバが上位部門サーバ115である場合に共通辞書120)の受信要求(ステップS1010)があった場合は、必要により辞書データを暗号化して、下位サーバ(例えば、注目の辞書サーバが上位部門サーバ115である場合に上位辞書サーバ115)に送信する(ステップS1011)。
【0067】
次に、辞書サーバは、予め記憶部13に設定されている更新タイミング(毎週日曜日等)と現在の日時が合致するか否かを判定し(ステップS1012)、合致する場合、以下の処理を行なう。
【0068】
まず、辞書プールに蓄えられた各辞書エントリを比較して、辞書エントリの同一性を判断し、同一のものを1エントリにマージし、頻度付きの辞書エントリとする。辞書エントリの同一性は、例えば日本語入力IMEならば、読み、見出し、品詞のすべてが一致するエントリを同一と判断する。
【0069】
次に、頻度がある閾値を越える辞書エントリを抽出する。そして、抽出された辞書エントリのリストと、前回の更新タイミングで作成されている、その階層の共通辞書の各エントリを比較し、前回との差分ファイルの形式で辞書化し、記憶部13に存する提供用辞書ファイルシステムに反映する(ステップS1013)。
【0070】
次に、辞書サーバは、自分の上位に位置する辞書サーバ(例えば、注目の辞書サーバが上位部門サーバ115である場合にマスターサーバ118)が存在するかどうかを確認する(ステップS1014)。注目の辞書サーバがルートノードである場合は、上位サーバは存在しないので、以降の処理は行なわれない。
【0071】
上位サーバが存在する場合は、上位通信部11を介して、コネクションを確立し(ステップS1015)、前ステップで作成した、その階層の共通辞書を送信する(ステップS1016)。さらに、上位部門の共通辞書(注目の辞書サーバが上位部門サーバ115である場合にマスターサーバ118の共通辞書120)を受信して、記憶部13に存する提供用辞書ファイルシステムに反映する(ステップS1017)。
【0072】
次に、図12のステップS1002における辞書管理システムとのデータ交換について説明する。これは、図13のフローチャートに従って動作する。
まず、辞書サーバ132(例えば、リーフノードである部門サーバ112)は、下位通信部12を介してコネクションを確立し(ステップS1301)、辞書管理システムの要求待ち状態に入る(ステップS1302〜S1312)。
【0073】
この状態で、辞書管理システム起動のパケットがきた場合(ステップS1304)は、辞書サーバ132は、ユーザに提示する文書ならびに辞書セット情報(前述)を送信する(ステップS1305)。
【0074】
ダウンロード要求の場合(ステップS1304)は、辞書管理システムから得る辞書セット名ならびに語数制限(無制限の場合も含む)の情報と過去の登録状況の情報を元に、自己のファイルシステムを参照し、どのディレクトリのどのファイルから何語送信すべきかを決定する(ステップS1307)。そして、決定されたデータを送信する(ステップS1308)。
【0075】
アップロード要求の場合(ステップS1309)は、辞書管理システムから送信された辞書更新データを受信し(ステップS1310)、記憶部13に存するプールへ格納した後(ステップS1311)、受領メッセージを送信する(ステップS1312)。そして、終了要求(ステップS1302)により、辞書管理システムとのセッションを終了する(ステップS1303)。
【0076】
以上のアルゴリズムは、ルート、中間、リーフのどの層においても適用可能である。また、先のサーバ階層の概念図(図11)では、3層の例示をしたが、中間ノードは何層あっても同じである。また、必ずしも中間ノード必要なく、ルートとリーフが同じ、すなわち単一のサーバのみであっても上記のアルゴリズムで動作する。
【0077】
なお、第2の実施形態では、各層のサーバがそれぞれ自己のレベルの部門別辞書を作成する構成であったが、ルートのサーバのみ(例えば、マスタサーバ118)がこれを行なうような構成も考えられる。この場合、中間、リーフの各層は、自己のプールを自己の識別子と共にそのまま上位に転送するのみとなり、ルートのみが多数決原理で辞書作成を行い、ルートに全部門の部門別辞書が集中管理されることになり、下位のサーバは、自部門に関係する部門別辞書のみを選択的にコピーするようになる。
【0078】
このように、辞書サーバの階層化を図ることにより、辞書を分散管理するよりもメンテナンスが各段に容易になる。しかし、通信トラブル等でルートノードとの接続ができなくなった場合などに、下位サーバが部門別辞書の更新を行なえなくなるというデメリットも生ずる。
【0079】
また、上記第2の実施形態では、各サーバごとに自己のファイルシステムを保持していたが、NFSマウントなどを用いることにより、サーバ間でファイルシステムを共有するように構成することも可能である。この場合、ファイルシステムのコピーが起こらないので、記憶容量節減や処理速度向上に貢献するが、辞書開発者が、ファイルシステムに介入し、辞書エントリの修正を行なう場合などに、混乱をきたす恐れもある。
【0080】
以上、説明したように、上記第2の実施形態によれば、予め辞書開発者が準備した最新用語データを辞書サーバ階層の最上位におくことにより、これが下位のサーバに順次転送されて、最終的にユーザの辞書管理システムを通じて辞書利用システムに反映される。また、あるユーザが自分のユーザ辞書に登録した単語は、辞書管理システムを介して辞書サーバに送られ、辞書サーバ階層を通じて分別、辞書化され、これが、最上位の辞書サーバに達すると、こんどは下位のサーバに順次転送されて、ユーザ辞書利用システムに反映される。
【0081】
この結果、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0082】
なお、上記第1および第2の実施形態で説明した、辞書管理システムおよび辞書利用システムおよび辞書サーバの各構成部は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
【0083】
また、上記第1および第2の実施形態で説明した、辞書管理システムおよび辞書利用システムは、前述した各機能部を具備した辞書管理装置および辞書利用装置として構成することもできる。
【0084】
【発明の効果】
本発明によれば、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、組織内用語を共通利用することができるため、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る辞書管理システムの構成例を概略的に示した図。
【図2】辞書管理システムの動作を説明するためのフローチャート。
【図3】辞書管理システムの主画面の一例を示した図で、でユーザ提示文書が表示されている。
【図4】辞書管理システムの設定画面の一例を示した図。
【図5】図5(a)は辞書セット情報の階層構造を説明するための図で、図5(b)は辞書セット情報のデータ構造の一例を示した図。
【図6】辞書管理システムのレポート表示画面の一例を示した図。
【図7】辞書更新の動作を説明するためのフローチャート。
【図8】辞書サーバから辞書利用システムに送られる辞書更新データのデータ構造の一例を示した図。
【図9】辞書サーバの階層化構造を説明するための図。
【図10】本発明の第2の実施形態に係る辞書サーバの構成例を概略的に示した図。
【図11】図11(a)は、辞書管理システムに提供するための辞書更新データを管理するファイルシステムの構成例を示した図で、図11(b)は、ファイルシステム上の末端のディレクトリにおける辞書更新データと辞書セット情報の記憶例を示した図。
【図12】辞書サーバの動作を説明するためのフローチャート。
【図13】辞書管理システムと辞書サーバとの間のデータ交換処理を説明するためのフローチャート。
【符号の説明】
1…サーバ通信部
2…記憶部
3…クライアント通信部
4…入力部
5…提示部
6…制御部
11…上位通信部
12…下位通信部
13…記憶部
14…制御部
101…辞書サーバ
102…辞書管理システム
103…辞書利用システム
132…辞書サーバ
【発明の属する技術分野】
本発明は、例えば、かな漢字変換や機械翻訳など、言語知識辞書を利用する自然言語処理のうちの一種を行う複数の辞書利用システムが個別に有する辞書の構築支援を行う辞書管理システムおよび、この辞書管理システムを介して各辞書利用システムへの辞書データの供給、前記辞書利用システムのいずれかで更新された辞書データを他の辞書利用システムに波及する辞書サーバに関する。
【0002】
【従来の技術】
計算機の日本語の入力を行なうIMEや、文書を翻訳する機械翻訳システムなどが広く利用されるようになってきている。この種のソフトウェアは、種々の言語情報を含む辞書を利用している。しかしながら、既成の辞書情報は、固定化されたものであり、次々に生まれる最新用語などに追随することができず、また、会社組織などローカルなコミュニティで使用される用語などは含まない。この問題を解決するため、ユーザは、そのユーザの辞書に、所望の単語を登録することにより、対応してきた。
【0003】
しかし、この辞書への用語の登録は、人手で行うには煩雑であり、これを簡略化するために、文書入力時にユーザからのキー入力や選択処理の情報により、自動的に辞書項目を登録する方式や、既存の文書を指定して、その既存の文書を解析することにより、辞書データを抽出するという方式が考案されてきた。
【0004】
【発明が解決しようとする課題】
ユーザからの入力より辞書を作成するという方式では、ユーザの一連のキー入力が、既成の辞書にない新しい語を入力するための操作であることを認識しなければならず、その操作法は人によって種々のバリエーションがある。したがって、誤登録を避けるためには、その種々のバリエーションのうち、新語入力である確実性の高い、一部のキー入力パターンのみを対象として、学習することになる。この結果、学習の範囲が制約されるという問題がある。
【0005】
また、既存の文書を指定して、その文書より新しい辞書データを学習するという方式では、その学習精度に問題があり、特に、日本語入力IMEなどでは、入力のキーである読みを獲得することができない。
【0006】
そのため、やはりユーザは、自己の負担で、自分のユーザ辞書に地道に辞書登録をしていく、という方法をとるのが一般的である。
そこで、本発明は、このような辞書登録管理システムの課題を解決するためになされたもので、予め辞書開発者が準備した最新用語データを記憶する辞書サーバから最新用語の供給が即時的、自動的に行なえ、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができ、また、ユーザの登録語を共同利用する枠組を提供して、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる辞書管理システムおよびそれを用いた辞書利用システムを提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の辞書管理システムは、言語処理を行う複数の言語処理システムが個別に有する辞書を更新する辞書管理システムにおいて、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記言語処理システムの辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求する要求手段と、
この要求手段での要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記言語処理システムの辞書を更新する更新手段と、
を具備したことにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。
【0008】
また、本発明の辞書管理システムは、言語処理を行う複数の言語処理システムが個別に有する辞書を更新する辞書管理システムにおいて、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記言語処理システムの辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求する要求手段と、
この要求手段での要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記言語処理システムの辞書を更新する第1の更新手段と、
前記複数の言語処理システムの辞書で更新された辞書データを収集する収集手段と、
この収集手段で収集された辞書データに基づき前記辞書サーバを更新する第2の更新手段と、
具備したことにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0009】
また、本発明の辞書サーバは、言語処理システムの辞書に供給する辞書データを記憶する辞書サーバにおいて、
前記言語処理システムが個別に有する辞書あるいは下位階層の辞書サーバで更新された辞書データを受信する受信手段と、
この受信手段で受信された辞書データのうち、その出現頻度が予め定められた値以上の辞書データを前記言語処理システムの辞書に供給する辞書データに変換して、前記言語処理システムの辞書に供給する供給手段と、
を具備したことにより、あるユーザが自分のユーザ辞書に登録した単語は、辞書管理システムを介して辞書サーバに送られ、分別、辞書化され、これが、他のユーザ辞書利用システムに反映される。
【0010】
この結果、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0011】
また、本発明の辞書サーバは、言語処理システムの辞書に供給する辞書データを記憶する辞書サーバにおいて、
前記言語処理システムが個別に有する辞書あるいは下位階層の辞書サーバで更新された辞書データを受信する受信手段と、
この受信手段で受信された辞書データのうち、その出現頻度が予め定められた値以上の辞書データを前記言語処理システムの辞書に供給する辞書データに変換して、前記言語処理システムの辞書に供給する第1の供給手段と、
前記受信手段で受信された辞書データのうち、その出現頻度が予め定められた値以上の辞書データを予め定められた上位階層の辞書サーバに送信する送信手段と、
前記上位階層の辞書サーバから受信した辞書データを前記言語処理システムの辞書に供給する第2の供給手段と、
を具備したことにより、予め辞書開発者が準備した最新用語データを辞書サーバ階層の最上位におくことにより、これが下位のサーバに順次転送されて、最終的にユーザの辞書管理システムを通じて辞書利用システムに反映される。また、あるユーザが自分のユーザ辞書に登録した単語は、辞書管理システムを介して辞書サーバに送られ、サーバ階層を通じて分別、辞書化され、これが、最上位の辞書サーバに達すると、こんどは下位のサーバに順次転送されて、ユーザ辞書利用システムに反映される。
【0012】
この結果、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0013】
また、本発明の辞書利用システムは、辞書の登録語を参照して所定の自然言語処理を行う辞書利用システムにおいて、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求する要求手段と、
この要求手段での要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記辞書を更新する更新手段と、
を具備したことにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。
【0014】
また、本発明の辞書利用システムは、辞書の登録語を参照して所定の自然言語処理を行う辞書利用システムにおいて、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求する要求手段と、
この要求手段での要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記辞書を更新する更新手段と、
前記辞書で更新された辞書データを前記辞書サーバに送信する送信手段と、
を具備したことにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0015】
また、本発明の辞書管理方法は、言語処理を行う複数の言語処理システムが個別に有する辞書を更新する辞書管理方法において、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記言語処理システムの辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求し、この要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記言語処理システムの辞書を更新することをにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。
【0016】
また、本発明の辞書管理方法は、言語処理を行う複数の言語処理システムが個別に有する辞書を更新する辞書管理方法において、
ユーザからの要求に応じて、あるいは、予め指定された条件が満たされたとき、前記言語処理システムの辞書に供給する辞書データを記憶する辞書サーバに対し、ユーザにより指定された制限内の辞書データのダウンロードを要求し、この要求に応じて前記辞書サーバからダウンロードされた辞書データに基づき前記言語処理システムの辞書を更新し、前記複数の言語処理システムの辞書で更新された辞書データを収集して、この収集された辞書データに基づき前記辞書サーバを更新することにより、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
なお、上記辞書管理システムおよび辞書利用システムは、それぞれ辞書管理装置および辞書利用装置として構成できる。
【0017】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照しながら説明する。
(第1の実施形態)
図1は、第1の実施形態に係る辞書管理システムの構成例を概略的に示したものである。辞書管理システム102は、サーバ通信部1、記憶部2、クライアント通信部3、入力部4、提示部5、制御部6から構成される。なお、これら各部は、コンピュータ(計算機)に実行させることのできるプログラム群(辞書管理エージェント)として構成することができる。
【0018】
サーバ通信部1は、例えば、インターネットもしくはイントラネットを介して、辞書サーバ101とのデータのやりとりを行なう。
記憶部2は、辞書サーバ101との通信に係わるユーザの設定情報、辞書データのやりとりに係わる通信ログを保持する他、必要に応じて辞書データそのものの保持も行なう。
【0019】
クライアント通信部3は、辞書管理システム102が動作する計算機上に実装されている辞書利用システム103とのデータのやりとりを行なう。
ここで、辞書利用システムとは、計算機への日本語入力を行なうIMEや、文書を翻訳する機械翻訳システムなどをいう。
【0020】
入力部4および提示部5はユーザとのインタフェース部分であり、辞書サーバとの通信に係わる設定情報をユーザが入力したり、辞書データのやりとりに係わる通信ログをユーザに提示するものである。
【0021】
制御部6は、上記各部1〜5を所定の動作を行なうように制御するものであり、図2に示すフローチャートに従って動作する。
辞書管理システム102が最初に起動されると、辞書サーバ101からユーザ提示文書および辞書セット情報が送信され、それをサーバ通信部1が受信すると、まず、提示部5に、ユーザ提示文書が例えば、図3に示すように表示される(ステップS201〜ステップS206)。
【0022】
この状態において、ユーザにより図3の「設定」ボタンが押下されると、図4(a)に示す設定画面が提示部5により表示される(ステップS208)。
この設定画面において、辞書管理システムの動作に係わる設定を行なう。従って、ユーザは、辞書管理システム102を利用しようとする場合、まず、図4(a)に示すような設定画面から必要とする設定を行えばよい。設定は、制御部6が入力部4及び提示部5を駆動することによって行なわれる。ここで、設定された情報は、記憶部2に記憶され、制御部6はこれに従って辞書管理システムの動作を制御する。
【0023】
図4(a)は、辞書サーバ101に用意されている種々の辞書データを自分の辞書利用システムにダウンロードしてくるための設定を行なう画面である。
まず、ユーザは、「定期的に更新する」または「更新ボタンで更新する」のいずれかのボタンを選択する。「定期的に更新する」は、例えば毎月1日など、一定期間ごとに、辞書サーバ101に辞書データの更新情報を問い合わせ、ダウンロードを行なうという、指定である。また、「更新ボタンで更新する」は図3に示す辞書管理システムの主画面上に配置された更新ボタンをユーザが押した時のみ、辞書データのダウンロードを行なうという、指定である。
【0024】
次に、ユーザは「辞書選択」に示される種々の辞書セットのうち、所望のものを選択する。各種辞書は「専門語−情報−ハードウェア」などのように階層的に構成されており、上位階層のボタンを選択すると、その下位に位置するすべての辞書セットが選択される。なお、辞書セットの種類や階層構造の情報は、辞書サーバ101から提供され、動的にメニュー化されて表示される。
【0025】
さらに、図4(a)の詳細設定ボタンを押すことにより、ダウンロードする辞書データの量を制限するための設定が行える。ここでは、ダウンロードする辞書データの量の上限を設定する場合について説明する。上限は、語数または語数に換算できる量、例えばダウンロード料金等で設定する。上限設定の対象は、選択された辞書セット毎(個別ボタン)もしくは、辞書セット全体(全体ボタン)である。
【0026】
例えば、図4(a)に示した設定画面から「アップロード」を選択すると、図4(b)に示すような、辞書サーバ101に対して、ユーザが自分の辞書利用システム103に登録したユーザ辞書データをアップロードするための設定を行なう画面が提示部5により表示される。
【0027】
ユーザは、「許可する」または「許可しない」のいずれかのボタンを選択し、「許可する」場合のみ自動アップロードが行なわれる。
以上のような初期設定の入力を終え、この設定値が記憶部2に書き込まれて、例えば、システムの再起動がなされると、辞書管理システムの通常の動作が開始される。
【0028】
以下、図2のフローチャートを参照しながら、辞書管理システムの動作を説明する。
まず、起動された辞書管理システム102は、記憶部2に記憶された設定値を参照して、自動更新モードで動作するか否かを判定する(ステップS201)。自動更新モードならば、現在の日時を獲得し、それが記憶部2に保持されている更新タイミングと合致するかどうかを判定し(ステップS202)、合致しなければ終了する。
【0029】
次に、辞書管理システムは、辞書サーバ101に対して、起動パケットを送信し、ユーザ提示文書ならびに辞書セット情報を獲得する(ステップS203)。ユーザ提示文書とは、例えば辞書サーバの管理者からエンドユーザへのお知らせ文書などをいう。また、辞書セット情報とは、辞書サーバが提供可能な辞書ラインアップの最新情報を示す計算機処理可能なデータである。辞書セット情報は、辞書の分野階層を表す情報と、各分野別辞書の利用料金を表す情報からなる。例えば、図5(a)のような辞書セット情報を表現するために、図5(b)のようなデータを用いる。すなわち、辞書の分野階層を表す情報として「Type」の項目に「中間ノード」であるか「末端ノード」であるかを示し、利用料金を表す情報として「Charge」に1語当たりの料金が示されている。
【0030】
図5(b)に示すような辞書セット情報を最初に獲得するのは、辞書サーバが提供する辞書ラインナップが変更されても、ダイナミックに対応できるようにするためである。したがって、この辞書セット情報は、記憶部2に保持されて、図4(a)にあるような辞書選択メニューを生成するために用いられる。
【0031】
次に、辞書管理システム102は、自動更新モードである場合(ステップS204)は、辞書サーバ101並びに辞書利用システム103と辞書情報の交換を行ない(ステップS205)、終了する。
【0032】
ここで、辞書情報の交換とは、辞書ダウンロードを行ない、辞書利用システム103の辞書を更新し、辞書アップロードを行なう一連の手続きをいうが、詳細は後述する。
【0033】
ステップS204で自動更新モードでない場合は、まずステップS203で獲得したユーザ提示文書を、図3のように提示部5にて表示する(ステップS206)。なお、表示処理は、必ずしも辞書管理システムが行なう必要はなく、外部のWWW文書ブラウザなどを駆動するように構成することも可能である。
【0034】
次に、入力部4からのユーザの指示を待つ状態(ステップS207〜S213)になる。もし、設定ボタンが押された場合(ステップS208)は、図4(a)のような設定画面を表示し、再設定を促す。そして、再設定された情報で、記憶部2を更新する(ステップS209)。
【0035】
更新ボタンが押された場合(ステップS210)は、後述する辞書情報の交換を行なう(ステップS211)。
また、レポートボタンが押された場合(ステップS212)は、記憶部2に保持されている辞書のダウンロードログを参照して、どの辞書セットから、いつ、何語登録し、利用料金がいくらになっているか、などの情報を図6のように表示する(ステップS213)。
【0036】
次に、図2のステップS205の辞書情報の交換処理について、図7に示すフローチャートを参照して説明する。
まず、辞書管理システム102は、記憶部2に保持されている辞書のダウンロードログを参照して、どの辞書セットから何語登録されているかを調べ、辞書サーバ101に通知する。同時に、ユーザの設定情報を調べ、ダウンロード要求する辞書セット名並びに語数の上限を通知する。
【0037】
辞書サーバ101は、これらの情報から、要求された辞書データから、既にダウンロードされている辞書データを除いた、差分の辞書データを決定して、これを暗号化して送信し、辞書管理システム102は、受信データの暗号を解除して、所望の辞書データを受ける(ステップS601)。
【0038】
続いて、辞書利用システム103、例えば日本語入力用IMEに対して、受信した辞書更新情報を与え、そのシステムの辞書を更新する(ステップS602)。
【0039】
辞書更新情報は、例えば、図8のように、追加「a」または削除「d」の更新フラグ、読み、見出し、品詞などからなり、最新用語の追加や、死語の削除をすることができる。また、当然のことながら、削除と追加を組み合わせることで、過去にダウンロードされた辞書データに不具合があった場合にそれを修正することもできる。
【0040】
次に、辞書管理システム102は、記憶部2を参照して、辞書アップロードが許可されているか否かを判定する(ステップS603)。
辞書アップロードが許可されている場合、辞書利用システム103に対し、ユーザが登録した新しい単語のリストを要求し、これを獲得する(ステップS604)。この場合、前回獲得した分との差分が獲得されることが望ましいが、通常、辞書利用システム103は、単語の登録日時など、差分を判定するための情報を保持していることはまれである。その場合、辞書管理システム102は、辞書利用システム103から、その時点のユーザ登録語の全リストを獲得し、その獲得日時と共に、記憶部2に保持しておく。そして、前回までの全単語リストと、今回の全単語リストを比較し、その期間に新たに登録された単語のリスト(差分)を作成する。もし、差分がある場合(ステップS605)は、辞書サーバ101に対して、その差分情報を送信し、サーバ101側から受領メッセージを受領して(ステップS606)、処理を終了する。
【0041】
なお、辞書管理システム102の計算パワーが低い場合は、辞書管理システム102側では差分リストを作成せずに、そのまま全単語リストをサーバ101側に送信し、サーバ101側で差分を作成するような構成も考えられる。この場合、辞書管理システム102の負荷が軽減される反面、サーバとの通信量が増えることになる。
【0042】
なお、本実施形態の変形例として、辞書利用システム103が上記辞書管理システム102の構成を包含するように構成することもできる。この場合、クライアント通信部3を廃し、辞書利用システム103が直接、制御部6を駆動するように構成する。この結果、上記辞書管理システム102の機能を包含する辞書利用システムを実現することができる。
【0043】
(第2の実施形態)
次に、辞書サーバが階層化されて構成されている場合について説明する。
辞書サーバは、前述の辞書管理システムと協調的に動作し、予め用意された辞書データを提供するだけでなく、辞書管理システムによって収集された各ユーザの辞書登録情報を自動的に辞書データ化し、再び各ユーザに提供することによって、ユーザ辞書情報の共有を実現することを特徴とする。
【0044】
図9に、その概念図を示す。図9に示したように、辞書サーバは、会社組織などの各部門に対応して、部門サーバ112、上位部門サーバ115、組織内マスターサーバ118と、階層的に構成される。
【0045】
まず、エンドユーザのもつ辞書管理システムまたはこれを包含する辞書利用システム111から、部門サーバ112に対してユーザの辞書登録データがアップロードされる。アップロードされたデータは、プール113に一旦蓄えられ、プール内に高頻度で出現する単語、すなわち、多くのユーザが登録しているような単語を選び出す(=多数決原理)ことにより、辞書化され、部門共通辞書114となる。
【0046】
部門共通辞書114は、そのままユーザに提供される他、上位部門サーバ115に送信される。
上位部門サーバ115は、各部門サーバ112から収集した部門共通辞書114を、部門サーバ112同様プール116に一旦蓄え、やはり多数決原理によって辞書化し、上位部門共通辞書117を作成する。
【0047】
同様に、組織内に唯1つ存在する組織内マスターサーバ118は、各上位部門サーバ115から収集した辞書データをプール119に蓄え、組織内共通辞書120とする。
【0048】
このように階層化構成とすることにより、ユーザは、自部門で共通的に使用される単語だけでなく、組織内で共通的に使用される単語もまた、自動的に利用できるようになる。
【0049】
次に、階層化された辞書サーバの構成例について説明する。
図10は、部門サーバ112、上位部門サーバ115、もしくは、組織内マスターサーバ118として動作可能な辞書サーバ132の構成例を示すブロック図である。これら3つのサーバ(部門サーバ112、上位部門サーバ115、組織内マスターサーバ118)は、階層化構造を木構造で表現した場合、それぞれ、リーフノード、中間ノード、ルートノードとなるが、基本的には同一の構成を持ち、同一のアルゴリズムで動作する。
【0050】
辞書サーバ132は、上位通信部11、下位通信部12、記憶部13、制御部14から構成される。
上位通信部11は、例えば、インターネットもしくはイントラネットを介して、上位の辞書サーバに辞書データの交換に係わる要求を出し、所望のデータを受信する。
【0051】
ここで、上位辞書サーバとは、例えば、リーフノードである部門サーバ112からみた場合が上位部門サーバ115であり、中間ノードである上位部門サーバ115からみた場合マスターサーバ118である。
【0052】
下位通信部12は、同じくネットワークを介して、下位の辞書サーバもしくは辞書管理システムから、辞書データの交換に係わる要求があった場合に、所望のデータを送信する。
【0053】
ここで、下位辞書サーバとは、例えば、中間ノードである上位部門サーバ115からみた場合が部門サーバ112であり、ルートサーバであるマスターサーバ118からもた場合が上位部門サーバ115である。リーフノードである部門サーバ112からみた場合、下位通信部12を介して通信する相手は辞書管理システムあるいはこれを包含する辞書利用システム111である。
【0054】
記憶部13は、下位辞書サーバもしくは辞書管理システムに提供する辞書更新データを保持するとともに、アップロードデータのプール、辞書データの交換に係わる通信ログ等を保持する。
【0055】
制御部14は、上記各部11〜13を所定の動作を行なうように制御するものであり、図12に示すフローチャートに従って動作する。
記憶部13に保持される下位辞書サーバもしくは辞書管理システムに提供するための辞書更新データは、より具体的には、図11に示すようなファイルシステムとして管理される。
【0056】
ファイルシステムは、図11(a)に示すように、ターゲットとなる辞書利用システム名(日本語IME、音声規則合成器等)ごとに、辞書の分野階層に対応したディレクトリ構成をとる。ルートノードの辞書サーバは、辞書管理システムから自動収集された組織内用語(X社共通)の他に、別途辞書開発者によって準備された最新用語集(基本語、専門語等)も管理している。また、それ以外の辞書サーバは、ルートノードのもつファイルシステムを定期的に自己のファイルシステムにコピーすることにより、最新の状態を保つ。
【0057】
末端のディレクトリには、図11(b)に示すように、実際の辞書更新データと辞書セット情報がおかれ、それ以外のディレクトリには、辞書セット情報のみがおかれる。
【0058】
辞書更新データの管理名は、「バージョン番号−パッチ番号」とし、パッチ番号「000」のものが、新しい追加語彙データ、それ以外のものが、そのバージョンの追加語彙データに対する修正データであることを示す。なお、辞書更新データは、先に述べたように、図8のようなリストであり、また、辞書セット情報は、図5(b)に示したように、辞書セットのタイプや利用料金等を定義した特殊なファイルである。
【0059】
リーフノードの辞書サーバは、このようなファイルシステムを前提として、辞書管理システムに送信するデータを決定する。
次に、図12のフローチャートを参照しながら、辞書サーバ132の動作を説明する。
【0060】
まず、辞書サーバ132は、辞書管理システムからのコネクション要求の有無をチェックし(ステップS1001)、要求がある場合は、辞書管理システムとのデータ交換を行なう(ステップS1002)。
【0061】
当該の辞書サーバ132が、下位の辞書サーバをもつように構成される場合(例えば、上位部門サーバ115の場合)は、辞書管理システムからのコネクション要求は来ないため、次のステップに進む。なお、辞書管理システムとのデータ交換は、図13に示すフローチャートに従って動作するが、詳細は後述する。
【0062】
次に、辞書サーバ132は、下位の部門サーバからのコネクション要求の有無をチェックする(ステップS1003)。着目する辞書サーバ132が、サーバ階層のリーフノードである場合(例えば、部門サーバ112の場合)には、本コネクション要求は来ないため、次のステップに進む。
【0063】
コネクション要求がある場合は、まず、コネクションを確立し(ステップS1004)、下位の辞書サーバ(例えば、注目の辞書サーバが上位部門サーバ115である場合に部門サーバ112)の要求に応じて、データの授受を行なう(ステップS1005〜S1011)。
【0064】
下位の辞書サーバからは、下位の部門共通辞書(例えば、注目の辞書サーバが上位部門サーバ115である場合に部門共通辞書114)の送信要求(ステップS1007)と上位部門の共通辞書(例えば、注目の辞書サーバが上位部門サーバ115である場合に共通辞書120)の受信要求(ステップS1010)があった後、終了要求(ステップS1005)を得て、下位の辞書サーバとのセッションを終了する(ステップS1006)。
【0065】
下位部門の共通辞書(例えば、注目の辞書サーバが上位部門サーバ115である場合に部門共通辞書114)の送信要求(ステップS1007)があった場合は、まず、その下位部門の共通辞書データ(これは下位部門の辞書サーバによって後述のステップS1013で作成されたものである)を受信し(ステップS1008)、暗号化されている場合はこれを解いて、記憶部13のプールに、発信サーバ名、受信日時と共に格納する(ステップS1009)。
【0066】
上位部門の共通辞書(例えば、注目の辞書サーバが上位部門サーバ115である場合に共通辞書120)の受信要求(ステップS1010)があった場合は、必要により辞書データを暗号化して、下位サーバ(例えば、注目の辞書サーバが上位部門サーバ115である場合に上位辞書サーバ115)に送信する(ステップS1011)。
【0067】
次に、辞書サーバは、予め記憶部13に設定されている更新タイミング(毎週日曜日等)と現在の日時が合致するか否かを判定し(ステップS1012)、合致する場合、以下の処理を行なう。
【0068】
まず、辞書プールに蓄えられた各辞書エントリを比較して、辞書エントリの同一性を判断し、同一のものを1エントリにマージし、頻度付きの辞書エントリとする。辞書エントリの同一性は、例えば日本語入力IMEならば、読み、見出し、品詞のすべてが一致するエントリを同一と判断する。
【0069】
次に、頻度がある閾値を越える辞書エントリを抽出する。そして、抽出された辞書エントリのリストと、前回の更新タイミングで作成されている、その階層の共通辞書の各エントリを比較し、前回との差分ファイルの形式で辞書化し、記憶部13に存する提供用辞書ファイルシステムに反映する(ステップS1013)。
【0070】
次に、辞書サーバは、自分の上位に位置する辞書サーバ(例えば、注目の辞書サーバが上位部門サーバ115である場合にマスターサーバ118)が存在するかどうかを確認する(ステップS1014)。注目の辞書サーバがルートノードである場合は、上位サーバは存在しないので、以降の処理は行なわれない。
【0071】
上位サーバが存在する場合は、上位通信部11を介して、コネクションを確立し(ステップS1015)、前ステップで作成した、その階層の共通辞書を送信する(ステップS1016)。さらに、上位部門の共通辞書(注目の辞書サーバが上位部門サーバ115である場合にマスターサーバ118の共通辞書120)を受信して、記憶部13に存する提供用辞書ファイルシステムに反映する(ステップS1017)。
【0072】
次に、図12のステップS1002における辞書管理システムとのデータ交換について説明する。これは、図13のフローチャートに従って動作する。
まず、辞書サーバ132(例えば、リーフノードである部門サーバ112)は、下位通信部12を介してコネクションを確立し(ステップS1301)、辞書管理システムの要求待ち状態に入る(ステップS1302〜S1312)。
【0073】
この状態で、辞書管理システム起動のパケットがきた場合(ステップS1304)は、辞書サーバ132は、ユーザに提示する文書ならびに辞書セット情報(前述)を送信する(ステップS1305)。
【0074】
ダウンロード要求の場合(ステップS1304)は、辞書管理システムから得る辞書セット名ならびに語数制限(無制限の場合も含む)の情報と過去の登録状況の情報を元に、自己のファイルシステムを参照し、どのディレクトリのどのファイルから何語送信すべきかを決定する(ステップS1307)。そして、決定されたデータを送信する(ステップS1308)。
【0075】
アップロード要求の場合(ステップS1309)は、辞書管理システムから送信された辞書更新データを受信し(ステップS1310)、記憶部13に存するプールへ格納した後(ステップS1311)、受領メッセージを送信する(ステップS1312)。そして、終了要求(ステップS1302)により、辞書管理システムとのセッションを終了する(ステップS1303)。
【0076】
以上のアルゴリズムは、ルート、中間、リーフのどの層においても適用可能である。また、先のサーバ階層の概念図(図11)では、3層の例示をしたが、中間ノードは何層あっても同じである。また、必ずしも中間ノード必要なく、ルートとリーフが同じ、すなわち単一のサーバのみであっても上記のアルゴリズムで動作する。
【0077】
なお、第2の実施形態では、各層のサーバがそれぞれ自己のレベルの部門別辞書を作成する構成であったが、ルートのサーバのみ(例えば、マスタサーバ118)がこれを行なうような構成も考えられる。この場合、中間、リーフの各層は、自己のプールを自己の識別子と共にそのまま上位に転送するのみとなり、ルートのみが多数決原理で辞書作成を行い、ルートに全部門の部門別辞書が集中管理されることになり、下位のサーバは、自部門に関係する部門別辞書のみを選択的にコピーするようになる。
【0078】
このように、辞書サーバの階層化を図ることにより、辞書を分散管理するよりもメンテナンスが各段に容易になる。しかし、通信トラブル等でルートノードとの接続ができなくなった場合などに、下位サーバが部門別辞書の更新を行なえなくなるというデメリットも生ずる。
【0079】
また、上記第2の実施形態では、各サーバごとに自己のファイルシステムを保持していたが、NFSマウントなどを用いることにより、サーバ間でファイルシステムを共有するように構成することも可能である。この場合、ファイルシステムのコピーが起こらないので、記憶容量節減や処理速度向上に貢献するが、辞書開発者が、ファイルシステムに介入し、辞書エントリの修正を行なう場合などに、混乱をきたす恐れもある。
【0080】
以上、説明したように、上記第2の実施形態によれば、予め辞書開発者が準備した最新用語データを辞書サーバ階層の最上位におくことにより、これが下位のサーバに順次転送されて、最終的にユーザの辞書管理システムを通じて辞書利用システムに反映される。また、あるユーザが自分のユーザ辞書に登録した単語は、辞書管理システムを介して辞書サーバに送られ、辞書サーバ階層を通じて分別、辞書化され、これが、最上位の辞書サーバに達すると、こんどは下位のサーバに順次転送されて、ユーザ辞書利用システムに反映される。
【0081】
この結果、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、ユーザの登録語を共同利用する枠組を提供するため、例えば、組織内用語の効率的利用が可能であり、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【0082】
なお、上記第1および第2の実施形態で説明した、辞書管理システムおよび辞書利用システムおよび辞書サーバの各構成部は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
【0083】
また、上記第1および第2の実施形態で説明した、辞書管理システムおよび辞書利用システムは、前述した各機能部を具備した辞書管理装置および辞書利用装置として構成することもできる。
【0084】
【発明の効果】
本発明によれば、最新用語の供給が即時的、自動的に行なわれるため、辞書を常に時代に適合した状態に保つことができ、結果的に、辞書利用システムの品質維持、高精度化を実現することができる。また、組織内用語を共通利用することができるため、ユーザ一人あたりの登録の負担を大幅に軽減することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る辞書管理システムの構成例を概略的に示した図。
【図2】辞書管理システムの動作を説明するためのフローチャート。
【図3】辞書管理システムの主画面の一例を示した図で、でユーザ提示文書が表示されている。
【図4】辞書管理システムの設定画面の一例を示した図。
【図5】図5(a)は辞書セット情報の階層構造を説明するための図で、図5(b)は辞書セット情報のデータ構造の一例を示した図。
【図6】辞書管理システムのレポート表示画面の一例を示した図。
【図7】辞書更新の動作を説明するためのフローチャート。
【図8】辞書サーバから辞書利用システムに送られる辞書更新データのデータ構造の一例を示した図。
【図9】辞書サーバの階層化構造を説明するための図。
【図10】本発明の第2の実施形態に係る辞書サーバの構成例を概略的に示した図。
【図11】図11(a)は、辞書管理システムに提供するための辞書更新データを管理するファイルシステムの構成例を示した図で、図11(b)は、ファイルシステム上の末端のディレクトリにおける辞書更新データと辞書セット情報の記憶例を示した図。
【図12】辞書サーバの動作を説明するためのフローチャート。
【図13】辞書管理システムと辞書サーバとの間のデータ交換処理を説明するためのフローチャート。
【符号の説明】
1…サーバ通信部
2…記憶部
3…クライアント通信部
4…入力部
5…提示部
6…制御部
11…上位通信部
12…下位通信部
13…記憶部
14…制御部
101…辞書サーバ
102…辞書管理システム
103…辞書利用システム
132…辞書サーバ
Claims (3)
- 最上位層の第1の共有辞書と中間層の複数の第2の共有辞書と最下位層の複数の第3の共有辞書とからなる階層構造を有し言語処理に用いる共有辞書を、前記第1の共有辞書を更新する第1の辞書サーバと当該第1の辞書サーバに接続され前記複数の第2の共有辞書のうちの1つをそれぞれ更新する複数の第2の辞書サーバと当該複数の第2の共有サーバのうちの1つに接続され前記複数の第3の共有辞書のうちの1つをそれぞれ更新する複数の第3の辞書サーバを用いて更新するための共有辞書更新方法であって、
前記複数の第3の辞書サーバには、ユーザ辞書を用いて言語処理を行う複数の辞書利用システムがそれぞれ接続され、
前記第3の辞書サーバは、当該第3の辞書サーバに接続されている複数の辞書利用システムからアップロードされた複数のユーザ辞書のそれぞれに登録されている辞書データのうち、当該複数のユーザ辞書に出現する頻度が予め定められた値以上の辞書データを前記第3の共有辞書に登録するステップと、
前記第2の辞書サーバは、当該第2の辞書サーバに接続されている複数の第3の辞書サーバからアップロードされた複数の第3の共有辞書のそれぞれに登録されている辞書データのうち、当該複数の第3の共有辞書に出現する頻度が予め定められた値以上の辞書データを前記第2の共有辞書に登録するステップと
前記第1の辞書サーバは、前記複数の第2の辞書サーバからアップロードされた複数の第2の共有辞書のそれぞれに登録されている辞書データのうち、当該複数の第2の共有辞書に出現する頻度が予め定められた値以上の辞書データを登録するステップと、
前記第1の辞書サーバは、前記複数の第2の辞書サーバのそれぞれに、前記第1の共有辞書に登録されている辞書データをダウンロードするステップと、
前記第2の辞書サーバは、前記第1の辞書サーバからダウンロードされた辞書データを前記第2の共有辞書に登録するステップと、
前記第2の辞書サーバは、当該第2の辞書サーバに接続されている前記第3の辞書サーバに、前記第2の共有辞書に登録されている辞書データをダウンロードするステップと、
前記第3の辞書サーバは、前記第2の辞書サーバからダウンロードされた辞書データを前記第3の共有辞書に登録するステップと、
前記第3の辞書サーバは、当該第3の辞書サーバに接続されている前記辞書利用システムのユーザ辞書に登録するために、前記第3の共有辞書に登録されている辞書データをダウンロードするステップと、
を有することを特徴とする共有辞書更新方法。 - 言語処理に用いる複数の共有辞書のうちのいすれか1つを更新するために、当該複数の共有辞書からなる階層構造に対応させて階層的に接続された複数の辞書サーバのうちの1つであって、
自装置より下位に接続された複数の辞書サーバからアップロードされた、自装置に対応する第1の共有辞書より下位にある複数の第2の共有辞書の辞書データのうち、当該複数の第2の共有辞書に出現する頻度が予め定められた値以上の辞書データを前記第1の共有辞書に登録する第1の手段と、
自装置より上位に接続された辞書サーバへ前記第1の共有辞書の辞書データをアップロードする第2の手段と、
自装置より上位に接続された辞書サーバからダウンロードされた、前記第1の共有辞書より上位にある第3の共有辞書の辞書データを前記第1の共有辞書に登録する第3の手段と、
自装置より下位に接続された辞書サーバへ前記第1の共有辞書の辞書データをダウンロードする第4の手段と、
を具備したことを特徴とする辞書サーバ。 - 前記第4の手段は、前記第1の共有辞書の辞書データを暗号化して、自装置より上位に接続された辞書サーバへアップロードすることを特徴とする請求項2記載の辞書サーバ。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06464497A JP3556425B2 (ja) | 1997-03-18 | 1997-03-18 | 共有辞書更新方法および辞書サーバ |
US09/035,767 US6282508B1 (en) | 1997-03-18 | 1998-03-06 | Dictionary management apparatus and a dictionary server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06464497A JP3556425B2 (ja) | 1997-03-18 | 1997-03-18 | 共有辞書更新方法および辞書サーバ |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10260960A JPH10260960A (ja) | 1998-09-29 |
JP3556425B2 true JP3556425B2 (ja) | 2004-08-18 |
Family
ID=13264183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06464497A Expired - Fee Related JP3556425B2 (ja) | 1997-03-18 | 1997-03-18 | 共有辞書更新方法および辞書サーバ |
Country Status (2)
Country | Link |
---|---|
US (1) | US6282508B1 (ja) |
JP (1) | JP3556425B2 (ja) |
Families Citing this family (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US6785869B1 (en) * | 1999-06-17 | 2004-08-31 | International Business Machines Corporation | Method and apparatus for providing a central dictionary and glossary server |
US6722989B1 (en) * | 1999-10-07 | 2004-04-20 | Sony Computer Entertainment Inc. | Virtual pet game in which the virtual pet can converse with the player and learn new words and phrases from these conversations |
US7024363B1 (en) * | 1999-12-14 | 2006-04-04 | International Business Machines Corporation | Methods and apparatus for contingent transfer and execution of spoken language interfaces |
US6845396B1 (en) * | 2000-02-25 | 2005-01-18 | Navic Systems, Inc. | Method and system for content deployment and activation |
JP2002055867A (ja) * | 2000-08-11 | 2002-02-20 | Omron Corp | 情報配信サーバ及び利用端末並びに情報配信方法及びデータベース更新方法並びに情報共有システム |
US20070214075A1 (en) * | 2000-08-23 | 2007-09-13 | Ablan Gerald H | Auction management system |
JP4116233B2 (ja) * | 2000-09-05 | 2008-07-09 | パイオニア株式会社 | 音声認識装置ならびにその方法 |
US20040205671A1 (en) * | 2000-09-13 | 2004-10-14 | Tatsuya Sukehiro | Natural-language processing system |
JP3674485B2 (ja) * | 2000-09-25 | 2005-07-20 | オムロン株式会社 | 情報保管・配信システムおよび情報保管・配信方法 |
US20040014484A1 (en) * | 2000-09-25 | 2004-01-22 | Takahiro Kawashima | Mobile terminal device |
JP4283984B2 (ja) * | 2000-10-12 | 2009-06-24 | パイオニア株式会社 | 音声認識装置ならびに方法 |
US7181508B1 (en) * | 2000-11-09 | 2007-02-20 | Oki Data Americas, Inc. | System and method for communicating, monitoring and configuring a device operatively connected to a network |
US7047273B2 (en) | 2000-11-28 | 2006-05-16 | Navic Systems, Inc. | Load balancing in set top cable box environment |
JP3379090B2 (ja) * | 2001-03-02 | 2003-02-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
JP2003036088A (ja) * | 2001-07-23 | 2003-02-07 | Canon Inc | 音声変換の辞書管理装置 |
US20030125929A1 (en) * | 2001-12-10 | 2003-07-03 | Thomas Bergstraesser | Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network |
US7580831B2 (en) * | 2002-03-05 | 2009-08-25 | Siemens Medical Solutions Health Services Corporation | Dynamic dictionary and term repository system |
JP3959453B2 (ja) * | 2002-03-14 | 2007-08-15 | 沖電気工業株式会社 | 翻訳仲介システム及び翻訳仲介サーバ |
US20040010798A1 (en) * | 2002-07-11 | 2004-01-15 | International Business Machines Corporation | Apparatus and method for logging television viewing patterns for guardian review |
JP2004062227A (ja) * | 2002-07-24 | 2004-02-26 | Casio Comput Co Ltd | 電子辞書端末、辞書システムサーバ、および端末処理プログラム、サーバ処理プログラム |
US20050080797A1 (en) * | 2002-08-26 | 2005-04-14 | Gordon Short | Dynamic lexicon |
JP4398144B2 (ja) * | 2002-12-24 | 2010-01-13 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 辞書更新システム、更新処理サーバ、端末、制御方法、プログラム及び記録媒体 |
US20050149860A1 (en) * | 2002-12-27 | 2005-07-07 | Casio Computer Co., Ltd. | Electronic device manufacture support apparatus, manufacture client terminal device, and recording medium |
US7315982B2 (en) * | 2003-02-26 | 2008-01-01 | Xerox Corporation | User-tailorable romanized Chinese text input systems and methods |
CN1549178A (zh) * | 2003-05-16 | 2004-11-24 | �Ҵ���˾ | 分配和更新杂散资源的方法和系统 |
US20050060156A1 (en) * | 2003-09-17 | 2005-03-17 | Corrigan Gerald E. | Speech synthesis |
US20050171944A1 (en) * | 2003-12-16 | 2005-08-04 | Palmquist Robert D. | Translator database |
US20050283724A1 (en) * | 2004-06-18 | 2005-12-22 | Research In Motion Limited | Predictive text dictionary population |
US7860873B2 (en) * | 2004-07-30 | 2010-12-28 | International Business Machines Corporation | System and method for automatic terminology discovery |
KR100682897B1 (ko) | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
US7627816B2 (en) * | 2005-04-12 | 2009-12-01 | International Business Machines Corporation | Method for providing a transient dictionary that travels with an original electronic document |
US8209162B2 (en) * | 2006-05-01 | 2012-06-26 | Microsoft Corporation | Machine translation split between front end and back end processors |
US8849653B2 (en) * | 2006-05-09 | 2014-09-30 | International Business Machines Corporation | Updating dictionary during application installation |
US7899664B2 (en) | 2006-05-22 | 2011-03-01 | Sharp Kabushiki Kaisha | Information processing apparatus, computer, information processing system, information processing method, and program for receiving a character string and returning conversion candidates |
CN100464308C (zh) * | 2007-04-20 | 2009-02-25 | 北京搜狗科技发展有限公司 | 一种用户词库同步更新的方法和系统 |
JP2008293431A (ja) * | 2007-05-28 | 2008-12-04 | Kyocera Corp | 情報端末および予測変換候補の並べ替え方法 |
WO2008151465A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
CN101779200B (zh) * | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
JP5137541B2 (ja) * | 2007-11-29 | 2013-02-06 | 京セラ株式会社 | 端末装置、サーバ、通信システム及びプログラム |
US20090248401A1 (en) * | 2008-03-31 | 2009-10-01 | International Business Machines Corporation | System and Methods For Using Short-Hand Interpretation Dictionaries In Collaboration Environments |
US8862989B2 (en) * | 2008-06-25 | 2014-10-14 | Microsoft Corporation | Extensible input method editor dictionary |
JP2010033340A (ja) * | 2008-07-29 | 2010-02-12 | Fujitsu Ltd | 音声認識サーバ、通信システムおよび音声認識方法 |
US8135581B2 (en) * | 2008-08-12 | 2012-03-13 | Abbyy Software Ltd | Method and system for downloading additional search results into electronic dictionaries |
US9081765B2 (en) | 2008-08-12 | 2015-07-14 | Abbyy Infopoisk Llc | Displaying examples from texts in dictionaries |
US8812304B2 (en) | 2008-08-12 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for downloading additional search results into electronic dictionaries |
US8407236B2 (en) * | 2008-10-03 | 2013-03-26 | Microsoft Corp. | Mining new words from a query log for input method editors |
US9092069B2 (en) * | 2009-06-16 | 2015-07-28 | Intel Corporation | Customizable and predictive dictionary |
US8254957B2 (en) * | 2009-06-16 | 2012-08-28 | Intel Corporation | Context-based limitation of mobile device operation |
US8776177B2 (en) * | 2009-06-16 | 2014-07-08 | Intel Corporation | Dynamic content preference and behavior sharing between computing devices |
US20100318656A1 (en) * | 2009-06-16 | 2010-12-16 | Intel Corporation | Multiple-channel, short-range networking between wireless devices |
US8439265B2 (en) | 2009-06-16 | 2013-05-14 | Intel Corporation | Camera applications in a handheld device |
US8446398B2 (en) * | 2009-06-16 | 2013-05-21 | Intel Corporation | Power conservation for mobile device displays |
JP5136536B2 (ja) * | 2009-10-09 | 2013-02-06 | カシオ計算機株式会社 | 情報表示制御装置及びプログラム |
US20110131040A1 (en) * | 2009-12-01 | 2011-06-02 | Honda Motor Co., Ltd | Multi-mode speech recognition |
CN102467320A (zh) * | 2010-11-09 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 一种输入法、输入法装置及系统 |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
JP2012238314A (ja) * | 2012-05-24 | 2012-12-06 | Casio Comput Co Ltd | 電子辞書との通信機能を有する電子機器及び電子機器制御プログラムを記録した記録媒体 |
JP5780208B2 (ja) * | 2012-05-24 | 2015-09-16 | カシオ計算機株式会社 | 電子辞書との通信機能を有する電子機器及び電子機器制御プログラムを記録した記録媒体 |
JP5619095B2 (ja) | 2012-09-03 | 2014-11-05 | 東芝テック株式会社 | 商品認識装置及び商品認識プログラム |
WO2014055076A1 (en) | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
CN102982070A (zh) * | 2012-10-26 | 2013-03-20 | 北京百度网讯科技有限公司 | 用于输入法应用程序的词库更新方法、系统和云端服务器 |
CN103077165A (zh) * | 2012-12-31 | 2013-05-01 | 威盛电子股份有限公司 | 自然语言对话方法及其系统 |
JP6028658B2 (ja) * | 2013-03-28 | 2016-11-16 | 富士通株式会社 | 端末装置、変換文字候補同期方法及び変換文字候補同期プログラム |
JP5760032B2 (ja) | 2013-04-25 | 2015-08-05 | 東芝テック株式会社 | 認識辞書作成装置及び認識辞書作成プログラム |
JP2014215877A (ja) * | 2013-04-26 | 2014-11-17 | 株式会社デンソー | 物体検出装置 |
JP5847117B2 (ja) | 2013-05-28 | 2016-01-20 | 東芝テック株式会社 | 認識辞書作成装置及び認識辞書作成プログラム |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
JP5826800B2 (ja) | 2013-07-17 | 2015-12-02 | 東芝テック株式会社 | 認識辞書評価装置及び認識辞書評価プログラム |
JP6360350B2 (ja) | 2013-08-08 | 2018-07-18 | 東芝テック株式会社 | 情報処理装置、店舗システム及びプログラム |
US20150088493A1 (en) * | 2013-09-20 | 2015-03-26 | Amazon Technologies, Inc. | Providing descriptive information associated with objects |
JP6297835B2 (ja) * | 2013-12-26 | 2018-03-20 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
US10490306B2 (en) | 2015-02-20 | 2019-11-26 | Cerner Innovation, Inc. | Medical information translation system |
JP5843029B2 (ja) * | 2015-03-19 | 2016-01-13 | カシオ計算機株式会社 | 辞書を搭載した辞書端末との通信機能を有する電子機器及び電子機器制御プログラムを記録した記録媒体 |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
CN113438246B (zh) * | 2021-06-29 | 2023-05-30 | 四川巧夺天工信息安全智能设备有限公司 | 一种针对智能终端的数据安全及权限管控的方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0535721A (ja) * | 1991-07-29 | 1993-02-12 | Osaka Gas Co Ltd | 分散日本語辞書統合管理装置 |
US5528490A (en) * | 1992-04-10 | 1996-06-18 | Charles E. Hill & Associates, Inc. | Electronic catalog system and method |
US5530645A (en) * | 1993-06-30 | 1996-06-25 | Apple Computer, Inc. | Composite dictionary compression system |
JPH07152756A (ja) * | 1993-11-30 | 1995-06-16 | Canon Inc | 文書処理装置 |
JPH07182333A (ja) * | 1993-12-24 | 1995-07-21 | Sharp Corp | 日本語処理装置 |
JP3380034B2 (ja) * | 1994-05-16 | 2003-02-24 | 松下電器産業株式会社 | 辞書編集装置 |
US5960449A (en) * | 1994-11-21 | 1999-09-28 | Omron Corporation | Database system shared by multiple client apparatuses, data renewal method, and application to character processors |
US5721914A (en) * | 1995-09-14 | 1998-02-24 | Mci Corporation | System and method for hierarchical data distribution |
US5875443A (en) * | 1996-01-30 | 1999-02-23 | Sun Microsystems, Inc. | Internet-based spelling checker dictionary system with automatic updating |
US5995756A (en) * | 1997-02-14 | 1999-11-30 | Inprise Corporation | System for internet-based delivery of computer applications |
US5933837A (en) * | 1997-05-09 | 1999-08-03 | At & T Corp. | Apparatus and method for maintaining integrated data consistency across multiple databases |
-
1997
- 1997-03-18 JP JP06464497A patent/JP3556425B2/ja not_active Expired - Fee Related
-
1998
- 1998-03-06 US US09/035,767 patent/US6282508B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6282508B1 (en) | 2001-08-28 |
JPH10260960A (ja) | 1998-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3556425B2 (ja) | 共有辞書更新方法および辞書サーバ | |
JP6621543B2 (ja) | ハイブリッドアプリケーションの自動更新 | |
EP1965333B1 (en) | File server for translating user identifier | |
US7711804B2 (en) | Methods and devices for the asynchronous delivery of digital data | |
JP3560758B2 (ja) | データ管理方法およびそれを用いたデータ管理装置 | |
US20030195924A1 (en) | Methods and system using a local proxy server to process media data for local area users | |
US20020023114A1 (en) | System,method and recording medium for document conversion using an intrmediate computer | |
WO2008069125A1 (ja) | データ管理装置 | |
JP4677406B2 (ja) | モバイル装置のユーザ設定を保存するための方法、システム、およびコンピュータ・プログラム | |
WO2010059444A2 (en) | Unified interface for configuring multiple networking technologies | |
EP2356580A2 (en) | Common configuration application programming interface | |
US6880008B1 (en) | System and method for retrieving a backup file having a file name exactly corresponding to the date and time of a client request, if no exact match for the date and time corresponding to the client request is found, to search for the backup file having the file name with a date and time that are closest to but prior to the specified date and time | |
CN104160397A (zh) | 位置独立文件 | |
JP2003233525A (ja) | ネットワークを利用した文書ファイル閲覧システム | |
EP2351457A2 (en) | Creating cross-technology configuration settings | |
JP4953753B2 (ja) | 情報処理装置及びその制御方法、プログラム | |
JP2002049637A (ja) | データベース管理方法及び装置並びに記録媒体 | |
JP2004287928A (ja) | コンテンツ管理プログラム | |
US20050114523A1 (en) | Computer-implemented method, system and program product for providing real-time access to information on a computer system over a network | |
JP2003162474A (ja) | 情報の入手を支援する支援方法および支援サーバ | |
JP2019074954A (ja) | 情報処理装置、管理サーバー、情報処理方法及びプログラム | |
JP4782353B2 (ja) | 情報管理装置、情報処理装置及びそれらの制御方法、情報管理システム、プログラム | |
JP4399689B2 (ja) | 情報提供処理方法、情報提供処理プログラム格納媒体、および情報提供処理装置 | |
JP5471198B2 (ja) | 統合管理装置、統合管理システム、統合管理方法、統合管理プログラム、及びそのプログラムを記録した記録媒体 | |
JP2006004024A (ja) | ディレクトリサーバに実行させるためのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040512 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090521 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |