JP2006107143A

JP2006107143A - 学習型辞書管理システム

Info

Publication number: JP2006107143A
Application number: JP2004293082A
Authority: JP
Inventors: Hiroaki Hasegawa; 裕明長谷川; Hiroyuki Nakada; 浩之中田
Original assignee: Infocom Corp
Current assignee: Infocom Corp
Priority date: 2004-10-05
Filing date: 2004-10-05
Publication date: 2006-04-20

Abstract

【課題】複数の利用者が端末装置から共有の専門用語辞書を利用する場合に正しい読み方を検索し易く、且つ、かな入力に対して表示装置上に所望の優先度で漢字変換表記を表示することが可能な共有型辞書システムを提供する。
【解決手段】基本辞書と学習型辞書を有する情報管理データベースと、利用者情報とを有するサーバに、複数の端末装置が接続されたネットワークを介して利用されるデータ共有型辞書システムにおいて、学習型辞書の用語をかな、漢字、個人利用者情報又は組織情報とを関連付けて各利用者が登録した用語を、サーバ側の学習型辞書に集約し、集約された辞書を各端末側の自己学習辞書に上書きや用語ごとに登録することによってネットワークを介して学習させて、利用者が常に最新の辞書を利用できると同時に、利用者情報に応じて使用可能な用語を制御でき、該辞書を各端末において日本語変換システムに適用できるシステムで構成される。
【選択図】図１

Description

本発明は、学習型辞書管理システムに関するもので、特にネットワークを介して個人別に学習および管理可能な共用辞書システムにおける用語の管理に関するものである。

従来、専門用語に関する辞書は、端末装置に具備された記憶装置にＣＤ等の記憶媒体に記録された辞書データベースサービスが提供されたり、インターネット等のネットワーク上でサイトによるサービスが提供されたりしている。しかし、いずれの専門用語の辞書も限定数の用語のみを提供しており、新規的な用語または造語に対応していない。現実的には、ＣＤ等に記憶された市販の辞書を購入する場合はできる限り収録用語数の多い辞書を選択することが一般的であり、インターネットサイトの辞書を利用する場合はサイトの管理者によって新規用語が辞書に追加されるのを待つしかない。これらのサービスでは、利用者側から新規用語の追加または編集等を行うことはできない。

また、特許文献１では、ある組織に属する複数の利用者が同一の用語辞書を利用する場合に他の利用者のカスタマイズ情報を共用することで、個人の情報を組織の情報として共用できるネットワーク接続型用語辞書管理装置を開示している。

当該ネットワーク接続型用語辞書管理装置では、用語辞書管理データベースがオリジナル用語データと共用カスタマイズデータとを含んでおり、利用者がネットワークに接続された各端末装置から入力した用語をデータ収集手段によって蓄積し、共用カスタマイズデータを参照して統計処理用データに記憶させ、参照頻度等の共用カスタマイズデータ生成規則に基づいて共用カスタマイズデータに登録することで、用語辞書の情報を蓄積し各端末利用者に対して共有の用語辞書を提供している。

当該引用文献１によって、ネットワークに接続された各端末装置を通じて、利用者が辞書に新規的な用語を追加することは可能となった。しかし、特殊分野の専門用語を収録した辞書の場合、専門用語の漢字に対する読み方も重要な情報要素となる。また、利用者が不特定多数であると、一つの漢字に対して複数の読み方が登録される可能性があり、どの利用者によって登録された用語であるのか不明であるため、正しい読み方が登録されているとは限らない。また、端末装置を利用して検索用語を表示装置上に表示する場合、従来の専門用語辞書では専門語彙辞書と共にパーソナルコンピュータの基本ソフトに標準的に装備されたＭＳ−ＩＭＥ、ＡＴＯＫ等の日本語変換ソフト（ＦＥＰ）を連動させて用語検出して表示するため、専門用語を入力した場合、表示装置上において変換表記は通常は適切に反映された状態で表示されない。

特開平１０−２５４８５７号公報

したがって、本出願人は上記問題点を鑑み、複数の利用者が端末装置を通じて共有の専門用語辞書を利用する場合に正しい読み方を検索し易く、且つ、端末装置からのかな入力に対して表示装置上に所望の優先度で漢字変換表記を表示することが可能な共有型辞書システムを提供することを目的とする。

本発明の好ましい実施形態によれば、本発明による共有型辞書システムは、
かなと漢字で対応づけられた１以上の用語データを収録した基本辞書データと、かなと漢字で対応付け可能な１以上の用語データを記録可能な学習型辞書データとを含む辞書情報管理データベースと、
１以上の利用者情報を管理する利用者データベースと、
新規用語を登録可能であって、かなと漢字で対応付け可能な１以上の用語データを記録可能な自己学習型辞書データベースと、
を具備する共有型辞書システムであって、
ネットワークを介して前記１以上の利用者情報と共に前記辞書情報管理データベースの学習型辞書データと前記自己学習型辞書データベースのデータとを参照し、前記１以上の利用者情報と共に前記自己学習型辞書データベースの前記新規用語を前記辞書情報管理データベースの前記学習型辞書データに反映することを特徴とする。

各利用者が自身の端末装置で所定数の専門用語数を収録した辞書を基本辞書として使用し、基本辞書内に該当する用語を検出できなかったときに、該検出できなかった用語に漢字およびそのかなを対応付けて自己学習機能を有する自己学習型辞書に随時登録する。登録された用語は登録者を示す利用者ＩＤとも関連付けられる。次いで、各端末装置で登録された用語を収録した各自己学習型辞書と、各端末装置とネットワークで接続された共有の学習型辞書とを参照し、各自己学習型辞書から共有の学習型辞書に未登録の用語を登録者（利用者ＩＤ）と共に反映させる。これによって、誰がどの用語を登録したか識別可能となり、前記辞書情報管理データベースの管理が容易になる。
同様に、各利用者が所属するグループ単位、あるいは、複数のグループにより構成される組織単位で学習型辞書を管理することも容易となる。これによって、例えば、自己学習型辞書を管理する場合に、読み方の異なる同一の漢字が、異なる利用者によって学習型辞書に複数登録されていた場合でも、登録者又は該登録者の所属先を確認した上で採用すべき用語又は削除すべき用語を選択できるようになる。さらに、読み方が同一の異なる漢字が、異なる利用者によって学習型辞書に複数登録されていた場合でも、文章を作成時にかなから漢字への変換に際して、利用者と同じグループの利用者が登録した用語を優先的に所望の順序で漢字一覧を表示させる設定をしたりすることが容易となる。

本発明の別の好ましい実施形態によれば、本発明による共有型辞書システムは、前記１以上の利用者情報と共に前記新規用語が反映された前記学習型辞書データを、さらに、各利用者情報と共に自己学習型辞書データベースに反映することを特徴とする。

各利用者により登録された新規用語が前記学習型辞書に蓄積された後、例えば、利用者が利用できない時間帯に、複数の利用者によって蓄積された新規用語を反映した前記学習型辞書を、さらに、各利用者の自己学習型辞書として反映するように設定すれば、利用時間帯に各利用者共通の辞書を利用することが可能である。
さらに、特許文献１のように、利用者がネットワークを介して直接学習型辞書にアクセスする方式と比較して、利用者数が増加しても、利用できない時間帯に学習型辞書内の情報を一斉に各自己学習辞書に向けて同報送信するだけなので、ネットワークのトラフィック容量の制限を受けることはない。
別の例として、各利用者により登録された新規用語が前記学習型辞書に蓄積された後、例えば、所定の蓄積用語数又は所定時間ごとに、複数の利用者によって蓄積された新規用語を反映した前記学習型辞書の内容を、さらに、各利用者の自己学習型辞書に反映するように設定すれば、利用者が利用する自己学習型辞書の収録用語数を常時増加させることができる。

本発明の別の好ましい実施形態によれば、本発明による共有型辞書システムは、
かなと漢字で対応付けられた１以上の用語データを収録した基本辞書データと、かなと漢字で対応付け可能な１以上の用語データを登録可能な学習型辞書データとを含む辞書情報管理データベースと、利用者情報を管理する利用者データベースとを格納した記憶装置を具備したサーバと、
入力手段によって新規用語を登録可能であって、かなと漢字で対応付け可能な１以上の用語データを登録可能な自己学習型辞書データベースを格納した記憶装置を具備した複数の端末装置と、
をネットワークを介して通信可能なシステムであって、
各端末装置を通じて各利用者によって該利用者情報と共に自己学習型辞書データベースに登録された新規用語データを、ネットワークを介して前記利用者情報と共に前記辞書情報管理データベースの前記学習型辞書データに送信することを特徴とする。

本発明による共有型辞書システムは、例えば、端末装置とサーバ装置で構成されたネットワークによって構築することができる。利用形態の構成として、端末装置側では、内蔵又は外付けの記憶媒体に自己学習型辞書を保存しており、サーバ側では、記憶媒体に学習型辞書と利用者情報を保存しており、例えば、インターネットやＬＡＮといった電気通信回線を利用したネットワークを介して相互接続される。利用者は端末装置を利用して文章を作成する時、通常はひらがな又はカタカナで入力して漢字変換するために用語検索をする。このとき、本発明によるシステムにおける辞書を利用した用語検索では、例えば、ハードディスクに保存された所定数の専門用語を収録した基本辞書又はキーボード等の入力手段から新規用語を登録可能な自己学習型辞書にアクセスすることが可能であり、このとき、基本辞書、次いで、自己学習型辞書の順に検索される。該当する専門用語が検出されなかった場合は、所望の用語を表示するために前記ひらがな又はカタカナに対応する漢字を別の読み方から表示させて該漢字を新規用語として登録者ＩＤと共に自己学習辞書に登録する。こうすることで、端末利用終了後や、例えば、就業時間終了後に自己学習型辞書をサーバ装置側にアップロードして学習型辞書を参照し、学習型辞書に未登録の新規用語を学習型辞書に反映させて学習させることができる。

本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムにおいて、前記利用者情報と共に前記新規用語が反映された前記学習型辞書データは、ネットワークを介して前記サーバ装置側から、各利用者情報と共に自己学習型辞書データベースを格納した記憶装置を具備した端末装置に送信されることを特徴とする。

端末装置側の自己学習型辞書をサーバ装置側にアップロードし、サーバ装置側の学習型辞書との参照後、各端末装置からアップロードされた各自己学習型辞書の新規用語を反映した最新の学習型辞書を再度各端末装置へ送信し、各自己学習型辞書に反映させて各自己学習型辞書を最新の状態で利用することが可能となる。

本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムは、文章から用語を切り出して前記かなと漢字を自動的に対応づける論理によって前記切り出した用語を前記辞書情報管理データベースの学習型辞書データ又は前記自己学習型辞書データベースのデータに反映することを特徴とする。

例えば、利用者が文章又は書類を作成してドキュメントファイルとして保存する場合がある。その際、該ドキュメントファイルを端末装置側で保存する場合と、サーバ側に送信して保存する方法があり、端末装置側で保存する場合は、端末装置上で文章を文節で区切った後で品詞分類し、用語の漢字と読み仮名を類推して認識させ、各認識した用語を自己学習型辞書と参照し、未登録の新規用語を自動的に自己学習型辞書に反映することができる。また、サーバ装置側に送信して保存する場合は、サーバ装置側で同様の処理を行って同様に学習型辞書に新規用語を反映することができる。

本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムにおける前記学習型辞書データベースおよび自己学習型辞書データベースは、さらに、表記、品詞の少なくともいずれかと共に対応付けて用語データを登録することを特徴とする。

サーバ装置側および端末装置側の各学習型辞書データベースが、用語と共に、例えば、品詞、表記（漢字）等のうち、１又は複数の対応付け要素を有していれば、かな以外にも用語と対応付けする可能性が拡張し、例えば、同じ読みでも表記の相違する用語として認識することができるし、用語検索対象のかなのみならず、品詞ごとに登録することも可能になる。

本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムは、前記利用者情報、かな、表記、品詞の全てと対応付けられた用語は重複して記憶されないことを特徴とする。

登録した利用者、かな、表記、品詞の全ての対応付け要素に対して１つの用語のみを対応付けることによって、同一人による同一用語の再登録を防止することができる。

本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムにおける前記利用者情報は、利用者別の識別情報および利用者別に所属する集合の識別情報を含み、利用者の識別情報および集合の識別情報に優先度を設け、その優先度に応じて前記新規用語を利用者に提供することを特徴とする。

学習辞書または自己学習辞書において、同じ読み方であって同一又は異なる利用者によって登録された複数の相違する漢字用語が登録されている場合が考えられる。その際、用語辞書の利用者は、辞書を一覧して登録者又は所属先を確認し、自分が採用すべき用語を選択する可能性を有し、実際に同一の読み方に対して前記一覧に複数の漢字用語が列挙された際に、例えば、当該利用者と同じ所属先の登録者による登録用語を優先的に表示させるようにＭＳ−ＩＭＥ等の表示呼び出しを設定することができる。

利用者の前記自己学習辞書データの用語に対する参照頻度又は選定頻度に応じて提供順位を有することを特徴とする。

端末装置側で利用者が用語辞書を参照した際に参照した用語または選定した用語の頻度を計数することによって、ある用語に対して読みを入力して複数の用語が列挙された場合に計数の高い用語を優先的に表示するように設定できる。

前記新規用語を登録した利用者または該利用者の所属するグループの他の利用者のみが該登録用語に対して参照、変更、削除、不要化の権限を有することを特徴とする。

例えば、サーバ装置側で利用者情報を管理する管理手段を設けて、利用者情報に基づいて登録した用語に対して参照、変更、削除、不要化の権限を付与する人を指定したり、端末装置側で用語の登録者が当該用語の参照、変更、削除、不要化の権限を付与する人を指定したりすることによって学習型辞書又は自己学習型辞書の管理を行うことができる。

本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムでは、不要化された用語に対して再登録がなされた場合、新規用語として登録される。

不適切な長さや読み方で収集されてしまった用語が、例えばＭＳ−ＩＭＥにおける変換時に不具合をきたす場合、用語の不要化作業を行ってＭＳ−ＩＭＥの変換候補に表示されないようにすることができる。この時、端末装置側での自己学習型辞書内には登録された状態で設定しておく。これによって、当該用語は登録者のＭＳ−ＩＭＥにおける変換は行われなくなり、他の利用者が同じ用語を登録した場合、新たに登録した利用者だけにアクセス権を付与して新規登録される。このように、不要化された用語は自己学習辞書内には存在するが、不要化した利用者以外の利用者には登録された単語として利用可能となってＭＳ−ＩＭＥにおいて変換される。以上のように、登録した用語を利用者に応じて使用可否状態に設定できる。

図１は、本発明による共有型辞書システムの全体構成図である。該構成は、インターネットやＬＡＮ（ローカルエリアネットワーク）等の電気通信回線を利用したネットワーク１に複数の端末装置１０及びサーバ装置２０が接続されている。サーバ装置２０は、記憶媒体によって保存された、所定用語数を収録した基本辞書データ２２と用語登録可能な学習型辞書データ２４を有する辞書情報管理データベース２１、利用者データベース２６、辞書情報管理データベース２１を制御する辞書管理手段２３、利用者データベース２６を管理する利用者管理手段２８を具備する。各端末装置１０には、内蔵又は外付け可能な記憶媒体が具備されており、そこには、前記基本辞書データ２２と同一又は収録した用語数の異なる基本辞書データベース３１、用語を登録可能な自己学習型辞書データベース３５、ＭＳ−ＩＭＥ等のＦＥＰ機能３３を有するアプリケーション、サーバ２０との接続制御切り替え手段３７によってＯＮ状態に切り替えられたときにサーバ装置２０側の辞書情報管理データベース２１及び利用者データベース２６にアクセス制御可能な管理手段３９が該管理手段３９を制御する制御手段４３とアクセス選択手段４１と共に保存されている。

システムの構成要素の説明
１サーバ装置２０側の構成要素
１−１辞書情報管理データベース２１：
数十万語程度収録された読取専用の基本辞書データ２２と新規用語を登録可能な学習型辞書データ２４とを含むデータベースである。

１−２辞書管理手段２３：
専門用語の検索、追加、削除等を行う常駐プログラムで、未知語の抽出、読みの類推等の自然言語解析機能も提供し、辞書情報管理データベースのライブラリに唯一リンクされる。他のプロセスとのインターフェースはすべて非同期のプロセス間通信によって実現する。このプログラムは排他制御機能を有し、１つのプロセスからのリクエストが終了するまで次のプロセスからのリクエストを待機又はタイムアウトさせる。

１−３利用者管理手段２８：
本発明によるシステムの利用者がどのグループに所属しているか管理を行う常駐プログラムで、辞書管理手段２３から取得された用語が現在の利用者にアクセスの権限を付与しているかを判別する機能を提供し、他のプロセスとのインターフェースはすべて非同期のプロセス間通信によって実現する。このプログラムは排他制御機能を有し、１つのプロセスからのリクエストが終了するまで次のプロセスからのリクエストを待機又はタイムアウトさせる。

１−４利用者データベース２６：
本発明によるシステムにおいて、学習型辞書データ２４にアクセス可能な利用者のＩＤや利用者の所属するグループＩＤ等を管理するデータベースである。学習型辞書データ２４にアクセス可能な利用者は固有のＩＤで管理され、該ＩＤ情報は学習型辞書データ２４の用語レコードに付与される。本発明によるシステムの利用先として、例えば、病院内で、利用者が医師又は医療関係者であり、該医師が内科と倫理委員会の２つのグループ（所属先）に属している場合は、所属する各グループの固有ＩＤも併せて管理することができる。また、より大きいグループの概念として病院関係者全員といった組織の固有ＩＤを持たせることもできる。
利用者データベース２６は固有のデータ構造を有するため、各端末装置１０から利用者データベース２６へのアクセスには利用者管理手段２８にアクセス経由しなければ検索することはできないように設定されている。その論理構造は後述する。

２端末装置１０側の構成要素

２−１日本語変換手段３３：
基本ソフトに標準装備されたＭＳ−ＩＭＥやＡＴＯＫ等の日本語変換アプリケーションである。

２−２自己学習型辞書データベース３５
新規用語を登録可能な学習型辞書データベースであって、サーバ装置２０側の学習型辞書データ２４と同じ論理構造を有する。そのため、相互に物理的に上書き可能である。ただし、用語別に書き換えも可能。

２−３基本辞書データベース３１：
所定数を収録した読取専用の基本辞書データベースであって、サーバ装置２０側の基本辞書データ２２と同じ論理構造を有する。そのため、相互に物理的に上書き可能である。ただし、サーバ装置の管理者のみ可能。

２−３接続切換手段３７：
管理手段３９を起動又は切断するためのプログラムである。

２−４管理手段３９：
後述する制御手段４３によって制御されるＭＳ−ＩＭＥ等の日本語変換アプリケーション３３のアクティブディクショナリとして動作する、例えばダイナミックリンクライブラリ形式（ＤＬＬ）のプログラムである。利用者データベース２６及び辞書情報管理データベース２１にアクセスするためのプログラムでもあり、アクティブ（ＯＮ）状態のときにサーバ装置２０側の情報とのアクセスが可能となる。

２−５選択手段４１：
サーバ装置２０側との接続時に、例えば、メニューを含んだウインドウ等の呼び出し等を行う常駐型のアプリケーションである。ツールバー形式で管理手段３９のプログラムを起動したり、他のコンピュータへのデータを移動するためにエクスポートファイルを作成したり、利用者を設定したり、さらには、現状の変換や登録の対象が個人単位、所属単位、利用者全体を選択することができる。

２−６制御手段４３：
管理手段３９の制御を行うアプリケーションで、一般的なファイルアプリケーション形式で構成される。終了時に保存又は破棄を選択させるダイアログが表示され、保存する場合に端末装置１０側の自己学習型辞書データベース３５への編集結果を反映させるように機能させるアプリケーションである。具体的な機能としては、自己学習型辞書３５の用語の一覧を表示して、用語の読み、表記、日付、登録者等を用語との対応付け要素として用語を検索することができる機能と、用語に対して読み、表記、品詞、アクセス権等の編集、削除、１語追加、複製を行う機能と、別ファイルからの読み込み、マージ、ファイルへの書き出しを行う機能と、学習型辞書の自動収集を行う機能と、管理手段３９に対して前方一致検索やコメント表示などの可否を設定する機能と、選択手段４１で使用するショートカットキーを定義する機能と、利用者の所属先の設定変更機能とを有する。
ただし、当該制御手段４３は複数のスレッドで起動している場合は、端末装置１０側の自己学習型辞書３５についてはシーケンシャルに処理をする為、あるスレッドのプロセスが自己学習型辞書３５へアクセス中は、他のプロセスからのリクエストに対して「該当用語なし」のステータスを返答する。

２−７エクスポートファイル
制御手段４３によって自己学習型辞書３５から書き出されたファイルは、用語に関するかな、表記、日付等の情報要素と共に利用者情報を格納する。例えば、他の端末装置を利用して当該辞書を継続して使用したい場合、ネットワーク経由、記憶媒体経由、又は電子メール経由で他の本発明によるシステムを利用可能な端末装置へ当該ファイルを移植後、辞書管理手段２３によって自動的に用語及び利用者情報を移植先の端末装置の本発明によるシステム環境に組み込む。

２−８登録手段３２：
管理手段３９に対して用語を１語ずつ追加するためのアプリケーションである。制御手段４３と同時に使用することはできず、その相違点は１語の追加のみである点と、機能中も辞書管理手段２３の機能はすべて使用できる点である。

３利用者データベースの論理構造
図２を参照して利用者（ユーザ）テーブル、グループ（所属先）テーブル、組織（病院関係者）テーブルについて説明する。

３−１利用者（ユーザ）テーブル
第１番目には利用者ＩＤが数値形式で登録され、利用者の管理番号として例えば、ＩＤ＝１〜９のように示され、１つのシステム内では同一ＩＤは同一人物を示す。
第２番目には利用者名の読みが文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大１２８バイトからなる。ユーザインタフェースで、例えば、「とっきょたろう」のように、利用者名をソート表示するときの鍵として使用される。
第３番目には利用者名の表記が文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大１２８バイトからなる。主にユーザインターフェースで表示される文字列で、１つのシステム内では、例えば、「特許太郎」のように、同一の利用者名の表記は１レコードしか登録できない。

３−２グループ（所属先）テーブル
第１番目にはグループＩＤが数値形式で登録され、グループの管理番号として例えば、ＩＤ＝１〜９のように示され、１つのシステム内では同一グループＩＤは同一のグループを示す。
第２番目にはグループ名の読みが文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大１２８バイトからなる。ユーザインタフェースで、例えば、「だい１ないか」のように、グループ名をソート表示するときの鍵として使用される。
第３番目にはグループ名の表記が文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大１２８バイトからなる。主にユーザインターフェースで表示される文字列で、１つのシステム内では、例えば、「第１内科」のように、同一グループ名の表記は１レコードしか登録できない。
第４番目には所属する利用者が可変長配列の数値形式で登録され、該所属する利用者のＩＤが格納される。

３−３組織テーブル
第１番目には組織ＩＤが数値形式で登録され、組織の管理番号として例えば、ＩＤ＝１〜９のように示され、１つのシステム内では同一の組織ＩＤは同一の組織を示す。
第２番目には組織名の読みが文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大１２８バイトからなる。ユーザインタフェースで、例えば、「とっきょだいがくふぞくびょういん」のように、組織名をソート表示するときの鍵として使用される。
第３番目には組織名の表記が文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大１２８バイトからなる。主にユーザインターフェースで表示される文字列で、１つのシステム内では、例えば、「特許大学付属病院」のように、同一の組織名の表記は１レコードしか登録できない。
第４番目には所属するグループが可変長配列の数値形式で登録され、該所属するグループのＩＤが格納される。

４辞書
４−１辞書へのアクセス
本発明によるシステムにおけるサーバ装置２０側の辞書情報管理データベース２１の論理構造は固有のバイナリファイル形式であって、各端末装置１０側からはサーバ装置２０側の辞書管理手段２３をアクセス経由しなければ検索できない。

４−２基本辞書および学習型辞書
本発明によるシステムにおけるサーバ装置２０側又は端末装置１０側において、用語を収録したデータベースファイル形態の辞書情報管理データベース２１は、基本辞書と学習型辞書によって構成される。

４−２−１基本辞書
サーバ装置２０側にアクセスすることによって、又は、端末装置１０内にダウンロード又はインストールすることによって使用可能な数十万語程度の語彙を収録した読み取り専用ファイルであって、当該ファイルは用語検索のみを目的とし、一覧、編集、削除はできず、サーバ装置２０側の管理者によって更新された場合のみ変更される。

４−２−２学習型辞書
サーバ装置２０側の学習型辞書２４は、初期には用語が未登録状態で各端末装置１０側から転送された新規用語を反映することで、用語の登録数を増加させる。
端末装置１０側の自己学習型辞書３５は、初期には用語が未登録状態で、端末装置１０のキーボード入力等の登録手段３２又はドキュメントファイル内の用語の切り出し等によって追加登録可能である。サーバ装置２０側の学習型辞書２４と対照することによってサーバ装置２０側の学習型辞書２４に新規用語を追加して登録数を反映し、さらに、反映された学習型辞書２４を端末装置１０側に返送して端末装置１０側の自己学習型辞書３５に上書きする等して最新の登録数を有する自己学習型辞書３５として利用することができる。

４−３辞書ファイルの論理構造
辞書ファイルの論理構造を図３に示す。基本辞書はかな索引辞書ファイルと漢字索引辞書ファイルの２つのファイルから構成されている。かな索引辞書と漢字索引辞書の先頭部には辞書管理情報が付加されており、該辞書管理情報は、例えば１キロバイトの固定長の領域で辞書ファイル全体の管理情報が格納されている。辞書管理情報には登録されている用語データレコードの総数を示す情報が格納されており、該用語データはアプリケーションプログラムインターフェース（ＡＰＩ）によって取得される。用語の総数情報は、数バイトの数値形式で辞書ファイル内に収録された用語数を示し、かな索引辞書ファイルと漢字索引辞書ファイルに登録される用語の総数は一致する。データブロックはファイルサイズを決定する単位ブロックで、索引を格納する用途と用語自体を格納する用途の２種類ある。一例として、用語が１語だけ登録された場合の辞書ファイルサイズを以下に示す。

辞書管理情報＋索引用途のブロック＋用語自体の用途のブロック＝１キロバイト＋３２キロバイト＋３２キロバイト＝６５キロバイト

用語が１語ずつ追加又は削除されるごとに３２キロバイト単位で増加又は減少する。

４−４用語レコードの論理構造

４−４−１フィールドの定義
基本辞書と学習辞書に格納される共通の用語レコードは以下のフィールドから構成され、図４の単語レコードのフィールド定義の表を参照して説明する。ただし、表内の具体的な数値は例示するものにすぎない。

第１番目は用語の読みに関するレコードを定義し、該読みの文字列は、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大１２８バイトからなる。基本辞書及び学習辞書の双方に適用されて、用語検索の対象としての機能も果たす。用語と対応付けされる固有の条件の１つである。
第２番目は用語の表記に関する領域を定義し、該読みの文字列は、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大１２８バイトからなる。ターミネータを除き最大１２８バイトからなる。基本辞書及び学習型辞書の双方に適用されて、用語検索の対象としての機能も果たす。用語と対応付けされる固有の条件の１つである。
第３番目は用語の品詞に関するレコードを定義し、数バイトの数値形式でＭＳ−ＩＭＥ等の日本語変換アプリケーションの品詞体系に準拠した品詞番号で管理される。基本辞書及び学習型辞書の双方に適用されて、用語と対応付けされる固有の条件の１つであるが、用語検索の対象ではない。
第４番目は用語自体のＩＤに関するレコードを定義し、数バイトの数値形式で用語を固有のシリアル番号によって特定できる。１〜１００万までの数値を用意してあり、１〜５０万を学習型辞書のために使用し、５０万１〜１００万までを基本辞書のために使用する。基本辞書を更新する場合でも指定領域は変更しない。０は無効値で１００万以降は予約番号である。基本辞書及び学習型辞書の双方に適用される。
第５番目はコメント情報に関する領域を定義し、先頭部の例えば２バイト分にリトルエンディアンでレコード長を持ち、レコード長も含めて最大で数キロバイトからなる任意長のバイト列である。基本辞書及び学習型辞書の双方に適用される。
第６番目は登録日時に関するレコードを定義し、用語の最初の登録時の年月日時分の情報を、例えば、２０，０４，０８，１５，２２，３０＝２００４年８月１５日午後１０時３０分のように、６バイトのパック１６進数で表現する。学習型辞書にのみ適用される。
第７番目は登録者ＩＤに関するレコードを定義し、数バイトの利用者ＩＤで定義され、用語の最初の登録者を示し、登録者は当該用語レコードの占有者である。学習型辞書にのみ適用され、登録者情報及びグループ（所属先）情報は学習型辞書内では管理せず固有の条件として用語との対応付けにのみ使用される。
第８番目は登録回数に関するレコードを定義し、数バイトの数値形式で初回の登録を１とし、以後、後述する自動テキスト一括読み取り（以下トレーニングという）時や用語登録作業などで同一用語を登録する試みを重複のため登録されなかった回数も含めて計数する。当該用語の重要頻度を示す指標となる。学習型辞書にのみ適用される。
第９番目は更新日時に関するレコードを定義し、用語の最終更新日を、例えば８バイトの１６進数で表現する。学習型辞書にのみ適用される。
第１０番目は更新者ＩＤに関する領域を定義し、用語の最終更新者を数バイトの利用者ＩＤによって表現する。学習型辞書にのみ適用される。
第１１番目は登録回数に関するレコードを定義し、数バイトの数値形式で初回の更新を１として、以後当該レコードの更新（読み、標記、品詞、アクセス権等の変更）ごとに計数する。学習型辞書にのみ適用される。
第１２番目は参照日時に関するレコードを定義し、用語の最終参照日時を、例えば８バイトの１６進数によって表現する。学習型辞書にのみ適用される。
第１３番目は参照者ＩＤに関するレコードを定義し、数バイトの利用者ＩＤで定義されて用語の最終参照者を示す。学習型辞書にのみ適用される。
第１４番目は参照回数に関するレコードを定義し、数バイトの数値形式でＭＳ−ＩＭＥ等の日本語変換アプリケーションにおける変換／再変換の操作で参照数を計数する。学習型辞書にのみ適用される。
第１５番目はアクセス権に関するレコードを定義し、数バイトの数値形式で用語の登録者、該登録者の所属するグループの他の利用者、登録者が所属する組織の他の利用者に対して参照／変更の権限を指定可能である。学習型辞書にのみ適用される。
第１６番目は用語の管理状態に関するレコードを定義し、仮登録（後述する）、本登録、不要の３種類がある。仮登録はトレーニング直後の状態であり、本登録はトレーニングの結果を確認して利用すると決定した状態であり、不要は当該用語を使用しないと決定した状態である。

４−４−２固有の条件
読み、表記、品詞、登録者ＩＤといった、用語との対応付け要素が相当し、全ての対応付け要素と一致する用語は重複登録できない。また、前記固有の条件以外の、例えば登録者のコメントだけが異なる用語や、削除済み状態の同一の用語は再登録できない。

４−４−３アクセス権
特定の利用者が特定の用語の参照又は変更を許可すべきかを示す情報である。登録者に対するアクセス権、登録者と同じグループの利用者に対するアクセス権及び登録者と同じ組織の利用者に対するアクセス権の３種類が存在し個別に設定可能である。
用語をＭＳ−ＩＭＥ等の日本語変換アプリケーションの変換候補として提供すべきか、提供する優先度を変更すべきか、あるいは、編集や削除の権限を有するかといった条件は制御手段４３によって制御される。

４−４−４用語の仮登録
トレーニングによって文節に区切って品詞単位で切り出されて自動的に収集された用語は、学習型辞書に収録されたうえで、「仮登録」の状態に維持される。仮登録の単語はＭＳ−ＩＭＥ等の日本語変換アプリケーションにおける変換には反映されない。ＭＳ−ＩＭＥ等の日本語変換アプリケーションにおいて使用可能にするため、制御手段４３の機能によって利用者の意識的な決定により仮登録から本登録への切り替え操作を行ったり、登録回数又は参照回数が所定数に達した場合に自動的に仮登録から本登録へ切り替えられるように設定することもできる。

４−４−５用語の不要化
単語の不要化は、トレーニングによって自動的に収集された用語が不適切な長さや読み方で収集されてしまい、ＭＳ−ＩＭＥ等の日本語変換アプリケーションにおける変換に不具合を発生させるような場合に利用者が行う操作を言う。一度不要化された用語はＭＳ−ＩＭＥの変換候補として表示されないが、自己学習型辞書データ内には残存し、次回から同じ不要語を収集しないように機能する。
用語の登録者が用語レコードの「状態」を「不要」に変更することによって当該用語は登録者が利用する端末装置上のＭＳ−ＩＭＥでは変換できなくなる。同一グループ又は同一の組織に対しても使用が許可されている場合は他の利用者にとっても変換できない用語となる。例えば、当該不要化される用語が頻繁に利用者に使用される場合は他の利用者の参照回数等を表示して不要化すべきか警告メッセージを与えることもできる。
不要化によって用語が変換されなくなった場合に、他の利用者が同じ用語を再登録した場合、内部処理で「新規登録した利用者だけがアクセス権を付与された用語」として新規登録し、不要化された単語は「不要」状態のまま残す。これにより、不要化した利用者では変換されず、新規登録した利用者では変換される用語となる。

４−４−６用語の削除
登録後に誤りを認識して登録した用語レコードを削除する操作である。例えば、病院において本発明によるシステムを利用する場合に、患者の氏名が変換されないため用語登録したが、後に登録用語の漢字に誤りが認められ、正しい用語は別途登録されていたことが判明したといったような状況で、誤った用語を登録したレコード自体を削除することができる。

４−４−７利用者の所属先の移動
例えば、病院内において利用者の所属先が変更した場合に当該利用者が登録した用語も自動的に変更される。
具体的な状況を例示すると、１利用者が病院でＡ科の所属からＢ科に転属したとする。該利用者による登録で同一の所属科に属する他の利用者に対して使用許可を付与していた用語は、登録した利用者が転属したことにより自動的に転属した科に所属する他の利用者は使用可能になると同時に、転属前の所属先に属する他の利用者は使用不可能になるといった設定もできる。
ただし、制御手段４３によって転属後も転属前の所属先の他の利用者が引き続き前記用語を使用できるように設定する機能を設けることもできる。

５トレーニング（テキスト一括読み取り用語抽出）の論理
トレーニングによる専門用語の抽出を行う過程を、医療用語を抽出する場合を想定して図５のフローチャートを参照して説明する。
エディタやワードプロセッサ等で作成した文書等のテキスト情報を、医療用品詞分解処理エンジンで品詞別に各語を選別する。次いで、名詞のみを抽出した一群の名詞データ集を、医療用名詞比較エンジンで医療用語集データベース及び一般用語集データベースと比較する。ここで、判別適応する用語候補が存在する場合は表示候補名詞集として医療用語と類推するために個人学習用語データベースを参照し適合した最終的な表示候補の名詞集から医療用読み類推エンジンで正解確度別の表現で表示データとして表示する。前記比較時に判別不明の場合は名詞意味類推エンジンで類推抽出した表示候補名詞集を作成し、以下、上記同様に、表示候補名詞集として医療用語と類推するために個人学習用語データベースを参照し適合した最終的な表示候補の名詞集から医療用読み類推エンジンで正解確度別の表現で表示データとして表示する。

以上の構成によって、各端末装置を用いて各利用者が文章作成時等に端末装置側に具備された所定数の専門用語を収録した読み取り専用基本辞書と、入力手段又はトレーニングによって基本辞書に存在しない新規用語を随時追加できる自己学習型辞書とを利用し、テキストファイルから各利用者のＩＤ、品詞、かな、表記と関連づけて基本辞書に存在しない用語を抽出し、自己学習型辞書に登録して反映させる。作業終了後、各端末装置側で反映させた自己学習辞書の内容を電気通信回線を介してサーバ装置側の学習型辞書に反映させる。次いで、反映された学習辞書を各端末装置に返送することによって、各利用者端末で自己学習型辞書が更新されて、共通の最新の学習型辞書として利用可能となる。このとき、最新の学習辞書では、登録者と登録用語が認識されているため、端末装置で文書作成作業時に用語が基本辞書からは検出されず、自己学習型辞書から検索された場合、端末側の制御用アプリケーションプログラムによって、例えば登録者によって指定された属性を反映するようにＭＳ−ＩＭＥ等の日本語変換アプリケーションのかな／漢字変換の順位を設定することができる。

本願明細書において、自己学習型辞書とは端末装置側の学習辞書を指し、学習型辞書はサーバ装置側の学習辞書を指すものとし、また、収録、記録、記憶、格納と言う表現は端末装置に接続された記憶媒体に格納されたファイルやプログラムに対して用いている用語である。

図１は、本発明による共有型辞書システムの全体構成図である。図２は、本発明における利用者データベースの論理構造を示すテーブル一覧である。図３は、本発明における辞書ファイルの論理構造を示す構成図である。図４は、単語レコードのフィールド定義を示す表である。図５は、テキスト一括読み取り後の表示データの検出までのフローチャートである。

Claims

かなと漢字で対応づけられた１以上の用語データを収録した基本辞書データと、かなと漢字で対応付け可能な１以上の用語データを登録可能な学習型辞書データとを含む辞書情報管理データベースと、
１以上の利用者情報を管理する利用者データベースと、
新規用語を登録可能であって、かなと漢字で対応付け可能な１以上の用語データを登録可能な自己学習型辞書データベースと、
を具備する共有型辞書システムであって、
ネットワークを介して前記１以上の利用者情報と共に前記辞書情報管理データベースの学習型辞書データと前記自己学習型辞書データベースのデータとを参照し、前記１以上の利用者情報と共に前記自己学習型辞書データベースの前記新規用語を前記辞書情報管理データベースの前記学習型辞書データに反映することを特徴とする共有型辞書システム。
前記１以上の利用者情報と共に前記新規用語が反映された前記学習型辞書データを、さらに、各利用者情報と共に自己学習型辞書データベースに反映することを特徴とする請求項１に記載のシステム。
かなと漢字で対応付けられた１以上の用語データを収録した基本辞書データと、かなと漢字で対応付け可能な１以上の用語データを登録可能な学習型辞書データとを含む辞書情報管理データベースと、利用者情報を管理する利用者データベースとを格納した記憶装置を具備したサーバと、
入力手段によって新規用語を登録可能であって、かなと漢字で対応付け可能な１以上の用語データを登録可能な自己学習型辞書データベースを格納した記憶装置を具備した複数の端末装置と、
をネットワークを介して通信可能なシステムであって、
各端末装置を通じて各利用者によって該利用者情報と共に自己学習型辞書データベースに登録された新規用語データを、ネットワークを介して前記利用者情報と共に前記辞書情報管理データベースの前記学習型辞書データに送信することを特徴とするシステム。
前記利用者情報と共に前記新規用語が反映された前記学習型辞書データは、ネットワークを介して前記サーバ装置から、各利用者情報と共に自己学習型辞書データベースを格納した記憶装置を具備した端末装置に送信されることを特徴とする請求項３に記載のシステム。
文章から用語を切り出して前記かなと漢字を自動的に対応づける論理によって前記切り出した用語を前記辞書管理情報管理データベースの学習型辞書データ又は前記自己学習型辞書データベースのデータに反映することを特徴とする請求項１ないし４のいずれかに記載のシステム。
前記学習型辞書データベースおよび自己学習型辞書データベースは、さらに、表記、品詞の少なくともいずれかと共に対応付けて用語データを登録することを特徴とする請求項１ないし５に記載のシステム。
前記利用者情報、かな、表記、品詞の全てと対応付けられた用語は重複して登録されないことを特徴とする請求項６に記載のシステム。
前記利用者情報は、利用者別の識別情報および利用者別に所属する集合の識別情報を含み、利用者の識別情報および集合の識別情報に優先度を設け、その優先度に応じて前記新規用語を利用者に提供することを特徴とする請求項１ないし７のいずれかに記載のシステム。
利用者の前記自己学習辞書データの用語に対する参照頻度又は選定頻度に応じて提供順位を有することを特徴とする請求項１ないし８のいずれかに記載のシステム。
前記新規用語を登録した利用者または該利用者の所属するグループの他の利用者のみが該登録用語に対して参照、変更、削除、不要化の権限を有することを特徴とする請求項８又は９に記載のシステム。
不要化された用語に対して再登録がなされた場合、新規用語として登録される請求項１０に記載のシステム。