JP2006107143A - 学習型辞書管理システム - Google Patents

学習型辞書管理システム Download PDF

Info

Publication number
JP2006107143A
JP2006107143A JP2004293082A JP2004293082A JP2006107143A JP 2006107143 A JP2006107143 A JP 2006107143A JP 2004293082 A JP2004293082 A JP 2004293082A JP 2004293082 A JP2004293082 A JP 2004293082A JP 2006107143 A JP2006107143 A JP 2006107143A
Authority
JP
Japan
Prior art keywords
dictionary
term
learning
user
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004293082A
Other languages
English (en)
Inventor
Hiroaki Hasegawa
裕明 長谷川
Hiroyuki Nakada
浩之 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infocom Corp
Original Assignee
Infocom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infocom Corp filed Critical Infocom Corp
Priority to JP2004293082A priority Critical patent/JP2006107143A/ja
Publication of JP2006107143A publication Critical patent/JP2006107143A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】複数の利用者が端末装置から共有の専門用語辞書を利用する場合に正しい読み方を検索し易く、且つ、かな入力に対して表示装置上に所望の優先度で漢字変換表記を表示することが可能な共有型辞書システムを提供する。
【解決手段】基本辞書と学習型辞書を有する情報管理データベースと、利用者情報とを有するサーバに、複数の端末装置が接続されたネットワークを介して利用されるデータ共有型辞書システムにおいて、学習型辞書の用語をかな、漢字、個人利用者情報又は組織情報とを関連付けて各利用者が登録した用語を、サーバ側の学習型辞書に集約し、集約された辞書を各端末側の自己学習辞書に上書きや用語ごとに登録することによってネットワークを介して学習させて、利用者が常に最新の辞書を利用できると同時に、利用者情報に応じて使用可能な用語を制御でき、該辞書を各端末において日本語変換システムに適用できるシステムで構成される。
【選択図】図1

Description

本発明は、学習型辞書管理システムに関するもので、特にネットワークを介して個人別に学習および管理可能な共用辞書システムにおける用語の管理に関するものである。
従来、専門用語に関する辞書は、端末装置に具備された記憶装置にCD等の記憶媒体に記録された辞書データベースサービスが提供されたり、インターネット等のネットワーク上でサイトによるサービスが提供されたりしている。しかし、いずれの専門用語の辞書も限定数の用語のみを提供しており、新規的な用語または造語に対応していない。現実的には、CD等に記憶された市販の辞書を購入する場合はできる限り収録用語数の多い辞書を選択することが一般的であり、インターネットサイトの辞書を利用する場合はサイトの管理者によって新規用語が辞書に追加されるのを待つしかない。これらのサービスでは、利用者側から新規用語の追加または編集等を行うことはできない。
また、特許文献1では、ある組織に属する複数の利用者が同一の用語辞書を利用する場合に他の利用者のカスタマイズ情報を共用することで、個人の情報を組織の情報として共用できるネットワーク接続型用語辞書管理装置を開示している。
当該ネットワーク接続型用語辞書管理装置では、用語辞書管理データベースがオリジナル用語データと共用カスタマイズデータとを含んでおり、利用者がネットワークに接続された各端末装置から入力した用語をデータ収集手段によって蓄積し、共用カスタマイズデータを参照して統計処理用データに記憶させ、参照頻度等の共用カスタマイズデータ生成規則に基づいて共用カスタマイズデータに登録することで、用語辞書の情報を蓄積し各端末利用者に対して共有の用語辞書を提供している。
当該引用文献1によって、ネットワークに接続された各端末装置を通じて、利用者が辞書に新規的な用語を追加することは可能となった。しかし、特殊分野の専門用語を収録した辞書の場合、専門用語の漢字に対する読み方も重要な情報要素となる。また、利用者が不特定多数であると、一つの漢字に対して複数の読み方が登録される可能性があり、どの利用者によって登録された用語であるのか不明であるため、正しい読み方が登録されているとは限らない。また、端末装置を利用して検索用語を表示装置上に表示する場合、従来の専門用語辞書では専門語彙辞書と共にパーソナルコンピュータの基本ソフトに標準的に装備されたMS−IME、ATOK等の日本語変換ソフト(FEP)を連動させて用語検出して表示するため、専門用語を入力した場合、表示装置上において変換表記は通常は適切に反映された状態で表示されない。
特開平10−254857号公報
したがって、本出願人は上記問題点を鑑み、複数の利用者が端末装置を通じて共有の専門用語辞書を利用する場合に正しい読み方を検索し易く、且つ、端末装置からのかな入力に対して表示装置上に所望の優先度で漢字変換表記を表示することが可能な共有型辞書システムを提供することを目的とする。
本発明の好ましい実施形態によれば、本発明による共有型辞書システムは、
かなと漢字で対応づけられた1以上の用語データを収録した基本辞書データと、かなと漢字で対応付け可能な1以上の用語データを記録可能な学習型辞書データとを含む辞書情報管理データベースと、
1以上の利用者情報を管理する利用者データベースと、
新規用語を登録可能であって、かなと漢字で対応付け可能な1以上の用語データを記録可能な自己学習型辞書データベースと、
を具備する共有型辞書システムであって、
ネットワークを介して前記1以上の利用者情報と共に前記辞書情報管理データベースの学習型辞書データと前記自己学習型辞書データベースのデータとを参照し、前記1以上の利用者情報と共に前記自己学習型辞書データベースの前記新規用語を前記辞書情報管理データベースの前記学習型辞書データに反映することを特徴とする。
各利用者が自身の端末装置で所定数の専門用語数を収録した辞書を基本辞書として使用し、基本辞書内に該当する用語を検出できなかったときに、該検出できなかった用語に漢字およびそのかなを対応付けて自己学習機能を有する自己学習型辞書に随時登録する。登録された用語は登録者を示す利用者IDとも関連付けられる。次いで、各端末装置で登録された用語を収録した各自己学習型辞書と、各端末装置とネットワークで接続された共有の学習型辞書とを参照し、各自己学習型辞書から共有の学習型辞書に未登録の用語を登録者(利用者ID)と共に反映させる。これによって、誰がどの用語を登録したか識別可能となり、前記辞書情報管理データベースの管理が容易になる。
同様に、各利用者が所属するグループ単位、あるいは、複数のグループにより構成される組織単位で学習型辞書を管理することも容易となる。これによって、例えば、自己学習型辞書を管理する場合に、読み方の異なる同一の漢字が、異なる利用者によって学習型辞書に複数登録されていた場合でも、登録者又は該登録者の所属先を確認した上で採用すべき用語又は削除すべき用語を選択できるようになる。さらに、読み方が同一の異なる漢字が、異なる利用者によって学習型辞書に複数登録されていた場合でも、文章を作成時にかなから漢字への変換に際して、利用者と同じグループの利用者が登録した用語を優先的に所望の順序で漢字一覧を表示させる設定をしたりすることが容易となる。
本発明の別の好ましい実施形態によれば、本発明による共有型辞書システムは、前記1以上の利用者情報と共に前記新規用語が反映された前記学習型辞書データを、さらに、各利用者情報と共に自己学習型辞書データベースに反映することを特徴とする。
各利用者により登録された新規用語が前記学習型辞書に蓄積された後、例えば、利用者が利用できない時間帯に、複数の利用者によって蓄積された新規用語を反映した前記学習型辞書を、さらに、各利用者の自己学習型辞書として反映するように設定すれば、利用時間帯に各利用者共通の辞書を利用することが可能である。
さらに、特許文献1のように、利用者がネットワークを介して直接学習型辞書にアクセスする方式と比較して、利用者数が増加しても、利用できない時間帯に学習型辞書内の情報を一斉に各自己学習辞書に向けて同報送信するだけなので、ネットワークのトラフィック容量の制限を受けることはない。
別の例として、各利用者により登録された新規用語が前記学習型辞書に蓄積された後、例えば、所定の蓄積用語数又は所定時間ごとに、複数の利用者によって蓄積された新規用語を反映した前記学習型辞書の内容を、さらに、各利用者の自己学習型辞書に反映するように設定すれば、利用者が利用する自己学習型辞書の収録用語数を常時増加させることができる。
本発明の別の好ましい実施形態によれば、本発明による共有型辞書システムは、
かなと漢字で対応付けられた1以上の用語データを収録した基本辞書データと、かなと漢字で対応付け可能な1以上の用語データを登録可能な学習型辞書データとを含む辞書情報管理データベースと、利用者情報を管理する利用者データベースとを格納した記憶装置を具備したサーバと、
入力手段によって新規用語を登録可能であって、かなと漢字で対応付け可能な1以上の用語データを登録可能な自己学習型辞書データベースを格納した記憶装置を具備した複数の端末装置と、
をネットワークを介して通信可能なシステムであって、
各端末装置を通じて各利用者によって該利用者情報と共に自己学習型辞書データベースに登録された新規用語データを、ネットワークを介して前記利用者情報と共に前記辞書情報管理データベースの前記学習型辞書データに送信することを特徴とする。
本発明による共有型辞書システムは、例えば、端末装置とサーバ装置で構成されたネットワークによって構築することができる。利用形態の構成として、端末装置側では、内蔵又は外付けの記憶媒体に自己学習型辞書を保存しており、サーバ側では、記憶媒体に学習型辞書と利用者情報を保存しており、例えば、インターネットやLANといった電気通信回線を利用したネットワークを介して相互接続される。利用者は端末装置を利用して文章を作成する時、通常はひらがな又はカタカナで入力して漢字変換するために用語検索をする。このとき、本発明によるシステムにおける辞書を利用した用語検索では、例えば、ハードディスクに保存された所定数の専門用語を収録した基本辞書又はキーボード等の入力手段から新規用語を登録可能な自己学習型辞書にアクセスすることが可能であり、このとき、基本辞書、次いで、自己学習型辞書の順に検索される。該当する専門用語が検出されなかった場合は、所望の用語を表示するために前記ひらがな又はカタカナに対応する漢字を別の読み方から表示させて該漢字を新規用語として登録者IDと共に自己学習辞書に登録する。こうすることで、端末利用終了後や、例えば、就業時間終了後に自己学習型辞書をサーバ装置側にアップロードして学習型辞書を参照し、学習型辞書に未登録の新規用語を学習型辞書に反映させて学習させることができる。
本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムにおいて、前記利用者情報と共に前記新規用語が反映された前記学習型辞書データは、ネットワークを介して前記サーバ装置側から、各利用者情報と共に自己学習型辞書データベースを格納した記憶装置を具備した端末装置に送信されることを特徴とする。
端末装置側の自己学習型辞書をサーバ装置側にアップロードし、サーバ装置側の学習型辞書との参照後、各端末装置からアップロードされた各自己学習型辞書の新規用語を反映した最新の学習型辞書を再度各端末装置へ送信し、各自己学習型辞書に反映させて各自己学習型辞書を最新の状態で利用することが可能となる。
本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムは、文章から用語を切り出して前記かなと漢字を自動的に対応づける論理によって前記切り出した用語を前記辞書情報管理データベースの学習型辞書データ又は前記自己学習型辞書データベースのデータに反映することを特徴とする。
例えば、利用者が文章又は書類を作成してドキュメントファイルとして保存する場合がある。その際、該ドキュメントファイルを端末装置側で保存する場合と、サーバ側に送信して保存する方法があり、端末装置側で保存する場合は、端末装置上で文章を文節で区切った後で品詞分類し、用語の漢字と読み仮名を類推して認識させ、各認識した用語を自己学習型辞書と参照し、未登録の新規用語を自動的に自己学習型辞書に反映することができる。また、サーバ装置側に送信して保存する場合は、サーバ装置側で同様の処理を行って同様に学習型辞書に新規用語を反映することができる。
本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムにおける前記学習型辞書データベースおよび自己学習型辞書データベースは、さらに、表記、品詞の少なくともいずれかと共に対応付けて用語データを登録することを特徴とする。
サーバ装置側および端末装置側の各学習型辞書データベースが、用語と共に、例えば、品詞、表記(漢字)等のうち、1又は複数の対応付け要素を有していれば、かな以外にも用語と対応付けする可能性が拡張し、例えば、同じ読みでも表記の相違する用語として認識することができるし、用語検索対象のかなのみならず、品詞ごとに登録することも可能になる。
本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムは、前記利用者情報、かな、表記、品詞の全てと対応付けられた用語は重複して記憶されないことを特徴とする。
登録した利用者、かな、表記、品詞の全ての対応付け要素に対して1つの用語のみを対応付けることによって、同一人による同一用語の再登録を防止することができる。
本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムにおける前記利用者情報は、利用者別の識別情報および利用者別に所属する集合の識別情報を含み、利用者の識別情報および集合の識別情報に優先度を設け、その優先度に応じて前記新規用語を利用者に提供することを特徴とする。
学習辞書または自己学習辞書において、同じ読み方であって同一又は異なる利用者によって登録された複数の相違する漢字用語が登録されている場合が考えられる。その際、用語辞書の利用者は、辞書を一覧して登録者又は所属先を確認し、自分が採用すべき用語を選択する可能性を有し、実際に同一の読み方に対して前記一覧に複数の漢字用語が列挙された際に、例えば、当該利用者と同じ所属先の登録者による登録用語を優先的に表示させるようにMS−IME等の表示呼び出しを設定することができる。
利用者の前記自己学習辞書データの用語に対する参照頻度又は選定頻度に応じて提供順位を有することを特徴とする。
端末装置側で利用者が用語辞書を参照した際に参照した用語または選定した用語の頻度を計数することによって、ある用語に対して読みを入力して複数の用語が列挙された場合に計数の高い用語を優先的に表示するように設定できる。
前記新規用語を登録した利用者または該利用者の所属するグループの他の利用者のみが該登録用語に対して参照、変更、削除、不要化の権限を有することを特徴とする。
例えば、サーバ装置側で利用者情報を管理する管理手段を設けて、利用者情報に基づいて登録した用語に対して参照、変更、削除、不要化の権限を付与する人を指定したり、端末装置側で用語の登録者が当該用語の参照、変更、削除、不要化の権限を付与する人を指定したりすることによって学習型辞書又は自己学習型辞書の管理を行うことができる。
本発明による別の好ましい実施形態によれば、本発明による共有型辞書システムでは、不要化された用語に対して再登録がなされた場合、新規用語として登録される。
不適切な長さや読み方で収集されてしまった用語が、例えばMS−IMEにおける変換時に不具合をきたす場合、用語の不要化作業を行ってMS−IMEの変換候補に表示されないようにすることができる。この時、端末装置側での自己学習型辞書内には登録された状態で設定しておく。これによって、当該用語は登録者のMS−IMEにおける変換は行われなくなり、他の利用者が同じ用語を登録した場合、新たに登録した利用者だけにアクセス権を付与して新規登録される。このように、不要化された用語は自己学習辞書内には存在するが、不要化した利用者以外の利用者には登録された単語として利用可能となってMS−IMEにおいて変換される。以上のように、登録した用語を利用者に応じて使用可否状態に設定できる。
図1は、本発明による共有型辞書システムの全体構成図である。該構成は、インターネットやLAN(ローカルエリアネットワーク)等の電気通信回線を利用したネットワーク1に複数の端末装置10及びサーバ装置20が接続されている。サーバ装置20は、記憶媒体によって保存された、所定用語数を収録した基本辞書データ22と用語登録可能な学習型辞書データ24を有する辞書情報管理データベース21、利用者データベース26、辞書情報管理データベース21を制御する辞書管理手段23、利用者データベース26を管理する利用者管理手段28を具備する。各端末装置10には、内蔵又は外付け可能な記憶媒体が具備されており、そこには、前記基本辞書データ22と同一又は収録した用語数の異なる基本辞書データベース31、用語を登録可能な自己学習型辞書データベース35、MS−IME等のFEP機能33を有するアプリケーション、サーバ20との接続制御切り替え手段37によってON状態に切り替えられたときにサーバ装置20側の辞書情報管理データベース21及び利用者データベース26にアクセス制御可能な管理手段39が該管理手段39を制御する制御手段43とアクセス選択手段41と共に保存されている。
システムの構成要素の説明
1 サーバ装置20側の構成要素
1−1 辞書情報管理データベース21:
数十万語程度収録された読取専用の基本辞書データ22と新規用語を登録可能な学習型辞書データ24とを含むデータベースである。

1−2 辞書管理手段23:
専門用語の検索、追加、削除等を行う常駐プログラムで、未知語の抽出、読みの類推等の自然言語解析機能も提供し、辞書情報管理データベースのライブラリに唯一リンクされる。他のプロセスとのインターフェースはすべて非同期のプロセス間通信によって実現する。このプログラムは排他制御機能を有し、1つのプロセスからのリクエストが終了するまで次のプロセスからのリクエストを待機又はタイムアウトさせる。

1−3 利用者管理手段28:
本発明によるシステムの利用者がどのグループに所属しているか管理を行う常駐プログラムで、辞書管理手段23から取得された用語が現在の利用者にアクセスの権限を付与しているかを判別する機能を提供し、他のプロセスとのインターフェースはすべて非同期のプロセス間通信によって実現する。このプログラムは排他制御機能を有し、1つのプロセスからのリクエストが終了するまで次のプロセスからのリクエストを待機又はタイムアウトさせる。

1−4 利用者データベース26:
本発明によるシステムにおいて、学習型辞書データ24にアクセス可能な利用者のIDや利用者の所属するグループID等を管理するデータベースである。学習型辞書データ24にアクセス可能な利用者は固有のIDで管理され、該ID情報は学習型辞書データ24の用語レコードに付与される。本発明によるシステムの利用先として、例えば、病院内で、利用者が医師又は医療関係者であり、該医師が内科と倫理委員会の2つのグループ(所属先)に属している場合は、所属する各グループの固有IDも併せて管理することができる。また、より大きいグループの概念として病院関係者全員といった組織の固有IDを持たせることもできる。
利用者データベース26は固有のデータ構造を有するため、各端末装置10から利用者データベース26へのアクセスには利用者管理手段28にアクセス経由しなければ検索することはできないように設定されている。その論理構造は後述する。
2 端末装置10側の構成要素

2−1 日本語変換手段33:
基本ソフトに標準装備されたMS−IMEやATOK等の日本語変換アプリケーションである。

2−2 自己学習型辞書データベース35
新規用語を登録可能な学習型辞書データベースであって、サーバ装置20側の学習型辞書データ24と同じ論理構造を有する。そのため、相互に物理的に上書き可能である。ただし、用語別に書き換えも可能。

2−3 基本辞書データベース31:
所定数を収録した読取専用の基本辞書データベースであって、サーバ装置20側の基本辞書データ22と同じ論理構造を有する。そのため、相互に物理的に上書き可能である。ただし、サーバ装置の管理者のみ可能。

2−3 接続切換手段37:
管理手段39を起動又は切断するためのプログラムである。

2−4 管理手段39:
後述する制御手段43によって制御されるMS−IME等の日本語変換アプリケーション33のアクティブディクショナリとして動作する、例えばダイナミックリンクライブラリ形式(DLL)のプログラムである。利用者データベース26及び辞書情報管理データベース21にアクセスするためのプログラムでもあり、アクティブ(ON)状態のときにサーバ装置20側の情報とのアクセスが可能となる。

2−5 選択手段41:
サーバ装置20側との接続時に、例えば、メニューを含んだウインドウ等の呼び出し等を行う常駐型のアプリケーションである。ツールバー形式で管理手段39のプログラムを起動したり、他のコンピュータへのデータを移動するためにエクスポートファイルを作成したり、利用者を設定したり、さらには、現状の変換や登録の対象が個人単位、所属単位、利用者全体を選択することができる。

2−6 制御手段43:
管理手段39の制御を行うアプリケーションで、一般的なファイルアプリケーション形式で構成される。終了時に保存又は破棄を選択させるダイアログが表示され、保存する場合に端末装置10側の自己学習型辞書データベース35への編集結果を反映させるように機能させるアプリケーションである。具体的な機能としては、自己学習型辞書35の用語の一覧を表示して、用語の読み、表記、日付、登録者等を用語との対応付け要素として用語を検索することができる機能と、用語に対して読み、表記、品詞、アクセス権等の編集、削除、1語追加、複製を行う機能と、別ファイルからの読み込み、マージ、ファイルへの書き出しを行う機能と、学習型辞書の自動収集を行う機能と、管理手段39に対して前方一致検索やコメント表示などの可否を設定する機能と、選択手段41で使用するショートカットキーを定義する機能と、利用者の所属先の設定変更機能とを有する。
ただし、当該制御手段43は複数のスレッドで起動している場合は、端末装置10側の自己学習型辞書35についてはシーケンシャルに処理をする為、あるスレッドのプロセスが自己学習型辞書35へアクセス中は、他のプロセスからのリクエストに対して「該当用語なし」のステータスを返答する。

2−7 エクスポートファイル
制御手段43によって自己学習型辞書35から書き出されたファイルは、用語に関するかな、表記、日付等の情報要素と共に利用者情報を格納する。例えば、他の端末装置を利用して当該辞書を継続して使用したい場合、ネットワーク経由、記憶媒体経由、又は電子メール経由で他の本発明によるシステムを利用可能な端末装置へ当該ファイルを移植後、辞書管理手段23によって自動的に用語及び利用者情報を移植先の端末装置の本発明によるシステム環境に組み込む。

2−8 登録手段32:
管理手段39に対して用語を1語ずつ追加するためのアプリケーションである。制御手段43と同時に使用することはできず、その相違点は1語の追加のみである点と、機能中も辞書管理手段23の機能はすべて使用できる点である。
3 利用者データベースの論理構造
図2を参照して利用者(ユーザ)テーブル、グループ(所属先)テーブル、組織(病院関係者)テーブルについて説明する。

3−1 利用者(ユーザ)テーブル
第1番目には利用者IDが数値形式で登録され、利用者の管理番号として例えば、ID=1〜9のように示され、1つのシステム内では同一IDは同一人物を示す。
第2番目には利用者名の読みが文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大128バイトからなる。ユーザインタフェースで、例えば、「とっきょたろう」のように、利用者名をソート表示するときの鍵として使用される。
第3番目には利用者名の表記が文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大128バイトからなる。主にユーザインターフェースで表示される文字列で、1つのシステム内では、例えば、「特許太郎」のように、同一の利用者名の表記は1レコードしか登録できない。

3−2 グループ(所属先)テーブル
第1番目にはグループIDが数値形式で登録され、グループの管理番号として例えば、ID=1〜9のように示され、1つのシステム内では同一グループIDは同一のグループを示す。
第2番目にはグループ名の読みが文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大128バイトからなる。ユーザインタフェースで、例えば、「だい1ないか」のように、グループ名をソート表示するときの鍵として使用される。
第3番目にはグループ名の表記が文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大128バイトからなる。主にユーザインターフェースで表示される文字列で、1つのシステム内では、例えば、「第1内科」のように、同一グループ名の表記は1レコードしか登録できない。
第4番目には所属する利用者が可変長配列の数値形式で登録され、該所属する利用者のIDが格納される。

3−3 組織テーブル
第1番目には組織IDが数値形式で登録され、組織の管理番号として例えば、ID=1〜9のように示され、1つのシステム内では同一の組織IDは同一の組織を示す。
第2番目には組織名の読みが文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大128バイトからなる。ユーザインタフェースで、例えば、「とっきょだいがくふぞくびょういん」のように、組織名をソート表示するときの鍵として使用される。
第3番目には組織名の表記が文字列で登録され、該文字列はプレーンテキストの文字列で、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大128バイトからなる。主にユーザインターフェースで表示される文字列で、1つのシステム内では、例えば、「特許大学付属病院」のように、同一の組織名の表記は1レコードしか登録できない。
第4番目には所属するグループが可変長配列の数値形式で登録され、該所属するグループのIDが格納される。
4 辞書
4−1 辞書へのアクセス
本発明によるシステムにおけるサーバ装置20側の辞書情報管理データベース21の論理構造は固有のバイナリファイル形式であって、各端末装置10側からはサーバ装置20側の辞書管理手段23をアクセス経由しなければ検索できない。

4−2 基本辞書および学習型辞書
本発明によるシステムにおけるサーバ装置20側又は端末装置10側において、用語を収録したデータベースファイル形態の辞書情報管理データベース21は、基本辞書と学習型辞書によって構成される。

4−2−1 基本辞書
サーバ装置20側にアクセスすることによって、又は、端末装置10内にダウンロード又はインストールすることによって使用可能な数十万語程度の語彙を収録した読み取り専用ファイルであって、当該ファイルは用語検索のみを目的とし、一覧、編集、削除はできず、サーバ装置20側の管理者によって更新された場合のみ変更される。

4−2−2 学習型辞書
サーバ装置20側の学習型辞書24は、初期には用語が未登録状態で各端末装置10側から転送された新規用語を反映することで、用語の登録数を増加させる。
端末装置10側の自己学習型辞書35は、初期には用語が未登録状態で、端末装置10のキーボード入力等の登録手段32又はドキュメントファイル内の用語の切り出し等によって追加登録可能である。サーバ装置20側の学習型辞書24と対照することによってサーバ装置20側の学習型辞書24に新規用語を追加して登録数を反映し、さらに、反映された学習型辞書24を端末装置10側に返送して端末装置10側の自己学習型辞書35に上書きする等して最新の登録数を有する自己学習型辞書35として利用することができる。

4−3 辞書ファイルの論理構造
辞書ファイルの論理構造を図3に示す。基本辞書はかな索引辞書ファイルと漢字索引辞書ファイルの2つのファイルから構成されている。かな索引辞書と漢字索引辞書の先頭部には辞書管理情報が付加されており、該辞書管理情報は、例えば1キロバイトの固定長の領域で辞書ファイル全体の管理情報が格納されている。辞書管理情報には登録されている用語データレコードの総数を示す情報が格納されており、該用語データはアプリケーションプログラムインターフェース(API)によって取得される。用語の総数情報は、数バイトの数値形式で辞書ファイル内に収録された用語数を示し、かな索引辞書ファイルと漢字索引辞書ファイルに登録される用語の総数は一致する。データブロックはファイルサイズを決定する単位ブロックで、索引を格納する用途と用語自体を格納する用途の2種類ある。一例として、用語が1語だけ登録された場合の辞書ファイルサイズを以下に示す。

辞書管理情報+索引用途のブロック+用語自体の用途のブロック=1キロバイト+32キロバイト+32キロバイト=65キロバイト

用語が1語ずつ追加又は削除されるごとに32キロバイト単位で増加又は減少する。

4−4 用語レコードの論理構造

4−4−1 フィールドの定義
基本辞書と学習辞書に格納される共通の用語レコードは以下のフィールドから構成され、図4の単語レコードのフィールド定義の表を参照して説明する。ただし、表内の具体的な数値は例示するものにすぎない。

第1番目は用語の読みに関するレコードを定義し、該読みの文字列は、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大128バイトからなる。基本辞書及び学習辞書の双方に適用されて、用語検索の対象としての機能も果たす。用語と対応付けされる固有の条件の1つである。
第2番目は用語の表記に関する領域を定義し、該読みの文字列は、Unicode/UTF-16/リトルエンディアン/BOMなしで記述され、ターミネータを除き最大128バイトからなる。ターミネータを除き最大128バイトからなる。基本辞書及び学習型辞書の双方に適用されて、用語検索の対象としての機能も果たす。用語と対応付けされる固有の条件の1つである。
第3番目は用語の品詞に関するレコードを定義し、数バイトの数値形式でMS−IME等の日本語変換アプリケーションの品詞体系に準拠した品詞番号で管理される。基本辞書及び学習型辞書の双方に適用されて、用語と対応付けされる固有の条件の1つであるが、用語検索の対象ではない。
第4番目は用語自体のIDに関するレコードを定義し、数バイトの数値形式で用語を固有のシリアル番号によって特定できる。1〜100万までの数値を用意してあり、1〜50万を学習型辞書のために使用し、50万1〜100万までを基本辞書のために使用する。基本辞書を更新する場合でも指定領域は変更しない。0は無効値で100万以降は予約番号である。基本辞書及び学習型辞書の双方に適用される。
第5番目はコメント情報に関する領域を定義し、先頭部の例えば2バイト分にリトルエンディアンでレコード長を持ち、レコード長も含めて最大で数キロバイトからなる任意長のバイト列である。基本辞書及び学習型辞書の双方に適用される。
第6番目は登録日時に関するレコードを定義し、用語の最初の登録時の年月日時分の情報を、例えば、20,04,08,15,22,30=2004年8月15日午後10時30分のように、6バイトのパック16進数で表現する。学習型辞書にのみ適用される。
第7番目は登録者IDに関するレコードを定義し、数バイトの利用者IDで定義され、用語の最初の登録者を示し、登録者は当該用語レコードの占有者である。学習型辞書にのみ適用され、登録者情報及びグループ(所属先)情報は学習型辞書内では管理せず固有の条件として用語との対応付けにのみ使用される。
第8番目は登録回数に関するレコードを定義し、数バイトの数値形式で初回の登録を1とし、以後、後述する自動テキスト一括読み取り(以下トレーニングという)時や用語登録作業などで同一用語を登録する試みを重複のため登録されなかった回数も含めて計数する。当該用語の重要頻度を示す指標となる。学習型辞書にのみ適用される。
第9番目は更新日時に関するレコードを定義し、用語の最終更新日を、例えば8バイトの16進数で表現する。学習型辞書にのみ適用される。
第10番目は更新者IDに関する領域を定義し、用語の最終更新者を数バイトの利用者IDによって表現する。学習型辞書にのみ適用される。
第11番目は登録回数に関するレコードを定義し、数バイトの数値形式で初回の更新を1として、以後当該レコードの更新(読み、標記、品詞、アクセス権等の変更)ごとに計数する。学習型辞書にのみ適用される。
第12番目は参照日時に関するレコードを定義し、用語の最終参照日時を、例えば8バイトの16進数によって表現する。学習型辞書にのみ適用される。
第13番目は参照者IDに関するレコードを定義し、数バイトの利用者IDで定義されて用語の最終参照者を示す。学習型辞書にのみ適用される。
第14番目は参照回数に関するレコードを定義し、数バイトの数値形式でMS−IME等の日本語変換アプリケーションにおける変換/再変換の操作で参照数を計数する。学習型辞書にのみ適用される。
第15番目はアクセス権に関するレコードを定義し、数バイトの数値形式で用語の登録者、該登録者の所属するグループの他の利用者、登録者が所属する組織の他の利用者に対して参照/変更の権限を指定可能である。学習型辞書にのみ適用される。
第16番目は用語の管理状態に関するレコードを定義し、仮登録(後述する)、本登録、不要の3種類がある。仮登録はトレーニング直後の状態であり、本登録はトレーニングの結果を確認して利用すると決定した状態であり、不要は当該用語を使用しないと決定した状態である。

4−4−2 固有の条件
読み、表記、品詞、登録者IDといった、用語との対応付け要素が相当し、全ての対応付け要素と一致する用語は重複登録できない。また、前記固有の条件以外の、例えば登録者のコメントだけが異なる用語や、削除済み状態の同一の用語は再登録できない。

4−4−3 アクセス権
特定の利用者が特定の用語の参照又は変更を許可すべきかを示す情報である。登録者に対するアクセス権、登録者と同じグループの利用者に対するアクセス権及び登録者と同じ組織の利用者に対するアクセス権の3種類が存在し個別に設定可能である。
用語をMS−IME等の日本語変換アプリケーションの変換候補として提供すべきか、提供する優先度を変更すべきか、あるいは、編集や削除の権限を有するかといった条件は制御手段43によって制御される。

4−4−4 用語の仮登録
トレーニングによって文節に区切って品詞単位で切り出されて自動的に収集された用語は、学習型辞書に収録されたうえで、「仮登録」の状態に維持される。仮登録の単語はMS−IME等の日本語変換アプリケーションにおける変換には反映されない。MS−IME等の日本語変換アプリケーションにおいて使用可能にするため、制御手段43の機能によって利用者の意識的な決定により仮登録から本登録への切り替え操作を行ったり、登録回数又は参照回数が所定数に達した場合に自動的に仮登録から本登録へ切り替えられるように設定することもできる。

4−4−5 用語の不要化
単語の不要化は、トレーニングによって自動的に収集された用語が不適切な長さや読み方で収集されてしまい、MS−IME等の日本語変換アプリケーションにおける変換に不具合を発生させるような場合に利用者が行う操作を言う。一度不要化された用語はMS−IMEの変換候補として表示されないが、自己学習型辞書データ内には残存し、次回から同じ不要語を収集しないように機能する。
用語の登録者が用語レコードの「状態」を「不要」に変更することによって当該用語は登録者が利用する端末装置上のMS−IMEでは変換できなくなる。同一グループ又は同一の組織に対しても使用が許可されている場合は他の利用者にとっても変換できない用語となる。例えば、当該不要化される用語が頻繁に利用者に使用される場合は他の利用者の参照回数等を表示して不要化すべきか警告メッセージを与えることもできる。
不要化によって用語が変換されなくなった場合に、他の利用者が同じ用語を再登録した場合、内部処理で「新規登録した利用者だけがアクセス権を付与された用語」として新規登録し、不要化された単語は「不要」状態のまま残す。これにより、不要化した利用者では変換されず、新規登録した利用者では変換される用語となる。

4−4−6 用語の削除
登録後に誤りを認識して登録した用語レコードを削除する操作である。例えば、病院において本発明によるシステムを利用する場合に、患者の氏名が変換されないため用語登録したが、後に登録用語の漢字に誤りが認められ、正しい用語は別途登録されていたことが判明したといったような状況で、誤った用語を登録したレコード自体を削除することができる。

4−4−7 利用者の所属先の移動
例えば、病院内において利用者の所属先が変更した場合に当該利用者が登録した用語も自動的に変更される。
具体的な状況を例示すると、1利用者が病院でA科の所属からB科に転属したとする。該利用者による登録で同一の所属科に属する他の利用者に対して使用許可を付与していた用語は、登録した利用者が転属したことにより自動的に転属した科に所属する他の利用者は使用可能になると同時に、転属前の所属先に属する他の利用者は使用不可能になるといった設定もできる。
ただし、制御手段43によって転属後も転属前の所属先の他の利用者が引き続き前記用語を使用できるように設定する機能を設けることもできる。
5 トレーニング(テキスト一括読み取り用語抽出)の論理
トレーニングによる専門用語の抽出を行う過程を、医療用語を抽出する場合を想定して図5のフローチャートを参照して説明する。
エディタやワードプロセッサ等で作成した文書等のテキスト情報を、医療用品詞分解処理エンジンで品詞別に各語を選別する。次いで、名詞のみを抽出した一群の名詞データ集を、医療用名詞比較エンジンで医療用語集データベース及び一般用語集データベースと比較する。ここで、判別適応する用語候補が存在する場合は表示候補名詞集として医療用語と類推するために個人学習用語データベースを参照し適合した最終的な表示候補の名詞集から医療用読み類推エンジンで正解確度別の表現で表示データとして表示する。前記比較時に判別不明の場合は名詞意味類推エンジンで類推抽出した表示候補名詞集を作成し、以下、上記同様に、表示候補名詞集として医療用語と類推するために個人学習用語データベースを参照し適合した最終的な表示候補の名詞集から医療用読み類推エンジンで正解確度別の表現で表示データとして表示する。
以上の構成によって、各端末装置を用いて各利用者が文章作成時等に端末装置側に具備された所定数の専門用語を収録した読み取り専用基本辞書と、入力手段又はトレーニングによって基本辞書に存在しない新規用語を随時追加できる自己学習型辞書とを利用し、テキストファイルから各利用者のID、品詞、かな、表記と関連づけて基本辞書に存在しない用語を抽出し、自己学習型辞書に登録して反映させる。作業終了後、各端末装置側で反映させた自己学習辞書の内容を電気通信回線を介してサーバ装置側の学習型辞書に反映させる。次いで、反映された学習辞書を各端末装置に返送することによって、各利用者端末で自己学習型辞書が更新されて、共通の最新の学習型辞書として利用可能となる。このとき、最新の学習辞書では、登録者と登録用語が認識されているため、端末装置で文書作成作業時に用語が基本辞書からは検出されず、自己学習型辞書から検索された場合、端末側の制御用アプリケーションプログラムによって、例えば登録者によって指定された属性を反映するようにMS−IME等の日本語変換アプリケーションのかな/漢字変換の順位を設定することができる。
本願明細書において、自己学習型辞書とは端末装置側の学習辞書を指し、学習型辞書はサーバ装置側の学習辞書を指すものとし、また、収録、記録、記憶、格納と言う表現は端末装置に接続された記憶媒体に格納されたファイルやプログラムに対して用いている用語である。
図1は、本発明による共有型辞書システムの全体構成図である。 図2は、本発明における利用者データベースの論理構造を示すテーブル一覧である。 図3は、本発明における辞書ファイルの論理構造を示す構成図である。 図4は、単語レコードのフィールド定義を示す表である。 図5は、テキスト一括読み取り後の表示データの検出までのフローチャートである。

Claims (11)

  1. かなと漢字で対応づけられた1以上の用語データを収録した基本辞書データと、かなと漢字で対応付け可能な1以上の用語データを登録可能な学習型辞書データとを含む辞書情報管理データベースと、
    1以上の利用者情報を管理する利用者データベースと、
    新規用語を登録可能であって、かなと漢字で対応付け可能な1以上の用語データを登録可能な自己学習型辞書データベースと、
    を具備する共有型辞書システムであって、
    ネットワークを介して前記1以上の利用者情報と共に前記辞書情報管理データベースの学習型辞書データと前記自己学習型辞書データベースのデータとを参照し、前記1以上の利用者情報と共に前記自己学習型辞書データベースの前記新規用語を前記辞書情報管理データベースの前記学習型辞書データに反映することを特徴とする共有型辞書システム。
  2. 前記1以上の利用者情報と共に前記新規用語が反映された前記学習型辞書データを、さらに、各利用者情報と共に自己学習型辞書データベースに反映することを特徴とする請求項1に記載のシステム。
  3. かなと漢字で対応付けられた1以上の用語データを収録した基本辞書データと、かなと漢字で対応付け可能な1以上の用語データを登録可能な学習型辞書データとを含む辞書情報管理データベースと、利用者情報を管理する利用者データベースとを格納した記憶装置を具備したサーバと、
    入力手段によって新規用語を登録可能であって、かなと漢字で対応付け可能な1以上の用語データを登録可能な自己学習型辞書データベースを格納した記憶装置を具備した複数の端末装置と、
    をネットワークを介して通信可能なシステムであって、
    各端末装置を通じて各利用者によって該利用者情報と共に自己学習型辞書データベースに登録された新規用語データを、ネットワークを介して前記利用者情報と共に前記辞書情報管理データベースの前記学習型辞書データに送信することを特徴とするシステム。
  4. 前記利用者情報と共に前記新規用語が反映された前記学習型辞書データは、ネットワークを介して前記サーバ装置から、各利用者情報と共に自己学習型辞書データベースを格納した記憶装置を具備した端末装置に送信されることを特徴とする請求項3に記載のシステム。
  5. 文章から用語を切り出して前記かなと漢字を自動的に対応づける論理によって前記切り出した用語を前記辞書管理情報管理データベースの学習型辞書データ又は前記自己学習型辞書データベースのデータに反映することを特徴とする請求項1ないし4のいずれかに記載のシステム。
  6. 前記学習型辞書データベースおよび自己学習型辞書データベースは、さらに、表記、品詞の少なくともいずれかと共に対応付けて用語データを登録することを特徴とする請求項1ないし5に記載のシステム。
  7. 前記利用者情報、かな、表記、品詞の全てと対応付けられた用語は重複して登録されないことを特徴とする請求項6に記載のシステム。
  8. 前記利用者情報は、利用者別の識別情報および利用者別に所属する集合の識別情報を含み、利用者の識別情報および集合の識別情報に優先度を設け、その優先度に応じて前記新規用語を利用者に提供することを特徴とする請求項1ないし7のいずれかに記載のシステム。
  9. 利用者の前記自己学習辞書データの用語に対する参照頻度又は選定頻度に応じて提供順位を有することを特徴とする請求項1ないし8のいずれかに記載のシステム。
  10. 前記新規用語を登録した利用者または該利用者の所属するグループの他の利用者のみが該登録用語に対して参照、変更、削除、不要化の権限を有することを特徴とする請求項8又は9に記載のシステム。
  11. 不要化された用語に対して再登録がなされた場合、新規用語として登録される請求項10に記載のシステム。
JP2004293082A 2004-10-05 2004-10-05 学習型辞書管理システム Pending JP2006107143A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004293082A JP2006107143A (ja) 2004-10-05 2004-10-05 学習型辞書管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004293082A JP2006107143A (ja) 2004-10-05 2004-10-05 学習型辞書管理システム

Publications (1)

Publication Number Publication Date
JP2006107143A true JP2006107143A (ja) 2006-04-20

Family

ID=36376809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004293082A Pending JP2006107143A (ja) 2004-10-05 2004-10-05 学習型辞書管理システム

Country Status (1)

Country Link
JP (1) JP2006107143A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205350A (ja) * 2008-02-27 2009-09-10 Nec Corp 新語辞書生成シンクライアントシステム、新語辞書生成方法及びサーバ
JP2010511216A (ja) * 2006-11-27 2010-04-08 ソニー エリクソン モバイル コミュニケーションズ, エービー 適応データベース
JP2010211361A (ja) * 2009-03-09 2010-09-24 Nec Corp 辞書管理システム及び方法、並びに辞書管理用プログラム
JP2012118822A (ja) * 2010-12-01 2012-06-21 Internatl Business Mach Corp <Ibm> ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム
CN106157240A (zh) * 2015-04-22 2016-11-23 南京理工大学 基于字典学习的遥感图像超分辨率方法
JP2022078483A (ja) * 2020-11-13 2022-05-25 株式会社サンロフト 日報管理装置およびコンピュータプログラム
CN116108834A (zh) * 2023-04-10 2023-05-12 中国民用航空飞行学院 交互式用户词典构建方法、装置和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166059A (ja) * 1997-08-14 1999-03-09 Toshiba Corp 情報処理装置、辞書管理装置、ネットワークシステム、情報処理装置の辞書管理方法、及び記録媒体
JPH11282847A (ja) * 1998-03-31 1999-10-15 Omron Corp 言語処理システム及び評価情報更新方法並びに記録媒体
JP2002157241A (ja) * 2000-09-06 2002-05-31 Fujitsu Ltd 辞書作成装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166059A (ja) * 1997-08-14 1999-03-09 Toshiba Corp 情報処理装置、辞書管理装置、ネットワークシステム、情報処理装置の辞書管理方法、及び記録媒体
JPH11282847A (ja) * 1998-03-31 1999-10-15 Omron Corp 言語処理システム及び評価情報更新方法並びに記録媒体
JP2002157241A (ja) * 2000-09-06 2002-05-31 Fujitsu Ltd 辞書作成装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010511216A (ja) * 2006-11-27 2010-04-08 ソニー エリクソン モバイル コミュニケーションズ, エービー 適応データベース
JP2009205350A (ja) * 2008-02-27 2009-09-10 Nec Corp 新語辞書生成シンクライアントシステム、新語辞書生成方法及びサーバ
JP2010211361A (ja) * 2009-03-09 2010-09-24 Nec Corp 辞書管理システム及び方法、並びに辞書管理用プログラム
JP2012118822A (ja) * 2010-12-01 2012-06-21 Internatl Business Mach Corp <Ibm> ドキュメント作成支援方法とドキュメント作成支援装置とドキュメント作成支援プログラム
CN106157240A (zh) * 2015-04-22 2016-11-23 南京理工大学 基于字典学习的遥感图像超分辨率方法
JP2022078483A (ja) * 2020-11-13 2022-05-25 株式会社サンロフト 日報管理装置およびコンピュータプログラム
JP7394294B2 (ja) 2020-11-13 2023-12-08 株式会社サンロフト 日報管理装置およびコンピュータプログラム
CN116108834A (zh) * 2023-04-10 2023-05-12 中国民用航空飞行学院 交互式用户词典构建方法、装置和设备

Similar Documents

Publication Publication Date Title
US7512575B2 (en) Automated integration of terminological information into a knowledge base
Carley et al. AutoMap User's Guide 2013
US5799308A (en) Method and apparatus for data storage and retrieval
US8447775B2 (en) Database query user interface to assist in efficient and accurate query construction
US6983240B2 (en) Method and apparatus for generating normalized representations of strings
Grover et al. LT TTT-a flexible tokenisation tool
JP5128101B2 (ja) 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム
KR20100038378A (ko) 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램
US20090271353A1 (en) Method and device for tagging a document
CN103631604B (zh) 一种基于celts-41规范的标准化数字学习资源管理方法
CN101645087A (zh) 一种分类词库系统及其更新和维护方法、以及客户端
US7752216B2 (en) Retrieval apparatus, retrieval method and retrieval program
JP2009145972A (ja) データべースシステム及びデータべースシステムの制御方法
JP2006107143A (ja) 学習型辞書管理システム
Dobreski et al. On overlap and otherness: A comparison of three vocabularies’ approaches to LGBTQ+ identity
WO2008090420A1 (en) System and method of content and translations management in multi-language enabled applications
Will Thesaurus consultancy
JP2997469B2 (ja) 自然言語理解方法および情報検索装置
JPH09190453A (ja) データベース装置
CN113569569A (zh) 案发地址提取方法、电子设备及计算机可读存储介质
US5715442A (en) Data unit group handling apparatus
JP3752717B2 (ja) 文書処理装置
JPH02289087A (ja) マルチメデイア情報入力方法
US20040164989A1 (en) Method and apparatus for disclosing information, and medium for recording information disclosure program
JP3580004B2 (ja) 文書処理装置および文書処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101005