JP2016186805A5

JP2016186805A5 -

Info

Publication number: JP2016186805A5
Application number: JP2016124051A
Authority: JP
Filing date: 2016-06-23
Publication date: 2018-03-22

Description

中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法

本出願は、２００７年１１月２６日提出の、「分類、検索、および読み出しを容易にするための漢字系文字および文字構成要素の分類するための方法、装置、およびソフトウェア」と題する米国特許仮出願第６０／９９０，１２３号、２００７年１１月２６日提出の「電子コンテンツにおける中国語、日本語、および韓国語の言語データのモジュール型管理法」と題する米国特許仮出願第６０／９９０，１６６号、および２００７年１１月２９日提出の「分類、検索、および読み出しを容易にするための漢字系文字および文字構成要素を分類するための方法、装置、およびソフトウェア」と題する米国特許仮出願第６０／９９１，０１０号に基づく優先権を主張し、ここでこれらの各々の全内容を参照により本出願の一部とするものとする。

本出願の典型的な実施形態は、一般にコンピュータやその他の電子的環境における言語的機能を高める方法および装置に関し、特に中国語、日本語、および韓国語の言語データを電子的形態で扱うシステムおよび方法に関するものである。

中国語、日本語、および韓国語（ＣＪＫ）表記体系は、それぞれ中国の漢字に由来する、または、見た目が漢字によく似ている多数の文字を使用する。このため、キーの数に限りのあるキーボードを用いて漢字系の文字をコンピュータに入力（あるいは検索）できるようにする様々な手法が工夫されている。このような従来の入力手段は、通常は入力方法と呼ばれ、キーボード、タッチペン付きグラフィックタブレット、テンキー等の各種入力方法が考案されている。

目標文字を入力するためのキーボードを用いた入力方法における操作は、通常３つの主要原理に基づく。すなわち、（１）目標文字が含む形に対応する一連のキーをタイプする、（２）目標文字や単語の読みに対応する一連のキーをタイプする、あるいは（３）目標文字の基本形を構成する筆画に対応する一連のキーをタイプする。一連のキーをタイプすると、通常は候補文字や単語が、テキスト系のアプリケーション（例えば、ワードプロセッサや電子辞書）または入力用の別ウィンドウ等に表示される。そしてユーザは、望ましい候補文字や単語を、通常は望ましい候補に対応する番号をタイプして選択し、その文字や単語を作成中のテキストの一部とする。場合によっては、従来システムは、形態的または構文的情報を用いることにより、候補リストの削減または意図する単語の「推測」試みることもある。

入力の別の形態として、印刷されたページ上の文字列をスキャンし、自動的に読み取る光学的文字認識、入力用タッチペンを用いて文字が手書きされた時点で認識用ソフトウェアが自動的に手書きの筆画を読み取り文字に変換する手書き認識、および話された音声データをテキストに変換する音声−テキスト変換等がある。さらにまた、適当なソフトウェアを用いてテキストを音声に変換することもできる。

新しい入力技術の開発に伴う進歩にも関わらず、数多くの欠点が今なお残ってる。以下に記載するように、本発明の一つまたはそれ以上の実施形態は、従来の入力方法やその他の言語サービスにおける欠点、問題、および制約の観点から考案されたものである。

一般に、電子辞書や入力方法においては、使用された単語の語彙集を保存するデータソースをユーザーが管理することを認めていない。この結果として起こる語彙データ不足が、例えば固有名詞や技術用語の検索または入力を困難にする。地名、固有名詞、および技術用語は、このような語彙集にないことが多く、入力が煩わしいものである場合が多い。

入力方法や電子辞書に用いられる語彙データソースは、一般に大変限られており、通常メーカーによってあらかじめ決められている。従来のシステムまたは入力方法では、異なるメーカーのデータソースを組み合わせることができず、また、入力中に表示されるデータの種類を選択することもできない場合がある。さらにまた、従来のシステムは異なるデータ構造の語彙データソースに対応していないこともある。通常、見出し語は、その電子辞書または入力方法がリンクされている元の辞書に示されている通りに、モノリシックのテキストブロックとして表示される。

特に、従来の語彙サービスシステムは、モジュール性にも欠けている場合がある。具体的には、従来のシステムでは、異なる種類の第三者による言語サービスへのアクセスまたはリンクが容易にできない場合がある。従って、例えば、入力方法と辞書、あるいは音声−テキストモジュールと入力方法との間に何のつながりもない場合がある。

従来のシステムや方法では、入力中に文字が正確であるかを素早くチェックする簡単な手段がほとんどまたは全く提供されていない場合がある。従来のプログラムには、混同されがちな文字や単語を示すものもあるが、ハイライトされた単語はあらかじめ記しがつけられたものである。希望する文字または単語辞書に自由にアクセスできなかったり、異なるデータを得るために一つ語彙ソースから別のものに切り換えることも容易にできない場合がある。

従来のシステムにおいては、一般に部首や音声的な発音による文字検索が可能である。このような方法による文字検索は、煩雑なこともある。従来の文字検索システムおよび方法に代わる実行可能な代案が、本出願と同日にワレン・ダニエル・チャイルドが出願した「漢字系文字および文字構成要素の分類および読み出しのためのシステムと方法」と題する同時係属中の特許出願において論じられている。ここで、同出願を「文字検索出願」と称し、当該出願の全内容を参照により本出願の一部とする。

従来のシステムおよび方法では、単語の種類により入力候補を容易に識別することがほとんどあるいは全くできないことがある。多数の同音異義語の候補が出てきた場合、一般にユーザーは数多くの候補の中から自分が希望する単語を見つけ出さなければならない。希望する単語を選ぶ上でユーザに大いに役立つにもかかわらず、異なる種類の名詞（普通名詞または固有名詞）または異なる品詞を識別するように、異種単語を容易に識別する方法はないであろう。

従来のシステムまたはソフトウェアにおける新規単語（ユーザ単語）登録機能は、通常不十分である。一部のシステムにおいては、名目上はユーザによる独自の単語登録が可能となっている。しかしながら、このプロセスは面倒である場合が多く、システムによる補助が全くまたは殆どないまま、通常、ユーザ自身による単語の手動入力を要する。

従来のシステムや方法では、自動構文解析や登録機能に関する管理がが不十分であるのが一般的である。システムによっては、その辞書に含まれていない新規の文字組み合わせを識別するが、一般に単語と語句とを識別せず、ユーザが最終的な登録内容を編集することもできない。この結果、大量の誤った候補でシステムがいっぱいになり、簡便なテキスト入力の妨げとなり得る。

従来のシステムおよび方法では、検索および入力中に声調記号に係る柔軟性がほとんどあるいは全くない。外国人ユーザによる中国語入力方法の用においては、単語や文字の声調について不確かであるために検索および入力に困難を生じる場合が多く、中国語を母国語とする人々でも方言による声調の違いにより苦労する場合がある。しかしながら、声調を一切使用しないと候補が多くなりすぎるという問題を生じる。例えば、米国特許第５，５９４，６４２号では、声調ありまたは声調なしの入力を可能にする入力方法の構成が記載されているように見えるが、どのようにこれを達成するかについては記載されておらず、開発者がこの問題に対処するよう示唆している。さらにまた、同５，５９４，６４２号の明細書では、本発明の一つまたはそれ以上の実施形態で開示されているような、部分的な声調指定を用いるという多くの場合に有用な手法に関するマッピングを提供しているようにもみえない。

従来のシステムおよび方法では、使用するコーディングの管理がほとんどまたは全く行われていない。さらに、従来のシステムおよび方法では、本来意図された文脈以外の文脈における語彙データへのアクセス能力がほとんどまたは全くない場合がある。従って、例えば、入力方法および辞書は、スクリーン上でマウスポインターを単語上にもっていき、当該単語に関する語彙情報を得るために使用することはできない。その結果、従来のシステムには有意量のデータが保存されていたるとしても、テキストにすでに入力されている単語に関する情報を探し出すためのアクセスは容易ではない。このアクセス性の欠如は、潜在的なリソースの無駄となりうる。

従来のシステムおよび方法においては、外部自然言語処理（ＮＬＰ）システムによる語彙データの共有を可能とする一貫したインターフェースを提供していないものもある。結果として、手書き認識、光学的文字認識、音声−テキスト変換、テキスト−音声変換、およびキーボード入力のいずれもが、従来別個のシステムとして機能し、それぞれがデータストアを有する傾向がある。さらにまた、本願明細書記載の実施形態とは対照的に、従来のシステムおよび方法においては、ＯＳ開発者、言語データ提供者、ならびにＩＭ（入力方法）開発者間で協力し、異なるソースからの多様な形態の語彙データのモジュラー組み込みを可能にする合成システムを導入することにより発生する収益を共有したりするための、収益共有システムが提供されない場合もある。さらに、従来のシステムおよび方法においては、上述のような収益共有システムの実行に必要あるいは望ましいレベルのデータセキュリティが提供されない可能性がある。

実施例は、単純および複雑なデータ構造の両者への対応、データの接続性、統合、およびアクセス性の向上、データ盗難の防止、新規の単語および語句の語彙データソースに組み込みの補助、およびテキスト入力機能の向上を可能にする。さらにまた、言語サービスセンターとして導入した場合、実施例は、様々な第三者的自然言語処理モジュールとインターフェースで接続可能であり、これにより光学的文字認識、手書き認識、音声−テキスト変換、テキスト−音声変換等を提供する。収益共有およびデータセキュリティとしての実施例は、語彙データ開発者、モジュール開発者、ＯＳ提供者、言語サービスセンター（ＬＳＣ）提供者、およびユーザのいずれにとっても相互に有益な形で語彙データやサービスモジュールをシステムに提供するように、語彙データ提供者や言語サービスモジュール開発者を促すことを可能にする。また、より高度なテキスト入力機能を提供する実施形態もある。

一つまたはそれ以上の実施形態は、語彙データ分類を記号付けする手段、全く異なるデータ構造を有する語彙集をモデル化する手段、別個の語彙集から集積したデータ集にデータをためる手段、全く異なるデータソースを統合目的で高度処理で、作成、取り込み、および内部で構成する手段、参加ユーザからデータを収集する手段、および手書き認識、光学的文字認識、キーボード入力、およびテキスト−音声変換と音声−テキスト変換のための特定のインターフェースを提供する。一つまたはそれ以上の実施形態はまた、複雑な語彙データ構造および単純な語彙データ構造の両者を組み込み、このような全く異なるデータソースを高度な方法で統合し、このようなデータに対するより高度なアクセス性を提供し、データ表示を向上し、入力機能性を高めることもできる。この入力手段は、個々の文字の検索を容易にするため、同一発明者による文字検索発明の電子的実行とあわせてもよい。一つまたはそれ以上の実施形態は、ある一つのモジュールのユーザがシステム上で提供されている豊富な言語情報を活用できるように、多様な自然言語処理モジュールと連携する言語サービスセンターを含む。結果として得られるシステムは、ユーザが日本語、中国語、または韓国語を電子的な環境で使用するときに通常経験するフラストレーションや不便さを著しく軽減する。

図１Ａは、語彙データの階層状モデルの例を示す。

図１Ｂは、出版社からの生データにつき実施形態への組込用処理を可能とするため、フォーマットタグを図１Ａ記載のモデルにどのように適用できるかを示す。

図２Ａは、例としてのデータ構造を示す。

図２Ｂは、語彙サービスセンター型実施形態において、ユーザが語彙データソースを追加、削除、起動、起動解除、およびデモ使用することを可能にするための例示的なインターフェースを示す。

図３Ａは、ユーザが語彙集のデータからの語彙素について入力候補ウィンドウにおける表示カラーを指定し、入力ウィンドウに異なるデータソースからの重複したマッチを示すかを指定するための例示的なヒト−コンピュータ用グラフィカルユーザインターフェースを示す。

図３Ｂは、ユーザーによるカラーコード検索および品詞別候補入力を可能にするヒト−コンピュータ用グラフィカルユーザインターフェースの例を示す。

図３Ｃは、複合語の検索または入力中の例示的な捕捉語彙データ表示の図を示す。

図３Ｄは、マウスオーバー中の文字データの例示的表示を示す。

図３Ｅは、部首または主要構成要素等の分類特徴に従った同音異義語リストの例示的なグループ分けを示す。

図３Ｆは、使用した単語が、その保存用データ構造の上方に伝播される速度を設定するための例示的なインターフェース及び入力方法に関連したさまざまな機能に使用されるキーボード・ショートカットを制御する例示的方法を示す。

図４は、指定した語彙集または別のデータストアへの入力用に選択可能な文字配列候補をその下部に列挙する、テキスト構文解析およびいずれのデータソースにも含まれない単語検索用の例示的なインターフェースを示す。

図５Ａは、例示的な単語のピンイン入力および、ある単語の中国語表記と関連付けられる様々な声調的特異性を示す。後者より、声調データに様々な可能性を表す「シャドウ」フィールドを持たせることが可能となる。

図５Ｂは、使用されるコード化の種類を指定するための例示的操作パネルを示す。

図６は、例示的な言語サービスシステム（またはセンター）型実施形態において、当該システム内の多様な自然言語処理モジュールと言語サービスシステムとの間の主要インターフェースを含む様々な構成要素の図である。

図７は、方法またはシステムの、一つまたはそれ以上の実施形態を実行する例示的なコンピュータシステムのブロック図である。

図８は、語彙データの作成、取り込み、および統合の例示的方法のフローチャートである。

図９は、収益共有およびデータセキュリティ機能を有するＬＳＣのブロック図である。

〔プラットフォームおよび実装〕

実施形態は、様々なプラットフォームやオペレーティングシステム上に実装される。実装またはコード化の正確な方法は、ソフトウェア開発言語、ＡＰＩが使用されている場合その使用されているＡＰＩ、その他いくつかの因子に依存しうる。例えば、ＭａｃＯＳＸ上で実施形態を実装する場合、本出願作成時点では、ＣａｒｂｏｎやＣｏｃｏａＡＰＩのエレメントと共に、ＣおよびＯｂｊｅｃｔｉｖｅ−Ｃを併用するのが好ましい。別のプラットフォームにおいては、別の言語が好ましく、別のＡＰＩを使用する可能性もある。Ｊａｖａ（登録商標）等のプラットフォームに依存しない言語を使用することで、ほぼ同じコードを用いた実施形態を一つ以上のプラットフォーム上で作動するように実装することもできる。プログラミング分野の当業者は適切な言語およびＡＰＩを使用して様々な形で実施形態を実装可能であるため、実装の詳細に関する記載は、実施形態の説明に必要ない範囲において省略している。従って以下の記載では、例示的な実施形態の機能および特性を記載および例証することに焦点をあてている。関連分野の当業者であれば、特定のプラットフォーム上及びオペレーティングシステム上の制約に即して実施形態を実装することができるであろう。プラットフォームに特異的であることの多いソフトウェアコード自身は、本明細書では説明していない。本明細書では、むしろ、例示的な実施形態を説明、描写、例証するためのアーキテクチャや設計の詳細が説明される。

以下、様々な実施形態について図１〜６を参照しながら説明する。以下に述べる実施形態のうち最初の五つは、次の１）〜５）を含む特性を有する。すなわち、１）単純な語彙データソースおよび複雑な語彙データソースを統合する能力、２）向上したデータ統合およびアクセス性、３）改善された入力表示、４）データ内容の向上、５）改善された入力機能性である。別の実施形態では、前述の実施形態のすべての機能および特性を統合し、外部自然言語処理モジュールと連動された言語サービスセンターとしている。別の実施形態は、システムまたは方法別の実施形態と併せてが商業的に魅力的なものとなるように、他の実施形態との関係において用いる収益共有、データセキュリティ特性、および語彙データアーキテクチャーを有する。更に別の実施形態は、非ＣＪＫ（中国語・日本語・韓国語）言語に重点を置いた言語サービスセンターを実装するものである。

当然のことながら、明確にするために様々な実施形態を個別に示し、説明している。以下に記載するように、すべての特性を同一システム内で組み合わせることが好ましい。これらの実施形態は、理解の促進を目的として示されるものであり、すべての実施形態あるいは実施形態の組み合わせを示すことを意図しているものではない。

実施形態の操作は、利用可能な言語サービスモジュールのうちいくつが当該システムに組み込まれているかなど、いくつかの因子に依存する。たとえば、基本的な機能の一つとして、電子辞書のように、単語や文字を検索する能力が期待される。さらに、システム中に入力方法が組み込まれる可能性が高い。これら二つの基本的な言語サービスに共通していることは、検索および取得である。

韓国語や日本語のような言語では、一般的な検索の方としては、対象となる単語や文字の読みに対応する英文字列を入力し、その後適切な時期にスペースバーを押すことにより、候補となる単語を表示する。中国語の場合、これに代わり、プロのタイピストが文字の形に基づいた特殊な入力方法を用いるかもしれない。しかしながら、そのような方法は非常な訓練を要し、ユーザの多くは日本語および韓国語に用いられる基本原理と同一の基本原理による音声ベースの入力方法用いている。実施形態は、音声に基づいたテキスト入力を容易し得るものであり、このため中国語においてユーザがピンインまたはボポモフォ（Ｂｏｐｏｍｏｆｏ）キー入力のいずれを選択するかは大きな問題ではない。いずれのアプローチでも言語サービスセンター（LSC）により対応可能である。

語彙データ構造の種類

コンピュータにおいて提供される多くの従来の入力方法やその他の言語サービスの主な制約は、利用可能なデータの不足と、使用するデータソースの管理に欠けていることである。このため、実施形態では、異なるプロバイダーにより提供され異なるデータ構造を有する様々な語彙データソースに対応する能力を設定している。この説明におけるデータソースは、単純（平坦）および複雑（階層状）の二種に分類できる。単純（平坦）なデータ構造は記録ごとに通常一定数のフィールドを有する。これとは対照的に、複雑（階層状）データ構造は、各記録内の要素が不特定回繰り返され、記録ごとの構造は多様性を示す。

テキスト入力方法で使用する最低限の設定は、二つの主要フィールドから成り、そのうちの一方は正字法表記の単語（原語で書かれた単語）を表示するものであり、他方は何らかのローマ字形式またはスペルシステムを用い当該単語の対応する音声または音韻表記を表示するものである。これが、基本的な平坦データ構成の例である。

基本的な「ブロック」データ構成は、これら二つの最低限の主要フィールドに、辞書にみられるような補助的な語彙情報を含むテキストブロックを加えたものである。区別されたデータソースには、これら２つの最低限の主要フィールドと共に、情報区分（以下を参照）により構文解析された追加語彙情報が含まれる。さらに、複雑なデータソースは、印刷された辞書と同じような複雑さを示す。一つの実施形態では、データソースが単純であるか複雑であるか、また平坦であるか階層状であるかに関わらず、あらゆる様式のデータソースに対応することができる。

語彙データカテゴリおよびカテゴリ標識手段

通常の辞書に含まれるデータは、入力項目毎にかなり異なることがある。各入力項目として、一つ、またはそれ以上の単語分類（品詞）、一つまたはそれ以上の定義、主要定義や副次的定義、語源情報、発音の手引き等を載せることができる。したがってデータの性質は、標準的なフラットファイルへの容易な組み込みには適していない。これとは対照的に、電子コンテンツ用に通常作成されるデータは、基本的なフラットファイルデータ構造の形をとっているためにかなり制約されているか、あるいは完全に規則的な繰り返しパターンを有する準階層状構造を厳守しがちである。不特定数のデータ構造に対処するには、当該データ構造において期待される情報を分類することが必要である。このことから、表１はＣＪＫ文字の辞書で通常見られる情報区分を示し、表２はＣＪＫの単一言語および二言語の単語辞書において通常提供されている情報の区分を示す。これら二つの表は、ここで説明している目的のため、各区分に対応する略号および各区分のインスタンスが複項（Ｍ）である可能性が高いか単項（Ｕ）である可能性が高いかを示す標識を含む。
（表１）：文字データの分類例

（表２）：単語データのモデル化例

言語サービスセンターに組み込むために作成したデータについては、上述の分類標示手段を使用することができる。すなわち、上記コードを「タグ」として用い、データの各ユニットについて示されるデータの分類を正しく記載することができる。

データ構造標示

複雑な語彙データ構造は容易にフラットファイルに組み込めないので、本実施形態では、複雑なデータ構造を記述するデータ構造標示手段を提供する。このデータ構造標示手段により、本実施形態では、異なる辞書や語彙データソースから広範なデータを組み込むことができ、これらすべてを同一の言語サービスシステム内で同時に使用でき、かつ円滑に統合できる。

この構造標示手段によると、単項および複項の二種の基本的なデータが認識される。単項データ（「Ｕ」で示す）は、単項値（文字列、整数、または別のデータタイプでありうるので、実装における正確なバイナリーデータ種はさして重要ではない）を含む各種変数である。複項データ（「Ｍ」で示す）は、（同様にアレイ、リスト、セット等の多様なバイナリーデータ種を用いて実装できる）一つ以上の値を有する要素（entity）である。

このモデルはまた、データがセット状である可能性も認識する。一つのセットは、二種またはそれ以上の種類の、通常同時に生じる情報の組み合わせである。例えば、単語の定義の後に、通常その単語が文脈の中で示す例文やフレーズ語句である。この場合、この定義や例文がセットを構成する。さらにまた、どのようなデータ種でも選択的なもの（ヘッダファイルで星印で示す（以下を参照））として表示する。何が必須で何が選択であるかは、必然的に対象となっている辞書による。

その階層状構造における各レベルには、その階層状構造においてそれよりも下にある、いくつかの別の項目を組み込むことができる。例えば、図１Ａは、仮定的な中国語−英語の文字の辞書にあるデータの種類を示す。図１Ａでは、セクションを大文字で示し、一つの階層中にあるフィールドを括弧（｛｝）内に示す。セクション内の単項フィールドを小文字で、複数の入力項目のあるフィールドは、さらにセクションを構成するので大文字で示す。ここで示す例では、階層状構造の最高レベルは部首セクションであり、最低レベルは熟語である。単項および複項の属性は「Ｕ」および「Ｍ」でそれぞれ示す。

ヘッダファイルおよび構文解析

言語サービスセンターに多様で複雑な構造を有する異なるデータが組み込まれている場合、ヘッダファイルを用いて取り込む語彙集のデータ構造を表すことができる。図１Ｂでは、図１Ａのデータに関するヘッダによる表示例を示す。図に示すように、その階層状構造における各レベル（１が最高レベル）を示す番号が標示され、その後に丸括弧中に示す当該要素の属性が続く。各要素の属性は、単項または複項で示す。実際には、現実の実行データの種類（例えば、数についてはＮＳＩｎｔｅｇｅｒ、テキストについてはＮＳＳｔｒｉｎｇ）を特定してもよい。さらにまた、実際面では、当該データがどのようにもとのデータソース中で標示されているかを示すフォーマットタグが提供される。実行データの種類やフォーマットタグは、プラットフォーム依存性が強くデータがもともとどのように保存されていたかにもよるので、この図では特定していない。さらにまた、セクションと要素変数の両者は、選択項目（星印＊で示す）として指定してもよい。規則的に対やグループ（定義やそれに対応する例文等）として提示されるデータの種類を示すセットは、括弧で囲んだり、その他の適当な手段で標示できる（セットは図には示していない）。

内部で、ＵやＭの各データ種は、文字列、整数、実数、バイナリー・ラージ・オブジェクト、文字列のアレイ、バイナリツリー等に関わらず、適当なデータ構造を用いて保存される。本実施形態のデータ構造をヘッダファイルから解釈することで、データをシステム内部でモデル化することが可能になり、さらにはシステムへの取り込み時にデータを正確に構文解析することができる。

最終的には、ヘッダ内での標示がさらに語彙データソースの全体的なデータ構造（単純／平坦か複雑／階層状）を示すことができる。同様に、語彙集（類語辞典、二言語辞書等）の性質をもとの言語と目標言語とともに示すこともできる。語彙データソースに関するそのような一般的な情報に用いられる正確なシグナリング手段は様々であるが、すべての当事者が遵守する予め定められた形態に即している限り、実施形態とともに使用することができる。

データ作成

言語サービスセンター（ＬＳＣ）の実施形態に組み込むためのデータを作成するには、ＬＳＣシステムが取り込んだデータを解釈することができるように、語彙データに「標示」を施すことができる。これにより、どのような種類のデータ区分が各記録内で標示されているのかがわかるように、ＬＳＣは語彙データの構文解析を適切に行うことができる。正字法の単語、読みおよびその単語の区別されていない情報を含む単純な「ブロック」構造を例にとると、各々の語彙の記録は以下の概念的構造を有する。
ａ．主要フィールド１タグ（読み）
ｂ．主要フィールド２タグ（単語自身）
ｃ．ブロックデータタグ（その他すべて）

区別されたデータに関しては、上記の表に示したようなコードを用いてより多くのフィールド識別子に標示を付してもよい。また、別のコードも用いることができる。すなわち、使用される正確なコード形態は、記録のどの部分を表すものであるかが正確に示されている限り、多様となりうる。

通常、語彙集は、料金プランの取り決めに従い、語彙集のプロバイダまたは言語サービスセンターのプロバイダにより作成されることになる。上述のようなヘッダファイルは、通常、データとともに提供され、その使用されるデータ媒体は、語彙集のプロバイダに強く依存する。

データ保存

語彙集が取り込まれると、そのデータはヘッダファイルの記述を用いて解釈され、適切なデータ保存手段が更新され、あるいは必要に応じてそのデータを収容するように作成される。好適な保存装置として、大量保存装置（例えば、磁気または光ディスク）、電子メモリ（例えば、ＲＡＭ，フラッシュ等）などがある。

図８は、一実施形態（例えば、以下に記載するＬＳＣ）で用いるために、語彙データを作成、取り込み、変換する例示的な方法のフローチャートである。図８では、この方法が開始され、処理はステップ８０２へ続く。ステップ８０２で、語彙データは第一のフォーマットで提供される。この語彙データは、複数の記録を有することができ、各々の記録
は、複数の要素を有することができる。各要素は、複数ある語彙データ種のうちの一つに対応しており、各要素には、当該要素の語彙データ種に対応する語彙標示コードが付されている。その後、処理はステップ８０４に続く。

ステップ８０４では、語彙データの見出し部分が提供される。この見出し部分は、複数のデータ構造標示コード値を有するデータ構造記述への参照を含む。各データ標示コード値は、複数の語彙標示コードの一つに対応しており、その構造は、単純／平坦または複雑／階層状構造のうちの一つである。処理はステップ８０６へ続く。

ステップ８０６では、語彙データが取り込まれる。処理はステップ８０８へ続く。

ステップ８０８では、取り込まれた語彙データが第一のフォーマットから第二のフォーマットに変換される。この第二のフォーマットは、第一のフォーマットとは異なるものである。このデータは、取り込まれた語彙データの各要素に、その要素の語彙標示コードに対応するデータ構造標示コード値を付与し、各要素の語彙データ種が認識され、当該要素がその対応するデータ構造標示コード値に従って保存できるように変換される。処理はステップ８１０へ続く。

ステップ８１０では、変換された語彙データが、ＬＳＣまたは他のシステムにおける使用のために保存される。このデータは、第二のフォーマットで保存される。ステップ８１０の後、処理が終わる。意図する語彙データの作成、取り込み、および変換タスクを達成するために、図８に示すステップのすべてあるいはその一部を繰り返し実行することができる。

図２ａ〜２ｂを参照して説明する別の実施形態にも、上述の特性を持たせることができる。

データソースのグローバル制御

図２Ａは、例示的なデータ構造を示す図である。この図では、ボックス状の各要素がデータベースを構成するエンティティを表す。各エンティティは、属性（データフィールドに相当）、および他の構成要素とのつながりを表す関係を有する。

図２Ａに示すように、グローバルレベルでデータベースを把握するために、ライブラリアン・エンティティが提供されている。このエンティティは、ＤａｔａＳｏｕｒｃｅエンティティとの関係を最低限提供する。これはつまり、データソースに対して１対多数の関係があることを意味している。このＤａｔａＳｏｕｒｃｅエンティティは、ファイルの種類（単純か複雑か）、起点言語（日本語、韓国語、簡体字、繁体字等）、および目標言語（二言語の辞書の場合）を含む語彙集（単一言語辞書、二言語辞書、類語辞典等）の性質に関する基本的な情報を提供する。専門分野（医学、コンピュータ等）等の追加情報は、別の属性として提供できる。

図２Ｂは、ユーザによるシステムへの語彙データを追加、システムからの削除、更に語彙データソースの起動、解除、実演（データソースの起動および解除については以下を参照）を可能にするインターフェースを示す。このインターフェースは、現代のアプリケーションでごくありふれた、ボタン、表、スクロールバー等のＧＵＩ要素を含む。例えば、対象となる語彙集に対応する列にハイライトし、起動ボタンを押すことにより起動することができる。同様な手順は、解除や実演モードに入る場合にも用いられる。同等の機能性を達成するために、メニューアイテム等のさらなるＧＵＩインターフェースを提供することもできる。

データモデル内での語彙データの配布を実行するのに必要なすべての内部処理は、もちろん、ＯＳプラットフォーム、選択された言語、使用するデータベース技術に依存して、それぞれの実行に特有のものである。このようなデータの配布または削除は、当然ユーザにとっては問題ではない。

多層データオブジェクト

言語サービスセンターに取り込まれ、上述のヘッダファイルやデータ分類タグ（語彙またはデータ構造）に従って構文解析されたデータは、多層構造の一部を形成する様々なデータオブジェクトに配分される。この構造の最高レベルはＭａｓｔｅｒＴａｂｌｅエンティティである。各言語に一つある、各マスターテーブルインスタンスは、その構造の次のレベルにあるオブジェクト、すなわちＷｏｒｄＧｒｏｕｐオブジェクトの集合に関連している。キーボードからＣＪＫ言語を入力する際、様々な同音異字、またはほとんど同音異字の正字認識に対応する可能性のある読みを入力するのが通常であるので、本実施形態はＷｏｒｄＧｒｏｕｐエンティティに対して提供される。ＷｏｒｄＧｒｏｕｐにより標示される同音異字性の正確さは、その言語および所望の正確さの度合いによって処理可能であるが、例えば、通常中国語では無聲調ピンインまたは日本語では標準平仮名表現が用いられる。図２Ｂでは、単語グループの共有同音異字を、その属性のＣｏｍｍｏｎＲｅａｄｉｎｇにより示している。

当然、この単語グループの次の下位レベルは単語である。多様な語彙データソースからの大規模な語彙データが使用されることになるので、表示される単語については、語彙データソース間で多くの重複があることが予想される。このため、多くの同一の主要フィールドを含む重複する記録を繰り返し作成するかわりに、ＧｅｎｅｒｉｃＷｏｒｄのエンティティが提供される。このエンティティは、語彙データソースに関係なく共有される基本的な単語データを含み、次の下位レベルである、特定の語彙ソース特有のデータを含むＳｏｕｒｃｅＷｏｒｄエンティティとは区別される。

ＧｅｎｅｒｉｃＷｏｒｄ記録は、その単語がシステム中でアクティブかを示すブール等のための多様な属性、一つまたはそれ以上の正字法認識、構成要素の単語分類のいくつかの表示（単語分類はその単語の構文その他の性質を識別するための特定のコードである）、その単語の正確な読み、および入力方法で単語を候補として表示するのに役立つ多様な頻度データを含むことができる。ただし、具体的な読みは、音声体系を用いて、その単語が発音または綴られる様式をより正確に特定する読みである。たとえば、中国語の場合、この属性は声調有りのピンイン、ボポモフォ等により表示される。

この図では、ＳｏｕｒｃｅＷｏｒｄエンティティが、その親エンティティであるＧｅｎｅｒｉｃＷｏｒｄの子として提供される。統合や階層モデル化の概念を保持しつつ、その他のデータモデルも認識できるが、このアプローチを例示的に用いる。語彙データソースが多様なデータ種（単純／平坦か複雑／階層状か）を含むことができることを思い出すと、ＳｏｕｒｃｅＷｏｒｄ記録の一属性はそれが示す記録の種類の表示である。したがって、単純または平坦なデータ構造を含む語彙データソースはその旨をこのフィールドに表示することになり、複雑または階層状データを含むものはその旨をここで示すことになる。

最後に、ＳｏｕｒｃｅＷｏｒｄデータが由来する語彙データソースの種類によって、その特定された構造に基づくある形態のデータ構造により更なる情報が保存される。様々な実行が、プラットフォーム、プログラム言語、およびその他の使用技術により、可能である。

データ盗難に対する防御

理想としては、内部保存データのダウンロードや出力を防ぐためセキュリティ機能を有し、これによりその個々のデータソース提供者の著作権（またはその他の知的財産権）を保護する。このようなシステムは、第三者の語彙データソース開発者が、その著作物が複製されたり盗まれたりする不安なく互換性のある語彙データソースを提供することを助長する。さらにまた、ユーザが個々の語彙データソース提供者からデータを盗もうとしたり他者の著作物に基づいて独自のデータソースを作成することを防ぐ。このセキュリティ機能は、語彙ソフトウェア提供者がデータを共同で蓄積したがらないことに対処できる。

文字の検索

一実施形態では、各単語に関する構成文字を追跡する手段も有する。この目的を達成するためには、ＧｅｎｅｒｉｃＣｈａｒａｃｔｅｒエンティティが提供される。このエンティティは、ＧｅｎｅｒｉｃＷｏｒｄと多数対多数の関係を有する。様々な詳細な構成および非詳細な構成がここで構築できるが、ここで示す例では、ＧｅｎｅｒｉｃＣｈａｒａｃｔｅｒエンティティは、画数、端点数（文字検索発明を参照）、およびもちろん文字の形態（正字）自身についての属性を有する。例えば、ＳｏｕｒｃｅＣｈａｒａｃｔｅｒエンティティ（図２Ａ参照）に基づいて当該エンティティまたはさらなるエンティティ構成要素にさらなるデータが提供されていてもよい。このようなエンティティは、ＳｏｕｒｃｅＷｏｒｄに対して並行の概念を用いており、すなわち特定のデータソースに特有な文字に関する語彙データを保存するのに使用できる。図示されていないが、二言語やさらには多言語データを、別の言語データがＧｅｎｅｒｉｃＷｏｒｄのインスタンスと関連する同様の方式で文字データに関連させることができる（以下の逆検索を参照）。

単語とその構成文字を文字分類および文字検索発明に提供されるデータと結びつけることで、ユーザはそのようなシステムでは通常容易には使用できない豊富なデータにアクセスできる。このようなリンクは、図２Ｅに示すようなデータ構造を用いて達成できる。語彙データを文字検索発明にリンクさせることは、この場合では個々の文字を通してではあるが、単語にアクセスするまた別の手段を与える明らかな利点がある。このことは、文字検索発明に提供されている多くの検索機能を用いることで特定の文字に関連する単語を見つけることができることを意味する。図３Ｆ中の選好パネルＧＵＩに示されるように、ユーザは検索機能を起動させるキーの選択すらできる。

ここでまた、図示されていないが、文字とともに筆画ベースの入力データを含むことも可能である。このようにして、筆画形に基づく入力方法も全体的な語彙サービスセンター内で使用できる。

操作的な見地からは、ショートカットキーや別の迅速アクセス手段を設定でき、これにより文字検索発明の実施形態中で記載の高効率・機能的な検索方法の種類へのアクセスを提示する。文字情報を検索したり難しかったり稀な文字を探し出すには、その文字検索発明の実施形態が一実施形態に関連しており、一連のショートカットキーまたはメニュー項目が、当該文字検索発明の実施形態に記載される各種手段を用いて、ユーザの文字検索、これらには限らないが、部首、非部首的要素、部首と非部首の組み合わせ、および筆画および端点数等を可能にするパレットを始動させることができる。

逆検索形態および別の言語

本実施形態により提供される言語サービスは、ユーザが目標言語以外の言語から単語を検索することを可能にするものである。したがって、例えば、簡体字を対象とした実行により、ユーザによる英単語の入力を可能にし、したがって中国語の単語候補を読み出すことができる。この機能を実現するには、ＲｅｖｅｒｓｅＬｏｏｋｕｐＥｎｔｒｙ構成要素が単一の属性である、意味と共に提供される。この構成要素は、ＧｅｎｅｒｉｃＷｏｒｄに対し、多数対１の関係を有する。このような逆検索構成要素は、当然特定言語と関連しており、このためＲｅｖｅｒｓｅＥｎｔｒｉｅｓの集合（図２Ａ参照）を含むＲｅｖｅｒｓｅＬｏｏｋｕｐＴａｂｌｅインスタンス中に集められる。したがって、一つのシステムは、入力よ逆検索の両者に対して様々な言語に対応でき、各種所定の別の言語についてのすべての逆検索入力事項は一つのデータ集に集められる。ＧＵＩにより、ユーザは、通常検索または入力モードから別の言語を解して目標の単語を検索または入力するように設計されたモードに切り換えることができる。

形態学的解析

通常、入力方法やテキスト−音声または音声−テキストコンバーター等の多くの言語サービスモジュールが、ある程度の形態学的解析を取り入れている。これは、単語を引用形式だけで与えられている場合、言語サービスモジュールは、引用形式を改変する語形変化のバリエーションの親単語を認識しないからである。理論的には、形態学的解析に加算と除算の少なくとも二つのアプローチをとることができる。

加算的アプローチでは、すべての引用形式は、それらの語尾変化の範例（その単語がとりうる異なる語尾変化の様式）と共に引用される。たとえば、日本語の場合、各動詞が、その動詞がとりうる様々な語尾とともに列挙される。代名詞は、通常存在する格助詞または後置詞と共に列挙される。どの名詞も後置詞に関係するもの自身と共に列挙される。本方法は直接的であるが、例えば２５０，０００語の基礎語彙集が本アプローチにより容易に数百万に膨れ上がるので、読み出し速度に多大な制約を課す。マッチングについては、入力テキストがさらなる方法により生成された語尾変化した語に対してチェックされる。この方法は理論的には可能であるが、結果として得られる語彙表のサイズが膨大なため実用可能とは考えられない。

これとは対照的に、除算的アプローチにおいては、語尾変化や多様な単語分類の認識、それらの語幹の決定、およびそれらの引用形式に遡るのに派生則が用いられる。ここでまた日本語の場合について述べると、「ご」や「お」は、名詞の敬語接頭辞を示す可能性のあることを認識し、「た」、「す」、「ます」、および「て」等の多様な動詞の語尾変化は、可能性のある接尾辞として認識される。こういうわけで可能な引用形式は、タイプされた入力事項から可能性のある接辞を除き、語幹を特定し、語幹から引用形式に変換することで識別される。その後、この派生引用形式は利用可能にした（起動化された）単語（「ＴＲＵＥ」または「ＹＥＳ」に設定されたアクティブなブールの組を有するＧｅｎｅｒｉｃＷｏｒｄインスタンス）の集合に対してチェックされる。同じ単語分類を有するマッチがその起動化された単語の集合中で見つかると、その後、それらのマッチが語尾変形
した型に変換により戻る。中国語における形態学的処理の同様な例は、「ｏｆ」（所有を示す）（的）に続くと考えられる種類の単語や、結果を示す補語（得）と考えられる種類の単語を認識する能力である。

本発明では、十分な文法情報が使用する語彙集に関連している限り、形態学的アプローチ−加算的または除算的−が原則として、実施形態で集められた語彙集に相関させるようにユーザから入力を可能にするように適用できる。ここで取り上げている文法情報とは二つの形式をとることができ、各語彙素が属する一つまたはそれ以上の単語分類の特定、およびその語幹から形成されうる派生語を示す派生則である。加算的アプローチでは、語彙の内部保存集合から派生する追加的表が作成でき、これにより派生形式が引用形式や単語分類コードならびに一組の文法的派生則に基づき作成される。除算的アプローチの場合、一組の文法則を、ユーザにより入力されたテキストから可能性のある接辞を構文解析するために適用できる。可能な引用形式は識別でき、接辞は、その後すぐに、単語を候補として表示する前に適当な形式で語幹に再びくっつけられる。

簡便上、形態学的解析（ＭＡ）の機能性は、形態素を入力文字列から分離する形態学的構文解析ツール（ＭＰ）、語幹に語尾変化をつけて戻す形態学的作成ツール（ＭＧ）、およびある分類の単語に付け加えることのできる語尾変化の種類を記載する一組の派生則（ＤＲ）の三つの別個の構成要素からなると考えることができる。図６を参照のこと。

形態学的解析は、ユーザが積極的に考える機能ではないかもしれない。単語候補は、そのシステム内の語彙素の集合から引用形式を派生させ、続いてユーザが目標単語を選択する候補リストに語尾変化した候補を示すための、形態学の加算的あるいは除算的アプリケーションに機能として単に表示することができる。この能力はモジュラーシステムに提供されるので、そのシステムを使用するかにかかわらず、そのユーザがその語尾変化した形式に基づいてテキストの単語を入力または単語を検索するためにかなり同等に適用する。

複数語入力の構文解析

一実施形態では、ユーザが一語以上に対応する音声上の文字を有する場合を認識する機能を組み込むことができる。ユーザが一語以上に相当するものを入力すると、そのシステムは構成文字を検索するためにその入力項目の構文解析を行うことが要求される。（実際上、正確には、ここで「単語」というのは語彙素を意味し、つまりは、語彙構成要素を一つの単位としてみている。例えば、句や（中国語の成語等の）熟語は、一つの単位として扱われることもある）。標準的な形態学的解析の場合のように、加算的および除算的アプローチは技術的に可能であるが、データ保存効率の見地からは、除算的アプローチがおそらく好ましい。

したがって、ユーザがいくつかの目標テキストに対応する文字列を入力する際、その言語でそれらの単語に対して入力をマッチさせるように検索を開始する。もし、正確な語のマッチが、その入力テキスト中に含まれる読みに基づく標準的な検索を解して見つからず、かつ形態素の除算によってもマッチがみつからない場合、次にこれらが引用形式または形態学的語尾変化を有する引用形式の組み合わせにマッチするかをみるために、入力文字のサブ文字列について検索を行うことができる。このステップはより時間を要するので、上述の安価な形態学的解析のステップをまず試してから行うのが最善である。

形態学的解析と同様に、複数語認識はユーザが考えるようなものではなく、むしろ入力または検索中に単に「起こる」特徴であるかもしれない。ユーザが、２またはそれ以上の語に相当する音声学的シークエンスを入力すると、その複数語認識により今度は入力方法が各単語の候補を識別することが可能になる。このプロセスは、最初の検索がその入力されたシークエンス全体に対するマッチを識別できない場合に、続いて検索が入力シークエンスのサブ文字列について行われるものである。

語彙集による色分け

別の実施形態では、上述の特徴のあらゆる組み合わせを以下に記載する特徴と共に組
み込むことができる。本実施形態により、検索または入力中の候補語データがそれらのソースデータが由来する語彙ソースに従って色分けされるように、ユーザが語彙データソースを色分けすることを可能にする。このことにより、ユーザはそのソースにより正しい候補を迅速に認識することができる。このような機能は、例えばユーザが起点語彙集によりその同音異字が目標技術語から容易に識別されるであろう単語を含む専門的な辞書を用いている場合に特に有用である。同様に、ソースが固有名詞のみを含んだ場合、候補ウィンドウに表示されたときに、それらは容易にそのようなものとして識別される。

これらの機能を利用可能にするため、別のウィンドウまたはパネルを、対象となっている言語に関連する語彙データソースの各々に色を結びつける手段とすることができる（図３Ａ）。例えば、デフォルト設定により、一般的な語彙集を色分けした黒色であり、ユーザは専門用語または分野別の語彙集に対しては別の色を選ぶ可能性が高い。このような専門分野として、医学、コンピュータ科学、生物学、言語学および／またはその他の分野等が挙げられ、これら該当可能性のある分野は、原則として、ほぼ無制約であり、無限である。異なる語彙ソースに関する検索結果の比較は、このように色分けを利用することで容易になる。色を特定の語彙データソースに関連させるためには、対象となっているデータソースを選び、そのデータソースと色とを関連させるのに色選択手段を使用する。図３Ａは、このような選択手段を提供するインターフェースを示す。

語類による色分け

さらにまた、使用する語彙データソースが適切なフィールドを含むとして、一実施形態では、ユーザは候補文字と単語とを種類によって区別できる。例えば、ユーザは普通名詞を固有名詞から区別したり、異なる品詞を区別したりすることができるこれらの区別は、これらには限られないが、フォント、色、太字、およびイタリック等様々な方法のいずれでも可能である。一種以上を有する語彙素は色の組み合わせとして示したり、同様の手段で区別できる。この種の選択を容易にする例示的なインターフェースを図３Ｂに示す。色を単語の種類に関連させるのに、いくつかの可能な分類から選び、その後、選択した個々の分類について色を選ぶ。この単語の種類は言語により異なるものであり、図に示すものは実際ＣＪＫ言語のいずれよりも英語によりよく対応しているが、これはなじみやすく示していることを理解されたい。

追加的語彙情報の表示

さらに、ユーザの音声的な入力事項とマッチする一組の同音異字の一条をアックセスした後、ユーザは、入力事項の目標言語あるいは外国語で説明を見れるように、それぞれの語彙集から関連辞書のリンクをすべてボタンを押すことで表示するオプションを有する（図３Ｃ）。前者のアプローチにより、母国語とするユーザがその文脈や意図する意味においてどの複合語が正しいかを決定することを可能にし、後者では入力事項を自国語でむしろ読む言語学習者にとって大変有益なものである。辞書の情報は一実施形態にリンクされているが第三者により供給される可能性があるので、理論的には、供給されうる言語的詳細の量に制限はない。実際には、さらなる情報にアクセスする選択は、（ショートカットキーを押すなどのように）簡単に実行できるべきである。さらには、単純および詳細な説明の設定の選択は、語彙データがこのような区別を許容するならば、あるべきである。最終的には、どの語彙分類（情報分野）が表示されるかの選択するための手段は選択的に提供されるべきである。図３Ｃは、さらなる語彙情報をユーザに提供するインターフェースを示す。実際の実行は図に示すものよりもより洗練されたデータを提供する。

マウスオーバー機能

入力モードをマウスオーバーモードに切り替えることで、語彙データのこの同じプーリングが、スクリーン上に既にタイプされたテキスト上のマウスオーバー表示に適用できる。マウスオーバーは、学生や目標言語の学者にとっては非常に有益な機能である。（マウスオーバーとはカーソルをスクリーン上の何かに動かすことを意味する。一般に、マウスオーバー操作中はデータ表示を起動するのにトリガーキーを要するが、ファンクションキーを通常およびマウスオーバーカーソル動作間で切り替えるのに使用できるので、このことは必ずしもそうとは限らない。）始動されると、ポップアップ・ウィンドウが語彙情報を表示し、ユーザが入力したかに関係なく、ユーザはスクリーン上の互換性のあるテキスト中で容易に単語を検索できる。マウスオーバー標的に関する語彙データを検索する能力は、システム中にプールされた語彙データを構築することで可能になる。例えば、第２言語での翻訳を見る能力は、ＲｅｖｅｒｓｅＬｏｏｋｕｐＥｎｔｒｙエンティティ（図２Ａ）により可能となり、関連文字データの検索能力は、ＧｅｎｅｒｉｃＣｈａｒａｃｔｅｒインスタンスをＧｅｎｅｒｉｃＷｏｒｄインスタンスにリンクすることで可能となる（図２Ａ）。

操作上は、既にテキスト中にタイプされた文字に関連する情報を表示するには、ユーザは単に一連のショートカットキーをタイプするか、あるいは関連文字情報の読み出しを実行するメニュー項目を選択する。図３Ｄは、このようなポップアップ情報がどのようなものかの単純化した例を示すが、データの正確な詳細はそのシステムにおける文字データに関連した語彙ソースに依存するであろう。図３Ｅは、部首または主要構成要素等の分類特性に従った同音異字のリストの例示的なグループ分けを示す。特に、図３Ｅは第１に主要構成要素により、第２に残りの筆画によるグループ化を示し、数−文字グリッドがグリッド座標を用いるような入力を可能にしている。

データソースによる単語の起動化および解除

図２Ａを参照すると、ＳｏｕｒｃｅＷｏｒｄ構成要素がＡｃｔｉｖｅな属性を有することがわかる。このブールの属性により、特定のソースネームを有するすべての単語データのフェッチ（クエリー）を行い、１バッチ中のその集合を起動または解除することを可能にする。このユーザは、図２Ｂに示すようなインターフェースを用いてシステム中でどのような数の語彙データソースも利用可能にしたり利用付加にしたりすることが選択できる。これを行う理由は様々ある。例えば、多くの異なる技術データソースを含む十分に開発されたシステムにおいては、例えば医学辞書情報のように稀にしか使用されないものを搭載することは、コンピュータ関連の書類を入力する必要のある職業の者にとっては無意味かもしれない。

基準による候補の抑制

ＧｅｎｅｒｉｃＷｏｒｄおよびＳｏｕｒｃｅＷｏｒｄインスタンスは多様な関連属性を有するため、ある種の候補の表示を制限するか、あるいは候補表示する際にある単語種について制限することができる。したがって、ユーザが固有名詞のみ、あるいは地名または人名のみを検索または入力したい場合、その検索を制限するのにある種のＧＵＩを使用することができる。このことは、かなり短縮された候補リストの表示を可能にする。同様に、性能を高めるために、ユーザは一定のカットオフ頻度を特定して、極度に稀な単語の搭載を無効にしたいと単に考えるかもしれない。すべては対象となっているリストに含まれる語彙データに依存するので、特定できる単語の種類について技術的に制限はない。

ショートカットキー、フローティングパレット、またはメニュー項目はすべて、検索を特定の単語種に制限する能力をユーザに与える手段として役立つ。このような効果を提供する手段であれば、いずれも使用できる。モデル化が実施されると実行が容易であるのに対し、この機能は一実施形態の特定のデータアクセス能の直接的な副産物であり、従来のシステムや方法では可能ではないかもしれない。

候補リストの細目

ユーザが自分の探している単語の読みを入力する場合、ＣＪＫ言語入力方法では、これらの言語における多数の同音異字のために膨大な候補リストを有する羽目になることは珍しいことではない。このことは、特にユーザが音声学的に単一文字を入力しようとする場合に起こるが、日本語の場合の複合語（複数文字からなる単語）または声調指定が適用されていない場合の中国語の複合語にも共通している。リストをスクロールすることにより、インライン状の入力ウィンドウには必然的に一度に一行のデータのみが表示されるので、大変面倒であることがある。通常、このようなデータは頻度順に表示されるが、最も一般的な単語（リストの一番最初にくる単語）を除き、このようなデータは目標とする単語を見つけるのにはほとんど役立たないことがある。一実施形態ではその固有のデータ構造の柔軟性からさらなるデータソースを採用できるので、その単語を細分するために文字に関するさらなるデータを代わりにしようすることができ、それらの語をユーザが選んだある様式に従って縦に整理された別のウィンドウに表示することができる。これゆえ、例えば、すべての単語がその単語のはじめの文字の部首の順序に配列された行に配置できるであろう。ユーザは部首の大雑把な順序に慣れており、部首は表示されるので、ユーザの目は迅速に正しい部分にクローズアップすることになる。「部首の行」では、単語を頻度順に並べてもよい。はじめの文字の部首を用いることが長い候補リストを細分化するのに最も論理にかなった選択してあるかもしれないが、別の可能な使用標準は、はじめの文字の主要構成要素の（筆画、端点）の値（文字検索発明を参照）、または文字全体の筆画／端点値、あるいは文字の総画数ともなる。

候補リストの細目および再表示は、例えば従来は普通行われないような形で文字を複合語を有するデータと関連させて、実施形態が語彙データを相関データ構成要素の階層構造に再配分する事実により可能にすることができる。候補数が候補ウィンドウに通常表示される数（一般的に１０程度）より大きければ自動的にこの機能が始動するようにすることが好ましい。さらには、ユーザがリスト細目の基準を選択できるように手段を提供できる。部首により単語のサブ選択する場合、システム内で語彙素のコンテンツの前処理を。文字のリストおよびそれらの部首分類で語彙素のコンテンツを相互参照することにより達成できる。

図３Ｆは、外観により再分布された候補文字の例を示し、基準の定義は同著者による文字検索発明に記載の主要構成要素概念である。

新規発見語登録に対する厳重な管理

上述の機能に加えて、一実施形態においては、前回のテキスト入力セッションで入力された単語を自動的に記録し、語彙検索では見つからないがむしろ別々の文字として個別に入力される新規語を識別する手段を提供できる。ユーザの便宜上、ユーザ辞書への入力に対して候補と思える文字や複合語（単語を形成する文字のシークエンス）は、文字およびそれらの音声学的入力事項の二つのフィールドを有するリストを提示し、ユーザが必要に応じてデータを改変してユーザの補足的辞書に対する候補のいくつか又はすべてを許容するか、あるいはまったく許容しないかの選択を可能にする。オプションとしては、さらなるフィールドを提供し、ユーザが品詞、定義、外国語の相当語、またはいくつかの別の語彙情報を、補足的な語彙集として使用される語彙集に対して構築された構造にしたがって、入力できる。図４は、補足的語彙集に含むための単語を選択するのに使用できるインターフェースを示す。したがって、新規文字組み合わせは、記録されるのみでなく、後に列挙されて、ユーザがそれらについて改変または改良したり、あるいは関連語彙データを提供して、これにより正式にその新規組み合わせをユーザ語彙集に永久的に保持するかを決定できる。このレベルのユーザ制御は、実際単語ではない文字を誤ってつなぎ合わせる、時折使用される自動プロセスよりもずっとより効果的である可能性がある。

ユーザ主導のデータ改良

語彙データのプロバイダや業者は、それらのデータをむしろそう頻繁には更新しないかもしれない。この結果、新規語や固有名詞が、現在市販されている語彙集のいずれにも認識されないことがよくある。新規語、固有名詞、およびその他の語の形成とそれらの許容されている語彙集への組み込みとの間の時間差への対処に役立てるため、本実施形態では、ユーザ入力データを中央位置にプールする能力を提供し、これにより言語に長けている人間がその入力データのパターンを調べ共用のユーザ辞書の更新するのを可能にある。ユーザをそのプログラムに参できるように、報奨を設定してもよい。ユーザはダウンロードを選択するか、あるいは多様な手段により共用ユーザデータをインストールしてもよい。ユーザはまた、それを無視しても共用ユーザデータを起動しなくても自由である。それらのデータに関する厳格な機密性が保障できる。したがって、一般に公開したくない特別な機密用語を使用する政府機関やハイテク会社等の、テキストコンテンツについて懸念するユーザは、自身の新規語のプールを開示することなく、基本語彙集に対する更新を享受することができる。

操作においては、保存に使用されるデータ構造内で同音異字の数が増える速度を制御するために、ユーザは図３Ｆに示すようにＧＵＩを使用することができる。ユーザの指定した語彙集への入力事項を追加するには、入力セッションの終わりに、メニュー項目、またはユーザは前回の単語入力により自動的に検索を遡りどの語がシステムにおいて語彙素の集合の一部ではないかを決定する別のトリガーを選択できる。（これらは、一文字一文字入力、またはタッチペン等の別の入力装置を用いて入力された単語であり、その語彙データ集にあるシークエンスに対応しない。）この結果得られる可能な新規語のリストは、このリストにある各単語を含むかどうかを選ぶ選択手段があるように、表示できる。入力項目として指定された単語は、ユーザ語彙集に、品詞、単語の種類（固有または普通）（示されていない）等の補足的情報を指定する選択肢とともに入れられる。さらに、本発明によると、（単にユーザがタイプしたのではなく）各種手段により得られたテキストをコピーし、そのシステム内にある語彙データ集に含まれていない単語の検索をすることが可能である。同様にして、このような単語はユーザが許容したり拒絶したりできる。

自分たちのデータを調べられたりすることに同意するユーザは、自分たちのデータを自動的に特定のウェブサイトまたはその他のＵＲＬに対し更新することができる。ある量のデータが受け取られると、言語学者は、新規単語や固有名詞を形成する共通に入力された文字シークエンスを探すことができる。一般的な使用に許容できると考えられる単語はその後共有のユーザデータファイルに読み込まれ、ユーザに利用可能となる。このデータを使用したくないユーザは、起動解除を選択してもよい。新規語彙素は起動時に自動的にシステムに組み込まれ、同様なその他すべての機能性は透過的に起こる。

音声的表示または綴りの正確度に関する選択

従来的な入力方法においては、声調を入力するかは開発者により決定されてているので、ユーザは一般に声調と共にまたは声調なしに、あるいは交互に文字を入力するかを選択しなければならない。中央語彙データ集へのデータをプールすることに加えて、実施形態は、（声調データを含む）もとの入力に基づいて、声調システムについて完全に習得していない場合でも、ユーザが声調を誤ってタイプしても目標とする単語を探すのに十分な可能性があるように、中国語の声調表示の多様な度合いを与える追加的な「シャドウフィールド」（図５Ａを参照）を作成できる。このことは、同じ音声上の構成要素を含むが異なる音節で声調を除く別のフィールドを提供することで達成される。そしてユーザは、自分がタイプしようとする声調の具体度を選択し、さらなる機能性により、ユーザが声調についての必要条件をオンザフライで変更することを可能にするかもしれない。このオンザフライ機能性は、候補が数多く最初にサブ選択された場合には特に重要となりうる。この機能性を達成するには、シャドウ表が部分的な声調指定または声調無指定で作成され、語彙データ集により維持されるものが完全な表示となる。特に重要な機能は、声調変化から起こる通常の混乱に対処するという事実であり、連続する２分の３声調音節は、二番目と三番目の声調音節の組み合わせと同一の音となる。この問題を認識して、実施形態は、このような三番目−三番目および二番目−三番目シークエンスにおける許容誤差を特に提供することができ、ユーザは誤った声調シークエンスを入力した場合にそれに代わるものを見ることができ、マッチするものが見つからない場合は自動的に別のものを提供することができる。

声調認識度を選択するには、メニュー項目、ボタン、または別のＧＵＩをダイアログボックスまたはユーザが所望の声調表示度を指定できるその他の手段を始動させる。図５Ａは、声調無指定、部分声調、または完全声調指定でどのように単語が指定できるかを示す。このような柔軟性により、ユーザは、例えば、声調に関する知識が確固としている場合に完全な声調表現を使用して、候補リストのサイズを最小限にすることを可能にする。しかしながら、声調に関する知識があやふやな場合、ユーザは声調に関する完全範囲（各音節に対し一つ存在）よりも少数のもののみ示せばよく、これによりその単語を見つける可能性が高い。この機能性は、ユーザが中国語入力に対する完全、部分的、または無声調指定選択するＧＵＩにより提供されるものである。ラジオボタン（図示されていない）は、ユーザに対してそのようなインターフェースを提供するアプローチとなりうる。

コード化指定能力

メニュー項目、選好パネル、またはその他の選択手段は、ユーザが現設定時に使用するコード化や言語を特定することを可能にするために提供できる。したがって、入力には、簡体字に関してはＧＢまたはユニコード、繁体字にはＢｉｇ５またはユニコードが可能である。日本語に関しては、ユニコードまたはシフトＪＩＳ、あるいはＪＩＳ標準のまた別の形式間で選択するかもしれない。図５Ｂは、ユーザがそのような選択をすることを可能にするインターフェースを示す。コード化を選択するには、ユーザは入力手段に関連するメニューをプルダウンし、対象となっている言語に特定されているコード化を選択することができる。一以上の東アジア文字に基づいた言語を扱う場合、異なるデフォルトを各言語について設定できる。このような機能はこれまでの入力方法では提供されたことがなかった。

追加機能

追加機能を実施形態に備えることができる。例えば、ユーザが長い固有名詞または稀な文字等を入力するためのショートカットを指定できるように入力用のショートカットキーを備えると有益である。同様に、実施形態は、同音異字間の語順がユーザがシステムや方法を利用するにつれ変化する速度を決定する手段を備えていてもよい。

モジュラー語彙サービスセンターの実施形態ではこのような特徴や機能を四つのＣＪＫスクリプトのすべて（特定の機能が対象となっているスクリプトに無関係な場合を除く）に適用し、三言語すべてと四つのスクリプトすべての間での切換えを容易にし、前述の実施形態に記載の前記特徴や機能のどのような組み合わせでも組み込んでいてもよい。（注：これら三つの言語が四つのスクリプトを有するのは中国語には簡体字と繁体字の二つがあるからである。）記載されている概念は漢字系文字を使用するいずれの言語に対しても適用できるので、同じＬＳＣシステムを、例えば、中国語を使用する日本語を話す人、中国語を使用する英語を話す人、または日本語を使用する中国を話す人に用いることができる。さらにまた、これらの方法およびシステムは、その他の筆記システムや記号・グラフィックシステムと共に使用することができる。一般に、これらのシステムや方法は、システムおよび方法の機能性が所望される場合にどのような言語に使用してもよい。

追加ＮＬＰモジュールの組み込み

これまでの実施形態は、キーボード入力により従来的に実現されている入力方法を介したテキスト入力に焦点をおいてきた。しかしながら、本実施形態では、音声合成（テキスト−音声）、音声認識（音声−テキスト）、手書き入力、および光学的文字認識等に用いられるようなその他の自然言語処理（ＮＬＰ）システムを組み込むことができる。その結果は、様々なＮＬＰシステムからデータを統合する言語サービスセンターとなる。これらの別個のＮＬＰシステムにより使用されるデータの性質から、この言語サービスセンターへの接続には別個のインターフェースを使用しなければならない。ＮＬＰシステムをこのＬＳＣに接続するのに可能なインターフェースを以下の表に示す。

*ＬＳＣ：言語サービスセンタ
**ＣＬＩ：文字検索発明の機能性を備える文字検索モジュール
***ＭＡ：形態学的解析ツール

語彙サービスセンターの中心核としての異種の語彙データからプールされた中央語彙データ集を用いる利点は、そのシステムのほかの部分からのデータがその他のモジュールの機能性を向上させるのに使用できることである。例えば、テキストをスキャンするのに光学的文字認識ソフトを使用する場合、通常、ＯＣＲソフトは、ＯＣＲの誤りを訂正したいと思うユーザが、正しい文字を探すのに手書き認識モジュールを使用したり、文字検索モジュール（図６を参照）により提供される筆画−端点検索手法を利用することを許容する。代わりに、ユーザは、特定の品詞についてスクリーニングしながら、またはある種の別のフィルタを用いて（入力方法モジュールを介して）標準的なテキスト入力を
用いることができる。同様に、手書きで文字を入力する場合に、手書き認識ソフトウェアが文字を認識しない場合、別の手段が素の文字を入力するのに使用できる。

語彙サービスセンターは、データプロバイダが開発しているモジュールでどの要素が欠けているかを見るためにシステムの一部を使用できるので、データプロバイダにもメリットがある。例えば、広範なソースに基づく中央語彙データ集は、かなり大きくなり、認識能の乏しいテキスト−音声または音声−テキスト変換モジュールにおいて欠けているものを指摘するのに使用できる。したがって、この実施形態は、２つの別個の自然言語処理モジュール間のマッチと欠けている関係の両者を特定する手段を提供することができる。

ＬＳＣインターフェース：文字と音素

記載された度合いのモジュール柔軟性を達成する鍵の一つは、インターフェース−単独文字のストリームと語尾変化した単語のストリーム−の両者がはっきりと定められており、すべての関与するモジュールがこれに従うことを確実にすることである。したがって、音声−テキスト変換モジュールの開発者が単語についての独自の辞書を含めることが可
能であるが、単に語彙サービスセンターに備えられている形態学的解析ツールによりその後解釈可能な音素のストリームを提供すればより効率的かもしれない。音声−テキスト変換モジュールの実行詳細は、インターフェースの規則が明確に定められて遵守されてい
る限り、ＬＳＣのプロバイダーには何の心配もない。

補助的タッチパッド／スケッチパッド

最終的には、理想のハードウェア構成が、絶対座標モードで操作されているときはタッチペンが手書きによる文字入力に使用でき、相対座標モードでの操作の際は、タッチパッドが通常のカーソル制御に使用できるように、二重機能性タッチパッド／スケッチパッドを組み込むことにより実現できる。このことにより、ユーザが必要な際はいつでも手書き認識モジュールを使用することを容易にするであろう。相対および絶対操作間でトグルが迅速で容易なように、キーボードボタンまたは別の手段が提供されるべきである。

同じ結果を達成する別の選択肢は、通常の中心に配置されたタッチパッドの右および左に別個のタッチパッドを配置することである。これらの外側のタッチパッドは、タッチペンとの接触時のみ起動化され、絶対座標モード、すなわちタッチペンを用いて文字を入力するときにのみに使用されることになる。

第三の代替物は、タッチパッド出力がイベント応答者に応じて異なって解釈されるように、タッチパッド−イベント応答システムを設計することである。したがって、スクリーン上のアクティブな領域が文字検索モジュールの文字入力受信部である場合、タッチペン入力は絶対座標で解釈される。さもなければ、相対座標内、すなわち、通常のカーソル制御に関する座標として解釈されることになる。

どのようなイベントにおいても、ある形式のタッチパッド−スケッチパッド入力が入力方法モジュールの標準的なキーボードによる入力を大いに補うことになり、これにより集約語彙データ集が対象となっている文字や単語を含まない場合において文字や単語の検索を容易にする。

操作、語彙サービスセンターの提供、および異なる自然言語処理モジュール間の接続について、図６を参照してその操作を説明する。

図６は、語彙サービスセンタ（ＬＳＣ）の要素の全体的な構成を示す。特に、語彙システム６００は、語彙データ集６０４を有するＬＳＣ６０２、文字検索モジュール６０６、形態学的構文解析ツール６０８、派生則６１０、および形態学的作成ツール６１２を有する。ＬＳＣ６０２に接続されているのは複数の辞書（または語彙データソース）６１４〜６１８である。さらにまた、ＬＳＣ６０２に接続されているのは、光学的文字認識モジュール６２０および手書き認識モジュール６２２であり、この両者はＬＳＣ６０２を用いて検索するための単独文字６２４（例えば、ユニコード文字）を作成するのに使用できる。音声解析ツール６２６、入力方式モジュール６２８、および音声合成ツール６３０は、ＬＳＣ６０２に接続されており、それぞれが語尾変化した単語（例えば、音素のシークエンス）をＬＳＣ６０２に提供するために使用できる。構成要素は一言語のみについて示しているが、もちろん筆記言語に対するＬＳＣは同一または同様な構成要素を含むであろう。図に示すように、語彙集（「辞書」６１４〜６１８と標示）の数についてのコンテンツは、語彙データ集に統合される。

外部の自然言語処理モジュールとの二つの主要なインターフェースとしては、単独文字（例えば、ユニコードにされたものコード化）および（ある形式の音韻体系の表記で表現される音素のシークエンスとして表される）語尾変化した単語のものがある。ＯＣＲおよび手書き認識モジュール６２０および６２２は、単独文字とインターフェースで接続され、次から次へと個々の文字を特定していこうとすることを意味する。これらのモジュールによりなされる解釈に必要などのような訂正でも、文字検索モジュールとの直接リンクのため効率的に実施できる。モジュールは、ソフトウェア、ハードウェア、またはこれらの組み合わせで実施できる。

その他のインターフェース、語尾変化した単語は、音声合成ツールモジュール６３０および音声解析ツールモジュールへの接続を可能にする。音声合成は、テキスト（図示せず）を取り込み、ＬＳＣの形態学的解析ツール（特に、構文解析ツールおよび派生則）を通して稼動し、その後音素のシークエンスから可聴音への変換のための合成器に戻る。これとは対照的に、音声解析ツールモジュール６２６は、音素のシークエンスを示し、その解析ツールは派生則を用いて入力テキストから個々の引用形式を特定し、そのシステム内の語彙データ集においてマッチする語彙を探し出す。この作成ツールは、マッチする語彙をとり、ユーザに対する表示のための候補単語に再び語尾変化させる。

このシステムの長所は、対応するモジュールが音素のシークエンスとして語形変化した単語を読んだり与える限り、ＬＳＣが音声合成や音声分析に関する詳細を自ら扱わないことである。同様に、これらのモジュールが個々の文字のシークエンスの形態で解釈を提供する限り、ＬＳＣは、光学的文字または手書き認識を実現するために使用される多様なアルゴリズムまたはニューラルネットワークについて心配する必要はない。図に示すインターフェースに従うならば、外部モジュールの両セットは、それにもかかわらずＬＳＣにより提供される豊富なデータからの恩恵を受けることができる。

図７は一つまたはそれ以上の実施形態を実施するのに好適な例示的なコンピュータシステムを示す。図７のコンピュータシステム７００は、プロセッサ７０２とメモリ７０４とを有する。プロセッサ７０２は、単一のマイクロプロセッサを有するか、マルチプロセッサシステムとしてコンピュータシステムを構成するために複数のマイクロプロセッサを有していてもよい。メモリ７０４は、プロセッサ７０２によう実行のための命令やデータを一部保存する。本発明のシステムがコンピュータプログラム等のソフトウェアですべてまたは一部実装された場合、メモリ７０４は、稼動時に実行可能なコードを保存するのに使用できる。メモリ７０４は、高速キャッシュメモリはもちろん、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）群を有していてもよい。

図７のシステムは、大量保存装置７０６、（単数または複数の）周辺機器７２４、（単数または複数の）入力装置７１０、（単数または複数の）携帯式の保存媒体用ドライブ、コンピュータ可読の媒体７１４、グラフィック・サブシステム７２０、および表示部７０８をさらに有する。簡略化のために、図７に示す構成要素は、単一のバス７１６を介して接続されている。しかしながら、これらの構成要素は一つまたはそれ以上のデータ転送手段を通して接続されていてもよい。例えば、プロセッサ７０２とメモリ７０４は、ローカル・マイクロプロセッサ・バスを介して接続されていてもよく、大量保存装置７０６、（単数または複数の）周辺機器７２４、（単数または複数の）携帯式保存媒体ドライブ７１２、およびグラフィック・サブシステム７２０は、一つまたはそれ以上の入力／出力（Ｉ／Ｏ）バスを介して接続されていてもよい。通常は磁気ディスクドライブまたは光学ディスクドライブで実装されている大量保存装置７０６は、プロセッサ７０２により使用するためのデータおよび命令のための非揮発性の保存装置である。別の実施形態においては、大量保存装置７０６は、本発明の方法を実施するコンピュータプログラムを保存する。本発明のこの方法は、プロセッサ７０２に保存していてもよい。

携帯式保存媒体ドライブ７１２は、図７のコンピュータシステムにデータとコードを入力または出力するために、フロッピディスクまたはその他のコンピュータ可読な媒体等の携帯式非揮発式保存媒体と連携して動作する。一実施形態においては、本発明の方法は
、このような携帯式媒体に保存され、携帯式保存媒体ドライブ７１２を介してコンピュータシステム７００に入力される。（単数または複数の）周辺機器７２４は、コンピュータシステム７００に追加的な機能性を加えるために、入力／出力（Ｉ／Ｏ）インターフェース等の各種のコンピュータ支援装置を含んでいてもよい。例えば、（単数または複数の）周辺機器７２４は、コンピュータシステム７００をネットワーク、モデム等にインターフェースで接続するためにネットワーク・インタ＝フェース・カードを含んでいてもよい。

（単数または複数の）入力装置７１０は、ユーザインターフェース（ＵＩ）の一部を提供する。（単数または複数の）入力装置７１０は、英数字およびその他のキー情報を入力するために英数字キーパッド、またはマウス、トラックボール、タッチペン、またはカーソル方向キー等のポインティング装置、あるいは撮像カメラ、あるいはＯＣＲを有していてもよい。このような装置のすべては、本発明の方法とインターフェースで接続したり実行するための追加的手段を備える。テキストおよびグラフィック情報を表示するために、図７のコンピュータシステム７００は、グラフィックサブシステム７２０と、表示部７０８とを有する。表示部７０８は、陰極線管（ＣＲＴ）表示、液晶表示部（ＬＣＤ），その他の好適な表示装置、またはユーザが本発明の方法を見ることを可能とする表示手段を含んでいてもよい。グラフィックシステム７２０は、テキストおよびグラフィック情報を受信し、表示部７０８に出力するために処理する。表示部７０８は、構成要素のインターフェースを表示、および／またはユーザインターフェースの一部であるその他の情報を表示するのに使用することができる。この表示部７０８は、本発明の方法が直接的にそして実用的に表示部７０８と入力装置７１０を通して実施できるので、本発明の方法の実用的な応用を提供する。図７のシステム１０は、音声システム７２２を有していてもよい。一実施形態においては、音声システム７２２は周辺機器７２４に見つけることができるマイクロフォンからの音声信号を受け取るサウンドカードを有する。さらに図７のシステムは、出力装置７１８を有する。好適な出力装置の例として、スピーカー、プリンター等を含む。

図７のシステムは、ネットワーク７２８（例えばインターネット）に接続したネットワーク・インターフェース７２も有する。遠隔のユーザまたはシステム７３０は、ネットワークのいたるところからプロセッサ７０２を実行する分類と読み出し方法にアクセスできる。

図７のコンピュータシステムに含まれる装置は、汎用のコンピュータシステムに通常みられるものであり、当該技術分野でよく知られるこのようなコンピュータ構成要素の広い範疇を示すことを意図する。図７のシステムは、本発明の方法を実際に実施するために用いることのできる一つのプラットフォームを示す。アップル・コンピュータ社から市販されているマッキントッシュベースのプラットフォーム、異なるバス構成を有するプラットフォーム、ネットワーク化されたプラットフォーム、マルチプロセッサプラットフォーム、その他の個人用コンピュータ、携帯式プラットフォーム（携帯型電子辞書、翻訳機など）、ワークステーション、メインフレーム、ナビゲーションシステム等のその他数多くのプラットフォームで十分である。

別の実施形態は、コンピュータシステム７００と併用して、ＣＲＴディスプレイ、ＬＣＤディスプレイ、投射型ディスプレイ等のモニターのためのその他の表示手段をさらに含む。同様に、メモリ７０４以外の各種同様の種類のメモリを使用してもよい。構成要素インターフェースに加えて、その他のインターフェース手段も使用することができ、英数
字キーパッド、絵尾の他のキー情報、またはマウス、トラックボール、タッチペン、カーソル、または方向キー等の各種ポインティングデバイスを含む。

さらなる実施形態は、本発明のインターフェース接続方法を実施するためにコンピュータをプログラミングするのに使用できる、保存された命令を有する保存媒体（複数の媒体）であるコンピュータプログラム製品を含む。この保存媒体は、これらには限られないが、フロッピーディスク、光学ディスク、ＤＶＤ、ＣＤＲＯＭ，磁気光学ディスク、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気または光カード等の各種ディスク、あるいは電子命令の保存に適する各種媒体を含むことができる。

コンピュータ可読な媒体（複数媒体）のいずれにも保存して、本発明は、汎用／専門コンピュータまたはマイクロプロセッサハードウェアの両者を制御、またはコンピュータまたはマイクロプロセッサがヒトのユーザまたは本発明の結果を利用するその他の機構との情報のやりとりを可能にするソフトを含む。このようなソフトとして、これらには限らないが、装置駆動部、オペレーティングシステムやユーザアプリケーションが挙げられる。究極的には、このようなコンピュータ可読媒体は、上述のような本発明のインターフェース接続の方法を実施するソフトをさらに含む。

方法を実行、または上述のような電子辞書またはＬＳＣを実装するためのユーザデバイスまたはシステムは、以下のもののうちの一つ（あるいは一つ以上を組み合わせたもの）等の携帯式電子装置でありうる。すなわち、ウェブ対応装置、ワイヤレス電話送受話器（例えば、アップル社のｉＰｈｏｎｅ（登録商標））、Ｂｌａｃｋｂｅｒｒｙ、Ｐａｌｍコンピュータ
デバイス等の携帯情報端末（ＰＤＡ）、携帯式コンピュータ、ラップトップコンピュータ（またはタブレット型コンピュータ等のその他の種類の携帯型コンピュータ）、スマートフォン、ｉＰｏｄ（登録商標）、ＭＰ３プレーヤ、あるいは電子ブックリーダー等のデジタル・メディア・プレーヤー、携帯型のゲーム機、個人用ナビゲーション装置、統合デバイス等である。このユーザデバイスは、ＩＢＭ互換性のパーソナルコンピュータあるいはアップル社のＭａｃ等のデスクトップ型コンピュータであってもよい。一般に、現在知られているかあるいは後に開発された装置、または上述の機能を実行できる装置を組み合わせたものは、本発明の実施形態と共に使用できる。

本発明のソフトウェアの実施形態は、購入（あるいはそのアプリケーションプロバイダによっては無償で要求）したり、有線またはワイヤレスネットワークを介してユーザの装置にダウンロードできる。アップル社のＡｐｐＳｔｏｒｅは、携帯式装置にソフトをダウンロードするためのシステムの一例である。

収益共有／データセキュリティの概要

実施形態により、異なるデータプロバイダにより提供され、モジュール式の語彙サービスシステムでの使用のための異なるデータ構造を有する語彙集や語彙データベースを統合することを可能にする。当初は、このことは一般に語彙データまたはＮＬＰモジュールの異なる作成者は競合者であるので、このことは苦境を示すように見える。どうして彼らが自分のデータやモジュールを一つのシステムにプールしたいと思うだろうか？この問題は、当該システムのマーケティングを商業的に実行可能なものとすることのできる実施形態の四つの特徴により解決できる。

１）上述のようなデータ記述モデル（記述コードを含む）や構文解析ツールシステム（ヘッダファイルを含む）であり、これらにより異なる構造を有するデータを、第３者からの語彙データを組み込んで表示するための対応するアプリケーションフレームワークと共に、一つのシステムに組み込むことを可能となる。

２）コード化により達成されるデータセキュリティならびに異種のソースからのデータファイルのロック

３）ワンストップショッピングおよび使用能であり、これにより広範な適合語彙データソースがユーザに利用可能となる。

４）相互に有益な資金調達−ＬＳＣの実施形態を、そのＬＳＣシステムのライセンサーと語彙データの販売者の両者にとって経済的に魅力のあるものにすることのできる収益共有システムであり、このようなＬＳＣをＯＳに組み込み、語彙データの異種ソースを利用可能にすることで生み出される莫大な利益を両者が活用できるようにするものである。

この入力方法のデータ共有モデルを実現可能にするのは、この固有な要素の組み合わせである。これらの重要な態様のうちの３つーつまりデータセキュリティ、ワンストップショッピング、およびデモ使用機能と相互に有益な資金調達（収益共有）を以下に述べる。

図９は、収益共有およびデータセキュリティ機能を有する例示的なＬＳＣの図である。特に、このシステム９００は、図６に関連して上述の構成要素に加えて、語彙データセキュリティモジュール９０２、起動化コードモジュール９０４、語彙データベースアクセスモジュール９０６、ワンストップショッピング（電子商取引）モジュール９０８、および収益共有モジュール９１０を有するＬＳＣ６０２を含む。さらにまた、ＬＳＣ６０２に接続されるのは、グラフィカル・ユーザ・インターフェース９１４を有するユーザシステム９１２である。このユーザシステムは、ＬＳＣと統合してもよいし、局所的に接続してもあるいは遠隔的であってもよい。グラフィカル・ユーザ・インターフェースは、多様なユーザインターフェーススクリーンおよび上述の要素を表示するのに使用できる。さらにまた、ＬＳＣに接続するのは、ＬＳＣ６０２の収益共有モジュール９１０から収益共有情報を受け取ることのできる、ＯＳプロバイダ９１６および語彙データソースプロバイダ９１８である。多様な構成要素の動作は、以下に述べられている。

データセキュリティ

異なる語彙データプロバイダからのデータは得ることができ、同一コンピュータ上で同時にユーザに利用可能になるので、語彙データソースのプロバイダが自分たちのデータがセキュリティ侵害にさらされることのないように安心できることが大切である。さもなければ、辞書作成者が不法にそのデータを別の辞書作成者から自身のデータベースに組み込むことが可能になる。実施形態は、以下の特徴を備えることでデータを保護する。

１）所定のコンピュータ上の各ＬＳＣシステムは、使用されているコンピュータに結びつく固有のＩＤを有する。

２）ＬＳＣシステムに組み込まれた各語彙データソースは、その特有のＩＤおよびキーを有し、そのＩＤはそのシステム上のその他の語彙データソースとは異なる。

３）ユーザ辞書（ユーザ自身が特定し、システムに組み込んだ単語のみを含む）を除き、そのシステムにインストールされた語彙集は、それらのセキュリティキーがコンピュータのＬＳＣ固有キーと結びついているので、複製したり別のシステムで使用したりはできない。

４）使用していないときは、すべての語彙データファイルは、例えばＢｌｏｗｆｉｓｈ、ｔｗｏ−ｆｉｓｈ、あるいはその他のコードアルゴリズムを用いてコード化できる。

５）語彙データファイルをＬＳＣにより使用しているときはいつでも、その語彙データファイルは、外部プログラムまたはユーザに見られないようにロックされる。

したがって、どのようなときでも、これらの語彙データファイルはコード化（使用していないとき）またはロック（使用時）されていることになる。さらに、これらは最初のインストールで固有のアクセスキーを与えられた場合にのみに作動するので、コンピュータからコンピュータへ複製できない。このキーは、最初のデモ使用または最初のインストールのとき（デモ使用のオプションが利用されていない場合）に与えられる。

ワンストップ・ショッピングおよびデモ使用機能

当然のことながら、語彙集を加えることでデータ入力やその他のＬＳＣシステム機能性をどのくらい改善するかがわからないと、ユーザは追加的入力方法に係る辞書に直ち大金をかけたいとは思わないかもしれない。同時に、現行のビジネス手法においては、語彙データソースは、異種ソースに由来して電子フォーマットで利用可能になっているとは限らないので、見つけることが難しいこともありうる。

この潜在的な欠点に対処するため、本発明のＬＳＣシステムに準拠するすべての語彙データソースが一つのロケーション、例えば、ＯＳインストール用ソフトに添えられているインストール用ＣＤで、または語彙データソースのダウンロードを提供するために設けられているウェブサイトで見つけることができるように「ワンストップ・ショッピング」機能が備わっている。ユーザが所望する言語に関する語彙ソースは、その後コード化されたフォーマットでダウンロードされる。

ユーザが語彙集を試用したい場合、その語彙集ファイルが別のコンピュータに使用されないという「統合キー（マリッジ・キー）」が対象となっているコンピュータに与えられる。続いて、ＬＳＣ装置がそのファイルを復号化するが、その語彙集に対するＳｏｕｒｃｅＷｏｒｄｓが起動解除日が割り当てられる。起動解除日になると、その語彙集は使用できなくなり、その入力は語彙データ集から除去される。ユーザがその語彙集の購入を選択した場合、その語彙集は再起動キーを与えられ、その時点から対象となっているコンピュータで永久的に使用できる。

データセキュリティに対する本発明のアプローチに、どのような数の標準的コードアルゴリズムも使用でき、実際の実装はプラットフォーム依存性である。理想的には、すべてのデータベースが別個のキーを有し、一つのキーが発見されるような起こりそうにない事態においても、その他はセキュリティ侵害されない。しかしながら、コード化をハッカー予備軍にとっての攻撃手段となる可能性を低くするのに十分なくらい安全にできることを容易に示してきた。したがって、語彙データの盗難を防ぐのに十分なセキュリティが提供されている限り、ｂｌｏｗｆｉｓｈまたはｔｗｏ−ｆｉｓｈアルゴリズムが使用されているかはほとんど関係ない。そして、起動および起動解除（デモ使用後）コードは、そのデータがインストールされているコンピュータに固有であるので、起動あるいは再起動コードを人々が共有することは不可能である。

同時に、その他のどのような種類のＮＬＰモジュールも、ワンストップ・システムで利用可能にすることができる。モジュールは、上述のＬＳＣインターフェースに準拠しなければならない。したがって、様々なテキスト−音声、音声−テキスト、入力方法、手書き認識、および光学的文字認識モジュールがこのようにしてさらに利用可能にすることができる。

収益共有

ＯＳプロバイダおよび語彙データプロバイダにとってＬＳＣシステムの作成およびホスティングを良好にするには、様々な金銭的な取り決めができる。しかしながら、好ましくは、購入された各語彙集について、ＯＳプロバイダはそのＬＳＣシステムの使用許諾の価格を相殺するのに役立つ小額の使用料の取り分を受け取る。この語彙集プロバイダもまた、小額の使用料の取り分を受け取る。このＬＳＣシステムの使用権許諾者は、直接ＯＳプロバイダにより支払われるか、あるいは購入された各語彙集ごとに同様の使用料の取り分を支払われることができる。ＬＳＣと語彙集プロバイダがそのデータを提供する、「互いに有利な」資金調達または収益共有である。さらには、外部ＮＬＰモジュール開発者がそのインターフェースに固執する場合。

支払い方法と支払い保証

理想的にはユーザが対象となっている語彙集についての永久的な起動コードを得ることができるように、支払いはインターネットを通じて行う。どのような一時的なデモ使用用起動コードは、無償で提供することができるが、これらのコードは限定的な使用またはアクセス性を、所望のそのような限定的な使用をも解除するために提供される手段と共に提供するものである。理想的には、語彙集のプロバイダやＯＳプロバイダ、ならびにＬＳＣシステムプロバイダのすべてに、購入がなされた時点で通知されるので、どのくらいの使用料が与えられるかについての争いがない。

安全面ならびにこれらの三当事者のいずれにも詐欺が確実に起こらないようにするために、ユーザが語彙集に対して支払う場合に、確認コードをすべての三つの当事者により提供することができる。別個の確認コードを利用することで、語彙集が購入された際に、各当事者に通知され、したがって各当事者がその利益のうちの合意した取り分を受け取ることを確実にする。

操作上は、ユーザはウェブまたはインストール用のＣＤから語彙集モデルをダウンロードまたはインストールする。その後ユーザは、（所望の場合は）その製品のデモ使用を、デモ使用用の起動コードの提供時に、選択する。この時点では、この語彙データは、そのシステム上で固有なＬＳＣに「結び付けられて」いる。ダウンロードされた語彙集から得た単語は、一時的にそのシステム中の語彙データ集に一時的に保存される。デモ使用期間がきれると、そのデータはそのデータ集から除去される。

その後、このユーザはその語彙集を購入してもよい。購入の際には、そのＯＳプロバイダ、語彙集プロバイダ、ならびにＬＳＣサービスプロバイダは、その購入について通知される。再起動（永久）キーが提供され、そのデータはここで再度その語彙データ集に組み込まれる。理想的には、この再起動キーはオンラインでの購入であるが、このようなアクセスのない場合には、オフラインでの購入取引も利用可能にしていてもよい。

このユーザは、どのセットの区別されたデータを自動的に利用可能にし、どれをデフォルトとして隠しておくかを選ぶことができる。ブロックデータに関しては、そのような選択はない。ブロックデータは、表示用に選択された場合、一単位として示される。

語彙データの追加購入は同一の原理に従い、データは前述の実施形態に記載のようにシステム内の語彙データ集に組み込まれる。

追加のＮＬＰモジュールを購入してもよい。上述のインターフェースに準拠するとして、これらすべては語彙サービスセンターにプールされた語彙データを活用することができる。

別の実施形態においては、非ＣＪＫ言語をこの言語システムに組み込むことができる。上述の実施形態では、東アジア言語学習者やユーザのニーズに焦点をあてており、この語彙サービスセンター（ＬＳＣ）の特徴の多くが、その筆記システムがアルファベットのスクリプトのある形式に基づいているものを含めて、実際は別の言語のユーザや学習者にも同様の好結果で適用できる。したがって、例えば、ＬＳＣのコンピュータベースおよび電子機器ベースのバージョンの両者が、西洋の言語に適用できることになる。この目的を達成するには、システム内の語彙データ集に使用されるデータは対象となっているスクリプトに準拠してスペル順に並べられている必要はない。

大部分については、そういつの基本的フレームワークやデータ構造が、上述のＣＪＫ志向のＬＳＣシステムとして適用できることになる。しかしながら、非ＣＪＫシステムに対する実装では、図７に示されるように、いくつかの変更が必要となる。

手書き認識モジュール、光学的文字認識モジュール、および入力方式モジュールはすべて、テキストストリームを有するインターフェースであり、好ましくは、対象となっている言語の標準的な正字法で表現される。文字の認知シークエンスは、実際の綴りについての形態学的構文解析ツールに対して、検査される。（これは、ＣＪＫシステムがローマ字化バッファ（ピンインやローマ字等）を入力されているものの読みを表現するのに使用している点でＣＪＫシステムとは異なる。）その一方で、テキスト−音声ならびに音声−テキストモジュールは、ＣＪＫバージョンと同じ種類の音素のストリームとインターフェースで接続し、この場合にのみ、表現は実際の綴りとならない可能性が高いが、ある形式の音声的または音素的表現となる。同音異字の現象のため、このような表現は、綴られるさいにありとあらゆる可能な単語に対して設計することが重要である。（例えば、ある英語の方言では、「ｃｏｔ」と「ｃａｕｇｈｔ」の読みは同じであるが、同一の音素的表現を有する。このことを可能にするには、システム内の語彙データ集も、実際の正字法による綴りのみでなく、テキスト−音声または音声−テキストモジュールで認識されるであろう音素的ストリームの相当物も有していなければならない。同様に、派生則は、語形変化や派生語を標準的な正字法（その言語の綴り字方式）と音素的ストリームインターフェースで使用される音素的表現の両者で表現する機能を有することになる。このＮＬＰモジュールのＬＳＣを有するこれらのインターフェースとの関係を図７に示す。（このシステムの目的が、例えば、中国語を母国語とする人に対する英語支援を提供する場合は、文字ベースのインターフェースもＣＪＫバージョンの場合のように含めることができる。）

標準的な入力方法で通常実施されない様々な機能は非ＣＪＫ実施形態に適用することができる。例えば、ユーザ入力を追跡することで、ユーザの語彙用法の評価や標準的な使用頻度数との比較が可能となる。このようにすることは、特に、ユーザが語彙で多大なまたは驚愕するほどのギャップ（第２言語学習者には珍しいことではないこと）が明らかとなっている場合に有益である。文法または綴り字支援も、各単語入力が形態学的構文解析ツールに対して検査されると、オンザフライで利用可能である。予想される語形変化した形式のいずれにもマッチしない単語は、その時点で見直し用に印をつけておくことができ、可能なマッチを別のフローティングパレットまたはその他のＧＵＩにオンザフライで提供できる。このユーザは辞書に対する即時の悪性巣をゆうし、いくつかの辞書は２ヶ国語で、ユーザはＣＪＫバージョンでのように、単語を逆引きできる。要するに、ＣＪＫ志向性ＬＳＣを実施する際に達成されるのに同様な非ＣＪＫ言語の学習者のためのこのようなアプローチを適用するのに、多くの教育的長所がある。

要約すると、ＬＳＣは、中国語、日本語、および韓国語以外の言語のための入力方法とその他のＮＬＰモジュールに適応できる。

上述の工程のいずれもが、意図する言語データ管理タスクを実行するために、すべてまたはその一部を繰り返してもよいことは理解されよう。さらには、上述の工程は単一または分散プロセッサで実行してもよい。さらにまた、上記実施形態に関する様々な図で記載したプロセス、モジュール、およびユニットも、複数のコンピュータまたはシステムにわたって分散していてもよく、あるいは単一のプロセッサまたはシステムに共に配置してもよい。

言語データ管理のための前記方法、システム、およびコンピュータプログラム製品（すなわち、ソフトウェア）実施形態は、汎用コンピュータ、特殊用途用コンピュータ、プログラム化されたマイクロプロセッサ、またはマイクロコントローラと周辺集積回路要素、ＡＳＩＣまたはその他の集積回路、デジタル信号プロセッサ、ディスクリート要素回路等のコンピュータに組み込まれた電子または論理回路、ＰＬＤ、ＰＬＡ、ＦＰＧＡ、ＰＡＬ等のプログラム化された論理装置上で実施してもよい。

さらには、本開示方法と言語データ管理のためのコンピュータプログラムの実施形態は、例えば、様々なコンピュータプラットフォームに使用できる携帯式のソースコードを提供するオブジェクトまたはオブジェクト志向性ソフトの開発環境を用いるスフとウェアで、すべてまたは部分的に容易に実施できる。代わりに、言語データ管理のための開示した方法、システム、およびコンピュータプログラム製品は、例えば、標準的な論理回路またはＶＬＳＩ設計を用いるハードウェアにおいて部分的またはすべて実施できる。それらのシステムの速度および／または効率についての必要条件、特定機能、および／または特定のソフトウェアまたはハードウェアシステム、マイクロプロセッサ、または使用するマイクロコンピュータシステムに応じて、実施形態を実施するのにその他のハードウェアまたはソフトウェアを使用できる。言語データ管理のための方法、システム、およびコンピュータプログラムの実施形態は、既知または本願明細書で提供される機能に関する記載とコンピュータおよび／または言語分野に関する基本知識から後に開発されたシステムまたは構造体、装置および／またはソフトウェアを用いて、ハードウェアおよび／またはソフトウェアにおいて実装できる。

さらには、言語データ管理のための開示された方法、システム、およびコンピュータプログラム製品は、プログラム化された汎用コンピュータ、特殊用途用コンピュータ、マイクロプロセッサ等に実装できる。さらにまた、本言語データ管理システムおよび方法は、ＪＡＶＡ（登録商標）またはＣＧＩスクリプト等のパーソナルコンピュータに埋め込まれたプログラムとして、サーバまたはグラフィックワークステーションに備わっているリソースとして、専用のプロセッシングシステムに埋め込まれたルーチンとして等、実施できる。これらの方法とシステムは、ソフトウェアおよび／またはハードウェアシステム、例えばコンピュータ・ソフトウェア・プログラム、電子辞書、および／または翻訳機に物理的に組み込むことでも実施できる。

したがって、本発明により、言語データ管理のための方法、システム、およびコンピュータプログラム製品が提供されることは明らかである。本発明はいくつかの実施形態とあわせて記載したが、この応用分野に関する当業者には多くの修正、変更、ならびに改変が明らかであろうことは明白である。したがって、本申請者は、本発明の精神および範囲を逸脱しないこれらの修正、変更、相当物、および改変も含むことを意図する。

Claims

様々なソースに由来する語彙データ集を、一つ又は複数の自然言語処理モジュール（ＮＬＰモジュール）で利用可能な中央語彙データ集に統合する方法であって、
語彙データ構造種類を特定するデータ構造識別コードを設立する工程と、
語彙データ分類を特定する語彙データ分類コードを設立する工程と、
一つ又は複数の語彙データ集を組み込むことにより成立する前記中央語彙データ集を蓄積するように構成された中央語彙データストアを提供する工程と、
前記データ構造識別コードにより特定されたデータ構造に対応するテーブルを、中央語彙データテーブル構造に提供する工程と、
前記語彙データ分類に対応するフィールドを前記該中央語彙データテーブル構造に提供する工程と、
前記様々なソースから語彙データを読込む時に生成される可能性がある冗長性を削減するように、前記中央語彙データテーブル構造を構成する工程と、
ソースの語彙データに使用された構造を示す一つの又は複数の前記データ構造識別コード、及び、当該語彙データにおいて代表される前記語彙データ分類を示す一つ又は複数の前記語彙データ分類コード、を列挙したヘッダーを、前記語彙データ集に対して提供する工程と、
前記語彙データ集に存在するデータ項目の各々に対して、当該データ項目の前記語彙データ分類を特定する語彙データ分類コードを提供する工程と、
前記語彙データ集を獲得する工程と、
前記語彙データ集を読込む工程と、
前記中央語彙データ集に冗長性を生成する可能のある関連を回避しながら、前記語彙データ集の前記ヘッダーに提供されている前記データ構造識別コードに従って前記読込んだ語彙データ集のデータ項目の各々を前記中央語彙データテーブル構造における対応するテーブルと関連させ、前記データ項目に提供した前記語彙データ分類コードに従って前記読込んだ語彙データ集のデータ項目の各々を前記中央語彙データテーブル構造の一つ又は複数のフィールドと関連させることにより、前記語彙データ集を前記中央語彙データ集に組込む工程と、
その後の全ての語彙データ集に対して、前記語彙データ集にヘッダーを提供する工程と、前記語彙データ集に存在するデータ項目の各々に前記語彙データ分類コードを提供する工程と、前記語彙データ集を獲得する工程と、前記語彙データ集を前記中央語彙データ集に組込む工程と、を繰り返す工程と、
前記中央語彙データストアに、上記の工程の結果として生成された中央語彙データ集を蓄積する工程と、を備える方法。
特定の語彙データフィールドを、検索可能なキーフィルドとして指定する工程と、
前記一つ又は複数のＮＬＰモジュールのうちの一つ又は複数を操作する間に、前記検索可能なキーフィルドにより前記中央語彙データ集から語彙データを検索する手段を提供する工程と、
前記複数のＮＬＰモジュールのうちの一つ又は複数を操作する間に、前記検索された語彙データを利用する手段を提供する工程と、を更に備える、請求項１に記載の方法。
前記データ構造識別コードは、前記語彙データ集のデータ構造が平坦状であるか階層状であるかを示すものである、請求項１又は請求項２に記載の方法。
前記データ構造識別コードは、語彙データフィールドが単項であるか複項であるかを示
すものである、請求項１又は請求項２に記載の方法。
前記語彙データ分類コードは、漢字画数、端点数、部首、部首でない主要構成要素、品詞、品詞のサブタイプ、主要定義、副次的定義、熟語的用法、同意語、反意語、例文、用法に関する注意、解字に関する情報、頻度順位、教育順位、第二言語による定義及び第二言語への翻訳のうちの少なくとも一つを特定するコードである、請求項１又は請求項２に記載の方法。
前記語彙データ分類コードは、単語の品詞、品詞のサブタイプ、主要定義、副次的定義、熟語的用法、同意語、反意語、例文、用法に関する注意、解字に関する情報、頻度順位、教育順位、第二言語による定義及び第二言語への翻訳のうちの少なくとも一つを特定するコードである、請求項１又は請求項２に記載の方法。
前記ＮＬＰモジュールは、音声認識モジュール、光学式文字認識モジュール、電子辞書モジュール、翻訳モジュール、テキスト入力モジュール、スペルチェッカーモジュール、漢字検索モジュール、マウスオーバーモジュール、単語検索モジュールのうちの一つ又は複数を含み、
前記様々なソースに由来する前記語彙データ集は、
別個に提供された独立した語彙データ集、及び、前記一つ又は複数のＮＬＰモジュールのうちの何れかと関連付けられ、当該ＮＬＰモジュールで使用されるべく提供された語彙データ集、のうちの一つ又は複数を含む、請求項１又は請求項２に記載の方法。
前記中央語彙データテーブル構造の前記テーブル及び前記フィールドは、どの語彙データ集がデータ項目のソースとなっているか示す情報を記録するように構成され、
前記語彙データ集の前記ヘッダーに提供されている前記データ構造識別コードに従って前記読込んだ語彙データのデータ項目の各々を前記中央語彙データテーブル構造における対応するテーブルと関連させ、前記データ項目に提供した前記語彙データ分類コードに従って前記読込んだ語彙データのデータ項目の各々を前記中央語彙データテーブル構造の一つ又は複数のフィールドと関連させる工程の間に、
前記データ項目の前記ソースを、当該データ項目と共に記録し、
どの前記語彙データ集を前記中央語彙データ集に組込むかをユーザが選択可能なグラフィカルユーザーインターフェースが提供され、
選択された語彙データ集に由来する語彙データは、「使用可」と指定され、前記中央語彙データ集から語彙データを検索する工程の間に検索され、
選択されなかった語彙データ集に由来する語彙データは、「使用不可」と指定され、前記中央語彙データ集から語彙データを検索する工程の間に検索されない、請求項１又は請求項２に記載の方法。
前記中央語彙データ集に存在する語彙データが使用可又は使用不可であるかは、前記ユーザが前記語彙データを使用する許可を得ているか否かによって決定される、請求項８に記載の方法。