JP2016186805A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2016186805A5 JP2016186805A5 JP2016124051A JP2016124051A JP2016186805A5 JP 2016186805 A5 JP2016186805 A5 JP 2016186805A5 JP 2016124051 A JP2016124051 A JP 2016124051A JP 2016124051 A JP2016124051 A JP 2016124051A JP 2016186805 A5 JP2016186805 A5 JP 2016186805A5
- Authority
- JP
- Japan
- Prior art keywords
- data
- vocabulary
- vocabulary data
- central
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000875 corresponding Effects 0.000 claims description 22
- 238000003058 natural language processing Methods 0.000 claims description 21
- 230000003287 optical Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 13
- 230000000877 morphologic Effects 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000004913 activation Effects 0.000 description 10
- 230000015654 memory Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 150000001875 compounds Chemical class 0.000 description 6
- 238000009795 derivation Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000010348 incorporation Methods 0.000 description 6
- 230000002093 peripheral Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000002194 synthesizing Effects 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 239000000654 additive Substances 0.000 description 5
- 230000000996 additive Effects 0.000 description 4
- 230000001419 dependent Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006011 modification reaction Methods 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 230000000153 supplemental Effects 0.000 description 3
- 241001441724 Tetraodontidae Species 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000295 complement Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000002708 enhancing Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002633 protecting Effects 0.000 description 2
- 235000009470 Theobroma cacao Nutrition 0.000 description 1
- 240000000280 Theobroma cacao Species 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000001010 compromised Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000001537 neural Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000644 propagated Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000576 supplementary Effects 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000001960 triggered Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Description
本出願は、2007年11月26日提出の、「分類、検索、および読み出しを容易にするための漢字系文字および文字構成要素の分類するための方法、装置、およびソフトウェア」と題する米国特許仮出願第60/990,123号、2007年11月26日提出の「電子コンテンツにおける中国語、日本語、および韓国語の言語データのモジュール型管理法」と題する米国特許仮出願第60/990,166号、および2007年11月29日提出の「分類、検索、および読み出しを容易にするための漢字系文字および文字構成要素を分類するための方法、装置、およびソフトウェア」と題する米国特許仮出願第60/991,010号に基づく優先権を主張し、ここでこれらの各々の全内容を参照により本出願の一部とするものとする。
本出願の典型的な実施形態は、一般にコンピュータやその他の電子的環境における言語的機能を高める方法および装置に関し、特に中国語、日本語、および韓国語の言語データを電子的形態で扱うシステムおよび方法に関するものである。
中国語、日本語、および韓国語(CJK)表記体系は、それぞれ中国の漢字に由来する、または、見た目が漢字によく似ている多数の文字を使用する。このため、キーの数に限りのあるキーボードを用いて漢字系の文字をコンピュータに入力(あるいは検索)できるようにする様々な手法が工夫されている。このような従来の入力手段は、通常は入力方法と呼ばれ、キーボード、タッチペン付きグラフィックタブレット、テンキー等の各種入力方法が考案されている。
目標文字を入力するためのキーボードを用いた入力方法における操作は、通常3つの主要原理に基づく。すなわち、(1)目標文字が含む形に対応する一連のキーをタイプする、(2)目標文字や単語の読みに対応する一連のキーをタイプする、あるいは(3)目標文字の基本形を構成する筆画に対応する一連のキーをタイプする。一連のキーをタイプすると、通常は候補文字や単語が、テキスト系のアプリケーション(例えば、ワードプロセッサや電子辞書)または入力用の別ウィンドウ等に表示される。そしてユーザは、望ましい候補文字や単語を、通常は望ましい候補に対応する番号をタイプして選択し、その文字や単語を作成中のテキストの一部とする。場合によっては、従来システムは、形態的または構文的情報を用いることにより、候補リストの削減または意図する単語の「推測」試みることもある。
入力の別の形態として、印刷されたページ上の文字列をスキャンし、自動的に読み取る光学的文字認識、入力用タッチペンを用いて文字が手書きされた時点で認識用ソフトウェアが自動的に手書きの筆画を読み取り文字に変換する手書き認識、および話された音声データをテキストに変換する音声−テキスト変換等がある。さらにまた、適当なソフトウェアを用いてテキストを音声に変換することもできる。
新しい入力技術の開発に伴う進歩にも関わらず、数多くの欠点が今なお残ってる。以下に記載するように、本発明の一つまたはそれ以上の実施形態は、従来の入力方法やその他の言語サービスにおける欠点、問題、および制約の観点から考案されたものである。
一般に、電子辞書や入力方法においては、使用された単語の語彙集を保存するデータソースをユーザーが管理することを認めていない。この結果として起こる語彙データ不足が、例えば固有名詞や技術用語の検索または入力を困難にする。地名、固有名詞、および技術用語は、このような語彙集にないことが多く、入力が煩わしいものである場合が多い。
入力方法や電子辞書に用いられる語彙データソースは、一般に大変限られており、通常メーカーによってあらかじめ決められている。従来のシステムまたは入力方法では、異なるメーカーのデータソースを組み合わせることができず、また、入力中に表示されるデータの種類を選択することもできない場合がある。さらにまた、従来のシステムは異なるデータ構造の語彙データソースに対応していないこともある。通常、見出し語は、その電子辞書または入力方法がリンクされている元の辞書に示されている通りに、モノリシックのテキストブロックとして表示される。
特に、従来の語彙サービスシステムは、モジュール性にも欠けている場合がある。具体的には、従来のシステムでは、異なる種類の第三者による言語サービスへのアクセスまたはリンクが容易にできない場合がある。従って、例えば、入力方法と辞書、あるいは音声−テキストモジュールと入力方法との間に何のつながりもない場合がある。
従来のシステムや方法では、入力中に文字が正確であるかを素早くチェックする簡単な手段がほとんどまたは全く提供されていない場合がある。従来のプログラムには、混同されがちな文字や単語を示すものもあるが、ハイライトされた単語はあらかじめ記しがつけられたものである。希望する文字または単語辞書に自由にアクセスできなかったり、異なるデータを得るために一つ語彙ソースから別のものに切り換えることも容易にできない場合がある。
従来のシステムにおいては、一般に部首や音声的な発音による文字検索が可能である。このような方法による文字検索は、煩雑なこともある。従来の文字検索システムおよび方法に代わる実行可能な代案が、本出願と同日にワレン・ダニエル・チャイルドが出願した「漢字系文字および文字構成要素の分類および読み出しのためのシステムと方法」と題する同時係属中の特許出願において論じられている。ここで、同出願を「文字検索出願」と称し、当該出願の全内容を参照により本出願の一部とする。
従来のシステムおよび方法では、単語の種類により入力候補を容易に識別することがほとんどあるいは全くできないことがある。多数の同音異義語の候補が出てきた場合、一般にユーザーは数多くの候補の中から自分が希望する単語を見つけ出さなければならない。希望する単語を選ぶ上でユーザに大いに役立つにもかかわらず、異なる種類の名詞(普通名詞または固有名詞)または異なる品詞を識別するように、異種単語を容易に識別する方法はないであろう。
従来のシステムまたはソフトウェアにおける新規単語(ユーザ単語)登録機能は、通常不十分である。一部のシステムにおいては、名目上はユーザによる独自の単語登録が可能となっている。しかしながら、このプロセスは面倒である場合が多く、システムによる補助が全くまたは殆どないまま、通常、ユーザ自身による単語の手動入力を要する。
従来のシステムや方法では、自動構文解析や登録機能に関する管理がが不十分であるのが一般的である。システムによっては、その辞書に含まれていない新規の文字組み合わせを識別するが、一般に単語と語句とを識別せず、ユーザが最終的な登録内容を編集することもできない。この結果、大量の誤った候補でシステムがいっぱいになり、簡便なテキスト入力の妨げとなり得る。
従来のシステムおよび方法では、検索および入力中に声調記号に係る柔軟性がほとんどあるいは全くない。外国人ユーザによる中国語入力方法の用においては、単語や文字の声調について不確かであるために検索および入力に困難を生じる場合が多く、中国語を母国語とする人々でも方言による声調の違いにより苦労する場合がある。しかしながら、声調を一切使用しないと候補が多くなりすぎるという問題を生じる。例えば、米国特許第5,594,642号では、声調ありまたは声調なしの入力を可能にする入力方法の構成が記載されているように見えるが、どのようにこれを達成するかについては記載されておらず、開発者がこの問題に対処するよう示唆している。さらにまた、同5,594,642号の明細書では、本発明の一つまたはそれ以上の実施形態で開示されているような、部分的な声調指定を用いるという多くの場合に有用な手法に関するマッピングを提供しているようにもみえない。
従来のシステムおよび方法では、使用するコーディングの管理がほとんどまたは全く行われていない。さらに、従来のシステムおよび方法では、本来意図された文脈以外の文脈における語彙データへのアクセス能力がほとんどまたは全くない場合がある。従って、例えば、入力方法および辞書は、スクリーン上でマウスポインターを単語上にもっていき、当該単語に関する語彙情報を得るために使用することはできない。その結果、従来のシステムには有意量のデータが保存されていたるとしても、テキストにすでに入力されている単語に関する情報を探し出すためのアクセスは容易ではない。このアクセス性の欠如は、潜在的なリソースの無駄となりうる。
従来のシステムおよび方法においては、外部自然言語処理(NLP)システムによる語彙データの共有を可能とする一貫したインターフェースを提供していないものもある。結果として、手書き認識、光学的文字認識、音声−テキスト変換、テキスト−音声変換、およびキーボード入力のいずれもが、従来別個のシステムとして機能し、それぞれがデータストアを有する傾向がある。さらにまた、本願明細書記載の実施形態とは対照的に、従来のシステムおよび方法においては、OS開発者、言語データ提供者、ならびにIM(入力方法)開発者間で協力し、異なるソースからの多様な形態の語彙データのモジュラー組み込みを可能にする合成システムを導入することにより発生する収益を共有したりするための、収益共有システムが提供されない場合もある。さらに、従来のシステムおよび方法においては、上述のような収益共有システムの実行に必要あるいは望ましいレベルのデータセキュリティが提供されない可能性がある。
実施例は、単純および複雑なデータ構造の両者への対応、データの接続性、統合、およびアクセス性の向上、データ盗難の防止、新規の単語および語句の語彙データソースに組み込みの補助、およびテキスト入力機能の向上を可能にする。さらにまた、言語サービスセンターとして導入した場合、実施例は、様々な第三者的自然言語処理モジュールとインターフェースで接続可能であり、これにより光学的文字認識、手書き認識、音声−テキスト変換、テキスト−音声変換等を提供する。収益共有およびデータセキュリティとしての実施例は、語彙データ開発者、モジュール開発者、OS提供者、言語サービスセンター(LSC)提供者、およびユーザのいずれにとっても相互に有益な形で語彙データやサービスモジュールをシステムに提供するように、語彙データ提供者や言語サービスモジュール開発者を促すことを可能にする。また、より高度なテキスト入力機能を提供する実施形態もある。
一つまたはそれ以上の実施形態は、語彙データ分類を記号付けする手段、全く異なるデータ構造を有する語彙集をモデル化する手段、別個の語彙集から集積したデータ集にデータをためる手段、全く異なるデータソースを統合目的で高度処理で、作成、取り込み、および内部で構成する手段、参加ユーザからデータを収集する手段、および手書き認識、光学的文字認識、キーボード入力、およびテキスト−音声変換と音声−テキスト変換のための特定のインターフェースを提供する。一つまたはそれ以上の実施形態はまた、複雑な語彙データ構造および単純な語彙データ構造の両者を組み込み、このような全く異なるデータソースを高度な方法で統合し、このようなデータに対するより高度なアクセス性を提供し、データ表示を向上し、入力機能性を高めることもできる。この入力手段は、個々の文字の検索を容易にするため、同一発明者による文字検索発明の電子的実行とあわせてもよい。一つまたはそれ以上の実施形態は、ある一つのモジュールのユーザがシステム上で提供されている豊富な言語情報を活用できるように、多様な自然言語処理モジュールと連携する言語サービスセンターを含む。結果として得られるシステムは、ユーザが日本語、中国語、または韓国語を電子的な環境で使用するときに通常経験するフラストレーションや不便さを著しく軽減する。
〔プラットフォームおよび実装〕
実施形態は、様々なプラットフォームやオペレーティングシステム上に実装される。実装またはコード化の正確な方法は、ソフトウェア開発言語、APIが使用されている場合その使用されているAPI、その他いくつかの因子に依存しうる。例えば、Mac OS X上で実施形態を実装する場合、本出願作成時点では、CarbonやCocoa APIのエレメントと共に、CおよびObjective−Cを併用するのが好ましい。別のプラットフォームにおいては、別の言語が好ましく、別のAPIを使用する可能性もある。Java(登録商標)等のプラットフォームに依存しない言語を使用することで、ほぼ同じコードを用いた実施形態を一つ以上のプラットフォーム上で作動するように実装することもできる。プログラミング分野の当業者は適切な言語およびAPIを使用して様々な形で実施形態を実装可能であるため、実装の詳細に関する記載は、実施形態の説明に必要ない範囲において省略している。従って以下の記載では、例示的な実施形態の機能および特性を記載および例証することに焦点をあてている。関連分野の当業者であれば、特定のプラットフォーム上及びオペレーティングシステム上の制約に即して実施形態を実装することができるであろう。プラットフォームに特異的であることの多いソフトウェアコード自身は、本明細書では説明していない。本明細書では、むしろ、例示的な実施形態を説明、描写、例証するためのアーキテクチャや設計の詳細が説明される。
以下、様々な実施形態について図1〜6を参照しながら説明する。以下に述べる実施形態のうち最初の五つは、次の1)〜5)を含む特性を有する。すなわち、1)単純な語彙データソースおよび複雑な語彙データソースを統合する能力、2)向上したデータ統合およびアクセス性、3)改善された入力表示、4)データ内容の向上、5)改善された入力機能性である。別の実施形態では、前述の実施形態のすべての機能および特性を統合し、外部自然言語処理モジュールと連動された言語サービスセンターとしている。別の実施形態は、システムまたは方法別の実施形態と併せてが商業的に魅力的なものとなるように、他の実施形態との関係において用いる収益共有、データセキュリティ特性、および語彙データアーキテクチャーを有する。更に別の実施形態は、非CJK(中国語・日本語・韓国語)言語に重点を置いた言語サービスセンターを実装するものである。
当然のことながら、明確にするために様々な実施形態を個別に示し、説明している。以下に記載するように、すべての特性を同一システム内で組み合わせることが好ましい。これらの実施形態は、理解の促進を目的として示されるものであり、すべての実施形態あるいは実施形態の組み合わせを示すことを意図しているものではない。
実施形態の操作は、利用可能な言語サービスモジュールのうちいくつが当該システムに組み込まれているかなど、いくつかの因子に依存する。たとえば、基本的な機能の一つとして、電子辞書のように、単語や文字を検索する能力が期待される。さらに、システム中に入力方法が組み込まれる可能性が高い。これら二つの基本的な言語サービスに共通していることは、検索および取得である。
韓国語や日本語のような言語では、一般的な検索の方としては、対象となる単語や文字の読みに対応する英文字列を入力し、その後適切な時期にスペースバーを押すことにより、候補となる単語を表示する。中国語の場合、これに代わり、プロのタイピストが文字の形に基づいた特殊な入力方法を用いるかもしれない。しかしながら、そのような方法は非常な訓練を要し、ユーザの多くは日本語および韓国語に用いられる基本原理と同一の基本原理による音声ベースの入力方法用いている。実施形態は、音声に基づいたテキスト入力を容易し得るものであり、このため中国語においてユーザがピンインまたはボポモフォ(Bopomofo)キー入力のいずれを選択するかは大きな問題ではない。いずれのアプローチでも言語サービスセンター(LSC)により対応可能である。
語彙データ構造の種類
コンピュータにおいて提供される多くの従来の入力方法やその他の言語サービスの主な制約は、利用可能なデータの不足と、使用するデータソースの管理に欠けていることである。このため、実施形態では、異なるプロバイダーにより提供され異なるデータ構造を有する様々な語彙データソースに対応する能力を設定している。この説明におけるデータソースは、単純(平坦)および複雑(階層状)の二種に分類できる。単純(平坦)なデータ構造は記録ごとに通常一定数のフィールドを有する。これとは対照的に、複雑(階層状)データ構造は、各記録内の要素が不特定回繰り返され、記録ごとの構造は多様性を示す。
テキスト入力方法で使用する最低限の設定は、二つの主要フィールドから成り、そのうちの一方は正字法表記の単語(原語で書かれた単語)を表示するものであり、他方は何らかのローマ字形式またはスペルシステムを用い当該単語の対応する音声または音韻表記を表示するものである。これが、基本的な平坦データ構成の例である。
基本的な「ブロック」データ構成は、これら二つの最低限の主要フィールドに、辞書にみられるような補助的な語彙情報を含むテキストブロックを加えたものである。区別されたデータソースには、これら2つの最低限の主要フィールドと共に、情報区分(以下を参照)により構文解析された追加語彙情報が含まれる。さらに、複雑なデータソースは、印刷された辞書と同じような複雑さを示す。一つの実施形態では、データソースが単純であるか複雑であるか、また平坦であるか階層状であるかに関わらず、あらゆる様式のデータソースに対応することができる。
語彙データカテゴリおよびカテゴリ標識手段
通常の辞書に含まれるデータは、入力項目毎にかなり異なることがある。各入力項目として、一つ、またはそれ以上の単語分類(品詞)、一つまたはそれ以上の定義、主要定義や副次的定義、語源情報、発音の手引き等を載せることができる。したがってデータの性質は、標準的なフラットファイルへの容易な組み込みには適していない。これとは対照的に、電子コンテンツ用に通常作成されるデータは、基本的なフラットファイルデータ構造の形をとっているためにかなり制約されているか、あるいは完全に規則的な繰り返しパターンを有する準階層状構造を厳守しがちである。不特定数のデータ構造に対処するには、当該データ構造において期待される情報を分類することが必要である。このことから、表1はCJK文字の辞書で通常見られる情報区分を示し、表2はCJKの単一言語および二言語の単語辞書において通常提供されている情報の区分を示す。これら二つの表は、ここで説明している目的のため、各区分に対応する略号および各区分のインスタンスが複項(M)である可能性が高いか単項(U)である可能性が高いかを示す標識を含む。
(表1):文字データの分類例
(表2):単語データのモデル化例
(表1):文字データの分類例
言語サービスセンターに組み込むために作成したデータについては、上述の分類標示手段を使用することができる。すなわち、上記コードを「タグ」として用い、データの各ユニットについて示されるデータの分類を正しく記載することができる。
データ構造標示
複雑な語彙データ構造は容易にフラットファイルに組み込めないので、本実施形態では、複雑なデータ構造を記述するデータ構造標示手段を提供する。このデータ構造標示手段により、本実施形態では、異なる辞書や語彙データソースから広範なデータを組み込むことができ、これらすべてを同一の言語サービスシステム内で同時に使用でき、かつ円滑に統合できる。
この構造標示手段によると、単項および複項の二種の基本的なデータが認識される。単項データ(「U」で示す)は、単項値(文字列、整数、または別のデータタイプでありうるので、実装における正確なバイナリーデータ種はさして重要ではない)を含む各種変数である。複項データ(「M」で示す)は、(同様にアレイ、リスト、セット等の多様なバイナリーデータ種を用いて実装できる)一つ以上の値を有する要素(entity)である。
このモデルはまた、データがセット状である可能性も認識する。一つのセットは、二種またはそれ以上の種類の、通常同時に生じる情報の組み合わせである。例えば、単語の定義の後に、通常その単語が文脈の中で示す例文やフレーズ語句である。この場合、この定義や例文がセットを構成する。さらにまた、どのようなデータ種でも選択的なもの(ヘッダファイルで星印で示す(以下を参照))として表示する。何が必須で何が選択であるかは、必然的に対象となっている辞書による。
その階層状構造における各レベルには、その階層状構造においてそれよりも下にある、いくつかの別の項目を組み込むことができる。例えば、図1Aは、仮定的な中国語−英語の文字の辞書にあるデータの種類を示す。図1Aでは、セクションを大文字で示し、一つの階層中にあるフィールドを括弧({})内に示す。セクション内の単項フィールドを小文字で、複数の入力項目のあるフィールドは、さらにセクションを構成するので大文字で示す。ここで示す例では、階層状構造の最高レベルは部首セクションであり、最低レベルは熟語である。単項および複項の属性は「U」および「M」でそれぞれ示す。
ヘッダファイルおよび構文解析
言語サービスセンターに多様で複雑な構造を有する異なるデータが組み込まれている場合、ヘッダファイルを用いて取り込む語彙集のデータ構造を表すことができる。図1Bでは、図1Aのデータに関するヘッダによる表示例を示す。図に示すように、その階層状構造における各レベル(1が最高レベル)を示す番号が標示され、その後に丸括弧中に示す当該要素の属性が続く。各要素の属性は、単項または複項で示す。実際には、現実の実行データの種類(例えば、数についてはNSInteger、テキストについてはNSString)を特定してもよい。さらにまた、実際面では、当該データがどのようにもとのデータソース中で標示されているかを示すフォーマットタグが提供される。実行データの種類やフォーマットタグは、プラットフォーム依存性が強くデータがもともとどのように保存されていたかにもよるので、この図では特定していない。さらにまた、セクションと要素変数の両者は、選択項目(星印*で示す)として指定してもよい。規則的に対やグループ(定義やそれに対応する例文等)として提示されるデータの種類を示すセットは、括弧で囲んだり、その他の適当な手段で標示できる(セットは図には示していない)。
内部で、UやMの各データ種は、文字列、整数、実数、バイナリー・ラージ・オブジェクト、文字列のアレイ、バイナリツリー等に関わらず、適当なデータ構造を用いて保存される。本実施形態のデータ構造をヘッダファイルから解釈することで、データをシステム内部でモデル化することが可能になり、さらにはシステムへの取り込み時にデータを正確に構文解析することができる。
最終的には、ヘッダ内での標示がさらに語彙データソースの全体的なデータ構造(単純/平坦か複雑/階層状)を示すことができる。同様に、語彙集(類語辞典、二言語辞書等)の性質をもとの言語と目標言語とともに示すこともできる。語彙データソースに関するそのような一般的な情報に用いられる正確なシグナリング手段は様々であるが、すべての当事者が遵守する予め定められた形態に即している限り、実施形態とともに使用することができる。
データ作成
言語サービスセンター(LSC)の実施形態に組み込むためのデータを作成するには、LSCシステムが取り込んだデータを解釈することができるように、語彙データに「標示」を施すことができる。これにより、どのような種類のデータ区分が各記録内で標示されているのかがわかるように、LSCは語彙データの構文解析を適切に行うことができる。正字法の単語、読みおよびその単語の区別されていない情報を含む単純な「ブロック」構造を例にとると、各々の語彙の記録は以下の概念的構造を有する。
a.主要フィールド1タグ(読み)
b.主要フィールド2タグ(単語自身)
c.ブロックデータタグ(その他すべて)
a.主要フィールド1タグ(読み)
b.主要フィールド2タグ(単語自身)
c.ブロックデータタグ(その他すべて)
区別されたデータに関しては、上記の表に示したようなコードを用いてより多くのフィールド識別子に標示を付してもよい。また、別のコードも用いることができる。すなわち、使用される正確なコード形態は、記録のどの部分を表すものであるかが正確に示されている限り、多様となりうる。
通常、語彙集は、料金プランの取り決めに従い、語彙集のプロバイダまたは言語サービスセンターのプロバイダにより作成されることになる。上述のようなヘッダファイルは、通常、データとともに提供され、その使用されるデータ媒体は、語彙集のプロバイダに強く依存する。
データ保存
語彙集が取り込まれると、そのデータはヘッダファイルの記述を用いて解釈され、適切なデータ保存手段が更新され、あるいは必要に応じてそのデータを収容するように作成される。好適な保存装置として、大量保存装置(例えば、磁気または光ディスク)、電子メモリ(例えば、RAM,フラッシュ等)などがある。
図8は、一実施形態(例えば、以下に記載するLSC)で用いるために、語彙データを作成、取り込み、変換する例示的な方法のフローチャートである。図8では、この方法が開始され、処理はステップ802へ続く。ステップ802で、語彙データは第一のフォーマットで提供される。この語彙データは、複数の記録を有することができ、各々の記録
は、複数の要素を有することができる。各要素は、複数ある語彙データ種のうちの一つに対応しており、各要素には、当該要素の語彙データ種に対応する語彙標示コードが付されている。その後、処理はステップ804に続く。
は、複数の要素を有することができる。各要素は、複数ある語彙データ種のうちの一つに対応しており、各要素には、当該要素の語彙データ種に対応する語彙標示コードが付されている。その後、処理はステップ804に続く。
ステップ804では、語彙データの見出し部分が提供される。この見出し部分は、複数のデータ構造標示コード値を有するデータ構造記述への参照を含む。各データ標示コード値は、複数の語彙標示コードの一つに対応しており、その構造は、単純/平坦または複雑/階層状構造のうちの一つである。処理はステップ806へ続く。
ステップ806では、語彙データが取り込まれる。処理はステップ808へ続く。
ステップ808では、取り込まれた語彙データが第一のフォーマットから第二のフォーマットに変換される。この第二のフォーマットは、第一のフォーマットとは異なるものである。このデータは、取り込まれた語彙データの各要素に、その要素の語彙標示コードに対応するデータ構造標示コード値を付与し、各要素の語彙データ種が認識され、当該要素がその対応するデータ構造標示コード値に従って保存できるように変換される。処理はステップ810へ続く。
ステップ810では、変換された語彙データが、LSCまたは他のシステムにおける使用のために保存される。このデータは、第二のフォーマットで保存される。ステップ810の後、処理が終わる。意図する語彙データの作成、取り込み、および変換タスクを達成するために、図8に示すステップのすべてあるいはその一部を繰り返し実行することができる。
図2a〜2bを参照して説明する別の実施形態にも、上述の特性を持たせることができる。
データソースのグローバル制御
図2Aは、例示的なデータ構造を示す図である。この図では、ボックス状の各要素がデータベースを構成するエンティティを表す。各エンティティは、属性(データフィールドに相当)、および他の構成要素とのつながりを表す関係を有する。
図2Aに示すように、グローバルレベルでデータベースを把握するために、ライブラリアン・エンティティが提供されている。このエンティティは、DataSourceエンティティとの関係を最低限提供する。これはつまり、データソースに対して1対多数の関係があることを意味している。このDataSourceエンティティは、ファイルの種類(単純か複雑か)、起点言語(日本語、韓国語、簡体字、繁体字等)、および目標言語(二言語の辞書の場合)を含む語彙集(単一言語辞書、二言語辞書、類語辞典等)の性質に関する基本的な情報を提供する。専門分野(医学、コンピュータ等)等の追加情報は、別の属性として提供できる。
図2Bは、ユーザによるシステムへの語彙データを追加、システムからの削除、更に語彙データソースの起動、解除、実演(データソースの起動および解除については以下を参照)を可能にするインターフェースを示す。このインターフェースは、現代のアプリケーションでごくありふれた、ボタン、表、スクロールバー等のGUI要素を含む。例えば、対象となる語彙集に対応する列にハイライトし、起動ボタンを押すことにより起動することができる。同様な手順は、解除や実演モードに入る場合にも用いられる。同等の機能性を達成するために、メニューアイテム等のさらなるGUIインターフェースを提供することもできる。
データモデル内での語彙データの配布を実行するのに必要なすべての内部処理は、もちろん、OSプラットフォーム、選択された言語、使用するデータベース技術に依存して、それぞれの実行に特有のものである。このようなデータの配布または削除は、当然ユーザにとっては問題ではない。
多層データオブジェクト
言語サービスセンターに取り込まれ、上述のヘッダファイルやデータ分類タグ(語彙またはデータ構造)に従って構文解析されたデータは、多層構造の一部を形成する様々なデータオブジェクトに配分される。この構造の最高レベルはMasterTableエンティティである。各言語に一つある、各マスターテーブルインスタンスは、その構造の次のレベルにあるオブジェクト、すなわちWordGroupオブジェクトの集合に関連している。キーボードからCJK言語を入力する際、様々な同音異字、またはほとんど同音異字の正字認識に対応する可能性のある読みを入力するのが通常であるので、本実施形態はWordGroupエンティティに対して提供される。WordGroupにより標示される同音異字性の正確さは、その言語および所望の正確さの度合いによって処理可能であるが、例えば、通常中国語では無聲調ピンインまたは日本語では標準平仮名表現が用いられる。図2Bでは、単語グループの共有同音異字を、その属性のCommonReadingにより示している。
当然、この単語グループの次の下位レベルは単語である。多様な語彙データソースからの大規模な語彙データが使用されることになるので、表示される単語については、語彙データソース間で多くの重複があることが予想される。このため、多くの同一の主要フィールドを含む重複する記録を繰り返し作成するかわりに、GenericWordのエンティティが提供される。このエンティティは、語彙データソースに関係なく共有される基本的な単語データを含み、次の下位レベルである、特定の語彙ソース特有のデータを含むSourceWordエンティティとは区別される。
GenericWord記録は、その単語がシステム中でアクティブかを示すブール等のための多様な属性、一つまたはそれ以上の正字法認識、構成要素の単語分類のいくつかの表示(単語分類はその単語の構文その他の性質を識別するための特定のコードである)、その単語の正確な読み、および入力方法で単語を候補として表示するのに役立つ多様な頻度データを含むことができる。ただし、具体的な読みは、音声体系を用いて、その単語が発音または綴られる様式をより正確に特定する読みである。たとえば、中国語の場合、この属性は声調有りのピンイン、ボポモフォ等により表示される。
この図では、SourceWordエンティティが、その親エンティティであるGenericWordの子として提供される。統合や階層モデル化の概念を保持しつつ、その他のデータモデルも認識できるが、このアプローチを例示的に用いる。語彙データソースが多様なデータ種(単純/平坦か複雑/階層状か)を含むことができることを思い出すと、SourceWord記録の一属性はそれが示す記録の種類の表示である。したがって、単純または平坦なデータ構造を含む語彙データソースはその旨をこのフィールドに表示することになり、複雑または階層状データを含むものはその旨をここで示すことになる。
最後に、SourceWordデータが由来する語彙データソースの種類によって、その特定された構造に基づくある形態のデータ構造により更なる情報が保存される。様々な実行が、プラットフォーム、プログラム言語、およびその他の使用技術により、可能である。
データ盗難に対する防御
理想としては、内部保存データのダウンロードや出力を防ぐためセキュリティ機能を有し、これによりその個々のデータソース提供者の著作権(またはその他の知的財産権)を保護する。このようなシステムは、第三者の語彙データソース開発者が、その著作物が複製されたり盗まれたりする不安なく互換性のある語彙データソースを提供することを助長する。さらにまた、ユーザが個々の語彙データソース提供者からデータを盗もうとしたり他者の著作物に基づいて独自のデータソースを作成することを防ぐ。このセキュリティ機能は、語彙ソフトウェア提供者がデータを共同で蓄積したがらないことに対処できる。
文字の検索
一実施形態では、各単語に関する構成文字を追跡する手段も有する。この目的を達成するためには、GenericCharacterエンティティが提供される。このエンティティは、GenericWordと多数対多数の関係を有する。様々な詳細な構成および非詳細な構成がここで構築できるが、ここで示す例では、GenericCharacterエンティティは、画数、端点数(文字検索発明を参照)、およびもちろん文字の形態(正字)自身についての属性を有する。例えば、SourceCharacterエンティティ(図2A参照)に基づいて当該エンティティまたはさらなるエンティティ構成要素にさらなるデータが提供されていてもよい。このようなエンティティは、SourceWordに対して並行の概念を用いており、すなわち特定のデータソースに特有な文字に関する語彙データを保存するのに使用できる。図示されていないが、二言語やさらには多言語データを、別の言語データがGenericWordのインスタンスと関連する同様の方式で文字データに関連させることができる(以下の逆検索を参照)。
単語とその構成文字を文字分類および文字検索発明に提供されるデータと結びつけることで、ユーザはそのようなシステムでは通常容易には使用できない豊富なデータにアクセスできる。このようなリンクは、図2Eに示すようなデータ構造を用いて達成できる。語彙データを文字検索発明にリンクさせることは、この場合では個々の文字を通してではあるが、単語にアクセスするまた別の手段を与える明らかな利点がある。このことは、文字検索発明に提供されている多くの検索機能を用いることで特定の文字に関連する単語を見つけることができることを意味する。図3F中の選好パネルGUIに示されるように、ユーザは検索機能を起動させるキーの選択すらできる。
ここでまた、図示されていないが、文字とともに筆画ベースの入力データを含むことも可能である。このようにして、筆画形に基づく入力方法も全体的な語彙サービスセンター内で使用できる。
操作的な見地からは、ショートカットキーや別の迅速アクセス手段を設定でき、これにより文字検索発明の実施形態中で記載の高効率・機能的な検索方法の種類へのアクセスを提示する。文字情報を検索したり難しかったり稀な文字を探し出すには、その文字検索発明の実施形態が一実施形態に関連しており、一連のショートカットキーまたはメニュー項目が、当該文字検索発明の実施形態に記載される各種手段を用いて、ユーザの文字検索、これらには限らないが、部首、非部首的要素、部首と非部首の組み合わせ、および筆画および端点数等を可能にするパレットを始動させることができる。
逆検索形態および別の言語
本実施形態により提供される言語サービスは、ユーザが目標言語以外の言語から単語を検索することを可能にするものである。したがって、例えば、簡体字を対象とした実行により、ユーザによる英単語の入力を可能にし、したがって中国語の単語候補を読み出すことができる。この機能を実現するには、ReverseLookupEntry構成要素が単一の属性である、意味と共に提供される。この構成要素は、GenericWordに対し、多数対1の関係を有する。このような逆検索構成要素は、当然特定言語と関連しており、このためReverseEntriesの集合(図2A参照)を含むReverseLookupTableインスタンス中に集められる。したがって、一つのシステムは、入力よ逆検索の両者に対して様々な言語に対応でき、各種所定の別の言語についてのすべての逆検索入力事項は一つのデータ集に集められる。GUIにより、ユーザは、通常検索または入力モードから別の言語を解して目標の単語を検索または入力するように設計されたモードに切り換えることができる。
形態学的解析
通常、入力方法やテキスト−音声または音声−テキストコンバーター等の多くの言語サービスモジュールが、ある程度の形態学的解析を取り入れている。これは、単語を引用形式だけで与えられている場合、言語サービスモジュールは、引用形式を改変する語形変化のバリエーションの親単語を認識しないからである。理論的には、形態学的解析に加算と除算の少なくとも二つのアプローチをとることができる。
加算的アプローチでは、すべての引用形式は、それらの語尾変化の範例(その単語がとりうる異なる語尾変化の様式)と共に引用される。たとえば、日本語の場合、各動詞が、その動詞がとりうる様々な語尾とともに列挙される。代名詞は、通常存在する格助詞または後置詞と共に列挙される。どの名詞も後置詞に関係するもの自身と共に列挙される。本方法は直接的であるが、例えば250,000語の基礎語彙集が本アプローチにより容易に数百万に膨れ上がるので、読み出し速度に多大な制約を課す。マッチングについては、入力テキストがさらなる方法により生成された語尾変化した語に対してチェックされる。この方法は理論的には可能であるが、結果として得られる語彙表のサイズが膨大なため実用可能とは考えられない。
これとは対照的に、除算的アプローチにおいては、語尾変化や多様な単語分類の認識、それらの語幹の決定、およびそれらの引用形式に遡るのに派生則が用いられる。ここでまた日本語の場合について述べると、「ご」や「お」は、名詞の敬語接頭辞を示す可能性のあることを認識し、「た」、「す」、「ます」、および「て」等の多様な動詞の語尾変化は、可能性のある接尾辞として認識される。こういうわけで可能な引用形式は、タイプされた入力事項から可能性のある接辞を除き、語幹を特定し、語幹から引用形式に変換することで識別される。その後、この派生引用形式は利用可能にした(起動化された)単語(「TRUE」または「YES」に設定されたアクティブなブールの組を有するGenericWordインスタンス)の集合に対してチェックされる。同じ単語分類を有するマッチがその 起動化された単語の集合中で見つかると、その後、それらのマッチが語尾変形
した型に変換により戻る。中国語における形態学的処理の同様な例は、「of」(所有を示す)(的)に続くと考えられる種類の単語や、結果を示す補語(得)と考えられる種類の単語を認識する能力である。
した型に変換により戻る。中国語における形態学的処理の同様な例は、「of」(所有を示す)(的)に続くと考えられる種類の単語や、結果を示す補語(得)と考えられる種類の単語を認識する能力である。
本発明では、十分な文法情報が使用する語彙集に関連している限り、形態学的アプローチ−加算的または除算的−が原則として、実施形態で集められた語彙集に相関させるようにユーザから入力を可能にするように適用できる。ここで取り上げている文法情報とは二つの形式をとることができ、各語彙素が属する一つまたはそれ以上の単語分類の特定、およびその語幹から形成されうる派生語を示す派生則である。加算的アプローチでは、語彙の内部保存集合から派生する追加的表が作成でき、これにより派生形式が引用形式や単語分類コードならびに一組の文法的派生則に基づき作成される。除算的アプローチの場合、一組の文法則を、ユーザにより入力されたテキストから可能性のある接辞を構文解析するために適用できる。可能な引用形式は識別でき、接辞は、その後すぐに、単語を候補として表示する前に適当な形式で語幹に再びくっつけられる。
簡便上、形態学的解析(MA)の機能性は、形態素を入力文字列から分離する形態学的構文解析ツール(MP)、語幹に語尾変化をつけて戻す形態学的作成ツール(MG)、およびある分類の単語に付け加えることのできる語尾変化の種類を記載する一組の派生則(DR)の三つの別個の構成要素からなると考えることができる。図6を参照のこと。
形態学的解析は、ユーザが積極的に考える機能ではないかもしれない。単語候補は、そのシステム内の語彙素の集合から引用形式を派生させ、続いてユーザが目標単語を選択する候補リストに語尾変化した候補を示すための、形態学の加算的あるいは除算的アプリケーションに機能として単に表示することができる。この能力はモジュラーシステムに提供されるので、そのシステムを使用するかにかかわらず、そのユーザがその語尾変化した形式に基づいてテキストの単語を入力または単語を検索するためにかなり同等に適用する。
複数語入力の構文解析
一実施形態では、ユーザが一語以上に対応する音声上の文字を有する場合を認識する機能を組み込むことができる。ユーザが一語以上に相当するものを入力すると、そのシステムは構成文字を検索するためにその入力項目の構文解析を行うことが要求される。(実際上、正確には、ここで「単語」というのは語彙素を意味し、つまりは、語彙構成要素を一つの単位としてみている。例えば、句や(中国語の成語等の)熟語は、一つの単位として扱われることもある)。標準的な形態学的解析の場合のように、加算的および除算的アプローチは技術的に可能であるが、データ保存効率の見地からは、除算的アプローチがおそらく好ましい。
したがって、ユーザがいくつかの目標テキストに対応する文字列を入力する際、その言語でそれらの単語に対して入力をマッチさせるように検索を開始する。もし、正確な語のマッチが、その入力テキスト中に含まれる読みに基づく標準的な検索を解して見つからず、かつ形態素の除算によってもマッチがみつからない場合、次にこれらが引用形式または形態学的語尾変化を有する引用形式の組み合わせにマッチするかをみるために、入力文字のサブ文字列について検索を行うことができる。このステップはより時間を要するので、上述の安価な形態学的解析のステップをまず試してから行うのが最善である。
形態学的解析と同様に、複数語認識はユーザが考えるようなものではなく、むしろ入力または検索中に単に「起こる」特徴であるかもしれない。ユーザが、2またはそれ以上の語に相当する音声学的シークエンスを入力すると、その複数語認識により今度は入力方法が各単語の候補を識別することが可能になる。このプロセスは、最初の検索がその入力されたシークエンス全体に対するマッチを識別できない場合に、続いて検索が入力シークエンスのサブ文字列について行われるものである。
語彙集による色分け
別の実施形態では、上述の特徴のあらゆる組み合わせを以下に記載する特徴と共に組
み込むことができる。本実施形態により、検索または入力中の候補語データがそれらのソースデータが由来する語彙ソースに従って色分けされるように、ユーザが語彙データソースを色分けすることを可能にする。このことにより、ユーザはそのソースにより正しい候補を迅速に認識することができる。このような機能は、例えばユーザが起点語彙集によりその同音異字が目標技術語から容易に識別されるであろう単語を含む専門的な辞書を用いている場合に特に有用である。同様に、ソースが固有名詞のみを含んだ場合、候補ウィンドウに表示されたときに、それらは容易にそのようなものとして識別される。
み込むことができる。本実施形態により、検索または入力中の候補語データがそれらのソースデータが由来する語彙ソースに従って色分けされるように、ユーザが語彙データソースを色分けすることを可能にする。このことにより、ユーザはそのソースにより正しい候補を迅速に認識することができる。このような機能は、例えばユーザが起点語彙集によりその同音異字が目標技術語から容易に識別されるであろう単語を含む専門的な辞書を用いている場合に特に有用である。同様に、ソースが固有名詞のみを含んだ場合、候補ウィンドウに表示されたときに、それらは容易にそのようなものとして識別される。
これらの機能を利用可能にするため、別のウィンドウまたはパネルを、対象となっている言語に関連する語彙データソースの各々に色を結びつける手段とすることができる(図3A)。例えば、デフォルト設定により、一般的な語彙集を色分けした黒色であり、ユーザは専門用語または分野別の語彙集に対しては別の色を選ぶ可能性が高い。このような専門分野として、医学、コンピュータ科学、生物学、言語学および/またはその他の分野等が挙げられ、これら該当可能性のある分野は、原則として、ほぼ無制約であり、無限である。異なる語彙ソースに関する検索結果の比較は、このように色分けを利用することで容易になる。色を特定の語彙データソースに関連させるためには、対象となっているデータソースを選び、そのデータソースと色とを関連させるのに色選択手段を使用する。図3Aは、このような選択手段を提供するインターフェースを示す。
語類による色分け
さらにまた、使用する語彙データソースが適切なフィールドを含むとして、一実施形態では、ユーザは候補文字と単語とを種類によって区別できる。例えば、ユーザは普通名詞を固有名詞から区別したり、異なる品詞を区別したりすることができるこれらの区別は、これらには限られないが、フォント、色、太字、およびイタリック等様々な方法のいずれでも可能である。一種以上を有する語彙素は色の組み合わせとして示したり、同様の手段で区別できる。この種の選択を容易にする例示的なインターフェースを図3Bに示す。色を単語の種類に関連させるのに、いくつかの可能な分類から選び、その後、選択した個々の分類について色を選ぶ。この単語の種類は言語により異なるものであり、図に示すものは実際CJK言語のいずれよりも英語によりよく対応しているが、これはなじみやすく示していることを理解されたい。
追加的語彙情報の表示
さらに、ユーザの音声的な入力事項とマッチする一組の同音異字の一条をアックセスした後、ユーザは、入力事項の目標言語あるいは外国語で説明を見れるように、それぞれの語彙集から関連辞書のリンクをすべてボタンを押すことで表示するオプションを有する(図3C)。前者のアプローチにより、母国語とするユーザがその文脈や意図する意味においてどの複合語が正しいかを決定することを可能にし、後者では入力事項を自国語でむしろ読む言語学習者にとって大変有益なものである。辞書の情報は一実施形態にリンクされているが第三者により供給される可能性があるので、理論的には、供給されうる言語的詳細の量に制限はない。実際には、さらなる情報にアクセスする選択は、(ショートカットキーを押すなどのように)簡単に実行できるべきである。さらには、単純および詳細な説明の設定の選択は、語彙データがこのような区別を許容するならば、あるべきである。最終的には、どの語彙分類(情報分野)が表示されるかの選択するための手段は選択的に提供されるべきである。図3Cは、さらなる語彙情報をユーザに提供するインターフェースを示す。実際の実行は図に示すものよりもより洗練されたデータを提供する。
マウスオーバー機能
入力モードをマウスオーバーモードに切り替えることで、語彙データのこの同じプーリングが、スクリーン上に既にタイプされたテキスト上のマウスオーバー表示に適用できる。マウスオーバーは、学生や目標言語の学者にとっては非常に有益な機能である。(マウスオーバーとはカーソルをスクリーン上の何かに動かすことを意味する。一般に、マウスオーバー操作中はデータ表示を起動するのにトリガーキーを要するが、ファンクションキーを通常およびマウスオーバーカーソル動作間で切り替えるのに使用できるので、このことは必ずしもそうとは限らない。)始動されると、ポップアップ・ウィンドウが語彙情報を表示し、ユーザが入力したかに関係なく、ユーザはスクリーン上の互換性のあるテキスト中で容易に単語を検索できる。マウスオーバー標的に関する語彙データを検索する能力は、システム中にプールされた語彙データを構築することで可能になる。例えば、第2言語での翻訳を見る能力は、ReverseLookupEntryエンティティ(図2A)により可能となり、関連文字データの検索能力は、GenericCharacterインスタンスをGenericWordインスタンスにリンクすることで可能となる(図2A)。
操作上は、既にテキスト中にタイプされた文字に関連する情報を表示するには、ユーザは単に一連のショートカットキーをタイプするか、あるいは関連文字情報の読み出しを実行するメニュー項目を選択する。図3Dは、このようなポップアップ情報がどのようなものかの単純化した例を示すが、データの正確な詳細はそのシステムにおける文字データに関連した語彙ソースに依存するであろう。図3Eは、部首または主要構成要素等の分類特性に従った同音異字のリストの例示的なグループ分けを示す。特に、図3Eは第1に主要構成要素により、第2に残りの筆画によるグループ化を示し、数−文字グリッドがグリッド座標を用いるような入力を可能にしている。
データソースによる単語の起動化および解除
図2Aを参照すると、SourceWord構成要素がActiveな属性を有することがわかる。このブールの属性により、特定のソースネームを有するすべての単語データのフェッチ(クエリー)を行い、1バッチ中のその集合を起動または解除することを可能にする。このユーザは、図2Bに示すようなインターフェースを用いてシステム中でどのような数の語彙データソースも利用可能にしたり利用付加にしたりすることが選択できる。これを行う理由は様々ある。例えば、多くの異なる技術データソースを含む十分に開発されたシステムにおいては、例えば医学辞書情報のように稀にしか使用されないものを搭載することは、コンピュータ関連の書類を入力する必要のある職業の者にとっては無意味かもしれない。
基準による候補の抑制
GenericWordおよびSourceWordインスタンスは多様な関連属性を有するため、ある種の候補の表示を制限するか、あるいは候補表示する際にある単語種について制限することができる。したがって、ユーザが固有名詞のみ、あるいは地名または人名のみを検索または入力したい場合、その検索を制限するのにある種のGUIを使用することができる。このことは、かなり短縮された候補リストの表示を可能にする。同様に、性能を高めるために、ユーザは一定のカットオフ頻度を特定して、極度に稀な単語の搭載を無効にしたいと単に考えるかもしれない。すべては対象となっているリストに含まれる語彙データに依存するので、特定できる単語の種類について技術的に制限はない。
ショートカットキー、フローティングパレット、またはメニュー項目はすべて、検索を特定の単語種に制限する能力をユーザに与える手段として役立つ。このような効果を提供する手段であれば、いずれも使用できる。モデル化が実施されると実行が容易であるのに対し、この機能は一実施形態の特定のデータアクセス能の直接的な副産物であり、従来のシステムや方法では可能ではないかもしれない。
候補リストの細目
ユーザが自分の探している単語の読みを入力する場合、CJK言語入力方法では、これらの言語における多数の同音異字のために膨大な候補リストを有する羽目になることは珍しいことではない。このことは、特にユーザが音声学的に単一文字を入力しようとする場合に起こるが、日本語の場合の複合語(複数文字からなる単語)または声調指定が適用されていない場合の中国語の複合語にも共通している。リストをスクロールすることにより、インライン状の入力ウィンドウには必然的に一度に一行のデータのみが表示されるので、大変面倒であることがある。通常、このようなデータは頻度順に表示されるが、最も一般的な単語(リストの一番最初にくる単語)を除き、このようなデータは目標とする単語を見つけるのにはほとんど役立たないことがある。一実施形態ではその固有のデータ構造の柔軟性からさらなるデータソースを採用できるので、その単語を細分するために文字に関するさらなるデータを代わりにしようすることができ、それらの語をユーザが選んだある様式に従って縦に整理された別のウィンドウに表示することができる。これゆえ、例えば、すべての単語がその単語のはじめの文字の部首の順序に配列された行に配置できるであろう。ユーザは部首の大雑把な順序に慣れており、部首は表示されるので、ユーザの目は迅速に正しい部分にクローズアップすることになる。「部首の行」では、単語を頻度順に並べてもよい。はじめの文字の部首を用いることが長い候補リストを細分化するのに最も論理にかなった選択してあるかもしれないが、別の可能な使用標準は、はじめの文字の主要構成要素の(筆画、端点)の値(文字検索発明を参照)、または文字全体の筆画/端点値、あるいは文字の総画数ともなる。
候補リストの細目および再表示は、例えば従来は普通行われないような形で文字を複合語を有するデータと関連させて、実施形態が語彙データを相関データ構成要素の階層構造に再配分する事実により可能にすることができる。候補数が候補ウィンドウに通常表示される数(一般的に10程度)より大きければ自動的にこの機能が始動するようにすることが好ましい。さらには、ユーザがリスト細目の基準を選択できるように手段を提供できる。部首により単語のサブ選択する場合、システム内で語彙素のコンテンツの前処理を。文字のリストおよびそれらの部首分類で語彙素のコンテンツを相互参照することにより達成できる。
図3Fは、外観により再分布された候補文字の例を示し、基準の定義は同著者による文字検索発明に記載の主要構成要素概念である。
新規発見語登録に対する厳重な管理
上述の機能に加えて、一実施形態においては、前回のテキスト入力セッションで入力された単語を自動的に記録し、語彙検索では見つからないがむしろ別々の文字として個別に入力される新規語を識別する手段を提供できる。ユーザの便宜上、ユーザ辞書への入力に対して候補と思える文字や複合語(単語を形成する文字のシークエンス)は、文字およびそれらの音声学的入力事項の二つのフィールドを有するリストを提示し、ユーザが必要に応じてデータを改変してユーザの補足的辞書に対する候補のいくつか又はすべてを許容するか、あるいはまったく許容しないかの選択を可能にする。オプションとしては、さらなるフィールドを提供し、ユーザが品詞、定義、外国語の相当語、またはいくつかの別の語彙情報を、補足的な語彙集として使用される語彙集に対して構築された構造にしたがって、入力できる。図4は、補足的語彙集に含むための単語を選択するのに使用できるインターフェースを示す。したがって、新規文字組み合わせは、記録されるのみでなく、後に列挙されて、ユーザがそれらについて改変または改良したり、あるいは関連語彙データを提供して、これにより正式にその新規組み合わせをユーザ語彙集に永久的に保持するかを決定できる。このレベルのユーザ制御は、実際単語ではない文字を誤ってつなぎ合わせる、時折使用される自動プロセスよりもずっとより効果的である可能性がある。
ユーザ主導のデータ改良
語彙データのプロバイダや業者は、それらのデータをむしろそう頻繁には更新しないかもしれない。この結果、新規語や固有名詞が、現在市販されている語彙集のいずれにも認識されないことがよくある。新規語、固有名詞、およびその他の語の形成とそれらの許容されている語彙集への組み込みとの間の時間差への対処に役立てるため、本実施形態では、ユーザ入力データを中央位置にプールする能力を提供し、これにより言語に長けている人間がその入力データのパターンを調べ共用のユーザ辞書の更新するのを可能にある。ユーザをそのプログラムに参できるように、報奨を設定してもよい。ユーザはダウンロードを選択するか、あるいは多様な手段により共用ユーザデータをインストールしてもよい。ユーザはまた、それを無視しても共用ユーザデータを起動しなくても自由である。それらのデータに関する厳格な機密性が保障できる。したがって、一般に公開したくない特別な機密用語を使用する政府機関やハイテク会社等の、テキストコンテンツについて懸念するユーザは、自身の新規語のプールを開示することなく、基本語彙集に対する更新を享受することができる。
操作においては、保存に使用されるデータ構造内で同音異字の数が増える速度を制御するために、ユーザは図3Fに示すようにGUIを使用することができる。ユーザの指定した語彙集への入力事項を追加するには、入力セッションの終わりに、メニュー項目、またはユーザは前回の単語入力により自動的に検索を遡りどの語がシステムにおいて語彙素の集合の一部ではないかを決定する別のトリガーを選択できる。(これらは、一文字一文字入力、またはタッチペン等の別の入力装置を用いて入力された単語であり、その語彙データ集にあるシークエンスに対応しない。)この結果得られる可能な新規語のリストは、このリストにある各単語を含むかどうかを選ぶ選択手段があるように、表示できる。入力項目として指定された単語は、ユーザ語彙集に、品詞、単語の種類(固有または普通)(示されていない)等の補足的情報を指定する選択肢とともに入れられる。さらに、本発明によると、(単にユーザがタイプしたのではなく)各種手段により得られたテキストをコピーし、そのシステム内にある語彙データ集に含まれていない単語の検索をすることが可能である。同様にして、このような単語はユーザが許容したり拒絶したりできる。
自分たちのデータを調べられたりすることに同意するユーザは、自分たちのデータを自動的に特定のウェブサイトまたはその他のURLに対し更新することができる。ある量のデータが受け取られると、言語学者は、新規単語や固有名詞を形成する共通に入力された文字シークエンスを探すことができる。一般的な使用に許容できると考えられる単語はその後共有のユーザデータファイルに読み込まれ、ユーザに利用可能となる。このデータを使用したくないユーザは、起動解除を選択してもよい。新規語彙素は起動時に自動的にシステムに組み込まれ、同様なその他すべての機能性は透過的に起こる。
音声的表示または綴りの正確度に関する選択
従来的な入力方法においては、声調を入力するかは開発者により決定されてているので、ユーザは一般に声調と共にまたは声調なしに、あるいは交互に文字を入力するかを選択しなければならない。中央語彙データ集へのデータをプールすることに加えて、実施形態は、(声調データを含む)もとの入力に基づいて、声調システムについて完全に習得していない場合でも、ユーザが声調を誤ってタイプしても目標とする単語を探すのに十分な可能性があるように、中国語の声調表示の多様な度合いを与える追加的な「シャドウフィールド」(図5Aを参照)を作成できる。このことは、同じ音声上の構成要素を含むが異なる音節で声調を除く別のフィールドを提供することで達成される。そしてユーザは、自分がタイプしようとする声調の具体度を選択し、さらなる機能性により、ユーザが声調についての必要条件をオンザフライで変更することを可能にするかもしれない。このオンザフライ機能性は、候補が数多く最初にサブ選択された場合には特に重要となりうる。この機能性を達成するには、シャドウ表が部分的な声調指定または声調無指定で作成され、語彙データ集により維持されるものが完全な表示となる。特に重要な機能は、声調変化から起こる通常の混乱に対処するという事実であり、連続する2分の3声調音節は、二番目と三番目の声調音節の組み合わせと同一の音となる。この問題を認識して、実施形態は、このような三番目−三番目および二番目−三番目シークエンスにおける許容誤差を特に提供することができ、ユーザは誤った声調シークエンスを入力した場合にそれに代わるものを見ることができ、マッチするものが見つからない場合は自動的に別のものを提供することができる。
声調認識度を選択するには、メニュー項目、ボタン、または別のGUIをダイアログボックスまたはユーザが所望の声調表示度を指定できるその他の手段を始動させる。図5Aは、声調無指定、部分声調、または完全声調指定でどのように単語が指定できるかを示す。このような柔軟性により、ユーザは、例えば、声調に関する知識が確固としている場合に完全な声調表現を使用して、候補リストのサイズを最小限にすることを可能にする。しかしながら、声調に関する知識があやふやな場合、ユーザは声調に関する完全範囲(各音節に対し一つ存在)よりも少数のもののみ示せばよく、これによりその単語を見つける可能性が高い。この機能性は、ユーザが中国語入力に対する完全、部分的、または無声調指定選択するGUIにより提供されるものである。ラジオボタン(図示されていない)は、ユーザに対してそのようなインターフェースを提供するアプローチとなりうる。
コード化指定能力
メニュー項目、選好パネル、またはその他の選択手段は、ユーザが現設定時に使用するコード化や言語を特定することを可能にするために提供できる。したがって、入力には、簡体字に関してはGBまたはユニコード、繁体字にはBig5またはユニコードが可能である。日本語に関しては、ユニコードまたはシフトJIS、あるいはJIS標準のまた別の形式間で選択するかもしれない。図5Bは、ユーザがそのような選択をすることを可能にするインターフェースを示す。コード化を選択するには、ユーザは入力手段に関連するメニューをプルダウンし、対象となっている言語に特定されているコード化を選択することができる。一以上の東アジア文字に基づいた言語を扱う場合、異なるデフォルトを各言語について設定できる。このような機能はこれまでの入力方法では提供されたことがなかった。
追加機能
追加機能を実施形態に備えることができる。例えば、ユーザが長い固有名詞または稀な文字等を入力するためのショートカットを指定できるように入力用のショートカットキーを備えると有益である。同様に、実施形態は、同音異字間の語順がユーザがシステムや方法を利用するにつれ変化する速度を決定する手段を備えていてもよい。
モジュラー語彙サービスセンターの実施形態ではこのような特徴や機能を四つのCJKスクリプトのすべて(特定の機能が対象となっているスクリプトに無関係な場合を除く)に適用し、三言語すべてと四つのスクリプトすべての間での切換えを容易にし、前述の実施形態に記載の前記特徴や機能のどのような組み合わせでも組み込んでいてもよい。(注:これら三つの言語が四つのスクリプトを有するのは中国語には簡体字と繁体字の二つがあるからである。)記載されている概念は漢字系文字を使用するいずれの言語に対しても適用できるので、同じLSCシステムを、例えば、中国語を使用する日本語を話す人、中国語を使用する英語を話す人、または日本語を使用する中国を話す人に用いることができる。さらにまた、これらの方法およびシステムは、その他の筆記システムや記号・グラフィックシステムと共に使用することができる。一般に、これらのシステムや方法は、システムおよび方法の機能性が所望される場合にどのような言語に使用してもよい。
追加NLPモジュールの組み込み
これまでの実施形態は、キーボード入力により従来的に実現されている入力方法を介したテキスト入力に焦点をおいてきた。しかしながら、本実施形態では、音声合成(テキスト−音声)、音声認識(音声−テキスト)、手書き入力、および光学的文字認識等に用いられるようなその他の自然言語処理(NLP)システムを組み込むことができる。その結果は、様々なNLPシステムからデータを統合する言語サービスセンターとなる。これらの別個のNLPシステムにより使用されるデータの性質から、この言語サービスセンターへの接続には別個のインターフェースを使用しなければならない。NLPシステムをこのLSCに接続するのに可能なインターフェースを以下の表に示す。
*LSC:言語サービスセンタ
**CLI:文字検索発明の機能性を備える文字検索モジュール
***MA:形態学的解析ツール
**CLI:文字検索発明の機能性を備える文字検索モジュール
***MA:形態学的解析ツール
語彙サービスセンターの中心核としての異種の語彙データからプールされた中央語彙データ集を用いる利点は、そのシステムのほかの部分からのデータがその他のモジュールの機能性を向上させるのに使用できることである。例えば、テキストをスキャンするのに光学的文字認識ソフトを使用する場合、通常、OCRソフトは、OCRの誤りを訂正したいと思うユーザが、正しい文字を探すのに手書き認識モジュールを使用したり、文字検索モジュール(図6を参照)により提供される筆画−端点検索手法を利用することを許容する。代わりに、ユーザは、特定の品詞についてスクリーニングしながら、またはある種の別のフィルタを用いて(入力方法モジュールを介して)標準的なテキスト入力 を
用いることができる。同様に、手書きで文字を入力する場合に、手書き認識ソフトウェアが文字を認識しない場合、別の手段が素の文字を入力するのに使用できる。
用いることができる。同様に、手書きで文字を入力する場合に、手書き認識ソフトウェアが文字を認識しない場合、別の手段が素の文字を入力するのに使用できる。
語彙サービスセンターは、データプロバイダが開発しているモジュールでどの要素が欠けているかを見るためにシステムの一部を使用できるので、データプロバイダにもメリットがある。例えば、広範なソースに基づく中央語彙データ集は、かなり大きくなり、認識能の乏しいテキスト−音声または音声−テキスト変換モジュールにおいて欠けているものを指摘するのに使用できる。したがって、この実施形態は、2つの別個の自然言語処理モジュール間のマッチと欠けている関係の両者を特定する手段を提供することができる。
LSCインターフェース:文字と音素
記載された度合いのモジュール柔軟性を達成する鍵の一つは、インターフェース−単独文字のストリームと語尾変化した単語のストリーム−の両者がはっきりと定められており、すべての関与するモジュールがこれに従うことを確実にすることである。したがって、音声−テキスト変換 モジュールの開発者が単語についての独自の辞書を含めることが可
能であるが、単に語彙サービスセンターに備えられている形態学的解析ツールによりその後解釈可能な音素のストリームを提供すればより効率的かもしれない。音声−テキスト変換 モジュールの実行詳細は、インターフェースの規則が明確に定められて遵守されてい
る限り、LSCのプロバイダーには何の心配もない。
能であるが、単に語彙サービスセンターに備えられている形態学的解析ツールによりその後解釈可能な音素のストリームを提供すればより効率的かもしれない。音声−テキスト変換 モジュールの実行詳細は、インターフェースの規則が明確に定められて遵守されてい
る限り、LSCのプロバイダーには何の心配もない。
補助的タッチパッド/スケッチパッド
最終的には、理想のハードウェア構成が、絶対座標モードで操作されているときはタッチペンが手書きによる文字入力に使用でき、相対座標モードでの操作の際は、タッチパッドが通常のカーソル制御に使用できるように、二重機能性タッチパッド/スケッチパッドを組み込むことにより実現できる。このことにより、ユーザが必要な際はいつでも手書き認識モジュールを使用することを容易にするであろう。相対および絶対操作間でトグルが迅速で容易なように、キーボードボタンまたは別の手段が提供されるべきである。
同じ結果を達成する別の選択肢は、通常の中心に配置されたタッチパッドの右および左に別個のタッチパッドを配置することである。これらの外側のタッチパッドは、タッチペンとの接触時のみ起動化され、絶対座標モード、すなわちタッチペンを用いて文字を入力するときにのみに使用されることになる。
第三の代替物は、タッチパッド出力がイベント応答者に応じて異なって解釈されるように、タッチパッド−イベント応答システムを設計することである。したがって、スクリーン上のアクティブな領域が文字検索モジュールの文字入力受信部である場合、タッチペン入力は絶対座標で解釈される。さもなければ、相対座標内、すなわち、通常のカーソル制御に関する座標として解釈されることになる。
どのようなイベントにおいても、ある形式のタッチパッド−スケッチパッド入力が入力方法モジュールの標準的なキーボードによる入力を大いに補うことになり、これにより集約語彙データ集が対象となっている文字や単語を含まない場合において文字や単語の検索を容易にする。
操作、語彙サービスセンターの提供、および異なる自然言語処理モジュール間の接続について、図6を参照してその操作を説明する。
図6は、語彙サービスセンタ(LSC)の要素の全体的な構成を示す。特に、語彙システム600は、語彙データ集604を有するLSC602、文字検索モジュール606、形態学的構文解析ツール608、派生則610、および形態学的作成ツール612を有する。LSC602に接続されているのは複数の辞書(または語彙データソース)614〜618である。さらにまた、LSC602に接続されているのは、光学的文字認識モジュール620および手書き認識モジュール622であり、この両者はLSC602を用いて検索するための単独文字624(例えば、ユニコード文字)を作成するのに使用できる。音声解析ツール626、入力方式モジュール628、および音声合成ツール630は、LSC602に接続されており、それぞれが語尾変化した単語(例えば、音素のシークエンス)をLSC602に提供するために使用できる。構成要素は一言語のみについて示しているが、もちろん筆記言語に対するLSCは同一または同様な構成要素を含むであろう。図に示すように、語彙集(「辞書」614〜618と標示)の数についてのコンテンツは、語彙データ集に統合される。
外部の自然言語処理モジュールとの二つの主要なインターフェースとしては、単独文字(例えば、ユニコードにされたものコード化)および(ある形式の音韻体系の表記で表現される音素のシークエンスとして表される)語尾変化した単語のものがある。OCRおよび手書き認識モジュール620および622は、単独文字とインターフェースで接続され、次から次へと個々の文字を特定していこうとすることを意味する。これらのモジュールによりなされる解釈に必要などのような訂正でも、文字検索モジュールとの直接リンクのため効率的に実施できる。モジュールは、ソフトウェア、ハードウェア、またはこれらの組み合わせで実施できる。
その他のインターフェース、語尾変化した単語は、音声合成ツールモジュール630および音声解析ツールモジュールへの接続を可能にする。音声合成は、テキスト(図示せず)を取り込み、LSCの形態学的解析ツール(特に、構文解析ツールおよび派生則)を通して稼動し、その後音素のシークエンスから可聴音への変換のための合成器に戻る。これとは対照的に、音声解析ツールモジュール626は、音素のシークエンスを示し、その解析ツールは派生則を用いて入力テキストから個々の引用形式を特定し、そのシステム内の語彙データ集においてマッチする語彙を探し出す。この作成ツールは、マッチする語彙をとり、ユーザに対する表示のための候補単語に再び語尾変化させる。
このシステムの長所は、対応するモジュールが音素のシークエンスとして語形変化した単語を読んだり与える限り、LSCが音声合成や音声分析に関する詳細を自ら扱わないことである。同様に、これらのモジュールが個々の文字のシークエンスの形態で解釈を提供する限り、LSCは、光学的文字または手書き認識を実現するために使用される多様なアルゴリズムまたはニューラルネットワークについて心配する必要はない。図に示すインターフェースに従うならば、外部モジュールの両セットは、それにもかかわらずLSCにより提供される豊富なデータからの恩恵を受けることができる。
図7は一つまたはそれ以上の実施形態を実施するのに好適な例示的なコンピュータシステムを示す。図7のコンピュータシステム700は、プロセッサ702とメモリ704とを有する。プロセッサ702は、単一のマイクロプロセッサを有するか、マルチプロセッサシステムとしてコンピュータシステムを構成するために複数のマイクロプロセッサを有していてもよい。メモリ704は、プロセッサ702によう実行のための命令やデータを一部保存する。本発明のシステムがコンピュータプログラム等のソフトウェアですべてまたは一部実装された場合、メモリ704は、稼動時に実行可能なコードを保存するのに使用できる。メモリ704は、高速キャッシュメモリはもちろん、ダイナミック・ランダム・アクセス・メモリ(DRAM)群を有していてもよい。
図7のシステムは、大量保存装置706、(単数または複数の)周辺機器724、(単数または複数の)入力装置710、(単数または複数の)携帯式の保存媒体用ドライブ、コンピュータ可読の媒体714、グラフィック・サブシステム720、および表示部708をさらに有する。簡略化のために、図7に示す構成要素は、単一のバス716を介して接続されている。しかしながら、これらの構成要素は一つまたはそれ以上のデータ転送手段を通して接続されていてもよい。例えば、プロセッサ702とメモリ704は、ローカル・マイクロプロセッサ・バスを介して接続されていてもよく、大量保存装置706、(単数または複数の)周辺機器724、(単数または複数の)携帯式保存媒体ドライブ712、およびグラフィック・サブシステム720は、一つまたはそれ以上の入力/出力(I/O)バスを介して接続されていてもよい。通常は磁気ディスクドライブまたは光学ディスクドライブで実装されている大量保存装置706は、プロセッサ702により使用するためのデータおよび命令のための非揮発性の保存装置である。別の実施形態においては、大量保存装置706は、本発明の方法を実施するコンピュータプログラムを保存する。本発明のこの方法は、プロセッサ702に保存していてもよい。
携帯式保存媒体ドライブ712は、図7のコンピュータシステムにデータとコードを入力または出力するために、フロッピディスクまたはその他のコンピュータ可読な媒体等の携帯式非揮発式保存媒体と連携して動作する。 一実施形態においては、本発明の方法は
、このような携帯式媒体に保存され、携帯式保存媒体ドライブ712を介してコンピュータシステム700に入力される。(単数または複数の)周辺機器724は、コンピュータシステム700に追加的な機能性を加えるために、入力/出力(I/O)インターフェース等の各種のコンピュータ支援装置を含んでいてもよい。例えば、(単数または複数の)周辺機器724は、コンピュータシステム700をネットワーク、モデム等にインターフェースで接続するためにネットワーク・インタ=フェース・カードを含んでいてもよい。
、このような携帯式媒体に保存され、携帯式保存媒体ドライブ712を介してコンピュータシステム700に入力される。(単数または複数の)周辺機器724は、コンピュータシステム700に追加的な機能性を加えるために、入力/出力(I/O)インターフェース等の各種のコンピュータ支援装置を含んでいてもよい。例えば、(単数または複数の)周辺機器724は、コンピュータシステム700をネットワーク、モデム等にインターフェースで接続するためにネットワーク・インタ=フェース・カードを含んでいてもよい。
(単数または複数の)入力装置710は、ユーザインターフェース(UI)の一部を提供する。(単数または複数の)入力装置710は、英数字およびその他のキー情報を入力するために英数字キーパッド、またはマウス、トラックボール、タッチペン、またはカーソル方向キー等のポインティング装置、あるいは撮像カメラ、あるいはOCRを有していてもよい。このような装置のすべては、本発明の方法とインターフェースで接続したり実行するための追加的手段を備える。テキストおよびグラフィック情報を表示するために、図7のコンピュータシステム700は、グラフィックサブシステム720と、表示部708とを有する。表示部708は、陰極線管(CRT)表示、液晶表示部(LCD),その他の好適な表示装置、またはユーザが本発明の方法を見ることを可能とする表示手段を含んでいてもよい。グラフィックシステム720は、テキストおよびグラフィック情報を受信し、表示部708に出力するために処理する。表示部708は、構成要素のインターフェースを表示、および/またはユーザインターフェースの一部であるその他の情報を表示するのに使用することができる。この表示部708は、本発明の方法が直接的にそして実用的に表示部708と入力装置710を通して実施できるので、本発明の方法の実用的な応用を提供する。図7のシステム10は、音声システム722を有していてもよい。一実施形態においては、音声システム722は周辺機器724に見つけることができるマイクロフォンからの音声信号を受け取るサウンドカードを有する。さらに図7のシステムは、出力装置718を有する。好適な出力装置の例として、スピーカー、プリンター等を含む。
図7のシステムは、ネットワーク728(例えばインターネット)に接続したネットワーク・インターフェース72も有する。遠隔のユーザまたはシステム730は、ネットワークのいたるところからプロセッサ702を実行する分類と読み出し方法にアクセスできる。
図7のコンピュータシステムに含まれる装置は、汎用のコンピュータシステムに通常みられるものであり、当該技術分野でよく知られるこのようなコンピュータ構成要素の広い範疇を示すことを意図する。図7のシステムは、本発明の方法を実際に実施するために用いることのできる一つのプラットフォームを示す。アップル・コンピュータ社から市販されているマッキントッシュベースのプラットフォーム、異なるバス構成を有するプラットフォーム、ネットワーク化されたプラットフォーム、マルチプロセッサプラットフォーム、その他の個人用コンピュータ、携帯式プラットフォーム(携帯型電子辞書、翻訳機など)、ワークステーション、メインフレーム、ナビゲーションシステム等のその他数多くのプラットフォームで十分である。
別の実施形態は、コンピュータシステム700と併用して、CRTディスプレイ、LCDディスプレイ、投射型ディスプレイ等のモニターのためのその他の表示手段をさらに含む。同様に、メモリ704以外の各種同様の種類のメモリを使用してもよい。構成要素インターフェースに加えて、その他のインターフェース手段 も使用することができ、英数
字キーパッド、絵尾の他のキー情報、またはマウス、トラックボール、タッチペン、カーソル、または方向キー等の各種ポインティングデバイスを含む。
字キーパッド、絵尾の他のキー情報、またはマウス、トラックボール、タッチペン、カーソル、または方向キー等の各種ポインティングデバイスを含む。
さらなる実施形態は、本発明のインターフェース接続方法を実施するためにコンピュータをプログラミングするのに使用できる、保存された命令を有する保存媒体(複数の媒体)であるコンピュータプログラム製品を含む。この保存媒体は、これらには限られないが、フロッピーディスク、光学ディスク、DVD、CDROM,磁気光学ディスク、RAM、EPROM、EEPROM、磁気または光カード等の各種ディスク、あるいは電子命令の保存に適する各種媒体を含むことができる。
コンピュータ可読な媒体(複数媒体)のいずれにも保存して、本発明は、汎用/専門コンピュータまたはマイクロプロセッサハードウェアの両者を制御、またはコンピュータまたはマイクロプロセッサがヒトのユーザまたは本発明の結果を利用するその他の機構との情報のやりとりを可能にするソフトを含む。このようなソフトとして、これらには限らないが、装置駆動部、オペレーティングシステムやユーザアプリケーションが挙げられる。究極的には、このようなコンピュータ可読媒体は、上述のような本発明のインターフェース接続の方法を実施するソフトをさらに含む。
方法を実行、または上述のような電子辞書またはLSCを実装するためのユーザデバイスまたはシステムは、以下のもののうちの一つ(あるいは一つ以上を組み合わせたもの)等の携帯式電子装置でありうる。すなわち、ウェブ対応装置、ワイヤレス電話送受話器(例えば、アップル社のiPhone(登録商標))、Blackberry、 Palmコンピュータ
デバイス等の携帯情報端末(PDA)、携帯式コンピュータ、ラップトップコンピュータ(またはタブレット型コンピュータ等のその他の種類の携帯型コンピュータ)、スマートフォン、iPod(登録商標)、MP3プレーヤ、あるいは電子ブックリーダー等のデジタル・メディア・プレーヤー、携帯型のゲーム機、個人用ナビゲーション装置、統合デバイス等である。このユーザデバイスは、IBM互換性のパーソナルコンピュータあるいはアップル社のMac等のデスクトップ型コンピュータであってもよい。一般に、現在知られているかあるいは後に開発された装置、または上述の機能を実行できる装置を組み合わせたものは、本発明の実施形態と共に使用できる。
デバイス等の携帯情報端末(PDA)、携帯式コンピュータ、ラップトップコンピュータ(またはタブレット型コンピュータ等のその他の種類の携帯型コンピュータ)、スマートフォン、iPod(登録商標)、MP3プレーヤ、あるいは電子ブックリーダー等のデジタル・メディア・プレーヤー、携帯型のゲーム機、個人用ナビゲーション装置、統合デバイス等である。このユーザデバイスは、IBM互換性のパーソナルコンピュータあるいはアップル社のMac等のデスクトップ型コンピュータであってもよい。一般に、現在知られているかあるいは後に開発された装置、または上述の機能を実行できる装置を組み合わせたものは、本発明の実施形態と共に使用できる。
本発明のソフトウェアの実施形態は、購入(あるいはそのアプリケーションプロバイダによっては無償で要求)したり、有線またはワイヤレスネットワークを介してユーザの装置にダウンロードできる。アップル社のAppStoreは、携帯式装置にソフトをダウンロードするためのシステムの一例である。
収益共有/データセキュリティの概要
実施形態により、異なるデータプロバイダにより提供され、モジュール式の語彙サービスシステムでの使用のための異なるデータ構造を有する語彙集や語彙データベースを統合することを可能にする。当初は、このことは一般に語彙データまたはNLPモジュールの異なる作成者は競合者であるので、このことは苦境を示すように見える。どうして彼らが自分のデータやモジュールを一つのシステムにプールしたいと思うだろうか?この問題は、当該システムのマーケティングを商業的に実行可能なものとすることのできる実施形態の四つの特徴により解決できる。
1)上述のようなデータ記述モデル(記述コードを含む)や構文解析ツールシステム(ヘッダファイルを含む)であり、これらにより異なる構造を有するデータを、第3者からの語彙データを組み込んで表示するための対応するアプリケーションフレームワークと共に、一つのシステムに組み込むことを可能となる。
2)コード化により達成されるデータセキュリティならびに異種のソースからのデータファイルのロック
3)ワンストップショッピングおよび使用能であり、これにより広範な適合語彙データソースがユーザに利用可能となる。
4)相互に有益な資金調達−LSCの実施形態を、そのLSCシステムのライセンサーと語彙データの販売者の両者にとって経済的に魅力のあるものにすることのできる収益共有システムであり、このようなLSCをOSに組み込み、語彙データの異種ソースを利用可能にすることで生み出される莫大な利益を両者が活用できるようにするものである。
この入力方法のデータ共有モデルを実現可能にするのは、この固有な要素の組み合わせである。これらの重要な態様のうちの3つーつまりデータセキュリティ、ワンストップショッピング、およびデモ使用機能と相互に有益な資金調達(収益共有)を以下に述べる。
図9は、収益共有およびデータセキュリティ機能を有する例示的なLSCの図である。特に、このシステム900は、図6に関連して上述の構成要素に加えて、語彙データセキュリティモジュール902、起動化コードモジュール904、語彙データベースアクセスモジュール906、ワンストップショッピング(電子商取引)モジュール908、および収益共有モジュール910を有するLSC602を含む。さらにまた、LSC602に接続されるのは、グラフィカル・ユーザ・インターフェース914を有するユーザシステム912である。このユーザシステムは、LSCと統合してもよいし、局所的に接続してもあるいは遠隔的であってもよい。グラフィカル・ユーザ・インターフェースは、多様なユーザインターフェーススクリーンおよび上述の要素を表示するのに使用できる。さらにまた、LSCに接続するのは、LSC602の収益共有モジュール910から収益共有情報を受け取ることのできる、OSプロバイダ916および語彙データソースプロバイダ918である。多様な構成要素の動作は、以下に述べられている。
データセキュリティ
異なる語彙データプロバイダからのデータは得ることができ、同一コンピュータ上で同時にユーザに利用可能になるので、語彙データソースのプロバイダが自分たちのデータがセキュリティ侵害にさらされることのないように安心できることが大切である。さもなければ、辞書作成者が不法にそのデータを別の辞書作成者から自身のデータベースに組み込むことが可能になる。実施形態は、以下の特徴を備えることでデータを保護する。
1)所定のコンピュータ上の各LSCシステムは、使用されているコンピュータに結びつく固有のIDを有する。
2)LSCシステムに組み込まれた各語彙データソースは、その特有のIDおよびキーを有し、そのIDはそのシステム上のその他の語彙データソースとは異なる。
3)ユーザ辞書(ユーザ自身が特定し、システムに組み込んだ単語のみを含む)を除き、そのシステムにインストールされた語彙集は、それらのセキュリティキーがコンピュータのLSC固有キーと結びついているので、複製したり別のシステムで使用したりはできない。
4)使用していないときは、すべての語彙データファイルは、例えばBlowfish、two−fish、あるいはその他のコードアルゴリズムを用いてコード化できる。
5)語彙データファイルをLSCにより使用しているときはいつでも、その語彙データファイルは、外部プログラムまたはユーザに見られないようにロックされる。
したがって、どのようなときでも、これらの語彙データファイルはコード化(使用していないとき)またはロック(使用時)されていることになる。さらに、これらは最初のインストールで固有のアクセスキーを与えられた場合にのみに作動するので、コンピュータからコンピュータへ複製できない。このキーは、最初のデモ使用または最初のインストールのとき(デモ使用のオプションが利用されていない場合)に与えられる。
ワンストップ・ショッピングおよびデモ使用機能
当然のことながら、語彙集を加えることでデータ入力やその他のLSCシステム機能性をどのくらい改善するかがわからないと、ユーザは追加的入力方法に係る辞書に直ち大金をかけたいとは思わないかもしれない。同時に、現行のビジネス手法においては、語彙データソースは、異種ソースに由来して電子フォーマットで利用可能になっているとは限らないので、見つけることが難しいこともありうる。
この潜在的な欠点に対処するため、本発明のLSCシステムに準拠するすべての語彙データソースが一つのロケーション、例えば、OSインストール用ソフトに添えられているインストール用CDで、または語彙データソースのダウンロードを提供するために設けられているウェブサイトで見つけることができるように「ワンストップ・ショッピング」機能が備わっている。ユーザが所望する言語に関する語彙ソースは、その後コード化されたフォーマットでダウンロードされる。
ユーザが語彙集を試用したい場合、その語彙集ファイルが別のコンピュータに使用されないという「統合キー(マリッジ・キー)」が対象となっているコンピュータに与えられる。続いて、LSC装置がそのファイルを復号化するが、その語彙集に対するSourceWordsが起動解除日が割り当てられる。起動解除日になると、その語彙集は使用できなくなり、その入力は語彙データ集から除去される。ユーザがその語彙集の購入を選択した場合、その語彙集は再起動キーを与えられ、その時点から対象となっているコンピュータで永久的に使用できる。
データセキュリティに対する本発明のアプローチに、どのような数の標準的コードアルゴリズムも使用でき、実際の実装はプラットフォーム依存性である。理想的には、すべてのデータベースが別個のキーを有し、一つのキーが発見されるような起こりそうにない事態においても、その他はセキュリティ侵害されない。しかしながら、コード化をハッカー予備軍にとっての攻撃手段となる可能性を低くするのに十分なくらい安全にできることを容易に示してきた。したがって、語彙データの盗難を防ぐのに十分なセキュリティが提供されている限り、blowfishまたはtwo−fishアルゴリズムが使用されているかはほとんど関係ない。そして、起動および起動解除(デモ使用後)コードは、そのデータがインストールされているコンピュータに固有であるので、起動あるいは再起動コードを人々が共有することは不可能である。
同時に、その他のどのような種類のNLPモジュールも、ワンストップ・システムで利用可能にすることができる。モジュールは、上述のLSCインターフェースに準拠しなければならない。したがって、様々なテキスト−音声、音声−テキスト、入力方法、手書き認識、および光学的文字認識モジュールがこのようにしてさらに利用可能にすることができる。
収益共有
OSプロバイダおよび語彙データプロバイダにとってLSCシステムの作成およびホスティングを良好にするには、様々な金銭的な取り決めができる。しかしながら、好ましくは、購入された各語彙集について、OSプロバイダはそのLSCシステムの使用許諾の価格を相殺するのに役立つ小額の使用料の取り分を受け取る。この語彙集プロバイダもまた、小額の使用料の取り分を受け取る。このLSCシステムの使用権許諾者は、直接OSプロバイダにより支払われるか、あるいは購入された各語彙集ごとに同様の使用料の取り分を支払われることができる。LSCと語彙集プロバイダがそのデータを提供する、「互いに有利な」資金調達または収益共有である。さらには、外部NLPモジュール開発者がそのインターフェースに固執する場合。
支払い方法と支払い保証
理想的にはユーザが対象となっている語彙集についての永久的な起動コードを得ることができるように、支払いはインターネットを通じて行う。どのような一時的なデモ使用用起動コードは、無償で提供することができるが、これらのコードは限定的な使用またはアクセス性を、所望のそのような限定的な使用をも解除するために提供される手段と共に提供するものである。理想的には、語彙集のプロバイダやOSプロバイダ、ならびにLSCシステムプロバイダのすべてに、購入がなされた時点で通知されるので、どのくらいの使用料が与えられるかについての争いがない。
安全面ならびにこれらの三当事者のいずれにも詐欺が確実に起こらないようにするために、ユーザが語彙集に対して支払う場合に、確認コードをすべての三つの当事者により提供することができる。別個の確認コードを利用することで、語彙集が購入された際に、各当事者に通知され、したがって各当事者がその利益のうちの合意した取り分を受け取ることを確実にする。
操作上は、ユーザはウェブまたはインストール用のCDから語彙集モデルをダウンロードまたはインストールする。その後ユーザは、(所望の場合は)その製品のデモ使用を、デモ使用用の起動コードの提供時に、選択する。この時点では、この語彙データは、そのシステム上で固有なLSCに「結び付けられて」いる。ダウンロードされた語彙集から得た単語は、一時的にそのシステム中の語彙データ集に一時的に保存される。デモ使用期間がきれると、そのデータはそのデータ集から除去される。
その後、このユーザはその語彙集を購入してもよい。購入の際には、そのOSプロバイダ、語彙集プロバイダ、ならびにLSCサービスプロバイダは、その購入について通知される。再起動(永久)キーが提供され、そのデータはここで再度その語彙データ集に組み込まれる。理想的には、この再起動キーはオンラインでの購入であるが、このようなアクセスのない場合には、オフラインでの購入取引も利用可能にしていてもよい。
このユーザは、どのセットの区別されたデータを自動的に利用可能にし、どれをデフォルトとして隠しておくかを選ぶことができる。ブロックデータに関しては、そのような選択はない。ブロックデータは、表示用に選択された場合、一単位として示される。
語彙データの追加購入は同一の原理に従い、データは前述の実施形態に記載のようにシステム内の語彙データ集に組み込まれる。
追加のNLPモジュールを購入してもよい。上述のインターフェースに準拠するとして、これらすべては語彙サービスセンターにプールされた語彙データを活用することができる。
別の実施形態においては、非CJK言語をこの言語システムに組み込むことができる。上述の実施形態では、東アジア言語学習者やユーザのニーズに焦点をあてており、この語彙サービスセンター(LSC)の特徴の多くが、その筆記システムがアルファベットのスクリプトのある形式に基づいているものを含めて、実際は別の言語のユーザや学習者にも同様の好結果で適用できる。したがって、例えば、LSCのコンピュータベースおよび電子機器ベースのバージョンの両者が、西洋の言語に適用できることになる。この目的を達成するには、システム内の語彙データ集に使用されるデータは対象となっているスクリプトに準拠してスペル順に並べられている必要はない。
大部分については、そういつの基本的フレームワークやデータ構造が、上述のCJK志向のLSCシステムとして適用できることになる。しかしながら、非CJKシステムに対する実装では、図7に示されるように、いくつかの変更が必要となる。
手書き認識モジュール、光学的文字認識モジュール、および入力方式モジュールはすべて、テキストストリームを有するインターフェースであり、好ましくは、対象となっている言語の標準的な正字法で表現される。文字の認知シークエンスは、実際の綴りについての形態学的構文解析ツールに対して、検査される。(これは、CJKシステムがローマ字化バッファ(ピンインやローマ字等)を入力されているものの読みを表現するのに使用している点でCJKシステムとは異なる。)その一方で、テキスト−音声ならびに音声−テキストモジュールは、CJKバージョンと同じ種類の音素のストリームとインターフェースで接続し、この場合にのみ、表現は実際の綴りとならない可能性が高いが、ある形式の音声的または音素的表現となる。同音異字の現象のため、このような表現は、綴られるさいにありとあらゆる可能な単語に対して設計することが重要である。(例えば、ある英語の方言では、「cot」と「caught」の読みは同じであるが、同一の音素的表現を有する。このことを可能にするには、システム内の語彙データ集も、実際の正字法による綴りのみでなく、テキスト−音声または音声−テキストモジュールで認識されるであろう音素的ストリームの相当物も有していなければならない。同様に、派生則は、語形変化や派生語を標準的な正字法(その言語の綴り字方式)と音素的ストリームインターフェースで使用される音素的表現の両者で表現する機能を有することになる。このNLPモジュールのLSCを有するこれらのインターフェースとの関係を図7に示す。(このシステムの目的が、例えば、中国語を母国語とする人に対する英語支援を提供する場合は、文字ベースのインターフェースもCJKバージョンの場合のように含めることができる。)
標準的な入力方法で通常実施されない様々な機能は非CJK実施形態に適用することができる。例えば、ユーザ入力を追跡することで、ユーザの語彙用法の評価や標準的な使用頻度数との比較が可能となる。このようにすることは、特に、ユーザが語彙で多大なまたは驚愕するほどのギャップ(第2言語学習者には珍しいことではないこと)が明らかとなっている場合に有益である。文法または綴り字支援も、各単語入力が形態学的構文解析ツールに対して検査されると、オンザフライで利用可能である。予想される語形変化した形式のいずれにもマッチしない単語は、その時点で見直し用に印をつけておくことができ、可能なマッチを別のフローティングパレットまたはその他のGUIにオンザフライで提供できる。このユーザは辞書に対する即時の悪性巣をゆうし、いくつかの辞書は2ヶ国語で、ユーザはCJKバージョンでのように、単語を逆引きできる。要するに、CJK志向性LSCを実施する際に達成されるのに同様な非CJK言語の学習者のためのこのようなアプローチを適用するのに、多くの教育的長所がある。
要約すると、LSCは、中国語、日本語、および韓国語以外の言語のための入力方法とその他のNLPモジュールに適応できる。
上述の工程のいずれもが、意図する言語データ管理タスクを実行するために、すべてまたはその一部を繰り返してもよいことは理解されよう。さらには、上述の工程は単一または分散プロセッサで実行してもよい。さらにまた、上記実施形態に関する様々な図で記載したプロセス、モジュール、およびユニットも、複数のコンピュータまたはシステムにわたって分散していてもよく、あるいは単一のプロセッサまたはシステムに共に配置してもよい。
言語データ管理のための前記方法、システム、およびコンピュータプログラム製品(すなわち、ソフトウェア)実施形態は、汎用コンピュータ、特殊用途用コンピュータ、プログラム化されたマイクロプロセッサ、またはマイクロコントローラと周辺集積回路要素、ASICまたはその他の集積回路、デジタル信号プロセッサ、ディスクリート要素回路等のコンピュータに組み込まれた電子または論理回路、PLD、PLA、FPGA、PAL等のプログラム化された論理装置上で実施してもよい。
さらには、本開示方法と言語データ管理のためのコンピュータプログラムの実施形態は、例えば、様々なコンピュータプラットフォームに使用できる携帯式のソースコードを提供するオブジェクトまたはオブジェクト志向性ソフトの開発環境を用いるスフとウェアで、すべてまたは部分的に容易に実施できる。代わりに、言語データ管理のための開示した方法、システム、およびコンピュータプログラム製品は、例えば、標準的な論理回路またはVLSI設計を用いるハードウェアにおいて部分的またはすべて実施できる。それらのシステムの速度および/または効率についての必要条件、特定機能、および/または特定のソフトウェアまたはハードウェアシステム、マイクロプロセッサ、または使用するマイクロコンピュータシステムに応じて、実施形態を実施するのにその他のハードウェアまたはソフトウェアを使用できる。言語データ管理のための方法、システム、およびコンピュータプログラムの実施形態は、既知または本願明細書で提供される機能に関する記載とコンピュータおよび/または言語分野に関する基本知識から後に開発されたシステムまたは構造体、装置および/またはソフトウェアを用いて、ハードウェアおよび/またはソフトウェアにおいて実装できる。
さらには、言語データ管理のための開示された方法、システム、およびコンピュータプログラム製品は、プログラム化された汎用コンピュータ、特殊用途用コンピュータ、マイクロプロセッサ等に実装できる。さらにまた、本言語データ管理システムおよび方法は、JAVA(登録商標)またはCGIスクリプト等のパーソナルコンピュータに埋め込まれたプログラムとして、サーバまたはグラフィックワークステーションに備わっているリソースとして、専用のプロセッシングシステムに埋め込まれたルーチンとして等、実施できる。これらの方法とシステムは、ソフトウェアおよび/またはハードウェアシステム、例えばコンピュータ・ソフトウェア・プログラム、電子辞書、および/または翻訳機に物理的に組み込むことでも実施できる。
したがって、本発明により、言語データ管理のための方法、システム、およびコンピュータプログラム製品が提供されることは明らかである。本発明はいくつかの実施形態とあわせて記載したが、この応用分野に関する当業者には多くの修正、変更、ならびに改変が明らかであろうことは明白である。したがって、本申請者は、本発明の精神および範囲を逸脱しないこれらの修正、変更、相当物、および改変も含むことを意図する。
Claims (9)
- 様々なソースに由来する語彙データ集を、一つ又は複数の自然言語処理モジュール(NLPモジュール)で利用可能な中央語彙データ集に統合する方法であって、
語彙データ構造種類を特定するデータ構造識別コードを設立する工程と、
語彙データ分類を特定する語彙データ分類コードを設立する工程と、
一つ又は複数の語彙データ集を組み込むことにより成立する前記中央語彙データ集を蓄積するように構成された中央語彙データストアを提供する工程と、
前記データ構造識別コードにより特定されたデータ構造に対応するテーブルを、中央語彙データテーブル構造に提供する工程と、
前記語彙データ分類に対応するフィールドを前記該中央語彙データテーブル構造に提供する工程と、
前記様々なソースから語彙データを読込む時に生成される可能性がある冗長性を削減するように、前記中央語彙データテーブル構造を構成する工程と、
ソースの語彙データに使用された構造を示す一つの又は複数の前記データ構造識別コード、及び、当該語彙データにおいて代表される前記語彙データ分類を示す一つ又は複数の前記語彙データ分類コード、を列挙したヘッダーを、前記語彙データ集に対して提供する工程と、
前記語彙データ集に存在するデータ項目の各々に対して、当該データ項目の前記語彙データ分類を特定する語彙データ分類コードを提供する工程と、
前記語彙データ集を獲得する工程と、
前記語彙データ集を読込む工程と、
前記中央語彙データ集に冗長性を生成する可能のある関連を回避しながら、前記語彙データ集の前記ヘッダーに提供されている前記データ構造識別コードに従って前記読込んだ語彙データ集のデータ項目の各々を前記中央語彙データテーブル構造における対応するテーブルと関連させ、前記データ項目に提供した前記語彙データ分類コードに従って前記読込んだ語彙データ集のデータ項目の各々を前記中央語彙データテーブル構造の一つ又は複数のフィールドと関連させることにより、前記語彙データ集を前記中央語彙データ集に組込む工程と、
その後の全ての語彙データ集に対して、前記語彙データ集にヘッダーを提供する工程と、前記語彙データ集に存在するデータ項目の各々に前記語彙データ分類コードを提供する工程と、前記語彙データ集を獲得する工程と、前記語彙データ集を前記中央語彙データ集に組込む工程と、を繰り返す工程と、
前記中央語彙データストアに、上記の工程の結果として生成された中央語彙データ集を蓄積する工程と、を備える方法。 - 特定の語彙データフィールドを、検索可能なキーフィルドとして指定する工程と、
前記一つ又は複数のNLPモジュールのうちの一つ又は複数を操作する間に、前記検索可能なキーフィルドにより前記中央語彙データ集から語彙データを検索する手段を提供する工程と、
前記複数のNLPモジュールのうちの一つ又は複数を操作する間に、前記検索された語彙データを利用する手段を提供する工程と、を更に備える、請求項1に記載の方法。 - 前記データ構造識別コードは、前記語彙データ集のデータ構造が平坦状であるか階層状であるかを示すものである、請求項1又は請求項2に記載の方法。
- 前記データ構造識別コードは、語彙データフィールドが単項であるか複項であるかを示
すものである、請求項1又は請求項2に記載の方法。 - 前記語彙データ分類コードは、漢字画数、端点数、部首、部首でない主要構成要素、品詞、品詞のサブタイプ、主要定義、副次的定義、熟語的用法、同意語、反意語、例文、用法に関する注意、解字に関する情報、頻度順位、教育順位、第二言語による定義及び第二言語への翻訳のうちの少なくとも一つを特定するコードである、請求項1又は請求項2に記載の方法。
- 前記語彙データ分類コードは、単語の品詞、品詞のサブタイプ、主要定義、副次的定義、熟語的用法、同意語、反意語、例文、用法に関する注意、解字に関する情報、頻度順位、教育順位、第二言語による定義及び第二言語への翻訳のうちの少なくとも一つを特定するコードである、請求項1又は請求項2に記載の方法。
- 前記NLPモジュールは、音声認識モジュール、光学式文字認識モジュール、電子辞書モジュール、翻訳モジュール、テキスト入力モジュール、スペルチェッカーモジュール、漢字検索モジュール、マウスオーバーモジュール、単語検索モジュールのうちの一つ又は複数を含み、
前記様々なソースに由来する前記語彙データ集は、
別個に提供された独立した語彙データ集、及び、前記一つ又は複数のNLPモジュールのうちの何れかと関連付けられ、当該NLPモジュールで使用されるべく提供された語彙データ集、のうちの一つ又は複数を含む、請求項1又は請求項2に記載の方法。 - 前記中央語彙データテーブル構造の前記テーブル及び前記フィールドは、どの語彙データ集がデータ項目のソースとなっているか示す情報を記録するように構成され、
前記語彙データ集の前記ヘッダーに提供されている前記データ構造識別コードに従って前記読込んだ語彙データのデータ項目の各々を前記中央語彙データテーブル構造における対応するテーブルと関連させ、前記データ項目に提供した前記語彙データ分類コードに従って前記読込んだ語彙データのデータ項目の各々を前記中央語彙データテーブル構造の一つ又は複数のフィールドと関連させる工程の間に、
前記データ項目の前記ソースを、当該データ項目と共に記録し、
どの前記語彙データ集を前記中央語彙データ集に組込むかをユーザが選択可能なグラフィカルユーザーインターフェースが提供され、
選択された語彙データ集に由来する語彙データは、「使用可」と指定され、前記中央語彙データ集から語彙データを検索する工程の間に検索され、
選択されなかった語彙データ集に由来する語彙データは、「使用不可」と指定され、前記中央語彙データ集から語彙データを検索する工程の間に検索されない、請求項1又は請求項2に記載の方法。 - 前記中央語彙データ集に存在する語彙データが使用可又は使用不可であるかは、前記ユーザが前記語彙データを使用する許可を得ているか否かによって決定される、請求項8に記載の方法。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US99016607P | 2007-11-26 | 2007-11-26 | |
US99012307P | 2007-11-26 | 2007-11-26 | |
US60/990,166 | 2007-11-26 | ||
US60/990,123 | 2007-11-26 | ||
US99101007P | 2007-11-29 | 2007-11-29 | |
US60/991,010 | 2007-11-29 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014048371A Division JP2014142951A (ja) | 2007-11-26 | 2014-03-12 | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016186805A JP2016186805A (ja) | 2016-10-27 |
JP2016186805A5 true JP2016186805A5 (ja) | 2018-03-22 |
Family
ID=40678958
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010535118A Pending JP2011509442A (ja) | 2007-11-26 | 2008-11-25 | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
JP2010535116A Expired - Fee Related JP5666307B2 (ja) | 2007-11-26 | 2008-11-25 | 漢字系文字および文字構成要素の分類ならびに読み出しのためのシステムと方法 |
JP2014048371A Pending JP2014142951A (ja) | 2007-11-26 | 2014-03-12 | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
JP2016124051A Pending JP2016186805A (ja) | 2007-11-26 | 2016-06-23 | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010535118A Pending JP2011509442A (ja) | 2007-11-26 | 2008-11-25 | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
JP2010535116A Expired - Fee Related JP5666307B2 (ja) | 2007-11-26 | 2008-11-25 | 漢字系文字および文字構成要素の分類ならびに読み出しのためのシステムと方法 |
JP2014048371A Pending JP2014142951A (ja) | 2007-11-26 | 2014-03-12 | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8433709B2 (ja) |
JP (4) | JP2011509442A (ja) |
CN (2) | CN102016837B (ja) |
HK (2) | HK1156418A1 (ja) |
TW (2) | TWI468954B (ja) |
WO (2) | WO2009070615A1 (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8564544B2 (en) | 2006-09-06 | 2013-10-22 | Apple Inc. | Touch screen device, method, and graphical user interface for customizing display of content category icons |
GB0624571D0 (en) * | 2006-12-08 | 2007-01-17 | Cambridge Silicon Radio Ltd | Authenticating Devices for Communications |
US8689132B2 (en) | 2007-01-07 | 2014-04-01 | Apple Inc. | Portable electronic device, method, and graphical user interface for displaying electronic documents and lists |
CN105117376B (zh) * | 2007-04-10 | 2018-07-10 | 谷歌有限责任公司 | 多模式输入法编辑器 |
US8266514B2 (en) * | 2008-06-26 | 2012-09-11 | Microsoft Corporation | Map service |
US9824071B2 (en) * | 2008-12-03 | 2017-11-21 | Microsoft Technology Licensing, Llc | Viewing messages and message attachments in different languages |
US20120010870A1 (en) * | 2010-07-09 | 2012-01-12 | Vladimir Selegey | Electronic dictionary and dictionary writing system |
US20120038652A1 (en) * | 2010-08-12 | 2012-02-16 | Palm, Inc. | Accepting motion-based character input on mobile computing devices |
JP2012079252A (ja) * | 2010-10-06 | 2012-04-19 | Fujitsu Ltd | 情報端末装置、文字入力方法および文字入力プログラム |
US8914743B2 (en) * | 2010-11-12 | 2014-12-16 | Apple Inc. | Device, method, and graphical user interface for navigating a list of identifiers |
US20120156658A1 (en) * | 2010-12-16 | 2012-06-21 | Nicholas Fuzzell | Methods for teaching and/or learning chinese, and related systems |
WO2012174703A1 (en) * | 2011-06-20 | 2012-12-27 | Microsoft Corporation | Hover translation of search result captions |
JP2013041350A (ja) * | 2011-08-12 | 2013-02-28 | Panasonic Corp | タッチテーブルシステム |
KR101870729B1 (ko) * | 2011-09-01 | 2018-07-20 | 삼성전자주식회사 | 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법 |
KR20130080515A (ko) * | 2012-01-05 | 2013-07-15 | 삼성전자주식회사 | 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법. |
WO2013138503A1 (en) * | 2012-03-13 | 2013-09-19 | Stieglitz Avi | Language learning platform using relevant and contextual content |
TWI449000B (zh) * | 2012-03-23 | 2014-08-11 | Chinese Foundation For Digitization Technology | Multimedia Chinese Character Learning Method |
US9274609B2 (en) | 2012-07-23 | 2016-03-01 | Mingyan Xie | Inputting radical on touch screen device |
US20140344670A1 (en) * | 2013-05-14 | 2014-11-20 | Pandaworks Inc. Dba Contentpanda | Method and system for on-demand delivery of predefined in-context web content |
KR20150028627A (ko) * | 2013-09-06 | 2015-03-16 | 삼성전자주식회사 | 사용자 필기를 텍스트 정보로 변환하는 방법 및 이를 수행하기 위한 전자 기기 |
JP2015060095A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
WO2015112250A1 (en) * | 2014-01-22 | 2015-07-30 | Speak Agent, Inc. | Visual-kinesthetic language construction |
CN104808806B (zh) * | 2014-01-28 | 2019-10-25 | 北京三星通信技术研究有限公司 | 根据不确定性信息实现汉字输入的方法和装置 |
TW201530357A (zh) * | 2014-01-29 | 2015-08-01 | Chiu-Huei Teng | 用於電子裝置之中文輸入法 |
RU2640322C2 (ru) * | 2014-01-30 | 2017-12-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы эффективного автоматического распознавания символов |
US10084941B2 (en) * | 2014-04-30 | 2018-09-25 | Hewlett-Packard Development Company, L.P. | Generating color similarity measures |
WO2016029045A2 (en) * | 2014-08-21 | 2016-02-25 | Jobu Productions | Lexical dialect analysis system |
JP6466138B2 (ja) * | 2014-11-04 | 2019-02-06 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
US20160147741A1 (en) * | 2014-11-26 | 2016-05-26 | Adobe Systems Incorporated | Techniques for providing a user interface incorporating sign language |
US9740684B2 (en) * | 2015-02-18 | 2017-08-22 | Lenovo (Singapore) Pte. Ltd. | Determining homonyms of logogram input |
CN106997245A (zh) * | 2016-01-24 | 2017-08-01 | 杨文韬 | 一种根据中文语言模型构建输入法词库的方法 |
US10031949B2 (en) * | 2016-03-03 | 2018-07-24 | Tic Talking Holdings Inc. | Interest based content distribution |
US10176623B2 (en) | 2016-05-02 | 2019-01-08 | Tic Talking Holdings Inc. | Facilitation of depiction of geographic relationships via a user interface |
CN108346426B (zh) * | 2018-02-01 | 2020-12-08 | 威盛电子(深圳)有限公司 | 语音识别装置以及语音识别方法 |
TWI659411B (zh) * | 2018-03-01 | 2019-05-11 | 大陸商芋頭科技(杭州)有限公司 | 一種多語言混合語音識別方法 |
CN109147784B (zh) * | 2018-09-10 | 2021-06-08 | 百度在线网络技术(北京)有限公司 | 语音交互方法、设备以及存储介质 |
US11017771B2 (en) * | 2019-01-18 | 2021-05-25 | Adobe Inc. | Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets |
US10964322B2 (en) | 2019-01-23 | 2021-03-30 | Adobe Inc. | Voice interaction tool for voice-assisted application prototypes |
TWI725608B (zh) * | 2019-11-11 | 2021-04-21 | 財團法人資訊工業策進會 | 語音合成系統、方法及非暫態電腦可讀取媒體 |
CN111753556B (zh) * | 2020-06-24 | 2022-01-04 | 掌阅科技股份有限公司 | 双语对照阅读的方法、终端及计算机存储介质 |
CN113536005B (zh) * | 2021-09-17 | 2021-12-24 | 网娱互动科技(北京)股份有限公司 | 一种相似图片或字体查找方法和系统 |
WO2023146416A1 (en) * | 2022-01-28 | 2023-08-03 | John Chu | Character retrieval method and apparatus, electronic device and medium |
CN116738966A (zh) * | 2022-03-01 | 2023-09-12 | 衍利行资产有限公司 | 一种分析包括中文字文本的方法和系统 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01114976A (ja) * | 1987-10-28 | 1989-05-08 | Sharp Corp | 文書処理装置の辞書構造 |
JPH0540747A (ja) * | 1991-08-07 | 1993-02-19 | Matsushita Electric Ind Co Ltd | ワードプロセツサー |
JPH05151197A (ja) * | 1991-11-14 | 1993-06-18 | Chinka Oka | コンピユータに漢字を入力する方法 |
US5257938A (en) * | 1992-01-30 | 1993-11-02 | Tien Hsin C | Game for encoding of ideographic characters simulating english alphabetic letters |
CN1144354A (zh) * | 1995-04-25 | 1997-03-05 | 齐兰发展股份有限公司 | 增强的字符录入系统 |
US5923778A (en) * | 1996-06-12 | 1999-07-13 | Industrial Technology Research Institute | Hierarchical representation of reference database for an on-line Chinese character recognition system |
JP2000163418A (ja) * | 1997-12-26 | 2000-06-16 | Canon Inc | 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体 |
US7257528B1 (en) * | 1998-02-13 | 2007-08-14 | Zi Corporation Of Canada, Inc. | Method and apparatus for Chinese character text input |
CN1145872C (zh) * | 1999-01-13 | 2004-04-14 | 国际商业机器公司 | 手写汉字自动分割和识别方法以及使用该方法的系统 |
US6625335B1 (en) * | 2000-05-11 | 2003-09-23 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for assigning keywords to documents |
JP3838857B2 (ja) * | 2000-09-19 | 2006-10-25 | 沖電気工業株式会社 | 辞書装置 |
US20060139315A1 (en) * | 2001-01-17 | 2006-06-29 | Kim Min-Kyum | Apparatus and method for inputting alphabet characters on keypad |
CN1403960A (zh) * | 2001-08-27 | 2003-03-19 | 无敌科技股份有限公司 | 通过电脑拼字的方法 |
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
US7680649B2 (en) * | 2002-06-17 | 2010-03-16 | International Business Machines Corporation | System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages |
US8137105B2 (en) * | 2003-07-31 | 2012-03-20 | International Business Machines Corporation | Chinese/English vocabulary learning tool |
JP2005157472A (ja) * | 2003-11-20 | 2005-06-16 | Sharp Corp | 文字入力装置および文字入力方法 |
TW200527226A (en) * | 2004-02-11 | 2005-08-16 | Cheng-Fu Lee | Chinese system for sorting and searching |
KR20050092999A (ko) * | 2004-03-17 | 2005-09-23 | 샤프전자(주) | 전자사전에서의 한자검색방법 |
WO2005124599A2 (en) * | 2004-06-12 | 2005-12-29 | Getty Images, Inc. | Content search in complex language, such as japanese |
US20070052868A1 (en) * | 2005-09-02 | 2007-03-08 | Charisma Communications, Inc. | Multimedia accessible universal input device |
JP2007087216A (ja) * | 2005-09-22 | 2007-04-05 | Toshiba Corp | 階層型辞書作成装置、プログラムおよび階層型辞書作成方法 |
-
2008
- 2008-11-25 US US12/744,801 patent/US8433709B2/en active Active
- 2008-11-25 CN CN200880125478.XA patent/CN102016837B/zh active Active
- 2008-11-25 JP JP2010535118A patent/JP2011509442A/ja active Pending
- 2008-11-25 WO PCT/US2008/084750 patent/WO2009070615A1/en active Application Filing
- 2008-11-25 US US12/744,809 patent/US8521738B2/en active Active
- 2008-11-25 JP JP2010535116A patent/JP5666307B2/ja not_active Expired - Fee Related
- 2008-11-25 WO PCT/US2008/084755 patent/WO2009070619A1/en active Application Filing
- 2008-11-25 CN CN2008801254775A patent/CN102016836B/zh not_active Expired - Fee Related
- 2008-11-25 TW TW97145512A patent/TWI468954B/zh not_active IP Right Cessation
- 2008-11-25 TW TW097145519A patent/TWI496012B/zh not_active IP Right Cessation
-
2011
- 2011-10-11 HK HK11110767.7A patent/HK1156418A1/xx unknown
- 2011-10-11 HK HK11110766.8A patent/HK1156710A1/xx unknown
-
2014
- 2014-03-12 JP JP2014048371A patent/JP2014142951A/ja active Pending
-
2016
- 2016-06-23 JP JP2016124051A patent/JP2016186805A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016186805A5 (ja) | ||
JP2016186805A (ja) | 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法 | |
US10380241B2 (en) | Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form | |
Silberztein | Formalizing natural languages: The NooJ approach | |
Baker | Glossary of corpus linguistics | |
Trujillo | Translation engines: techniques for machine translation | |
JP5513898B2 (ja) | 共有された言語モデル | |
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
KR20130018205A (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
JP2013540304A (ja) | 入力テキスト文字列の変換 | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
Mammadzada | A review of existing transliteration approaches and methods | |
Jamro | Sindhi language processing: A survey | |
Koanantakool et al. | Computers and the thai language | |
Baxi et al. | GujMORPH-a dataset for creating gujarati morphological analyzer | |
Lu et al. | Language model for Mongolian polyphone proofreading | |
Petrovčič et al. | The New Chinese Corpus of Literary Texts Litchi | |
JP7223450B2 (ja) | 自動翻訳装置及び自動翻訳プログラム | |
US11947580B2 (en) | Book search apparatus, book search database generation apparatus, book search method, book search database generation method, and program | |
EP1221082B1 (en) | Use of english phonetics to write non-roman characters | |
JP2004118461A (ja) | 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体 | |
JPH0410052A (ja) | 外国語電子辞書検索方法及び装置 | |
JP2866437B2 (ja) | 用例辞書登録方法及び装置 | |
Курибаяши | On the development and utilization of Web-dictionary of Mongolian traditional dictionaries |