JP2003345796A - コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 - Google Patents

コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法

Info

Publication number
JP2003345796A
JP2003345796A JP2003125929A JP2003125929A JP2003345796A JP 2003345796 A JP2003345796 A JP 2003345796A JP 2003125929 A JP2003125929 A JP 2003125929A JP 2003125929 A JP2003125929 A JP 2003125929A JP 2003345796 A JP2003345796 A JP 2003345796A
Authority
JP
Japan
Prior art keywords
word
information
section
data
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003125929A
Other languages
English (en)
Other versions
JP2003345796A5 (ja
JP4724357B2 (ja
Inventor
James P Finnigan
ピー.フィニガン ジェームズ
Curtis E Huttenhower
イー.ハッテンハウアー カーティス
Douglas W Potter
ダブリュ.ポッター ダグラス
Kevin R Powell
アール.パウエル ケビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003345796A publication Critical patent/JP2003345796A/ja
Publication of JP2003345796A5 publication Critical patent/JP2003345796A5/ja
Application granted granted Critical
Publication of JP4724357B2 publication Critical patent/JP4724357B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 レキシコンを格納するための高い柔軟性と効
率を有する改良されたデータ構造を提供しそのデータ構
造を使用可能とする。 【解決手段】 単語レキシコン22のデータ構造は、単
語項目に関連する情報を格納する複数の別個のデータセ
クション168を含む。索引セクション166は、情報
の位置を示すポインタを含む。各単語項目の関連付けら
れたポインタの位置は、単語項目のリスト162に応じ
て得られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ可読
媒体及び単語情報を得るコンピュータ実行方法並びに単
語情報を格納する方法に関する。より詳細には、言語ま
たはテキストの処理に関連し、レキシコン(lexicon)
を格納するための改良されたデータ構造、及びそのデー
タ構造を使用する方法に係る、レキシコンを有するコン
ピュータ可読媒体、単語情報を得るコンピュータ実行方
法、単語情報を格納する方法及びそれらの方法を実施す
る命令を有するコンピュータ可読媒体に関する。
【0002】
【従来の技術】言語処理またはテキスト処理には多くの
タイプのシステムが含まれる。例えば、パーサ、スペル
チェッカ、文法チェッカ、ワードブレーカ、自然言語の
プロセッサまたは理解システム、機械翻訳システムは、
この広い範疇に該当するシステムのタイプのいくつかに
過ぎない。
【0003】多くの言語またはテキスト処理システムに
共通する重要なコンポーネントがレキシコンである。一
般に、レキシコンは単語についての情報を含むデータ構
造である。例えば、レキシコンは構文的情報及び意味的
情報の指示を格納することができる。この例には、その
単語が名詞であるか、動詞、形容詞であるかなどが挙げ
られる。また、異なるタイプの言語情報もレキシコンに
格納することができる。しばしば、構文解析の助けとな
る単語についての情報を格納するなど、特定タイプの言
語処理に有用な他の情報を格納しておくことも有用であ
る。さらに他のレキシコンでは、その単語が固有名詞
か、地理的な場所かなどについての指示が有用であるこ
ともある。
【0004】動作の際は、単語の入力文字列を受け取る
と、言語またはテキスト処理システムはレキシコンにア
クセスして、各単語についての格納された情報を得る。
入力文字列中の各単語についての情報を集めると、言語
またはテキスト処理システムはその入力文字列を処理す
るが、これには存在する可能性のあるあいまい性をその
単語の情報に基づいて解消することが含まれる場合があ
る。例えば、自然言語処理システムでは、レキシコンは
入力文字列中の各単語に品詞を割り当てる。次いで構文
パーサがどの品詞の割り当てが適切であるかを判断し、
入力文字列から構造を構築し、それを解釈のために意味
コンポーネントに渡すことができる。
【0005】いくつかの文献に上述のような従来の技術
に関連した技術内容が開示されている(例えば、非特許
文献1参照)。
【0006】
【非特許文献1】P.T.Sato著「A COMMON PARSING SCHEM
E FOR LEFG-AND RIGHT-BRANCHING LANGUAGES」Computat
ional Linguistics、Vol1.14、No.1、1988年冬、
p.20−30
【0007】
【発明が解決しようとする課題】一般に、レキシコンの
各項目は単一の大きなバイナリオブジェクトからなる。
このフォーマットでは、情報へのアクセスは可能である
が、項目全体を読み込まずに、一般に使用される語彙情
報への局所的なアクセスを容易には行うことができな
い。ある単語項目に関連するすべての情報をレキシコン
から読み込まなければならない場合、特にその単語項目
の情報のうちわずかな部分だけを必要とする場合には、
より多くのメモリと処理時間が必要とされる。
【0008】語彙情報の変更または追加も難しい。具体
的には、レキシコンを修正する、あるいはさらに情報を
追加するために、レキシコンの作成者は、非常に複雑な
データ構造の整合性と編成を保ちながら、各項目中のす
べてのビット、属性またはその他の情報を複製してか
ら、所望の情報を変更するか、あるいは情報を追加しな
ければならない。
【0009】このため、上述の不都合点の1つ、一部、
あるいはすべてに対処する改良したレキシコンデータ構
造が必要とされる。
【0010】本発明は、このような課題に鑑みてなされ
たもので、その目的とするところは、レキシコンを格納
するための高い柔軟性と効率を有する改良されたデータ
構造を提供しそのデータ構造を使用可能とする、コンピ
ュータ可読媒体及び単語情報を得るコンピュータ実行方
法並びに単語情報を格納する方法を提供することにあ
る。
【0011】
【課題を解決するための手段】本発明の一態様は、言語
処理システムで使用するために適合された単語情報を有
する、コンピュータ可読媒体に格納された単語レキシコ
ンである。このレキシコンは、複数の単語を記憶する単
語リストセクションと、それら複数の単語の単語情報を
記憶する複数のデータセクションとを含む。複数のデー
タセクションは互いと単語リストセクションとから分離
されている。単語情報にアクセスするために索引セクシ
ョンが提供され、このセクションには複数のデータセク
ション中のデータをポイントするポインタが格納され
る。使用するポインタの識別は、単語リストセクション
中の対応する単語に応じて決まる。
【0012】この改良されたレキシコン構造は、これま
で得ることのできなかった柔軟性と効率を提供する。索
引セクションと複数のデータセクションは、利用可能な
コンピュータリソースなど言語処理システムの必要性に
合わせて、レキシコンを適合することを可能にする。さ
らなる実施形態では、このレキシコン構造は、分類に基
づいて単語情報を分類またはグループ化することを可能
にする。例えば、この分類は、その単語項目が名詞か、
動詞か、形容詞かなど、単語項目の品詞に基づくことが
できる。これにより、分類に応じて単語情報に選択的に
アクセスすることができる。例示的実施形態では、対応
する単語情報の分類を示す表示がポインタ中に提供され
る。
【0013】本発明の他の態様は、複数のデータセクシ
ョンに単語情報を格納し、索引セクションにポインタ情
報を格納し、単語リストセクションに単語リストを格納
する、コンピュータによって実施される方法を含み、単
語リストは、選択された単語に関連付けられた対応する
ポインタを識別する情報を有する。同様に、別の態様
は、上述で提供されるレキシコンのデータ構造を使用し
て単語情報にアクセスすることである。
【0014】上述のレキシコン構造は、いくつかのレキ
シコンから情報を得ることが望ましい場合に特に有用で
あり、これは本発明のさらに別の態様である。一般に、
各レキシコンのデータセクションに選択的にアクセスす
ることにより、特定の単語項目についての複数のレキシ
コンのデータを必要に応じて組み合わせる、無視する、
または選択することができる。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。
【0016】図1に、通例はテキスト文字列の形で言語
入力12を受け取り、言語入力12を処理して、通例は
同じくテキスト文字列の形で言語出力14を提供する言
語またはテキスト処理システム10を概略的に表す。数
例を挙げると、言語処理システム10は、例えばスペル
チェッカ、文法チェッカ、あるいは自然言語プロセッサ
として実施することができる。当業者には理解されるよ
うに、言語処理システム10は、スタンドアロンアプリ
ケーション、または別のシステムからのアクセスが可能
な、あるいは別のシステムに含まれるモジュールやコン
ポーネントとすることができる。
【0017】一般に、言語処理システムはテキストアナ
ライザ20及びレキシコン22を含む。テキストアナラ
イザ20は、入力12を受け取り、レキシコン22にア
クセスしてレキシコン22から情報を得、単語情報を処
理して出力14を提供するコンポーネントまたはモジュ
ールを図式的に表している。本発明の一態様は、その利
用例によって必要とされる可能性のある必要な情報を効
率的にテキストアナライザ20に提供するためのレキシ
コン22の改良されたデータ構造である。レキシコン2
2は、多くの言語処理システムと多くの形態のテキスト
アナライザに使用できる独立したコンポーネントである
ことを考慮して、テキストアナライザ20とレキシコン
22の一般的な相互作用について説明するが、本発明の
理解に必要でないため、各種形態のテキストアナライザ
に関する具体的な詳細については述べない。
【0018】本発明のさらなる詳細な説明に入る前に、
動作環境の概要を見ておくと有用であろう。図2は、本
発明の実施が可能な適切なコンピューティングシステム
環境50の一例である。コンピューティングシステム環
境50は適切なコンピューティング環境の一例に過ぎ
ず、本発明の使用または機能性の範囲について何らの制
限を示唆するものではない。またコンピューティングシ
ステム環境50は、その例示的動作環境に示す構成要素
の任意の1つまたは組み合わせに関連する依存関係また
は必要性を有するものとも解釈すべきでない。
【0019】本発明は、数多くの他の汎用または特殊目
的のコンピューティングシステム環境または構成で動作
することができる。本発明に使用するのに適している可
能性があるよく知られるコンピューティングシステム、
環境、及び/または構成の例には、これらに限定しない
が、パーソナルコンピュータ、サーバコンピュータ、ハ
ンドヘルドまたはラップトップデバイス、マルチプロセ
ッサシステム、マイクロプロセッサベースのシステム、
セットトップボックス、プログラム可能な家庭用電化製
品、ネットワークPC(personal computer)、ミニコ
ンピュータ、メインフレームコンピュータ、上述のシス
テムまたはデバイスのいずれかを含む分散コンピューテ
ィング環境などがある。
【0020】本発明は、コンピュータによって実行され
るプログラムモジュールなどのコンピュータ実行可能命
令の一般的な状況で説明することができる。一般に、プ
ログラムモジュールには、特定タスクを行うか、あるい
は特定の抽象データ型を実装するルーチン、プログラ
ム、オブジェクト、コンポーネント、データ構造などが
含まれる。本発明は、通信ネットワークを通じてリンク
されたリモートの処理装置によってタスクを行う分散コ
ンピューティング環境で実施することもできる。分散コ
ンピューティング環境では、メモリ記憶装置を含むロー
カル及びリモート両方のコンピュータ記憶媒体にプログ
ラムモジュールを置くことができる。これらのプログラ
ム及びモジュールによって行われるタスクについて、以
下で図面を用いて説明する。当業者は、以下の説明及び
図を、任意形態のコンピュータ可読媒体に書き込むこと
のできるプロセッサ実行可能命令として実行することが
できる。
【0021】図2を参照すると、本発明を実施する例示
的システムは、コンピュータ60の形態の汎用コンピュ
ーティングデバイスを含む。コンピュータ60の構成要
素には、これらに限定しないが、プロセッサ70、シス
テムメモリ80、及びシステムメモリを含む各種のシス
テムコンポーネントをプロセッサ70に結合するシステ
ムバス71が含まれる。システムバス71は、各種のバ
スアーキテクチャの任意のものを使用したメモリバスま
たはメモリコントローラ、ペリフェラルバス、及びロー
カルバスを含む数タイプのバス構造のいずれでもよい。
例として、このようなアーキテクチャには、ISA(I
ndustry Standard Architec
ture)バス、MCA(Micro Channel
Architecture)バス、EISA(Enh
anced ISA)バス、VESA(Video E
lectronics Standards Asso
ciation)バス、及びメザニンバスとも称される
PCI(Peripheral Component
Interconnects)バスが含まれるが、これ
らに限定しない。
【0022】コンピュータ60は通例各種のコンピュー
タ可読媒体を含む。コンピュータ可読媒体は、コンピュ
ータ60がアクセスできる任意の利用可能媒体でよく、
揮発性及び不揮発性の媒体、リムーバル及びノンリムー
バル媒体が含まれる。これに限定しないが、例としてコ
ンピュータ可読媒体は、コンピュータ記憶媒体及び通信
媒体を含むことができる。コンピュータ記憶媒体は、コ
ンピュータ可読命令、データ構造、プログラムモジュー
ル、またはその他のデータなどの情報を記憶するための
任意の方法または技術で実現された不揮発性及び不揮発
性の媒体、リムーバル及びノンリムーバルの媒体を含
む。コンピュータ記憶媒体には、これらに限定しない
が、RAM(random access memory)、ROM(read o
nly memory)、EEPROM(electrically erasable
PROM)、フラッシュメモリまたは他のメモリ技術、CD
(compact disc [disk])−ROM、デジタル多用途デ
ィスク(DVD)または他の光ディスクストレージ、磁
気カセット、磁気テープ、磁気ディスクストレージまた
は他の磁気記憶装置、あるいは、所望の情報の記憶に用
いることができ、コンピュータ60によるアクセスが可
能な任意の他の媒体が含まれる。
【0023】通信媒体は、通例、搬送波または他の搬送
機構などの、変調データ信号にコンピュータ可読命令、
データ構造、プログラムモジュール、または他のデータ
を統合し、任意の情報伝達媒体を含む。用語「変調デー
タ信号」とは、信号中に情報を符号化するような方式で
その特性の1つまたは複数を設定または変化させた信号
を意味する。例として、通信媒体には、有線ネットワー
クまたは直接配線接続などの有線媒体と、音響、RF
(radio frequencies)、赤外線、及び他の無線媒体な
どの無線媒体が含まれるが、これらに限定しない。上記
の媒体のいずれの組み合わせもコンピュータ可読媒体の
範囲に含めるべきである。
【0024】システムメモリ80には、ROM81及び
RAM82など、揮発性及び/または不揮発性メモリの
形態のコンピュータ記憶媒体が含まれる。起動時などに
コンピュータ60内の要素間の情報転送を助ける基本ル
ーチンを含むBIOS(Basic Input/Output System)
83は、通例ROM81に記憶される。RAM82は通
例、プロセッサ70から即座にアクセス可能な、かつ/
または現在プロセッサ70によって操作中のデータ及び
/またはプログラムモジュールを含む。これらに限定し
ないが、例として、図2にはオペレーティングシステム
84、アプリケーションプログラム85、他のプログラ
ムモジュール86、及びプログラムデータ87を示して
いる。
【0025】コンピュータ60は、他のリムーバル/ノ
ンリムーバル、揮発性/不揮発性のコンピュータ記憶媒
体も含むことができる。単なる例として、図2には、ノ
ンリムーバル、不揮発性の磁気媒体の読み取りまたは書
き込みを行うハードディスクドライブ91、リムーバ
ル、不揮発性の磁気ディスク102の読み取りまたは書
き込みを行う磁気ディスクドライブ101、及びCD−
ROMや他の光媒体などのリムーバル、不揮発性の光デ
ィスク106の読み取りまたは書き込みを行う光ディス
クドライブ105を示す。例示的動作環境で使用できる
この他のリムーバル/ノンリムーバル、揮発性/不揮発
性のコンピュータ記憶媒体には、これらに限定しない
が、磁気テープカセット、フラッシュメモリカード、デ
ジタル多用途ディスク、デジタルビデオテープ、ソリッ
ドステートRAM、ソリッドステートROMなどが含ま
れる。ハードディスクドライブ91は通例、インタフェ
ース90などのノンリムーバルのメモリインタフェース
を通じてシステムバス71に接続され、磁気ディスクド
ライブ101及び光ディスクドライブ105は通例、イ
ンタフェース100などリムーバルなメモリインタフェ
ースによってシステムバス71に接続される。
【0026】上記で説明し、図2に示したドライブとそ
れに関連付けられたコンピュータ記憶媒体は、コンピュ
ータ可読命令、データ構造、プログラムモジュール、及
びコンピュータ60のその他のデータの記憶を提供す
る。例えば図2では、ハードディスクドライブ91にオ
ペレーティングシステム94、アプリケーションプログ
ラム95、他のプログラムモジュール96、及びプログ
ラムデータ97を記憶している。これらのコンポーネン
トは、オペレーティングシステム84、アプリケーショ
ンプログラム85、他のプログラムモジュール86、及
びプログラムデータ87と同じものでも、異なるもので
もよいことに留意されたい。ここではオペレーティング
システム84、アプリケーションプログラム85、他の
プログラムモジュール86、及びプログラムデータ87
には、それらが少なくとも異なるコピーであることを表
すために異なる参照符号をつけている。
【0027】ユーザは、キーボード112、マイクロフ
ォン113、手書きタブレット114、及びマウス、ト
ラックボール、タッチパッドなどのポインティングデバ
イス111などの入力装置を通じてコンピュータ60に
コマンドと情報を入力することができる。他の入力装置
(図示せず)には、ジョイスティック、ゲームパッド、
衛星放送受信アンテナ、スキャナなどがある。これら及
び他の入力装置は、システムバスに結合されたユーザ入
力インタフェース110を通じてプロセッサ70に接続
することが多いが、パラレルポート、ゲームポート、あ
るいはユニバーサルシリアルバス(USB)など他のイ
ンタフェース及びバス構造によって接続することも可能
である。モニタ141または他タイプの表示装置も、ビ
デオインタフェース140などのインタフェースを介し
てシステムバス71に結合される。コンピュータは、モ
ニタに加えて、スピーカ147やプリンタ146など他
の周辺出力装置も含むことができ、それらは出力周辺イ
ンタフェース145を通じて接続することができる。
【0028】コンピュータ60は、リモートコンピュー
タ130など1つまたは複数のリモートコンピュータへ
の論理接続を使用するネットワーク環境で動作すること
ができる。リモートコンピュータ130はパーソナルコ
ンピュータ、ハンドヘルドデバイス、サーバ、ルータ、
ネットワークPC、ピアデバイス、あるいはその他の一
般的なネットワークノードでよく、通例はコンピュータ
60との関連で上記で挙げた要素の多くまたはすべてを
含む。図2に示す論理接続には、構内ネットワーク(L
AN)121と広域ネットワーク(WAN)123が含
まれるが、他のネットワークを含むことも可能である。
このようなネットワーキング環境は、オフィス、企業内
のコンピュータネットワーク、イントラネット、及びイ
ンターネットに一般的に見られる。
【0029】LANネットワーキング環境で使用する場
合、コンピュータ60はネットワークインタフェースま
たはアダプタ120を通じてLAN121に接続され
る。WANネットワーキング環境で使用する場合、コン
ピュータ60は通例、インターネットなどのWAN12
3を通じて通信を確立するためのモデム122またはそ
の他の手段を含む。モデム122は内蔵型でも外付け型
でもよく、ユーザ入力インタフェース110または他の
適切な機構を介してシステムバス71に接続することが
できる。ネットワーク環境では、コンピュータ60との
関連で図示したプログラムモジュール、またはその一部
はリモートのメモリ記憶装置に格納することができる。
これに限定しないが、例として図2ではリモートアプリ
ケーションプログラム135がリモートコンピュータ1
30に常駐している。図のネットワーク接続は例示的な
ものであり、コンピュータ間に通信リンクを確立する他
の手段を使用できることは理解されよう。
【0030】テキストアナライザ20は、コンピュータ
60、またはリモートコンピュータ130などコンピュ
ータ60と通信する任意のコンピュータに常駐できるこ
とを理解されたい。同様に、レキシコン22は、コンピ
ュータ60の上述の記憶装置の任意のものに常駐する
か、または適切な通信リンクを通じてアクセス可能にす
ることができる。
【0031】図3は、レキシコン22の図式表現であ
る。図の例示的実施形態では、レキシコン22は、ヘッ
ダセクション160、単語リストセクション162、索
引テーブルセクション164、索引セクション166、
2つ以上のレキシコンデータセクション168(ここで
は例として16個のセクション、168a、168b、
168c、168d、168e、168f、168g、
168h、168i、168j、168k、168l、
168m、168n、168o、168p)、及び文字
列ヒープセクション170を含む。
【0032】ヘッダセクション160は一般に、レキシ
コン22の構造についての情報を格納する。ヘッダセク
ション160は、例えば、レキシコンの名前やバージョ
ンについての情報を含むことができる。ヘッダセクショ
ン160はまた、メモリオフセット及び各セクション1
62、164、166、168a〜168p、及び17
0のサイズについての情報も含むことができる。セクシ
ョン162は、レキシコン22の単語リストを含む。セ
クション162に単語リストを実施するには、任意の適
切なフォーマットを用いることができる。特に有用なフ
ォーマットの1つは、よく知られるデータ構造技術であ
る「トライ(trie)」構造で単語リストを格納する
ものである。このフォーマットの利点としては、特定の
接頭辞で始まる可能性のある単語がいくつあるかを容易
に判定できることが挙げられ、これは例えば手書き認識
や、ユーザが特定の文字を書いた可能性を確かめる必要
がある際に有用である。このフォーマットではまた、ト
ラバース(traversal)のパスを前方向と後ろ方向の両
方で知ることができる。上記のように、セクション16
2には他の形態の単語リスティングを使用することがで
きる。例えば単純なテーブルやリストを使用することが
できる。さらに別の実施形態では「差分」技術を使用し
て単語リストを格納することができ、この場合は連続し
た単語の記号または文字の違いを格納する。
【0033】セクション164を説明する前に、セクシ
ョン166と、複数のセクション168とのその関係を
初めに説明しておくと有用であろう。「従来の技術」の
項で述べたように、現在のレキシコンでは、必要とする
のが情報の一部だけであっても、特定の単語項目に関連
付けられたすべての情報を読み出すことが必要とされ
る。セクション168a〜168pは、レキシコン中の
各単語項目のデータを所望の方式で編成することを可能
にし、関連するレキシコン情報を概ねともにグループ化
することができる。例えば、セクション168a〜16
8pの1つを使用してスペルチェックに関連する情報を
格納し、別のセクションに標準的な言語分類に関連する
情報を格納することができる。索引セクション166は
一般に、単語リストセクション162の単語項目に応じ
て、セクション168a〜168pに格納されたデータ
へのポインタ(例えばセットとしてグループ化した)を
提供する。すなわち、単語リストセクション162(例
えばトライ構造)は、索引セクション166へのアクセ
スポイント(オフセット)を直接または間接的に決定す
る。一般に、単語情報を得るこの方法は、所与の単語に
応じて単語リストセクションにアクセスして、索引セク
ションのポインタ識別を確定することを含む。このポイ
ンタ識別を使用して、索引セクションで単語のポインタ
を得る。次いでこのポインタを使用して複数のデータセ
クションのうちどのデータセクションに所与の単語につ
いての情報があるか、そしてその情報がそのデータセク
ションのどこに位置するかを確定する。したがって、セ
クション162にある特定の単語項目に対して、索引セ
クション166を通じて、セクション168a〜168
pに格納されたその単語の対応するレキシコンデータに
選択的にアクセスすることができ、それにより所与の単
語のすべての単語情報を処理するか、または少なくとも
読み出す必要がない。
【0034】特に有用な一実施形態では、セクション1
62にある各単語項目についてのセクション168a〜
168pの索引セクション166中のポインタまたはポ
インタのセットを、その単語項目が名詞か、動詞か、形
容詞かなど、その品詞(「POS(part of speec
h)」)によって分類する。したがって、ある単語項目
のPOSについてのデータは、セクション168a〜1
68pのPOS情報への一連のポインタとなる。したが
って、2つのPOSを持つ単語項目には、セクション1
66に2つの別個のポインタセットがある。セットの1
つは、第1のPOS(例えばその項目の名詞形)につい
ての情報の位置を示し、第2のポインタセットは、もう
一方のPOS(例えばその項目の動詞形)についての情
報の位置を示す。このように索引セクション166は、
単語項目のPOSに基づいた、あるレベルのレキシコン
データ分類を提供する。ここで、レキシコン22が対象
とする言語に応じて、POS以外の他の分類形態を使用
できることを理解されたい。例えば日本語や中国語に
は、品詞の代わりに屈折または声調による分類を使用す
ることができる。ここでは索引セクション166がPO
S分類を提供するものと例示しているが、この機能は制
限的あるいは必須とみなすべきでない。
【0035】また、中国語や日本語のような言語で使用
する際には、ここで用いる意味の単語「単語(wor
d)」の使用には、記号、表意文字、語標(logog
ram)なども含まれることにも留意されたい。したが
って、本発明の態様を使用してこれらの言語のレキシコ
ンも構築することができ、そのレキシコンは特に断らな
い限りは特許請求の範囲に包含されるものとする。
【0036】例示的実施形態では、各ポインタは、その
ポインタがセクション168a〜168pのうちどれを
ポイントするのかに関する情報、POSの種類に関連付
けられた情報、識別されたセクション168a〜168
p中で関連するデータを見つけられるオフセット値を含
む。セクション162の所与の単語項目に関連付けられ
たポインタは固定することができるが、例示的実施形態
では、各単語項目のポインタ数は単語項目ごとに異なっ
てよい。このようにして、本質的な制限が常に伴うこと
なく、索引セクション166をより小型かつ柔軟にする
ことができる。
【0037】ある単語項目のセクション166の例示的
ポインタの概略表現を次に示す。 X:X:X:X ここでXは単語項目のポインタセットの最後を示すフ
ラグであり、Xはセクション168の1つを識別する
情報であり、XはPOSまたは他の分類を識別する情
報であり、Xは、Xによって識別されるレキシコン
データのオフセットを示す値である。このフォーマット
を使用して、所与の単語についてのすべての情報のポイ
ンタを連続して格納することができ、単語リストセクシ
ョンに応じて直接あるいは間接的に第1のポインタが識
別され、最後のポインタのフラグX をセットして所与
の単語のポインタリストの最後を示す。一実施形態で
は、索引セクション166は大きなDWORD配列(迅
速なアクセスのために4バイトの量、4バイトワード配
置)である。この実施形態では、1バイトの内訳は、ポ
インタセットの最後を示すXの1ビットフラグ、セク
ション168a〜168pを示す4ビットのX、及び
POSの種類を示す3ビットのXである。そしてX
に3バイトを使用して、データがセクション168a〜
168pのどこに格納されているかを示す24ビットの
オフセット値を提供する。このフォーマットは一例に過
ぎず、他のフォーマットも使用できることを理解された
い。同様に、この例は必須あるいは制限的と解釈すべき
でない。一般に、索引セクション166のポインタのフ
ォーマットは、複数のセクション168中のデータの位
置、及び必要な場合は単語情報の1つまたは複数の分類
を示すために選択される。
【0038】ここで、セクション166のポインタ項目
のオフセット部分に入るのに十分な小ささのデータは、
別個のセクション168a〜168pではなく、直接索
引セクション166に符号化できることにも留意された
い。この種のデータの例にはスペリング情報や単語項目
の確率及び頻度データが含まれるが、これらはいずれも
多くの場合はデータオフセット値に割り当てられたビッ
トに容易に格納することができる。
【0039】上記のように、索引セクション166への
エントリは、セクション162の単語項目に応じて決ま
る。セクション162と166間の移行には各種の技術
を使用することができる。第1の実施形態では、セクシ
ョン162の各単語項目は必要とされるセクション16
6へのオフセットを含むことができる。ただしセクショ
ン162がトライ構造を備える場合は、トライの葉ノー
ド構造の修正が必要となる場合がある。あるいは、トラ
イ構造中のノードのオフセットを索引セクション166
へのオフセットとして使用することができる。例示的実
施形態では、これは、ある単語項目についてのPOS索
引のセットに40バイト(10個のPOSポインタ)を
割り当てることを意味する。さらなる実施形態では、オ
フセット値をセクション166の単語項目の最後に付す
ることができる。
【0040】さらに別の実施形態では、索引テーブル1
64をレキシコン22の構造中に含める。索引テーブル
164は単語項目とセクション166の索引とのマッピ
ングを可能にし、これは、セクション166中のポイン
タの数が単語項目ごとに異なる可能性がある場合に特に
有用である。ただし、関連付けられた単語項目ごとに、
索引セクション166で固定サイズ数のポインタを使用
することが可能である。この構造のセクション166を
使用すると索引テーブルセクション164が不要にな
る。この代替実施形態では、セクション166の索引ポ
インタの固定数を超えるポインタを有する単語項目が許
された場合は、オーバーフローテーブルを使用すること
ができる。
【0041】ここで、セクション162から索引セクシ
ョン166へのオフセット、より具体的にはセクション
168a〜168p中のデータをポイントするセクショ
ン166のポインタは、レキシコン22からデータを検
索する際の効率と速度を提供するように編成することが
できることに留意されたい。例えば、頻繁に使用される
単語の他の情報の隣にセクション168a〜168pの
レキシコン情報を配置するようにオフセットポインタを
編成することができ、あるいは、必要な場合は、セクシ
ョン168a〜168p中の関連付けられた情報同士を
より近くに編成して、ハードディスク、フロッピー(登
録商標)などのコンピュータ記憶装置に格納された際に
情報検索時間を短縮することができる。
【0042】セクション168a〜168pのデータは
その中に存在することができ、即ち、必要な場合は、同
じセクション168a〜168pに含まれる参照データ
への、他のセクション168a〜168pに含まれる参
照データへの、セクション162のもとの単語項目への
ポインタを提供でき、及び例証的実施形態ではまた文字
列ヒープ170へのポインタを提供することができる。
文字列ヒープ170は、そのデータをセクション168
a〜168p中に複数の出現として格納する必要がある
選択された文字列に単一の記憶位置を提供するために使
用される。文字列ヒープ170は単一のセクションであ
るか、あるいはセクション168a〜168pと同様の
サブセクションを含むことができる。セクション168
中の情報の他の形態には、決定木中のブールフラグ、
値、単語リストなどがある。
【0043】複数のセクション168a〜168pを使
用した単語項目データの編成により、それを実装するコ
ンピュータのメモリを多量消費することなく、特定の用
途の必要性を満たすようにレキシコン22を容易に適合
することが可能になる。例えば、レキシコン22はRA
Mなどの高速アクセスメモリに読み込むことができる
が、レキシコン中の特定タイプのデータが必要でない場
合は、複数のセクション168a〜168pのうちその
セクションを省略することができる。索引セクション1
66のポインタは、存在するセクション168a〜16
8pだけを反映するように変更することができるが、さ
らなる実施形態では、セクション168a〜168pが
存在すれば情報が得られ、一方セクションが存在しなけ
れば情報が求められないので、変更は不必要である。エ
ラーが生じないように、レキシコンに存在するセクショ
ンは例えばヘッダ160に記録することができる。
【0044】ここに記載するレキシコン構造の際立った
利点は、入力12(図1)が単語を含む場合にレキシコ
ンのユーザまたは作成者が後の検索のためにその単語に
ついてのどのようなタイプの情報でも入れることができ
る点である。さらに、ユーザによって定義された情報は
レキシコンに含まれる他の情報と混在させる必要がな
く、複数のセクション168a〜168pの専用のセク
ションに格納することができる。
【0045】以下に挙げるのは、セクション168a〜
168pに適したセクションに編成されたレキシコンデ
ータのいくつかの例である。これらは単なる例に過ぎ
ず、レキシコン22のデータは、利便性または理解のた
めに任意の所望の方式で編成できることに留意された
い。ここで述べるセクションは特に有用であることが判
明しているが、必須あるいは制限的なものと見なすべき
ではない。
【0046】形態データセクション−このような情報
は、発音ならびに様々な単語の時制についてのその単語
の他の形を含むことができる。
【0047】標準作成者データセクション−この情報に
は、その単語項目が単数形、複数形であるか否か、ある
いはその単語が有生か無生かを示すデータを含むことが
できる。このセクションの単語項目に関連する情報は、
一般にはその単語項目についてのよく知られた情報であ
り、素人でも作成することができる。このように、この
情報はユーザの要件に合わせて用意に変更または修正す
ることができる。
【0048】標準言語データセクション−この情報には
単語項目の言語学的情報が含まれる。このような情報は
一般の素人にはあまり知られないが、言語学者はこの情
報を容易に理解し、必要に応じて修正することができ
る。
【0049】構文解析データセクション−この情報に
は、自然言語の構文解析に役立つ情報が含まれる。
【0050】領域/主題データセクション−この情報は
領域または主題のコードに関連する。例えば、この情報
により、対応する単語が物理、数学、地理、食物などに
関連するものであることを示すことができる。
【0051】スペリングデータセクション−この情報は
スペルチェック、例えば方言マーキング、制限マーキン
グなどに関連する。制限マーキングは、卑語、頭字語、
古い語など許容されるがスペルチェックの際には提案さ
れない単語を示す。
【0052】複数語表現データセクション−この情報
は、イディオム、固有名、本や映画の題名、オフィスの
名称、地名など、複数の単語を単独に識別する必要があ
る際に有用である。通例、各単語項目について格納され
るデータは、複数単語表現でその単語の前にくる、かつ
/または後に来る単語である。
【0053】例えば、複数のセクション168a〜16
8pの1つが、そのレキシコン項目の作成者のみによっ
て見つけられる、任意の階層的な名前値の対を含むこと
ができる。例えば、作成者が複数語表現(上記)につい
ての固有表現(NE;Name Entity)情報を追加したい
場合には、名前文字列に基づく値の対のセットをそのセ
クションに追加することができ、これをXML形式で表
すと次のようになる。 <named-entity> <app-ne-id>movieFinder::the_longest_day</app-ne-id> <semantic-type>movieFinder::movieTitle</semanticType> <genre>Drama</genre> <URL>http://www.movieFinder.com/fetch-movie-info/ the_longest_day</URL> <movie-info> <date>Jan.30, l969</date> <running-time>137 min.</running-time> <studio>20th Century Fox</studio> </movie-info> <non-rated/> </named-entity> このように、このセクションは、任意の入れ子構造にな
った、文字列に基づく単純な値の名前の対を表すことが
できる。この形式はXMLのタグ属性をサポートせず、
作成者がこのセクションの別個の下位要素としてその属
性を符号化する。上の例では、映画の題名についてのデ
ータは、必要な場合には格納することのできる利用例固
有のデータの混合を含んでいる。
【0054】このレキシコン22の構造は、レキシコン
の各セクションはそのすぐ後のセクションと連続する必
要がないという事実を利用することにより書き込み可能
なレキシコンに対応する。すなわち、セクションは将来
行われる拡張のために余分の未使用スペースを取ってお
くことができる。レキシコンへの更新操作は、該当する
位置に新しい値を書き込むことによって行う。レキシコ
ン22がDDL(ダイナミックリンクライブラリ)ベー
スのレキシコン、あるいは予備スペースを備えない事前
にコンパイルされた(静的な)ファイルベースのレキシ
コンとして実施される場合は、単純なフリーリスト実装
により、先頭一致(first−fit)アルゴリズム
に基づいて空いている項目スペースを見つける。
【0055】一般に、レキシコン22に単語情報を格納
する方法は、複数のデータセクション168に単語情報
を格納し、各データセクションは単語リスト中の単語に
ついて実質的に異なる選択された情報を格納すること
と、複数のデータセクション168と分離した索引セク
ション166にポインタ情報を格納し、各ポインタは複
数のデータセクション168中の選択されたデータをポ
イントすることと、複数のデータセクション168及び
索引セクション166と分離した単語リストセクション
162に単語リストを格納し、単語リストは選択された
単語に関連付けられた対応するポインタを識別する情報
を有することとを含む。必要な場合は、識別値を索引テ
ーブルセクション164に格納することができ、この場
合には各識別値が単語リストセクション162の単語に
対応し、索引セクション166のポインタと関連付けら
れる。同様に、ポインタに分類の表示を含めて単語情報
を分類することもできる。
【0056】このレキシコン22の構造は、いくつかの
レキシコンから情報を得ることが望ましい場合に特に有
用である。一般には、特定の単語項目についての複数の
レキシコンの情報を必要に応じて組み合わせる、無視す
る、あるいは選択することができる。いくつかのレキシ
コンからのレキシコン情報を組み合わせる例は、核また
は基礎となるレキシコンに単語項目についての第1の量
の情報が含まれ、第2のレキシコンに特定領域について
の単語項目についての第2の量の情報が含まれ、第3の
レキシコンにユーザが決定した単語項目についての第3
の量の情報が含まれる実装に見られる。
【0057】図4に、特定の単語項目についての情報を
複数のレキシコンから得る方式を図式的に示している。
図4で、レキシコン(データセクションだけによって表
しているが、本来は図3に示すセクションの一部または
すべてを備える)は行に編成され、これを180、18
1、182、及び183で示す。図4では個々のデータ
セクション(168に対応する)を縦に表しており、こ
の例証的実施形態では、4つのレキシコン180〜18
3を通じて最大6個のデータセクション190、19
1、192、193、194、及び195にアクセスす
ることができる。各レキシコン180〜183がデータ
セクション190〜195すべてを含むことは必須でな
く、多くの実際の事例では、すべてのレキシコンのすべ
てのデータセクション間にそのような対応関係は存在し
ないことに留意されたい。
【0058】図4では符号Xを使用してレキシコンセ
クションのデータを示しており、Xはデータセクション
190〜195の1つを現し、Yはレキシコン180〜
183を表す。例えばレキシコン180は、データセク
ション190180、193 180、及び195180
を備える。
【0059】レキシコン180〜183のデータは同じ
タイプの内容を有するセクション190〜195に編成
されているので、レキシコン180〜183にまたがっ
て情報を容易に組み合わせる、あるいは選択することが
できる。所与の単語項目について、第1のレキシコン1
80の情報を調べ、次いで必要に応じて他のレキシコン
181〜183の同じデータセクションに進むことによ
り情報を得ることができる。一実施形態では、検索する
データは、実行時に定義される所望のセクションタイプ
のセットによって制御する。1つの変数で、レキシコン
のある項目のデータを読み出すか読み出さないかを決定
する。第2の変数で、調べた他のレキシコンの対応する
セクションから先に読み出された項目のデータと組み合
わせる、あるいはそのデータに上書きするかどうかを決
定する。概略的には、レキシコンは「スタック」されて
おり、スタック中の最上位のレキシコンのデータセクシ
ョン190〜195を読み取り、次いでスタックを順次
下に進み、読み出すか読み出さないか、選択するか、無
視するか、上書きするか、あるいは組み合わせるかにつ
いての規則に従うことによって情報を得ると考えること
ができる。図3に示すレキシコン構造は、実装者が、所
与のセクションタイプのデータを他のレキシコンの同じ
セクション中のデータと組み合わせる、あるいは上書き
する方式を選択することを可能にする。
【0060】図4で、レキシコン180〜183から得
た情報186は、セクション190 180、191
181、192182、193183、194183
及び195180+181+182に対応する情報を含
む。この例では、セクション190、191、192、
193、及び194のデータは、単にデータセクション
の1つに停止インディケータが見つかるまで、レキシコ
ン180〜183をセクションごとに順に調べることに
よって得る。例えば、レキシコン180及び183はと
もにセクション190に情報を有するが、停止インディ
ケータがセクション190180で見つかるのでレキシ
コン180の情報だけが取り出される。実行時に、これ
によりセクション190183の情報が無視される。こ
れに対してセクション195182を調べるまでに停止
インディケータが見つからないので、セクション195
180、195181、及び195182の情報は組み
合わせて情報195180+181+182を形成す
る。必要な場合は、テキストアナライザ20、またはテ
キストアナライザ20の要求に基づいてレキシコン22
にアクセスするインタフェースモジュール(図示せず)
によって実施される規則に基づいて、すべてのレキシコ
ンのセクションにわたる情報を組み合わせる、無視す
る、あるいはその他の形で選択することができる。その
ような規則は、例えば、他のレキシコンの対応するセク
ションに情報があるかどうかに関係なく、特定のレキシ
コンの特定のセクションを常に使用することを指定する
ことができる。これを図4に表しており、ここではレキ
シコン182のセクション192に情報があり、この情
報はスタック中で上方にあるので少なくとも最初は調べ
られるが、レキシコン183のセクション192の情報
が得られる。ただしデータの選択は、例えば上述の要領
で停止ポインタを使用して単語項目ごとにしてもよい。
【0061】要約すると、以前には得られなかった柔軟
性と効率性を提供する改良したレキシコン構造について
述べた。索引セクション及び複数のデータセクションに
より、テキスト処理システム及び/または利用可能なコ
ンピュータリソースの必要性に合わせてレキシコンを適
合することが可能になる。この改良されたデータ構造に
より、複数のレキシコンのデータに選択的にアクセス
し、かつ/または必要に応じて組み合わせることも可能
になる。
【0062】本発明について好適実施形態を参照して説
明したが、当業者は、本発明の趣旨及び範囲から逸脱せ
ずに形態及び詳細に変更を加えられることを認識されよ
う。
【0063】
【発明の効果】以上説明したように本発明によれば、レ
キシコンを格納するための高い柔軟性と効率を有する改
良されたデータ構造を提供しそのデータ構造を使用可能
とすることができる。
【図面の簡単な説明】
【図1】本発明の実施形態の言語またはテキスト処理シ
ステムのブロック図である。
【図2】本発明の実施形態の例示的環境のブロック図で
ある。
【図3】本発明の実施形態のレキシコンの図式表現の図
である。
【図4】本発明の実施形態の複数のレキシコンにわたっ
て情報を検索する、または情報にアクセスする図式表現
の図である。
【符号の説明】
10 言語処理システム 12 入力 14 出力 20 テキストアナライザ 22 レキシコン 50 コンピューティングシステム環境 60、130 コンピュータ 70 プロセッサ 71 システムバス 80 システムメモリ 81 ROM 82 RAM 83 BIOS 84、94 オペレーティングシステム 85、95、135 アプリケーションプログラム 86、96 プログラムモジュール 87、97 プログラムデータ 90、100 インタフェース 91 ハードディスクドライブ 101 磁気ディスクドライブ 102 磁気ディスク 105、106 光ディスクドライブ 110 ユーザ入力インタフェース 111 ポインティングデバイス 112 キーボード 113 マイクロフォン 114 手書きタブレット 120 ネットワークインタフェース 121 LAN 122 モデム 123 WAN 140 ビデオインタフェース 141 モニタ 146 プリンタ 147 スピーカ 160、162、164、166、168、170 168a〜168p セクション 180、181、182、183 レキシコン 190、191、192、193、194、195 デ
ータセクション
フロントページの続き (72)発明者 ジェームズ ピー.フィニガン アメリカ合衆国 98007 ワシントン州 ベルビュー サウスイースト 6 14351 アパートメント 0201 (72)発明者 カーティス イー.ハッテンハウアー アメリカ合衆国 98007 ワシントン州 ベルビュー ザ レイクス ノースイース ト 42 プレイス 14442 アパートメン ト 709 (72)発明者 ダグラス ダブリュ.ポッター アメリカ合衆国 98133 ワシントン州 シアトル ノース 128 ストリート 2155 (72)発明者 ケビン アール.パウエル アメリカ合衆国 98034 ワシントン州 カークランド ノースイースト 137 プ レイス 13104 Fターム(参考) 5B091 CC02 CC12 EA05

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 単語情報を格納し、言語処理システムで
    使用するために適合されたレキシコンを有するコンピュ
    ータ可読媒体であって、前記レキシコンは、 複数の単語を格納する単語リストセクションと、 前記単語リストの単語についての実質的に異なる選択さ
    れた情報をそれぞれが格納する複数のデータセクション
    と、 前記複数のデータセクション中のデータをそれぞれがポ
    イントするポインタを格納する索引セクションであっ
    て、使用するポインタの識別は、前記単語リストセクシ
    ョン中の対応する単語に応じて決まる索引セクションと
    を備えたことを特徴とするコンピュータ可読媒体。
  2. 【請求項2】 前記単語リストセクションはトライデー
    タ構造を備えたことを特徴とする請求項1に記載のコン
    ピュータ可読媒体。
  3. 【請求項3】 前記識別は、前記単語リストセクション
    に格納されたオフセット値であることを特徴とする請求
    項1に記載のコンピュータ可読媒体。
  4. 【請求項4】 前記単語リストセクションの単語と相互
    に関連付けられた各識別を格納する索引テーブルセクシ
    ョンをさらに備え、前記単語リストセクションの各単語
    は、前記索引テーブルセクションの中に対応する項目を
    有することを特徴とする請求項1に記載のコンピュータ
    可読媒体。
  5. 【請求項5】 前記ポインタはそれぞれ、どのデータセ
    クションにアクセスするかの第1の指示と、そのデータ
    セクションに格納された情報に関連付けられたオフセッ
    ト値の第2の指示とを含むことを特徴とする請求項1に
    記載のコンピュータ可読媒体。
  6. 【請求項6】 前記ポインタはそれぞれ、前記単語の分
    類の第3の指示を含むことを特徴とする請求項5に記載
    のコンピュータ可読媒体。
  7. 【請求項7】 前記複数のデータセクションの1つはス
    ペルチェックに関連する情報を格納することを特徴とす
    る請求項1に記載のコンピュータ可読媒体。
  8. 【請求項8】 前記複数のデータセクションの1つは形
    態に関連する情報を格納することを特徴とする請求項1
    に記載のコンピュータ可読媒体。
  9. 【請求項9】 前記複数のデータセクションの1つは言
    語学に関連する情報を格納することを特徴とする請求項
    1に記載のコンピュータ可読媒体。
  10. 【請求項10】 前記複数のデータセクションの1つ
    は、複数語表現に属する単語を示す情報を格納すること
    を特徴とする請求項1に記載のコンピュータ可読媒体。
  11. 【請求項11】 前記複数のデータセクションの2つの
    データセクションは、スペルチェック情報、形態情報、
    言語学情報、及び複数語表現情報からなる群から選択さ
    れた情報を別個に格納することを特徴とする請求項1に
    記載のコンピュータ可読媒体。
  12. 【請求項12】 複数の単語に関連する単語情報を格納
    するレキシコンにアクセスすることにより単語について
    の単語情報を得るコンピュータ実行方法であって、前記
    レキシコンは、複数の単語を格納する単語リストセクシ
    ョンと、それぞれが前記単語リストの単語についての選
    択された異なる情報を格納する複数のデータセクション
    と、前記複数のデータセクションのデータをそれぞれが
    ポイントするポインタを格納する索引セクションとを有
    し、 前記索引セクションのポインタ識別を確定するために、
    前記単語に応じて前記単語リストセクションにアクセス
    するステップと、 前記索引セクションのポインタを得るために、前記ポイ
    ンタ識別を使用するステップと、 前記複数のデータセクションのうちどのデータセクショ
    ンに前記単語についての情報があるか、及び該情報が前
    記データセクションのどこに位置するかを確定するため
    に、前記ポインタを使用するステップとを備えたことを
    特徴とする単語情報を得るコンピュータ実行方法。
  13. 【請求項13】 前記識別は前記単語リストセクション
    に格納されたオフセット値であることを特徴とする請求
    項12に記載の単語情報を得るコンピュータ実行方法。
  14. 【請求項14】 前記レキシコンは、前記単語リストセ
    クションの単語と相互に関連付けられた各識別を格納す
    る索引テーブルセクションを含み、前記索引セクション
    のポインタ識別を確定するために、前記単語に応じて前
    記単語リストセクションにアクセスするステップは、前
    記単語リストセクションを使用して、対応する識別を有
    する前記索引テーブルセクション中の対応する項目を見
    つけることをさらに含むことを特徴とする請求項12に
    記載の単語情報を得るコンピュータ実行方法。
  15. 【請求項15】 単語リスト中の複数の単語に関連する
    レキシコンに単語情報を格納する方法であって、 それぞれが前記単語リスト中の単語についての実質的に
    異なる選択された情報を格納する複数のデータセクショ
    ンに単語情報を格納するステップと、 前記複数のデータセクションと分離した索引セクション
    にポインタ情報を格納するステップであって、各ポイン
    タは前記複数のデータセクションの選択されたデータを
    ポイントするステップと、 前記複数のデータセクション及び前記索引セクションと
    分離した単語リストセクションに前記単語リストを格納
    するステップであって、前記単語リストは、選択された
    単語に関連付けられた対応するポインタを識別する情報
    を有するステップとを備えたことを特徴とする単語情報
    を格納する方法。
  16. 【請求項16】 複数のレキシコンから単語情報を得る
    コンピュータ実行方法であって、各レキシコンは、複数
    の単語を格納する単語リストセクションと、それぞれが
    前記単語リストの単語についての選択された異なる情報
    を格納する複数のデータセクションと、前記複数のデー
    タセクション中のデータをそれぞれがポイントするポイ
    ンタを格納する索引セクションとを有し、 類似する情報を有する各レキシコンのデータセクション
    に選択的にアクセスするステップと、そこから情報を得
    るステップとを備えたことを特徴とする単語情報を得る
    コンピュータ実行方法。
  17. 【請求項17】 選択的にアクセスするステップは、類
    似する情報を有する各レキシコンの少なくとも2つのデ
    ータセクションの単語情報を組み合わせることを含むこ
    とを特徴とする請求項16に記載の単語情報を得るコン
    ピュータ実行方法。
  18. 【請求項18】 選択的にアクセスするステップは、第
    1のレキシコンのデータセクションから単語情報を得、
    第2のレキシコンのデータセクションから単語情報を
    得、前記第2のレキシコンのデータセクションの情報だ
    けを使用することを含むことを特徴とする請求項16に
    記載の単語情報を得るコンピュータ実行方法。
  19. 【請求項19】 選択的にアクセスするステップは、停
    止インディケータが見つかるまで各レキシコンの類似す
    るデータセクションから単語情報を得ることを含むこと
    を特徴とする請求項16に記載の単語情報を得るコンピ
    ュータ実行方法。
  20. 【請求項20】 前記データセクションに選択的にアク
    セスするステップは、選択された順序で前記レキシコン
    に順次アクセスすることを含むことを特徴とする請求項
    16に記載の単語情報を得るコンピュータ実行方法。
  21. 【請求項21】 前記データセクションに選択的にアク
    セスするステップは、 アクセスする各レキシコンについて、 対応する索引セクションのポインタ識別を確定するため
    に、所与の単語に応じて対応する単語リストセクション
    にアクセスするステップと、 前記対応する索引セクションのポインタを得るために、
    前記ポインタ識別を使用するステップと、 前記複数のデータセクションのうちどの対応するデータ
    セクションに前記単語についての情報があるか、及び該
    情報が前記対応するデータセクションのどこ位置するか
    を確定するために、前記ポインタを使用するステップと
    を備えたことを特徴とする請求項16に記載の単語情報
    を得るコンピュータ実行方法。
  22. 【請求項22】 前記データセクションに選択的にアク
    セスするステップは、選択された順序で前記レキシコン
    に順次アクセスすることを含むことを特徴とする請求項
    21に記載の単語情報を得るコンピュータ実行方法。
  23. 【請求項23】 コンピュータによって実行されると請
    求項12乃至22のいずれかに記載の方法を実施する命
    令を有することを特徴とするコンピュータ可読媒体。
JP2003125929A 2002-04-30 2003-04-30 コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 Expired - Lifetime JP4724357B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/137,456 2002-04-30
US10/137,456 US7490034B2 (en) 2002-04-30 2002-04-30 Lexicon with sectionalized data and method of using the same

Publications (3)

Publication Number Publication Date
JP2003345796A true JP2003345796A (ja) 2003-12-05
JP2003345796A5 JP2003345796A5 (ja) 2006-06-15
JP4724357B2 JP4724357B2 (ja) 2011-07-13

Family

ID=29249733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003125929A Expired - Lifetime JP4724357B2 (ja) 2002-04-30 2003-04-30 コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法

Country Status (8)

Country Link
US (1) US7490034B2 (ja)
EP (1) EP1367501B1 (ja)
JP (1) JP4724357B2 (ja)
CY (1) CY1113100T1 (ja)
DK (1) DK1367501T3 (ja)
ES (1) ES2386631T3 (ja)
PT (1) PT1367501E (ja)
SI (1) SI1367501T1 (ja)

Families Citing this family (205)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7398210B2 (en) * 2003-10-23 2008-07-08 Microsoft Corporation System and method for performing analysis on word variants
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101779200B (zh) 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20100235780A1 (en) * 2009-03-16 2010-09-16 Westerman Wayne C System and Method for Identifying Words Based on a Sequence of Keyboard Events
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9606983B1 (en) * 2014-08-27 2017-03-28 Amazon Technologies, Inc. Human readable mechanism for communicating binary data
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9866393B1 (en) 2014-12-22 2018-01-09 Amazon Technologies, Inc. Device for creating reliable trusted signatures
US10110385B1 (en) 2014-12-22 2018-10-23 Amazon Technologies, Inc. Duress signatures
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9819673B1 (en) 2015-06-24 2017-11-14 Amazon Technologies, Inc. Authentication and authorization of a privilege-constrained application
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11010553B2 (en) * 2018-04-18 2021-05-18 International Business Machines Corporation Recommending authors to expand personal lexicon
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110795173A (zh) * 2019-10-30 2020-02-14 深圳市元征科技股份有限公司 一种数据处理方法、装置和电子设备及可读存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4384329A (en) * 1980-12-19 1983-05-17 International Business Machines Corporation Retrieval of related linked linguistic expressions including synonyms and antonyms
US4724523A (en) * 1985-07-01 1988-02-09 Houghton Mifflin Company Method and apparatus for the electronic storage and retrieval of expressions and linguistic information
JPS608980A (ja) * 1983-06-28 1985-01-17 Brother Ind Ltd 電子辞書
US4736296A (en) * 1983-12-26 1988-04-05 Hitachi, Ltd. Method and apparatus of intelligent guidance in natural language
JPS60245083A (ja) * 1984-05-18 1985-12-04 Brother Ind Ltd 電子辞書
JPS6126176A (ja) * 1984-07-17 1986-02-05 Nec Corp 言語処理用辞書
US4771385A (en) * 1984-11-21 1988-09-13 Nec Corporation Word recognition processing time reduction system using word length and hash technique involving head letters
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5056021A (en) * 1989-06-08 1991-10-08 Carolyn Ausborn Method and apparatus for abstracting concepts from natural language
JPH03161727A (ja) * 1989-11-20 1991-07-11 Fuji Photo Film Co Ltd カメラの主要被写体検出装置
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
JP2875075B2 (ja) 1991-10-30 1999-03-24 シャープ株式会社 電子辞書
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US5611076A (en) * 1994-09-21 1997-03-11 Micro Data Base Systems, Inc. Multi-model database management system engine for databases having complex data models
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JP3003915B2 (ja) * 1994-12-26 2000-01-31 シャープ株式会社 単語辞書検索装置
JPH08323842A (ja) * 1995-06-02 1996-12-10 Tsutsunaka Plast Ind Co Ltd シートブロー成形品と成形方法
US5864863A (en) * 1996-08-09 1999-01-26 Digital Equipment Corporation Method for parsing, indexing and searching world-wide-web pages
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US5995992A (en) * 1997-11-17 1999-11-30 Bull Hn Information Systems Inc. Conditional truncation indicator control for a decimal numeric processor employing result truncation
US6298321B1 (en) * 1998-11-23 2001-10-02 Microsoft Corporation Trie compression using substates and utilizing pointers to replace or merge identical, reordered states
US6675169B1 (en) * 1999-09-07 2004-01-06 Microsoft Corporation Method and system for attaching information to words of a trie
JP3717730B2 (ja) * 1999-11-02 2005-11-16 セイコーインスツル株式会社 電子辞書
US6792418B1 (en) * 2000-03-29 2004-09-14 International Business Machines Corporation File or database manager systems based on a fractal hierarchical index structure

Also Published As

Publication number Publication date
EP1367501A3 (en) 2007-01-03
ES2386631T3 (es) 2012-08-24
EP1367501A2 (en) 2003-12-03
SI1367501T1 (sl) 2012-09-28
PT1367501E (pt) 2012-08-08
CY1113100T1 (el) 2016-04-13
DK1367501T3 (da) 2012-07-16
JP4724357B2 (ja) 2011-07-13
EP1367501B1 (en) 2012-06-13
US20030204392A1 (en) 2003-10-30
US7490034B2 (en) 2009-02-10

Similar Documents

Publication Publication Date Title
JP4724357B2 (ja) コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法
Singh et al. A systematic review of text stemming techniques
US8473501B2 (en) Methods, computer systems, software and storage media for handling many data elements for search and annotation
US8041557B2 (en) Word translation device, translation method, and computer readable medium
US6654731B1 (en) Automated integration of terminological information into a knowledge base
US7925498B1 (en) Identifying a synonym with N-gram agreement for a query phrase
US9495358B2 (en) Cross-language text clustering
KR101130384B1 (ko) 태그 데이터를 갖는 풀-폼 어휘집 및 이를 구축하고이용하는 방법
US8661012B1 (en) Ensuring that a synonym for a query phrase does not drop information present in the query phrase
US8572126B2 (en) Systems and methods for optimizing very large n-gram collections for speed and memory
US7574348B2 (en) Processing collocation mistakes in documents
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
US20120016663A1 (en) Identifying related names
US8280721B2 (en) Efficiently representing word sense probabilities
US20180004838A1 (en) System and method for language sensitive contextual searching
JP2005092883A (ja) 中国語の単語分割
US5500796A (en) Method for extracting open-issue data from textual specifications using natural language text processing
US8229970B2 (en) Efficient storage and retrieval of posting lists
US11544304B2 (en) System and method for parsing user query
JP2005242416A (ja) 自然言語文の検索方法および検索装置
US20120065959A1 (en) Word graph
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
Meyer On Sanskrit and information retrieval
JP5412137B2 (ja) 機械学習装置及び方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070525

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070824

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070829

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071025

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071030

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080311

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080423

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080627

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110304

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250