JP2003345796A - コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 - Google Patents
コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法Info
- Publication number
- JP2003345796A JP2003345796A JP2003125929A JP2003125929A JP2003345796A JP 2003345796 A JP2003345796 A JP 2003345796A JP 2003125929 A JP2003125929 A JP 2003125929A JP 2003125929 A JP2003125929 A JP 2003125929A JP 2003345796 A JP2003345796 A JP 2003345796A
- Authority
- JP
- Japan
- Prior art keywords
- word
- information
- section
- data
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
率を有する改良されたデータ構造を提供しそのデータ構
造を使用可能とする。 【解決手段】 単語レキシコン22のデータ構造は、単
語項目に関連する情報を格納する複数の別個のデータセ
クション168を含む。索引セクション166は、情報
の位置を示すポインタを含む。各単語項目の関連付けら
れたポインタの位置は、単語項目のリスト162に応じ
て得られる。
Description
媒体及び単語情報を得るコンピュータ実行方法並びに単
語情報を格納する方法に関する。より詳細には、言語ま
たはテキストの処理に関連し、レキシコン(lexicon)
を格納するための改良されたデータ構造、及びそのデー
タ構造を使用する方法に係る、レキシコンを有するコン
ピュータ可読媒体、単語情報を得るコンピュータ実行方
法、単語情報を格納する方法及びそれらの方法を実施す
る命令を有するコンピュータ可読媒体に関する。
タイプのシステムが含まれる。例えば、パーサ、スペル
チェッカ、文法チェッカ、ワードブレーカ、自然言語の
プロセッサまたは理解システム、機械翻訳システムは、
この広い範疇に該当するシステムのタイプのいくつかに
過ぎない。
共通する重要なコンポーネントがレキシコンである。一
般に、レキシコンは単語についての情報を含むデータ構
造である。例えば、レキシコンは構文的情報及び意味的
情報の指示を格納することができる。この例には、その
単語が名詞であるか、動詞、形容詞であるかなどが挙げ
られる。また、異なるタイプの言語情報もレキシコンに
格納することができる。しばしば、構文解析の助けとな
る単語についての情報を格納するなど、特定タイプの言
語処理に有用な他の情報を格納しておくことも有用であ
る。さらに他のレキシコンでは、その単語が固有名詞
か、地理的な場所かなどについての指示が有用であるこ
ともある。
と、言語またはテキスト処理システムはレキシコンにア
クセスして、各単語についての格納された情報を得る。
入力文字列中の各単語についての情報を集めると、言語
またはテキスト処理システムはその入力文字列を処理す
るが、これには存在する可能性のあるあいまい性をその
単語の情報に基づいて解消することが含まれる場合があ
る。例えば、自然言語処理システムでは、レキシコンは
入力文字列中の各単語に品詞を割り当てる。次いで構文
パーサがどの品詞の割り当てが適切であるかを判断し、
入力文字列から構造を構築し、それを解釈のために意味
コンポーネントに渡すことができる。
に関連した技術内容が開示されている(例えば、非特許
文献1参照)。
E FOR LEFG-AND RIGHT-BRANCHING LANGUAGES」Computat
ional Linguistics、Vol1.14、No.1、1988年冬、
p.20−30
各項目は単一の大きなバイナリオブジェクトからなる。
このフォーマットでは、情報へのアクセスは可能である
が、項目全体を読み込まずに、一般に使用される語彙情
報への局所的なアクセスを容易には行うことができな
い。ある単語項目に関連するすべての情報をレキシコン
から読み込まなければならない場合、特にその単語項目
の情報のうちわずかな部分だけを必要とする場合には、
より多くのメモリと処理時間が必要とされる。
的には、レキシコンを修正する、あるいはさらに情報を
追加するために、レキシコンの作成者は、非常に複雑な
データ構造の整合性と編成を保ちながら、各項目中のす
べてのビット、属性またはその他の情報を複製してか
ら、所望の情報を変更するか、あるいは情報を追加しな
ければならない。
あるいはすべてに対処する改良したレキシコンデータ構
造が必要とされる。
たもので、その目的とするところは、レキシコンを格納
するための高い柔軟性と効率を有する改良されたデータ
構造を提供しそのデータ構造を使用可能とする、コンピ
ュータ可読媒体及び単語情報を得るコンピュータ実行方
法並びに単語情報を格納する方法を提供することにあ
る。
処理システムで使用するために適合された単語情報を有
する、コンピュータ可読媒体に格納された単語レキシコ
ンである。このレキシコンは、複数の単語を記憶する単
語リストセクションと、それら複数の単語の単語情報を
記憶する複数のデータセクションとを含む。複数のデー
タセクションは互いと単語リストセクションとから分離
されている。単語情報にアクセスするために索引セクシ
ョンが提供され、このセクションには複数のデータセク
ション中のデータをポイントするポインタが格納され
る。使用するポインタの識別は、単語リストセクション
中の対応する単語に応じて決まる。
で得ることのできなかった柔軟性と効率を提供する。索
引セクションと複数のデータセクションは、利用可能な
コンピュータリソースなど言語処理システムの必要性に
合わせて、レキシコンを適合することを可能にする。さ
らなる実施形態では、このレキシコン構造は、分類に基
づいて単語情報を分類またはグループ化することを可能
にする。例えば、この分類は、その単語項目が名詞か、
動詞か、形容詞かなど、単語項目の品詞に基づくことが
できる。これにより、分類に応じて単語情報に選択的に
アクセスすることができる。例示的実施形態では、対応
する単語情報の分類を示す表示がポインタ中に提供され
る。
ョンに単語情報を格納し、索引セクションにポインタ情
報を格納し、単語リストセクションに単語リストを格納
する、コンピュータによって実施される方法を含み、単
語リストは、選択された単語に関連付けられた対応する
ポインタを識別する情報を有する。同様に、別の態様
は、上述で提供されるレキシコンのデータ構造を使用し
て単語情報にアクセスすることである。
シコンから情報を得ることが望ましい場合に特に有用で
あり、これは本発明のさらに別の態様である。一般に、
各レキシコンのデータセクションに選択的にアクセスす
ることにより、特定の単語項目についての複数のレキシ
コンのデータを必要に応じて組み合わせる、無視する、
または選択することができる。
施形態を詳細に説明する。
入力12を受け取り、言語入力12を処理して、通例は
同じくテキスト文字列の形で言語出力14を提供する言
語またはテキスト処理システム10を概略的に表す。数
例を挙げると、言語処理システム10は、例えばスペル
チェッカ、文法チェッカ、あるいは自然言語プロセッサ
として実施することができる。当業者には理解されるよ
うに、言語処理システム10は、スタンドアロンアプリ
ケーション、または別のシステムからのアクセスが可能
な、あるいは別のシステムに含まれるモジュールやコン
ポーネントとすることができる。
ライザ20及びレキシコン22を含む。テキストアナラ
イザ20は、入力12を受け取り、レキシコン22にア
クセスしてレキシコン22から情報を得、単語情報を処
理して出力14を提供するコンポーネントまたはモジュ
ールを図式的に表している。本発明の一態様は、その利
用例によって必要とされる可能性のある必要な情報を効
率的にテキストアナライザ20に提供するためのレキシ
コン22の改良されたデータ構造である。レキシコン2
2は、多くの言語処理システムと多くの形態のテキスト
アナライザに使用できる独立したコンポーネントである
ことを考慮して、テキストアナライザ20とレキシコン
22の一般的な相互作用について説明するが、本発明の
理解に必要でないため、各種形態のテキストアナライザ
に関する具体的な詳細については述べない。
動作環境の概要を見ておくと有用であろう。図2は、本
発明の実施が可能な適切なコンピューティングシステム
環境50の一例である。コンピューティングシステム環
境50は適切なコンピューティング環境の一例に過ぎ
ず、本発明の使用または機能性の範囲について何らの制
限を示唆するものではない。またコンピューティングシ
ステム環境50は、その例示的動作環境に示す構成要素
の任意の1つまたは組み合わせに関連する依存関係また
は必要性を有するものとも解釈すべきでない。
的のコンピューティングシステム環境または構成で動作
することができる。本発明に使用するのに適している可
能性があるよく知られるコンピューティングシステム、
環境、及び/または構成の例には、これらに限定しない
が、パーソナルコンピュータ、サーバコンピュータ、ハ
ンドヘルドまたはラップトップデバイス、マルチプロセ
ッサシステム、マイクロプロセッサベースのシステム、
セットトップボックス、プログラム可能な家庭用電化製
品、ネットワークPC(personal computer)、ミニコ
ンピュータ、メインフレームコンピュータ、上述のシス
テムまたはデバイスのいずれかを含む分散コンピューテ
ィング環境などがある。
るプログラムモジュールなどのコンピュータ実行可能命
令の一般的な状況で説明することができる。一般に、プ
ログラムモジュールには、特定タスクを行うか、あるい
は特定の抽象データ型を実装するルーチン、プログラ
ム、オブジェクト、コンポーネント、データ構造などが
含まれる。本発明は、通信ネットワークを通じてリンク
されたリモートの処理装置によってタスクを行う分散コ
ンピューティング環境で実施することもできる。分散コ
ンピューティング環境では、メモリ記憶装置を含むロー
カル及びリモート両方のコンピュータ記憶媒体にプログ
ラムモジュールを置くことができる。これらのプログラ
ム及びモジュールによって行われるタスクについて、以
下で図面を用いて説明する。当業者は、以下の説明及び
図を、任意形態のコンピュータ可読媒体に書き込むこと
のできるプロセッサ実行可能命令として実行することが
できる。
的システムは、コンピュータ60の形態の汎用コンピュ
ーティングデバイスを含む。コンピュータ60の構成要
素には、これらに限定しないが、プロセッサ70、シス
テムメモリ80、及びシステムメモリを含む各種のシス
テムコンポーネントをプロセッサ70に結合するシステ
ムバス71が含まれる。システムバス71は、各種のバ
スアーキテクチャの任意のものを使用したメモリバスま
たはメモリコントローラ、ペリフェラルバス、及びロー
カルバスを含む数タイプのバス構造のいずれでもよい。
例として、このようなアーキテクチャには、ISA(I
ndustry Standard Architec
ture)バス、MCA(Micro Channel
Architecture)バス、EISA(Enh
anced ISA)バス、VESA(Video E
lectronics Standards Asso
ciation)バス、及びメザニンバスとも称される
PCI(Peripheral Component
Interconnects)バスが含まれるが、これ
らに限定しない。
タ可読媒体を含む。コンピュータ可読媒体は、コンピュ
ータ60がアクセスできる任意の利用可能媒体でよく、
揮発性及び不揮発性の媒体、リムーバル及びノンリムー
バル媒体が含まれる。これに限定しないが、例としてコ
ンピュータ可読媒体は、コンピュータ記憶媒体及び通信
媒体を含むことができる。コンピュータ記憶媒体は、コ
ンピュータ可読命令、データ構造、プログラムモジュー
ル、またはその他のデータなどの情報を記憶するための
任意の方法または技術で実現された不揮発性及び不揮発
性の媒体、リムーバル及びノンリムーバルの媒体を含
む。コンピュータ記憶媒体には、これらに限定しない
が、RAM(random access memory)、ROM(read o
nly memory)、EEPROM(electrically erasable
PROM)、フラッシュメモリまたは他のメモリ技術、CD
(compact disc [disk])−ROM、デジタル多用途デ
ィスク(DVD)または他の光ディスクストレージ、磁
気カセット、磁気テープ、磁気ディスクストレージまた
は他の磁気記憶装置、あるいは、所望の情報の記憶に用
いることができ、コンピュータ60によるアクセスが可
能な任意の他の媒体が含まれる。
機構などの、変調データ信号にコンピュータ可読命令、
データ構造、プログラムモジュール、または他のデータ
を統合し、任意の情報伝達媒体を含む。用語「変調デー
タ信号」とは、信号中に情報を符号化するような方式で
その特性の1つまたは複数を設定または変化させた信号
を意味する。例として、通信媒体には、有線ネットワー
クまたは直接配線接続などの有線媒体と、音響、RF
(radio frequencies)、赤外線、及び他の無線媒体な
どの無線媒体が含まれるが、これらに限定しない。上記
の媒体のいずれの組み合わせもコンピュータ可読媒体の
範囲に含めるべきである。
RAM82など、揮発性及び/または不揮発性メモリの
形態のコンピュータ記憶媒体が含まれる。起動時などに
コンピュータ60内の要素間の情報転送を助ける基本ル
ーチンを含むBIOS(Basic Input/Output System)
83は、通例ROM81に記憶される。RAM82は通
例、プロセッサ70から即座にアクセス可能な、かつ/
または現在プロセッサ70によって操作中のデータ及び
/またはプログラムモジュールを含む。これらに限定し
ないが、例として、図2にはオペレーティングシステム
84、アプリケーションプログラム85、他のプログラ
ムモジュール86、及びプログラムデータ87を示して
いる。
ンリムーバル、揮発性/不揮発性のコンピュータ記憶媒
体も含むことができる。単なる例として、図2には、ノ
ンリムーバル、不揮発性の磁気媒体の読み取りまたは書
き込みを行うハードディスクドライブ91、リムーバ
ル、不揮発性の磁気ディスク102の読み取りまたは書
き込みを行う磁気ディスクドライブ101、及びCD−
ROMや他の光媒体などのリムーバル、不揮発性の光デ
ィスク106の読み取りまたは書き込みを行う光ディス
クドライブ105を示す。例示的動作環境で使用できる
この他のリムーバル/ノンリムーバル、揮発性/不揮発
性のコンピュータ記憶媒体には、これらに限定しない
が、磁気テープカセット、フラッシュメモリカード、デ
ジタル多用途ディスク、デジタルビデオテープ、ソリッ
ドステートRAM、ソリッドステートROMなどが含ま
れる。ハードディスクドライブ91は通例、インタフェ
ース90などのノンリムーバルのメモリインタフェース
を通じてシステムバス71に接続され、磁気ディスクド
ライブ101及び光ディスクドライブ105は通例、イ
ンタフェース100などリムーバルなメモリインタフェ
ースによってシステムバス71に接続される。
れに関連付けられたコンピュータ記憶媒体は、コンピュ
ータ可読命令、データ構造、プログラムモジュール、及
びコンピュータ60のその他のデータの記憶を提供す
る。例えば図2では、ハードディスクドライブ91にオ
ペレーティングシステム94、アプリケーションプログ
ラム95、他のプログラムモジュール96、及びプログ
ラムデータ97を記憶している。これらのコンポーネン
トは、オペレーティングシステム84、アプリケーショ
ンプログラム85、他のプログラムモジュール86、及
びプログラムデータ87と同じものでも、異なるもので
もよいことに留意されたい。ここではオペレーティング
システム84、アプリケーションプログラム85、他の
プログラムモジュール86、及びプログラムデータ87
には、それらが少なくとも異なるコピーであることを表
すために異なる参照符号をつけている。
ォン113、手書きタブレット114、及びマウス、ト
ラックボール、タッチパッドなどのポインティングデバ
イス111などの入力装置を通じてコンピュータ60に
コマンドと情報を入力することができる。他の入力装置
(図示せず)には、ジョイスティック、ゲームパッド、
衛星放送受信アンテナ、スキャナなどがある。これら及
び他の入力装置は、システムバスに結合されたユーザ入
力インタフェース110を通じてプロセッサ70に接続
することが多いが、パラレルポート、ゲームポート、あ
るいはユニバーサルシリアルバス(USB)など他のイ
ンタフェース及びバス構造によって接続することも可能
である。モニタ141または他タイプの表示装置も、ビ
デオインタフェース140などのインタフェースを介し
てシステムバス71に結合される。コンピュータは、モ
ニタに加えて、スピーカ147やプリンタ146など他
の周辺出力装置も含むことができ、それらは出力周辺イ
ンタフェース145を通じて接続することができる。
タ130など1つまたは複数のリモートコンピュータへ
の論理接続を使用するネットワーク環境で動作すること
ができる。リモートコンピュータ130はパーソナルコ
ンピュータ、ハンドヘルドデバイス、サーバ、ルータ、
ネットワークPC、ピアデバイス、あるいはその他の一
般的なネットワークノードでよく、通例はコンピュータ
60との関連で上記で挙げた要素の多くまたはすべてを
含む。図2に示す論理接続には、構内ネットワーク(L
AN)121と広域ネットワーク(WAN)123が含
まれるが、他のネットワークを含むことも可能である。
このようなネットワーキング環境は、オフィス、企業内
のコンピュータネットワーク、イントラネット、及びイ
ンターネットに一般的に見られる。
合、コンピュータ60はネットワークインタフェースま
たはアダプタ120を通じてLAN121に接続され
る。WANネットワーキング環境で使用する場合、コン
ピュータ60は通例、インターネットなどのWAN12
3を通じて通信を確立するためのモデム122またはそ
の他の手段を含む。モデム122は内蔵型でも外付け型
でもよく、ユーザ入力インタフェース110または他の
適切な機構を介してシステムバス71に接続することが
できる。ネットワーク環境では、コンピュータ60との
関連で図示したプログラムモジュール、またはその一部
はリモートのメモリ記憶装置に格納することができる。
これに限定しないが、例として図2ではリモートアプリ
ケーションプログラム135がリモートコンピュータ1
30に常駐している。図のネットワーク接続は例示的な
ものであり、コンピュータ間に通信リンクを確立する他
の手段を使用できることは理解されよう。
60、またはリモートコンピュータ130などコンピュ
ータ60と通信する任意のコンピュータに常駐できるこ
とを理解されたい。同様に、レキシコン22は、コンピ
ュータ60の上述の記憶装置の任意のものに常駐する
か、または適切な通信リンクを通じてアクセス可能にす
ることができる。
る。図の例示的実施形態では、レキシコン22は、ヘッ
ダセクション160、単語リストセクション162、索
引テーブルセクション164、索引セクション166、
2つ以上のレキシコンデータセクション168(ここで
は例として16個のセクション、168a、168b、
168c、168d、168e、168f、168g、
168h、168i、168j、168k、168l、
168m、168n、168o、168p)、及び文字
列ヒープセクション170を含む。
コン22の構造についての情報を格納する。ヘッダセク
ション160は、例えば、レキシコンの名前やバージョ
ンについての情報を含むことができる。ヘッダセクショ
ン160はまた、メモリオフセット及び各セクション1
62、164、166、168a〜168p、及び17
0のサイズについての情報も含むことができる。セクシ
ョン162は、レキシコン22の単語リストを含む。セ
クション162に単語リストを実施するには、任意の適
切なフォーマットを用いることができる。特に有用なフ
ォーマットの1つは、よく知られるデータ構造技術であ
る「トライ(trie)」構造で単語リストを格納する
ものである。このフォーマットの利点としては、特定の
接頭辞で始まる可能性のある単語がいくつあるかを容易
に判定できることが挙げられ、これは例えば手書き認識
や、ユーザが特定の文字を書いた可能性を確かめる必要
がある際に有用である。このフォーマットではまた、ト
ラバース(traversal)のパスを前方向と後ろ方向の両
方で知ることができる。上記のように、セクション16
2には他の形態の単語リスティングを使用することがで
きる。例えば単純なテーブルやリストを使用することが
できる。さらに別の実施形態では「差分」技術を使用し
て単語リストを格納することができ、この場合は連続し
た単語の記号または文字の違いを格納する。
ョン166と、複数のセクション168とのその関係を
初めに説明しておくと有用であろう。「従来の技術」の
項で述べたように、現在のレキシコンでは、必要とする
のが情報の一部だけであっても、特定の単語項目に関連
付けられたすべての情報を読み出すことが必要とされ
る。セクション168a〜168pは、レキシコン中の
各単語項目のデータを所望の方式で編成することを可能
にし、関連するレキシコン情報を概ねともにグループ化
することができる。例えば、セクション168a〜16
8pの1つを使用してスペルチェックに関連する情報を
格納し、別のセクションに標準的な言語分類に関連する
情報を格納することができる。索引セクション166は
一般に、単語リストセクション162の単語項目に応じ
て、セクション168a〜168pに格納されたデータ
へのポインタ(例えばセットとしてグループ化した)を
提供する。すなわち、単語リストセクション162(例
えばトライ構造)は、索引セクション166へのアクセ
スポイント(オフセット)を直接または間接的に決定す
る。一般に、単語情報を得るこの方法は、所与の単語に
応じて単語リストセクションにアクセスして、索引セク
ションのポインタ識別を確定することを含む。このポイ
ンタ識別を使用して、索引セクションで単語のポインタ
を得る。次いでこのポインタを使用して複数のデータセ
クションのうちどのデータセクションに所与の単語につ
いての情報があるか、そしてその情報がそのデータセク
ションのどこに位置するかを確定する。したがって、セ
クション162にある特定の単語項目に対して、索引セ
クション166を通じて、セクション168a〜168
pに格納されたその単語の対応するレキシコンデータに
選択的にアクセスすることができ、それにより所与の単
語のすべての単語情報を処理するか、または少なくとも
読み出す必要がない。
62にある各単語項目についてのセクション168a〜
168pの索引セクション166中のポインタまたはポ
インタのセットを、その単語項目が名詞か、動詞か、形
容詞かなど、その品詞(「POS(part of speec
h)」)によって分類する。したがって、ある単語項目
のPOSについてのデータは、セクション168a〜1
68pのPOS情報への一連のポインタとなる。したが
って、2つのPOSを持つ単語項目には、セクション1
66に2つの別個のポインタセットがある。セットの1
つは、第1のPOS(例えばその項目の名詞形)につい
ての情報の位置を示し、第2のポインタセットは、もう
一方のPOS(例えばその項目の動詞形)についての情
報の位置を示す。このように索引セクション166は、
単語項目のPOSに基づいた、あるレベルのレキシコン
データ分類を提供する。ここで、レキシコン22が対象
とする言語に応じて、POS以外の他の分類形態を使用
できることを理解されたい。例えば日本語や中国語に
は、品詞の代わりに屈折または声調による分類を使用す
ることができる。ここでは索引セクション166がPO
S分類を提供するものと例示しているが、この機能は制
限的あるいは必須とみなすべきでない。
する際には、ここで用いる意味の単語「単語(wor
d)」の使用には、記号、表意文字、語標(logog
ram)なども含まれることにも留意されたい。したが
って、本発明の態様を使用してこれらの言語のレキシコ
ンも構築することができ、そのレキシコンは特に断らな
い限りは特許請求の範囲に包含されるものとする。
ポインタがセクション168a〜168pのうちどれを
ポイントするのかに関する情報、POSの種類に関連付
けられた情報、識別されたセクション168a〜168
p中で関連するデータを見つけられるオフセット値を含
む。セクション162の所与の単語項目に関連付けられ
たポインタは固定することができるが、例示的実施形態
では、各単語項目のポインタ数は単語項目ごとに異なっ
てよい。このようにして、本質的な制限が常に伴うこと
なく、索引セクション166をより小型かつ柔軟にする
ことができる。
ポインタの概略表現を次に示す。 X1:X2:X3:X4 ここでX1は単語項目のポインタセットの最後を示すフ
ラグであり、X2はセクション168の1つを識別する
情報であり、X3はPOSまたは他の分類を識別する情
報であり、X4は、X2によって識別されるレキシコン
データのオフセットを示す値である。このフォーマット
を使用して、所与の単語についてのすべての情報のポイ
ンタを連続して格納することができ、単語リストセクシ
ョンに応じて直接あるいは間接的に第1のポインタが識
別され、最後のポインタのフラグX 1をセットして所与
の単語のポインタリストの最後を示す。一実施形態で
は、索引セクション166は大きなDWORD配列(迅
速なアクセスのために4バイトの量、4バイトワード配
置)である。この実施形態では、1バイトの内訳は、ポ
インタセットの最後を示すX1の1ビットフラグ、セク
ション168a〜168pを示す4ビットのX2、及び
POSの種類を示す3ビットのX3である。そしてX4
に3バイトを使用して、データがセクション168a〜
168pのどこに格納されているかを示す24ビットの
オフセット値を提供する。このフォーマットは一例に過
ぎず、他のフォーマットも使用できることを理解された
い。同様に、この例は必須あるいは制限的と解釈すべき
でない。一般に、索引セクション166のポインタのフ
ォーマットは、複数のセクション168中のデータの位
置、及び必要な場合は単語情報の1つまたは複数の分類
を示すために選択される。
のオフセット部分に入るのに十分な小ささのデータは、
別個のセクション168a〜168pではなく、直接索
引セクション166に符号化できることにも留意された
い。この種のデータの例にはスペリング情報や単語項目
の確率及び頻度データが含まれるが、これらはいずれも
多くの場合はデータオフセット値に割り当てられたビッ
トに容易に格納することができる。
エントリは、セクション162の単語項目に応じて決ま
る。セクション162と166間の移行には各種の技術
を使用することができる。第1の実施形態では、セクシ
ョン162の各単語項目は必要とされるセクション16
6へのオフセットを含むことができる。ただしセクショ
ン162がトライ構造を備える場合は、トライの葉ノー
ド構造の修正が必要となる場合がある。あるいは、トラ
イ構造中のノードのオフセットを索引セクション166
へのオフセットとして使用することができる。例示的実
施形態では、これは、ある単語項目についてのPOS索
引のセットに40バイト(10個のPOSポインタ)を
割り当てることを意味する。さらなる実施形態では、オ
フセット値をセクション166の単語項目の最後に付す
ることができる。
64をレキシコン22の構造中に含める。索引テーブル
164は単語項目とセクション166の索引とのマッピ
ングを可能にし、これは、セクション166中のポイン
タの数が単語項目ごとに異なる可能性がある場合に特に
有用である。ただし、関連付けられた単語項目ごとに、
索引セクション166で固定サイズ数のポインタを使用
することが可能である。この構造のセクション166を
使用すると索引テーブルセクション164が不要にな
る。この代替実施形態では、セクション166の索引ポ
インタの固定数を超えるポインタを有する単語項目が許
された場合は、オーバーフローテーブルを使用すること
ができる。
ョン166へのオフセット、より具体的にはセクション
168a〜168p中のデータをポイントするセクショ
ン166のポインタは、レキシコン22からデータを検
索する際の効率と速度を提供するように編成することが
できることに留意されたい。例えば、頻繁に使用される
単語の他の情報の隣にセクション168a〜168pの
レキシコン情報を配置するようにオフセットポインタを
編成することができ、あるいは、必要な場合は、セクシ
ョン168a〜168p中の関連付けられた情報同士を
より近くに編成して、ハードディスク、フロッピー(登
録商標)などのコンピュータ記憶装置に格納された際に
情報検索時間を短縮することができる。
その中に存在することができ、即ち、必要な場合は、同
じセクション168a〜168pに含まれる参照データ
への、他のセクション168a〜168pに含まれる参
照データへの、セクション162のもとの単語項目への
ポインタを提供でき、及び例証的実施形態ではまた文字
列ヒープ170へのポインタを提供することができる。
文字列ヒープ170は、そのデータをセクション168
a〜168p中に複数の出現として格納する必要がある
選択された文字列に単一の記憶位置を提供するために使
用される。文字列ヒープ170は単一のセクションであ
るか、あるいはセクション168a〜168pと同様の
サブセクションを含むことができる。セクション168
中の情報の他の形態には、決定木中のブールフラグ、
値、単語リストなどがある。
用した単語項目データの編成により、それを実装するコ
ンピュータのメモリを多量消費することなく、特定の用
途の必要性を満たすようにレキシコン22を容易に適合
することが可能になる。例えば、レキシコン22はRA
Mなどの高速アクセスメモリに読み込むことができる
が、レキシコン中の特定タイプのデータが必要でない場
合は、複数のセクション168a〜168pのうちその
セクションを省略することができる。索引セクション1
66のポインタは、存在するセクション168a〜16
8pだけを反映するように変更することができるが、さ
らなる実施形態では、セクション168a〜168pが
存在すれば情報が得られ、一方セクションが存在しなけ
れば情報が求められないので、変更は不必要である。エ
ラーが生じないように、レキシコンに存在するセクショ
ンは例えばヘッダ160に記録することができる。
利点は、入力12(図1)が単語を含む場合にレキシコ
ンのユーザまたは作成者が後の検索のためにその単語に
ついてのどのようなタイプの情報でも入れることができ
る点である。さらに、ユーザによって定義された情報は
レキシコンに含まれる他の情報と混在させる必要がな
く、複数のセクション168a〜168pの専用のセク
ションに格納することができる。
168pに適したセクションに編成されたレキシコンデ
ータのいくつかの例である。これらは単なる例に過ぎ
ず、レキシコン22のデータは、利便性または理解のた
めに任意の所望の方式で編成できることに留意された
い。ここで述べるセクションは特に有用であることが判
明しているが、必須あるいは制限的なものと見なすべき
ではない。
は、発音ならびに様々な単語の時制についてのその単語
の他の形を含むことができる。
は、その単語項目が単数形、複数形であるか否か、ある
いはその単語が有生か無生かを示すデータを含むことが
できる。このセクションの単語項目に関連する情報は、
一般にはその単語項目についてのよく知られた情報であ
り、素人でも作成することができる。このように、この
情報はユーザの要件に合わせて用意に変更または修正す
ることができる。
単語項目の言語学的情報が含まれる。このような情報は
一般の素人にはあまり知られないが、言語学者はこの情
報を容易に理解し、必要に応じて修正することができ
る。
は、自然言語の構文解析に役立つ情報が含まれる。
領域または主題のコードに関連する。例えば、この情報
により、対応する単語が物理、数学、地理、食物などに
関連するものであることを示すことができる。
スペルチェック、例えば方言マーキング、制限マーキン
グなどに関連する。制限マーキングは、卑語、頭字語、
古い語など許容されるがスペルチェックの際には提案さ
れない単語を示す。
は、イディオム、固有名、本や映画の題名、オフィスの
名称、地名など、複数の単語を単独に識別する必要があ
る際に有用である。通例、各単語項目について格納され
るデータは、複数単語表現でその単語の前にくる、かつ
/または後に来る単語である。
8pの1つが、そのレキシコン項目の作成者のみによっ
て見つけられる、任意の階層的な名前値の対を含むこと
ができる。例えば、作成者が複数語表現(上記)につい
ての固有表現(NE;Name Entity)情報を追加したい
場合には、名前文字列に基づく値の対のセットをそのセ
クションに追加することができ、これをXML形式で表
すと次のようになる。 <named-entity> <app-ne-id>movieFinder::the_longest_day</app-ne-id> <semantic-type>movieFinder::movieTitle</semanticType> <genre>Drama</genre> <URL>http://www.movieFinder.com/fetch-movie-info/ the_longest_day</URL> <movie-info> <date>Jan.30, l969</date> <running-time>137 min.</running-time> <studio>20th Century Fox</studio> </movie-info> <non-rated/> </named-entity> このように、このセクションは、任意の入れ子構造にな
った、文字列に基づく単純な値の名前の対を表すことが
できる。この形式はXMLのタグ属性をサポートせず、
作成者がこのセクションの別個の下位要素としてその属
性を符号化する。上の例では、映画の題名についてのデ
ータは、必要な場合には格納することのできる利用例固
有のデータの混合を含んでいる。
の各セクションはそのすぐ後のセクションと連続する必
要がないという事実を利用することにより書き込み可能
なレキシコンに対応する。すなわち、セクションは将来
行われる拡張のために余分の未使用スペースを取ってお
くことができる。レキシコンへの更新操作は、該当する
位置に新しい値を書き込むことによって行う。レキシコ
ン22がDDL(ダイナミックリンクライブラリ)ベー
スのレキシコン、あるいは予備スペースを備えない事前
にコンパイルされた(静的な)ファイルベースのレキシ
コンとして実施される場合は、単純なフリーリスト実装
により、先頭一致(first−fit)アルゴリズム
に基づいて空いている項目スペースを見つける。
する方法は、複数のデータセクション168に単語情報
を格納し、各データセクションは単語リスト中の単語に
ついて実質的に異なる選択された情報を格納すること
と、複数のデータセクション168と分離した索引セク
ション166にポインタ情報を格納し、各ポインタは複
数のデータセクション168中の選択されたデータをポ
イントすることと、複数のデータセクション168及び
索引セクション166と分離した単語リストセクション
162に単語リストを格納し、単語リストは選択された
単語に関連付けられた対応するポインタを識別する情報
を有することとを含む。必要な場合は、識別値を索引テ
ーブルセクション164に格納することができ、この場
合には各識別値が単語リストセクション162の単語に
対応し、索引セクション166のポインタと関連付けら
れる。同様に、ポインタに分類の表示を含めて単語情報
を分類することもできる。
レキシコンから情報を得ることが望ましい場合に特に有
用である。一般には、特定の単語項目についての複数の
レキシコンの情報を必要に応じて組み合わせる、無視す
る、あるいは選択することができる。いくつかのレキシ
コンからのレキシコン情報を組み合わせる例は、核また
は基礎となるレキシコンに単語項目についての第1の量
の情報が含まれ、第2のレキシコンに特定領域について
の単語項目についての第2の量の情報が含まれ、第3の
レキシコンにユーザが決定した単語項目についての第3
の量の情報が含まれる実装に見られる。
複数のレキシコンから得る方式を図式的に示している。
図4で、レキシコン(データセクションだけによって表
しているが、本来は図3に示すセクションの一部または
すべてを備える)は行に編成され、これを180、18
1、182、及び183で示す。図4では個々のデータ
セクション(168に対応する)を縦に表しており、こ
の例証的実施形態では、4つのレキシコン180〜18
3を通じて最大6個のデータセクション190、19
1、192、193、194、及び195にアクセスす
ることができる。各レキシコン180〜183がデータ
セクション190〜195すべてを含むことは必須でな
く、多くの実際の事例では、すべてのレキシコンのすべ
てのデータセクション間にそのような対応関係は存在し
ないことに留意されたい。
クションのデータを示しており、Xはデータセクション
190〜195の1つを現し、Yはレキシコン180〜
183を表す。例えばレキシコン180は、データセク
ション190180、193 180、及び195180
を備える。
タイプの内容を有するセクション190〜195に編成
されているので、レキシコン180〜183にまたがっ
て情報を容易に組み合わせる、あるいは選択することが
できる。所与の単語項目について、第1のレキシコン1
80の情報を調べ、次いで必要に応じて他のレキシコン
181〜183の同じデータセクションに進むことによ
り情報を得ることができる。一実施形態では、検索する
データは、実行時に定義される所望のセクションタイプ
のセットによって制御する。1つの変数で、レキシコン
のある項目のデータを読み出すか読み出さないかを決定
する。第2の変数で、調べた他のレキシコンの対応する
セクションから先に読み出された項目のデータと組み合
わせる、あるいはそのデータに上書きするかどうかを決
定する。概略的には、レキシコンは「スタック」されて
おり、スタック中の最上位のレキシコンのデータセクシ
ョン190〜195を読み取り、次いでスタックを順次
下に進み、読み出すか読み出さないか、選択するか、無
視するか、上書きするか、あるいは組み合わせるかにつ
いての規則に従うことによって情報を得ると考えること
ができる。図3に示すレキシコン構造は、実装者が、所
与のセクションタイプのデータを他のレキシコンの同じ
セクション中のデータと組み合わせる、あるいは上書き
する方式を選択することを可能にする。
た情報186は、セクション190 180、191
181、192182、193183、194183、
及び195180+181+182に対応する情報を含
む。この例では、セクション190、191、192、
193、及び194のデータは、単にデータセクション
の1つに停止インディケータが見つかるまで、レキシコ
ン180〜183をセクションごとに順に調べることに
よって得る。例えば、レキシコン180及び183はと
もにセクション190に情報を有するが、停止インディ
ケータがセクション190180で見つかるのでレキシ
コン180の情報だけが取り出される。実行時に、これ
によりセクション190183の情報が無視される。こ
れに対してセクション195182を調べるまでに停止
インディケータが見つからないので、セクション195
180、195181、及び195182の情報は組み
合わせて情報195180+181+182を形成す
る。必要な場合は、テキストアナライザ20、またはテ
キストアナライザ20の要求に基づいてレキシコン22
にアクセスするインタフェースモジュール(図示せず)
によって実施される規則に基づいて、すべてのレキシコ
ンのセクションにわたる情報を組み合わせる、無視す
る、あるいはその他の形で選択することができる。その
ような規則は、例えば、他のレキシコンの対応するセク
ションに情報があるかどうかに関係なく、特定のレキシ
コンの特定のセクションを常に使用することを指定する
ことができる。これを図4に表しており、ここではレキ
シコン182のセクション192に情報があり、この情
報はスタック中で上方にあるので少なくとも最初は調べ
られるが、レキシコン183のセクション192の情報
が得られる。ただしデータの選択は、例えば上述の要領
で停止ポインタを使用して単語項目ごとにしてもよい。
性と効率性を提供する改良したレキシコン構造について
述べた。索引セクション及び複数のデータセクションに
より、テキスト処理システム及び/または利用可能なコ
ンピュータリソースの必要性に合わせてレキシコンを適
合することが可能になる。この改良されたデータ構造に
より、複数のレキシコンのデータに選択的にアクセス
し、かつ/または必要に応じて組み合わせることも可能
になる。
明したが、当業者は、本発明の趣旨及び範囲から逸脱せ
ずに形態及び詳細に変更を加えられることを認識されよ
う。
キシコンを格納するための高い柔軟性と効率を有する改
良されたデータ構造を提供しそのデータ構造を使用可能
とすることができる。
ステムのブロック図である。
ある。
である。
て情報を検索する、または情報にアクセスする図式表現
の図である。
ータセクション
Claims (23)
- 【請求項1】 単語情報を格納し、言語処理システムで
使用するために適合されたレキシコンを有するコンピュ
ータ可読媒体であって、前記レキシコンは、 複数の単語を格納する単語リストセクションと、 前記単語リストの単語についての実質的に異なる選択さ
れた情報をそれぞれが格納する複数のデータセクション
と、 前記複数のデータセクション中のデータをそれぞれがポ
イントするポインタを格納する索引セクションであっ
て、使用するポインタの識別は、前記単語リストセクシ
ョン中の対応する単語に応じて決まる索引セクションと
を備えたことを特徴とするコンピュータ可読媒体。 - 【請求項2】 前記単語リストセクションはトライデー
タ構造を備えたことを特徴とする請求項1に記載のコン
ピュータ可読媒体。 - 【請求項3】 前記識別は、前記単語リストセクション
に格納されたオフセット値であることを特徴とする請求
項1に記載のコンピュータ可読媒体。 - 【請求項4】 前記単語リストセクションの単語と相互
に関連付けられた各識別を格納する索引テーブルセクシ
ョンをさらに備え、前記単語リストセクションの各単語
は、前記索引テーブルセクションの中に対応する項目を
有することを特徴とする請求項1に記載のコンピュータ
可読媒体。 - 【請求項5】 前記ポインタはそれぞれ、どのデータセ
クションにアクセスするかの第1の指示と、そのデータ
セクションに格納された情報に関連付けられたオフセッ
ト値の第2の指示とを含むことを特徴とする請求項1に
記載のコンピュータ可読媒体。 - 【請求項6】 前記ポインタはそれぞれ、前記単語の分
類の第3の指示を含むことを特徴とする請求項5に記載
のコンピュータ可読媒体。 - 【請求項7】 前記複数のデータセクションの1つはス
ペルチェックに関連する情報を格納することを特徴とす
る請求項1に記載のコンピュータ可読媒体。 - 【請求項8】 前記複数のデータセクションの1つは形
態に関連する情報を格納することを特徴とする請求項1
に記載のコンピュータ可読媒体。 - 【請求項9】 前記複数のデータセクションの1つは言
語学に関連する情報を格納することを特徴とする請求項
1に記載のコンピュータ可読媒体。 - 【請求項10】 前記複数のデータセクションの1つ
は、複数語表現に属する単語を示す情報を格納すること
を特徴とする請求項1に記載のコンピュータ可読媒体。 - 【請求項11】 前記複数のデータセクションの2つの
データセクションは、スペルチェック情報、形態情報、
言語学情報、及び複数語表現情報からなる群から選択さ
れた情報を別個に格納することを特徴とする請求項1に
記載のコンピュータ可読媒体。 - 【請求項12】 複数の単語に関連する単語情報を格納
するレキシコンにアクセスすることにより単語について
の単語情報を得るコンピュータ実行方法であって、前記
レキシコンは、複数の単語を格納する単語リストセクシ
ョンと、それぞれが前記単語リストの単語についての選
択された異なる情報を格納する複数のデータセクション
と、前記複数のデータセクションのデータをそれぞれが
ポイントするポインタを格納する索引セクションとを有
し、 前記索引セクションのポインタ識別を確定するために、
前記単語に応じて前記単語リストセクションにアクセス
するステップと、 前記索引セクションのポインタを得るために、前記ポイ
ンタ識別を使用するステップと、 前記複数のデータセクションのうちどのデータセクショ
ンに前記単語についての情報があるか、及び該情報が前
記データセクションのどこに位置するかを確定するため
に、前記ポインタを使用するステップとを備えたことを
特徴とする単語情報を得るコンピュータ実行方法。 - 【請求項13】 前記識別は前記単語リストセクション
に格納されたオフセット値であることを特徴とする請求
項12に記載の単語情報を得るコンピュータ実行方法。 - 【請求項14】 前記レキシコンは、前記単語リストセ
クションの単語と相互に関連付けられた各識別を格納す
る索引テーブルセクションを含み、前記索引セクション
のポインタ識別を確定するために、前記単語に応じて前
記単語リストセクションにアクセスするステップは、前
記単語リストセクションを使用して、対応する識別を有
する前記索引テーブルセクション中の対応する項目を見
つけることをさらに含むことを特徴とする請求項12に
記載の単語情報を得るコンピュータ実行方法。 - 【請求項15】 単語リスト中の複数の単語に関連する
レキシコンに単語情報を格納する方法であって、 それぞれが前記単語リスト中の単語についての実質的に
異なる選択された情報を格納する複数のデータセクショ
ンに単語情報を格納するステップと、 前記複数のデータセクションと分離した索引セクション
にポインタ情報を格納するステップであって、各ポイン
タは前記複数のデータセクションの選択されたデータを
ポイントするステップと、 前記複数のデータセクション及び前記索引セクションと
分離した単語リストセクションに前記単語リストを格納
するステップであって、前記単語リストは、選択された
単語に関連付けられた対応するポインタを識別する情報
を有するステップとを備えたことを特徴とする単語情報
を格納する方法。 - 【請求項16】 複数のレキシコンから単語情報を得る
コンピュータ実行方法であって、各レキシコンは、複数
の単語を格納する単語リストセクションと、それぞれが
前記単語リストの単語についての選択された異なる情報
を格納する複数のデータセクションと、前記複数のデー
タセクション中のデータをそれぞれがポイントするポイ
ンタを格納する索引セクションとを有し、 類似する情報を有する各レキシコンのデータセクション
に選択的にアクセスするステップと、そこから情報を得
るステップとを備えたことを特徴とする単語情報を得る
コンピュータ実行方法。 - 【請求項17】 選択的にアクセスするステップは、類
似する情報を有する各レキシコンの少なくとも2つのデ
ータセクションの単語情報を組み合わせることを含むこ
とを特徴とする請求項16に記載の単語情報を得るコン
ピュータ実行方法。 - 【請求項18】 選択的にアクセスするステップは、第
1のレキシコンのデータセクションから単語情報を得、
第2のレキシコンのデータセクションから単語情報を
得、前記第2のレキシコンのデータセクションの情報だ
けを使用することを含むことを特徴とする請求項16に
記載の単語情報を得るコンピュータ実行方法。 - 【請求項19】 選択的にアクセスするステップは、停
止インディケータが見つかるまで各レキシコンの類似す
るデータセクションから単語情報を得ることを含むこと
を特徴とする請求項16に記載の単語情報を得るコンピ
ュータ実行方法。 - 【請求項20】 前記データセクションに選択的にアク
セスするステップは、選択された順序で前記レキシコン
に順次アクセスすることを含むことを特徴とする請求項
16に記載の単語情報を得るコンピュータ実行方法。 - 【請求項21】 前記データセクションに選択的にアク
セスするステップは、 アクセスする各レキシコンについて、 対応する索引セクションのポインタ識別を確定するため
に、所与の単語に応じて対応する単語リストセクション
にアクセスするステップと、 前記対応する索引セクションのポインタを得るために、
前記ポインタ識別を使用するステップと、 前記複数のデータセクションのうちどの対応するデータ
セクションに前記単語についての情報があるか、及び該
情報が前記対応するデータセクションのどこ位置するか
を確定するために、前記ポインタを使用するステップと
を備えたことを特徴とする請求項16に記載の単語情報
を得るコンピュータ実行方法。 - 【請求項22】 前記データセクションに選択的にアク
セスするステップは、選択された順序で前記レキシコン
に順次アクセスすることを含むことを特徴とする請求項
21に記載の単語情報を得るコンピュータ実行方法。 - 【請求項23】 コンピュータによって実行されると請
求項12乃至22のいずれかに記載の方法を実施する命
令を有することを特徴とするコンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/137,456 | 2002-04-30 | ||
US10/137,456 US7490034B2 (en) | 2002-04-30 | 2002-04-30 | Lexicon with sectionalized data and method of using the same |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003345796A true JP2003345796A (ja) | 2003-12-05 |
JP2003345796A5 JP2003345796A5 (ja) | 2006-06-15 |
JP4724357B2 JP4724357B2 (ja) | 2011-07-13 |
Family
ID=29249733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003125929A Expired - Lifetime JP4724357B2 (ja) | 2002-04-30 | 2003-04-30 | コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7490034B2 (ja) |
EP (1) | EP1367501B1 (ja) |
JP (1) | JP4724357B2 (ja) |
CY (1) | CY1113100T1 (ja) |
DK (1) | DK1367501T3 (ja) |
ES (1) | ES2386631T3 (ja) |
PT (1) | PT1367501E (ja) |
SI (1) | SI1367501T1 (ja) |
Families Citing this family (205)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7447627B2 (en) * | 2003-10-23 | 2008-11-04 | Microsoft Corporation | Compound word breaker and spell checker |
US7421386B2 (en) * | 2003-10-23 | 2008-09-02 | Microsoft Corporation | Full-form lexicon with tagged data and methods of constructing and using the same |
US7398210B2 (en) * | 2003-10-23 | 2008-07-08 | Microsoft Corporation | System and method for performing analysis on word variants |
US7548849B2 (en) * | 2005-04-29 | 2009-06-16 | Research In Motion Limited | Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070078644A1 (en) * | 2005-09-30 | 2007-04-05 | Microsoft Corporation | Detecting segmentation errors in an annotated corpus |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US8195447B2 (en) * | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US8074172B2 (en) | 2007-01-05 | 2011-12-06 | Apple Inc. | Method, system, and graphical user interface for providing word recommendations |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101779200B (zh) | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8232973B2 (en) | 2008-01-09 | 2012-07-31 | Apple Inc. | Method, device, and graphical user interface providing word recommendations for text input |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US20100235780A1 (en) * | 2009-03-16 | 2010-09-16 | Westerman Wayne C | System and Method for Identifying Words Based on a Sequence of Keyboard Events |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9606983B1 (en) * | 2014-08-27 | 2017-03-28 | Amazon Technologies, Inc. | Human readable mechanism for communicating binary data |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9866393B1 (en) | 2014-12-22 | 2018-01-09 | Amazon Technologies, Inc. | Device for creating reliable trusted signatures |
US10110385B1 (en) | 2014-12-22 | 2018-10-23 | Amazon Technologies, Inc. | Duress signatures |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US9819673B1 (en) | 2015-06-24 | 2017-11-14 | Amazon Technologies, Inc. | Authentication and authorization of a privilege-constrained application |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11010553B2 (en) * | 2018-04-18 | 2021-05-18 | International Business Machines Corporation | Recommending authors to expand personal lexicon |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110795173A (zh) * | 2019-10-30 | 2020-02-14 | 深圳市元征科技股份有限公司 | 一种数据处理方法、装置和电子设备及可读存储介质 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4384329A (en) * | 1980-12-19 | 1983-05-17 | International Business Machines Corporation | Retrieval of related linked linguistic expressions including synonyms and antonyms |
US4724523A (en) * | 1985-07-01 | 1988-02-09 | Houghton Mifflin Company | Method and apparatus for the electronic storage and retrieval of expressions and linguistic information |
JPS608980A (ja) * | 1983-06-28 | 1985-01-17 | Brother Ind Ltd | 電子辞書 |
US4736296A (en) * | 1983-12-26 | 1988-04-05 | Hitachi, Ltd. | Method and apparatus of intelligent guidance in natural language |
JPS60245083A (ja) * | 1984-05-18 | 1985-12-04 | Brother Ind Ltd | 電子辞書 |
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
US4771385A (en) * | 1984-11-21 | 1988-09-13 | Nec Corporation | Word recognition processing time reduction system using word length and hash technique involving head letters |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5056021A (en) * | 1989-06-08 | 1991-10-08 | Carolyn Ausborn | Method and apparatus for abstracting concepts from natural language |
JPH03161727A (ja) * | 1989-11-20 | 1991-07-11 | Fuji Photo Film Co Ltd | カメラの主要被写体検出装置 |
US5708829A (en) * | 1991-02-01 | 1998-01-13 | Wang Laboratories, Inc. | Text indexing system |
JP2875075B2 (ja) | 1991-10-30 | 1999-03-24 | シャープ株式会社 | 電子辞書 |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
US6760695B1 (en) * | 1992-08-31 | 2004-07-06 | Logovista Corporation | Automated natural language processing |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
JPH0756957A (ja) * | 1993-08-03 | 1995-03-03 | Xerox Corp | ユーザへの情報提供方法 |
US5611076A (en) * | 1994-09-21 | 1997-03-11 | Micro Data Base Systems, Inc. | Multi-model database management system engine for databases having complex data models |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
JP3003915B2 (ja) * | 1994-12-26 | 2000-01-31 | シャープ株式会社 | 単語辞書検索装置 |
JPH08323842A (ja) * | 1995-06-02 | 1996-12-10 | Tsutsunaka Plast Ind Co Ltd | シートブロー成形品と成形方法 |
US5864863A (en) * | 1996-08-09 | 1999-01-26 | Digital Equipment Corporation | Method for parsing, indexing and searching world-wide-web pages |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
US5995992A (en) * | 1997-11-17 | 1999-11-30 | Bull Hn Information Systems Inc. | Conditional truncation indicator control for a decimal numeric processor employing result truncation |
US6298321B1 (en) * | 1998-11-23 | 2001-10-02 | Microsoft Corporation | Trie compression using substates and utilizing pointers to replace or merge identical, reordered states |
US6675169B1 (en) * | 1999-09-07 | 2004-01-06 | Microsoft Corporation | Method and system for attaching information to words of a trie |
JP3717730B2 (ja) * | 1999-11-02 | 2005-11-16 | セイコーインスツル株式会社 | 電子辞書 |
US6792418B1 (en) * | 2000-03-29 | 2004-09-14 | International Business Machines Corporation | File or database manager systems based on a fractal hierarchical index structure |
-
2002
- 2002-04-30 US US10/137,456 patent/US7490034B2/en not_active Expired - Fee Related
-
2003
- 2003-04-23 PT PT03008804T patent/PT1367501E/pt unknown
- 2003-04-23 ES ES03008804T patent/ES2386631T3/es not_active Expired - Lifetime
- 2003-04-23 SI SI200332181T patent/SI1367501T1/sl unknown
- 2003-04-23 EP EP03008804A patent/EP1367501B1/en not_active Expired - Lifetime
- 2003-04-23 DK DK03008804.1T patent/DK1367501T3/da active
- 2003-04-30 JP JP2003125929A patent/JP4724357B2/ja not_active Expired - Lifetime
-
2012
- 2012-09-10 CY CY20121100816T patent/CY1113100T1/el unknown
Also Published As
Publication number | Publication date |
---|---|
EP1367501A3 (en) | 2007-01-03 |
ES2386631T3 (es) | 2012-08-24 |
EP1367501A2 (en) | 2003-12-03 |
SI1367501T1 (sl) | 2012-09-28 |
PT1367501E (pt) | 2012-08-08 |
CY1113100T1 (el) | 2016-04-13 |
DK1367501T3 (da) | 2012-07-16 |
JP4724357B2 (ja) | 2011-07-13 |
EP1367501B1 (en) | 2012-06-13 |
US20030204392A1 (en) | 2003-10-30 |
US7490034B2 (en) | 2009-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4724357B2 (ja) | コンピュータ可読媒体及び単語情報を得るコンピュータ実行方法並びに単語情報を格納する方法 | |
Singh et al. | A systematic review of text stemming techniques | |
US8473501B2 (en) | Methods, computer systems, software and storage media for handling many data elements for search and annotation | |
US8041557B2 (en) | Word translation device, translation method, and computer readable medium | |
US6654731B1 (en) | Automated integration of terminological information into a knowledge base | |
US7925498B1 (en) | Identifying a synonym with N-gram agreement for a query phrase | |
US9495358B2 (en) | Cross-language text clustering | |
KR101130384B1 (ko) | 태그 데이터를 갖는 풀-폼 어휘집 및 이를 구축하고이용하는 방법 | |
US8661012B1 (en) | Ensuring that a synonym for a query phrase does not drop information present in the query phrase | |
US8572126B2 (en) | Systems and methods for optimizing very large n-gram collections for speed and memory | |
US7574348B2 (en) | Processing collocation mistakes in documents | |
US7783476B2 (en) | Word extraction method and system for use in word-breaking using statistical information | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
US20120016663A1 (en) | Identifying related names | |
US8280721B2 (en) | Efficiently representing word sense probabilities | |
US20180004838A1 (en) | System and method for language sensitive contextual searching | |
JP2005092883A (ja) | 中国語の単語分割 | |
US5500796A (en) | Method for extracting open-issue data from textual specifications using natural language text processing | |
US8229970B2 (en) | Efficient storage and retrieval of posting lists | |
US11544304B2 (en) | System and method for parsing user query | |
JP2005242416A (ja) | 自然言語文の検索方法および検索装置 | |
US20120065959A1 (en) | Word graph | |
JP2003323425A (ja) | 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム | |
Meyer | On Sanskrit and information retrieval | |
JP5412137B2 (ja) | 機械学習装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060426 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070525 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070824 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070829 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070925 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070928 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071025 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071030 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071126 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071211 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080310 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20080311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080311 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080423 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080627 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20100524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110304 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110411 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |