JPH06110948A - 文献を識別し、検索し、分類する方法 - Google Patents
文献を識別し、検索し、分類する方法Info
- Publication number
- JPH06110948A JPH06110948A JP4301549A JP30154992A JPH06110948A JP H06110948 A JPH06110948 A JP H06110948A JP 4301549 A JP4301549 A JP 4301549A JP 30154992 A JP30154992 A JP 30154992A JP H06110948 A JPH06110948 A JP H06110948A
- Authority
- JP
- Japan
- Prior art keywords
- gram
- document
- weight
- grams
- references
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】 与えられた文献の記載言語を識別する方法を
提供する。 【構成】 既知言語の参照文献の文字をn個づつ、例え
ば2個づつに分解(これをn−グラムという)して、n
−グラム列を作り、また未識別文献についても同じくn
−グラムに分解する。各n−グラムに対し、ウェ−トを
割当て、参照文献相互に含まれる共通性を示す要因、及
び各未識別文献の共通性を示す要因を数値化し、n−グ
ラムから共通性を除去する。未識別文献を既知言語の各
参照文献と比較し、類似性の程度を示す点数を演算し、
類似性の点数に基づいて、未識別言語が既知言語の何で
あるかを識別する。この方法は文献又は論題を識別し、
検索し、又は分類する方法に適用できる。
提供する。 【構成】 既知言語の参照文献の文字をn個づつ、例え
ば2個づつに分解(これをn−グラムという)して、n
−グラム列を作り、また未識別文献についても同じくn
−グラムに分解する。各n−グラムに対し、ウェ−トを
割当て、参照文献相互に含まれる共通性を示す要因、及
び各未識別文献の共通性を示す要因を数値化し、n−グ
ラムから共通性を除去する。未識別文献を既知言語の各
参照文献と比較し、類似性の程度を示す点数を演算し、
類似性の点数に基づいて、未識別言語が既知言語の何で
あるかを識別する。この方法は文献又は論題を識別し、
検索し、又は分類する方法に適用できる。
Description
【0001】
【産業上の利用分野】本発明は文献検索方法、特に、キ
−ワ−ド又は文脈に基づく情報によらずに、全テキスト
の検索を可能にする文献検索方法に関する。この方法
は、文献の論題(トピック)又は言語により文献を識別
し、検索し、かつ分類することに用いることができる。
また、この方法は、音響信号(例えば、スピ−チ)、及
び機械読み取り可能の形式で表現することができるグラ
フ状シンボル(例えば、絵)のような、如何なる形式の
コミユニケ−シヨンであつても、その識別、検索、及び
分類に用いることが可能である。
−ワ−ド又は文脈に基づく情報によらずに、全テキスト
の検索を可能にする文献検索方法に関する。この方法
は、文献の論題(トピック)又は言語により文献を識別
し、検索し、かつ分類することに用いることができる。
また、この方法は、音響信号(例えば、スピ−チ)、及
び機械読み取り可能の形式で表現することができるグラ
フ状シンボル(例えば、絵)のような、如何なる形式の
コミユニケ−シヨンであつても、その識別、検索、及び
分類に用いることが可能である。
【0002】
【従来の技術】1992年2月4日発行の“エレクトロ
ニツク エンジニアリング タイムズ”誌(Elect
ronic Engineering Times)に
おけるR.Colin Johnson氏の論文“ダパ
− アイズ・スマ−ト・テキスト シフタ−ズ(DAP
PA Eyes Smart Text Sifter
s”第35頁に、使用者に関する文献を検索するための
テキスト状のデ−タベ−スをサ−チするより良い方法を
発見するために、広汎な研究努力が費されたことが指摘
されてた。意味のある困難解決を実現する過程におい
て、いくつかの基本的問題のあることが指摘された。
ニツク エンジニアリング タイムズ”誌(Elect
ronic Engineering Times)に
おけるR.Colin Johnson氏の論文“ダパ
− アイズ・スマ−ト・テキスト シフタ−ズ(DAP
PA Eyes Smart Text Sifter
s”第35頁に、使用者に関する文献を検索するための
テキスト状のデ−タベ−スをサ−チするより良い方法を
発見するために、広汎な研究努力が費されたことが指摘
されてた。意味のある困難解決を実現する過程におい
て、いくつかの基本的問題のあることが指摘された。
【0003】サ−チを改善する1つの技術は、情報をよ
り速く処理できる特殊のハ−ドウエアを開発することで
あつた。このアプロ−チにおける問題は、処理速度の改
善が、デ−タベ−ス情報の拡大する割合にスペ−スを合
わせることができないことであつた。膨大なデ−タベ−
スから情報を取出す方法を改善するためには、基本的な
理論的な解決が必要であることが述べられている。
り速く処理できる特殊のハ−ドウエアを開発することで
あつた。このアプロ−チにおける問題は、処理速度の改
善が、デ−タベ−ス情報の拡大する割合にスペ−スを合
わせることができないことであつた。膨大なデ−タベ−
スから情報を取出す方法を改善するためには、基本的な
理論的な解決が必要であることが述べられている。
【0004】従来の情報検索システムは、所要の文献を
識別するために未だにキ−ワ−ドやオペレ−タ(操作
子)付きの句(例えば、アンド(and)、オア(o
r)、ノツト(not))を用いることを基礎としてい
る。この技術の問題点は、文献がキ−ワ−ド自体[例え
ば、車(car)と自動車(automobil
e)]、或いはキ−ワ−ドの変形[例えば、検索する
(retriebing)と検索(retriev
e)]よりも、むしろキ−ワ−ドの同義語を含むことが
あるということである。
識別するために未だにキ−ワ−ドやオペレ−タ(操作
子)付きの句(例えば、アンド(and)、オア(o
r)、ノツト(not))を用いることを基礎としてい
る。この技術の問題点は、文献がキ−ワ−ド自体[例え
ば、車(car)と自動車(automobil
e)]、或いはキ−ワ−ドの変形[例えば、検索する
(retriebing)と検索(retriev
e)]よりも、むしろキ−ワ−ドの同義語を含むことが
あるということである。
【0005】このようなシステムは、入力段階において
文字の綴り、又はデ−タ伝送の間違いに非常に敏感であ
るということである。また、オペレ−タ(操作子)を用
いることは困難である。その他の問題は、適当なキ−ワ
−ド識別、適当な同義語の識別、不十分で、膨大な及び
/又は無関係な文献の検索を包含することである。これ
らの問題を避けるために典型的には、膨大な同義語の表
が用いられる。しかし、この方法はメモリの必要性を増
大し、処理時間を遅らせることになる。
文字の綴り、又はデ−タ伝送の間違いに非常に敏感であ
るということである。また、オペレ−タ(操作子)を用
いることは困難である。その他の問題は、適当なキ−ワ
−ド識別、適当な同義語の識別、不十分で、膨大な及び
/又は無関係な文献の検索を包含することである。これ
らの問題を避けるために典型的には、膨大な同義語の表
が用いられる。しかし、この方法はメモリの必要性を増
大し、処理時間を遅らせることになる。
【0006】その他のキ−ワ−ドサ−チの問題は、キ−
ワ−ドの意味が、通常、そのキ−ワ−ドの用いられる文
脈に依存することである。このため、キ−ワ−ドの使用
される文脈についての指示なしでは、必要としない文献
を検索してしまう機会が大きくなる。前述した従来の文
献検索のアプロ−チの問題点を克服するため、文脈ベク
トル、概念グラフ、意味論ネツトワ−ク、推論ネツトワ
−クなどの手法を使用した文脈の情報をサ−チに加える
ことが試みられてきた。
ワ−ドの意味が、通常、そのキ−ワ−ドの用いられる文
脈に依存することである。このため、キ−ワ−ドの使用
される文脈についての指示なしでは、必要としない文献
を検索してしまう機会が大きくなる。前述した従来の文
献検索のアプロ−チの問題点を克服するため、文脈ベク
トル、概念グラフ、意味論ネツトワ−ク、推論ネツトワ
−クなどの手法を使用した文脈の情報をサ−チに加える
ことが試みられてきた。
【0007】これらの手法は、メモリの必要性や処理時
間を増大させる。また、文脈情報を追加することは、訓
練された個人による多大の時間を要する仕事でもある。
間を増大させる。また、文脈情報を追加することは、訓
練された個人による多大の時間を要する仕事でもある。
【0008】G.Salton及びC.Buckley
の論文“情報検索のためのグロ−バル テキスト マツ
チング”、サイエンス誌 Vol.253、1991年
8月30日発行、1012−1015頁には、同義語を
使用するテキスト解析はやつかいなもので、知識ベ−ス
によるテキスト解析は複雑であると述べている。またこ
の論文は、テキストの理解は文脈とテキストの部分の識
別(すなわちテキストのセクション、センテンスのパラ
グラフ)に基礎をおかねばならないと述べている。
の論文“情報検索のためのグロ−バル テキスト マツ
チング”、サイエンス誌 Vol.253、1991年
8月30日発行、1012−1015頁には、同義語を
使用するテキスト解析はやつかいなもので、知識ベ−ス
によるテキスト解析は複雑であると述べている。またこ
の論文は、テキストの理解は文脈とテキストの部分の識
別(すなわちテキストのセクション、センテンスのパラ
グラフ)に基礎をおかねばならないと述べている。
【0009】G.Saltonの論文“自動テキスト検
索の発展”、サイエンス誌 Vol.253、1991
年8月30日発行、974−980頁には、文献検索の
現状が要約されている。これには、巨大なデ−タベ−ス
から関心のある文献のみを検索する必要があるからテキ
ストの解析は問題であると述べている。この問題の典型
的な解決は、内容識別子を創生することであつた。これ
は、単語の使用されている文脈を考慮することなしに辞
書を引くだけでは、単語の意味が適切に決定できないか
らである。この論文には、テキスト中の単語が文脈の識
別にも使用することができることが述べられている。こ
のような検索システムは、全テキスト検索システムとし
て定義されている。1979年4月発行のパタ−ン解析
と機械知能の関するIEEE論文集、Vol.PAMI
−1、No.2に掲載された、C.Suenの論文“自
然言語の理解とテキスト処理のためのn−グラム統計”
には、自然言語を処理する2つの方法が記載されたい
る。1つはキ−ワ−ドと辞書を用いる方法であり、もう
1つはn−グラムを使用する方法である。キ−ワ−ドに
よるアプロ−チにおいては、単語が比較される。n−グ
ラムを使用するアプロ−チにおいては、文字列が比較さ
れる。文字列を比較する方法は、キ−ワ−ドや辞書を用
いる方法より迅速で、必要とするメモリはより小さい。
索の発展”、サイエンス誌 Vol.253、1991
年8月30日発行、974−980頁には、文献検索の
現状が要約されている。これには、巨大なデ−タベ−ス
から関心のある文献のみを検索する必要があるからテキ
ストの解析は問題であると述べている。この問題の典型
的な解決は、内容識別子を創生することであつた。これ
は、単語の使用されている文脈を考慮することなしに辞
書を引くだけでは、単語の意味が適切に決定できないか
らである。この論文には、テキスト中の単語が文脈の識
別にも使用することができることが述べられている。こ
のような検索システムは、全テキスト検索システムとし
て定義されている。1979年4月発行のパタ−ン解析
と機械知能の関するIEEE論文集、Vol.PAMI
−1、No.2に掲載された、C.Suenの論文“自
然言語の理解とテキスト処理のためのn−グラム統計”
には、自然言語を処理する2つの方法が記載されたい
る。1つはキ−ワ−ドと辞書を用いる方法であり、もう
1つはn−グラムを使用する方法である。キ−ワ−ドに
よるアプロ−チにおいては、単語が比較される。n−グ
ラムを使用するアプロ−チにおいては、文字列が比較さ
れる。文字列を比較する方法は、キ−ワ−ドや辞書を用
いる方法より迅速で、必要とするメモリはより小さい。
【0010】米国特許第5,020,019号、発明の
名称“文献検索システム”には、それ以前のサ−チ結果
に応答して、異なるキ−ワ−ドにウェ−トを付けること
を使用者に認める学習機能を持つたキ−ワ−ドを使用す
る文献サ−チシステムが記載されている。本発明はキ−
ワ−ドによるアプロ−チは用いていない。
名称“文献検索システム”には、それ以前のサ−チ結果
に応答して、異なるキ−ワ−ドにウェ−トを付けること
を使用者に認める学習機能を持つたキ−ワ−ドを使用す
る文献サ−チシステムが記載されている。本発明はキ−
ワ−ドによるアプロ−チは用いていない。
【0011】米国特許第4,985,863号、発明の
名称“文献の蓄積と検索”には、文献をセクシヨン毎に
蓄積する方法が記載されている。キ−ワ−ドでなく、テ
キストのセクシヨンが、類似文献の検索に用いられてい
る。本発明は、キ−ワ−ド又はセクシヨンによるアプロ
−チを行なうものではない。
名称“文献の蓄積と検索”には、文献をセクシヨン毎に
蓄積する方法が記載されている。キ−ワ−ドでなく、テ
キストのセクシヨンが、類似文献の検索に用いられてい
る。本発明は、キ−ワ−ド又はセクシヨンによるアプロ
−チを行なうものではない。
【0012】米国特許第4,849,898号、発明の
名称“テキストの表現における単語間の意味の関係を識
別する方法と装置”には、キ−ワ−ドと単語が、同じこ
とを意味するか否かを決定するために、文献のキ−ワ−
ドと単語の文字−意味論的解析を使用する方法が記載さ
れている。この方法は、キ−ワ−ドと同じ論題(トピッ
ク)を取扱う文献、又は文献の部分を検索するために用
いられる。本発明は意味論的解析手法を用いるものでは
ない。
名称“テキストの表現における単語間の意味の関係を識
別する方法と装置”には、キ−ワ−ドと単語が、同じこ
とを意味するか否かを決定するために、文献のキ−ワ−
ドと単語の文字−意味論的解析を使用する方法が記載さ
れている。この方法は、キ−ワ−ドと同じ論題(トピッ
ク)を取扱う文献、又は文献の部分を検索するために用
いられる。本発明は意味論的解析手法を用いるものでは
ない。
【0013】
【本発明の目的】本発明の目的は、与えられた文献の記
載言語を識別する方法を提供することである。
載言語を識別する方法を提供することである。
【0014】本発明の他の目的は、論題(トピック)の
デ−タベ−スから、特定の言語の文献を検索する方法を
提供することである。
デ−タベ−スから、特定の言語の文献を検索する方法を
提供することである。
【0015】本発明の更に他の目的は、デ−タベ−ス中
の文献を、言語により分類する方法を提供することであ
る。
の文献を、言語により分類する方法を提供することであ
る。
【0016】本発明の更に他の目的は、デ−タベ−ス中
の文献を、論題により分類する方法を提供することであ
る。
の文献を、論題により分類する方法を提供することであ
る。
【0017】これら目的は、文献の識別、検索及び分類
に対する新しいアプロ−チによつて達成される。ここで
文献という用語は、機械読み取り可能のテキスト、スピ
−チ又はグラフを指す。本発明は、従来のキ−ワ−ド又
は文脈に基づくアプロ−チに代え、文献間のn−グラム
比較に基づくパタ−ン認識技術を使用するものである。
デ−タベ−ス文献の共通性の除去は、(キ−ワ−ド及び
辞書による方法に比較して)メモリについての要求を減
少させることを許容する一方、文献間の繊細な識別と、
処理の増大をもたらす。使用者は、文献が類似か否かを
決定するために使用する閾値を設定することができる。
に対する新しいアプロ−チによつて達成される。ここで
文献という用語は、機械読み取り可能のテキスト、スピ
−チ又はグラフを指す。本発明は、従来のキ−ワ−ド又
は文脈に基づくアプロ−チに代え、文献間のn−グラム
比較に基づくパタ−ン認識技術を使用するものである。
デ−タベ−ス文献の共通性の除去は、(キ−ワ−ド及び
辞書による方法に比較して)メモリについての要求を減
少させることを許容する一方、文献間の繊細な識別と、
処理の増大をもたらす。使用者は、文献が類似か否かを
決定するために使用する閾値を設定することができる。
【0018】
【実施例】本発明は文献を識別し、サ−チし、かつ分類
する方法である。この方法は言語の識別、論題の識別、
文献検索及び文献分類ための敏感で、迅速で、経済的な
方法をもたらす。本明細書及びクレ−ムを通して、文献
という用語は、機械読み取り可能な形式における情報の
セツトを言及するために用いられる。文献はテキスト、
スピ−チ又はグラフからなるものとすることができる。
する方法である。この方法は言語の識別、論題の識別、
文献検索及び文献分類ための敏感で、迅速で、経済的な
方法をもたらす。本明細書及びクレ−ムを通して、文献
という用語は、機械読み取り可能な形式における情報の
セツトを言及するために用いられる。文献はテキスト、
スピ−チ又はグラフからなるものとすることができる。
【0019】本発明の方法は、たとえ文献が日本語のよ
うな表意文字(象形文字)であつても、文献の論題を識
別するような困難な仕事を実行するため、如何なるプロ
グラミング言語、又はハ−ドウエアにも容易に適用する
ことができる。本方法は、デ−タベ−ス内の文献を、そ
の中に包含されるカテゴリ−又は文献を前もつて識別す
る必要なしに、望むカテゴリ−に分類するためにも用い
ることができる。
うな表意文字(象形文字)であつても、文献の論題を識
別するような困難な仕事を実行するため、如何なるプロ
グラミング言語、又はハ−ドウエアにも容易に適用する
ことができる。本方法は、デ−タベ−ス内の文献を、そ
の中に包含されるカテゴリ−又は文献を前もつて識別す
る必要なしに、望むカテゴリ−に分類するためにも用い
ることができる。
【0020】キ−ワ−ド、同義語の表、又は文脈の情報
に頼ることなく、本発明の目的はパタ−ン認識技術によ
り達成される。本発明は、言語、及び/又は似たように
見える論題において類似する文献には、多数の同じn−
グラム(すなわち、n個の連続した文字列)を包含する
傾向があるという仮説に基いている。
に頼ることなく、本発明の目的はパタ−ン認識技術によ
り達成される。本発明は、言語、及び/又は似たように
見える論題において類似する文献には、多数の同じn−
グラム(すなわち、n個の連続した文字列)を包含する
傾向があるという仮説に基いている。
【0021】これら文献は、キ−ワ−ドにおいてのみで
なく、使用されるすべての用語において似たようにみえ
るのである。この仮説は、ある文献中に含まれるn−グ
ラムを数え、別の文献(参照文献)内に包含される数え
あげられたn−グラムの数と処理した結果を比較するこ
とにより、前記のある文献の論理を確実に推論すること
ができるという驚くべき結論を示唆するものである。
なく、使用されるすべての用語において似たようにみえ
るのである。この仮説は、ある文献中に含まれるn−グ
ラムを数え、別の文献(参照文献)内に包含される数え
あげられたn−グラムの数と処理した結果を比較するこ
とにより、前記のある文献の論理を確実に推論すること
ができるという驚くべき結論を示唆するものである。
【0022】この方法の実施は、関連文献を識別するた
めに用いられるサ−チアルゴリズムの単純化を許容す
る。これらの単純化は、文献の言語に関係なく文献を分
類する能力に影響する結果となる。
めに用いられるサ−チアルゴリズムの単純化を許容す
る。これらの単純化は、文献の言語に関係なく文献を分
類する能力に影響する結果となる。
【0023】原文のテキスト内の高いエラ−(“gar
ble”)率も、寛大に扱われる。非類似の言語に対す
る最大の許容エラ−率は、類似の言語に対する最大の許
容エラ−率よりも大きい。例えば、ロシア語のテキスト
の最大の許容エラ−率をチエコ語のテキストと比較した
とき、エラ−結果をもたらすことなしに、許容エラ−率
は僅か15%の高さであるに対し、スワヒリ語のテキス
トに対する最大の許容エラ−率をスウエ−デン語のテキ
ストと比較したとき、エラ−結果をもたらすことなし
に、許容エラ−率は25%の高さである。
ble”)率も、寛大に扱われる。非類似の言語に対す
る最大の許容エラ−率は、類似の言語に対する最大の許
容エラ−率よりも大きい。例えば、ロシア語のテキスト
の最大の許容エラ−率をチエコ語のテキストと比較した
とき、エラ−結果をもたらすことなしに、許容エラ−率
は僅か15%の高さであるに対し、スワヒリ語のテキス
トに対する最大の許容エラ−率をスウエ−デン語のテキ
ストと比較したとき、エラ−結果をもたらすことなし
に、許容エラ−率は25%の高さである。
【0024】図1は言語識別アルゴリズムの概略を示
す。第1のステツプは、未識別の言語で書かれたテキス
トをn−グラムに分解することから成る。n−グラム
は、n個の連続した文字の列である。ここで、nはゼロ
(0)より大きい任意の正の整数である。
す。第1のステツプは、未識別の言語で書かれたテキス
トをn−グラムに分解することから成る。n−グラム
は、n個の連続した文字の列である。ここで、nはゼロ
(0)より大きい任意の正の整数である。
【0025】適度に長いn−グラム(例えば、n>3)
は、より短いn−グラムよりも情報が多い。前者はテキ
スト中にある単語の根源についての情報を具体化する傾
向にあるからである。
は、より短いn−グラムよりも情報が多い。前者はテキ
スト中にある単語の根源についての情報を具体化する傾
向にあるからである。
【0026】第2のステツプは、既知の言語のテキスト
内のn−グラムの発生する頻度を、未識別テキスト内の
n−グラムの発生する頻度と比較することである。この
結果、未識別のテキストは、未識別のテキストが最も良
く比較されるテキストの言語により記述されていると識
別される。
内のn−グラムの発生する頻度を、未識別テキスト内の
n−グラムの発生する頻度と比較することである。この
結果、未識別のテキストは、未識別のテキストが最も良
く比較されるテキストの言語により記述されていると識
別される。
【0027】許容し得るn−グラムの文字は使用者(ユ
−ザ)によつて決定される。例えば、特定の言語に対す
るn−グラム要素は、関心ある言語に対するアルフアベ
ツトの文字及びスペ−スに制限することができる。小文
字は大文字に代えることができ、可能なn−グラムの全
数を減少するため、多重スペ−スは、単一スペ−スに減
らすことができる。句読点も、メモリの必要性を最少限
にし実施を効率化するため、無視することができる。
−ザ)によつて決定される。例えば、特定の言語に対す
るn−グラム要素は、関心ある言語に対するアルフアベ
ツトの文字及びスペ−スに制限することができる。小文
字は大文字に代えることができ、可能なn−グラムの全
数を減少するため、多重スペ−スは、単一スペ−スに減
らすことができる。句読点も、メモリの必要性を最少限
にし実施を効率化するため、無視することができる。
【0028】文字列も、使用者が定めた文字又は文字列
によつて、除去又は置き換えることができる。
によつて、除去又は置き換えることができる。
【0029】図2は文献の言語、論題などを識別するに
有用なアルゴリズムの概略を示す。主要なステツプを簡
単に図示したこの例により、以下にアルゴリズムの説明
をする。
有用なアルゴリズムの概略を示す。主要なステツプを簡
単に図示したこの例により、以下にアルゴリズムの説明
をする。
【0030】違つた言語又は論題の知られた文献のサン
プルが参照文献として集められる。これらの参照文献が
とる形式には制限はない。如何なる出所からのサンプル
テキストでも用いられる。参照文献の数、及びこれらの
文献に含まれるn−グラムの数は、統計上十分な数がな
ければならない。言語識別のためには、それぞれが約1
万の文字をもつ約10件の文献が、統計上十分なサンプ
ルの大きさであることが経験的に決定されている。言語
識別よりも細かい区別である特定の言語内の論題識別に
は、それぞれが約1000の文字をもつ50の文献が、
統計上十分なサンプルの大きさである。
プルが参照文献として集められる。これらの参照文献が
とる形式には制限はない。如何なる出所からのサンプル
テキストでも用いられる。参照文献の数、及びこれらの
文献に含まれるn−グラムの数は、統計上十分な数がな
ければならない。言語識別のためには、それぞれが約1
万の文字をもつ約10件の文献が、統計上十分なサンプ
ルの大きさであることが経験的に決定されている。言語
識別よりも細かい区別である特定の言語内の論題識別に
は、それぞれが約1000の文字をもつ50の文献が、
統計上十分なサンプルの大きさである。
【0031】参照文献はn−グラムに分解される。この
分解は、各参照文献について、その参照文献内で発生す
るすべてのユニ−クなn−グラムの個々のリストを作る
ことによつて達成される(ここで、nは有用なある値が
代表値として決定される、例えばn=5)。未識別文献
も、ユニ−クなn−グラムのリストに分解される。
分解は、各参照文献について、その参照文献内で発生す
るすべてのユニ−クなn−グラムの個々のリストを作る
ことによつて達成される(ここで、nは有用なある値が
代表値として決定される、例えばn=5)。未識別文献
も、ユニ−クなn−グラムのリストに分解される。
【0032】各ユニ−クなn−グラムに対して、ウェ−
ト(重み)が割当てられる。このウェ−トは、特定の参
照文献におけるn−グラムの発生する相対的頻度により
決定される(すなわち、相対的頻度とは、ある特定の参
照文献における、ある1つのn−グラムが発生する度数
を、その参照文献内におけるすべてのn−グラムの発生
する総合計数で割つた値である)。ウェ−トは、各参照
文献における各n−グラムと、未識別文献における各n
−グラムとに割当てられる。
ト(重み)が割当てられる。このウェ−トは、特定の参
照文献におけるn−グラムの発生する相対的頻度により
決定される(すなわち、相対的頻度とは、ある特定の参
照文献における、ある1つのn−グラムが発生する度数
を、その参照文献内におけるすべてのn−グラムの発生
する総合計数で割つた値である)。ウェ−トは、各参照
文献における各n−グラムと、未識別文献における各n
−グラムとに割当てられる。
【0033】次に、参照文献間の共通性が参照文献から
除去され、同様に未識別文献からも除去される。これ
は、まず、第1に、参照文献間のユニ−クなn−グラム
のリストを作ることにより行なわれる。第2に、共通性
ウェ−トが、その平的相対発生頻度に基づいて、特定の
参照文献におけるそれぞれのユニ−クなn−グラムに割
当てられる(すなわち、共通性ウェ−トとは、全参照文
献について1つのn−グラムに割当てられた個々のウェ
−トの合計を全参照文献数で割つた値である)。次い
で、各n−グラムの共通性ウェ−トが、各参照文献の対
応するn−グラムのウェ−トと、未識別文献内の対応す
るn−グラムのウェ−トから差引かれる。
除去され、同様に未識別文献からも除去される。これ
は、まず、第1に、参照文献間のユニ−クなn−グラム
のリストを作ることにより行なわれる。第2に、共通性
ウェ−トが、その平的相対発生頻度に基づいて、特定の
参照文献におけるそれぞれのユニ−クなn−グラムに割
当てられる(すなわち、共通性ウェ−トとは、全参照文
献について1つのn−グラムに割当てられた個々のウェ
−トの合計を全参照文献数で割つた値である)。次い
で、各n−グラムの共通性ウェ−トが、各参照文献の対
応するn−グラムのウェ−トと、未識別文献内の対応す
るn−グラムのウェ−トから差引かれる。
【0034】それから、未識別文献が各参照文献と比較
される。これは各参照文献に対して未確認文献に点数を
付けることにより行なわれる。参照文献に対する未識別
文献の点数は、2つの文献間の類似性の程度を示すもの
となる。
される。これは各参照文献に対して未確認文献に点数を
付けることにより行なわれる。参照文献に対する未識別
文献の点数は、2つの文献間の類似性の程度を示すもの
となる。
【0035】未識別文献の点数付けは、まず、上述した
ように、参照文献から導き出した共通性ウェ−トを、未
識別文献内の対応するn−グラムのウェ−トから差引い
て決定する。もし、n−グラムが未識別文献に現れて参
照文献に現われないならば、そのn−グラムに対する共
通性ウエ−トはゼロに等しい。未識別文献(以下、Ui
という)の共通性を除去した各n−グラムのウェ−ト
は、参照文献(以下、Riという)内の対応するn−グ
ラムの共通性を除去したn−グラムのウェ−トに掛けら
れ、これらの積は合計される(すなわち、“積の合計”
である)。
ように、参照文献から導き出した共通性ウェ−トを、未
識別文献内の対応するn−グラムのウェ−トから差引い
て決定する。もし、n−グラムが未識別文献に現れて参
照文献に現われないならば、そのn−グラムに対する共
通性ウエ−トはゼロに等しい。未識別文献(以下、Ui
という)の共通性を除去した各n−グラムのウェ−ト
は、参照文献(以下、Riという)内の対応するn−グ
ラムの共通性を除去したn−グラムのウェ−トに掛けら
れ、これらの積は合計される(すなわち、“積の合計”
である)。
【0036】この演算式は、以下の式(1)で表され
る。
る。
【0037】
【数1】 参照文献における共通性を除去した各n−グラムのウェ
−トは、2乗される(すなわち、Ri**2)。次い
で、これら2乗した値は合計される。未識別文献中の共
通性を除去した各n−グラムのウェ−トは2乗される
(すなわち、Ui**2)。次いで、これら2乗した値
は合計される。これら2つの合計値は“合計値の積”を
形成するために掛けられる。
−トは、2乗される(すなわち、Ri**2)。次い
で、これら2乗した値は合計される。未識別文献中の共
通性を除去した各n−グラムのウェ−トは2乗される
(すなわち、Ui**2)。次いで、これら2乗した値
は合計される。これら2つの合計値は“合計値の積”を
形成するために掛けられる。
【0038】この演算式は、以下の式(2)で表され
る。
る。
【0039】
【数2】 最後に、“積の合計”を“合計値の積”の平方根で割つ
て、特定の参照文献に対する未識別文献の点数を得る。
て、特定の参照文献に対する未識別文献の点数を得る。
【0040】この演算式は、以下の式(3)で表わされ
る。
る。
【0041】
【数3】 未識別文献には各参照文献に対して点数が与えられる。
使用者は、ある文献が、言語又は論題に関して参照文献
に類似することを識別するために、必要な閾値を決める
ことができる。使用者が決めた閾値が使用されるとき、
未識別文献が各参照文献のどれにも類似すると識別され
ない可能性がある。使用者はこの閾値を、未識別文献が
最高の点数を生じた参照文献と識別されるべきことを許
容することにより、この閾値の設定を避けることができ
る。
使用者は、ある文献が、言語又は論題に関して参照文献
に類似することを識別するために、必要な閾値を決める
ことができる。使用者が決めた閾値が使用されるとき、
未識別文献が各参照文献のどれにも類似すると識別され
ない可能性がある。使用者はこの閾値を、未識別文献が
最高の点数を生じた参照文献と識別されるべきことを許
容することにより、この閾値の設定を避けることができ
る。
【0042】以下の例は本発明に含まれる数値ステツプ
を示す。これら例はアルゴリズムの個々のステツプの適
切な例であることを意図したもので、クレ−ムされた発
明についての制限と考えてはならない。
を示す。これら例はアルゴリズムの個々のステツプの適
切な例であることを意図したもので、クレ−ムされた発
明についての制限と考えてはならない。
【0043】
【表1】 表1はグリ−ンランド語の参照文献(すなわち、“Na
nok nunaneissigtune”)を示す。
このサンプルの前処理は必要ない。このサンプルにおい
ては、2−グラムが用いられる。有り得ると考えられる
2−グラムの数を減らすため、小文字は大文字にされ、
多重のスペ−スは単一のスペ−ス(すなわち、“_”)
に減らされる。かくして、グリ−ンランド語の参照文献
は、“NANOK_NUNANE_ISSIGTUN
E”となる。
nok nunaneissigtune”)を示す。
このサンプルの前処理は必要ない。このサンプルにおい
ては、2−グラムが用いられる。有り得ると考えられる
2−グラムの数を減らすため、小文字は大文字にされ、
多重のスペ−スは単一のスペ−ス(すなわち、“_”)
に減らされる。かくして、グリ−ンランド語の参照文献
は、“NANOK_NUNANE_ISSIGTUN
E”となる。
【0044】グリ−ンランド語の文献のすべてのユニ−
クな2−グラムは表1に示される。それらは、NA,A
N,NO,OK,K_,_N,NU,UN,NE,E
_,_I,IS,SS,SI,IG,GT,TU,であ
る。これら2−グラムの各々に対しウェ−トが付され
る。2−グラムのウェ−トは、特定の2−グラムの発生
頻度を、その参照文献中にある2−グラム(多分、非ユ
ニ−ク)の合計数により割ることによつて決定される
(すなわち、2−グラムのNAのウェ−トは2/21=
0.095である)。
クな2−グラムは表1に示される。それらは、NA,A
N,NO,OK,K_,_N,NU,UN,NE,E
_,_I,IS,SS,SI,IG,GT,TU,であ
る。これら2−グラムの各々に対しウェ−トが付され
る。2−グラムのウェ−トは、特定の2−グラムの発生
頻度を、その参照文献中にある2−グラム(多分、非ユ
ニ−ク)の合計数により割ることによつて決定される
(すなわち、2−グラムのNAのウェ−トは2/21=
0.095である)。
【0045】
【表2】 表2はハワイ語(すなわち、“I hele mai
nei au e hai”)の参照文献である。すべ
ての参照文献が同一のn−グラム構造(例えば、この例
では、2−グラム)を用いて分解されなければならな
い。再び、あり得ると考えられる2−グラムの数を減ら
すために、小文字は大文字にされ、多重のスペ−スは単
一のスペ−スに減らされる。かくして、ハワイ語の参考
文献は、“I_HELE_MAI_NEI_AU_E_
HAI”となる。
nei au e hai”)の参照文献である。すべ
ての参照文献が同一のn−グラム構造(例えば、この例
では、2−グラム)を用いて分解されなければならな
い。再び、あり得ると考えられる2−グラムの数を減ら
すために、小文字は大文字にされ、多重のスペ−スは単
一のスペ−スに減らされる。かくして、ハワイ語の参考
文献は、“I_HELE_MAI_NEI_AU_E_
HAI”となる。
【0046】ハワイ語のすべての2−グラムは表2に示
される。それらは、I_,_H,HE,EL,LE,E
_,_M,MA,AI,_H,HE,EI,_A,A
U,U_,E_,HA,である。上記のグリ−ンランド
語の参照文献において述べたと同じ方法で、各2−グラ
ムにウェ−ト付けが行なわれる(すなわち、2−グラム
のI_のウェ−トは3/22=0.136である)。
される。それらは、I_,_H,HE,EL,LE,E
_,_M,MA,AI,_H,HE,EI,_A,A
U,U_,E_,HA,である。上記のグリ−ンランド
語の参照文献において述べたと同じ方法で、各2−グラ
ムにウェ−ト付けが行なわれる(すなわち、2−グラム
のI_のウェ−トは3/22=0.136である)。
【0047】参照文献に含まれるn−グラムの数が類似
している必要性はない。また、アルゴリズムは文献の前
処理を必要としない。大文字化、多重スペ−スの単一ス
ペ−スへの減少処理も、この発明の適当な動作のために
必要なものではない。これらのステツプは、処理を強化
し、メモリに対する要求を減ずるために採用されている
ものである。
している必要性はない。また、アルゴリズムは文献の前
処理を必要としない。大文字化、多重スペ−スの単一ス
ペ−スへの減少処理も、この発明の適当な動作のために
必要なものではない。これらのステツプは、処理を強化
し、メモリに対する要求を減ずるために採用されている
ものである。
【0048】その後、参照文献の共通性が除かれる。こ
れは、まず第1に、表3に示すように、参照文献の全て
に含まれる全てのユニ−クな2−グラムを表にすること
により達成される(すなわち、NA、AN、NO、O
K、K_、_N、NU、UN、NE、E_、_I、I
S、SS、SI、IG、GT、TU、I_、_H、H
E、EL、LE、_M、MA、AI、EI、_A、A
U、U_、_E、HA)。
れは、まず第1に、表3に示すように、参照文献の全て
に含まれる全てのユニ−クな2−グラムを表にすること
により達成される(すなわち、NA、AN、NO、O
K、K_、_N、NU、UN、NE、E_、_I、I
S、SS、SI、IG、GT、TU、I_、_H、H
E、EL、LE、_M、MA、AI、EI、_A、A
U、U_、_E、HA)。
【0049】各ユニ−クな2−グラムの共通性ウェ−ト
は、各ユニ−クな2−グラムについての全参照文献に亙
るウェ−トの合計を、全参照文献の数で割ることで決定
される。例えば、2−グラムのNEについての共通性ウ
ェ−トは、(0.095+0.045)/2= 0.070 で、2−グラムの
NAについての共通性のウェ−トは(0.095+0)/2=0.048
となる。2−グラムのNAはグリ−ンランド語の参照
文献についてはウェ−トが0.095 で、ハワイ語の参照文
献については2−グラムNAが現れないのでウェ−トが
0であるからである。
は、各ユニ−クな2−グラムについての全参照文献に亙
るウェ−トの合計を、全参照文献の数で割ることで決定
される。例えば、2−グラムのNEについての共通性ウ
ェ−トは、(0.095+0.045)/2= 0.070 で、2−グラムの
NAについての共通性のウェ−トは(0.095+0)/2=0.048
となる。2−グラムのNAはグリ−ンランド語の参照
文献についてはウェ−トが0.095 で、ハワイ語の参照文
献については2−グラムNAが現れないのでウェ−トが
0であるからである。
【0050】共通性ウェ−トは、参照文献のそれぞれ対
し、特定の2−グラムの平均的な寄与の程度を示す。こ
の共通性は、1つの文献を他の文献からより明確に識別
するために、参照文献と未識別文献の両方から除かれ
る。
し、特定の2−グラムの平均的な寄与の程度を示す。こ
の共通性は、1つの文献を他の文献からより明確に識別
するために、参照文献と未識別文献の両方から除かれ
る。
【0051】1つの文献における対応する2−グラムの
ウェ−トから共通性ウェ−トを差引くことにより、その
文献内の2−グラムのウェ−トから共通性が除去され
る。
ウェ−トから共通性ウェ−トを差引くことにより、その
文献内の2−グラムのウェ−トから共通性が除去され
る。
【0052】例えば、グリ−ンランド語の参照文献から
2−グラムのNEについての共通性を除いたウェ−ト
は、0.095-0.070=0.025 で、ハワイ語の参照文献から2
−グラムのNEについての共通性を除いたウェ−トは、
0.045-0.070=-0.025となる。
2−グラムのNEについての共通性を除いたウェ−ト
は、0.095-0.070=0.025 で、ハワイ語の参照文献から2
−グラムのNEについての共通性を除いたウェ−トは、
0.045-0.070=-0.025となる。
【0053】共通性を除くステツプは処理動作を改善
し、文献の識別処理を単純化する。
し、文献の識別処理を単純化する。
【0054】
【表3】
【表4】
【表5】 表3は、文献間にまたがる各ユニ−クな2−グラムの共
通性ウェ−トの表である。これらの共通性ウェ−トは、
各参照文献と未識別文献の対応する2−グラムのウェ−
トから除かれる。表4はグリ−ンランド語におけるユニ
−クな2−グラムについて共通性を除いたウェ−トの表
で、表5はハワイ語におけるユニ−クな2−グラムにつ
いて共通性を除いたウェ−トの表である。
通性ウェ−トの表である。これらの共通性ウェ−トは、
各参照文献と未識別文献の対応する2−グラムのウェ−
トから除かれる。表4はグリ−ンランド語におけるユニ
−クな2−グラムについて共通性を除いたウェ−トの表
で、表5はハワイ語におけるユニ−クな2−グラムにつ
いて共通性を除いたウェ−トの表である。
【0055】特定の参照文献についての共通性を除いた
ウェ−トは、未識別文献に対する参照文献の類似性の点
数を計算するために使用される。
ウェ−トは、未識別文献に対する参照文献の類似性の点
数を計算するために使用される。
【0056】
【表6】 表6は、未識別言語で書かれたテキスト(例えば“Ma
rtsime nanut”)の例である。未識別のテ
キストは参照文献のn−グラム構造と同一のn−グラム
構造(例えば、2−グラム)に分解されなけらばならな
い。再度、可能な2−グラムの数を減ずるため、小文字
は大文字に変換され、多重スペ−スは単一スペ−スに減
らされる。これにより、未識別文献は“MARTSIM
E_NANUT”となる。
rtsime nanut”)の例である。未識別のテ
キストは参照文献のn−グラム構造と同一のn−グラム
構造(例えば、2−グラム)に分解されなけらばならな
い。再度、可能な2−グラムの数を減ずるため、小文字
は大文字に変換され、多重スペ−スは単一スペ−スに減
らされる。これにより、未識別文献は“MARTSIM
E_NANUT”となる。
【0057】表6に掲げる未識別文献のユニ−クな2−
グラムの総数は、MA、AR、RT、TS、SI、I
M、ME、E_、_N、NA、AN、NU、UTであ
る。ウェ−トが各2−グラムに割当てられる。再度、2
−グラムのウェ−トは、その2−グラムの発生頻度を、
未識別文献に現れた2−グラムの総数で割ることにより
決定される(例えば、未識別文献におけるMAのウェ−
トは、1/13=0.077) である。参照文献における共通性の
ウェ−トが、未識別文献における対応する2−グラムか
ら差引かれる(表6参照)。
グラムの総数は、MA、AR、RT、TS、SI、I
M、ME、E_、_N、NA、AN、NU、UTであ
る。ウェ−トが各2−グラムに割当てられる。再度、2
−グラムのウェ−トは、その2−グラムの発生頻度を、
未識別文献に現れた2−グラムの総数で割ることにより
決定される(例えば、未識別文献におけるMAのウェ−
トは、1/13=0.077) である。参照文献における共通性の
ウェ−トが、未識別文献における対応する2−グラムか
ら差引かれる(表6参照)。
【0058】図3に、グリ−ンランド語の参照文献に対
する未識別文献の類似性の点数が計算される例を示す。
これは、前述した式(3)により計算される。
する未識別文献の類似性の点数が計算される例を示す。
これは、前述した式(3)により計算される。
【0059】ここで、Uiは未識別文献の、共通性を除
去した2−グラムのウェ−トを示し、また、Riは未識
別文献と対比するグリ−ンランド語の参照文献の、共通
性を除去した2−グラムのウェ−トを示す。
去した2−グラムのウェ−トを示し、また、Riは未識
別文献と対比するグリ−ンランド語の参照文献の、共通
性を除去した2−グラムのウェ−トを示す。
【0060】未識別文献の、共通性を除去した各2−グ
ラムのウェ−トは、グリ−ンランド語の参照文献の、対
応する共通性を除去した各2−グラムのウェ−トに掛け
られる。さらに、グリ−ンランド語の参照文献の共通性
を除去した各n−グラムのウェ−トは2乗され、これら
の2乗された結果の数値は合計される。
ラムのウェ−トは、グリ−ンランド語の参照文献の、対
応する共通性を除去した各2−グラムのウェ−トに掛け
られる。さらに、グリ−ンランド語の参照文献の共通性
を除去した各n−グラムのウェ−トは2乗され、これら
の2乗された結果の数値は合計される。
【0061】未識別文献の共通性を除去した各2−グラ
ムのウェ−トは2乗され、これらの2乗された結果の数
値は合計される。
ムのウェ−トは2乗され、これらの2乗された結果の数
値は合計される。
【0062】これらの合計値は“合計の積”を形成する
ために掛けられる。
ために掛けられる。
【0063】最後に、グリ−ンランド語の参照文献に対
する未識別文献の点数が、“積の合計”を“合計の積”
の平方根で割つて得られる。図3に示す結果は未識別文
献とグリ−ンランド語の参照文献との間の類似性を示す
点数である。
する未識別文献の点数が、“積の合計”を“合計の積”
の平方根で割つて得られる。図3に示す結果は未識別文
献とグリ−ンランド語の参照文献との間の類似性を示す
点数である。
【0064】類似性を示す点数は、各参照文献について
計算される。最高の点数が得られた未識別文献は、参照
文献と類似していると識別することができ、又は、使用
者の設定した閾値を越える点数が得られた未識別文献は
参照文献と類似していると識別することができる。
計算される。最高の点数が得られた未識別文献は、参照
文献と類似していると識別することができ、又は、使用
者の設定した閾値を越える点数が得られた未識別文献は
参照文献と類似していると識別することができる。
【0065】後者のアプロ−チでは、識別は強制されな
い(例えば、未識別文献は参照文献の1つと類似してい
ると識別されなくともよい)。また、後者のアプロ−チ
では、多数の参照文献が使用者の設定した閾値を越える
点数を生ずるときは、未識別文献は多数の参照文献と類
似していると識別してもよい。
い(例えば、未識別文献は参照文献の1つと類似してい
ると識別されなくともよい)。また、後者のアプロ−チ
では、多数の参照文献が使用者の設定した閾値を越える
点数を生ずるときは、未識別文献は多数の参照文献と類
似していると識別してもよい。
【0066】特定の言語、例えば英語の“is”、“t
he”、“and”、“with”、“for”等、言
語識別に有用なあるテキストの列は、通常その文献の論
題の識別には有用でない。この発明は、文献間の共通性
を除去することにより、論題についての文献間の区別を
見出だすという問題を解決するものである。
he”、“and”、“with”、“for”等、言
語識別に有用なあるテキストの列は、通常その文献の論
題の識別には有用でない。この発明は、文献間の共通性
を除去することにより、論題についての文献間の区別を
見出だすという問題を解決するものである。
【0067】文献間の共通性の除去は、全文献内のn−
グラムの発生頻度の平均値を計算し、この平均値を各文
献内の対応するn−グラムの発生頻度の平均値から差し
引くことで達成できる。もし、ある文献がもう1つの文
献に、単純に類似しているならば、共通性の除去は、類
似性を決定する仕事を作りだす。論題に対する(類似性
判断の)感度は、人間の介在なしに、文献の言語に無関
係に達成することができる。文献(複数)が論題に関し
て相互に類似であるときは、使用者は、類似性を判断す
るために、再び閾値を設定することができる。
グラムの発生頻度の平均値を計算し、この平均値を各文
献内の対応するn−グラムの発生頻度の平均値から差し
引くことで達成できる。もし、ある文献がもう1つの文
献に、単純に類似しているならば、共通性の除去は、類
似性を決定する仕事を作りだす。論題に対する(類似性
判断の)感度は、人間の介在なしに、文献の言語に無関
係に達成することができる。文献(複数)が論題に関し
て相互に類似であるときは、使用者は、類似性を判断す
るために、再び閾値を設定することができる。
【0068】このアルゴリズムはいかなる言語にも等し
く働くが、論題の識別においては、共通言語(又はいく
つかの密に関連する言語)で記載された文献を比較する
ときにのみ働く。これは、論題がn−グラムによつて作
られたパタ−ンに関係するからである。n−グラムによ
つて作られたパタ−ンは、文献の言語によりコントロ−
ルされる。
く働くが、論題の識別においては、共通言語(又はいく
つかの密に関連する言語)で記載された文献を比較する
ときにのみ働く。これは、論題がn−グラムによつて作
られたパタ−ンに関係するからである。n−グラムによ
つて作られたパタ−ンは、文献の言語によりコントロ−
ルされる。
【0069】論題の識別は、英語のように、相対的に少
ない文字からなる言語でも、表意文字(例えば、日本
語)のように、多くの文字からなる言語でも同様に実行
することができる。理論に拘束されることを望まない限
り、この発明の優れた結果が得られるものと信ずる。な
ぜならば、文献の論題は、その論題を討論するのに使用
されるn−グラムに拘束されるからである。論題の識別
は、その文献が使用されたn−グラムに類似する度合を
決定することになる。
ない文字からなる言語でも、表意文字(例えば、日本
語)のように、多くの文字からなる言語でも同様に実行
することができる。理論に拘束されることを望まない限
り、この発明の優れた結果が得られるものと信ずる。な
ぜならば、文献の論題は、その論題を討論するのに使用
されるn−グラムに拘束されるからである。論題の識別
は、その文献が使用されたn−グラムに類似する度合を
決定することになる。
【0070】図4は、デ−タベ−スから文献を検索する
のに使用するアルゴリズムの概略を示す。文献は希望す
る言語、又は論題について検索することができる。
のに使用するアルゴリズムの概略を示す。文献は希望す
る言語、又は論題について検索することができる。
【0071】デ−タベ−スは、典型的には、異なる言語
で記載された多数の論題に関する膨大な文献を含む。こ
れらの文献が特定の形式である必要はない。1つのn−
グラムの列は、各デ−タベ−スの文献について形成され
る。これは、各デ−タベ−スの文献について、その文献
に発生するユニ−クなn−グラムの表を作ることにより
達成される。
で記載された多数の論題に関する膨大な文献を含む。こ
れらの文献が特定の形式である必要はない。1つのn−
グラムの列は、各デ−タベ−スの文献について形成され
る。これは、各デ−タベ−スの文献について、その文献
に発生するユニ−クなn−グラムの表を作ることにより
達成される。
【0072】ウェ−トは、それぞれのユニ−クなn−グ
ラムに割当てられる。ウェ−トは、特定の文献について
の、n−グラムの発生頻度(例えば、特定の文献につい
て発生するn−グラムの数を、その文献内に発生する全
てのn−グラムの総数で割つた値)により決定される。
決定されたウェ−トは、各デ−タベ−スの文献における
それぞれのn−グラムに割当てられる。
ラムに割当てられる。ウェ−トは、特定の文献について
の、n−グラムの発生頻度(例えば、特定の文献につい
て発生するn−グラムの数を、その文献内に発生する全
てのn−グラムの総数で割つた値)により決定される。
決定されたウェ−トは、各デ−タベ−スの文献における
それぞれのn−グラムに割当てられる。
【0073】デ−タベ−スの文献間の共通性は、デ−タ
ベ−スの文献と質問文とから除かれる。これは、まず第
1に、全ての文献内の全てのユニ−クなn−グラムを表
にし、第2に、共通性のウェ−トを、その平均相対的発
生頻度に基づいて、それぞれのユニ−クなn−グラムに
割当てる。それぞれのn−グラムの共通性のウェ−ト
は、各デ−タベ−スの文献内の対応するn−グラムのウ
ェ−トから、及び、質問文内の対応するn−グラムのウ
ェ−トから差し引かれる。
ベ−スの文献と質問文とから除かれる。これは、まず第
1に、全ての文献内の全てのユニ−クなn−グラムを表
にし、第2に、共通性のウェ−トを、その平均相対的発
生頻度に基づいて、それぞれのユニ−クなn−グラムに
割当てる。それぞれのn−グラムの共通性のウェ−ト
は、各デ−タベ−スの文献内の対応するn−グラムのウ
ェ−トから、及び、質問文内の対応するn−グラムのウ
ェ−トから差し引かれる。
【0074】質問文は使用者により提出されるもので、
質問文は使用者がデ−タベ−スから検索することを希望
する文献の型(例えば、類似の論題又は言語に関する文
献)を表わす。
質問文は使用者がデ−タベ−スから検索することを希望
する文献の型(例えば、類似の論題又は言語に関する文
献)を表わす。
【0075】関心ある論題に関する質問文は、質問文の
言語で記載された論題の文献を検索する結果となること
に注目すべきである。質問文の言語と異なる言語で記載
された論題の文献は、通常は検索されない。これは、異
なる言語では、同一論題を表現するのに、典型的には、
異なるn−グラムを使用するからである。
言語で記載された論題の文献を検索する結果となること
に注目すべきである。質問文の言語と異なる言語で記載
された論題の文献は、通常は検索されない。これは、異
なる言語では、同一論題を表現するのに、典型的には、
異なるn−グラムを使用するからである。
【0076】つぎに、質問文はn−グラムに分解され
る。これは、質問文に発生する全てのユニ−クな全ての
n−グラムを表にすることで、達成される。
る。これは、質問文に発生する全てのユニ−クな全ての
n−グラムを表にすることで、達成される。
【0077】ウェ−トが、質問文内のそれぞれのユニ−
クなn−グラムに割当てられる。ウェ−トは、質問文に
ついての、n−グラムの発生頻度により決定される。つ
いで、共通性のウェ−トが、質問文内の対応するn−グ
ラムから差引かれる。それから、デ−タベ−スの文献の
それぞれに対して、質問文の点数を付けることにより、
質問文がデ−タベ−スの文献と比較される。
クなn−グラムに割当てられる。ウェ−トは、質問文に
ついての、n−グラムの発生頻度により決定される。つ
いで、共通性のウェ−トが、質問文内の対応するn−グ
ラムから差引かれる。それから、デ−タベ−スの文献の
それぞれに対して、質問文の点数を付けることにより、
質問文がデ−タベ−スの文献と比較される。
【0078】点数は、以下の処理で得られる。
【0079】第1に、質問文(例えば、Qi)の、それ
ぞれの共通性を除去したn−グラムを、デ−タベ−スの
文献(例えば、Di)の対応する共通性を除去したn−
グラムに掛け、得られた積は合計される(すなわち、
“積の合計”)。
ぞれの共通性を除去したn−グラムを、デ−タベ−スの
文献(例えば、Di)の対応する共通性を除去したn−
グラムに掛け、得られた積は合計される(すなわち、
“積の合計”)。
【0080】この演算式は、以下の式(4)で表わされ
る。
る。
【0081】
【数4】 デ−タベ−スの文献のそれぞれのn−グラムは2乗され
る(例えば、Di**2)。これらの2乗された数値は
合計される(すなわち、“積の合計”)。
る(例えば、Di**2)。これらの2乗された数値は
合計される(すなわち、“積の合計”)。
【0082】質問文のそれぞれのn−グラムは2乗され
る(例えば、Qi**2)。これらの2乗された数値は
合計される。これらの合計は“合計の積”を形成するた
めに、相互に掛けられる。
る(例えば、Qi**2)。これらの2乗された数値は
合計される。これらの合計は“合計の積”を形成するた
めに、相互に掛けられる。
【0083】この演算式は、以下の式(5)で表され
る。
る。
【0084】
【数5】 最後に、質問文に対するデ−タベ−スの文献の点数が、
“積の合計”を“合計の積”の平方根で割つて得られ
る。
“積の合計”を“合計の積”の平方根で割つて得られ
る。
【0085】この演算式は、以下の式(6)で表され
る。
る。
【0086】
【数6】 点数は、質問文に対するそれぞれのデ−タベ−スの文献
について算出される。使用者は、デ−タベ−スの文献
が、言語又は論題に関して、質問文に類似しているか否
かを決定するのに使用するために、閾値を決定する。
について算出される。使用者は、デ−タベ−スの文献
が、言語又は論題に関して、質問文に類似しているか否
かを決定するのに使用するために、閾値を決定する。
【0087】言語の識別を含む上記ステツプの例は、デ
−タベ−スから文献を検索するためのこのアルゴリズム
に含まれるステツプの叙述のために適用することができ
る。
−タベ−スから文献を検索するためのこのアルゴリズム
に含まれるステツプの叙述のために適用することができ
る。
【0088】n−グラムは、デ−タベ−スの文献を、文
献様のものを含むカテゴリ−に分類することに関連する
問題の解決にも使用することができる。この発明のアル
ゴリズムは、使用者にいかなる指針も、上述した処理を
越えるいかなるデ−タベ−スの前処理も必要としない。
デ−タベ−スは言語、又は論題のカテゴリ−に分類する
ことができる。文献は容易に異なるカテゴリ−にクロス
して参照することができる(すなわち、1つの文献は特
定の論題のカテゴリ−に分類できると同様に、特定の言
語のカテゴリ−に分類することができる)。
献様のものを含むカテゴリ−に分類することに関連する
問題の解決にも使用することができる。この発明のアル
ゴリズムは、使用者にいかなる指針も、上述した処理を
越えるいかなるデ−タベ−スの前処理も必要としない。
デ−タベ−スは言語、又は論題のカテゴリ−に分類する
ことができる。文献は容易に異なるカテゴリ−にクロス
して参照することができる(すなわち、1つの文献は特
定の論題のカテゴリ−に分類できると同様に、特定の言
語のカテゴリ−に分類することができる)。
【0089】図5は、デ−タベ−スの文献をカテゴリ−
に分類するのに使用されるアルゴリズムを示す。文献は
言語、又は論題について分類することができる。デ−タ
ベ−スは、典型的には、膨大な数の文献を包含する。こ
れらの文献は、異なる論題を扱うものでよく、異なる言
語で記載されていてもよい。これらの文献は特定の形式
で記載されている必要はない。
に分類するのに使用されるアルゴリズムを示す。文献は
言語、又は論題について分類することができる。デ−タ
ベ−スは、典型的には、膨大な数の文献を包含する。こ
れらの文献は、異なる論題を扱うものでよく、異なる言
語で記載されていてもよい。これらの文献は特定の形式
で記載されている必要はない。
【0090】1つのn−グラムの列がそれぞれのデ−タ
ベ−スの文献について形成される。これは、それぞれの
デ−タベ−スの文献について、その文献に発生するユニ
−クなn−グラムの表を、別々に作ることによつて達成
される。ウェ−トが各ユニ−クなn−グラムに割当てら
れる。ウェ−トは、その特定の文献のn−グラムの発生
頻度によつて決定される。そして、ウェ−トは、各デ−
タベ−スの文献のそれぞれのn−グラムに割当てられ
る。
ベ−スの文献について形成される。これは、それぞれの
デ−タベ−スの文献について、その文献に発生するユニ
−クなn−グラムの表を、別々に作ることによつて達成
される。ウェ−トが各ユニ−クなn−グラムに割当てら
れる。ウェ−トは、その特定の文献のn−グラムの発生
頻度によつて決定される。そして、ウェ−トは、各デ−
タベ−スの文献のそれぞれのn−グラムに割当てられ
る。
【0091】デ−タベ−ス文献間の共通性が、各デ−タ
ベ−ス文献から除去される。これは、まず第1に、文献
に発生するユニ−クなn−グラムを表にすることで達成
される(すなわち、仮に1つの大きな文献を、分離した
デ−タベ−ス文献として考え、この1つの文献内に発生
するユニ−クなn−グラムを表に作る)。第2に、共通
性のウェ−トを発生頻度(すなわち、全てのデ−タベ−
スの文献の特定のn−グラムの発生総数を、全てのデ−
タベ−スの文献内のユニ−クなn−グラムの総数で割つ
た値)に基づいて割当てる。
ベ−ス文献から除去される。これは、まず第1に、文献
に発生するユニ−クなn−グラムを表にすることで達成
される(すなわち、仮に1つの大きな文献を、分離した
デ−タベ−ス文献として考え、この1つの文献内に発生
するユニ−クなn−グラムを表に作る)。第2に、共通
性のウェ−トを発生頻度(すなわち、全てのデ−タベ−
スの文献の特定のn−グラムの発生総数を、全てのデ−
タベ−スの文献内のユニ−クなn−グラムの総数で割つ
た値)に基づいて割当てる。
【0092】それぞれの共通性のウェ−トは、デ−タベ
−スの文献の総数で割られる。それぞれのn−グラムの
共通性のウェ−トが、各デ−タベ−スの文献内の対応す
るn−グラムのウェ−トから差し引かれる。
−スの文献の総数で割られる。それぞれのn−グラムの
共通性のウェ−トが、各デ−タベ−スの文献内の対応す
るn−グラムのウェ−トから差し引かれる。
【0093】各デ−タベ−スの文献は、他のデ−タベ−
スの文献のそれぞれと比較される。これは、他のデ−タ
ベ−ス文献に対するそのデ−タベ−ス文献の点数を付け
ることで達成される。
スの文献のそれぞれと比較される。これは、他のデ−タ
ベ−ス文献に対するそのデ−タベ−ス文献の点数を付け
ることで達成される。
【0094】点数は、以下の処理で得られる。
【0095】第1に、あるデ−タベ−スの文献(例え
ば、D1i)から共通性を除去したn−グラムを、比較
すべきデ−タベ−スの文献(例えば、D2i)の対応す
る共通性を除去したn−グラムと掛け、得られた積は合
計される(すなわち、“積の合計”)。この演算式は、
以下の式(7)で表される。
ば、D1i)から共通性を除去したn−グラムを、比較
すべきデ−タベ−スの文献(例えば、D2i)の対応す
る共通性を除去したn−グラムと掛け、得られた積は合
計される(すなわち、“積の合計”)。この演算式は、
以下の式(7)で表される。
【0096】
【数7】 第1のデ−タベ−スの文献の、それぞれの共通性を除去
したn−グラムのウェ−トが2乗される(例えば、D1
i**2)。これらの2乗された数値は合計される(す
なわち、“積の合計”)。
したn−グラムのウェ−トが2乗される(例えば、D1
i**2)。これらの2乗された数値は合計される(す
なわち、“積の合計”)。
【0097】第1のデ−タベ−スの文献と比較される第
2のデ−タベ−スの文献の、それぞれの共通性を除去し
たn−グラムのウェ−トが2乗される(例えば、D2i
**2)。これらの2乗された数値は合計される(すな
わち、“積の合計”)。
2のデ−タベ−スの文献の、それぞれの共通性を除去し
たn−グラムのウェ−トが2乗される(例えば、D2i
**2)。これらの2乗された数値は合計される(すな
わち、“積の合計”)。
【0098】これらの2乗された数値は合計される。こ
れらの合計は“合計の積”を形成するために、相互に掛
けられる。
れらの合計は“合計の積”を形成するために、相互に掛
けられる。
【0099】この演算式は、以下の式(8)で表され
る。
る。
【0100】
【数8】 最後に、第2のデ−タベ−スの文献に対する第1のデ−
タベ−スの文献の点数が、“積の合計”を“合計の積”
の平方根で割つて得られる。
タベ−スの文献の点数が、“積の合計”を“合計の積”
の平方根で割つて得られる。
【0101】この演算式は、以下の式(9)で表され
る。
る。
【0102】
【数9】 点数は、他のデ−タベ−スの文献のそれぞれに対するそ
れぞれのデ−タベ−ス文献について算出される。使用者
は、比較される2つのデ−タベ−スの文献が、類似して
いるか否かを宣言するために、閾値を決定する。類似の
文献が、言語又は論題についての類似のカテゴリ−に分
類される。
れぞれのデ−タベ−ス文献について算出される。使用者
は、比較される2つのデ−タベ−スの文献が、類似して
いるか否かを宣言するために、閾値を決定する。類似の
文献が、言語又は論題についての類似のカテゴリ−に分
類される。
【0103】言語の識別を含む上記ステツプの例は、デ
−タベ−スの文献を分類するための、このアルゴリズム
に含まれるステツプの叙述のために適用することができ
る。
−タベ−スの文献を分類するための、このアルゴリズム
に含まれるステツプの叙述のために適用することができ
る。
【0104】図6は、この発明の方法を実施するコンピ
ユ−タの構成の一例を示すブロツク図である。この発明
の方法を実施するコンピユ−タは、一般のデ−タ処理に
使用される汎用のコンピユ−タが使用できる。
ユ−タの構成の一例を示すブロツク図である。この発明
の方法を実施するコンピユ−タは、一般のデ−タ処理に
使用される汎用のコンピユ−タが使用できる。
【0105】図において、1は鍵盤、その他の入力装
置、2はプロセツサ、3は磁気デイスク、磁気テ−プ等
の外部記憶装置、4はCRTなどの表示装置、5はプリ
ンタその他の出力装置を示す。
置、2はプロセツサ、3は磁気デイスク、磁気テ−プ等
の外部記憶装置、4はCRTなどの表示装置、5はプリ
ンタその他の出力装置を示す。
【0106】入力装置1はプロセツサ2へ各種の操作指
令を入力するほか、磁気デイスク、磁気テ−プ等の外部
記憶装置3へプログラム、処理すべき参照文献、未識別
文献の入力などにも使用される。
令を入力するほか、磁気デイスク、磁気テ−プ等の外部
記憶装置3へプログラム、処理すべき参照文献、未識別
文献の入力などにも使用される。
【0107】プロセツサ2は、この発明のアルゴリズム
に基づく処理プログラムによるデ−タ処理、接続された
入力装置1、外部記憶装置3、表示装置4、出力装置5
の制御を行う。また、プロセツサ2はその内部にランダ
ム記憶装置RAMを備え、RAMはプログラムの一時記
憶のほか、処理すべき参照文献、未識別文献の一時記
憶、表1乃至表6のような中間処理の結果の一時記憶、
演算式による演算結果の一時記憶などに使用される。
に基づく処理プログラムによるデ−タ処理、接続された
入力装置1、外部記憶装置3、表示装置4、出力装置5
の制御を行う。また、プロセツサ2はその内部にランダ
ム記憶装置RAMを備え、RAMはプログラムの一時記
憶のほか、処理すべき参照文献、未識別文献の一時記
憶、表1乃至表6のような中間処理の結果の一時記憶、
演算式による演算結果の一時記憶などに使用される。
【0108】外部記憶装置3はこの発明のアルゴリズム
に基づく処理プログラムの記憶のほか、処理すべき参照
文献などのデ−タベ−ス、未識別文献などのデ−タの記
録、処理の結果得られたデ−タの記録等に使用される。
に基づく処理プログラムの記憶のほか、処理すべき参照
文献などのデ−タベ−ス、未識別文献などのデ−タの記
録、処理の結果得られたデ−タの記録等に使用される。
【0109】表示装置4は表1乃至表5のような中間処
理の結果、演算結果の表示、その他コンピユ−タ処理に
必要な表示に使用される。出力装置5は表1乃至表6の
ような中間処理の結果、演算結果のプリントに使用され
る。
理の結果、演算結果の表示、その他コンピユ−タ処理に
必要な表示に使用される。出力装置5は表1乃至表6の
ような中間処理の結果、演算結果のプリントに使用され
る。
【0110】デ−タ処理の概略は、先に説明した図1、
図2、図4、図5に示されている通りである。
図2、図4、図5に示されている通りである。
【0111】特に記載された実施例中の変更や変形は、
特にこの発明を実施するために使用するプログラミング
言語と、n−グラムのウェ−トから類似性の点数を導き
出す特定の数式については、添付されたクレ−ムの範囲
によつてのみ限定されることを意図したこの発明の範囲
から逸脱しない限り実施することができる。
特にこの発明を実施するために使用するプログラミング
言語と、n−グラムのウェ−トから類似性の点数を導き
出す特定の数式については、添付されたクレ−ムの範囲
によつてのみ限定されることを意図したこの発明の範囲
から逸脱しない限り実施することができる。
【0112】
【発明の効果】テキスト処理に関する現在の研究活動
は、内容に基礎を置く(すなわち、言語学)解析に焦点
が当てられている。この発明は、単にパタ−ン認識(す
なわち、非言語学)に焦点が当てられている。この発明
は、構文、意味論、文法の属するいかなる追加情報も必
要としない。n−グラム解析を論題の識別に適用する利
益は、現在まで完全には認められてきたものではなかつ
た。
は、内容に基礎を置く(すなわち、言語学)解析に焦点
が当てられている。この発明は、単にパタ−ン認識(す
なわち、非言語学)に焦点が当てられている。この発明
は、構文、意味論、文法の属するいかなる追加情報も必
要としない。n−グラム解析を論題の識別に適用する利
益は、現在まで完全には認められてきたものではなかつ
た。
【0113】この発明の論題識別方法は、いかなる言語
においても、等しい容易さ(ただし、1度に1つの言語
で)をもつて扱われる。それは、テキス言語を理解しな
い者によつて開始でき、特別の訓練を必要としない。こ
の方法は、歪められたテキスト(すなわち、誤りを含む
テキスト)の存在においても力強く作用する。使用者
は、もし、文献が類似の場合は、類似性の決定のために
閾値を設定する。情報的でない(情報を含まない)共通
性は自動的に文献から除去される。
においても、等しい容易さ(ただし、1度に1つの言語
で)をもつて扱われる。それは、テキス言語を理解しな
い者によつて開始でき、特別の訓練を必要としない。こ
の方法は、歪められたテキスト(すなわち、誤りを含む
テキスト)の存在においても力強く作用する。使用者
は、もし、文献が類似の場合は、類似性の決定のために
閾値を設定する。情報的でない(情報を含まない)共通
性は自動的に文献から除去される。
【図1】言語識別アルゴリズムの概略を説明する図。
【図2】文献の言語、論題などを識別するアルゴリズム
の概略を説明する図。
の概略を説明する図。
【図3】グリ−ンランド語の参照文献に対する未識別文
献の類似性の点数の計算例を示す図。
献の類似性の点数の計算例を示す図。
【図4】デ−タベ−スから文献を検索するのに使用する
アルゴリズムの概略を説明する図。
アルゴリズムの概略を説明する図。
【図5】デ−タベ−スの文献をカテゴリ−に分類するの
に使用されるアルゴリズムを概略を説明する図。
に使用されるアルゴリズムを概略を説明する図。
【図6】この発明の方法を実施するコンピユ−タの構成
の一例を示すブロツク図である。
の一例を示すブロツク図である。
1 入力装置 2 プロセツサ 3 外部記憶装置 4 表示装置 5 出力装置
Claims (26)
- 【請求項1】 次のステツプから成る、テキストの言語
を決定する方法。(a)nが少くとも1の値をもち、各
n−グラムがテキスト本体のn個の連続した文字/スペ
−スの位置の内容から成る複数のn−グラムに上記テキ
スト本体を分解すること、(b)前記各n−グラムを、
各n−グラムの組が異なる言語を表わす複数のn−グラ
ムの組と比較すること、(c)特定のn−グラムの組に
対するステツプ(b)の合致率が、そのn−グラムの組
に対する所定値に少くとも等しく、かつ他のn−グラム
の組に対するステツプ(b)の合致率よりも大きいと
き、上記テキスト本体の言語を上記特定のn−グラムの
組の言語で書かれたものとして識別すること。 - 【請求項2】 次のステツプから成る文献を識別する方
法。 (a)機械読み取り可能な形式の複数の参照文献の各々
に対し、各n−グラムが少くとも1つの連続した文献要
素から成る、n−グラムの参照列を作ること。 (b)機械読み取り可能な形式の未識別文献を、各n−
グラムが少くとも1つの連続した文献要素から成る、複
数のn−グラムに分解すること。 (c)ステツプ(a)の各n−グラムにウェ−トを付け
ること。 (d)ステツプ(b)の各n−グラムにウェ−トを付け
ること。 (e)上記複数の参照列間の共通性を除去すること。 (f)各未識別文献のn−グラムを上記参照文献のn−
グラム列と比較し、上記未識別文献と上記各参照列との
間の類似性の程度を示す点数表を作成すること。 (g)ステツプ(f)における点数が、使用者が決め
た、上記参照文献の列に対する値と少くとも等しいと
き、リストされた複数の参照文献の少くとも1つに類似
であると識別すること。 - 【請求項3】 n−グラム参照列を作成する上記ステツ
プが次のことにより行なわれる、請求項2記載の方法。 (a)対応する参照文献内に発生するすべてのユニ−ク
なn−グラムをリストすること。 (b)上記参照文献の各n−グラムにウェ−トを付ける
こと。 - 【請求項4】 上記参照文献の各n−グラムにウェ−ト
を付ける上記ステツプが、次のことにより行なわれる、
請求項3記載の方法。 (a)上記参照文献における各ユニ−クなn−グラムの
発生回数を計算すること。(b)上記参照文献における
n−グラムの総数によりステツプ(a)の各計算値を割
ること。及び、 (c)ステツプ(b)において計算された各商を、n−
グラムのウェ−トとして対応するn−グラムに割当てる
こと。 - 【請求項5】 上記共通性を除去するステツプが、次の
ことにより行なわれる請求項4記載の方法。 (a)上記複数の参照文献内に発生するユニ−クなn−
グラムのリストを作ること。 (b)上記n−グラムに対するウェ−トの合計を表わす
各n−グラムの合計を上記複数の参照文献から作るこ
と。 (c)ステツプ(b)の各合計を参照文献の総数により
割ること。 (d)上記複数の各参照文献内において対応するn−グ
ラムのウェ−トからステツプ(c)の商を差引くこと。 - 【請求項6】 上記未識別文献の各n−グラムに対し、
ウェ−トを付けるステツプが、次のことにより行なわれ
る、請求項5記載の方法。 (a)上記未識別文献内の各ユニ−クなn−グラムの発
生回数を計算すること。 (b)ステツプ(a)の各計算値を上記未識別文献内の
n−グラムの総数により割ること。 (c)ステツプ(b)における各商から対応するn−グ
ラムの共通性ウェ−トを差引くこと。及び、 (g)ステツプ(c)の結果を、そのn−グラムのウェ
−トとして対応するn−グラムに割当てること。 - 【請求項7】 点数表を作るために上記の比較するステ
ツプが、次のことにより行なわれる請求項6記載の方
法。 (a)上記未識別文献内のn−グラムのウェ−トに上記
参照文献内の1つの列における対応するn−グラムのウ
ェ−トを掛けること。 (b)上記未識別文献からの各n−グラムのウェ−ト
が、参照文献内に、もし対応するn−グラムのウェ−ト
があれば、そのウェ−トを掛け終るまで、ステツプ
(a)を反復すること。 (c)ステツプ(a)と(b)との積を合計すること。 (d)上記未識別文献内の各n−グラムのウェ−トを2
乗すること。 (e)ステツプ(d)の上記未識別文献のウェ−トを2
乗したものを合計すること。 (f)ステツプ(a)の上記参照列の各n−グラムのウ
ェ−トを2乗すること。 (g)ステツプ(f)の上記参照列のウェ−トを2乗し
たものを合計すること。 (h)ステツプ(e)の合計にステツプ(g)の合計を
掛けること。 (i)ステツプ(h)の積の平方根をとること。 (j)ステツプ(i)において計算された数でステツプ
(c)の合計を割り、ステツプ(a)の上記未識別文献
と上記参照文献との間の類似性の点数を作ること。
(k)上記複数の参照文献に対する未識別文献の類似性
の点数を作るために、上記複数の参照文献に対しステツ
プ(a)から(j)までを反復すること。 - 【請求項8】 上記分解のステツプが、次のことにより
行なわれる、請求項7記載の方法。 (a)使用者が決めた、文献要素の組に、許容し得る文
献要素を制限すること。 (b)少くとも1つの文献要素から成る、使用者が決め
た文献要素列を、少くとも1つの文献要素から成る、使
用者が決めた要素列で置き換えること。 (c)使用者が決めた文献要素列を削除すること。 - 【請求項9】 許容し得る文献要素を、使用者が決めた
文献要素の組に制限するステツプが、許容し得る文献要
素を複数の言語の文字に制限することにより行なわれ
る、請求項8記載の方法。 - 【請求項10】 上記未識別文献を識別する上記ステツ
プが、上記未識別文献の言語を識別することにより行な
われる、請求項9記載の方法。 - 【請求項11】 上記識別文献を識別する上記ステツプ
が、上記未識別文献の論題を識別することにより行なわ
れる、請求項9記載の方法。 - 【請求項12】 次のステツプから成る文献検索方法。 (a)機械読み取り可能な形式の複数の参照文献の各々
に対し、各n−グラムが少くとも1つの連続した文献要
素から成るn−グラム参照列を作ること。 (b)ステツプ(a)の各n−グラムにウェ−トを割当
てること。 (c)ステツプ(a)の複数の参照列間の共通性を除去
すること。 (d)機械読み取り可能の質問文を、各n−グラムが少
くとも1つの連続した文献要素から成る複数のn−グラ
ムに分解すること。 (e)ステツプ(d)の各n−グラムにウェ−トを割当
てること。 (f)ステツプ(d)の質問文の各n−グラムをステツ
プ(a)の複数の参照列の各々のn−グラムと比較し
て、上記質問文と複数の参照文献の各々との間の類似度
を示す点数のリストを作成すること。及び、 (g)ステツプ(f)における点数が、使用者が決めた
値に少くとも等しいとき、複数の参照文献を上記質問文
に類似であるとして識別すること。 - 【請求項13】 n−グラム参照列を作る上記ステツプ
が、次のことにより行なわれる請求項12記載の方法。 (a)対応する参照文献内に発生するすべてのユニ−ク
なn−グラムをリストをすること。 (b)上記参照文献の各n−グラムにウェ−トを割当て
ること。 - 【請求項14】 上記参照文献の各n−グラムにウェ−
トを割当てる上記ステツプが、次のことにより行なわれ
る請求項13記載の方法。 (a)上記参照文献における各n−グラムの発生数を計
算すること。 (b)上記参照文献における各n−グラムの合計数でス
テツプ(a)の計算値を割ること。 (c)ステツプ(b)で計算された各商を、そのn−グ
ラムのウェ−トとして、対応するn−グラムに割当てる
こと。 - 【請求項15】 上記共通性除去のステツプは、次のこ
とにより行なわれる請求項14記載の方法。 (a)上記複数の参照文献において発生するユニ−クな
n−グラムのリストを作ること。 (b)上記複数の参照文献から上記n−グラムのウェ−
トの合計を表わす各n−グラムの合計を作ること。 (c)ステツプ(b)の各合計値を参照文献の全数によ
り割ること。 (d)ステツプ(c)の商を、複数の各参照文献におけ
る対応するn−グラムウェ−トから差引くこと。 - 【請求項16】 上記質問文の各n−グラムにウェ−ト
を割当てるステツプは、次のことにより行なわれる請求
項15記載の方法。 (a)上記質問文における各ユニ−クなn−グラムの発
生数を計算すること。 (b)ステツプ(a)の各計算値を上記質問文の各n−
グラムの合計数により割ること。 (c)ステツプ(b)における各商から、対応するn−
グラムの共通性ウェ−トを差引くこと。 (d)ステツプ(c)の結果をn−グラムウェ−トとし
て対応するn−グラムに割当てること。 - 【請求項17】 点数のリストを作るための比較ステツ
プは、次のことから成る請求項16記載の方法。 (a)上記質問文のn−グラムのウェ−トを上記参照列
の1つの対応するn−グラムのウェ−トによつて割るこ
と。 (b)質問文からのすべてのn−グラムのウェ−トが、
参照列内の対応するn−グラムのウェ−トにより割り終
るまで、ステツプ(a)を反復すること。 (c)ステツプ(a)と(b)との積を加算すること。 (d)上記質問文における各n−グラムのウェ−トを2
乗すること。 (e)ステツプ(d)の上記質問文のウェ−トの2乗を
合計すること。 (f)ステツプ(a)の上記参照列内の各n−グラムの
ウェ−トを2乗すること。(g)ステツプ(f)の上記
参照列のウェ−トを2乗すること。 (h)ステツプ(e)の合計にステツプ(g)の合計を
掛けること。 (i)ステツプ(h)の積の平方根を求めること。 (j)上記質問文とステツプ(a)の上記参照情報との
間の類似性の点数を作るため、ステツプ(c)の合計を
ステツプ(i)の計算値により割ること。 (k)上記複数の参照文献の各々に関し上記質問文にお
ける類似性の点数を作るために、ステツプ(a)からス
テツプ(j)までを反復すること。 - 【請求項18】 上記分解ステツプは次のことにより行
なわれる、請求項17記載の方法。 (a)許容し得る文献要素を使用者が決めた文献要素の
組に制限すること。 (b)少くとも1つの文献要素から成る、使用者が決め
た文献要素の列を、少くとも1つの文献要素から成る使
用者が決めた要素の列と置き換えること。 (c)使用者が決めた文献要素の列を削除すること。 - 【請求項19】 許容し得る文献要素を使用者が決めた
文献要素の組に制限する上記ステツプは、許容し得る文
献要素を複数の言語の文字に制限することにより行なわ
れる、請求項18記載の方法。 - 【請求項20】 上記複数の参照文献を機械読み取り可
能な形式の質問文と類似として識別することにより行な
われる請求項19記載の方法。 - 【請求項21】 上記複数の参照文献を上記質問文に類
似として識別するステツプは、上記複数の参照文献を上
記質問文の論題に類似として識別することにより行なわ
れる、請求項19記載の方法。 - 【請求項22】 次のことから成る文献を分類する方
法。 (a)機械読み取り可能な形式の複数の文献の各々に対
し、各n−グラムが少くとも1つの連続した情報要素か
ら成るn−グラムを作ること。 (b)ステツプ(a)の各n−グラムにウェ−トを割当
てること。 (c)上記複数の列間の共通性を除去すること。 (d)上記列の各々間の類似度を示す点数のリストを作
るために、各列をすべての他の列と比較すること。 (e)ステツプ(d)の点数と使用者が決定可能の寛大
さに基づき上記文献をカテゴリ−に分類すること。 - 【請求項23】 n−グラム列を作る上記ステツプは次
のことにより行なわれる請求項22記載の方法。 (a)対応する文献内に発生するすべてのn−グラムを
リストをすること。 (b)ステツプ(a)の各n−グラムにウェ−トを割当
てること。 - 【請求項24】 上記列の各n−グラムにウェ−トを割
当てる上記ステツプは次のことにより行なわれる請求項
23記載の方法。 (a)上記文献内の各n−グラム発生度数を計算するこ
と。 (b)ステツプ(a)の各計算値を上記文献内のn−グ
ラムの総数で割ること。 (c)ステツプ(b)の各商をそのn−グラムのウェ−
トとして対応するn−グラムに割当てること。 - 【請求項25】 上記共通性除去のステツプは次のこと
により行なわれる請求項24記載の方法。 (a)上記複数の文献内に発生するユニ−クなn−グラ
ムのリストを作ること。 (b)上記複数の文献から、そのn−グラムのウェ−ト
の合計を表わす各n−グラムの合計を作ること。 (c)文献の総数によつて各合計を割ること。 (d)複数の上記各文献内の対応するn−グラムのウェ
−トから上記(c)の商を差引くこと。 - 【請求項26】 点数のリストを作るための上記比較ス
テツプは次のことにより行なわれる、請求項25記載の
方法。 (a)上記複数の文献の1つ内のn−グラムのウェ−ト
に上記複数の文献の他の1つ内の対応するn−グラムの
ウェ−トを掛けること。 (b)第1の文献の各n−グラムウェ−トに第2の文献
の対応するn−グラムのウェ−トを掛け終つてしまうま
でステツプ(a)を反復すること。 (c)ステツプ(a)とステツプ(b)との積を合計す
ること。 (d)上記第1の文献内の各n−グラムのウェ−トを2
乗すること。 (e)ステツプ(d)内の上記第1の文献の各n−グラ
ムのウェ−トを2乗したものを加算すること。 (f)ステツプ(a)の上記第2の文献の各n−グラム
のウェ−トを2乗すること。 (g)ステツプ(f)の第2の文献のウェ−トを2乗し
たものを加算すること。 (h)ステツプ(e)の合計にステツプ(g)の合計を
掛けること。 (i)ステツプ(h)における積の平方根をとること。 (j)ステツプ(a)の上記第1の文献と上記第2の文
献との間の類似性の点数を作るために、ステツプ(c)
の合計をステツプ(i)において計算した数によつて割
ること。 (k)上記複数の文献の各々に関し各文献に対する類似
性の点数を作るために、各文献に対しステツプ(a)か
らステツプ(j)までを反復すること。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US93252292A | 1992-08-20 | 1992-08-20 | |
US07/932,522 | 1992-08-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06110948A true JPH06110948A (ja) | 1994-04-22 |
JP3095552B2 JP3095552B2 (ja) | 2000-10-03 |
Family
ID=25462436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04301549A Expired - Fee Related JP3095552B2 (ja) | 1992-08-20 | 1992-10-15 | 同一の論題に関係する文献を検索する方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5418951A (ja) |
JP (1) | JP3095552B2 (ja) |
DE (1) | DE4232507A1 (ja) |
FR (1) | FR2694984B1 (ja) |
GB (1) | GB9220404D0 (ja) |
NL (1) | NL194809C (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334515A (ja) * | 1994-06-03 | 1995-12-22 | Nippon Steel Corp | 情報検索方法および装置 |
JPH09153051A (ja) * | 1995-11-29 | 1997-06-10 | Hitachi Ltd | 類似文書検索方法 |
JPH11167581A (ja) * | 1997-12-04 | 1999-06-22 | Ntt Data Corp | 情報分類方法、装置及びシステム |
US6246976B1 (en) | 1997-03-14 | 2001-06-12 | Omron Corporation | Apparatus, method and storage medium for identifying a combination of a language and its character code system |
US6473754B1 (en) | 1998-05-29 | 2002-10-29 | Hitachi, Ltd. | Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program |
JP2005063419A (ja) * | 2003-07-31 | 2005-03-10 | Ricoh Co Ltd | 言語識別装置、プログラム及び記録媒体 |
JP2009104606A (ja) * | 1999-04-09 | 2009-05-14 | Internatl Business Mach Corp <Ibm> | 望ましくない電子メッセージの送信または受信を妨害するための方法 |
JP2013069157A (ja) * | 2011-09-22 | 2013-04-18 | Toshiba Corp | 自然言語処理装置、自然言語処理方法および自然言語処理プログラム |
US11989215B2 (en) | 2020-04-24 | 2024-05-21 | Roblox Corporation | Language detection of user input text for online gaming |
Families Citing this family (424)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10361802B1 (en) | 1999-02-01 | 2019-07-23 | Blanding Hovenweep, Llc | Adaptive pattern recognition based control system and method |
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5537586A (en) * | 1992-04-30 | 1996-07-16 | Individual, Inc. | Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
US6243071B1 (en) * | 1993-11-03 | 2001-06-05 | Apple Computer, Inc. | Tool set for navigating through an electronic book |
US5548507A (en) | 1994-03-14 | 1996-08-20 | International Business Machines Corporation | Language identification process using coded language words |
US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
US5754850A (en) * | 1994-05-11 | 1998-05-19 | Realselect, Inc. | Real-estate method and apparatus for searching for homes in a search pool for exact and close matches according to primary and non-primary selection criteria |
US5752051A (en) * | 1994-07-19 | 1998-05-12 | The United States Of America As Represented By The Secretary Of Nsa | Language-independent method of generating index terms |
US5708804A (en) * | 1994-07-25 | 1998-01-13 | International Business Machines Corp. | Apparatus and method therefor of intelligently searching for information in a personal communications device |
JP2729356B2 (ja) * | 1994-09-01 | 1998-03-18 | 日本アイ・ビー・エム株式会社 | 情報検索システム及び方法 |
US5778371A (en) * | 1994-09-13 | 1998-07-07 | Kabushiki Kaisha Toshiba | Code string processing system and method using intervals |
US5687364A (en) * | 1994-09-16 | 1997-11-11 | Xerox Corporation | Method for learning to infer the topical content of documents based upon their lexical content |
US5826241A (en) | 1994-09-16 | 1998-10-20 | First Virtual Holdings Incorporated | Computerized system for making payments and authenticating transactions over the internet |
AU3734395A (en) * | 1994-10-03 | 1996-04-26 | Helfgott & Karas, P.C. | A database accessing system |
US5864683A (en) * | 1994-10-12 | 1999-01-26 | Secure Computing Corporartion | System for providing secure internetwork by connecting type enforcing secure computers to external network for limiting access to data based on user and process access rights |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5717913A (en) * | 1995-01-03 | 1998-02-10 | University Of Central Florida | Method for detecting and extracting text data using database schemas |
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
EP0744702B1 (en) * | 1995-05-22 | 2002-11-13 | Matsushita Electric Industrial Co., Ltd. | Information searching apparatus for searching text to retrieve character streams agreeing with a key word |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
EP0856175A4 (en) * | 1995-08-16 | 2000-05-24 | Univ Syracuse | SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON |
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
JPH0981574A (ja) * | 1995-09-14 | 1997-03-28 | Fujitsu Ltd | 検索集合表示画面を利用したデータベース検索法およびシステム |
US5717914A (en) * | 1995-09-15 | 1998-02-10 | Infonautics Corporation | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5794237A (en) * | 1995-11-13 | 1998-08-11 | International Business Machines Corporation | System and method for improving problem source identification in computer systems employing relevance feedback and statistical source ranking |
US5826260A (en) * | 1995-12-11 | 1998-10-20 | International Business Machines Corporation | Information retrieval system and method for displaying and ordering information based on query element contribution |
US5787420A (en) * | 1995-12-14 | 1998-07-28 | Xerox Corporation | Method of ordering document clusters without requiring knowledge of user interests |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5913024A (en) | 1996-02-09 | 1999-06-15 | Secure Computing Corporation | Secure server utilizing separate protocol stacks |
JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
US6081798A (en) * | 1996-04-24 | 2000-06-27 | International Business Machines Corp. | Object oriented case-based reasoning framework mechanism |
US5794236A (en) * | 1996-05-29 | 1998-08-11 | Lexis-Nexis | Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy |
US5813002A (en) * | 1996-07-31 | 1998-09-22 | International Business Machines Corporation | Method and system for linearly detecting data deviations in a large database |
US6745194B2 (en) | 2000-08-07 | 2004-06-01 | Alta Vista Company | Technique for deleting duplicate records referenced in an index of a database |
US5765150A (en) * | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Method for statistically projecting the ranking of information |
US5765149A (en) * | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Modified collection frequency ranking method |
US5745890A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
US6009382A (en) * | 1996-08-19 | 1999-12-28 | International Business Machines Corporation | Word storage table for natural language determination |
US6023670A (en) * | 1996-08-19 | 2000-02-08 | International Business Machines Corporation | Natural language determination using correlation between common words |
US5913185A (en) * | 1996-08-19 | 1999-06-15 | International Business Machines Corporation | Determining a natural language shift in a computer document |
US5909680A (en) * | 1996-09-09 | 1999-06-01 | Ricoh Company Limited | Document categorization by word length distribution analysis |
US6072942A (en) * | 1996-09-18 | 2000-06-06 | Secure Computing Corporation | System and method of electronic mail filtering using interconnected nodes |
US6144934A (en) * | 1996-09-18 | 2000-11-07 | Secure Computing Corporation | Binary filter using pattern recognition |
WO1998012616A2 (en) | 1996-09-23 | 1998-03-26 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
US6002998A (en) * | 1996-09-30 | 1999-12-14 | International Business Machines Corporation | Fast, efficient hardware mechanism for natural language determination |
US5774888A (en) * | 1996-12-30 | 1998-06-30 | Intel Corporation | Method for characterizing a document set using evaluation surrogates |
US5778363A (en) * | 1996-12-30 | 1998-07-07 | Intel Corporation | Method for measuring thresholded relevance of a document to a specified topic |
US5842217A (en) * | 1996-12-30 | 1998-11-24 | Intel Corporation | Method for recognizing compound terms in a document |
US5924105A (en) * | 1997-01-27 | 1999-07-13 | Michigan State University | Method and product for determining salient features for use in information searching |
US6415319B1 (en) | 1997-02-07 | 2002-07-02 | Sun Microsystems, Inc. | Intelligent network browser using incremental conceptual indexer |
US6977574B1 (en) * | 1997-02-14 | 2005-12-20 | Denso Corporation | Stick-type ignition coil having improved structure against crack or dielectric discharge |
JP3173411B2 (ja) * | 1997-03-17 | 2001-06-04 | 富士ゼロックス株式会社 | 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体 |
US6415250B1 (en) * | 1997-06-18 | 2002-07-02 | Novell, Inc. | System and method for identifying language using morphologically-based techniques |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
CA2242065C (en) | 1997-07-03 | 2004-12-14 | Henry C.A. Hyde-Thomson | Unified messaging system with automatic language identification for text-to-speech conversion |
US5978797A (en) * | 1997-07-09 | 1999-11-02 | Nec Research Institute, Inc. | Multistage intelligent string comparison method |
US6016546A (en) * | 1997-07-10 | 2000-01-18 | International Business Machines Corporation | Efficient detection of computer viruses and other data traits |
US6029167A (en) * | 1997-07-25 | 2000-02-22 | Claritech Corporation | Method and apparatus for retrieving text using document signatures |
US6760746B1 (en) * | 1999-09-01 | 2004-07-06 | Eric Schneider | Method, product, and apparatus for processing a data request |
US6094651A (en) * | 1997-08-22 | 2000-07-25 | International Business Machines Corporation | Discovery-driven exploration of OLAP data cubes |
US6003029A (en) * | 1997-08-22 | 1999-12-14 | International Business Machines Corporation | Automatic subspace clustering of high dimensional data for data mining applications |
DE69809263T2 (de) * | 1997-09-04 | 2003-07-10 | British Telecommunications P.L.C., London | Methoden ud system zur wahl von datensets |
US6052657A (en) * | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
US6047251A (en) * | 1997-09-15 | 2000-04-04 | Caere Corporation | Automatic language identification system for multilingual optical character recognition |
US6157905A (en) * | 1997-12-11 | 2000-12-05 | Microsoft Corporation | Identifying language and character set of data representing text |
US6112172A (en) * | 1998-03-31 | 2000-08-29 | Dragon Systems, Inc. | Interactive searching |
US5991714A (en) * | 1998-04-22 | 1999-11-23 | The United States Of America As Represented By The National Security Agency | Method of identifying data type and locating in a file |
US6314421B1 (en) | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
US6169969B1 (en) * | 1998-08-07 | 2001-01-02 | The United States Of America As Represented By The Director Of The National Security Agency | Device and method for full-text large-dictionary string matching using n-gram hashing |
US7039856B2 (en) * | 1998-09-30 | 2006-05-02 | Ricoh Co., Ltd. | Automatic document classification using text and images |
US6397205B1 (en) | 1998-11-24 | 2002-05-28 | Duquesne University Of The Holy Ghost | Document categorization and evaluation via cross-entrophy |
US6292772B1 (en) * | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
US8037168B2 (en) | 1999-07-15 | 2011-10-11 | Esdr Network Solutions Llc | Method, product, and apparatus for enhancing resolution services, registration services, and search services |
USRE43690E1 (en) | 1999-03-22 | 2012-09-25 | Esdr Network Solutions Llc | Search engine request method, product, and apparatus |
US7188138B1 (en) | 1999-03-22 | 2007-03-06 | Eric Schneider | Method, product, and apparatus for resource identifier registration and aftermarket services |
US6338082B1 (en) | 1999-03-22 | 2002-01-08 | Eric Schneider | Method, product, and apparatus for requesting a network resource |
US9141717B2 (en) | 1999-03-22 | 2015-09-22 | Esdr Network Solutions Llc | Methods, systems, products, and devices for processing DNS friendly identifiers |
US6658151B2 (en) * | 1999-04-08 | 2003-12-02 | Ricoh Co., Ltd. | Extracting information from symbolically compressed document images |
US6546383B1 (en) * | 1999-06-09 | 2003-04-08 | Ricoh Company, Ltd. | Method and device for document retrieval |
US6901402B1 (en) * | 1999-06-18 | 2005-05-31 | Microsoft Corporation | System for improving the performance of information retrieval-type tasks by identifying the relations of constituents |
WO2001007982A2 (en) * | 1999-07-22 | 2001-02-01 | Silicon Valley Bank | Method and system for providing information responsive to a user |
US20020023123A1 (en) * | 1999-07-26 | 2002-02-21 | Justin P. Madison | Geographic data locator |
US6370535B1 (en) | 1999-08-20 | 2002-04-09 | Newsgems Llc | System and method for structured news release generation and distribution |
US6289350B1 (en) | 1999-08-20 | 2001-09-11 | Newsgems Llc | System and method for structured news release generation and distribution |
WO2001014999A2 (en) * | 1999-08-20 | 2001-03-01 | Newsgems Llc | System and method for structured news release generation and distribution |
US8214386B2 (en) * | 1999-08-20 | 2012-07-03 | Newgems Llc | System and method for structured news release generation and distribution |
US6785810B1 (en) | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
USRE44207E1 (en) | 1999-09-01 | 2013-05-07 | Esdr Network Solutions Llc | Network resource access method, product, and apparatus |
US6876991B1 (en) | 1999-11-08 | 2005-04-05 | Collaborative Decision Platforms, Llc. | System, method and computer program product for a collaborative decision platform |
US6529902B1 (en) * | 1999-11-08 | 2003-03-04 | International Business Machines Corporation | Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling |
KR100530475B1 (ko) | 1999-11-10 | 2006-01-09 | 론치 미디어, 인크. | 인터넷 라디오와 방송 방법 |
US7711738B1 (en) * | 1999-11-15 | 2010-05-04 | West Services, Inc. | Method, system and computer-readable medium for accessing and retrieving court records, items and documents |
US6714944B1 (en) * | 1999-11-30 | 2004-03-30 | Verivita Llc | System and method for authenticating and registering personal background data |
AU2212801A (en) * | 1999-12-07 | 2001-06-18 | Qjunction Technology, Inc. | Natural english language search and retrieval system and method |
US6389467B1 (en) | 2000-01-24 | 2002-05-14 | Friskit, Inc. | Streaming media search and continuous playback system of media resources located by multiple network addresses |
US20010049707A1 (en) * | 2000-02-29 | 2001-12-06 | Tran Bao Q. | Systems and methods for generating intellectual property |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8706618B2 (en) | 2005-09-29 | 2014-04-22 | Ebay Inc. | Release of funds based on criteria |
US7499875B1 (en) | 2000-03-17 | 2009-03-03 | Ebay Inc. | Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments |
AU2001245754A1 (en) | 2000-03-17 | 2001-10-03 | Ebay, Inc. | Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments |
US7177798B2 (en) * | 2000-04-07 | 2007-02-13 | Rensselaer Polytechnic Institute | Natural language interface using constrained intermediate dictionary of results |
US6711558B1 (en) | 2000-04-07 | 2004-03-23 | Washington University | Associative database scanning and information retrieval |
US7139743B2 (en) * | 2000-04-07 | 2006-11-21 | Washington University | Associative database scanning and information retrieval using FPGA devices |
US8095508B2 (en) * | 2000-04-07 | 2012-01-10 | Washington University | Intelligent data storage and processing using FPGA devices |
US7251665B1 (en) * | 2000-05-03 | 2007-07-31 | Yahoo! Inc. | Determining a known character string equivalent to a query string |
US7024485B2 (en) * | 2000-05-03 | 2006-04-04 | Yahoo! Inc. | System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback |
US8352331B2 (en) * | 2000-05-03 | 2013-01-08 | Yahoo! Inc. | Relationship discovery engine |
US7162482B1 (en) * | 2000-05-03 | 2007-01-09 | Musicmatch, Inc. | Information retrieval engine |
US7035864B1 (en) * | 2000-05-18 | 2006-04-25 | Endeca Technologies, Inc. | Hierarchical data-driven navigation system and method for information retrieval |
US7325201B2 (en) * | 2000-05-18 | 2008-01-29 | Endeca Technologies, Inc. | System and method for manipulating content in a hierarchical data-driven search and navigation system |
US7617184B2 (en) | 2000-05-18 | 2009-11-10 | Endeca Technologies, Inc. | Scalable hierarchical data-driven navigation system and method for information retrieval |
US7062483B2 (en) * | 2000-05-18 | 2006-06-13 | Endeca Technologies, Inc. | Hierarchical data-driven search and navigation system and method for information retrieval |
US6519557B1 (en) | 2000-06-06 | 2003-02-11 | International Business Machines Corporation | Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity |
US20020052783A1 (en) * | 2000-06-26 | 2002-05-02 | Turek David G. | Method and apparatus for establishing a customized electronic site |
DE10196421T5 (de) * | 2000-07-11 | 2006-07-13 | Launch Media, Inc., Santa Monica | Online Playback-System mit Gemeinschatsausrichtung |
US20070027672A1 (en) * | 2000-07-31 | 2007-02-01 | Michel Decary | Computer method and apparatus for extracting data from web pages |
US6778986B1 (en) * | 2000-07-31 | 2004-08-17 | Eliyon Technologies Corporation | Computer method and apparatus for determining site type of a web site |
GB2366940B (en) * | 2000-09-06 | 2004-08-11 | Ericsson Telefon Ab L M | Text language detection |
US6895438B1 (en) | 2000-09-06 | 2005-05-17 | Paul C. Ulrich | Telecommunication-based time-management system and method |
US20060074727A1 (en) | 2000-09-07 | 2006-04-06 | Briere Daniel D | Method and apparatus for collection and dissemination of information over a computer network |
AUPR033800A0 (en) * | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
AUPR082400A0 (en) | 2000-10-17 | 2000-11-09 | Telstra R & D Management Pty Ltd | An information retrieval system |
AU2001295283B2 (en) * | 2000-10-17 | 2007-03-22 | Telstra Corporation Limited | An information retrieval system |
US6704449B1 (en) | 2000-10-19 | 2004-03-09 | The United States Of America As Represented By The National Security Agency | Method of extracting text from graphical images |
US8271333B1 (en) | 2000-11-02 | 2012-09-18 | Yahoo! Inc. | Content-related wallpaper |
GB2368670A (en) * | 2000-11-03 | 2002-05-08 | Envisional Software Solutions | Data acquisition system |
US8515959B2 (en) | 2000-11-06 | 2013-08-20 | International Business Machines Corporation | Method and apparatus for maintaining and navigating a non-hierarchical personal spatial file system |
US7099671B2 (en) * | 2001-01-16 | 2006-08-29 | Texas Instruments Incorporated | Collaborative mechanism of enhanced coexistence of collocated wireless networks |
US7406529B2 (en) * | 2001-02-09 | 2008-07-29 | Yahoo! Inc. | System and method for detecting and verifying digitized content over a computer network |
US6625600B2 (en) | 2001-04-12 | 2003-09-23 | Telelogue, Inc. | Method and apparatus for automatically processing a user's communication |
US7272857B1 (en) | 2001-04-20 | 2007-09-18 | Jpmorgan Chase Bank, N.A. | Method/system for preventing identity theft or misuse by restricting access |
US7574513B2 (en) | 2001-04-30 | 2009-08-11 | Yahoo! Inc. | Controllable track-skipping |
USRE46973E1 (en) | 2001-05-07 | 2018-07-31 | Ureveal, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
US6970881B1 (en) | 2001-05-07 | 2005-11-29 | Intelligenxia, Inc. | Concept-based method and system for dynamically analyzing unstructured information |
US7536413B1 (en) | 2001-05-07 | 2009-05-19 | Ixreveal, Inc. | Concept-based categorization of unstructured objects |
US7627588B1 (en) | 2001-05-07 | 2009-12-01 | Ixreveal, Inc. | System and method for concept based analysis of unstructured data |
US7194483B1 (en) | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
US6826576B2 (en) | 2001-05-07 | 2004-11-30 | Microsoft Corporation | Very-large-scale automatic categorizer for web content |
US6768991B2 (en) * | 2001-05-15 | 2004-07-27 | Networks Associates Technology, Inc. | Searching for sequences of character data |
US7272594B1 (en) | 2001-05-31 | 2007-09-18 | Autonomy Corporation Ltd. | Method and apparatus to link to a related document |
JP3452558B2 (ja) * | 2001-09-25 | 2003-09-29 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム |
US7716330B2 (en) | 2001-10-19 | 2010-05-11 | Global Velocity, Inc. | System and method for controlling transmission of data packets over an information network |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20030120630A1 (en) * | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
WO2003073374A2 (en) * | 2002-02-27 | 2003-09-04 | Brands Michael Rik Frans | A data integration and knowledge management solution |
US8589413B1 (en) | 2002-03-01 | 2013-11-19 | Ixreveal, Inc. | Concept-based method and system for dynamically analyzing results from search engines |
DE10213468A1 (de) * | 2002-03-26 | 2003-10-09 | Abb Research Ltd | Verfahren und System zur Informationssuche in multilingualen Wissensdatenbanken mit automatischer Übersetzung der Suchergebnisse |
DE10213348A1 (de) * | 2002-03-26 | 2003-10-09 | Abb Research Ltd | System und Verfahren zur Informationssuche in multilingualen Wissensdatenbanken unter Verwendung eines multilingualen Fachvokabulars |
US7707221B1 (en) | 2002-04-03 | 2010-04-27 | Yahoo! Inc. | Associating and linking compact disc metadata |
US7020338B1 (en) * | 2002-04-08 | 2006-03-28 | The United States Of America As Represented By The National Security Agency | Method of identifying script of line of text |
US7305483B2 (en) | 2002-04-25 | 2007-12-04 | Yahoo! Inc. | Method for the real-time distribution of streaming data on a network |
US7093023B2 (en) * | 2002-05-21 | 2006-08-15 | Washington University | Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto |
NL1020670C2 (nl) * | 2002-05-24 | 2003-11-25 | Oce Tech Bv | Het bepalen van een semantische afbeelding. |
US7010522B1 (en) * | 2002-06-17 | 2006-03-07 | At&T Corp. | Method of performing approximate substring indexing |
RU2251737C2 (ru) * | 2002-10-18 | 2005-05-10 | Аби Софтвер Лтд. | Способ автоматического определения языка распознаваемого текста при многоязычном распознавании |
US7711844B2 (en) * | 2002-08-15 | 2010-05-04 | Washington University Of St. Louis | TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks |
US20040117366A1 (en) * | 2002-12-12 | 2004-06-17 | Ferrari Adam J. | Method and system for interpreting multiple-term queries |
US7284009B2 (en) * | 2002-12-13 | 2007-10-16 | Sun Microsystems, Inc. | System and method for command line prediction |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US7401063B2 (en) * | 2002-12-16 | 2008-07-15 | General Electric Company | Process for semi-automatic maintenance of a knowledge base using tagged examples |
US7111000B2 (en) * | 2003-01-06 | 2006-09-19 | Microsoft Corporation | Retrieval of structured documents |
EP1602039A2 (en) * | 2003-03-03 | 2005-12-07 | Koninklijke Philips Electronics N.V. | Method and arrangement for searching for strings |
US10521857B1 (en) | 2003-05-12 | 2019-12-31 | Symantec Corporation | System and method for identity-based fraud detection |
CA2836758C (en) | 2003-05-23 | 2017-06-27 | Roger D. Chamberlain | Intelligent data processing system and method using fpga devices |
US10572824B2 (en) | 2003-05-23 | 2020-02-25 | Ip Reservoir, Llc | System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines |
US7734627B1 (en) | 2003-06-17 | 2010-06-08 | Google Inc. | Document similarity detection |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
EP1664997A4 (en) * | 2003-09-10 | 2007-12-19 | Yahoo Inc | MUSIC PURCHASING AND PLAYING SYSTEM AND METHOD |
US7644076B1 (en) * | 2003-09-12 | 2010-01-05 | Teradata Us, Inc. | Clustering strings using N-grams |
US7359851B2 (en) * | 2004-01-14 | 2008-04-15 | Clairvoyance Corporation | Method of identifying the language of a textual passage using short word and/or n-gram comparisons |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7602785B2 (en) | 2004-02-09 | 2009-10-13 | Washington University | Method and system for performing longest prefix matching for network address lookup using bloom filters |
GB2411014A (en) * | 2004-02-11 | 2005-08-17 | Autonomy Corp Ltd | Automatic searching for relevant information |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US7428528B1 (en) | 2004-03-31 | 2008-09-23 | Endeca Technologies, Inc. | Integrated application for manipulating content in a hierarchical data-driven search and navigation system |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7478081B2 (en) * | 2004-11-05 | 2009-01-13 | International Business Machines Corporation | Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system |
US20060117252A1 (en) * | 2004-11-29 | 2006-06-01 | Joseph Du | Systems and methods for document analysis |
US20060155530A1 (en) * | 2004-12-14 | 2006-07-13 | International Business Machines Corporation | Method and apparatus for generation of text documents |
EP1672531A3 (en) | 2004-12-14 | 2008-10-15 | International Business Machines Corporation | Method and apparatus for generation of text documents |
US7844961B2 (en) * | 2004-12-22 | 2010-11-30 | Sap Ag | Automatic field linking |
US20060142993A1 (en) * | 2004-12-28 | 2006-06-29 | Sony Corporation | System and method for utilizing distance measures to perform text classification |
JP2008532177A (ja) | 2005-03-03 | 2008-08-14 | ワシントン ユニヴァーシティー | 生物学的配列類似検索を実行するための方法および装置 |
JP4314204B2 (ja) * | 2005-03-11 | 2009-08-12 | 株式会社東芝 | 文書管理方法、システム及びプログラム |
US7516130B2 (en) * | 2005-05-09 | 2009-04-07 | Trend Micro, Inc. | Matching engine with signature generation |
US7805291B1 (en) | 2005-05-25 | 2010-09-28 | The United States Of America As Represented By The Director National Security Agency | Method of identifying topic of text using nouns |
US20070150457A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Enabling One-Click Searching Based on Elements Related to Displayed Content |
US7451135B2 (en) | 2005-06-13 | 2008-11-11 | Inform Technologies, Llc | System and method for retrieving and displaying information relating to electronic documents available from an informational network |
US20070150468A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Preprocessing Content to Determine Relationships |
US20070150721A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Disambiguation for Preprocessing Content to Determine Relationships |
US20070150483A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Network Service for Providing Related Content |
US20070162396A1 (en) * | 2005-06-13 | 2007-07-12 | Inform Technologies, Llc | Determining Advertising Placement on Preprocessed Content |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
AU2006304061B2 (en) * | 2005-10-11 | 2012-09-20 | Ixreveal, Inc. | System, method and computer program product for concept based searching and analysis |
US8019752B2 (en) | 2005-11-10 | 2011-09-13 | Endeca Technologies, Inc. | System and method for information retrieval from object collections with complex interrelationships |
US7702629B2 (en) * | 2005-12-02 | 2010-04-20 | Exegy Incorporated | Method and device for high performance regular expression pattern matching |
US7676485B2 (en) * | 2006-01-20 | 2010-03-09 | Ixreveal, Inc. | Method and computer program product for converting ontologies into concept semantic networks |
US9275129B2 (en) * | 2006-01-23 | 2016-03-01 | Symantec Corporation | Methods and systems to efficiently find similar and near-duplicate emails and files |
US7954114B2 (en) | 2006-01-26 | 2011-05-31 | Exegy Incorporated | Firmware socket module for FPGA-based pipeline processing |
US20070208733A1 (en) * | 2006-02-22 | 2007-09-06 | Copernic Technologies, Inc. | Query Correction Using Indexed Content on a Desktop Indexer Program |
US8019763B2 (en) * | 2006-02-27 | 2011-09-13 | Microsoft Corporation | Propagating relevance from labeled documents to unlabeled documents |
US8001121B2 (en) * | 2006-02-27 | 2011-08-16 | Microsoft Corporation | Training a ranking function using propagated document relevance |
US7636703B2 (en) * | 2006-05-02 | 2009-12-22 | Exegy Incorporated | Method and apparatus for approximate pattern matching |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
JP4251652B2 (ja) * | 2006-06-09 | 2009-04-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索装置、検索プログラムおよび検索方法 |
US7921046B2 (en) | 2006-06-19 | 2011-04-05 | Exegy Incorporated | High speed processing of financial information using FPGA devices |
US7840482B2 (en) | 2006-06-19 | 2010-11-23 | Exegy Incorporated | Method and system for high speed options pricing |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US8856145B2 (en) * | 2006-08-04 | 2014-10-07 | Yahoo! Inc. | System and method for determining concepts in a content item using context |
US20080086274A1 (en) * | 2006-08-10 | 2008-04-10 | Chamberlain Roger D | Method and Apparatus for Protein Sequence Alignment Using FPGA Devices |
US7689408B2 (en) * | 2006-09-01 | 2010-03-30 | Microsoft Corporation | Identifying language of origin for words using estimates of normalized appearance frequency |
EP2067119A2 (en) * | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8078625B1 (en) * | 2006-09-11 | 2011-12-13 | Aol Inc. | URL-based content categorization |
US8326819B2 (en) * | 2006-11-13 | 2012-12-04 | Exegy Incorporated | Method and system for high performance data metatagging and data indexing using coprocessors |
US7660793B2 (en) | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US8676802B2 (en) * | 2006-11-30 | 2014-03-18 | Oracle Otc Subsidiary Llc | Method and system for information retrieval with clustering |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7890549B2 (en) * | 2007-04-30 | 2011-02-15 | Quantum Leap Research, Inc. | Collaboration portal (COPO) a scaleable method, system, and apparatus for providing computer-accessible benefits to communities of users |
US8014959B2 (en) * | 2007-05-07 | 2011-09-06 | Sparta, Inc. | Population of background suppression lists from limited data in agent detection systems |
US20080281581A1 (en) * | 2007-05-07 | 2008-11-13 | Sparta, Inc. | Method of identifying documents with similar properties utilizing principal component analysis |
US10698886B2 (en) * | 2007-08-14 | 2020-06-30 | John Nicholas And Kristin Gross Trust U/A/D | Temporal based online search and advertising |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US7856434B2 (en) * | 2007-11-12 | 2010-12-21 | Endeca Technologies, Inc. | System and method for filtering rules for manipulating search results in a hierarchical search and navigation system |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10229453B2 (en) * | 2008-01-11 | 2019-03-12 | Ip Reservoir, Llc | Method and system for low latency basket calculation |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
WO2009124212A1 (en) * | 2008-04-03 | 2009-10-08 | Icurrent, Inc. | Information display system based on user profile data with assisted and explicit profile modification |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20090265385A1 (en) * | 2008-04-18 | 2009-10-22 | Beland Paula M | Insurance document imaging and processing system |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8374986B2 (en) | 2008-05-15 | 2013-02-12 | Exegy Incorporated | Method and system for accelerated stream processing |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
EP2370946A4 (en) | 2008-12-15 | 2012-05-30 | Exegy Inc | METHOD AND DEVICE FOR HIGH-SPEED PROCESSING OF FINANCIAL MARKET DEFINITIONS |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
EP2399385B1 (en) | 2009-02-18 | 2019-11-06 | Google LLC | Automatically capturing information, such as capturing information using a document-aware device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
WO2010105246A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US9245033B2 (en) | 2009-04-02 | 2016-01-26 | Graham Holdings Company | Channel sharing |
US9245243B2 (en) * | 2009-04-14 | 2016-01-26 | Ureveal, Inc. | Concept-based analysis of structured and unstructured data using concept inheritance |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US20110202484A1 (en) * | 2010-02-18 | 2011-08-18 | International Business Machines Corporation | Analyzing parallel topics from correlated documents |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8825648B2 (en) | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
JP5083367B2 (ja) * | 2010-04-27 | 2012-11-28 | カシオ計算機株式会社 | 検索装置、検索方法、ならびに、コンピュータプログラム |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10037568B2 (en) | 2010-12-09 | 2018-07-31 | Ip Reservoir, Llc | Method and apparatus for managing orders in financial markets |
US8478740B2 (en) | 2010-12-16 | 2013-07-02 | Microsoft Corporation | Deriving document similarity indices |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8868567B2 (en) * | 2011-02-02 | 2014-10-21 | Microsoft Corporation | Information retrieval using subject-aware document ranker |
US8612367B2 (en) | 2011-02-04 | 2013-12-17 | Microsoft Corporation | Learning similarity function for rare queries |
US8719257B2 (en) | 2011-02-16 | 2014-05-06 | Symantec Corporation | Methods and systems for automatically generating semantic/concept searches |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
EP2535822A3 (en) * | 2011-06-13 | 2013-12-25 | The Provost, Fellows, Foundation Scholars, & the other members of Board, of the College of the Holy & Undiv. Trinity of Queen Elizabeth near Dublin | Data processing system and method for assessing quality of a translation |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US8954519B2 (en) | 2012-01-25 | 2015-02-10 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using character histograms |
US9130778B2 (en) | 2012-01-25 | 2015-09-08 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using frequency spectra of character strings |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9990393B2 (en) | 2012-03-27 | 2018-06-05 | Ip Reservoir, Llc | Intelligent feed switch |
US11436672B2 (en) | 2012-03-27 | 2022-09-06 | Exegy Incorporated | Intelligent switch for processing financial market data |
US10121196B2 (en) | 2012-03-27 | 2018-11-06 | Ip Reservoir, Llc | Offload processing of data packets containing financial market data |
US10650452B2 (en) | 2012-03-27 | 2020-05-12 | Ip Reservoir, Llc | Offload processing of data packets |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10198776B2 (en) | 2012-09-21 | 2019-02-05 | Graham Holdings Company | System and method for delivering an open profile personalization system through social media based on profile data structures that contain interest nodes or channels |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9323767B2 (en) | 2012-10-01 | 2016-04-26 | Longsand Limited | Performance and scalability in an intelligent data operating layer system |
US9633093B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US9633097B2 (en) | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for record pivoting to accelerate processing of data fields |
WO2014066416A2 (en) | 2012-10-23 | 2014-05-01 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9934283B2 (en) * | 2013-03-08 | 2018-04-03 | Google Llc | Social annotations for enhanced search results |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10176256B1 (en) * | 2013-12-23 | 2019-01-08 | BroadbandTV, Corp | Title rating and improvement process and system |
WO2015107659A1 (ja) * | 2014-01-16 | 2015-07-23 | 三菱電機株式会社 | 検索装置 |
US9600770B1 (en) * | 2014-02-13 | 2017-03-21 | Emergent Systems Corporation | Method for determining expertise of users in a knowledge management system |
GB2541577A (en) | 2014-04-23 | 2017-02-22 | Ip Reservoir Llc | Method and apparatus for accelerated data translation |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN114115459B (zh) | 2014-08-06 | 2024-04-12 | 苹果公司 | 用于电池管理的减小尺寸的用户界面 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
KR101901796B1 (ko) | 2014-09-02 | 2018-09-28 | 애플 인크. | 경고를 관리하기 위한 축소된 크기의 인터페이스 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10942943B2 (en) | 2015-10-29 | 2021-03-09 | Ip Reservoir, Llc | Dynamic field data translation to support high performance stream data processing |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
EP3560135A4 (en) | 2016-12-22 | 2020-08-05 | IP Reservoir, LLC | PIPELINES INTENDED FOR AUTOMATIC ACCELERATED LEARNING BY EQUIPMENT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11455298B2 (en) | 2019-02-06 | 2022-09-27 | Parsons Corporation | Goal-directed semantic search |
US20230092124A1 (en) * | 2021-08-30 | 2023-03-23 | Kyocera Document Solutions Inc. | Method and system for searching electronic documents based on their similarity rates |
US20230409823A1 (en) * | 2022-06-16 | 2023-12-21 | The Bank Of Nova Scotia | System and Method for Reviewing and Evaluating Discrepancies Between Two or More Documents |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4754489A (en) * | 1985-10-15 | 1988-06-28 | The Palantir Corporation | Means for resolving ambiguities in text based upon character context |
US5031206A (en) * | 1987-11-30 | 1991-07-09 | Fon-Ex, Inc. | Method and apparatus for identifying words entered on DTMF pushbuttons |
US5293466A (en) * | 1990-08-03 | 1994-03-08 | Qms, Inc. | Method and apparatus for selecting interpreter for printer command language based upon sample of print job transmitted to printer |
US5182708A (en) * | 1990-12-11 | 1993-01-26 | Ricoh Corporation | Method and apparatus for classifying text |
US5276741A (en) * | 1991-05-16 | 1994-01-04 | Trw Financial Systems & Services, Inc. | Fuzzy string matcher |
US5251131A (en) * | 1991-07-31 | 1993-10-05 | Thinking Machines Corporation | Classification of data records by comparison of records to a training database using probability weights |
US5150425A (en) * | 1991-08-30 | 1992-09-22 | Eastman Kodak Company | Character recognition method using correlation search |
-
1992
- 1992-09-28 GB GB929220404A patent/GB9220404D0/en active Pending
- 1992-09-29 NL NL9201684A patent/NL194809C/nl not_active IP Right Cessation
- 1992-09-29 DE DE4232507A patent/DE4232507A1/de not_active Ceased
- 1992-10-02 FR FR9211714A patent/FR2694984B1/fr not_active Expired - Fee Related
- 1992-10-15 JP JP04301549A patent/JP3095552B2/ja not_active Expired - Fee Related
-
1994
- 1994-09-30 US US08/316,495 patent/US5418951A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334515A (ja) * | 1994-06-03 | 1995-12-22 | Nippon Steel Corp | 情報検索方法および装置 |
JPH09153051A (ja) * | 1995-11-29 | 1997-06-10 | Hitachi Ltd | 類似文書検索方法 |
US6246976B1 (en) | 1997-03-14 | 2001-06-12 | Omron Corporation | Apparatus, method and storage medium for identifying a combination of a language and its character code system |
JPH11167581A (ja) * | 1997-12-04 | 1999-06-22 | Ntt Data Corp | 情報分類方法、装置及びシステム |
US6473754B1 (en) | 1998-05-29 | 2002-10-29 | Hitachi, Ltd. | Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program |
JP2009104606A (ja) * | 1999-04-09 | 2009-05-14 | Internatl Business Mach Corp <Ibm> | 望ましくない電子メッセージの送信または受信を妨害するための方法 |
JP2005063419A (ja) * | 2003-07-31 | 2005-03-10 | Ricoh Co Ltd | 言語識別装置、プログラム及び記録媒体 |
JP2013069157A (ja) * | 2011-09-22 | 2013-04-18 | Toshiba Corp | 自然言語処理装置、自然言語処理方法および自然言語処理プログラム |
US11989215B2 (en) | 2020-04-24 | 2024-05-21 | Roblox Corporation | Language detection of user input text for online gaming |
Also Published As
Publication number | Publication date |
---|---|
FR2694984A1 (fr) | 1994-02-25 |
NL9201684A (nl) | 1994-03-16 |
NL194809C (nl) | 2003-03-04 |
GB9220404D0 (en) | 1992-11-11 |
NL194809B (nl) | 2002-11-01 |
FR2694984B1 (fr) | 1994-10-21 |
JP3095552B2 (ja) | 2000-10-03 |
DE4232507A1 (de) | 1994-02-24 |
US5418951A (en) | 1995-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3095552B2 (ja) | 同一の論題に関係する文献を検索する方法 | |
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
US8473279B2 (en) | Lemmatizing, stemming, and query expansion method and system | |
US7197449B2 (en) | Method for extracting name entities and jargon terms using a suffix tree data structure | |
Rahimi et al. | An overview on extractive text summarization | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
Rezaeian et al. | Persian text classification using naive bayes algorithms and support vector machine algorithm | |
KR20230077588A (ko) | 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템 | |
Awajan | Keyword extraction from Arabic documents using term equivalence classes | |
WO2002021324A1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
CN112612892B (zh) | 一种专有领域语料模型构建方法、计算机设备及存储介质 | |
Wahbeh et al. | Comparative assessment of the performance of three WEKA text classifiers applied to arabic text | |
WO1999034307A1 (en) | Extraction server for unstructured documents | |
Utomo et al. | Text classification of british english and American english using support vector machine | |
Tasharofi et al. | Evaluation of statistical part of speech tagging of Persian text | |
Indhuja et al. | Text based language identification system for indian languages following devanagiri script | |
Amensisa et al. | A survey on text document categorization using enhanced sentence vector space model and bi-gram text representation model based on novel fusion techniques | |
Frank et al. | Data preprocessing techniques for NLP in BI | |
Saini et al. | Intrinsic plagiarism detection system using stylometric features and DBSCAN | |
Hirpassa | Information extraction system for Amharic text | |
Pan et al. | An automatic identification of function words in TDIL tagged Bengali corpus | |
Helmy et al. | Towards building a standard dataset for arabic keyphrase extraction evaluation | |
Hunegnaw | Sentiment analysis model for Afaan Oromoo short message service text: A machine learning approach | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
MalarSelvi et al. | Analysis of Different Approaches for Automatic Text Summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |