JPH06110948A - 文献を識別し、検索し、分類する方法 - Google Patents

文献を識別し、検索し、分類する方法

Info

Publication number
JPH06110948A
JPH06110948A JP4301549A JP30154992A JPH06110948A JP H06110948 A JPH06110948 A JP H06110948A JP 4301549 A JP4301549 A JP 4301549A JP 30154992 A JP30154992 A JP 30154992A JP H06110948 A JPH06110948 A JP H06110948A
Authority
JP
Japan
Prior art keywords
gram
document
weight
grams
references
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4301549A
Other languages
English (en)
Other versions
JP3095552B2 (ja
Inventor
Marc Damashek
ダマシエク マ−ク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
US Government
Original Assignee
US Government
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by US Government filed Critical US Government
Publication of JPH06110948A publication Critical patent/JPH06110948A/ja
Application granted granted Critical
Publication of JP3095552B2 publication Critical patent/JP3095552B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 与えられた文献の記載言語を識別する方法を
提供する。 【構成】 既知言語の参照文献の文字をn個づつ、例え
ば2個づつに分解(これをn−グラムという)して、n
−グラム列を作り、また未識別文献についても同じくn
−グラムに分解する。各n−グラムに対し、ウェ−トを
割当て、参照文献相互に含まれる共通性を示す要因、及
び各未識別文献の共通性を示す要因を数値化し、n−グ
ラムから共通性を除去する。未識別文献を既知言語の各
参照文献と比較し、類似性の程度を示す点数を演算し、
類似性の点数に基づいて、未識別言語が既知言語の何で
あるかを識別する。この方法は文献又は論題を識別し、
検索し、又は分類する方法に適用できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文献検索方法、特に、キ
−ワ−ド又は文脈に基づく情報によらずに、全テキスト
の検索を可能にする文献検索方法に関する。この方法
は、文献の論題(トピック)又は言語により文献を識別
し、検索し、かつ分類することに用いることができる。
また、この方法は、音響信号(例えば、スピ−チ)、及
び機械読み取り可能の形式で表現することができるグラ
フ状シンボル(例えば、絵)のような、如何なる形式の
コミユニケ−シヨンであつても、その識別、検索、及び
分類に用いることが可能である。
【0002】
【従来の技術】1992年2月4日発行の“エレクトロ
ニツク エンジニアリング タイムズ”誌(Elect
ronic Engineering Times)に
おけるR.Colin Johnson氏の論文“ダパ
− アイズ・スマ−ト・テキスト シフタ−ズ(DAP
PA Eyes Smart Text Sifter
s”第35頁に、使用者に関する文献を検索するための
テキスト状のデ−タベ−スをサ−チするより良い方法を
発見するために、広汎な研究努力が費されたことが指摘
されてた。意味のある困難解決を実現する過程におい
て、いくつかの基本的問題のあることが指摘された。
【0003】サ−チを改善する1つの技術は、情報をよ
り速く処理できる特殊のハ−ドウエアを開発することで
あつた。このアプロ−チにおける問題は、処理速度の改
善が、デ−タベ−ス情報の拡大する割合にスペ−スを合
わせることができないことであつた。膨大なデ−タベ−
スから情報を取出す方法を改善するためには、基本的な
理論的な解決が必要であることが述べられている。
【0004】従来の情報検索システムは、所要の文献を
識別するために未だにキ−ワ−ドやオペレ−タ(操作
子)付きの句(例えば、アンド(and)、オア(o
r)、ノツト(not))を用いることを基礎としてい
る。この技術の問題点は、文献がキ−ワ−ド自体[例え
ば、車(car)と自動車(automobil
e)]、或いはキ−ワ−ドの変形[例えば、検索する
(retriebing)と検索(retriev
e)]よりも、むしろキ−ワ−ドの同義語を含むことが
あるということである。
【0005】このようなシステムは、入力段階において
文字の綴り、又はデ−タ伝送の間違いに非常に敏感であ
るということである。また、オペレ−タ(操作子)を用
いることは困難である。その他の問題は、適当なキ−ワ
−ド識別、適当な同義語の識別、不十分で、膨大な及び
/又は無関係な文献の検索を包含することである。これ
らの問題を避けるために典型的には、膨大な同義語の表
が用いられる。しかし、この方法はメモリの必要性を増
大し、処理時間を遅らせることになる。
【0006】その他のキ−ワ−ドサ−チの問題は、キ−
ワ−ドの意味が、通常、そのキ−ワ−ドの用いられる文
脈に依存することである。このため、キ−ワ−ドの使用
される文脈についての指示なしでは、必要としない文献
を検索してしまう機会が大きくなる。前述した従来の文
献検索のアプロ−チの問題点を克服するため、文脈ベク
トル、概念グラフ、意味論ネツトワ−ク、推論ネツトワ
−クなどの手法を使用した文脈の情報をサ−チに加える
ことが試みられてきた。
【0007】これらの手法は、メモリの必要性や処理時
間を増大させる。また、文脈情報を追加することは、訓
練された個人による多大の時間を要する仕事でもある。
【0008】G.Salton及びC.Buckley
の論文“情報検索のためのグロ−バル テキスト マツ
チング”、サイエンス誌 Vol.253、1991年
8月30日発行、1012−1015頁には、同義語を
使用するテキスト解析はやつかいなもので、知識ベ−ス
によるテキスト解析は複雑であると述べている。またこ
の論文は、テキストの理解は文脈とテキストの部分の識
別(すなわちテキストのセクション、センテンスのパラ
グラフ)に基礎をおかねばならないと述べている。
【0009】G.Saltonの論文“自動テキスト検
索の発展”、サイエンス誌 Vol.253、1991
年8月30日発行、974−980頁には、文献検索の
現状が要約されている。これには、巨大なデ−タベ−ス
から関心のある文献のみを検索する必要があるからテキ
ストの解析は問題であると述べている。この問題の典型
的な解決は、内容識別子を創生することであつた。これ
は、単語の使用されている文脈を考慮することなしに辞
書を引くだけでは、単語の意味が適切に決定できないか
らである。この論文には、テキスト中の単語が文脈の識
別にも使用することができることが述べられている。こ
のような検索システムは、全テキスト検索システムとし
て定義されている。1979年4月発行のパタ−ン解析
と機械知能の関するIEEE論文集、Vol.PAMI
−1、No.2に掲載された、C.Suenの論文“自
然言語の理解とテキスト処理のためのn−グラム統計”
には、自然言語を処理する2つの方法が記載されたい
る。1つはキ−ワ−ドと辞書を用いる方法であり、もう
1つはn−グラムを使用する方法である。キ−ワ−ドに
よるアプロ−チにおいては、単語が比較される。n−グ
ラムを使用するアプロ−チにおいては、文字列が比較さ
れる。文字列を比較する方法は、キ−ワ−ドや辞書を用
いる方法より迅速で、必要とするメモリはより小さい。
【0010】米国特許第5,020,019号、発明の
名称“文献検索システム”には、それ以前のサ−チ結果
に応答して、異なるキ−ワ−ドにウェ−トを付けること
を使用者に認める学習機能を持つたキ−ワ−ドを使用す
る文献サ−チシステムが記載されている。本発明はキ−
ワ−ドによるアプロ−チは用いていない。
【0011】米国特許第4,985,863号、発明の
名称“文献の蓄積と検索”には、文献をセクシヨン毎に
蓄積する方法が記載されている。キ−ワ−ドでなく、テ
キストのセクシヨンが、類似文献の検索に用いられてい
る。本発明は、キ−ワ−ド又はセクシヨンによるアプロ
−チを行なうものではない。
【0012】米国特許第4,849,898号、発明の
名称“テキストの表現における単語間の意味の関係を識
別する方法と装置”には、キ−ワ−ドと単語が、同じこ
とを意味するか否かを決定するために、文献のキ−ワ−
ドと単語の文字−意味論的解析を使用する方法が記載さ
れている。この方法は、キ−ワ−ドと同じ論題(トピッ
ク)を取扱う文献、又は文献の部分を検索するために用
いられる。本発明は意味論的解析手法を用いるものでは
ない。
【0013】
【本発明の目的】本発明の目的は、与えられた文献の記
載言語を識別する方法を提供することである。
【0014】本発明の他の目的は、論題(トピック)の
デ−タベ−スから、特定の言語の文献を検索する方法を
提供することである。
【0015】本発明の更に他の目的は、デ−タベ−ス中
の文献を、言語により分類する方法を提供することであ
る。
【0016】本発明の更に他の目的は、デ−タベ−ス中
の文献を、論題により分類する方法を提供することであ
る。
【0017】これら目的は、文献の識別、検索及び分類
に対する新しいアプロ−チによつて達成される。ここで
文献という用語は、機械読み取り可能のテキスト、スピ
−チ又はグラフを指す。本発明は、従来のキ−ワ−ド又
は文脈に基づくアプロ−チに代え、文献間のn−グラム
比較に基づくパタ−ン認識技術を使用するものである。
デ−タベ−ス文献の共通性の除去は、(キ−ワ−ド及び
辞書による方法に比較して)メモリについての要求を減
少させることを許容する一方、文献間の繊細な識別と、
処理の増大をもたらす。使用者は、文献が類似か否かを
決定するために使用する閾値を設定することができる。
【0018】
【実施例】本発明は文献を識別し、サ−チし、かつ分類
する方法である。この方法は言語の識別、論題の識別、
文献検索及び文献分類ための敏感で、迅速で、経済的な
方法をもたらす。本明細書及びクレ−ムを通して、文献
という用語は、機械読み取り可能な形式における情報の
セツトを言及するために用いられる。文献はテキスト、
スピ−チ又はグラフからなるものとすることができる。
【0019】本発明の方法は、たとえ文献が日本語のよ
うな表意文字(象形文字)であつても、文献の論題を識
別するような困難な仕事を実行するため、如何なるプロ
グラミング言語、又はハ−ドウエアにも容易に適用する
ことができる。本方法は、デ−タベ−ス内の文献を、そ
の中に包含されるカテゴリ−又は文献を前もつて識別す
る必要なしに、望むカテゴリ−に分類するためにも用い
ることができる。
【0020】キ−ワ−ド、同義語の表、又は文脈の情報
に頼ることなく、本発明の目的はパタ−ン認識技術によ
り達成される。本発明は、言語、及び/又は似たように
見える論題において類似する文献には、多数の同じn−
グラム(すなわち、n個の連続した文字列)を包含する
傾向があるという仮説に基いている。
【0021】これら文献は、キ−ワ−ドにおいてのみで
なく、使用されるすべての用語において似たようにみえ
るのである。この仮説は、ある文献中に含まれるn−グ
ラムを数え、別の文献(参照文献)内に包含される数え
あげられたn−グラムの数と処理した結果を比較するこ
とにより、前記のある文献の論理を確実に推論すること
ができるという驚くべき結論を示唆するものである。
【0022】この方法の実施は、関連文献を識別するた
めに用いられるサ−チアルゴリズムの単純化を許容す
る。これらの単純化は、文献の言語に関係なく文献を分
類する能力に影響する結果となる。
【0023】原文のテキスト内の高いエラ−(“gar
ble”)率も、寛大に扱われる。非類似の言語に対す
る最大の許容エラ−率は、類似の言語に対する最大の許
容エラ−率よりも大きい。例えば、ロシア語のテキスト
の最大の許容エラ−率をチエコ語のテキストと比較した
とき、エラ−結果をもたらすことなしに、許容エラ−率
は僅か15%の高さであるに対し、スワヒリ語のテキス
トに対する最大の許容エラ−率をスウエ−デン語のテキ
ストと比較したとき、エラ−結果をもたらすことなし
に、許容エラ−率は25%の高さである。
【0024】図1は言語識別アルゴリズムの概略を示
す。第1のステツプは、未識別の言語で書かれたテキス
トをn−グラムに分解することから成る。n−グラム
は、n個の連続した文字の列である。ここで、nはゼロ
(0)より大きい任意の正の整数である。
【0025】適度に長いn−グラム(例えば、n>3)
は、より短いn−グラムよりも情報が多い。前者はテキ
スト中にある単語の根源についての情報を具体化する傾
向にあるからである。
【0026】第2のステツプは、既知の言語のテキスト
内のn−グラムの発生する頻度を、未識別テキスト内の
n−グラムの発生する頻度と比較することである。この
結果、未識別のテキストは、未識別のテキストが最も良
く比較されるテキストの言語により記述されていると識
別される。
【0027】許容し得るn−グラムの文字は使用者(ユ
−ザ)によつて決定される。例えば、特定の言語に対す
るn−グラム要素は、関心ある言語に対するアルフアベ
ツトの文字及びスペ−スに制限することができる。小文
字は大文字に代えることができ、可能なn−グラムの全
数を減少するため、多重スペ−スは、単一スペ−スに減
らすことができる。句読点も、メモリの必要性を最少限
にし実施を効率化するため、無視することができる。
【0028】文字列も、使用者が定めた文字又は文字列
によつて、除去又は置き換えることができる。
【0029】図2は文献の言語、論題などを識別するに
有用なアルゴリズムの概略を示す。主要なステツプを簡
単に図示したこの例により、以下にアルゴリズムの説明
をする。
【0030】違つた言語又は論題の知られた文献のサン
プルが参照文献として集められる。これらの参照文献が
とる形式には制限はない。如何なる出所からのサンプル
テキストでも用いられる。参照文献の数、及びこれらの
文献に含まれるn−グラムの数は、統計上十分な数がな
ければならない。言語識別のためには、それぞれが約1
万の文字をもつ約10件の文献が、統計上十分なサンプ
ルの大きさであることが経験的に決定されている。言語
識別よりも細かい区別である特定の言語内の論題識別に
は、それぞれが約1000の文字をもつ50の文献が、
統計上十分なサンプルの大きさである。
【0031】参照文献はn−グラムに分解される。この
分解は、各参照文献について、その参照文献内で発生す
るすべてのユニ−クなn−グラムの個々のリストを作る
ことによつて達成される(ここで、nは有用なある値が
代表値として決定される、例えばn=5)。未識別文献
も、ユニ−クなn−グラムのリストに分解される。
【0032】各ユニ−クなn−グラムに対して、ウェ−
ト(重み)が割当てられる。このウェ−トは、特定の参
照文献におけるn−グラムの発生する相対的頻度により
決定される(すなわち、相対的頻度とは、ある特定の参
照文献における、ある1つのn−グラムが発生する度数
を、その参照文献内におけるすべてのn−グラムの発生
する総合計数で割つた値である)。ウェ−トは、各参照
文献における各n−グラムと、未識別文献における各n
−グラムとに割当てられる。
【0033】次に、参照文献間の共通性が参照文献から
除去され、同様に未識別文献からも除去される。これ
は、まず、第1に、参照文献間のユニ−クなn−グラム
のリストを作ることにより行なわれる。第2に、共通性
ウェ−トが、その平的相対発生頻度に基づいて、特定の
参照文献におけるそれぞれのユニ−クなn−グラムに割
当てられる(すなわち、共通性ウェ−トとは、全参照文
献について1つのn−グラムに割当てられた個々のウェ
−トの合計を全参照文献数で割つた値である)。次い
で、各n−グラムの共通性ウェ−トが、各参照文献の対
応するn−グラムのウェ−トと、未識別文献内の対応す
るn−グラムのウェ−トから差引かれる。
【0034】それから、未識別文献が各参照文献と比較
される。これは各参照文献に対して未確認文献に点数を
付けることにより行なわれる。参照文献に対する未識別
文献の点数は、2つの文献間の類似性の程度を示すもの
となる。
【0035】未識別文献の点数付けは、まず、上述した
ように、参照文献から導き出した共通性ウェ−トを、未
識別文献内の対応するn−グラムのウェ−トから差引い
て決定する。もし、n−グラムが未識別文献に現れて参
照文献に現われないならば、そのn−グラムに対する共
通性ウエ−トはゼロに等しい。未識別文献(以下、Ui
という)の共通性を除去した各n−グラムのウェ−ト
は、参照文献(以下、Riという)内の対応するn−グ
ラムの共通性を除去したn−グラムのウェ−トに掛けら
れ、これらの積は合計される(すなわち、“積の合計”
である)。
【0036】この演算式は、以下の式(1)で表され
る。
【0037】
【数1】 参照文献における共通性を除去した各n−グラムのウェ
−トは、2乗される(すなわち、Ri**2)。次い
で、これら2乗した値は合計される。未識別文献中の共
通性を除去した各n−グラムのウェ−トは2乗される
(すなわち、Ui**2)。次いで、これら2乗した値
は合計される。これら2つの合計値は“合計値の積”を
形成するために掛けられる。
【0038】この演算式は、以下の式(2)で表され
る。
【0039】
【数2】 最後に、“積の合計”を“合計値の積”の平方根で割つ
て、特定の参照文献に対する未識別文献の点数を得る。
【0040】この演算式は、以下の式(3)で表わされ
る。
【0041】
【数3】 未識別文献には各参照文献に対して点数が与えられる。
使用者は、ある文献が、言語又は論題に関して参照文献
に類似することを識別するために、必要な閾値を決める
ことができる。使用者が決めた閾値が使用されるとき、
未識別文献が各参照文献のどれにも類似すると識別され
ない可能性がある。使用者はこの閾値を、未識別文献が
最高の点数を生じた参照文献と識別されるべきことを許
容することにより、この閾値の設定を避けることができ
る。
【0042】以下の例は本発明に含まれる数値ステツプ
を示す。これら例はアルゴリズムの個々のステツプの適
切な例であることを意図したもので、クレ−ムされた発
明についての制限と考えてはならない。
【0043】
【表1】 表1はグリ−ンランド語の参照文献(すなわち、“Na
nok nunaneissigtune”)を示す。
このサンプルの前処理は必要ない。このサンプルにおい
ては、2−グラムが用いられる。有り得ると考えられる
2−グラムの数を減らすため、小文字は大文字にされ、
多重のスペ−スは単一のスペ−ス(すなわち、“_”)
に減らされる。かくして、グリ−ンランド語の参照文献
は、“NANOK_NUNANE_ISSIGTUN
E”となる。
【0044】グリ−ンランド語の文献のすべてのユニ−
クな2−グラムは表1に示される。それらは、NA,A
N,NO,OK,K_,_N,NU,UN,NE,E
_,_I,IS,SS,SI,IG,GT,TU,であ
る。これら2−グラムの各々に対しウェ−トが付され
る。2−グラムのウェ−トは、特定の2−グラムの発生
頻度を、その参照文献中にある2−グラム(多分、非ユ
ニ−ク)の合計数により割ることによつて決定される
(すなわち、2−グラムのNAのウェ−トは2/21=
0.095である)。
【0045】
【表2】 表2はハワイ語(すなわち、“I hele mai
nei au e hai”)の参照文献である。すべ
ての参照文献が同一のn−グラム構造(例えば、この例
では、2−グラム)を用いて分解されなければならな
い。再び、あり得ると考えられる2−グラムの数を減ら
すために、小文字は大文字にされ、多重のスペ−スは単
一のスペ−スに減らされる。かくして、ハワイ語の参考
文献は、“I_HELE_MAI_NEI_AU_E_
HAI”となる。
【0046】ハワイ語のすべての2−グラムは表2に示
される。それらは、I_,_H,HE,EL,LE,E
_,_M,MA,AI,_H,HE,EI,_A,A
U,U_,E_,HA,である。上記のグリ−ンランド
語の参照文献において述べたと同じ方法で、各2−グラ
ムにウェ−ト付けが行なわれる(すなわち、2−グラム
のI_のウェ−トは3/22=0.136である)。
【0047】参照文献に含まれるn−グラムの数が類似
している必要性はない。また、アルゴリズムは文献の前
処理を必要としない。大文字化、多重スペ−スの単一ス
ペ−スへの減少処理も、この発明の適当な動作のために
必要なものではない。これらのステツプは、処理を強化
し、メモリに対する要求を減ずるために採用されている
ものである。
【0048】その後、参照文献の共通性が除かれる。こ
れは、まず第1に、表3に示すように、参照文献の全て
に含まれる全てのユニ−クな2−グラムを表にすること
により達成される(すなわち、NA、AN、NO、O
K、K_、_N、NU、UN、NE、E_、_I、I
S、SS、SI、IG、GT、TU、I_、_H、H
E、EL、LE、_M、MA、AI、EI、_A、A
U、U_、_E、HA)。
【0049】各ユニ−クな2−グラムの共通性ウェ−ト
は、各ユニ−クな2−グラムについての全参照文献に亙
るウェ−トの合計を、全参照文献の数で割ることで決定
される。例えば、2−グラムのNEについての共通性ウ
ェ−トは、(0.095+0.045)/2= 0.070 で、2−グラムの
NAについての共通性のウェ−トは(0.095+0)/2=0.048
となる。2−グラムのNAはグリ−ンランド語の参照
文献についてはウェ−トが0.095 で、ハワイ語の参照文
献については2−グラムNAが現れないのでウェ−トが
0であるからである。
【0050】共通性ウェ−トは、参照文献のそれぞれ対
し、特定の2−グラムの平均的な寄与の程度を示す。こ
の共通性は、1つの文献を他の文献からより明確に識別
するために、参照文献と未識別文献の両方から除かれ
る。
【0051】1つの文献における対応する2−グラムの
ウェ−トから共通性ウェ−トを差引くことにより、その
文献内の2−グラムのウェ−トから共通性が除去され
る。
【0052】例えば、グリ−ンランド語の参照文献から
2−グラムのNEについての共通性を除いたウェ−ト
は、0.095-0.070=0.025 で、ハワイ語の参照文献から2
−グラムのNEについての共通性を除いたウェ−トは、
0.045-0.070=-0.025となる。
【0053】共通性を除くステツプは処理動作を改善
し、文献の識別処理を単純化する。
【0054】
【表3】
【表4】
【表5】 表3は、文献間にまたがる各ユニ−クな2−グラムの共
通性ウェ−トの表である。これらの共通性ウェ−トは、
各参照文献と未識別文献の対応する2−グラムのウェ−
トから除かれる。表4はグリ−ンランド語におけるユニ
−クな2−グラムについて共通性を除いたウェ−トの表
で、表5はハワイ語におけるユニ−クな2−グラムにつ
いて共通性を除いたウェ−トの表である。
【0055】特定の参照文献についての共通性を除いた
ウェ−トは、未識別文献に対する参照文献の類似性の点
数を計算するために使用される。
【0056】
【表6】 表6は、未識別言語で書かれたテキスト(例えば“Ma
rtsime nanut”)の例である。未識別のテ
キストは参照文献のn−グラム構造と同一のn−グラム
構造(例えば、2−グラム)に分解されなけらばならな
い。再度、可能な2−グラムの数を減ずるため、小文字
は大文字に変換され、多重スペ−スは単一スペ−スに減
らされる。これにより、未識別文献は“MARTSIM
E_NANUT”となる。
【0057】表6に掲げる未識別文献のユニ−クな2−
グラムの総数は、MA、AR、RT、TS、SI、I
M、ME、E_、_N、NA、AN、NU、UTであ
る。ウェ−トが各2−グラムに割当てられる。再度、2
−グラムのウェ−トは、その2−グラムの発生頻度を、
未識別文献に現れた2−グラムの総数で割ることにより
決定される(例えば、未識別文献におけるMAのウェ−
トは、1/13=0.077) である。参照文献における共通性の
ウェ−トが、未識別文献における対応する2−グラムか
ら差引かれる(表6参照)。
【0058】図3に、グリ−ンランド語の参照文献に対
する未識別文献の類似性の点数が計算される例を示す。
これは、前述した式(3)により計算される。
【0059】ここで、Uiは未識別文献の、共通性を除
去した2−グラムのウェ−トを示し、また、Riは未識
別文献と対比するグリ−ンランド語の参照文献の、共通
性を除去した2−グラムのウェ−トを示す。
【0060】未識別文献の、共通性を除去した各2−グ
ラムのウェ−トは、グリ−ンランド語の参照文献の、対
応する共通性を除去した各2−グラムのウェ−トに掛け
られる。さらに、グリ−ンランド語の参照文献の共通性
を除去した各n−グラムのウェ−トは2乗され、これら
の2乗された結果の数値は合計される。
【0061】未識別文献の共通性を除去した各2−グラ
ムのウェ−トは2乗され、これらの2乗された結果の数
値は合計される。
【0062】これらの合計値は“合計の積”を形成する
ために掛けられる。
【0063】最後に、グリ−ンランド語の参照文献に対
する未識別文献の点数が、“積の合計”を“合計の積”
の平方根で割つて得られる。図3に示す結果は未識別文
献とグリ−ンランド語の参照文献との間の類似性を示す
点数である。
【0064】類似性を示す点数は、各参照文献について
計算される。最高の点数が得られた未識別文献は、参照
文献と類似していると識別することができ、又は、使用
者の設定した閾値を越える点数が得られた未識別文献は
参照文献と類似していると識別することができる。
【0065】後者のアプロ−チでは、識別は強制されな
い(例えば、未識別文献は参照文献の1つと類似してい
ると識別されなくともよい)。また、後者のアプロ−チ
では、多数の参照文献が使用者の設定した閾値を越える
点数を生ずるときは、未識別文献は多数の参照文献と類
似していると識別してもよい。
【0066】特定の言語、例えば英語の“is”、“t
he”、“and”、“with”、“for”等、言
語識別に有用なあるテキストの列は、通常その文献の論
題の識別には有用でない。この発明は、文献間の共通性
を除去することにより、論題についての文献間の区別を
見出だすという問題を解決するものである。
【0067】文献間の共通性の除去は、全文献内のn−
グラムの発生頻度の平均値を計算し、この平均値を各文
献内の対応するn−グラムの発生頻度の平均値から差し
引くことで達成できる。もし、ある文献がもう1つの文
献に、単純に類似しているならば、共通性の除去は、類
似性を決定する仕事を作りだす。論題に対する(類似性
判断の)感度は、人間の介在なしに、文献の言語に無関
係に達成することができる。文献(複数)が論題に関し
て相互に類似であるときは、使用者は、類似性を判断す
るために、再び閾値を設定することができる。
【0068】このアルゴリズムはいかなる言語にも等し
く働くが、論題の識別においては、共通言語(又はいく
つかの密に関連する言語)で記載された文献を比較する
ときにのみ働く。これは、論題がn−グラムによつて作
られたパタ−ンに関係するからである。n−グラムによ
つて作られたパタ−ンは、文献の言語によりコントロ−
ルされる。
【0069】論題の識別は、英語のように、相対的に少
ない文字からなる言語でも、表意文字(例えば、日本
語)のように、多くの文字からなる言語でも同様に実行
することができる。理論に拘束されることを望まない限
り、この発明の優れた結果が得られるものと信ずる。な
ぜならば、文献の論題は、その論題を討論するのに使用
されるn−グラムに拘束されるからである。論題の識別
は、その文献が使用されたn−グラムに類似する度合を
決定することになる。
【0070】図4は、デ−タベ−スから文献を検索する
のに使用するアルゴリズムの概略を示す。文献は希望す
る言語、又は論題について検索することができる。
【0071】デ−タベ−スは、典型的には、異なる言語
で記載された多数の論題に関する膨大な文献を含む。こ
れらの文献が特定の形式である必要はない。1つのn−
グラムの列は、各デ−タベ−スの文献について形成され
る。これは、各デ−タベ−スの文献について、その文献
に発生するユニ−クなn−グラムの表を作ることにより
達成される。
【0072】ウェ−トは、それぞれのユニ−クなn−グ
ラムに割当てられる。ウェ−トは、特定の文献について
の、n−グラムの発生頻度(例えば、特定の文献につい
て発生するn−グラムの数を、その文献内に発生する全
てのn−グラムの総数で割つた値)により決定される。
決定されたウェ−トは、各デ−タベ−スの文献における
それぞれのn−グラムに割当てられる。
【0073】デ−タベ−スの文献間の共通性は、デ−タ
ベ−スの文献と質問文とから除かれる。これは、まず第
1に、全ての文献内の全てのユニ−クなn−グラムを表
にし、第2に、共通性のウェ−トを、その平均相対的発
生頻度に基づいて、それぞれのユニ−クなn−グラムに
割当てる。それぞれのn−グラムの共通性のウェ−ト
は、各デ−タベ−スの文献内の対応するn−グラムのウ
ェ−トから、及び、質問文内の対応するn−グラムのウ
ェ−トから差し引かれる。
【0074】質問文は使用者により提出されるもので、
質問文は使用者がデ−タベ−スから検索することを希望
する文献の型(例えば、類似の論題又は言語に関する文
献)を表わす。
【0075】関心ある論題に関する質問文は、質問文の
言語で記載された論題の文献を検索する結果となること
に注目すべきである。質問文の言語と異なる言語で記載
された論題の文献は、通常は検索されない。これは、異
なる言語では、同一論題を表現するのに、典型的には、
異なるn−グラムを使用するからである。
【0076】つぎに、質問文はn−グラムに分解され
る。これは、質問文に発生する全てのユニ−クな全ての
n−グラムを表にすることで、達成される。
【0077】ウェ−トが、質問文内のそれぞれのユニ−
クなn−グラムに割当てられる。ウェ−トは、質問文に
ついての、n−グラムの発生頻度により決定される。つ
いで、共通性のウェ−トが、質問文内の対応するn−グ
ラムから差引かれる。それから、デ−タベ−スの文献の
それぞれに対して、質問文の点数を付けることにより、
質問文がデ−タベ−スの文献と比較される。
【0078】点数は、以下の処理で得られる。
【0079】第1に、質問文(例えば、Qi)の、それ
ぞれの共通性を除去したn−グラムを、デ−タベ−スの
文献(例えば、Di)の対応する共通性を除去したn−
グラムに掛け、得られた積は合計される(すなわち、
“積の合計”)。
【0080】この演算式は、以下の式(4)で表わされ
る。
【0081】
【数4】 デ−タベ−スの文献のそれぞれのn−グラムは2乗され
る(例えば、Di**2)。これらの2乗された数値は
合計される(すなわち、“積の合計”)。
【0082】質問文のそれぞれのn−グラムは2乗され
る(例えば、Qi**2)。これらの2乗された数値は
合計される。これらの合計は“合計の積”を形成するた
めに、相互に掛けられる。
【0083】この演算式は、以下の式(5)で表され
る。
【0084】
【数5】 最後に、質問文に対するデ−タベ−スの文献の点数が、
“積の合計”を“合計の積”の平方根で割つて得られ
る。
【0085】この演算式は、以下の式(6)で表され
る。
【0086】
【数6】 点数は、質問文に対するそれぞれのデ−タベ−スの文献
について算出される。使用者は、デ−タベ−スの文献
が、言語又は論題に関して、質問文に類似しているか否
かを決定するのに使用するために、閾値を決定する。
【0087】言語の識別を含む上記ステツプの例は、デ
−タベ−スから文献を検索するためのこのアルゴリズム
に含まれるステツプの叙述のために適用することができ
る。
【0088】n−グラムは、デ−タベ−スの文献を、文
献様のものを含むカテゴリ−に分類することに関連する
問題の解決にも使用することができる。この発明のアル
ゴリズムは、使用者にいかなる指針も、上述した処理を
越えるいかなるデ−タベ−スの前処理も必要としない。
デ−タベ−スは言語、又は論題のカテゴリ−に分類する
ことができる。文献は容易に異なるカテゴリ−にクロス
して参照することができる(すなわち、1つの文献は特
定の論題のカテゴリ−に分類できると同様に、特定の言
語のカテゴリ−に分類することができる)。
【0089】図5は、デ−タベ−スの文献をカテゴリ−
に分類するのに使用されるアルゴリズムを示す。文献は
言語、又は論題について分類することができる。デ−タ
ベ−スは、典型的には、膨大な数の文献を包含する。こ
れらの文献は、異なる論題を扱うものでよく、異なる言
語で記載されていてもよい。これらの文献は特定の形式
で記載されている必要はない。
【0090】1つのn−グラムの列がそれぞれのデ−タ
ベ−スの文献について形成される。これは、それぞれの
デ−タベ−スの文献について、その文献に発生するユニ
−クなn−グラムの表を、別々に作ることによつて達成
される。ウェ−トが各ユニ−クなn−グラムに割当てら
れる。ウェ−トは、その特定の文献のn−グラムの発生
頻度によつて決定される。そして、ウェ−トは、各デ−
タベ−スの文献のそれぞれのn−グラムに割当てられ
る。
【0091】デ−タベ−ス文献間の共通性が、各デ−タ
ベ−ス文献から除去される。これは、まず第1に、文献
に発生するユニ−クなn−グラムを表にすることで達成
される(すなわち、仮に1つの大きな文献を、分離した
デ−タベ−ス文献として考え、この1つの文献内に発生
するユニ−クなn−グラムを表に作る)。第2に、共通
性のウェ−トを発生頻度(すなわち、全てのデ−タベ−
スの文献の特定のn−グラムの発生総数を、全てのデ−
タベ−スの文献内のユニ−クなn−グラムの総数で割つ
た値)に基づいて割当てる。
【0092】それぞれの共通性のウェ−トは、デ−タベ
−スの文献の総数で割られる。それぞれのn−グラムの
共通性のウェ−トが、各デ−タベ−スの文献内の対応す
るn−グラムのウェ−トから差し引かれる。
【0093】各デ−タベ−スの文献は、他のデ−タベ−
スの文献のそれぞれと比較される。これは、他のデ−タ
ベ−ス文献に対するそのデ−タベ−ス文献の点数を付け
ることで達成される。
【0094】点数は、以下の処理で得られる。
【0095】第1に、あるデ−タベ−スの文献(例え
ば、D1i)から共通性を除去したn−グラムを、比較
すべきデ−タベ−スの文献(例えば、D2i)の対応す
る共通性を除去したn−グラムと掛け、得られた積は合
計される(すなわち、“積の合計”)。この演算式は、
以下の式(7)で表される。
【0096】
【数7】 第1のデ−タベ−スの文献の、それぞれの共通性を除去
したn−グラムのウェ−トが2乗される(例えば、D1
i**2)。これらの2乗された数値は合計される(す
なわち、“積の合計”)。
【0097】第1のデ−タベ−スの文献と比較される第
2のデ−タベ−スの文献の、それぞれの共通性を除去し
たn−グラムのウェ−トが2乗される(例えば、D2i
**2)。これらの2乗された数値は合計される(すな
わち、“積の合計”)。
【0098】これらの2乗された数値は合計される。こ
れらの合計は“合計の積”を形成するために、相互に掛
けられる。
【0099】この演算式は、以下の式(8)で表され
る。
【0100】
【数8】 最後に、第2のデ−タベ−スの文献に対する第1のデ−
タベ−スの文献の点数が、“積の合計”を“合計の積”
の平方根で割つて得られる。
【0101】この演算式は、以下の式(9)で表され
る。
【0102】
【数9】 点数は、他のデ−タベ−スの文献のそれぞれに対するそ
れぞれのデ−タベ−ス文献について算出される。使用者
は、比較される2つのデ−タベ−スの文献が、類似して
いるか否かを宣言するために、閾値を決定する。類似の
文献が、言語又は論題についての類似のカテゴリ−に分
類される。
【0103】言語の識別を含む上記ステツプの例は、デ
−タベ−スの文献を分類するための、このアルゴリズム
に含まれるステツプの叙述のために適用することができ
る。
【0104】図6は、この発明の方法を実施するコンピ
ユ−タの構成の一例を示すブロツク図である。この発明
の方法を実施するコンピユ−タは、一般のデ−タ処理に
使用される汎用のコンピユ−タが使用できる。
【0105】図において、1は鍵盤、その他の入力装
置、2はプロセツサ、3は磁気デイスク、磁気テ−プ等
の外部記憶装置、4はCRTなどの表示装置、5はプリ
ンタその他の出力装置を示す。
【0106】入力装置1はプロセツサ2へ各種の操作指
令を入力するほか、磁気デイスク、磁気テ−プ等の外部
記憶装置3へプログラム、処理すべき参照文献、未識別
文献の入力などにも使用される。
【0107】プロセツサ2は、この発明のアルゴリズム
に基づく処理プログラムによるデ−タ処理、接続された
入力装置1、外部記憶装置3、表示装置4、出力装置5
の制御を行う。また、プロセツサ2はその内部にランダ
ム記憶装置RAMを備え、RAMはプログラムの一時記
憶のほか、処理すべき参照文献、未識別文献の一時記
憶、表1乃至表6のような中間処理の結果の一時記憶、
演算式による演算結果の一時記憶などに使用される。
【0108】外部記憶装置3はこの発明のアルゴリズム
に基づく処理プログラムの記憶のほか、処理すべき参照
文献などのデ−タベ−ス、未識別文献などのデ−タの記
録、処理の結果得られたデ−タの記録等に使用される。
【0109】表示装置4は表1乃至表5のような中間処
理の結果、演算結果の表示、その他コンピユ−タ処理に
必要な表示に使用される。出力装置5は表1乃至表6の
ような中間処理の結果、演算結果のプリントに使用され
る。
【0110】デ−タ処理の概略は、先に説明した図1、
図2、図4、図5に示されている通りである。
【0111】特に記載された実施例中の変更や変形は、
特にこの発明を実施するために使用するプログラミング
言語と、n−グラムのウェ−トから類似性の点数を導き
出す特定の数式については、添付されたクレ−ムの範囲
によつてのみ限定されることを意図したこの発明の範囲
から逸脱しない限り実施することができる。
【0112】
【発明の効果】テキスト処理に関する現在の研究活動
は、内容に基礎を置く(すなわち、言語学)解析に焦点
が当てられている。この発明は、単にパタ−ン認識(す
なわち、非言語学)に焦点が当てられている。この発明
は、構文、意味論、文法の属するいかなる追加情報も必
要としない。n−グラム解析を論題の識別に適用する利
益は、現在まで完全には認められてきたものではなかつ
た。
【0113】この発明の論題識別方法は、いかなる言語
においても、等しい容易さ(ただし、1度に1つの言語
で)をもつて扱われる。それは、テキス言語を理解しな
い者によつて開始でき、特別の訓練を必要としない。こ
の方法は、歪められたテキスト(すなわち、誤りを含む
テキスト)の存在においても力強く作用する。使用者
は、もし、文献が類似の場合は、類似性の決定のために
閾値を設定する。情報的でない(情報を含まない)共通
性は自動的に文献から除去される。
【図面の簡単な説明】
【図1】言語識別アルゴリズムの概略を説明する図。
【図2】文献の言語、論題などを識別するアルゴリズム
の概略を説明する図。
【図3】グリ−ンランド語の参照文献に対する未識別文
献の類似性の点数の計算例を示す図。
【図4】デ−タベ−スから文献を検索するのに使用する
アルゴリズムの概略を説明する図。
【図5】デ−タベ−スの文献をカテゴリ−に分類するの
に使用されるアルゴリズムを概略を説明する図。
【図6】この発明の方法を実施するコンピユ−タの構成
の一例を示すブロツク図である。
【符号の説明】
1 入力装置 2 プロセツサ 3 外部記憶装置 4 表示装置 5 出力装置

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 次のステツプから成る、テキストの言語
    を決定する方法。(a)nが少くとも1の値をもち、各
    n−グラムがテキスト本体のn個の連続した文字/スペ
    −スの位置の内容から成る複数のn−グラムに上記テキ
    スト本体を分解すること、(b)前記各n−グラムを、
    各n−グラムの組が異なる言語を表わす複数のn−グラ
    ムの組と比較すること、(c)特定のn−グラムの組に
    対するステツプ(b)の合致率が、そのn−グラムの組
    に対する所定値に少くとも等しく、かつ他のn−グラム
    の組に対するステツプ(b)の合致率よりも大きいと
    き、上記テキスト本体の言語を上記特定のn−グラムの
    組の言語で書かれたものとして識別すること。
  2. 【請求項2】 次のステツプから成る文献を識別する方
    法。 (a)機械読み取り可能な形式の複数の参照文献の各々
    に対し、各n−グラムが少くとも1つの連続した文献要
    素から成る、n−グラムの参照列を作ること。 (b)機械読み取り可能な形式の未識別文献を、各n−
    グラムが少くとも1つの連続した文献要素から成る、複
    数のn−グラムに分解すること。 (c)ステツプ(a)の各n−グラムにウェ−トを付け
    ること。 (d)ステツプ(b)の各n−グラムにウェ−トを付け
    ること。 (e)上記複数の参照列間の共通性を除去すること。 (f)各未識別文献のn−グラムを上記参照文献のn−
    グラム列と比較し、上記未識別文献と上記各参照列との
    間の類似性の程度を示す点数表を作成すること。 (g)ステツプ(f)における点数が、使用者が決め
    た、上記参照文献の列に対する値と少くとも等しいと
    き、リストされた複数の参照文献の少くとも1つに類似
    であると識別すること。
  3. 【請求項3】 n−グラム参照列を作成する上記ステツ
    プが次のことにより行なわれる、請求項2記載の方法。 (a)対応する参照文献内に発生するすべてのユニ−ク
    なn−グラムをリストすること。 (b)上記参照文献の各n−グラムにウェ−トを付ける
    こと。
  4. 【請求項4】 上記参照文献の各n−グラムにウェ−ト
    を付ける上記ステツプが、次のことにより行なわれる、
    請求項3記載の方法。 (a)上記参照文献における各ユニ−クなn−グラムの
    発生回数を計算すること。(b)上記参照文献における
    n−グラムの総数によりステツプ(a)の各計算値を割
    ること。及び、 (c)ステツプ(b)において計算された各商を、n−
    グラムのウェ−トとして対応するn−グラムに割当てる
    こと。
  5. 【請求項5】 上記共通性を除去するステツプが、次の
    ことにより行なわれる請求項4記載の方法。 (a)上記複数の参照文献内に発生するユニ−クなn−
    グラムのリストを作ること。 (b)上記n−グラムに対するウェ−トの合計を表わす
    各n−グラムの合計を上記複数の参照文献から作るこ
    と。 (c)ステツプ(b)の各合計を参照文献の総数により
    割ること。 (d)上記複数の各参照文献内において対応するn−グ
    ラムのウェ−トからステツプ(c)の商を差引くこと。
  6. 【請求項6】 上記未識別文献の各n−グラムに対し、
    ウェ−トを付けるステツプが、次のことにより行なわれ
    る、請求項5記載の方法。 (a)上記未識別文献内の各ユニ−クなn−グラムの発
    生回数を計算すること。 (b)ステツプ(a)の各計算値を上記未識別文献内の
    n−グラムの総数により割ること。 (c)ステツプ(b)における各商から対応するn−グ
    ラムの共通性ウェ−トを差引くこと。及び、 (g)ステツプ(c)の結果を、そのn−グラムのウェ
    −トとして対応するn−グラムに割当てること。
  7. 【請求項7】 点数表を作るために上記の比較するステ
    ツプが、次のことにより行なわれる請求項6記載の方
    法。 (a)上記未識別文献内のn−グラムのウェ−トに上記
    参照文献内の1つの列における対応するn−グラムのウ
    ェ−トを掛けること。 (b)上記未識別文献からの各n−グラムのウェ−ト
    が、参照文献内に、もし対応するn−グラムのウェ−ト
    があれば、そのウェ−トを掛け終るまで、ステツプ
    (a)を反復すること。 (c)ステツプ(a)と(b)との積を合計すること。 (d)上記未識別文献内の各n−グラムのウェ−トを2
    乗すること。 (e)ステツプ(d)の上記未識別文献のウェ−トを2
    乗したものを合計すること。 (f)ステツプ(a)の上記参照列の各n−グラムのウ
    ェ−トを2乗すること。 (g)ステツプ(f)の上記参照列のウェ−トを2乗し
    たものを合計すること。 (h)ステツプ(e)の合計にステツプ(g)の合計を
    掛けること。 (i)ステツプ(h)の積の平方根をとること。 (j)ステツプ(i)において計算された数でステツプ
    (c)の合計を割り、ステツプ(a)の上記未識別文献
    と上記参照文献との間の類似性の点数を作ること。
    (k)上記複数の参照文献に対する未識別文献の類似性
    の点数を作るために、上記複数の参照文献に対しステツ
    プ(a)から(j)までを反復すること。
  8. 【請求項8】 上記分解のステツプが、次のことにより
    行なわれる、請求項7記載の方法。 (a)使用者が決めた、文献要素の組に、許容し得る文
    献要素を制限すること。 (b)少くとも1つの文献要素から成る、使用者が決め
    た文献要素列を、少くとも1つの文献要素から成る、使
    用者が決めた要素列で置き換えること。 (c)使用者が決めた文献要素列を削除すること。
  9. 【請求項9】 許容し得る文献要素を、使用者が決めた
    文献要素の組に制限するステツプが、許容し得る文献要
    素を複数の言語の文字に制限することにより行なわれ
    る、請求項8記載の方法。
  10. 【請求項10】 上記未識別文献を識別する上記ステツ
    プが、上記未識別文献の言語を識別することにより行な
    われる、請求項9記載の方法。
  11. 【請求項11】 上記識別文献を識別する上記ステツプ
    が、上記未識別文献の論題を識別することにより行なわ
    れる、請求項9記載の方法。
  12. 【請求項12】 次のステツプから成る文献検索方法。 (a)機械読み取り可能な形式の複数の参照文献の各々
    に対し、各n−グラムが少くとも1つの連続した文献要
    素から成るn−グラム参照列を作ること。 (b)ステツプ(a)の各n−グラムにウェ−トを割当
    てること。 (c)ステツプ(a)の複数の参照列間の共通性を除去
    すること。 (d)機械読み取り可能の質問文を、各n−グラムが少
    くとも1つの連続した文献要素から成る複数のn−グラ
    ムに分解すること。 (e)ステツプ(d)の各n−グラムにウェ−トを割当
    てること。 (f)ステツプ(d)の質問文の各n−グラムをステツ
    プ(a)の複数の参照列の各々のn−グラムと比較し
    て、上記質問文と複数の参照文献の各々との間の類似度
    を示す点数のリストを作成すること。及び、 (g)ステツプ(f)における点数が、使用者が決めた
    値に少くとも等しいとき、複数の参照文献を上記質問文
    に類似であるとして識別すること。
  13. 【請求項13】 n−グラム参照列を作る上記ステツプ
    が、次のことにより行なわれる請求項12記載の方法。 (a)対応する参照文献内に発生するすべてのユニ−ク
    なn−グラムをリストをすること。 (b)上記参照文献の各n−グラムにウェ−トを割当て
    ること。
  14. 【請求項14】 上記参照文献の各n−グラムにウェ−
    トを割当てる上記ステツプが、次のことにより行なわれ
    る請求項13記載の方法。 (a)上記参照文献における各n−グラムの発生数を計
    算すること。 (b)上記参照文献における各n−グラムの合計数でス
    テツプ(a)の計算値を割ること。 (c)ステツプ(b)で計算された各商を、そのn−グ
    ラムのウェ−トとして、対応するn−グラムに割当てる
    こと。
  15. 【請求項15】 上記共通性除去のステツプは、次のこ
    とにより行なわれる請求項14記載の方法。 (a)上記複数の参照文献において発生するユニ−クな
    n−グラムのリストを作ること。 (b)上記複数の参照文献から上記n−グラムのウェ−
    トの合計を表わす各n−グラムの合計を作ること。 (c)ステツプ(b)の各合計値を参照文献の全数によ
    り割ること。 (d)ステツプ(c)の商を、複数の各参照文献におけ
    る対応するn−グラムウェ−トから差引くこと。
  16. 【請求項16】 上記質問文の各n−グラムにウェ−ト
    を割当てるステツプは、次のことにより行なわれる請求
    項15記載の方法。 (a)上記質問文における各ユニ−クなn−グラムの発
    生数を計算すること。 (b)ステツプ(a)の各計算値を上記質問文の各n−
    グラムの合計数により割ること。 (c)ステツプ(b)における各商から、対応するn−
    グラムの共通性ウェ−トを差引くこと。 (d)ステツプ(c)の結果をn−グラムウェ−トとし
    て対応するn−グラムに割当てること。
  17. 【請求項17】 点数のリストを作るための比較ステツ
    プは、次のことから成る請求項16記載の方法。 (a)上記質問文のn−グラムのウェ−トを上記参照列
    の1つの対応するn−グラムのウェ−トによつて割るこ
    と。 (b)質問文からのすべてのn−グラムのウェ−トが、
    参照列内の対応するn−グラムのウェ−トにより割り終
    るまで、ステツプ(a)を反復すること。 (c)ステツプ(a)と(b)との積を加算すること。 (d)上記質問文における各n−グラムのウェ−トを2
    乗すること。 (e)ステツプ(d)の上記質問文のウェ−トの2乗を
    合計すること。 (f)ステツプ(a)の上記参照列内の各n−グラムの
    ウェ−トを2乗すること。(g)ステツプ(f)の上記
    参照列のウェ−トを2乗すること。 (h)ステツプ(e)の合計にステツプ(g)の合計を
    掛けること。 (i)ステツプ(h)の積の平方根を求めること。 (j)上記質問文とステツプ(a)の上記参照情報との
    間の類似性の点数を作るため、ステツプ(c)の合計を
    ステツプ(i)の計算値により割ること。 (k)上記複数の参照文献の各々に関し上記質問文にお
    ける類似性の点数を作るために、ステツプ(a)からス
    テツプ(j)までを反復すること。
  18. 【請求項18】 上記分解ステツプは次のことにより行
    なわれる、請求項17記載の方法。 (a)許容し得る文献要素を使用者が決めた文献要素の
    組に制限すること。 (b)少くとも1つの文献要素から成る、使用者が決め
    た文献要素の列を、少くとも1つの文献要素から成る使
    用者が決めた要素の列と置き換えること。 (c)使用者が決めた文献要素の列を削除すること。
  19. 【請求項19】 許容し得る文献要素を使用者が決めた
    文献要素の組に制限する上記ステツプは、許容し得る文
    献要素を複数の言語の文字に制限することにより行なわ
    れる、請求項18記載の方法。
  20. 【請求項20】 上記複数の参照文献を機械読み取り可
    能な形式の質問文と類似として識別することにより行な
    われる請求項19記載の方法。
  21. 【請求項21】 上記複数の参照文献を上記質問文に類
    似として識別するステツプは、上記複数の参照文献を上
    記質問文の論題に類似として識別することにより行なわ
    れる、請求項19記載の方法。
  22. 【請求項22】 次のことから成る文献を分類する方
    法。 (a)機械読み取り可能な形式の複数の文献の各々に対
    し、各n−グラムが少くとも1つの連続した情報要素か
    ら成るn−グラムを作ること。 (b)ステツプ(a)の各n−グラムにウェ−トを割当
    てること。 (c)上記複数の列間の共通性を除去すること。 (d)上記列の各々間の類似度を示す点数のリストを作
    るために、各列をすべての他の列と比較すること。 (e)ステツプ(d)の点数と使用者が決定可能の寛大
    さに基づき上記文献をカテゴリ−に分類すること。
  23. 【請求項23】 n−グラム列を作る上記ステツプは次
    のことにより行なわれる請求項22記載の方法。 (a)対応する文献内に発生するすべてのn−グラムを
    リストをすること。 (b)ステツプ(a)の各n−グラムにウェ−トを割当
    てること。
  24. 【請求項24】 上記列の各n−グラムにウェ−トを割
    当てる上記ステツプは次のことにより行なわれる請求項
    23記載の方法。 (a)上記文献内の各n−グラム発生度数を計算するこ
    と。 (b)ステツプ(a)の各計算値を上記文献内のn−グ
    ラムの総数で割ること。 (c)ステツプ(b)の各商をそのn−グラムのウェ−
    トとして対応するn−グラムに割当てること。
  25. 【請求項25】 上記共通性除去のステツプは次のこと
    により行なわれる請求項24記載の方法。 (a)上記複数の文献内に発生するユニ−クなn−グラ
    ムのリストを作ること。 (b)上記複数の文献から、そのn−グラムのウェ−ト
    の合計を表わす各n−グラムの合計を作ること。 (c)文献の総数によつて各合計を割ること。 (d)複数の上記各文献内の対応するn−グラムのウェ
    −トから上記(c)の商を差引くこと。
  26. 【請求項26】 点数のリストを作るための上記比較ス
    テツプは次のことにより行なわれる、請求項25記載の
    方法。 (a)上記複数の文献の1つ内のn−グラムのウェ−ト
    に上記複数の文献の他の1つ内の対応するn−グラムの
    ウェ−トを掛けること。 (b)第1の文献の各n−グラムウェ−トに第2の文献
    の対応するn−グラムのウェ−トを掛け終つてしまうま
    でステツプ(a)を反復すること。 (c)ステツプ(a)とステツプ(b)との積を合計す
    ること。 (d)上記第1の文献内の各n−グラムのウェ−トを2
    乗すること。 (e)ステツプ(d)内の上記第1の文献の各n−グラ
    ムのウェ−トを2乗したものを加算すること。 (f)ステツプ(a)の上記第2の文献の各n−グラム
    のウェ−トを2乗すること。 (g)ステツプ(f)の第2の文献のウェ−トを2乗し
    たものを加算すること。 (h)ステツプ(e)の合計にステツプ(g)の合計を
    掛けること。 (i)ステツプ(h)における積の平方根をとること。 (j)ステツプ(a)の上記第1の文献と上記第2の文
    献との間の類似性の点数を作るために、ステツプ(c)
    の合計をステツプ(i)において計算した数によつて割
    ること。 (k)上記複数の文献の各々に関し各文献に対する類似
    性の点数を作るために、各文献に対しステツプ(a)か
    らステツプ(j)までを反復すること。
JP04301549A 1992-08-20 1992-10-15 同一の論題に関係する文献を検索する方法 Expired - Fee Related JP3095552B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US93252292A 1992-08-20 1992-08-20
US07/932,522 1992-08-20

Publications (2)

Publication Number Publication Date
JPH06110948A true JPH06110948A (ja) 1994-04-22
JP3095552B2 JP3095552B2 (ja) 2000-10-03

Family

ID=25462436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04301549A Expired - Fee Related JP3095552B2 (ja) 1992-08-20 1992-10-15 同一の論題に関係する文献を検索する方法

Country Status (6)

Country Link
US (1) US5418951A (ja)
JP (1) JP3095552B2 (ja)
DE (1) DE4232507A1 (ja)
FR (1) FR2694984B1 (ja)
GB (1) GB9220404D0 (ja)
NL (1) NL194809C (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334515A (ja) * 1994-06-03 1995-12-22 Nippon Steel Corp 情報検索方法および装置
JPH09153051A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 類似文書検索方法
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム
US6246976B1 (en) 1997-03-14 2001-06-12 Omron Corporation Apparatus, method and storage medium for identifying a combination of a language and its character code system
US6473754B1 (en) 1998-05-29 2002-10-29 Hitachi, Ltd. Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
JP2005063419A (ja) * 2003-07-31 2005-03-10 Ricoh Co Ltd 言語識別装置、プログラム及び記録媒体
JP2009104606A (ja) * 1999-04-09 2009-05-14 Internatl Business Mach Corp <Ibm> 望ましくない電子メッセージの送信または受信を妨害するための方法
JP2013069157A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 自然言語処理装置、自然言語処理方法および自然言語処理プログラム
US11989215B2 (en) 2020-04-24 2024-05-21 Roblox Corporation Language detection of user input text for online gaming

Families Citing this family (424)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5537586A (en) * 1992-04-30 1996-07-16 Individual, Inc. Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US6243071B1 (en) * 1993-11-03 2001-06-05 Apple Computer, Inc. Tool set for navigating through an electronic book
US5548507A (en) 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5754850A (en) * 1994-05-11 1998-05-19 Realselect, Inc. Real-estate method and apparatus for searching for homes in a search pool for exact and close matches according to primary and non-primary selection criteria
US5752051A (en) * 1994-07-19 1998-05-12 The United States Of America As Represented By The Secretary Of Nsa Language-independent method of generating index terms
US5708804A (en) * 1994-07-25 1998-01-13 International Business Machines Corp. Apparatus and method therefor of intelligently searching for information in a personal communications device
JP2729356B2 (ja) * 1994-09-01 1998-03-18 日本アイ・ビー・エム株式会社 情報検索システム及び方法
US5778371A (en) * 1994-09-13 1998-07-07 Kabushiki Kaisha Toshiba Code string processing system and method using intervals
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US5826241A (en) 1994-09-16 1998-10-20 First Virtual Holdings Incorporated Computerized system for making payments and authenticating transactions over the internet
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
US5864683A (en) * 1994-10-12 1999-01-26 Secure Computing Corporartion System for providing secure internetwork by connecting type enforcing secure computers to external network for limiting access to data based on user and process access rights
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
EP0744702B1 (en) * 1995-05-22 2002-11-13 Matsushita Electric Industrial Co., Ltd. Information searching apparatus for searching text to retrieve character streams agreeing with a key word
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
JPH0981574A (ja) * 1995-09-14 1997-03-28 Fujitsu Ltd 検索集合表示画面を利用したデータベース検索法およびシステム
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US5794237A (en) * 1995-11-13 1998-08-11 International Business Machines Corporation System and method for improving problem source identification in computer systems employing relevance feedback and statistical source ranking
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US5787420A (en) * 1995-12-14 1998-07-28 Xerox Corporation Method of ordering document clusters without requiring knowledge of user interests
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5913024A (en) 1996-02-09 1999-06-15 Secure Computing Corporation Secure server utilizing separate protocol stacks
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US6081798A (en) * 1996-04-24 2000-06-27 International Business Machines Corp. Object oriented case-based reasoning framework mechanism
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5813002A (en) * 1996-07-31 1998-09-22 International Business Machines Corporation Method and system for linearly detecting data deviations in a large database
US6745194B2 (en) 2000-08-07 2004-06-01 Alta Vista Company Technique for deleting duplicate records referenced in an index of a database
US5765150A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Method for statistically projecting the ranking of information
US5765149A (en) * 1996-08-09 1998-06-09 Digital Equipment Corporation Modified collection frequency ranking method
US5745890A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
US6023670A (en) * 1996-08-19 2000-02-08 International Business Machines Corporation Natural language determination using correlation between common words
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US5909680A (en) * 1996-09-09 1999-06-01 Ricoh Company Limited Document categorization by word length distribution analysis
US6072942A (en) * 1996-09-18 2000-06-06 Secure Computing Corporation System and method of electronic mail filtering using interconnected nodes
US6144934A (en) * 1996-09-18 2000-11-07 Secure Computing Corporation Binary filter using pattern recognition
WO1998012616A2 (en) 1996-09-23 1998-03-26 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US6002998A (en) * 1996-09-30 1999-12-14 International Business Machines Corporation Fast, efficient hardware mechanism for natural language determination
US5774888A (en) * 1996-12-30 1998-06-30 Intel Corporation Method for characterizing a document set using evaluation surrogates
US5778363A (en) * 1996-12-30 1998-07-07 Intel Corporation Method for measuring thresholded relevance of a document to a specified topic
US5842217A (en) * 1996-12-30 1998-11-24 Intel Corporation Method for recognizing compound terms in a document
US5924105A (en) * 1997-01-27 1999-07-13 Michigan State University Method and product for determining salient features for use in information searching
US6415319B1 (en) 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US6977574B1 (en) * 1997-02-14 2005-12-20 Denso Corporation Stick-type ignition coil having improved structure against crack or dielectric discharge
JP3173411B2 (ja) * 1997-03-17 2001-06-04 富士ゼロックス株式会社 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
CA2242065C (en) 1997-07-03 2004-12-14 Henry C.A. Hyde-Thomson Unified messaging system with automatic language identification for text-to-speech conversion
US5978797A (en) * 1997-07-09 1999-11-02 Nec Research Institute, Inc. Multistage intelligent string comparison method
US6016546A (en) * 1997-07-10 2000-01-18 International Business Machines Corporation Efficient detection of computer viruses and other data traits
US6029167A (en) * 1997-07-25 2000-02-22 Claritech Corporation Method and apparatus for retrieving text using document signatures
US6760746B1 (en) * 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
US6094651A (en) * 1997-08-22 2000-07-25 International Business Machines Corporation Discovery-driven exploration of OLAP data cubes
US6003029A (en) * 1997-08-22 1999-12-14 International Business Machines Corporation Automatic subspace clustering of high dimensional data for data mining applications
DE69809263T2 (de) * 1997-09-04 2003-07-10 British Telecommunications P.L.C., London Methoden ud system zur wahl von datensets
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
US6112172A (en) * 1998-03-31 2000-08-29 Dragon Systems, Inc. Interactive searching
US5991714A (en) * 1998-04-22 1999-11-23 The United States Of America As Represented By The National Security Agency Method of identifying data type and locating in a file
US6314421B1 (en) 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6169969B1 (en) * 1998-08-07 2001-01-02 The United States Of America As Represented By The Director Of The National Security Agency Device and method for full-text large-dictionary string matching using n-gram hashing
US7039856B2 (en) * 1998-09-30 2006-05-02 Ricoh Co., Ltd. Automatic document classification using text and images
US6397205B1 (en) 1998-11-24 2002-05-28 Duquesne University Of The Holy Ghost Document categorization and evaluation via cross-entrophy
US6292772B1 (en) * 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US8037168B2 (en) 1999-07-15 2011-10-11 Esdr Network Solutions Llc Method, product, and apparatus for enhancing resolution services, registration services, and search services
USRE43690E1 (en) 1999-03-22 2012-09-25 Esdr Network Solutions Llc Search engine request method, product, and apparatus
US7188138B1 (en) 1999-03-22 2007-03-06 Eric Schneider Method, product, and apparatus for resource identifier registration and aftermarket services
US6338082B1 (en) 1999-03-22 2002-01-08 Eric Schneider Method, product, and apparatus for requesting a network resource
US9141717B2 (en) 1999-03-22 2015-09-22 Esdr Network Solutions Llc Methods, systems, products, and devices for processing DNS friendly identifiers
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
US6546383B1 (en) * 1999-06-09 2003-04-08 Ricoh Company, Ltd. Method and device for document retrieval
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
WO2001007982A2 (en) * 1999-07-22 2001-02-01 Silicon Valley Bank Method and system for providing information responsive to a user
US20020023123A1 (en) * 1999-07-26 2002-02-21 Justin P. Madison Geographic data locator
US6370535B1 (en) 1999-08-20 2002-04-09 Newsgems Llc System and method for structured news release generation and distribution
US6289350B1 (en) 1999-08-20 2001-09-11 Newsgems Llc System and method for structured news release generation and distribution
WO2001014999A2 (en) * 1999-08-20 2001-03-01 Newsgems Llc System and method for structured news release generation and distribution
US8214386B2 (en) * 1999-08-20 2012-07-03 Newgems Llc System and method for structured news release generation and distribution
US6785810B1 (en) 1999-08-31 2004-08-31 Espoc, Inc. System and method for providing secure transmission, search, and storage of data
USRE44207E1 (en) 1999-09-01 2013-05-07 Esdr Network Solutions Llc Network resource access method, product, and apparatus
US6876991B1 (en) 1999-11-08 2005-04-05 Collaborative Decision Platforms, Llc. System, method and computer program product for a collaborative decision platform
US6529902B1 (en) * 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
KR100530475B1 (ko) 1999-11-10 2006-01-09 론치 미디어, 인크. 인터넷 라디오와 방송 방법
US7711738B1 (en) * 1999-11-15 2010-05-04 West Services, Inc. Method, system and computer-readable medium for accessing and retrieving court records, items and documents
US6714944B1 (en) * 1999-11-30 2004-03-30 Verivita Llc System and method for authenticating and registering personal background data
AU2212801A (en) * 1999-12-07 2001-06-18 Qjunction Technology, Inc. Natural english language search and retrieval system and method
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US20010049707A1 (en) * 2000-02-29 2001-12-06 Tran Bao Q. Systems and methods for generating intellectual property
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8706618B2 (en) 2005-09-29 2014-04-22 Ebay Inc. Release of funds based on criteria
US7499875B1 (en) 2000-03-17 2009-03-03 Ebay Inc. Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments
AU2001245754A1 (en) 2000-03-17 2001-10-03 Ebay, Inc. Method and apparatus for facilitating online payment transactions in a network-based transaction facility using multiple payment instruments
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US6711558B1 (en) 2000-04-07 2004-03-23 Washington University Associative database scanning and information retrieval
US7139743B2 (en) * 2000-04-07 2006-11-21 Washington University Associative database scanning and information retrieval using FPGA devices
US8095508B2 (en) * 2000-04-07 2012-01-10 Washington University Intelligent data storage and processing using FPGA devices
US7251665B1 (en) * 2000-05-03 2007-07-31 Yahoo! Inc. Determining a known character string equivalent to a query string
US7024485B2 (en) * 2000-05-03 2006-04-04 Yahoo! Inc. System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback
US8352331B2 (en) * 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7325201B2 (en) * 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
US7617184B2 (en) 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US6519557B1 (en) 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
US20020052783A1 (en) * 2000-06-26 2002-05-02 Turek David G. Method and apparatus for establishing a customized electronic site
DE10196421T5 (de) * 2000-07-11 2006-07-13 Launch Media, Inc., Santa Monica Online Playback-System mit Gemeinschatsausrichtung
US20070027672A1 (en) * 2000-07-31 2007-02-01 Michel Decary Computer method and apparatus for extracting data from web pages
US6778986B1 (en) * 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
GB2366940B (en) * 2000-09-06 2004-08-11 Ericsson Telefon Ab L M Text language detection
US6895438B1 (en) 2000-09-06 2005-05-17 Paul C. Ulrich Telecommunication-based time-management system and method
US20060074727A1 (en) 2000-09-07 2006-04-06 Briere Daniel D Method and apparatus for collection and dissemination of information over a computer network
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
AUPR082400A0 (en) 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
AU2001295283B2 (en) * 2000-10-17 2007-03-22 Telstra Corporation Limited An information retrieval system
US6704449B1 (en) 2000-10-19 2004-03-09 The United States Of America As Represented By The National Security Agency Method of extracting text from graphical images
US8271333B1 (en) 2000-11-02 2012-09-18 Yahoo! Inc. Content-related wallpaper
GB2368670A (en) * 2000-11-03 2002-05-08 Envisional Software Solutions Data acquisition system
US8515959B2 (en) 2000-11-06 2013-08-20 International Business Machines Corporation Method and apparatus for maintaining and navigating a non-hierarchical personal spatial file system
US7099671B2 (en) * 2001-01-16 2006-08-29 Texas Instruments Incorporated Collaborative mechanism of enhanced coexistence of collocated wireless networks
US7406529B2 (en) * 2001-02-09 2008-07-29 Yahoo! Inc. System and method for detecting and verifying digitized content over a computer network
US6625600B2 (en) 2001-04-12 2003-09-23 Telelogue, Inc. Method and apparatus for automatically processing a user's communication
US7272857B1 (en) 2001-04-20 2007-09-18 Jpmorgan Chase Bank, N.A. Method/system for preventing identity theft or misuse by restricting access
US7574513B2 (en) 2001-04-30 2009-08-11 Yahoo! Inc. Controllable track-skipping
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6970881B1 (en) 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
US7536413B1 (en) 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
US7627588B1 (en) 2001-05-07 2009-12-01 Ixreveal, Inc. System and method for concept based analysis of unstructured data
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6826576B2 (en) 2001-05-07 2004-11-30 Microsoft Corporation Very-large-scale automatic categorizer for web content
US6768991B2 (en) * 2001-05-15 2004-07-27 Networks Associates Technology, Inc. Searching for sequences of character data
US7272594B1 (en) 2001-05-31 2007-09-18 Autonomy Corporation Ltd. Method and apparatus to link to a related document
JP3452558B2 (ja) * 2001-09-25 2003-09-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム
US7716330B2 (en) 2001-10-19 2010-05-11 Global Velocity, Inc. System and method for controlling transmission of data packets over an information network
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20030120630A1 (en) * 2001-12-20 2003-06-26 Daniel Tunkelang Method and system for similarity search and clustering
WO2003073374A2 (en) * 2002-02-27 2003-09-04 Brands Michael Rik Frans A data integration and knowledge management solution
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
DE10213468A1 (de) * 2002-03-26 2003-10-09 Abb Research Ltd Verfahren und System zur Informationssuche in multilingualen Wissensdatenbanken mit automatischer Übersetzung der Suchergebnisse
DE10213348A1 (de) * 2002-03-26 2003-10-09 Abb Research Ltd System und Verfahren zur Informationssuche in multilingualen Wissensdatenbanken unter Verwendung eines multilingualen Fachvokabulars
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US7305483B2 (en) 2002-04-25 2007-12-04 Yahoo! Inc. Method for the real-time distribution of streaming data on a network
US7093023B2 (en) * 2002-05-21 2006-08-15 Washington University Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto
NL1020670C2 (nl) * 2002-05-24 2003-11-25 Oce Tech Bv Het bepalen van een semantische afbeelding.
US7010522B1 (en) * 2002-06-17 2006-03-07 At&T Corp. Method of performing approximate substring indexing
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
US7711844B2 (en) * 2002-08-15 2010-05-04 Washington University Of St. Louis TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks
US20040117366A1 (en) * 2002-12-12 2004-06-17 Ferrari Adam J. Method and system for interpreting multiple-term queries
US7284009B2 (en) * 2002-12-13 2007-10-16 Sun Microsystems, Inc. System and method for command line prediction
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7401063B2 (en) * 2002-12-16 2008-07-15 General Electric Company Process for semi-automatic maintenance of a knowledge base using tagged examples
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
EP1602039A2 (en) * 2003-03-03 2005-12-07 Koninklijke Philips Electronics N.V. Method and arrangement for searching for strings
US10521857B1 (en) 2003-05-12 2019-12-31 Symantec Corporation System and method for identity-based fraud detection
CA2836758C (en) 2003-05-23 2017-06-27 Roger D. Chamberlain Intelligent data processing system and method using fpga devices
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
EP1664997A4 (en) * 2003-09-10 2007-12-19 Yahoo Inc MUSIC PURCHASING AND PLAYING SYSTEM AND METHOD
US7644076B1 (en) * 2003-09-12 2010-01-05 Teradata Us, Inc. Clustering strings using N-grams
US7359851B2 (en) * 2004-01-14 2008-04-15 Clairvoyance Corporation Method of identifying the language of a textual passage using short word and/or n-gram comparisons
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7602785B2 (en) 2004-02-09 2009-10-13 Washington University Method and system for performing longest prefix matching for network address lookup using bloom filters
GB2411014A (en) * 2004-02-11 2005-08-17 Autonomy Corp Ltd Automatic searching for relevant information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US7428528B1 (en) 2004-03-31 2008-09-23 Endeca Technologies, Inc. Integrated application for manipulating content in a hierarchical data-driven search and navigation system
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7478081B2 (en) * 2004-11-05 2009-01-13 International Business Machines Corporation Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system
US20060117252A1 (en) * 2004-11-29 2006-06-01 Joseph Du Systems and methods for document analysis
US20060155530A1 (en) * 2004-12-14 2006-07-13 International Business Machines Corporation Method and apparatus for generation of text documents
EP1672531A3 (en) 2004-12-14 2008-10-15 International Business Machines Corporation Method and apparatus for generation of text documents
US7844961B2 (en) * 2004-12-22 2010-11-30 Sap Ag Automatic field linking
US20060142993A1 (en) * 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
JP2008532177A (ja) 2005-03-03 2008-08-14 ワシントン ユニヴァーシティー 生物学的配列類似検索を実行するための方法および装置
JP4314204B2 (ja) * 2005-03-11 2009-08-12 株式会社東芝 文書管理方法、システム及びプログラム
US7516130B2 (en) * 2005-05-09 2009-04-07 Trend Micro, Inc. Matching engine with signature generation
US7805291B1 (en) 2005-05-25 2010-09-28 The United States Of America As Represented By The Director National Security Agency Method of identifying topic of text using nouns
US20070150457A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Enabling One-Click Searching Based on Elements Related to Displayed Content
US7451135B2 (en) 2005-06-13 2008-11-11 Inform Technologies, Llc System and method for retrieving and displaying information relating to electronic documents available from an informational network
US20070150468A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Preprocessing Content to Determine Relationships
US20070150721A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Disambiguation for Preprocessing Content to Determine Relationships
US20070150483A1 (en) * 2005-06-13 2007-06-28 Inform Technologies, Llc Network Service for Providing Related Content
US20070162396A1 (en) * 2005-06-13 2007-07-12 Inform Technologies, Llc Determining Advertising Placement on Preprocessed Content
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
AU2006304061B2 (en) * 2005-10-11 2012-09-20 Ixreveal, Inc. System, method and computer program product for concept based searching and analysis
US8019752B2 (en) 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US7702629B2 (en) * 2005-12-02 2010-04-20 Exegy Incorporated Method and device for high performance regular expression pattern matching
US7676485B2 (en) * 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
US9275129B2 (en) * 2006-01-23 2016-03-01 Symantec Corporation Methods and systems to efficiently find similar and near-duplicate emails and files
US7954114B2 (en) 2006-01-26 2011-05-31 Exegy Incorporated Firmware socket module for FPGA-based pipeline processing
US20070208733A1 (en) * 2006-02-22 2007-09-06 Copernic Technologies, Inc. Query Correction Using Indexed Content on a Desktop Indexer Program
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
US7636703B2 (en) * 2006-05-02 2009-12-22 Exegy Incorporated Method and apparatus for approximate pattern matching
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
JP4251652B2 (ja) * 2006-06-09 2009-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索装置、検索プログラムおよび検索方法
US7921046B2 (en) 2006-06-19 2011-04-05 Exegy Incorporated High speed processing of financial information using FPGA devices
US7840482B2 (en) 2006-06-19 2010-11-23 Exegy Incorporated Method and system for high speed options pricing
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8856145B2 (en) * 2006-08-04 2014-10-07 Yahoo! Inc. System and method for determining concepts in a content item using context
US20080086274A1 (en) * 2006-08-10 2008-04-10 Chamberlain Roger D Method and Apparatus for Protein Sequence Alignment Using FPGA Devices
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
EP2067119A2 (en) * 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8078625B1 (en) * 2006-09-11 2011-12-13 Aol Inc. URL-based content categorization
US8326819B2 (en) * 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8676802B2 (en) * 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7890549B2 (en) * 2007-04-30 2011-02-15 Quantum Leap Research, Inc. Collaboration portal (COPO) a scaleable method, system, and apparatus for providing computer-accessible benefits to communities of users
US8014959B2 (en) * 2007-05-07 2011-09-06 Sparta, Inc. Population of background suppression lists from limited data in agent detection systems
US20080281581A1 (en) * 2007-05-07 2008-11-13 Sparta, Inc. Method of identifying documents with similar properties utilizing principal component analysis
US10698886B2 (en) * 2007-08-14 2020-06-30 John Nicholas And Kristin Gross Trust U/A/D Temporal based online search and advertising
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US7856434B2 (en) * 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10229453B2 (en) * 2008-01-11 2019-03-12 Ip Reservoir, Llc Method and system for low latency basket calculation
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
WO2009124212A1 (en) * 2008-04-03 2009-10-08 Icurrent, Inc. Information display system based on user profile data with assisted and explicit profile modification
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090265385A1 (en) * 2008-04-18 2009-10-22 Beland Paula M Insurance document imaging and processing system
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8374986B2 (en) 2008-05-15 2013-02-12 Exegy Incorporated Method and system for accelerated stream processing
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
EP2370946A4 (en) 2008-12-15 2012-05-30 Exegy Inc METHOD AND DEVICE FOR HIGH-SPEED PROCESSING OF FINANCIAL MARKET DEFINITIONS
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
EP2399385B1 (en) 2009-02-18 2019-11-06 Google LLC Automatically capturing information, such as capturing information using a document-aware device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US9245033B2 (en) 2009-04-02 2016-01-26 Graham Holdings Company Channel sharing
US9245243B2 (en) * 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8874663B2 (en) * 2009-08-28 2014-10-28 Facebook, Inc. Comparing similarity between documents for filtering unwanted documents
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US20110202484A1 (en) * 2010-02-18 2011-08-18 International Business Machines Corporation Analyzing parallel topics from correlated documents
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8825648B2 (en) 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics
JP5083367B2 (ja) * 2010-04-27 2012-11-28 カシオ計算機株式会社 検索装置、検索方法、ならびに、コンピュータプログラム
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10037568B2 (en) 2010-12-09 2018-07-31 Ip Reservoir, Llc Method and apparatus for managing orders in financial markets
US8478740B2 (en) 2010-12-16 2013-07-02 Microsoft Corporation Deriving document similarity indices
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8868567B2 (en) * 2011-02-02 2014-10-21 Microsoft Corporation Information retrieval using subject-aware document ranker
US8612367B2 (en) 2011-02-04 2013-12-17 Microsoft Corporation Learning similarity function for rare queries
US8719257B2 (en) 2011-02-16 2014-05-06 Symantec Corporation Methods and systems for automatically generating semantic/concept searches
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
EP2535822A3 (en) * 2011-06-13 2013-12-25 The Provost, Fellows, Foundation Scholars, & the other members of Board, of the College of the Holy & Undiv. Trinity of Queen Elizabeth near Dublin Data processing system and method for assessing quality of a translation
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8954519B2 (en) 2012-01-25 2015-02-10 Bitdefender IPR Management Ltd. Systems and methods for spam detection using character histograms
US9130778B2 (en) 2012-01-25 2015-09-08 Bitdefender IPR Management Ltd. Systems and methods for spam detection using frequency spectra of character strings
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9990393B2 (en) 2012-03-27 2018-06-05 Ip Reservoir, Llc Intelligent feed switch
US11436672B2 (en) 2012-03-27 2022-09-06 Exegy Incorporated Intelligent switch for processing financial market data
US10121196B2 (en) 2012-03-27 2018-11-06 Ip Reservoir, Llc Offload processing of data packets containing financial market data
US10650452B2 (en) 2012-03-27 2020-05-12 Ip Reservoir, Llc Offload processing of data packets
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10198776B2 (en) 2012-09-21 2019-02-05 Graham Holdings Company System and method for delivering an open profile personalization system through social media based on profile data structures that contain interest nodes or channels
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9323767B2 (en) 2012-10-01 2016-04-26 Longsand Limited Performance and scalability in an intelligent data operating layer system
US9633093B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
US9633097B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for record pivoting to accelerate processing of data fields
WO2014066416A2 (en) 2012-10-23 2014-05-01 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9934283B2 (en) * 2013-03-08 2018-04-03 Google Llc Social annotations for enhanced search results
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10176256B1 (en) * 2013-12-23 2019-01-08 BroadbandTV, Corp Title rating and improvement process and system
WO2015107659A1 (ja) * 2014-01-16 2015-07-23 三菱電機株式会社 検索装置
US9600770B1 (en) * 2014-02-13 2017-03-21 Emergent Systems Corporation Method for determining expertise of users in a knowledge management system
GB2541577A (en) 2014-04-23 2017-02-22 Ip Reservoir Llc Method and apparatus for accelerated data translation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN114115459B (zh) 2014-08-06 2024-04-12 苹果公司 用于电池管理的减小尺寸的用户界面
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
KR101901796B1 (ko) 2014-09-02 2018-09-28 애플 인크. 경고를 관리하기 위한 축소된 크기의 인터페이스
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10942943B2 (en) 2015-10-29 2021-03-09 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
EP3560135A4 (en) 2016-12-22 2020-08-05 IP Reservoir, LLC PIPELINES INTENDED FOR AUTOMATIC ACCELERATED LEARNING BY EQUIPMENT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11455298B2 (en) 2019-02-06 2022-09-27 Parsons Corporation Goal-directed semantic search
US20230092124A1 (en) * 2021-08-30 2023-03-23 Kyocera Document Solutions Inc. Method and system for searching electronic documents based on their similarity rates
US20230409823A1 (en) * 2022-06-16 2023-12-21 The Bank Of Nova Scotia System and Method for Reviewing and Evaluating Discrepancies Between Two or More Documents

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4754489A (en) * 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US5031206A (en) * 1987-11-30 1991-07-09 Fon-Ex, Inc. Method and apparatus for identifying words entered on DTMF pushbuttons
US5293466A (en) * 1990-08-03 1994-03-08 Qms, Inc. Method and apparatus for selecting interpreter for printer command language based upon sample of print job transmitted to printer
US5182708A (en) * 1990-12-11 1993-01-26 Ricoh Corporation Method and apparatus for classifying text
US5276741A (en) * 1991-05-16 1994-01-04 Trw Financial Systems & Services, Inc. Fuzzy string matcher
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US5150425A (en) * 1991-08-30 1992-09-22 Eastman Kodak Company Character recognition method using correlation search

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334515A (ja) * 1994-06-03 1995-12-22 Nippon Steel Corp 情報検索方法および装置
JPH09153051A (ja) * 1995-11-29 1997-06-10 Hitachi Ltd 類似文書検索方法
US6246976B1 (en) 1997-03-14 2001-06-12 Omron Corporation Apparatus, method and storage medium for identifying a combination of a language and its character code system
JPH11167581A (ja) * 1997-12-04 1999-06-22 Ntt Data Corp 情報分類方法、装置及びシステム
US6473754B1 (en) 1998-05-29 2002-10-29 Hitachi, Ltd. Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
JP2009104606A (ja) * 1999-04-09 2009-05-14 Internatl Business Mach Corp <Ibm> 望ましくない電子メッセージの送信または受信を妨害するための方法
JP2005063419A (ja) * 2003-07-31 2005-03-10 Ricoh Co Ltd 言語識別装置、プログラム及び記録媒体
JP2013069157A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 自然言語処理装置、自然言語処理方法および自然言語処理プログラム
US11989215B2 (en) 2020-04-24 2024-05-21 Roblox Corporation Language detection of user input text for online gaming

Also Published As

Publication number Publication date
FR2694984A1 (fr) 1994-02-25
NL9201684A (nl) 1994-03-16
NL194809C (nl) 2003-03-04
GB9220404D0 (en) 1992-11-11
NL194809B (nl) 2002-11-01
FR2694984B1 (fr) 1994-10-21
JP3095552B2 (ja) 2000-10-03
DE4232507A1 (de) 1994-02-24
US5418951A (en) 1995-05-23

Similar Documents

Publication Publication Date Title
JP3095552B2 (ja) 同一の論題に関係する文献を検索する方法
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
US8473279B2 (en) Lemmatizing, stemming, and query expansion method and system
US7197449B2 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
Rahimi et al. An overview on extractive text summarization
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
Rezaeian et al. Persian text classification using naive bayes algorithms and support vector machine algorithm
KR20230077588A (ko) 금융 용어 언어 모델에 기반하여 금융 도메인의 다양한 질의에 대한 의도를 분류하고 및 답변을 검색하는 방법 및 시스템
Awajan Keyword extraction from Arabic documents using term equivalence classes
WO2002021324A1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
CN112612892B (zh) 一种专有领域语料模型构建方法、计算机设备及存储介质
Wahbeh et al. Comparative assessment of the performance of three WEKA text classifiers applied to arabic text
WO1999034307A1 (en) Extraction server for unstructured documents
Utomo et al. Text classification of british english and American english using support vector machine
Tasharofi et al. Evaluation of statistical part of speech tagging of Persian text
Indhuja et al. Text based language identification system for indian languages following devanagiri script
Amensisa et al. A survey on text document categorization using enhanced sentence vector space model and bi-gram text representation model based on novel fusion techniques
Frank et al. Data preprocessing techniques for NLP in BI
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
Hirpassa Information extraction system for Amharic text
Pan et al. An automatic identification of function words in TDIL tagged Bengali corpus
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
Hunegnaw Sentiment analysis model for Afaan Oromoo short message service text: A machine learning approach
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
MalarSelvi et al. Analysis of Different Approaches for Automatic Text Summarization

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees